0% encontró este documento útil (0 votos)
23 vistas220 páginas

Multiobjetivo Desbalanceado

La tesis de Samuel Omar Tovias Alanis presenta estrategias de selección de instancias mediante optimización global y multiobjetivo para problemas de aprendizaje supervisado. Se enfoca en técnicas de selección de instancias y algoritmos evolutivos, proponiendo metodologías innovadoras para mejorar la eficiencia en el aprendizaje automático. Este trabajo busca contribuir al campo de la ingeniería y tecnologías computacionales a través de la investigación y desarrollo de nuevas estrategias.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
23 vistas220 páginas

Multiobjetivo Desbalanceado

La tesis de Samuel Omar Tovias Alanis presenta estrategias de selección de instancias mediante optimización global y multiobjetivo para problemas de aprendizaje supervisado. Se enfoca en técnicas de selección de instancias y algoritmos evolutivos, proponiendo metodologías innovadoras para mejorar la eficiencia en el aprendizaje automático. Este trabajo busca contribuir al campo de la ingeniería y tecnologías computacionales a través de la investigación y desarrollo de nuevas estrategias.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Centro de Investigación y de Estudios Avanzados

del Instituto Politécnico Nacional

Cinvestav Unidad Tamaulipas

Estrategias de Selección de
Instancias Mediante Optimización
Global y Multiobjetivo para
Problemas de Aprendizaje
Supervisado

Tesis que presenta:

Samuel Omar Tovias Alanis

Para obtener el grado de:

Doctor en Ciencias
en Ingeniería y Tecnologías
Computacionales

Dr. Wilfrido Gómez Flores, Co-Director

Dr. Gregorio Toscano Pulido, Co-Director

Cd. Victoria, Tamaulipas, México. Diciembre, 2022


© Derechos reservados por
Samuel Omar Tovias Alanis
2022
La tesis presentada por Samuel Omar Tovias Alanis fue aprobada por:

____________________________________________________________

Dr. Iván López Arévalo

Dr. José Juan García Hernández

Dr. Ricardo Landa Becerra

Dr. Edwyn Javier Aldana Bobadilla

Dr. Marco Aurelio Nuño Maganda

Dr. Wilfrido Gómez Flores, Co-Director

Dr. Gregorio Toscano Pulido, Co-Director

Cd. Victoria, Tamaulipas, México., 15 de Diciembre de 2022


A mi familia
Agradecimientos

Agradezco a Dios por permitirme cumplir este objetivo.


A mi familia por su apoyo incondicional.
Al Dr. Wilfrido Gómez Flores por su gran paciencia, apoyo y dirección a lo largo de todos estos
años en el CINVESTAV.
Al Dr. Gregorio Toscano Pulido por su apoyo en el trabajo de tesis.
A mis revisores, Dr. Iván López Arévalo, Dr. José Juan García Hernández, Dr. Ricardo Landa
Becerra, Dr. Edwyn Javier Aldana Bobadilla y Dr. Marco Aurelio Nuño Maganda, por sus
valiosos comentarios y sugerencias.
A los profesores del CINVESTAV-Tamaulipas que con paciencia y profesionalismo me
compartieron de su conocimiento en sus respectivas asignaturas.
Al personal del CINVESTAV-Tamaulipas por su apoyo y dedicación.
Agradezco al CINVESTAV-Tamaulipas por la oportunidad que me brindó para ser estudiante
de su programa de doctorado y por todos los recursos proporcionados para la realización del
mismo.
Al CONACYT por la beca recibida, la cual fue de gran apoyo para poder concentrarme
exclusivamente en mis estudios.
Índice General

Índice General I

Índice de Figuras V

Índice de Tablas XI

Índice de Algoritmos XV

Resumen XVII

Abstract XIX

Nomenclatura XXI

1. Introducción 1
1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4. Preguntas de investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7. Metodología de investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.8. Organización del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2. Marco teórico 13
2.1. Selección de instancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.1. Técnicas clásicas de IS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1.1. Regla del vecino más cercano condensado . . . . . . . . . . . . . 15
2.1.1.2. Regla del vecino más cercano editado . . . . . . . . . . . . . . . . 17
2.1.1.3. Procedimiento de optimización de reducción decremental . . . . . 17
2.1.1.4. Filtrado de casos iterativos . . . . . . . . . . . . . . . . . . . . . 19
2.1.2. Métodos de IS con algoritmos evolutivos . . . . . . . . . . . . . . . . . . . 21
2.1.2.1. Representación de las soluciones . . . . . . . . . . . . . . . . . . 22
2.1.2.2. Criterios de optimización de algoritmos wrapper . . . . . . . . . . 23
2.1.2.3. Diseño de la función objetivo . . . . . . . . . . . . . . . . . . . . 24
2.1.2.4. Evaluación de la función objetivo . . . . . . . . . . . . . . . . . . 25
2.2. Optimización global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1. Algoritmo genético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3. Optimización multiobjetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

i
2.3.1. Optimalidad de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.2. Algoritmo evolutivo multiobjetivo NSGA-II . . . . . . . . . . . . . . . . . . 31
2.3.2.1. Enfoque rápido de ordenamiento de no dominancia . . . . . . . . . 32
2.3.2.2. Preservación de la diversidad . . . . . . . . . . . . . . . . . . . . 32
2.3.2.3. Estimación de densidad local . . . . . . . . . . . . . . . . . . . . 34
2.3.2.4. Operador de comparación . . . . . . . . . . . . . . . . . . . . . . 36
2.3.2.5. Ciclo principal del algoritmo NSGA-II . . . . . . . . . . . . . . . . 36
2.3.3. Selección automática de soluciones no dominadas . . . . . . . . . . . . . . 38
2.4. Estimación de la función de densidad de probabilidad . . . . . . . . . . . . . . . . . 39
2.4.1. Variables aleatorias y distribución de probabilidad . . . . . . . . . . . . . . . 40
2.4.2. Función de densidad de probabilidad . . . . . . . . . . . . . . . . . . . . . 40
2.4.3. Estimación de densidad de kernel . . . . . . . . . . . . . . . . . . . . . . . 41
2.4.4. Efectos del ancho de banda . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.4.5. Métodos de selección de ancho de banda . . . . . . . . . . . . . . . . . . . 43
2.4.5.1. Regla general de Silverman . . . . . . . . . . . . . . . . . . . . . 44
2.4.5.2. Regla de plug-in directa . . . . . . . . . . . . . . . . . . . . . . . 45
2.5. Medida de similitud entre funciones de densidad de probabilidad . . . . . . . . . . . 47
2.6. Árboles de enlace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.7. Métricas de distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.7.1. Distancia Minkowski . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.7.2. Distancia de Yang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.8. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3. Estado del arte 55


3.1. Selección de instancias con optimización global . . . . . . . . . . . . . . . . . . . . 56
3.2. Selección de instancias con optimización multiobjetivo . . . . . . . . . . . . . . . . 61
3.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4. Metodología 69
4.1. Estrategias de IS basadas en preservar la PDF . . . . . . . . . . . . . . . . . . . . 71
4.1.1. IS basada en preservar la PDF mediante GOP . . . . . . . . . . . . . . . . 71
4.1.1.1. Representación de los individuos . . . . . . . . . . . . . . . . . . 71
4.1.1.2. Función objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.1.2. IS basada en preservar la PDF mediante MOP . . . . . . . . . . . . . . . . 75
4.1.2.1. Representación de los individuos y diseño de las funciones objetivo 76
4.2. Estrategias de IS basadas en árboles de enlace . . . . . . . . . . . . . . . . . . . . 79
4.2.1. Selección de instancias con árboles de enlace . . . . . . . . . . . . . . . . . 79
4.2.2. IS basada en árboles de enlace mediante GOP . . . . . . . . . . . . . . . . 82
4.2.2.1. Representación de los individuos . . . . . . . . . . . . . . . . . . 82
4.2.2.2. Decodicación de los individuos . . . . . . . . . . . . . . . . . . . 83
4.2.2.3. Función objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2.3. IS basada en árboles de enlace mediante MOP . . . . . . . . . . . . . . . . 88
4.2.3.1. Representación de los individuos . . . . . . . . . . . . . . . . . . 89

ii
4.2.3.2. Decodicación de los individuos . . . . . . . . . . . . . . . . . . . 89
4.2.3.3. Diseño de las funciones objetivo . . . . . . . . . . . . . . . . . . . 89
4.3. Estrategia de IS para grandes conjuntos de datos . . . . . . . . . . . . . . . . . . . 92
4.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

5. Resultados 99
5.1. Medidas de desempeño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.2. Experimentación 1: Evaluación de FW B
. . . . . . . . . . . . . . . . . . . . . . . . . 101
5.2.1. Conjuntos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.2.2. Métodos comparativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.2.3. Marco de evaluación de desempeño . . . . . . . . . . . . . . . . . . . . . . 103
5.2.4. Resultados de desempeño del método FW B
. . . . . . . . . . . . . . . . . . . 105
5.2.5. Resultados de desempeño de los métodos wrapper . . . . . . . . . . . . . . 107
5.2.6. Resultados de desempeño de los métodos clásicos . . . . . . . . . . . . . . 108
5.2.7. Análisis comparativo del método propuesto . . . . . . . . . . . . . . . . . . 110
5.2.8. Análisis de la capacidad de generalización . . . . . . . . . . . . . . . . . . . 111
5.2.9. Comparación de los modelos de clasicación . . . . . . . . . . . . . . . . . 114
5.2.10. Caso de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.2.11. Resumen del primer esquema experimental . . . . . . . . . . . . . . . . . . 117
5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas . . . . . . . . 119
5.3.1. Conjuntos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.3.2. Métodos comparativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.3.3. Marco de evaluación de desempeño . . . . . . . . . . . . . . . . . . . . . . 122
5.3.4. Resultados de los métodos GOP . . . . . . . . . . . . . . . . . . . . . . . . 123
5.3.5. Resultados de los métodos MOP . . . . . . . . . . . . . . . . . . . . . . . 124
5.3.6. Análisis comparativo de los métodos propuestos . . . . . . . . . . . . . . . 126
5.3.7. Análisis de la capacidad de generalización . . . . . . . . . . . . . . . . . . . 133
5.3.8. Comparación de los modelos de clasicación . . . . . . . . . . . . . . . . . 134
5.3.9. Caso de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.3.10. Resumen del segundo esquema experimental . . . . . . . . . . . . . . . . . 141
5.4. Experimentación 3: Evaluación de conjuntos de datos con altas dimensiones . . . . . 143
5.4.1. Conjuntos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.4.2. Métodos comparativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
5.4.3. Marco de evaluación de desempeño . . . . . . . . . . . . . . . . . . . . . . 145
5.4.4. Resultados de las variantes del método propuesto . . . . . . . . . . . . . . . 146
5.4.5. Análisis comparativo del método propuesto . . . . . . . . . . . . . . . . . . 147
5.4.6. Resumen del tercer esquema experimental . . . . . . . . . . . . . . . . . . 149
5.5. Experimentación 4: Evaluación de conjuntos de datos grandes . . . . . . . . . . . . 150
5.5.1. Conjuntos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
5.5.2. Métodos comparativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
5.5.3. Marco de evaluación de desempeño . . . . . . . . . . . . . . . . . . . . . . 152
5.5.4. Análisis comparativo del método propuesto . . . . . . . . . . . . . . . . . . 152
5.5.5. Resumen del cuarto esquema experimental . . . . . . . . . . . . . . . . . . 154

iii
6. Conclusiones y trabajo futuro 157
6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
6.2. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.3. Contribuciones y productos de investigación . . . . . . . . . . . . . . . . . . . . . . 162
6.4. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

A. Formulación del ancho de banda óptimo 165


A.1. Estimación de funcionales de densidad . . . . . . . . . . . . . . . . . . . . . . . . 166
A.2. Ancho de banda óptimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

B. Comparación de las métricas de Minkowski y Yang 169


C. Métodos de normalización 171
C.1. Normalización Min-Max . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
C.2. Normalización Softmax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

D. Hiperparámetros de los clasicadores 173


E. Publicaciones 175

iv
Índice de Figuras

2.1. Esquema general de un proceso de IS para un conjunto de datos sintético. . . . . . 15


2.2. Relación entre los conjuntos de asociados y vecinos más cercanos de una instancia xi .
Se muestra un conjunto de datos con dos clases diferentes, donde los tres vecinos más
cercanos de xi son {x1 , x2 , x3 }. Por lo tanto, xi forma parte de la lista de asociados
de x1 , x2 y x3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3. Conjunto de cobertura con dos clases representadas en blanco y negro. Debido a que
el enemigo más cercano de xi es x2 , el conjunto de cobertura de xi es {xi , x1 }. . . 20
2.4. Resultados de las técnicas clásicas de IS aplicadas a un conjunto de datos sintético
X de tres clases Ω = {ω1 , ω2 , ω3 }. En este ejemplo, los métodos ENN, DROP3 e ICF
utilizan k = 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5. Representación CBE para los métodos IS basados en EAs. A partir de un conjunto
original X con N = 12, se codica un vector binario q ∈ {0, 1}12 . Las instancias que
coinciden con un valor igual a `1' son seleccionadas, en caso contrario no se seleccionan. 22
2.6. Evaluación de desempeño de un individuo en términos de ACC en un algoritmo IS
de tipo wrapper basado en un EA. . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.7. Cruza de dos puntos entre dos individuos de una población en un GA. . . . . . . . . 28
2.8. Ejemplo de mutación de tipo Bit-Flip en un cromosoma binario con pm = 12 1
. . . . . 28
2.9. Izquierda: Ejemplo de un conjunto óptimo de Pareto P en el espacio de las variables
de decisión. Derecha: Frente de Pareto F correspondiente a P en el espacio objetivo. 31
2.10. Ejemplo del cálculo de distancia de apiñamiento (idistance ) para la solución pi , la cual
representa el perímetro del cuboide cuyos vértices se forman por las soluciones pi−1
y pi+1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.11. Proceso de operaciones ejecutadas en el ciclo principal del algoritmo NSGA-II. . . . 37
2.12. Izquierda: Detección de un punto rodilla para un problema bi-objetivo. Frente de
Pareto F con una región K que indica una zona de compromiso entre ambos
objetivos. Derecha: Selección automática de una solución no dominada a partir de la
distancia máxima de la proyección ortogonal con respecto a CHIM. . . . . . . . . . 39
2.13. PDF continua fX (x) = 0.7N (6, 2) + 0.3N (12, 3) en donde fX (x)dx indica la
probabilidad de que X tome cualquier valor dentro del intervalo innitesimal [x, x+dx]. 41
2.14. Estimación de una PDF mediante el método KDE. Superior: Conjunto de
n = 100 muestras tomadas de forma aleatoria a partir de la distribución
p(x) = 0.7N (6, 2) + 0.3N (12, 3). Centro: Estimación de p̂1 (x) utilizando m = 10
funciones Gaussianas (se obtiene una pobre aproximación). Inferior: Estimación de
p̂2 (x) con m = 30 funciones Gaussianas (se obtiene una mejor aproximación). Nota:
Las funciones Gaussianas fueron escaladas para ajustarse al rango del eje vertical con
propósitos de visualización. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

v
2.15. Estimación de la PDF de una muestra aleatoria de 20 puntos tomados de la
distribución p(x) = 0.7N (6, 2) + 0.3N (12, 3). p̂1 (x̂) se obtiene con h = 2, lo que
resulta en una estimación sobresuavizada debido a que se atenúan formas básicas de
la distribución de los datos. Por otra parte, p̂2 (x̂) se obtiene utilizando h = 0.3, en
donde se generan picos no deseados. . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.16. Estimación de dos PDFs a partir de una muestra aleatoria de 100 puntos tomados
de la distribución p(x) = 0.7N (6, 2) + 0.3N (12, 3). p̂1 (x̂) se obtiene con la regla
SIL y p̂2 (x̂) se calcula con DPI. Al utilizar la distancia de Hellinger se obtiene
H1 (p, p̂1 ) = 0.104 y H2 (p, p̂2 ) = 0.029. . . . . . . . . . . . . . . . . . . . . . . . . 48
2.17. Ejemplo de un dendrograma de un árbol de enlace. En ambos lados se observa la
dirección del proceso de agrupamiento para los casos aglomerativo (izquierda) y
divisivo (derecha). Se utiliza el punto de corte indicado por la línea discontinua y
se obtiene una partición con cuatro grupos descritos por los subconjuntos: {q1 , q2 },
{q3 }, {q4 , q5 , q6 , q7 }, {q8 , q9 , q10 }. . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.18. Ejemplo de un enlace completo a partir de las muestras de dos grupos A y B . . . . 50
2.19. Círculos formados por puntos medidos a una distancia de 1.0 a partir del origen con
la métrica Minkowski en un espacio R2 para diferentes valores de q . . . . . . . . . . 52
2.20. Círculos formados por puntos medidos a una distancia de 1.0 a partir del origen con
la métrica de Yang en un espacio R2 para diferentes valores de q . . . . . . . . . . . 53

4.1. Superior: Esquema de la metodología propuesta. Centro: Descripción general de


las estrategias IS basadas en preservar la PDF. Inferior: Descripción general de las
estrategias IS basadas en árboles de enlace. . . . . . . . . . . . . . . . . . . . . . . 70
4.2. Izquierda: Conjunto de datos sintético con dos clases Ω = {ω1 , ω2 }. Centro:
Dendrograma de T1 construido con X1 . Derecha: Dendrograma de T2 construido
con X2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.3. Izquierda: IS basada en un árbol de enlace. Conjunto de datos con dos clases
Ω = {ω1 , ω2 }. Centro: Dendrograma de T2 construido con X2 , en donde se elige
un punto de corte en z2 = 478 (indicado con la línea horizontal), el cual genera una
partición de 8 grupos. Derecha: Selección de los medoides de cada grupo. . . . . . . 80
4.4. IS basada en árboles de enlace. Parte superior. Izquierda: Conjunto de datos sintético
bidimensional con tres clases Ω = {ω1 , ω2 , ω3 }. Centro: Medoides obtenidos con las
particiones de cada clase. Derecha: Subconjunto de instancias seleccionadas. Parte
inferior, de izquierda a derecha: Dendrogramas de T1 , T2 y T3 , respectivamente. En
cada caso, los puntos de corte se indican con una línea horizontal. . . . . . . . . . . 81
4.5. Ejemplo de un problema de desbalanceo de clases con LTIS en un conjunto de datos
sintético con dos clases Ω = {ω1 , ω2 }. Superior: Selección de un nivel bajo del punto
de corte para ω1 y un nivel alto para ω2 : z1 ≪ z2 . Centro: Situación opuesta al caso
anterior: z2 ≪ z1 . Inferior: Situación adecuada en donde la selección de niveles de
jerarquía equivalentes permite clases que preservan la proporción de muestras en X̂:
z1 ∼ z2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

vi
4.6. Ejemplo de un esquema D&Q en la tarea IS. El conjunto original X se divide en n
subconjuntos disjuntos de tamaño N̄ . Posteriormente se aplica un algoritmo IS a cada
uno de ellos y se obtienen n subconjuntos de tamaño N̂1 , . . . , N̂n , respectivamente.
Después, estos últimos se unen para formar el subconjunto de datos seleccionado X̂
de tamaño N̂ . Este procedimiento se realiza de forma iterativa hasta que se cumple
con un criterio de paro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.7. Esquema D&Q propuesto. El conjunto original X se divide en C subconjuntos
disjuntos que contienen a las instancias de cada clase X1 , . . . , XC , posteriormente
se utiliza un algoritmo de agrupamiento para obtener n1 , . . . , nC grupos,
respectivamente. Después, cada partición se procesa con el algoritmo µLTW B
, y
nalmente se fusionan los subconjuntos obtenidos por cada partición y por cada clase
para obtener el subconjunto de salida X̂. Este proceso se realiza de forma iterativa
hasta que se cumple con un criterio de paro. . . . . . . . . . . . . . . . . . . . . . 96

5.1. Marco de evaluación de desempeño del primer esquema de experimentación. . . . . 104


5.2. Promedio de los resultados de las medidas de desempeño de las variantes de FW B

obtenidos con 50 experimentos independientes. En la parte superior de cada marcador


se indica el valor de ACC y dentro de cada etiqueta cuadrada se muestra su respectivo
valor de eciencia E. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.3. Promedio de los resultados de las medidas de desempeño de los métodos wrapper
obtenidos con 50 experimentos independientes. En la parte superior de cada marcador
se indica el valor de ACC y dentro de cada etiqueta cuadrada se muestra su respectivo
valor de eciencia E. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.4. Promedio de los resultados de las medidas de desempeño de los métodos clásicos
obtenidos con 50 experimentos independientes. En la parte superior de cada marcador
se indica el valor de ACC y dentro de cada etiqueta cuadrada se muestra su respectivo
valor de eciencia E. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.5. Promedio de los resultados de las medidas de desempeño de los métodos comparativos
obtenidos con 50 experimentos independientes. En la parte superior de cada barra se
muestra la medida de desempeño correspondiente. Los mejores resultados se indican
en negritas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.6. Resultados de la evaluación de Tipo 1 y Tipo 2 utilizando siete clasicadores distintos
que fueron entrenados con los subconjuntos obtenidos por los métodos comparativos.
En la parte superior de cada par de diagramas de caja se muestra el valor-p de la
prueba de la suma de rangos de Wilcoxon. En negritas, p < 0.05. . . . . . . . . . . 113
5.7. Conteo de no rechazos de la hipótesis nula en la prueba estadística de McNemar. En la
parte superior se muestra el conteo total obtenido por cada método comparativo. En
la esquina superior derecha de cada sección se muestra el conteo total por clasicador.116
5.8. Superior izquierda: Conjunto de datos sintético bidimensional Banana de 5300
instancias y dos clases. Superior derecha: Comparación de las PDFs estimadas a partir
de X y los subconjuntos obtenidos por F65 DPI , WLDA y ENN. Inferior: Resultados de 12
métodos comparativos. Las medidas de desempeño se muestran en la parte superior
de cada gráca como (ACC, RR, HDC, E). . . . . . . . . . . . . . . . . . . . . . 118

vii
5.9. Resultados de las estrategias GOP. En la parte superior de cada barra se muestra la
medida de desempeño correspondiente. Los mejores resultados se indican en negritas. 123
5.10. Resultados de las estrategias MOP. En la parte superior de cada barra se muestra la
medida de desempeño correspondiente. Los mejores resultados se indican en negritas. 125
5.11. Resultados de los métodos comparativos. El área sombreada de cada sección
del círculo unitario indica el porcentaje obtenido de la medida de desempeño
correspondiente y sus respectivos valores se muestran en el apartado superior de
cada cuadro como (ACC,RR,HDC,E). . . . . . . . . . . . . . . . . . . . . . . . . 128
5.12. Resultados de los métodos comparativos en cinco conjuntos de datos sintéticos.
Las medidas de desempeño se muestran en la parte superior de cada cuadro como
(ACC,RR,HDC,E). En la parte inferior se muestra el promedio de las medidas de
desempeño de cada método comparativo. . . . . . . . . . . . . . . . . . . . . . . . 133
5.13. Resultados de la evaluación de Tipo 1 y Tipo 2 utilizando seis clasicadores distintos
que fueron entrenados con los subconjuntos obtenidos por los métodos comparativos.
En la parte superior de cada diagrama de caja se muestra la media de la distribución.
En el apartado superior de cada cuadro comparativo, sobre cada par de diagramas
de caja, se muestra el valor-p de la prueba de la suma de rangos de Wilcoxon. En
negritas, p < 0.05 y los mejores valores de ambos tipos de evaluación obtenidos por
cada método comparativo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
5.14. Conteo de no rechazos de la hipótesis nula en la prueba estadística de McNemar para
los conjuntos de datos reales (R) y sintéticos (S ). En la parte superior se muestra el
conteo total obtenido por cada método comparativo. En la esquina superior derecha
de cada sección se muestra el conteo total por clasicador. . . . . . . . . . . . . . . 138
5.15. Parte superior. a) Resultados de una ejecución de las estrategias EMOIS-LT y LT50 SIL .
b) Soluciones evaluadas en T̄ obtenidas por 10 experimentos independientes. c)
Resultados de una ejecución de las estrategias EMOIS-F y F50 SIL . d) Soluciones
evaluadas en F obtenidas por 10 experimentos independientes. Parte inferior. De
izquierda a derecha: subconjuntos obtenidos por las soluciones mostradas en a) y
c) correspondientes a EMOIS-LT , LT50 SIL , EMOIS-F y F SIL , respectivamente. En la
50
parte superior de cada cuadro se muestra el resultado de las medidas de desempeño
como (ACC,RR,HDC,E). En la parte inferior de cada cuadro se muestra el promedio
de las medidas de desempeño obtenidas por 10 experimentos independientes. . . . . 142
5.16. Marco de evaluación de desempeño del tercer esquema de experimentación. . . . . . 145
5.17. Resultados de las variantes del método propuesto. En la parte superior de cada barra se
muestra la medida de desempeño correspondiente. Los mejores resultados se indican
en negritas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.18. Resultados de los métodos comparativos. El área sombreada de cada sección
del círculo unitario indica el porcentaje obtenido de la medida de desempeño
correspondiente y sus respectivos valores se muestran en el apartado superior de
cada cuadro como (ACC,RR,HDC,E). . . . . . . . . . . . . . . . . . . . . . . . . 149
5.19. Resultados de los métodos comparativos. En la parte superior de cada barra se muestra
la medida de desempeño correspondiente. Los mejores resultados se indican en negritas.153

viii
5.20. Resultados de exactitud de clasicación de los modelos entrenados por el conjunto de
datos original X y el subconjunto de datos X̂ seleccionado por µLT50 SIL . En la parte
superior de los diagramas de caja se muestra el valor de la mediana. En la sección
superior de cada par de diagramas de caja se muestra el valor-p de la prueba de
Wilcoxon. Los mejores resultados se indican en negritas. . . . . . . . . . . . . . . . 154

B.1. Comparación de las métricas Minkowski y Yang de segundo orden: L2 y M2 . En este


ejemplo se mide la distancia entre dos puntos lejanos en R (izquierda), R2 (centro)
y R3 (derecha). La disimilitud se calcula como: dmax − dmin ; donde dmin = d(x1 , x2 )
y dmax = d(x1 , x3 ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
B.2. Comparación de las métricas Minkowski y Yang para q = {1/2, 1, 2, ∞}. En
este ejemplo se calcula la distancia entre dos puntos lejanos en RD para D =
{1, 2, 4, . . . , 2048}. Se consideran 20 muestras tomadas aleatoriamente de una
distribución Gaussiana con media cero y matriz de covarianza unitaria. Cálculo de
dmax y dmin en R2 (izquierda). Curvas de contraste de cada métrica en función del
número de dimensiones (derecha). . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

ix
Índice de Tablas

1.1. Representación de un conjunto de datos. . . . . . . . . . . . . . . . . . . . . . . . 2

3.1. Resumen de los métodos IS basados en algoritmos GOP. . . . . . . . . . . . . . . . 62


3.2. Resumen de los métodos IS basados en algoritmos MOP. . . . . . . . . . . . . . . . 66

4.1. Características más relevantes de las estrategias propuestas. . . . . . . . . . . . . . 97

5.1. Características de los conjuntos de datos utilizados en el primer esquema experimental.


N es el número de instancias, D es la dimensionalidad, y C es el número de clases. . 102
5.2. Parámetros del algoritmo GA empleado por los métodos comparativos. . . . . . . . 103
5.3. Media (µ) y desviación estándar (σ ) de ACC de los clasicadores entrenados con los
subconjuntos obtenidos por las variantes de FW B
. Los mejores desempeños se indican
en negritas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.4. Media (µ) y desviación estándar (σ ) de ACC de los clasicadores entrenados con los
subconjuntos obtenidos por los métodos wrapper. Los mejores desempeños se indican
en negritas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.5. Media (µ) y desviación estándar (σ ) de ACC de los clasicadores entrenados con los
subconjuntos obtenidos por los métodos clásicos. Los mejores desempeños se indican
en negritas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.6. Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el
valor-p de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan:
(+) estadísticamente superior, (=) estadísticamente igual, y (−) estadísticamente
inferior con respecto al método F65 DPI . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.7. Estadísticos de los resultados comparativos de la evaluación de Tipo 1 entre F65 DPI
y los métodos wrapper. En la parte inferior se muestra el valor-p de la prueba de la
suma de rangos de Wilcoxon. Los mejores resultados se indican en negritas, y también
p < 0.05. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.8. Estadísticos de los resultados comparativos de la evaluación de Tipo 2 entre F65 DPI
y los métodos wrapper. En la parte inferior se muestra el valor-p de la prueba de la
suma de rangos de Wilcoxon. Los mejores resultados se indican en negritas, y también
p < 0.05. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
5.9. Características de los conjuntos de datos utilizados en el segundo esquema
experimental. N es el número de instancias, D es la dimensionalidad, y C es el
número de clases. Los conjuntos sintéticos y reales se indican con los IDs S{·} y R{·} ,
respectivamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.10. Parámetros de los EAs empleados por las estrategias propuestas y los métodos wrapper.122
5.11. Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para ACC, y la matriz triangular inferior los valores-p para RR. En negritas,
p < 0.05. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

xi
5.12. Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para E, y la matriz triangular inferior los valores-p para HDC. En negritas,
p < 0.05. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.13. Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para ACC, y la matriz triangular inferior los valores-p para RR. En negritas,
p < 0.05. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.14. Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para E, y la matriz triangular inferior los valores-p para HDC. En negritas,
p < 0.05. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.15. Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el
valor-p de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan:
(+) estadísticamente superior, (=) estadísticamente igual, y (−) estadísticamente
SIL . . . . . . . . . . . . . . . . . . . . . . . . . 129
inferior con respecto al método LT50
5.16. Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el
valor-p de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan:
(+) estadísticamente superior, (=) estadísticamente igual, y (−) estadísticamente
SIL . . . . . . . . . . . . . . . . . . . . . . . . . . 130
inferior con respecto al método F50
5.17. Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el
valor-p de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan:
(+) estadísticamente superior, (=) estadísticamente igual, y (−) estadísticamente
inferior con respecto a EMOIS-LT . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
5.18. Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el
valor-p de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan:
(+) estadísticamente superior, (=) estadísticamente igual, y (−) estadísticamente
inferior con respecto a EMOIS-F . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.19. Características de los conjuntos de datos utilizados en el tercer esquema experimental.
N es el número de instancias, y C es el número de clases. . . . . . . . . . . . . . . 144
5.20. Parámetros de los EAs empleados por EMOIS-LT y los métodos wrapper. . . . . . . 145
5.21. Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para ACC, y la matriz triangular inferior los valores-p para RR. . . . . . . 147
5.22. Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para E, y la matriz triangular inferior los valores-p para HDC. . . . . . . . 148
5.23. Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el
valor-p de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan:
(+) estadísticamente superior, (=) estadísticamente igual, y (−) estadísticamente
inferior con respecto a EMOIS-LT . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.24. Características de los conjuntos de datos utilizados. N es el número de instancias, D
es la dimensionalidad, y C es el número de clases. . . . . . . . . . . . . . . . . . . 150
5.25. Parámetros del algoritmo µGA y del esquema D&Q empleado por las estrategias IS. 151

xii
5.26. Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el
valor-p de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan:
(+) estadísticamente superior, (=) estadísticamente igual, y (−) estadísticamente
SIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
inferior con respecto a µLT50

D.1. Rangos de búsqueda de los hiperparámetros de los clasicadores utilizados en el


segundo y tercer marco experimental. . . . . . . . . . . . . . . . . . . . . . . . . . 174

xiii
Índice de Algoritmos

1. Vecino más cercano condensado (CNN). . . . . . . . . . . . . . . . . . . . . . . . 16


2. Vecino más cercano editado (ENN). . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3. Procedimiento de optimización de reducción decremental 3 (DROP3). . . . . . . . . 19
4. Filtrado de casos iterativos (ICF). . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5. Algoritmo genético (GA). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6. Ordenamiento rápido de no dominancia. . . . . . . . . . . . . . . . . . . . . . . . 33
7. Asignación de la distancia de apiñamiento. . . . . . . . . . . . . . . . . . . . . . . 35
8. Ejecución de la t−ésima generación del NSGA-II. . . . . . . . . . . . . . . . . . . . 38
9. Agrupamiento de enlace completo (CLC) . . . . . . . . . . . . . . . . . . . . . . . 50
10. Evaluación de la función objetivo F . . . . . . . . . . . . . . . . . . . . . . . . . . 74
11. Estimación de D y h. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
12. IS basada en preservar la PDF mediante GOP FW B
. . . . . . . . . . . . . . . . . . . 76
13. IS basada en preservar la PDF mediante MOP EMOIS-F . . . . . . . . . . . . . . . 78
14. Selección de instancias basada en árboles de enlace LTIS. . . . . . . . . . . . . . . 82
15. Decodicar solución binaria q. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
16. Evaluación de la función objetivo LT . . . . . . . . . . . . . . . . . . . . . . . . . . 87
17. IS basada en árboles de enlace mediante GOP LTW B
. . . . . . . . . . . . . . . . . . 88
18. IS basada en árboles de enlace mediante MOP EMOIS-LT . . . . . . . . . . . . . . 91

xv
Resumen

Estrategias de Selección de Instancias Mediante


Optimización Global y Multiobjetivo para Problemas de
Aprendizaje Supervisado
por

Samuel Omar Tovias Alanis


Cinvestav Unidad Tamaulipas
Centro de Investigación y de Estudios Avanzados del Instituto Politécnico Nacional, 2022
Dr. Wilfrido Gómez Flores, Co-Director
Dr. Gregorio Toscano Pulido, Co-Director

Hoy en día, los datos pueden generarse muy fácilmente, de tal forma que las empresas producen
rápidamente grandes cantidades de datos. Sin embargo, el uso de un gran volumen de datos suele
ser un obstáculo para los algoritmos de aprendizaje supervisado, ya que la complejidad en tiempo de
estos métodos depende del número de operaciones que deben realizarse sobre las instancias, por lo
que el tiempo de entrenamiento se incrementa considerablemente. La selección de instancias (IS, por
sus siglas en inglés) es un método de ecacia probada para reducir el conjunto de entrenamiento, ya
que elige patrones representativos del conjunto de datos original. Estos métodos se dividen en wrapper
y lter. El primero utiliza un criterio de selección basado en el rendimiento de un clasicador, mientras
que el segundo se centra en preservar la información estadística. Por otra parte, aunque en la literatura
se han propuesto varias técnicas de IS basadas en algoritmos evolutivos (EAs, por sus siglas en inglés),
los subconjuntos obtenidos por los EAs de tipo wrapper se ajustan a las características del clasicador,
disminuyendo su rendimiento en el entrenamiento de otros algoritmos de aprendizaje supervisado.
Además, estos métodos emplean una representación binaria que codica explícitamente los patrones
de entrenamiento. Por consiguiente, el espacio de búsqueda crece exponencialmente en función del
número de instancias. Debido a ello, esta investigación propone estrategias IS de tipo lter basadas
en EAs que maximizan la preservación de la función de densidad de probabilidad (PDF, por sus siglas
en inglés) y la tasa de reducción de instancias mediante optimización global y multi-objetivo. Además,

xvii
este trabajo también propone una nueva representación de las soluciones de EAs basada en árboles
de enlace, la cual puede reducir considerablemente el tamaño del espacio de búsqueda. Asimismo,
se denen cuatro índices de rendimiento y dos tipos de evaluaciones de la exactitud de clasicación
para medir la calidad de los subconjuntos seleccionados y su re-utilización en diferentes clasicadores.
Por último, las estrategias propuestas se compararon con un algoritmo de tipo wrapper basado en
EAs y cuatro técnicas clásicas de IS. Los resultados indican que los subconjuntos seleccionados por
los métodos propuestos pueden ser utilizados en la etapa de entrenamiento de diferentes tipos de
clasicadores sin disminuir la capacidad de generalización de los modelos obtenidos. Además, las
instancias seleccionadas alcanzan altas tasas de reducción y preservación de la PDF, además de
resultados competitivos en términos de la exactitud de clasicación.

xviii
Abstract

Instance Selection Strategies Using Global and


Multiobjective Optimization for Supervised Learning
Problems
by

Samuel Omar Tovias Alanis


Cinvestav Unidad Tamaulipas
Research Center for Advanced Study from the National Polytechnic Institute, 2022
Dr. Wilfrido Gómez Flores, Co-advisor
Dr. Gregorio Toscano Pulido, Co-advisor

Nowadays, data can be generated so easily that companies quickly produce massive data.
Unfortunately, using raw data usually overwhelms supervised learning algorithms as the time
complexity of these methods depends on the number of operations that must be done over the
instances; thus, the training time increases considerably. Instance selection (IS) is a proven approach
to reduce the training set as it chooses representative patterns from the original dataset. These
methods are divided into wrapper and lter. The former uses a selection criterion based on the
performance of a classier, while the latter focus on preserving statistical information. Although
several IS techniques based on evolutionary algorithms (EAs) have been proposed in the literature,
the subsets obtained by the wrapper EAs adjust to the characteristics of the classier, decreasing their
performance in training other supervised learning algorithms. Furthermore, these methods employ a
binary representation that explicitly encodes the training patterns. Consequently, the search space
grows exponentially depending on the number of instances. Therefore, this research proposes IS lter
strategies based on EAs that maximize the preservation of the probability density function (PDF) and
the reduction rate through global and multi-objective optimization. In addition, this work proposes a
new representation of EAs solutions based on linkage trees, which can considerably reduce the search
space size. Also, four performance indices and two types of classication accuracy' evaluations are
dened to measure the quality of the selected subsets and their reuse in dierent classiers. Finally,

xix
the proposed strategies were compared with a wrapper algorithm based on EAs and four classic IS
techniques. The results indicate that the subsets selected by the proposed methods can be used in
the training stage of dierent types of classiers without diminishing the generalization capacity of
the models obtained. In addition, the selected instances achieve high PDF reduction and preservation
rates and competitive results in classication accuracy.

xx
Nomenclatura

ACC Accuracy
CART Classication and Regression Tree
CBE Codicación Binaria Explícita
CLC Complete Linkage Clustering
CNN Condensed Nearest Neighbor
DPI Direct Plug-in Rule
DROP3 Decremental Reduction Optimization 3
E Eciency
EA Evolutionary Algorithm
ENN Edited Nearest Neighbor
GA Genetic Algorithm
GOP Global Optimization Problem
HDC Hellinger Distance Complement
ICF Iterative Case Filtering
IS Instance Selection
KDE Kernel Density Estimation
k NN k -Nearest Neighbors
LDA Linear Discriminant Analysis
MLP Multilayer Perceptron
MOP Multiobjective Optimization Problem
NB Naive Bayes Classier
NSGA-II Non-dominated Sorting Genetic Algorithm II
PDF Probability Density Function
PR Preservation Rate
QDA Quadractic Discriminant Analysis
RBFN Radial Basis Function Network
RF Random Forests
RR Reduction Rate
SIL Silverman's Rule
SVM Support Vector Machine
µGA Micro Genetic Algorithm
1
Introducción

El presente capítulo se organiza de la siguiente manera. La primera parte expone los antecedentes

de las estrategias de selección de instancias. Seguido de esto se presenta la motivación para el

desarrollo del proyecto de tesis. Después, se dene formalmente el planteamiento del problema,

las preguntas de investigación y la hipótesis. Posteriormente, se describe el objetivo general y los

objetivos especícos. Finalmente, se detalla la metodología de investigación y la organización de los

siguientes capítulos de este documento.

1.1 Antecedentes

El desarrollo de disciplinas tecnológicas, como el cómputo ubicuo e Internet de las cosas, ha

propiciado una generación masiva de datos en diferentes formatos y estructuras. Debido a esto,

en distintas organizaciones, como empresas y centros de investigación, se han utilizado técnicas de

1
2 1.1. Antecedentes

aprendizaje de máquinas para construir modelos de clasicación empleados en servicios inteligentes

y en el proceso de toma de decisiones [2, 12]. Un ejemplo son los dispositivos móviles que proveen

información del usuario para realizar recomendaciones de servicios [71]. Otro ejemplo son los sistemas

de eSalud que apoyan a los médicos en el diagnóstico de enfermedades [70]. Por otro lado, en el

campo de la astrofísica se utilizan modelos de clasicación para identicar objetos galácticos y extra-

galácticos, así como supernovas y cúmulos globulares de estrellas [48].

Considerando lo anterior, la construcción de modelos de clasicación con alta capacidad de

generalización (i.e., clasicación correcta de patrones desconocidos), en tiempos de cómputo cada

vez menores, constituye un desafío importante en el análisis de grandes conjuntos de datos.

En el contexto de los algoritmos de clasicación, un conjunto de datos se representa por una

matriz X ∈ RN ×D , la cual se compone de N patrones de entrenamiento {x1 , . . . , xN } y D variables

predictoras {X1 , . . . , XD }, donde xi ∈ RD , para i = 1, . . . , N , y Xj ∈ RN , para j = 1, . . . , D.

Cada patrón o instancia de entrenamiento se asocia con un elemento del vector de etiquetas de

clase y = [y1 , . . . , yN ], donde yi ∈ Z+ , para i = 1, . . . , N . Por lo tanto, el conjunto de datos X se

constituye de N pares ordenados de la forma (xi , yi ), como se muestra en la Tabla 1.1.

Tabla 1.1: Representación de un conjunto de datos.


Instancias Características Clases
X1 X2 X3 ... XD y
x1 x11 x12 x13 ... x1D y1
.. .. .. .. .. .. ..
. . . . . . .
xN xN 1 xN 2 xN 3 ... xN D yN

En un problema de clasicación con C clases, en donde la k -ésima etiqueta de clase se denota

como yk ∈ Ω = {ω1 , . . . , ωC }, para k = 1, . . . , C , el entrenamiento de un clasicador implica la

construcción de una función de mapeo f : RN ×D → Ω, la cual asigna a cada elemento xi ∈ X la

predicción de su correspondiente etiqueta de clase yi . Este proceso se realiza empleando un algoritmo

de aprendizaje supervisado [36].


1. Introducción 3

La complejidad computacional de un algoritmo de aprendizaje supervisado depende de los cálculos

que debe realizar utilizando las instancias y las variables predictoras (también denominadas atributos

o características). Por ejemplo, en el aprendizaje automático de una máquina de vectores de soporte

(SVM, por sus siglas en inglés), se requiere resolver un problema de optimización que se puede

plantear desde un enfoque primal o dual. En el caso primal se computa e invierte la matriz XT X + λI

cuya operación tiene una complejidad computacional de O(N D2 +D3 ). Por otro lado, en el caso dual,

se trabaja con la matriz XXT + λI la cual requiere O(DN 2 + N 3 ) operaciones para ser computada

e invertida. En ambos casos λI representa un término de regularización. Por lo tanto, la complejidad

computacional para el problema primal o dual es O(max(N, D) min(N, D)2 ) [19].

Además de la alta complejidad computacional de las técnicas de aprendizaje supervisado debido

a los cálculos que se realizan sobre las instancias, un desafío adicional se presenta en la etapa de

sintonización de los hiperparámetros del clasicador, en donde estos valores deben ajustarse para

que el modelo obtenido logre un desempeño adecuado. Este proceso consiste en evaluar diferentes

combinaciones de hiperparámetros al entrenar y validar distintos modelos de clasicación; por lo

tanto, el tiempo de entrenamiento aumenta considerablemente. Por ejemplo, en una red neuronal

articial (ANN, por sus siglas en inglés) se requiere determinar el número de capas ocultas, la cantidad

de neuronas de cada capa, los valores de los pesos de la red y el tipo de función de activación utilizada

en las neuronas de las capas ocultas. Para un árbol de decisión (DT, por sus siglas en inglés), es

necesario ajustar el número total de nodos y de hojas, así como la profundidad del árbol, el número

de atributos utilizados y la cantidad mínima de patrones en cada nodo. Por otro lado, en una SVM

se debe sintonizar la penalización del margen y las variables relacionadas al kernel no lineal (i.e., el

margen suave y el ancho de banda de un kernel Gaussiano) [9].

Para disminuir el tiempo de entrenamiento de los algoritmos de clasicación se han propuesto

estrategias de selección de instancias (IS, por sus siglas en inglés). Estas técnicas seleccionan un

subconjunto representativo (denotado como X̂) a partir del conjunto de patrones original (denotado
4 1.1. Antecedentes

como X). Los métodos IS se dividen en wrapper y lter, ambos se enfocan en minimizar el número de

instancias seleccionadas (reducir la cardinalidad de X̂). Sin embargo, los algoritmos wrapper emplean

un modelo de aprendizaje supervisado para maximizar la exactitud de clasicación al utilizar X̂

como conjunto de entrenamiento. Por otra parte, los métodos lter buscan preservar la información

estadística de los datos como guía para realizar el proceso de selección [77].

Los primeros métodos IS propuestos en la literatura se denominan enfoques clásicos y se dividen

en condensación, edición e híbridos. Estas técnicas emplean el algoritmo de los k vecinos más cercanos

(k NN, por sus siglas en inglés) para remover patrones de acuerdo con diferentes criterios. Los métodos

de condensación eliminan instancias rodeadas de patrones de la misma clase [54]. En cambio, los

algoritmos de edición se basan en remover puntos rodeados de muestras de diferentes clases [102].

Por otro lado, los enfoques híbridos consisten en una combinación de los dos criterios anteriores [103].

Estas técnicas requieren procesar todas las muestras del conjunto original de manera iterativa. Por

ello, en el caso de varios miles o millones de instancias se vuelven computacionalmente costosas y

por esta razón se han utilizado junto a una etapa previa de muestreo estraticado [45].

Desde el punto de vista de optimización, la tarea de encontrar el subconjunto óptimo X̂∗ a partir

de un conjunto de datos original X que contiene N patrones de entrenamiento, implica explorar un

espacio de búsqueda de tamaño 2N − 1, lo cual indica el número de subconjuntos X̂ de tamaño

n = 1, . . . , N −1 que se pueden formar, por lo que el espacio de búsqueda crece de forma exponencial.
Debido a esto, se han utilizado metaheurísticas para abordar el problema IS, ya que ofrecen soluciones

subóptimas en tiempos de cómputo aceptables [34, 37].

Los trabajos publicados en la literatura especializada muestran propuestas de solución con

algoritmos evolutivos (EAs, por sus siglas en inglés), los cuales incluyen enfoques de optimización

global [13, 77] y multiobjetivo [21, 87]. En la mayoría de estos trabajos se emplea la exactitud

de clasicación (ACC, por sus siglas en inglés) y la tasa de reducción de instancias (RR, por

sus siglas en inglés) como criterios principales para guiar el proceso de búsqueda. Con respecto
1. Introducción 5

a los métodos de optimización global, generalmente se establece una función objetivo ponderada

que realiza una combinación lineal de los dos criterios mencionados. Por otra parte, los enfoques

multiobjetivo utilizan estos criterios como elementos de una función vectorial para ser optimizados

de forma independiente. En cuanto a la representación de las soluciones, la mayoría de los trabajos

reportados en la literatura emplean una codicación binaria explícita (CBE), en donde los elementos

de un vector q = [q1 , . . . , qN ], con qi ∈ {0, 1} para i = 1, . . . , N , representan a los patrones del

conjunto original X. De esta manera, si qi = 1, entonces se elige a la i-ésima instancia de X para

formar parte de X̂; en caso contrario, la muestra no se selecciona [34, 83, 106].

1.2 Motivación

Reeves y Bush señalan en [85] que el conjunto de entrenamiento debería ser un reejo el de

la distribución de probabilidad real del espacio de las variables de entrada. Incluso, cuando X no

contenga en su totalidad a la distribución subyacente del espacio de entrada, si se cuenta con miles o

millones de instancias se puede tener una buena aproximación de la misma. Considerando lo anterior,

en la investigación relacionada al desarrollo de estrategias IS, no existen estudios que exploren la

preservación de la distribución de probabilidad de X en X̂ con el objetivo de conservar este tipo de

información estadística y, al mismo tiempo, reducir la cardinalidad de X̂.

Por otro lado, los métodos EAs utilizan una estrategia para representar el problema que se

requiere optimizar. Lo anterior permite codicar a los individuos de la población mediante vectores

que forman parte de un espacio de soluciones factible. En este sentido, la mayoría de los algoritmos

IS basados en EAs utilizan la representación CBE, en donde las instancias de X ∈ RN ×D se codican

explícitamente mediante un vector binario q ∈ {0, 1}N [34].

Sin embargo, este esquema de codicación presenta un problema de escalabilidad, ya que

conforme aumenta el número de instancias de X, mayor es la longitud del vector q; por lo tanto, el
6 1.2. Motivación

tamaño del espacio de búsqueda crece exponencialmente en función de N . Por ejemplo, al considerar

un conjunto de datos con 100 instancias, el tamaño del espacio de búsqueda del problema IS

codicado mediante el esquema CBE es 2100 − 1 = 1.2 × 1030 . En consecuencia, este enfoque

es ineciente, debido a que genera un espacio de soluciones extremadamente grande para problemas

con relativamente pocas instancias. Lo anterior representa un área de oportunidad, ya que permite

explorar nuevos tipos de representaciones (enteras, reales o mixtas) que se caractericen por ser

escalables a la cantidad de instancias de X y permitan una reducción considerable del tamaño del

espacio de búsqueda al modelar la tarea IS mediante un enfoque diferente.

En cuanto a las estrategias IS de tipo wrapper basadas en EAs, en pocos trabajos de la literatura

se reporta el uso de los subconjuntos obtenidos por estos métodos para entrenar otros clasicadores

diferentes a los que se utilizan en el proceso de selección [6, 13, 15].

En razón de lo antes expuesto, la presente investigación propone cuatro estrategias IS de tipo

lter. Dos de estos métodos están basados en optimización global, mientras que los otros dos utilizan

un algoritmo de optimización multiobjetivo. Los criterios de búsqueda consisten en maximizar la

preservación de la función de densidad de probabilidad y minimizar la cardinalidad del subconjunto

de datos seleccionado. En dos de los métodos propuestos se utiliza la codicación CBE, mientras que

los otros dos utilizan una nueva representación propuesta por primera vez en este trabajo de tesis, la

cual está basada en estructuras de agrupamiento jerárquico conocidas como árboles de enlace. Esta

nueva representación permite reducir el tamaño del espacio de búsqueda en relación con el número

de soluciones que se deben explorar cuando se emplea la representación CBE.

Las estrategias IS propuestas se comparan con cuatro técnicas clásicas de IS basadas en el

algoritmo k NN y siete EAs de tipo wrapper. La calidad de los subconjuntos obtenidos por estos

métodos se mide en términos de cuatro índices de desempeño. Además, también se evalúa el

rendimiento de las instancias seleccionadas para entrenar diferentes tipos de clasicadores sin

disminuir la capacidad de generalización.


1. Introducción 7

1.3 Planteamiento del problema

En la literatura se han propuesto algoritmos de optimización global (GOP, por sus siglas en inglés)

y optimización multiobjetivo (MOP, por sus siglas en inglés) para tratar con el problema IS [59, 106].

El enfoque GOP encuentra la mejor solución global sobre un conjunto de soluciones factibles [30],

mientras que los métodos MOP proporcionan un conjunto de soluciones no dominadas, en el que

ninguna función objetivo puede mejorar sin un detrimento simultáneo de otra [22].

En el problema IS se busca que el subconjunto X̂ alcance un alto porcentaje de reducción de

instancias y pueda ser utilizado para entrenar un clasicador que obtenga un desempeño similar a un

modelo entrenado con el conjunto original X. Sin embargo, estos dos objetivos están en conicto

entre sí, ya que remover instancias puede provocar que el clasicador entrenado con X̂ no modele

adecuadamente las características subyacentes del espacio de entrada y, consecuentemente, obtenga

un pobre desempeño de clasicación al ser evaluado sobre un conjunto de datos de prueba. Por

ello, al utilizar un algoritmo de optimización multiobjetivo es posible analizar la interacción entre

las soluciones obtenidas, las cuales muestran una relación de compromiso entre ambos objetivos. De

esta manera, se puede emplear a una persona especialista o aplicar un método automático para elegir

las soluciones que satisfagan de mejor forma los requerimientos del problema [75].

La mayoría de los algoritmos GOP y MOP propuestos en la literatura emplean enfoques de tipo

wrapper para maximizar el desempeño de un clasicador [21, 34, 82, 87]. No obstante, los patrones

elegidos por estos métodos están sesgados para ajustarse a los requerimientos del algoritmo de

aprendizaje supervisado que guía el proceso de búsqueda. Debido al sesgo introducido por los métodos

wrapper, en este trabajo se sostiene que el proceso de selección de instancias debe realizarse una

sola vez, de tal manera que el subconjunto de datos resultante pueda ser aprovechado para entrenar

diferentes clasicadores sin perder la capacidad de generalización; evitando repetir el proceso de

selección para otros algoritmos de aprendizaje supervisado.


8 1.3. Planteamiento del problema

En virtud de lo anterior, en esta investigación se proponen cuatro estrategias IS de tipo lter,

mediante algoritmos GOP y MOP que utilizan la codicación CBE y la nueva representación basada

en árboles de enlace.

En estas estrategias IS se consideran los siguientes criterios de optimización:

1. Maximizar la similitud entre las funciones de densidad de probabilidad de X y X̂.

2. Minimizar la cardinalidad de X̂.

Por lo tanto, en este trabajo se diseñan dos técnicas GOP para minimizar una función objetivo

ponderada que se dene como:

Minimizar wf1 (λ) + (1 − w)f2 (λ), sujeto a λ∈Λ (1.1)

donde λ = [λ1 , λ2 , . . . , λd ] ∈ Rd es un vector de variables de decisión, f1 y f2 son las dos funciones

objetivo relacionadas a los criterios mencionados y Λ representa un conjunto de soluciones factibles.

Además, w ∈ (0, 1) es un coeciente que pondera la importancia de cada función objetivo.

Adicionalmente, en esta investigación también se diseñan dos estrategias IS basadas en un

algoritmo MOP. Estos métodos obtienen un conjunto de soluciones no dominadas que muestran

la relación entre la reducción del número de instancias y la preservación de la función de densidad

de probabilidad de los datos. Formalmente, la tarea IS descrita como un problema MOP basada en

un enfoque de tipo lter se dene como:

Minimizar f (λ) = [f1 (λ), f2 (λ)]T , sujeto a λ∈Λ (1.2)

donde f (·) es una función vectorial, mientras f1 , f2 , λ, y Λ representan lo mismo que en (1.1).
1. Introducción 9

1.4 Preguntas de investigación

En este contexto surgen las siguientes preguntas de investigación:

¾Qué medida de similitud entre dos funciones de densidad de probabilidad se puede utilizar

para ser incorporada en las estrategias IS propuestas?

¾Es posible reducir considerablemente el tamaño del espacio de búsqueda del problema IS

mediante una representación basada en árboles de enlace y obtener soluciones competitivas

utilizando EAs con respecto a las soluciones obtenidas por los métodos que emplean la

representación CBE?

¾Los clasicadores entrenados con los subconjuntos obtenidos por las estrategias lter

propuestas presentan una mejor capacidad de generalización que los modelos entrenados con

las instancias seleccionadas por los métodos wrapper ?

1.5 Hipótesis

A partir de las preguntas de investigación, se plantea la siguiente hipótesis:

Maximizar la similitud entre las funciones de densidad de probabilidad de un conjunto de datos

original y un subconjunto de datos seleccionado, permite obtener instancias que se pueden utilizar

para entrenar diferentes clasicadores cuyos desempeños mejoren la capacidad de generalización de

los modelos entrenados con los subconjuntos seleccionados por los métodos wrapper.
10 1.6. Objetivos

1.6 Objetivos

General: Diseñar cuatro estrategias IS empleando algoritmos de optimización global y


multiobjetivo para minimizar el número de instancias y maximizar la similitud entre las funciones

de densidad de probabilidad del conjunto original y el subconjunto seleccionado.

Especícos:

Denir un método para evaluar la similitud entre las funciones de densidad de probabilidad del

conjunto original y el subconjunto seleccionado.

Diseñar una representación del problema IS basada en árboles de enlace para reducir el tamaño

del espacio de búsqueda generado por la codicación CBE.

Elegir los algoritmos de optimización global y multiobjetivo para diseñar cuatro estrategias

IS que consideren los criterios de optimización descritos, la codicación CBE y la nueva

representación basada en árboles de enlace.

Establecer un marco experimental para evaluar la calidad de los subconjuntos obtenidos por

los métodos comparativos.

1.7 Metodología de investigación

La metodología de investigación se divide en cuatro etapas, las cuales se describen a

continuación.

1. Revisión del estado del arte e investigación de los conceptos del marco teórico.

Recopilar conjuntos de datos de libre acceso comúnmente utilizados en la literatura para

evaluar las estrategias IS propuestas.


1. Introducción 11

Investigar medidas de similitud entre funciones de densidad de probabilidad.

Investigar algoritmos de clasicación que sean metodológicamente diferentes entre sí.

Implementar los métodos clásicos de IS más reportados en la literatura.

2. Diseñar dos estrategias IS que utilicen la codicación CBE.

Denir dos funciones objetivo para maximizar la preservación de la función de densidad

de probabilidad y minimizar el número de instancias seleccionadas, respectivamente.

Diseñar un método de optimización global basado en un EA para optimizar una función

objetivo ponderada que realice una combinación lineal de los dos criterios mencionados.

Diseñar un método de optimización multiobjetivo basado en un EA para optimizar

simultáneamente a las dos funciones objetivo.

3. Diseñar dos estrategias IS que utilicen la representación basada en árboles de enlace.

Denir dos funciones objetivo que consideren la optimización de los criterios mencionados

a partir de la nueva representación basada en árboles de enlace.

Diseñar un método de optimización global basado en un EA para optimizar una función

objetivo ponderada que realice una combinación lineal de los dos criterios mencionados.

Diseñar un método de optimización multiobjetivo basado en un EA para optimizar

simultáneamente a las dos funciones objetivo.

4. Diseñar un marco experimental para evaluar las cuatro estrategias IS propuestas.

Denir índices de desempeño para medir la calidad de los subconjuntos de datos.

Evaluar la capacidad de generalización de los subconjuntos obtenidos al utilizarlos para

entrenar diferentes algoritmos de clasicación metodológicamente diferentes entre sí.

Establecer las limitaciones de las estrategias IS propuestas y denir el trabajo futuro.


12 1.8. Organización del documento

1.8 Organización del documento

El contenido de este documento se organiza de la siguiente manera. El Capítulo 2 presenta el

marco teórico donde se detallan los diferentes conceptos y algoritmos utilizados en este trabajo

de investigación. En el Capítulo 3 se describe el estado del arte de las estrategias IS basadas

en optimización global y multiobjetivo utilizando metaheurísticas. Las estrategias IS propuestas

se describen en el Capítulo 4. En el Capítulo 5 se muestran los resultados experimentales y el

análisis comparativo del desempeño de los métodos propuestos. Finalmente, el Capítulo 6 presenta

las conclusiones y el trabajo futuro que se debe considerar para superar las limitaciones de los

algoritmos propuestos.
2
Marco teórico

En este capítulo se describen los conceptos utilizados para denir formalmente a las estrategias

IS propuestas. La primera sección expone las generalidades de la tarea IS aplicada a problemas de

aprendizaje supervisado, las técnicas clásicas más utilizadas en la literatura para nes comparativos y

los tópicos relacionados a los métodos que utilizan EAs. Por otro lado, los algoritmos de optimización

global y multiobjetivo empleados en los enfoques propuestos se explican en la segunda y tercera

sección, respectivamente. En la cuarta parte del capítulo se describe la técnica usada para estimar

las funciones de densidad de probabilidad. La quinta sección detalla la medida de distancia estadística

que se emplea para comparar dos funciones de densidad de probabilidad. Posteriormente, en la sexta

sección se describe el concepto general de agrupamiento jerárquico y una estructura basada en un

árbol binario conocida como árbol de enlace, la cual relaciona a las muestras de un conjunto de datos

con base en una medida de distancia. Finalmente, en la última sección se exponen dos familias de

métricas utilizadas en la construcción de árboles de enlace.

13
14 2.1. Selección de instancias

2.1 Selección de instancias

En la etapa de aprendizaje de los modelos de clasicación se utiliza un conjunto de datos

de entrenamiento para denir las fronteras de decisión que predicen las etiquetas de clase de

patrones desconocidos. Normalmente algunas instancias de entrenamiento contienen información

redundante o poco relevante para el diseño de modelos de clasicación y únicamente incrementan

el tiempo de cómputo del aprendizaje del modelo. Por lo tanto, se pueden remover este tipo de

muestras para reducir la cardinalidad del conjunto de datos y el tiempo de entrenamiento sin afectar

signicativamente la capacidad de generalización del algoritmo de clasicación. Por ello, el objetivo

del proceso IS es obtener un subconjunto de patrones X̂ a partir del conjunto de datos original X,

de tal manera que X̂ preserve instancias representativas y elimine datos redundantes. La Figura 2.1

muestra un ejemplo del proceso de IS en un conjunto de datos sintético.

Por otro lado, cuando el algoritmo IS emplea un criterio de selección que se enfoca en maximizar el

desempeño de un clasicador se le considera de tipo wrapper, en cambio si únicamente busca preservar

información estadística subyacente de los datos se trata de un método de tipo lter [45].

Debido al reciente incremento en la aplicación de algoritmos evolutivos (EAs, por sus siglas en

inglés), para resolver la tarea IS, en la literatura especializada se describe una taxonomía que divide

a los algoritmos propuestos en técnicas clásicas, generalmente basados en la regla de los k vecinos

más cercanos (k NN, por sus siglas en inglés), y enfoques basados en EAs, como los algoritmos

genéticos [21, 34, 77].

El desempeño de los algoritmos IS propuestos en este trabajo de investigación se compara con

cuatro técnicas clásicas comúnmente utilizadas en la literatura y un algoritmo de tipo wrapper basado

en EAs que emplea diferentes clasicadores para guiar el proceso de búsqueda. Por ello, a continuación

se describen algunos conceptos importantes de las técnicas clásicas y los métodos utilizados para

nes comparativos.
2. Marco teórico 15

Figura 2.1: Esquema general de un proceso de IS para un conjunto de datos sintético.

2.1.1 Técnicas clásicas de IS

Las técnicas clásicas de IS generalmente utilizan la regla k NN para conservar o remover instancias

a partir de heurísticas basadas en relaciones geométricas locales y en la distribución de las clases en

el espacio de características [45].

La mayoría de los métodos clásicos tienen una complejidad computacional O(N 2 ), por lo que

realizan varias iteraciones sobre el conjunto de datos original y remueven patrones de acuerdo con

diferentes criterios [58, 67, 78, 79].

En las siguientes secciones se describen cuatro algoritmos clásicos que han sido utilizados

ampliamente para comparar la efectividad de nuevas propuestas de técnicas de IS [13, 15, 16, 17,

40, 46, 72, 97].

2.1.1.1. Regla del vecino más cercano condensado

La regla del vecino más cercano condensado (CNN, por sus siglas en inglés) emplea un método de

agregación incremental, cuya complejidad computacional es O(N 3 ) [54]. Su objetivo es seleccionar

instancias cercanas a las fronteras de decisión al descartar patrones cuyo vecino más próximo
16 2.1. Selección de instancias

pertenece a la misma clase. El método es dependiente del orden inicial de las muestras, por lo que se

pueden obtener diferentes subconjuntos en función de la disposición de las las en el conjunto original

X. Además, en esta técnica se introduce el concepto de subconjunto consistente, el cual representa


a una selección de instancias de entrenamiento que es capaz de clasicar correctamente a todas las

muestras de X utilizando la regla del vecino más cercano (1NN, por sus siglas en inglés).

El primer paso del algoritmo consiste en seleccionar a la primera instancia, después todas las

muestras restantes se clasican con la regla 1NN empleando al subconjunto seleccionado actual X̂

como conjunto de entrenamiento. Así, todos los patrones clasicados de forma incorrecta se incluyen

en X̂. El proceso anterior se repite hasta que ya no existan muestras clasicadas erróneamente.

De esta manera, los métodos basados en el concepto de condensación suelen introducir instancias

ruidosas, ya que la mayoría de las muestras seleccionadas están rodeadas de patrones de diferentes

clases. Por ello, es posible que exista una mayor proporción de ruido en X̂ que en X, afectando así el

desempeño de clasicación para instancias desconocidas. El pseudocódigo del Algoritmo 1 describe

los pasos del método CNN.

Algoritmo 1 Vecino más cercano condensado (CNN).


Entrada: Conjunto original X = {(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN )}
Salida: Subconjunto seleccionado X̂
1: Seleccionar a la primera instancia de X: X̂ = {(x1 , y1 )}
2: repetir
3: cambio = 0
4: para i = 2 hasta N hacer
5: Encontrar (x∗ , y ∗ ) ∈ X̂ tal que ∥xi − x∗ ∥ = minxj ∈X̂ ∥xi − xj ∥
6: si y∗ ̸= yi entonces
7: X̂ = X̂ ∪ (xi , yi )
8: cambio = 1
9: n si
10: n para
11: hasta que cambio = 0
12: devolver X̂
2. Marco teórico 17

2.1.1.2. Regla del vecino más cercano editado

La regla del vecino más cercano editado (ENN, por sus siglas en inglés) utiliza una estrategia

de selección decremental, cuya complejidad computacional es O(N 2 ) [102]. ENN se encarga de

eliminar patrones que introducen ruido debido a que se encuentran cerca de las fronteras de decisión

y sus vecinos más cercanos pertenecen a diferentes clases. Por lo tanto, este algoritmo comienza

seleccionando a todas las instancias de X para posteriormente remover a las muestras que son

incorrectamente clasicadas por sus k vecinos más cercanos. Por ello, el único parámetro de entrada

es el número k de vecinos a evaluar (en esta investigación se utiliza k = 3). Una desventaja notable

de este método es que logra un bajo porcentaje de reducción de instancias. El pseudocódigo del

Algoritmo 2 presenta las instrucciones del método ENN.

Algoritmo 2 Vecino más cercano editado (ENN).


Entrada: Conjunto original X = {(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN )} y k vecinos más cercanos
Salida: Subconjunto seleccionado X̂
1: Seleccionar todas las instancias del conjunto original: X̂ = X
2: para i = 1 hasta N hacer
3: Clasicar (xi , yi ) con el algoritmo k NN usando X̂ como conjunto de entrenamiento
4: si (xi , yi ) se clasica incorrectamente entonces
5: X̂ = X̂ − (xi , yi )
6: n si
7: n para
8: devolver X̂

2.1.1.3. Procedimiento de optimización de reducción decremental

Wilson y Martínez [103] proponen una familia de cinco algoritmos híbridos que combinan algunos

conceptos utilizados por técnicas basadas en enfoques de condensación y edición. Estos métodos son

conocidos como procedimientos de optimización de reducción decremental (DROP, por sus siglas

en inglés), cuya complejidad computacional es O(N 3 ). Emplean un criterio de selección basado en

los conceptos de instancias asociadas y vecinos más cercanos. En este contexto, una instancia xi
18 2.1. Selección de instancias

es asociada a un determinado patrón xj , cuando este último es uno de sus vecinos más cercanos.

Además, el conjunto de vecinos más cercanos de una instancia se denomina vecindario. Por lo tanto,

el conjunto de asociados de cada instancia es una lista con todas las muestras que tienen a dicho

patrón en su vecindario. La Figura 2.2 presenta un ejemplo de datos bidimensionales con dos clases,

donde los tres vecinos más cercanos de xi son {x1 , x2 , x3 }. Esto signica que xi es una instancia

asociada a x1 , x2 y x3 .

En la literatura publicada, DROP3 es el algoritmo más utilizado de esta familia de métodos, el

cual comienza con la aplicación de la técnica ENN como un ltro de instancias ruidosas, después las

muestras se ordenan con respecto a su enemigo más cercano (es decir, el patrón más próximo de

una clase diferente). Posteriormente, las listas de asociados y de vecinos más cercanos se calculan

para cada instancia. En el ciclo principal se utiliza la regla k NN para clasicar a todos los patrones

del conjunto ltrado (en esta investigación se utiliza k = 3). En el caso del i-ésimo patrón de

entrenamiento xi , α representa el número de instancias asociadas que son clasicadas correctamente

con xi , mientras que β es la cantidad de instancias asociadas que se clasican correctamente sin

considerar a xi . Lo anterior se utiliza para denir el criterio de eliminación, el cual dicta que si β ≥ α

entonces xi se elimina de X̂. De este modo, cuando una instancia es eliminada, todos sus patrones

asociados deben actualizar su lista de vecinos más cercanos. En el pseudocódigo del Algoritmo 3 se

describen los pasos del método DROP3.

Figura 2.2: Relación entre los conjuntos de asociados y vecinos más cercanos de una instancia xi .
Se muestra un conjunto de datos con dos clases diferentes, donde los tres vecinos más cercanos de
xi son {x1 , x2 , x3 }. Por lo tanto, xi forma parte de la lista de asociados de x1 , x2 y x3 .
2. Marco teórico 19

Algoritmo 3 Procedimiento de optimización de reducción decremental 3 (DROP3).


Entrada: Conjunto original X = {(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN )} y k vecinos más cercanos
Salida: Subconjunto seleccionado X̂
1: Seleccionar todas las instancicas del conjunto original: X̂ = X
2: Aplicar el algoritmo ENN a X̂ // Algoritmo 2
3: Ordenar instancias en X̂ con respecto a los enemigos más cercanos
4: para i = 1 hasta N hacer
5: Encontrar los k + 1 vecinos más cercanos de (xi , yi ) en X̂
6: Agregar (xi , yi ) a cada una de las listas de asociados de sus k vecinos más cercanos
7: n para
8: para i = 1 hasta N hacer
9: Sea α el número de asociados de (xi , yi ) clasicados correctamente con (xi , yi ) como vecino
10: Sea β el número de asociados de (xi , yi ) clasicados correctamente sin (xi , yi )
11: si β ≥ α entonces
12: X̂ = X̂ − (xi , yi )
13: Sea γ el número total de asociados de (xi , yi )
14: para j = 1 hasta γ hacer
15: Sea ϕ el j -ésimo patrón asociado de (xi , yi )
16: Remover (xi , yi ) de la lista de vecinos más cercanos de ϕ
17: Encontrar el nuevo vecino más cercano de ϕ
18: Agregar ϕ a la lista de asociados de su nuevo vecino más cercano
19: n para
20: n si
21: n para
22: devolver X̂

2.1.1.4. Filtrado de casos iterativos

El ltrado de casos iterativos (ICF, por sus siglas en inglés) es un método híbrido que tiene

una complejidad computacional O(N 2 ) y una estrategia de selección por lotes [11]. Este algoritmo

introduce los conceptos de cobertura y alcance. El primero consiste en el vecindario de una instancia

que se forma con todas las muestras más cercanas al enemigo más próximo, incluyendo la misma

muestra. Por otro lado, el alcance de una instancia representa el conjunto de todos los patrones

para los que dicha muestra forma parte de su conjunto de cobertura. El criterio de selección de una

instancia determinada consiste en comparar la cardinalidad de sus conjuntos de cobertura y alcance.

De esta manera, si el conjunto de alcance contiene más patrones que el de cobertura, entonces la
20 2.1. Selección de instancias

instancia se descarta, en caso contrario la muestra se selecciona. En la Figura 2.3 se presenta un

esquema que ejemplica los conceptos mencionados.

En el primer paso, el algoritmo elimina instancias ruidosas aplicando el método ENN. Después,

dentro del ciclo principal se obtienen los conjuntos de cobertura y alcance para cada instancia

de entrenamiento. Posteriormente, las instancias que tengan un conjunto de alcance mayor a su

respectivo conjunto de cobertura son marcadas para ser eliminadas. Este proceso continúa hasta que

ya no se elimine ninguna instancia. En el pseudocódigo del Algoritmo 4 se describen los pasos del

método ICF.

Figura 2.3: Conjunto de cobertura con dos clases representadas en blanco y negro. Debido a que
el enemigo más cercano de xi es x2 , el conjunto de cobertura de xi es {xi , x1 }.

En la Figura 2.4 se muestra una comparación de las cuatro técnicas clásicas de IS descritas

anteriormente.

Figura 2.4: Resultados de las técnicas clásicas de IS aplicadas a un conjunto de datos sintético X
de tres clases Ω = {ω1 , ω2 , ω3 }. En este ejemplo, los métodos ENN, DROP3 e ICF utilizan k = 3.
2. Marco teórico 21

Algoritmo 4 Filtrado de casos iterativos (ICF).


Entrada: Conjunto original X = {(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN )} y k vecinos más cercanos
Salida: Subconjunto seleccionado X̂
1: Seleccionar todas las instancicas del conjunto original: X̂ = X
2: Aplicar el algoritmo ENN a X̂ // Algoritmo 2
3: repetir
4: para i = 1 hasta N hacer
5: Calcular conjunto de alcance de (xi , yi )
6: Calcular conjunto de cobertura de (xi , yi )
7: n para
8: progreso = 0
9: para i = 1 hasta N hacer
10: Sea α la cardinalidad del conjunto de alcance de (xi , yi )
11: Sea β la cardinalidad del conjunto de cobertura de (xi , yi )
12: si α > β entonces
13: Marcar a la instancia (xi , yi ) para ser removida
14: progreso = 1
15: n si
16: n para
17: para i = 1 hasta N hacer
18: si la instancia (xi , yi ) está marcada para ser removida entonces
19: X̂ = X̂ − (xi , yi )
20: n si
21: n para
22: hasta que progreso = 0
23: devolver X̂

2.1.2 Métodos de IS con algoritmos evolutivos

La mayoría de las técnicas clásicas de IS emplean heurísticas basadas en vecindarios locales de

cada clase, por lo que no realizan una búsqueda global para considerar la información contenida en la

distribución de todos los patrones. Por otra parte, los algoritmos basados en EAs pueden realizar una

búsqueda global en el espacio de características considerando todo el conjunto de datos sin asumir

ningún tipo de distribución de las clases. A continuación se detallan las características principales de

los algoritmos de cómputo evolutivo aplicados en la tarea IS reportados en la literatura.


22 2.1. Selección de instancias

2.1.2.1. Representación de las soluciones

Una estrategia IS que utiliza optimización basada en EAs requiere una codicación de soluciones

candidatas para representar diferentes subconjuntos de instancias. El enfoque más empleado en los

trabajos publicados consiste en una codicación binaria explícita (CBE). Esta representación utiliza

un vector binario q = [q1 , . . . , qN ], con qi ∈ {0, 1} para i = 1, . . . , N , donde N es el número de

instancias del conjunto de datos original X. De esta manera, si qi = 1, entonces la i-ésima instancia

de X es seleccionada; por el contrario, si qi = 0, dicha muestra no se selecciona. La Figura 2.5

muestra un ejemplo de la representación CBE [34].

Figura 2.5: Representación CBE para los métodos IS basados en EAs. A partir de un conjunto
original X con N = 12, se codica un vector binario q ∈ {0, 1}12 . Las instancias que coinciden con
un valor igual a `1' son seleccionadas, en caso contrario no se seleccionan.
2. Marco teórico 23

2.1.2.2. Criterios de optimización de algoritmos wrapper

El primer criterio de optimización de los métodos IS basados en EAs de tipo wrapper minimiza

la cantidad de muestras en el subconjunto seleccionado, lo cual se mide con la tasa de reducción de

instancias (RR) y se dene como:

|X̂|
RR =1− (2.1)
|X|

donde |·| denota cardinalidad y RR ∈ [0, 1]. Si RR → 0, el número de instancias en X̂ y X es similar,

en cambio si RR → 1, X̂ contiene pocos patrones seleccionados. Por lo tanto, para minimizar el


número de instancias en X̂ es necesario maximizar el término RR.

El segundo criterio de optimización maximiza el desempeño de un modelo de aprendizaje

supervisado, lo cual se mide en términos de la exactitud de clasicación (ACC, por sus siglas en

inglés), y se dene como:

N
1 X
ACC = I(yi , ŷi ) (2.2)
N i=1

donde ACC ∈ [0, 1]. Si ACC → 1, el modelo de clasicación predice correctamente el valor de un
alto porcentaje de etiquetas de clase, en cambio si ACC → 0, signica lo opuesto. Además, I(yi , ŷi )

denota la función indicatriz [23]:


 1 si

yi = ŷi
I(yi , ŷi ) = (2.3)
 0 otro caso

donde yi con i = 1, . . . , N , es el valor de la i-ésima etiqueta de clase verdadera del conjunto de

datos X, mientras que ŷi es su correspondiente valor predicho por el modelo de clasicación.
24 2.1. Selección de instancias

2.1.2.3. Diseño de la función objetivo

Las estrategias IS basados en EAs emplean generalmente dos criterios de optimización, el primero

consiste en maximizar RR y el segundo depende del tipo de algoritmo utilizado.

Por lo anterior, si el método propuesto es de tipo lter, entonces se considera una función diseñada

para cuanticar algún tipo de información estadística. En cambio, si se trata de un algoritmo de tipo

wrapper, el segundo objetivo se establece para maximizar el desempeño de un clasicador.

En los trabajos publicados que proponen métodos de optimización global se suelen emplear

funciones de escalarización para modelar la tarea IS como un problema mono-objetivo. Para ello se

utiliza el método de la suma ponderada (WS, por sus siglas en inglés), el cual realiza una combinación

lineal de varios criterios de optimización ponderados en una sola función objetivo y no requiere de

un proceso de toma de decisiones cuando los pesos son seleccionados adecuadamente [30].

Debido a lo anterior, para un algoritmo de IS que utiliza dos criterios de optimización, la función

objetivo ponderada se formula como:

Maximizar f (q) = wf1 (q) + (1 − w)f2 (q), sujeto a q∈Q (2.4)

donde q = [q1 , . . . , qN ], con qi = {0, 1} para i = 1, . . . , N , y Q es un conjunto de soluciones

factibles. Por otra parte, f1 y f2 representan a dos criterios de optimización. Además, w ∈ (0, 1) es

un coeciente que indica la relevancia de cada criterio.

En los trabajos reportados en la literatura es común utilizar por defecto w = 0.5, por lo que

ambos objetivos de optimización tienen la misma relevancia [34].


2. Marco teórico 25

2.1.2.4. Evaluación de la función objetivo

Un algoritmo IS de tipo wrapper basado en EAs mide la aptitud de cada individuo de la población

en términos de ACC y RR. De esta manera, para evaluar el criterio ACC se decodica una solución

y se obtiene el subconjunto seleccionado X̂, con el cual se entrena un clasicador que se evalúa

mediante un conjunto de validación V = X − X̂1 . La Figura 2.6 muestra un ejemplo de la evaluación

del desempeño de clasicación de una solución en un algoritmo EA.

Figura 2.6: Evaluación de desempeño de un individuo en términos de ACC en un algoritmo IS de


tipo wrapper basado en un EA.

Por otro lado, las estrategias IS de tipo lter basadas en EAs evalúan la aptitud de cada individuo

de la población mediante funciones objetivo que miden la preservación de información estadística o

propiedades geométricas de las variables del conjunto de datos [5, 93].


1 Los conjuntos de entrenamiento y validación se normalizan con el método Softmax descrito en el Apéndice C.2.
26 2.2. Optimización global

2.2 Optimización global

La optimización es el proceso de búsqueda de una o más soluciones que minimizan, sin pérdida

de generalidad, uno o más objetivos. Un problema general de optimización global (GOP, por sus

siglas en inglés), se dene como la búsqueda de un vector λ ∈ Rd que minimiza una función f (λ)

sujeta a m restricciones de desigualdad y p restricciones de igualdad, las cuales están denidias por

gi (λ) ≤ 0 para i = 1, . . . , m, y hj (λ) = 0 para j = 1, . . . , p, respectivamente [30].

En particular, GA es la técnica de optimización evolutiva más utilizada en la literatura para

resolver el problema IS desde una perspectiva mono-objetivo [34, 97, 106]. Por lo tanto, en este

trabajo se utiliza dicha metaheurística para proponer estrategias de IS de tipo lter que maximicen

la preservación de la función de densidad de probabilidad del conjunto de datos original X y minimicen

la cardinalidad del subconjunto de datos seleccionado X̂.

2.2.1 Algoritmo genético

El algoritmo genético (GA, pos sus siglas en inglés), es una metaheurística que emplea una

población de individuos para resolver problemas de optimización global. Este método se inspira en

la teoría neo-darwiniana de la evolución, la cual establece que los seres vivos mejor adaptados a su

ambiente sobreviven y transeren su información genética a su descendencia [49].

Aunque esta técnica ha demostrado ser eciente en la resolución de una amplia variedad de

tareas, sólo se puede utilizar en problemas de optimización que tengan un espacio de búsqueda nito

y cuenten con una representación matemática para medir la calidad de las soluciones en términos de

los criterios denidos en una función objetivo.

El GA se diseñó originalmente para resolver problemas de optimización combinatoria, en donde

cada solución se representa por un vector denominado cromosoma, el cual se compone de valores
2. Marco teórico 27

enteros conocidos como genes. El GA también se puede utilizar en problemas continuos; sin embargo,

se deben codicar los elementos del dominio real en el cromosoma. Por ello, en el caso de una

representación binaria, se dene el número de bits requeridos para codicar las dimensiones del

espacio continuo en función de la cantidad de valores decimales que se desean representar.

Este algoritmo comienza con la inicialización aleatoria de una población de tamaño NP ,

posteriormente se evalúa la aptitud de cada individuo en la función objetivo y se generan nuevas

soluciones con los operadores de variación descritos a continuación:

Selección: Modela la superviviencia de los seres vivos que se adaptan mejor a su medio
ambiente. Este operador permite la preservación de individuos con bajo desempeño, aunque

esto sucede con menos frecuencia debido a un criterio basado en un valor de probabilidad. Se

utiliza un mecanismo que mantiene la diversidad de las soluciones para evitar la convergencia

prematura al promover una mejor exploración del espacio de búsqueda. En esta investigación

se utiliza la estrategia del torneo binario, que elige de forma aleatoria a dos individuos de

la población y después selecciona al mejor de ellos en términos de su valor de aptitud. Esta

estrategia disminuye la presión de selección, ya que algunas soluciones con un pobre desempeño

pueden ser seleccionadas [76].

Cruza: Representa la reproducción sexual de los seres vivos en la naturaleza y sirve para
preservar la información genética de los individuos mejor adaptados a su ambiente. Con este

operador se intercambian los genes de los padres seleccionados para producir a los individuos

de la siguiente generación. Esta estrategia se aplica de acuerdo con un valor de probabilidad

que indica con qué frecuencia se efectúa, y normalmente se dene en el rango pc ∈ [0.5, 1].

El método empleado en esta investigación consiste en seleccionar dos puntos de cruza para

intercambiar los genes que se encuentran entre ellos. Se debe evitar que ninguno de los puntos

coincida con los extremos del cromosoma para así generar tres segmentos que permitan realizar

la operación adecuadamente. La Figura 2.7 muestra un ejemplo de una cruza de dos puntos.
28 2.2. Optimización global

Figura 2.7: Cruza de dos puntos entre dos individuos de una población en un GA.

Mutación: Introduce diversidad en la población y mejorar la capacidad de exploración del GA.


En este trabajo se utiliza la mutación Bit-Flip, la cual intercambia los valores de algunos genes

con base en un valor de probabilidad independiente pm , normalmente denido como el inverso

de la longitud del individuo. La Figura 2.8 presenta un ejemplo de este tipo de mutación.

Figura 2.8: Ejemplo de mutación de tipo Bit-Flip en un cromosoma binario con pm = 121 .

Después de la aplicación de los operadores descritos, se utiliza una estrategia de elitismo simple

que consiste en preservar sin cambios a la mejor solución de cada generación. Así, el individuo más

apto se sustituye únicamente por una nueva solución que tenga un mejor desempeño en la función

objetivo. De esta manera, se asegura que la calidad de las soluciones se mantenga o incremente.

Para detener la ejecución del algoritmo, comúnmente se utilizan dos enfoques: el primero consiste

en denir un número máximo de generaciones, mientras que el segundo emplea un criterio de


2. Marco teórico 29

convergencia, la cual se alcanza cuando todos los individuos de la población tienen el mismo valor

de desempeño. El pseudocódigo del Algoritmo 5 presenta una versión estándar del GA.

Algoritmo 5 Algoritmo genético (GA).


Entrada: Probabilidad de cruza pc y mutación pm , tamaño de la población NP y número de
generaciones G
Salida: Mejor solución obtenida por la última generación de individuos: qbest,G
1: Inicializar la población de individuos aleatoriamente: Q(0) = {q0,0 , . . . , qN −1,0 }
P
2: para i = 0 hasta NP − 1 hacer

3: Evaluar aptitud del i-ésimo individuo: f (qi,0 )


4: n para
5: para g = 0 hasta G − 1 hacer
6: Seleccionar Q′ a partir de Q(g) con torneo binario
7: Aplicar cruza de dos puntos con probabilidad pc a Q′
8: Aplicar mutación Bit-Flip con probabilidad pm a los individuos de Q′
9: Aplicar estrategia de elitismo simple
10: para i = 0 to NP − 1 hacer
11: Evaluar aptitud del i-ésimo individuo: f (qi,g )
12: n para
13: Obtener nueva población: Q(g + 1) ← Q′
14: n para
15: Obtener la mejor solución de Q(G) en términos de f (·): qbest,G
16: devolver qbest,G

2.3 Optimización multiobjetivo

La optimización multiobjetivo (MOP, por sus siglas en inglés), consiste en la solución de problemas

que involucran k funciones objetivo simultáneamente. Por ello, un problema MOP se dene como

la minimización, sin pérdida de generalidad, de una función vectorial f (λ) = [f1 (λ), . . . , fk (λ)]T

con λ ∈ Rd , sujeta a gi (λ) ≤ 0 con i = {1, . . . , m} y hj (λ) = 0 con j = {1, . . . , p}, tal

que λ ∈ Λ, donde gi (λ) y hj (λ) representan m restricciones de desigualdad y p restricciones de

igualdad, respectivamente. Además, Λ es un conjunto de soluciones factibles. Cuando se trabaja con

problemas de optimización combinatoria, el vector λ está denido en el dominio discreto [22].


30 2.3. Optimización multiobjetivo

2.3.1 Optimalidad de Pareto

En los problemas MOP se desea obtener un conjunto de soluciones de compromiso que satisfagan

simultáneamente a todas las funciones objetivo involucradas. En este contexto las soluciones

obtenidas son evaluadas en términos de los conceptos de dominancia y optimalidad de Pareto.

La dominancia es una propiedad de dos vectores en el espacio objetivo. Considerando dos

elementos {u, v} ∈ Rk en un problema que consiste en minimizar k funciones objetivo, se dice

que u = f (λ1 ) = [f1 (λ1 ), . . . , fk (λ1 )]T domina a v = f (λ2 ) = [f1 (λ2 ), . . . , fk (λ2 )]T , si y sólo si

u es parcialmente menor que v, es decir, ∀i ∈ {1, . . . , k}, ui ≤ vi ∧ ∃i ∈ {1, . . . , k} : ui < vi ; lo


anterior se denota como u ⪯ v.

Por otra parte, la optimalidad se relaciona con dos elementos en el espacio de las variables de

decisión. Así pues, se dice que una solución λ ∈ Λ es un óptimo de Pareto con respecto a Λ si y

sólo si no existe otra solución λ̄ ∈ Λ para la cual se cumpla que v = f (λ̄) = [f1 (λ̄), . . . , fk (λ̄)]T

domina a u = f (λ) = [f1 (λ), . . . , fk (λ)]T . Por lo tanto, el conjunto óptimo de Pareto se dene

como P = {λ ∈ Λ | ¬∃ λ̄ ∈ Λ : f (λ̄) ⪯ f (λ)}.

El frente de Pareto F = {u = f (λ) | λ ∈ P} representa la imagen de P en el espacio objetivo;

además, sus elementos se conocen como soluciones no dominadas. Estos puntos no pueden mejorar

los criterios de optimización simultáneamente, ya que si una solución tiene un mayor desempeño en

una función objetivo, entonces reducirá su aptitud en alguna otra.

Por otro lado, los puntos que no pertenecen a F se conocen como soluciones dominadas. La

Figura 2.9 muestra un ejemplo de la relación de los conjuntos P y F [88].


2. Marco teórico 31

Figura 2.9: Izquierda: Ejemplo de un conjunto óptimo de Pareto P en el espacio de las variables
de decisión. Derecha: Frente de Pareto F correspondiente a P en el espacio objetivo.

2.3.2 Algoritmo evolutivo multiobjetivo NSGA-II

El algoritmo NSGA (del inglés Non-dominated Sorting Genetic Algorithm), consiste en una

modicación del GA para resolver problemas MOP y su complejidad computacional es O(k(NP )3 ),

donde k indica el número de objetivos del problema y NP representa el tamaño de la población. Este

método se enfoca en ordenar las soluciones de acuerdo con un criterio de no dominancia. Además,

carece de un mecanismo de elitismo y es dependiente de un parámetro que preserva la diversidad

de los individuos. Debido a los inconvenientes presentados por este método, los autores propusieron

el algoritmo NSGA-II, el cual es una versión mejorada que incorpora una estrategia de elitismo,

no depende de ningún parámetro para preservar la diversidad de la población y su complejidad

computacional es O(k(NP )2 ) [32, 95].

Debido a su extenso historial de aplicaciones exitosas en problemas con pocos objetivos

de optimización, en este trabajo de investigación se utiliza el algoritmo NSGA-II para diseñar

dos estrategias IS multiobjetivo. Por esta razón, a continuación se describe la mecánica del

funcionamiento de este algoritmo [99].


32 2.3. Optimización multiobjetivo

2.3.2.1. Enfoque rápido de ordenamiento de no dominancia

El método NSGA-II cuenta con un proceso de ordenamiento rápido que requiere O(k(NP )2 )

comparaciones y clasica a los individuos en diferentes niveles de no dominancia. Esto signica que

se crean distintos frentes de Pareto para agrupar a las soluciones de acuerdo con su posición en el

espacio objetivo. De este modo, por cada solución p que pertenece a una población de NP individuos

P = {p1 , . . . , pNP } con P ⊂ Rk , se calculan dos elementos:

1. Conteo de dominancia np : número de soluciones que dominan a p.

2. Sp : conjunto de soluciones dominadas por p.

Debido a lo anterior, cada solución p con np = 0 se asigna al primer frente F1 . Después, para

todos los elementos de F1 , cada solución q ∈ Sp reduce su conteo de dominancia en uno: nq = nq −1.

Si nq = 0, entonces q se agrega a Q, el cual es un conjunto que al nal de la evaluación de F1

transferirá sus elementos al segundo frente F2 . El procedimiento anterior continúa por cada miembro

de Q para obtener el tercer frente F3 . Este proceso se repite hasta que todas las NP soluciones en P

hayan sido clasicadas en alguno de los nf frentes encontrados. En el pseudocódigo del Algoritmo 6

se muestra el procedimiento de ordenamiento rápido de no dominancia.

2.3.2.2. Preservación de la diversidad

Para obtener un conjunto óptimo de Pareto se requiere de un mecanismo que mantenga una

diversidad de individuos a lo largo del proceso de búsqueda. El algoritmo NSGA-II utiliza un método de

selección que emplea un operador conocido como comparador de apiñamiento, el cual no depende de

ningún parámetro de sintonización y está diseñado para guiar al proceso de búsqueda hacia soluciones

óptimas de Pareto que se extiendan de manera uniforme en el espacio objetivo. Este operador se

dene en función del rango de no dominancia (irank ) y de una medida de distancia (idistance ) para
2. Marco teórico 33

Algoritmo 6 Ordenamiento rápido de no dominancia.


Entrada: Población de individuos P = {p1 , . . . , pNP }
Salida: Conjunto de frentes de Pareto {F1 , . . . , Fnf }
1: para cada p ∈ P hacer
2: S=∅
3: np = 0
4: para cada q ∈ P hacer
5: si p ⪯ q entonces
6: Sp = Sp ∪ {q} // Si p domina a q, agregar q al conjunto Sp
7: si no, si q ⪯ p entonces
8: np = np + 1 // Incrementa el número de soluciones que dominan a p
9: n si
10: n para
11: si np = 0 entonces
12: prank = 1
13: F1 = F1 ∪ {p} // p se agrega al primer frente
14: n si
15: n para
16: i = 1 //Inicalizar el contador de frentes
17: mientras Fi ̸= ∅ hacer
18: Q = ∅ // Q se usa para almacenar los miembros del siguiente frente
19: para cada p ∈ Fi hacer
20: para cada q ∈ Sp hacer
21: nq = nq − 1
22: si nq = 0 entonces
23: qrank = i + 1
24: Q = Q ∪ {q} // q se agrega al i-ésimo frente
25: n si
26: n para
27: n para
28: i=i+1
29: Fi = Q
30: n mientras
31: devolver {F1 , . . . , Fnf }

una solución pi . El rango de no dominancia de las soluciones de un conjunto P = {p1 , . . . , pNP } que

fueron previamente clasicadas en nf frentes de Pareto, está en función del frente al que pertenece

cada solución, es decir, si pi ∈ Fj , entonces irank = j . Por otro lado, la medida de distancia idistance

se emplea para evaluar la densidad de soluciones no dominadas alrededor de un punto pi .


34 2.3. Optimización multiobjetivo

2.3.2.3. Estimación de densidad local

Para obtener una aproximación de la densidad local de una solución pi ∈ F , se utiliza una

medida conocida como distancia de apiñamiento (del inglés crowding-distance), la cual se denota

como idistance . Este valor representa el perímetro del cuboide cuyos vértices se forman con los puntos

pi−1 y pi+1 , los cuales son los más cercanos a pi en F con respecto a cada función objetivo, como
se muestra en el ejemplo de la Figura 2.10.

Figura 2.10: Ejemplo del cálculo de distancia de apiñamiento (idistance ) para la solución pi , la cual
representa el perímetro del cuboide cuyos vértices se forman por las soluciones pi−1 y pi+1 .

El cálculo de esta distancia se realiza a través de un ciclo que se repite por cada objetivo de

optimización. Por lo tanto, para la j -ésima función de costo, el procedimiento inicia ordenando de
2. Marco teórico 35

forma ascendente a todas las soluciones de acuerdo con su valor de aptitud. Después, al primer y

último elemento se les asigna un valor de distancia de apiñamiento igual a innito. Posteriormente,

la distancia para cada solución intermedia se calcula con la diferencia normalizada del desempeño

de sus dos soluciones adyacentes. La normalización se lleva a cabo al dividir dicha diferencia entre

el término (fjmax − fjmin ), donde fjmax y fjmin indican la aptitud en la j -ésima función de costo de

las soluciones que tienen el máximo y el mínimo desempeño, respectivamente. Así, el valor total

de la distancia de apiñamiento consiste en la suma de los valores obtenidos para cada objetivo.

La complejidad computacional de este proceso está gobernada por el algoritmo de ordenamiento.

Por ello, debido a que se realizan k ordenamientos independientes de al menos NP soluciones, este

procedimiento tiene una complejidad computacional de O(k(NP ) log(NP )) [31].

Después de obtener una estimación de la densidad local de las soluciones no dominadas, éstas se

pueden comparar entre sí en términos de su grado de proximidad en el espacio objetivo. El Algoritmo 7

muestra los pasos para la asignación de la distancia de apiñamiento.

Algoritmo 7 Asignación de la distancia de apiñamiento.


Entrada: Conjunto de soluciones no dominadas I y número de objetivos de optimización k
Salida: Distancia de apiñamiento para cada elemento de I
1: l = |I| // Número de soluciones en I
2: para cada i ∈ I hacer
3: I[i]distance = 0 // Inicializar distancia
4: n para
5: para j = 1 hasta k hacer
6: I = ordenar(I, j) // Ordenar I con respecto al j -ésimo valor de desempeño
7: I[1]distance = ∞ // Los puntos de frontera son beneficiados para la selección
8: I[l]distance = ∞
9: para i = 2 hasta l − 1 hacer
10: // Calcular distancia para los puntos intermedios
11: I[i]distance = I[i]distance + I[i+1].j−I[i−1].j
f max −f min
j j
12: n para
13: n para
14: devolver I
36 2.3. Optimización multiobjetivo

2.3.2.4. Operador de comparación

El operador de comparación que utiliza el NSGA-II es conocido como comparador de apiñamiento

y se denota como ≺n . Así, a partir de un par de individuos pi y pj , este operador se dene como:

pi ≺n pj si (irank < jrank ) | ((irank = jrank ) & (idistance > jdistance )) (2.5)

Lo anterior indica que entre dos soluciones con diferentes rangos de no dominancia, se preere a la

solución que domine a la otra (menor rango). Por el contrario, si ambas soluciones pertenecen al

mismo frente (mismo rango de no dominancia), entonces se elige a la solución que se encuentre

en una región menos densa o que tenga menos individuos a su alrededor (mayor distancia de

apiñamiento).

2.3.2.5. Ciclo principal del algoritmo NSGA-II

El algoritmo NSGA-II comienza inicializando de forma aleatoria a una población padre P0 con NP

individuos. Después, estas soluciones se ordenan utilizando el Algoritmo 6 para generar nf frentes

de Pareto {F1 , . . . , Fnf }, en donde a cada individuo se le asigna un rango de no dominancia. En el

siguiente paso se emplean los operadores de selección, cruza y mutación para crear una descendencia

Q0 de tamaño NP . En donde los métodos de cruza y mutación corresponden a los operadores


utilizados por el GA descrito en la Sección 2.2.1, mientras que la técnica de selección se basa en un

torneo binario que utiliza el operador de dominancia ≺n .

Posteriormente, para cada generación t, se forma una población combinada Rt = Pt ∪ Qt , la cual

es de tamaño 2NP y se ordena con el Algoritmo 6. De esta manera, las soluciones que pertencen

a F1 son los óptimos de Pareto de la población Rt y deben ser seleccionados en la población Pt+1 .

Si la cantidad de individuos en F1 es menor que NP , entonces se agregan todos los individuos de


2. Marco teórico 37

los siguientes frentes en orden de su clasicación. De este modo, si el valor de NP se sobrepasa al

agregar el i-ésimo frente, entonces las soluciones de Fi se ordenan con el operador ≺n y se eligen a

los mejores individuos para obtener una población Pt+1 de tamaño NP .

Finalmente, después de obtener a Pt+1 se utilizan los operadores de selección, cruza y mutación

para generar a su respectiva descendencia Qt+1 . La Figura 2.11 muestra un ejemplo del procedimiento

descrito.

⋮ ⋮

Figura 2.11: Proceso de operaciones ejecutadas en el ciclo principal del algoritmo NSGA-II.

La diversidad entre las soluciones no dominadas se introduce con el operador ≺n , el cual es

empleado en la etapa de selección y la fase de reducción de la población. Debido a que las soluciones

compiten usando su rango de no dominancia y su valor de distancia de apiñamiento, no se requiere

ningún parámetro de diseño adicional.

El Algoritmo 8 muestra los pasos para crear los nuevos conjuntos de padres y descendientes a

partir de la t-ésima generación del proceso evolutivo.


38 2.3. Optimización multiobjetivo

Algoritmo 8 Ejecución de la t−ésima generación del NSGA-II.


Entrada: Población de padres Pt y población de descendientes Qt
Salida: Nueva generación de padres y de descendientes: Pt+1 y Qt+1
1: Rt = Pt ∪ Qt // Se combina la población de padres y de descendientes
2: Obtener {F1 , . . . .Fnf } a partir de Rt // Algoritmo 6
3: Pt+1 = ∅
4: i=1
5: repetir
6: Calcular distancia de apiñamiento para cada solución en Fi // Algoritmo 7
7: Pt+1 = Pt+1 ∪ Fi // Se incluye el i-ésimo frente en la población padre
8: i = i + 1 // Revisar el siguiente frente para la inclusión
9: hasta que |Pt+1 | + |Fi | ≤ NP // Hasta que se complete la población
10: Sort(Fi ,≺n ) // Ordenar Fi de forma descendente usando el operador ≺n
11: Pt+1 = Pt+1 ∪ Fi [1 : (NP − |Pt+1 |)] // Elegir primeros (NP − |Pt+1 |) elementos de Fi
12: Aplicar selección, cruza y mutación a Pt+1 para crear Qt+1
13: devolver Pt+1 y Qt+1

2.3.3 Selección automática de soluciones no dominadas

Encontrar todos los puntos del frente de Pareto (F ) representa un desafío importante para los

algoritmos MOP. Sin embargo, esta tarea puede ser innecesaria si un tomador de decisiones experto

en el problema en cuestión solo tiene interés en alguna región especial de F .

Por otra parte, en la literatura especializada se suele recomendar la selección automática de

soluciones de tipo knee (i.e., rodilla) cuando no se tiene una preferencia clara por ningún criterio de

optimización. En este tipo de soluciones, una pequeña mejora en el valor de una función de costo

genera una notable degradación con respecto a uno o más objetivos [109]. Por ello, en un problema de

optimización con dos objetivos, como el que se plantea en este trabajo de investigación, un punto de

rodilla en F señala a la solución con las máximas tasas marginales de rendimiento, es decir, el punto

en el que una pequeña mejora en un objetivo provoca una grave degradación en el otro [68].

Das [26] propuso uno de los primeros métodos empleados para localizar puntos de rodilla. Este

algoritmo se basa en la técnica de intersección del límite normal (NBI, por sus siglas en inglés), la
2. Marco teórico 39

cual representa un esquema de escalarización para generar un conjunto de soluciones no dominadas

uniformemente espaciadas. En el caso de un problema de optimización con dos objetivos se traza

una línea que une a las soluciones de los extremos de F (también conocidas como puntos de borde).

Esta línea se denomina cubierta convexa mínima individual (CHIM, por sus siglas en inglés), y el

punto de interés corresponde a la solución que tiene la distancia máxima de la proyección ortogonal

con respecto a CHIM. La Figura 2.12 muestra un ejemplo de la detección de un punto de rodilla a

partir de un conjunto de soluciones no dominadas.

Figura 2.12: Izquierda: Detección de un punto rodilla para un problema bi-objetivo. Frente de
Pareto F con una región K que indica una zona de compromiso entre ambos objetivos. Derecha:
Selección automática de una solución no dominada a partir de la distancia máxima de la proyección
ortogonal con respecto a CHIM.

2.4 Estimación de la función de densidad de

probabilidad

En este trabajo se proponen estrategias IS de tipo lter que buscan preservar la función de

densidad de probabilidad (PDF, por sus siglas en inglés), del conjunto de datos original X en el
40 2.4. Estimación de la función de densidad de probabilidad

subconjunto seleccionado X̂. Debido a que X ∈ RN ×D representa un conjunto de datos multivariable,

se requiere denir un método capaz de estimar automáticamente la PDF de las D variables que son

consideradas aleatorias. A continuación se describen los conceptos necesarios para comprender el

funcionamiento del método utilizado.

2.4.1 Variables aleatorias y distribución de probabilidad

Una variable aleatoria X toma el resultado de un experimento no determinista, por lo que puede

adquirir diferentes valores dentro de un espacio de probabilidad. Así, la distribución de probabilidad

de X es una función P (X) que relaciona todo posible resultado de un experimento aleatorio con su

respectiva probabilidad de ocurrencia. Por lo tanto, P (X) representa una descripción matemática

de un fenómeno aleatorio en términos de un espacio muestral (S ) y la probabilidad de incidencia de

los posibles eventos.

En una distribución de probabilidad continua la variable aleatoria X puede tomar cualquier

valor x ∈ R dentro de un intervalo [a, b], por lo que S ⊂ R, donde cada posible valor de X

tiene una probabilidad de ocurrencia innitesimal que estadísticamente equivale a cero, es decir,

P (X = x) = 0 [43].

2.4.2 Función de densidad de probabilidad

La PDF de una variable aleatoria continua X , denotada como fX (x), es no negativa y cumple

con la propiedad S fX (x) = 1. De esta forma, la PDF describe la probabilidad de que la variable
R

aleatoria se encuentre dentro de un rango particular de valores; por lo tanto, la probabilidad de que X

tome un valor dentro del intervalo [a, b] es igual al área bajo la curva de fX (x) denida como:

Z b
P [a ≤ X ≤ b] = fX (x)dx (2.6)
a
2. Marco teórico 41

dP (X)
De lo anterior se sigue que fX (x) = dx
. Además, en una distribución continua se puede

aproximar P (X = α) como:

Z α+ 2δ
δ δ
P [α − < X < α + ] = fX (x)dx (2.7)
2 2 α− 2δ

donde [α − 2δ , α + 2δ ] es un intervalo muy pequeño tal que α ∈ S y δ representa un incremento

innitesimal. En general, se puede considerar que fX (x)dx es la probabilidad de que X tome un

valor dentro del intervalo [x, x + dx], como se muestra en el ejemplo de la Figura 2.13 para una

combinación lineal de funciones normales [10].

Figura 2.13: PDF continua fX (x) = 0.7N (6, 2) + 0.3N (12, 3) en donde fX (x)dx indica la
probabilidad de que X tome cualquier valor dentro del intervalo innitesimal [x, x + dx].

2.4.3 Estimación de densidad de kernel

Para calcular la PDF de un conjunto de datos multivariable se utiliza la estimación de densidad

de kernel (KDE, por sus siglas en inglés), también conocida como ventanas de Parzen. KDE es un

método no paramétrico que no requiere información a priori sobre el tipo de distribución original de

los datos y es capaz de estimar distribuciones arbitrarias de una variable aleatoria continua.
42 2.4. Estimación de la función de densidad de probabilidad

Sea x1 , . . . , xn , un conjunto de muestras independientes e identicamente distribuidas (i.i.d.)

tomadas de una distribución cuya función de densidad se denota como p(x), con x ∈ RD ; este

método estima la probabilidad de que un patrón xi se encuentre dentro de una región R que

pertenece a un espacio muestral S ⊂ RD . Para ello se calcula la probabilidad de que κ de estas n

instancias se localicen en R, lo cual obedece a la ley binomial p(κ) = nκ pκ (1 − p)(n−κ) , en donde




el estimador de máxima verosimilitud para p es p̂ = κ/n. En este método, p se asume constante en

toda la extensión de R y la PDF se estima como [36]:


p(x) ≡ p̂(x̂) ≈ (2.8)
V n

donde x̂ es el punto central de R, cuya extensión viene dada por V = hD , siendo h un parámetro

conocido como ancho de banda, el cual dene el alcance de R en cada dimensión de RD .

Para suavizar la estimación de p̂(x̂) en (2.8) se puede modelar la región R mediante una función

kernel, la cual indica cómo se distribuye la inuencia de cada muestra en el resultado de la estimación.

Por ello, en esta investigación se utiliza el kernel Gaussiano con media cero y varianza unitaria:

1 u2
ϕN (u) = exp(− ) (2.9)
2π (D/2) 2

El método KDE utiliza un conjunto de m puntos x̂1 , . . . , x̂m distribuidos de forma equidistante

sobre el espacio muestral S ⊂ RD , los cuales representan los centros de m funciones Gaussianas. De

esta manera, se calcula la estimación de p̂(x̂i ), para i = 1, . . . , m. En este caso, si n → ∞ y m es

lo sucientemente grande para cubrir adecuadamente a S , entonces p̂(x̂) → p(x).

Por lo tanto, la estimación de la PDF desconocida se aproxima mediante el promedio de m

funciones Gaussianas como:


2. Marco teórico 43

n  
1X 1 ∥x̂i − xj ∥2
p̂(x̂i ) = ϕN , i = 1, . . . , m (2.10)
n j=1 V h

donde ∥ · ∥2 denota distancia Euclidiana.

Finalmente al simplicar la expresión en (2.10), el estimador queda denido como:

n
1X
p̂(x̂i ) = δN (x̂i , xj ), i = 1, . . . , m (2.11)
n j=1

La Figura 2.14 muestra un ejemplo de la aplicación del método KDE con kernel Gaussiano en

donde se comparan dos estimaciones de una PDF obtenidas con diferentes valores de m.

2.4.4 Efectos del ancho de banda

El volumen de la región R está en función del ancho de banda h, el cual se considera un factor

de escala positivo (h > 0) que se debe ajustar adecuadamente, ya que tiene una fuerte inuencia

sobre el resultado de la estimación de p(x). Si h → ∞, la amplitud de δN disminuye y el estimado

p̂(x̂) estará sobresuavizado debido a la superposición de m funciones Gaussianas muy anchas. Por
el contrario, si h → 0, la amplitud de δN aumentará y el estimado p̂(x̂) será ruidoso debido a la

superposición de m funciones Gaussianas muy angostas. La Figura 2.15 muestra un ejemplo de los

efectos de dos valores de h aplicados en la estimación de una PDF.

2.4.5 Métodos de selección de ancho de banda

El problema de selección de h está presente en la estimación de densidad de kernel. A continuación

se describen los dos tipos de selectores de anchos de banda utilizados en esta investigación.
44 2.4. Estimación de la función de densidad de probabilidad

Figura 2.14: Estimación de una PDF mediante el método KDE. Superior: Conjunto de n = 100
muestras tomadas de forma aleatoria a partir de la distribución p(x) = 0.7N (6, 2) + 0.3N (12, 3).
Centro: Estimación de p̂1 (x) utilizando m = 10 funciones Gaussianas (se obtiene una pobre
aproximación). Inferior: Estimación de p̂2 (x) con m = 30 funciones Gaussianas (se obtiene una
mejor aproximación). Nota: Las funciones Gaussianas fueron escaladas para ajustarse al rango del
eje vertical con propósitos de visualización.

2.4.5.1. Regla general de Silverman

La regla general de Silverman (SIL) es un tipo de selector de ancho de banda rápido y simple, que

es fácilmente computable. El objetivo es encontrar un valor adecuado de h para una amplia gama

de situaciones, aunque sin ninguna garantía matemática de acercarse al valor óptimo.

Los selectores de este tipo surgen por la necesidad de obtener estimaciones automáticas y rápidas

para algoritmos que requieren computar una gran cantidad de funciones de densidad. Por ello, estos

métodos proporcionan un punto de partida para la elección del parámetro de suavizado.


2. Marco teórico 45

Figura 2.15: Estimación de la PDF de una muestra aleatoria de 20 puntos tomados de la distribución
p(x) = 0.7N (6, 2) + 0.3N (12, 3). p̂1 (x̂) se obtiene con h = 2, lo que resulta en una estimación
sobresuavizada debido a que se atenúan formas básicas de la distribución de los datos. Por otra parte,
p̂2 (x̂) se obtiene utilizando h = 0.3, en donde se generan picos no deseados.

La regla SIL se emplea con ventanas de kernel Gaussiano para realizar estimaciones de datos

univariantes provenientes de una combinación lineal de distribuciones normales.

4σ 5
 
1
h= ≈ 1.06σn− 5 (2.12)
3n

donde σ es la desviación estándar y n es el número de muestras. Aunque esta regla es fácil de

computar debe ser empleada con precaución, ya que produce estimaciones inexactas cuando la

densidad verdadera no se aproxima a una distribución normal [94].

2.4.5.2. Regla de plug-in directa

La regla de plug-in directa (DPI, por sus siglas en inglés), se basa en la idea de conectar las

estimaciones de las cantidades desconocidas que aparecen en la formulación del ancho de banda

asintóticamente óptimo descrito en el Apéndice A. Una versión de este tipo de selector para x ∈ R

con n muestras y un kernel Gaussiano se basa en los siguientes pasos [91, 100]:
46 2.4. Estimación de la función de densidad de probabilidad

1. Estimar ψ8 dado un estimador de dispersión σ̂ (desviación absoluta mediana):

105
ψ̂8σ̂ = 1 (2.13)
32π 2 σ̂(x)9

2. Estimar ψ6 usando el estimador ψ̂6 (g1 ) donde:

! 91
11.9683
g1 = (2.14)
ψ̂8σ̂ n

3. Estimar ψ4 usando el estimador ψ̂4 (g2 ) donde:

! 71
2.3937
g2 = − (2.15)
ψ̂6 (g1 )n

4. El ancho de banda seleccionado es:

! 51
0.2821
h= (2.16)
ψ̂4 (g2 )n

En los pasos 2 y 3 el estimador ψ̂r (g) se calcula como:

n X
n  
X (r) xi − xj
−1 −r−1
ψ̂r (g) = (n(n − 1)) g ϕN (2.17)
i=1 j=1
g

(r)
donde ϕN es la r-ésima derivada de ϕN .
2. Marco teórico 47

2.5 Medida de similitud entre funciones de densidad de

probabilidad

En este trabajo de investigación se proponen métodos IS enfocados en preservar la PDF del

conjunto original X en el subconjunto seleccionado X̂, por esta razón se requiere comparar las PDFs

de ambos conjuntos. Para lograr esto se utiliza una medida de divergencia distribucional conocida

como distancia de Hellinger, la cual permite cuanticar la similitud entre dos distribuciones de

probabilidad denidas sobre un mismo espacio muestral.

Sean p(x) y q(x) dos PDFs que describen la distribución de probabilidad de un conjunto nito

de n muestras independientes x1 , . . . , xn , sobre un espacio muestral S ⊂ R, la distancia de Hellinger

se dene como: s Z
1 p p 2
H(p, q) = p(x) − q(x) dx (2.18)
2 S

donde H se expresa en términos de la integral de Hellinger y satisface la propiedad 0 ≤ H ≤ 1.

De esta manera, si H → 0, entonces ambas funciones de densidad convergen. Por el contrario, si

H → 1 signica que ambas funciones de densidad divergen [25].

A diferencia de otras medidas divergencia distribucional como la entropía relativa y la métrica de

Wasserstein, la distancia de Hellinger está acotada en el rango [0, 1], lo cual representa una propiedad

útil, ya que no se requiere normalizar; además, puede ser empleada en un esquema de optimización

con una función objetivo ponderada, en donde todos los objetivos están denidos en el mismo rango

operativo [66].

La Figura 2.16 muestra un ejemplo en donde se utiliza H para medir la similitud entre una PDF

original y dos funciones de densidad estimadas con el método KDE empleando las reglas SIL en (2.12)

y DPI en (2.16) para el cálculo de h.


48 2.6. Árboles de enlace

Figura 2.16: Estimación de dos PDFs a partir de una muestra aleatoria de 100 puntos tomados de
la distribución p(x) = 0.7N (6, 2) + 0.3N (12, 3). p̂1 (x̂) se obtiene con la regla SIL y p̂2 (x̂) se calcula
con DPI. Al utilizar la distancia de Hellinger se obtiene H1 (p, p̂1 ) = 0.104 y H2 (p, p̂2 ) = 0.029.

2.6 Árboles de enlace

Los algoritmos de agrupamiento se encargan de particionar un conjunto de datos en varios

grupos disjuntos. Estos representan una colección de elementos con características similares que

se analizan para encontrar relaciones ocultas entre los datos. Además, estas técnicas conforman un

tipo de aprendizaje automático conocido como no supervisado, en donde no se requiere conocer la

información de las etiquetas de clase.

Las técnicas de agrupamiento jerárquico se encargan de combinar los datos empleando

una secuencia de particiones anidadas que pueden ser aglomerativas o divisivas. Los métodos

aglomerativos inician con un conjunto de muestras en donde cada una forma un grupo diferente, y

aquellas que comparten características similares se van combinando de manera progresiva; al nal se

obtiene un sólo grupo que incluye a todas las instancias del conjunto original [53].

En el agrupamiento aglomerativo se construye una estructura jerárquica conocida como árbol de

enlace. El primer paso consiste en asignar cada instancia a un grupo independiente; así, las diferentes

muestras representan a los nodos hoja del árbol. En las etapas posteriores, los grupos formados en

un determinado nivel de la estructura se van combinando con los que se encuentran en los siguientes
2. Marco teórico 49

niveles utilizando un criterio de distancia. El proceso anterior se repite hasta que se alcance el nodo

raíz, en donde todas las muestras forman parte de un único grupo. El árbol de enlace se representa

grácamente por medio de un dendrograma. Por ello, para un conjunto de datos con N instancias,

el dendrograma tendrá N nodos hoja y N − 1 nodos internos, los cuales indican los diferentes niveles

de jerarquía. Por otra parte, para obtener una partición se debe elegir un punto de corte denido

por un valor de altura en el dendrograma. La Figura 2.17 muestra un ejemplo de un agrupamiento

jerárquico representado por un árbol de enlace [104].

De forma general, la complejidad computacional de un método de agrupamiento aglomerativo

aplicado en un conjunto de N instancias es O(N 3 ). Sin embargo, se han propuesto algoritmos más

ecientes cuya complejidad computacional es O(N 2 ) [33, 92].

Figura 2.17: Ejemplo de un dendrograma de un árbol de enlace. En ambos lados se observa la


dirección del proceso de agrupamiento para los casos aglomerativo (izquierda) y divisivo (derecha).
Se utiliza el punto de corte indicado por la línea discontinua y se obtiene una partición con cuatro
grupos descritos por los subconjuntos: {q1 , q2 }, {q3 }, {q4 , q5 , q6 , q7 }, {q8 , q9 , q10 }.

Un árbol de enlace T de un conjunto de datos X ∈ RN ×D , se crea a partir de un algoritmo

de agrupamiento jerárquico aglomerativo, en donde se extiende el concepto de métrica de distancia

para grupos de muestras. El tipo de distancia utilizada se denomina enlace y mide la simulitud entre
50 2.6. Árboles de enlace

cada par de grupos. En esta investigación se utiliza el agrupamiento de enlace completo (CLC, por

sus siglas en inglés), en el que se da preferencia a la creación de grupos compactos con diámetros

pequeños. Por lo anterior, la distancia de enlace completo entre dos grupos se dene como:

dCLC (A, B) = max d(a, b) (2.19)


a∈A,b∈B

donde A y B son dos grupos independientes, mientras que d(a, b) indica la distancia entre los

elementos a ∈ A y b ∈ B .

Por otra parte, la Figura 2.18 muestra un ejemplo de un enlace completo entre dos grupos,

mientras que el pseudocódigo del Algoritmo 9 presenta los pasos del método CLC [39].

Figura 2.18: Ejemplo de un enlace completo a partir de las muestras de dos grupos A y B .

Algoritmo 9 Agrupamiento de enlace completo (CLC)


Entrada: Conjunto de datos X = {x1 , . . . , xN }
Salida: Árbol de enlace: T
1: Crear los nodos hoja de T con los N elementos de X para formar N grupos independientes
2: repetir
3: Calcular una matriz de distancias entre cada par de grupos con dCLC // Ecuación (2.19)
4: Los dos grupos más cercanos se combinan y se crea el siguiente nivel de T
5: hasta que se alcance el nodo raíz (un único grupo)
6: devolver T
2. Marco teórico 51

2.7 Métricas de distancia

Una métrica es la formalización matemática de una función de distancia. En este contexto, dado

un conjunto no vacío X , una función d : X × X → R se denomina métrica, si para tres elementos

{x1 , x2 , x3 } ∈ X se cumplen las siguientes propiedades:

1. No negatividad: d(x1 , x2 ) ≥ 0.

2. Reexividad: d(x1 , x1 ) = 0.

3. Identidad de los indiscernibles: d(x1 , x2 ) = 0 ⇔ x1 = x2 .

4. Simetría: d(x1 , x2 ) = d(x2 , x1 ).

5. Desigualdad triangular: d(x1 , x2 ) + d(x2 , x3 ) ≥ d(x1 , x3 ).

Los puntos anteriores son conocidos como axiomas de distancia. En este contexto, la tupla (X ,d)

es un espacio métrico, en donde el valor de la función d(x1 , x2 ) corresponde a la distancia entre dos

elementos en el conjunto X [90].

2.7.1 Distancia Minkowski

La distancia Minkowski corresponde a una clase general de métricas que están denidas en un

espacio vectorial normado, en donde para dos elementos {x, y} ∈ RD se dene como [36]:

D
!1/q
X
Lq (x, y) = |xi − yi |q (2.20)
i=1

donde q es un parámetro que indica el orden. Además, existen algunos casos particulares comúnmente

empleados en la literatura, los cuales son: L1 , distancia Manhattan o city block; L2 , distancia

Euclidiana y L∞ , distancia Chebyshev.


52 2.7. Métricas de distancia

Por otra parte, en algunas aplicaciones de análisis de datos, como la construcción de modelos de

clasicación empleando el algoritmo k NN en espacios de altas dimensiones, se recomienda utilizar

distancias de orden fraccional, esto es q ∈ (0, 1). Sin embargo, en estos casos la distancia Minkowski

no se considera formalmente una métrica ya que viola la desigualdad triangular [105]. La Figura 2.19

muestra algunos ejemplos de circulos unitarios para diferentes valores de q [8].

Figura 2.19: Círculos formados por puntos medidos a una distancia de 1.0 a partir del origen con
la métrica Minkowski en un espacio R2 para diferentes valores de q .

2.7.2 Distancia de Yang

Yang et al. [105] diseñaron una nueva familia de métricas. En su estudio, los autores realizaron

una experimentación exhaustiva en donde se demostró que las distancias propuestas superan a la

familia de métricas Lq cuando se emplean en aplicaciones de análisis de datos utilizando patrones

reales de alta dimensionalidad. El Apéndice B muestra un estudio comparativo de estas dos métricas

en donde se mide su desempeño al evaluar distancias en altas dimensiones.

La familia de métricas de Yang se diseñó para ser usada en espacios vectoriales normados y se

dene como: !q !q !1/q


X X
Mq (x, y) = xi − yi + y i − xi (2.21)
i:xi ≥yi i:xi <yi

donde i = 1, . . . , D, con {x, y} ∈ RD . Por otro lado, el parámetro q indica el orden de la familia de

distancias. Particularmente, si q = 1, la métrica en (2.21) es equivalente a la distancia L1 .


2. Marco teórico 53

La Figura 2.20 muestra algunos ejemplos de circulos unitarios en R2 para diferentes valores de q

utilizando la familia de distancias de Yang.

Figura 2.20: Círculos formados por puntos medidos a una distancia de 1.0 a partir del origen con
la métrica de Yang en un espacio R2 para diferentes valores de q .

2.8 Resumen

En este capítulo se describieron los conceptos fundamentales y los algoritmos más importantes

empleados en el desarrollo de este trabajo de investigación. Primero se detallaron algunas técnicas

de IS considerando las estrategias clásicas que se basan en el algoritmo k NN y los conceptos

fundamentales de los métodos evolutivos como la codicación de las soluciones y el diseño de la

función objetivo. Después, se explicó el funcionamiento de los algoritmos de optimización global

y multiobjetivo empleados en las técnicas propuestas en esta investigación. Seguido de esto, se

describió el método usado para la estimación de las funciones de densidad de probabilidad y la

distancia estadística para medir la similitud entre estas. Posteriormente, se expuso un algoritmo de

agrupamiento jerárquico que se utiliza para construir árboles de enlace, los cuales son fundamentales

para la nueva codicación de las soluciones propuesta. Finalmente, se describieron dos familias de

métricas de distancia utilizadas en la construcción de árboles de enlace.


3
Estado del arte

En el presente capítulo se describen los principales algoritmos reportados en la literatura que

utilizan metaheurísticas para resolver el problema IS desde un enfoque de optimización global y

multiobjetivo. La mayoría de estas técnicas emplean métodos poblacionales, donde los más utilizados

son optimización por cúmulo de partículas (PSO, por sus siglas en inglés), optimización por colonia de

hormigas (ACO, por sus siglas en inglés) y algoritmos evolutivos (EAs, por sus siglas en inglés). Estas

técnicas son inspiradas por mecanismos presentes en la naturaleza que permiten a los organismos

evitar depredadores, recolectar alimentos y adaptarse mejor a su ambiente. Por ejemplo, los EAs se

basan en el concepto Darwiniano de supervivencia del más apto. Con respecto a la representación del

problema IS, la mayoría de los métodos propuestos emplea una codicación binaria explícita.

55
56 3.1. Selección de instancias con optimización global

3.1 Selección de instancias con optimización global

Kuncheva [65] propone un algoritmo genético (GA, por sus siglas en inglés), con una codicación

binaria, en donde la función objetivo combina la tasa de error de un clasicador k NN y un factor para

suavizar las fronteras de las clases. Estos criterios permiten que el algoritmo realice una selección

equilibrada y no esté condicionado a remover únicamente muestras lejanas o cercanas a las fronteras

de decisión. En ese trabajo se comparan los resultados con un método clásico conocido como la regla

del vecino más cercano editado (ENN, por sus siglas en inglés) y un muestreo aleatorio. Las instancias

seleccionadas se emplean en un modelo de clasicación basado en la regla k NN. Los resultados de

ese método wrapper son competitivos en relación con los otros algoritmos comparados.

Reeves y Taylor [86] proponen otro método EA de tipo wrapper con un GA. Esta técnica utiliza

una red de función de base radial (RBFN, por sus siglas en inglés) para guiar el proceso de búsqueda

hacia subconjuntos de entrenamiento que maximicen el desempeño de clasicación. Se utiliza una

codicación binaria explícita y un operador de cruza llamado recombinación de surtido aleatorio

(RAR, por sus siglas en inglés). Ese operador presenta dos variantes, en una todos los bits que son

comunes a ambos padres se transmiten a los hijos. Por otro lado, también se dene una alternativa

en donde la descendencia puede consistir en puntos que pertenecen únicamente a uno de los padres.

En la etapa de experimentación se utilizan datos sintéticos y del mundo real. Los resultados indican

que los subconjuntos obtenidos son competitivos con respecto al uso del conjunto de entrenamiento

original y una selección aleatoria.

Sierra et al. [93] emplean un algoritmo de estimación de la distribución (EDA, por sus siglas en

inglés) para IS y selección de características (FS, por sus siglas en inglés) en un conjunto de datos

de información clínica. Utilizan una codicación binaria de longitud n + m, donde n es el número

de atributos y m es el número de instancias. El subconjunto de datos obtenido se usa para entrenar

una red neuronal articial (ANN, por sus siglas en inglés), un árbol de decisión C4.5 y el clasicador
3. Estado del arte 57

k NN. Los resultados muestran que ese método obtiene subconjuntos que mejoran el desempeño del
conjunto de datos original en términos de la exactitud de clasicación.

Cano et al. [13] reportan una serie de algoritmos de tipo wrapper basados en cuatro EAs

diferentes. En todas las variantes propuestas la función objetivo realiza una combinación lineal de la

exactitud de clasicación de la regla 1NN y el porcentaje de reducción de instancias. La representación

de los individuos se realiza con codicación binaria para IS. Los resultados experimentales muestran

que los algoritmos propuestos superan a los métodos contra los cuales se compararon. Además,

en ese trabajo se evalúa un modelo de clasicación de un árbol de decisión C4.5 entrenado con

los subconjuntos seleccionados. Se determinó que la exactitud de clasicación obtenida sobre un

conjunto de prueba es pobre. Los autores concluyen que se presenta un sobreajuste en el modelo

debido a que el proceso de selección es guiado por el algoritmo 1NN mientras que la evaluación se

realizó en un árbol de decisión.

García et al. [44] presentan un método EA para tratar el problema del desbalanceo de clases

utilizando IS. En ese trabajo se emplea una representación binaria simple. Por su parte, la función

objetivo realiza una combinación lineal de la exactitud de clasicación del algoritmo 1NN y la tasa

de reducción. Para obtener subconjuntos de datos balanceados el desempeño de clasicación se mide

utilizando la media geométrica de la tasa de verdaderos positivos y de verdaderos negativos. Por otro

lado, el porcentaje de reducción se cuantica considerando el cociente n+ /n− , donde n+ y n− son

el número de instancias de las clases minoritaria y mayoritaria, respectivamente.

García et al. [47] diseñan un algoritmo memético (MA, por sus siglas en inglés) que utiliza una

búsqueda local para tratar con el problema del escalamiento (del inglés scaling up problem), el cual

surge cuando se trabaja con conjuntos de datos masivos donde los EAs pueden tener problemas por

falta de convergencia. La función objetivo considera la exactitud de clasicación de la regla 1NN

y la tasa de reducción. El método emplea una codicación binaria clásica para IS. Los resultados

muestran un mejor desempeño con respecto a los métodos comparados.


58 3.1. Selección de instancias con optimización global

Zhai y He [107] proponen un método de IS para problemas de clasicación de series de tiempo.

El algoritmo combina mecanismos de sistemas inmunes articiales con un PSO binario, por lo que

utiliza una codicación binaria clásica. La función objetivo pondera la tasa de reducción y la exactitud

de clasicación. El método incluye los mecanismos de vacunación y selección inmunológica. La

vacunación emplea la puntuación de las series de tiempo y la inercia de las partículas como información

heurística para dirigir el proceso de búsqueda. Por otra parte, la selección inmunológica descarta a

la partícula con el peor valor de desempeño en el enjambre actual para prevenir la degradación en

la calidad de las soluciones. Los resultados muestran que el método supera a sus contrapartes en

relación a la tasa de reducción, exactitud de clasicación y robustez frente a instancias ruidosas.

Tsai et al. [98] utilizan un GA para realizar las tareas de IS y FS. Emplean varias conguraciones

para realizar la experimentación. En un esquema únicamente se utiliza IS, en otro se realiza primero

IS y después FS, y en un esquema alternativo se hace el procedimiento anterior de forma inversa.

Emplean la codicación binaria clásica para IS y la función objetivo se basa en el algoritmo de

aprendizaje de la red bayesiana. Los patrones seleccionados se utilizan como entrenamiento en los

clasicadores SVM y k NN. Los resultados del esquema simple de IS indican que los modelos obtenidos

con una SVM tienen mejores desempeños en términos de exactitud de clasicación.

Tsai et al. [97] proponen un EA para la tarea de clasicación de texto llamado algoritmo genético

de base biológica (BGA, por sus siglas en inglés), el cual utiliza unos operadores de variación que

permiten explorar de forma más eciente el espacio de búsqueda. En ese método se utiliza una

codicación binaria explícita. Cabe señalar que los subconjuntos obtenidos se emplean como patrones

de entrenamiento en los clasicadores SVM y k NN. La propuesta se compara contra un GA estándar

y cuatro algortimos de tipo wrapper reportados en la literatura basados en el clasicador k NN. Los

resultados experimentales muestran que el método propuesto es competitivo con respecto al GA

estándar y supera a los otros algoritmos comparados en términos de dos medidas de desempeño

relacionadas con la exactitud de clasicación y la tasa de reducción.


3. Estado del arte 59

Anwar et al. [6] utilizan un algoritmo de optimización por colonia de hormigas (ACO, por sus

siglas en inglés) para realizar la tarea IS. Emplean cinco algoritmos de clasicación para realizar la

reducción: 1NN, Naive Bayes (NB), poda incremental repetida (RIPPER, por sus siglas en inglés),

árbol de decisión C4.5 y SVM. En la etapa de experimentación se seleccionan dos clasicadores:

Mi y Mj , con i, j = {1, 2, 3, 4, 5}; con el primero se lleva a cabo la tarea IS y con el segundo se
construye el modelo de clasicación nal, por lo que se tienen 25 combinaciones de ese esquema

de experimentación. En el gráco de construcción cada instancia tiene dos componentes, los cuales

indican si dicha instancia formará o no parte del subconjunto seleccionado. Las hormigas recorren

el grafo seleccionando instancias que mejoran el desempeño de clasicación del modelo Mi . Los

resultados muestran que en tres de los cinco casos donde se cumple que i = j se obtiene el mejor

desempeño de clasicación.

Aldana et al. [5] proponen un método lter basado en la teoría de la información y en un EA.

Utilizan una codicación binaria para representar dos enteros, los cuales consisten en el número de

instancias a seleccionar y una semilla aleatoria para realizar un muestreo. La función objetivo considera

la reducción de instancias y tiene dos restricciones: (1) diferencia de entropía entre los conjuntos

de datos y (2) proporción de elementos entre los cuantiles de cada clase. En ese método se usa un

clasicador Bayesiano. Los resultados indican que el algoritmo alcanza una tasa de reducción alta y

logra preservar la información de los cuantiles de cada clase del conjunto original.

Triguero et al. [96] presentan un método de IS para el balanceo de clases en problemas de

clasicación binaria. Emplean un GA que combina una estrategia de selección conservadora con un

operador de cruza altamente disruptivo (CHC, por sus siglas en inglés). La función objetivo realiza

una combinación lineal de la tasa de reducción y la exactitud de clasicación de la regla 1NN. Por otro

lado, utilizan una codicación binaria explícita para representar a las instancias de la clase mayoritaria.

Además, debido a que trabajan con millones de instancias emplean la plataforma de software libre

Apache Spark, la cual se especializa en el manejo de conjuntos de datos masivos.


60 3.1. Selección de instancias con optimización global

Akinyelu et al. [3] proponen un algoritmo de selección de instancias basado en un ACO (ACOISA,

por sus siglas en inglés) para la optimización de la velocidad de entrenamiento de una SVM. En una

primera etapa, el algoritmo ACO es empleado para la detección de bordes y posteriormente se utiliza

la regla k NN como una heurística para elegir instancias cercanas a las fronteras de decisión de las

clases. Los resultados muestran que la reducción del número de instancias no afecta signicativamente

el desempeño de clasicación del modelo de SVM.

Karunakaran et al. [60] proponen un método de reducción de datos que realiza la tarea FS

seguida de un proceso IS. En ambas etapas se combina la metaheurística de optimización global

CFA (del inglés Cuttlesh Optimization Algorithm) con una búsqueda tabú. Las soluciones se

inicializan aleatoriamente y cada una representa un subconjuntos de instancias. Después se ejecutan

los operadores del algoritmo CFA y se aplica una búsqueda tabú para explorar el vecindario de cada

solución obtenida. La función objetivo evalúa el desempeño de clasicación de un árbol de decisión,

mientras que el porcentaje de reducción de instancias se establece como una restricción. Los patrones

seleccionados entrenan una SVM y un clasicador k NN; éstos modelos logran desempeños similares

a los entrenados con el conjunto original.

Lin et al. [69] presentan un método para seleccionar instancias y características. Utilizan un

algoritmo MA junto con un método de búsqueda local denominado VNS (del inglés, variable

neighborhood search). La representación de los individuos se hace mediante una codicación binaria

explícita con un vector binario de tamaño N + D, donde N y D son la cantidad de instancias y

características del conjunto de datos, respectivamente. La función de costo realiza una combinación

lineal de la tasa de reducción de instancias, la exactitud de clasicación y una función de suavidad

que se encarga de ajustar la inuencia de la reducción de características en el valor de desempeño

de la solución. Los resultados sobre seis conjuntos de datos ruidosos muestran que ese método es

capaz de ltrar ecientemente los datos ruidosos. Además, el modelo entrenado por los subconjuntos

seleccionados puede reducir notablemente el costo computacional en la tarea de clasicación.


3. Estado del arte 61

Zahi y Song [106] emplean validación cruzada junto con el paradigma divide y vencerás para

denir un nuevo criterio llamado entropía de información combinada que utiliza múltiples modelos

de clasicación entrenados para medir la aptitud de un subconjunto de instancias. El método se

implementa en dos plataformas de código abierto llamadas Hadoop y Spark y se evalúa con cuatro

conjuntos de datos de problemas del mundo real, en donde el más grande cuenta con un millón de

instancias. Por lo anterior, el conjunto de datos se divide en k pliegues con Ni instancias cada uno,

donde i = 1, . . . , k . Ese trabajo emplea un GA para encontrar los mejores subconjuntos de cada

pliegue en términos del criterio propuesto. La representación de los individuos se realiza utilizando

una codicación binaria de tamaño Ni , donde Ni es el número de instancias que contiene la k -

ésima partición de datos. El método propuesto se compara con otros tres algoritmos de la literatura

que utilizan criterios basados en la exactitud de clasicación y la tasa de reducción. Los resultados

demuestran la viabilidad del algoritmo propuesto al mostrar que alcanza resultados competitivos con

respecto a los métodos comparativos.

La Tabla 3.1 muestra un resumen de las características más importantes de los algoritmos GOP

reportados en la literatura para resolver el problema IS.

3.2 Selección de instancias con optimización

multiobjetivo

En la literatura se reporta una menor cantidad de estrategias IS utilizando MOP que empleando

GOP. A continuación se resumen la mayoría de los trabajos publicados.

Fernandez et al. [42] utilizan un algoritmo evolutivo multiobjetivo llamado NSGA-II (del inglés

Non-dominated Sorting Genetic Algorithm) [32] para IS y FS en conjuntos de datos desbalanceados

con traslape entre clases. Emplean IS para resolver el desbalanceo y remover patrones de borde
62 3.2. Selección de instancias con optimización multiobjetivo

Tabla 3.1: Resumen de los métodos IS basados en algoritmos GOP.


Representación de la Función objetivo o Clasicadores para
Método/Metaheurística Descripción solución/codicación heurística utilizada la evaluación nal Tipo de IS
Exactitud de clasicación y ANN con una capa
Emplea GA
GA (2022) [106] Binaria entropía de información oculta (SLFN, por Wrapper
en IS.
combinada. sus siglas en inglés).
Exactitud de clasicación,
Utiliza MA y VNS
MAVNS (2021) [69] Binaria tasa de reducción y RF Wrapper
para IS.
función de suavidad.
Emplea CFA y una búsqueda Vector numérico que Exactitud de clasicación y
tabú en IS y FS para maximizar codica las soluciones una restricción basada en el
CFA (2020) [60] SVM y k NN Wrapper
el desempeño de clasicación del algoritmo CFA número de instancias que se
de un árbol de decisión. (representación real). pueden seleccionar.
Utiliza ACO para detectar Recorrido en un grafo La actualización de feromonas
ACOISA (2019) [3] bordes y luego usa k NN de construcción dibujado se calcula con la exactitud de SVM Wrapper
para la tarea IS. por hormigas articiales. clasicación de una SVM.
Se usa CHC para problemas
Exactitud de clasicación de
de alta dimensionalidad y
CHC (2017) [96] Binaria la regla 1NN y la tasa de 1NN Wrapper
reducir costos al evaluar
reducción de instancias.
las soluciones.
GA ecléctico basado en Tasa de reducción con dos
EGA (2017) [5] teoría de la información Binaria restricciones: error de entropia Clasicador bayesiano Filter
para la tarea IS. y proporción de los cuantiles.
ACO para maximizar la Recorrido en un grafo
Actualización de feromonas 1NN, NB, RIPPER,
ADR-Miner (2015) [6] tasa de reducción y el de construcción dibujado Wrapper
con la exactitud de clasicación. C4.5 y SVM
desempeño de clasicación. por hormigas articiales.
GA para la tarea IS en la
Desempeño de clasicación
BGA (2014) [97] clasicación de documentos Entera SVM y k NN Wrapper
y tasa de reducción.
de texto.
GA para IS y FS en Desempeño de clasicación
GA estándar (2013) [98] varios esquemas de Binaria de un algoritmo de red SVM y k NN Wrapper
experimentación. Bayesiana.
PSO para IS aplicado
Exactitud de clasicación y
IBPSO (2013) [107] a la clasicación de Binaria 1NN Wrapper
la tasa de reducción de instancias.
series de tiempo.
Algoritmo memético para Exactitud de clasicación de
MA (2008) [47] tratar con el problema del Binaria la regla 1NN y la tasa de 1NN Wrapper
escalamiento en IS. reducción de instancias.
EA para resolver Exactitud de clasicación de
CHC-PS y PBIL-PS (2006) [44] desbalanceo de clases Binaria la regla 1NN y la tasa de 1NN Wrapper
utilizando IS. reducción de instancias.
Varios EAs para IS que Combinación lineal de la
GGA, SGA, CHC
maximizan el desempeño Binaria exactitud de clasicación 1NN y C4.5 Wrapper
y PBIL (2003) [13]
de un clasicador 1NN. y la tasa de reducción.
Estimar distribución de
EDA (2001) [93] EDA que realiza IS y FS. Binaria probabilidad de las ANN, C4.5 y k NN Filter
variables de decisión.
Combinación lineal de la
GA simple que realiza IS para
GA estándar (1998) [86] Binaria exactitud de clasicación RBFN Wrapper
entrenar el clasicador RBFN.
y la tasa de reducción.
GA simple basado en un 1NN Exactitud de clasicación y
GA estándar (1995) [65] y suavizado de las regiones de Binaria un factor de suvizado de las k NN Wrapper
borde. fronteras de decisión.

difíciles de clasicar, mientras que la tarea FS se usa para tratar con el problema del traslape. Las

soluciones se codican con una representación binaria. Por otra parte, el método emplea dos funciones

objetivo: (1) maximizar el desempeño de clasicación de un árbol de decisión y (2) minimizar la tasa

de reducción de instancias. Los resultados mejoran a los obtenidos con el algoritmo de generación

de datos sintéticos SMOTE-ENN [7]. Posteriormente en [41] los autores extienden su propuesta
3. Estado del arte 63

para problemas multiclase empleando un ensamble de clasicadores y la métrica F1 para medir la

superposición de clases [57].

Rosales-Pérez et al. [87] emplean un algoritmo evolutivo multiobjetivo llamado MOEA/D [108]

para IS. Diseñan dos funciones de costo que evalúan el desempeño del clasicador SVM y la tasa de

reducción, respectivamente. En ese trabajo se proponen dos variantes, la primera (EMOMFIS) es de

tipo lter y la segunda (EMOMWIS) es de tipo wrapper. En ambas se codican los parámetros de

margen suave y ancho de banda del kernel Gaussiano de una SVM. Además, en el enfoque lter, se

agrega una sección que codica algunos métodos no evolutivos de IS (técnicas clásicas). Por otra

parte, la variante wrapper utiliza una representación binaria simple. Los resultados muestran que el

método propuesto alcanza un mejor desempeño de clasicación y altos porcentajes de reducción con

respecto a las técnicas comparadas.

Kordos y Lapa [61] proponen el uso del algoritmo evolutivo multiobjetivo NSGA-II para IS en

tareas de regresión. La codicación utilizada es binaria y emplean dos funciones objetivo: (1) la raíz

del error cuadrático medio (RMSE, por sus siglas en inglés) y (2) la tasa de reducción de instancias.

El RMSE se calcula a partir de los resultados del algoritmo k NN que es utilizado para guiar el

proceso de búsqueda. Con esto se obtiene un conjunto de soluciones no dominadas que muestran un

compromiso entre la tasa de reducción y el RMSE. Los resultados revelan que el método logra un

buen desempeño en términos de la exactitud de clasicación y reducción del conjunto de datos.

Acampora [1] emplea el algoritmo de optimización multiobjetivo PESA-II [24] con una codicación

binaria clásica para el problema IS. Se proponen dos funciones objetivo para maximizar los criterios

de exactitud de clasicación de una SVM y porcentaje de reducción de instancias, respectivamente.

Además, se utiliza un mecanismo de toma de decisiones que selecciona a la solución del frente de

Pareto cuya suma de los valores de desempeño en ambas funciones objetivo sea mayor. Ese método

se compara contra otros EAs basados en optimización global y los resultados muestran obtiene un

mejor desempeño en cuanto a la exactitud de clasicación y tasa de reducción.


64 3.2. Selección de instancias con optimización multiobjetivo

Rhatte et al. [83] utilizan un algoritmo genético multiobjetivo basado en NSGA-II y CHC (del

inglés conservative selection with highly disruptive recombination) [38] que integra un operador de

selección conservador y una cruza altamente disruptiva para mantener la diversidad en la población

y conservar individuos con altos valores de desempeño. El principal desafío consiste en preservar

el elitismo y la diversidad de soluciones considerando las dos funciones objetivo: (1) exactitud

de clasicación y (2) tasa de reducción de instancias. Los individuos son codicados con una

representación binaria simple para IS. Se utiliza un clasicador k NN para guiar el proceso de búsqueda.

Los resultados muestran que los subconjuntos alcanzan tasas de reducción de más del 50 % y son

competitivos con respecto al conjunto original en términos de exactitud de clasicación.

Rathee et al. [84] utilizan un CHC con operadores de variación basados en el algoritmo NSGA-II

para los problemas IS y FS. Emplean la codicación binaria clásica para los métodos IS evolutivos.

Las dos funciones de costo maximizan: (1) el desempeño de clasicación del algoritmo k NN y (2) el

porcentaje de reducción de instancias y características seleccionadas. El método se compara con tres

algoritmos de optimización global que también resuelven las tareas IS y FS simultáneamente. Los

resultados muestran que esta propuesta obtiene un mejor desempeño de clasicación y es competitivo

con respecto a la reducción de instancias.

Hamidzadeh et al. [51] proponen tres variantes del algoritmo de optimización CKHA [89] en un

esquema multiobjetivo para conjuntos de datos con clases desbalanceadas. Esta propuesta utiliza

la codicación binaria clásica para los problemas IS. Las funciones objetivo empleadas optimizan

los criterios de exactitud de clasicación, métrica Gmean y tasa de reducción de instancias,

respectivamente. Los subconjuntos obtenidos se utilizan para entrenar una SVM. Los resultados

muestran que el método es competitivo contra los algoritmos comparados en términos de exactitud

de clasicación y tasa de reducción.

Cheng et al. [20] proponen un algoritmo de IS multiobjetivo para maximizar el desempeño de una

SVM. Ese método divide el espacio objetivo en subregiones que tienen su propia estrategia evolutiva.
3. Estado del arte 65

Cada subregión cuenta con individuos que realizan una búsqueda local y de esta forma toda la

población se encarga de hacer una búsqueda global. Por esta razón, en ese método se propone una

estrategia de inicialización y operadores de variación basados en subregiones. La representación de

los individuos se realiza con una codicación binaria simple. Además, las dos funciones objetivo se

diseñan para maximizar: (1) el desempeño de una SVM y (2) la tasa de reducción de instancias. El

método se compara contra otros algoritmos de optimización multiobjetivo propuestos en la literatura

y obtiene resultados competitivos en términos de exactitud de clasicación y tasa de reducción.

Cheng et al. [21] presentan un método de IS llamado LRIS (del inglés Large-Scale Instance

Selection) que utiliza un esquema de optimización multiobjetivo con una representación binaria

clásica para IS. Proponen una estrategia para reducir la longitud de los individuos en donde cada gen

tiene una probabilidad de ser descartado, la cual está en función de la relevancia que tiene la instancia

correspondiente en el conjunto original y la importancia de dicho gen en la población de individuos.

Además, diseñan operadores para la generación de nuevas soluciones y la restauración de individuos

que son recortados signicativamente. En ese método se emplea una evaluación de tipo wrapper con

una SVM y un k NN, respectivamente. Los resultados muestran que se alcanza un alto desempeño

en la reducción y exactitud de clasicación con respecto a los métodos comparados.

Jiménez et al. [59] proponen dos métodos de optimización multiobjetivo con restricciones para

resolver la tarea IS desde un enfoque wrapper y lter aplicados en problemas de clasicación. Utilizan

el algoritmo NSGA-II y un método de evolución diferencial multiobjetivo (MODE, por sus siglas en

inglés). La representación de las soluciones se hace utilizando una codicación mixta. La primera

sección del individuo contiene N valores binarios para representar a cada instancia del conjunto de

datos original de forma explícita. La segunda parte del individuo utiliza dos valores enteros para

codicar el tipo de operador de cruza y mutación que se utiliza en el proceso de optimización.

Finalmente, también se emplea un valor real en el rango [0, 1] para codicar la probabilidad de

mutación de la sección binaria del vector de solución. En el método wrapper se utilizan los criterios
66 3.2. Selección de instancias con optimización multiobjetivo

de minimización del error de clasicación y del número de instancias seleccionadas. Por otro lado,

para el enfoque lter optimiza simultáneamente tres funciones que miden la correlación, redundancia

y consistencia de los conjuntos de datos, respectivamente. Además, se impone una restricción para

retener un porcentaje máximo de muestras, establecido por un tomador de decisiones en escenarios

de grandes cantidades de datos. Los enfoques propuestos se comparan entre sí, además de ser

medidos contra modelos de optimización de dos y tres objetivos, dos técnicas diferentes de manejo

de restricciones, y otros 12 enfoques no evolutivos utilizados en la literatura. Los resultados de los

experimentos muestran la superioridad de las técnicas propuestas en ese trabajo sobre las técnicas

no evolutivas y sobre los enfoques evolutivos de dos objetivos utilizados en la literatura.

La Tabla 3.2 presenta un resumen de las estrategias IS basadas en algoritmos MOP descritas en

esta sección.

Tabla 3.2: Resumen de los métodos IS basados en algoritmos MOP.


Representación de la Funciones objetivo o Clasicadores para
Método/Metaheurística Descripción solución/codicación heurísticas utilizadas la evaluación nal Tipo de IS
Exactitud de clasicación y
NSGA-II y MODE para IS
Mixta: binaria, entera tasa de reducción (wrapper ). Wrapper y
NSGA-II y MODE (2022) [59] desde un enfoque wrapper 1NN, C4.5 y RF
y real Correlación, redundancia lter
y lter.
y consistencia (lter ).
NSGA-II para IS que maximiza Exactitud de clasicación y
LRIS (2021) [21] la exactitud de clasicación Binaria tasa de reducción en función SVM y k NN Wrapper
de una SVM y un k NN. de un valor de probabilidad.
MOEA para IS que maximiza
Exactitud de clasicación de
SDMOEA-TSS (2020) [20] la exactitud de clasicación Binaria SVM Wrapper
una SVM y tasa de reducción.
de una SVM.
CKHA para IS que maximiza Exactitud de clasicación de
ISCKHAD, ISCKHAA
la exactitud de clasicación Binaria una SVM, métrica Gmean y SVM Wrapper
y ISCKHAM (2020) [51]
de una SVM. tasa de reducción.
NSGA-II y CHC para IS Exactitud de clasicación de
NSGA-II y CHC (2019) [84] que maximiza la exactitud Binaria la regla k NN y la tasa de k NN Wrapper
de clasicación de un k NN. reducción de instancias.
NSGA-II y CHC para IS y FS Exactitud de clasicación de
NSGA-II y CHC (2019) [83] que maximiza la exactitud Binaria la regla k NN y la tasa de k NN Wrapper
de clasicación de un k NN. reducción de instancias.
PESA-II para IS que maximiza
Exactitud de clasicación de
ParetoTSS (2018) [1] la exactitud de clasicación Binaria SVM Wrapper
una SVM y tasa de reducción.
de una SVM.
Método que utiliza NSGA-II RMSE y tasa de reducción
NSGA-II (2018) [61] Binaria k NN Wrapper
para IS en tareas de regresión. de instancias.
Real y entera en la
Método multiobjetivo que utiliza Desempeño de clasicación
propuesta lter y Wrapper y
EMOMIS-PbE (2017) [87] un MOEA/D para IS y sintonizar de una SVM y tasa de SVM
real y binaria en la lter
los parámetros de una SVM. reducción.
propuesta wrapper
Desempeño de clasicación
NSGA-II (2015) [42] NSGA-II para IS y FS. Binaria C4.5 Wrapper
y tasa de reducción.
3. Estado del arte 67

3.3 Resumen

En este capítulo se describieron de forma general 26 estrategias IS propuestas en la literatura. La

Tabla 3.1 presenta un resumen con las características de los algoritmos basados en esquemas GOP,

mientras que la Tabla 3.2 sintetiza la información más relevante de los métodos MOP.

Los algoritmos GOP ofrecen una solución única y emplean una función objetivo que realiza

una combinación lineal de dos criterios de optimización. La mayoría de estas propuestas representan

métodos de tipo wrapper, cuyos objetivos consisten en maximizar la tasa de reducción y el desempeño

de un algoritmo de aprendizaje supervisado, siendo k NN y SVM los clasicadores más utilizados.

Por otro lado, únicamente se reportan dos métodos basados en enfoques lter. El primero emplea

el algoritmo EDA, en donde se realiza un modelo probabilístico de las mejores soluciones para

posteriormente generar nuevos individuos a partir del modelo obtenido [93]. El segundo método

propone una función objetivo con dos restricciones basadas en la preservación de la cantidad de

información y la proporción de cuantiles de cada clase [5].

Por otra parte, las estrategias MOP proporcionan un conjunto de soluciones no dominadas que

informan acerca de la interacción entre los objetivos en conicto. Además, en todas las técnicas

descritas se emplean variantes de tipo wrapper, en donde al igual que en los enfoques GOP, los

modelos de clasicación más utilizados son k NN y SVM. Sin embargo, en dos de estos trabajos

también se proponen variantes de tipo lter. El primero de estos algoritmos codica los parámetros de

un modelo SVM y un número entero que indica el tipo de estrategia IS clásica que se utilizará [87]. Por

otro lado, el segundo método optimiza tres funciones objetivo que emplean medidas de correlación,

redundancia y consistencia del conjunto de datos [59].

Con respecto a la representación del problema, en la mayoría de los trabajos propuestos se emplea

una codicación binaria explícita. Por ello, existe un área de oportunidad para modelar la tarea IS

con una codicación diferente a la binaria empleando esquemas de tipo lter.


4
Metodología

El presente capítulo describe el diseño de cuatro estrategias IS propuestas en este trabajo de

investigación. Primero se desarrollan dos algoritmos que se enfocan en maximizar la preservación

de la PDF del conjunto de datos original X y minimizar el número de instancias del subconjunto

seleccionado X̂. El primer método utiliza una técnica GOP basada en un GA, mientras que el

segundo emplea un esquema MOP con el algoritmo NSGA-II. En relación con la representación de las

soluciones, estas técnicas utilizan una codicación CBE. Posteriormente, se detallan dos estrategias

que emplean las mismas metaheurísticas y criterios de optimización, aunque a diferencia de los

primeros dos métodos, estas propuestas utilizan una nueva codicación de los individuos basada en

árboles de enlace. Por último, se describe un método que se fundamenta en la losofía de resolución

de problemas conocida como divide y vencerás, el cual permite escalar a los algoritmos propuestos

para ser aplicados en problemas de grandes conjuntos de datos.

La Figura 4.1 muestra el esquema de la metodología propuesta.

69
70

Figura 4.1: Superior: Esquema de la metodología propuesta. Centro: Descripción general de las
estrategias IS basadas en preservar la PDF. Inferior: Descripción general de las estrategias IS basadas
en árboles de enlace.
4. Metodología 71

4.1 Estrategias de IS basadas en preservar la PDF

En esta investigación se plantea que la tarea IS debe hacerse una sola vez, de tal manera que el

subconjunto de datos obtenido pueda ser utilizado para entrenar diferentes modelos de aprendizaje

supervisado sin perder la capacidad de generalización, evitando repetir el proceso de selección para

cada tipo de clasicador. Por ello, en esta sección se proponen dos algoritmos de tipo lter enfocados

en maximizar la preservación de la PDF de X y minimizar la cardinalidad de X̂. El primer método

emplea un algoritmo GOP basado en el GA descrito en la Sección 2.2.1, mientras que el segundo

enfoque aplica un esquema MOP, y utiliza el NSGA-II que se detalla en la Sección 2.3.2.

4.1.1 IS basada en preservar la PDF mediante GOP

El GA es uno de los algoritmos más utilizados en las aplicaciones de optimización discreta debido

a su exibilidad para adaptar la representación de los individuos a una amplia variedad de problemas

en donde ha demostrado obtener buenos resultados [64]. Además, esta metaheurística es el método

más empleado en la literatura para resolver la tarea IS cuando se modela como un problema de

optimización [34]. Por ello, en esta estrategia se utiliza un GA que emplea la codicación CBE para

representar a las soluciones de la población y optimizar una función objetivo ponderada que considera

los dos criterios de optimización mencionados anteriormente.

4.1.1.1. Representación de los individuos

La representación de los individuos consiste en codicar a cada instancia de X ∈ RN ×D como

un elemento de un vector binario q ∈ {0, 1}N . De este modo, si el i-ésimo elemento de q es `1',

entonces la i-ésima instancia de X se selecciona en X̂; por el contrario, un valor igual a `0' indica lo

opuesto. Esta representación se denomina CBE, y se detalla en la Sección 2.1.2.1.


72 4.1. Estrategias de IS basadas en preservar la PDF

4.1.1.2. Función objetivo

Se propone una nueva función objetivo que considera dos criterios de optimización:

1. Maximizar la similitud entre la PDF de X y X̂.

2. Minimizar la cardinalidad de X̂.

El primer criterio se establece para preservar la PDF de X en X̂ al medir la similitud de ambos

conjuntos mediante la distancia de Hellinger H en (2.18), la cual está denida para dos funciones

de densidad univariantes p y q . Sin embargo, debido a que las instancias de X ∈ RN ×D son

multivariantes, el cálculo de H se podría extender a RD mediante la evaluación de integrales múltiples.

No obstante, esto implica un mayor costo computacional, por lo que en este trabajo se utiliza:

 
 H1,1 · · · H1,D 
 . .. ..
. (4.1)

 .
H= . . 

 
HC,1 · · · HC,D

donde Hi,j ≡ H(pi,j , qi,j ) es la distancia de Hellinger entre pi,j y qi,j , las cuales son las PDFs

estimadas a partir de las muestras de la j -ésima variable y la i-ésima clase del conjunto original X

y el subconjunto seleccionado X̂, respectivamente.

En esta propuesta, las PDFs se obtienen con el algoritmo KDE descrito en la Sección 2.4.3, en

donde el valor del ancho de banda hi,j utilizado para la estimación de pi,j y qi,j , se obtiene con base

en las muestras de la j -ésima dimensión y la i-ésima clase de X, mediante un selector automático

basado en la regla general de Silverman, dada en (2.12), o la regla DPI, dada en (2.16).

Finalmente, se computa el promedio de la matriz H para aproximar el cálculo de la similitud

entre las PDFs multivariantes de X y X̂. Así, se obtiene un valor que describe de manera global la

contribución de cada una de las medidas de similitud entre las C × D PDFs univariantes.
4. Metodología 73

En esta propuesta se normalizan las D variables predictoras del conjunto de datos original X en

el intervalo [−1, 1] para que todos los atributos tengan el mismo rango dinámico1 . De esta manera,

la estimación de las C × D PDFs de X y X̂ se realiza sobre el mismo dominio.

Por otro lado, para estimar una PDF univariante a partir de las n muestras x1 , . . . , xn

correspondientes a la j -ésima variable y la i-ésima clase del conjunto de datos, se requiere de

m regiones R1 , . . . , Rm distribuidas de forma equidistante a lo largo del espacio muestral, cuyos


centros c1 , . . . , cm corresponden con los puntos de evaluación de la PDF. Sin embargo, de acuerdo

con el ejemplo de la Figura 2.14, se debe elegir un valor de m que sea adecuado para aproximar

correctamente la estimación de densidad sin que esto implique un crecimiento desmedido en el número

de operaciones requeridas por el algoritmo KDE, el cual, para muestras en RD con D = 1, tiene una

complejidad computacional O(mn). Por ello, en esta investigación se utiliza un conjunto de m = 100

regiones distribuidas a lo largo del espacio muestral S = [−1.5, 1.5]. Con lo anterior, se puede

aproximar adecuadamente la estimación de las C × D PDFs univariantes de X y X̂ sin incrementar

innecesariamente la cantidad de operaciones realizadas por el método KDE y sin perder información

de la estimación de densidad correspondiente a las muestras normalizadas que se encuentran en los

extremos del intervalo [−1, 1].

El segundo criterio en la función objetivo mide la tasa de preservación de instancias (PR), que

corresponde al complemento de la tasa de reducción de instancias (RR) descrita en la Sección 2.1.2.2.

PR se dene como la fracción de muestras seleccionadas:


PR = (4.2)
N

donde N y N̂ denotan la cantidad de instancias en X y X̂, respectivamente. Por esta razón PR

varía en el rango [0, 1], en donde un valor cercano a cero indica que se preserva un bajo porcentaje

de instancias en X̂, mientras que un valor aproximado a uno señala lo contrario.


1 Para más información véase el Apéndice C.1.
74 4.1. Estrategias de IS basadas en preservar la PDF

Por lo anterior, la función objetivo realiza una combinación lineal de los dos criterios de

optimización descritos en (4.1) y (4.2) a través de una suma ponderada:

C D
w XX
F = Hi,j + (1 − w) · PR (4.3)
C · D i=1 j=1

donde w ∈ (0, 1) es un coeciente que indica la importancia relativa de cada objetivo. El valor de F

varía en el rango [0, 1], donde un valor cercano a cero indica que X̂ alcanza una alta tasa de reducción

de instancias y una alta similitud con las C × D PDFs de X. Además, en este esquema se puede

evaluar el impacto de w al variar la importancia relativa de ambos objetivos. En el pseudocódigo

del Algoritmo 10 se muestra el procedimiento detallado para la evaluación de esta función objetivo.

Algoritmo 10 Evaluación de la función objetivo F .


Entrada: Solución q ∈ {0, 1}N , conjunto de datos original normalizado X̄ ∈ RN ×D , funciones de
densidad D = {p1,1 , . . . , pC,D } y anchos de banda h = [h1,1 , . . . , hC,D ] de X̄ y peso w
Salida: Aptitud de la solución q: F
1: Decodicar q para obtener el subconjunto seleccionado a partir de X̄: X̂

2: Obtener el número de clases de X̄ y X̂: C y Ĉ

3: Obtener el número de instancias de X̄ y X̂: N y N̂

4: Generar un vector de m = 100 puntos equidistantes en el intervalo [−1.5, 1.5]: c = [c1 , . . . , cm ]

5: si C == Ĉ entonces

6: para i = 1 hasta C hacer


7: para j = 1 hasta D hacer
8: Extraer las muestras de la j -ésima variable y la i-ésima clase de X̂: x = [x1 , . . . , xn ]
9: Estimar PDF con el método KDE utilizando x, c y hi,j : qi,j // Ecuación (2.11)
10: Calcular la distancia de Hellinger: Hi,j ≡ H(pi,j .qi,j ) // Ecuación (2.18)
11: n para
12: n para
13: Calcular la media de las distancias de Hellinger: H̄ = (ΣC D
i=1 Σj=1 Hi,j )/(C · D)
14: Calcular la tasa de preservación: PR = N̂/N
15: Calcular el valor de la función objetivo: F = (w)H̄ + (1 − w)PR
16: si no
17: F = 1 // Si se elimina una o más clases en X̂ entonces q se penaliza
18: n si
19: devolver F
4. Metodología 75

Es importante señalar que para evaluar F en (4.3), es necesario calcular previamente a las C × D

PDFs D = {p1,1 , . . . , pC,D } y valores de ancho de banda h = [h1,1 , . . . , hC,D ] del conjunto de datos

original normalizado X̄. Estas operaciones se describen en el pseudocódigo del Algoritmo 11.

Algoritmo 11 Estimación de D y h.
Entrada: Conjunto de datos original normalizado X̄ ∈ RN ×D
Salida: PDFs D = {p1,1 , . . . , pC,D } y valores de ancho de banda h = [h1,1 , . . . , hC,D ]
1: Generar un vector de m = 100 puntos equidistantes en el intervalo [−1.5, 1.5]: c = [c1 , . . . , cm ]
2: para i = 1 hasta C hacer
3: para j = 1 hasta D hacer
4: Extraer las muestras de la j -ésima variable y la i-ésima clase de X̄: x = [x1 , . . . , xn ]
5: Calcular el ancho de banda utilizando x: hi,j // Con SIL (2.12) o DPI (2.16)
6: Estimar PDF con el método KDE utilizando x, c y hi,j : pi,j // Ecuación (2.11)
7: n para
8: n para
9: devolver D = {p1,1 , . . . , pC,D } y h = [h1,1 , . . . , hC,D ]
Este método se identica como FW
B
, en donde el GA descrito en la Sección 2.2.1 optimiza la

función objetivo F en (4.3), el peso w se considera en la expresión W = w × 100 y B representa una

regla para el cálculo del ancho de banda; la cual puede ser SIL, dada en (2.12), o DPI, dada en (2.16).

Por ejemplo, si se otorga la misma relevancia en ambos objetivos de optimización (i.e., w = 0.50),

y se utiliza la regla general de Silverman, entonces la variante del algoritmo propuesto se identica
SIL . Los pasos de este método se detallan en el pseudocódigo del Algoritmo 12.
como F50

4.1.2 IS basada en preservar la PDF mediante MOP


Los algoritmos MOP obtienen un frente de Pareto compuesto de un conjunto de soluciones no

dominadas que permiten analizar la interacción entre los diferentes objetivos en conicto. Por ello,

en esta propuesta se modela la tarea IS desde un enfoque multiobjetivo para abordar de forma

simultánea la preservación de la PDF de X y la reducción de la cardinalidad de X̂. De esta manera,

se pueden obtener soluciones que satisfagan ambos objetivos con diferentes grados de compromiso

sin requerir el ajuste de un coeciente que pondere dichos criterios de optimización, como se hace

en la función objetivo en (4.3).


76 4.1. Estrategias de IS basadas en preservar la PDF

Algoritmo 12 IS basada en preservar la PDF mediante GOP FWB .


Entrada: Conjunto de datos original X ∈ RN ×D , tamaño de la población NP , número de
generaciones G, probabilidad de cruza pc , probabilidad de mutación pm y peso w
Salida: Subconjunto seleccionado: X̂
1: Normalizar X en el intervalo [−1, 1]: X̄
2: Obtener las C × D PDFs y anchos de banda de X̄: D y h // Algoritmo 11
3: Inicializar aleatoriamente la población de individuos q ∈ {0, 1}N : Q(0) = {q0,0 , . . . , qNP −1,0 }
4: para i = 0 hasta NP − 1 hacer
5: Evaluar aptitud del individuo qi,0 con X̄, D, h y w: F // Algoritmo 10
6: n para
7: para g = 0 hasta G − 1 hacer
8: Seleccionar Q′ a partir de Q(g) con torneo binario
9: Aplicar cruza de dos puntos con probabilidad pc a Q′
10: Aplicar mutación Bit-Flip con probabilidad pm a los individuos de Q′
11: Aplicar estrategia de elitismo simple
12: para i = 0 hasta NP − 1 hacer
13: Evaluar aptitud del individuo qi,g con X̄, D, h y w: F // Algoritmo 10
14: n para
15: Actualizar la nueva población: Q(g + 1) ← Q′
16: Obtener la mejor solución de Q(g + 1) en términos de F : q∗
17: n para
18: Decodicar q∗ para obtener el subconjunto seleccionado a partir de X̄: X̂
19: devolver X̂

Por lo anterior, en esta estrategia se propone utilizar el algoritmo NSGA-II descrito en la

Sección 2.3.2, el cual ha demostrado ser útil en una gran variedad de problemas de optimización

discreta con pocos objetivos [99]. Además, se ha utilizado en la mayoría de los algoritmos MOP

propuestos en la literatura para resolver la tarea IS [21, 42, 59, 61, 83, 84].

4.1.2.1. Representación de los individuos y diseño de las funciones objetivo

La representación de los individuos se lleva a cabo utilizando el método CBE descrito en la

Sección 2.1.2.1. Por otro lado, en esta propuesta se utilizan dos funciones objetivo independientes

para maximizar la preservación de la PDF del conjunto de datos original X y reducir la cardinalidad

del subconjunto de datos seleccionado X̂, las cuales se describen a continuación.


4. Metodología 77

Para medir la similitud entre las PDFs multivariantes de X y X̂ se utiliza el promedio de los

elementos de la matriz H en (4.1), el cual se denota como H̄ ∈ [0, 1]. Este término representa la

primera función objetivo del problema MOP y se dene como:

C D
1 XX
H̄ = Hi,j (4.4)
C · D i=1 i=j

donde Hi,j es la distancia de Hellinger descrita en (4.1).

La segunda función objetivo consiste en la tasa de preservación de instancias PR ∈ [0, 1] denida

en (4.2), la cual mide la fracción de patrones seleccionados en X̂. Por lo tanto, en este problema se

desea minimizar ambas funciones objetivo, las cuales están en conicto, debido a que la reducción

del número de instancias impacta directamente en la PDF del subconjunto seleccionado X̂. De esta

manera, la función vectorial del problema MOP se dene como:

F(q) = [H̄(q), PR(q)]T (4.5)

donde F ∈ R2 y q ∈ {0, 1}N es un individuo codicado con la representación CBE. Los pasos para la

evaluación de esta función vectorial se describen en el pseudocódigo del Algoritmo 10. En particular,

las líneas 13 y 14 muestran el cálculo de H̄ y PR, respectivamente.

De la misma manera que en la estrategia GOP, en este método también se requiere estimar a las

C × D PDFs D = {p1,1 , . . . , pC,D } y valores de ancho de banda h = [h1,1 , . . . , hC,D ] del conjunto
de datos original normalizado X̄ antes de evaluar las soluciones en (4.5); esta información se obtiene

al ejecutar las operaciones descritas en el pseudocódigo del Algoritmo 11.

Este método da como resultado un conjunto de soluciones no dominadas que se pueden analizar

para seleccionar aquellas que se encuentren en regiones de interés en el frente de Pareto; por ejemplo,

puntos de rodilla encontrados con el método NBI, el cual es explicado en la Sección 2.3.3.
78 4.1. Estrategias de IS basadas en preservar la PDF

Esta estrategia multiobjetivo se denomina EMOIS-F , debido a que se trata de un EA de tipo

MOP para resolver la tarea IS basado en un nuevo enfoque lter que consiste en la preservación de la

PDF del conjunto de datos original X. Los pasos de este método se detallan en el Algoritmo 13.

Algoritmo 13 IS basada en preservar la PDF mediante MOP EMOIS-F .


Entrada: Conjunto de datos original X ∈ RN ×D , tamaño de la población NP , número de
generaciones G, probabilidad de cruza pc y probabilidad de mutación pm
Salida: Conjunto de óptimos de Pareto: P = {q∗0 , . . . , q∗NP −1 }
1: Normalizar X en el intervalo [−1, 1]: X̄

2: Obtener las C × D PDFs y anchos de banda de X̄: D y h // Algoritmo 11

3: Inicializar aleatoriamente la población de individuos q ∈ {0, 1} : Q(0) = {q0,0 , . . . , qN −1,0 }


N
P
4: Evaluar aptitud de Q(0) con X̄, D y h: F̄Q(0) = {F0 , . . . , FN −1 } // Algoritmo 10
P
5: Encontrar frentes de Pareto de Q(0): F = {F1 , . . . , Fn } // Algoritmo 6
f
6: Calcular la distancia de apiñamiento para las soluciones de F // Algoritmo 7

7: Seleccionar Q a partir de Q(0) con torneo binario basado en ≺n // Ecuación (2.5)


8: Aplicar cruza de dos puntos con probabilidad pc a Q


9: Aplicar mutación Bit-Flip con probabilidad pm a los individuos de Q


10: Obtener la población de NP descendientes de Q(0) a partir de Q : QS (0) ← Q


′ ′

11: para g = 0 hasta G − 1 hacer

12: Evaluar aptitud de QS (g) con X̄, D y h: F̄QS (g) = {F0 , . . . , FNP −1 } // Algoritmo 10
13: Combinar las poblaciones de padres y descendientes: R(g) = Q(g) ∪ QS (g)
14: Encontrar frentes de Pareto de R(g): F = {F1 , . . . , Fnf } // Algoritmo 6
15: Q̄ = ∅, i = 1 // Inicializar la nueva población de padres
16: repetir
17: Calcular la distancia de apiñamiento para cada solución en Fi // Algoritmo 7
18: Q̄ = Q̄ ∪ QFi // Incluir las soluciones de Fi en la nueva población
19: i = i + 1 // Revisar el siguiente frente para la inclusión
20: hasta que |Q̄| + |QFi | ≥ NP // Se alcanza NP al intentar agregar QFi
21: Ordenar(QFi ,≺n ) // Ordenar soluciones de QFi de forma descendente con ≺n
22: Q(g + 1) = Q̄ ∪ QFi [1 : (NP − |Q̄|)] // Nueva población de padres completa
23: Seleccionar Q′ a partir de Q(g + 1) con torneo binario basado en ≺n // Ecuación (2.5)
24: Aplicar cruza de dos puntos con probabilidad pc a Q′
25: Aplicar mutación Bit-Flip con probabilidad pm a los individuos de Q′
26: Obtener la población de NP descendientes de Q(g + 1) a partir de Q′ : QS (g + 1) ← Q′
27: n para
28: Evaluar aptitud de QS (G) con X̄, D y h: F̄QS (G) = {F0 , . . . , FNP −1 } // Algoritmo 10
29: Combinar las poblaciones de padres y descendientes: R(G) = Q(G) ∪ QS (G)
30: Encontrar frentes de Pareto de R(G): F = {F1 , . . . , Fnf } // Algoritmo 6
31: Obtener el conjunto de óptimos de Pareto de F1 : P = {q∗0 , . . . , q∗NP −1 }
32: devolver P = {q∗0 , . . . , q∗NP −1 }
4. Metodología 79

4.2 Estrategias de IS basadas en árboles de enlace

Las estrategias FW
B
y EMOIS-F son las versiones GOP y MOP de un nuevo enfoque de tipo lter

que aborda el problema IS al maximizar la preservación de la PDF del conjunto de datos original

X ∈ RN ×D y minimizar la cardinalidad del subconjunto de datos seleccionado X̂. Estos métodos


utilizan una representación CBE que emplea un vector binario q ∈ {0, 1}N para codicar a todas las

instancias de X. Sin embargo, estas técnicas tienen un problema de escalabilidad, en donde el espacio

de búsqueda crece exponencialmente en función del número de instancias, por lo que el algoritmo

de optimización debe hacer frente a un problema de muy alta dimensionalidad. Debido a esto, en las

Secciones 4.2.2 y 4.2.3 se describen dos estrategias IS que utilizan una nueva representación basada

en árboles de enlace diseñada para reducir el tamaño del espacio de búsqueda.

4.2.1 Selección de instancias con árboles de enlace

En esta investigación los árboles de enlace se construyen utilizando el algoritmo CLC descrito

en la Sección 2.6. De esta manera, sea Xi ∈ RNi ×D el conjunto de instancias de la clase ωi de

X ∈ RN ×D con i = 1, . . . , C clases, el árbol de enlace Ti resulta de particionar los patrones de Xi


con el algoritmo CLC; por lo tanto, Ti tiene Ni − 1 niveles de jerarquía. La Figura 4.2 muestra los

dendrogramas correspondientes a los árboles de enlace de un conjunto de datos con dos clases.

Las propiedades de los árboles de enlace permiten seleccionar instancias de una clase ωi a partir

de un conjunto de datos X con C clases mediante el siguiente procedimiento:

1. Construir el árbol de enlace Ti con Xi utilizando el algoritmo CLC.

2. Elegir un punto de corte en los niveles de jerarquía de Ti : zi ∈ {1, . . . , Ni − 1}.

3. Seleccionar el medoide de cada uno de los grupos formados con zi .


80 4.2. Estrategias de IS basadas en árboles de enlace

Figura 4.2: Izquierda: Conjunto de datos sintético con dos clases Ω = {ω1 , ω2 }. Centro:
Dendrograma de T1 construido con X1 . Derecha: Dendrograma de T2 construido con X2 .

La Figura 4.3 muestra un ejemplo del proceso descrito para seleccionar instancias de una clase a

partir de un punto de corte en la jerarquía de su respectivo árbol de enlace.

Figura 4.3: Izquierda: IS basada en un árbol de enlace. Conjunto de datos con dos clases
Ω = {ω1 , ω2 }. Centro: Dendrograma de T2 construido con X2 , en donde se elige un punto de
corte en z2 = 478 (indicado con la línea horizontal), el cual genera una partición de 8 grupos.
Derecha: Selección de los medoides de cada grupo.

Para extender el proceso de selección de instancias a todas las clases de X es necesario construir

un conjunto de árboles de enlace por cada clase T = {T1 , . . . , TC }, y posteriormente elegir su

respectivo punto de corte z = [z1 , . . . , zC ] ∈ Z+ . El subconjunto seleccionado X̂ se obtiene al tomar

el medoide de cada grupo en cada partición formada por los C puntos de corte. La Figura 4.4 muestra

un ejemplo de IS con árboles de enlace para un conjunto de datos sintético de tres clases.
4. Metodología 81

Debido a que se requieren elegir C puntos de corte, el espacio de búsqueda del problema IS

utilizando árboles de enlace se dene como Ci=1 (Ni − 1), donde Ni − 1 es el número de niveles de
Q

jerarquía del árbol de enlace Ti .

Figura 4.4: IS basada en árboles de enlace. Parte superior. Izquierda: Conjunto de datos sintético
bidimensional con tres clases Ω = {ω1 , ω2 , ω3 }. Centro: Medoides obtenidos con las particiones de
cada clase. Derecha: Subconjunto de instancias seleccionadas. Parte inferior, de izquierda a derecha:
Dendrogramas de T1 , T2 y T3 , respectivamente. En cada caso, los puntos de corte se indican con
una línea horizontal.

El algoritmo CLC utiliza la distancia más lejana entre dos puntos de diferentes grupos para

cuanticar la disimilitud entre cada grupo de una partición dada. Además, cada árbol de enlace

se construye por cada clase del conjunto X. Por ello, el método CLC permite encontrar grupos

compactos que favorecen la obtención de descripciones locales de la distribución de las clases.

En el pseudocódigo del Algoritmo 14 se muestran las instrucciones detalladas del método descrito

anteriormente, el cual se denomina LTIS, del inglés linkage trees for instance selection.
82 4.2. Estrategias de IS basadas en árboles de enlace

Algoritmo 14 Selección de instancias basada en árboles de enlace LTIS.


Entrada: Conjunto de datos original X ∈ RN ×D , conjunto de árboles de enlace T = {T1 , . . . , TC },
vector de puntos de corte z = [z1 , . . . , zC ]
Salida: subconjunto de datos seleccionado: X̂
1: Inicializar el subconjunto de datos seleccionado X̂ = ∅

2: para i = 1 hasta C hacer

3: Extraer las instancias de la i-ésima clase de X: Xi


4: Obtener k grupos con Xi , Ti y zi mediante agrupamiento jerárquico: Ci = {Ci,1 , . . . , Ci,k }
5: para j = 1 hasta k hacer
6: Calcular el centroide del grupo Ci,j : cj
7: Obtener el medoide al calcular la instancia del grupo Ci,j más cercana a cj : xj
8: Incluir el medoide en el subconjunto de datos seleccionado: X̂ = X̂ ∪ xj
9: n para
10: n para
11: devolver X̂

4.2.2 IS basada en árboles de enlace mediante GOP

Esta estrategia consiste en un algoritmo GOP basado en el GA descrito en la Sección 2.2.1 para

optimizar los puntos de corte z = [z1 , . . . , zC ] ∈ Z+ utilizados en el algoritmo LTIS con el propósito

de maximizar la preservación de la PDF de X y minimizar la cardinalidad de X̂.

4.2.2.1. Representación de los individuos

Este método realiza el proceso de búsqueda en un espacio binario n-dimensional. Por ello, el

vector de puntos de corte z se codica por medio de una cadena binaria q ∈ {0, 1}n , en donde zi se

representa con una subcadena qi ∈ {0, 1}ni cuya longitud se calcula como:

ni = ⌊log2 (Ni − 2)⌋ + 1, i = 1, . . . , C (4.6)

donde Ni es el número de instancias de la clase ωi , Ni − 1 es el número de niveles de jerarquía del

árbol de enlace Ti y ⌊·⌋ denota la función piso.


4. Metodología 83

Para dar un ejemplo, considérese el conjunto de datos de la Figura 4.4, con C = 3, donde

el número de elementos de cada clase es 199, 486 y 770. De este modo, la cantidad de bits que

requieren las subcadenas binarias {q1 , q2 , q3 } para representar adecuadamente a los elementos de la

solución z = [z1 , z2 , z3 ], se calcula como n1 = ⌊log2 (199−2)⌋+1 = 8, n2 = ⌊log2 (486−2)⌋+1 = 9

y n3 = ⌊log2 (770 − 2)⌋ + 1 = 10. Así, la cadena binaria q = [q1 , q2 , q3 ] ∈ {0, 1}n con

n = n1 + n2 + n3 = 27, denota una codicación que puede representar a todos los estados posibles
de z = [z1 , z2 , z3 ]. Por otra parte, nótese que para la clase ω1 , n1 = 8, por ello, la cantidad de

estados posibles de q1 es 2n1 = 256. Sin embargo, z1 ∈ [1, 198], por lo que la subcadena q1 puede

representar los 198 niveles de jerarquía de T1 mediante 256 valores diferentes. Por lo anterior, en

esta codicación, los diferentes valores que puede tomar el punto de corte zi se representan con más

estados de los requeridos; no obstante, esto solo sucede cuando Ni − 1 no es potencia de dos.

4.2.2.2. Decodicación de los individuos

Otra parte importante del funcionamiento del algoritmo consiste en el proceso de decodicación

de la solución, esto es, transformar la cadena binaria q en un vector de valores enteros z para obtener

el subconjunto de datos seleccionado X̂ con el algoritmo LTIS. Para esto, primero se extrae cada

subcadena qi , y posteriormente se realiza una conversión a su respectivo número entero k . De esta

manera, el valor continuo de zi se calcula como:

k
zi∗ = 1 + · (Ni − 2), i = 1, . . . , C (4.7)
2ni −1

donde zi∗ ∈ R+ y Ni son el punto de corte y la cantidad de instancias de ωi , respectivamente. Por

otro lado, ni es el número de bits de qi . Debido a que zi∗ corresponde con un valor continuo en el

rango [1, Ni − 1], se debe realizar un redondeo hacia el entero más próximo para obtener zi ∈ Z+ .

El pseudocódigo del Algoritmo 15 muestra los pasos para decodicar la solución binaria q.
84 4.2. Estrategias de IS basadas en árboles de enlace

Algoritmo 15 Decodicar solución binaria q.


Entrada: Individuo binario q ∈ {0, 1}n y número de instancias por clase [N1 , . . . , NC ]
Salida: Individuo decodicado: z = [z1 . . . , zC ]
1: para i = 1 hasta C hacer
2: Extraer la i-ésima subcadena binaria de q: qi
3: Obtener el total de elementos de qi : ni
4: Inicializar el valor entero: k = 0
5: para j = 1 hasta ni hacer
6: Extraer el j -ésimo elemento de la subcadena binaria qi : q
7: Realizar una suma acumulada para calcular el valor entero: k = k + q · 2j−1
8: n para
9: Calcular el punto de corte continuo: zi∗ // Ecuación (4.7)
10: Obtener el punto de corte entero: zi // Redondear zi∗ al entero más próximo
11: n para
12: devolver z

4.2.2.3. Función objetivo

Para aprovechar las características del algoritmo LTIS en un esquema de optimización que

considera los mismos objetivos que las estrategias IS descritas en la Sección 4.1, se requiere encontrar

los puntos de corte z = [z1 , . . . , zC ] ∈ Z+ , que maximicen la preservación de la PDF del conjunto

de datos original X y minimicen la cardinalidad del subconjunto de datos seleccionado X̂. Por ello,

el presente problema se plantea como:

Minimizar LT (z) sujeto a zi ∈ {1, . . . , Ni − 1}, i = 1, . . . , C (4.8)

donde LT es la función objetivo, Ni es la cantidad de instancias de Xi y C corresponde al número

de clases de X y a la cardinalidad del vector de puntos de corte z.

En el diseño de esta función objetivo se utiliza la distancia de Hellinger H en (2.18) para medir

la similitud entre las PDFs de X y X̂. Por ello, al igual que en las estrategias FW
B
y EMOIS-F , en

esta propuesta también se utilizan los elementos de la matriz H en (4.1) para aproximar la medición

de la similitud entre ambas funciones de densidad multivariantes.


4. Metodología 85

Además de la preservación de la PDF, el problema IS considera la minimización del número de

instancias. Por lo tanto, se introduce un criterio de tasa de reducción en la función objetivo. En este

enfoque, el número de patrones seleccionados está relacionado con el nivel de jerarquía del árbol

de enlace, esto es, cuanto mayor sea el nivel de jerarquía del punto de corte elegido, menor será el

número de instancias seleccionadas.

Debido a que la cantidad de niveles de jerarquía de un árbol de enlace depende directamente del

número de instancias de su respectiva clase y las distintas clases pueden tener una cantidad diferente

de muestras, el punto de corte de la i-ésima clase se normaliza en el rango [0, 1] como:

zi − 1
z̄i = 1 − , i = 1, . . . , C (4.9)
Ni − 2

donde z̄i es el punto de corte normalizado de la clase ωi y la operación de resta convierte a esta tarea

en un problema de minimización. Por ello, si z̄i → 0, entonces el número de instancias seleccionadas

de la clase ωi será cercano a cero; en caso contrario, se aproximará a Ni .

De este modo, el promedio de la matriz de distancias de Hellinger H en (4.1) y el nivel del punto

de corte z̄i , con i = 1, . . . , C , se pueden minimizar en una función objetivo ponderada mediante

un algoritmo de optimización global. No obstante, debido a que las instancias no se manipulan

explícitamente en la codicación de la solución, es posible obtener subconjuntos con clases que no

preservan la proporción de muestras, como se muestra en el ejemplo de la Figura 4.5. Por esta razón,

es necesario incluir un término de penalización para mantener la proporción de instancias de cada

clase, el cual se dene como:


Ni N̂i
αi = 1 − − , i = 1, . . . , C (4.10)
N N̂

donde N y Ni son la cardinalidad y el número de instancias de la i-ésima clase de X, respectivamente,

mientras que N̂ y N̂i representan lo mismo con respecto de X̂. Además, para un argumento escalar, |·|

denota valor absoluto y el término de penalización satisface la propiedad 0 ≤ αi ≤ 1.


86 4.2. Estrategias de IS basadas en árboles de enlace

Figura 4.5: Ejemplo de un problema de desbalanceo de clases con LTIS en un conjunto de datos
sintético con dos clases Ω = {ω1 , ω2 }. Superior: Selección de un nivel bajo del punto de corte
para ω1 y un nivel alto para ω2 : z1 ≪ z2 . Centro: Situación opuesta al caso anterior: z2 ≪ z1 .
Inferior: Situación adecuada en donde la selección de niveles de jerarquía equivalentes permite clases
que preservan la proporción de muestras en X̂: z1 ∼ z2 .

Por lo tanto, la función objetivo se obtiene al combinar la matriz H en (4.1), el vector de puntos

de corte normalizados z̄ ∈ RC en (4.9) y el vector de términos de penalización α ∈ RC en (4.10)

como: ( )αi
C D
1 X 1 X
LT (z) = [w · Hi,j + (1 − w) · z̄ i ] (4.11)
C i=1 D j=1

donde w ∈ (0, 1) es un coeciente que expresa la importancia relativa de cada objetivo y LT ∈ [0, 1].

Por ello, si LT → 0, el subconjunto obtenido preserva las PDFs de X y minimiza el número de

instancias. Por el contrario, si LT → 1, se obtiene un subconjunto con un pobre desempeño.

Nótese que si Ni /N − N̂i /N̂ → 0, entonces αi → 1 y el valor de LT no se ve afectado de

modo relevante. En cambio, si Ni /N − N̂i /N̂ → 1, entonces αi → 0 y LT se penaliza.


4. Metodología 87

Por otra parte, a diferencia de la función objetivo F en (4.3), en donde el promedio de la matriz

H en (4.1) no se afecta por ningún término adicional al peso w, la función objetivo LT acopla el
punto de corte normalizado z̄i de la i-ésima clase con los elementos de la matriz H correspondientes

a dicha clase. Esto se hace mediante una suma ponderada para que la medida de preservación de la

PDF se vea directamente afectada por el nivel de jerarquía del punto de corte elegido.

El pseudocódigo del Algoritmo 16 muestra los pasos para calcular el valor de la función objetivo

LT , en donde al igual que en F en (4.3) y F en (4.5), se requiere estimar previamente las C × D


PDFs D = {p1,1 , . . . , pC,D } y valores de ancho de banda h = [h1,1 , . . . , hC,D ] del conjunto de datos

original normalizado X̄.

Algoritmo 16 Evaluación de la función objetivo LT .


Entrada: Solución z = [z1 , . . . , zC ], conjunto de datos original normalizado X̄ ∈ RN ×D , árboles
de enlace T = {T1 , . . . , TC }, funciones de densidad D = {p1,1 , . . . , pC,D } y anchos de banda
h = [h1,1 , . . . , hC,D ] de X̄ y peso w
Salida: Aptitud de la solución z: LT
1: Obtener el subconjunto seleccionado con X̄, T y z: X̂ // Algoritmo 14

2: Obtener el número de instancias de X̄ y X̂: N y N̂

3: Obtener el número de instancias por clase de X̄: [N1 , . . . , NC ]

4: Obtener el número de instancias por clase de X̂: [N̂1 , . . . , N̂C ]

5: Generar un vector de m = 100 puntos equidistantes en el intervalo [−1.5, 1.5]: c = [c1 , . . . , cm ]

6: Inicializar valor de la suma acumulada por cada clase en LT : ΣC = 0

7: Inicializar valor de la suma acumulada por cada dimensión en LT : ΣD = 0

8: para i = 1 hasta C hacer

9: Obtener el punto de corte normalizado: z̄i // Ecuación (4.9)


10: Calcular el término de penalización: αi // Ecuación (4.10)
11: para j = 1 hasta D hacer
12: Extraer las muestras de la j -ésima variable y la i-ésima clase de X̂: x = [x1 , . . . , xn ]
13: Estimar PDF con el método KDE utilizando x, c y hi,j : qi,j // Ecuación 2.11
14: Calcular la distancia de Hellinger: Hi,j ≡ H(pi,j .qi,j ) // Ecuación (2.18)
15: Suma acumulada en LT por cada dimensión: ΣD = ΣD + [w · Hi,j + (1 − w) · z̄ i ]
16: n para
17: Suma acumulada en LT por cada clase: ΣC = ΣC + (ΣD /D)αi
18: n para
19: Calcular el valor de la función objetivo: LT = ΣC /C
20: devolver LT
88 4.2. Estrategias de IS basadas en árboles de enlace

Esta estrategia se denomina LTW


B
, debido a que optimiza la función objetivo LT (4.11), y los

términos W y B indican lo mismo que en FW


B
. El pseudocódigo del Algoritmo 17 muestra los pasos

de este método propuesto.

Algoritmo 17 IS basada en árboles de enlace mediante GOP LTWB .


Entrada: Conjunto de datos original X ∈ RN ×D , tamaño de la población NP , número de
generaciones G, probabilidad de cruza pc , probabilidad de mutación pm y peso w
Salida: Subconjunto seleccionado: X̂
1: Normalizar X en el intervalo [−1, 1]: X̄ // Ecuación (C.1)

2: Calcular el conjunto de C árboles de enlace de X̄: T = {T1 , . . . , TC } // Algoritmo 9

3: Obtener las C × D PDFs y anchos de banda de X̄: D y h // Algoritmo 11

4: Inicializar aleatoriamente la población de individuos q ∈ {0, 1} : Q(0) = {q0,0 , . . . , qN −1,0 }


n
P
5: Decodicar población inicial Q(0): Z(0) = {z0,0 , . . . , zN −1,0 } // Algoritmo 15
P
6: Evaluar aptitud de la población inicial Z(0): [LT0 , . . . , LTN P −1 ] // Algoritmo 16

7: para g = 0 hasta G − 1 hacer

8: Seleccionar Q′ a partir de Q(g) con torneo binario


9: Aplicar cruza de dos puntos con probabilidad pc a Q′
10: Aplicar mutación Bit-Flip con probabilidad pm a los individuos de Q′
11: Aplicar estrategia de elitismo simple
12: Decodicar población actual Q′ : Z(g) = {z0,g , . . . , zNP −1,g } // Algoritmo 15
13: Evaluar aptitud de la población actual Z(g): [LT0 , . . . , LTN P −1 ] // Algoritmo 16
14: Obtener nueva población: Q(g + 1) ← Q′
15: Obtener la mejor solución de Q(g + 1) en términos de LT : q∗
16: n para
17: Decodicar q∗ : z // Algoritmo 15
18: Obtener el subconjunto seleccionado con X̄, T y z: X̂∗ // Algoritmo 14
19: Desnormalizar X̂∗ : X̂ // Ecuación (C.2)
20: devolver X̂

4.2.3 IS basada en árboles de enlace mediante MOP

Este método representa la variante MOP de la estrategia LTW


B
y está basado en el algoritmo

NSGA-II descrito en la Sección 2.3.2. Con esto se puede encontrar un conjunto de soluciones no

dominadas (vectores de puntos de corte), para ser evaluadas en el algoritmo LTIS y así obtener

subconjuntos de datos que muestren diferentes relaciones de compromiso entre la preservación de la

PDF del conjunto original X y la reducción de la cardinalidad del subconjunto seleccionado X̂.
4. Metodología 89

4.2.3.1. Representación de los individuos

La representación de los individuos se realiza de la misma forma que en el algoritmo LTW


B
, en

donde un vector de puntos de corte z = [z1 , . . . , zC ] ∈ Z+ se codica mediante una cadena binaria

q ∈ {0, 1}n ; así, cada elemento de z se representa con una subcadena binaria qi ∈ {0, 1}ni , cuya
longitud se calcula con (4.6).

4.2.3.2. Decodicación de los individuos

En el proceso de evaluación de las soluciones, el algoritmo propuesto precisa de un método que

decodique a cada individuo binario q para obtener su respectivo vector de puntos de corte z. Por

ello, se debe extraer cada subcadena binaria qi y transformarla en un punto de corte zi ∈ Z+ , con

i = 1, . . . , C . Este procedimiento se describe en el Algoritmo 15.

4.2.3.3. Diseño de las funciones objetivo

Esta estrategia considera los mismos criterios de optimización que el algoritmo LTW
B
. Por ello,

la primera función objetivo se diseña para maximizar la preservación de la PDF de X. Por esta

razón se utilizan los elementos de la matriz H en (4.1) para cuanticar la similitud entre las PDFs

univariantes de X y X̂. No obstante, en esta propuesta se emplea el término αi en (4.10) para

penalizar al promedio de los D componentes de H relacionados a la clase ωi , con i = 1, . . . , C . De

esta manera se evita que el problema de pérdida de proporción de muestras intra-clase se presente

en X̂, el cual se describe en el ejemplo de la Figura 4.5. Por lo tanto, esta función objetivo se dene

como: !αi
C D
1 X 1 X
H̄α = Hi,j (4.12)
C i=1 D j=1

donde H̄α ∈ [0, 1], y Hi,j es la distancia de Hellinger descrita en (4.1).


90 4.2. Estrategias de IS basadas en árboles de enlace

La segunda función objetivo se diseña para minimizar el número de instancias en X̂ mediante

la sintonización de los niveles del punto de corte normalizado z̄i ∈ [0, 1] para i = 1, . . . , C denido

en (4.9). Sin embargo, al igual que en Ĥα , en esta expresión también se emplea el factor αi

en (4.10) para penalizar la variable relacionada a la clase ωi . De esta manera se evita el problema

de desproporción de muestras intra-clase de X̂ al utilizar el término de penalización en la segunda

función objetivo, la cual se dene como:

C
1 X
Z̄α = (z̄i )αi (4.13)
C i=1

donde Z̄α ∈ [0, 1]. Por lo tanto, si la cantidad de instancias de las clases del subconjunto de datos

seleccionado X̂ no guardan la misma proporción con respecto al número de instancias de las clases

del conjunto X, entonces αi → 0, para i = 1, . . . , C , y la solución se penaliza como Z̄α → 1.

Por lo anterior, ambas funciones objetivo se minimizan simultáneamente mediante un algoritmo

MOP para obtener un conjunto de soluciones no dominadas con diferentes grados de compromiso

para los dos criterios de optimización. Así, la función vectorial en este problema se dene como:

T̄(z) = [H̄α (z), Z̄α (z)]T (4.14)

donde T̄ ∈ R2 y z = [z1 , . . . , zC ] ∈ Z+ es una solución que contiene C puntos de corte que se

requieren sintonizar para ser utilizados en el algoritmo LTIS.

Al igual que la estrategia EMOIS-F , en este algoritmo se obtiene un conjunto de soluciones no

dominadas que se pueden analizar para obtener puntos de interés; por ejemplo, soluciones de rodilla

encontradas con el método NBI descrito en la Sección 2.3.3.

Esta estrategia multiobjetivo se denomina EMOIS-LT , ya que se trata de un EA de tipo MOP

para resolver la tarea IS basada en árboles de enlace; sus pasos se detallan en el Algoritmo 18.
4. Metodología 91

Algoritmo 18 IS basada en árboles de enlace mediante MOP EMOIS-LT .


Entrada: Conjunto de datos original X ∈ RN ×D , tamaño de la población NP , número de
generaciones G, probabilidad de cruza pc , probabilidad de mutación pm y número de instancias
por clase [N1 , . . . , NC ]
Salida: Conjunto de óptimos de Pareto: P = {z∗0 , . . . , z∗NP −1 }
1: Normalizar X en el rango [−1, 1]: X̄ // Ecuación (C.1)

2: Calcular el conjunto de C árboles de enlace de X̄: T = {T1 , . . . , TC } // Algoritmo 9

3: Obtener las C × D PDFs y anchos de banda de X̄: D y h // Algoritmo 11

4: Inicializar aleatoriamente la población de individuos q ∈ {0, 1} : Q(0) = {q0,0 , . . . , qN −1,0 }


n
P
5: Decodicar población inicial Q(0): Z(0) = {z0,0 , . . . , zN −1,0 } // Algoritmo 15
P

6: Evaluar aptitud de la población inicial Z(0): T̂Z(0) = {T̄0 , . . . , T̄N −1 } // Ecuación (4.14)
P
7: Encontrar frentes de Pareto de Z(0): F = {F1 , . . . , Fn } // Algoritmo 6
f
8: Calcular la distancia de apiñamiento para las soluciones de F // Algoritmo 7

9: Seleccionar Q a partir de Q(0) con torneo binario basado en ≺n // Ecuación (2.5)


10: Aplicar cruza de dos puntos con probabilidad pc a Q


11: Aplicar mutación Bit-Flip con probabilidad pm a los individuos de Q


12: Obtener la población de NP descendientes de Q(0) a partir de Q : QS (0) ← Q


′ ′

13: para g = 0 hasta G − 1 hacer

14: Decodicar población actual QS (g): ZS (g) = {z0,0 , . . . , zNP −1,0 } // Algoritmo 15
15: Evaluar aptitud de ZS (g): T̂ZS (g) = {T̄0 , . . . , T̄NP −1 } // Ecuación (4.14)
16: Combinar las poblaciones de padres y descendientes: R(g) = Z(g) ∪ ZS (g)
17: Encontrar frentes de Pareto de R(g): F = {F1 , . . . , Fnf } // Algoritmo 6
18: Q̄ = ∅, i = 1 // Inicializar la nueva población de padres
19: repetir
20: Calcular la distancia de apiñamiento para cada solución en Fi // Algoritmo 7
21: Q̄ = Q̄ ∪ QFi // Incluir las soluciones de Fi en la nueva población
22: i = i + 1 // Revisar el siguiente frente para la inclusión
23: hasta que |Q̄| + |QFi | ≥ NP // Se alcanza NP al intentar agregar QFi
24: Ordenar(QFi ,≺n ) // Ordenar soluciones de QFi de forma descendente con ≺n
25: Q(g + 1) = Q̄ ∪ QFi [1 : (NP − |Q̄|)] // Nueva población de padres completa
26: Seleccionar Q′ a partir de Q(g + 1) con torneo binario basado en ≺n // Ecuación (2.5)
27: Aplicar cruza de dos puntos con probabilidad pc a Q′
28: Aplicar mutación Bit-Flip con probabilidad pm a los individuos de Q′
29: Obtener la población de NP descendientes de Q(g + 1) a partir de Q′ : QS (g + 1) ← Q′
30: n para
31: Decodicar población actual QS (G): ZS (G) = {z0,0 , . . . , zNP −1,0 } // Algoritmo 15
32: Evaluar aptitud de ZS (G): T̂ZS (G) = {T̄0 , . . . , T̄NP −1 } // Ecuación (4.14)
33: Combinar las poblaciones de padres y descendientes: R(G) = Z(G) ∪ ZS (G)
34: Encontrar frentes de Pareto de R(G): F = {F1 , . . . , Fnf } // Algoritmo 6
35: Obtener el conjunto de óptimos de Pareto de F1 : P = {z∗0 , . . . , z∗NP −1 }
36: devolver P = {z∗0 , . . . , z∗NP −1 }
92 4.3. Estrategia de IS para grandes conjuntos de datos

4.3 Estrategia de IS para grandes conjuntos de datos

Las estrategias IS que utilizan EAs presentan algunos problemas cuando el número de instancias

del conjunto de datos aumenta considerablemente. Los principales inconvenientes se relacionan con el

tamaño de los individuos cuando se emplea la representación CBE, ya que se producen requerimentos

excesivos de memoria y tiempo de ejecución. Además, se reduce signicativamente la capacidad de

convergencia del algoritmo de optimización utilizado [15].

Por ello, en la literatura se han propuesto métodos IS basados en la losofía de resolución de

problemas conocida como divide y vencerás (D&Q, por sus siglas en inglés), la cual permite abordar

el problema del escalamiento cuando se procesan conjuntos de datos de cientos de miles o millones

de instancias [14].

El enfoque más utilizado consiste en dividir el conjunto de datos original X ∈ RN ×D en n

subconjuntos disjuntos Xi ∈ RN̄ ×D de tamaño N̄ por medio de un muestreo aleatorio estraticado,

de esta manera se tiene que X = {X1 , . . . , Xn }. Posteriormente, se utiliza un algoritmo IS para

procesar cada subconjunto de forma independiente. Después, las instancias elegidas se combinan

para formar el subconjunto de datos seleccionado X̂ ∈ RN̂ ×D [28].

La Figura 4.6 muestra un ejemplo de un bloque que ejecuta la tarea IS mediante un esquema

D&Q. Este proceso se realiza de forma iterativa hasta que se cumple un criterio de paro, el cual
se establece de acuerdo con las características del problema. Por ello, si la condición de parada no

se diseña adecuadamente, el porcentaje de reducción podría ser muy grande, y en consecuencia, el

error de clasicación también. Los criterios de paro empleados en la literatura consisten en alcanzar

un porcentaje de reducción de instancias determinado o establecer un límite máximo de ciclos de

ejecución a partir de un error de validación. Este último se obtiene al dividir el conjunto original en

particiones de entrenamiento y validación. Así, el número de iteraciones se dene con la cantidad de

ciclos requeridos antes de que el error de validación aumente [27].


4. Metodología 93

Figura 4.6: Ejemplo de un esquema D&Q en la tarea IS. El conjunto original X se divide en n
subconjuntos disjuntos de tamaño N̄ . Posteriormente se aplica un algoritmo IS a cada uno de ellos y
se obtienen n subconjuntos de tamaño N̂1 , . . . , N̂n , respectivamente. Después, estos últimos se unen
para formar el subconjunto de datos seleccionado X̂ de tamaño N̂ . Este procedimiento se realiza de
forma iterativa hasta que se cumple con un criterio de paro.

Los algoritmos IS que utilizan el enfoque D&Q presentan grandes ventajas en términos de tiempo

de ejecución y cantidad de memoria requerida. Además, esta técnica se puede implementar fácilmente

en un entorno de cómputo paralelo debido a que el método IS se procesa de manera independiente

sobre cada una de las n particiones del conjunto original. Por ello, en esta investigación se diseña una

estrategia que utiliza un enfoque D&Q para realizar la tarea IS en conjuntos de datos grandes.

Debido a que este esquema divide el problema en conjuntos de datos más pequeños, el tamaño del

espacio de búsqueda se puede reducir considerablemente en función del número de instancias de cada

partición del conjunto original. Por esta razón, se propone utilizar un micro algoritmo genético (µGA,

por sus siglas en inglés), el cual es una variante del GA descrito en la Sección 2.2.1 y ha demostrado
94 4.3. Estrategia de IS para grandes conjuntos de datos

tener un desempeño similar al GA tradicional en diferentes problemas de optimización [62].

El µGA evoluciona poblaciones de tamaño pequeño, las cuales no pueden mantener la diversidad

durante muchas generaciones, por esta razón se incluye un mecanismo que reinicia la población

cuando la diversidad se ve comprometida. En este sentido, se propone el uso de la distancia de

Hamming para evaluar la similitud entre dos individuos, la cual es igual al número de posiciones en

las que sus dígitos correspondientes dieren [52]. En esta propuesta se reinicia la población cuando

el promedio de la distancia de Hamming entre cada par de individuos es menor a 0.05. Además, se

incluye un mecanismo de elitismo en donde se preserva a la mejor solución.

En esta investigación se tiene especial interés en el análisis del desempeño de la nueva

representación basada en árboles de enlace cuando se utiliza en conjuntos de datos grandes. Por

ello, se propone una modicación de la estrategia LTW


B
, descrita en la Sección 4.2.2, que utiliza el

µGA para optimizar la función objetivo LT en (4.11); este método se denomina µLTW
B
. De esta

manera, se acelera el proceso de evaluación de la función objetivo en cada generación, al emplear

poblaciones pequeñas que son ecientes para localizar áreas prometedoras de un espacio de búsqueda

reducido correspondiente a cada una de las particiones del esquema D&Q.

Por otro lado, para obtener el número de subconjuntos disjuntos de tamaño N̄ que se van a

procesar por el esquema D&Q se calcula n = ⌈N/N̄ ⌉, donde la función ⌈·⌉ redondea el valor

de entrada al entero más próximo por exceso. Por ello, en los enfoques tradicionales se utiliza un

muestreo aleatorio estraticado para seleccionar n particiones de tamaño N̄ .

Sin embargo, en esta investigación se propone la selección de subconjuntos disjuntos formados

por instancias cercanas en el espacio de características. Con esto se busca favorecer la construcción

de árboles de enlace compactos y realizar la tarea IS sobre instancias con características similares.

Por ello, se emplea un algoritmo de agrupamiento sobre cada clase del conjunto de datos para

obtener particiones con puntos cercanos en el espacio de características. Posteriormente se realiza el

procedimiento del esquema D&Q utilizando todos los grupos formados.


4. Metodología 95

La Figura 4.7 ilustra el procedimiento del esquema D&Q propuesto, el cual se dene mediante

los siguientes pasos:

1. Dividir el conjunto de datos original X en C subconjuntos disjuntos que contienen a las

instancias de cada clase como X = {X1 , . . . , XC }, en donde Xi ∈ RNi ×D , para i = 1, . . . , C .

2. Calcular la cantidad de particiones requeridas por cada clase en función de N̄ como

ni = ⌈Ni /N̄ ⌉, para i = 1, . . . , C , donde la función ⌈·⌉ redondea el valor de entrada al entero
más próximo por exceso.

3. Utilizar el algoritmo de agrupamiento k -medias para particionar a Xi en ni grupos, por lo que

se tiene Xi = {X1i , . . . , Xni i }, para i = 1, . . . , C .

4. Utilizar la estrategia µLTW


B
sobre cada subconjunto disjunto X1i , . . . , Xni i , para i = 1, . . . , C .

5. Fusionar los subconjuntos obtenidos en cada clase X̂i = {X̂1i , . . . , X̂ni i }, para i = 1, . . . , C .

6. Fusionar los subconjuntos de cada clase y obtener el subconjunto nal X̂ = {X̂1 , . . . , X̂C }.

7. Vericar si se cumple el criterio de paro y devolver X̂, sino repetir los pasos 1-6 utilizando X̂

como conjunto de entrada del proceso D&Q en la siguiente iteración.

Por otro lado, debido a que el algoritmo de agrupamiento no necesariamente obtiene particiones

con grupos del mismo tamaño, se deben tomar en cuenta algunas consideraciones importantes del

esquema D&Q propuesto, las cuales se listan a continuación:

Si la partición contiene un número limitado de instancias se evita realizar el proceso IS ya que

se considera que estos patrones son representativos de esa región del espacio de características.

En esta propuesta se utiliza un mínimo de 100 muestras.

Si la partición se forma únicamente por instancias repetidas se evita realizar el proceso IS y

solo se elige a una muestra de este conjunto de puntos.


96 4.4. Resumen

Figura 4.7: Esquema D&Q propuesto. El conjunto original X se divide en C subconjuntos disjuntos
que contienen a las instancias de cada clase X1 , . . . , XC , posteriormente se utiliza un algoritmo de
agrupamiento para obtener n1 , . . . , nC grupos, respectivamente. Después, cada partición se procesa
con el algoritmo µLTW B
, y nalmente se fusionan los subconjuntos obtenidos por cada partición y
por cada clase para obtener el subconjunto de salida X̂. Este proceso se realiza de forma iterativa
hasta que se cumple con un criterio de paro.

4.4 Resumen

En este capítulo se describió el diseño de cuatro estrategias IS, las cuales se dividen en EAs de

tipo GOP y MOP. Por ello, las variantes de estos métodos dependen del esquema de optimización

y el tipo de representación de los individuos utilizada. Por otro lado, los criterios de optimización

empleados en la función objetivo consisten en maximizar la preservación de la PDF del conjunto de

datos original X y minimizar la cardinalidad del subconjunto de datos seleccionado X̂.


4. Metodología 97

Para calcular la similitud entre las PDFs de ambos conjuntos se utiliza la distancia de Hellinger

H en (2.18), la cual recibe como parámetros de entrada dos funciones de densidad univariantes. Por
ello, para aproximar el cálculo de la similitud entre las PDFs multivariantes de X y X̂ se utiliza el

promedio de la matriz H en (4.1), cuyos elementos corresponden a la distancia de Hellinger entre

las C × D PDFs univariantes de ambos conjuntos.

Por otro lado, en estos algoritmos se utilizan dos tipos de representación para codicar a los

individuos de la población. La primera consiste en la estrategia CBE, mientras que la segunda se

basa en una nueva propuesta que emplea árboles de enlace. En el primer caso el espacio de búsqueda

crece exponencialmente en función del número de instancias de X. Por el contrario, la representación

basada en árboles de enlace reduce el espacio de búsqueda de manera considerable. Lo anterior se

consigue mediante el mapeo del problema IS a una tarea de optimización de un punto de corte en

los niveles de jerarquía de los árboles de enlace construidos para cada clase de X.

Adicionalmente, se diseña un algoritmo basado en una de las estrategias que utilizan árboles

de enlace para realizar la tarea IS en conjuntos de datos grandes mediante un esquema D&Q. En

este enfoque se utiliza un algoritmo de agrupamiento para dividir cada clase del conjunto original en

particiones que contienen instancias con características similares. De esta manera, cada partición se

procesa de forma independiente. Con este esquema se obtiene una ventaja considerable en términos de

tiempo de ejecución y cantidad de memoria requerida al procesar conjuntos de datos grandes.

La Tabla 4.1 resume las características más relevantes de las estrategias propuestas.

Tabla 4.1: Características más relevantes de las estrategias propuestas.


Tipo de representación Esquema de optimización D&Q
CBE Árboles de enlace GOP MOP
B
FW ✓ ✓
EMOIS-F ✓ ✓
B
LTW ✓ ✓
EMOIS-LT ✓ ✓
B
µLTW ✓ ✓ ✓
5
Resultados

En este capítulo se describen cuatro esquemas de experimentación diseñados para evaluar la

metodología propuesta. El primero compara 10 variantes de la estrategia IS basada en preservar la

PDF mediante GOP contra siete EAs de tipo wrapper y cuatro algoritmos de IS clásicos. El segundo

marco experimental evalúa el desempeño de las soluciones obtenidas por los métodos propuestos que

utilizan la codicación CBE y la representación basada en árboles de enlace mediante GOP y MOP. El

tercer marco experimental compara el desempeño de las estrategias IS basadas en árboles de enlace

mediante GOP y MOP cuando se utilizan en conjuntos de datos con alta dimensionalidad. Finalmente,

el cuarto marco experimental realiza un análisis comparativo de dos esquemas de tipo D&Q evaluados

sobre conjuntos de datos grandes. El primero utiliza una versión de la estrategia IS basada en árboles

de enlace mediante GOP y el segundo emplea tres variantes de un EA de tipo wrapper que maximiza

la exactitud de clasicación de tres algoritmos de aprendizaje supervisado.

99
100 5.1. Medidas de desempeño

5.1 Medidas de desempeño

Los esquemas de experimentación utilizan las siguientes medidas de desempeño para evaluar la

calidad de los subconjuntos obtenidos por las estrategias IS:

Exactitud de clasicación, ACC (2.2): Tasa de aciertos; mide el desempeño de clasicación de

un modelo de aprendizaje supervisado, que ha sido entrenado con el subconjunto X̂, sobre un

conjunto de datos de prueba T.

Tasa de reducción, RR (2.1): Fracción de instancias removidas del conjunto original X; se

calcula como: RR = 1 − N̂/N , donde N̂ y N indican la cantidad de instancias de X̂ y X,


respectivamente.

Complemento de la distancia de Hellinger (HDC, por sus siglas en Inglés): Cuantica la

similitud entre las PDFs de X̂ y X; se calcula como:

HDC = 1 − H̄ (5.1)

donde H̄ (4.4) es el valor promedio de los elementos de la matriz H (4.1).

Eciencia (E): Es un valor de compromiso entre los términos ACC, RR y HDC; se obtiene

mediante el cálculo de una media geométrica:


(5.2)
3
E = ACC × RR × HDC

Estas medidas están denidas en el rango [0, 1] y deben tender a la unidad para obtener soluciones

con alta eciencia. En este contexto, una solución eciente es un subconjunto seleccionado X̂ que

tiene un bajo porcentaje de instancias (RR), logra una alta preservación de las PDFs de X (HDC) y

se utiliza para entrenar modelos de clasicación con alta capacidad de generalización (ACC).
5. Resultados 101

B
5.2 Experimentación 1: Evaluación de FW

El primer marco experimental se diseña para comparar el desempeño de 10 variantes de la

estrategia IS basadas en preservar la PDF mediante GOP (descrita en la Sección 4.1.1) contra

siete EAs de tipo wrapper y cuatro algoritmos de IS clásicos.

5.2.1 Conjuntos de datos

El primer esquema experimental utiliza 40 conjuntos de datos de tamaño pequeño (hasta 5456

instancias), los cuales tienen variables en el dominio de los números reales y enteros. Estos datos se

obtuvieron del repositorio público KEEL [4] y de la base de datos de aprendizaje automático de la

UCI [35]. La Tabla 5.1 resume las características de los 40 conjuntos de datos.

5.2.2 Métodos comparativos

El método FW
B
descrito en la Sección 4.1.1 utiliza el parámetro W = w×100, donde w ∈ (0, 1) es

un coeciente que pondera la relevancia de la preservación de la PDF y la reducción de la cardinalidad

del subconjuntos de datos seleccionado X̂. Por ello, para medir el impacto de este parámetro, se

evaluaron 10 variantes de esta estrategia utilizando w = {0.50, 0.55, 0.60, 0.65, . . . , 0.95}. Por otro

lado, el superíndice B indica el método de selección automática del ancho de banda utilizado en la

estimación de la PDF; el valor de este parámetro impacta en el resultado de la estimación, como se

explica en la Sección 2.4.4. Por ello, en esta experimentación se emplea el selector robusto DPI, el

cual se describe en la Sección 2.4.5.2. Cabe señalar que este método tiene una complejidad O(N 2 ),

debido al cálculo del estimador ψ̂r (g) en (2.17). Sin embargo, en esta experimentación es factible

su uso debido a que se emplean conjuntos de datos pequeños. Por lo tanto, las 10 variantes de la
DPI , F DPI ,. . .,F DPI .
estrategia IS propuesta se identican como F50 55 95
102 5.2. Experimentación 1: Evaluación de FWB

Tabla 5.1: Características de los conjuntos de datos utilizados en el primer esquema experimental.
N es el número de instancias, D es la dimensionalidad, y C es el número de clases.

ID Nombre N D C ID Nombre N D C
1 Appendicitis 106 7 2 21 Ionosphere 351 33 2
2 Australian 690 14 2 22 Iris 150 4 3
3 Balance 625 4 3 23 Led7digit 500 7 10
4 Banana 5300 2 2 24 Mammographic 830 5 2
5 Bands 365 19 2 25 Monk-2 432 6 2
6 Breast 277 9 2 26 LIBRAS 360 90 15
7 Bupa 345 6 2 27 New Thyroid 215 5 3
8 Car 1728 6 4 28 Pima 768 8 2
9 Cleveland 297 13 5 29 Saheart 462 9 2
10 Contraceptive 1473 9 3 30 Sonar 208 60 2
11 Crx 653 15 2 31 Spectfheart 267 44 2
12 Dermatology 358 34 6 32 Tae 151 5 3
13 Flare 1066 11 8 33 Tic-Tac-Toe 958 9 2
14 German 1000 20 2 34 Vehicle 846 18 4
15 Glass 214 9 6 35 Vowel 990 13 11
16 Haberman 306 3 2 36 Wall Following 5456 2 4
17 Hayes-Roth 160 4 3 37 WDBC 569 30 2
18 Heart 270 13 2 38 Wine 178 13 3
19 Hepatitis 80 19 2 39 Wisconsin 683 9 2
20 Housevotes 232 16 2 40 Yeast 1484 8 10

La primera comparación es contra un esquema de tipo wrapper que emplea el GA descrito en la

Sección 2.2.1 para maximizar la función objetivo basada en (2.4), la cual realiza una suma ponderada

de los criterios ACC y RR con la misma importancia relativa (w = 0.5). Además, la codicación de

las soluciones utiliza la representación CBE. Se denieron siete variantes de este método en términos

de los siguientes clasicadores: Árbol de clasicación y regresión (CART, por sus siglas en inglés),

k NN, análisis lineal discriminante (LDA, por sus siglas en inglés), Bayes ingenuo (NB, por sus siglas
en inglés), análisis cuadrático discriminante (QDA, por sus siglas en inglés), RBFN y SVM. De esta

manera, los métodos comparativos se identican como WCART , WkNN , WLDA , WNB , WQDA , WRBFN

y WSVM . El Apéndice D muestra la metodología para sintonizar los hiperparámetros de los algoritmos

de aprendizaje supervisado empleados por los métodos wrapper y por la etapa de evaluación de las

medidas de desempeño.
5. Resultados 103

La Tabla 5.2 muestra los parámetros del GA utilizado en las 10 variantes del método FW
B
y las

siete estrategias IS de tipo wrapper.

Tabla 5.2: Parámetros del algoritmo GA empleado por los métodos comparativos.
Nombre Valor
Tamaño de la población (NP ) 100
Número de generaciones (G) 2000
Probabilidad de cruza (pc ) 0.9
Probabilidad de mutación (pm ) 1/N

Por otro lado, también se utilizan los cuatro algoritmos de IS clásicos CNN, ENN, DROP3 e ICF

descritos en la Sección 2.1.1.

5.2.3 Marco de evaluación de desempeño

Se utilizó el método de validación cruzada de 10-veces 5-pliegues para obtener conjuntos de

entrenamiento (X) y prueba (T) empleados en 50 experimentos independientes. Esta técnica de

remuestreo reduce la inuencia de la aleatoriedad introducida por la división de los datos [110]. La

Figura 5.1 muestra el marco de evaluación utilizado para medir la calidad de la solución de una

estrategia IS en términos de las medidas de desempeño.

En este esquema de evaluación, un algoritmo IS procesa al conjunto X para obtener X̂, con el

cual se entrena un modelo de aprendizaje supervisado para medir su desempeño de clasicación sobre

un conjunto T en términos de ACC, así como los índices RR, HDC y E sobre el subconjunto X̂. Por

otro lado, también se utiliza el conjunto X para obtener un modelo de aprendizaje supervisado del

mismo tipo de clasicador entrenado con X̂, el cual es evaluado en términos de ACC. Finalmente,

se realiza un análisis estadístico de los modelos de clasicación entrenados con X y X̂.

La propiedad de reutilización de las instancias seleccionadas está relacionada con entrenar

diferentes clasicadores usando X̂ sin perder la capacidad de generalización. En este sentido, los
104 5.2. Experimentación 1: Evaluación de FWB

Figura 5.1: Marco de evaluación de desempeño del primer esquema de experimentación.

subconjuntos seleccionados por las técnicas de tipo wrapper se ajustan de acuerdo con las propiedades

del clasicador utilizado en el proceso IS para maximizar el término ACC. Sin embargo, podrían

perder similitud con X en términos de las PDFs cuando se reduce el número de instancias. Por lo

tanto, el subconjunto seleccionado puede ser inecaz para entrenar otros tipos de clasicadores. De

esta manera, para medir la capacidad de generalización de las instancias seleccionadas se proponen

dos tipos de evaluaciones:

Tipo 1: Mide el desempeño de clasicación del algoritmo de aprendizaje supervisado empleado

por el método wrapper (e.g., medir la exactitud de un modelo de SVM entrenado con el

subconjunto X̂ que fue seleccionado por WSVM ).

Tipo 2: Mide el promedio del desempeño de clasicación de los algoritmos de aprendizaje

supervisado que no se utilizaron por el método wrapper (e.g., promediar la exactitud de los

modelos CART, k NN, LDA, NB, QDA y RBFN entrenados con el subconjunto X̂ que fue

seleccionado por WSVM ).


5. Resultados 105

Por otro lado, se utilizó la prueba no paramétrica de suma de rangos de Wilcoxon (α = 0.05)

para determinar las diferencias estadísticas entre los resultados de las medidas de desempeño de los

subconjuntos obtenidos por la estrategia propuesta y los métodos comparativos. La hipótesis nula

establece que los resultados de cada medida de desempeño pertenecen a muestras de distribuciones

continuas con medianas iguales [101].

Además, se utilizó la prueba estadística de McNemar (α = 0.05) para comparar el desempeño

predictivo de dos modelos de clasicación cualesquiera entrenados con X y X̂. La hipótesis nula

establece que los dos clasicadores tienen el mismo desempeño predictivo [74].

La plataforma de pruebas utilizó un ordenador con cuatro núcleos a 3.5 GHz (Intel i7 4770k)

y 32 GB de RAM. Todos las estrategias IS empleadas en los esquemas de experimentación se

implementaron en MATLAB 2019b [73].

5.2.4 Resultados de desempeño del método FWB .

La Figura 5.2 presenta los resultados de las medidas de desempeño de las variantes del método

propuesto, los cuales indican que el rendimiento de FW


B
se ve inuenciado por w. De manera general,

si w → 1, los valores de ACC y HDC incrementan, mientras que RR y E disminuyen. Por el contrario,

si w → 0, sucede lo opuesto. No obstante, los cinco valores de w utilizados en el intervalo [0.50, 0.70]

obtienen la misma eciencia (E = 0.81). Por otro lado, todas las variantes alcanzan valores altos

de HDC; DPI obtiene


en particular, F50 HDC = 0.90, la cual es la variante del método propuesto que
DPI y F DPI muestran el mismo desempeño
logra la tasa más baja de preservación de PDF. Además, F65 70

de clasicación (ACC = 0.70) y una preservación de la PDF similar (HDC ≈ 0.93). Sin embargo,
DPI alcanza una mayor tasa de reducción (RR = 0.85).
F65

La Tabla 5.3 muestra la media (µ) y la desviación estándar (σ ) de los resultados de ACC de

los siete clasicadores utilizados en este estudio, los cuales fueron entrenados con los subconjuntos
106 5.2. Experimentación 1: Evaluación de FWB

DPI alcanza el valor más alto de


obtenidos por las variantes del método propuesto. F95 ACC en casi

todos los casos. Esto se debe a que el peso w = 0.95 dene la mayor relevancia de preservación

de la PDF; lo anterior se reeja en la baja tasa de reducción (RR = 0.42) y eciencia (E = 0.64)
DPI logra un desempeño de clasicación balanceado
obtenidas por este método. Por otro lado, F65
DPI (ACC = 0.67) y F DPI (ACC = 0.75).
(ACC = 0.70), el cual se encuentra entre F50 95

Nótese que el desempeño de clasicación de los modelos obtenidos con NB se mantiene

aproximadamente igual (ACC ≈ 0.70) para todas las variantes de FW


B
. Una explicación plausible

de este fenómeno podría estar relacionada con las propiedades del clasicador, el cual se basa en el

teorema de Bayes y asume la existencia de independencia condicional en las variables del conjunto de

datos (i.e., todas las características realizan una contribución igual e independiente con respecto a

la variable de etiquetas de clase). Por lo anterior, solo se requieren pocos patrones de entrenamiento

para estimar los parámetros necesarios del modelo de probabilidad [29].

Figura 5.2: Promedio de los resultados de las medidas de desempeño de las variantes de FWB
obtenidos con 50 experimentos independientes. En la parte superior de cada marcador se indica el
valor de ACC y dentro de cada etiqueta cuadrada se muestra su respectivo valor de eciencia E.
5. Resultados 107

Tabla 5.3: Media (µ) y desviación estándar (σ) de ACC de los clasicadores entrenados con los
subconjuntos obtenidos por las variantes de B
FW . Los mejores desempeños se indican en negritas.
DPI
F50 DPI
F55 DPI
F60 DPI
F65 DPI
F70 DPI
F75 DPI
F80 DPI
F85 DPI
F90 DPI
F95
CART 0.68±0.07 0.69±0.06 0.70±0.06 0.71±0.05 0.72±0.05 0.72±0.05 0.72±0.05 0.73±0.05 0.74±0.05 0.76±0.04
k NN 0.69±0.05 0.70±0.05 0.70±0.05 0.70±0.05 0.71±0.05 0.71±0.05 0.72±0.05 0.73±0.04 0.75±0.04 0.76±0.04
LDA 0.69±0.06 0.70±0.05 0.71±0.05 0.71±0.05 0.71±0.05 0.72±0.05 0.72±0.05 0.73±0.05 0.74±0.04 0.76±0.04
NB 0.70±0.06 0.71±0.06 0.71±0.06 0.70±0.06 0.70±0.06 0.70±0.06 0.70±0.06 0.70±0.06 0.70±0.06 0.70±0.06
QDA 0.59±0.08 0.60±0.07 0.62±0.07 0.64±0.06 0.65±0.06 0.66±0.06 0.69±0.06 0.71±0.06 0.73±0.05 0.75±0.05
RBFN 0.69±0.06 0.70±0.06 0.71±0.05 0.71±0.05 0.72±0.05 0.72±0.05 0.73±0.05 0.74±0.04 0.75±0.04 0.77±0.04
SVM 0.67±0.12 0.68±0.12 0.68±0.12 0.69±0.12 0.70±0.12 0.70±0.12 0.71±0.11 0.73±0.10 0.76±0.08 0.78±0.06
µ ± σ 0.67±0.07 0.68±0.07 0.69±0.07 0.70±0.06 0.70±0.06 0.71±0.06 0.71±0.06 0.72±0.06 0.74±0.05 0.75±0.05

5.2.5 Resultados de desempeño de los métodos wrapper

La Figura 5.3 muestra el resultado de los valores de desempeño de los métodos wrapper. Se

observa que la eciencia alcanzada por todos los algoritmos comparativos es similar. En este contexto,

WQDA obtiene el desempeño más alto (E = 0.77), aunque WCART y WSVM alcanzan un valor de
eciencia parecido (E = 0.75), el cual es el más bajo obtenido por los métodos wrapper. Con respecto

a la exactitud de clasicación, WQDA logra el desempeño más alto (ACC = 0.69). Sin embargo, los

métodos WCART y WSVM obtienen un resultado similar (ACC = 0.65), aún cuando este es el valor

más bajo reportado por todos los métodos de este estudio. En términos de la tasa de reducción, el

algoritmo WQDA logra el rendimiento más bajo (RR = 0.83), mientras que WRBFN obtiene el mejor

resultado (RR = 0.90). En relación con la preservación de la PDF, el método WQDA alcanza el

desempeño más alto (HDC = 0.84), mientras que WSVM obtiene el más bajo (HDC = 0.78).

La Tabla 5.4 muestra la media (µ) y la desviación estándar (σ ) de los resultados de ACC de

los siete clasicadores utilizados en este estudio, los cuales fueron entrenados con los subconjuntos

obtenidos por los métodos wrapper. Los resultados muestran que el mejor desempeño se obtiene al

evaluar el mismo clasicador utilizado en la estrategia de IS wrapper (i.e., evaluación de Tipo 1). Por

lo tanto, la diagonal principal de la Tabla 5.4 indica que se introduce un sesgo en los subconjuntos

seleccionados hacia el algoritmo de aprendizaje supervisado utilizado por los métodos wrapper.
108 5.2. Experimentación 1: Evaluación de FWB

Figura 5.3: Promedio de los resultados de las medidas de desempeño de los métodos wrapper
obtenidos con 50 experimentos independientes. En la parte superior de cada marcador se indica el
valor de ACC y dentro de cada etiqueta cuadrada se muestra su respectivo valor de eciencia E.

Tabla 5.4: Media (µ) y desviación estándar (σ) de ACC de los clasicadores entrenados con los
subconjuntos obtenidos por los métodos wrapper. Los mejores desempeños se indican en negritas.
WCART WkNN WLDA WNB WQDA WRBFN WSVM
CART 0.79±0.04 0.65±0.08 0.64±0.07 0.63±0.09 0.67±0.08 0.65±0.09 0.65±0.08
k NN 0.64±0.07 0.76±0.05 0.66±0.06 0.65±0.08 0.67±0.06 0.68±0.07 0.67±0.06
LDA 0.66±0.08 0.68±0.07 0.76±0.05 0.67±0.07 0.70±0.06 0.70±0.07 0.68±0.07
NB 0.65±0.09 0.65±0.09 0.66±0.07 0.78±0.05 0.67±0.07 0.67±0.09 0.65±0.09
QDA 0.53±0.10 0.59±0.08 0.57±0.09 0.56±0.09 0.75±0.06 0.58±0.09 0.57±0.10
RBFN 0.64±0.09 0.66±0.08 0.66±0.07 0.66±0.08 0.69±0.07 0.70±0.06 0.65±0.08
SVM 0.63±0.13 0.70±0.11 0.68±0.10 0.68±0.10 0.69±0.10 0.69±0.11 0.72±0.11
µ±σ 0.65±0.09 0.67±0.08 0.66±0.07 0.66±0.08 0.69±0.07 0.67±0.08 0.65±0.08

5.2.6 Resultados de desempeño de los métodos clásicos

La Figura 5.4 muestra el resultado de los valores de desempeño de los métodos clásicos. El

algoritmo CNN obtuvo el segundo mejor valor de exactitud de clasicación (ACC = 0.71) y

preservación de PDF (HDC = 0.89) de las técnicas clásicas, y superó a ENN en términos de

eciencia (E = 0.71) y tasa de reducción (RR = 0.59). Por otro lado, ENN obtuvo el valor más

alto de desempeño de clasicación (ACC = 0.76) y preservación de PDF (HDC = 0.90), aunque

alcanzó la peor eciencia de todos los métodos (E = 0.51), esto debido a una pobre tasa de reducción

(RR = 0.24). Con respecto a los método híbridos, estos lograron una mejor tasa de reducción y
5. Resultados 109

eciencia, aunque menor exactitud de clasicación y preservación de PDF que CNN y ENN. Por

ejemplo, DROP3 obtuvo una mejor tasa de reducción (RR = 0.83) y eciencia (E = 0.74) que

ICF, aunque menor exactitud de clasicación (ACC = 0.67) y preservación de PDF (HDC = 0.76)

que todos los métodos clásicos. Por el contrario, ICF logró una mejor exactitud de clasicación

(ACC = 0.70) y preservación de PDF (HDC = 0.81), aunque una tasa de reducción (RR = 0.72)

y una eciencia (E = 0.73) más bajas que DROP3.

La Tabla 5.5 muestra la media (µ) y la desviación estándar (σ ) de los resultados de ACC de

los siete clasicadores utilizados en este estudio, los cuales fueron entrenados con los subconjuntos

obtenidos por los métodos clásicos. Los resultados muestran que ENN supera a sus contrapartes

en todos los clasicadores, esto es debido a que se trata de un método de edición que elimina

instancias que están rodeadas de patrones de diferentes clases. Sin embargo, este método remueve

pocas instancias del conjunto original, por lo que alcanza una eciencia muy baja. Por el contrario,

los otros métodos eliminan una mayor cantidad de instancias y logran desempeños de clasicación

de hasta ACC = 0.70, como es el caso de CNN e ICF.

Figura 5.4: Promedio de los resultados de las medidas de desempeño de los métodos clásicos
obtenidos con 50 experimentos independientes. En la parte superior de cada marcador se indica el
valor de ACC y dentro de cada etiqueta cuadrada se muestra su respectivo valor de eciencia E.
110 5.2. Experimentación 1: Evaluación de FWB

Tabla 5.5: Media (µ) y desviación estándar (σ) de de los clasicadores entrenados con los
ACC
subconjuntos obtenidos por los métodos clásicos. Los mejores desempeños se indican en negritas.
CNN ENN DROP3 ICF
CART 0.72±0.06 0.77±0.04 0.69±0.07 0.73±0.05
k NN 0.72±0.04 0.78±0.03 0.72±0.05 0.73±0.05
LDA 0.72±0.05 0.76±0.04 0.70±0.06 0.72±0.05
NB 0.68±0.06 0.71±0.06 0.65±0.08 0.68±0.07
QDA 0.67±0.06 0.73±0.05 0.60±0.08 0.65±0.07
RBFN 0.72±0.05 0.75±0.04 0.65±0.07 0.71±0.05
SVM 0.73±0.07 0.78±0.05 0.72±0.08 0.72±0.07
µ±σ 0.71±0.06 0.76±0.04 0.67±0.07 0.70±0.06

5.2.7 Análisis comparativo del método propuesto

DPI con los métodos wrapper y


En el presente análisis se compara el rendimiento de la estrategia F65

las técnicas clásicas. La variante del algoritmo propuesto se elige a partir de los resultados mostrados

en la Sección 5.2.4, en donde se observa que dicha estrategia presenta un rendimiento alto con

respecto a las cuatro medidas de desempeño utilizadas en este estudio.

DPI y los algoritmos comparativos. La


La Figura 5.5 muestra los resultados obtenidos por F65

variante del método propuesto supera a sus contrapartes en términos de eciencia (E = 0.81) y
DPI
preservación de la PDF (HDC = 0.93). Con respecto a la tasa de reducción de instancias, F65

alcanza un porcentaje alto (RR = 0.85), lo cual es competitivo con respecto a WRBFN (RR = 0.90)

y DROP3 (RR = 0.83), que son los métodos comparativos que presentan mayor porcentaje de
DPI obtiene una mayor exactitud de clasicación que todas las estrategias
reducción. Además, F65

wrapper (ACC = 0.70). No obstante, este método es superado por CNN y ENN en términos de

ACC, aunque estas técnicas clásicas obtienen una tasa de reducción muy baja (RR < 0.60).

La Tabla 5.6 presenta los resultados de la prueba de la suma de rangos de Wilcoxon. Se muestran
DPI con los métodos wrapper y las
los valores-p obtenidos al comparar las medidas de desempeño de F65

técnicas clasicas. Los resultados señalan que la variante propuesta no presenta diferencia estadística

signicativa con ninguno de los algoritmos comparados en relación con la medida ACC (p > 0.05).
5. Resultados 111

Por otro lado, solo se ve superada por los métodos WCART , WNB , WRBFN y WSVM con respecto a

RR DPI supera a todos los métodos en términos de


(p < 0.05). Además, F65 HDC, a excepeción de

CNN y ENN, con quienes no presenta diferencia estadística. Asimismo, la estrategia propuesta es

estadísticamente superior a todos los métodos comparativos en términos de E (p < 0.05).

Figura 5.5: Promedio de los resultados de las medidas de desempeño de los métodos comparativos
obtenidos con 50 experimentos independientes. En la parte superior de cada barra se muestra la
medida de desempeño correspondiente. Los mejores resultados se indican en negritas.

Tabla 5.6: Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el valor-p
de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan: (+) estadísticamente
DPI .
superior, (=) estadísticamente igual, y (−) estadísticamente inferior con respecto al método F65
WCART WkNN WLDA WNB WQDA WRBFN WSVM CNN ENN DROP3 ICF
ACC 0.16 (=) 0.44 (=) 0.33 (=) 0.24 (=) 0.92 (=) 0.41 (=) 0.20 (=) 0.70 (=) 0.08 (=) 0.51 (=) 0.79 (=)
RR 0.00 (+) 0.92 (=) 0.14 (=) 0.04 (+) 0.19 (=) 0.00 (+) 0.01 (+) 0.00 (−) 0.00 (−) 0.15 (=) 0.00 (−)
HDC 0.00 (−) 0.00 (−) 0.00 (−) 0.00 (−) 0.00 (−) 0.00 (−) 0.00 (−) 0.06 (=) 0.78 (=) 0.00 (−) 0.00 (−)
E 0.00 (−) 0.00 (−) 0.00 (−) 0.00 (−) 0.02 (−) 0.01 (−) 0.00 (−) 0.00 (−) 0.00 (−) 0.00 (−) 0.00 (−)

5.2.8 Análisis de la capacidad de generalización


DPI y los algoritmos
En este análisis se evalúan los subconjuntos seleccionados por el método F65

wrapper en relación con su capacidad de reutilización en el entrenamiento de diferentes tipos de

algoritmos de aprendizaje supervisado. Para esto, se compara el desempeño de siete clasicadores en

términos de las evaluaciones de Tipo 1 y 2 descritas en la Sección 5.2.3.

Debido a que los dos tipos de evaluación están denidos para los métodos wrapper, la capacidad
DPI se mide con los mismos clasicadores que emplea cada método comparativo
de generalización de F65
112 5.2. Experimentación 1: Evaluación de FWB

DPI con WCART , la evaluación de Tipo 1


en su respectiva evaluación. Por ejemplo, para comparar F65

calcula el desempeño de un clasicador CART, mientras que la evaluación de Tipo 2 promedia el

desempeño de los clasicadores restantes: k NN, LDA, NB, QDA, RBFN y SVM.

La Figura 5.6 muestra los resultados de los dos tipos de evaluación obtenidos con los subconjuntos
DPI y los siete métodos wrapper. Se realizan siete comparativas de resultados
seleccionados por F65

independientes que se resumen por medio de diagramas de caja. Además en la parte superior de cada

par de diagramas de caja se muestra el valor-p de la prueba de suma de rangos de Wilcoxon.

DPI no presenta diferencias estadísticas signicativas


Los resultados muestran que el método F65

en relación con los dos tipos de evaluación en ninguna de las siete comparaciones (p > 0.05). Esto

indica que los subconjuntos obtenidos por la estrategia propuesta pueden entrenar diferentes tipos de

clasicadores que obtienen desempeños de exactitud similares de Tipo 1 y 2. Lo anterior es debido al

criterio utilizado para preservar la PDF del conjunto de datos original y también a que no se considera

maximizar el desempeño de ningún clasicador.

Por otro lado, los resultados de la prueba de Wilcoxon señalan que los métodos wrapper obtienen

mejores desempeños en la evaluación del Tipo 1 que del Tipo 2 en casi todos los casos (p < 0.05);

únicamente WRBFN logra un rendimiento similar en ambos tipos de exactitud (p = 0.20). Estos

resultados conrman que los subconjuntos obtenidos por los métodos wrapper están sesgados hacia

las características del clasicador utilizado en la función objetivo, limitando la reutilización de los

datos seleccionados para el entrenamiento de otros clasicadores.

La Tabla 5.7 muestra seis estadísticos de los resultados de la evaluación de Tipo 1

correspondientes con los método comparativos expuestos en la Figura 5.6, en donde µ y σ denotan

media y desviación estándar, mientras que MAD indica desviación absoluta mediana.

Los valores mostrados indican que los métodos wrapper alcanzan mejores desempeños en casi
DPI obtiene una
todos los estadísticos, ya que únicamente la comparativa con WRBFN muestra que F65
5. Resultados 113

Figura 5.6: Resultados de la evaluación de Tipo 1 y Tipo 2 utilizando siete clasicadores distintos
que fueron entrenados con los subconjuntos obtenidos por los métodos comparativos. En la parte
superior de cada par de diagramas de caja se muestra el valor-p de la prueba de la suma de rangos
de Wilcoxon. En negritas, p < 0.05.

media superior a dicho método wrapper (µ = 0.71). Por otro lado, la prueba de Wilcoxon señala que

la estrategia propuesta es estadísticamente similar a WkNN , WLDA , WNB , WRBFN y WSVM (p > 0.05).

Sin embargo, los resultados de WCART y WQDA muestran diferencias estadísticas signicativas con
DPI (p < 0.05).
respecto al desempeño obtenido por F65

Tabla 5.7: Estadísticos de los resultados comparativos de la evaluación de Tipo 1 entre F65DPI y los
métodos wrapper. En la parte inferior se muestra el valor-p de la prueba de la suma de rangos de
Wilcoxon. Los mejores resultados se indican en negritas, y también p < 0.05.
DPI
F65 WCART DPI
F65 WkNN DPI
F65 WLDA DPI
F65 WNB DPI
F65 WQDA DPI
F65 WRBFN DPI
F65 WSVM
µ 0.71 0.79 0.70 0.76 0.71 0.76 0.70 0.78 0.64 0.75 0.71 0.70 0.69 0.72
σ 0.17 0.14 0.17 0.14 0.14 0.13 0.18 0.14 0.19 0.16 0.16 0.14 0.16 0.15
Mediana 0.68 0.80 0.70 0.79 0.73 0.74 0.69 0.75 0.63 0.75 0.69 0.70 0.68 0.71
MAD 0.14 0.11 0.13 0.12 0.12 0.11 0.14 0.10 0.16 0.10 0.14 0.09 0.10 0.10
Máximo 1.00 1.00 0.97 0.98 0.97 0.97 0.97 0.97 0.93 0.98 0.97 0.97 0.99 0.96
Mínimo 0.37 0.52 0.39 0.46 0.47 0.52 0.35 0.46 0.10 0.33 0.37 0.42 0.22 0.24
Valor-p − 0.04 − 0.12 − 0.16 − 0.07 − 0.00 − 0.77 − 0.41

DPI
La Tabla 5.8 muestra los estadísticos de la evaluación de Tipo 2. Los resultados indican que F65

supera consistentemente el desempeño de todos los métodos wrapper en términos del estadístico

µ y la mediana. Sin embargo, la prueba de Wilcoxon indica que el método propuesto solo es
estadísticamente superior a WCART (p < 0.05), y no presenta diferencias estadísticas signicativas

con respecto a los demás métodos wrapper (p > 0.05).


114 5.2. Experimentación 1: Evaluación de FWB

Tabla 5.8: Estadísticos de los resultados comparativos de la evaluación de Tipo 2 entre F65DPI y los
métodos wrapper. En la parte inferior se muestra el valor-p de la prueba de la suma de rangos de
Wilcoxon. Los mejores resultados se indican en negritas, y también p < 0.05.
DPI
F65 WCART DPI
F65 WkNN DPI
F65 WLDA DPI
F65 WNB DPI
F65 WQDA DPI
F65 WRBFN DPI
F65 WSVM
µ 0.69 0.63 0.69 0.66 0.69 0.64 0.69 0.64 0.70 0.68 0.69 0.66 0.70 0.64
σ 0.15 0.12 0.15 0.13 0.16 0.15 0.15 0.12 0.15 0.15 0.15 0.13 0.15 0.13
Mediana 0.70 0.65 0.70 0.66 0.69 0.66 0.69 0.66 0.70 0.69 0.70 0.67 0.70 0.65
MAD 0.12 0.07 0.12 0.08 0.13 0.12 0.13 0.08 0.12 0.12 0.12 0.09 0.12 0.09
Máximo 0.93 0.83 0.93 0.88 0.95 0.93 0.93 0.92 0.93 0.93 0.93 0.93 0.93 0.90
Mínimo 0.43 0.36 0.41 0.40 0.41 0.32 0.42 0.40 0.42 0.31 0.40 0.43 0.41 0.40
Valor-p − 0.04 − 0.23 − 0.18 − 0.10 − 0.51 − 0.31 − 0.09

5.2.9 Comparación de los modelos de clasicación

La Figura 5.7 presenta el conteo de los conjuntos de datos para los que no hay rechazos de la

hipótesis nula en la prueba de McNemar. En este contexto, un conteo alto indica que la estrategia IS

en cuestión obtiene subconjuntos de datos que pueden entrenar clasicadores para obtener modelos

con desempeño similar a los entrenados con X. En este análisis se comparan todas las variantes de la

estrategia FW
B
, los métodos wrapper y los algoritmos clásicos. Cabe señalar que el conteo se realiza

de forma independiente por cada clasicador utilizado en este esquema de experimentación.

Con respecto al método propuesto, los resultados muestran que cuanto más alto es el valor del
DPI obtuvo la mayor cantidad
peso w, menor es el número de rechazos de la hipótesis nula. Por ello, F95

de subconjuntos seleccionados que no tienen una diferencia estadística con X, con un total de 117.

En relación con los métodos wrapper, WQDA tuvo un mayor conteo que sus contrapartes, con un

total de 28. Además, nótese que para el clasicador CART y k NN, los métodos WCART y WkNN

lograron conteos de 13 y 14, respectivamente; los cuales representan los valores más altos en el

contexto de evaluar el mismo clasicador que se utilizó por el método de selección. Sin embargo,

este mismo fenómeno se repite con menos conteos en los métodos WLDA y WQDA , cuando se evalúan

los clasicadores LDA y QDA, respectivamente; con un conteo de siete y 10, en cada caso. Por otro

lado, WSVM es el método que obtuvo la mayor cantidad de rechazos de la hipótesis nula, ya que

los subconjuntos obtenidos únicamente lograron modelos de clasicación similares a los entrenados
5. Resultados 115

por X en un total de 11 ocasiones. En cuanto a los algoritmos clásicos, ENN consiguió un mayor

conteo de no rechazos de la hipótesis nula para la mayoría de los clasicadores; sólo fue superado

marginalmente por CNN en el caso del clasicador RBFN y empató con este mismo método en

cuanto a la evaluación de k NN. En este contexto, ENN obtuvo un conteo total de 70, el cual es
DPI , que logró un conteo total de 63.
competitivo con la estrategia F90

En el caso de los conteos con respecto a todos los métodos IS para un mismo clasicador, el

algoritmo NB alcanzó el valor más alto, con un total de 205. Por el contrario, QDA obtuvo la

mayor cantidad de rechazos de la hipótesis nula, en donde únicamente en 53 ocasiones los modelos

de clasicación entrenados con el subconjunto seleccionado lograron un desempeño similar a los

modelos entrenados con X.

Estos resultados muestran que la estrategia FW


B
puede seleccionar más subconjuntos de instancias

que los métodos comparativos para utilizarlos en el entrenamiento de diferentes clasicadores y

obtener modelos con un desempeño similar a los entrenados por el conjunto de datos original.

5.2.10 Caso de estudio

La Figura 5.8 muestra el conjunto de datos sintético bidimensional llamado Banana, el cual se
DPI con respecto a
utiliza en este caso de estudio para comparar el desempeño de la estrategia F65

los métodos wrapper y las técnicas clásicas. Los resultados de ACC se calculan como la media del

desempeño de los siete clasicadores utilizados en este esquema de experimentación.

En la parte inferior de la Figura 5.8 se muestran los resultados de IS obtenidos por los métodos
DPI obtuvo un desempeño de clasicación competitivo (ACC = 0.74) con respecto
comparados. F65

a WLDA , el cual alcanzó el mejor rendimiento (ACC = 0.79). Por otro lado, tanto ICF como

WkNN mostraron el desempeño de clasicación más bajo (ACC = 0.69). Con respecto a la tasa de
reducción, el método propuesto logra una reducción competitiva (ACC = 0.86) en relación con los
116 5.2. Experimentación 1: Evaluación de FWB

Figura 5.7: Conteo de no rechazos de la hipótesis nula en la prueba estadística de McNemar. En


la parte superior se muestra el conteo total obtenido por cada método comparativo. En la esquina
superior derecha de cada sección se muestra el conteo total por clasicador.
5. Resultados 117

métodos comparados, en donde DROP3 alcanzó el mayor porcentaje de reducción (RR = 0.92),

mientras que ENN obtuvo el peor rendimiento en esta medida de desempeño (RR = 0.12). En
DPI logra el mejor desempeño con respecto a todos los
cuanto a la preservación de la PDF, F65

métodos comparativos (HDC = 0.98), mientras que ICF obtiene el valor más bajo (HDC = 0.79).
DPI es el método que alcanza la mayor eciencia (E = 0.85), esto es debido a que
Por lo anterior, F65

tiene un alto desempeño de exactitud de clasicación y tasa de reducción, además de alcanzar la

mejor medida de preservación de PDF entre todos los métodos comparados.

En la parte superior derecha de la Figura 5.8 se muestran las PDFs por clase y por dimensión
DPI , WLDA
estimadas a partir del conjunto de datos original X y los subconjuntos obtenidos por F65

y ENN, los cuales obtienen los mejores resultados en términos de la preservación de la PDF

(HDC > 0.93). En la parte inferior de cada gráca se muestran tres valores de HDC que indican

la medida de similitud de la PDF de X con respecto a cada método comparativo. En este ejemplo
DPI logra una mejor preservación de todas las PDFs con respecto a los otros dos
se observa que F65

métodos, aún cuando estos mantienen un mayor porcentaje de instancias seleccionadas.

5.2.11 Resumen del primer esquema experimental

El primer esquema experimental se diseñó para evaluar el desempeño del método propuesto FW
B
,

el cual está basado en preservar la PDF mediante GOP. Se utilizaron siete EAs de tipo wrapper y

cuatro técnicas clásicas como métodos comparativos. Debido a que el enfoque propuesto depende

de un peso w, se llevó a cabo la evaluación de 10 valores diferentes de este parámetro.

Por otra parte, también se realizó un análisis de los resultados de los métodos wrapper y las

técnicas clásicas. Con esto se evaluó el rendimiento de estas estrategias en términos de las medidas

de desempeño para compararlas con el método propuesto. A partir de los resultados de las medidas

de desempeño de las variantes de FW


B DPI (w = 0.65). Después se realizó
, se seleccionó el método F65
118 5.2. Experimentación 1: Evaluación de FWB

Figura 5.8: Superior izquierda: Conjunto de datos sintético bidimensional Banana de 5300 instancias
y dos clases. Superior derecha: Comparación de las PDFs estimadas a partir de X y los subconjuntos
obtenidos por F65DPI , WLDA y ENN. Inferior: Resultados de 12 métodos comparativos. Las medidas
de desempeño se muestran en la parte superior de cada gráca como (ACC, RR, HDC, E).
5. Resultados 119

un análisis de los resultados de este método y los algoritmos comparativos. Además, se utilizaron dos

evaluaciones identicadas como Tipo 1 y Tipo 2, de la medida ACC, para analizar la capacidad de

generalización de la variante del método propuesto.

Posteriormente se utilizó la prueba estadística de McNemar para evaluar el desempeño de los

clasicadores entrenados con el conjunto de datos original X y el subconjunto seleccionado X̂.

Finalmente se presentó un caso de estudio con el conjunto de datos Banana en donde se muestra
DPI es competitivo en términos de
que F65 ACC y RR con respecto a los métodos que obtienen los

mejores resultados de estas medidas de desempeño. Por otra parte, la estrategia propuesta demuestra

ser superior a todos los algoritmos comparativos en relación con la preservación de la PDF (HDC)

y la eciencia alcanzada por el subconjunto seleccionado (E).

5.3 Experimentación 2: Evaluación de las cuatro

estrategias IS propuestas

El segundo marco experimental se diseñó para evaluar el desempeño de las cuatro estrategias IS

propuestas basadas en GOP y MOP descritas en las Secciones 4.1 y 4.2, las cuales se comparan con

dos EAs de tipo wrapper y cuatro algoritmos de IS clásicos.

5.3.1 Conjuntos de datos

Se utilizaron 21 conjuntos de datos: seis sintéticos y 15 del mundo real, de los cuales 10 son de

tamaño mediano (entre 5000 y 20000 instancias) y tienen variables en el dominio de los números

reales y enteros, mientras que el resto se consideran de tamaño pequeño (menor que 5000 instancias).

Los datos reales se obtuvieron del repositorio público KEEL [4]. La Tabla 5.9 resume las características

de los 21 conjuntos de datos.


120 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas

Tabla 5.9: Características de los conjuntos de datos utilizados en el segundo esquema experimental.
N es el número de instancias, D es la dimensionalidad, y C es el número de clases. Los conjuntos
sintéticos y reales se indican con los IDs S{·} y R{·} , respectivamente.

ID Nombre N D C
S1 Banana 5300 2 2
S2 Concentric 1617 2 3
S3 Gaussians 1800 2 3
S4 Horseshoes 1500 2 2
S5 Ripley's dataset 1250 2 2
S6 Spirals 1500 2 2
R1 Letter 20000 16 26
R2 Magic gamma telescope 19020 10 2
R3 Optical recognition digits 5620 64 10
R4 Page blocks 5472 10 5
R5 Pen-based 10992 16 10
R6 Phoneme 5404 5 2
R7 Satellite image (landsat) 6435 36 6
R8 Segmentation 2310 19 7
R9 Spambase 4597 57 2
R10 Texture 5500 40 11
R11 Thyroid disease 7200 21 3
R12 Vowel recognition data 990 13 11
R13 Winequality red 1599 11 6
R14 Winequality white 4898 11 7
R15 Yeast 1484 8 10

5.3.2 Métodos comparativos

En esta experimentación se evaluó el desempeño de las cuatro estrategias IS propuestas, las cuales

se basan en dos criterios de optimización que consisten en maximizar la preservación de la PDF del

conjunto de datos original X y minimizar la cardinalidad de X̂. Por otra parte, para codicar a los

individuos de la población, los métodos FW


B
y EMOIS-F utilizan la representación CBE, mientras

que LTW
B
y EMOIS-LT emplean un nuevo enfoque basado en árboles de enlace.

Estos algoritmos utilizan el método KDE, descrito en la Sección 2.4.3, para estimar las C × D

PDFs de X y X̂. Sin embargo, dicha técnica requiere ajustar el valor del ancho de banda mediante un
5. Resultados 121

selector automático, como la regla DPI, la cual representa un método óptimo, aunque su complejidad

es O(N 2 ). Debido a esto, su uso se ve limitado por el tamaño de los conjuntos de datos medianos.

Por lo tanto, en esta experimentación se utiliza la regla SIL (2.12), la cual tiene una complejidad

O(N ) y se describe en la Sección 2.4.5.1.

Con respecto a las estrategias FW


B
(Algoritmo 12) y LTW
B
(Algoritmo 17), se utilizó w = 0.5,

para ponderar con la misma importancia relativa a los dos criterios de optimización de F en (4.3),

y LT en (4.11). Por lo tanto, las variantes de las estrategias propuestas basadas en GOP utilizadas
SIL y LT SIL .
en esta experimentación se identican como F50 50

Por otra parte, los métodos EMOIS-F (Algoritmo 13) y EMOIS-LT (Algoritmo 18) obtienen un

conjunto de soluciones no dominadas que muestran una relación de compromiso entre la preservación

de la PDF y el criterio de reducción de instancias. Por ello, en esta experimentación se utiliza el

método de selección automática de soluciones no dominadas basado en la distancia máxima de la

proyección ortogonal descrito en la Sección 2.3.3. Esta técnica elige a las soluciones con las máximas

tasas marginales de rendimiento.

SIL y EMOIS-LT se requiere especicar


Además, en la construcción de los árboles de enlace de LT50

una métrica de distancia. Por ello, para analizar el impacto que tienen diferentes métricas en términos

de las medidas de desempeño de los subconjuntos obtenidos, los métodos propuestos se evalúan

considerando a la distancia Minkowski, Lq , dada en (2.20), con q = {0.5, 2, ∞} y a la distancia de

Yang, Mq , dada en (2.21), con q = {0.5, 1, 2, ∞}, en donde para q = 1, ambas distancias son iguales.
SIL y EMOIS-LT , respectivamente.
De esta manera, se conforman siete variantes de LT50

La primera comparación es contra los métodos wrapper WkNN y WSVM , los cuales emplean a los

clasicadores más utilizados en la literatura para realizar la tarea IS mediante EAs [13, 21, 87].

Además, para evaluar las medidas de desempeño se utilizan los siguientes clasicadores: k NN,

perceptrón multicapa (MLP, por sus siglas en inglés), NB, RBFN, bosque aleatorio (RF, por sus

siglas en inglés) y SVM.


122 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas

La Tabla 5.10 muestra los parámetros de los EAs utilizados por las variantes de las estrategias

IS propuestas y los dos métodos wrapper.

Tabla 5.10: Parámetros de los EAs empleados por las estrategias propuestas y los métodos wrapper.
Estrategias Métodos
Nombre
propuestas wrapper
Tamaño de la población (NP ) 100 100
Número de generaciones (G) 1000 1000
Probabilidad de cruza (pc ) 0.9 0.9
Probabilidad de mutación (pm ) 0.1 1/N

Por otro lado, también se emplean las cuatro técnicas clásicas CNN, ENN, DROP3 e ICF utilizadas

en el primer marco experimental.

5.3.3 Marco de evaluación de desempeño

Se utilizó el método de validación cruzada de 10-pliegues para dividir el conjunto de datos en

entrenamiento (X) y prueba (T). En esta experimentación se sigue el marco de evaluación que se

muestra en el esquema de la Figura 5.1. Sin embargo, el conjunto de clasicadores utilizados es

distinto (i.e., k NN, MLP, NB, RBFN, RF y SVM).

Por otro lado, se aplicó la prueba no paramétrica de Kruskal-Wallis para comparaciones múltiples,

seguida de la corrección de Bonferroni (α = 0.05), a n de determinar la signicancia estadística entre

las variantes del enfoque propuesto con respecto a las cuatro medidas de desempeño [55, 63]. Además,

se empleó la prueba no paramétrica de suma de rangos de Wilcoxon (α = 0.05) para determinar

las diferencias estadísticas entre los métodos comparativos. Finalmente, la prueba estadística de

McNemar (α = 0.05) se utilizó para comparar el desempeño predictivo de los modelos de clasicación

entrenados con X y X̂.


5. Resultados 123

5.3.4 Resultados de los métodos GOP

La Figura 5.9 muestra los resultados comparativos de los métodos propuestos que utilizan

esquemas GOP. Las variantes basadas en árboles de enlace alcanzan valores de desempeño similares

entre sí, lo cual se observa en la medida de eciencia (E = 0.83), que es la misma para todos los casos.
SIL obtiene una baja eciencia (E = 0.75) debido a un pobre rendimiento
Por otro lado, el método F50

en la tasa de reducción (RR = 0.54). Una posible explicación de este fenómeno se relaciona con la

representación de los individuos, ya que la codicación CBE modela a las soluciones en un espacio de

búsqueda binario que crece exponencialmente en función del número de instancias. Debido a esto,

los conjuntos de datos de tamaño mediano representan problemas con espacios de búsqueda más

grandes que los explorados por las variantes de FW


B
en el primer esquema experimental (conjuntos

de tamaño pequeño). Además, debido a restricciones de tiempo de cómputo, la conguración de

los EAs considera 1000 generaciones menos que la experimentación anterior, por lo que el número
SIL podría estar
de evaluaciones de la función objetivo es menor. Por estas razones, la variante F50

presentando un problema de lenta convergencia.

Figura 5.9: Resultados de las estrategias GOP. En la parte superior de cada barra se muestra la
medida de desempeño correspondiente. Los mejores resultados se indican en negritas.

La Tabla 5.11 muestra los resultados de la corrección de Bonferroni de las variantes GOP con

respecto a las medidas ACC y RR. SIL no presenta diferencia estadística signicativa
El método F50
SIL en términos de la exactitud de clasicación (p > 0.05), aunque es inferior en cuanto a la
con LT50

tasa de reducción (p = 0.00). Además, las variantes basadas en árboles de enlace tienen el mismo

rendimiento entre sí en todos los casos comparados (p = 1.00).


124 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas

La Tabla 5.12 presenta los resultados de la corrección de Bonferroni de las variantes GOP en
SIL y
cuanto a las medidas E y HDC. Los valores-p indican que existe signicancia estadística entre F50

los métodos basados en árboles de enlace (p = 0.00). En este sentido, los resultados de la Figura 5.9
SIL superan al método F SIL en términos de la eciencia (E = 0.83),
revelan que las variantes de LT50 50

aunque tienen un menor desempeño en cuanto a la preservación de la PDF (HDC < 0.89).

Tabla 5.11: Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para ACC, y la matriz triangular inferior los valores-p para RR. En negritas, p < 0.05.
SIL
LT50 SIL
F50
L0.5 L2 L∞ M0.5 M1 M2 M∞
L0.5 - 1.00 1.00 1.00 1.00 1.00 1.00 0.65
L2 1.00 - 1.00 1.00 1.00 1.00 1.00 0.56
L∞ 1.00 1.00 - 1.00 1.00 1.00 1.00 0.65
SIL
LT50 M0.5 1.00 1.00 1.00 - 1.00 1.00 1.00 0.74
M1 1.00 1.00 1.00 1.00 - 1.00 1.00 0.46
M2 1.00 1.00 1.00 1.00 1.00 - 1.00 0.56
M∞ 1.00 1.00 1.00 1.00 1.00 1.00 - 0.70
SIL
F50 0.00 0.00 0.00 0.00 0.00 0.00 0.00 -

Tabla 5.12: Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para E, y la matriz triangular inferior los valores-p para HDC. En negritas, p < 0.05.
SIL
LT50 SIL
F50
L0.5 L2 L∞ M0.5 M1 M2 M∞
L0.5 - 1.00 1.00 1.00 1.00 1.00 1.00 0.00
L2 1.00 - 1.00 1.00 1.00 1.00 1.00 0.00
L∞ 1.00 1.00 - 1.00 1.00 1.00 1.00 0.00
SIL
LT50 M0.5 1.00 1.00 1.00 - 1.00 1.00 1.00 0.00
M1 1.00 1.00 1.00 1.00 - 1.00 1.00 0.00
M2 1.00 1.00 1.00 1.00 1.00 - 1.00 0.00
M∞ 1.00 1.00 1.00 1.00 1.00 1.00 - 0.00
SIL
F50 0.00 0.00 0.00 0.00 0.00 0.00 0.00 -

5.3.5 Resultados de los métodos MOP

La Figura 5.10 muestra los resultados comparativos de las medidas de desempeño obtenidas por

las estrategias MOP. Al igual que los algoritmos GOP, los métodos basados en la construcción de
5. Resultados 125

árboles de enlace obtienen resultados similares entre sí. Lo anterior se observa en el valor de la

eciencia, que es aproximadamente igual para todas las variantes de EMOIS-LT (E ≈ 0.83). Por

otro lado, la estrategia EMOIS-F logra la tasa de reducción más baja (RR = 0.74). No obstante,

este método alcanza una eciencia similar a sus contrapartes (E = 0.83), debido a que obtiene los

mejores resultados en términos de la exactitud de clasicación (ACC = 0.82) y la preservación de

la PDF (HDC = 0.96).

Figura 5.10: Resultados de las estrategias MOP. En la parte superior de cada barra se muestra la
medida de desempeño correspondiente. Los mejores resultados se indican en negritas.

La Tabla 5.13 muestra los resultados de la corrección de Bonferroni de las estrategias MOP

en términos de ACC y RR. En este caso, ninguna variante de los métodos basados en árboles de

enlace tiene una diferencia estadística signicativa con respecto a EMOIS-F (p = 1.00). En relación

con la tasa de reducción, únicamente la variante de EMOIS-LT que utiliza la métrica L∞ presenta

signicancia estadística marginal con respecto a EMOIS-F (p = 0.04); en los otros casos no hay

evidencia de una diferencia estadística entre ambos métodos comparativos (p > 0.05).

La Tabla 5.14 presenta los resultados de la corrección de Bonferroni de las estrategias MOP con

respecto a E y HDC. Los resultados comprueban que no existe diferencia estadística signicativa

entre EMOIS-LT y EMOIS-F en términos de la medida de eciencia. Por otro lado, todas las

variantes basadas en árboles de enlace presentan signicancia estadística con EMOIS-F en términos

de la preservación de la PDF (p = 0.00).


126 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas

Tabla 5.13: Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para ACC, y la matriz triangular inferior los valores-p para RR. En negritas, p < 0.05.

EMOIS-LT
EMOIS-F
L0.5 L2 L∞ M0.5 M1 M2 M∞
L0.5 - 1.00 1.00 1.00 1.00 1.00 1.00 1.00
L2 1.00 - 1.00 1.00 1.00 1.00 1.00 1.00
L∞ 1.00 1.00 - 1.00 1.00 1.00 1.00 1.00
EMOIS-LT M0.5 1.00 1.00 1.00 - 1.00 1.00 1.00 1.00
M1 1.00 1.00 1.00 1.00 - 1.00 1.00 1.00
M2 1.00 1.00 1.00 1.00 1.00 - 1.00 1.00
M∞ 1.00 1.00 1.00 1.00 1.00 1.00 - 1.00
EMOIS-F 0.15 0.19 0.04 0.16 0.17 0.22 0.22 -

Tabla 5.14: Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para E, y la matriz triangular inferior los valores-p para HDC. En negritas, p < 0.05.

EMOIS-LT
EMOIS-F
L0.5 L2 L∞ M0.5 M1 M2 M∞
L0.5 - 1.00 1.00 1.00 1.00 1.00 1.00 1.00
L2 1.00 - 1.00 1.00 1.00 1.00 1.00 1.00
L∞ 1.00 1.00 - 1.00 1.00 1.00 1.00 1.00
EMOIS-LT M0.5 1.00 1.00 1.00 - 1.00 1.00 1.00 1.00
M1 1.00 1.00 1.00 1.00 - 1.00 1.00 1.00
M2 1.00 1.00 1.00 1.00 1.00 - 1.00 1.00
M∞ 1.00 1.00 1.00 1.00 1.00 1.00 - 1.00
EMOIS-F 0.00 0.00 0.00 0.00 0.00 0.00 0.00 -

5.3.6 Análisis comparativo de los métodos propuestos

En el presente análisis se compara el rendimiento de las estrategias propuestas con los métodos

WkNN , WSVM y las técnicas clásicas. En relación con los algoritmos basados en árboles de enlace,
para esta comparación se eligió una variante GOP y MOP. En este sentido, los resultados de las

Secciones 5.3.4 y 5.3.5 indican que no hay diferencia estadística en las medidas de desempeño de
SIL y EMOIS-LT cuando se utilizan diferentes métricas de distancia. Por ello, no se cuenta con
LT50
un criterio denitivo para seleccionar una variante. Así, en este análisis se elige a las estrategias

propuestas que emplean la métrica de Yang de orden uno (M1 ), debido a que es equivalente a la

distancia Minkowski del mismo orden (L1 ).


5. Resultados 127

La Figura 5.11 muestra el desempeño obtenido por los métodos propuestos y los algoritmos

comparativos. Cada círculo tiene un radio igual a la unidad, el cual se divide en cuatro secciones del

mismo tamaño, donde el porcentaje de área sombreada representa el valor del índice de rendimiento

correspondiente.

SIL y EMOIS-F consiguen el rendimiento más alto en cuanto a la exactitud de


Los algoritmos F50

clasicación con respecto a los métodos propuestos (ACC > 0.81). Sin embargo, estas estrategias

obtienen una tasa de reducción baja (RR < 0.75). Esto se traduce en una penalización notable de la
SIL (E = 0.75), a pesar de que esta variante logra el mayor porcentaje de
medida de eciencia de F50

preservación de la PDF entre los métodos comparados (HDC = 0.97). Por otro lado, el algoritmo

EMOIS-F no se ve penalizado en cuanto a la medida de eciencia, sino que obtiene el valor más

alto de este índice (E = 0.83), esto se debe a que alcanza el segundo mejor desempeño en términos

del complemento de la distancia de Hellinger (HDC = 0.96) y la tasa de reducción no es tan baja
SIL (RR = 0.54).
(RR = 0.74) como en el caso de F50

SIL y EMOIS-LT alcanzan la eciencia más alta entre


Al igual que EMOIS-F , las estrategias LT50

los métodos comparativos (E = 0.83). Lo anterior se debe a que estas variantes logran un mejor
SIL y EMOIS-F en cuanto a la tasa de reducción (RR > 0.81) y la preservación
compromiso que F50
SIL obtiene el porcentaje de reducción más alto entre los
de la PDF (HDC > 0.86). Además, LT50

métodos comparativos, empatando con DROP3 (RR = 0.89), aunque el método propuesto logra

mayores tasas de preservación de la PDF (HDC = 0.87) y exactitud de clasicación (ACC = 0.77)

que este algoritmo clásico. Por otro lado, EMOIS-LT obtiene un mayor desempeño en términos de
SIL , WSVM , CNN, DROP3 e ICF.
la exactitud de clasicación (ACC = 0.80) que LT50

Los algoritmos wrapper obtienen una eciencia competitiva (E > 0.80). En particular, WkNN
SIL ,
consigue el mejor rendimiento de esta medida de desempeño (E = 0.83), empatando con LT50

EMOIS-LT y EMOIS-F . Lo anterior se debe a que estas técnicas alcanzan valores competitivos de

preservación de la PDF (HDC = 0.90) y tasa de reducción (RR > 0.77). Además, el algoritmo
128 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas

WkNN obtiene una mayor exactitud de clasicación (ACC = 0.81) que EMOIS-LT y es competitivo
SIL y EMOIS-F .
con respecto a F50

En relación con los métodos clásicos, CNN e ICF logran la eciencia más alta (E = 0.79),

esto se debe a que alcanzan medidas similares de exactitud de clasicación (ACC > 0.77) y una

preservación de la PDF competitiva (HDC > 0.81). Por otro lado, ENN obtiene la eciencia más

baja (E = 0.46), debido a que logra una tasa de reducción muy pobre (RR = 0.12), a pesar de que

consigue la mejor preservación de la PDF entre los métodos wrapper y clásicos (HDC = 0.93). Por

otra parte, DROP3 alcanza la peor eciencia (E = 0.77) después de ENN, esto se debe a un alto

desempeño en la tasa de reducción (RR = 0.89) combinado con bajos porcentajes de preservación

de la PDF (HDC = 0.75) y exactitud de clasicación (ACC = 0.71).

Figura 5.11: Resultados de los métodos comparativos. El área sombreada de cada sección del círculo
unitario indica el porcentaje obtenido de la medida de desempeño correspondiente y sus respectivos
valores se muestran en el apartado superior de cada cuadro como (ACC,RR,HDC,E).

Las Tablas 5.15 - 5.18 muestran los resultados de la prueba de la suma de rangos de Wilcoxon

al comparar las medidas de desempeño de los métodos wrapper y las cuatro técnicas clásicas con
SIL , F SIL , EMOIS-LT y EMOIS-F , respectivamente.
LT50 50
5. Resultados 129

SIL . Los resultados indican


La Tabla 5.15 presenta los valores-p relacionados al desempeño de LT50

que no existe diferencia estadística signicativa en términos de ACC entre el método propuesto y

cinco algoritmos comparativos (p > 0.05). Por el contrario, ENN es estadísticamente superior a
SIL (p = 0.01) ya que obtiene un mayor desempeño de clasicación (ACC = 0.84). Con respecto
LT50
SIL supera a todos los métodos comparativos a excepeción de DROP3,
a la tasa de reducción, LT50

con el cual no presenta diferencia estadística signicativa (p = 0.53) debido a que ambos métodos
SIL
obtienen el mismo desempeño (RR = 0.89). En relación con la preservación de la PDF, LT50

supera a DROP3 e ICF (p < 0.05). Sin embargo, el método propuesto empata con CNN (p = 0.92),

mientras que se ve superado estadísticamente por los algoritmos wrapper y ENN (p < 0.05), los

cuales obtienen tasas de reducción más bajas (RR < 0.81), por lo que retienen más instancias que
SIL supera
ayudan a preservar la información de la PDF. En cuanto a la medida de eciencia, LT50

estadísticamente a ENN, DROP3 e ICF (p < 0.05), mientras que no presenta diferencia estadística

signicativa con respecto a CNN, WkNN y WSVM (p > 0.05).

Tabla 5.15: Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el valor-p
de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan: (+) estadísticamente
SIL .
superior, (=) estadísticamente igual, y (−) estadísticamente inferior con respecto al método LT50

WkNN WSVM CNN ENN DROP3 ICF


ACC 0.17 (=) 0.45 (=) 0.50 (=) 0.01 (+) 0.17 (=) 0.84 (=)
RR 0.00 (−) 0.00 (−) 0.01 (−) 0.00 (−) 0.53 (=) 0.02 (−)
HDC 0.01 (+) 0.01 (+) 0.92 (=) 0.00 (+) 0.00 (−) 0.02 (−)
E 0.94 (=) 0.18 (=) 0.14 (=) 0.00 (−) 0.02 (−) 0.03 (−)

SIL . Los resultados de


La Tabla 5.16 presenta los valores-p relacionados al desempeño de F50

exactitud de clasicación muestran que el método propuesto es estadísticamente superior a CNN,

DROP3 e ICF (p < 0.05), mientras que empata con los métodos wrapper y ENN (p > 0.05). En
SIL presenta una diferencia estadística con respecto a todos los
cuanto a la tasa de reducción, F50

métodos comparativos (p < 0.05), aunque solo supera a ENN, ya que alcanza la segunda tasa de
SIL es estadísticamente
reducción más baja (RR = 0.54). Con respecto a la preservación de la PDF, F50

superior a todos los métodos a excepeción de ENN (p = 0.65). Por otro lado, en términos de la medida
130 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas

de eciencia, el método propuesto es superado por las estrategias wrapper, CNN e ICF (p < 0.05),

mientras que empata con DROP3 (p = 0.14) y supera estadísticamente a ENN (p < 0.05).

Tabla 5.16: Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el valor-p
de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan: (+) estadísticamente
SIL .
superior, (=) estadísticamente igual, y (−) estadísticamente inferior con respecto al método F50

WkNN WSVM CNN ENN DROP3 ICF


ACC 0.31 (=) 0.14 (=) 0.03 (−) 0.60 (=) 0.00 (−) 0.01 (−)
RR 0.00 (+) 0.00 (+) 0.00 (+) 0.00 (−) 0.00 (+) 0.00 (+)
HDC 0.00 (−) 0.00 (−) 0.00 (−) 0.65 (=) 0.00 (−) 0.00 (−)
E 0.00 (+) 0.00 (+) 0.00 (+) 0.00 (−) 0.14 (=) 0.00 (+)

La Tabla 5.17 presenta los valores-p relacionados al desempeño de EMOIS-LT . Los resultados

indican que no existe diferencia estadística signicativa con respecto a los métodos WkNN , WSVM y

CNN en términos de las cuatro medidas de desempeño (p > 0.05). Por otra parte, en relación con

los algoritmos ENN, DROP3 e ICF, el método propuesto sólo es superado por ENN en cuanto a la

preservación de la PDF (p = 0.00) y por DROP3 en términos de la tasa de reducción (p = 0.02).

En los casos restantes, EMOIS-LT logra desempeños que superan estadísticamente a ENN, DROP3

e ICF, en la mayoría de resultados obtenidos.

Tabla 5.17: Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el valor-p
de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan: (+) estadísticamente
superior, (=) estadísticamente igual, y (−) estadísticamente inferior con respecto a EMOIS-LT .

WkNN WSVM CNN ENN DROP3 ICF


ACC 0.78 (=) 0.82 (=) 0.61 (=) 0.10 (=) 0.02 (−) 0.22 (=)
RR 0.65 (=) 0.26 (=) 0.63 (=) 0.00 (−) 0.02 (+) 0.96 (=)
HDC 0.41 (=) 0.39 (=) 0.08 (=) 0.00 (+) 0.00 (−) 0.00 (−)
E 0.90 (=) 0.19 (=) 0.19 (=) 0.00 (−) 0.02 (−) 0.03 (−)

La Tabla 5.18 presenta los valores-p relacionados al desempeño de EMOIS-F . Con respecto a

la exactitud de clasicación, los resultados indican que el método propuesto no presenta diferencia

estadística signicativa en relación con los algoritmos wrapper, CNN y ENN (p > 0.05), mientras

que supera a DROP3 e ICF (p < 0.05). En términos de la tasa de reducción, EMOIS-F se ve

superado por WkNN , CNN, DROP3 e ICF (p < 0.05), aunque empata con WSVM (p = 0.12) y supera
5. Resultados 131

signicativamente a ENN (p < 0.05). En cuanto a la preservación de la PDF, el método propuesto es

superior a todos los algoritmos comparativos a excepción de ENN, con el que no presenta diferencia

estadística signicativa (p = 0.38). En relación con el índice de eciencia, EMOIS-F muestra el

mismo desempeño que EMOIS-LT , ya que empata con los métodos WkNN , WSVM y CNN (p > 0.05),

mientras que supera signicativamente a ENN, DROP3 e ICF (p < 0.05).


Tabla 5.18: Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el valor-p
de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan: (+) estadísticamente
superior, (=) estadísticamente igual, y (−) estadísticamente inferior con respecto a EMOIS-F .

WkNN WSVM CNN ENN DROP3 ICF


ACC 0.67 (=) 0.33 (=) 0.12 (=) 0.31 (=) 0.00 (−) 0.03 (−)
RR 0.01 (+) 0.12 (=) 0.02 (+) 0.00 (−) 0.00 (+) 0.00 (+)
HDC 0.00 (−) 0.00 (−) 0.00 (−) 0.38 (=) 0.00 (−) 0.00 (−)
E 0.78 (=) 0.21 (=) 0.11 (=) 0.00 (−) 0.02 (−) 0.01 (−)

La Figura 5.12 presenta los resultados de los métodos comparativos evaluados con cinco conjuntos

de datos sintéticos debido a la facilidad de visualización de la selección de instancias. Estos

experimentos muestran que las estrategias basadas en árboles de enlace pueden mantener la forma

de la distribución original de las clases en el espacio de características a pesar de alcanzar altos

porcentajes de reducción de instancias.

En esta comparación, el algoritmo EMOIS-LT alcanza la eciencia más alta (E = 0.89), seguido
SIL (E = 0.88). Estos resultados se deben a una alta tasa de reducción (RR > 0.92) y
del método LT50

preservación de la PDF (HDC > 0.89), además de alcanzar una exactitud de clasicación competitiva

con respecto a los métodos comparativos (ACC > 0.82).

Por otro lado, EMOIS-F logra una eciencia alta (E = 0.87) a causa de un mayor desempeño

de exactitud de clasicación (ACC = 0.88) y preservación de la PDF (HDC = 0.97). En cambio, la


SIL logra una baja eciencia (E = 0.78) debido a una pobre tasa de reducción (RR = 0.56).
variante F50

Sin embargo, este método alcanza el segundo mayor desempeño en términos de la exactitud de

clasicación (ACC = 0.89), sólo superado por ENN, el cual obtiene la peor tasa de reducción de

todos los métodos comparativos (RR = 0.08).


132 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas

En relación con los métodos wrapper, estos obtienen una eciencia moderada (E < 0.85) con

respecto a las estrategias basadas en árboles de enlace. Lo anterior se debe a que alcanzan valores

similares en términos de la preservación de la PDF (HDC < 0.83), y a una tasa de reducción

competitiva (RR > 0.87). Sin embargo, WSVM logra un pobre desempeño en términos de la exactitud

de clasicación (ACC = 0.74), mientras que WkNN obtiene un valor competitivo en cuanto a esta

medida de desempeño (ACC = 0.83).

Por otro lado, los subconjuntos obtenidos por los métodos wrapper muestran que la forma de

la distribución de las clases en el espacio de características presenta una similitud con respecto a

las técnicas basadas en el concepto de condensación, como CNN y DROP3; las cuales eligen a las

instancias cercanas a las fronteras de decisión (i.e., muestras más próximas a patrones de clases

opuestas). En este sentido, el método WkNN guía el proceso de selección hacia subconjuntos de

instancias que modelen adecuadamente la distribución de las fronteras de decisión de las clases en el

espacio de características. De esta manera se busca maximizar la exactitud de clasicación al evaluar

patrones de prueba cuyos k vecinos más cercanos del conjunto de entrenamiento pertenezcan a

instancias de la misma clase. Por otra parte, el método WSVM elige subconjuntos que se ajusten

a las propiedades del algoritmo de entrenamiento del clasicador SVM, por lo que podría estar

seleccionando instancias que representan vectores de soporte, los cuales en principio pueden formar

parte de las fronteras de decisión de las clases.

Con respecto a las técnicas clásicas, los algoritmos CNN, ICF y DROP3 logran una alta tasa

de reducción en la mayoría de los casos (RR > 0.81). En particular, DROP3 alcanza el valor más

alto en términos de esta medida de desempeño (RR = 0.92), seguido de ICF (RR = 0.83), el cual

obtiene subconjuntos de instancias que forman huecos y agrupamientos. Por ello, el método ICF

introduce un efecto de erosión en la forma de la distribución de las clases. Por ejemplo, el resultado

obtenido para el conjunto S6 muestra que la distribución espiral de las clases presenta irregularidad y

discontinuidad. Por otro lado, el método ENN elimina muestras rodeadas por patrones de diferentes
5. Resultados 133

clases, lo cual se considera una estrategia de ltrado de instancias ruidosas. Por esta razón, este

método obtiene bajos rendimiento en términos de la tasa de reducción (RR = 0.08), llegando a

tener un desempeño nulo con respecto al conjunto de datos S4 .

Figura 5.12: Resultados de los métodos comparativos en cinco conjuntos de datos sintéticos. Las
medidas de desempeño se muestran en la parte superior de cada cuadro como (ACC,RR,HDC,E). En
la parte inferior se muestra el promedio de las medidas de desempeño de cada método comparativo.

5.3.7 Análisis de la capacidad de generalización

En este análisis se utilizan los subconjuntos seleccionados por las estrategias propuestas y los

métodos wrapper para evaluar su capacidad de reutilización en el entrenamiento de diferentes

algoritmos de aprendizaje supervisado. Por ello, se compara el desempeño de seis clasicadores

con respecto a las evaluaciones de Tipo 1 y 2 descritas en la Sección 5.2.3.

La Figura 5.13 presenta los resultados de los dos tipos de evaluación. Las comparaciones con

respecto a los métodos WkNN y WSVM se muestra en la sección superior e inferior, respectivamente.

Por otro lado, en la parte superior de cada diagrama de caja se muestra la media de los resultados
134 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas

del tipo de evaluación, mientras que en el apartado superior de cada cuadro comparativo, sobre cada

par de diagramas de caja se presenta el valor-p de la prueba de suma de rangos de Wilcoxon.

SIL , EMOIS-LT y EMOIS-F no presentan diferencias estadísticas signicativas


Los métodos LT50

en relación con los dos tipos de evaluación en las dos comparaciones con WkNN y WSVM (p > 0.05).
SIL obtiene diferencias estadísticas signicativas (p = 0.04) en los resultados de los
Sin embargo, F50

dos tipos de evaluación cuando se compara con el método WkNN , aunque esto no sucede en la

comparación con WSVM (p = 0.21). Esto indica que los subconjuntos obtenidos por las estrategias

propuestas pueden entrenar diferentes tipos de clasicadores que obtienen desempeños de exactitud

similares de Tipo 1 y 2. Lo anterior se debe a que estos algoritmos no consideran maximizar el

desempeño de ningún clasicador, sino que maximizan la preservación de la PDF, por lo que priorizan

la conservación de información estadística.

En relación con los resultados de WkNN y WSVM , la prueba de Wilcoxon indica que los

subconjuntos obtenidos por ambos métodos logran un mejor desempeño en la evaluación de Tipo 1

que de Tipo 2 (p < 0.05). Estos resultados señalan que las instancias obtenidas por los métodos

wrapper se ajustan a las características del algoritmo de aprendizaje supervisado utilizado, limitando

la reutilización de los datos seleccionados para el entrenamiento de otros tipos de algoritmos de

aprendizaje supervisado.

5.3.8 Comparación de los modelos de clasicación

En esta sección se utiliza la prueba de McNemar para comparar el desempeño predictivo de los

modelos de clasicación entrenados con el conjunto de datos original y los subconjuntos seleccionados

por las estrategias IS.

La Figura 5.7 presenta el conteo de los conjuntos de datos reales (R) y sintéticos (S ) para los

que no hay rechazos de la hipótesis nula en la prueba de McNemar. Cabe señalar que un conteo
5. Resultados 135

Figura 5.13: Resultados de la evaluación de Tipo 1 y Tipo 2 utilizando seis clasicadores distintos
que fueron entrenados con los subconjuntos obtenidos por los métodos comparativos. En la parte
superior de cada diagrama de caja se muestra la media de la distribución. En el apartado superior de
cada cuadro comparativo, sobre cada par de diagramas de caja, se muestra el valor-p de la prueba
de la suma de rangos de Wilcoxon. En negritas, p < 0.05 y los mejores valores de ambos tipos de
evaluación obtenidos por cada método comparativo.

alto indica que la estrategia IS en cuestión obtiene un subconjunto que puede entrenar clasicadores

para obtener modelos con desempeño similar a los entrenados con X. En este análisis se comparan

las estrategias propuestas, los métodos wrapper y las técnicas clásicas. El conteo se realiza de forma

independiente por ambos tipos de conjuntos de datos y por cada clasicador utilizado en este esquema

de experimentación.

SIL obtuvo la mayor cantidad de


Con respecto a las estrategias propuestas, el método F50

subconjuntos seleccionados que no presentan diferencia estadística signicativa con respecto a X

en relación con el desempeño de clasicación de los modelos entrenados, alcanzando un conteo total

de no rechazos de la hipótesis nula igual a 46 (21 en R y 25 en S ). Seguido de este método, el


136 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas

algoritmo EMOIS-F logra un conteo total de 28 subconjuntos (ocho en R y 20 en S ). En cuanto

a los métodos basados en árboles de enlace, el algoritmo EMOIS-LT obtuvo un mayor conteo de
SIL
no rechazos de la hipótesis nula con 19 (ocho en R y 11 en S ). Por otro lado, la estrategia LT50

alcanzó el conteo más bajo entre los métodos comparados con un total de nueve (tres en R y seis

en S ). Nótese que en todos los casos las estrategias propuestas obtienen un conteo mayor en cuanto

a los conjuntos de datos sintéticos. Por otro lado, estos resultados coinciden con los desempeños

de exactitud de clasicación mostrados en la Figura 5.11 correspondiente al análisis comparativo


SIL obtuvo el mayor rendimiento en esta medida de desempeño
de la Sección 5.3.6, en donde F50

(ACC = 0.83), seguido de EMOIS-F (ACC = 0.82), EMOIS-LT (ACC = 0.80) y por último
SIL (ACC = 0.77).
LT50

En relación con los métodos wrapper, WSVM obtuvo la mayor cantidad de no rechazos de la

hipótesis nula con un conteo total de 16 (11 en R y cinco en S ). Por otro lado WkNN alcanzó un

conteo de 13 (10 en R y tres en S ). Nótese que a diferencia de los métodos propuestos, los algoritmos

wrapper obtienen una mayor proporción en el conteo de no rechazos de la hipótesis nula en cuanto

a los conjuntos de datos reales.

Con respecto a los métodos clásicos, ENN obtiene la mayor cantidad de subconjuntos que no

presentan diferencia estadística signicativa con X, con un total de 67 (35 en R y 32 en S ). Seguido

de este método se ubicó el algoritmo CNN con un conteo de 18 (11 en R y siete en S ). Por su

parte, el peor desempeño en la prueba de McNemar lo obtuvieron DROP3 e ICF con un mayor

número de rechazos de la hipótesis nula, ya que solo en 13 ocasiones obtuvieron subconjuntos que

no presentaron signicancia estadística con respecto al conjunto X (siete en R y seis en S ). Además,

al igual que los métodos wrapper, las técnicas clásicas obtienen una mayor proporción en el conteo

de no rechazos de la hipótesis nula en cuanto a los conjuntos de datos reales.

En consecuencia, el método con mayor eciencia en la prueba de McNemar fue ENN, ya que

alcanza un conteo mayor que los otros métodos comparativos. Sin embargo, esta técnica obtiene
5. Resultados 137

tasas de reducción notablemente bajas, ya que consiste en un algoritmo de ltrado de instancias

ruidosas. Por ello, el subconjunto obtenido por ENN es una versión de X que no contiene instancias

rodeadas de patrones de diferentes clases.

SIL , el cual consiste en un algoritmo


Por otro lado, el método con el segundo conteo más alto es LT50

que elimina poco más de la mitad de las instancias de X (RR = 0.54) y preserva casi la totalidad de

la información de la PDF (HDC = 0.97), como se muestra en los resultados de la Figura 5.11.

En esta misma línea, el tercer método con el conteo más alto corresponde a EMOIS-F , el cual es
SIL , de acuerdo
la estrategia con la tasa de reducción más baja (RR = 0.74), después de ENN y LT50

a los resultados de la Figura 5.11. Por ello, se mantiene una tendencia de una proporción inversa

entre el conteo total de no rechazos de la hipótesis nula y la tasa de reducción alcanzada.

Sin embargo, esta propensión se invalida en relación con el método EMOIS-LT , el cual obtiene

el cuarto conteo más alto de no rechazos de la hipótesis nula entre todos los métodos comparativos.

No obstante, logra una tasa de reducción competitiva (RR = 0.82), la cual es mayor que la obtenida

por WkNN , WSVM , CNN e ICF.

En el caso de los conteos con respecto a todos los métodos IS para un mismo algoritmo de

aprendizaje supervisado, se observa que el clasicador NB alcanzó el valor más alto, con un total de

64 (32 en R y 32 en S ), seguido por RBFN con un valor de 63 (44 en R y 19 en S ). Por el contrario,

k NN y RF obtuvieron la mayor cantidad de rechazos de la hipótesis nula, en donde únicamente en


23 ocasiones los modelos de clasicación entrenados con el subconjunto seleccionado lograron un

desempeño similar a los modelos entrenados con X.

SIL , EMOIS-F y EMOIS-LT pueden seleccionar


Estos resultados muestran que las estrategias F50

más subconjuntos de instancias que la mayoría de los métodos comparativos para utilizarlos en

el entrenamiento de diferentes algoritmos de aprendizaje supervisado y obtener modelos con un

desempeño similar a los entrenados por el conjunto de datos original X.


138 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas

Figura 5.14: Conteo de no rechazos de la hipótesis nula en la prueba estadística de McNemar para
los conjuntos de datos reales (R) y sintéticos (S ). En la parte superior se muestra el conteo total
obtenido por cada método comparativo. En la esquina superior derecha de cada sección se muestra
el conteo total por clasicador.

5.3.9 Caso de estudio

La Figura 5.15 muestra un caso de estudio en donde se compara el desempeño de las estrategias

propuestas utilizando el conjunto de datos S1 .

En este ejemplo se analizan los resultados de los algoritmos EMOIS-LT y EMOIS-F , así como
SIL y F SIL , las cuales fueron evaluadas en las funciones
las soluciones obtenidas por las variantes LT50 50

objetivo T̄ (4.14) y F (4.5), respectivamente.


5. Resultados 139

Además, se muestran las soluciones no dominadas de los frentes de Pareto obtenidos por los

algoritmos MOP. Adicionalmente, se comparan las estrategias propuestas a partir de los resultados

de 10 experimentos independientes.

SIL .
La Figura 5.15 a) muestra los resultados de una ejecución de los algoritmos EMOIS-LT y LT50

Las soluciones no dominadas del frente de Pareto (F ) presentan una distribución uniforme a lo largo

de todo el rango operacional de la función objetivo Z̄α ∈ [0, 1] en (4.13), la cual es el promedio de

los puntos de corte normalizados, y se requiere minimizar. Este criterio de optimización se relaciona

con la tasa de reducción de instancias: si Z̄α → 0, entonces RR → 1, y viceversa. Por el contrario,


las soluciones no dominadas de F únicamente se concentran en una pequeña sección del rango

operacional de la función objetivo H̄α ∈ [0, 1] en (4.12), la cual representa un criterio que mide

la preservación de la PDF y se requiere minimizar. Por ello, la optimización simultánea de estos

objetivos permite obtener soluciones con altas tasas de reducción y preservación de la PDF.

En este ejemplo, EMOIS-LT consigue una solución con valores cercanos a cero en ambos criterios

de optimización: T̄ = [0.12, 0.03], lo cual se traduce en un alto desempeño en relación con la

preservación de la PDF (HDC = 0.89) y la tasa de reducción (RR = 0.97). Por otro lado, el método
SIL obtiene una solución no dominada: T̄ = [0.17, 0.01], por lo que logra una preservación de la
LT50
PDF inferior (HDC = 0.85) y una tasa de reducción superior (RR = 0.99) con respecto a la solución

obtenida por EMOIS-LT .

La Figura 5.15 b) muestra la ubicación en el espacio objetivo de las soluciones obtenidas


SIL en 10 experimentos independientes. Las soluciones del ejemplo de la
por EMOIS-LT y LT50

Figura 5.15 a) se indican en círculos con líneas punteadas. Estos resultados revelan que ninguna
SIL domina a las soluciones obtenidas por EMOIS-LT . Por el contrario,
solución encontrada por LT50

se observa que algunos puntos alcanzados por la variante MOP obtienen mejores desempeños en

términos de ambos criterios de optimización que las soluciones de la variante GOP. En particular, la
SIL .
solución de EMOIS-LT descrita en el ejemplo anterior domina a siete soluciones de LT50
140 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas

SIL . La
La Figura 5.15 c) muestra los resultados de una ejecución de los algoritmos EMOIS-F y F50

distribución de las soluciones no dominadas de F en el espacio objetivo presenta un comportamiento

similar al frente de Pareto del ejemplo anterior, ya que estos puntos se extienden a lo largo del rango

operacional de la función objetivo PR ∈ [0, 1] en (4.2), la cual corresponde con la tasa de preservación

de instancias: si PR → 0, entonces RR → 1, y viceversa; por lo que se requiere minimizar. Por el


contrario, las soluciones no dominadas de F únicamente se concentran en una pequeña sección

del rango operacional de la función objetivo H ∈ [0, 1] en (4.4), que corresponde con la medida

de preservación de la PDF, la cual se requiere minimizar. Por ello, la optimización simultánea de

estos objetivos permite obtener soluciones con altas tasas de reducción y preservación de la PDF.

Sin embargo, el algoritmo EMOIS-F obtiene soluciones no dominadas que no se distribuyen con la

misma uniformidad que las obtenidas por EMOIS-LT en su respectivo espacio objetivo.

En este ejemplo, EMOIS-F encuentra una solución con un desempeño alto en términos de la

función objetivo H̄, mientras que alcanza un bajo rendimiento en PR: F = [0.01, 0.31], lo cual
representa un valor alto en términos del complemento de la distancia de Hellinger (HDC = 0.99)

y un desempeño bajo con respecto a la tasa de reducción (RR = 0.69). Por otro lado, la solución
SIL alcanza un valor similar a la variante MOP en el primer criterio de optimización,
obtenida por F50

aunque obtiene un bajo rendimiento en cuanto a PR: F = [0.01, 0.47], por lo que logra un alto
desempeño con respecto a la preservación de la PDF (HDC = 0.99) y un rendimiento más bajo que

EMOIS-F en relación con la tasa de reducción (RR = 0.53).

La Figura 5.15 d) muestra la ubicación en el espacio objetivo de las soluciones obtenidas por
SIL en 10 experimentos independientes. Los círculos con líneas punteadas corresponden
EMOIS-F y F50

con las soluciones del ejemplo de la Figura 5.15 c). Los resultados indican que ninguna solución
SIL domina a las soluciones conseguidas por EMOIS-F . Además, se observa que
encontrada por F50

los puntos obtenidos por la variante MOP alcanzan mejores desempeños en términos de PR y un

rendimiento competitivo con respecto a las soluciones de la estrategia GOP en términos de la función
5. Resultados 141

SIL alcanzan un porcentaje moderado


objetivo H̄. Por otro lado, todas las soluciones obtenidas por F50

en cuanto a la tasa de preservación de instancias, el cual se aproxima al valor del peso w utilizado

en la función objetivo (PR ≈ 0.50).

La parte inferior de la Figura 5.15 muestra los resultados de los subconjuntos obtenidos por

los algoritmos propuestos y el promedio de las medidas de desempeño de los 10 experimentos. Los
SIL lograron la eciencia más alta (E = 0.86). Los métodos basados
algoritmos MOP y la variante LT50

en árboles de enlace obtuvieron una alta tasa de reducción (RR > 0.94) y un desempeño competitivo

en la preservación de la PDF (HDC > 0.87). En cambio, EMOIS-F obtuvo la mayor preservación

de la PDF (HDC > 0.99), aunque logró una pobre tasa de reducción (RR < 0.70). Por otro lado,
SIL obtuvo la eciencia más baja (E = 0.76) debido a que alcanzó la peor tasa de
el método F50

reducción (RR = 0.53). Sin embargo, este método consiguió los valores más altos en términos de

exactitud de clasicación (ACC = 0.85) y preservación de la PDF (HDC = 0.98).

En relación con los subconjuntos de los ejemplos mostrados, las estrategias basadas en árboles

de enlace mantienen la distribución original de las clases en el espacio de características, a pesar de

que obtuvieron tasas de reducción altas (RR > 0.96).

5.3.10 Resumen del segundo esquema experimental

El segundo esquema experimental comparó el desempeño de las estrategias propuestas con dos

métodos wrapper y cuatro técnicas clásicas utilizando conjuntos de datos de tamaño mediano.

En las estrategias GOP: FW


B
y LTW
B
, se utilizó w = 0.5 para dar la misma importancia relativa

a las dos funciones objetivo ponderadas que utiliza cada algoritmo. Por otro lado, en relación con

los métodos basados en árboles de enlace, se emplearon siete variantes con diferentes medidas de

distancia. Además, se utilizó la regla general de Silverman como estrategia de selección automática

del ancho de banda para calcular las PDFs en los cuatro algoritmos propuestos.
142 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas

Figura 5.15: Parte superior. a) Resultados de una ejecución de las estrategias EMOIS-LT y LT50SIL .
b) Soluciones evaluadas en T̄ obtenidas por 10 experimentos independientes. c) Resultados de
una ejecución de las estrategias EMOIS-F y F50 SIL . d) Soluciones evaluadas en F obtenidas por
10 experimentos independientes. Parte inferior. De izquierda a derecha: subconjuntos obtenidos
por las soluciones mostradas en a) y c) correspondientes a EMOIS-LT , LT50 SIL , EMOIS-F y F SIL ,
50
respectivamente. En la parte superior de cada cuadro se muestra el resultado de las medidas de
desempeño como (ACC,RR,HDC,E). En la parte inferior de cada cuadro se muestra el promedio
de las medidas de desempeño obtenidas por 10 experimentos independientes.

En primer lugar se comparó el desempeño de las estrategias GOP para analizar los resultados

obtenidos en términos de las medidas de desempeño. Posteriormente se realizó la misma comparativa

con respecto a las estrategias MOP. Con estos experimentos se demostró que no existe diferencia

estadística signicativa en relación con las métricas utilizadas para construir los árboles de enlace en
SIL y EMOIS-LT , respectivamente.
las variantes de los algoritmos LT50

Después, se realizó un análisis de la capacidad de generalización basada en dos tipos de

evaluaciones que permiten comparar el desempeño de clasicación de los modelos entrenados con los

subconjuntos obtenidos por las estrategias IS. Los resultados mostraron que los métodos propuestos
5. Resultados 143

pueden obtener instancias que son reutilizables en diferentes algoritmos de aprendizaje supervisado,

lo cual no sucede con los métodos wrapper, ya que presentan diferencias estadísticas signicativas

con respecto a las evaluaciones de Tipo 1 y 2 en los conjuntos de datos de tamaño mediano.

Seguido de esto se utilizó la prueba estadística de McNemar para comparar la capacidad de

generalización de los modelos de clasicación entrenados con el conjunto de datos original y el

subconjunto de instancias seleccionadas. Los resultados señalan que los métodos propuestos pueden

obtener más subconjuntos de datos para los cuales no hay rechazos de la hipótesis nula, por lo que

las instancias seleccionadas pueden entrenar clasicadores que muestran el mismo desempeño que

aquellos entrenados por el conjunto de datos original.

Finalmente, se describió un caso de estudio en donde se muestra el desempeño de los métodos

propuestos utilizando un conjunto de datos sintético.

5.4 Experimentación 3: Evaluación de conjuntos de

datos con altas dimensiones

El tercer marco experimental se diseña para evaluar la signicancia estadística de las medidas

de desempeño obtenidas por siete variantes de la estrategia EMOIS-LT y dos algoritmos wrapper

utilizando conjuntos de datos de alta dimensionalidad.

5.4.1 Conjuntos de datos

En esta experimentación se emplearon 10 conjuntos de datos de imágenes utilizados en la

literatura para aplicaciones de visión por computadora, los cuales pertenecen a problemas de dominio

distinto y fueron obtenidos a partir de diferentes fuentes [80].


144 5.4. Experimentación 3: Evaluación de conjuntos de datos con altas dimensiones

Se utilizó un modelo de red neuronal convolucional pre-entrenado denominado ResNet-50 para

extraer automáticamente las características de las imágenes [56]. Debido a las propiedades de la

arquitectura de este modelo, la dimensionalidad de los patrones de entrenamiento es D = 2048. La

Tabla 5.19 muestra las características de los conjuntos de datos obtenidos.

Tabla 5.19: Características de los conjuntos de datos utilizados en el tercer esquema experimental.
N es el número de instancias, y C es el número de clases.

ID Nombre N C
1 Cataract 601 4
2 Chessman 556 6
3 Covid-19 317 3
4 Flowers 3670 5
5 Leaves 596 4
6 Plants 2576 27
7 RPS 2892 3
8 Skincancer 3297 2
9 SRSMAS 409 14
10 Weather 1125 4

5.4.2 Métodos comparativos

En esta experimentación se evalúo el desempeño de la estrategia EMOIS-LT al utilizar siete

variantes basadas en las métricas de distancia descritas en la Sección 2.7.

La motivación principal del estudio comparativo con conjuntos de datos de altas dimensiones

radica en evaluar el impacto que tienen las diferentes métricas de distancia en la construcción de los

árboles de enlace del método propuesto. En este sentido, la distancia de Yang es capaz de representar

de forma más adecuada la disimilitud entre dos puntos distantes en espacios de altas dimensiones,

como se explica en el análisis comparativo del Apéndice B.

Por ello, el método propuesto utiliza la distancia Minkowski, Lq (2.20), con q = {0.5, 2, ∞} y la

distancia de Yang, Mq (2.21), con q = {0.5, 1, 2, ∞}.


5. Resultados 145

Los algoritmos comparativos consisten en los métodos WkNN y WSVM . La Tabla 5.20 muestra

los parámetros de las variantes de la estrategia EMOIS-LT y los dos métodos wrapper.

Tabla 5.20: Parámetros de los EAs empleados por EMOIS-LT y los métodos wrapper.
Nombre Valor
Tamaño de la población (NP ) 20
Número de generaciones (G) 200
Probabilidad de cruza (pc ) 0.9
Probabilidad de mutación (pm ) 0.1

5.4.3 Marco de evaluación de desempeño

Se utilizó el método de validación cruzada de 10-pliegues para dividir el conjunto de datos en

entrenamiento (X) y prueba (T).

Para evaluar las medidas de desempeño se utilizan los siguientes clasicadores: k NN, MLP RBFN,

RF y SVM. La Figura 5.16 muestra el marco de evaluación de desempeño seguido en este esquema

de experimentación.

Figura 5.16: Marco de evaluación de desempeño del tercer esquema de experimentación.


146 5.4. Experimentación 3: Evaluación de conjuntos de datos con altas dimensiones

Se aplicó la prueba no paramétrica de Kruskal-Wallis para comparaciones múltiples, seguida de la

corrección de Bonferroni (α = 0.05), para determinar la signicancia estadística entre las variantes

de EMOIS-LT con respecto a las cuatro medidas de desempeño [55, 63].

Además, se utilizó la prueba no paramétrica de suma de rangos de Wilcoxon (α = 0.05) para

determinar las diferencias estadísticas entre una variante de EMOIS-LT y los algoritmos comparativos

WkNN y WSVM .

5.4.4 Resultados de las variantes del método propuesto

La Figura 5.17 muestra los resultados de las medidas de desempeño de EMOIS-LT al utilizar

diferentes métricas de distancia para construir los árboles de enlace. Todos los métodos presentan

un rendimiento competitivo en términos de las cuatro medidas de desempeño, aunque L∞ , M2 y

M∞ obtienen la eciencia más alta por una diferencia marginal (E = 0.77). Por otro lado, L∞ logra
la menor tasa de reducción de instancias (RR = 0.73), por lo que alcanza los mayores porcentajes

de exactitud de clasicación (ACC = 0.73) y preservación de la PDF (HDC = 0.89). Por otro lado,

M∞ consigue el mayor desempeño en términos de la tasa de reducción (RR = 0.89).

Figura 5.17: Resultados de las variantes del método propuesto. En la parte superior de cada barra
se muestra la medida de desempeño correspondiente. Los mejores resultados se indican en negritas.
5. Resultados 147

La Tabla 5.21 presenta los resultados de la corrección de Bonferroni de las variantes de EMOIS-LT

con respecto a las medidas ACC y RR. Los resultados indican que no hay diferencia estadística

signicativa con respecto a ambas medidas de desempeño en ninguna comparación de las variantes

del método propuesto (p = 1.00).

Por otra parte, la Tabla 5.22 muestra los resultados de la corrección de Bonferroni de las variantes

de EMOIS-LT en relación con las medidas E y HDC. Al igual que en el caso anterior, los valores-p

señalan que no existe diferencia estadística signicativa en cuanto a las dos medias desempeño en

ninguna de las variantes comparadas (p > 0.05).

Estos resultados indican que no hay evidencia estadística de que el método propuesto mejore

su rendimiento en términos de las medidas de desempeño al utilizar una métrica de distancia en

particular para construir árboles de enlace con patrones de hasta 2048 dimensiones.

Tabla 5.21: Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para ACC, y la matriz triangular inferior los valores-p para RR.

EMOIS-LT
L0.5 L2 L∞ M0.5 M1 M2 M∞
L0.5 - 1.00 1.00 1.00 1.00 1.00 1.00
L2 1.00 - 1.00 1.00 1.00 1.00 1.00
L∞ 1.00 1.00 - 1.00 1.00 1.00 1.00
EMOIS-LT M0.5 1.00 1.00 1.00 - 1.00 1.00 1.00
M1 1.00 1.00 1.00 1.00 - 1.00 1.00
M2 1.00 1.00 1.00 1.00 1.00 - 1.00
M∞ 1.00 1.00 1.00 1.00 1.00 1.00 -

5.4.5 Análisis comparativo del método propuesto

En esta sección se compara el rendimiento del método propuesto con WkNN y WSVM . Los

resultados de la Figura 5.17, muestran que la variante con L∞ presenta el valor más alto en tres

medidas de desempeño. Por ello, en este análisis se utiliza dicha variante de EMOIS-LT .
148 5.4. Experimentación 3: Evaluación de conjuntos de datos con altas dimensiones

Tabla 5.22: Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para E, y la matriz triangular inferior los valores-p para HDC.

EMOIS-LT
L0.5 L2 L∞ M0.5 M1 M2 M∞
L0.5 - 1.00 1.00 1.00 1.00 1.00 1.00
L2 1.00 - 1.00 1.00 1.00 1.00 1.00
L∞ 1.00 1.00 - 1.00 1.00 1.00 1.00
EMOIS-LT M0.5 1.00 1.00 1.00 - 1.00 1.00 1.00
M1 1.00 1.00 0.77 1.00 - 1.00 1.00
M2 1.00 1.00 1.00 1.00 1.00 - 1.00
M∞ 1.00 1.00 0.19 1.00 1.00 1.00 -

La Figura 5.18 muestra el desempeño obtenido por el método propuesto y los algoritmos wrapper.

De esta manera, EMOIS-LT alcanza la mejor eciencia (E = 0.77) debido a que obtiene una tasa

de reducción más alta (RR = 0.73) y un desempeño competitivo en términos de la preservación de

la PDF (HDC = 0.89) con respecto a los métodos comparados. Por otro lado, los resultados indican

que WkNN y WSVM obtienen medidas de desempeño similares cuando se utilizan en conjuntos de

datos con alta dimensionalidad. En esta experimentación ambos métodos wrapper alcanzan una tasa

de reducción muy baja (RR = 0.52), por lo que mantienen instancias que logran una alta tasa de

preservación de la PDF (HDC = 0.94). Por otro lado, EMOIS-LT logra una exactitud de clasicación

competitiva (ACC = 0.73) en relación con el resultado obtenido por los métodos wrapper.

La Tabla 5.23 presenta los resultados de la prueba de la suma de rangos de Wilcoxon al comparar

las medidas de desempeño de los métodos wrapper y el algoritmo propuesto. Los valores-p indican

que no existe diferencia estadística signicativa con respecto a la exactitud de clasicación y la

eciencia (p > 0.05). Sin embargo, los métodos wrapper son estadísticamente inferiores en cuanto

a la tasa de reducción (p < 0.05), aunque son superiores en términos del porcentaje de preservación

de la PDF (p < 0.05).


5. Resultados 149

Figura 5.18: Resultados de los métodos comparativos. El área sombreada de cada sección del círculo
unitario indica el porcentaje obtenido de la medida de desempeño correspondiente y sus respectivos
valores se muestran en el apartado superior de cada cuadro como (ACC,RR,HDC,E).

Tabla 5.23: Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el valor-p
de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan: (+) estadísticamente
superior, (=) estadísticamente igual, y (−) estadísticamente inferior con respecto a EMOIS-LT .

WkNN WSVM
ACC 0.65 (=) 0.62 (=)
RR 0.00 (−) 0.00 (−)
HDC 0.00 (+) 0.00 (+)
E 0.19 (=) 0.21 (=)

5.4.6 Resumen del tercer esquema experimental

El tercer esquema experimental se diseñó para evaluar el desempeño de la estrategia EMOIS-LT

en conjuntos de datos con altas dimensiones. Además, se utilizaron siete métricas de distancia para

construir los árboles de enlace del método propuesto.

Los resultados comparativos de las variantes de EMOIS-LT que utilizaron distintas métricas de

distancia mostraron que no hubo diferencia estadística signicativa entre ningún algoritmo comparado

en términos de las medidas de desempeño. Por lo tanto, se puede concluir que la selección de la

distancia utilizada en la construcción de los árboles de enlace no tiene un efecto signicativo en el

resultado de las medidas de desempeño.


150 5.5. Experimentación 4: Evaluación de conjuntos de datos grandes

Posteriormente, se comparó el desempeño de la variante de EMOIS-LT que utiliza la distancia

L∞ con los métodos WkNN y WSVM . Los resultados mostraron que el algoritmo propuesto obtuvo
mejores resultados en términos de la eciencia y no presentó diferencia estadística signicativa con

respecto a la exactitud de clasicación obtenida por los métodos wrapper.

5.5 Experimentación 4: Evaluación de conjuntos de

datos grandes

El presente marco experimental se diseña para realizar un análisis comparativo entre una variante

de la estrategia LTW
B
y tres algoritmos wrapper. Estos métodos utilizan el esquema D&Q descrito

en la Sección 4.3 para procesar conjuntos de datos grandes. En particular, la variante del método

propuesto emplea el esquema de la Figura 4.7, mientras que los métodos comparativos siguen el

procedimiento que se muestra en la Figura 4.6.

5.5.1 Conjuntos de datos

En esta experimentación se utilizaron cinco conjuntos de datos de problemas del mundo real

que contienen más de 70000 instancias, los cuales se obtuvieron de la base de datos de aprendizaje

automático de la UCI [35]. La Tabla 5.24 resume las características de los conjuntos de datos.

Tabla 5.24: Características de los conjuntos de datos utilizados. N es el número de instancias, D


es la dimensionalidad, y C es el número de clases.

ID Nombre N D C
1 Accelerometer 153000 4 3
2 Cropland 325834 10 7
3 HT Sensor 928991 10 3
4 Postures 74975 16 5
5 Skin 245057 3 2
5. Resultados 151

5.5.2 Métodos comparativos

En esta experimentación se evaluó el desempeño de una variante de la estrategia LTW


B
y tres

algoritmos wrapper : WCART , WkNN y WNB .

Estos métodos utilizaron un esquema D&Q que depende de dos parámetros de entrada: el tamaño

de los subconjuntos disjuntos que se procesan de forma independiente por el algoritmo IS (N̄ ), y

el porcentaje de reducción de instancias esperado que se utiliza como criterio de paro, el cual es

equivalente a la tasa de reducción (RR).

Para tomar ventaja de la reducción del espacio de búsqueda en cada ejecución independiente del

algoritmo IS en el esquema D&Q y acelerar el proceso de evaluación de las respectivas funciones

objetivo utilizadas, en esta experimentación se utilizó una versión del GA descrito en la Sección 2.2.1

que emplea únicamente cuatro individuos en la población. Este algoritmo se denomina µGA (del

inglés micro genetic algorithm), por lo que las variantes de los métodos comparativos se identican
SIL , µWCART , µWkNN y µWNB . La Tabla 5.25 muestra los parámetros de las estrategias
como: µLT50

IS utilizadas en este esquema experimental.

Tabla 5.25: Parámetros del algoritmo µGA y del esquema D&Q empleado por las estrategias IS.
µGA
Tamaño de la población (NP ) 4
Número de generaciones (G) 200
Probabilidad de cruza (pc ) 0.9
Probabilidad de mutación (pm ) 0.0
D&Q
Tamaño de los subconjuntos (N̄ ) 1000
Porcentaje de reducción (RR) 0.9
152 5.5. Experimentación 4: Evaluación de conjuntos de datos grandes

5.5.3 Marco de evaluación de desempeño

Se utilizó el método de validación cruzada de 10-pliegues para dividir el conjunto de datos en

entrenamiento (X) y prueba (T). En esta experimentación se sigue el marco de evaluación que se

muestra en el esquema de la Figura 5.16. Sin embargo, las medidas de desempeño se evaluaron con

los clasicadores utilizados por los métodos wrapper (i.e., CART, k NN y NB).

Se utilizó la prueba no paramétrica de suma de rangos de Wilcoxon (α = 0.05) para determinar las

diferencias estadísticas entre los resultados de las medidas de desempeño de los métodos comparados.

De igual manera, se empleo esta prueba estadística para analizar los resultados de exactitud de

clasicación de los modelos entrenados con el conjunto original X y el subconjunto de datos


SIL .
seleccionado por µLT50

5.5.4 Análisis comparativo del método propuesto

La Figura 5.19 muestra los resultados de las medidas de desempeño de los métodos comparativos.

Los resultados indican que el método propuesto es competitivo en términos de la exactitud de

clasicación (ACC = 0.81) y la medida de eciencia (E = 0.88), aunque logra un porcentaje de

preservación de la PDF más bajo que los métodos wrapper (HDC = 0.89). Lo anterior se se debe a
SIL consigue una tasa de reducción extremadamente alta (RR = 0.96), por lo que remueve
que µLT50

instancias que ayudan a preservar la información de las funciones de densidad. Por otro lado, los

algoritmos µWCART y µWkNN obtienen desempeños aproximadamente iguales en todas las medidas

de desempeño, por lo que el proceso de selección basado en sus respectivos clasicadores podría

estar utilizando criterios similares.

La Tabla 5.26 muestra los resultados de la prueba de la suma de rangos de Wilcoxon obtenidos al
SIL
evaluar las medidas de desempeño de los métodos comparativos. Los resultados señalan que µLT50
5. Resultados 153

Figura 5.19: Resultados de los métodos comparativos. En la parte superior de cada barra se muestra
la medida de desempeño correspondiente. Los mejores resultados se indican en negritas.

no presenta diferencia estadística signicativa con respecto a los algoritmos comparados en términos

de la exactitud de clasicación y la eciencia (p > 0.05), aunque es superado en cuanto a la medida

de preservación de la PDF (p < 0.05). Por otro lado, el método propuesto es estadísticamente

superior a las técnicas wrapper en relación con la tasa de reducción (p < 0.05).

Tabla 5.26: Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el valor-p
de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan: (+) estadísticamente
SIL .
superior, (=) estadísticamente igual, y (−) estadísticamente inferior con respecto a µLT50

µWCART µWkNN µWNB


ACC 0.69 (=) 0.69 (=) 0.69 (=)
RR 0.01 (−) 0.01 (−) 0.01 (−)
HDC 0.01 (+) 0.01 (+) 0.01 (+)
E 0.69 (=) 0.69 (=) 0.84 (=)

La Figura 5.20 muestra la exactitud de clasicación de los algoritmos de aprendizaje supervisado

CART, k NN y NB entrenados con el conjunto de datos original X y el subconjuntos de datos X̂


SIL . Los resultados de la prueba de Wilcoxon señalan que no existe
seleccionado por el método µLT50

diferencia estadística signicativa entre los valores de ACC obtenidos por los modelos de los tres

clasicadores entrenados con X y X̂, respectivamente (p > 0.05).

Estos resultados indican que el método propuesto es capaz de obtener subconjuntos de instancias

con altos porcentajes de reducción (RR = 0.96), valores competitivos de preservación de la PDF
154 5.5. Experimentación 4: Evaluación de conjuntos de datos grandes

(HDC = 0.89), y desempeños de exactitud de clasicación similares a los obtenidos por el conjunto de

datos original en la tarea de entrenamiento de diferentes modelos de aprendizaje supervisado.

Figura 5.20: Resultados de exactitud de clasicación de los modelos entrenados por el conjunto de
datos original X y el subconjunto de datos X̂ seleccionado por µLT50 SIL . En la parte superior de los
diagramas de caja se muestra el valor de la mediana. En la sección superior de cada par de diagramas
de caja se muestra el valor-p de la prueba de Wilcoxon. Los mejores resultados se indican en negritas.

5.5.5 Resumen del cuarto esquema experimental

El cuarto marco experimental se diseñó para evaluar el desempeño de una variante del método

propuesto basada en árboles de enlace utilizando cinco conjuntos de datos grandes (de hasta 928991

instancias). El desempeño del método propuesto se comparó con tres algoritmos wrapper basados

en los clasicadores CART, k NN y NB.

Para abordar el problema del escalamiento en conjuntos de datos grandes se utilizó un esquema

D&Q, con el cual se particionó el conjunto original en subconjuntos disjuntos de tamaño N̄ y se


aplicó el método IS a cada uno de ellos.

Adicionalmente, se empleó un µGA que utiliza cuatro individuos en la población para acelerar el

proceso de evaluación de la función objetivo en problemas con espacios de búsqueda reducidos.


5. Resultados 155

Los resultados de la evaluación de desempeño mostraron que la estrategia propuesta superó a

los métodos wrapper en términos de la tasa de reducción, mientras que no presentó diferencias

estadísticas signicativas con respecto a la exactitud de clasicación y la medida de eciencia.

Por otro lado, se utilizaron los subconjuntos obtenidos por la estrategia propuesta para entrenar

a los clasicadores CART, k NN y NB. Los resultados de la prueba de la suma de rangos de Wilcoxon

mostraron que no hubo diferencias estadísticas signicativas con respecto a los valores de la medida

ACC obtenida por los clasicadores entrenados con el conjunto de datos original X.
6
Conclusiones y trabajo futuro

Este capítulo expone las conclusiones del presente trabajo de investigación y describe los puntos

más relevantes para tomar en cuenta en el trabajo futuro.

6.1 Conclusiones

Las estrategias IS seleccionan un subconjunto de instancias representativas a partir del conjunto

de datos original. Por esta razón, en el área del aprendizaje supervisado, las técnicas IS se consideran

métodos de preprocesamiento que remueven información redundante y disminuyen el tiempo de

cómputo de los algoritmos de entrenamiento. En la literatura especializada se identican dos tipos

de métodos IS: wrapper y lter. Los primeros emplean un criterio de selección basado en el desempeño

de un clasicador, mientras que los otros se enfocan en la preservación de información estadística

del conjunto de datos original.

157
158 6.1. Conclusiones

En los trabajos publicados se han propuesto métodos wrapper para resolver el problema IS desde

una perspectiva de optimización utilizando EAs. Estos algoritmos emplean una representación binaria

que codica explícitamente a las instancias del conjunto original, lo cual presenta un problema de

escalabilidad debido a que el espacio de búsqueda crece exponencialmente en función del número

de patrones de entrenamiento. Además, estas técnicas obtienen subconjuntos que se ajustan a las

características del algoritmo de aprendizaje supervisado que se usa en la función objetivo. Por esta

razón, al reutilizar las instancias seleccionadas en el entrenamiento de otros tipos de clasicadores,

usualmente se obtienen modelos con desempeños bajos de exactitud de clasicación.

Debido a los problemas de escalabilidad de la codicación binaria explícita y a la baja capacidad

de reutilización de los subconjuntos seleccionados por los métodos wrapper, en esta investigación

se propusieron algoritmos que modelan el problema IS a partir de un nuevo enfoque lter. Estas

estrategias se basan en la preservación de la PDF del conjunto de datos original y en una nueva

representación de las soluciones que utiliza árboles de enlace.

Por lo tanto, se diseñaron cuatro estrategias IS basadas en EAs que maximizan la preservación

de la PDF del conjunto de datos original y minimizan el número de instancias del subconjunto

seleccionado. El desarrollo de estos métodos se realizó considerando esquemas de optimización de

tipo GOP y MOP.

En la etapa de experimentación se emplearon cuatro técnicas clásicas de IS y siete variantes de

un algoritmo wrapper basado en EAs para comparar el desempeño de los métodos propuestos con

algunas de las técnicas más relevantes reportadas en la literatura. De esta manera, el rendimiento

de las soluciones se evaluó con cuatro índices que miden la calidad de los subconjuntos obtenidos

en términos de exactitud de clasicación, tasa de reducción de instancias, preservación de la PDF y

una medida de eciencia que combina los tres primeros índices mediante una media geométrica con

la que se cuantica la calidad global de la solución.


6. Conclusiones y trabajo futuro 159

De manera general, en la etapa de experimentación se demostró que las estrategias propuestas

obtienen soluciones más ecientes que los algoritmos comparativos cuando alcanzan valores altos

en los índices de tasa de reducción y preservación de la PDF (lo cual sucedió en la mayoría de los

casos). Por otro lado, los métodos propuestos no presentan una diferencia estadística signicativa

en términos de la exactitud de clasicación con respecto a los métodos comparados en la mayoría

de los resultados experimentales.

En particular, los resultados del primer esquema experimental indicaron que la estrategia propuesta

basada en un esquema GOP y una codicación binaria explícita alcanza las mayores tasas de

preservación de la PDF con respecto a los métodos comparados. Debido a esto, los subconjuntos

obtenidos demostraron ser reutilizables en diferentes algoritmos de aprendizaje supervisado, ya que

no se presentó una diferencia estadística signicativa con respecto a los resultados obtenidos por las

evaluaciones de Tipo 1 y 2. Además, el método propuesto fue estadísticamente superior a todos los

algoritmos comparativos en cuanto a la medida de eciencia.

Los resultados del segundo esquema experimental mostraron que los métodos basados en árboles

de enlace alcanzan una mayor medida de eciencia que la mayoría de los algoritmos comparativos. Por

otro lado, es importante señalar que estos métodos obtienen mayores tasas de reducción de instancias

que los algoritmos propuestos basados en la codicación binaria explícita. Lo anterior se debe a que la

nueva estrategia de representación mapea el problema de la selección de instancias a la búsqueda de

puntos de corte de los árboles de enlace construidos para cada clase del conjunto de datos. Por ello, el

espacio de búsqueda de esta nueva representación es considerablemente más pequeño que el espacio

explorado por las soluciones que emplean la codicación binaria explícita. Además, debido a que en

este esquema experimental se utilizaron conjuntos de tamaño mediano de hasta 20000 instancias,

el tamaño del espacio de búsqueda de la representación binaria es considerablemente grande, por

lo que los métodos propuestos que emplearon esta representación presentaron problemas de lenta

convergencia hacia soluciones con mayores tasas de reducción.


160 6.1. Conclusiones

Los resultados del tercer marco experimental mostraron que no existe diferencia estadística

signicativa en términos de las medidas de desempeño entre las variantes MOP que emplean

diferentes distancias basadas en la familia de métricas Minkowski y Yang para la construcción de los

árboles de enlace.

El cuarto esquema experimental se diseñó para evaluar el desempeño de una variante de la

estrategia GOP basada en árboles de enlace utilizando un enfoque D&Q para procesar conjuntos de

datos grandes. Los resultados mostraron que el método propuesto obtiene mayores tasas de reducción

de instancias que los algoritmos comparativos. Además, no hubo diferencia estadística signicativa en

términos del desempeño de exactitud de clasicación de los modelos entrenados con el subconjunto

seleccionado por el método propuesto y el conjunto de datos original.

De esta manera, los resultados de este trabajo de investigación señalan que las estrategias IS

propuestas permiten obtener subconjuntos de datos con altas tasas de preservación de la PDF y

reducción de instancias, al mismo tiempo que se alcanzan desempeños de exactitud de clasicación

y eciencia competitivos con respecto al desempeño de las variantes de los métodos comparativos.

Por otro lado, las estrategias basadas en la representación de árboles de enlace permiten reducir

considerablemente el tamaño del espacio de búsqueda con respecto al espacio explorado por los

algoritmos que utilizan la codicación binaria explícita. Por ejemplo, considérese un conjunto de datos

balanceado con dos clases y 100 instancias, el tamaño del espacio de búsqueda de los algoritmos que

emplean soluciones binarias es 2100 − 1 = 1.2 × 1030 , mientras que el tamaño del espacio explorado

por las estrategias basadas en árboles de enlace es (49)(49) = 2401.

En razón de lo antes expuesto, se considera que en el desarrollo de este trabajo de investigación

se cumplieron los objetivos planteados en la Sección 1.6 como sigue:

Objetivo general: Diseñar cuatro estrategias IS empleando algoritmos de optimización global y

multiobjetivo para minimizar el número de instancias y maximizar la similitud entre las funciones

de densidad de probabilidad del conjunto original y el subconjunto seleccionado. Este objetivo se


6. Conclusiones y trabajo futuro 161

cumplió con el desarrollo de las cuatro estrategias IS basadas en GOP y MOP descritas en las

Secciones 4.1 y 4.2.

Objetivo especíco 1: Denir un método para evaluar la similitud entre las funciones de densidad

de probabilidad del conjunto original y el subconjunto seleccionado. Este objetivo se alcanzó con

el diseño de la matriz H en (4.1) y su aplicación en las distintas funciones objetivo de las cuatro

estrategias IS propuestas, las cuales fueron descritas en el Capítulo 4.

Objetivo especíco 2: Diseñar una representación del problema IS basada en árboles de enlace

para reducir el tamaño del espacio de búsqueda generado por la codicación CBE. Este objetivo se

cumplió con el diseño de la codicación de los puntos de corte de los árboles de enlace descrita en

la Sección 4.2.1.

Objetivo especíco 3: Elegir algoritmos de optimización global y multiobjetivo para diseñar cuatro

estrategias IS que consideren los criterios de optimización descritos, la codicación CBE y la nueva

representación basada en árboles de enlace. Esto se cumplió con el diseño de las estrategias IS

propuestas, las cuales fueron descritas en el Capítulo 4, en donde se utilizó la codicación CBE y la

nueva representación basada en árboles de enlace.

Objetivo especíco 4: Establecer un marco experimental para evaluar la calidad de los

subconjuntos obtenidos por los métodos comparativos. Este objetivo se cumplió con el diseño de

los cuatro esquemas de experimentación descritos en el Capítulo 5.

Aunque todos los objetivos de investigación se cumplieron satisfactoriamente, existen áreas de

oportunidad en el desarrollo de las estrategias propuestas. Además, se pueden plantear otros marcos

de experimentación para evaluar aspectos comparativos que no se analizaron en los resultados de

esta tesis. Todo esto se puede considerar como parte del trabajo futuro.
162 6.2. Restricciones

6.2 Restricciones

En esta investigación se probaron las estrategias propuestas utilizando conjuntos de datos para

problemas de clasicación con variables en el dominio de los números reales y enteros. Por ello, los

hallazgos reportados en los diferentes esquemas de experimentación solo son aplicables para datos con

dichas características. En virtud de lo anterior, las estrategias propuestas no se encuentran validadas

para utilizarse en aplicaciones de regresión ni en conjuntos de datos con variables categóricas.

6.3 Contribuciones y productos de investigación

Las contribuciones obtenidas consisten en las estrategias IS que se listan a continuación.

Estrategias IS basadas en la preservación de la PDF:

ˆ
B
FW (GOP, Algoritmo 12).

ˆ EMOIS-F (MOP, Algoritmo 13).

Estrategias IS basadas en árboles de enlace:

ˆ
B
LTW (GOP, Algoritmo 17).

ˆ EMOIS-LT (MOP, Algoritmo 18).

ˆ D&Q con µLTW


B
(GOP, Figura 4.7).

Los productos de investigación consisten en tres artículos publicados que se listan en el

Apéndice E.
6. Conclusiones y trabajo futuro 163

6.4 Trabajo futuro

En el trabajo futuro relacionado a examinar aspectos que no se tomaron en cuenta en la etapa

de experimentación se puede considerar:

Evaluar el impacto de diferentes valores del peso w en el método LTW


B
en términos de las

medidas de desempeño.

Comparar la calidad de las soluciones obtenidas por las estrategias propuestas en función de

los dos selectores automáticos de anchos de banda utilizados en esta investigación.

Analizar las propiedades de convergencia del algoritmo µGA en las estrategias propuestas sin

utilizar el esquema D&Q y comprobar si la calidad de las soluciones obtenidas es similar a las

alcanzadas por los EAs que emplean más individuos en la población.

Explorar la capacidad de generalización de los subconjuntos obtenidos por los métodos

propuestos en una mayor cantidad de clasicadores.

Con respecto al trabajo futuro relacionado a potenciar las estrategias propuestas se tiene:

Emplear otro tipo de metaheurísticas poblacionales como evolución diferencial y optimización

por enjambre de partículas para comprobar si existe una mejora signicativa en la calidad de

las soluciones obtenidas.

Analizar el impacto de las medidas de desempeño en la prueba estadística de McNemar para

ajustar parámetros o introducir nuevos mecanismos en las estrategias propuestas basadas en

árboles de enlace (i.e., ajustes del peso de la función objetivo, introducción de coecientes

de penalización de tasas de reducción innecesariamente altas, etc.), para obtener una

mayor cantidad de subconjuntos que entrenen modelos de clasicación que presenten un

comportamiento similar a los modelos entrenados por el conjunto de datos original.

Finalmente, los métodos propuestos podrían extenderse para problemas de regresión.


A
Formulación del ancho de banda óptimo

El criterio de optimalidad más utilizado para seleccionar h consiste en el error cuadrático medio

integrado (MISE, por sus siglas en inglés), en donde para la estimación de p(x) se tiene [94]:

Z 
MISE(h) =E 2
(p̂(x̂) − p(x)) dx (A.1)

Normalmente la medida MISE se emplea en su forma asintótica (AMISE, por sus siglas en inglés),

debido a que es más simple de manipular analíticamente [100]:

R(K) 1
AMISE(h) = + µ2 (K)2 h4 R(p′′ ) (A.2)
nh 4

donde K es una función kernel, p′′ es la segunda derivada de p(x), mientras que R y µ2 son funcionales

de la forma:
Z
R(K) = K(x)2 dx (A.3)

165
166 A.1. Estimación de funcionales de densidad
Z
µ2 (K) = x2 K(x)dx (A.4)

El ancho de banda óptimo se puede obtener de manera analítica al derivar (A.2) con respecto de

h y posteriormente igualar a cero:

 
∂ ∂ R(K) 1
AMISE(h) =
2 4 ′′
+ µ2 (K) h R(p ) = 0 (A.5)
∂h ∂h nh 4

Por lo tanto, la expresión del ancho de banda óptimo resulta:

  15
R(K)
h= (A.6)
µ2 (K)2 R(p′′ )n

Sin embargo, el uso de (A.6) para seleccionar un valor apropiado de h es imposible en la práctica

debido a que no se puede calcular R(p′′ ) ya que se desconoce la densidad verdadera p(x).

A.1 Estimación de funcionales de densidad

Un componente importante en el cálculo del ancho de banda óptimo en (A.6) consiste en la

estimación de la funcional R (A.3). Este elemento toma como argumento la derivada de orden s de

la función de densidad p(x) y se dene como:

Z
(s)
R(p ) = p(s) (x)2 dx (A.7)

Ahora bien, al emplear integración por partes se puede mostrar que, bajo sucientes suposiciones

de suavidad de p(x), se tiene:

Z
(s)
R(p ) = (−1) s
p(2s) (x)p(x)dx (A.8)
A. Formulación del ancho de banda óptimo 167

Por lo anterior, es posible estudiar la estimación de funcionales empleando la forma:

Z
.
(s)
R(p ) = ψr = p(r) (x)p(x)dx (A.9)

donde ψr es la funcional integrada general de densidad, con r par. Considerando que ψr = E p(r) (x) ,
 

entonces el estimador de kernel de la funcional se dene como [91]:

n X
n  
X x i − xj
ψ̂r (g) = (n(n − 1)) g −1 (−r−1)
K (r)
(A.10)
i=1 j=1
g

donde g es un ancho de banda no óptimo y K es una función kernel [50, 91].

Las propiedades del error cuadrático medio asintótico (AMSE, por sus siglas en inglés) de ψ̂r son

de gran importancia para los selectores de ancho de banda óptimos ya que muchos de ellos no son

totalmente automáticos pues dependen de un ancho de banda piloto g , una manera de elegir este

parámetro es mediante la fórmula para el AMSE óptimo:

1
k!K (r) (0)
  r+k+1
gAM SE = (A.11)
−µk (K)ψr+k n

donde K es una función kernel simétrica de orden k ∈ {2, 4, 6, . . . , ∞} con r derivadas, tal que:

r+k
(−1) 2
+1
K (r) (0)µk (K) > 0 (A.12)

A.2 Ancho de banda óptimo

El ancho de banda óptimo en (A.6) se redene en términos de la funcional ψr (A.9) como:

  51
R(K)
h= (A.13)
µ2 (K)2 ψ4 n
168 A.2. Ancho de banda óptimo

Al reemplazar ψ4 por el estimador de kernel ψ̂4 (g) mediante (A.10), se obtiene la expresión

denitiva para el cálculo del ancho de banda óptimo:

! 15
R(K)
ĥ = (A.14)
µ2 (K)2 ψ̂4 (g)n

Esta formulación se conoce como la regla de plug-in directa (DPI, por sus siglas en inglés). Sin

embargo, este método no es totalmente automático ya que depende de la selección de un ancho

de banda piloto g . Una manera de elegir g es con la fórmula del AMSE óptimo en (A.11). De esta

manera, para la estimación de ψ̂4 se emplea un kernel de segundo orden (k = 2):

 71
2K (4) (0)

gAM SE = (A.15)
−µ2 (K)ψ6 n

No obstante, esta regla tiene el mismo problema que ĥ (A.14), ya que depende de una funcional

de densidad desconocida llamada ψ6 , la cual a su vez se puede calcular empleando otra estimación

de kernel, aunque su ancho de banda óptimo depende de la funcional ψ8 . Este problema parece no

tener n, ya que el ancho de banda óptimo para estimar ψr depende de ψr+2 . La estrategia usual

para superar este problema es la estimación de la funcional ψr como:

r
(−1) 2 r!
ψ̂rσ = 1 (A.16)
(2σ)r+1 ( 2r )!π 2

donde r es un número par y σ es un estimador de escala.


B
Comparación de las métricas de Minkowski y Yang

A partir de lo expuesto en la Sección 2.7, se espera que la familia de métricas de Minkowski (2.20)

y Yang (2.21) sean capaces de representar adecuadamente la disimilitud entre dos puntos distantes

en un espacio RD , independientemente de la dimensionalidad.

Por ello, la Figura B.1 presenta una comparación entre las métricas de Minkowski y Yang de

segundo orden: L2 y M2 , respectivamente. Estas se utilizan para medir la diferencia de las distancias

de dos puntos lejanos entre sí (x2 y x3 ) a un punto dado (x1 ); lo anterior se realiza para R, R2 y

R3 , respectivamente. El ejemplo muestra que la métrica M2 es capaz de representar la disimilitud


de mejor forma que L2 , ya que a medida que aumenta la dimensionalidad, el contraste entre las

distancias incrementa de manera más notable.

Finalmente, la comparación anterior se extiende para una mayor cantidad de dimensiones y

diferentes valores del parámetro q . La Figura B.2 muestra el contraste entre la distancia de dos

puntos lejanos medido como dmax − dmin , en donde se evalúa la diferencia de distancias entre el

169
170

Figura B.1: Comparación de las métricas Minkowski y Yang de segundo orden: L2 y M2 . En este
ejemplo se mide la distancia entre dos puntos lejanos en R (izquierda), R2 (centro) y R3 (derecha).
La disimilitud se calcula como: dmax − dmin ; donde dmin = d(x1 , x2 ) y dmax = d(x1 , x3 ).

punto más cercano y el más lejano al origen. En esta comparativa se observa que la familia de

métricas Minkowski para q > 2 no es capaz de representar la diferencia de distancias lejanas en altas

dimensiones adecuadamente, ya que el valor del contraste se mantiene o incluso decrece conforme la

dimensionalidad aumenta. Por otro lado, la métrica de Yang modela de mejor manera el fenómeno

del incremento de la dimensionalidad en los datos, ya que las curvas de contraste mantienen una

tendencia de crecimiento a medida que el número de dimensiones aumenta.

Figura B.2: Comparación de las métricas Minkowski y Yang para q = {1/2, 1, 2, ∞}. En este
ejemplo se calcula la distancia entre dos puntos lejanos en RD para D = {1, 2, 4, . . . , 2048}. Se
consideran 20 muestras tomadas aleatoriamente de una distribución Gaussiana con media cero y
matriz de covarianza unitaria. Cálculo de dmax y dmin en R2 (izquierda). Curvas de contraste de cada
métrica en función del número de dimensiones (derecha).
C
Métodos de normalización

C.1 Normalización Min-Max

En el proceso de estimación de la PDF con el algoritmo KDE se utiliza una medida basada en

distancia Euclidiana. Por ello, para evitar que las variables con rangos numéricos grandes dominen a

otras con valores más pequeños se normaliza el conjunto de datos original X en el intervalo [−1, 1].

En donde X = {X1 , . . . , XD }, con X ∈ RN ×D y Xi ∈ RN para i = 1, . . . , D. Lo anterior se realiza

mediante el método Min-Max, el cual se dene como [81]:

 
Xi − min(Xi )
X̄i = 2 · − 1, i = 1, . . . , D (C.1)
max(Xi ) − min(Xi )

donde X̄i denota la i-ésima variable predictora del conjunto de datos original normalizado X̄, mientras

que min(·) y max(·) devuelven los valores mínimos y máximos de Xi , respectivamente.

171
172 C.2. Normalización Softmax

Por otro lado, el último paso de las estrategias IS basadas en árboles de enlace consiste en

desnormalizar las variables predictoras al regresar sus valores a los rangos originales como:

1   
Xi = · X̄i + 1 max(Xi ) − min(Xi ) + min(Xi ), i = 1, . . . , D (C.2)
2

donde Xi denota la i-ésima variable predictora del conjunto de datos original X.

C.2 Normalización Softmax

La normalización Softmax se utiliza en los datos de entrenamiento y prueba de los modelos de

aprendizaje supervisado empleados en la evaluación de la medida de desempeño ACC. Por otro lado,

también se usa para normalizar a los conjuntos de entrenamiento y validación utilizados en la función

objetivo de los métodos IS de tipo wrapper basados en EAs.

Esta estrategia reduce la inuencia de valores atípicos del conjunto de entrenamiento X. Así, la

función tangente hiperbólica normaliza los datos en el intervalo [−1, 1] como [81]:

1 − exp(−γ) Xi − µi
X̄i = con γ= , i = 1, . . . , D (C.3)
1 + exp(−γ) σi

donde Xi y X̄i denotan la i-ésima variable original y normalizada del conjunto de datos X, mientras

que µi y σi indican la media y la desviación estándar de Xi , respectivamente.


D
Hiperparámetros de los clasicadores

En el primer marco experimental, el número de vecinos más cercanos de k NN (k ), y la cantidad



de nodos de la capa oculta de RBFN (hn ) se jaron en k = 3 y hn = N , respectivamente.

Por otro lado, el margen suave (η ) y el ancho de banda (γ ) del kernel Gaussiano del clasicador

SVM fueron sintonizados mediante una búsqueda malla en los rangos η = [2−5 , 2−3 , . . . , 215 ] y

γ = [2−15 , 2−13 , . . . , 23 ], utilizando una validación cruzada de 5-pliegues [18, 36].

En el segundo y tercer marco experimental, el clasicador RF empleó B = 500 árboles y



mtry = D características muestreadas aleatoriamente como candidatas en cada división. Para
la sintonización de los hiperparámetros de los clasicadores restantes se utilizó el mismo método de

sintonización que el primer esquema experimental. La Tabla D.1 muestra los rangos de búsqueda de

los hiperparámetros de los clasicadores utilizados.

En el cuarto marco experimental, el clasicador k NN utilizó un valor jo de k = 3.

173
174

Tabla D.1: Rangos de búsqueda de los hiperparámetros de los clasicadores utilizados en el segundo
y tercer marco experimental.

Clasicador Rango de búsqueda


k NN k = [1, 3, 5,
√ 9]
7,
MLP hn = [3, 3√N ], (t = 1000 épocas)
RBFN hn = [3, 3 N ]
SVM η = [2−5 , 2−4 . . . , 215 ], γ = [2−15 , 2−14 . . . , 23 ]

Los valores de los hiperparámetros se emplearon en los métodos wrapper y en la etapa de

evaluación de las medidas de desempeño de los cuatro marcos de experimentación.


E
Publicaciones

Tovias-Alanis, S. O., Gomez-Flores, W., & Toscano-Pulido, G. (2021). Instance Selection Based

on Linkage Trees. In 2021 18th International Conference on Electrical Engineering, Computing

Science and Automatic Control (CCE). IEEE. pp. 1-6, DOI: 10.1109/CCE53527.2021.9633116.

Tovias-Alanis, S. O., Gómez-Flores, W., & Toscano-Pulido, G. (2022). Evolutionary Instance

Selection Based on Preservation of the Data Probability Density Function. Computación y

Sistemas, 26(2). pp. 853866 DOI: 10.13053/CyS-26-2-4255.

Tovias-Alanis, S. O., Gómez-Flores, W., Toscano-Pulido, G., & Sossa-Azuela, J. H. (2022).

Learning Dendrite Morphological Neurons Using Linkage Trees for Pattern Classication.

In Lecture Notes in Computer Science (pp. 105115). Springer International Publishing.

vol. 13264 DOI 10.1007/978-3-031-07750-0_10.

175
Bibliografía

[1] Acampora, G., Herrera, F., Tortora, G., and Vitiello, A. (2018). A multi-objective evolutionary

approach to training set selection for support vector machine. Knowledge-Based Systems, 147:94

108.

[2] Adamopoulou, E. and Moussiades, L. (2020). Chatbots: History, technology, and applications.

Machine Learning with Applications, 2:100006.

[3] Akinyelu, A. A., Ezugwu, A. E., and Adewumi, A. O. (2019). Ant colony optimization edge

selection for support vector machine speed optimization. Neural Computing and Applications,

32(15):1138511417.

[4] Alcala-Fdez, J., Fernández, A., Luengo, J., Derrac, J., and García, S. (2011). Keel data-mining

software tool: Data set repository, integration of algorithms and experimental analysis framework.

Multiple-Valued Logic and Soft Computing, 17:255287.

[5] Aldana-Bobadilla, E., Lopez-Arevalo, I., and Molina Villegas, A. (2017). A novel data reduction

method based on information theory and the eclectic genetic algorithm. Intelligent Data Analysis,

21:803826.

[6] Anwar, I. M., Salama, K. M., and Abdelbar, A. M. (2015). Instance selection with ant colony

optimization. Procedia Computer Science, 53:248256.

[7] Batista, G. E. A. P. A., Prati, R. C., and Monard, M. C. (2004). A study of the behavior of several

methods for balancing machine learning training data. SIGKDD Explor. Newsl., 6(1):2029.

177
178 BIBLIOGRAFÍA

[8] Bellet, A., Habrard, A., and Sebban, M. (2015). Metric Learning. Synthesis Lectures on Articial

Intelligence and Machine Learning. Morgan and Claypool Life Sciences, San Rafael, CA.

[9] Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer, 1 edition.

[10] Blitzstein, J. K. and Hwang, J. (2019). Introduction to probability, second edition. Chapman

& Hall/CRC Texts in Statistical Science. CRC Press, London, England, 2 edition.

[11] Brighton, H. and Mellish, C. (2002). Advances in instance selection for instance-based learning

algorithms. Data Mining and Knowledge Discovery, 6(2):153172.

[12] Cady, F. (2017). The data science handbook. John Wiley & Sons, Inc., 1 edition.

[13] Cano, J. R., Herrera, F., and Lozano, M. (2003). Using evolutionary algorithms as instance

selection for data reduction in kdd: an experimental study. IEEE Transactions on Evolutionary

Computation, 7(6):561575.

[14] Cano, J. R., Herrera, F., and Lozano, M. (2005a). Stratication for scaling up evolutionary

prototype selection. Pattern Recognition Letters, 26(7):953963.

[15] Cano, J. R., Herrera, F., and Lozano, M. (2005b). A study on the combination of evolutionary

algorithms and stratied strategies for training set selection in data mining. In Homann, F.,

Köppen, M., Klawonn, F., and Roy, R., editors, Soft Computing: Methodologies and Applications,

pages 271284, Berlin, Heidelberg. Springer Berlin Heidelberg.

[16] Carbonera, J. L. and Abel, M. (2015). A density-based approach for instance selection. In 2015

IEEE 27th International Conference on Tools with Articial Intelligence (ICTAI), pages 768774.

[17] Carbonera, J. L. and Abel, M. (2016). A novel density-based approach for instance selection.

In 2016 IEEE 28th International Conference on Tools with Articial Intelligence (ICTAI), pages

549556.
BIBLIOGRAFÍA 179

[18] Chang, C.-C. and Lin, C.-J. (2011). LIBSVM: A library for support vector machines. ACM

Transactions on Intelligent Systems and Technology, 2:27:127:27.

[19] Chapelle, O. (2007). Training a support vector machine in the primal. Neural Comput.,

19(5):11551178.

[20] Cheng, F., Chen, J., Qiu, J., and Zhang, L. (2020). A subregion division based multi-objective

evolutionary algorithm for svm training set selection. Neurocomputing, 394:7083.

[21] Cheng, F., Chu, F., and Zhang, L. (2021). A multi-objective evolutionary algorithm based on

length reduction for large-scale instance selection. Information Sciences.

[22] Coello, C. A. C., Lamont, G. B., and van Veldhuizen, D. A. (2007). Evolutionary Algorithms

for Solving Multi-Objective Problems. Springer US.

[23] Cormen, T. H., Leiserson, C. E., Rivest, R. L., and Stein, C. (2001). Introduction to Algorithms.

MIT Press, London, England, 2 edition.

[24] Corne, D., Jerram, N., Knowles, J., and Oates, M. (2001). Pesa-ii: Region-based selection in

evolutionary multiobjective optimization. Proc. 6th Int. Conf. Pparallel Prob. Solving from Nature

PPSN-VI.

[25] Cutler, A. and Cordero-Braña, O. I. (1996). Minimum hellinger distance estimation for nite

mixture models. Journal of the American Statistical Association, 91(436):17161723.

[26] Das, I. (1999). On characterizing the knee of the pareto curve based on normal-boundary

intersection. Structural Optimization, 18(2-3):107115.

[27] de Haro-Garcia, A., del Castillo, J. A. R., and Garcia-Pedrajas, N. (2010). Scaling up instance

selection algorithms by dividing-and-conquering. In Zhang, Y., editor, New Advances in Machine

Learning, chapter 13. IntechOpen, Rijeka.


180 BIBLIOGRAFÍA

[28] de Haro-García, A. and García-Pedrajas, N. (2008). A divide-and-conquer recursive approach for

scaling up instance selection algorithms. Data Mining and Knowledge Discovery, 18(3):392418.

[29] de Souza, G. F. M., Netto, A. C., de Andrade Melani, A. H., de Carvalho Michalski, M. A., and

da Silva, R. F. (2022). Engineering systems' fault diagnosis methods. In Reliability Analysis and

Asset Management of Engineering Systems, pages 165187. Elsevier.

[30] Deb, K. (2001). Multi-Objective Optimization using Evolutionary Algorithms. John Wiley &

Sons, Chichester, UK. ISBN 0-471-87339-X.

[31] Deb, K., Agrawal, S., Pratap, A., and Meyarivan, T. (2000). A fast elitist non-dominated

sorting genetic algorithm for multi-objective optimization: NSGA-II. In Parallel Problem Solving

from Nature PPSN VI, pages 849858. Springer Berlin Heidelberg.

[32] Deb, K., Pratap, A., Agarwal, S., and Meyarivan, T. (2002). A fast and elitist multiobjective

genetic algorithm: Nsga-ii. IEEE Transactions on Evolutionary Computation, 6(2):182197.

[33] Defays, D. (1977). An ecient algorithm for a complete link method. The Computer Journal,

20(4):364366.

[34] Derrac, J., García, S., and Herrera, F. (2010). A survey on evolutionary instance selection and

generation. Int. J. Appl. Metaheuristic Comput., 1(1):6092.

[35] Dua, D. and Gra, C. (2017). Uci machine learning repository.

[36] Duda, R. O., Hart, P. E., and Stork, D. G. (2001). Pattern Classication. Jhon Wiley & Sons,

Inc., 2 edition.

[37] Engelbrecht, A. (2007). Computational intelligence : an introduction. John Wiley & Sons,

Chichester, England Hoboken, NJ.


BIBLIOGRAFÍA 181

[38] Eshelman, L. J. (1991). The chc adaptive search algorithm: How to have safe search when

engaging in nontraditional genetic recombination. In RAWLINS, G. J., editor, Foundations of

Genetic Algorithms, volume 1 of Foundations of Genetic Algorithms, pages 265283. Elsevier.

[39] Everitt, B. S., Landau, S., Leese, M., and Stahl, D. (2011). Cluster Analysis. Wiley Series in

Probability and Statistics. Wiley-Blackwell, Hoboken, NJ, 5 edition.

[40] Fazzolari, M., Giglio, B., Alcalá, R., Marcelloni, F., and Herrera, F. (2013). A study on the

application of instance selection techniques in genetic fuzzy rule-based classication systems:

Accuracy-complexity trade-o. Knowledge-Based Systems, 54:3241.

[41] Fernández, A., Carmona, C. J., del Jesus, M. J., and Herrera, F. (2017). A pareto-based

ensemble with feature and instance selection for learning from multi-class imbalanced datasets.

International Journal of Neural Systems, 27(06):1750028.

[42] Fernández, A., del Jesus, M. J., and Herrera, F. (2015). Addressing overlapping in classication

with imbalanced datasets: A rst multi-objective approach for feature and instance selection.

In Intelligent Data Engineering and Automated Learning  IDEAL 2015, pages 3644. Springer

International Publishing.

[43] Freund, R. J., Wilson, W. J., and Mohr, D. L. (2010). Chapter 2 - probability and sampling

distributions. In Freund, R. J., Wilson, W. J., and Mohr, D. L., editors, Statistical Methods (Third

Edition), pages 67124. Academic Press, Boston, third edition edition.

[44] García, S., Cano, J. R., Fernández, A., and Herrera, F. (2006). A proposal of evolutionary

prototype selection for class imbalance problems. In Corchado, E., Yin, H., Botti, V., and Fyfe, C.,

editors, Intelligent Data Engineering and Automated Learning  IDEAL 2006, pages 14151423,

Berlin, Heidelberg. Springer Berlin Heidelberg.

[45] Garcia, S., Derrac, J., Cano, J., and Herrera, F. (2012). Prototype selection for nearest neighbor
182 BIBLIOGRAFÍA

classication: Taxonomy and empirical study. IEEE Transactions on Pattern Analysis and Machine

Intelligence, 34(3):417435.

[46] García-Pedrajas, N., del Castillo, J. A. R., and Ortiz-Boyer, D. (2009). A cooperative

coevolutionary algorithm for instance selection for instance-based learning. Machine Learning,

78(3):381420.

[47] García, S., Cano, J. R., and Herrera, F. (2008). A memetic algorithm for evolutionary prototype

selection: A scaling up approach. Pattern Recogn., 41(8):26932709.

[48] Garofalo, M., Botta, A., and Ventre, G. (2016). Astrophysics and big data: Challenges, methods,

and tools. Proceedings of the International Astronomical Union, 12(S325):345348.

[49] Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization and Machine Learning.

Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 1st edition.

[50] Hall, P. and Marron, J. (1987). Estimation of integrated squared density derivatives. Statistics

& Probability Letters, 6(2):109115.

[51] Hamidzadeh, J., Kashe, N., and Moradi, M. (2020). Combined weighted multi-objective

optimizer for instance reduction in two-class imbalanced data problem. Engineering Applications

of Articial Intelligence, 90:103500.

[52] Hamming, R. W. (1950). Error detecting and error correcting codes. The Bell System Technical

Journal, 29(2):147160.

[53] Han, J., Kamber, M., and Pei, J. (2012). 10 - cluster analysis: Basic concepts and methods. In

Han, J., Kamber, M., and Pei, J., editors, Data Mining (Third Edition), The Morgan Kaufmann

Series in Data Management Systems, pages 443495. Morgan Kaufmann, Boston, third edition

edition.
BIBLIOGRAFÍA 183

[54] Hart, P. (1968). The condensed nearest neighbor rule (corresp.). IEEE Transactions on

Information Theory, 14(3):515516.

[55] Haynes, W. (2013). Bonferroni Correction, pages 154154. Springer New York, New York, NY.

[56] He, K., Zhang, X., Ren, S., and Sun, J. (2016). Deep residual learning for image recognition.

In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770778.

[57] Ho, T. K. and Basu, M. (2002). Complexity measures of supervised classication problems.

IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(3):289300.

[58] Jankowski, N. and Grochowski, M. (2004). Comparison of instances seletion algorithms i.

algorithms survey. In Rutkowski, L., Siekmann, J. H., Tadeusiewicz, R., and Zadeh, L. A., editors,

Articial Intelligence and Soft Computing - ICAISC 2004, pages 598603, Berlin, Heidelberg.

Springer Berlin Heidelberg.

[59] Jiménez, F., Sánchez, G., Palma, J., and Sciavicco, G. (2022). Three-objective constrained

evolutionary instance selection for classication: Wrapper and lter approaches. Engineering

Applications of Articial Intelligence, 107:104531.

[60] Karunakaran, V., Suganthi, M., and Rajasekar, V. (2020). Feature selection and instance

selection using cuttlesh optimisation algorithm through tabu search. International Journal of

Enterprise Network Management, 11(1):32.

[61] Kordos, M. and Šapa, K. (2018). Multi-objective evolutionary instance selection for regression

tasks. Entropy, 20(10):746.

[62] Krishnakumar, K. (1990). Micro-genetic algorithms for stationary and non-stationary function

optimization. In Rodriguez, G., editor, SPIE Proceedings. SPIE.

[63] Kruskal, W. H. and Wallis, W. A. (1952). Use of ranks in one-criterion variance analysis. Journal

of the American Statistical Association, 47(260):583621.


184 BIBLIOGRAFÍA

[64] Kumar, M., Husain, M., Upreti, N., and Gupta, D. (2010). Genetic algorithm: Review and

application. SSRN Electronic Journal.

[65] Kuncheva, L. I. (1995). Editing for the k-nearest neighbors rule by a genetic algorithm. Pattern

Recognition Letters, 16(8):809  814. Genetic Algorithms.

[66] Levin, D. A. and Peres, Y. (2017). Markov chains and mixing times. American Mathematical

Society, Providence, Rhode Island, 2 edition.

[67] Leyva, E., González, A., and Pérez, R. (2015). Three new instance selection methods based on

local sets: A comparative study with several approaches from a bi-objective perspective. Pattern

Recognition, 48(4):15231537.

[68] Li, W., Wang, R., Zhang, T., Ming, M., and Li, K. (2020). Reinvestigation of evolutionary

many-objective optimization: Focus on the pareto knee front. Information Sciences, 522:193213.

[69] Lin, C.-C., Kang, J.-R., Liang, Y.-L., and Kuo, C.-C. (2021). Simultaneous feature and instance

selection in big noisy data using memetic variable neighborhood search. Applied Soft Computing,

112:107855.

[70] Liu, W., Park, E., Krieger, U., and Zhu, S. (2020). Smart e-health security and safety

monitoring with machine learning services. In 2020 29th International Conference on Computer

Communications and Networks (ICCCN), pages 16.

[71] Lv, Z., Song, H., Basanta-Val, P., Steed, A., and Jo, M. (2017). Next-generation big data

analytics: State of the art, challenges, and future research topics. IEEE Transactions on Industrial

Informatics, 13(4):18911899.

[72] Malhat, M., Menshawy, M. E., Mousa, H., and Sisi, A. E. (2020). A new approach for instance

selection: Algorithms, evaluation, and comparisons. Expert Systems with Applications, 149:113297.

[73] MATLAB (2019). 9.7.0.1190202 (R2019b). The MathWorks Inc., Natick, Massachusetts.
BIBLIOGRAFÍA 185

[74] McNemar, Q. (1947). Note on the sampling error of the dierence between correlated

proportions or percentages. Psychometrika, 12(2):153157.

[75] Miettinen, K. (1998). Nonlinear Multiobjective Optimization. Springer US.

[76] Miller, B. L. and Goldberg, D. E. (1995). Genetic algorithms, tournament selection, and the

eects of noise. Complex Systems, 9:193212.

[77] Olvera-López, J. A., Carrasco-Ochoa, J. A., Martínez-Trinidad, J. F., and Kittler, J. (2010). A

review of instance selection methods. Articial Intelligence Review, 34(2):133143.

[78] Olvera-López, J. A., Martínez-Trinidad, J. F., and Carrasco-Ochoa, J. A. (2007). Mixed data

object selection based on clustering and border objects. In Rueda, L., Mery, D., and Kittler, J.,

editors, Progress in Pattern Recognition, Image Analysis and Applications, pages 674683, Berlin,

Heidelberg. Springer Berlin Heidelberg.

[79] Paredes, R. and Vidal, E. (2000). Weighting prototypes - a new editing approach. In Proceedings

15th International Conference on Pattern Recognition. ICPR-2000, volume 2, pages 2528 vol.2.

[80] Poyatos, J., Molina, D., Martinez, A. D., Del Ser, J., and Herrera, F. (2022). Evoprunedeeptl:

An evolutionary pruning model for transfer learning based deep neural networks. Neural Networks.

[81] Priddy, K. L. and Keller, P. E. (2005). Articial Neural Networks: An Introduction. SPIE.

[82] Rathee, S., Ratnoo, S., and Ahuja, J. (2018). Instance selection using multi-objective CHC

evolutionary algorithm. In Information and Communication Technology for Competitive Strategies,

pages 475484. Springer Singapore.

[83] Rathee, S., Ratnoo, S., and Ahuja, J. (2019a). Instance selection using multi-objective

chc evolutionary algorithm. In Fong, S., Akashe, S., and Mahalle, P. N., editors, Information

and Communication Technology for Competitive Strategies, pages 475484, Singapore. Springer

Singapore.
186 BIBLIOGRAFÍA

[84] Rathee, S., Ratnoo, S., and Ahuja, J. (2019b). Simultaneous instance and feature selection

using multi-objective CHC algorithm. SSRN Electronic Journal.

[85] Reeves, C. R. and Bush, D. R. (2001). Using Genetic Algorithms for Training Data Selection

in RBF Networks, pages 339356. Springer US, Boston, MA.

[86] Reeves, C. R. and Taylor, S. J. (1998). Selection of training data for neural networks by

a genetic algorithm. In Eiben, A. E., Bäck, T., Schoenauer, M., and Schwefel, H.-P., editors,

Parallel Problem Solving from Nature  PPSN V, pages 633642, Berlin, Heidelberg. Springer

Berlin Heidelberg.

[87] Rosales-Perez, A., Garcia, S., Gonzalez, J. A., Coello, C. A. C., and Herrera, F. (2017). An

evolutionary multiobjective model and instance selection for support vector machines with pareto-

based ensembles. IEEE Transactions on Evolutionary Computation, 21(6):863877.

[88] Rostami, S., Neri, F., and Gyaurski, K. (2020). On algorithmic descriptions and software

implementations for multi-objective optimisation: A comparative study. SN Computer Science,

1(5).

[89] Saremi, S., Mirjalili, S. M., and Mirjalili, S. (2014). Chaotic krill herd optimization algorithm.

Procedia Technology, 12:180185. The 7th International Conference Interdisciplinarity in

Engineering, INTER-ENG 2013, 10-11 October 2013, Petru Maior University of Tirgu Mures,

Romania.

[90] Searcoid, M. O. (2006). Metric Spaces. Springer Undergraduate Mathematics Series. Springer,

London, England, 2007 edition.

[91] Sheather, S. and Chris Jones, M. (1991). A reliable data-based bandwidth selection method

for kernel density estimation. Journal of the Royal Statistical Society. Series B. Methodological,

53:683690.
BIBLIOGRAFÍA 187

[92] Sibson, R. (1973). Slink: An optimally ecient algorithm for the single-link cluster method.

The Computer Journal, 16(1):3034.

[93] Sierra, B., Lazkano, E., Inza, I., Merino, M., Larrañaga, P., and Quiroga, J. (2001). Prototype

selection and feature subset selection by estimation of distribution algorithms. a case study in the

survival of cirrhotic patients treated with tips. In Quaglini, S., Barahona, P., and Andreassen,

S., editors, Articial Intelligence in Medicine, pages 2029, Berlin, Heidelberg. Springer Berlin

Heidelberg.

[94] Silverman, B. W. (1986). Density Estimation for Statistics and Data Analysis. Chapman and

Hall.

[95] Srinivas, N. and Deb, K. (1994). Muiltiobjective optimization using nondominated sorting in

genetic algorithms. Evol. Comput., 2(3):221248.

[96] Triguero, I., Galar, M., Bustince, H., and Herrera, F. (2017). A rst attempt on global

evolutionary undersampling for imbalanced big data. In 2017 IEEE Congress on Evolutionary

Computation (CEC), pages 20542061.

[97] Tsai, C.-F., Chen, Z.-Y., and Ke, S.-W. (2014). Evolutionary instance selection for text

classication. Journal of Systems and Software, 90:104  113.

[98] Tsai, C.-F., Eberle, W., and Chu, C.-Y. (2013). Genetic algorithms in feature and instance

selection. Know.-Based Syst., 39:240247.

[99] Verma, S., Pant, M., and Snasel, V. (2021). A comprehensive review on nsga-ii for multi-

objective combinatorial optimization problems. IEEE Access, 9:5775757791.

[100] Wand, M. and Jones, M. (1994). Kernel Smoothing (Chapman & Hall/CRC Monographs on

Statistics & Applied Probability Book 60). Chapman and Hall/CRC.

[101] Wilcoxon, F. (1945). Individual comparisons by ranking methods. Biometrics Bulletin, 1(6):80.
188 BIBLIOGRAFÍA

[102] Wilson, D. L. (1972). Asymptotic properties of nearest neighbor rules using edited data. IEEE

Transactions on Systems, Man, and Cybernetics, SMC-2(3):408421.

[103] Wilson, D. R. and Martinez, T. R. (2000). Reduction techniques for instance-based learning

algorithms. Machine Learning, 38(3):257286.

[104] Xu, R. and Wunsch, D. C. (2009). Clustering. John Wiley & Sons, Inc.

[105] Yang, R., Jiang, Y., Mathews, S., Housworth, E. A., Hahn, M. W., and Radivojac, P. (2019). A

new class of metrics for learning on real-valued and structured data. Data Mining and Knowledge

Discovery, 33(4):9951016.

[106] Zhai, J. and Song, D. (2022). Optimal instance subset selection from big data using genetic

algorithm and open source framework. Journal of Big Data, 9(1):87.

[107] Zhai, T. and He, Z. (2013). Instance selection for time series classication based on immune

binary particle swarm optimization. Knowledge-Based Systems, 49:106115.

[108] Zhang, Q. and Li, H. (2007). Moea/d: A multiobjective evolutionary algorithm based on

decomposition. IEEE Transactions on Evolutionary Computation, 11(6):712731.

[109] Zhang, X., Tian, Y., and Jin, Y. (2015). A knee point-driven evolutionary algorithm for

many-objective optimization. IEEE Transactions on Evolutionary Computation, 19(6):761776.

[110] Zhou, Z.-H. (2012). Ensemble Methods. Chapman and Hall/CRC.

También podría gustarte