Multiobjetivo Desbalanceado
Multiobjetivo Desbalanceado
Estrategias de Selección de
Instancias Mediante Optimización
Global y Multiobjetivo para
Problemas de Aprendizaje
Supervisado
Doctor en Ciencias
en Ingeniería y Tecnologías
Computacionales
____________________________________________________________
Índice General I
Índice de Figuras V
Índice de Tablas XI
Índice de Algoritmos XV
Resumen XVII
Abstract XIX
Nomenclatura XXI
1. Introducción 1
1.1. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4. Preguntas de investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.6. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7. Metodología de investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.8. Organización del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2. Marco teórico 13
2.1. Selección de instancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.1.1. Técnicas clásicas de IS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1.1. Regla del vecino más cercano condensado . . . . . . . . . . . . . 15
2.1.1.2. Regla del vecino más cercano editado . . . . . . . . . . . . . . . . 17
2.1.1.3. Procedimiento de optimización de reducción decremental . . . . . 17
2.1.1.4. Filtrado de casos iterativos . . . . . . . . . . . . . . . . . . . . . 19
2.1.2. Métodos de IS con algoritmos evolutivos . . . . . . . . . . . . . . . . . . . 21
2.1.2.1. Representación de las soluciones . . . . . . . . . . . . . . . . . . 22
2.1.2.2. Criterios de optimización de algoritmos wrapper . . . . . . . . . . 23
2.1.2.3. Diseño de la función objetivo . . . . . . . . . . . . . . . . . . . . 24
2.1.2.4. Evaluación de la función objetivo . . . . . . . . . . . . . . . . . . 25
2.2. Optimización global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1. Algoritmo genético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3. Optimización multiobjetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
i
2.3.1. Optimalidad de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.2. Algoritmo evolutivo multiobjetivo NSGA-II . . . . . . . . . . . . . . . . . . 31
2.3.2.1. Enfoque rápido de ordenamiento de no dominancia . . . . . . . . . 32
2.3.2.2. Preservación de la diversidad . . . . . . . . . . . . . . . . . . . . 32
2.3.2.3. Estimación de densidad local . . . . . . . . . . . . . . . . . . . . 34
2.3.2.4. Operador de comparación . . . . . . . . . . . . . . . . . . . . . . 36
2.3.2.5. Ciclo principal del algoritmo NSGA-II . . . . . . . . . . . . . . . . 36
2.3.3. Selección automática de soluciones no dominadas . . . . . . . . . . . . . . 38
2.4. Estimación de la función de densidad de probabilidad . . . . . . . . . . . . . . . . . 39
2.4.1. Variables aleatorias y distribución de probabilidad . . . . . . . . . . . . . . . 40
2.4.2. Función de densidad de probabilidad . . . . . . . . . . . . . . . . . . . . . 40
2.4.3. Estimación de densidad de kernel . . . . . . . . . . . . . . . . . . . . . . . 41
2.4.4. Efectos del ancho de banda . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.4.5. Métodos de selección de ancho de banda . . . . . . . . . . . . . . . . . . . 43
2.4.5.1. Regla general de Silverman . . . . . . . . . . . . . . . . . . . . . 44
2.4.5.2. Regla de plug-in directa . . . . . . . . . . . . . . . . . . . . . . . 45
2.5. Medida de similitud entre funciones de densidad de probabilidad . . . . . . . . . . . 47
2.6. Árboles de enlace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.7. Métricas de distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.7.1. Distancia Minkowski . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.7.2. Distancia de Yang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.8. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4. Metodología 69
4.1. Estrategias de IS basadas en preservar la PDF . . . . . . . . . . . . . . . . . . . . 71
4.1.1. IS basada en preservar la PDF mediante GOP . . . . . . . . . . . . . . . . 71
4.1.1.1. Representación de los individuos . . . . . . . . . . . . . . . . . . 71
4.1.1.2. Función objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.1.2. IS basada en preservar la PDF mediante MOP . . . . . . . . . . . . . . . . 75
4.1.2.1. Representación de los individuos y diseño de las funciones objetivo 76
4.2. Estrategias de IS basadas en árboles de enlace . . . . . . . . . . . . . . . . . . . . 79
4.2.1. Selección de instancias con árboles de enlace . . . . . . . . . . . . . . . . . 79
4.2.2. IS basada en árboles de enlace mediante GOP . . . . . . . . . . . . . . . . 82
4.2.2.1. Representación de los individuos . . . . . . . . . . . . . . . . . . 82
4.2.2.2. Decodicación de los individuos . . . . . . . . . . . . . . . . . . . 83
4.2.2.3. Función objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2.3. IS basada en árboles de enlace mediante MOP . . . . . . . . . . . . . . . . 88
4.2.3.1. Representación de los individuos . . . . . . . . . . . . . . . . . . 89
ii
4.2.3.2. Decodicación de los individuos . . . . . . . . . . . . . . . . . . . 89
4.2.3.3. Diseño de las funciones objetivo . . . . . . . . . . . . . . . . . . . 89
4.3. Estrategia de IS para grandes conjuntos de datos . . . . . . . . . . . . . . . . . . . 92
4.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5. Resultados 99
5.1. Medidas de desempeño . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.2. Experimentación 1: Evaluación de FW B
. . . . . . . . . . . . . . . . . . . . . . . . . 101
5.2.1. Conjuntos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.2.2. Métodos comparativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.2.3. Marco de evaluación de desempeño . . . . . . . . . . . . . . . . . . . . . . 103
5.2.4. Resultados de desempeño del método FW B
. . . . . . . . . . . . . . . . . . . 105
5.2.5. Resultados de desempeño de los métodos wrapper . . . . . . . . . . . . . . 107
5.2.6. Resultados de desempeño de los métodos clásicos . . . . . . . . . . . . . . 108
5.2.7. Análisis comparativo del método propuesto . . . . . . . . . . . . . . . . . . 110
5.2.8. Análisis de la capacidad de generalización . . . . . . . . . . . . . . . . . . . 111
5.2.9. Comparación de los modelos de clasicación . . . . . . . . . . . . . . . . . 114
5.2.10. Caso de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.2.11. Resumen del primer esquema experimental . . . . . . . . . . . . . . . . . . 117
5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas . . . . . . . . 119
5.3.1. Conjuntos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.3.2. Métodos comparativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
5.3.3. Marco de evaluación de desempeño . . . . . . . . . . . . . . . . . . . . . . 122
5.3.4. Resultados de los métodos GOP . . . . . . . . . . . . . . . . . . . . . . . . 123
5.3.5. Resultados de los métodos MOP . . . . . . . . . . . . . . . . . . . . . . . 124
5.3.6. Análisis comparativo de los métodos propuestos . . . . . . . . . . . . . . . 126
5.3.7. Análisis de la capacidad de generalización . . . . . . . . . . . . . . . . . . . 133
5.3.8. Comparación de los modelos de clasicación . . . . . . . . . . . . . . . . . 134
5.3.9. Caso de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.3.10. Resumen del segundo esquema experimental . . . . . . . . . . . . . . . . . 141
5.4. Experimentación 3: Evaluación de conjuntos de datos con altas dimensiones . . . . . 143
5.4.1. Conjuntos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.4.2. Métodos comparativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
5.4.3. Marco de evaluación de desempeño . . . . . . . . . . . . . . . . . . . . . . 145
5.4.4. Resultados de las variantes del método propuesto . . . . . . . . . . . . . . . 146
5.4.5. Análisis comparativo del método propuesto . . . . . . . . . . . . . . . . . . 147
5.4.6. Resumen del tercer esquema experimental . . . . . . . . . . . . . . . . . . 149
5.5. Experimentación 4: Evaluación de conjuntos de datos grandes . . . . . . . . . . . . 150
5.5.1. Conjuntos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
5.5.2. Métodos comparativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
5.5.3. Marco de evaluación de desempeño . . . . . . . . . . . . . . . . . . . . . . 152
5.5.4. Análisis comparativo del método propuesto . . . . . . . . . . . . . . . . . . 152
5.5.5. Resumen del cuarto esquema experimental . . . . . . . . . . . . . . . . . . 154
iii
6. Conclusiones y trabajo futuro 157
6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
6.2. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.3. Contribuciones y productos de investigación . . . . . . . . . . . . . . . . . . . . . . 162
6.4. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
iv
Índice de Figuras
v
2.15. Estimación de la PDF de una muestra aleatoria de 20 puntos tomados de la
distribución p(x) = 0.7N (6, 2) + 0.3N (12, 3). p̂1 (x̂) se obtiene con h = 2, lo que
resulta en una estimación sobresuavizada debido a que se atenúan formas básicas de
la distribución de los datos. Por otra parte, p̂2 (x̂) se obtiene utilizando h = 0.3, en
donde se generan picos no deseados. . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.16. Estimación de dos PDFs a partir de una muestra aleatoria de 100 puntos tomados
de la distribución p(x) = 0.7N (6, 2) + 0.3N (12, 3). p̂1 (x̂) se obtiene con la regla
SIL y p̂2 (x̂) se calcula con DPI. Al utilizar la distancia de Hellinger se obtiene
H1 (p, p̂1 ) = 0.104 y H2 (p, p̂2 ) = 0.029. . . . . . . . . . . . . . . . . . . . . . . . . 48
2.17. Ejemplo de un dendrograma de un árbol de enlace. En ambos lados se observa la
dirección del proceso de agrupamiento para los casos aglomerativo (izquierda) y
divisivo (derecha). Se utiliza el punto de corte indicado por la línea discontinua y
se obtiene una partición con cuatro grupos descritos por los subconjuntos: {q1 , q2 },
{q3 }, {q4 , q5 , q6 , q7 }, {q8 , q9 , q10 }. . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.18. Ejemplo de un enlace completo a partir de las muestras de dos grupos A y B . . . . 50
2.19. Círculos formados por puntos medidos a una distancia de 1.0 a partir del origen con
la métrica Minkowski en un espacio R2 para diferentes valores de q . . . . . . . . . . 52
2.20. Círculos formados por puntos medidos a una distancia de 1.0 a partir del origen con
la métrica de Yang en un espacio R2 para diferentes valores de q . . . . . . . . . . . 53
vi
4.6. Ejemplo de un esquema D&Q en la tarea IS. El conjunto original X se divide en n
subconjuntos disjuntos de tamaño N̄ . Posteriormente se aplica un algoritmo IS a cada
uno de ellos y se obtienen n subconjuntos de tamaño N̂1 , . . . , N̂n , respectivamente.
Después, estos últimos se unen para formar el subconjunto de datos seleccionado X̂
de tamaño N̂ . Este procedimiento se realiza de forma iterativa hasta que se cumple
con un criterio de paro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.7. Esquema D&Q propuesto. El conjunto original X se divide en C subconjuntos
disjuntos que contienen a las instancias de cada clase X1 , . . . , XC , posteriormente
se utiliza un algoritmo de agrupamiento para obtener n1 , . . . , nC grupos,
respectivamente. Después, cada partición se procesa con el algoritmo µLTW B
, y
nalmente se fusionan los subconjuntos obtenidos por cada partición y por cada clase
para obtener el subconjunto de salida X̂. Este proceso se realiza de forma iterativa
hasta que se cumple con un criterio de paro. . . . . . . . . . . . . . . . . . . . . . 96
vii
5.9. Resultados de las estrategias GOP. En la parte superior de cada barra se muestra la
medida de desempeño correspondiente. Los mejores resultados se indican en negritas. 123
5.10. Resultados de las estrategias MOP. En la parte superior de cada barra se muestra la
medida de desempeño correspondiente. Los mejores resultados se indican en negritas. 125
5.11. Resultados de los métodos comparativos. El área sombreada de cada sección
del círculo unitario indica el porcentaje obtenido de la medida de desempeño
correspondiente y sus respectivos valores se muestran en el apartado superior de
cada cuadro como (ACC,RR,HDC,E). . . . . . . . . . . . . . . . . . . . . . . . . 128
5.12. Resultados de los métodos comparativos en cinco conjuntos de datos sintéticos.
Las medidas de desempeño se muestran en la parte superior de cada cuadro como
(ACC,RR,HDC,E). En la parte inferior se muestra el promedio de las medidas de
desempeño de cada método comparativo. . . . . . . . . . . . . . . . . . . . . . . . 133
5.13. Resultados de la evaluación de Tipo 1 y Tipo 2 utilizando seis clasicadores distintos
que fueron entrenados con los subconjuntos obtenidos por los métodos comparativos.
En la parte superior de cada diagrama de caja se muestra la media de la distribución.
En el apartado superior de cada cuadro comparativo, sobre cada par de diagramas
de caja, se muestra el valor-p de la prueba de la suma de rangos de Wilcoxon. En
negritas, p < 0.05 y los mejores valores de ambos tipos de evaluación obtenidos por
cada método comparativo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
5.14. Conteo de no rechazos de la hipótesis nula en la prueba estadística de McNemar para
los conjuntos de datos reales (R) y sintéticos (S ). En la parte superior se muestra el
conteo total obtenido por cada método comparativo. En la esquina superior derecha
de cada sección se muestra el conteo total por clasicador. . . . . . . . . . . . . . . 138
5.15. Parte superior. a) Resultados de una ejecución de las estrategias EMOIS-LT y LT50 SIL .
b) Soluciones evaluadas en T̄ obtenidas por 10 experimentos independientes. c)
Resultados de una ejecución de las estrategias EMOIS-F y F50 SIL . d) Soluciones
evaluadas en F obtenidas por 10 experimentos independientes. Parte inferior. De
izquierda a derecha: subconjuntos obtenidos por las soluciones mostradas en a) y
c) correspondientes a EMOIS-LT , LT50 SIL , EMOIS-F y F SIL , respectivamente. En la
50
parte superior de cada cuadro se muestra el resultado de las medidas de desempeño
como (ACC,RR,HDC,E). En la parte inferior de cada cuadro se muestra el promedio
de las medidas de desempeño obtenidas por 10 experimentos independientes. . . . . 142
5.16. Marco de evaluación de desempeño del tercer esquema de experimentación. . . . . . 145
5.17. Resultados de las variantes del método propuesto. En la parte superior de cada barra se
muestra la medida de desempeño correspondiente. Los mejores resultados se indican
en negritas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.18. Resultados de los métodos comparativos. El área sombreada de cada sección
del círculo unitario indica el porcentaje obtenido de la medida de desempeño
correspondiente y sus respectivos valores se muestran en el apartado superior de
cada cuadro como (ACC,RR,HDC,E). . . . . . . . . . . . . . . . . . . . . . . . . 149
5.19. Resultados de los métodos comparativos. En la parte superior de cada barra se muestra
la medida de desempeño correspondiente. Los mejores resultados se indican en negritas.153
viii
5.20. Resultados de exactitud de clasicación de los modelos entrenados por el conjunto de
datos original X y el subconjunto de datos X̂ seleccionado por µLT50 SIL . En la parte
superior de los diagramas de caja se muestra el valor de la mediana. En la sección
superior de cada par de diagramas de caja se muestra el valor-p de la prueba de
Wilcoxon. Los mejores resultados se indican en negritas. . . . . . . . . . . . . . . . 154
ix
Índice de Tablas
xi
5.12. Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para E, y la matriz triangular inferior los valores-p para HDC. En negritas,
p < 0.05. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.13. Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para ACC, y la matriz triangular inferior los valores-p para RR. En negritas,
p < 0.05. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.14. Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para E, y la matriz triangular inferior los valores-p para HDC. En negritas,
p < 0.05. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.15. Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el
valor-p de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan:
(+) estadísticamente superior, (=) estadísticamente igual, y (−) estadísticamente
SIL . . . . . . . . . . . . . . . . . . . . . . . . . 129
inferior con respecto al método LT50
5.16. Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el
valor-p de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan:
(+) estadísticamente superior, (=) estadísticamente igual, y (−) estadísticamente
SIL . . . . . . . . . . . . . . . . . . . . . . . . . . 130
inferior con respecto al método F50
5.17. Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el
valor-p de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan:
(+) estadísticamente superior, (=) estadísticamente igual, y (−) estadísticamente
inferior con respecto a EMOIS-LT . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
5.18. Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el
valor-p de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan:
(+) estadísticamente superior, (=) estadísticamente igual, y (−) estadísticamente
inferior con respecto a EMOIS-F . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.19. Características de los conjuntos de datos utilizados en el tercer esquema experimental.
N es el número de instancias, y C es el número de clases. . . . . . . . . . . . . . . 144
5.20. Parámetros de los EAs empleados por EMOIS-LT y los métodos wrapper. . . . . . . 145
5.21. Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para ACC, y la matriz triangular inferior los valores-p para RR. . . . . . . 147
5.22. Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para E, y la matriz triangular inferior los valores-p para HDC. . . . . . . . 148
5.23. Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el
valor-p de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan:
(+) estadísticamente superior, (=) estadísticamente igual, y (−) estadísticamente
inferior con respecto a EMOIS-LT . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.24. Características de los conjuntos de datos utilizados. N es el número de instancias, D
es la dimensionalidad, y C es el número de clases. . . . . . . . . . . . . . . . . . . 150
5.25. Parámetros del algoritmo µGA y del esquema D&Q empleado por las estrategias IS. 151
xii
5.26. Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el
valor-p de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan:
(+) estadísticamente superior, (=) estadísticamente igual, y (−) estadísticamente
SIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
inferior con respecto a µLT50
xiii
Índice de Algoritmos
xv
Resumen
Hoy en día, los datos pueden generarse muy fácilmente, de tal forma que las empresas producen
rápidamente grandes cantidades de datos. Sin embargo, el uso de un gran volumen de datos suele
ser un obstáculo para los algoritmos de aprendizaje supervisado, ya que la complejidad en tiempo de
estos métodos depende del número de operaciones que deben realizarse sobre las instancias, por lo
que el tiempo de entrenamiento se incrementa considerablemente. La selección de instancias (IS, por
sus siglas en inglés) es un método de ecacia probada para reducir el conjunto de entrenamiento, ya
que elige patrones representativos del conjunto de datos original. Estos métodos se dividen en wrapper
y lter. El primero utiliza un criterio de selección basado en el rendimiento de un clasicador, mientras
que el segundo se centra en preservar la información estadística. Por otra parte, aunque en la literatura
se han propuesto varias técnicas de IS basadas en algoritmos evolutivos (EAs, por sus siglas en inglés),
los subconjuntos obtenidos por los EAs de tipo wrapper se ajustan a las características del clasicador,
disminuyendo su rendimiento en el entrenamiento de otros algoritmos de aprendizaje supervisado.
Además, estos métodos emplean una representación binaria que codica explícitamente los patrones
de entrenamiento. Por consiguiente, el espacio de búsqueda crece exponencialmente en función del
número de instancias. Debido a ello, esta investigación propone estrategias IS de tipo lter basadas
en EAs que maximizan la preservación de la función de densidad de probabilidad (PDF, por sus siglas
en inglés) y la tasa de reducción de instancias mediante optimización global y multi-objetivo. Además,
xvii
este trabajo también propone una nueva representación de las soluciones de EAs basada en árboles
de enlace, la cual puede reducir considerablemente el tamaño del espacio de búsqueda. Asimismo,
se denen cuatro índices de rendimiento y dos tipos de evaluaciones de la exactitud de clasicación
para medir la calidad de los subconjuntos seleccionados y su re-utilización en diferentes clasicadores.
Por último, las estrategias propuestas se compararon con un algoritmo de tipo wrapper basado en
EAs y cuatro técnicas clásicas de IS. Los resultados indican que los subconjuntos seleccionados por
los métodos propuestos pueden ser utilizados en la etapa de entrenamiento de diferentes tipos de
clasicadores sin disminuir la capacidad de generalización de los modelos obtenidos. Además, las
instancias seleccionadas alcanzan altas tasas de reducción y preservación de la PDF, además de
resultados competitivos en términos de la exactitud de clasicación.
xviii
Abstract
Nowadays, data can be generated so easily that companies quickly produce massive data.
Unfortunately, using raw data usually overwhelms supervised learning algorithms as the time
complexity of these methods depends on the number of operations that must be done over the
instances; thus, the training time increases considerably. Instance selection (IS) is a proven approach
to reduce the training set as it chooses representative patterns from the original dataset. These
methods are divided into wrapper and lter. The former uses a selection criterion based on the
performance of a classier, while the latter focus on preserving statistical information. Although
several IS techniques based on evolutionary algorithms (EAs) have been proposed in the literature,
the subsets obtained by the wrapper EAs adjust to the characteristics of the classier, decreasing their
performance in training other supervised learning algorithms. Furthermore, these methods employ a
binary representation that explicitly encodes the training patterns. Consequently, the search space
grows exponentially depending on the number of instances. Therefore, this research proposes IS lter
strategies based on EAs that maximize the preservation of the probability density function (PDF) and
the reduction rate through global and multi-objective optimization. In addition, this work proposes a
new representation of EAs solutions based on linkage trees, which can considerably reduce the search
space size. Also, four performance indices and two types of classication accuracy' evaluations are
dened to measure the quality of the selected subsets and their reuse in dierent classiers. Finally,
xix
the proposed strategies were compared with a wrapper algorithm based on EAs and four classic IS
techniques. The results indicate that the subsets selected by the proposed methods can be used in
the training stage of dierent types of classiers without diminishing the generalization capacity of
the models obtained. In addition, the selected instances achieve high PDF reduction and preservation
rates and competitive results in classication accuracy.
xx
Nomenclatura
ACC Accuracy
CART Classication and Regression Tree
CBE Codicación Binaria Explícita
CLC Complete Linkage Clustering
CNN Condensed Nearest Neighbor
DPI Direct Plug-in Rule
DROP3 Decremental Reduction Optimization 3
E Eciency
EA Evolutionary Algorithm
ENN Edited Nearest Neighbor
GA Genetic Algorithm
GOP Global Optimization Problem
HDC Hellinger Distance Complement
ICF Iterative Case Filtering
IS Instance Selection
KDE Kernel Density Estimation
k NN k -Nearest Neighbors
LDA Linear Discriminant Analysis
MLP Multilayer Perceptron
MOP Multiobjective Optimization Problem
NB Naive Bayes Classier
NSGA-II Non-dominated Sorting Genetic Algorithm II
PDF Probability Density Function
PR Preservation Rate
QDA Quadractic Discriminant Analysis
RBFN Radial Basis Function Network
RF Random Forests
RR Reduction Rate
SIL Silverman's Rule
SVM Support Vector Machine
µGA Micro Genetic Algorithm
1
Introducción
El presente capítulo se organiza de la siguiente manera. La primera parte expone los antecedentes
desarrollo del proyecto de tesis. Después, se dene formalmente el planteamiento del problema,
1.1 Antecedentes
propiciado una generación masiva de datos en diferentes formatos y estructuras. Debido a esto,
1
2 1.1. Antecedentes
y en el proceso de toma de decisiones [2, 12]. Un ejemplo son los dispositivos móviles que proveen
información del usuario para realizar recomendaciones de servicios [71]. Otro ejemplo son los sistemas
de eSalud que apoyan a los médicos en el diagnóstico de enfermedades [70]. Por otro lado, en el
campo de la astrofísica se utilizan modelos de clasicación para identicar objetos galácticos y extra-
Cada patrón o instancia de entrenamiento se asocia con un elemento del vector de etiquetas de
que debe realizar utilizando las instancias y las variables predictoras (también denominadas atributos
(SVM, por sus siglas en inglés), se requiere resolver un problema de optimización que se puede
plantear desde un enfoque primal o dual. En el caso primal se computa e invierte la matriz XT X + λI
cuya operación tiene una complejidad computacional de O(N D2 +D3 ). Por otro lado, en el caso dual,
se trabaja con la matriz XXT + λI la cual requiere O(DN 2 + N 3 ) operaciones para ser computada
a los cálculos que se realizan sobre las instancias, un desafío adicional se presenta en la etapa de
sintonización de los hiperparámetros del clasicador, en donde estos valores deben ajustarse para
que el modelo obtenido logre un desempeño adecuado. Este proceso consiste en evaluar diferentes
tanto, el tiempo de entrenamiento aumenta considerablemente. Por ejemplo, en una red neuronal
articial (ANN, por sus siglas en inglés) se requiere determinar el número de capas ocultas, la cantidad
de neuronas de cada capa, los valores de los pesos de la red y el tipo de función de activación utilizada
en las neuronas de las capas ocultas. Para un árbol de decisión (DT, por sus siglas en inglés), es
necesario ajustar el número total de nodos y de hojas, así como la profundidad del árbol, el número
de atributos utilizados y la cantidad mínima de patrones en cada nodo. Por otro lado, en una SVM
se debe sintonizar la penalización del margen y las variables relacionadas al kernel no lineal (i.e., el
estrategias de selección de instancias (IS, por sus siglas en inglés). Estas técnicas seleccionan un
subconjunto representativo (denotado como X̂) a partir del conjunto de patrones original (denotado
4 1.1. Antecedentes
como X). Los métodos IS se dividen en wrapper y lter, ambos se enfocan en minimizar el número de
instancias seleccionadas (reducir la cardinalidad de X̂). Sin embargo, los algoritmos wrapper emplean
como conjunto de entrenamiento. Por otra parte, los métodos lter buscan preservar la información
estadística de los datos como guía para realizar el proceso de selección [77].
en condensación, edición e híbridos. Estas técnicas emplean el algoritmo de los k vecinos más cercanos
(k NN, por sus siglas en inglés) para remover patrones de acuerdo con diferentes criterios. Los métodos
de condensación eliminan instancias rodeadas de patrones de la misma clase [54]. En cambio, los
algoritmos de edición se basan en remover puntos rodeados de muestras de diferentes clases [102].
Por otro lado, los enfoques híbridos consisten en una combinación de los dos criterios anteriores [103].
Estas técnicas requieren procesar todas las muestras del conjunto original de manera iterativa. Por
por esta razón se han utilizado junto a una etapa previa de muestreo estraticado [45].
Desde el punto de vista de optimización, la tarea de encontrar el subconjunto óptimo X̂∗ a partir
n = 1, . . . , N −1 que se pueden formar, por lo que el espacio de búsqueda crece de forma exponencial.
Debido a esto, se han utilizado metaheurísticas para abordar el problema IS, ya que ofrecen soluciones
algoritmos evolutivos (EAs, por sus siglas en inglés), los cuales incluyen enfoques de optimización
global [13, 77] y multiobjetivo [21, 87]. En la mayoría de estos trabajos se emplea la exactitud
de clasicación (ACC, por sus siglas en inglés) y la tasa de reducción de instancias (RR, por
sus siglas en inglés) como criterios principales para guiar el proceso de búsqueda. Con respecto
1. Introducción 5
a los métodos de optimización global, generalmente se establece una función objetivo ponderada
que realiza una combinación lineal de los dos criterios mencionados. Por otra parte, los enfoques
multiobjetivo utilizan estos criterios como elementos de una función vectorial para ser optimizados
reportados en la literatura emplean una codicación binaria explícita (CBE), en donde los elementos
formar parte de X̂; en caso contrario, la muestra no se selecciona [34, 83, 106].
1.2 Motivación
Reeves y Bush señalan en [85] que el conjunto de entrenamiento debería ser un reejo el de
la distribución de probabilidad real del espacio de las variables de entrada. Incluso, cuando X no
contenga en su totalidad a la distribución subyacente del espacio de entrada, si se cuenta con miles o
millones de instancias se puede tener una buena aproximación de la misma. Considerando lo anterior,
Por otro lado, los métodos EAs utilizan una estrategia para representar el problema que se
requiere optimizar. Lo anterior permite codicar a los individuos de la población mediante vectores
que forman parte de un espacio de soluciones factible. En este sentido, la mayoría de los algoritmos
conforme aumenta el número de instancias de X, mayor es la longitud del vector q; por lo tanto, el
6 1.2. Motivación
tamaño del espacio de búsqueda crece exponencialmente en función de N . Por ejemplo, al considerar
un conjunto de datos con 100 instancias, el tamaño del espacio de búsqueda del problema IS
codicado mediante el esquema CBE es 2100 − 1 = 1.2 × 1030 . En consecuencia, este enfoque
es ineciente, debido a que genera un espacio de soluciones extremadamente grande para problemas
con relativamente pocas instancias. Lo anterior representa un área de oportunidad, ya que permite
explorar nuevos tipos de representaciones (enteras, reales o mixtas) que se caractericen por ser
escalables a la cantidad de instancias de X y permitan una reducción considerable del tamaño del
En cuanto a las estrategias IS de tipo wrapper basadas en EAs, en pocos trabajos de la literatura
se reporta el uso de los subconjuntos obtenidos por estos métodos para entrenar otros clasicadores
lter. Dos de estos métodos están basados en optimización global, mientras que los otros dos utilizan
de datos seleccionado. En dos de los métodos propuestos se utiliza la codicación CBE, mientras que
los otros dos utilizan una nueva representación propuesta por primera vez en este trabajo de tesis, la
cual está basada en estructuras de agrupamiento jerárquico conocidas como árboles de enlace. Esta
nueva representación permite reducir el tamaño del espacio de búsqueda en relación con el número
algoritmo k NN y siete EAs de tipo wrapper. La calidad de los subconjuntos obtenidos por estos
rendimiento de las instancias seleccionadas para entrenar diferentes tipos de clasicadores sin
En la literatura se han propuesto algoritmos de optimización global (GOP, por sus siglas en inglés)
y optimización multiobjetivo (MOP, por sus siglas en inglés) para tratar con el problema IS [59, 106].
El enfoque GOP encuentra la mejor solución global sobre un conjunto de soluciones factibles [30],
mientras que los métodos MOP proporcionan un conjunto de soluciones no dominadas, en el que
ninguna función objetivo puede mejorar sin un detrimento simultáneo de otra [22].
instancias y pueda ser utilizado para entrenar un clasicador que obtenga un desempeño similar a un
modelo entrenado con el conjunto original X. Sin embargo, estos dos objetivos están en conicto
entre sí, ya que remover instancias puede provocar que el clasicador entrenado con X̂ no modele
un pobre desempeño de clasicación al ser evaluado sobre un conjunto de datos de prueba. Por
las soluciones obtenidas, las cuales muestran una relación de compromiso entre ambos objetivos. De
esta manera, se puede emplear a una persona especialista o aplicar un método automático para elegir
las soluciones que satisfagan de mejor forma los requerimientos del problema [75].
La mayoría de los algoritmos GOP y MOP propuestos en la literatura emplean enfoques de tipo
wrapper para maximizar el desempeño de un clasicador [21, 34, 82, 87]. No obstante, los patrones
elegidos por estos métodos están sesgados para ajustarse a los requerimientos del algoritmo de
aprendizaje supervisado que guía el proceso de búsqueda. Debido al sesgo introducido por los métodos
wrapper, en este trabajo se sostiene que el proceso de selección de instancias debe realizarse una
sola vez, de tal manera que el subconjunto de datos resultante pueda ser aprovechado para entrenar
mediante algoritmos GOP y MOP que utilizan la codicación CBE y la nueva representación basada
en árboles de enlace.
Por lo tanto, en este trabajo se diseñan dos técnicas GOP para minimizar una función objetivo
algoritmo MOP. Estos métodos obtienen un conjunto de soluciones no dominadas que muestran
de probabilidad de los datos. Formalmente, la tarea IS descrita como un problema MOP basada en
donde f (·) es una función vectorial, mientras f1 , f2 , λ, y Λ representan lo mismo que en (1.1).
1. Introducción 9
¾Qué medida de similitud entre dos funciones de densidad de probabilidad se puede utilizar
¾Es posible reducir considerablemente el tamaño del espacio de búsqueda del problema IS
utilizando EAs con respecto a las soluciones obtenidas por los métodos que emplean la
representación CBE?
¾Los clasicadores entrenados con los subconjuntos obtenidos por las estrategias lter
propuestas presentan una mejor capacidad de generalización que los modelos entrenados con
1.5 Hipótesis
original y un subconjunto de datos seleccionado, permite obtener instancias que se pueden utilizar
los modelos entrenados con los subconjuntos seleccionados por los métodos wrapper.
10 1.6. Objetivos
1.6 Objetivos
Especícos:
Denir un método para evaluar la similitud entre las funciones de densidad de probabilidad del
Diseñar una representación del problema IS basada en árboles de enlace para reducir el tamaño
Elegir los algoritmos de optimización global y multiobjetivo para diseñar cuatro estrategias
Establecer un marco experimental para evaluar la calidad de los subconjuntos obtenidos por
continuación.
1. Revisión del estado del arte e investigación de los conceptos del marco teórico.
objetivo ponderada que realice una combinación lineal de los dos criterios mencionados.
Denir dos funciones objetivo que consideren la optimización de los criterios mencionados
objetivo ponderada que realice una combinación lineal de los dos criterios mencionados.
marco teórico donde se detallan los diferentes conceptos y algoritmos utilizados en este trabajo
análisis comparativo del desempeño de los métodos propuestos. Finalmente, el Capítulo 6 presenta
las conclusiones y el trabajo futuro que se debe considerar para superar las limitaciones de los
algoritmos propuestos.
2
Marco teórico
En este capítulo se describen los conceptos utilizados para denir formalmente a las estrategias
aprendizaje supervisado, las técnicas clásicas más utilizadas en la literatura para nes comparativos y
los tópicos relacionados a los métodos que utilizan EAs. Por otro lado, los algoritmos de optimización
sección, respectivamente. En la cuarta parte del capítulo se describe la técnica usada para estimar
las funciones de densidad de probabilidad. La quinta sección detalla la medida de distancia estadística
que se emplea para comparar dos funciones de densidad de probabilidad. Posteriormente, en la sexta
árbol binario conocida como árbol de enlace, la cual relaciona a las muestras de un conjunto de datos
con base en una medida de distancia. Finalmente, en la última sección se exponen dos familias de
13
14 2.1. Selección de instancias
de entrenamiento para denir las fronteras de decisión que predicen las etiquetas de clase de
el tiempo de cómputo del aprendizaje del modelo. Por lo tanto, se pueden remover este tipo de
muestras para reducir la cardinalidad del conjunto de datos y el tiempo de entrenamiento sin afectar
del proceso IS es obtener un subconjunto de patrones X̂ a partir del conjunto de datos original X,
de tal manera que X̂ preserve instancias representativas y elimine datos redundantes. La Figura 2.1
Por otro lado, cuando el algoritmo IS emplea un criterio de selección que se enfoca en maximizar el
información estadística subyacente de los datos se trata de un método de tipo lter [45].
Debido al reciente incremento en la aplicación de algoritmos evolutivos (EAs, por sus siglas en
inglés), para resolver la tarea IS, en la literatura especializada se describe una taxonomía que divide
a los algoritmos propuestos en técnicas clásicas, generalmente basados en la regla de los k vecinos
más cercanos (k NN, por sus siglas en inglés), y enfoques basados en EAs, como los algoritmos
cuatro técnicas clásicas comúnmente utilizadas en la literatura y un algoritmo de tipo wrapper basado
en EAs que emplea diferentes clasicadores para guiar el proceso de búsqueda. Por ello, a continuación
se describen algunos conceptos importantes de las técnicas clásicas y los métodos utilizados para
nes comparativos.
2. Marco teórico 15
Las técnicas clásicas de IS generalmente utilizan la regla k NN para conservar o remover instancias
La mayoría de los métodos clásicos tienen una complejidad computacional O(N 2 ), por lo que
realizan varias iteraciones sobre el conjunto de datos original y remueven patrones de acuerdo con
En las siguientes secciones se describen cuatro algoritmos clásicos que han sido utilizados
ampliamente para comparar la efectividad de nuevas propuestas de técnicas de IS [13, 15, 16, 17,
La regla del vecino más cercano condensado (CNN, por sus siglas en inglés) emplea un método de
instancias cercanas a las fronteras de decisión al descartar patrones cuyo vecino más próximo
16 2.1. Selección de instancias
pertenece a la misma clase. El método es dependiente del orden inicial de las muestras, por lo que se
pueden obtener diferentes subconjuntos en función de la disposición de las las en el conjunto original
muestras de X utilizando la regla del vecino más cercano (1NN, por sus siglas en inglés).
El primer paso del algoritmo consiste en seleccionar a la primera instancia, después todas las
muestras restantes se clasican con la regla 1NN empleando al subconjunto seleccionado actual X̂
como conjunto de entrenamiento. Así, todos los patrones clasicados de forma incorrecta se incluyen
en X̂. El proceso anterior se repite hasta que ya no existan muestras clasicadas erróneamente.
De esta manera, los métodos basados en el concepto de condensación suelen introducir instancias
ruidosas, ya que la mayoría de las muestras seleccionadas están rodeadas de patrones de diferentes
clases. Por ello, es posible que exista una mayor proporción de ruido en X̂ que en X, afectando así el
La regla del vecino más cercano editado (ENN, por sus siglas en inglés) utiliza una estrategia
eliminar patrones que introducen ruido debido a que se encuentran cerca de las fronteras de decisión
y sus vecinos más cercanos pertenecen a diferentes clases. Por lo tanto, este algoritmo comienza
seleccionando a todas las instancias de X para posteriormente remover a las muestras que son
incorrectamente clasicadas por sus k vecinos más cercanos. Por ello, el único parámetro de entrada
es el número k de vecinos a evaluar (en esta investigación se utiliza k = 3). Una desventaja notable
de este método es que logra un bajo porcentaje de reducción de instancias. El pseudocódigo del
Wilson y Martínez [103] proponen una familia de cinco algoritmos híbridos que combinan algunos
conceptos utilizados por técnicas basadas en enfoques de condensación y edición. Estos métodos son
conocidos como procedimientos de optimización de reducción decremental (DROP, por sus siglas
los conceptos de instancias asociadas y vecinos más cercanos. En este contexto, una instancia xi
18 2.1. Selección de instancias
es asociada a un determinado patrón xj , cuando este último es uno de sus vecinos más cercanos.
Además, el conjunto de vecinos más cercanos de una instancia se denomina vecindario. Por lo tanto,
el conjunto de asociados de cada instancia es una lista con todas las muestras que tienen a dicho
patrón en su vecindario. La Figura 2.2 presenta un ejemplo de datos bidimensionales con dos clases,
donde los tres vecinos más cercanos de xi son {x1 , x2 , x3 }. Esto signica que xi es una instancia
asociada a x1 , x2 y x3 .
cual comienza con la aplicación de la técnica ENN como un ltro de instancias ruidosas, después las
muestras se ordenan con respecto a su enemigo más cercano (es decir, el patrón más próximo de
una clase diferente). Posteriormente, las listas de asociados y de vecinos más cercanos se calculan
para cada instancia. En el ciclo principal se utiliza la regla k NN para clasicar a todos los patrones
del conjunto ltrado (en esta investigación se utiliza k = 3). En el caso del i-ésimo patrón de
con xi , mientras que β es la cantidad de instancias asociadas que se clasican correctamente sin
considerar a xi . Lo anterior se utiliza para denir el criterio de eliminación, el cual dicta que si β ≥ α
entonces xi se elimina de X̂. De este modo, cuando una instancia es eliminada, todos sus patrones
asociados deben actualizar su lista de vecinos más cercanos. En el pseudocódigo del Algoritmo 3 se
Figura 2.2: Relación entre los conjuntos de asociados y vecinos más cercanos de una instancia xi .
Se muestra un conjunto de datos con dos clases diferentes, donde los tres vecinos más cercanos de
xi son {x1 , x2 , x3 }. Por lo tanto, xi forma parte de la lista de asociados de x1 , x2 y x3 .
2. Marco teórico 19
El ltrado de casos iterativos (ICF, por sus siglas en inglés) es un método híbrido que tiene
una complejidad computacional O(N 2 ) y una estrategia de selección por lotes [11]. Este algoritmo
introduce los conceptos de cobertura y alcance. El primero consiste en el vecindario de una instancia
que se forma con todas las muestras más cercanas al enemigo más próximo, incluyendo la misma
muestra. Por otro lado, el alcance de una instancia representa el conjunto de todos los patrones
para los que dicha muestra forma parte de su conjunto de cobertura. El criterio de selección de una
De esta manera, si el conjunto de alcance contiene más patrones que el de cobertura, entonces la
20 2.1. Selección de instancias
En el primer paso, el algoritmo elimina instancias ruidosas aplicando el método ENN. Después,
dentro del ciclo principal se obtienen los conjuntos de cobertura y alcance para cada instancia
respectivo conjunto de cobertura son marcadas para ser eliminadas. Este proceso continúa hasta que
ya no se elimine ninguna instancia. En el pseudocódigo del Algoritmo 4 se describen los pasos del
método ICF.
Figura 2.3: Conjunto de cobertura con dos clases representadas en blanco y negro. Debido a que
el enemigo más cercano de xi es x2 , el conjunto de cobertura de xi es {xi , x1 }.
En la Figura 2.4 se muestra una comparación de las cuatro técnicas clásicas de IS descritas
anteriormente.
Figura 2.4: Resultados de las técnicas clásicas de IS aplicadas a un conjunto de datos sintético X
de tres clases Ω = {ω1 , ω2 , ω3 }. En este ejemplo, los métodos ENN, DROP3 e ICF utilizan k = 3.
2. Marco teórico 21
cada clase, por lo que no realizan una búsqueda global para considerar la información contenida en la
distribución de todos los patrones. Por otra parte, los algoritmos basados en EAs pueden realizar una
búsqueda global en el espacio de características considerando todo el conjunto de datos sin asumir
ningún tipo de distribución de las clases. A continuación se detallan las características principales de
Una estrategia IS que utiliza optimización basada en EAs requiere una codicación de soluciones
candidatas para representar diferentes subconjuntos de instancias. El enfoque más empleado en los
trabajos publicados consiste en una codicación binaria explícita (CBE). Esta representación utiliza
instancias del conjunto de datos original X. De esta manera, si qi = 1, entonces la i-ésima instancia
Figura 2.5: Representación CBE para los métodos IS basados en EAs. A partir de un conjunto
original X con N = 12, se codica un vector binario q ∈ {0, 1}12 . Las instancias que coinciden con
un valor igual a `1' son seleccionadas, en caso contrario no se seleccionan.
2. Marco teórico 23
El primer criterio de optimización de los métodos IS basados en EAs de tipo wrapper minimiza
|X̂|
RR =1− (2.1)
|X|
supervisado, lo cual se mide en términos de la exactitud de clasicación (ACC, por sus siglas en
N
1 X
ACC = I(yi , ŷi ) (2.2)
N i=1
donde ACC ∈ [0, 1]. Si ACC → 1, el modelo de clasicación predice correctamente el valor de un
alto porcentaje de etiquetas de clase, en cambio si ACC → 0, signica lo opuesto. Además, I(yi , ŷi )
1 si
yi = ŷi
I(yi , ŷi ) = (2.3)
0 otro caso
datos X, mientras que ŷi es su correspondiente valor predicho por el modelo de clasicación.
24 2.1. Selección de instancias
Las estrategias IS basados en EAs emplean generalmente dos criterios de optimización, el primero
Por lo anterior, si el método propuesto es de tipo lter, entonces se considera una función diseñada
para cuanticar algún tipo de información estadística. En cambio, si se trata de un algoritmo de tipo
En los trabajos publicados que proponen métodos de optimización global se suelen emplear
funciones de escalarización para modelar la tarea IS como un problema mono-objetivo. Para ello se
utiliza el método de la suma ponderada (WS, por sus siglas en inglés), el cual realiza una combinación
lineal de varios criterios de optimización ponderados en una sola función objetivo y no requiere de
un proceso de toma de decisiones cuando los pesos son seleccionados adecuadamente [30].
Debido a lo anterior, para un algoritmo de IS que utiliza dos criterios de optimización, la función
factibles. Por otra parte, f1 y f2 representan a dos criterios de optimización. Además, w ∈ (0, 1) es
En los trabajos reportados en la literatura es común utilizar por defecto w = 0.5, por lo que
Un algoritmo IS de tipo wrapper basado en EAs mide la aptitud de cada individuo de la población
en términos de ACC y RR. De esta manera, para evaluar el criterio ACC se decodica una solución
y se obtiene el subconjunto seleccionado X̂, con el cual se entrena un clasicador que se evalúa
Por otro lado, las estrategias IS de tipo lter basadas en EAs evalúan la aptitud de cada individuo
La optimización es el proceso de búsqueda de una o más soluciones que minimizan, sin pérdida
de generalidad, uno o más objetivos. Un problema general de optimización global (GOP, por sus
siglas en inglés), se dene como la búsqueda de un vector λ ∈ Rd que minimiza una función f (λ)
sujeta a m restricciones de desigualdad y p restricciones de igualdad, las cuales están denidias por
resolver el problema IS desde una perspectiva mono-objetivo [34, 97, 106]. Por lo tanto, en este
trabajo se utiliza dicha metaheurística para proponer estrategias de IS de tipo lter que maximicen
El algoritmo genético (GA, pos sus siglas en inglés), es una metaheurística que emplea una
población de individuos para resolver problemas de optimización global. Este método se inspira en
la teoría neo-darwiniana de la evolución, la cual establece que los seres vivos mejor adaptados a su
Aunque esta técnica ha demostrado ser eciente en la resolución de una amplia variedad de
tareas, sólo se puede utilizar en problemas de optimización que tengan un espacio de búsqueda nito
y cuenten con una representación matemática para medir la calidad de las soluciones en términos de
cada solución se representa por un vector denominado cromosoma, el cual se compone de valores
2. Marco teórico 27
enteros conocidos como genes. El GA también se puede utilizar en problemas continuos; sin embargo,
se deben codicar los elementos del dominio real en el cromosoma. Por ello, en el caso de una
representación binaria, se dene el número de bits requeridos para codicar las dimensiones del
Selección: Modela la superviviencia de los seres vivos que se adaptan mejor a su medio
ambiente. Este operador permite la preservación de individuos con bajo desempeño, aunque
esto sucede con menos frecuencia debido a un criterio basado en un valor de probabilidad. Se
utiliza un mecanismo que mantiene la diversidad de las soluciones para evitar la convergencia
prematura al promover una mejor exploración del espacio de búsqueda. En esta investigación
se utiliza la estrategia del torneo binario, que elige de forma aleatoria a dos individuos de
estrategia disminuye la presión de selección, ya que algunas soluciones con un pobre desempeño
Cruza: Representa la reproducción sexual de los seres vivos en la naturaleza y sirve para
preservar la información genética de los individuos mejor adaptados a su ambiente. Con este
operador se intercambian los genes de los padres seleccionados para producir a los individuos
que indica con qué frecuencia se efectúa, y normalmente se dene en el rango pc ∈ [0.5, 1].
El método empleado en esta investigación consiste en seleccionar dos puntos de cruza para
intercambiar los genes que se encuentran entre ellos. Se debe evitar que ninguno de los puntos
coincida con los extremos del cromosoma para así generar tres segmentos que permitan realizar
la operación adecuadamente. La Figura 2.7 muestra un ejemplo de una cruza de dos puntos.
28 2.2. Optimización global
Figura 2.7: Cruza de dos puntos entre dos individuos de una población en un GA.
de la longitud del individuo. La Figura 2.8 presenta un ejemplo de este tipo de mutación.
Figura 2.8: Ejemplo de mutación de tipo Bit-Flip en un cromosoma binario con pm = 121 .
Después de la aplicación de los operadores descritos, se utiliza una estrategia de elitismo simple
que consiste en preservar sin cambios a la mejor solución de cada generación. Así, el individuo más
apto se sustituye únicamente por una nueva solución que tenga un mejor desempeño en la función
objetivo. De esta manera, se asegura que la calidad de las soluciones se mantenga o incremente.
Para detener la ejecución del algoritmo, comúnmente se utilizan dos enfoques: el primero consiste
convergencia, la cual se alcanza cuando todos los individuos de la población tienen el mismo valor
de desempeño. El pseudocódigo del Algoritmo 5 presenta una versión estándar del GA.
La optimización multiobjetivo (MOP, por sus siglas en inglés), consiste en la solución de problemas
que involucran k funciones objetivo simultáneamente. Por ello, un problema MOP se dene como
la minimización, sin pérdida de generalidad, de una función vectorial f (λ) = [f1 (λ), . . . , fk (λ)]T
con λ ∈ Rd , sujeta a gi (λ) ≤ 0 con i = {1, . . . , m} y hj (λ) = 0 con j = {1, . . . , p}, tal
En los problemas MOP se desea obtener un conjunto de soluciones de compromiso que satisfagan
simultáneamente a todas las funciones objetivo involucradas. En este contexto las soluciones
que u = f (λ1 ) = [f1 (λ1 ), . . . , fk (λ1 )]T domina a v = f (λ2 ) = [f1 (λ2 ), . . . , fk (λ2 )]T , si y sólo si
Por otra parte, la optimalidad se relaciona con dos elementos en el espacio de las variables de
decisión. Así pues, se dice que una solución λ ∈ Λ es un óptimo de Pareto con respecto a Λ si y
sólo si no existe otra solución λ̄ ∈ Λ para la cual se cumpla que v = f (λ̄) = [f1 (λ̄), . . . , fk (λ̄)]T
domina a u = f (λ) = [f1 (λ), . . . , fk (λ)]T . Por lo tanto, el conjunto óptimo de Pareto se dene
además, sus elementos se conocen como soluciones no dominadas. Estos puntos no pueden mejorar
los criterios de optimización simultáneamente, ya que si una solución tiene un mayor desempeño en
Por otro lado, los puntos que no pertenecen a F se conocen como soluciones dominadas. La
Figura 2.9: Izquierda: Ejemplo de un conjunto óptimo de Pareto P en el espacio de las variables
de decisión. Derecha: Frente de Pareto F correspondiente a P en el espacio objetivo.
El algoritmo NSGA (del inglés Non-dominated Sorting Genetic Algorithm), consiste en una
donde k indica el número de objetivos del problema y NP representa el tamaño de la población. Este
método se enfoca en ordenar las soluciones de acuerdo con un criterio de no dominancia. Además,
de los individuos. Debido a los inconvenientes presentados por este método, los autores propusieron
el algoritmo NSGA-II, el cual es una versión mejorada que incorpora una estrategia de elitismo,
dos estrategias IS multiobjetivo. Por esta razón, a continuación se describe la mecánica del
El método NSGA-II cuenta con un proceso de ordenamiento rápido que requiere O(k(NP )2 )
comparaciones y clasica a los individuos en diferentes niveles de no dominancia. Esto signica que
se crean distintos frentes de Pareto para agrupar a las soluciones de acuerdo con su posición en el
espacio objetivo. De este modo, por cada solución p que pertenece a una población de NP individuos
Debido a lo anterior, cada solución p con np = 0 se asigna al primer frente F1 . Después, para
todos los elementos de F1 , cada solución q ∈ Sp reduce su conteo de dominancia en uno: nq = nq −1.
transferirá sus elementos al segundo frente F2 . El procedimiento anterior continúa por cada miembro
de Q para obtener el tercer frente F3 . Este proceso se repite hasta que todas las NP soluciones en P
hayan sido clasicadas en alguno de los nf frentes encontrados. En el pseudocódigo del Algoritmo 6
Para obtener un conjunto óptimo de Pareto se requiere de un mecanismo que mantenga una
diversidad de individuos a lo largo del proceso de búsqueda. El algoritmo NSGA-II utiliza un método de
selección que emplea un operador conocido como comparador de apiñamiento, el cual no depende de
ningún parámetro de sintonización y está diseñado para guiar al proceso de búsqueda hacia soluciones
óptimas de Pareto que se extiendan de manera uniforme en el espacio objetivo. Este operador se
dene en función del rango de no dominancia (irank ) y de una medida de distancia (idistance ) para
2. Marco teórico 33
una solución pi . El rango de no dominancia de las soluciones de un conjunto P = {p1 , . . . , pNP } que
fueron previamente clasicadas en nf frentes de Pareto, está en función del frente al que pertenece
cada solución, es decir, si pi ∈ Fj , entonces irank = j . Por otro lado, la medida de distancia idistance
Para obtener una aproximación de la densidad local de una solución pi ∈ F , se utiliza una
medida conocida como distancia de apiñamiento (del inglés crowding-distance), la cual se denota
como idistance . Este valor representa el perímetro del cuboide cuyos vértices se forman con los puntos
pi−1 y pi+1 , los cuales son los más cercanos a pi en F con respecto a cada función objetivo, como
se muestra en el ejemplo de la Figura 2.10.
Figura 2.10: Ejemplo del cálculo de distancia de apiñamiento (idistance ) para la solución pi , la cual
representa el perímetro del cuboide cuyos vértices se forman por las soluciones pi−1 y pi+1 .
El cálculo de esta distancia se realiza a través de un ciclo que se repite por cada objetivo de
optimización. Por lo tanto, para la j -ésima función de costo, el procedimiento inicia ordenando de
2. Marco teórico 35
forma ascendente a todas las soluciones de acuerdo con su valor de aptitud. Después, al primer y
último elemento se les asigna un valor de distancia de apiñamiento igual a innito. Posteriormente,
la distancia para cada solución intermedia se calcula con la diferencia normalizada del desempeño
de sus dos soluciones adyacentes. La normalización se lleva a cabo al dividir dicha diferencia entre
el término (fjmax − fjmin ), donde fjmax y fjmin indican la aptitud en la j -ésima función de costo de
las soluciones que tienen el máximo y el mínimo desempeño, respectivamente. Así, el valor total
de la distancia de apiñamiento consiste en la suma de los valores obtenidos para cada objetivo.
Por ello, debido a que se realizan k ordenamientos independientes de al menos NP soluciones, este
Después de obtener una estimación de la densidad local de las soluciones no dominadas, éstas se
y se denota como ≺n . Así, a partir de un par de individuos pi y pj , este operador se dene como:
pi ≺n pj si (irank < jrank ) | ((irank = jrank ) & (idistance > jdistance )) (2.5)
Lo anterior indica que entre dos soluciones con diferentes rangos de no dominancia, se preere a la
solución que domine a la otra (menor rango). Por el contrario, si ambas soluciones pertenecen al
mismo frente (mismo rango de no dominancia), entonces se elige a la solución que se encuentre
en una región menos densa o que tenga menos individuos a su alrededor (mayor distancia de
apiñamiento).
El algoritmo NSGA-II comienza inicializando de forma aleatoria a una población padre P0 con NP
individuos. Después, estas soluciones se ordenan utilizando el Algoritmo 6 para generar nf frentes
siguiente paso se emplean los operadores de selección, cruza y mutación para crear una descendencia
es de tamaño 2NP y se ordena con el Algoritmo 6. De esta manera, las soluciones que pertencen
a F1 son los óptimos de Pareto de la población Rt y deben ser seleccionados en la población Pt+1 .
agregar el i-ésimo frente, entonces las soluciones de Fi se ordenan con el operador ≺n y se eligen a
Finalmente, después de obtener a Pt+1 se utilizan los operadores de selección, cruza y mutación
para generar a su respectiva descendencia Qt+1 . La Figura 2.11 muestra un ejemplo del procedimiento
descrito.
⋮ ⋮
Figura 2.11: Proceso de operaciones ejecutadas en el ciclo principal del algoritmo NSGA-II.
empleado en la etapa de selección y la fase de reducción de la población. Debido a que las soluciones
El Algoritmo 8 muestra los pasos para crear los nuevos conjuntos de padres y descendientes a
Encontrar todos los puntos del frente de Pareto (F ) representa un desafío importante para los
algoritmos MOP. Sin embargo, esta tarea puede ser innecesaria si un tomador de decisiones experto
soluciones de tipo knee (i.e., rodilla) cuando no se tiene una preferencia clara por ningún criterio de
optimización. En este tipo de soluciones, una pequeña mejora en el valor de una función de costo
genera una notable degradación con respecto a uno o más objetivos [109]. Por ello, en un problema de
optimización con dos objetivos, como el que se plantea en este trabajo de investigación, un punto de
rodilla en F señala a la solución con las máximas tasas marginales de rendimiento, es decir, el punto
en el que una pequeña mejora en un objetivo provoca una grave degradación en el otro [68].
Das [26] propuso uno de los primeros métodos empleados para localizar puntos de rodilla. Este
algoritmo se basa en la técnica de intersección del límite normal (NBI, por sus siglas en inglés), la
2. Marco teórico 39
una línea que une a las soluciones de los extremos de F (también conocidas como puntos de borde).
Esta línea se denomina cubierta convexa mínima individual (CHIM, por sus siglas en inglés), y el
punto de interés corresponde a la solución que tiene la distancia máxima de la proyección ortogonal
con respecto a CHIM. La Figura 2.12 muestra un ejemplo de la detección de un punto de rodilla a
Figura 2.12: Izquierda: Detección de un punto rodilla para un problema bi-objetivo. Frente de
Pareto F con una región K que indica una zona de compromiso entre ambos objetivos. Derecha:
Selección automática de una solución no dominada a partir de la distancia máxima de la proyección
ortogonal con respecto a CHIM.
probabilidad
En este trabajo se proponen estrategias IS de tipo lter que buscan preservar la función de
densidad de probabilidad (PDF, por sus siglas en inglés), del conjunto de datos original X en el
40 2.4. Estimación de la función de densidad de probabilidad
se requiere denir un método capaz de estimar automáticamente la PDF de las D variables que son
Una variable aleatoria X toma el resultado de un experimento no determinista, por lo que puede
de X es una función P (X) que relaciona todo posible resultado de un experimento aleatorio con su
respectiva probabilidad de ocurrencia. Por lo tanto, P (X) representa una descripción matemática
valor x ∈ R dentro de un intervalo [a, b], por lo que S ⊂ R, donde cada posible valor de X
tiene una probabilidad de ocurrencia innitesimal que estadísticamente equivale a cero, es decir,
P (X = x) = 0 [43].
La PDF de una variable aleatoria continua X , denotada como fX (x), es no negativa y cumple
con la propiedad S fX (x) = 1. De esta forma, la PDF describe la probabilidad de que la variable
R
aleatoria se encuentre dentro de un rango particular de valores; por lo tanto, la probabilidad de que X
tome un valor dentro del intervalo [a, b] es igual al área bajo la curva de fX (x) denida como:
Z b
P [a ≤ X ≤ b] = fX (x)dx (2.6)
a
2. Marco teórico 41
dP (X)
De lo anterior se sigue que fX (x) = dx
. Además, en una distribución continua se puede
aproximar P (X = α) como:
Z α+ 2δ
δ δ
P [α − < X < α + ] = fX (x)dx (2.7)
2 2 α− 2δ
valor dentro del intervalo [x, x + dx], como se muestra en el ejemplo de la Figura 2.13 para una
Figura 2.13: PDF continua fX (x) = 0.7N (6, 2) + 0.3N (12, 3) en donde fX (x)dx indica la
probabilidad de que X tome cualquier valor dentro del intervalo innitesimal [x, x + dx].
de kernel (KDE, por sus siglas en inglés), también conocida como ventanas de Parzen. KDE es un
método no paramétrico que no requiere información a priori sobre el tipo de distribución original de
los datos y es capaz de estimar distribuciones arbitrarias de una variable aleatoria continua.
42 2.4. Estimación de la función de densidad de probabilidad
tomadas de una distribución cuya función de densidad se denota como p(x), con x ∈ RD ; este
método estima la probabilidad de que un patrón xi se encuentre dentro de una región R que
1κ
p(x) ≡ p̂(x̂) ≈ (2.8)
V n
donde x̂ es el punto central de R, cuya extensión viene dada por V = hD , siendo h un parámetro
Para suavizar la estimación de p̂(x̂) en (2.8) se puede modelar la región R mediante una función
kernel, la cual indica cómo se distribuye la inuencia de cada muestra en el resultado de la estimación.
Por ello, en esta investigación se utiliza el kernel Gaussiano con media cero y varianza unitaria:
1 u2
ϕN (u) = exp(− ) (2.9)
2π (D/2) 2
El método KDE utiliza un conjunto de m puntos x̂1 , . . . , x̂m distribuidos de forma equidistante
sobre el espacio muestral S ⊂ RD , los cuales representan los centros de m funciones Gaussianas. De
n
1X 1 ∥x̂i − xj ∥2
p̂(x̂i ) = ϕN , i = 1, . . . , m (2.10)
n j=1 V h
n
1X
p̂(x̂i ) = δN (x̂i , xj ), i = 1, . . . , m (2.11)
n j=1
La Figura 2.14 muestra un ejemplo de la aplicación del método KDE con kernel Gaussiano en
donde se comparan dos estimaciones de una PDF obtenidas con diferentes valores de m.
El volumen de la región R está en función del ancho de banda h, el cual se considera un factor
de escala positivo (h > 0) que se debe ajustar adecuadamente, ya que tiene una fuerte inuencia
p̂(x̂) estará sobresuavizado debido a la superposición de m funciones Gaussianas muy anchas. Por
el contrario, si h → 0, la amplitud de δN aumentará y el estimado p̂(x̂) será ruidoso debido a la
superposición de m funciones Gaussianas muy angostas. La Figura 2.15 muestra un ejemplo de los
se describen los dos tipos de selectores de anchos de banda utilizados en esta investigación.
44 2.4. Estimación de la función de densidad de probabilidad
Figura 2.14: Estimación de una PDF mediante el método KDE. Superior: Conjunto de n = 100
muestras tomadas de forma aleatoria a partir de la distribución p(x) = 0.7N (6, 2) + 0.3N (12, 3).
Centro: Estimación de p̂1 (x) utilizando m = 10 funciones Gaussianas (se obtiene una pobre
aproximación). Inferior: Estimación de p̂2 (x) con m = 30 funciones Gaussianas (se obtiene una
mejor aproximación). Nota: Las funciones Gaussianas fueron escaladas para ajustarse al rango del
eje vertical con propósitos de visualización.
La regla general de Silverman (SIL) es un tipo de selector de ancho de banda rápido y simple, que
es fácilmente computable. El objetivo es encontrar un valor adecuado de h para una amplia gama
Los selectores de este tipo surgen por la necesidad de obtener estimaciones automáticas y rápidas
para algoritmos que requieren computar una gran cantidad de funciones de densidad. Por ello, estos
Figura 2.15: Estimación de la PDF de una muestra aleatoria de 20 puntos tomados de la distribución
p(x) = 0.7N (6, 2) + 0.3N (12, 3). p̂1 (x̂) se obtiene con h = 2, lo que resulta en una estimación
sobresuavizada debido a que se atenúan formas básicas de la distribución de los datos. Por otra parte,
p̂2 (x̂) se obtiene utilizando h = 0.3, en donde se generan picos no deseados.
La regla SIL se emplea con ventanas de kernel Gaussiano para realizar estimaciones de datos
4σ 5
1
h= ≈ 1.06σn− 5 (2.12)
3n
computar debe ser empleada con precaución, ya que produce estimaciones inexactas cuando la
La regla de plug-in directa (DPI, por sus siglas en inglés), se basa en la idea de conectar las
estimaciones de las cantidades desconocidas que aparecen en la formulación del ancho de banda
asintóticamente óptimo descrito en el Apéndice A. Una versión de este tipo de selector para x ∈ R
con n muestras y un kernel Gaussiano se basa en los siguientes pasos [91, 100]:
46 2.4. Estimación de la función de densidad de probabilidad
105
ψ̂8σ̂ = 1 (2.13)
32π 2 σ̂(x)9
! 91
11.9683
g1 = (2.14)
ψ̂8σ̂ n
! 71
2.3937
g2 = − (2.15)
ψ̂6 (g1 )n
! 51
0.2821
h= (2.16)
ψ̂4 (g2 )n
n X
n
X (r) xi − xj
−1 −r−1
ψ̂r (g) = (n(n − 1)) g ϕN (2.17)
i=1 j=1
g
(r)
donde ϕN es la r-ésima derivada de ϕN .
2. Marco teórico 47
probabilidad
conjunto original X en el subconjunto seleccionado X̂, por esta razón se requiere comparar las PDFs
de ambos conjuntos. Para lograr esto se utiliza una medida de divergencia distribucional conocida
como distancia de Hellinger, la cual permite cuanticar la similitud entre dos distribuciones de
Sean p(x) y q(x) dos PDFs que describen la distribución de probabilidad de un conjunto nito
se dene como: s Z
1 p p 2
H(p, q) = p(x) − q(x) dx (2.18)
2 S
Wasserstein, la distancia de Hellinger está acotada en el rango [0, 1], lo cual representa una propiedad
útil, ya que no se requiere normalizar; además, puede ser empleada en un esquema de optimización
con una función objetivo ponderada, en donde todos los objetivos están denidos en el mismo rango
operativo [66].
La Figura 2.16 muestra un ejemplo en donde se utiliza H para medir la similitud entre una PDF
original y dos funciones de densidad estimadas con el método KDE empleando las reglas SIL en (2.12)
Figura 2.16: Estimación de dos PDFs a partir de una muestra aleatoria de 100 puntos tomados de
la distribución p(x) = 0.7N (6, 2) + 0.3N (12, 3). p̂1 (x̂) se obtiene con la regla SIL y p̂2 (x̂) se calcula
con DPI. Al utilizar la distancia de Hellinger se obtiene H1 (p, p̂1 ) = 0.104 y H2 (p, p̂2 ) = 0.029.
grupos disjuntos. Estos representan una colección de elementos con características similares que
se analizan para encontrar relaciones ocultas entre los datos. Además, estas técnicas conforman un
una secuencia de particiones anidadas que pueden ser aglomerativas o divisivas. Los métodos
aglomerativos inician con un conjunto de muestras en donde cada una forma un grupo diferente, y
aquellas que comparten características similares se van combinando de manera progresiva; al nal se
obtiene un sólo grupo que incluye a todas las instancias del conjunto original [53].
enlace. El primer paso consiste en asignar cada instancia a un grupo independiente; así, las diferentes
muestras representan a los nodos hoja del árbol. En las etapas posteriores, los grupos formados en
un determinado nivel de la estructura se van combinando con los que se encuentran en los siguientes
2. Marco teórico 49
niveles utilizando un criterio de distancia. El proceso anterior se repite hasta que se alcance el nodo
raíz, en donde todas las muestras forman parte de un único grupo. El árbol de enlace se representa
grácamente por medio de un dendrograma. Por ello, para un conjunto de datos con N instancias,
el dendrograma tendrá N nodos hoja y N − 1 nodos internos, los cuales indican los diferentes niveles
de jerarquía. Por otra parte, para obtener una partición se debe elegir un punto de corte denido
aplicado en un conjunto de N instancias es O(N 3 ). Sin embargo, se han propuesto algoritmos más
para grupos de muestras. El tipo de distancia utilizada se denomina enlace y mide la simulitud entre
50 2.6. Árboles de enlace
cada par de grupos. En esta investigación se utiliza el agrupamiento de enlace completo (CLC, por
sus siglas en inglés), en el que se da preferencia a la creación de grupos compactos con diámetros
pequeños. Por lo anterior, la distancia de enlace completo entre dos grupos se dene como:
donde A y B son dos grupos independientes, mientras que d(a, b) indica la distancia entre los
elementos a ∈ A y b ∈ B .
Por otra parte, la Figura 2.18 muestra un ejemplo de un enlace completo entre dos grupos,
mientras que el pseudocódigo del Algoritmo 9 presenta los pasos del método CLC [39].
Figura 2.18: Ejemplo de un enlace completo a partir de las muestras de dos grupos A y B .
Una métrica es la formalización matemática de una función de distancia. En este contexto, dado
1. No negatividad: d(x1 , x2 ) ≥ 0.
2. Reexividad: d(x1 , x1 ) = 0.
Los puntos anteriores son conocidos como axiomas de distancia. En este contexto, la tupla (X ,d)
es un espacio métrico, en donde el valor de la función d(x1 , x2 ) corresponde a la distancia entre dos
La distancia Minkowski corresponde a una clase general de métricas que están denidas en un
espacio vectorial normado, en donde para dos elementos {x, y} ∈ RD se dene como [36]:
D
!1/q
X
Lq (x, y) = |xi − yi |q (2.20)
i=1
donde q es un parámetro que indica el orden. Además, existen algunos casos particulares comúnmente
empleados en la literatura, los cuales son: L1 , distancia Manhattan o city block; L2 , distancia
Por otra parte, en algunas aplicaciones de análisis de datos, como la construcción de modelos de
distancias de orden fraccional, esto es q ∈ (0, 1). Sin embargo, en estos casos la distancia Minkowski
no se considera formalmente una métrica ya que viola la desigualdad triangular [105]. La Figura 2.19
Figura 2.19: Círculos formados por puntos medidos a una distancia de 1.0 a partir del origen con
la métrica Minkowski en un espacio R2 para diferentes valores de q .
Yang et al. [105] diseñaron una nueva familia de métricas. En su estudio, los autores realizaron
una experimentación exhaustiva en donde se demostró que las distancias propuestas superan a la
reales de alta dimensionalidad. El Apéndice B muestra un estudio comparativo de estas dos métricas
La familia de métricas de Yang se diseñó para ser usada en espacios vectoriales normados y se
donde i = 1, . . . , D, con {x, y} ∈ RD . Por otro lado, el parámetro q indica el orden de la familia de
La Figura 2.20 muestra algunos ejemplos de circulos unitarios en R2 para diferentes valores de q
Figura 2.20: Círculos formados por puntos medidos a una distancia de 1.0 a partir del origen con
la métrica de Yang en un espacio R2 para diferentes valores de q .
2.8 Resumen
En este capítulo se describieron los conceptos fundamentales y los algoritmos más importantes
distancia estadística para medir la similitud entre estas. Posteriormente, se expuso un algoritmo de
agrupamiento jerárquico que se utiliza para construir árboles de enlace, los cuales son fundamentales
para la nueva codicación de las soluciones propuesta. Finalmente, se describieron dos familias de
multiobjetivo. La mayoría de estas técnicas emplean métodos poblacionales, donde los más utilizados
son optimización por cúmulo de partículas (PSO, por sus siglas en inglés), optimización por colonia de
hormigas (ACO, por sus siglas en inglés) y algoritmos evolutivos (EAs, por sus siglas en inglés). Estas
técnicas son inspiradas por mecanismos presentes en la naturaleza que permiten a los organismos
evitar depredadores, recolectar alimentos y adaptarse mejor a su ambiente. Por ejemplo, los EAs se
basan en el concepto Darwiniano de supervivencia del más apto. Con respecto a la representación del
problema IS, la mayoría de los métodos propuestos emplea una codicación binaria explícita.
55
56 3.1. Selección de instancias con optimización global
Kuncheva [65] propone un algoritmo genético (GA, por sus siglas en inglés), con una codicación
binaria, en donde la función objetivo combina la tasa de error de un clasicador k NN y un factor para
suavizar las fronteras de las clases. Estos criterios permiten que el algoritmo realice una selección
equilibrada y no esté condicionado a remover únicamente muestras lejanas o cercanas a las fronteras
de decisión. En ese trabajo se comparan los resultados con un método clásico conocido como la regla
del vecino más cercano editado (ENN, por sus siglas en inglés) y un muestreo aleatorio. Las instancias
ese método wrapper son competitivos en relación con los otros algoritmos comparados.
Reeves y Taylor [86] proponen otro método EA de tipo wrapper con un GA. Esta técnica utiliza
una red de función de base radial (RBFN, por sus siglas en inglés) para guiar el proceso de búsqueda
(RAR, por sus siglas en inglés). Ese operador presenta dos variantes, en una todos los bits que son
comunes a ambos padres se transmiten a los hijos. Por otro lado, también se dene una alternativa
en donde la descendencia puede consistir en puntos que pertenecen únicamente a uno de los padres.
En la etapa de experimentación se utilizan datos sintéticos y del mundo real. Los resultados indican
que los subconjuntos obtenidos son competitivos con respecto al uso del conjunto de entrenamiento
Sierra et al. [93] emplean un algoritmo de estimación de la distribución (EDA, por sus siglas en
inglés) para IS y selección de características (FS, por sus siglas en inglés) en un conjunto de datos
una red neuronal articial (ANN, por sus siglas en inglés), un árbol de decisión C4.5 y el clasicador
3. Estado del arte 57
k NN. Los resultados muestran que ese método obtiene subconjuntos que mejoran el desempeño del
conjunto de datos original en términos de la exactitud de clasicación.
Cano et al. [13] reportan una serie de algoritmos de tipo wrapper basados en cuatro EAs
diferentes. En todas las variantes propuestas la función objetivo realiza una combinación lineal de la
de los individuos se realiza con codicación binaria para IS. Los resultados experimentales muestran
que los algoritmos propuestos superan a los métodos contra los cuales se compararon. Además,
en ese trabajo se evalúa un modelo de clasicación de un árbol de decisión C4.5 entrenado con
conjunto de prueba es pobre. Los autores concluyen que se presenta un sobreajuste en el modelo
debido a que el proceso de selección es guiado por el algoritmo 1NN mientras que la evaluación se
García et al. [44] presentan un método EA para tratar el problema del desbalanceo de clases
utilizando IS. En ese trabajo se emplea una representación binaria simple. Por su parte, la función
objetivo realiza una combinación lineal de la exactitud de clasicación del algoritmo 1NN y la tasa
utilizando la media geométrica de la tasa de verdaderos positivos y de verdaderos negativos. Por otro
García et al. [47] diseñan un algoritmo memético (MA, por sus siglas en inglés) que utiliza una
búsqueda local para tratar con el problema del escalamiento (del inglés scaling up problem), el cual
surge cuando se trabaja con conjuntos de datos masivos donde los EAs pueden tener problemas por
y la tasa de reducción. El método emplea una codicación binaria clásica para IS. Los resultados
El algoritmo combina mecanismos de sistemas inmunes articiales con un PSO binario, por lo que
utiliza una codicación binaria clásica. La función objetivo pondera la tasa de reducción y la exactitud
vacunación emplea la puntuación de las series de tiempo y la inercia de las partículas como información
heurística para dirigir el proceso de búsqueda. Por otra parte, la selección inmunológica descarta a
la partícula con el peor valor de desempeño en el enjambre actual para prevenir la degradación en
la calidad de las soluciones. Los resultados muestran que el método supera a sus contrapartes en
Tsai et al. [98] utilizan un GA para realizar las tareas de IS y FS. Emplean varias conguraciones
para realizar la experimentación. En un esquema únicamente se utiliza IS, en otro se realiza primero
aprendizaje de la red bayesiana. Los patrones seleccionados se utilizan como entrenamiento en los
clasicadores SVM y k NN. Los resultados del esquema simple de IS indican que los modelos obtenidos
Tsai et al. [97] proponen un EA para la tarea de clasicación de texto llamado algoritmo genético
de base biológica (BGA, por sus siglas en inglés), el cual utiliza unos operadores de variación que
permiten explorar de forma más eciente el espacio de búsqueda. En ese método se utiliza una
codicación binaria explícita. Cabe señalar que los subconjuntos obtenidos se emplean como patrones
y cuatro algortimos de tipo wrapper reportados en la literatura basados en el clasicador k NN. Los
estándar y supera a los otros algoritmos comparados en términos de dos medidas de desempeño
Anwar et al. [6] utilizan un algoritmo de optimización por colonia de hormigas (ACO, por sus
siglas en inglés) para realizar la tarea IS. Emplean cinco algoritmos de clasicación para realizar la
reducción: 1NN, Naive Bayes (NB), poda incremental repetida (RIPPER, por sus siglas en inglés),
Mi y Mj , con i, j = {1, 2, 3, 4, 5}; con el primero se lleva a cabo la tarea IS y con el segundo se
construye el modelo de clasicación nal, por lo que se tienen 25 combinaciones de ese esquema
de experimentación. En el gráco de construcción cada instancia tiene dos componentes, los cuales
indican si dicha instancia formará o no parte del subconjunto seleccionado. Las hormigas recorren
el grafo seleccionando instancias que mejoran el desempeño de clasicación del modelo Mi . Los
resultados muestran que en tres de los cinco casos donde se cumple que i = j se obtiene el mejor
desempeño de clasicación.
Aldana et al. [5] proponen un método lter basado en la teoría de la información y en un EA.
Utilizan una codicación binaria para representar dos enteros, los cuales consisten en el número de
instancias a seleccionar y una semilla aleatoria para realizar un muestreo. La función objetivo considera
la reducción de instancias y tiene dos restricciones: (1) diferencia de entropía entre los conjuntos
de datos y (2) proporción de elementos entre los cuantiles de cada clase. En ese método se usa un
clasicador Bayesiano. Los resultados indican que el algoritmo alcanza una tasa de reducción alta y
logra preservar la información de los cuantiles de cada clase del conjunto original.
clasicación binaria. Emplean un GA que combina una estrategia de selección conservadora con un
operador de cruza altamente disruptivo (CHC, por sus siglas en inglés). La función objetivo realiza
una combinación lineal de la tasa de reducción y la exactitud de clasicación de la regla 1NN. Por otro
lado, utilizan una codicación binaria explícita para representar a las instancias de la clase mayoritaria.
Además, debido a que trabajan con millones de instancias emplean la plataforma de software libre
Akinyelu et al. [3] proponen un algoritmo de selección de instancias basado en un ACO (ACOISA,
por sus siglas en inglés) para la optimización de la velocidad de entrenamiento de una SVM. En una
primera etapa, el algoritmo ACO es empleado para la detección de bordes y posteriormente se utiliza
la regla k NN como una heurística para elegir instancias cercanas a las fronteras de decisión de las
clases. Los resultados muestran que la reducción del número de instancias no afecta signicativamente
Karunakaran et al. [60] proponen un método de reducción de datos que realiza la tarea FS
CFA (del inglés Cuttlesh Optimization Algorithm) con una búsqueda tabú. Las soluciones se
los operadores del algoritmo CFA y se aplica una búsqueda tabú para explorar el vecindario de cada
mientras que el porcentaje de reducción de instancias se establece como una restricción. Los patrones
seleccionados entrenan una SVM y un clasicador k NN; éstos modelos logran desempeños similares
Lin et al. [69] presentan un método para seleccionar instancias y características. Utilizan un
algoritmo MA junto con un método de búsqueda local denominado VNS (del inglés, variable
neighborhood search). La representación de los individuos se hace mediante una codicación binaria
características del conjunto de datos, respectivamente. La función de costo realiza una combinación
de la solución. Los resultados sobre seis conjuntos de datos ruidosos muestran que ese método es
capaz de ltrar ecientemente los datos ruidosos. Además, el modelo entrenado por los subconjuntos
Zahi y Song [106] emplean validación cruzada junto con el paradigma divide y vencerás para
denir un nuevo criterio llamado entropía de información combinada que utiliza múltiples modelos
implementa en dos plataformas de código abierto llamadas Hadoop y Spark y se evalúa con cuatro
conjuntos de datos de problemas del mundo real, en donde el más grande cuenta con un millón de
instancias. Por lo anterior, el conjunto de datos se divide en k pliegues con Ni instancias cada uno,
donde i = 1, . . . , k . Ese trabajo emplea un GA para encontrar los mejores subconjuntos de cada
pliegue en términos del criterio propuesto. La representación de los individuos se realiza utilizando
ésima partición de datos. El método propuesto se compara con otros tres algoritmos de la literatura
que utilizan criterios basados en la exactitud de clasicación y la tasa de reducción. Los resultados
demuestran la viabilidad del algoritmo propuesto al mostrar que alcanza resultados competitivos con
La Tabla 3.1 muestra un resumen de las características más importantes de los algoritmos GOP
multiobjetivo
En la literatura se reporta una menor cantidad de estrategias IS utilizando MOP que empleando
Fernandez et al. [42] utilizan un algoritmo evolutivo multiobjetivo llamado NSGA-II (del inglés
con traslape entre clases. Emplean IS para resolver el desbalanceo y remover patrones de borde
62 3.2. Selección de instancias con optimización multiobjetivo
difíciles de clasicar, mientras que la tarea FS se usa para tratar con el problema del traslape. Las
soluciones se codican con una representación binaria. Por otra parte, el método emplea dos funciones
objetivo: (1) maximizar el desempeño de clasicación de un árbol de decisión y (2) minimizar la tasa
de reducción de instancias. Los resultados mejoran a los obtenidos con el algoritmo de generación
de datos sintéticos SMOTE-ENN [7]. Posteriormente en [41] los autores extienden su propuesta
3. Estado del arte 63
Rosales-Pérez et al. [87] emplean un algoritmo evolutivo multiobjetivo llamado MOEA/D [108]
para IS. Diseñan dos funciones de costo que evalúan el desempeño del clasicador SVM y la tasa de
tipo lter y la segunda (EMOMWIS) es de tipo wrapper. En ambas se codican los parámetros de
margen suave y ancho de banda del kernel Gaussiano de una SVM. Además, en el enfoque lter, se
agrega una sección que codica algunos métodos no evolutivos de IS (técnicas clásicas). Por otra
parte, la variante wrapper utiliza una representación binaria simple. Los resultados muestran que el
método propuesto alcanza un mejor desempeño de clasicación y altos porcentajes de reducción con
Kordos y Lapa [61] proponen el uso del algoritmo evolutivo multiobjetivo NSGA-II para IS en
tareas de regresión. La codicación utilizada es binaria y emplean dos funciones objetivo: (1) la raíz
del error cuadrático medio (RMSE, por sus siglas en inglés) y (2) la tasa de reducción de instancias.
El RMSE se calcula a partir de los resultados del algoritmo k NN que es utilizado para guiar el
proceso de búsqueda. Con esto se obtiene un conjunto de soluciones no dominadas que muestran un
compromiso entre la tasa de reducción y el RMSE. Los resultados revelan que el método logra un
Acampora [1] emplea el algoritmo de optimización multiobjetivo PESA-II [24] con una codicación
binaria clásica para el problema IS. Se proponen dos funciones objetivo para maximizar los criterios
Además, se utiliza un mecanismo de toma de decisiones que selecciona a la solución del frente de
Pareto cuya suma de los valores de desempeño en ambas funciones objetivo sea mayor. Ese método
se compara contra otros EAs basados en optimización global y los resultados muestran obtiene un
Rhatte et al. [83] utilizan un algoritmo genético multiobjetivo basado en NSGA-II y CHC (del
inglés conservative selection with highly disruptive recombination) [38] que integra un operador de
selección conservador y una cruza altamente disruptiva para mantener la diversidad en la población
y conservar individuos con altos valores de desempeño. El principal desafío consiste en preservar
el elitismo y la diversidad de soluciones considerando las dos funciones objetivo: (1) exactitud
de clasicación y (2) tasa de reducción de instancias. Los individuos son codicados con una
representación binaria simple para IS. Se utiliza un clasicador k NN para guiar el proceso de búsqueda.
Los resultados muestran que los subconjuntos alcanzan tasas de reducción de más del 50 % y son
Rathee et al. [84] utilizan un CHC con operadores de variación basados en el algoritmo NSGA-II
para los problemas IS y FS. Emplean la codicación binaria clásica para los métodos IS evolutivos.
Las dos funciones de costo maximizan: (1) el desempeño de clasicación del algoritmo k NN y (2) el
algoritmos de optimización global que también resuelven las tareas IS y FS simultáneamente. Los
resultados muestran que esta propuesta obtiene un mejor desempeño de clasicación y es competitivo
Hamidzadeh et al. [51] proponen tres variantes del algoritmo de optimización CKHA [89] en un
esquema multiobjetivo para conjuntos de datos con clases desbalanceadas. Esta propuesta utiliza
la codicación binaria clásica para los problemas IS. Las funciones objetivo empleadas optimizan
respectivamente. Los subconjuntos obtenidos se utilizan para entrenar una SVM. Los resultados
muestran que el método es competitivo contra los algoritmos comparados en términos de exactitud
Cheng et al. [20] proponen un algoritmo de IS multiobjetivo para maximizar el desempeño de una
SVM. Ese método divide el espacio objetivo en subregiones que tienen su propia estrategia evolutiva.
3. Estado del arte 65
Cada subregión cuenta con individuos que realizan una búsqueda local y de esta forma toda la
población se encarga de hacer una búsqueda global. Por esta razón, en ese método se propone una
los individuos se realiza con una codicación binaria simple. Además, las dos funciones objetivo se
diseñan para maximizar: (1) el desempeño de una SVM y (2) la tasa de reducción de instancias. El
Cheng et al. [21] presentan un método de IS llamado LRIS (del inglés Large-Scale Instance
Selection) que utiliza un esquema de optimización multiobjetivo con una representación binaria
clásica para IS. Proponen una estrategia para reducir la longitud de los individuos en donde cada gen
tiene una probabilidad de ser descartado, la cual está en función de la relevancia que tiene la instancia
que son recortados signicativamente. En ese método se emplea una evaluación de tipo wrapper con
una SVM y un k NN, respectivamente. Los resultados muestran que se alcanza un alto desempeño
Jiménez et al. [59] proponen dos métodos de optimización multiobjetivo con restricciones para
resolver la tarea IS desde un enfoque wrapper y lter aplicados en problemas de clasicación. Utilizan
el algoritmo NSGA-II y un método de evolución diferencial multiobjetivo (MODE, por sus siglas en
inglés). La representación de las soluciones se hace utilizando una codicación mixta. La primera
sección del individuo contiene N valores binarios para representar a cada instancia del conjunto de
datos original de forma explícita. La segunda parte del individuo utiliza dos valores enteros para
Finalmente, también se emplea un valor real en el rango [0, 1] para codicar la probabilidad de
mutación de la sección binaria del vector de solución. En el método wrapper se utilizan los criterios
66 3.2. Selección de instancias con optimización multiobjetivo
de minimización del error de clasicación y del número de instancias seleccionadas. Por otro lado,
para el enfoque lter optimiza simultáneamente tres funciones que miden la correlación, redundancia
y consistencia de los conjuntos de datos, respectivamente. Además, se impone una restricción para
de grandes cantidades de datos. Los enfoques propuestos se comparan entre sí, además de ser
medidos contra modelos de optimización de dos y tres objetivos, dos técnicas diferentes de manejo
experimentos muestran la superioridad de las técnicas propuestas en ese trabajo sobre las técnicas
La Tabla 3.2 presenta un resumen de las estrategias IS basadas en algoritmos MOP descritas en
esta sección.
3.3 Resumen
Tabla 3.1 presenta un resumen con las características de los algoritmos basados en esquemas GOP,
mientras que la Tabla 3.2 sintetiza la información más relevante de los métodos MOP.
Los algoritmos GOP ofrecen una solución única y emplean una función objetivo que realiza
una combinación lineal de dos criterios de optimización. La mayoría de estas propuestas representan
métodos de tipo wrapper, cuyos objetivos consisten en maximizar la tasa de reducción y el desempeño
Por otro lado, únicamente se reportan dos métodos basados en enfoques lter. El primero emplea
el algoritmo EDA, en donde se realiza un modelo probabilístico de las mejores soluciones para
posteriormente generar nuevos individuos a partir del modelo obtenido [93]. El segundo método
propone una función objetivo con dos restricciones basadas en la preservación de la cantidad de
Por otra parte, las estrategias MOP proporcionan un conjunto de soluciones no dominadas que
informan acerca de la interacción entre los objetivos en conicto. Además, en todas las técnicas
descritas se emplean variantes de tipo wrapper, en donde al igual que en los enfoques GOP, los
modelos de clasicación más utilizados son k NN y SVM. Sin embargo, en dos de estos trabajos
también se proponen variantes de tipo lter. El primero de estos algoritmos codica los parámetros de
un modelo SVM y un número entero que indica el tipo de estrategia IS clásica que se utilizará [87]. Por
otro lado, el segundo método optimiza tres funciones objetivo que emplean medidas de correlación,
Con respecto a la representación del problema, en la mayoría de los trabajos propuestos se emplea
una codicación binaria explícita. Por ello, existe un área de oportunidad para modelar la tarea IS
de la PDF del conjunto de datos original X y minimizar el número de instancias del subconjunto
seleccionado X̂. El primer método utiliza una técnica GOP basada en un GA, mientras que el
segundo emplea un esquema MOP con el algoritmo NSGA-II. En relación con la representación de las
soluciones, estas técnicas utilizan una codicación CBE. Posteriormente, se detallan dos estrategias
que emplean las mismas metaheurísticas y criterios de optimización, aunque a diferencia de los
primeros dos métodos, estas propuestas utilizan una nueva codicación de los individuos basada en
árboles de enlace. Por último, se describe un método que se fundamenta en la losofía de resolución
de problemas conocida como divide y vencerás, el cual permite escalar a los algoritmos propuestos
69
70
Figura 4.1: Superior: Esquema de la metodología propuesta. Centro: Descripción general de las
estrategias IS basadas en preservar la PDF. Inferior: Descripción general de las estrategias IS basadas
en árboles de enlace.
4. Metodología 71
En esta investigación se plantea que la tarea IS debe hacerse una sola vez, de tal manera que el
subconjunto de datos obtenido pueda ser utilizado para entrenar diferentes modelos de aprendizaje
supervisado sin perder la capacidad de generalización, evitando repetir el proceso de selección para
cada tipo de clasicador. Por ello, en esta sección se proponen dos algoritmos de tipo lter enfocados
emplea un algoritmo GOP basado en el GA descrito en la Sección 2.2.1, mientras que el segundo
enfoque aplica un esquema MOP, y utiliza el NSGA-II que se detalla en la Sección 2.3.2.
El GA es uno de los algoritmos más utilizados en las aplicaciones de optimización discreta debido
a su exibilidad para adaptar la representación de los individuos a una amplia variedad de problemas
en donde ha demostrado obtener buenos resultados [64]. Además, esta metaheurística es el método
más empleado en la literatura para resolver la tarea IS cuando se modela como un problema de
optimización [34]. Por ello, en esta estrategia se utiliza un GA que emplea la codicación CBE para
representar a las soluciones de la población y optimizar una función objetivo ponderada que considera
un elemento de un vector binario q ∈ {0, 1}N . De este modo, si el i-ésimo elemento de q es `1',
entonces la i-ésima instancia de X se selecciona en X̂; por el contrario, un valor igual a `0' indica lo
Se propone una nueva función objetivo que considera dos criterios de optimización:
conjuntos mediante la distancia de Hellinger H en (2.18), la cual está denida para dos funciones
No obstante, esto implica un mayor costo computacional, por lo que en este trabajo se utiliza:
H1,1 · · · H1,D
. .. ..
. (4.1)
.
H= . .
HC,1 · · · HC,D
donde Hi,j ≡ H(pi,j , qi,j ) es la distancia de Hellinger entre pi,j y qi,j , las cuales son las PDFs
estimadas a partir de las muestras de la j -ésima variable y la i-ésima clase del conjunto original X
En esta propuesta, las PDFs se obtienen con el algoritmo KDE descrito en la Sección 2.4.3, en
donde el valor del ancho de banda hi,j utilizado para la estimación de pi,j y qi,j , se obtiene con base
basado en la regla general de Silverman, dada en (2.12), o la regla DPI, dada en (2.16).
entre las PDFs multivariantes de X y X̂. Así, se obtiene un valor que describe de manera global la
contribución de cada una de las medidas de similitud entre las C × D PDFs univariantes.
4. Metodología 73
En esta propuesta se normalizan las D variables predictoras del conjunto de datos original X en
el intervalo [−1, 1] para que todos los atributos tengan el mismo rango dinámico1 . De esta manera,
Por otro lado, para estimar una PDF univariante a partir de las n muestras x1 , . . . , xn
con el ejemplo de la Figura 2.14, se debe elegir un valor de m que sea adecuado para aproximar
correctamente la estimación de densidad sin que esto implique un crecimiento desmedido en el número
de operaciones requeridas por el algoritmo KDE, el cual, para muestras en RD con D = 1, tiene una
complejidad computacional O(mn). Por ello, en esta investigación se utiliza un conjunto de m = 100
regiones distribuidas a lo largo del espacio muestral S = [−1.5, 1.5]. Con lo anterior, se puede
innecesariamente la cantidad de operaciones realizadas por el método KDE y sin perder información
El segundo criterio en la función objetivo mide la tasa de preservación de instancias (PR), que
N̂
PR = (4.2)
N
varía en el rango [0, 1], en donde un valor cercano a cero indica que se preserva un bajo porcentaje
Por lo anterior, la función objetivo realiza una combinación lineal de los dos criterios de
C D
w XX
F = Hi,j + (1 − w) · PR (4.3)
C · D i=1 j=1
donde w ∈ (0, 1) es un coeciente que indica la importancia relativa de cada objetivo. El valor de F
varía en el rango [0, 1], donde un valor cercano a cero indica que X̂ alcanza una alta tasa de reducción
de instancias y una alta similitud con las C × D PDFs de X. Además, en este esquema se puede
del Algoritmo 10 se muestra el procedimiento detallado para la evaluación de esta función objetivo.
5: si C == Ĉ entonces
Es importante señalar que para evaluar F en (4.3), es necesario calcular previamente a las C × D
PDFs D = {p1,1 , . . . , pC,D } y valores de ancho de banda h = [h1,1 , . . . , hC,D ] del conjunto de datos
original normalizado X̄. Estas operaciones se describen en el pseudocódigo del Algoritmo 11.
Algoritmo 11 Estimación de D y h.
Entrada: Conjunto de datos original normalizado X̄ ∈ RN ×D
Salida: PDFs D = {p1,1 , . . . , pC,D } y valores de ancho de banda h = [h1,1 , . . . , hC,D ]
1: Generar un vector de m = 100 puntos equidistantes en el intervalo [−1.5, 1.5]: c = [c1 , . . . , cm ]
2: para i = 1 hasta C hacer
3: para j = 1 hasta D hacer
4: Extraer las muestras de la j -ésima variable y la i-ésima clase de X̄: x = [x1 , . . . , xn ]
5: Calcular el ancho de banda utilizando x: hi,j // Con SIL (2.12) o DPI (2.16)
6: Estimar PDF con el método KDE utilizando x, c y hi,j : pi,j // Ecuación (2.11)
7: n para
8: n para
9: devolver D = {p1,1 , . . . , pC,D } y h = [h1,1 , . . . , hC,D ]
Este método se identica como FW
B
, en donde el GA descrito en la Sección 2.2.1 optimiza la
regla para el cálculo del ancho de banda; la cual puede ser SIL, dada en (2.12), o DPI, dada en (2.16).
Por ejemplo, si se otorga la misma relevancia en ambos objetivos de optimización (i.e., w = 0.50),
y se utiliza la regla general de Silverman, entonces la variante del algoritmo propuesto se identica
SIL . Los pasos de este método se detallan en el pseudocódigo del Algoritmo 12.
como F50
dominadas que permiten analizar la interacción entre los diferentes objetivos en conicto. Por ello,
en esta propuesta se modela la tarea IS desde un enfoque multiobjetivo para abordar de forma
se pueden obtener soluciones que satisfagan ambos objetivos con diferentes grados de compromiso
sin requerir el ajuste de un coeciente que pondere dichos criterios de optimización, como se hace
Sección 2.3.2, el cual ha demostrado ser útil en una gran variedad de problemas de optimización
discreta con pocos objetivos [99]. Además, se ha utilizado en la mayoría de los algoritmos MOP
propuestos en la literatura para resolver la tarea IS [21, 42, 59, 61, 83, 84].
Sección 2.1.2.1. Por otro lado, en esta propuesta se utilizan dos funciones objetivo independientes
para maximizar la preservación de la PDF del conjunto de datos original X y reducir la cardinalidad
Para medir la similitud entre las PDFs multivariantes de X y X̂ se utiliza el promedio de los
elementos de la matriz H en (4.1), el cual se denota como H̄ ∈ [0, 1]. Este término representa la
C D
1 XX
H̄ = Hi,j (4.4)
C · D i=1 i=j
en (4.2), la cual mide la fracción de patrones seleccionados en X̂. Por lo tanto, en este problema se
desea minimizar ambas funciones objetivo, las cuales están en conicto, debido a que la reducción
del número de instancias impacta directamente en la PDF del subconjunto seleccionado X̂. De esta
donde F ∈ R2 y q ∈ {0, 1}N es un individuo codicado con la representación CBE. Los pasos para la
evaluación de esta función vectorial se describen en el pseudocódigo del Algoritmo 10. En particular,
De la misma manera que en la estrategia GOP, en este método también se requiere estimar a las
C × D PDFs D = {p1,1 , . . . , pC,D } y valores de ancho de banda h = [h1,1 , . . . , hC,D ] del conjunto
de datos original normalizado X̄ antes de evaluar las soluciones en (4.5); esta información se obtiene
Este método da como resultado un conjunto de soluciones no dominadas que se pueden analizar
para seleccionar aquellas que se encuentren en regiones de interés en el frente de Pareto; por ejemplo,
puntos de rodilla encontrados con el método NBI, el cual es explicado en la Sección 2.3.3.
78 4.1. Estrategias de IS basadas en preservar la PDF
MOP para resolver la tarea IS basado en un nuevo enfoque lter que consiste en la preservación de la
PDF del conjunto de datos original X. Los pasos de este método se detallan en el Algoritmo 13.
12: Evaluar aptitud de QS (g) con X̄, D y h: F̄QS (g) = {F0 , . . . , FNP −1 } // Algoritmo 10
13: Combinar las poblaciones de padres y descendientes: R(g) = Q(g) ∪ QS (g)
14: Encontrar frentes de Pareto de R(g): F = {F1 , . . . , Fnf } // Algoritmo 6
15: Q̄ = ∅, i = 1 // Inicializar la nueva población de padres
16: repetir
17: Calcular la distancia de apiñamiento para cada solución en Fi // Algoritmo 7
18: Q̄ = Q̄ ∪ QFi // Incluir las soluciones de Fi en la nueva población
19: i = i + 1 // Revisar el siguiente frente para la inclusión
20: hasta que |Q̄| + |QFi | ≥ NP // Se alcanza NP al intentar agregar QFi
21: Ordenar(QFi ,≺n ) // Ordenar soluciones de QFi de forma descendente con ≺n
22: Q(g + 1) = Q̄ ∪ QFi [1 : (NP − |Q̄|)] // Nueva población de padres completa
23: Seleccionar Q′ a partir de Q(g + 1) con torneo binario basado en ≺n // Ecuación (2.5)
24: Aplicar cruza de dos puntos con probabilidad pc a Q′
25: Aplicar mutación Bit-Flip con probabilidad pm a los individuos de Q′
26: Obtener la población de NP descendientes de Q(g + 1) a partir de Q′ : QS (g + 1) ← Q′
27: n para
28: Evaluar aptitud de QS (G) con X̄, D y h: F̄QS (G) = {F0 , . . . , FNP −1 } // Algoritmo 10
29: Combinar las poblaciones de padres y descendientes: R(G) = Q(G) ∪ QS (G)
30: Encontrar frentes de Pareto de R(G): F = {F1 , . . . , Fnf } // Algoritmo 6
31: Obtener el conjunto de óptimos de Pareto de F1 : P = {q∗0 , . . . , q∗NP −1 }
32: devolver P = {q∗0 , . . . , q∗NP −1 }
4. Metodología 79
Las estrategias FW
B
y EMOIS-F son las versiones GOP y MOP de un nuevo enfoque de tipo lter
que aborda el problema IS al maximizar la preservación de la PDF del conjunto de datos original
instancias de X. Sin embargo, estas técnicas tienen un problema de escalabilidad, en donde el espacio
de búsqueda crece exponencialmente en función del número de instancias, por lo que el algoritmo
de optimización debe hacer frente a un problema de muy alta dimensionalidad. Debido a esto, en las
Secciones 4.2.2 y 4.2.3 se describen dos estrategias IS que utilizan una nueva representación basada
En esta investigación los árboles de enlace se construyen utilizando el algoritmo CLC descrito
dendrogramas correspondientes a los árboles de enlace de un conjunto de datos con dos clases.
Las propiedades de los árboles de enlace permiten seleccionar instancias de una clase ωi a partir
Figura 4.2: Izquierda: Conjunto de datos sintético con dos clases Ω = {ω1 , ω2 }. Centro:
Dendrograma de T1 construido con X1 . Derecha: Dendrograma de T2 construido con X2 .
La Figura 4.3 muestra un ejemplo del proceso descrito para seleccionar instancias de una clase a
Figura 4.3: Izquierda: IS basada en un árbol de enlace. Conjunto de datos con dos clases
Ω = {ω1 , ω2 }. Centro: Dendrograma de T2 construido con X2 , en donde se elige un punto de
corte en z2 = 478 (indicado con la línea horizontal), el cual genera una partición de 8 grupos.
Derecha: Selección de los medoides de cada grupo.
Para extender el proceso de selección de instancias a todas las clases de X es necesario construir
el medoide de cada grupo en cada partición formada por los C puntos de corte. La Figura 4.4 muestra
un ejemplo de IS con árboles de enlace para un conjunto de datos sintético de tres clases.
4. Metodología 81
Debido a que se requieren elegir C puntos de corte, el espacio de búsqueda del problema IS
utilizando árboles de enlace se dene como Ci=1 (Ni − 1), donde Ni − 1 es el número de niveles de
Q
Figura 4.4: IS basada en árboles de enlace. Parte superior. Izquierda: Conjunto de datos sintético
bidimensional con tres clases Ω = {ω1 , ω2 , ω3 }. Centro: Medoides obtenidos con las particiones de
cada clase. Derecha: Subconjunto de instancias seleccionadas. Parte inferior, de izquierda a derecha:
Dendrogramas de T1 , T2 y T3 , respectivamente. En cada caso, los puntos de corte se indican con
una línea horizontal.
El algoritmo CLC utiliza la distancia más lejana entre dos puntos de diferentes grupos para
cuanticar la disimilitud entre cada grupo de una partición dada. Además, cada árbol de enlace
se construye por cada clase del conjunto X. Por ello, el método CLC permite encontrar grupos
En el pseudocódigo del Algoritmo 14 se muestran las instrucciones detalladas del método descrito
anteriormente, el cual se denomina LTIS, del inglés linkage trees for instance selection.
82 4.2. Estrategias de IS basadas en árboles de enlace
Esta estrategia consiste en un algoritmo GOP basado en el GA descrito en la Sección 2.2.1 para
optimizar los puntos de corte z = [z1 , . . . , zC ] ∈ Z+ utilizados en el algoritmo LTIS con el propósito
Este método realiza el proceso de búsqueda en un espacio binario n-dimensional. Por ello, el
vector de puntos de corte z se codica por medio de una cadena binaria q ∈ {0, 1}n , en donde zi se
representa con una subcadena qi ∈ {0, 1}ni cuya longitud se calcula como:
Para dar un ejemplo, considérese el conjunto de datos de la Figura 4.4, con C = 3, donde
el número de elementos de cada clase es 199, 486 y 770. De este modo, la cantidad de bits que
requieren las subcadenas binarias {q1 , q2 , q3 } para representar adecuadamente a los elementos de la
y n3 = ⌊log2 (770 − 2)⌋ + 1 = 10. Así, la cadena binaria q = [q1 , q2 , q3 ] ∈ {0, 1}n con
n = n1 + n2 + n3 = 27, denota una codicación que puede representar a todos los estados posibles
de z = [z1 , z2 , z3 ]. Por otra parte, nótese que para la clase ω1 , n1 = 8, por ello, la cantidad de
estados posibles de q1 es 2n1 = 256. Sin embargo, z1 ∈ [1, 198], por lo que la subcadena q1 puede
representar los 198 niveles de jerarquía de T1 mediante 256 valores diferentes. Por lo anterior, en
esta codicación, los diferentes valores que puede tomar el punto de corte zi se representan con más
estados de los requeridos; no obstante, esto solo sucede cuando Ni − 1 no es potencia de dos.
Otra parte importante del funcionamiento del algoritmo consiste en el proceso de decodicación
de la solución, esto es, transformar la cadena binaria q en un vector de valores enteros z para obtener
el subconjunto de datos seleccionado X̂ con el algoritmo LTIS. Para esto, primero se extrae cada
k
zi∗ = 1 + · (Ni − 2), i = 1, . . . , C (4.7)
2ni −1
otro lado, ni es el número de bits de qi . Debido a que zi∗ corresponde con un valor continuo en el
rango [1, Ni − 1], se debe realizar un redondeo hacia el entero más próximo para obtener zi ∈ Z+ .
El pseudocódigo del Algoritmo 15 muestra los pasos para decodicar la solución binaria q.
84 4.2. Estrategias de IS basadas en árboles de enlace
Para aprovechar las características del algoritmo LTIS en un esquema de optimización que
considera los mismos objetivos que las estrategias IS descritas en la Sección 4.1, se requiere encontrar
los puntos de corte z = [z1 , . . . , zC ] ∈ Z+ , que maximicen la preservación de la PDF del conjunto
de datos original X y minimicen la cardinalidad del subconjunto de datos seleccionado X̂. Por ello,
En el diseño de esta función objetivo se utiliza la distancia de Hellinger H en (2.18) para medir
la similitud entre las PDFs de X y X̂. Por ello, al igual que en las estrategias FW
B
y EMOIS-F , en
esta propuesta también se utilizan los elementos de la matriz H en (4.1) para aproximar la medición
instancias. Por lo tanto, se introduce un criterio de tasa de reducción en la función objetivo. En este
enfoque, el número de patrones seleccionados está relacionado con el nivel de jerarquía del árbol
de enlace, esto es, cuanto mayor sea el nivel de jerarquía del punto de corte elegido, menor será el
Debido a que la cantidad de niveles de jerarquía de un árbol de enlace depende directamente del
número de instancias de su respectiva clase y las distintas clases pueden tener una cantidad diferente
zi − 1
z̄i = 1 − , i = 1, . . . , C (4.9)
Ni − 2
donde z̄i es el punto de corte normalizado de la clase ωi y la operación de resta convierte a esta tarea
De este modo, el promedio de la matriz de distancias de Hellinger H en (4.1) y el nivel del punto
de corte z̄i , con i = 1, . . . , C , se pueden minimizar en una función objetivo ponderada mediante
preservan la proporción de muestras, como se muestra en el ejemplo de la Figura 4.5. Por esta razón,
mientras que N̂ y N̂i representan lo mismo con respecto de X̂. Además, para un argumento escalar, |·|
Figura 4.5: Ejemplo de un problema de desbalanceo de clases con LTIS en un conjunto de datos
sintético con dos clases Ω = {ω1 , ω2 }. Superior: Selección de un nivel bajo del punto de corte
para ω1 y un nivel alto para ω2 : z1 ≪ z2 . Centro: Situación opuesta al caso anterior: z2 ≪ z1 .
Inferior: Situación adecuada en donde la selección de niveles de jerarquía equivalentes permite clases
que preservan la proporción de muestras en X̂: z1 ∼ z2 .
Por lo tanto, la función objetivo se obtiene al combinar la matriz H en (4.1), el vector de puntos
como: ( )αi
C D
1 X 1 X
LT (z) = [w · Hi,j + (1 − w) · z̄ i ] (4.11)
C i=1 D j=1
donde w ∈ (0, 1) es un coeciente que expresa la importancia relativa de cada objetivo y LT ∈ [0, 1].
Por otra parte, a diferencia de la función objetivo F en (4.3), en donde el promedio de la matriz
H en (4.1) no se afecta por ningún término adicional al peso w, la función objetivo LT acopla el
punto de corte normalizado z̄i de la i-ésima clase con los elementos de la matriz H correspondientes
a dicha clase. Esto se hace mediante una suma ponderada para que la medida de preservación de la
PDF se vea directamente afectada por el nivel de jerarquía del punto de corte elegido.
El pseudocódigo del Algoritmo 16 muestra los pasos para calcular el valor de la función objetivo
NSGA-II descrito en la Sección 2.3.2. Con esto se puede encontrar un conjunto de soluciones no
dominadas (vectores de puntos de corte), para ser evaluadas en el algoritmo LTIS y así obtener
PDF del conjunto original X y la reducción de la cardinalidad del subconjunto seleccionado X̂.
4. Metodología 89
donde un vector de puntos de corte z = [z1 , . . . , zC ] ∈ Z+ se codica mediante una cadena binaria
q ∈ {0, 1}n ; así, cada elemento de z se representa con una subcadena binaria qi ∈ {0, 1}ni , cuya
longitud se calcula con (4.6).
decodique a cada individuo binario q para obtener su respectivo vector de puntos de corte z. Por
ello, se debe extraer cada subcadena binaria qi y transformarla en un punto de corte zi ∈ Z+ , con
Esta estrategia considera los mismos criterios de optimización que el algoritmo LTW
B
. Por ello,
la primera función objetivo se diseña para maximizar la preservación de la PDF de X. Por esta
razón se utilizan los elementos de la matriz H en (4.1) para cuanticar la similitud entre las PDFs
esta manera se evita que el problema de pérdida de proporción de muestras intra-clase se presente
en X̂, el cual se describe en el ejemplo de la Figura 4.5. Por lo tanto, esta función objetivo se dene
como: !αi
C D
1 X 1 X
H̄α = Hi,j (4.12)
C i=1 D j=1
la sintonización de los niveles del punto de corte normalizado z̄i ∈ [0, 1] para i = 1, . . . , C denido
en (4.9). Sin embargo, al igual que en Ĥα , en esta expresión también se emplea el factor αi
en (4.10) para penalizar la variable relacionada a la clase ωi . De esta manera se evita el problema
C
1 X
Z̄α = (z̄i )αi (4.13)
C i=1
donde Z̄α ∈ [0, 1]. Por lo tanto, si la cantidad de instancias de las clases del subconjunto de datos
seleccionado X̂ no guardan la misma proporción con respecto al número de instancias de las clases
MOP para obtener un conjunto de soluciones no dominadas con diferentes grados de compromiso
para los dos criterios de optimización. Así, la función vectorial en este problema se dene como:
dominadas que se pueden analizar para obtener puntos de interés; por ejemplo, soluciones de rodilla
para resolver la tarea IS basada en árboles de enlace; sus pasos se detallan en el Algoritmo 18.
4. Metodología 91
6: Evaluar aptitud de la población inicial Z(0): T̂Z(0) = {T̄0 , . . . , T̄N −1 } // Ecuación (4.14)
P
7: Encontrar frentes de Pareto de Z(0): F = {F1 , . . . , Fn } // Algoritmo 6
f
8: Calcular la distancia de apiñamiento para las soluciones de F // Algoritmo 7
14: Decodicar población actual QS (g): ZS (g) = {z0,0 , . . . , zNP −1,0 } // Algoritmo 15
15: Evaluar aptitud de ZS (g): T̂ZS (g) = {T̄0 , . . . , T̄NP −1 } // Ecuación (4.14)
16: Combinar las poblaciones de padres y descendientes: R(g) = Z(g) ∪ ZS (g)
17: Encontrar frentes de Pareto de R(g): F = {F1 , . . . , Fnf } // Algoritmo 6
18: Q̄ = ∅, i = 1 // Inicializar la nueva población de padres
19: repetir
20: Calcular la distancia de apiñamiento para cada solución en Fi // Algoritmo 7
21: Q̄ = Q̄ ∪ QFi // Incluir las soluciones de Fi en la nueva población
22: i = i + 1 // Revisar el siguiente frente para la inclusión
23: hasta que |Q̄| + |QFi | ≥ NP // Se alcanza NP al intentar agregar QFi
24: Ordenar(QFi ,≺n ) // Ordenar soluciones de QFi de forma descendente con ≺n
25: Q(g + 1) = Q̄ ∪ QFi [1 : (NP − |Q̄|)] // Nueva población de padres completa
26: Seleccionar Q′ a partir de Q(g + 1) con torneo binario basado en ≺n // Ecuación (2.5)
27: Aplicar cruza de dos puntos con probabilidad pc a Q′
28: Aplicar mutación Bit-Flip con probabilidad pm a los individuos de Q′
29: Obtener la población de NP descendientes de Q(g + 1) a partir de Q′ : QS (g + 1) ← Q′
30: n para
31: Decodicar población actual QS (G): ZS (G) = {z0,0 , . . . , zNP −1,0 } // Algoritmo 15
32: Evaluar aptitud de ZS (G): T̂ZS (G) = {T̄0 , . . . , T̄NP −1 } // Ecuación (4.14)
33: Combinar las poblaciones de padres y descendientes: R(G) = Z(G) ∪ ZS (G)
34: Encontrar frentes de Pareto de R(G): F = {F1 , . . . , Fnf } // Algoritmo 6
35: Obtener el conjunto de óptimos de Pareto de F1 : P = {z∗0 , . . . , z∗NP −1 }
36: devolver P = {z∗0 , . . . , z∗NP −1 }
92 4.3. Estrategia de IS para grandes conjuntos de datos
Las estrategias IS que utilizan EAs presentan algunos problemas cuando el número de instancias
del conjunto de datos aumenta considerablemente. Los principales inconvenientes se relacionan con el
tamaño de los individuos cuando se emplea la representación CBE, ya que se producen requerimentos
problemas conocida como divide y vencerás (D&Q, por sus siglas en inglés), la cual permite abordar
el problema del escalamiento cuando se procesan conjuntos de datos de cientos de miles o millones
de instancias [14].
procesar cada subconjunto de forma independiente. Después, las instancias elegidas se combinan
La Figura 4.6 muestra un ejemplo de un bloque que ejecuta la tarea IS mediante un esquema
D&Q. Este proceso se realiza de forma iterativa hasta que se cumple un criterio de paro, el cual
se establece de acuerdo con las características del problema. Por ello, si la condición de parada no
error de clasicación también. Los criterios de paro empleados en la literatura consisten en alcanzar
ejecución a partir de un error de validación. Este último se obtiene al dividir el conjunto original en
Figura 4.6: Ejemplo de un esquema D&Q en la tarea IS. El conjunto original X se divide en n
subconjuntos disjuntos de tamaño N̄ . Posteriormente se aplica un algoritmo IS a cada uno de ellos y
se obtienen n subconjuntos de tamaño N̂1 , . . . , N̂n , respectivamente. Después, estos últimos se unen
para formar el subconjunto de datos seleccionado X̂ de tamaño N̂ . Este procedimiento se realiza de
forma iterativa hasta que se cumple con un criterio de paro.
Los algoritmos IS que utilizan el enfoque D&Q presentan grandes ventajas en términos de tiempo
de ejecución y cantidad de memoria requerida. Además, esta técnica se puede implementar fácilmente
sobre cada una de las n particiones del conjunto original. Por ello, en esta investigación se diseña una
estrategia que utiliza un enfoque D&Q para realizar la tarea IS en conjuntos de datos grandes.
Debido a que este esquema divide el problema en conjuntos de datos más pequeños, el tamaño del
espacio de búsqueda se puede reducir considerablemente en función del número de instancias de cada
partición del conjunto original. Por esta razón, se propone utilizar un micro algoritmo genético (µGA,
por sus siglas en inglés), el cual es una variante del GA descrito en la Sección 2.2.1 y ha demostrado
94 4.3. Estrategia de IS para grandes conjuntos de datos
El µGA evoluciona poblaciones de tamaño pequeño, las cuales no pueden mantener la diversidad
durante muchas generaciones, por esta razón se incluye un mecanismo que reinicia la población
Hamming para evaluar la similitud entre dos individuos, la cual es igual al número de posiciones en
las que sus dígitos correspondientes dieren [52]. En esta propuesta se reinicia la población cuando
el promedio de la distancia de Hamming entre cada par de individuos es menor a 0.05. Además, se
representación basada en árboles de enlace cuando se utiliza en conjuntos de datos grandes. Por
µGA para optimizar la función objetivo LT en (4.11); este método se denomina µLTW
B
. De esta
poblaciones pequeñas que son ecientes para localizar áreas prometedoras de un espacio de búsqueda
Por otro lado, para obtener el número de subconjuntos disjuntos de tamaño N̄ que se van a
procesar por el esquema D&Q se calcula n = ⌈N/N̄ ⌉, donde la función ⌈·⌉ redondea el valor
de entrada al entero más próximo por exceso. Por ello, en los enfoques tradicionales se utiliza un
por instancias cercanas en el espacio de características. Con esto se busca favorecer la construcción
de árboles de enlace compactos y realizar la tarea IS sobre instancias con características similares.
Por ello, se emplea un algoritmo de agrupamiento sobre cada clase del conjunto de datos para
La Figura 4.7 ilustra el procedimiento del esquema D&Q propuesto, el cual se dene mediante
ni = ⌈Ni /N̄ ⌉, para i = 1, . . . , C , donde la función ⌈·⌉ redondea el valor de entrada al entero
más próximo por exceso.
5. Fusionar los subconjuntos obtenidos en cada clase X̂i = {X̂1i , . . . , X̂ni i }, para i = 1, . . . , C .
6. Fusionar los subconjuntos de cada clase y obtener el subconjunto nal X̂ = {X̂1 , . . . , X̂C }.
7. Vericar si se cumple el criterio de paro y devolver X̂, sino repetir los pasos 1-6 utilizando X̂
Por otro lado, debido a que el algoritmo de agrupamiento no necesariamente obtiene particiones
con grupos del mismo tamaño, se deben tomar en cuenta algunas consideraciones importantes del
se considera que estos patrones son representativos de esa región del espacio de características.
Figura 4.7: Esquema D&Q propuesto. El conjunto original X se divide en C subconjuntos disjuntos
que contienen a las instancias de cada clase X1 , . . . , XC , posteriormente se utiliza un algoritmo de
agrupamiento para obtener n1 , . . . , nC grupos, respectivamente. Después, cada partición se procesa
con el algoritmo µLTW B
, y nalmente se fusionan los subconjuntos obtenidos por cada partición y
por cada clase para obtener el subconjunto de salida X̂. Este proceso se realiza de forma iterativa
hasta que se cumple con un criterio de paro.
4.4 Resumen
En este capítulo se describió el diseño de cuatro estrategias IS, las cuales se dividen en EAs de
tipo GOP y MOP. Por ello, las variantes de estos métodos dependen del esquema de optimización
y el tipo de representación de los individuos utilizada. Por otro lado, los criterios de optimización
Para calcular la similitud entre las PDFs de ambos conjuntos se utiliza la distancia de Hellinger
H en (2.18), la cual recibe como parámetros de entrada dos funciones de densidad univariantes. Por
ello, para aproximar el cálculo de la similitud entre las PDFs multivariantes de X y X̂ se utiliza el
Por otro lado, en estos algoritmos se utilizan dos tipos de representación para codicar a los
basa en una nueva propuesta que emplea árboles de enlace. En el primer caso el espacio de búsqueda
consigue mediante el mapeo del problema IS a una tarea de optimización de un punto de corte en
los niveles de jerarquía de los árboles de enlace construidos para cada clase de X.
Adicionalmente, se diseña un algoritmo basado en una de las estrategias que utilizan árboles
de enlace para realizar la tarea IS en conjuntos de datos grandes mediante un esquema D&Q. En
este enfoque se utiliza un algoritmo de agrupamiento para dividir cada clase del conjunto original en
particiones que contienen instancias con características similares. De esta manera, cada partición se
procesa de forma independiente. Con este esquema se obtiene una ventaja considerable en términos de
La Tabla 4.1 resume las características más relevantes de las estrategias propuestas.
PDF mediante GOP contra siete EAs de tipo wrapper y cuatro algoritmos de IS clásicos. El segundo
marco experimental evalúa el desempeño de las soluciones obtenidas por los métodos propuestos que
utilizan la codicación CBE y la representación basada en árboles de enlace mediante GOP y MOP. El
tercer marco experimental compara el desempeño de las estrategias IS basadas en árboles de enlace
mediante GOP y MOP cuando se utilizan en conjuntos de datos con alta dimensionalidad. Finalmente,
el cuarto marco experimental realiza un análisis comparativo de dos esquemas de tipo D&Q evaluados
sobre conjuntos de datos grandes. El primero utiliza una versión de la estrategia IS basada en árboles
de enlace mediante GOP y el segundo emplea tres variantes de un EA de tipo wrapper que maximiza
99
100 5.1. Medidas de desempeño
Los esquemas de experimentación utilizan las siguientes medidas de desempeño para evaluar la
un modelo de aprendizaje supervisado, que ha sido entrenado con el subconjunto X̂, sobre un
HDC = 1 − H̄ (5.1)
Eciencia (E): Es un valor de compromiso entre los términos ACC, RR y HDC; se obtiene
√
(5.2)
3
E = ACC × RR × HDC
Estas medidas están denidas en el rango [0, 1] y deben tender a la unidad para obtener soluciones
con alta eciencia. En este contexto, una solución eciente es un subconjunto seleccionado X̂ que
tiene un bajo porcentaje de instancias (RR), logra una alta preservación de las PDFs de X (HDC) y
se utiliza para entrenar modelos de clasicación con alta capacidad de generalización (ACC).
5. Resultados 101
B
5.2 Experimentación 1: Evaluación de FW
estrategia IS basadas en preservar la PDF mediante GOP (descrita en la Sección 4.1.1) contra
El primer esquema experimental utiliza 40 conjuntos de datos de tamaño pequeño (hasta 5456
instancias), los cuales tienen variables en el dominio de los números reales y enteros. Estos datos se
obtuvieron del repositorio público KEEL [4] y de la base de datos de aprendizaje automático de la
UCI [35]. La Tabla 5.1 resume las características de los 40 conjuntos de datos.
El método FW
B
descrito en la Sección 4.1.1 utiliza el parámetro W = w×100, donde w ∈ (0, 1) es
del subconjuntos de datos seleccionado X̂. Por ello, para medir el impacto de este parámetro, se
evaluaron 10 variantes de esta estrategia utilizando w = {0.50, 0.55, 0.60, 0.65, . . . , 0.95}. Por otro
lado, el superíndice B indica el método de selección automática del ancho de banda utilizado en la
explica en la Sección 2.4.4. Por ello, en esta experimentación se emplea el selector robusto DPI, el
cual se describe en la Sección 2.4.5.2. Cabe señalar que este método tiene una complejidad O(N 2 ),
debido al cálculo del estimador ψ̂r (g) en (2.17). Sin embargo, en esta experimentación es factible
su uso debido a que se emplean conjuntos de datos pequeños. Por lo tanto, las 10 variantes de la
DPI , F DPI ,. . .,F DPI .
estrategia IS propuesta se identican como F50 55 95
102 5.2. Experimentación 1: Evaluación de FWB
Tabla 5.1: Características de los conjuntos de datos utilizados en el primer esquema experimental.
N es el número de instancias, D es la dimensionalidad, y C es el número de clases.
ID Nombre N D C ID Nombre N D C
1 Appendicitis 106 7 2 21 Ionosphere 351 33 2
2 Australian 690 14 2 22 Iris 150 4 3
3 Balance 625 4 3 23 Led7digit 500 7 10
4 Banana 5300 2 2 24 Mammographic 830 5 2
5 Bands 365 19 2 25 Monk-2 432 6 2
6 Breast 277 9 2 26 LIBRAS 360 90 15
7 Bupa 345 6 2 27 New Thyroid 215 5 3
8 Car 1728 6 4 28 Pima 768 8 2
9 Cleveland 297 13 5 29 Saheart 462 9 2
10 Contraceptive 1473 9 3 30 Sonar 208 60 2
11 Crx 653 15 2 31 Spectfheart 267 44 2
12 Dermatology 358 34 6 32 Tae 151 5 3
13 Flare 1066 11 8 33 Tic-Tac-Toe 958 9 2
14 German 1000 20 2 34 Vehicle 846 18 4
15 Glass 214 9 6 35 Vowel 990 13 11
16 Haberman 306 3 2 36 Wall Following 5456 2 4
17 Hayes-Roth 160 4 3 37 WDBC 569 30 2
18 Heart 270 13 2 38 Wine 178 13 3
19 Hepatitis 80 19 2 39 Wisconsin 683 9 2
20 Housevotes 232 16 2 40 Yeast 1484 8 10
Sección 2.2.1 para maximizar la función objetivo basada en (2.4), la cual realiza una suma ponderada
de los criterios ACC y RR con la misma importancia relativa (w = 0.5). Además, la codicación de
las soluciones utiliza la representación CBE. Se denieron siete variantes de este método en términos
de los siguientes clasicadores: Árbol de clasicación y regresión (CART, por sus siglas en inglés),
k NN, análisis lineal discriminante (LDA, por sus siglas en inglés), Bayes ingenuo (NB, por sus siglas
en inglés), análisis cuadrático discriminante (QDA, por sus siglas en inglés), RBFN y SVM. De esta
manera, los métodos comparativos se identican como WCART , WkNN , WLDA , WNB , WQDA , WRBFN
y WSVM . El Apéndice D muestra la metodología para sintonizar los hiperparámetros de los algoritmos
de aprendizaje supervisado empleados por los métodos wrapper y por la etapa de evaluación de las
medidas de desempeño.
5. Resultados 103
La Tabla 5.2 muestra los parámetros del GA utilizado en las 10 variantes del método FW
B
y las
Tabla 5.2: Parámetros del algoritmo GA empleado por los métodos comparativos.
Nombre Valor
Tamaño de la población (NP ) 100
Número de generaciones (G) 2000
Probabilidad de cruza (pc ) 0.9
Probabilidad de mutación (pm ) 1/N
Por otro lado, también se utilizan los cuatro algoritmos de IS clásicos CNN, ENN, DROP3 e ICF
remuestreo reduce la inuencia de la aleatoriedad introducida por la división de los datos [110]. La
Figura 5.1 muestra el marco de evaluación utilizado para medir la calidad de la solución de una
En este esquema de evaluación, un algoritmo IS procesa al conjunto X para obtener X̂, con el
cual se entrena un modelo de aprendizaje supervisado para medir su desempeño de clasicación sobre
un conjunto T en términos de ACC, así como los índices RR, HDC y E sobre el subconjunto X̂. Por
otro lado, también se utiliza el conjunto X para obtener un modelo de aprendizaje supervisado del
mismo tipo de clasicador entrenado con X̂, el cual es evaluado en términos de ACC. Finalmente,
diferentes clasicadores usando X̂ sin perder la capacidad de generalización. En este sentido, los
104 5.2. Experimentación 1: Evaluación de FWB
subconjuntos seleccionados por las técnicas de tipo wrapper se ajustan de acuerdo con las propiedades
del clasicador utilizado en el proceso IS para maximizar el término ACC. Sin embargo, podrían
perder similitud con X en términos de las PDFs cuando se reduce el número de instancias. Por lo
tanto, el subconjunto seleccionado puede ser inecaz para entrenar otros tipos de clasicadores. De
esta manera, para medir la capacidad de generalización de las instancias seleccionadas se proponen
por el método wrapper (e.g., medir la exactitud de un modelo de SVM entrenado con el
supervisado que no se utilizaron por el método wrapper (e.g., promediar la exactitud de los
modelos CART, k NN, LDA, NB, QDA y RBFN entrenados con el subconjunto X̂ que fue
Por otro lado, se utilizó la prueba no paramétrica de suma de rangos de Wilcoxon (α = 0.05)
para determinar las diferencias estadísticas entre los resultados de las medidas de desempeño de los
subconjuntos obtenidos por la estrategia propuesta y los métodos comparativos. La hipótesis nula
establece que los resultados de cada medida de desempeño pertenecen a muestras de distribuciones
predictivo de dos modelos de clasicación cualesquiera entrenados con X y X̂. La hipótesis nula
establece que los dos clasicadores tienen el mismo desempeño predictivo [74].
La plataforma de pruebas utilizó un ordenador con cuatro núcleos a 3.5 GHz (Intel i7 4770k)
La Figura 5.2 presenta los resultados de las medidas de desempeño de las variantes del método
si w → 1, los valores de ACC y HDC incrementan, mientras que RR y E disminuyen. Por el contrario,
si w → 0, sucede lo opuesto. No obstante, los cinco valores de w utilizados en el intervalo [0.50, 0.70]
obtienen la misma eciencia (E = 0.81). Por otro lado, todas las variantes alcanzan valores altos
de clasicación (ACC = 0.70) y una preservación de la PDF similar (HDC ≈ 0.93). Sin embargo,
DPI alcanza una mayor tasa de reducción (RR = 0.85).
F65
La Tabla 5.3 muestra la media (µ) y la desviación estándar (σ ) de los resultados de ACC de
los siete clasicadores utilizados en este estudio, los cuales fueron entrenados con los subconjuntos
106 5.2. Experimentación 1: Evaluación de FWB
todos los casos. Esto se debe a que el peso w = 0.95 dene la mayor relevancia de preservación
de la PDF; lo anterior se reeja en la baja tasa de reducción (RR = 0.42) y eciencia (E = 0.64)
DPI logra un desempeño de clasicación balanceado
obtenidas por este método. Por otro lado, F65
DPI (ACC = 0.67) y F DPI (ACC = 0.75).
(ACC = 0.70), el cual se encuentra entre F50 95
de este fenómeno podría estar relacionada con las propiedades del clasicador, el cual se basa en el
teorema de Bayes y asume la existencia de independencia condicional en las variables del conjunto de
datos (i.e., todas las características realizan una contribución igual e independiente con respecto a
la variable de etiquetas de clase). Por lo anterior, solo se requieren pocos patrones de entrenamiento
Figura 5.2: Promedio de los resultados de las medidas de desempeño de las variantes de FWB
obtenidos con 50 experimentos independientes. En la parte superior de cada marcador se indica el
valor de ACC y dentro de cada etiqueta cuadrada se muestra su respectivo valor de eciencia E.
5. Resultados 107
Tabla 5.3: Media (µ) y desviación estándar (σ) de ACC de los clasicadores entrenados con los
subconjuntos obtenidos por las variantes de B
FW . Los mejores desempeños se indican en negritas.
DPI
F50 DPI
F55 DPI
F60 DPI
F65 DPI
F70 DPI
F75 DPI
F80 DPI
F85 DPI
F90 DPI
F95
CART 0.68±0.07 0.69±0.06 0.70±0.06 0.71±0.05 0.72±0.05 0.72±0.05 0.72±0.05 0.73±0.05 0.74±0.05 0.76±0.04
k NN 0.69±0.05 0.70±0.05 0.70±0.05 0.70±0.05 0.71±0.05 0.71±0.05 0.72±0.05 0.73±0.04 0.75±0.04 0.76±0.04
LDA 0.69±0.06 0.70±0.05 0.71±0.05 0.71±0.05 0.71±0.05 0.72±0.05 0.72±0.05 0.73±0.05 0.74±0.04 0.76±0.04
NB 0.70±0.06 0.71±0.06 0.71±0.06 0.70±0.06 0.70±0.06 0.70±0.06 0.70±0.06 0.70±0.06 0.70±0.06 0.70±0.06
QDA 0.59±0.08 0.60±0.07 0.62±0.07 0.64±0.06 0.65±0.06 0.66±0.06 0.69±0.06 0.71±0.06 0.73±0.05 0.75±0.05
RBFN 0.69±0.06 0.70±0.06 0.71±0.05 0.71±0.05 0.72±0.05 0.72±0.05 0.73±0.05 0.74±0.04 0.75±0.04 0.77±0.04
SVM 0.67±0.12 0.68±0.12 0.68±0.12 0.69±0.12 0.70±0.12 0.70±0.12 0.71±0.11 0.73±0.10 0.76±0.08 0.78±0.06
µ ± σ 0.67±0.07 0.68±0.07 0.69±0.07 0.70±0.06 0.70±0.06 0.71±0.06 0.71±0.06 0.72±0.06 0.74±0.05 0.75±0.05
La Figura 5.3 muestra el resultado de los valores de desempeño de los métodos wrapper. Se
observa que la eciencia alcanzada por todos los algoritmos comparativos es similar. En este contexto,
WQDA obtiene el desempeño más alto (E = 0.77), aunque WCART y WSVM alcanzan un valor de
eciencia parecido (E = 0.75), el cual es el más bajo obtenido por los métodos wrapper. Con respecto
a la exactitud de clasicación, WQDA logra el desempeño más alto (ACC = 0.69). Sin embargo, los
métodos WCART y WSVM obtienen un resultado similar (ACC = 0.65), aún cuando este es el valor
más bajo reportado por todos los métodos de este estudio. En términos de la tasa de reducción, el
algoritmo WQDA logra el rendimiento más bajo (RR = 0.83), mientras que WRBFN obtiene el mejor
resultado (RR = 0.90). En relación con la preservación de la PDF, el método WQDA alcanza el
desempeño más alto (HDC = 0.84), mientras que WSVM obtiene el más bajo (HDC = 0.78).
La Tabla 5.4 muestra la media (µ) y la desviación estándar (σ ) de los resultados de ACC de
los siete clasicadores utilizados en este estudio, los cuales fueron entrenados con los subconjuntos
obtenidos por los métodos wrapper. Los resultados muestran que el mejor desempeño se obtiene al
evaluar el mismo clasicador utilizado en la estrategia de IS wrapper (i.e., evaluación de Tipo 1). Por
lo tanto, la diagonal principal de la Tabla 5.4 indica que se introduce un sesgo en los subconjuntos
seleccionados hacia el algoritmo de aprendizaje supervisado utilizado por los métodos wrapper.
108 5.2. Experimentación 1: Evaluación de FWB
Figura 5.3: Promedio de los resultados de las medidas de desempeño de los métodos wrapper
obtenidos con 50 experimentos independientes. En la parte superior de cada marcador se indica el
valor de ACC y dentro de cada etiqueta cuadrada se muestra su respectivo valor de eciencia E.
Tabla 5.4: Media (µ) y desviación estándar (σ) de ACC de los clasicadores entrenados con los
subconjuntos obtenidos por los métodos wrapper. Los mejores desempeños se indican en negritas.
WCART WkNN WLDA WNB WQDA WRBFN WSVM
CART 0.79±0.04 0.65±0.08 0.64±0.07 0.63±0.09 0.67±0.08 0.65±0.09 0.65±0.08
k NN 0.64±0.07 0.76±0.05 0.66±0.06 0.65±0.08 0.67±0.06 0.68±0.07 0.67±0.06
LDA 0.66±0.08 0.68±0.07 0.76±0.05 0.67±0.07 0.70±0.06 0.70±0.07 0.68±0.07
NB 0.65±0.09 0.65±0.09 0.66±0.07 0.78±0.05 0.67±0.07 0.67±0.09 0.65±0.09
QDA 0.53±0.10 0.59±0.08 0.57±0.09 0.56±0.09 0.75±0.06 0.58±0.09 0.57±0.10
RBFN 0.64±0.09 0.66±0.08 0.66±0.07 0.66±0.08 0.69±0.07 0.70±0.06 0.65±0.08
SVM 0.63±0.13 0.70±0.11 0.68±0.10 0.68±0.10 0.69±0.10 0.69±0.11 0.72±0.11
µ±σ 0.65±0.09 0.67±0.08 0.66±0.07 0.66±0.08 0.69±0.07 0.67±0.08 0.65±0.08
La Figura 5.4 muestra el resultado de los valores de desempeño de los métodos clásicos. El
algoritmo CNN obtuvo el segundo mejor valor de exactitud de clasicación (ACC = 0.71) y
preservación de PDF (HDC = 0.89) de las técnicas clásicas, y superó a ENN en términos de
eciencia (E = 0.71) y tasa de reducción (RR = 0.59). Por otro lado, ENN obtuvo el valor más
alto de desempeño de clasicación (ACC = 0.76) y preservación de PDF (HDC = 0.90), aunque
alcanzó la peor eciencia de todos los métodos (E = 0.51), esto debido a una pobre tasa de reducción
(RR = 0.24). Con respecto a los método híbridos, estos lograron una mejor tasa de reducción y
5. Resultados 109
eciencia, aunque menor exactitud de clasicación y preservación de PDF que CNN y ENN. Por
ejemplo, DROP3 obtuvo una mejor tasa de reducción (RR = 0.83) y eciencia (E = 0.74) que
ICF, aunque menor exactitud de clasicación (ACC = 0.67) y preservación de PDF (HDC = 0.76)
que todos los métodos clásicos. Por el contrario, ICF logró una mejor exactitud de clasicación
(ACC = 0.70) y preservación de PDF (HDC = 0.81), aunque una tasa de reducción (RR = 0.72)
La Tabla 5.5 muestra la media (µ) y la desviación estándar (σ ) de los resultados de ACC de
los siete clasicadores utilizados en este estudio, los cuales fueron entrenados con los subconjuntos
obtenidos por los métodos clásicos. Los resultados muestran que ENN supera a sus contrapartes
en todos los clasicadores, esto es debido a que se trata de un método de edición que elimina
instancias que están rodeadas de patrones de diferentes clases. Sin embargo, este método remueve
pocas instancias del conjunto original, por lo que alcanza una eciencia muy baja. Por el contrario,
los otros métodos eliminan una mayor cantidad de instancias y logran desempeños de clasicación
Figura 5.4: Promedio de los resultados de las medidas de desempeño de los métodos clásicos
obtenidos con 50 experimentos independientes. En la parte superior de cada marcador se indica el
valor de ACC y dentro de cada etiqueta cuadrada se muestra su respectivo valor de eciencia E.
110 5.2. Experimentación 1: Evaluación de FWB
Tabla 5.5: Media (µ) y desviación estándar (σ) de de los clasicadores entrenados con los
ACC
subconjuntos obtenidos por los métodos clásicos. Los mejores desempeños se indican en negritas.
CNN ENN DROP3 ICF
CART 0.72±0.06 0.77±0.04 0.69±0.07 0.73±0.05
k NN 0.72±0.04 0.78±0.03 0.72±0.05 0.73±0.05
LDA 0.72±0.05 0.76±0.04 0.70±0.06 0.72±0.05
NB 0.68±0.06 0.71±0.06 0.65±0.08 0.68±0.07
QDA 0.67±0.06 0.73±0.05 0.60±0.08 0.65±0.07
RBFN 0.72±0.05 0.75±0.04 0.65±0.07 0.71±0.05
SVM 0.73±0.07 0.78±0.05 0.72±0.08 0.72±0.07
µ±σ 0.71±0.06 0.76±0.04 0.67±0.07 0.70±0.06
las técnicas clásicas. La variante del algoritmo propuesto se elige a partir de los resultados mostrados
en la Sección 5.2.4, en donde se observa que dicha estrategia presenta un rendimiento alto con
variante del método propuesto supera a sus contrapartes en términos de eciencia (E = 0.81) y
DPI
preservación de la PDF (HDC = 0.93). Con respecto a la tasa de reducción de instancias, F65
alcanza un porcentaje alto (RR = 0.85), lo cual es competitivo con respecto a WRBFN (RR = 0.90)
y DROP3 (RR = 0.83), que son los métodos comparativos que presentan mayor porcentaje de
DPI obtiene una mayor exactitud de clasicación que todas las estrategias
reducción. Además, F65
wrapper (ACC = 0.70). No obstante, este método es superado por CNN y ENN en términos de
ACC, aunque estas técnicas clásicas obtienen una tasa de reducción muy baja (RR < 0.60).
La Tabla 5.6 presenta los resultados de la prueba de la suma de rangos de Wilcoxon. Se muestran
DPI con los métodos wrapper y las
los valores-p obtenidos al comparar las medidas de desempeño de F65
técnicas clasicas. Los resultados señalan que la variante propuesta no presenta diferencia estadística
signicativa con ninguno de los algoritmos comparados en relación con la medida ACC (p > 0.05).
5. Resultados 111
Por otro lado, solo se ve superada por los métodos WCART , WNB , WRBFN y WSVM con respecto a
CNN y ENN, con quienes no presenta diferencia estadística. Asimismo, la estrategia propuesta es
Figura 5.5: Promedio de los resultados de las medidas de desempeño de los métodos comparativos
obtenidos con 50 experimentos independientes. En la parte superior de cada barra se muestra la
medida de desempeño correspondiente. Los mejores resultados se indican en negritas.
Tabla 5.6: Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el valor-p
de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan: (+) estadísticamente
DPI .
superior, (=) estadísticamente igual, y (−) estadísticamente inferior con respecto al método F65
WCART WkNN WLDA WNB WQDA WRBFN WSVM CNN ENN DROP3 ICF
ACC 0.16 (=) 0.44 (=) 0.33 (=) 0.24 (=) 0.92 (=) 0.41 (=) 0.20 (=) 0.70 (=) 0.08 (=) 0.51 (=) 0.79 (=)
RR 0.00 (+) 0.92 (=) 0.14 (=) 0.04 (+) 0.19 (=) 0.00 (+) 0.01 (+) 0.00 (−) 0.00 (−) 0.15 (=) 0.00 (−)
HDC 0.00 (−) 0.00 (−) 0.00 (−) 0.00 (−) 0.00 (−) 0.00 (−) 0.00 (−) 0.06 (=) 0.78 (=) 0.00 (−) 0.00 (−)
E 0.00 (−) 0.00 (−) 0.00 (−) 0.00 (−) 0.02 (−) 0.01 (−) 0.00 (−) 0.00 (−) 0.00 (−) 0.00 (−) 0.00 (−)
Debido a que los dos tipos de evaluación están denidos para los métodos wrapper, la capacidad
DPI se mide con los mismos clasicadores que emplea cada método comparativo
de generalización de F65
112 5.2. Experimentación 1: Evaluación de FWB
desempeño de los clasicadores restantes: k NN, LDA, NB, QDA, RBFN y SVM.
La Figura 5.6 muestra los resultados de los dos tipos de evaluación obtenidos con los subconjuntos
DPI y los siete métodos wrapper. Se realizan siete comparativas de resultados
seleccionados por F65
independientes que se resumen por medio de diagramas de caja. Además en la parte superior de cada
en relación con los dos tipos de evaluación en ninguna de las siete comparaciones (p > 0.05). Esto
indica que los subconjuntos obtenidos por la estrategia propuesta pueden entrenar diferentes tipos de
criterio utilizado para preservar la PDF del conjunto de datos original y también a que no se considera
Por otro lado, los resultados de la prueba de Wilcoxon señalan que los métodos wrapper obtienen
mejores desempeños en la evaluación del Tipo 1 que del Tipo 2 en casi todos los casos (p < 0.05);
únicamente WRBFN logra un rendimiento similar en ambos tipos de exactitud (p = 0.20). Estos
resultados conrman que los subconjuntos obtenidos por los métodos wrapper están sesgados hacia
las características del clasicador utilizado en la función objetivo, limitando la reutilización de los
correspondientes con los método comparativos expuestos en la Figura 5.6, en donde µ y σ denotan
media y desviación estándar, mientras que MAD indica desviación absoluta mediana.
Los valores mostrados indican que los métodos wrapper alcanzan mejores desempeños en casi
DPI obtiene una
todos los estadísticos, ya que únicamente la comparativa con WRBFN muestra que F65
5. Resultados 113
Figura 5.6: Resultados de la evaluación de Tipo 1 y Tipo 2 utilizando siete clasicadores distintos
que fueron entrenados con los subconjuntos obtenidos por los métodos comparativos. En la parte
superior de cada par de diagramas de caja se muestra el valor-p de la prueba de la suma de rangos
de Wilcoxon. En negritas, p < 0.05.
media superior a dicho método wrapper (µ = 0.71). Por otro lado, la prueba de Wilcoxon señala que
la estrategia propuesta es estadísticamente similar a WkNN , WLDA , WNB , WRBFN y WSVM (p > 0.05).
Sin embargo, los resultados de WCART y WQDA muestran diferencias estadísticas signicativas con
DPI (p < 0.05).
respecto al desempeño obtenido por F65
Tabla 5.7: Estadísticos de los resultados comparativos de la evaluación de Tipo 1 entre F65DPI y los
métodos wrapper. En la parte inferior se muestra el valor-p de la prueba de la suma de rangos de
Wilcoxon. Los mejores resultados se indican en negritas, y también p < 0.05.
DPI
F65 WCART DPI
F65 WkNN DPI
F65 WLDA DPI
F65 WNB DPI
F65 WQDA DPI
F65 WRBFN DPI
F65 WSVM
µ 0.71 0.79 0.70 0.76 0.71 0.76 0.70 0.78 0.64 0.75 0.71 0.70 0.69 0.72
σ 0.17 0.14 0.17 0.14 0.14 0.13 0.18 0.14 0.19 0.16 0.16 0.14 0.16 0.15
Mediana 0.68 0.80 0.70 0.79 0.73 0.74 0.69 0.75 0.63 0.75 0.69 0.70 0.68 0.71
MAD 0.14 0.11 0.13 0.12 0.12 0.11 0.14 0.10 0.16 0.10 0.14 0.09 0.10 0.10
Máximo 1.00 1.00 0.97 0.98 0.97 0.97 0.97 0.97 0.93 0.98 0.97 0.97 0.99 0.96
Mínimo 0.37 0.52 0.39 0.46 0.47 0.52 0.35 0.46 0.10 0.33 0.37 0.42 0.22 0.24
Valor-p − 0.04 − 0.12 − 0.16 − 0.07 − 0.00 − 0.77 − 0.41
DPI
La Tabla 5.8 muestra los estadísticos de la evaluación de Tipo 2. Los resultados indican que F65
supera consistentemente el desempeño de todos los métodos wrapper en términos del estadístico
µ y la mediana. Sin embargo, la prueba de Wilcoxon indica que el método propuesto solo es
estadísticamente superior a WCART (p < 0.05), y no presenta diferencias estadísticas signicativas
Tabla 5.8: Estadísticos de los resultados comparativos de la evaluación de Tipo 2 entre F65DPI y los
métodos wrapper. En la parte inferior se muestra el valor-p de la prueba de la suma de rangos de
Wilcoxon. Los mejores resultados se indican en negritas, y también p < 0.05.
DPI
F65 WCART DPI
F65 WkNN DPI
F65 WLDA DPI
F65 WNB DPI
F65 WQDA DPI
F65 WRBFN DPI
F65 WSVM
µ 0.69 0.63 0.69 0.66 0.69 0.64 0.69 0.64 0.70 0.68 0.69 0.66 0.70 0.64
σ 0.15 0.12 0.15 0.13 0.16 0.15 0.15 0.12 0.15 0.15 0.15 0.13 0.15 0.13
Mediana 0.70 0.65 0.70 0.66 0.69 0.66 0.69 0.66 0.70 0.69 0.70 0.67 0.70 0.65
MAD 0.12 0.07 0.12 0.08 0.13 0.12 0.13 0.08 0.12 0.12 0.12 0.09 0.12 0.09
Máximo 0.93 0.83 0.93 0.88 0.95 0.93 0.93 0.92 0.93 0.93 0.93 0.93 0.93 0.90
Mínimo 0.43 0.36 0.41 0.40 0.41 0.32 0.42 0.40 0.42 0.31 0.40 0.43 0.41 0.40
Valor-p − 0.04 − 0.23 − 0.18 − 0.10 − 0.51 − 0.31 − 0.09
La Figura 5.7 presenta el conteo de los conjuntos de datos para los que no hay rechazos de la
hipótesis nula en la prueba de McNemar. En este contexto, un conteo alto indica que la estrategia IS
en cuestión obtiene subconjuntos de datos que pueden entrenar clasicadores para obtener modelos
con desempeño similar a los entrenados con X. En este análisis se comparan todas las variantes de la
estrategia FW
B
, los métodos wrapper y los algoritmos clásicos. Cabe señalar que el conteo se realiza
Con respecto al método propuesto, los resultados muestran que cuanto más alto es el valor del
DPI obtuvo la mayor cantidad
peso w, menor es el número de rechazos de la hipótesis nula. Por ello, F95
de subconjuntos seleccionados que no tienen una diferencia estadística con X, con un total de 117.
En relación con los métodos wrapper, WQDA tuvo un mayor conteo que sus contrapartes, con un
total de 28. Además, nótese que para el clasicador CART y k NN, los métodos WCART y WkNN
lograron conteos de 13 y 14, respectivamente; los cuales representan los valores más altos en el
contexto de evaluar el mismo clasicador que se utilizó por el método de selección. Sin embargo,
este mismo fenómeno se repite con menos conteos en los métodos WLDA y WQDA , cuando se evalúan
los clasicadores LDA y QDA, respectivamente; con un conteo de siete y 10, en cada caso. Por otro
lado, WSVM es el método que obtuvo la mayor cantidad de rechazos de la hipótesis nula, ya que
los subconjuntos obtenidos únicamente lograron modelos de clasicación similares a los entrenados
5. Resultados 115
por X en un total de 11 ocasiones. En cuanto a los algoritmos clásicos, ENN consiguió un mayor
conteo de no rechazos de la hipótesis nula para la mayoría de los clasicadores; sólo fue superado
marginalmente por CNN en el caso del clasicador RBFN y empató con este mismo método en
cuanto a la evaluación de k NN. En este contexto, ENN obtuvo un conteo total de 70, el cual es
DPI , que logró un conteo total de 63.
competitivo con la estrategia F90
En el caso de los conteos con respecto a todos los métodos IS para un mismo clasicador, el
algoritmo NB alcanzó el valor más alto, con un total de 205. Por el contrario, QDA obtuvo la
mayor cantidad de rechazos de la hipótesis nula, en donde únicamente en 53 ocasiones los modelos
obtener modelos con un desempeño similar a los entrenados por el conjunto de datos original.
La Figura 5.8 muestra el conjunto de datos sintético bidimensional llamado Banana, el cual se
DPI con respecto a
utiliza en este caso de estudio para comparar el desempeño de la estrategia F65
los métodos wrapper y las técnicas clásicas. Los resultados de ACC se calculan como la media del
En la parte inferior de la Figura 5.8 se muestran los resultados de IS obtenidos por los métodos
DPI obtuvo un desempeño de clasicación competitivo (ACC = 0.74) con respecto
comparados. F65
a WLDA , el cual alcanzó el mejor rendimiento (ACC = 0.79). Por otro lado, tanto ICF como
WkNN mostraron el desempeño de clasicación más bajo (ACC = 0.69). Con respecto a la tasa de
reducción, el método propuesto logra una reducción competitiva (ACC = 0.86) en relación con los
116 5.2. Experimentación 1: Evaluación de FWB
métodos comparados, en donde DROP3 alcanzó el mayor porcentaje de reducción (RR = 0.92),
mientras que ENN obtuvo el peor rendimiento en esta medida de desempeño (RR = 0.12). En
DPI logra el mejor desempeño con respecto a todos los
cuanto a la preservación de la PDF, F65
métodos comparativos (HDC = 0.98), mientras que ICF obtiene el valor más bajo (HDC = 0.79).
DPI es el método que alcanza la mayor eciencia (E = 0.85), esto es debido a que
Por lo anterior, F65
En la parte superior derecha de la Figura 5.8 se muestran las PDFs por clase y por dimensión
DPI , WLDA
estimadas a partir del conjunto de datos original X y los subconjuntos obtenidos por F65
y ENN, los cuales obtienen los mejores resultados en términos de la preservación de la PDF
(HDC > 0.93). En la parte inferior de cada gráca se muestran tres valores de HDC que indican
la medida de similitud de la PDF de X con respecto a cada método comparativo. En este ejemplo
DPI logra una mejor preservación de todas las PDFs con respecto a los otros dos
se observa que F65
El primer esquema experimental se diseñó para evaluar el desempeño del método propuesto FW
B
,
el cual está basado en preservar la PDF mediante GOP. Se utilizaron siete EAs de tipo wrapper y
cuatro técnicas clásicas como métodos comparativos. Debido a que el enfoque propuesto depende
Por otra parte, también se realizó un análisis de los resultados de los métodos wrapper y las
técnicas clásicas. Con esto se evaluó el rendimiento de estas estrategias en términos de las medidas
de desempeño para compararlas con el método propuesto. A partir de los resultados de las medidas
Figura 5.8: Superior izquierda: Conjunto de datos sintético bidimensional Banana de 5300 instancias
y dos clases. Superior derecha: Comparación de las PDFs estimadas a partir de X y los subconjuntos
obtenidos por F65DPI , WLDA y ENN. Inferior: Resultados de 12 métodos comparativos. Las medidas
de desempeño se muestran en la parte superior de cada gráca como (ACC, RR, HDC, E).
5. Resultados 119
un análisis de los resultados de este método y los algoritmos comparativos. Además, se utilizaron dos
evaluaciones identicadas como Tipo 1 y Tipo 2, de la medida ACC, para analizar la capacidad de
Finalmente se presentó un caso de estudio con el conjunto de datos Banana en donde se muestra
DPI es competitivo en términos de
que F65 ACC y RR con respecto a los métodos que obtienen los
mejores resultados de estas medidas de desempeño. Por otra parte, la estrategia propuesta demuestra
ser superior a todos los algoritmos comparativos en relación con la preservación de la PDF (HDC)
estrategias IS propuestas
El segundo marco experimental se diseñó para evaluar el desempeño de las cuatro estrategias IS
propuestas basadas en GOP y MOP descritas en las Secciones 4.1 y 4.2, las cuales se comparan con
Se utilizaron 21 conjuntos de datos: seis sintéticos y 15 del mundo real, de los cuales 10 son de
tamaño mediano (entre 5000 y 20000 instancias) y tienen variables en el dominio de los números
reales y enteros, mientras que el resto se consideran de tamaño pequeño (menor que 5000 instancias).
Los datos reales se obtuvieron del repositorio público KEEL [4]. La Tabla 5.9 resume las características
Tabla 5.9: Características de los conjuntos de datos utilizados en el segundo esquema experimental.
N es el número de instancias, D es la dimensionalidad, y C es el número de clases. Los conjuntos
sintéticos y reales se indican con los IDs S{·} y R{·} , respectivamente.
ID Nombre N D C
S1 Banana 5300 2 2
S2 Concentric 1617 2 3
S3 Gaussians 1800 2 3
S4 Horseshoes 1500 2 2
S5 Ripley's dataset 1250 2 2
S6 Spirals 1500 2 2
R1 Letter 20000 16 26
R2 Magic gamma telescope 19020 10 2
R3 Optical recognition digits 5620 64 10
R4 Page blocks 5472 10 5
R5 Pen-based 10992 16 10
R6 Phoneme 5404 5 2
R7 Satellite image (landsat) 6435 36 6
R8 Segmentation 2310 19 7
R9 Spambase 4597 57 2
R10 Texture 5500 40 11
R11 Thyroid disease 7200 21 3
R12 Vowel recognition data 990 13 11
R13 Winequality red 1599 11 6
R14 Winequality white 4898 11 7
R15 Yeast 1484 8 10
En esta experimentación se evaluó el desempeño de las cuatro estrategias IS propuestas, las cuales
se basan en dos criterios de optimización que consisten en maximizar la preservación de la PDF del
conjunto de datos original X y minimizar la cardinalidad de X̂. Por otra parte, para codicar a los
que LTW
B
y EMOIS-LT emplean un nuevo enfoque basado en árboles de enlace.
Estos algoritmos utilizan el método KDE, descrito en la Sección 2.4.3, para estimar las C × D
PDFs de X y X̂. Sin embargo, dicha técnica requiere ajustar el valor del ancho de banda mediante un
5. Resultados 121
selector automático, como la regla DPI, la cual representa un método óptimo, aunque su complejidad
es O(N 2 ). Debido a esto, su uso se ve limitado por el tamaño de los conjuntos de datos medianos.
Por lo tanto, en esta experimentación se utiliza la regla SIL (2.12), la cual tiene una complejidad
para ponderar con la misma importancia relativa a los dos criterios de optimización de F en (4.3),
y LT en (4.11). Por lo tanto, las variantes de las estrategias propuestas basadas en GOP utilizadas
SIL y LT SIL .
en esta experimentación se identican como F50 50
Por otra parte, los métodos EMOIS-F (Algoritmo 13) y EMOIS-LT (Algoritmo 18) obtienen un
conjunto de soluciones no dominadas que muestran una relación de compromiso entre la preservación
proyección ortogonal descrito en la Sección 2.3.3. Esta técnica elige a las soluciones con las máximas
una métrica de distancia. Por ello, para analizar el impacto que tienen diferentes métricas en términos
de las medidas de desempeño de los subconjuntos obtenidos, los métodos propuestos se evalúan
Yang, Mq , dada en (2.21), con q = {0.5, 1, 2, ∞}, en donde para q = 1, ambas distancias son iguales.
SIL y EMOIS-LT , respectivamente.
De esta manera, se conforman siete variantes de LT50
La primera comparación es contra los métodos wrapper WkNN y WSVM , los cuales emplean a los
clasicadores más utilizados en la literatura para realizar la tarea IS mediante EAs [13, 21, 87].
Además, para evaluar las medidas de desempeño se utilizan los siguientes clasicadores: k NN,
perceptrón multicapa (MLP, por sus siglas en inglés), NB, RBFN, bosque aleatorio (RF, por sus
La Tabla 5.10 muestra los parámetros de los EAs utilizados por las variantes de las estrategias
Tabla 5.10: Parámetros de los EAs empleados por las estrategias propuestas y los métodos wrapper.
Estrategias Métodos
Nombre
propuestas wrapper
Tamaño de la población (NP ) 100 100
Número de generaciones (G) 1000 1000
Probabilidad de cruza (pc ) 0.9 0.9
Probabilidad de mutación (pm ) 0.1 1/N
Por otro lado, también se emplean las cuatro técnicas clásicas CNN, ENN, DROP3 e ICF utilizadas
entrenamiento (X) y prueba (T). En esta experimentación se sigue el marco de evaluación que se
Por otro lado, se aplicó la prueba no paramétrica de Kruskal-Wallis para comparaciones múltiples,
las variantes del enfoque propuesto con respecto a las cuatro medidas de desempeño [55, 63]. Además,
las diferencias estadísticas entre los métodos comparativos. Finalmente, la prueba estadística de
McNemar (α = 0.05) se utilizó para comparar el desempeño predictivo de los modelos de clasicación
La Figura 5.9 muestra los resultados comparativos de los métodos propuestos que utilizan
esquemas GOP. Las variantes basadas en árboles de enlace alcanzan valores de desempeño similares
entre sí, lo cual se observa en la medida de eciencia (E = 0.83), que es la misma para todos los casos.
SIL obtiene una baja eciencia (E = 0.75) debido a un pobre rendimiento
Por otro lado, el método F50
en la tasa de reducción (RR = 0.54). Una posible explicación de este fenómeno se relaciona con la
representación de los individuos, ya que la codicación CBE modela a las soluciones en un espacio de
búsqueda binario que crece exponencialmente en función del número de instancias. Debido a esto,
los conjuntos de datos de tamaño mediano representan problemas con espacios de búsqueda más
los EAs considera 1000 generaciones menos que la experimentación anterior, por lo que el número
SIL podría estar
de evaluaciones de la función objetivo es menor. Por estas razones, la variante F50
Figura 5.9: Resultados de las estrategias GOP. En la parte superior de cada barra se muestra la
medida de desempeño correspondiente. Los mejores resultados se indican en negritas.
La Tabla 5.11 muestra los resultados de la corrección de Bonferroni de las variantes GOP con
respecto a las medidas ACC y RR. SIL no presenta diferencia estadística signicativa
El método F50
SIL en términos de la exactitud de clasicación (p > 0.05), aunque es inferior en cuanto a la
con LT50
tasa de reducción (p = 0.00). Además, las variantes basadas en árboles de enlace tienen el mismo
La Tabla 5.12 presenta los resultados de la corrección de Bonferroni de las variantes GOP en
SIL y
cuanto a las medidas E y HDC. Los valores-p indican que existe signicancia estadística entre F50
los métodos basados en árboles de enlace (p = 0.00). En este sentido, los resultados de la Figura 5.9
SIL superan al método F SIL en términos de la eciencia (E = 0.83),
revelan que las variantes de LT50 50
aunque tienen un menor desempeño en cuanto a la preservación de la PDF (HDC < 0.89).
Tabla 5.11: Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para ACC, y la matriz triangular inferior los valores-p para RR. En negritas, p < 0.05.
SIL
LT50 SIL
F50
L0.5 L2 L∞ M0.5 M1 M2 M∞
L0.5 - 1.00 1.00 1.00 1.00 1.00 1.00 0.65
L2 1.00 - 1.00 1.00 1.00 1.00 1.00 0.56
L∞ 1.00 1.00 - 1.00 1.00 1.00 1.00 0.65
SIL
LT50 M0.5 1.00 1.00 1.00 - 1.00 1.00 1.00 0.74
M1 1.00 1.00 1.00 1.00 - 1.00 1.00 0.46
M2 1.00 1.00 1.00 1.00 1.00 - 1.00 0.56
M∞ 1.00 1.00 1.00 1.00 1.00 1.00 - 0.70
SIL
F50 0.00 0.00 0.00 0.00 0.00 0.00 0.00 -
Tabla 5.12: Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para E, y la matriz triangular inferior los valores-p para HDC. En negritas, p < 0.05.
SIL
LT50 SIL
F50
L0.5 L2 L∞ M0.5 M1 M2 M∞
L0.5 - 1.00 1.00 1.00 1.00 1.00 1.00 0.00
L2 1.00 - 1.00 1.00 1.00 1.00 1.00 0.00
L∞ 1.00 1.00 - 1.00 1.00 1.00 1.00 0.00
SIL
LT50 M0.5 1.00 1.00 1.00 - 1.00 1.00 1.00 0.00
M1 1.00 1.00 1.00 1.00 - 1.00 1.00 0.00
M2 1.00 1.00 1.00 1.00 1.00 - 1.00 0.00
M∞ 1.00 1.00 1.00 1.00 1.00 1.00 - 0.00
SIL
F50 0.00 0.00 0.00 0.00 0.00 0.00 0.00 -
La Figura 5.10 muestra los resultados comparativos de las medidas de desempeño obtenidas por
las estrategias MOP. Al igual que los algoritmos GOP, los métodos basados en la construcción de
5. Resultados 125
árboles de enlace obtienen resultados similares entre sí. Lo anterior se observa en el valor de la
eciencia, que es aproximadamente igual para todas las variantes de EMOIS-LT (E ≈ 0.83). Por
otro lado, la estrategia EMOIS-F logra la tasa de reducción más baja (RR = 0.74). No obstante,
este método alcanza una eciencia similar a sus contrapartes (E = 0.83), debido a que obtiene los
Figura 5.10: Resultados de las estrategias MOP. En la parte superior de cada barra se muestra la
medida de desempeño correspondiente. Los mejores resultados se indican en negritas.
La Tabla 5.13 muestra los resultados de la corrección de Bonferroni de las estrategias MOP
en términos de ACC y RR. En este caso, ninguna variante de los métodos basados en árboles de
enlace tiene una diferencia estadística signicativa con respecto a EMOIS-F (p = 1.00). En relación
con la tasa de reducción, únicamente la variante de EMOIS-LT que utiliza la métrica L∞ presenta
signicancia estadística marginal con respecto a EMOIS-F (p = 0.04); en los otros casos no hay
evidencia de una diferencia estadística entre ambos métodos comparativos (p > 0.05).
La Tabla 5.14 presenta los resultados de la corrección de Bonferroni de las estrategias MOP con
respecto a E y HDC. Los resultados comprueban que no existe diferencia estadística signicativa
entre EMOIS-LT y EMOIS-F en términos de la medida de eciencia. Por otro lado, todas las
variantes basadas en árboles de enlace presentan signicancia estadística con EMOIS-F en términos
Tabla 5.13: Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para ACC, y la matriz triangular inferior los valores-p para RR. En negritas, p < 0.05.
EMOIS-LT
EMOIS-F
L0.5 L2 L∞ M0.5 M1 M2 M∞
L0.5 - 1.00 1.00 1.00 1.00 1.00 1.00 1.00
L2 1.00 - 1.00 1.00 1.00 1.00 1.00 1.00
L∞ 1.00 1.00 - 1.00 1.00 1.00 1.00 1.00
EMOIS-LT M0.5 1.00 1.00 1.00 - 1.00 1.00 1.00 1.00
M1 1.00 1.00 1.00 1.00 - 1.00 1.00 1.00
M2 1.00 1.00 1.00 1.00 1.00 - 1.00 1.00
M∞ 1.00 1.00 1.00 1.00 1.00 1.00 - 1.00
EMOIS-F 0.15 0.19 0.04 0.16 0.17 0.22 0.22 -
Tabla 5.14: Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para E, y la matriz triangular inferior los valores-p para HDC. En negritas, p < 0.05.
EMOIS-LT
EMOIS-F
L0.5 L2 L∞ M0.5 M1 M2 M∞
L0.5 - 1.00 1.00 1.00 1.00 1.00 1.00 1.00
L2 1.00 - 1.00 1.00 1.00 1.00 1.00 1.00
L∞ 1.00 1.00 - 1.00 1.00 1.00 1.00 1.00
EMOIS-LT M0.5 1.00 1.00 1.00 - 1.00 1.00 1.00 1.00
M1 1.00 1.00 1.00 1.00 - 1.00 1.00 1.00
M2 1.00 1.00 1.00 1.00 1.00 - 1.00 1.00
M∞ 1.00 1.00 1.00 1.00 1.00 1.00 - 1.00
EMOIS-F 0.00 0.00 0.00 0.00 0.00 0.00 0.00 -
En el presente análisis se compara el rendimiento de las estrategias propuestas con los métodos
WkNN , WSVM y las técnicas clásicas. En relación con los algoritmos basados en árboles de enlace,
para esta comparación se eligió una variante GOP y MOP. En este sentido, los resultados de las
Secciones 5.3.4 y 5.3.5 indican que no hay diferencia estadística en las medidas de desempeño de
SIL y EMOIS-LT cuando se utilizan diferentes métricas de distancia. Por ello, no se cuenta con
LT50
un criterio denitivo para seleccionar una variante. Así, en este análisis se elige a las estrategias
propuestas que emplean la métrica de Yang de orden uno (M1 ), debido a que es equivalente a la
La Figura 5.11 muestra el desempeño obtenido por los métodos propuestos y los algoritmos
comparativos. Cada círculo tiene un radio igual a la unidad, el cual se divide en cuatro secciones del
mismo tamaño, donde el porcentaje de área sombreada representa el valor del índice de rendimiento
correspondiente.
clasicación con respecto a los métodos propuestos (ACC > 0.81). Sin embargo, estas estrategias
obtienen una tasa de reducción baja (RR < 0.75). Esto se traduce en una penalización notable de la
SIL (E = 0.75), a pesar de que esta variante logra el mayor porcentaje de
medida de eciencia de F50
preservación de la PDF entre los métodos comparados (HDC = 0.97). Por otro lado, el algoritmo
EMOIS-F no se ve penalizado en cuanto a la medida de eciencia, sino que obtiene el valor más
alto de este índice (E = 0.83), esto se debe a que alcanza el segundo mejor desempeño en términos
del complemento de la distancia de Hellinger (HDC = 0.96) y la tasa de reducción no es tan baja
SIL (RR = 0.54).
(RR = 0.74) como en el caso de F50
los métodos comparativos (E = 0.83). Lo anterior se debe a que estas variantes logran un mejor
SIL y EMOIS-F en cuanto a la tasa de reducción (RR > 0.81) y la preservación
compromiso que F50
SIL obtiene el porcentaje de reducción más alto entre los
de la PDF (HDC > 0.86). Además, LT50
métodos comparativos, empatando con DROP3 (RR = 0.89), aunque el método propuesto logra
mayores tasas de preservación de la PDF (HDC = 0.87) y exactitud de clasicación (ACC = 0.77)
que este algoritmo clásico. Por otro lado, EMOIS-LT obtiene un mayor desempeño en términos de
SIL , WSVM , CNN, DROP3 e ICF.
la exactitud de clasicación (ACC = 0.80) que LT50
Los algoritmos wrapper obtienen una eciencia competitiva (E > 0.80). En particular, WkNN
SIL ,
consigue el mejor rendimiento de esta medida de desempeño (E = 0.83), empatando con LT50
EMOIS-LT y EMOIS-F . Lo anterior se debe a que estas técnicas alcanzan valores competitivos de
preservación de la PDF (HDC = 0.90) y tasa de reducción (RR > 0.77). Además, el algoritmo
128 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas
WkNN obtiene una mayor exactitud de clasicación (ACC = 0.81) que EMOIS-LT y es competitivo
SIL y EMOIS-F .
con respecto a F50
En relación con los métodos clásicos, CNN e ICF logran la eciencia más alta (E = 0.79),
esto se debe a que alcanzan medidas similares de exactitud de clasicación (ACC > 0.77) y una
preservación de la PDF competitiva (HDC > 0.81). Por otro lado, ENN obtiene la eciencia más
baja (E = 0.46), debido a que logra una tasa de reducción muy pobre (RR = 0.12), a pesar de que
consigue la mejor preservación de la PDF entre los métodos wrapper y clásicos (HDC = 0.93). Por
otra parte, DROP3 alcanza la peor eciencia (E = 0.77) después de ENN, esto se debe a un alto
desempeño en la tasa de reducción (RR = 0.89) combinado con bajos porcentajes de preservación
Figura 5.11: Resultados de los métodos comparativos. El área sombreada de cada sección del círculo
unitario indica el porcentaje obtenido de la medida de desempeño correspondiente y sus respectivos
valores se muestran en el apartado superior de cada cuadro como (ACC,RR,HDC,E).
Las Tablas 5.15 - 5.18 muestran los resultados de la prueba de la suma de rangos de Wilcoxon
al comparar las medidas de desempeño de los métodos wrapper y las cuatro técnicas clásicas con
SIL , F SIL , EMOIS-LT y EMOIS-F , respectivamente.
LT50 50
5. Resultados 129
que no existe diferencia estadística signicativa en términos de ACC entre el método propuesto y
cinco algoritmos comparativos (p > 0.05). Por el contrario, ENN es estadísticamente superior a
SIL (p = 0.01) ya que obtiene un mayor desempeño de clasicación (ACC = 0.84). Con respecto
LT50
SIL supera a todos los métodos comparativos a excepeción de DROP3,
a la tasa de reducción, LT50
con el cual no presenta diferencia estadística signicativa (p = 0.53) debido a que ambos métodos
SIL
obtienen el mismo desempeño (RR = 0.89). En relación con la preservación de la PDF, LT50
supera a DROP3 e ICF (p < 0.05). Sin embargo, el método propuesto empata con CNN (p = 0.92),
mientras que se ve superado estadísticamente por los algoritmos wrapper y ENN (p < 0.05), los
cuales obtienen tasas de reducción más bajas (RR < 0.81), por lo que retienen más instancias que
SIL supera
ayudan a preservar la información de la PDF. En cuanto a la medida de eciencia, LT50
estadísticamente a ENN, DROP3 e ICF (p < 0.05), mientras que no presenta diferencia estadística
Tabla 5.15: Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el valor-p
de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan: (+) estadísticamente
SIL .
superior, (=) estadísticamente igual, y (−) estadísticamente inferior con respecto al método LT50
DROP3 e ICF (p < 0.05), mientras que empata con los métodos wrapper y ENN (p > 0.05). En
SIL presenta una diferencia estadística con respecto a todos los
cuanto a la tasa de reducción, F50
métodos comparativos (p < 0.05), aunque solo supera a ENN, ya que alcanza la segunda tasa de
SIL es estadísticamente
reducción más baja (RR = 0.54). Con respecto a la preservación de la PDF, F50
superior a todos los métodos a excepeción de ENN (p = 0.65). Por otro lado, en términos de la medida
130 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas
de eciencia, el método propuesto es superado por las estrategias wrapper, CNN e ICF (p < 0.05),
mientras que empata con DROP3 (p = 0.14) y supera estadísticamente a ENN (p < 0.05).
Tabla 5.16: Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el valor-p
de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan: (+) estadísticamente
SIL .
superior, (=) estadísticamente igual, y (−) estadísticamente inferior con respecto al método F50
La Tabla 5.17 presenta los valores-p relacionados al desempeño de EMOIS-LT . Los resultados
indican que no existe diferencia estadística signicativa con respecto a los métodos WkNN , WSVM y
CNN en términos de las cuatro medidas de desempeño (p > 0.05). Por otra parte, en relación con
los algoritmos ENN, DROP3 e ICF, el método propuesto sólo es superado por ENN en cuanto a la
En los casos restantes, EMOIS-LT logra desempeños que superan estadísticamente a ENN, DROP3
Tabla 5.17: Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el valor-p
de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan: (+) estadísticamente
superior, (=) estadísticamente igual, y (−) estadísticamente inferior con respecto a EMOIS-LT .
La Tabla 5.18 presenta los valores-p relacionados al desempeño de EMOIS-F . Con respecto a
la exactitud de clasicación, los resultados indican que el método propuesto no presenta diferencia
estadística signicativa en relación con los algoritmos wrapper, CNN y ENN (p > 0.05), mientras
que supera a DROP3 e ICF (p < 0.05). En términos de la tasa de reducción, EMOIS-F se ve
superado por WkNN , CNN, DROP3 e ICF (p < 0.05), aunque empata con WSVM (p = 0.12) y supera
5. Resultados 131
superior a todos los algoritmos comparativos a excepción de ENN, con el que no presenta diferencia
mismo desempeño que EMOIS-LT , ya que empata con los métodos WkNN , WSVM y CNN (p > 0.05),
La Figura 5.12 presenta los resultados de los métodos comparativos evaluados con cinco conjuntos
experimentos muestran que las estrategias basadas en árboles de enlace pueden mantener la forma
En esta comparación, el algoritmo EMOIS-LT alcanza la eciencia más alta (E = 0.89), seguido
SIL (E = 0.88). Estos resultados se deben a una alta tasa de reducción (RR > 0.92) y
del método LT50
preservación de la PDF (HDC > 0.89), además de alcanzar una exactitud de clasicación competitiva
Por otro lado, EMOIS-F logra una eciencia alta (E = 0.87) a causa de un mayor desempeño
Sin embargo, este método alcanza el segundo mayor desempeño en términos de la exactitud de
clasicación (ACC = 0.89), sólo superado por ENN, el cual obtiene la peor tasa de reducción de
En relación con los métodos wrapper, estos obtienen una eciencia moderada (E < 0.85) con
respecto a las estrategias basadas en árboles de enlace. Lo anterior se debe a que alcanzan valores
similares en términos de la preservación de la PDF (HDC < 0.83), y a una tasa de reducción
competitiva (RR > 0.87). Sin embargo, WSVM logra un pobre desempeño en términos de la exactitud
de clasicación (ACC = 0.74), mientras que WkNN obtiene un valor competitivo en cuanto a esta
Por otro lado, los subconjuntos obtenidos por los métodos wrapper muestran que la forma de
la distribución de las clases en el espacio de características presenta una similitud con respecto a
las técnicas basadas en el concepto de condensación, como CNN y DROP3; las cuales eligen a las
instancias cercanas a las fronteras de decisión (i.e., muestras más próximas a patrones de clases
opuestas). En este sentido, el método WkNN guía el proceso de selección hacia subconjuntos de
instancias que modelen adecuadamente la distribución de las fronteras de decisión de las clases en el
patrones de prueba cuyos k vecinos más cercanos del conjunto de entrenamiento pertenezcan a
instancias de la misma clase. Por otra parte, el método WSVM elige subconjuntos que se ajusten
a las propiedades del algoritmo de entrenamiento del clasicador SVM, por lo que podría estar
seleccionando instancias que representan vectores de soporte, los cuales en principio pueden formar
Con respecto a las técnicas clásicas, los algoritmos CNN, ICF y DROP3 logran una alta tasa
de reducción en la mayoría de los casos (RR > 0.81). En particular, DROP3 alcanza el valor más
alto en términos de esta medida de desempeño (RR = 0.92), seguido de ICF (RR = 0.83), el cual
obtiene subconjuntos de instancias que forman huecos y agrupamientos. Por ello, el método ICF
introduce un efecto de erosión en la forma de la distribución de las clases. Por ejemplo, el resultado
obtenido para el conjunto S6 muestra que la distribución espiral de las clases presenta irregularidad y
discontinuidad. Por otro lado, el método ENN elimina muestras rodeadas por patrones de diferentes
5. Resultados 133
clases, lo cual se considera una estrategia de ltrado de instancias ruidosas. Por esta razón, este
método obtiene bajos rendimiento en términos de la tasa de reducción (RR = 0.08), llegando a
Figura 5.12: Resultados de los métodos comparativos en cinco conjuntos de datos sintéticos. Las
medidas de desempeño se muestran en la parte superior de cada cuadro como (ACC,RR,HDC,E). En
la parte inferior se muestra el promedio de las medidas de desempeño de cada método comparativo.
En este análisis se utilizan los subconjuntos seleccionados por las estrategias propuestas y los
La Figura 5.13 presenta los resultados de los dos tipos de evaluación. Las comparaciones con
respecto a los métodos WkNN y WSVM se muestra en la sección superior e inferior, respectivamente.
Por otro lado, en la parte superior de cada diagrama de caja se muestra la media de los resultados
134 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas
del tipo de evaluación, mientras que en el apartado superior de cada cuadro comparativo, sobre cada
en relación con los dos tipos de evaluación en las dos comparaciones con WkNN y WSVM (p > 0.05).
SIL obtiene diferencias estadísticas signicativas (p = 0.04) en los resultados de los
Sin embargo, F50
dos tipos de evaluación cuando se compara con el método WkNN , aunque esto no sucede en la
comparación con WSVM (p = 0.21). Esto indica que los subconjuntos obtenidos por las estrategias
propuestas pueden entrenar diferentes tipos de clasicadores que obtienen desempeños de exactitud
desempeño de ningún clasicador, sino que maximizan la preservación de la PDF, por lo que priorizan
En relación con los resultados de WkNN y WSVM , la prueba de Wilcoxon indica que los
subconjuntos obtenidos por ambos métodos logran un mejor desempeño en la evaluación de Tipo 1
que de Tipo 2 (p < 0.05). Estos resultados señalan que las instancias obtenidas por los métodos
wrapper se ajustan a las características del algoritmo de aprendizaje supervisado utilizado, limitando
aprendizaje supervisado.
En esta sección se utiliza la prueba de McNemar para comparar el desempeño predictivo de los
modelos de clasicación entrenados con el conjunto de datos original y los subconjuntos seleccionados
La Figura 5.7 presenta el conteo de los conjuntos de datos reales (R) y sintéticos (S ) para los
que no hay rechazos de la hipótesis nula en la prueba de McNemar. Cabe señalar que un conteo
5. Resultados 135
Figura 5.13: Resultados de la evaluación de Tipo 1 y Tipo 2 utilizando seis clasicadores distintos
que fueron entrenados con los subconjuntos obtenidos por los métodos comparativos. En la parte
superior de cada diagrama de caja se muestra la media de la distribución. En el apartado superior de
cada cuadro comparativo, sobre cada par de diagramas de caja, se muestra el valor-p de la prueba
de la suma de rangos de Wilcoxon. En negritas, p < 0.05 y los mejores valores de ambos tipos de
evaluación obtenidos por cada método comparativo.
alto indica que la estrategia IS en cuestión obtiene un subconjunto que puede entrenar clasicadores
para obtener modelos con desempeño similar a los entrenados con X. En este análisis se comparan
las estrategias propuestas, los métodos wrapper y las técnicas clásicas. El conteo se realiza de forma
independiente por ambos tipos de conjuntos de datos y por cada clasicador utilizado en este esquema
de experimentación.
en relación con el desempeño de clasicación de los modelos entrenados, alcanzando un conteo total
a los métodos basados en árboles de enlace, el algoritmo EMOIS-LT obtuvo un mayor conteo de
SIL
no rechazos de la hipótesis nula con 19 (ocho en R y 11 en S ). Por otro lado, la estrategia LT50
alcanzó el conteo más bajo entre los métodos comparados con un total de nueve (tres en R y seis
en S ). Nótese que en todos los casos las estrategias propuestas obtienen un conteo mayor en cuanto
a los conjuntos de datos sintéticos. Por otro lado, estos resultados coinciden con los desempeños
(ACC = 0.83), seguido de EMOIS-F (ACC = 0.82), EMOIS-LT (ACC = 0.80) y por último
SIL (ACC = 0.77).
LT50
En relación con los métodos wrapper, WSVM obtuvo la mayor cantidad de no rechazos de la
hipótesis nula con un conteo total de 16 (11 en R y cinco en S ). Por otro lado WkNN alcanzó un
conteo de 13 (10 en R y tres en S ). Nótese que a diferencia de los métodos propuestos, los algoritmos
wrapper obtienen una mayor proporción en el conteo de no rechazos de la hipótesis nula en cuanto
Con respecto a los métodos clásicos, ENN obtiene la mayor cantidad de subconjuntos que no
de este método se ubicó el algoritmo CNN con un conteo de 18 (11 en R y siete en S ). Por su
parte, el peor desempeño en la prueba de McNemar lo obtuvieron DROP3 e ICF con un mayor
número de rechazos de la hipótesis nula, ya que solo en 13 ocasiones obtuvieron subconjuntos que
al igual que los métodos wrapper, las técnicas clásicas obtienen una mayor proporción en el conteo
En consecuencia, el método con mayor eciencia en la prueba de McNemar fue ENN, ya que
alcanza un conteo mayor que los otros métodos comparativos. Sin embargo, esta técnica obtiene
5. Resultados 137
ruidosas. Por ello, el subconjunto obtenido por ENN es una versión de X que no contiene instancias
que elimina poco más de la mitad de las instancias de X (RR = 0.54) y preserva casi la totalidad de
la información de la PDF (HDC = 0.97), como se muestra en los resultados de la Figura 5.11.
En esta misma línea, el tercer método con el conteo más alto corresponde a EMOIS-F , el cual es
SIL , de acuerdo
la estrategia con la tasa de reducción más baja (RR = 0.74), después de ENN y LT50
a los resultados de la Figura 5.11. Por ello, se mantiene una tendencia de una proporción inversa
Sin embargo, esta propensión se invalida en relación con el método EMOIS-LT , el cual obtiene
el cuarto conteo más alto de no rechazos de la hipótesis nula entre todos los métodos comparativos.
No obstante, logra una tasa de reducción competitiva (RR = 0.82), la cual es mayor que la obtenida
En el caso de los conteos con respecto a todos los métodos IS para un mismo algoritmo de
aprendizaje supervisado, se observa que el clasicador NB alcanzó el valor más alto, con un total de
más subconjuntos de instancias que la mayoría de los métodos comparativos para utilizarlos en
Figura 5.14: Conteo de no rechazos de la hipótesis nula en la prueba estadística de McNemar para
los conjuntos de datos reales (R) y sintéticos (S ). En la parte superior se muestra el conteo total
obtenido por cada método comparativo. En la esquina superior derecha de cada sección se muestra
el conteo total por clasicador.
La Figura 5.15 muestra un caso de estudio en donde se compara el desempeño de las estrategias
En este ejemplo se analizan los resultados de los algoritmos EMOIS-LT y EMOIS-F , así como
SIL y F SIL , las cuales fueron evaluadas en las funciones
las soluciones obtenidas por las variantes LT50 50
Además, se muestran las soluciones no dominadas de los frentes de Pareto obtenidos por los
algoritmos MOP. Adicionalmente, se comparan las estrategias propuestas a partir de los resultados
de 10 experimentos independientes.
SIL .
La Figura 5.15 a) muestra los resultados de una ejecución de los algoritmos EMOIS-LT y LT50
Las soluciones no dominadas del frente de Pareto (F ) presentan una distribución uniforme a lo largo
de todo el rango operacional de la función objetivo Z̄α ∈ [0, 1] en (4.13), la cual es el promedio de
los puntos de corte normalizados, y se requiere minimizar. Este criterio de optimización se relaciona
operacional de la función objetivo H̄α ∈ [0, 1] en (4.12), la cual representa un criterio que mide
objetivos permite obtener soluciones con altas tasas de reducción y preservación de la PDF.
En este ejemplo, EMOIS-LT consigue una solución con valores cercanos a cero en ambos criterios
preservación de la PDF (HDC = 0.89) y la tasa de reducción (RR = 0.97). Por otro lado, el método
SIL obtiene una solución no dominada: T̄ = [0.17, 0.01], por lo que logra una preservación de la
LT50
PDF inferior (HDC = 0.85) y una tasa de reducción superior (RR = 0.99) con respecto a la solución
Figura 5.15 a) se indican en círculos con líneas punteadas. Estos resultados revelan que ninguna
SIL domina a las soluciones obtenidas por EMOIS-LT . Por el contrario,
solución encontrada por LT50
se observa que algunos puntos alcanzados por la variante MOP obtienen mejores desempeños en
términos de ambos criterios de optimización que las soluciones de la variante GOP. En particular, la
SIL .
solución de EMOIS-LT descrita en el ejemplo anterior domina a siete soluciones de LT50
140 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas
SIL . La
La Figura 5.15 c) muestra los resultados de una ejecución de los algoritmos EMOIS-F y F50
similar al frente de Pareto del ejemplo anterior, ya que estos puntos se extienden a lo largo del rango
operacional de la función objetivo PR ∈ [0, 1] en (4.2), la cual corresponde con la tasa de preservación
del rango operacional de la función objetivo H ∈ [0, 1] en (4.4), que corresponde con la medida
estos objetivos permite obtener soluciones con altas tasas de reducción y preservación de la PDF.
Sin embargo, el algoritmo EMOIS-F obtiene soluciones no dominadas que no se distribuyen con la
misma uniformidad que las obtenidas por EMOIS-LT en su respectivo espacio objetivo.
En este ejemplo, EMOIS-F encuentra una solución con un desempeño alto en términos de la
función objetivo H̄, mientras que alcanza un bajo rendimiento en PR: F = [0.01, 0.31], lo cual
representa un valor alto en términos del complemento de la distancia de Hellinger (HDC = 0.99)
y un desempeño bajo con respecto a la tasa de reducción (RR = 0.69). Por otro lado, la solución
SIL alcanza un valor similar a la variante MOP en el primer criterio de optimización,
obtenida por F50
aunque obtiene un bajo rendimiento en cuanto a PR: F = [0.01, 0.47], por lo que logra un alto
desempeño con respecto a la preservación de la PDF (HDC = 0.99) y un rendimiento más bajo que
La Figura 5.15 d) muestra la ubicación en el espacio objetivo de las soluciones obtenidas por
SIL en 10 experimentos independientes. Los círculos con líneas punteadas corresponden
EMOIS-F y F50
con las soluciones del ejemplo de la Figura 5.15 c). Los resultados indican que ninguna solución
SIL domina a las soluciones conseguidas por EMOIS-F . Además, se observa que
encontrada por F50
los puntos obtenidos por la variante MOP alcanzan mejores desempeños en términos de PR y un
rendimiento competitivo con respecto a las soluciones de la estrategia GOP en términos de la función
5. Resultados 141
en cuanto a la tasa de preservación de instancias, el cual se aproxima al valor del peso w utilizado
La parte inferior de la Figura 5.15 muestra los resultados de los subconjuntos obtenidos por
los algoritmos propuestos y el promedio de las medidas de desempeño de los 10 experimentos. Los
SIL lograron la eciencia más alta (E = 0.86). Los métodos basados
algoritmos MOP y la variante LT50
en árboles de enlace obtuvieron una alta tasa de reducción (RR > 0.94) y un desempeño competitivo
en la preservación de la PDF (HDC > 0.87). En cambio, EMOIS-F obtuvo la mayor preservación
de la PDF (HDC > 0.99), aunque logró una pobre tasa de reducción (RR < 0.70). Por otro lado,
SIL obtuvo la eciencia más baja (E = 0.76) debido a que alcanzó la peor tasa de
el método F50
reducción (RR = 0.53). Sin embargo, este método consiguió los valores más altos en términos de
En relación con los subconjuntos de los ejemplos mostrados, las estrategias basadas en árboles
El segundo esquema experimental comparó el desempeño de las estrategias propuestas con dos
métodos wrapper y cuatro técnicas clásicas utilizando conjuntos de datos de tamaño mediano.
a las dos funciones objetivo ponderadas que utiliza cada algoritmo. Por otro lado, en relación con
los métodos basados en árboles de enlace, se emplearon siete variantes con diferentes medidas de
distancia. Además, se utilizó la regla general de Silverman como estrategia de selección automática
del ancho de banda para calcular las PDFs en los cuatro algoritmos propuestos.
142 5.3. Experimentación 2: Evaluación de las cuatro estrategias IS propuestas
Figura 5.15: Parte superior. a) Resultados de una ejecución de las estrategias EMOIS-LT y LT50SIL .
b) Soluciones evaluadas en T̄ obtenidas por 10 experimentos independientes. c) Resultados de
una ejecución de las estrategias EMOIS-F y F50 SIL . d) Soluciones evaluadas en F obtenidas por
10 experimentos independientes. Parte inferior. De izquierda a derecha: subconjuntos obtenidos
por las soluciones mostradas en a) y c) correspondientes a EMOIS-LT , LT50 SIL , EMOIS-F y F SIL ,
50
respectivamente. En la parte superior de cada cuadro se muestra el resultado de las medidas de
desempeño como (ACC,RR,HDC,E). En la parte inferior de cada cuadro se muestra el promedio
de las medidas de desempeño obtenidas por 10 experimentos independientes.
En primer lugar se comparó el desempeño de las estrategias GOP para analizar los resultados
con respecto a las estrategias MOP. Con estos experimentos se demostró que no existe diferencia
estadística signicativa en relación con las métricas utilizadas para construir los árboles de enlace en
SIL y EMOIS-LT , respectivamente.
las variantes de los algoritmos LT50
evaluaciones que permiten comparar el desempeño de clasicación de los modelos entrenados con los
subconjuntos obtenidos por las estrategias IS. Los resultados mostraron que los métodos propuestos
5. Resultados 143
pueden obtener instancias que son reutilizables en diferentes algoritmos de aprendizaje supervisado,
lo cual no sucede con los métodos wrapper, ya que presentan diferencias estadísticas signicativas
con respecto a las evaluaciones de Tipo 1 y 2 en los conjuntos de datos de tamaño mediano.
subconjunto de instancias seleccionadas. Los resultados señalan que los métodos propuestos pueden
obtener más subconjuntos de datos para los cuales no hay rechazos de la hipótesis nula, por lo que
las instancias seleccionadas pueden entrenar clasicadores que muestran el mismo desempeño que
El tercer marco experimental se diseña para evaluar la signicancia estadística de las medidas
de desempeño obtenidas por siete variantes de la estrategia EMOIS-LT y dos algoritmos wrapper
literatura para aplicaciones de visión por computadora, los cuales pertenecen a problemas de dominio
extraer automáticamente las características de las imágenes [56]. Debido a las propiedades de la
Tabla 5.19: Características de los conjuntos de datos utilizados en el tercer esquema experimental.
N es el número de instancias, y C es el número de clases.
ID Nombre N C
1 Cataract 601 4
2 Chessman 556 6
3 Covid-19 317 3
4 Flowers 3670 5
5 Leaves 596 4
6 Plants 2576 27
7 RPS 2892 3
8 Skincancer 3297 2
9 SRSMAS 409 14
10 Weather 1125 4
La motivación principal del estudio comparativo con conjuntos de datos de altas dimensiones
radica en evaluar el impacto que tienen las diferentes métricas de distancia en la construcción de los
árboles de enlace del método propuesto. En este sentido, la distancia de Yang es capaz de representar
de forma más adecuada la disimilitud entre dos puntos distantes en espacios de altas dimensiones,
Por ello, el método propuesto utiliza la distancia Minkowski, Lq (2.20), con q = {0.5, 2, ∞} y la
Los algoritmos comparativos consisten en los métodos WkNN y WSVM . La Tabla 5.20 muestra
los parámetros de las variantes de la estrategia EMOIS-LT y los dos métodos wrapper.
Tabla 5.20: Parámetros de los EAs empleados por EMOIS-LT y los métodos wrapper.
Nombre Valor
Tamaño de la población (NP ) 20
Número de generaciones (G) 200
Probabilidad de cruza (pc ) 0.9
Probabilidad de mutación (pm ) 0.1
Para evaluar las medidas de desempeño se utilizan los siguientes clasicadores: k NN, MLP RBFN,
RF y SVM. La Figura 5.16 muestra el marco de evaluación de desempeño seguido en este esquema
de experimentación.
corrección de Bonferroni (α = 0.05), para determinar la signicancia estadística entre las variantes
determinar las diferencias estadísticas entre una variante de EMOIS-LT y los algoritmos comparativos
WkNN y WSVM .
La Figura 5.17 muestra los resultados de las medidas de desempeño de EMOIS-LT al utilizar
diferentes métricas de distancia para construir los árboles de enlace. Todos los métodos presentan
M∞ obtienen la eciencia más alta por una diferencia marginal (E = 0.77). Por otro lado, L∞ logra
la menor tasa de reducción de instancias (RR = 0.73), por lo que alcanza los mayores porcentajes
de exactitud de clasicación (ACC = 0.73) y preservación de la PDF (HDC = 0.89). Por otro lado,
Figura 5.17: Resultados de las variantes del método propuesto. En la parte superior de cada barra
se muestra la medida de desempeño correspondiente. Los mejores resultados se indican en negritas.
5. Resultados 147
La Tabla 5.21 presenta los resultados de la corrección de Bonferroni de las variantes de EMOIS-LT
con respecto a las medidas ACC y RR. Los resultados indican que no hay diferencia estadística
signicativa con respecto a ambas medidas de desempeño en ninguna comparación de las variantes
Por otra parte, la Tabla 5.22 muestra los resultados de la corrección de Bonferroni de las variantes
de EMOIS-LT en relación con las medidas E y HDC. Al igual que en el caso anterior, los valores-p
señalan que no existe diferencia estadística signicativa en cuanto a las dos medias desempeño en
Estos resultados indican que no hay evidencia estadística de que el método propuesto mejore
particular para construir árboles de enlace con patrones de hasta 2048 dimensiones.
Tabla 5.21: Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para ACC, y la matriz triangular inferior los valores-p para RR.
EMOIS-LT
L0.5 L2 L∞ M0.5 M1 M2 M∞
L0.5 - 1.00 1.00 1.00 1.00 1.00 1.00
L2 1.00 - 1.00 1.00 1.00 1.00 1.00
L∞ 1.00 1.00 - 1.00 1.00 1.00 1.00
EMOIS-LT M0.5 1.00 1.00 1.00 - 1.00 1.00 1.00
M1 1.00 1.00 1.00 1.00 - 1.00 1.00
M2 1.00 1.00 1.00 1.00 1.00 - 1.00
M∞ 1.00 1.00 1.00 1.00 1.00 1.00 -
En esta sección se compara el rendimiento del método propuesto con WkNN y WSVM . Los
resultados de la Figura 5.17, muestran que la variante con L∞ presenta el valor más alto en tres
medidas de desempeño. Por ello, en este análisis se utiliza dicha variante de EMOIS-LT .
148 5.4. Experimentación 3: Evaluación de conjuntos de datos con altas dimensiones
Tabla 5.22: Resultados de la corrección de Bonferroni. La matriz triangular superior muestra los
valores-p para E, y la matriz triangular inferior los valores-p para HDC.
EMOIS-LT
L0.5 L2 L∞ M0.5 M1 M2 M∞
L0.5 - 1.00 1.00 1.00 1.00 1.00 1.00
L2 1.00 - 1.00 1.00 1.00 1.00 1.00
L∞ 1.00 1.00 - 1.00 1.00 1.00 1.00
EMOIS-LT M0.5 1.00 1.00 1.00 - 1.00 1.00 1.00
M1 1.00 1.00 0.77 1.00 - 1.00 1.00
M2 1.00 1.00 1.00 1.00 1.00 - 1.00
M∞ 1.00 1.00 0.19 1.00 1.00 1.00 -
La Figura 5.18 muestra el desempeño obtenido por el método propuesto y los algoritmos wrapper.
De esta manera, EMOIS-LT alcanza la mejor eciencia (E = 0.77) debido a que obtiene una tasa
la PDF (HDC = 0.89) con respecto a los métodos comparados. Por otro lado, los resultados indican
que WkNN y WSVM obtienen medidas de desempeño similares cuando se utilizan en conjuntos de
datos con alta dimensionalidad. En esta experimentación ambos métodos wrapper alcanzan una tasa
de reducción muy baja (RR = 0.52), por lo que mantienen instancias que logran una alta tasa de
preservación de la PDF (HDC = 0.94). Por otro lado, EMOIS-LT logra una exactitud de clasicación
competitiva (ACC = 0.73) en relación con el resultado obtenido por los métodos wrapper.
La Tabla 5.23 presenta los resultados de la prueba de la suma de rangos de Wilcoxon al comparar
las medidas de desempeño de los métodos wrapper y el algoritmo propuesto. Los valores-p indican
eciencia (p > 0.05). Sin embargo, los métodos wrapper son estadísticamente inferiores en cuanto
a la tasa de reducción (p < 0.05), aunque son superiores en términos del porcentaje de preservación
Figura 5.18: Resultados de los métodos comparativos. El área sombreada de cada sección del círculo
unitario indica el porcentaje obtenido de la medida de desempeño correspondiente y sus respectivos
valores se muestran en el apartado superior de cada cuadro como (ACC,RR,HDC,E).
Tabla 5.23: Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el valor-p
de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan: (+) estadísticamente
superior, (=) estadísticamente igual, y (−) estadísticamente inferior con respecto a EMOIS-LT .
WkNN WSVM
ACC 0.65 (=) 0.62 (=)
RR 0.00 (−) 0.00 (−)
HDC 0.00 (+) 0.00 (+)
E 0.19 (=) 0.21 (=)
en conjuntos de datos con altas dimensiones. Además, se utilizaron siete métricas de distancia para
Los resultados comparativos de las variantes de EMOIS-LT que utilizaron distintas métricas de
distancia mostraron que no hubo diferencia estadística signicativa entre ningún algoritmo comparado
en términos de las medidas de desempeño. Por lo tanto, se puede concluir que la selección de la
L∞ con los métodos WkNN y WSVM . Los resultados mostraron que el algoritmo propuesto obtuvo
mejores resultados en términos de la eciencia y no presentó diferencia estadística signicativa con
datos grandes
El presente marco experimental se diseña para realizar un análisis comparativo entre una variante
de la estrategia LTW
B
y tres algoritmos wrapper. Estos métodos utilizan el esquema D&Q descrito
en la Sección 4.3 para procesar conjuntos de datos grandes. En particular, la variante del método
propuesto emplea el esquema de la Figura 4.7, mientras que los métodos comparativos siguen el
En esta experimentación se utilizaron cinco conjuntos de datos de problemas del mundo real
que contienen más de 70000 instancias, los cuales se obtuvieron de la base de datos de aprendizaje
automático de la UCI [35]. La Tabla 5.24 resume las características de los conjuntos de datos.
ID Nombre N D C
1 Accelerometer 153000 4 3
2 Cropland 325834 10 7
3 HT Sensor 928991 10 3
4 Postures 74975 16 5
5 Skin 245057 3 2
5. Resultados 151
Estos métodos utilizaron un esquema D&Q que depende de dos parámetros de entrada: el tamaño
de los subconjuntos disjuntos que se procesan de forma independiente por el algoritmo IS (N̄ ), y
el porcentaje de reducción de instancias esperado que se utiliza como criterio de paro, el cual es
Para tomar ventaja de la reducción del espacio de búsqueda en cada ejecución independiente del
objetivo utilizadas, en esta experimentación se utilizó una versión del GA descrito en la Sección 2.2.1
que emplea únicamente cuatro individuos en la población. Este algoritmo se denomina µGA (del
inglés micro genetic algorithm), por lo que las variantes de los métodos comparativos se identican
SIL , µWCART , µWkNN y µWNB . La Tabla 5.25 muestra los parámetros de las estrategias
como: µLT50
Tabla 5.25: Parámetros del algoritmo µGA y del esquema D&Q empleado por las estrategias IS.
µGA
Tamaño de la población (NP ) 4
Número de generaciones (G) 200
Probabilidad de cruza (pc ) 0.9
Probabilidad de mutación (pm ) 0.0
D&Q
Tamaño de los subconjuntos (N̄ ) 1000
Porcentaje de reducción (RR) 0.9
152 5.5. Experimentación 4: Evaluación de conjuntos de datos grandes
entrenamiento (X) y prueba (T). En esta experimentación se sigue el marco de evaluación que se
muestra en el esquema de la Figura 5.16. Sin embargo, las medidas de desempeño se evaluaron con
los clasicadores utilizados por los métodos wrapper (i.e., CART, k NN y NB).
Se utilizó la prueba no paramétrica de suma de rangos de Wilcoxon (α = 0.05) para determinar las
diferencias estadísticas entre los resultados de las medidas de desempeño de los métodos comparados.
De igual manera, se empleo esta prueba estadística para analizar los resultados de exactitud de
La Figura 5.19 muestra los resultados de las medidas de desempeño de los métodos comparativos.
preservación de la PDF más bajo que los métodos wrapper (HDC = 0.89). Lo anterior se se debe a
SIL consigue una tasa de reducción extremadamente alta (RR = 0.96), por lo que remueve
que µLT50
instancias que ayudan a preservar la información de las funciones de densidad. Por otro lado, los
algoritmos µWCART y µWkNN obtienen desempeños aproximadamente iguales en todas las medidas
de desempeño, por lo que el proceso de selección basado en sus respectivos clasicadores podría
La Tabla 5.26 muestra los resultados de la prueba de la suma de rangos de Wilcoxon obtenidos al
SIL
evaluar las medidas de desempeño de los métodos comparativos. Los resultados señalan que µLT50
5. Resultados 153
Figura 5.19: Resultados de los métodos comparativos. En la parte superior de cada barra se muestra
la medida de desempeño correspondiente. Los mejores resultados se indican en negritas.
no presenta diferencia estadística signicativa con respecto a los algoritmos comparados en términos
de preservación de la PDF (p < 0.05). Por otro lado, el método propuesto es estadísticamente
superior a las técnicas wrapper en relación con la tasa de reducción (p < 0.05).
Tabla 5.26: Resultados de la prueba de la suma de rangos de Wilcoxon. Las las muestran el valor-p
de cada medida de desempeño. En negritas, p < 0.05. Los símbolos denotan: (+) estadísticamente
SIL .
superior, (=) estadísticamente igual, y (−) estadísticamente inferior con respecto a µLT50
diferencia estadística signicativa entre los valores de ACC obtenidos por los modelos de los tres
Estos resultados indican que el método propuesto es capaz de obtener subconjuntos de instancias
con altos porcentajes de reducción (RR = 0.96), valores competitivos de preservación de la PDF
154 5.5. Experimentación 4: Evaluación de conjuntos de datos grandes
(HDC = 0.89), y desempeños de exactitud de clasicación similares a los obtenidos por el conjunto de
Figura 5.20: Resultados de exactitud de clasicación de los modelos entrenados por el conjunto de
datos original X y el subconjunto de datos X̂ seleccionado por µLT50 SIL . En la parte superior de los
diagramas de caja se muestra el valor de la mediana. En la sección superior de cada par de diagramas
de caja se muestra el valor-p de la prueba de Wilcoxon. Los mejores resultados se indican en negritas.
El cuarto marco experimental se diseñó para evaluar el desempeño de una variante del método
propuesto basada en árboles de enlace utilizando cinco conjuntos de datos grandes (de hasta 928991
instancias). El desempeño del método propuesto se comparó con tres algoritmos wrapper basados
Para abordar el problema del escalamiento en conjuntos de datos grandes se utilizó un esquema
Adicionalmente, se empleó un µGA que utiliza cuatro individuos en la población para acelerar el
los métodos wrapper en términos de la tasa de reducción, mientras que no presentó diferencias
Por otro lado, se utilizaron los subconjuntos obtenidos por la estrategia propuesta para entrenar
a los clasicadores CART, k NN y NB. Los resultados de la prueba de la suma de rangos de Wilcoxon
mostraron que no hubo diferencias estadísticas signicativas con respecto a los valores de la medida
ACC obtenida por los clasicadores entrenados con el conjunto de datos original X.
6
Conclusiones y trabajo futuro
Este capítulo expone las conclusiones del presente trabajo de investigación y describe los puntos
6.1 Conclusiones
de datos original. Por esta razón, en el área del aprendizaje supervisado, las técnicas IS se consideran
de métodos IS: wrapper y lter. Los primeros emplean un criterio de selección basado en el desempeño
157
158 6.1. Conclusiones
En los trabajos publicados se han propuesto métodos wrapper para resolver el problema IS desde
una perspectiva de optimización utilizando EAs. Estos algoritmos emplean una representación binaria
que codica explícitamente a las instancias del conjunto original, lo cual presenta un problema de
escalabilidad debido a que el espacio de búsqueda crece exponencialmente en función del número
de patrones de entrenamiento. Además, estas técnicas obtienen subconjuntos que se ajustan a las
características del algoritmo de aprendizaje supervisado que se usa en la función objetivo. Por esta
de reutilización de los subconjuntos seleccionados por los métodos wrapper, en esta investigación
se propusieron algoritmos que modelan el problema IS a partir de un nuevo enfoque lter. Estas
estrategias se basan en la preservación de la PDF del conjunto de datos original y en una nueva
Por lo tanto, se diseñaron cuatro estrategias IS basadas en EAs que maximizan la preservación
de la PDF del conjunto de datos original y minimizan el número de instancias del subconjunto
un algoritmo wrapper basado en EAs para comparar el desempeño de los métodos propuestos con
algunas de las técnicas más relevantes reportadas en la literatura. De esta manera, el rendimiento
de las soluciones se evaluó con cuatro índices que miden la calidad de los subconjuntos obtenidos
una medida de eciencia que combina los tres primeros índices mediante una media geométrica con
obtienen soluciones más ecientes que los algoritmos comparativos cuando alcanzan valores altos
en los índices de tasa de reducción y preservación de la PDF (lo cual sucedió en la mayoría de los
casos). Por otro lado, los métodos propuestos no presentan una diferencia estadística signicativa
En particular, los resultados del primer esquema experimental indicaron que la estrategia propuesta
basada en un esquema GOP y una codicación binaria explícita alcanza las mayores tasas de
preservación de la PDF con respecto a los métodos comparados. Debido a esto, los subconjuntos
no se presentó una diferencia estadística signicativa con respecto a los resultados obtenidos por las
evaluaciones de Tipo 1 y 2. Además, el método propuesto fue estadísticamente superior a todos los
Los resultados del segundo esquema experimental mostraron que los métodos basados en árboles
de enlace alcanzan una mayor medida de eciencia que la mayoría de los algoritmos comparativos. Por
otro lado, es importante señalar que estos métodos obtienen mayores tasas de reducción de instancias
que los algoritmos propuestos basados en la codicación binaria explícita. Lo anterior se debe a que la
puntos de corte de los árboles de enlace construidos para cada clase del conjunto de datos. Por ello, el
espacio de búsqueda de esta nueva representación es considerablemente más pequeño que el espacio
explorado por las soluciones que emplean la codicación binaria explícita. Además, debido a que en
este esquema experimental se utilizaron conjuntos de tamaño mediano de hasta 20000 instancias,
lo que los métodos propuestos que emplearon esta representación presentaron problemas de lenta
Los resultados del tercer marco experimental mostraron que no existe diferencia estadística
signicativa en términos de las medidas de desempeño entre las variantes MOP que emplean
diferentes distancias basadas en la familia de métricas Minkowski y Yang para la construcción de los
árboles de enlace.
estrategia GOP basada en árboles de enlace utilizando un enfoque D&Q para procesar conjuntos de
datos grandes. Los resultados mostraron que el método propuesto obtiene mayores tasas de reducción
de instancias que los algoritmos comparativos. Además, no hubo diferencia estadística signicativa en
términos del desempeño de exactitud de clasicación de los modelos entrenados con el subconjunto
De esta manera, los resultados de este trabajo de investigación señalan que las estrategias IS
propuestas permiten obtener subconjuntos de datos con altas tasas de preservación de la PDF y
y eciencia competitivos con respecto al desempeño de las variantes de los métodos comparativos.
Por otro lado, las estrategias basadas en la representación de árboles de enlace permiten reducir
considerablemente el tamaño del espacio de búsqueda con respecto al espacio explorado por los
algoritmos que utilizan la codicación binaria explícita. Por ejemplo, considérese un conjunto de datos
balanceado con dos clases y 100 instancias, el tamaño del espacio de búsqueda de los algoritmos que
emplean soluciones binarias es 2100 − 1 = 1.2 × 1030 , mientras que el tamaño del espacio explorado
multiobjetivo para minimizar el número de instancias y maximizar la similitud entre las funciones
cumplió con el desarrollo de las cuatro estrategias IS basadas en GOP y MOP descritas en las
Objetivo especíco 1: Denir un método para evaluar la similitud entre las funciones de densidad
de probabilidad del conjunto original y el subconjunto seleccionado. Este objetivo se alcanzó con
el diseño de la matriz H en (4.1) y su aplicación en las distintas funciones objetivo de las cuatro
Objetivo especíco 2: Diseñar una representación del problema IS basada en árboles de enlace
para reducir el tamaño del espacio de búsqueda generado por la codicación CBE. Este objetivo se
cumplió con el diseño de la codicación de los puntos de corte de los árboles de enlace descrita en
la Sección 4.2.1.
Objetivo especíco 3: Elegir algoritmos de optimización global y multiobjetivo para diseñar cuatro
estrategias IS que consideren los criterios de optimización descritos, la codicación CBE y la nueva
representación basada en árboles de enlace. Esto se cumplió con el diseño de las estrategias IS
propuestas, las cuales fueron descritas en el Capítulo 4, en donde se utilizó la codicación CBE y la
subconjuntos obtenidos por los métodos comparativos. Este objetivo se cumplió con el diseño de
oportunidad en el desarrollo de las estrategias propuestas. Además, se pueden plantear otros marcos
esta tesis. Todo esto se puede considerar como parte del trabajo futuro.
162 6.2. Restricciones
6.2 Restricciones
En esta investigación se probaron las estrategias propuestas utilizando conjuntos de datos para
problemas de clasicación con variables en el dominio de los números reales y enteros. Por ello, los
hallazgos reportados en los diferentes esquemas de experimentación solo son aplicables para datos con
B
FW (GOP, Algoritmo 12).
B
LTW (GOP, Algoritmo 17).
Apéndice E.
6. Conclusiones y trabajo futuro 163
medidas de desempeño.
Comparar la calidad de las soluciones obtenidas por las estrategias propuestas en función de
Analizar las propiedades de convergencia del algoritmo µGA en las estrategias propuestas sin
utilizar el esquema D&Q y comprobar si la calidad de las soluciones obtenidas es similar a las
Con respecto al trabajo futuro relacionado a potenciar las estrategias propuestas se tiene:
por enjambre de partículas para comprobar si existe una mejora signicativa en la calidad de
árboles de enlace (i.e., ajustes del peso de la función objetivo, introducción de coecientes
El criterio de optimalidad más utilizado para seleccionar h consiste en el error cuadrático medio
integrado (MISE, por sus siglas en inglés), en donde para la estimación de p(x) se tiene [94]:
Z
MISE(h) =E 2
(p̂(x̂) − p(x)) dx (A.1)
Normalmente la medida MISE se emplea en su forma asintótica (AMISE, por sus siglas en inglés),
R(K) 1
AMISE(h) = + µ2 (K)2 h4 R(p′′ ) (A.2)
nh 4
donde K es una función kernel, p′′ es la segunda derivada de p(x), mientras que R y µ2 son funcionales
de la forma:
Z
R(K) = K(x)2 dx (A.3)
165
166 A.1. Estimación de funcionales de densidad
Z
µ2 (K) = x2 K(x)dx (A.4)
El ancho de banda óptimo se puede obtener de manera analítica al derivar (A.2) con respecto de
∂ ∂ R(K) 1
AMISE(h) =
2 4 ′′
+ µ2 (K) h R(p ) = 0 (A.5)
∂h ∂h nh 4
15
R(K)
h= (A.6)
µ2 (K)2 R(p′′ )n
Sin embargo, el uso de (A.6) para seleccionar un valor apropiado de h es imposible en la práctica
debido a que no se puede calcular R(p′′ ) ya que se desconoce la densidad verdadera p(x).
estimación de la funcional R (A.3). Este elemento toma como argumento la derivada de orden s de
Z
(s)
R(p ) = p(s) (x)2 dx (A.7)
Ahora bien, al emplear integración por partes se puede mostrar que, bajo sucientes suposiciones
Z
(s)
R(p ) = (−1) s
p(2s) (x)p(x)dx (A.8)
A. Formulación del ancho de banda óptimo 167
Z
.
(s)
R(p ) = ψr = p(r) (x)p(x)dx (A.9)
donde ψr es la funcional integrada general de densidad, con r par. Considerando que ψr = E p(r) (x) ,
n X
n
X x i − xj
ψ̂r (g) = (n(n − 1)) g −1 (−r−1)
K (r)
(A.10)
i=1 j=1
g
Las propiedades del error cuadrático medio asintótico (AMSE, por sus siglas en inglés) de ψ̂r son
de gran importancia para los selectores de ancho de banda óptimos ya que muchos de ellos no son
totalmente automáticos pues dependen de un ancho de banda piloto g , una manera de elegir este
1
k!K (r) (0)
r+k+1
gAM SE = (A.11)
−µk (K)ψr+k n
donde K es una función kernel simétrica de orden k ∈ {2, 4, 6, . . . , ∞} con r derivadas, tal que:
r+k
(−1) 2
+1
K (r) (0)µk (K) > 0 (A.12)
51
R(K)
h= (A.13)
µ2 (K)2 ψ4 n
168 A.2. Ancho de banda óptimo
Al reemplazar ψ4 por el estimador de kernel ψ̂4 (g) mediante (A.10), se obtiene la expresión
! 15
R(K)
ĥ = (A.14)
µ2 (K)2 ψ̂4 (g)n
Esta formulación se conoce como la regla de plug-in directa (DPI, por sus siglas en inglés). Sin
de banda piloto g . Una manera de elegir g es con la fórmula del AMSE óptimo en (A.11). De esta
71
2K (4) (0)
gAM SE = (A.15)
−µ2 (K)ψ6 n
No obstante, esta regla tiene el mismo problema que ĥ (A.14), ya que depende de una funcional
de densidad desconocida llamada ψ6 , la cual a su vez se puede calcular empleando otra estimación
de kernel, aunque su ancho de banda óptimo depende de la funcional ψ8 . Este problema parece no
tener n, ya que el ancho de banda óptimo para estimar ψr depende de ψr+2 . La estrategia usual
r
(−1) 2 r!
ψ̂rσ = 1 (A.16)
(2σ)r+1 ( 2r )!π 2
A partir de lo expuesto en la Sección 2.7, se espera que la familia de métricas de Minkowski (2.20)
y Yang (2.21) sean capaces de representar adecuadamente la disimilitud entre dos puntos distantes
Por ello, la Figura B.1 presenta una comparación entre las métricas de Minkowski y Yang de
segundo orden: L2 y M2 , respectivamente. Estas se utilizan para medir la diferencia de las distancias
de dos puntos lejanos entre sí (x2 y x3 ) a un punto dado (x1 ); lo anterior se realiza para R, R2 y
diferentes valores del parámetro q . La Figura B.2 muestra el contraste entre la distancia de dos
puntos lejanos medido como dmax − dmin , en donde se evalúa la diferencia de distancias entre el
169
170
Figura B.1: Comparación de las métricas Minkowski y Yang de segundo orden: L2 y M2 . En este
ejemplo se mide la distancia entre dos puntos lejanos en R (izquierda), R2 (centro) y R3 (derecha).
La disimilitud se calcula como: dmax − dmin ; donde dmin = d(x1 , x2 ) y dmax = d(x1 , x3 ).
punto más cercano y el más lejano al origen. En esta comparativa se observa que la familia de
métricas Minkowski para q > 2 no es capaz de representar la diferencia de distancias lejanas en altas
dimensiones adecuadamente, ya que el valor del contraste se mantiene o incluso decrece conforme la
dimensionalidad aumenta. Por otro lado, la métrica de Yang modela de mejor manera el fenómeno
del incremento de la dimensionalidad en los datos, ya que las curvas de contraste mantienen una
Figura B.2: Comparación de las métricas Minkowski y Yang para q = {1/2, 1, 2, ∞}. En este
ejemplo se calcula la distancia entre dos puntos lejanos en RD para D = {1, 2, 4, . . . , 2048}. Se
consideran 20 muestras tomadas aleatoriamente de una distribución Gaussiana con media cero y
matriz de covarianza unitaria. Cálculo de dmax y dmin en R2 (izquierda). Curvas de contraste de cada
métrica en función del número de dimensiones (derecha).
C
Métodos de normalización
En el proceso de estimación de la PDF con el algoritmo KDE se utiliza una medida basada en
distancia Euclidiana. Por ello, para evitar que las variables con rangos numéricos grandes dominen a
otras con valores más pequeños se normaliza el conjunto de datos original X en el intervalo [−1, 1].
Xi − min(Xi )
X̄i = 2 · − 1, i = 1, . . . , D (C.1)
max(Xi ) − min(Xi )
donde X̄i denota la i-ésima variable predictora del conjunto de datos original normalizado X̄, mientras
171
172 C.2. Normalización Softmax
Por otro lado, el último paso de las estrategias IS basadas en árboles de enlace consiste en
desnormalizar las variables predictoras al regresar sus valores a los rangos originales como:
1
Xi = · X̄i + 1 max(Xi ) − min(Xi ) + min(Xi ), i = 1, . . . , D (C.2)
2
aprendizaje supervisado empleados en la evaluación de la medida de desempeño ACC. Por otro lado,
también se usa para normalizar a los conjuntos de entrenamiento y validación utilizados en la función
Esta estrategia reduce la inuencia de valores atípicos del conjunto de entrenamiento X. Así, la
función tangente hiperbólica normaliza los datos en el intervalo [−1, 1] como [81]:
1 − exp(−γ) Xi − µi
X̄i = con γ= , i = 1, . . . , D (C.3)
1 + exp(−γ) σi
donde Xi y X̄i denotan la i-ésima variable original y normalizada del conjunto de datos X, mientras
Por otro lado, el margen suave (η ) y el ancho de banda (γ ) del kernel Gaussiano del clasicador
SVM fueron sintonizados mediante una búsqueda malla en los rangos η = [2−5 , 2−3 , . . . , 215 ] y
sintonización que el primer esquema experimental. La Tabla D.1 muestra los rangos de búsqueda de
173
174
Tabla D.1: Rangos de búsqueda de los hiperparámetros de los clasicadores utilizados en el segundo
y tercer marco experimental.
Tovias-Alanis, S. O., Gomez-Flores, W., & Toscano-Pulido, G. (2021). Instance Selection Based
Science and Automatic Control (CCE). IEEE. pp. 1-6, DOI: 10.1109/CCE53527.2021.9633116.
Learning Dendrite Morphological Neurons Using Linkage Trees for Pattern Classication.
175
Bibliografía
[1] Acampora, G., Herrera, F., Tortora, G., and Vitiello, A. (2018). A multi-objective evolutionary
approach to training set selection for support vector machine. Knowledge-Based Systems, 147:94
108.
[2] Adamopoulou, E. and Moussiades, L. (2020). Chatbots: History, technology, and applications.
[3] Akinyelu, A. A., Ezugwu, A. E., and Adewumi, A. O. (2019). Ant colony optimization edge
selection for support vector machine speed optimization. Neural Computing and Applications,
32(15):1138511417.
[4] Alcala-Fdez, J., Fernández, A., Luengo, J., Derrac, J., and García, S. (2011). Keel data-mining
software tool: Data set repository, integration of algorithms and experimental analysis framework.
[5] Aldana-Bobadilla, E., Lopez-Arevalo, I., and Molina Villegas, A. (2017). A novel data reduction
method based on information theory and the eclectic genetic algorithm. Intelligent Data Analysis,
21:803826.
[6] Anwar, I. M., Salama, K. M., and Abdelbar, A. M. (2015). Instance selection with ant colony
[7] Batista, G. E. A. P. A., Prati, R. C., and Monard, M. C. (2004). A study of the behavior of several
methods for balancing machine learning training data. SIGKDD Explor. Newsl., 6(1):2029.
177
178 BIBLIOGRAFÍA
[8] Bellet, A., Habrard, A., and Sebban, M. (2015). Metric Learning. Synthesis Lectures on Articial
Intelligence and Machine Learning. Morgan and Claypool Life Sciences, San Rafael, CA.
[9] Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer, 1 edition.
[10] Blitzstein, J. K. and Hwang, J. (2019). Introduction to probability, second edition. Chapman
& Hall/CRC Texts in Statistical Science. CRC Press, London, England, 2 edition.
[11] Brighton, H. and Mellish, C. (2002). Advances in instance selection for instance-based learning
[12] Cady, F. (2017). The data science handbook. John Wiley & Sons, Inc., 1 edition.
[13] Cano, J. R., Herrera, F., and Lozano, M. (2003). Using evolutionary algorithms as instance
selection for data reduction in kdd: an experimental study. IEEE Transactions on Evolutionary
Computation, 7(6):561575.
[14] Cano, J. R., Herrera, F., and Lozano, M. (2005a). Stratication for scaling up evolutionary
[15] Cano, J. R., Herrera, F., and Lozano, M. (2005b). A study on the combination of evolutionary
algorithms and stratied strategies for training set selection in data mining. In Homann, F.,
Köppen, M., Klawonn, F., and Roy, R., editors, Soft Computing: Methodologies and Applications,
[16] Carbonera, J. L. and Abel, M. (2015). A density-based approach for instance selection. In 2015
IEEE 27th International Conference on Tools with Articial Intelligence (ICTAI), pages 768774.
[17] Carbonera, J. L. and Abel, M. (2016). A novel density-based approach for instance selection.
In 2016 IEEE 28th International Conference on Tools with Articial Intelligence (ICTAI), pages
549556.
BIBLIOGRAFÍA 179
[18] Chang, C.-C. and Lin, C.-J. (2011). LIBSVM: A library for support vector machines. ACM
[19] Chapelle, O. (2007). Training a support vector machine in the primal. Neural Comput.,
19(5):11551178.
[20] Cheng, F., Chen, J., Qiu, J., and Zhang, L. (2020). A subregion division based multi-objective
[21] Cheng, F., Chu, F., and Zhang, L. (2021). A multi-objective evolutionary algorithm based on
[22] Coello, C. A. C., Lamont, G. B., and van Veldhuizen, D. A. (2007). Evolutionary Algorithms
[23] Cormen, T. H., Leiserson, C. E., Rivest, R. L., and Stein, C. (2001). Introduction to Algorithms.
[24] Corne, D., Jerram, N., Knowles, J., and Oates, M. (2001). Pesa-ii: Region-based selection in
evolutionary multiobjective optimization. Proc. 6th Int. Conf. Pparallel Prob. Solving from Nature
PPSN-VI.
[25] Cutler, A. and Cordero-Braña, O. I. (1996). Minimum hellinger distance estimation for nite
[26] Das, I. (1999). On characterizing the knee of the pareto curve based on normal-boundary
[27] de Haro-Garcia, A., del Castillo, J. A. R., and Garcia-Pedrajas, N. (2010). Scaling up instance
scaling up instance selection algorithms. Data Mining and Knowledge Discovery, 18(3):392418.
[29] de Souza, G. F. M., Netto, A. C., de Andrade Melani, A. H., de Carvalho Michalski, M. A., and
da Silva, R. F. (2022). Engineering systems' fault diagnosis methods. In Reliability Analysis and
[30] Deb, K. (2001). Multi-Objective Optimization using Evolutionary Algorithms. John Wiley &
[31] Deb, K., Agrawal, S., Pratap, A., and Meyarivan, T. (2000). A fast elitist non-dominated
sorting genetic algorithm for multi-objective optimization: NSGA-II. In Parallel Problem Solving
[32] Deb, K., Pratap, A., Agarwal, S., and Meyarivan, T. (2002). A fast and elitist multiobjective
[33] Defays, D. (1977). An ecient algorithm for a complete link method. The Computer Journal,
20(4):364366.
[34] Derrac, J., García, S., and Herrera, F. (2010). A survey on evolutionary instance selection and
[36] Duda, R. O., Hart, P. E., and Stork, D. G. (2001). Pattern Classication. Jhon Wiley & Sons,
Inc., 2 edition.
[37] Engelbrecht, A. (2007). Computational intelligence : an introduction. John Wiley & Sons,
[38] Eshelman, L. J. (1991). The chc adaptive search algorithm: How to have safe search when
[39] Everitt, B. S., Landau, S., Leese, M., and Stahl, D. (2011). Cluster Analysis. Wiley Series in
[40] Fazzolari, M., Giglio, B., Alcalá, R., Marcelloni, F., and Herrera, F. (2013). A study on the
[41] Fernández, A., Carmona, C. J., del Jesus, M. J., and Herrera, F. (2017). A pareto-based
ensemble with feature and instance selection for learning from multi-class imbalanced datasets.
[42] Fernández, A., del Jesus, M. J., and Herrera, F. (2015). Addressing overlapping in classication
with imbalanced datasets: A rst multi-objective approach for feature and instance selection.
In Intelligent Data Engineering and Automated Learning IDEAL 2015, pages 3644. Springer
International Publishing.
[43] Freund, R. J., Wilson, W. J., and Mohr, D. L. (2010). Chapter 2 - probability and sampling
distributions. In Freund, R. J., Wilson, W. J., and Mohr, D. L., editors, Statistical Methods (Third
[44] García, S., Cano, J. R., Fernández, A., and Herrera, F. (2006). A proposal of evolutionary
prototype selection for class imbalance problems. In Corchado, E., Yin, H., Botti, V., and Fyfe, C.,
editors, Intelligent Data Engineering and Automated Learning IDEAL 2006, pages 14151423,
[45] Garcia, S., Derrac, J., Cano, J., and Herrera, F. (2012). Prototype selection for nearest neighbor
182 BIBLIOGRAFÍA
classication: Taxonomy and empirical study. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 34(3):417435.
[46] García-Pedrajas, N., del Castillo, J. A. R., and Ortiz-Boyer, D. (2009). A cooperative
coevolutionary algorithm for instance selection for instance-based learning. Machine Learning,
78(3):381420.
[47] García, S., Cano, J. R., and Herrera, F. (2008). A memetic algorithm for evolutionary prototype
[48] Garofalo, M., Botta, A., and Ventre, G. (2016). Astrophysics and big data: Challenges, methods,
[49] Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization and Machine Learning.
Addison-Wesley Longman Publishing Co., Inc., Boston, MA, USA, 1st edition.
[50] Hall, P. and Marron, J. (1987). Estimation of integrated squared density derivatives. Statistics
[51] Hamidzadeh, J., Kashe, N., and Moradi, M. (2020). Combined weighted multi-objective
optimizer for instance reduction in two-class imbalanced data problem. Engineering Applications
[52] Hamming, R. W. (1950). Error detecting and error correcting codes. The Bell System Technical
Journal, 29(2):147160.
[53] Han, J., Kamber, M., and Pei, J. (2012). 10 - cluster analysis: Basic concepts and methods. In
Han, J., Kamber, M., and Pei, J., editors, Data Mining (Third Edition), The Morgan Kaufmann
Series in Data Management Systems, pages 443495. Morgan Kaufmann, Boston, third edition
edition.
BIBLIOGRAFÍA 183
[54] Hart, P. (1968). The condensed nearest neighbor rule (corresp.). IEEE Transactions on
[55] Haynes, W. (2013). Bonferroni Correction, pages 154154. Springer New York, New York, NY.
[56] He, K., Zhang, X., Ren, S., and Sun, J. (2016). Deep residual learning for image recognition.
In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770778.
[57] Ho, T. K. and Basu, M. (2002). Complexity measures of supervised classication problems.
algorithms survey. In Rutkowski, L., Siekmann, J. H., Tadeusiewicz, R., and Zadeh, L. A., editors,
Articial Intelligence and Soft Computing - ICAISC 2004, pages 598603, Berlin, Heidelberg.
[59] Jiménez, F., Sánchez, G., Palma, J., and Sciavicco, G. (2022). Three-objective constrained
evolutionary instance selection for classication: Wrapper and lter approaches. Engineering
[60] Karunakaran, V., Suganthi, M., and Rajasekar, V. (2020). Feature selection and instance
selection using cuttlesh optimisation algorithm through tabu search. International Journal of
[61] Kordos, M. and apa, K. (2018). Multi-objective evolutionary instance selection for regression
[62] Krishnakumar, K. (1990). Micro-genetic algorithms for stationary and non-stationary function
[63] Kruskal, W. H. and Wallis, W. A. (1952). Use of ranks in one-criterion variance analysis. Journal
[64] Kumar, M., Husain, M., Upreti, N., and Gupta, D. (2010). Genetic algorithm: Review and
[65] Kuncheva, L. I. (1995). Editing for the k-nearest neighbors rule by a genetic algorithm. Pattern
[66] Levin, D. A. and Peres, Y. (2017). Markov chains and mixing times. American Mathematical
[67] Leyva, E., González, A., and Pérez, R. (2015). Three new instance selection methods based on
local sets: A comparative study with several approaches from a bi-objective perspective. Pattern
Recognition, 48(4):15231537.
[68] Li, W., Wang, R., Zhang, T., Ming, M., and Li, K. (2020). Reinvestigation of evolutionary
many-objective optimization: Focus on the pareto knee front. Information Sciences, 522:193213.
[69] Lin, C.-C., Kang, J.-R., Liang, Y.-L., and Kuo, C.-C. (2021). Simultaneous feature and instance
selection in big noisy data using memetic variable neighborhood search. Applied Soft Computing,
112:107855.
[70] Liu, W., Park, E., Krieger, U., and Zhu, S. (2020). Smart e-health security and safety
monitoring with machine learning services. In 2020 29th International Conference on Computer
[71] Lv, Z., Song, H., Basanta-Val, P., Steed, A., and Jo, M. (2017). Next-generation big data
analytics: State of the art, challenges, and future research topics. IEEE Transactions on Industrial
Informatics, 13(4):18911899.
[72] Malhat, M., Menshawy, M. E., Mousa, H., and Sisi, A. E. (2020). A new approach for instance
selection: Algorithms, evaluation, and comparisons. Expert Systems with Applications, 149:113297.
[73] MATLAB (2019). 9.7.0.1190202 (R2019b). The MathWorks Inc., Natick, Massachusetts.
BIBLIOGRAFÍA 185
[74] McNemar, Q. (1947). Note on the sampling error of the dierence between correlated
[76] Miller, B. L. and Goldberg, D. E. (1995). Genetic algorithms, tournament selection, and the
[77] Olvera-López, J. A., Carrasco-Ochoa, J. A., Martínez-Trinidad, J. F., and Kittler, J. (2010). A
[78] Olvera-López, J. A., Martínez-Trinidad, J. F., and Carrasco-Ochoa, J. A. (2007). Mixed data
object selection based on clustering and border objects. In Rueda, L., Mery, D., and Kittler, J.,
editors, Progress in Pattern Recognition, Image Analysis and Applications, pages 674683, Berlin,
[79] Paredes, R. and Vidal, E. (2000). Weighting prototypes - a new editing approach. In Proceedings
15th International Conference on Pattern Recognition. ICPR-2000, volume 2, pages 2528 vol.2.
[80] Poyatos, J., Molina, D., Martinez, A. D., Del Ser, J., and Herrera, F. (2022). Evoprunedeeptl:
An evolutionary pruning model for transfer learning based deep neural networks. Neural Networks.
[81] Priddy, K. L. and Keller, P. E. (2005). Articial Neural Networks: An Introduction. SPIE.
[82] Rathee, S., Ratnoo, S., and Ahuja, J. (2018). Instance selection using multi-objective CHC
[83] Rathee, S., Ratnoo, S., and Ahuja, J. (2019a). Instance selection using multi-objective
chc evolutionary algorithm. In Fong, S., Akashe, S., and Mahalle, P. N., editors, Information
and Communication Technology for Competitive Strategies, pages 475484, Singapore. Springer
Singapore.
186 BIBLIOGRAFÍA
[84] Rathee, S., Ratnoo, S., and Ahuja, J. (2019b). Simultaneous instance and feature selection
[85] Reeves, C. R. and Bush, D. R. (2001). Using Genetic Algorithms for Training Data Selection
[86] Reeves, C. R. and Taylor, S. J. (1998). Selection of training data for neural networks by
a genetic algorithm. In Eiben, A. E., Bäck, T., Schoenauer, M., and Schwefel, H.-P., editors,
Parallel Problem Solving from Nature PPSN V, pages 633642, Berlin, Heidelberg. Springer
Berlin Heidelberg.
[87] Rosales-Perez, A., Garcia, S., Gonzalez, J. A., Coello, C. A. C., and Herrera, F. (2017). An
evolutionary multiobjective model and instance selection for support vector machines with pareto-
[88] Rostami, S., Neri, F., and Gyaurski, K. (2020). On algorithmic descriptions and software
1(5).
[89] Saremi, S., Mirjalili, S. M., and Mirjalili, S. (2014). Chaotic krill herd optimization algorithm.
Engineering, INTER-ENG 2013, 10-11 October 2013, Petru Maior University of Tirgu Mures,
Romania.
[90] Searcoid, M. O. (2006). Metric Spaces. Springer Undergraduate Mathematics Series. Springer,
[91] Sheather, S. and Chris Jones, M. (1991). A reliable data-based bandwidth selection method
for kernel density estimation. Journal of the Royal Statistical Society. Series B. Methodological,
53:683690.
BIBLIOGRAFÍA 187
[92] Sibson, R. (1973). Slink: An optimally ecient algorithm for the single-link cluster method.
[93] Sierra, B., Lazkano, E., Inza, I., Merino, M., Larrañaga, P., and Quiroga, J. (2001). Prototype
selection and feature subset selection by estimation of distribution algorithms. a case study in the
survival of cirrhotic patients treated with tips. In Quaglini, S., Barahona, P., and Andreassen,
S., editors, Articial Intelligence in Medicine, pages 2029, Berlin, Heidelberg. Springer Berlin
Heidelberg.
[94] Silverman, B. W. (1986). Density Estimation for Statistics and Data Analysis. Chapman and
Hall.
[95] Srinivas, N. and Deb, K. (1994). Muiltiobjective optimization using nondominated sorting in
[96] Triguero, I., Galar, M., Bustince, H., and Herrera, F. (2017). A rst attempt on global
evolutionary undersampling for imbalanced big data. In 2017 IEEE Congress on Evolutionary
[97] Tsai, C.-F., Chen, Z.-Y., and Ke, S.-W. (2014). Evolutionary instance selection for text
[98] Tsai, C.-F., Eberle, W., and Chu, C.-Y. (2013). Genetic algorithms in feature and instance
[99] Verma, S., Pant, M., and Snasel, V. (2021). A comprehensive review on nsga-ii for multi-
[100] Wand, M. and Jones, M. (1994). Kernel Smoothing (Chapman & Hall/CRC Monographs on
[101] Wilcoxon, F. (1945). Individual comparisons by ranking methods. Biometrics Bulletin, 1(6):80.
188 BIBLIOGRAFÍA
[102] Wilson, D. L. (1972). Asymptotic properties of nearest neighbor rules using edited data. IEEE
[103] Wilson, D. R. and Martinez, T. R. (2000). Reduction techniques for instance-based learning
[104] Xu, R. and Wunsch, D. C. (2009). Clustering. John Wiley & Sons, Inc.
[105] Yang, R., Jiang, Y., Mathews, S., Housworth, E. A., Hahn, M. W., and Radivojac, P. (2019). A
new class of metrics for learning on real-valued and structured data. Data Mining and Knowledge
Discovery, 33(4):9951016.
[106] Zhai, J. and Song, D. (2022). Optimal instance subset selection from big data using genetic
[107] Zhai, T. and He, Z. (2013). Instance selection for time series classication based on immune
[108] Zhang, Q. and Li, H. (2007). Moea/d: A multiobjective evolutionary algorithm based on
[109] Zhang, X., Tian, Y., and Jin, Y. (2015). A knee point-driven evolutionary algorithm for