Está en la página 1de 172

Centro de Investigación y de Estudios Avanzados

del Instituto Politécnico Nacional

Unidad Cinvestav Tamaulipas

Clasificación multiclase con aprendizaje


especializado en parejas de clases
orientado al BI-RADS para
ultrasonografía

Tesis que presenta:

Arturo Rodríguez Cristerna

Para obtener el grado de:

Doctor en Ciencias
en Computación

Dr. Wilfrido Gómez Flores, Director


Dr. Wagner Coelho de Albuquerque Pereira, Co-Director
Ciudad Victoria, Tamaulipas, México Noviembre, 2017
© Derechos reservados por
Arturo Rodríguez Cristerna
2017
La tesis presentada por Arturo Rodríguez Cristerna fue aprobada por:

_________________________________________________________

Dr. Wilfrido Gómez Flores, Director

Dr. Wagner Coelho de Albuquerque Pereira, Co-Director

Dr. Arturo Díaz Pérez

Dr. Hiram Galeana Zapién

Dr. Ivan López Arévalo

Dr. Edgar Tello Leal

Ciudad Victoria, Tamaulipas, México, 29 de Noviembre de 2017


A mi familia, mis asesores y mis amigos.
Agradecimientos

A toda mi familia por su apoyo incondicional.

A mis asesores, Dr. Wilfrido Gómez Flores y Dr. Wagner Coelho de Albuquerque Pereira
por su amistad, apoyo y enseñanzas.

A mis sinodales, Dr. Arturo Díaz Pérez, Dr. Hiram Galeana Zapién, Dr. Ivan López
Arévalo y Dr. Edgar Tello Leal, por sus acertadas observaciones y recomendaciones que
contribuyeron a mejorar esta investigación.

A mis compañeros Daniel, Rafael, Auraham, José, Adán, Juanita y Giomara por su
amistad.

A CINVESTAV Unidad Tamaulipas por la enseñanza académica de calidad.

Al Consejo Nacional de Ciencia y Tecnología (CONACyT) por el apoyo financiero.


Índice General

Índice General I

Índice de Figuras V

Índice de Tablas VII

Índice de Algoritmos IX

Publicaciones XI

Resumen XIII

Abstract XV

Nomenclatura XVII

1. Introducción 1
1.1. Antecedentes y motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2. Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5. Metodología de investigación . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.7. Organización del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2. Marco teórico 11
2.1. Clasificación de patrones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Métodos de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1. Análisis lineal discriminante . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2. Árboles de clasificación y de regresión . . . . . . . . . . . . . . . . . . 13
2.2.3. Esquemas de descomposición binaria . . . . . . . . . . . . . . . . . . 15
2.2.4. Ensamble de clasificadores . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.4.1. Método bagging . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.4.2. Método de subespacio aleatorio . . . . . . . . . . . . . . . . 19
2.2.4.3. Bosque aleatorio . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.4.4. Medidas de desempeño de un bosque aleatorio . . . . . . . . 20
2.2.5. Normalización de patrones . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3. Selección de características . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1. Ordenamiento de características mrMR . . . . . . . . . . . . . . . . . 22
2.3.2. Método de selección secuencial . . . . . . . . . . . . . . . . . . . . . 24
2.4. Índices de desempeño de clasificación . . . . . . . . . . . . . . . . . . . . . . 24

i
2.4.1. Error de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.2. Análisis ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.3. Coeficiente de correlación de Matthews . . . . . . . . . . . . . . . . . 27
2.5. Técnicas de remuestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6. Metaheurísticas para optimización global . . . . . . . . . . . . . . . . . . . . 30
2.6.1. Recocido simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6.2. Búsqueda tabú . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.3. Evolución diferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6.4. Optimización por cúmulo de partículas . . . . . . . . . . . . . . . . . 36
2.7. Pruebas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.8. Resumen del capítulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3. Estado del arte 41


3.1. Clasificación multiclase basada en descomposición binaria . . . . . . . . . . . 41
3.1.1. Métodos de agregación . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.2. Selección de características mediante OVA y OVO . . . . . . . . . . . 46
3.2. Ensambles de clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3. Sistemas de clasificación relacionados al BI-RADS . . . . . . . . . . . . . . . 53
3.4. Conclusiones del capítulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4. Análisis de esquemas de descomposición binaria 61


4.1. Descripción del banco de datos . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1.1. Ultrasonografías de mama . . . . . . . . . . . . . . . . . . . . . . . . 61
4.1.2. Segmentación de la lesión . . . . . . . . . . . . . . . . . . . . . . . . 63
4.1.3. Extracción de características . . . . . . . . . . . . . . . . . . . . . . . 64
4.2. Metodología de evaluación de los esquemas de descomposición binaria . . . . . 66
4.3. Análisis de correlación de la relevancia de las características en las descompo-
siciones OVA y OVO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.4. Análisis de separación entre clases en las descomposiciones OVA y OVO . . . . 71
4.5. Análisis de desempeño de clasificación de Bayes . . . . . . . . . . . . . . . . 75
4.6. Conclusiones del capítulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5. Algoritmos de clasificación multiclase 81


5.1. Clasificador basado en ordenamiento y selección de características . . . . . . . 81
5.1.1. Selección de características basada en metaheurísticas . . . . . . . . . 84
5.1.2. Configuración de metaheurísticas . . . . . . . . . . . . . . . . . . . . 86
5.2. Ensamble de clasificadores basado en bagging y subespacio aleatorio . . . . . . 88
5.3. Resumen del capítulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

6. Resultados 93
6.1. Metodología de evaluación de los clasificadores propuestos . . . . . . . . . . . 93
6.1.1. Métodos de clasificación de la literatura . . . . . . . . . . . . . . . . . 94
6.2. Resultados del clasificador S-LDA . . . . . . . . . . . . . . . . . . . . . . . . 96
6.2.1. Desempeño de clasificación . . . . . . . . . . . . . . . . . . . . . . . 96
6.2.2. Convergencia de metaheurísticas . . . . . . . . . . . . . . . . . . . . 96
6.2.3. Análisis del grafo DDAG . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.2.4. Cardinalidad del conjunto de características seleccionadas . . . . . . . 100

ii
6.3. Resultados del ensamble de clasificadores B-LDA . . . . . . . . . . . . . . . . 102
6.4. Análisis comparativo de clasificadores . . . . . . . . . . . . . . . . . . . . . . 104
6.4.1. Desempeño de clasificación en clases histopatológicas . . . . . . . . . 109
6.4.2. Comparativa con clasificación BI-RADS del especialista . . . . . . . . 110
6.5. Conclusiones del capítulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

7. Conclusiones y trabajo futuro 117


7.1. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

Apéndices 122

A. Derivación del vector de pesos óptimo del LDA 125

B. Extracción de características usando la biblioteca BUSAT 127

Bibliografía 129

iii
Índice de Figuras

2.1. Ejemplo de hiperplano de proyección e hiperplano de decisión construidos con


LDA para un problema con dos características. . . . . . . . . . . . . . . . . . 14
2.2. (a) Problema de clasificación con cinco clases y las posibles fronteras de decisión
de los clasificadores con las descomposiciones binarias (b) OVA y (c) OVO,
indicadas con líneas discontinuas. . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3. Posible árbol de decisión DDAG para un problema con cinco clases, donde
ωk ∈ Ω. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4. Ejemplo de partición de un conjunto de muestras con dos clases con el méto-
do de validación cruzada con cinco pliegues, donde un círculo blanco es una
muestra de la clase ω1 y un círculo gris es una muestra de la clase ω2 . . . . . . 28
2.5. Ejemplo de partición de un conjunto de muestras con dos clases con el método
de validación cruzada anidada con cinco pliegues en las dos etapas. . . . . . . 29

4.1. Distribución histopatológica de los tipos de lesión de mama en el banco de


ultrasonografías. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.2. Distribución de clases histopatológicas y de categorías BI-RADS en el banco
de ultrasonografías. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.3. Ejemplos de lesiones de mama en ultrasonografías con clases (a) C2, (b) C3,
(c) C4b, (d) C4m y (e) C5. . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.4. (a) Ultrasonografía de mama segmentada con el método basado en la trans-
formación watershed . El contorno blanco indica la segmentación de la lesión,
mientras que el rectángulo blanco discontinuo señala la mínima región de in-
terés. (b) Forma binaria de la lesión. . . . . . . . . . . . . . . . . . . . . . . 65
4.5. Diagrama de flujo del proceso de evaluación de separabilidad de clases. Bloques
con líneas discontinuas indican datos y bloques con líneas sólidas indican procesos. 68
4.6. AUC promedio obtenido para cada característica y cada subproblema binario en
las descomposiciones (a) OVA, donde los subproblemas binarios son indicados
con la clase de interés que es separada del resto de las clases, y (b) OVO, donde
los subproblemas binarios son indicados con los pares de clases separados por
un guión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.7. Gráfica de cajas del índice AUC obtenido por el conjunto de características para
los subproblemas en las descomposiciones binarias (a) OVA y (b) OVO. . . . . 74
4.8. Gráfico de cajas del índice mAUC obtenido por el conjunto de características
en las descomposiciones OVA y OVO. Se indica la media ± desviación estándar
en cada caso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.9. Gráfico de cajas de los límites inferior y superior de Bayes. (a) Error de clasifi-
cación y (b) índice MCC, indicando la media ± desviación estándar. . . . . . . 77

5.1. Arquitectura del clasificador propuesto S-LDA basado en descomposición bina-


ria OVO para un problema con c clases. . . . . . . . . . . . . . . . . . . . . . 84
5.2. Arquitectura del ensamble de clasificadores B-LDA. . . . . . . . . . . . . . . . 91

v
6.1. Diagrama de flujo del proceso de evaluación de los clasificadores propuestos.
Bloques con líneas discontinuas indican datos y bloques con líneas sólidas re-
presentan procesos. El bloque con doble línea representa la validación cruzada
anidada usada en el clasificador S-LDA; en el caso del clasificador B-LDA este
bloque se omite. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.2. Gráfica de cajas del desempeño de clasificación obtenido por el clasificador S-
LDA con diferentes metaheurísticas, en términos de (a) error de clasificación
y (b) MCC, indicando para cada una su correspondiente media ± desviación
estándar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.3. Convergencia promedio obtenida en los conjuntos de entrenamiento por el cla-
sificador S-LDA con las metaheurísticas (a) SA, (b) TS, (c) DE, (d) JADE y
(e) PSO. Se incluyen barras de error con la desviación estándar obtenida y se
indica el promedio ± desviación estándar de la mejor solución encontrada. . . . 98
6.4. Grafo DDAG definido con mayor frecuencia en el entrenamiento del clasificador
S-LDA. En cada nodo se indica el par de clases que separa el clasificador binario
asociado y cada arista dirigida está etiquetada con la clase ganadora. . . . . . 99
6.5. Gráfica de cajas del número de características seleccionadas por el clasificador
S-LDA con diferentes metaheurísticas, indicando para cada una su correpon-
diente media ± desviación estándar. . . . . . . . . . . . . . . . . . . . . . . . 102
6.6. Gráfica de cajas del (a) error de clasificación y (b) MCC obtenidos por los en-
sambles de clasificadores RF y B-LDA. En cada caso se incluye la media ± des-
viación estándar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.7. Gráfica de cajas de (a) fuerza s, (b) correlación ρ̄ y (c) relación entre correlación
y fuerza ρ̄/s2 , obtenidas por los ensambles RF y B-LDA. Se indica la media ±
desviación estándar obtenida por cada ensamble. . . . . . . . . . . . . . . . . 104
6.8. Gráfica de cajas del error de clasificación BI-RADS obtenido por los clasificado-
res evaluados, además se muestran los límites inferior y superior de Bayes. Se
indica la media ± desviación estándar en cada caso. Las líneas en gris delimitan
la región entre las medias de los límites de Bayes. . . . . . . . . . . . . . . . 105
6.9. Gráfica de cajas del MCC de clasificación BI-RADS alcanzado por los clasifi-
cadores evaluados. Se incluyen los límites inferior y superior de Bayes. Además
se incluye la media ± desviación estándar en cada caso. Las líneas en gris
delimitan la región entre las medias de los límites de Bayes. . . . . . . . . . . 106
6.10. Gráfica de cajas del error de clasificación en clases histopatológicas de los
clasificadores evaluados. Además se presentan los límites inferior y superior de
Bayes, y se indica la media ± desviación estándar en todos los casos. . . . . . 110
6.11. Gráfica de cajas del MCC obtenido para la clasificación en clases histopatoló-
gicas por los clasificadores evaluados. También se presentan los límites inferior
y superior de Bayes. Además se indica la media ± desviación estándar en cada
caso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.12. Ejemplo de lesiones correctamente clasificadas por el ensamble B-LDA con
clases (a) y (b) benignas, y (b) y (c) malignas, clasificadas erróneamente por
el radiólogo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

vi
Índice de Tablas

2.1. Ejemplo de reetiquetados de clases utilizados en los clasificadores base (cp ) del
esquema OVA para un problema con cinco clases. . . . . . . . . . . . . . . . 16
2.2. Ejemplo de las clases involucradas en los clasificadores binarios (cp,q ) utilizados
en la descomposición OVO para un problema con cinco clases. . . . . . . . . . 17
2.3. Matriz de confusión para un problema de clasificación binario, donde VP, FN,
FP, VN son el acumulado de instancias que cumplen las condiciones de las celdas. 26

3.1. Comparativa entre las descomposiciones binarias OVA y OVO. . . . . . . . . 43


3.2. Principales propiedades de las estrategias de agregación de las descomposicio-
nes binarias OVA y OVO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3. Principales propiedades de los enfoques que utilizan las descomposiciones bi-
narias OVA y OVO para el ordenamiento de características o para la selección
de características en ensambles de clasificadores. . . . . . . . . . . . . . . . . 50
3.4. Características de los ensambles de clasificadores boosting y bagging. . . . . . 53
3.5. Descripción y limitantes de los trabajos de clasificación de lesiones de mama
relacionados al BI-RADS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.6. Comparativa de trabajos relacionados a la clasificación de lesiones de mama
en ultrasonografías revisados en este capítulo, señalados con el símbolo + , así
como otros trabajos representativos del estado del arte. . . . . . . . . . . . . 59

4.1. Características cuantitativas morfológicas (M) y de textura (T ) asociadas al


léxico BI-RADS, donde θ indica ángulo, d es el conjunto de distancias, d es la
distancia en píxeles y W es el tamaño de ventana. . . . . . . . . . . . . . . . 67
4.2. Media y desviación estándar de las cinco características con los mayores valores
de AUC para cada subproblema binario en la descomposición OVA. . . . . . . 71
4.3. Media y desviación estándar de las cinco características con los mayores valores
de AUC para cada subproblema binario en la descomposición OVO. . . . . . . 72
4.4. Promedio (matriz triangular superior) y desviación estándar (matriz triangular
inferior) de la correlación de Pearson de los ordenamientos de relevancia de las
características para cada par de problemas binarios en la descomposición OVA. 73
4.5. Promedio (matriz triangular superior) y desviación estándar (matriz triangular
inferior) de la correlación de Pearson de los ordenamientos de relevancia de las
características para cada par de problemas binarios en la descomposición OVO. 73
4.6. Valores AUC obtenidos por el conjunto de característica para los subproblemas
en las descomposiciones binarias (a) OVA y (b) OVO. . . . . . . . . . . . . . 74
4.7. Valores-p obtenidos con la prueba estadística de Tukey-Kramer entre pares de
subproblemas binarios OVA. . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.8. Valores-p obtenidos con la prueba estadística de Tukey-Kramer entre pares de
subproblemas binarios OVO. . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

vii
4.9. (a)Matriz de confusión del clasificador NN con el porcentaje de muestras con
etiqueta de clase verdadera indicada por el renglón que fueron asignadas a la
clase señalada por la columna y (b) matriz de confusión con el límite inferior
del error de Bayes. Las celdas en gris corresponden a muestras correctamente
clasificadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6.1. Valores-p obtenidos con la prueba estadística de Tukey-Kramer entre pares de


metaheurísticas en el clasificador S-LDA. . . . . . . . . . . . . . . . . . . . . 99
6.2. Características morfológicas (M) y de textura (T ) con mayor porcentaje de
ocurrencias para el clasificador S-LDA con la metaheurística JADE. . . . . . . 101
6.3. Características seleccionadas en común para todos los subproblemas OVO en el
clasificador S-LDA. Dichas características se encuentran organizadas de acuer-
do a su porcentaje de ocurrencias en el total de experimentos. . . . . . . . . . 102
6.4. Comparativa de la complejidad computacional del entrenamiento de los clasifi-
cadores RF y B-LDA, y sus respectivos costos aproximados del entrenamiento
aplicado al problema de clasificación BI-RADS. . . . . . . . . . . . . . . . . . 104
6.5. Valores-p obtenidos con la prueba estadística de Tukey-Kramer entre los cla-
sificadores evaluados con los índices error de clasificación (matriz triangular
inferior) y MCC (matriz triangular superior). . . . . . . . . . . . . . . . . . . 107
6.6. Características más frecuentemente seleccionadas por el clasificador OVO-LDA. 107
6.7. Matrices de confusión con el porcentaje de muestras con etiqueta de clase
verdadera indicada por el renglón que fueron asignadas a la clase señalada por
la columna por los clasificadores (a) Shen_2007, (b) OVO-LDA, (c) S-LDA y
(d) B-LDA. Se resaltan en gris las celdas correspondientes a una clasificación
correcta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.8. Complejidad computacional del entrenamiento de los clasificadores evaluados
y sus costos aproximados en el problema de clasificación BI-RADS. . . . . . . 109
6.9. Valores-p obtenidos con la prueba estadística de Tukey-Kramer para índice
MCC (matriz triangular superior) y error de clasificación (matriz triangular
inferior). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.10. Comparativa entre los clasificadores propuestos S-LDA y B-LDA con trabajos
relacionados a la clasificación histopatológica de lesiones en ultrasonografía.
Los resultados se presentan en porcentaje de error (ERR), sensibilidad (SEN)
y especificidad (ESP). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.11. Distribución de clases histopatológicas separadas por categorías BI-RADS. . . . 113
6.12. Matriz de confusión de la clasificación (a) del radiólogo y (b) del ensamble B-
LDA, con el porcentaje de lesiones clasificadas. Las celdas en gris corresponden
a una clasificación correcta. . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.13. Resultados de clasificación en clases benigna y maligna obtenidos por el clasi-
ficador B-LDA y el diagnóstico de un radiólogo. . . . . . . . . . . . . . . . . 114

viii
Índice de Algoritmos

1. Pseudocódigo de la función mejorPartición. . . . . . . . . . . . . . . . . . . . 15


2. Pseudocódigo para construir el clasificador CART. . . . . . . . . . . . . . . . 16
3. Pseudocódigo de entrenamiento de bosque aleatorio. . . . . . . . . . . . . . . 20
4. Pseudocódigo de selección secuencial de características. . . . . . . . . . . . . 24
5. Pseudocódigo de recocido simulado. . . . . . . . . . . . . . . . . . . . . . . . 32
6. Pseudocódigo de búsqueda tabú. . . . . . . . . . . . . . . . . . . . . . . . . 33
7. Pseudocódigo de evolución diferencial. . . . . . . . . . . . . . . . . . . . . . 34
8. Pseudocódigo de evolución diferencial JADE. . . . . . . . . . . . . . . . . . . 36
9. Pseudocódigo de optimización por cúmulo de partículas. . . . . . . . . . . . . 37
10. Pseudocódigo para construir el clasificador S-LDA. . . . . . . . . . . . . . . . 82
11. Pseudocódigo para definir la estructura del grafo DDAG. . . . . . . . . . . . . 83
12. Pseudocódigo para asignar una etiqueta de clase a una muestra con S-LDA. . 84
13. Pseudocódigo para encontrar m∗ basado en metaheurísticas. . . . . . . . . . . 85
14. Pseudocódigo para evaluar una solución potencial con k-pliegues. . . . . . . . 86
15. Pseudocódigo de función de vecindario N para el algoritmo SA. . . . . . . . . 87
16. Pseudocódigo de función de vecindario Nt para el algoritmo TS. . . . . . . . . 87
17. Pseudocódigo para entrenar un clasificador multiclase OVO con LDA y subes-
pacio aleatorio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
18. Pseudocódigo para entrenar el ensamble B-LDA. . . . . . . . . . . . . . . . . 90
19. Pseudocódigo para clasificar una muestra arbitraria con el ensamble B-LDA. . 90
20. Función para extraer las 180 características basadas en el léxico BI-RADS usa-
das en esta investigación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

ix
Publicaciones

W. Gomez, A. Rodriguez, W.C.A. Pereira, and A.F.C. Infantosi. Feature selection and clas-
sifier performance in computer-aided diagnosis for breast ultrasound. In 10th International
Conference and Expo on Emerging Technologies for a Smarter World (CEWIT), New York,
EE. UU., October 21-22, pages 1–5, 2013.

A. Rodríguez-Cristerna, W. Gómez-Flores, y W.C. de Albuquerque-Pereira. BUSAT: A MATLAB


Toolbox for Breast Ultrasound Image Analysis, In Pattern Recognition: 9th Mexican Conferen-
ce, MCPR 2017, Huatulco, Mexico, June 21-24, 2017, Proceedings, pages 268–277. Springer
International Publishing, 2017.

A. Rodríguez-Cristerna, C.P. Guerrero-Cedillo, G.A. Donati-Olvera, W. Gómez-Flores, and


W.C. de Albuquerque-Pereira. Study of the impact of image preprocessing approaches on
the segmentation and classification of breast lesions on ultrasound. In Electrical Engineering,
Computing Science and Automatic Control (CCE), 14th International Conference on, Cd.
Mexico, September 20-22, 2017, Proceedings. IEEE. In press.

A. Rodríguez-Cristerna, W. Gómez-Flores, y W.C.A Pereira. A Computer-aided Diagnosis


System for Breast Ultrasound Based on Weighted BI-RADS Classes, Computer Methods and
Programs in Biomedicine, 2017, Elsevier. In press.

xi
Resumen

Clasificación multiclase con aprendizaje especializado en parejas


de clases orientado al BI-RADS para ultrasonografía
por

Arturo Rodríguez Cristerna


Unidad Cinvestav Tamaulipas
Centro de Investigación y de Estudios Avanzados del Instituto Politécnico Nacional, 2017
Dr. Wilfrido Gómez Flores, Director
Dr. Wagner Coelho de Albuquerque Pereira, Co-Director

Para abordar problemas de clasificación complejos se ha propuesto unir las respuestas de múl-
tiples clasificadores en lugar de usar la salida de un solo clasificador. Las técnicas que abordan
el problema multiclase con múltiples clasificadores se dividen en descomposición binaria y en-
samble de clasificadores. En la mayoría de los enfoques que emplean múltiples clasificadores
se utiliza el mismo algoritmo de clasificación base, el cual es entrenado con el mismo espacio
de características para discriminar a todas las clases. Sin embargo, distinguir parejas de clases
utilizando sus propios espacios de características podría mejorar el desempeño de clasificación
en problemas donde las distintas clases presentan un alto grado de traslape.
El diagnóstico de cáncer de mama es un ejemplo notable en donde diferentes etapas de
malignidad pueden describirse con distintas características físicas de los tumores. En este
problema, la clasificación de tumores se realiza en categorías BI-RADS, de modo que se puede
tratar como un problema de clasificación multiclase. En esta tesis se aborda el problema de
clasificación multiclase mediante la unión de las respuestas de múltiples clasificadores que
utilizan conjuntos de características especializados en parejas de clases, tomando como caso
de estudio el problema de clasificación BI-RADS de lesiones de mama en ultrasonografía.
Para abordar el problema de investigación, primero se realizó un estudio de separabilidad
de clases BI-RADS en enfoques de descomposición binaria, en el que se encontró que las
características cuantitativas tienen un diferente nivel discriminante entre diferentes parejas de
clases, por lo que es más conveniente describir cada pareja de clases con su propio conjunto
de características. También se encontró que las características son más discriminantes en la
descomposición uno-contra-uno (OVO), por lo que dicha descomposición binaria fue utilizada
como parte de dos clasificadores multiclase propuestos en esta tesis. Adicionalmente, en este
estudio se determinaron los límites (inferior y superior) del desempeño de clasificación de
Bayes.

xiii
Los clasificadores propuestos en esta tesis fueron denominados S-LDA y B-LDA. El clasifi-
cador S-LDA se basa en la descomposición binaria OVO, selección de características para cada
pareja de clases basada en una metaheurística, y análisis linear discriminante (LDA) como cla-
sificador base. El clasificador B-LDA está basado en un ensamble de clasificadores multiclase
OVO con características específicas para separar cada pareja de clases y clasificadores base
LDA. Además, en el clasificador B-LDA se utilizan los mecanismos de generación de diversi-
dad bagging y subespacio aleatorio para obtener una baja correlación entre los errores de los
clasificadores base.
Los clasificadores propuestos fueron comparados con el único enfoque de clasificación BI-
RADS presente en la literatura, denominado Shen_2007, y con un clasificador basado en la
descomposición binaria OVO con clasificadores base LDA entrenados con el mismo conjun-
to de características, denominado OVO-LDA. Los resultados indicaron que los clasificadores
propuestos S-LDA y B-LDA fueron los únicos dentro los límites de desempeño de clasifica-
ción. Además, S-LDA y B-LDA obtuvieron un significativo mejor desempeño de clasificación
en términos del coeficiente de correlación de Matthews, con una media de 0.449 y 0.494, res-
pectivamente, en comparación con Shen_2007 y OVO-LDA, los cuales obtuvieron una media
de 0.340 y 0.430, respectivamente. También se encontró que B-LDA obtuvo un desempeño de
clasificación significativamente mejor que sus contrapartes. Los resultados obtenidos también
indicaron que el ensamble de clasificadores B-LDA es más adecuado para el problema de cla-
sificación BI-RADS en comparación con el clasificador S-LDA. Estos resultados sugieren que
el uso de diferentes características para separar cada pareja de clases mejora el desempeño de
clasificación BI-RADS, en comparación con utilizar el mismo conjunto de características para
separar todas las parejas de clases.

xiv
Abstract

Multiclass classification with specialized pairwise


learning oriented to BI-RADS for ultrasonography
by

Arturo Rodríguez Cristerna


Cinvestav Tamaulipas
Research Center for Advanced Study from the National Polytechnic Institute, 2017
Dr. Wilfrido Gómez Flores, Advisor
Dr. Wagner Coelho de Albuquerque Pereira, Co-advisor

To solve complex classification problems, it has been proposed joining the output of multiple
classifiers instead of using the output of a single classifier. The techniques that address the
multiclass problem with multiple classifiers are divided into binary decomposition and ensemble
of classifiers. Generally, multiple classifiers approaches use the same base classifiers, trained
with the same feature space to discriminate all classes. However, distinguishing pairs of classes
using their own features spaces could improve the classification performance in problems where
different classes present large overlapping.
Breast cancer diagnosis is a notable example where different stages of malignancy can be
described with different physical features of the tumors. In this problem, tumor classification is
performed in BI-RADS categories, so that it can be seen as a multiclass classification problem.
This thesis addresses the multiclass classification problem by combining the outputs of multiple
classifiers using specialized features sets in pairs of classes, taking the BI-RADS classification
problem of breast lesions in ultrasonography as study case.
In order to address the research problem, we first carried out a study of the separability of
BI-RADS classes in binary decomposition approaches, in which it was found that the quanti-
tative features have different discriminant levels between different pair of classes, so it is more
convenient to describe each pair of classes with their own set of features. It was also found
that the features are more discriminant in the one-vs-one decomposition (OVO), so that such
binary decomposition was used as part of two multiclass classifiers proposed in this thesis.
Additionally, in this study, the limits (lower and higher) of Bayes classification performance
were calculated.
The proposed classifiers in this thesis were named S-LDA and B-LDA. The S-LDA classifier
is based on the OVO binary decomposition, feature selection for each pair of classes based
on a metaheuristic, and linear discriminant analysis (LDA) as the base classifier. The B-LDA

xv
classifier is based on an ensemble of OVO multiclass classifiers with specific features to distin-
guishing each pair of classes and LDA base classifiers. In addition, the B-LDA classifier uses
the diversity mechanisms namely bagging and random subspace for obtaining a low correlation
among the errors of base classifiers.
The proposed classifiers were compared with the only BI-RADS classification approach in
the literature, named Shen_2007, and with a classifier based on OVO binary decomposition
with LDA base classifiers trained with the same set of features, named OVO-LDA. The re-
sults indicated that the proposed classifiers S-LDA and B-LDA were the only ones within the
limits of Bayes. In addition, S-LDA and B-LDA achieved a significantly better classification
performance in terms of Matthews correlation coefficient, with an average of 0.449 and 0.494,
respectively, compared to Shen_2007 and OVO-LDA, which obtained an average of 0.340 and
0.430, respectively. It was also found that B-LDA obtained a significantly better classification
performance than its counterparts. The obtained results also indicated that the ensemble of
classifiers B-LDA is more suitable for the BI-RAD classification problem compared to the clas-
sifier S-LDA. These results suggest that the use of different features to separate each pair
of classes improves BI-RADS classification performance, compared to using the same set of
features to separate all the pairs of classes.

xvi
Nomenclatura

Acrónimos principales
ANN Red neuronal artificial
AUC Área bajo la curva ROC
BI-RADS Sistema de Informes y Registro de Datos de Imagen de Mama
CAD Diagnóstico médico asistido por computadora
CART Árboles de clasificación y regresión
CV Validación cruzada
DDAG Grafo acíclico dirigido de decisión
DE Evolución diferencial
DL Aprendizaje profundo
DT Árbol de decisión
ESP Especificidad
EXC Exactitud
GA Algoritmo genético
JADE Evolución diferencial autoadaptativa
k-NN k-vecinos más cercanos
LDA Análisis lineal discriminante de Fisher
LOOCV Validación cruzada dejando uno fuera
LR Regresión logística
mAUC Área bajo la curva ROC multiclase
MCC Coeficiente de correlación de Matthews
mrMR Mínima redundancia máxima relevancia
NB Bayesiano ingenuo
NN Vecino más cercano
OVA Uno-contra-todos
OVO Uno-contra-uno
PSO Optimización por cúmulo de partículas
RF Bosque aleatorio
SA Recocido simulado
SEN Sensibilidad
SVM Máquina de vectores de soporte
TS Búsqueda tabú
1
Introducción

El reconocimiento de patrones es una disciplina científica que estudia cómo clasificar objetos
en un número de categorías o clases. A los objetos se les conoce con el término genérico de
patrones y una clase de patrones es un conjunto de patrones que poseen propiedades en
común [169]. Esta disciplina provee soluciones a problemas de reconocimiento y clasificación
del mundo real, tales como reconocimiento de voz, reconocimiento facial, clasificación de
caracteres manuscritos, diagnóstico médico, entre otros [85, 149].

En particular, el diagnóstico médico se enfoca en distinguir entre diferentes etapas o ca-


tegorías de una patología con base en el análisis de síntomas, lo cual es indispensable para
establecer el tratamiento adecuado [36]. Cuando se caracterizan los síntomas mediante téc-
nicas de reconocimiento de patrones es posible construir sistemas de diagnóstico asistido por
computadora (CAD, del Inglés computer-aided diagnosis), los cuales proveen una segunda opi-
nión para asistir al especialista en la interpretación de datos médicos para el reconocimiento
y clasificación de patologías. Dentro de los órganos analizados por los sistemas CADs se en-
cuentran: mama, colon, cerebro, hígado, riñón, sistema músculo-esquelético, sistema vascular,
entre otros [40].

Debido al auge de los sistemas CADs, han surgido diversos estudios para evaluar su efecti-
vidad, los cuales concluyen que el uso de un CAD ayuda a mejorar el diagnóstico del especia-
lista [20, 40]. La mayoría de los CADs ofrecen una clasificación binaria que indica la presencia
o ausencia de una patología; sin embargo, en algunos casos como en el diagnóstico de cáncer
de mama, los especialistas prefieren emitir un diagnóstico en categorías o etapas del desarrollo
del cáncer, lo cual se puede abordar como un problema de clasificación multiclase.

1
2 1.1. Antecedentes y motivación

1.1 Antecedentes y motivación


De manera general, los problemas de clasificación multiclase se han abordado en la literatu-
ra de dos maneras: con clasificadores inherentemente multiclase y con múltiples clasificadores.
En el primer caso, un solo algoritmo de aprendizaje supervisado es capaz de realizar la clasifi-
cación multiclase. Entre los algoritmos que se encuentran en esta categoría están los árboles
de decisión (DT, del Inglés decision trees) [130, 169], algoritmo de los k-vecinos más cerca-
nos (k-NN, del Inglés k-nearest neighbors) [51, 153], red neuronal artificial (ANN, del Inglés
artificial neural network) [144], entre otros.
Por otro lado, las técnicas que abordan el problema multiclase con múltiples clasificadores
se dividen en dos tipos: descomposición binaria [58] y ensambles de clasificadores [185], en los
cuales se entrena un conjunto de clasificadores base cuyas salidas se unen con un método de
agregación para obtener una respuesta global.
En la descomposición binaria se divide el problema multiclase en múltiples subproblemas
de clasificación binaria, de modo que cada clasificador base resuelve una parte del problema
multiclase. Diferentes estudios han demostrado que la descomposición binaria suele obtener
mejor desempeño de clasificación en comparación con utilizar un clasificador inherentemente
multiclase [2, 7, 56–58, 81, 92, 122, 135, 146]. Además, la descomposición binaria posibilita la
generalización multiclase de clasificadores binarios [81, 104] y también permite la especializa-
ción de distintas fronteras de decisión utilizando diferentes tipos de clasificadores o diferentes
parámetros para cada clasificador [55, 94, 120]. Con respecto a los ensambles de clasifica-
dores, múltiples clasificadores base son entrenados de manera independiente para resolver el
mismo problema multiclase. Los ensambles de clasificadores se han utilizado para mejorar el
desempeño de clasificadores entrenados de manera individual [15, 37, 54, 72, 185].
La descomposición binaria y los ensambles de clasificadores se han empleado para resol-
ver distintos problemas del mundo real como la clasificación de vegetación usando imágenes
satelitales [84], reconocimiento de caracteres escritos a mano [32, 112], reconocimiento de
rostros [105], clasificación de tejidos con base en datos de microarreglos [97], entre otros.
En la mayoría de los enfoques que emplean múltiples clasificadores se utiliza el mismo
algoritmo de clasificación base, el cual es entrenado con el mismo espacio de características
para discriminar a todas las clases [58, 140, 185]. Sin embargo, distinguir cada clase utili-
zando características específicas podría mejorar el desempeño de clasificación en problemas
donde las distintas clases presentan un alto grado de traslape [53, 120, 175]. En particular,
en el diagnóstico médico se pueden considerar diferentes síntomas para distintas etapas de
una enfermedad, lo cual debería reflejarse en un sistema CAD. Esto puede ser incorporado
en enfoques de múltiples clasificadores, ya que cada clasificador base puede entrenarse con
diferentes características que distingan de mejor manera cada una de las clases.
1. Introducción 3

El diagnóstico de cáncer de mama es un ejemplo notable en donde diferentes etapas de


malignidad pueden describirse con distintas características físicas de los tumores [143, 155].
Para visualizar dichas características, los especialistas hacen uso de imágenes médicas como la
mamografía y la ultrasonografía [6, 154]. Esta última ha emergido como la técnica coadyuvante
más importante a la mamografía en pacientes con masas palpables y hallazgos mamográficos no
concluyentes. Esto se debe a que mejora la especificidad de la mamografía en la caracterización
de masas, lo cual es útil en la reducción del número de biopsias en lesiones benignas [41, 155].
No obstante, de acuerdo con Skaane [156], los radiólogos pueden diferir en sus interpretaciones
de una imagen, lo cual genera variaciones inter- e intra-observador. Por tanto, para reducir
la variabilidad en el diagnóstico, la evaluación de las imágenes se ha estandarizado a través
del Sistema de Informes y Registro de Datos de Imagen de Mama (BI-RADS, del Inglés
breast imaging-reporting and data system) [96, 110, 119]. Mediante el BI-RADS un tumor es
caracterizado con atributos cualitativos como forma, margen, orientación, etc., y con base en
estos atributos se asigna una probabilidad de malignidad de acuerdo a las siguientes categorías:

Categoría 2: Hallazgo benigno, 0 % de probabilidad de malignidad.

Categoría 3: Hallazgo benigno, menos del 2 % de probabilidad de malignidad.

Categoría 4: Malignidad sospechosa entre el 3 y 94 % de probabilidad de malignidad.

Categoría 5: Alta sospecha de malignidad, más del 95 % de probabilidad de malignidad.

Es importante señalar que las categorías 2 a 5 están reservadas para evaluar imágenes con
presencia de tumores, aunque el BI-RADS también considera las categorías 0, 1 y 6 que indican
nuevo estudio, sin anormalidades, y cáncer confirmado por biopsia, respectivamente. A pesar
de que el estándar BI-RADS es usando ampliamente en el diagnóstico médico, su incorporación
en sistemas CAD ha sido poco explorado, siendo la descripción cuantitativa de los atributos
cualitativos el enfoque más desarrollado [102, 115]. Cabe señalar que la clasificación de lesiones
en clases benigna y maligna es el estudio más abordado en la literatura [27]. Sin embargo, la
clasificación de tumores en categorías BI-RADS es prácticamente inexistente. Inclusive, solo
existe un trabajo en la literatura que realiza la clasificación de lesiones en categorías 3, 4, y 5
para imágenes de ultrasonido [151]. Por tanto, es una área de oportunidad para explorar el
potencial de clasificadores basados en descomposición binaria y ensambles de clasificadores,
ya que la clasificación de tumores en categorías BI-RADS se puede tratar como un problema
de clasificación multiclase. Además, se pueden diseñar clasificadores que utilicen distintas
características para diferenciar entre categorías BI-RADS. Por otro lado, actualmente investigar
sobre el desarrollo de sistemas CAD para el diagnóstico de cáncer de mama es relevante a nivel
mundial, ya que esta patología presenta la más alta tasa de mortalidad por cáncer entre las
4 1.2. Planteamiento del problema

mujeres [48, 49, 106]. De manera que el desarrollo de alternativas tecnológicas puede ayudar
en el diagnóstico oportuno de cáncer de mama.

1.2 Planteamiento del problema


Para abordar problemas de clasificación complejos se ha propuesto unir las respuestas
de múltiples clasificadores en lugar de usar la salida de un solo clasificador, lo cual está
justificado por las siguientes tres razones [37]. Primero se reduce el riesgo de elegir un modelo
de clasificación erróneo, ya que cuando existen datos limitados puede haber mucha variabilidad
en el desempeño de diferentes modelos de clasificación; por tanto, al unir las respuestas de
distintos clasificadores se reduce la discrepancia entre las respuestas. La segunda razón se
encuentra relacionada con la exploración del espacio de soluciones, ya que los clasificadores
que establecen la frontera de decisión por búsqueda pueden estancarse en óptimos locales; por
tanto, al unir las respuestas de múltiples clasificadores construidos a partir de búsquedas con
puntos iniciales distintos, es posible obtener un mejor modelo de clasificación que cualquiera de
los clasificadores individuales involucrados. Finalmente, un solo clasificador puede ser incapaz
de representar la verdadera frontera de decisión, de modo que es posible aproximar fronteras
de decisión más complejas combinando las respuestas de múltiples clasificadores.
Generalmente los enfoques basados en múltiples clasificadores son entrenados de una ma-
nera convencional en donde todos los clasificadores base aprenden a partir de un espacio de
características en común [58, 140, 185]. Esta forma convencional de entrenamiento asume
que las características utilizadas son capaces de distinguir a todas las clases. Sin embargo,
este enfoque presenta limitaciones, ya que se necesitan diseñar características discriminantes
capaces de diferenciar cuantitativamente a cada una de las clases, lo cual suele ser difícil en
la práctica [53, 120, 175]. Esto quiere decir que una característica que es muy discriminante
para distinguir entre un par clases, puede no serlo para otra pareja de clases diferente.
Para abordar este problema se ha propuesto seleccionar de manera independiente un grupo
de características específico para cada subproblema en la descomposición binaria [120]. Tam-
bién, se ha propuesto utilizar un ensamble de dos clasificadores multiclase, el primero entrenado
con un conjunto de características en común para todos clasificadores base, y el segundo en-
trenado con características específicas para cada subproblema binario [174]. No obstante, los
dos enfoques mencionados se encuentran limitados debido a que utilizan clasificadores que
requieren parámetros y no presentan un método para establecer dichos parámetros. Además,
no consideran las interacciones entre los clasificadores base en la selección de característi-
cas y tampoco consideran un índice de desempeño de clasificación para problemas con clases
desbalanceadas, como lo es el coeficiente de correlación de Matthews [87].
Por otro lado, el problema de clasificación de tumores de mama en categorías BI-RADS
1. Introducción 5

es un claro ejemplo de la dificultad para obtener características discriminantes, debido a la


similitud que existe entre los atributos cualitativos de categorías adyacentes [18]. Por ejemplo,
un tumor de categoría 2 puede tener forma redonda, aunque también este rasgo puede carac-
terizar a un tumor de categoría 3. Asimismo, un tumor con forma ovalada puede encontrarse
en las categorías 3 y 4, y un tumor con forma irregular puede encontrarse en las categorías 4
y 5. Nótese que en este caso la forma del tumor puede cuantificarse con un descriptor de re-
dondez, el cual sería útil para distinguir entre categorías 2 y 5, aunque no para diferenciar entre
categorías 2 y 3, ya que ambas tienden a presentar tumores con formas redondas. Además, la
categoría 4 abarca prácticamente todo el espectro de probabilidad de malignidad (3 al 94 %),
ya que se encuentra en la transición entre categorías con hallazgos benignos y malignos. Ade-
más, otro problema notable es el desbalanceo de clases histopatológicas, es decir, existen más
casos benignos que malignos [6, 69], lo cual disminuye la correcta clasificación de la clase
minoritaria [24, 88].
El único trabajo reportado en la literatura que realiza clasificación BI-RADS utiliza el mismo
conjunto de características para distinguir entre las categorías en el rango 3 a 5, y además
su desempeño de clasificación fue validado con las clases histopatológicas benigna y maligna,
por lo que no se validó la clasificación multiclase [151]. Los autores indican que el error de
clasificación de su método disminuye cuando se excluye la categoría 4, ya que simplifican
el problema de clasificación al caso binario donde las categorías 3 y 5 representan lesiones
benignas y malignas, respectivamente. Inclusive mencionan que si un tumor es clasificado por
su método en la categoría 4 es preferible analizarlo por otros medios.
Debido a lo expuesto anteriormente, en esta tesis se aborda el problema de clasificación
multiclase mediante la unión de las respuestas de múltiples clasificadores, donde cada clasi-
ficador base es entrenado a partir de características específicas que son discriminantes para
una pareja de clases en particular. En dicho problema es necesario establecer un método de
entrenamiento del clasificador y un mecanismo de selección de características específicas para
cada pareja de clases, los cuales maximicen el desempeño de clasificación medido con el coefi-
ciente de correlación de Matthews. Se toma como caso de estudio el problema de clasificación
BI-RADS, debido a la dificultad para obtener características capaces de discriminar entre todas
las categorías BI-RADS.
Derivado de estas observaciones se plantean las siguientes preguntas de investigación:

¿Difiere significativamente la capacidad discriminante de las características, en términos


de la separabilidad inter-clase, entre los subproblemas involucrados en las descomposi-
ciones binarias para la clasificación BI-RADS?

¿Cuál es el impacto en el desempeño de clasificación, en términos del coeficiente de


correlación de Matthews, al utilizar la unión de múltiples clasificadores que utilicen
6 1.3. Hipótesis

características específicas para separar cada pareja de clases BI-RADS?

¿Cuál es el enfoque de múltiples clasificadores, descomposición binaria o ensambles de


clasificadores, con mejor desempeño de clasificación BI-RADS, en términos del coefi-
ciente de correlación de Matthews?

1.3 Hipótesis
En el problema de clasificación BI-RADS, la unión de las respuestas de múltiples clasifica-
dores entrenados con características específicas para separar cada pareja de clases mejora el
desempeño de clasificación, en términos del coeficiente de correlación de Matthews, en compa-
ración con utilizar el mismo conjunto de características para separar todas las parejas de clases.

1.4 Objetivos

1.4.1 Objetivo general


Construir un esquema de clasificación multiclase basado en múltiples clasificadores que
utilicen conjuntos de características especializados en parejas de clases BI-RADS.

1.4.2 Objetivos específicos


Establecer los métodos de aprendizaje supervisado para entrenar dos enfoques de múl-
tiples clasificadores basados en descomposición binaria y ensambles de clasificadores.

Determinar un mecanismo de selección de características que discriminen entre parejas


de clases BI-RADS.

Identificar el enfoque de múltiples clasificadores más adecuado para la clasificación BI-


RADS.

1.5 Metodología de investigación


Para lograr los objetivos establecidos en este proyecto de investigación se siguió una me-
todología de investigación divida en cinco etapas, cada una con sus propias tareas:

1. Definición del banco de datos. Se obtuvo un banco de datos donde las lesiones están
representadas con características que describen nominalmente a los atributos cualitativos
del léxico BI-RADS:
1. Introducción 7

Definición de las técnicas de preprocesamiento de datos para organizar un banco


de ultrasonografías de mama. Se contó con un banco de imágenes con propiedades
heterogéneas (e.g., formatos de archivo diferentes, imágenes repetidas, casos sin
diagnóstico, etc.) que requirió ser organizado para su manipulación.

Selección de un método de segmentación de ultrasonografías de mama. Cada lesión


presente en las imágenes fue segmentada del tejido adyacente para el cálculo de
características cuantitativas.

Representación de las lesiones con características cuantitativas que describen los


atributos cualitativos del léxico BI-RADS. A partir de una revisión de la literatura
se definieron las características que describen los atributos cualitativos de forma,
orientación, margen, patrón de eco, y característica posterior.

2. Estudio de separabilidad de clases BI-RADS en enfoques de descomposi-


ción binaria. Se eligió un enfoque de descomposición binaria el cual presentó la mejor
capacidad discriminante entre parejas de clases BI-RADS:

Selección de los enfoques de descomposición binaria. A partir de una revisión de


la literatura se seleccionaron los enfoques de descomposición binaria comúnmente
utilizados en aplicaciones del mundo real.

Análisis de la capacidad discriminante de las características cuantitativas entre pa-


rejas de clases BI-RADS para cada enfoque de descomposición binaria. Se validó
experimentalmente que la capacidad discriminante de cada característica sea dis-
tinta en cada subproblema binario.

Selección del enfoque de descomposición binaria. Se eligió el enfoque de descom-


posición binaria con mayor separabilidad de clases BI-RADS.

Establecer los límites (inferior y superior) del error de clasificación de Bayes. Los
límites de clasificación de Bayes obtenidos fueron una referencia del desempeño de
clasificación de los clasificadores propuestos.

3. Desarrollo de un clasificador basado en descomposición binaria. Se obtuvo un


clasificador basado en descomposición binaria cuyos clasificadores base están especiali-
zados en parejas de clases BI-RADS:

Selección del método de agregación de la descomposición binaria elegida. A partir


de una revisión de la literatura se eligió un método que combina las respuestas de
los clasificadores base, el cual evita regiones no clasificables.
8 1.5. Metodología de investigación

Definición de un mecanismo de selección de características. Se diseñó un mecanismo


de selección de características que consideró las interacciones entre los subproble-
mas binarios, ya que que el desempeño de clasificación depende de las respuestas
de todos los clasificadores base.

Diseño de un método de entrenamiento del clasificador basado en descomposición


binaria. Se definió un esquema de entrenamiento que incorporó el método de agre-
gación y el mecanismo de selección de características para construir el esquema de
clasificación propuesto.

4. Desarrollo de un clasificador basado en ensamble de clasificadores. Se obtu-


vo un ensamble de clasificadores cuyos clasificadores base consideraron características
específicas para cada pareja de clases BI-RADS:

Definición del clasificador base del ensamble. Se eligió un clasificador multiclase


simple y con buena capacidad de generalización.

Definición de los mecanismos de generación de diversidad. A partir de una revisión


de la literatura se eligieron métodos que permiten obtener una baja correlación
entre los errores de los clasificadores base.

Diseño de un método de entrenamiento del ensamble de clasificadores. Se diseñó


un esquema de entrenamiento que incorpora los mecanismos de generación de
diversidad en los clasificadores base del ensamble. Además, se incorporó un método
de agregación compatible con los mecanismos de generación de diversidad elegidos.

5. Validación de los clasificadores desarrollados. Se evaluó el desempeño de clasifi-


cación de los enfoques desarrollados en el problema de clasificación BI-RADS:

Comparación de los enfoques propuestos de clasificación BI-RADS. Se eligió el


enfoque propuesto, descomposición binaria o ensamble de clasificadores, con mejor
desempeño de clasificación BI-RADS.

Comparación de los enfoques propuestos contra los límites de Bayes. Se validó


estadísticamente que el desempeño de clasificación de los enfoques propuestos
estuvieran dentro de los límites inferior y superior.

Comparación de los dos enfoques propuestos, el primero basado en descomposición


binaria y el segundo basado en ensambles de clasificadores, contra métodos del
estado del arte. Estos métodos corresponden al único trabajo presentado en la
literatura para realizar clasificación BI-RADS [151] y al método de clasificación
multiclase donde todas las clases son discriminadas con el mismo conjunto de
1. Introducción 9

características [58]. Se realizaron pruebas estadísticas para validar los desempeños


de clasificación de los métodos comparados.

1.6 Contribuciones
Las principales contribuciones de esta investigación son las siguientes:

Un ensamble de clasificadores denominado B-LDA basado en bagging, subespacio alea-


torio y clasificadores multiclase con descomposición binaria, el cual se enfoca a problemas
con un alto número de características relevantes y redundantes.

Un clasificador denominado S-LDA basado en la descomposición binaria, conjuntos de


características independientes para cada pareja de clases y clasificadores base LDA, el
cual está diseñado para problemas donde las características más discriminantes para cada
pareja de clases son distintas.

Un sistema de diagnóstico de lesiones de mama en ultrasonografía basado en categorías


BI-RADS, el cual provee una clasificación similar a la recomendación médica [139].

Una biblioteca de funciones para el análisis de imágenes de ultrasonido de mama para


realizar preprocesamiento, segmentación de la lesión, extracción de características y
clasificación de la lesión [136].

Una artículo de revista indizado en el Journal Citation Reports y tres artículos en con-
gresos internacionales.

1.7 Organización del documento


En este documento de tesis, además del capítulo introductorio, comprende seis capítulos
adicionales. En el Capítulo 2 se presentan los conceptos y bases teóricas de los diferentes mé-
todos utilizados en esta investigación. El Capítulo 3 contiene una revisión de los trabajos más
importantes con respecto a los esquemas de descomposición binaria, ensambles de clasificado-
res y trabajos enfocados al análisis de ultrasonografías de mama relacionados al BI-RADS. En
el Capítulo 4 se presenta un análisis de la separación de clases en las descomposiciones OVA
y OVO, y además se realiza un análisis del desempeño teórico de clasificación en el problema
de clasificación BI-RADS. En el Capítulo 5 se describen dos enfoques propuestos para la cla-
sificación utilizando características específicas para separar parejas de clases. En el Capítulo 6
se presentan los resultados de los enfoques propuestos y también se realiza una comparativa
10 1.7. Organización del documento

con clasificadores de la literatura. En el Capítulo 7 se presentan las conclusiones derivadas de


esta investigación y se describe el trabajo futuro.
Por último se presentan dos apéndices. El Apéndice A contiene la derivación analítica del
clasificador binario llamado análisis lineal discriminante. El Apéndice B presenta el algorit-
mo para extraer las características morfológicas y de textura que fueron utilizadas en esta
investigación para describir las lesiones.
Marco teórico
2
En este capítulo se describen las herramientas y técnicas empleadas en el desarrollo de
este trabajo de investigación. El capítulo se divide en siete secciones: clasificación de patrones,
se introduce el problema de clasificación de patrones; métodos de clasificación, se detallan
técnicas de clasificación binaria y multiclase, así como un ensamble de clasificadores; selección
de características, se describe un método para la reducción de dimensionalidad basado en or-
denamiento de características; índices de desempeño de clasificación, se describen las métricas
de evaluación de los clasificadores; técnicas de remuestreo, se describen métodos para obte-
ner estimaciones confiables de los índices de desempeño; metaheurísticas para optimización
global, se describen técnicas de optimización basadas en una solución y técnicas de optimiza-
ción basadas en una población de soluciones; y pruebas estadísticas, se presentan las pruebas
estadísticas utilizadas en esta investigación.

2.1 Clasificación de patrones


En el problema de clasificación de patrones se infiere una función de relación a partir de una
memoria de muestras etiquetadas con su clase correspondiente para clasificar muestras desco-
nocidas [113]. En este problema, la función de relación define hiperplanos o hipersuperficies
de decisión que separan las regiones de las diferentes clases, las cuales también son llamadas
fronteras de decisión [169]. Además, una observación o muestra se representa mediante un
patrón o vector de características m-dimensional denotado como x = [x1 , . . . , xm ]T , el cual
está asociado a una etiqueta de clase y ∈ Ω = {ω1 , . . . , ωc }. Los problemas de clasificación
con c clases se denominan binarios cuando c = 2 y multiclase cuando c > 2 [169].
Formalmente, el entrenamiento de un clasificador consiste en buscar una función de mapeo
g : Rm → Ω que dado un patrón arbitrario x proporcione una etiqueta ŷ ∈ Ω, la cual es

11
12 2.2. Métodos de clasificación

una aproximación a la clase a la que pertenece. Para encontrar dicha función se utiliza una
memoria denotada como {X, y}, donde X = {x1 , x2 , . . . , xN } es un conjunto de N muestras
de entrenamiento e y = {y1 , y2 , . . . , yN } denota las correspondientes etiquetas de clase de
cada observación. Entonces, al evaluar una instancia arbitraria en el clasificador g(·) se obtiene
un valor de pertenencia (o confianza) a cada una de las clases en el conjunto Ω.
Por otro lado, el desempeño de un clasificador se cuantifica por medio de índices que com-
paran el conjunto de etiquetas asignadas por el clasificador contra el conjunto de etiquetas
verdaderas. En este sentido, el índice de desempeño más simple es llamado error de clasi-
ficación, el cual cuantifica la fracción de discrepancias entre las etiquetas verdaderas y las
etiquetas asignadas.

2.2 Métodos de clasificación


A continuación se describen dos clasificadores. El primero el clasificador binario llama-
do análisis lineal discriminante (LDA, del Inglés linear discriminant analysis), el cual ha sido
ampliamente usado en la clasificación de lesiones de mama en ultrasonografías debido a su
buena capacidad de generalización [4, 18, 52, 64, 66, 118] y a su simple interpretación [117].
El segundo es el clasificador multiclase llamado árbol de clasificación y regresión (CART, del
Inglés classification and regression trees), el cual es utilizado como base en diversos ensambles
de clasificadores [15, 169, 185]. También, se describen teóricamente los esquemas de des-
composición multiclase uno-contra-todos (OVA, del Inglés one-versus-all ) y uno-contra-uno
(OVO, del Inglés one-versus-one), utilizados para realizar clasificación multiclase a partir de
clasificadores binarios. Además, se describe el ensamble de clasificadores llamado bosque alea-
torio, el cual ha obtenido resultados notables en diversos problemas de clasificación del mundo
real [35, 50, 84, 148, 164].

2.2.1 Análisis lineal discriminante


El LDA es un método supervisado de reducción de dimensionalidad que realiza una pro-
yección lineal de un espacio de características m-dimensional a uno con c − 1 dimensiones
para un problema de c clases. Nótese que en el caso de dos clases, el espacio m-dimensional
es proyectado a una recta. Por tanto, el LDA puede ser usado en problemas de clasificación
binaria como un clasificador lineal, en el que se busca encontrar una combinación lineal de
características que maximice la relación entre las varianzas inter-clase e intra-clase, con el
objetivo de generar un hiperplano que separe las proyecciones de las dos clases.
Para maximizar dicha relación de varianzas se busca el vector de pesos w que maximice
la relación del discriminate de Fisher (FDR, del Inglés Fisher’s discriminant ratio), definida
2. Marco teórico 13

como [169, 176]:

wT SB w
J(w) = , (2.1)
wT SW w
donde SB es la matriz de dispersión inter-clase calculada como:

µp − µ q )T ,
µp − µ q )(µ
SB = (µ (2.2)

y SW es la matriz de dispersión intra-clase calculada como:

X X
SW = Pi (xj − µi )(xj − µi )T , (2.3)
ωi ∈{ωp ,ωq } xj ∈ωi

donde µ i es un vector m dimensional con el valor promedio de las muestras de la clase ωi y Pi


es la probabilidad a priori de la clase ωi ∈ {ωp , ωq }. Entonces, para el caso de dos clases, el
vector de pesos w que maximiza la función J se obtiene de manera directa como [42, 75, 169]:

w = S−1 µp − µ q ),
W (µ (2.4)

donde S−1
W denota la inversa de la matriz de dispersión intra-clase. La derivación analítica para
obtener el vector de pesos w se presenta en el Apéndice A. Una vez encontrado el vector de
pesos w, la clasificación de una instancia arbitraria x se realiza con la regla:

ω
p si wT (x − 21 (µ
µp − µ q )) > 0
ŷ(x) = (2.5)
ω
q en otro caso.

De esta manera, con la Ecuación 2.4 se obtiene de manera analítica el hiperplano de


proyección, mientras que el hiperplano de decisión se obtiene a partir de la Ecuación 2.5.
La Figura 2.1 muestra un ejemplo del hiperplano de proyección e hiperplano de decisión
construidos con el clasificador LDA para un problema con dos características. La comple-
jidad computacional para obtener el vector de pesos w mediante el clasificador LDA es
O(N · m · mı́n(N, m) + mı́n(N, m)3 ) [16]. No obstante, en el caso binario la inversión de
la matriz intra-clase en la Ecuación 2.4 domina la complejidad, resultando en O(m3 ).

2.2.2 Árboles de clasificación y de regresión


Los árboles CART son clasificadores no lineales basados en la partición binaria del espacio
de características [169], los cuales no requieren una previa normalización de las muestras
de entrenamiento y están diseñados para abordar problemas multiclase de manera natural.
Además, pueden tratar con características categóricas y numéricas [180].
14 2.2. Métodos de clasificación

Hiperplano de
decisión

Hiperplano de
proyección

Característica 2

Característica 1

Figura 2.1: Ejemplo de hiperplano de proyección e hiperplano de decisión construidos con LDA
para un problema con dos características.

El algoritmo CART realiza un proceso recursivo en donde para un nodo padre, con una
memoria de muestras {X, y}, se elige la característica y el punto de corte con el mayor
decremento de impureza. El tamaño de los subconjuntos resultantes del punto de corte se
encuentra limitado por un número mínimo de muestras denotado como lmı́n . El punto de
corte seleccionado se utiliza para construir dos subconjuntos de muestras, que formarán los
nodos hijo izquierdo y derecho. Si un nodo hijo tiene un número menor de muestras que nmı́n ,
entonces se vuelve un nodo hoja, en otro caso se vuelve un nodo padre sobre el cual es necesario
determinar sus nodos hijo. El proceso continúa hasta que ningún nodo pueda dividirse en nodos
hijo. Si se establece que nmı́n = 2 y lmı́n = 1, entonces el algoritmo CART construye un árbol
denominado sin podar cuyos nodos hoja solamente contienen una observación [169].
Dado un vector que contiene todas las muestras de entrenamiento en el nodo NP repre-
sentadas con la i-ésima característica, con 1 ≤ i ≤ m, el mejor punto de corte es el que
maximiza el decremento de impureza y se calcula como:

∆Iτ = I(nP ) − PL I(nL ) − PR I(nR ), (2.6)

donde nP es el nodo padre, nL y nR son los nodos hijo izquierdo y derecho, respectivamente,
y PL y PR son la fracción de muestras en el nodo padre que se asignarán a los nodos izquierdo
y derecho, respectivamente [42]. Además, la función I(·) mide la impureza de un nodo con
base en las muestras que contiene. Para medir la impureza comúnmente se utiliza el índice
Gini, definido como [42]:
X
I(nP ) = 1 − Pq2 , (2.7)
q∈Ω

donde Pq es la probabilidad de las muestras de la clase ωq en el nodo padre nP . El pseudocódigo


2. Marco teórico 15

para obtener el mejor punto de corte dado un conjunto de muestras y una característica
seleccionada se presenta en el Algoritmo 1.

Algoritmo 1 Pseudocódigo de la función mejorPartición.


Entrada: i, {X, y}, lmı́n
Salida: τ ∗ , ∆Iτ∗
1: T = obtener puntos de corte en X con la i-ésima característica y particiones con al menos
lmı́n muestras;
2: para cada punto de corte τ ∈ T hacer
3: ∆Iτ = Decremento de impureza con el punto de corte τ ;
4: ∆I = {∆Iτ |τ ∈ T };
5: τ ∗ = argmáx(∆I);
τ
6: ∆Iτ∗ = máx(∆I);
7: regresa τ ∗ y ∆Iτ∗

El Algoritmo 2 muestra el pseudocódigo para construir un clasificador CART. Generalmen-


te, se asignan probabilidades iguales a las clases en el nodo raíz, de manera que puede trabajar
con problemas con clases desbalanceadas [180]. Nótese que CART es un algoritmo voraz cuya
complejidad radica en evaluar todos los posibles puntos de corte en todas las m características
del conjunto de entrenamiento con N muestras, de manera que su complejidad computacional
resultante es O(N · m · log(N )) [177].
Para clasificar una instancia arbitraria, primero se evalúa en el nodo raíz del árbol utilizando
el punto de corte τî∗ y la î-ésima característica seleccionada. Posteriormente se continúan
evaluando los nodos hijo de acuerdo a los puntos de corte y características seleccionadas,
hasta llegar a un nodo hoja. La clase ganadora ωq es aquella que maximiza la relación Pq /Pr,q ,
donde Pq y Pr,q son las probabilidades de la clase ωq en los nodos hoja y raíz, respectivamente.

2.2.3 Esquemas de descomposición binaria


Los esquemas de descomposición binaria son utilizados para abordar problemas de clasifica-
ción multiclase a partir de multiples subproblemas de clasificación binarios. Los dos esquemas
más utilizados son conocidos como OVA y OVO [58, 146]. En el esquema OVA, el problema
multiclase con c clases se descompone en c subproblemas independientes de clasificación bina-
ria para separar cada clase del resto. Entonces, para el p-ésimo subproblema binario se entrena
un clasificador base (cp ) para distinguir la clase ωp del resto utilizando el conjunto completo
de datos de entrenamiento con N muestras. Para entrenar cada clasificador base, los datos
requieren ser reetiquetados en las clases ω+ y ω− , como se ejemplifica en la Tabla 2.1 para un
problema con cinco clases, Ω = {ω1 , ω2 , . . . , ω5 }. Para la etapa de clasificación se evalúan los
c clasificadores base y las confianzas obtenidas se utilizan en un método de agregación. En el
16 2.2. Métodos de clasificación

Algoritmo 2 Pseudocódigo para construir el clasificador CART.


Entrada: {X, y}, lmı́n , nmı́n
Salida: nP
1: Construir nodo nP con impureza I(nP );
2: si N < nmı́n ó I(nP ) == 0 entonces
3: Pq ← Probabilidad de la clase ωq en el nodo actual;
4: Pr,q ← Probabilidad de la clase ωq en el nodo raíz;
5: Asignar al nodo nP la clase ωq = argmáx Pq /Pr,q ;
q
6: sino
7: para i = 1 hasta m hacer
8: {τi∗ , ∆Iτ,i

} ← Computar mejorPartición con i, {X, y} y lmı́n ;
9: î = argmáx{∆Iτ,i

|1 ≤ i ≤ m};
i
10: Separar {X, y} en {X1 , y1 } y {X2 , y2 } con î-ésima característica y partición τî∗ ;
11: nL = CART({X1 , y1 }, lmı́n , nmı́n );
12: nR = CART({X2 , y2 }, lmı́n , nmı́n );
13: Asignar al nodo padre nP los nodos hijo nL y nR ;
14: Asignar al nodo padre nP la î-ésima característica y el punto de corte τî∗ seleccionados;
15: regresa nP

método de agregación más simple, llamado máxima confianza [7], la clase de una observación
de prueba es asignada con el clasificador base que obtiene la mayor respuesta positiva. El
problema de clasificación de cinco clases se ilustra en la Figura 2.2.a, y las correspondientes
fronteras de decisión en el esquema de descomposición OVA se presentan en la Figura 2.2.b.

Tabla 2.1: Ejemplo de reetiquetados de clases utilizados en los clasificadores base (cp ) del
esquema OVA para un problema con cinco clases.

Clasificador base
Clase c1 c2 c3 c4 c5
ω+ ω1 ω2 ω3 ω4 ω5
ω− {Ω \ ω1 } {Ω \ ω2 } {Ω \ ω3 } {Ω \ ω4 } {Ω \ ω5 }

En el esquema OVO, el problema multiclase se aborda considerando los subproblemas


binarios con cada posible par de clases, es decir, se abordan c(c − 1)/2 subproblemas de
clasificación binaria. Cada subproblema binario supone el entrenamiento de un clasificador
base cp,q que define una frontera de decisión entre un par de clases (ωp , ωq ), para 1 ≤ p, q ≤ c
tal que p 6= q, como se ejemplifica para el problema de cinco clases en la Tabla 2.2. Para
entrenar el clasificador cp,q se usan solamente las muestras correspondientes al par de clases
(ωp , ωq ). Por otro lado, para realizar la clasificación de una observación arbitraria, se evalúan
todos los clasificadores base y las etiquetas binarias resultantes son usadas en un método de
agregación para asignar la etiqueta de clase. La Figura 2.2.c muestra las fronteras de decisión
2. Marco teórico 17

a) b) c)
c2,5
c1,2

c1,5

c1,3

c1 c1,4

c5 c2

c4 c3
c2,3

c4,5
c3,5 c3,4 c2,4

Figura 2.2: (a) Problema de clasificación con cinco clases y las posibles fronteras de decisión de
los clasificadores con las descomposiciones binarias (b) OVA y (c) OVO, indicadas con líneas
discontinuas.

construidas con la descomposición OVO para el problema con cinco clases mostrado en la
Figura 2.2.a.

Tabla 2.2: Ejemplo de las clases involucradas en los clasificadores binarios (cp,q ) utilizados en
la descomposición OVO para un problema con cinco clases.

Clase
Clase ω1 ω2 ω3 ω4 ω5
ω1 - c1,2 c1,3 c1,4 c1,5
ω2 - - c2,3 c2,4 c2,5
ω3 - - - c3,4 c3,5
ω4 - - - - c4,5

En el método de agregación OVO llamado “grafo acíclico dirigido de decisión” (DDAG, del
Inglés decision directed acyclic graph) se construye un árbol de decisión con c−1 niveles, donde
cada nodo está asociado a un clasificador binario. En cada nivel se realiza una clasificación
binaria y se evita el camino que sigue la clase perdedora. Entonces, es necesario evaluar c − 1
nodos y la última clase ganadora es la clase predicha. Este método presenta la ventaja que
no produce produce una región en el espacio de características conocida como región no
clasificable, en la que una muestra podría pertenecer a más de una clase.
Además, la estructura del árbol de decisión se organiza de manera que los nodos superiores
presenten un mejor desempeño de clasificación en el entrenamiento en comparación con los
nodos inferiores [47, 126, 166]. En la Figura 2.3 se ilustra un posible árbol de decisión DDAG
para un problema con cinco clases, en el que cada camino está marcado por su clase ganadora.
Cabe señalar que las descomposiciones binarias OVA y OVO han sido adoptadas porque
mejoran el desempeño de clasificación de diversos algoritmos multiclase [2, 7, 56–58, 81, 92,
18 2.2. Métodos de clasificación

Figura 2.3: Posible árbol de decisión DDAG para un problema con cinco clases, donde ωk ∈ Ω.

122, 135, 146], facilitan el entrenamiento en paralelo de los clasificadores binarios [146] y
posibilitan la especialización de las fronteras de decisión [55, 94, 120].

2.2.4 Ensamble de clasificadores


En los ensambles de clasificadores se entrena un grupo de clasificadores base y se combinan
sus salidas para obtener una mejor respuesta que un clasificador individual [185]. El uso de
los ensambles de clasificadores se ha extendido debido a su buen desempeño en problemas del
mundo real [121, 123].
Dos condiciones son necesarias y suficientes para que un ensamble supere la exactitud
de clasificación de los clasificadores base que lo componen: (i) los clasificadores base deben
tener una exactitud mayor a la obtenida por una clasificación aleatoria, y (ii) los errores de
diferentes clasificadores base deben producirse para diferentes instancias de prueba [37]. En
otras palabras, los clasificadores base deben tener una baja correlación entre sus errores [15].
En caso de que los errores esten altamente correlacionados, entonces el error del ensamble
será el mismo que el error de los clasificadores base. Además, si la mayoría de los clasificadores
base tienen un error mayor que una clasificación aleatoria, entonces se obtendrá un alto error
de clasificación con el mecanismo de agregación que se utilice.
El ensamble de clasificadores llamado bosque aleatorio (RF, del Inglés random forest) [15]
ha obtenido resultados notables en diversos problemas de clasificación del mundo real [1, 35,
84, 148, 164]. Su funcionamiento se basa en árboles de decisión, en el método bagging y en
el método de subespacio aleatorio para cumplir las condiciones necesarias y suficientes para
obtener un mejor desempeño que los clasificadores base.

2.2.4.1. Método bagging

El método bagging (o agregación bootstrap) consiste de dos procesos para el entrena-


miento de un ensamble y la clasificación de muestras arbitrarias. En el primer proceso, se aplica
2. Marco teórico 19

la técnica bootstrap, en donde cada clasificador base se entrena a partir de un conjunto de


muestras tomadas aleatoriamente con remplazo a partir del conjunto original, de modo que
ambos conjuntos tienen el mismo número de patrones. Esto quiere decir que una muestra del
conjunto original puede ser seleccionada más de una vez en el conjunto de entrenamiento.
En el segundo proceso, para asignar una etiqueta de clase a una muestra arbitraria, se
utiliza el método de agregación de voto mayoritario, en donde cada clasificador base emite
un voto para alguna de las clases, y la clase ganadora es aquella con la mayor cantidad de
votos [42].
La técnica bagging es utilizada para disminuir el error de clasificación en clasificadores que
presentan una alta variabilidad en el error de clasificación debida a pequeñas variaciones en el
conjunto de muestras de entrenamiento [42].

2.2.4.2. Método de subespacio aleatorio

El método de subespacio aleatorio fue propuesto por Ho [77] para abordar el problema de
sobreajuste en los árboles de decisión y al mismo tiempo construir ensambles de árboles con
una baja correlación entre los miembros del ensamble.
De manera general, en el método de subespacio aleatorio se selecciona aleatoriamente un
subconjunto de características para entrenar un clasificador base. De esta forma, los diferentes
clasificadores base del ensamble observan diferentes subconjuntos de características. Final-
mente, la clase ganadora para una instancia arbitraria es aquella que al ser evaluada por los
clasificadores base recibe la mayor cantidad de votos [77]. El parámetro de control de este mé-
todo es el número de características seleccionadas aleatoriamente, el cual afecta el desempeño
del ensamble [77].
Una ventaja de los ensambles construidos con este método es que a medida que el número
de clasificadores en el ensamble crece, la generalización del ensamble aumenta o se mantie-
ne [77]. Además, este método es efectivo cuando hay muchas características redundantes. No
obstante, no es recomendado para conjuntos de datos con pocas características o con mu-
chas características irrelevantes. En este último caso se recomienda filtrar las características
irrelevantes antes de generar los subespacios [185].

2.2.4.3. Bosque aleatorio

El ensamble de clasificadores RF, propuesto por Breiman [15], combina los métodos
de remuestreo aleatorio (bagging) y de subespacio aleatorio para entrenar un conjunto de
árboles de decisión con una baja correlación en sus errores, utilizando el algoritmo CART
como clasificador base.
El método de bagging es utilizado para crear k conjuntos de muestras {X0 , y0 } tomados
20 2.2. Métodos de clasificación

con la técnica bootstrap del conjunto original de datos de entrenamiento {X, y}. Nótese que
se crean conjuntos de muestras con el mismo número de observaciones que en el conjunto
original.
Como se mencionó anteriormente, en el algoritmo CART se evalúan todas las m caracte-
rísticas y se elige en cada nodo la que maximiza el decremento de impureza [42]. Este criterio
cambia en el ensamble RF debido al método de subespacio aleatorio, donde para cada nodo
de un árbol CART se seleccionan aleatoriamente m̃ características y se elige aquella con la
partición binaria con máximo decremento de impureza. Experimentalmente el autor encontró
que un buen valor del parámetro m̃ es blog2 (m) + 1c [15]. Una vez construido el ensamble
RF, para clasificar una instancia arbitraria cada árbol emite un voto por una clase y la clase
ganadora es aquella con más votos.
El pseudocódigo para construir un ensamble RF se muestra el Algoritmo 3, donde Θ =
{Θ1 , Θ2 , . . . , Θke } es un ensamble con ke clasificadores. Debido al método de subespacio
aleatorio, la complejidad del algoritmo CART se reduce a O(N · m̃ · log(N )). Por tanto, la
complejidad del algoritmo RF es O(ke · N · m̃ · log(N ))

Algoritmo 3 Pseudocódigo de entrenamiento de bosque aleatorio.


Entrada: X, y, m̃, ke
Salida: Θ
1: Θ = ∅;
2: para i = 1 hasta ke hacer
3: {X0 , y0 } = muestreo con técnica bootstrap {X, y};
4: Θi = Entrenar un CART sin podar con {X0 , y0 } con m̃ características en cada nodo;
5: Θ = {Θ ∪ Θi };
6: regresa Θ

2.2.4.4. Medidas de desempeño de un bosque aleatorio

Breiman propuso analizar las propiedades de fuerza (s) y correlación (ρ̄) de RF para
determinar el desempeño de clasificación esperado [15]. Para definir dichas propiedades se
requieren conocer el margen (mr ) y el margen crudo (rm ). El margen mide la distancia entre
el voto promedio para la clase correcta y cualquier otra clase; por tanto, a medida que aumenta
el margen también aumenta la confianza en la clasificación [15]. Esta medida se calcula como:

mr (x, y) = PΘ (h(x, Θ) = y) − máx PΘ (h(x, Θ) = j), (2.8)


j, j6=y

donde PΘ es la probabilidad en el conjunto {Θ1 , Θ2 , . . . , Θke }, x es una muestra con etiqueta


de clase y, h es una función de clasificación, y j ∈ Ω es una etiqueta de clase. Por otro lado,
2. Marco teórico 21

el margen crudo se define como:

rm (Θ, X, y) = I(h(X, Θ) = y) − I(h(X, Θ) = ĵ(X, y)), (2.9)

donde I es la función indicatriz y ĵ(X, y) es una función que obtiene la etiqueta de clase con
mayor probabilidad dentro de las clases incorrectas para cada muestra en X, y se define como:

ĵ(X, y) = argmáx PΘ (h(X, Θ) = j). (2.10)


j, j6=y

Entonces, la fuerza es una medida de confianza en la clasificación del ensamble y es definida


en función del margen como:
s = Ex,y [mr (x, y)], (2.11)

donde E es la esperanza matemática. Por otra parte, la correlación ρ̄ mide la coincidencia de


aciertos y errores de los clasificadores en el ensamble con base en la media estadística de las
correlaciones de Pearson ρp (rm (Θi , X, y), rm (Θj , X, y)) [10], y se calcula de la forma:

EΘi , Θj , i6=j [ρp (rm (Θi , X, y), rm (Θj , X, y))σ(Θi )σ(Θj )]


ρ̄ = , (2.12)
EΘi , Θj , i6=j [σ(Θi )σ(Θj )]
donde σ(Θi ) es la desviación estándar de rm (Θi , X, y) y análogamente para σ(Θj ). Diversos
estudios han concluido que a menor valor de la relación ρ̄/s2 , existe una mayor probabilidad
de obtener un bajo error, lo cual es deseable en un ensamble RF [11, 15].

2.2.5 Normalización de patrones


Usualmente, el resultado de la clasificación es afectado por el rango de valores de las
características de los patrones, ya que la frontera de decisión tiende a sesgarse debido a
las características con mayor magnitud. Este fenómeno ocurre principalmente cuando existe
una alta heterogeneidad en el rango de valores que toman las características. Por tanto, es
recomendable realizar una normalización de los patrones de entrenamiento para acotar los
valores de las características a un intervalo definido.
La normalización Z-score ajusta los datos de entrenamiento para que cada característica
tenga media cero y varianza unitaria. La normalización Z-score para la i-ésima característica
se computa como [128]:

xi − µ i
x0i = , (2.13)
σi
donde µi y σi son el valor medio y la desviación estándar, respectivamente, de la característi-
ca xi .
22 2.3. Selección de características

Otra normalización comúnmente utilizada es llamada softmax, la cual es una técnica que
utiliza una función sigmoide para ajustar los valores de las características en el rango [−1, 1],
al mismo tiempo que reduce la influencia de valores atípicos. La normalización softmax de la
i-ésima característica está dada por [128]:

1 − exp( xiσ−µ i
)
x0i = i
. (2.14)
1 + exp( xiσ−µ
i
i
)
Esta es una transformación casi lineal para los datos cercanos a la media, y no lineal para
valores extremos, tal que se preserva la relación entre las instancias que se encuentren dentro
del rango [µi − σi , µi + σi ]. Cabe señalar que en la etapa de clasificación los patrones deben
ser normalizados de acuerdo a los valores µi y σi de las muestras de entrenamiento.

2.3 Selección de características


En la selección de características se busca un espacio de características que tenga la menor
dimensionalidad posible sin disminuir el desempeño de clasificación. También se busca que
dicho espacio de características sea discriminante, donde muestras de la misma clase presenten
similitudes, mientras que muestras de diferentes clases se encuentren lo más distante posible.
Por consiguiente, la selección de características implica remover características irrelevan-
tes y redundantes del conjunto de características original, denotado como FS ∈ Rm , con el

objetivo de establecer un subespacio de características FB ∈ Rm , tal que m∗ < m. Las
características irrelevantes introducen un costo computacional innecesario y además pueden
conducir a una baja generalización del clasificador, por lo que deben ser removidas. Por otra
parte, una característica redundante implica la co-presencia de otra característica que apor-
ta la misma información, de manera que, aunque individualmente ambas sean relevantes, es
posible eliminar una de ellas sin afectar el desempeño del clasificador [101]. Para determinar
la relevancia y redundancia de las características se puede emplear una medida de importan-
cia de las características en relación a las etiquetas de clase. Esta medida sirve para ordenar
las características de mayor a menor relevancia, de modo que el subconjunto seleccionado se
encuentra dentro de las primeras características ordenadas.

2.3.1 Ordenamiento de características mrMR


El ordenamiento de características mínima-redundancia Máxima-Relevancia (mrMR) fue
propuesto por Peng et al. [38, 124] para establecer una prioridad en las características.
La relevancia se mide con el coeficiente de correlación biserial puntual entre una caracte-
rística xi ∈ FS y el vector de etiquetas de clase y, mientras que la redundancia se mide con
2. Marco teórico 23

el coeficiente de correlación de Pearson entre un par de características en FS .

La correlación biserial puntual es una medida de asociación entre una variable discreta y
una variable continua, y se calcula como [93, 168]:
s
µp − µq Np Nq
ρb (xi , yp,q ) = , (2.15)
σp N (N − 1)

donde xi es la i-ésima característica con N muestras, yp,q son las etiquetas correspondientes
al par de clases ωp y ωq ; µp , σp , y Np son la media, desviación estándar y número de muestras,
respectivamente, de la característica xi de las muestras correspondientes a las clase ωp , y
análogamente se obtienen µq y Np para ωq .

La correlación de Pearson mide la correlación lineal entre dos variables continuas y se


calcula como [10]:
PN
− µi )(xj,k − µj )
k=1 (xi,k
ρp (xi , xj ) = qP qP , (2.16)
N 2 N 2
k=1 (xi,k − µi ) k=1 (xj,k − µj )

donde N es el número de muestras, xi,k es la k-ésima muestra y µi es la media muestral de


la característica xi , y análogamente se obtienen xj,k y µj para la característica xj .

Ambos coeficientes (ρb y ρp ) toman valores en el rango [−1, 1], donde el valor ‘−1’ indica
una total correlación negativa, el valor ‘1’ indica una total correlación positiva, y el valor ‘0’
indica que no hay correlación lineal.

Para ordenar las características, el criterio mrMR es maximizado como [38]:


 
 ρb (xi , yp,q ) 
máx , (2.17)
 
 X
xi ∈FS \FB 1

|FB |
ρ p (x i , xj ) 
xj ∈FB

donde FB es un subconjunto ordenado de características, |FB | es la cardinalidad de FB , y


FS \ FB representa el conjunto de todas las características que no han sido ordenadas. La
Ecuación 2.17 se aplica iterativamente hasta que FS \ Fs = ∅, de esta manera se obtiene un
conjunto ordenado de descriptores, donde la primera característica ordenada tiene la mayor
relevancia dado que FB es un conjunto vacío en la primera iteración. El método mrMR es menos
sensible al fenómeno de siren pitfall de problemas con clases no equiprobables [53, 175].
24 2.4. Índices de desempeño de clasificación

2.3.2 Método de selección secuencial


Una vez realizado el proceso de ordenamiento del conjunto de características, es necesario
seleccionar un subconjunto con las primeras características ordenadas. Esto se puede realizar
mediante una evaluación secuencial de subconjuntos con cardinalidad i, donde 1 ≤ i ≤ m, y
seleccionando un subconjunto de cardinalidad m∗ que maximice el desempeño de clasificación.
El pseudocódigo de la selección secuencial se presenta en el Algoritmo 4, donde Xs re-
presenta al conjunto de entrenamiento X cuyas características han sido ordenadas de acuerdo
al criterio mrMR, E es el esperanza matemática, Q(·) es una función de discrepancia (Ecua-
ción 2.19), h(·) es una función de clasificación de las muestras Xsi utilizando el clasificador
Θsi , considerando las primeras i características ordenadas. Por tanto, ei es el error de clasifica-
ción obtenido al utilizar las i características más importantes. Nótese que el error ei puede ser
reemplazado por un índice de desempeño de clasificación más sofisticado, como los descritos
en la Sección 2.4. Además, para obtener una medida confiable del índice de desempeño se
requiere un método de remuestreo como validación cruzada con k-pliegues [89].
Una ventaja de realizar el proceso de selección de características por el método de selección
secuencial es que solamente se evalúan m subconjuntos de características, mientras que con
una búsqueda exhaustiva se requieren evaluar 2m conjuntos de características.

Algoritmo 4 Pseudocódigo de selección secuencial de características.


Entrada: Xs, y
Salida: m∗
1: para i = 1 hasta m hacer
2: ei = E[Q(y, h(Xsi , Θsi ))];
3: m = argmín ei ;

i
4: regresa m∗

2.4 Índices de desempeño de clasificación


La evaluación del clasificador involucra calcular índices de desempeño con base en las
etiquetas verdaderas y las etiquetas asignadas por el clasificador a un conjunto de muestras de
prueba. En esta sección se describe el error de clasificación, el cual es ampliamente utilizado
debido a su simplicidad. Sin embargo, no es adecuado para problemas con probabilidades
de clases desbalanceadas. El problema de desbalanceo de clases es común en aplicaciones de
clasificación médicas, debido a que suele haber pocos pacientes con anomalías o presencia de la
enfermedad [8]. Por tanto, en esta sección también se describen los índices de clasificación para
problemas con clases desbalanceadas: área bajo la curva característica operativa del receptor
2. Marco teórico 25

(AUC, del Inglés area under the curve) [71, 175] y coeficiente de correlación de Matthews
(MCC, del Inglés Matthews correlation coefficient) [67].

2.4.1 Error de clasificación


La manera más simple de medir el desempeño de un clasificador es mediante la tasa de
error definida como:
N
1 X
e= Q (yi , ŷi ) , (2.18)
N i=1

donde N es el número de instancias de prueba, yi es la etiqueta de clase verdadera de una


instancia de prueba, ŷi es la etiqueta de clase predicha, y Q es una función de discrepancia
que se define como: 
1 si y 6= ŷ
i i
Q(yi , ŷi ) = (2.19)
0 en otro caso.

La tasa de error no resulta adecuada cuando el número de instancias de las clases es muy
diferente, ya que la clase mayoritaria disminuye el efecto del error en la clase minoritaria. Por
esta razón se han propuesto índices de desempeño de clasificación para clases desbalanceadas
calculados a partir de una matriz de confusión.

2.4.2 Análisis ROC


El análisis de la característica operativa del receptor (ROC, del Inglés receiver opera-
ting characteristic) permite cuantificar el desempeño de un clasificador binario [46]. Sea
s = [s1 , s2 , . . . , sN ] un vector de respuestas (o confianzas) de un clasificador para N muestras
de prueba, donde si indica la pertenencia de la i-ésima muestra a alguna de las clases ω+ y
ω− , de modo que a mayor valor positivo implica una mayor probabilidad de pertenencia a la
clase ω+ . Entonces, la matriz de confusión mostrada en la Tabla 3.3 para un problema de dos
clases se construye binarizando el vector s usando un punto de corte cp mediante la siguiente
regla de decisión:

ω
+ si si > cp
ŷ(xi ) = (2.20)
ω
− en otro caso.

Debido a que en este trabajo de investigación se utiliza LDA como clasificador subyacente,
la asignación de etiquetas de clase se realiza con un punto de corte cp = 0, tal y como se
definió en la Ecuación 2.5.
A partir de la matriz de confusión en la Tabla 2.3 se obtiene el desempeño del clasificador
26 2.4. Índices de desempeño de clasificación

Tabla 2.3: Matriz de confusión para un problema de clasificación binario, donde VP, FN, FP,
VN son el acumulado de instancias que cumplen las condiciones de las celdas.

Clase asignada (ŷ)


ω+ ω−
Clase ω+ Verdadero Positivo (VP) Falso Negativo (FN)
verdadera (y) ω− Falso Positivo (FP) Verdadero Negativo (VN)

en las instancias positivas con el índice de sensibilidad, el cual se calcula como [159]:

VP
SEN = . (2.21)
VP + FN

También, se obtiene el índice de especificidad, el cual mide el desempeño de clasificación


en las instancias negativas y se calcula como [159]:

VN
SPE = . (2.22)
FP + VN
Por otra parte, el índice de desempeño llamado AUC es recomendado para problemas con
probabilidades de clases desbalanceadas. El índice AUC es un indicador de la separabilidad de
las distribuciones entre dos clases, ω− y ω+ , y tiene la particularidad de ser independiente del
punto de corte de clasificación [71, 175]. Además, el AUC es equivalente a la probabilidad
de que el clasificador asigne un mayor puntaje a una instancia positiva, en comparación con
una instancia negativa [46]. Considérese el vector de confianzas s cuyos valores han sido
ordenados de manera ascendente. Entonces, el índice AUC se calcula utilizando los rangos de
ordenamiento (i.e., posiciones en el arreglo ordenado) de las instancias que verdaderamente
pertenecen a ω+ como [71]:
Pn+
i=1 ri − n+ (n+ + 1)/2
AUC = , (2.23)
n+ n−

donde ri es el rango de ordenamiento y, n+ y n− son el número de instancias pertenecientes


a las clases ω+ y ω− , respectivamente. En la práctica, el índice AUC toma valores en el rango
[0.5, 1], donde el valor ‘1’ indica una clasificación perfecta y el valor ‘0.5’ indica clasificación
aleatoria; por tanto, un desempeño de clasificación aceptable debe tender a la unidad. La
generalización del índice AUC para un problema con c clases se define como el promedio de
los valores AUC entre todos los pares de clases [71]:

2 X AUC(ωp , ωq ) + AUC(ωq , ωp )
mAUC = , (2.24)
c(c − 1) p<q 2
2. Marco teórico 27

donde AUC(ωp , ωq ) es el índice AUC calculado para las clases ωp y ωq con la Ecuación 2.23.

2.4.3 Coeficiente de correlación de Matthews


El coeficiente de correlación de Matthews (MCC) es un índice de desempeño de clasificación
recomendado para clases desbalanceadas, que toma en cuenta tanto el desempeño en las
instancias positivas como negativas. Este índice se computa a partir de la matriz de confusión
en la Tabla 2.3 como [87, 159]:

TP · TN − FP · FN
MCC = p . (2.25)
(TP + FP)(TP + FN)(TN + FP)(TN + FN)

Los valores del índice MCC se encuentran en el rango [−1, 1], donde el valor ‘1’ indica
clasificación perfecta, el valor ‘0’ indica una clasificación aleatoria, y el valor ‘−1’ indica un
completo desacuerdo entre las etiquetas reales y las etiquetas asignadas por el clasificador.
Por tanto, un desempeño de clasificación adecuado debe tender a la unidad.
El índice MCC fue generalizado para problemas de más de dos clases por Gorodkin [67].
Este índice es computado a partir de una matriz de confusión multiclase M de tamaño c × c,
cuya entrada Mpq contiene el número de instancias de la clase ωp que fueron asignadas a la
clase ωq por el clasificador. Nótese que la suma de todos los elementos de M es el número
total de instancias de prueba, mientras que la suma de los elementos de la diagonal principal
de M es el número de instancias correctamente clasificadas. Asimismo, la suma de todos los
elementos fuera de la diagonal principal de M es el número de errores. Entonces, el índice
MCC multiclase se calcula como:
P
N · tr(M) − kl Mk Ml
MCC = p P p P , (2.26)
N 2 − kl Mk (MT )l N 2 − kl (MT )k Ml
donde N es el número de muestras, Mk y Ml son el k-ésimo renglón y la l-ésima columna de la
matriz de confusión, respectivamente, MT es la transpuesta de M y tr(·) es la función traza.

2.5 Técnicas de remuestreo


En la práctica, el conjunto de muestras con el que se dispone es finito, de modo que para
estimar la capacidad de generalización del clasificador es necesario establecer dos conjuntos de
muestras para realizar las tareas de entrenamiento y prueba del clasificador. Cuando se usa el
mismo conjunto de muestras para realizar ambas tareas se obtiene la tasa de error aparente,
o error de resubstitución, la cual sobrestima el desempeño de clasificación de una manera
optimista [45]. Entonces, para estimar la capacidad de generalización con un sesgo reducido
28 2.5. Técnicas de remuestreo

prueba entrenamiento

partición 1

partición 2

partición 5

entrenamiento prueba

Figura 2.4: Ejemplo de partición de un conjunto de muestras con dos clases con el método de
validación cruzada con cinco pliegues, donde un círculo blanco es una muestra de la clase ω1
y un círculo gris es una muestra de la clase ω2 .

y baja varianza, el conjunto de muestras se divide en conjuntos disjuntos de entrenamiento y


prueba.
Una manera común de estimar el desempeño de un modelo de clasificación usando con-
juntos de muestras independientes es con el método de validación cruzada con k-pliegues
(CV, del Inglés cross validation). En este método las muestras son agrupadas aleatoriamente
en k conjuntos disjuntos todos ellos con una cardinalidad similar, respetando la proporción
de instancias por clase en cada conjunto. Las muestras de k − 1 conjuntos son usados para
construir un modelo de clasificación, mientras que el conjunto restante es usado para validar el
desempeño de clasificación, y este proceso se repite hasta que todos los conjuntos son usados
para la validación. La estimación final del desempeño de clasificación se obtiene promediando
los desempeños de los k conjuntos de validación [134]. En la literatura, valores comunes de
k son 5 y 10. Además, la validación cruzada puede realizarse repetidas veces para mejorar la
estimación de la generalización del clasificador [89]. La Figura 2.4 muestra un ejemplo de la
partición de un conjunto de muestras con validación cruzada con cinco pliegues.
Cuando se busca la mejor configuración del modelo de clasificación, ya sea por medio de
una sintonización de los parámetros del clasificador o de una selección de características, se
recomienda medir el desempeño de las configuraciones mediante validación cruzada anida-
da [172]. En una primera etapa el conjunto completo de muestras es dividido en conjuntos
de entrenamiento y prueba con validación cruzada con k-pliegues. En una segunda etapa, los
conjuntos de entrenamiento generados en la primera etapa son subdividos nuevamente con el
proceso de validación cruzada con k-pliegues. Entonces, para cada conjunto de entrenamiento
construido en la primera etapa, se realiza el aprendizaje del modelo de clasificación utilizando
una medida de error obtenida con la correspondiente validación cruzada de la segunda etapa.
Posteriormente, los conjuntos de prueba construidos en la primera etapa son empleados para
medir la capacidad de generalización del clasificador [172]. La Figura 2.5 ilustra la partición
2. Marco teórico 29

etapa 1 prueba entrenamiento

partición 1

Sintonización del modelo de clasificación

prueba entrenamiento etapa 2

partición 1.1

partición 1.5

entrenamiento prueba

partición 5

Sintonización del modelo de clasificación

prueba entrenamiento etapa 2

partición 5.1

partición 5.5

Figura 2.5: Ejemplo de partición de un conjunto de muestras con dos clases con el método de
validación cruzada anidada con cinco pliegues en las dos etapas.

de un conjunto de muestras utilizando la validación cruzada anidada con cinco pliegues en la


primera y segunda etapa de validación.

Otra técnica de remuestreo comúnmente utilizada en la literatura es la llamada validación


cruzada dejando uno fuera (LOOCV, del Inglés leave-one-out cross validation). Esta técnica es
un caso especial de la validación cruzada con k-pliegues cuando el número de pliegues es igual
al número de muestras, es decir, k = N . De esta manera, cada instancia va a ser utilizada
como muestra de validación solamente una vez. Debido a su alto costo computacional, este
método más recomendado para evaluar el error de clasificación cuando se tiene un conjunto
de datos con pocas muestras [169].
30 2.6. Metaheurísticas para optimización global

2.6 Metaheurísticas para optimización global


Las tareas de optimización dentro del aprendizaje supervisado son diversas, como la sin-
tonización de parámetros del clasificador y selección de características que minimicen el error
de clasificación. El problema de selección de características puede verse como un problema de
optimización combinatoria, donde es necesario seleccionar el mejor conjunto de características
que minimicen una función de error de clasificación.
La selección de características con un algoritmo de selección secuencial requiere evaluar
m subconjuntos. Adicionalmente, el espacio de búsqueda crece cuando se requieren selec-
cionar características para cada subproblema binario en una descomposición multiclase. En
dicho caso, un algoritmo de selección secuencial para la descomposición OVO requiere evaluar
m(c(c−1)/2) posibles soluciones, mientras que para la descomposición OVA requiere evaluar mc
posibles soluciones. Por tanto, resulta inviable una selección secuencial para seleccionar las
características de los subproblemas binarios en una descomposición multiclase. En este sen-
tido, las metaheurísticas de optimización global son herramientas para obtener una solución
subóptima en tiempos de cómputo razonables, las cuales han sido utilizadas para la selección
de características, debido a que el espacio de búsqueda suele ser muy grande [181], y además
se ha demostrado que el problema de selección de características es NP-duro [70].
En esta sección se describen dos metaheurísticas basadas en una sola solución: recocido
simulado (SA, del Inglés simulated annealing ) [19, 91] y búsqueda tabú (TS, del Inglés tabu
search) [61, 62]. Además, se describen dos metaheurísticas basadas en una población de so-
luciones: evolución diferencial (DE, del Inglés diferential evolution) [162, 184] y optimización
por cúmulo de partículas (PSO, del Inglés particle swarm optimization) [44]. Dichas metaheu-
rísticas han sido utilizadas en la literatura para la selección de características; sin embargo, los
resultados resportados no permiten determinar claramente la mejor metaheurística [181]. Las
metaheurísticas basadas en una sola solución tienen la capacidad de intensificar la búsqueda
en regiones locales, mientras que las metaheurísticas basadas en una población de soluciones
permiten una mejor diversificación de la búsqueda en el espacio completo de soluciones [167].

2.6.1 Recocido simulado


El algoritmo de SA es una metaheurística atribuida a Kirkpatrick [91] y Černỳ [19], cuyo
funcionamiento se inspira en el proceso de recocido en los metales en el que un material caliente
se enfría lentamente para encontrar su estado de mínima energía y así disminuir los defectos en
su estructura. Esta metaheurística requiere la definición de los siguientes parámetros de control:
temperatura inicial (to ), temperatura final (tf ), tiempo de espera entre cada decremento de
temperatura (L) y tasa de enfriamiento [183].
2. Marco teórico 31

La función objetivo en el SA corresponde a la energía del sistema y una solución z co-


rresponde a un estado del sistema. La optimización por SA inicia con una solución con alta
energía o pobre desempeño. Posteriormente la solución actual del sistema es perturbada utili-
zando una función de vecindario para obtener una nueva solución. Si la nueva solución tiene
un mejor desempeño, entonces reemplaza a la solución actual, en otro caso la solución actual
es remplazada con una probabilidad que sigue una distribución de Boltzmann [91], en la que
se toma en cuenta la mejora a la solución actual y la temperatura del proceso de recocido.
De esta forma, aceptando transiciones a soluciones con un peor desempeño que la solución
actual se evita caer en óptimos locales. La temperatura del recocido decrece una vez que se
hayan explorado L posibles soluciones vecinas, reduciendo al mismo tiempo la probabilidad de
aceptar una peor solución. Finalmente el proceso de recocido termina cuando se alcanza la
temperatura mínima o cuando se han explorado un número im de soluciones vecinas [167].
El proceso de recocido, además de los parámetros de control antes mencionados, requiere
de un criterio para enfriar el sistema. En la literatura existen diversas propuestas de enfriamien-
to [138, 167, 183], aunque el criterio más comúnmente utilizado es el denominado geométrico,
donde la temperatura t del sistema se actualiza como:

t = t · α, (2.27)

donde α es un coeficiente de enfriamiento en el intervalo (0, 1). Debido a que el proceso de


SA puede resultar en una lenta convergencia, algunos autores han sugerido decrementar la
temperatura una vez que una mejor solución ha sido encontrada, en vez de esperar a que un
ciclo de recocido con L iteraciones termine [98, 141].
El Algoritmo 5 presenta el pseudocódigo de SA, donde f (·) es la función de evaluación de
desempeño de una solución y N(·) es una función de vecindario.

2.6.2 Búsqueda tabú


El algoritmo de optimización TS, propuesto por Glover [61, 62], se basa en explorar el
vecindario de la solución actual y aceptar la mejor solución vecina, incluso si esta empeora la
calidad de la solución actual. Además, una característica representativa de TS es el uso de una
memoria, llamada lista tabú, para almacenar soluciones recientemente visitadas o movimientos
previos que puedan ciclar la búsqueda. En TS se definen los siguientes parámetros de control:
tamaño de lista tabú (ts ) y número máximo de ciclos en el proceso de búsqueda (im ).
El algoritmo TS comienza la búsqueda con una solución z aleatoria y una lista tabú vacía.
Posteriormente se realiza un proceso iterativo en el que la solución actual es reemplazada
por la mejor solución en el vecindario que no se encuentre en la lista tabú o que no sea un
movimiento tabú. El reemplazo se realiza aún cuando este no implique una mejora a la solución
32 2.6. Metaheurísticas para optimización global

Algoritmo 5 Pseudocódigo de recocido simulado.


Entrada: t0 , tf , L, α, im
Salida: z∗
1: z = z∗ = obtener solución inicial;
2: t = t0 ; i = 1;
3: mientras (t > tf ) hacer
4: para l = 0 hasta L − 1 hacer
5: z0 = N(z);
6: si f (z) < f (z0 ) entonces
7: z0 = z; t = t · α; i = 0;
8: sino
f (z0 )−f (z)
9: z = z0 con una probabilidad mín{1, e− t };
∗ ∗
10: si f (z) < f (z ) entonces z = z;
11: si i == im entonces regresa z∗ sino i = i + 1;
12: t = t · α;
13: regresa z∗

actual. Una vez hecho el reemplazo, la solución actual o el movimiento en el vecindario que
la produjo es añadido a la lista tabú. El proceso de búsqueda de soluciones en el vecindario
y reemplazo de la solución actual se repite durante un número de iteraciones o hasta que se
cumpla algún criterio de paro [167].
Dos aspectos importantes en el funcionamiento del algoritmo TS son la información en la
lista tabú y el tamaño de la lista. La lista tabú puede almacenar las soluciones previamente
visitadas cuando ésta puede ser representada con una pequeña cantidad de información. De
otra manera, la lista tabú almacena los movimientos utilizados para generar las soluciones
visitadas. Por otra parte, un tamaño pequeño de lista genera ciclos en la búsqueda mientras
que un tamaño muy grande hace la búsqueda muy restrictiva [167].
El pseudocódigo de TS se presenta en el Algoritmo 5, donde Nt (z) es una función que
obtiene los vecinos de una solución z.

2.6.3 Evolución diferencial


El algoritmo DE fue propuesto por Storn y Price como un algoritmo de búsqueda en
espacios continuos [162], el cual ha obtenido mejores resultados en comparación con metaheu-
rísticas como PSO y algoritmos genéticos [34, 161, 173]. El algoritmo DE utiliza diferencias
entre vectores padre y recombinación de dos o más individuos para dirigir la búsqueda [167]. El
proceso evolutivo consta de las etapas de mutación, cruza y selección, realizadas durante gmáx
generaciones. De manera general, el algoritmo DE comienza creando una población inicial de
individuos padre Z0 = {z1,0 , . . . , zN P,0 }, donde cada una de las variables de los individuos es
2. Marco teórico 33

Algoritmo 6 Pseudocódigo de búsqueda tabú.


Entrada: ts , im
Salida: z∗
1: z = z∗ = obtener solución inicial;
2: T = lista tabú vacía de tamaño ts ;
3: para i = 1 hasta im hacer
4: Z = conjunto de soluciones vecinas obtenidas con Nt (z);
5: Eliminar soluciones en Z presentes en la lista tabú T;
6: Actualizar lista tabú T;
7: z = mejor solución del conjunto Z;
8: si f (z) < f (z∗ ) entonces z∗ = z;
9: regresa z∗

inicializada de manera aleatoria dentro del rango [zmı́n


j j
, zmáx ] , para j = [1, . . . , d], como:

j
zi,0 j
= zmı́n j
+ rand(0, 1)(zmáx j
− zmı́n ), (2.28)

donde rand(0, 1) es un número aleatorio en el rango [0, 1] tomado de una distribución uniforme.
El operador de mutación crea un vector donante vi,g mediante la estrategia current-to-
pbest, cuya característica es la exploración de diversas regiones del espacio de búsqueda y se
expresa como:
vi,g = zi,g + F (zpbest,g − zi,g ) + F (zr1,g − zr2,g ), (2.29)

donde F es un factor de mutación aleatorio en el rango [0.5, 1], zpbest,g es un vector tomado
aleatoriamente del conjunto de los p · N P mejores individuos en Zg , zr1,g y zr2,g son vectores
tomados aleatoriamente de la población Zg [33], donde p toma valores en el rango (0, 1].
El operador de cruza genera un individuo hijo ui,g al intercambiar información entre un
individuo padre y su correspondiente individuo donante. De esta manera, la cruza binomial se
define como: (
j
vi,g si rand(0, 1) < CR ∨ j = jrand
j
ui,g = , (2.30)
j
zi,g en otro caso
donde CR es la probabilidad de cruza y jrand es un número entero tomado aleatoriamente en
el rango [1, d]. La probabilidad de cruza CR decrece linealmente con las generaciones de un
valor inicial 1 a un valor final 0.5 [14].
Para garantizar que el individuo hijo esté dentro del espacio de búsqueda, se aplica la técnica
bounce-back, la cual restablece la variable que viola los rangos de búsqueda como [129]:
(
j
zi,g j
+ rand(0, 1)(zmı́n j
− zi,g ) si uji,g < zmı́n
j
uji,g = (2.31)
j j j
zi,g + rand(0, 1)(zmáx − zi,g ) si uji,g > zmáx
j
.
34 2.6. Metaheurísticas para optimización global

En el operador de selección, el individuo padre es remplazado por su correspondiente


individuo hijo solamente si este último tiene un mejor valor de aptitud dado por la función
objetivo f (·), lo cual se expresa como:
(
ui,g si f (ui,g ) < f (zi,g )
zi,g+1 = (2.32)
zi,g en otro caso,

donde la función objetivo es minimizada sin pérdida de generalidad.


El Algoritmo 7 presenta el pseudocódigo de la metaheurística DE. Cabe señalar que el
algoritmo DE originalmente propuesto utiliza valores fijos para los parámetros factor de muta-
ción (F ) y probabilidad de cruza (CR); sin embargo, la manera anteriomente expuesta para
establecer sus valores ayuda a mejorar la convergencia del algoritmo [14, 33].

Algoritmo 7 Pseudocódigo de evolución diferencial.


Entrada: N P , gmáx
Salida: z∗
1: p = 0.2;
2: Inicializar aleatoriamente la población Z0 = {z1,0 , . . . , zN P,0 };
3: para g = 0 hasta gmáx − 1 hacer
4: para i = 1 hasta N P hacer
5: Aplicar la estrategia de mutación current-to-pbest a zi,g para generar vi,g ;
6: Aplicar la cruza binomial entre zi,g y vi,g para generar ui,g ;
7: Aplicar técnica bounce-back a ui,g ;
8: si f (ui,g ) < f (zi,g ) entonces
9: zi,g+1 = ui,g ;
10: sino
11: zi,g+1 = zi,g ;
12: z = zi,gmáx | argmín (f (zi,gmáx ));

i
13: regresa z∗

El desempeño de búsqueda del algoritmo DE depende de sus parámetros de control (factor


de mutación y probabilidad de cruza), de manera que se debe realizar un estudio experimental
del comportamiento del algoritmo para establecer dichos parámetros. Para evitar consumo
de tiempo en dicho estudio experimental, se han propuesto variantes autoadaptativas que
toman información del proceso de evolutivo para ajustar automáticamente los parámetros de
control. En este contexto, el algoritmo de evolución diferencial autoadaptativo denominado
JADE es una técnica con la capacidad de adaptar los parámetros de control durante el proceso
evolutivo [184].
Al igual que el algoritmo DE, el algoritmo JADE comienza con una población inicial creada
de manera aleatoria. Además, JADE inicializa un archivo (A = ∅) para almacenar individuos
padre que no trascendieron a la siguiente generación. Este archivo añade diversidad a la
2. Marco teórico 35

búsqueda y controla la convergencia prematura. Asimismo, se incializan dos memorias para


almacenar los valores de los parámetros de control (SF = ∅ y SCR = ∅) que generaron
individuos que trascendieron a la siguiente generación. Posteriormente, el algoritmo JADE
entra en un proceso evolutivo donde se aplican iterativamente los operadores de mutación,
cruza y selección.

El operador de mutación se redefine como:

vi,g = zi,g + Fi (zpbest,g − zi,g ) + Fi (zr1,g − z0r2,g ), (2.33)

donde Fi es el factor de mutación asociado al i-ésimo individuo padre, zpbest,g es un vector


tomado aleatoriamente del conjunto de los p · N P mejores individuos en Zg , zr1,g es un vector
tomado aleatoriamente de la población Zg , y z0r2,g es un vector tomado aleatoriamente de la
concatenación de la población actual y el archivo {Zg ∪ A}, tal que zi,g 6= zr1,g 6= z0r2,g .

También se redefine el operador de cruza binomial como:


(
j
vi,g si rand(0, 1) < CRi ∨ j = jrand
uji,g = (2.34)
j
zi,g en otro caso,

donde CRi es la probabilidad de cruza asociada al i-ésimo individuo padre.

Una vez aplicados los operadores de mutación, cruza y selección, el individuo padre reem-
plazado se almacena en el archivo A y los valores de Fi y CRi se almacenan en las memorias
SF y SCR , respectivamente.

Al finalizar la evaluación de todos los individuos en la población Zg , se actualizan los


parámetros de control de cada individuo, donde el factor de mutación toma un valor alea-
torio de acuerdo a una distribución Cauchy como Fi = randc (µF , 0.1); mientras que la
probabilidad de cruza toma un valor aleatorio de acuerdo a una distribución normal como
CRi = randn (µCR , 0.1). Los parámetros de medias µF y µCR de las distribuciones son actua-
lizados a partir de los valores en las memorias SF y SCR como:
2
P
F ∈SF F
µF = (1 − c) · µF + c · P (2.35)
F ∈SF F

y P
CR∈SCR CR
µCR = (1 − c) · µCR + c · , (2.36)
|SCR |
donde |SCR | es el número de elementos en la memoria SCR y la constante c = 0.1. El
pseudocódigo de JADE se muestra en el Algoritmo 8.
36 2.6. Metaheurísticas para optimización global

Algoritmo 8 Pseudocódigo de evolución diferencial JADE.


Entrada: N P , gmáx
Salida: z∗
1: µCR = 0.9; µF = 0.9; A = ∅; p = 0.2;
2: Inicializar aleatoriamente la población Z0 = {z1,0 , . . . , zN P,0 };
3: para g = 0 hasta gmáx − 1 hacer
4: SF = ∅; SCR = ∅;
5: para i = 1 hasta N P hacer
6: Generar Fi y CRi a partir de µF y µCR respectivamente;
7: Aplicar la estrategia de mutación current-to-pbest a zi,g para generar vi,g ;
8: Aplicar la cruza binomial entre zi,g y vi,g para generar ui,g ;
9: Aplicar técnica bounce-back a ui,g ;
10: si f (ui,g ) < f (zi,g ) entonces
11: zi,g+1 = ui,g ; A = A ∪ zi,g ;
12: SF = SF ∪ Fi ; SCR = SCR ∪ CRi ;
13: sino
14: zi,g+1 = zi,g
15: si |A| > N P entonces Aleatoriamente remover elementos en A para que |A| = N P ;
16: Actualizar parámetros µF y µCR a partir de SF y SCR ;
17: z = zi,gmáx | argmín (f (zi,gmáx ));

i
18: regresa z∗

2.6.4 Optimización por cúmulo de partículas

El algoritmo PSO fue propuesto por Eberhart y Kennedy [44] para la búsqueda en
espacios continuos. Está basado en el comportamiento colectivo de los animales, como los
peces, los cuales se mueven en conjunto para evitar a sus depredadores [183].
En el algoritmo PSO una posible solución es una partícula z, la cual tiene una posición
en el espacio, una dirección de movimiento y una velocidad. Para explorar posibles soluciones,
cada partícula se mueve utilizando el conocimiento de la mejor posición obtenida por ella y la
mejor posición posición obtenida por el cúmulo de partículas. Además, el movimiento de cada
partícula incluye una perturbación aleatoria para evitar estancarse en óptimos locales.
La optimización PSO inicia aleatoriamente la velocidad y posición de las partículas en el
espacio de búsqueda. Posteriormente la optimización entra en un ciclo de actualización de
las velocidades y posiciones de cada partícula [127]. El criterio de paro es arbitrario, siendo
comúnmente utilizado un número máximo de iteraciones.
El desempeño de PSO es influenciado por la actualización de las velocidades de las partícu-
las. La velocidad vi,g para la i-ésima partícula zi,g en la iteración g se actualiza como [44, 152]:

vi,g = φ1 · vi,g−1 + φ2 · rand(0, 1) · (z∗i − zi ) + φ3 · rand(0, 1) · (z∗ − zi ), (2.37)


2. Marco teórico 37

Algoritmo 9 Pseudocódigo de optimización por cúmulo de partículas.


Entrada: N P , gmáx
Salida: z∗
1: Inicializar aleatoriamente la población Z0 = {z1,0 , . . . , zN P,0 };
2: Inicializar aleatoriamente la velocidades {v1,0 , . . . , vN P,0 };
3: Inicializar los pesos φ1 , φ2 y φ3 ;
4: z∗ = zi,0 | argmín (f (zi,0 ));
i
5: para g = 1 hasta gmáx hacer
6: para i = 1 hasta N P hacer
7: Actualizar la velocidad de la partícula vi,g ;
8: Actualizar la posición de la partícula zi,g ;
9: Aplicar técnica bounce-back a zi,g ;
10: z∗i = zi,g | argmín (f (zi,g ));
g

11: Actualizar pesos φ1 , φ2 y φ3 ;


12: z∗ = z∗i | argmín (f (z∗i ));
i
13: regresa z∗

donde φ1 es una ponderación de la inercia de la partícula, φ2 y φ3 son ponderaciones de la


influencia de la mejor posición local (z∗i ) y de la mejor posición global (z∗ ), respectivamente,
y rand(0, 1) es un número aleatorio tomado de una distribución uniforme en el rango [0, 1].
En la actualización de velocidad originalmente planteada en [44], el peso φ1 no se considera,
y los pesos φ2 y φ3 permanecen constantes durante toda la búsqueda. Sin embargo, diversos
estudios sugieren que para mejorar el desempeño de la búsqueda es necesario limitar la inercia
de la partícula con el peso φ1 , así como actualizar los pesos φ1 , φ2 y φ3 en cada iteración [23,
127, 152]. Por tanto, el valor inicial de los pesos φ1 , φ2 y φ3 se establece como 0.9, 0.5 y 2.5,
respectivamente, y se actualizan los pesos en cada iteración de manera lineal hasta alcanzar un
valor final de 0.4, 0.5 y 2.5, respectivamente [23, 152]. El Algoritmo 9 presenta el pseudocódigo
de la optimización PSO.

2.7 Pruebas estadísticas


Las pruebas estadísticas permiten la comparación entre dos o más clasificadores para identi-
ficar la superioridad de alguno de ellos en términos de un índice de desempeño de clasificación,
como los descritos en la Sección 2.4.
Para esto, se utilizan pruebas de hipótesis que rechazan o aceptan una hipótesis nula con
una cierta probabilidad de error. En las pruebas estadísticas se utilizan dos conceptos princi-
pales: nivel de significación y nivel de significación observado. A la probabilidad de rechazar la
hipótesis nula, cuando es correcta, se le conoce como nivel de significación y se denota con la
38 2.8. Resumen del capítulo

letra α. El nivel de significación observado es la probabilidad de que, cuando la hipótesis nula


es verdadera, el estadístico evaluado tomará un valor al menos tan grande como el observa-
do, el cual se le conoce como valor-p. Antes de realizar una prueba estadística es necesario
establecer un valor de significación (α), siendo α = 0.05 el valor más utilizado. Al realizar la
prueba estadística el nivel de significación es comparado con el nivel de significación observado
y se rechaza la hipótesis nula si el valor-p es menor que α. Por tanto, a menor valor-p mayor
es la evidencia de rechazar la hipótesis nula [109].
Las pruebas de hipótesis pueden considerar solamente la comparación de un par de métodos
de clasificación o bien de un grupo de clasificadores. La prueba de t-Student evalúa la hipótesis
nula de que las medias de dos poblaciones, o conjuntos de valores, son iguales. Para esta
investigación, cada población contiene los valores de desempeño de uno de los clasificadores
considerados. Además, en la prueba t-Student la hipótesis alternativa establece que la media
de dos poblaciones son diferentes. Al realizar la prueba t-Student se obtiene un nivel de
significación observado, por lo que si el valor-p es menor que α, entonces se rechaza la hipótesis
nula y se acepta la hipótesis alternativa, y se dice que el desempeño de los clasificadores es
significativamente diferente. En caso contrario se dice que los desempeños de los clasificadores
no presentaron diferencias significativas.
Por otra parte, en la prueba ANOVA (del Inglés analysis of variance) se evalúa la hipótesis
nula de que las medias de un conjunto de poblaciones son iguales, con una hipótesis alternativa
de que al menos las medias de una par de poblaciones es diferente. Al igual que en la prueba t-
Student, cada población contiene los niveles de desempeño para cada clasificador considerado.
Al realizar la prueba ANOVA se obtiene un nivel de significación observado, por lo que si el
valor-p es menor que α se acepta la hipótesis alternativa de que al menos las medias de un par
de poblaciones es diferente [109]. No obstante, para identificar las parejas de poblaciones con
medias diferentes es necesario realizar un análisis post hoc, como el análisis Tukey-Kramer. En
este análisis se evalúa cada pareja de poblaciones con la hipótesis nula de que las medias de
dicha pareja son iguales y la hipótesis alternativa de que las medias de la pareja de poblaciones
son diferentes. Al realizar la prueba Tukey-Kramer se obtiene un valor-p para cada pareja de
poblaciones, por lo que la hipótesis nula se rechaza en aquellos casos donde el valor-p es menor
que α [109].

2.8 Resumen del capítulo


En este capítulo se describieron teóricamente diversas técnicas relevantes implementadas
en esta investigación agrupándolas en siete secciones. En la primera sección se describió el
problema de clasificación de patrones. En la segunda sección se describieron los clasificadores
LDA y CART, los esquemas de descomposición multiclase OVO y OVA, y el ensamble de
2. Marco teórico 39

clasificadores RF. En la tercera sección se presentó la técnica de ordenamiento de características


basada en el criterio mrMR y el método de selección secuencial de características. En la
cuarta sección se describieron índices de desempeño de clasificación indicados para problemas
con clases desbalanceadas. En la quinta sección se describieron métodos de remuestreo para
estimar la capacidad de generalización de un clasificador. En la sexta sección se presentaron
cinco metaheurísticas para optimización global: SA, TS, DE, JADE y PSO. Finalmente en la
séptima sección se describieron las pruebas estadísticas utilizadas en esta investigación.
Estado del arte
3
Este capítulo se divide en cuatro secciones. En la primera sección se presenta el estado
del arte de los esquemas de descomposición binaria más importantes para realizar clasificación
multiclase y selección de características. En la segunda sección se presentan los dos tipos
de ensambles de clasificadores más representativos de la literatura denominados bagging y
boosting. En la tercera sección se describe el estado del arte de trabajos enfocados al análisis
de ultrasonografías de mama que realizan clasificación en categorías BI-RADS o que utilizan
el léxico BI-RADS para describir las características de las lesiones. Finalmente, en la cuarta
sección se presentan las conclusiones del capítulo.
Cabe señalar que los avances en los esquemas de descomposición binaria y ensambles de
clasificadores se enfocan generalmente en obtener clasificadores de propósito general con un
bajo error, aunque en algunos casos han sido desarrollados para resolver problemas del mundo
real como clasificación de textos [53] y reconocimiento de huellas digitales [78].

3.1 Clasificación multiclase basada en


descomposición binaria
Muchos problemas de clasificación en el mundo real son multiclase, entre los que se encuen-
tran el reconocimiento de caracteres escritos a mano [32, 112], reconocimiento de rostros [105],
clasificación de tejidos con base en datos de microarreglos [97], clasificación de audios [68],
entre otros. Los problemas de clasificación multiclase pueden ser abordados naturalmente por
clasificadores como k-NN [51, 153], árboles de decisión C4.5 [130] y CART [169], Ripper [30],
máquina de vectores de soporte (SVM, del Inglés support vector machine) [31, 81] y ANN [144].
No obstante, se ha demostrado que al descomponer un problema multiclase en múltiples
subproblemas binarios se obtienen mejores desempeños de clasificación en comparación con

41
42 3.1. Clasificación multiclase basada en descomposición binaria

abordarlos directamente con un solo clasificador [2, 7, 56–58, 81, 92, 122, 135, 146]. A los cla-
sificadores de los subproblemas binarios comúnmente se les denomina como clasificadores base.
La descomposición binaria posibilita el uso de clasificadores binarios y simplifica los algoritmos
de clasificación multiclase complejos [81, 104]; facilita la paralelización de la construcción del
modelo de clasificación debido a que los clasificadores base pueden ser entrenados de manera in-
dependiente [146]; y posibilita la especialización de distintos hiperplanos de decisión utilizando
diferentes algoritmos de clasificación o diferentes parámetros de entrenamiento [55, 94, 120].

Los dos esquemas de descomposición binaria más utilizados son enfoque modular [7] y pares
de clases [55], aunque son mejor conocidos como OVA y OVO, respectivamente [58, 146]. Cabe
mencionar que en la literatura existe una falta de homogeneidad en el nombre de los esquemas
de descomposición OVA y OVO, dificultando la comparativa de los trabajos relacionados.
Por ejemplo, el esquema OVA también es llamado uno-contra-el-resto [13], mientras que el
esquema OVO también recibe los nombres de acoplamiento entre pares [74], aprendizaje round-
robin [57], clasificación por parejas [56] y todos-contra-todos [5, 135].

El esquema OVA fue propuesto en 1995 por Anand et al. [7] para simplificar el entrena-
miento de una ANN multiclase e incrementar su desempeño de clasificación en términos de
error de clasificación [7]. Por otro lado, el esquema OVO fue propuesto en 1996 por Fried-
man [55] para mejorar el desempeño de clasificación de los algoritmos k-NN, DT y ANN,
mediante la generación de fronteras de decisión entre todos los posibles pares de clases. Los
esquemas de descomposición OVA y OVO presentan diversas ventajas y desventajas, las cuales
se resumen en la Tabla 3.1 [21, 24, 60, 88, 135, 146, 146].

En varias propuestas el esquema OVO ha sido preferido frente al esquema OVA debido a sus
ventajas [21, 60, 146], aunque para definir el mejor enfoque de descomposición se han realizado
diferentes estudios comparativos, donde concluyen que la descomposición OVA obtiene mejores
o iguales resultados que OVO [112, 135]. Contrariamente, algunos otros estudios afirman que
la descomposición OVO obtiene mejores resultados que OVA [56–58, 81, 126]. Debido a las
diferentes conclusiones de los estudios comparativos, se deduce que la selección del esquema
de descomposición más adecuado es dependiente de la aplicación.

Por otra parte, cabe señalar que los esquemas de descomposición binaria no son consi-
derados ensambles de clasificadores por algunos autores [60, 185], ya que cada clasificador
base solamente resuelve una parte del problema de clasificación, mientras que en los ensam-
bles todos los clasificadores base resuelven el mismo problema. Sin embargo, de acuerdo con
Bagheri et al. [8], se tienen algunas similitudes con los ensambles de clasificadores, ya que
múltiples clasificadores son especializados y sus salidas son combinadas para obtener una res-
puesta global. Además, combinar las salidas de los múltiples clasificadores base resulta efectiva
si sus errores no se encuentran correlacionados.
3. Estado del arte 43

Tabla 3.1: Comparativa entre las descomposiciones binarias OVA y OVO.

Descomposición Ventajas Desventajas


Mayor desbalance entre las probabilidades de
OVA Menor número de clasificadores base. clase, lo cual afecta la correcta clasificación de
la clase minoritaria.
Mayor costo computacional del entrenamiento
Útil en problemas con un gran número de clases. cuando la complejidad de los clasificadores base
radica en el número de patrones.
Menor tiempo de cómputo para el
OVO Mayor número de clasificadores base.
entrenamiento de clasificadores base.
Construye subproblemas de clasificación más
Pueden generarse regiones no clasificables.
simples.
Se utilizan las probabilidades de clase del
problema multiclase original.

3.1.1 Métodos de agregación


El desempeño de clasificación de los esquemas de descomposición no depende solamente
de las respuestas de los clasificadores base, sino también del método de agregación utilizado
para unir las respuestas de los clasificadores y asignar una etiqueta de clase a una observación
arbitraria [58, 146]. Por tanto, se han propuesto diferentes métodos de agregación tratando
de obtener el mejor desempeño de clasificación.
Las principales estrategias de agregación para la descomposición OVA son máxima confian-
za (MC, del Inglés maximum confidence) [7], todos-y-uno (AO, del Inglés all-and-one) [59] y
OVA ordenado dinámicamente (DOO, del Inglés dinamically ordered OVA) [78].
La agregación MC es el método de asignación de clases originalmente utilizado en la
descomposición OVA [7], en el cual la clase de una observación de prueba es asignada de
acuerdo al clasificador base con la mayor confianza obtenida [7, 58]. Nótese que en el caso
ideal solamente un clasificador base emite una confianza positiva, mientras que el resto de los
clasificadores base emiten confianzas negativas, es decir, sólo una clase tendría un voto a favor.
Sin embargo, este caso ideal no siempre se cumple, ya que existen dos casos de clasificación no
deseables. El primero resulta cuando más de un clasificador base tiene una respuesta positiva,
tal que hay un voto positivo para más de una clase. El segundo caso surge cuando ningún
clasificador base tiene una respuesta positiva, es decir, no hay un voto positivo de pertenencia
para alguna de las clases. La estrategia MC es la manera más simple de asignar una clase
en la descomposición OVA y es recomendada cuando los clasificadores base tienen un mejor
desempeño que el clasificador Bayesiano ingenuo (NB, del Inglés naïve Bayes) [58].
La estrategia AO fue propuesta en 2006 por Garcia-Pedrajas y Ortiz-Boyer [59] como
una mejora a la estrategia MC, aprovechando las siguientes características de las descomposi-
ciones OVA y OVO:

Generalmente en la descomposición OVA, la clase correcta de una observación arbitraria


44 3.1. Clasificación multiclase basada en descomposición binaria

estará dada por alguno de los dos clasificadores con mayor magnitud de confianza. Por
tanto, los errores de clasificación en la estrategia MC pudieran ser corregidos utilizando
la clase asociada al segundo clasificador con mayor magnitud.

Los clasificadores base en la descomposición OVO tienen una alta exactitud para distin-
guir entre el par de clases para el cual fueron entrenados. Por tanto, sería adecuado reali-
zar la asignación de clase utilizando un clasificador base que distinga a la clase verdadera.

De esta manera, para clasificar una observación arbitraria en la estrategia AO, primero se
evalúan todos los clasificadores base de la descomposición OVA y se identifican los dos clasifi-
cadores con la mayor confianza. Esto determina el par de clases asociado a un clasificador base
en la descomposición OVO, el cual asigna la etiqueta de clase final. Debido a su definición,
la estrategia AO no presenta empates entre clases y tampoco es necesaria una regla especial,
como en el caso de DOO, cuando ningún clasificador tiene una respuesta positiva a su clase
asociada. La estrategia AO ha mejorado los resultados obtenidos por la estrategia MC utili-
zando ANN y SVM como clasificadores base [59]. Sin embargo, la mejoría en el desempeño
de clasificación viene acompañada de un mayor costo computacional, pues requiere entrenar
todos los clasificadores base de las descomposiciones OVA y OVO, es decir, entrenar un total
de c(c + 1)/2 clasificadores base.
La estrategia DOO fue propuesta en 2008 por Hong et al. [78] para dar solución a
los empates en la estrategia MC, cuando más de un clasificador base emite una confianza
positiva. Esta estrategia se propuso originalmente para resolver el problema de reconocimiento
de huellas digitales. Primero se entrenan los c clasificadores base y un clasificador NB usando
las muestras de entrenamiento. Las probabilidades a posteriori de las clases (obtenidas con el
clasificador NB) son ordenadas descendentemente para definir el orden en que serán evaluados
los clasificadores base. Finalmente, la etiqueta de clase es asignada por el primer clasificador
base con respuesta positiva a su clase asociada. En caso de que no exista algún clasificador
base con respuesta positiva, entonces se asigna la clase dada por el clasificador con máxima
confianza, es decir, el de menor magnitud negativa.
La estrategia DOO construye fronteras de decisión no lineales aunque los clasificadores
base sean lineales, esto debido a la no linealidad del clasificador NB. Además, esta agregación
ha obtenido mejores resultados que la estrategia MC, utilizando como clasificador base a los al-
goritmos k-NN, C4.5 y Ripper [58], y también ha mejorado el desempeño de la descomposición
OVO usando SVM como clasificador base [78].
Por otra parte, las principales estrategias de agregación OVO pueden dividirse en estrategias
basadas en la matriz de confianzas y basadas en grafos. Dentro de la primera se encuentran
votación binaria (BV, del Inglés binary voting ) [55], votación ponderada (WV, del Inglés
weighted voting ) [55, 74] y voto anidado (NV, del Inglés nesting vote) [100], mientras que
3. Estado del arte 45

dentro de la segunda se encuentra la agregación DDAG [126].


La estrategia BV, también llamada mayoría de victorias, fue el primer método de agregación
utilizado en la descomposición OVO [55]. En este método la respuesta de cada clasificador
base otorga un voto para alguna de las clases con las cuales fue entrenado y la clase con mayor
cantidad de votos es la ganadora. Presenta el inconveniente de que pueden existir empates
cuando más de una clase obtiene el máximo número de votos, produciendo una región en el
espacio de características conocida como región no clasificable. La clase de una observación
en la región no clasificable se asigna usando la clase con mayor número de votos y mayor
probabilidad a priori o se asigna de manera arbitraria utilizando alguna de las clases con
el mayor número de votos [57]. A pesar del inconveniente que puede representar la región
no clasificable, la estrategia BV obtiene buenos resultados con clasificadores como SVM y
k-NN [21, 50, 58].
La agregación WV se deriva del primer trabajo de la descomposición OVO [55, 74], aunque
su formalización fue posteriormente expuesta en 2010 por Hüllermeier y Vanderlooy [43]. La
agregación WV se basa en la confianza de los clasificadores para predecir una clase, asignando
como clase ganadora aquella con mayor suma de confianzas. La agregación WV tiene un
funcionamiento similar a la estrategia MC, ya que puede verse como una transformación de
la matriz de respuestas OVO a un vector de respuestas OVA, para posteriormente asignar
como clase ganadora aquella con la máxima confianza. La agregación WV ha obtenido buenos
resultados utilizando los clasificadores base C4.5 y k-NN [58].
La agregación NV fue propuesta en 2007 por Liu et al. [100] como una mejora a la es-
trategia BV para eliminar la región no clasificable. Este método de agregación se basa en la
descomposición OVO y la agregación BV aplicados de manera iterativa en los datos de entre-
namiento. En un primer paso, se realiza una descomposición OVO utilizando todos los datos
de entrenamiento y se identifica la región no clasificable. Si existen datos de entrenamiento en
dicha región, entonces son usados para construir una subsecuente descomposición OVO. De
esta manera se realizan descomposiciones OVO de manera iterativa hasta que ningún dato de
entrenamiento se encuentre en una región no clasificable. Se ha encontrado que la agregación
NV obtiene resultados competitivos al utilizar como clasificador base SVM [58, 99, 100]. No
obstante, la agregación NV tiene un mayor costo computacional derivado de la aplicación de la
descomposición OVO de manera sucesiva en los datos de entrenamiento. Otro inconveniente
es que pueden no existir datos de entrenamiento en la región no clasificable, aunque si pueden
existir datos de prueba en dicha región; en tal caso, el método de desempate sería similar al
utilizado en la agregación BV.
La agregación DDAG fue propuesta en 1999 por Platt [126] como una mejora al método
BV para realizar clasificación multiclase utilizando SVM como clasificador base. En la estrategia
DDAG cada clasificador base representa un nodo en un grafo acíclico dirigido. Cada nodo padre
46 3.1. Clasificación multiclase basada en descomposición binaria

distingue un par de clases y se encuentra conectado a dos nodos hijo, cada uno de los cuales
está relacionado a una de las clases que separa el nodo padre. Por otra parte, los nodos hoja
determinan la etiqueta de clase asignada por la agregación DDAG. Al evaluar una observación
arbitraria en un nodo del grafo se sigue el camino indicado por la clase ganadora y se descartan
los nodos relacionados a la clase perdedora. La agregación DDAG evita empates entre clases,
es decir, no genera una región no clasificable. Además, la agregación DDAG tiene una salida
similar a la agregación BV cuando c − 1 clasificadores base responden de manera positiva
a una clase.
El número total de configuraciones del grafo para un problema de c clases es c!/2 [131],
por lo que establecer el orden del grafo mediante una búsqueda exhaustiva no es viable para
problemas con un alto número de clases. Diferentes autores han sugerido que una posible
estructura del grafo DDAG se obtiene colocando los subproblemas más fáciles en los niveles
superiores y los subproblemas más complejos en los nodos hoja [47, 166]. De esta manera se
reduce la propagación del error en los caminos del grafo [131].
En 2016, Quiterio y Lorena [131] realizaron un estudio sobre el desempeño de clasi-
ficación utilizando diferentes estructuras de grafos DDAG. Los autores encontraron que los
desempeños de las diferentes estructuras no varían notablemente, por lo que el desempeño
obtenido con una estructura aleatoria es competitivo comparado con el desempeño obtenido
con una estructura establecida a través de una heurística [131].
Las principales propiedades de las estrategias de agregación presentadas en esta sección se
listan en la Tabla 3.2. La mayoría de estas estrategias fueron propuestas para disminuir el error
de clasificación de clasificadores inherentemente multiclase, con excepción de la agregación
DOO que fue propuesta para el reconocimiento de huellas digitales.

3.1.2 Selección de características mediante OVA y OVO


Las descomposiciones OVA y OVO surgieron para abordar la clasificación multiclase me-
diante el entrenamiento de clasificadores binarios, aunque también han sido utilizadas para
abordar el problema de selección de características, donde los dos principales algoritmos son
SpreadFx [53] y MDFS [175].
En 2004, Forman [53] propuso el algoritmo SpreadFx basado en la descomposición OVA
para ordenar la importancia de un conjunto de características para problemas multiclase con
probabilidades de clase desbalanceadas. El autor señala que los indicadores usuales de relevancia
tienden a favorecer aquellas características que describen la clase mayoritaria, mientras que las
características asociadas a las clases minoritarias se ven relegadas. También existen problemas
donde hay un gran número de características muy relevantes solamente para algunas clases
fácilmente separables del resto y un grupo pequeño de características relevantes para algunas
3. Estado del arte 47

Tabla 3.2: Principales propiedades de las estrategias de agregación de las descomposiciones


binarias OVA y OVO.

Descomposición Agregación Ventajas Desventajas Ref.


Mayor error de clasificación
OVA MC Simple de calcular. que las estrategias AO y [7]
DOO.
Mayor costo computacional
Menor error de clasificación
AO que las estrategias MC y [59]
que la estrategia MC.
DOO.
Puede construir fronteras de
clasificación no lineales aún Mayor costo computacional
DOO [78]
cuando los clasificadores base que la estrategia MC.
sean lineales.
Produce regiones no
OVO BV Simple de calcular. [55]
clasificables.
Simple de calcular. No
Requiere calcular la confianza
WV produce regiones no [43, 55]
de pertenencia a cada clase.
clasificables.
Menor error de clasificación Produce regiones no
NV [100]
que la estrategia BV. clasificables.
No produce regiones no Requiere definir la estructura
DDAG [126]
clasificables. de un grafo.

clases menos separables. Por tanto, las características de las clases menos separables se verían
relegadas por aquellas características de las clases más fácilmente separables. A estos problemas
de preferencia de características se les conoce como siren pitfall.
Por tal motivo, Forman propone abordar el problema de ordenamiento de características
en problemas multiclase con la descomposición OVA, ordenando cada subproblema por la rele-
vancia de las características y después utilizando dichos ordenamientos en conjunto para evitar
relegar características discriminantes para alguna clase. Entonces, en el algoritmo SpreadFx
se toma una característica de cada subproblema binario y se colocan en un vector ordenado.
Una vez que una característica es seleccionada, esta es eliminada de todos los ordenamientos
de los subproblemas binarios. Este proceso de selección de bloques de características se repite
iterativamente hasta que todas las características han sido colocadas en el vector ordenado.
Forman encontró que utilizando el algoritmo SpreadFx para seleccionar características en un
proceso secuencial se obtiene un mejor desempeño de clasificación en comparación con los
métodos tradicionales de ordenamiento de características basados en entropía [53].
En 2012, Wang y Tang [175] propusieron el algoritmo MDFS basado en la descompo-
sición OVO para ordenar las características en problemas multiclase. El algoritmo MDFS fue
diseñado para evitar el problema de siren pitfall. El problema multiclase se simplifica mediante
el esquema OVO, donde las características de cada subproblema son ordenadas de acuerdo
sus valores de relevancia. El AUC es utilizado como índice de relevancia. Posteriormente, la
característica con mayor relevancia para cada subproblema se coloca en un vector ordenado.
Este procedimiento de selección de bloques de característica se repite de manera iterativa
48 3.1. Clasificación multiclase basada en descomposición binaria

hasta que todas las características hayan sido ubicadas en el vector ordenado, eliminando de
todos los subproblemas binarios aquellas características que ya han sido previamente seleccio-
nadas. Los autores encontraron que los subconjuntos de características seleccionados con el
algoritmo MDFS obtiene un mejor desempeño de clasificación en comparación con el algo-
ritmo SpreadFx [175]. No obstante, el método MDFS no toma en cuenta la redundancia de
características, por lo que los subconjuntos de características seleccionados con dicho método
pueden aún ser reducidos utilizando un algoritmo de selección de características por retroceso.
Por otra parte, han surgido algunos tipos entrenamiento de clasificadores basados en la
selección de características para mejorar la separación de las clases en los esquemas OVA
y OVO. El objetivo ha sido mejorar el desempeño de clasificación de los mecanismos de
entrenamiento tradicionales, donde solamente se toma en cuenta un conjunto de características
que discrimine todas las clases en un problema. Los dos trabajos más representativos en este
ámbito fueron propuestos por Wang et al. [174] y Pineda-Bautista et al. [125].
En 2008, Wang et al. [174] propusieron un ensamble de dos clasificadores multiclase,
ambos basados en el esquema OVA u OVO, donde el primero es entrenado con caracterís-
ticas relevantes para discriminar cada clase, y el segundo es entrenado con un conjunto de
características en común para todos clasificadores base. Primero se obtiene un vector de ca-
racterísticas ordenado para cada subproblema utilizando un enfoque filtro como RELIEF [90]
o mrMR [124]. Posteriormente se realiza una selección de características hacia adelante, con
ascenso de colina, de manera independiente para cada subproblema, utilizando como clasifica-
dor una SVM [21]. Con este proceso se construye un primer clasificador multiclase. Además, se
entrena un segundo clasificador multiclase utilizando un conjunto de características formado
por la unión de todos los vectores de características utilizados en el primer clasificador multi-
clase. El producto de la salida de los clasificadores base de ambos clasificadores multiclase es
utilizado para determinar la clase ganadora con la agregación MV o MC. Cabe mencionar que
el ensamble no considera un mecanismo para determinar los mejores parámetros de la SVM.
El ensamble fue evaluado con conjuntos de datos sintéticos y conjuntos de datos de la
literatura, obteniendo un error igual o menor que un clasificador basado en descomposición
multiclase con un conjunto de características común para todos los clasificadores base, aunque
no se reportaron pruebas estadísticas de la ventaja obtenida. Sin embargo, el máximo número
de características seleccionadas y los parámetros de los clasificadores fueron establecidos de
manera arbitraria para simplificar el problema de selección de características y reducir el tiempo
de cómputo. También, al realizar un proceso de selección de características basado en la
minimización del error no se toma en cuenta el desbalance de clases. Además, debido a que
los procesos de selección de características son independientes, no se consideraron las posibles
interacciones entre los clasificadores base.
En 2011, Pineda-Bautista et al. [125] propusieron una arquitectura de cuatro etapas
3. Estado del arte 49

para seleccionar las características de cada clasificador base en un ensamble de descomposi-


ciones OVA. En la primera etapa el problema original es simplificado con la descomposición
OVA. En la segunda etapa, debido a que las clases generadas con la descomposición OVA
son desbalanceadas, se realiza un balanceo de clases por remuestreo. En la tercera etapa se
utiliza una selección de características con un algoritmo filtro o wrapper. En la cuarta etapa,
para cada clase, se entrena un clasificador OVA multiclase con su respectivo subconjunto de
características, resultando en c clasificadores OVA para un problema de c clases. Se asigna la
clase i si existe un clasificador OVA, previamente entrenado con las características específicas
de la i-ésima clase que predice la clase i. En otro caso, la clase ganadora se determina con la
agregación MV. Para evaluar el ensamble utilizaron como clasificadores base NB, C4.5, k-NN
y ANN, cuyos parámetros fueron predefinidos, sin tomar en cuenta un proceso para determinar
los mejores parámetros de cada clasificador. Los autores reportan que, en la mayoría de los ca-
sos, el ensamble propuesto tiene un menor error de clasificación que un clasificador entrenado
con un subconjunto de características común para todos los subproblemas base.
En 2014, Mettes et al. [111] utilizaron un ensamble similar al propuesto por Wang
et al. [174] para la clasificación de imágenes de materiales, con bosques de decisión como
clasificador base. Dicho ensamble obtuvo un menor error de clasificación que un clasificador
entrenado con un conjunto de características común para distinguir entre todas las clases,
aunque no se reportaron pruebas estadísticas de dicha diferencia. Además, no se consideró un
mecanismo de ajuste de parámetros del clasificador y tampoco se consideraron las interacciones
entre los clasificadores base en la descomposición binaria.
La Tabla 3.3 presenta las principales ventajas y desventajas de los enfoques que utilizan
las descomposiciones binarias OVA y OVO para construir un ordenamiento de características
o para la selección de características en ensambles de clasificadores.

3.2 Ensambles de clasificadores


Un ensamble de clasificadores es un grupo de clasificadores entrenados para resolver el
mismo problema y cuyas salidas son combinadas para obtener una única respuesta [185]. Los
ensambles de clasificadores se han estudiado desde la década de 1970 hasta la actualidad [140]
y han demostrado un mejor desempeño de clasificación en comparación con un clasificador
individual [8, 123, 133]. Por lo anterior, se han adoptado para resolver problemas del mundo real
como detección de intrusos en redes de datos, clasificación de señales de electrocardiogramas,
clasificación del espectro de resonancia magnética, predicción de la actividad biológica de una
molécula farmacéutica, entre otros [121, 123].
Re y Valentini mencionan que son tres las principales teorías que explican la efectividad de
los ensambles de clasificadores [133]. La primera considera que la buena generalización obtenida
50 3.2. Ensambles de clasificadores

Tabla 3.3: Principales propiedades de los enfoques que utilizan las descomposiciones binarias
OVA y OVO para el ordenamiento de características o para la selección de características en
ensambles de clasificadores.

Descomposición -
Objetivo Ventajas Desventajas Ref.
dominio
El ordenamiento de
características es menos
Ordenamiento
OVA - clasificación sensible al problema siren No toma en cuenta la
de [53]
de textos pitfall que los métodos redundancia de características.
características
tradicionales basados en
entropía.
Subconjuntos de
OVO - propósito características con menor No toma en cuenta la
[175]
general error de clasificación que redundancia de características.
usando el método [53].
No presenta un mecanismo de
ajuste de parámetros del
clasificador. Número máximo
Error de clasificación menor o de características arbitrario.
Ensamble de OVA y OVO -
igual que un clasificador No se consideran las [174]
clasificadores propósito general
basado en OVA u OVO. interacciones entre los
clasificadores base. No se
considera el posible
desbalance de clases.
No presenta un mecanismo de
ajuste de parámetros del
En la mayoría de los casos
clasificador. Las parejas de
OVA - propósito presenta un menor o igual
clases en cada clasificador [125]
general error de clasificación que un
multiclase son separadas con
clasificador multiclase OVO.
el mismo conjunto de
características.
No presenta un mecanismo de
ajuste de parámetros del
Error de clasificación menor o clasificador. No se consideran
OVA - clasificación
igual que un clasificador las interacciones entre los [111]
de materiales
basado en OVA. clasificadores base. No se
considera el posible
desbalance de clases.

por los ensambles se debe a que la unión de los clasificadores construye grandes márgenes entre
clases. La segunda teoría menciona que los ensambles son mecanismos de reducción de varianza
y sesgo de la clasificación. Entonces, los ensambles maximizan de manera indirecta los márgenes
entre clases dado que el margen del ensamble puede ser expresado en términos de varianza
y sesgo, y viceversa. La tercer teoría considera que cada clasificador del ensamble genera
una posible separación de regiones de las clases en el espacio de características, de manera
que el conjunto de separaciones obtiene una separación cercana a la esperada, alcanzando un
desempeño de clasificación dominado por la ley de los grandes números [133].
Por otra parte, Dietterich [37] menciona tres razones prácticas por las cuales frecuente-
mente los ensambles de clasificadores tienen un mejor desempeño de clasificación en compara-
ción con los clasificadores base individuales. La primer razón es estadística. Cuando los datos
de entrenamiento son limitados, un algoritmo de clasificación puede encontrar diferentes fron-
teras de decisión que separen con la misma exactitud al clasificar los datos de entrenamiento.
3. Estado del arte 51

Por tanto, para reducir la probabilidad de elegir un modelo de clasificación equivocado se pue-
den combinar las salidas de diferentes clasificadores base. La segunda razón es computacional.
Diversos algoritmos de clasificación utilizan algoritmos de búsqueda para encontrar y definir
regiones en el espacio de características que separen las observaciones de clases diferentes. Sin
embargo, dichas búsquedas se encuentran basadas en heurísticas, ya que la búsqueda exhausti-
va para encontrar la mejor solución generalmente resulta inviable [37]. Además, los algoritmos
de búsqueda empleados pueden estancarse en óptimos locales, resultando diferentes soluciones
al utilizar distintos puntos iniciales. Por tanto, al entrenar diferentes clasificadores base con
búsquedas que parten de diferentes puntos iniciales, se puede obtener una mejor aproximación
de las verdaderas regiones de las clases en el espacio de características. La tercer razón es
para abordar el problema de representación limitada. En ocasiones no es posible representar
la verdadera frontera de decisión con un solo clasificador base, aunque al utilizar un ensamble
de clasificadores aumenta el espacio de soluciones y se puede aproximar mejor la verdadera
frontera de decisión.
La construcción de un ensamble de clasificadores involucra dos etapas [8]. En la primera
etapa se entrena una diversidad de clasificadores base cuyos errores no se encuentren corre-
lacionados, de manera que las limitantes de un solo clasificador puedan ser superadas por la
respuesta general del ensamble [123]. En la segunda etapa se establece una regla de com-
binación de las salidas de los clasificadores base para obtener una salida del ensamble. La
diversificación de la salida de los clasificadores base en un ensamble se logra manipulando los
siguientes elementos: observaciones de entrenamiento, características de los datos de entrena-
miento, etiquetas de clase, y parámetros de los clasificadores [37].
Los ensambles de clasificadores usualmente son catalogados de acuerdo a los métodos
para generar diversidad entre los clasificadores base. Dos métodos ampliamente utilizados en
la literatura debido a la efectividad que han obtenido en la práctica son llamados boosting y
bagging, ambos métodos son de manipulación de observaciones [185].
En el método de boosting se entrena un clasificador base utilizando todos los datos de
entrenamiento. Posteriormente se entrena un nuevo clasificador base enfocado principalmente
en reducir el error del primer clasificador. De esta manera se entrenan una serie de clasificadores
poniendo cada vez mayor énfasis en el aprendizaje de las observaciones previamente clasificadas
de forma incorrecta [42, 185].
El método de boosting más representativo es llamado Adaboost, el cual fue creado en
1995 por Freund y Schapire para construir un clasificador con una alta exactitud a partir de
clasificadores con un desempeño poco mayor que una clasificación aleatoria [54]. Sin embargo,
el algoritmo Adaboost fue originalmente diseñado para datos sin muestras atípicas [185] y
su desempeño está limitado cuando existen datos atípicos [15]. La limitante del algoritmo
Adaboost proviene del aprendizaje iterativo de las observaciones erróneamente clasificadas, ya
52 3.2. Ensambles de clasificadores

que el aprendizaje forzoso de observaciones atípicas produce una disminución en el desempeño


de clasificación [37, 185].

Por otra parte, en el método de bagging (o agregación bootstrap) se entrenan una serie
de clasificadores utilizando en cada uno de ellos un conjunto de observaciones tomadas de
manera aleatoria del conjunto original de datos de entrenamiento. En general, el método de
bagging ayuda a mejorar el desempeño de clasificadores que poseen una alta variabilidad en
su clasificación debido a pequeñas variaciones en los datos [42, 185].

El ensamble de clasificadores más representativo del método bagging es llamado RF, el


cual fue desarrollado en 2001 por Breiman [15]. El algoritmo RF construye múltiples árboles
de decisión entrenados con el método de bagging y a la vez selecciona de manera aleatoria las
características que son evaluadas en la construcción de cada nodo de cada árbol. El propósito
es reducir la correlación entre los errores de los árboles, de manera que cada clasificador se
especializa para un subconjunto de observaciones diferente. Los árboles de decisión fueron
adoptados como clasificadores base en el ensamble RF, ya que suelen aprender con alta pre-
cisión los datos de entrenamiento, aunque el diseño del árbol y su salida cambian de manera
sustancial cuando los datos de entrenamiento poseen pequeñas variaciones.

De acuerdo con Breiman, el algoritmo RF obtiene resultados al menos tan buenos como
el algoritmo Adaboost; sin embargo, es más robusto a datos atípicos y ruidosos, y requie-
re de un menor tiempo de entrenamiento [15]. Esto fue confirmado en un extenso estudio
comparativo utilizando 121 conjuntos de datos, en el que RF obtuvo de manera general un
desempeño significativamente mejor que el algoritmo Adaboost [50]. En el mismo estudio,
RF también obtuvo el mejor desempeño de clasificación en una extensa comparativa de 179
clasificadores [50]. Además, debido a su buen desempeño reportado en la literatura, RF ha sido
utilizado en diferentes problemas del mundo real como en la clasificación de vegetación usando
imágenes satelitales [84], diagnóstico de la enfermedad renal crónica [164], para diferenciar
entre pacientes con demencia y pacientes con Alzheimer [35], y clasificación histopatológica
de lesiones de mama [1, 148].

En la Tabla 3.4 se presentan las principales características de los ensambles Adaboost [54]
y RF [15]. Ambos ensambles fueron propuestos como clasificadores de propósito general y se
caracterizan por obtener un menor error de clasificación en comparación con sus clasificado-
res base, por lo que han sido adoptados para abordar problemas de clasificación del mundo
real [185].
3. Estado del arte 53

Tabla 3.4: Características de los ensambles de clasificadores boosting y bagging.

Mecanismos de
Ensamble generación de Ventajas Desventajas Ref.
diversidad
El entrenamiento se ve
afectado por datos atípicos o
ruidosos. Selección de
Menor error de clasificación características con mayor
Adaboost Boosting [54]
que los clasificadores base. costo computacional en
comparación con la requerida
por un clasificador
inherentemente multiclase.
Mayor costo computacional de
Error de clasificación similar al
selección de características en
Bagging y presentado por el ensamble
RF comparación con un [15]
subespacio aleatorio Adaboost [54], aunque menos
clasificador inherentemente
afectado por datos atípicos.
multiclase.

3.3 Sistemas de clasificación relacionados al


BI-RADS
De acuerdo con Bagheri et al. [8], las aplicaciones de clasificación médicas son particular-
mente difíciles por tres razones. Tienen un limitado número de datos debido a la dificultad para
colectar muestras y a las políticas de privacidad de los datos. Poseen conjuntos de datos desba-
lanceados, pueden existir pocos pacientes con anomalías o presencia de la enfermedad [6, 69].
Además, el conjunto de datos suele tener muchos atributos, en ocasiones más que el número
de datos de entrenamiento.
En este ámbito, el desarrollo de sistemas de clasificación de lesiones de mama ha sido am-
pliamente abordado, el cual involucra las etapas de preprocesamiento de la imagen, segmenta-
ción de la lesión, extracción de características y clasificación de la lesión [27, 82, 86, 142, 160].
No obstante, la clasificación de lesiones de mama en ultrasonografias utilizando categorías BI-
RADS es un área poco explorada debido a los desafíos que representa como la dificultad para
realizar el etiquetado BI-RADS por medio de un especialista, los diferentes rangos de probabili-
dad de malignidad que consideran las categorías BI-RADS, y el alto traslape de atributos entre
categorías BI-RADS. Actualmente, el BI-RADS es el estándar más utilizado por radiólogos para
describir lesiones en imágenes de mama, por lo que también se ha adoptado paulatinamente
en el desarrollo de sistemas de diagnóstico asistido por computadora. Dada la importancia que
representan los clasificadores en el diagnóstico de las lesiones, se ha tomado la clasificación de
lesiones de mama en ultrasonografías como caso de estudio en esta investigación.
En 2007, Shen et al. presentaron la única propuesta conocida en la literatura para la
clasificación de lesiones de mama en categorías BI-RADS 3, 4 y 5 [151]. Se utilizaron ocho
atributos cuantitativos para describir el léxico BI-RADS para masas. La predicción de clases
54 3.3. Sistemas de clasificación relacionados al BI-RADS

se realizó con regresión logística (LR, del Inglés logistic regression) multinomial y la prueba
del sistema fue hecha con CV con diez pliegues. Los resultados obtenidos fueron reportados
con un índice denominado nivel de malignidad, el cual indica el porcentaje de casos malignos
en una categoría BI-RADS. Los niveles de malignidad para las categorías BI-RADS 3, 4 y 5
fueron 1.63 %, 40.23 % y 94.74 %, respectivamente. Al considerar los casos de la categoría 3
como benignos y los casos de las categorías 4 y 5 como malignos, obtuvieron un error del 27 %,
sensibilidad del 98.19 % y especificidad del 59.46 %. En un segundo experimento se excluyeron
las predicciones de la categoría 4, resultando en una mejora del desempeño de clasificación
con un error de 2.78 %, sensibilidad del 96.46 % y especificidad del 97.58 %. Sin embargo,
este enfoque no consideró la categoría 2 en sus pruebas y los resultados no se reportaron en
términos de índices de desempeño de clasificación multiclase.
Aunque solamente se ha reportado un trabajo para la clasificación BI-RADS de lesiones de
mama en la literatura, existen una variedad de propuestas que utilizan características relacio-
nadas al léxico BI-RADS para clasificar las lesiones en las clases benigna y maligna.
En 2007, Shen et al. [150] propusieron el uso de ocho descriptores cuantitativos para
representar los descriptores de léxico BI-RADS para masas. Para medir el desempeño de los
descriptores establecieron una clasificación basada en LR y CV con diez pliegues, obteniendo
un error del 8.30 %, sensibilidad del 90.59 %, especificidad del 92.22 % y AUC de 0.97. Los
autores señalan que el descriptor más importante fue la característica angular del margen,
mientras que las menos relevantes fueron la orientación y la característica posterior acústica.
En 2011, Calas et al. [18] estudiaron el desempeño de cinco descriptores morfológicos
evaluados de manera independiente para la clasificación de lesiones en categorías BI-RADS
distribuidas en dos grupos, 2–3 y 4–5. Se entrenó un clasificador basado en LDA, con validación
LOOCV. El mejor desempeño de clasificación lo obtuvo el descriptor denominado razón de
superposición con un error del 15 %, sensibilidad del 81 %, especificidad del 89.5 % y AUC
de 0.86. Este trabajo presenta los siguientes inconvenientes: no se estudiaron combinaciones
de descriptores, no se incluyeron descriptores de textura, y la clasificación de categorías BI-
RADS se redujo a una clasificación binaria. Una combinación de descriptores, utilizando al
mismo tiempo descriptores de textura, hubieran podido reducir el error de clasificación.
En 2012, Chabi et al. [20] evaluaron el desempeño de diagnóstico de radiólogos jóvenes
y experimentados al utilizar un sistema CAD comercial (B-CAD versión 2, Medipattern®).
Este sistema clasifica la lesión en dos posibles rangos, categorías 2–3 (lesión benigna) y ca-
tegorías 4–5 (probablemente maligna). Cuatro radiólogos participaron en el experimento, dos
jóvenes (con entrenamiento menor a un año) y dos experimentados (con más de cinco años
de entrenamiento). Se les pidió diagnosticar las imágenes, primero sin el apoyo del sistema
B-CAD y posteriormente haciendo uso del sistema. Los autores concluyeron que el sistema
B-CAD ayuda en mayor medida a mejorar el diagnóstico de radiólogos jóvenes, aumentando la
3. Estado del arte 55

correcta clasificación de lesiones malignas. De manera independiente el sistema B-CAD obtuvo


una sensibilidad del 100 % y una especificidad del 48 %.
En 2013, Moon et al. [116] presentaron un CAD para la clasificación binaria de tumores
de mama usando descriptores cualitativos BI-RADS definidos a partir de 38 características
morfológicos y de textura. Se modelaron seis descriptores cualitativos a partir del léxico BI-
RADS para masas. Los tumores con ninguna característica descriptiva maligna y al menos
una benigna fueron clasificados como benignos. Se utilizó un modelo de LR multinomial y
selección de características por retroceso (BE, del Inglés backward elimination) para modelar
cada descriptor cualitativo. El clasificador fue evaluado con validación LOOCV, obteniendo
una sensibilidad del 90 % y un AUC de 0.96. Este trabajo representa un acercamiento a la
clasificación hecha por los radiólogos, aunque su principal desventaja es el sobreentrenamien-
to que puede presentar el clasificador al realizar dos procesos de aprendizaje y selección de
características con el mismo conjunto de datos. Además, las características léxicas BI-RADS,
usadas en el entrenamiento, son cualitativas y propensas a la subjetividad de los especialistas
que las asignaron.
En 2013, Moon et al. [115] estudiaron el desempeño de un sistema de clasificación binario
evaluado con lesiones clasificadas en el sistema BI-RADS como categoría 3. Para representar
las lesiones usaron 38 descriptores compuestos por 22 características morfológicas y 16 de
textura. La clasificación se realizó con LR y validación LOOCV. En una evaluación individual,
dos descriptores morfológicos relacionados a la elipse equivalente de la lesión alcanzaron un
error del 20 %. En otra prueba, el conjunto de características morfológicas obtuvo un AUC
de 0.90, los descriptores de textura un AUC de 0.75, y la combinación de estos descriptores
un AUC de 0.95. Los resultados indican que la mejor clasificación de las lesiones se obtiene
con un conjunto de características morfológicas y de texturas combinadas, lo cual coincide
con los resultados del estudio realizado por Alvarenga et al. [4] con un conjunto de lesiones
sin clasificar en el estándar BI-RADS. Los autores justifican que se enfocaron solo en lesiones
etiquetadas como categoría 3 debido a que existe un alto traslape entre sus características.
Sin embargo, la categoría 3 presenta en su gran mayoría casos benignos, siendo la categoría 4
la de mayor ambigüedad, ya que abarca el rango de probabilidad de malignidad más amplio
de todas las categorías BI-RADS.
Un estudio posterior basado en la metodología presentada por Moon et al. [115] fue desa-
rrollado por Loo et al. [102] en 2015. En este trabajo se utilizaron dos grupos de descriptores
de textura, basados en la matriz de coocurrencia, extraídos de la imagen original y de su
representación ranklet. De cada conjunto se seleccionaron las 10 características más represen-
tativas por medio de la técnica de eliminación por retroceso. Los descriptores obtenidos de
la imagen original lograron un error del 42 %, sensibilidad del 67 %, especificidad del 67 % y
AUC de 0.58, mientras que los descriptores obtenidos de la representación ranklet consiguieron
56 3.4. Conclusiones del capítulo

un error del 20 %, sensibilidad del 76 %, especificidad del 81 % y AUC de 0.83. Los resulta-
dos indican que se obtiene un mejor desempeño de clasificación al extraer los descriptores de
textura a partir de la representación ranklet debido a su robustez a cambios monotónicos de
intensidad en la imagen. No obstante, dicha ventaja en el desempeño también pudo deberse a
que la selección de características fue basada en la reducción del error en el conjunto completo
de datos, sin considerar conjuntos de validación.
En 2016, Shan et al. [148] evaluaron el desempeño de cuatro algoritmos de aprendizaje
supervisado para la clasificación binaria de lesiones de mama: SVM con núcleo Gaussiano,
ANN, DT, y RF. Se utilizaron 10 atributos relacionados al léxico BI-RADS para masas. Para
medir el desempeño de clasificación realizaron una selección de características abajo-arriba
(BU, del Inglés bottom-up) con CV con diez pliegues. El mejor resultado en términos de AUC
lo obtuvo el clasificador SVM con 0.842, seguido de RF (0.828), ANN (0.823) y DT (0.803),
aunque RF obtuvo el menor error (21.5 %) y el mejor coeficiente de correlación de Matthews
(0.572), mientras que obtuvo una sensibilidad del 75.3 % y especificidad del 82.0 %. Los re-
sultados mostraron que las dos características más importantes están orientadas a describir
la orientación y el margen de la lesión. Sin embargo, estos resultados están sobrestimados,
ya que se obtuvieron al realizar tanto la selección de características como la evaluación del
clasificador de manera simultánea durante la validación cruzada [158].
En la Tabla 3.5 se presentan la descripción y limitantes de los trabajos de clasificación de
lesiones de mama relacionados al BI-RADS. Además, la Tabla 3.6 presenta una comparativa
de los métodos utilizados por los sistemas CAD. Se anexan con fines comparativos 11 trabajos
relacionados con la clasificación de lesiones de mama en clases histopatológicas, los cuales no
hacen uso del sistema BI-RADS.

3.4 Conclusiones del capítulo


En este capítulo se presentaron los dos métodos de descomposición multiclase principa-
les denominados OVA y OVO, así como sus estrategias de agregación de respuestas. Fueron
revisados tanto desde la perspectiva de clasificación multiclase como de la selección de carac-
terísticas para describir un conjunto de patrones. En general, la descomposición multiclase ha
sido adoptada en la literatura, ya que simplifica el problema multiclase a partir de multiples sub-
problemas binarios. También ayudan a mejorar el desempeño de clasificación en comparación
con abordarlos directamente con un clasificador inherentemente multiclase.
La mayoría de los avances en las descomposiciones binarias se enfocan en diseñar meca-
nismos de agregación que utilicen la información de todos los clasificadores base para asignar
etiquetas de clase, minimizando el error de clasificación. También se han presentado avances en
el uso de las descomposiciones binarias para abordar los problemas de ordenamiento y selección
3. Estado del arte 57

Tabla 3.5: Descripción y limitantes de los trabajos de clasificación de lesiones de mama rela-
cionados al BI-RADS.

Descripción Limitantes Ref.


Realizaron clasificación BI-RADS en categorías
No se consideró la categoría 2. No se reportan
3, 4 y 5 utilizando ocho descriptores [151]
índices de clasificación multiclase.
cuantitativos.
Proponen ocho descriptores cuantitativos para No se comparó el desempeño de otros
representar los descriptores de léxico BI-RADS descriptores cuantitativos presentes en la [150]
para masas. literatura.
Estudiaron el desempeño de descriptores
morfológicos para la clasificación de lesiones en No se consideraron combinaciones de
[18]
categorías BI-RADS distribuidas en dos características.
grupos, 2–3 y 4–5.
Evaluaron el desempeño de diagnóstico de
Número limitado de radiólogos que participaron
radiólogos jóvenes y experimentados al utilizar [20]
en el estudio.
un sistema CAD.
El error de clasificación está sesgado debido a
Modelaron descriptores cualitativos a partir de que se realizaron dos procesos de entrenamiento
[116]
características morfológicas y de textura. y selección de características con el mismo
conjunto de datos [158].
Estudiaron el desempeño de descriptores El error de clasificación está sesgado debido a
cuantitivos para clasificar lesiones con categoría que la selección de características fue basada en
[102, 115]
BI-RADS 3 en clases histopatológicas benigna y la reducción del error en el conjunto completo
maligna. de datos [158].
Compararon los clasificadores ANN, SVM, La tasa de aciertos está sobrestimada debido a
bosque aleatorio y árbol de decisión para la que se obtuvo del proceso de selección de
[148]
clasificación en clases histopatológicas benigna características en el conjunto completo de
y maligna. datos [158].

de características. Dichos enfoques de ordenamiento son menos sensibles al problema de siren


pitfall en comparación con métodos tradicionales basados en entropía; sin embargo, no toman
en cuenta la redundancia de las características en comparación con métodos como mrMR. Los
enfoques que realizan selección de características son aplicados a ensambles de clasificadores,
y utilizan las descomposiciones binarias para seleccionar características relevantes para cada
uno de los subproblemas. Dichos enfoques obtienen en la mayoría de los casos un menor error
de clasificación en comparación con un clasificador multiclase OVO u OVA; no obstante, no
presentan mecanismos de ajustes de parámetros de los clasificadores base, no consideran las
interacciones entre los clasificadores base y tampoco el posible desbalance de clases.
Además se revisaron dos tipos de generación de diversidad en los ensambles de clasifica-
dores, denominados boosting y bagging, y los principales algoritmos de clasificación que los
implementan. Es notable que los ensambles de clasificadores tienen un mayor costo compu-
tacional para el entrenamiento y selección de características en comparación con sus clasifi-
cadores base. Además aún no hay una teoría formal completamente aceptada que brinde una
explicación al funcionamiento de los ensambles de clasificadores. Sin embargo, estos han sido
adoptados para resolver problemas del mundo real principalmente por la disminución del error
y la reducción de la varianza del error en comparación con utilizar solamente un clasificador
individual [37, 133, 140, 185].
58 3.4. Conclusiones del capítulo

También, se revisaron ocho trabajos relevantes que abordan el problema de clasificación


de lesiones de mama en imágenes de ultrasonido, el cual será tomado como caso de estudio
en esta investigación. En estos trabajos se presentaron diferentes metodologías que abarcan la
representación de la lesión, selección de características, clasificación de la lesión y validación
del método. La comparación directa entre los diferentes métodos de clasificación de lesiones
de mama suele ser difícil, ya que cada enfoque utiliza su propio conjunto de imágenes de
ultrasonido y no hay una manera estandarizada de validar los métodos así como las métricas
de evaluación [27]. Otro problema encontrado en varios trabajos es la cantidad limitada de
imágenes de prueba, pudiendo existir un posible sesgo en el tipo de lesiones, lo cual puede
llevar a una baja generalización en el desempeño de clasificación del método.
Por otro lado, los avances en los sistemas CAD para ultrasonido de mama se pueden dividir
en enfoques relacionados al uso del sistema BI-RADS y enfoques de clasificación binaria de
lesiones en las clases benigna y maligna. Los estudios que utilizan el sistema BI-RADS se
enfocan principalmente en la representación de las lesiones con características cuantitativas
relacionadas al léxico BI-RADS, aunque la clasificación que se realiza en estos métodos es
binaria [18, 116, 150]. Únicamente el trabajo de Shen et al. [151], de 2007, ha realizado una
clasificación de lesiones en las categorías BI-RADS 3 a 5. A pesar de que este trabajo es pionero
en la clasificación BI-RADS, presenta varias limitaciones como la falta de la categoría 2 en sus
pruebas, además los mejores resultados de clasificación se obtuvieron al excluir la categoría 4, lo
cual reduce el problema a la predicción de clases benigna (categoría 3) y maligna (categoría 5),
y el estudio carece de índices de desempeño de clasificación multiclase.
Nótese que por una década no ha habido avances en la clasificación BI-RADS para ul-
trasonido de mama, probablemente por la complejidad de representar el léxico cualitativo
BI-RADS con características cuantitativas, además que la asignación de categorías BI-RADS
es subjetiva. Actualmente, se observa una creciente tendencia en el uso del léxico BI-RADS
orientado a la descripción de lesiones mediante características morfológicas y de textura, con
el objetivo de utilizar características similares a las consideradas por el radiólogo para emitir
su diagnóstico. Sin embargo, la relación entre características cuantitativas y características
del léxico BI-RADS actualmente se realiza de manera nominal, aunque faltan estudios que
modelen cuantitativamente dicha relación.
Tabla 3.6: Comparativa de trabajos relacionados a la clasificación de lesiones de mama en ultrasonografías revisados en este capítulo,

3. Estado del arte


señalados con el símbolo + , así como otros trabajos representativos del estado del arte.

Selección de
Muestras Seg. Descriptores Card. Clasificador Validación Resultados Ref. Año
descriptores
Error SEN ESP AUC
156 C C 20 BE LR LOOCV 18.6 83.30 79.50 0.852 [114] 2017
283 M C 5 BU RF CV 21.5 75.30 82.00 0.828 [148]+ 2016
520 M - - - DL CV 17.60 78.70 85.70 89.60 [28] 2016
69 C T 10 BE LR LOOCV 20.00 76.00 81.00 0.830 [102]+ 2015
210 C C 8 AIS SVM CV 3.33 96.67 96.67 0.982 [179] 2015
138 M T 80 - SVM BS 16.83 83.36 83.42 0.862 [17] 2015
641 C M 5 MI LDA .632+ - - - 0.942 [52] 2015
69 C C 38 BE LR LOOCV 12.00 86.00 90.00 0.950 [115]+ 2013
253 C C 38 BE LR-DT LOOCV - 90.00 - 0.960 [116]+ 2013
193 M T 72 - SVM .632+ 13.65 79.56 89.35 0.940 [182] 2013
161 M T 72 - SVM .632+ 15.42 81.50 86.19 0.920 [182] 2013
116 M T 72 - SVM .632+ 18.32 69.66 87.55 0.900 [182] 2013
391 C C 3 - ANN CV - - - 0.838 [147] 2013
100 M T 27 - KNN CV 19.00 - - 0.803 [108]+ 2012
246 C C 5 LI LDA LOOCV 14.63 83.68 89.86 0.881 [4] 2012
436 C T 17 MI LDA .632+ 16.95 78.02 88.11 0.870 [64] 2012
168 C T 100 - SOM-SVM CV 8.93 86.11 94.79 0.960 [39] 2012
210 C C 5 GA SVM CV 4.76 4.76 93.33 0.961 [178] 2012
110 M M 19 - SVM CV - 73.60 78.90 0.824 [170] 2012
40 C M 1 Manual LDA LOOCV 15.00 81.00 89.50 0.860 [18]+ 2011
426 C C 8 - LR CV 27.00 98.19 59.46 - [151]+ b 2007
265 C C 8 - LR CV 8.30 90.59 92.22 0.970 [150]+ 2007
+
Implementan el léxico BI-RADS.
b Implementan clasificación en categorías BI-RADS.
Tipo de segmentación: manual (M), computarizada (C).
Tipo de descriptores: morfológicos (M), de textura (T ), morfológicos y de textura (C).
Resultados en términos de porcentaje de error (Error), sensibilidad (SEN), especificidad (ESP), y en términos de AUC.
Otras abreviaturas: sistema inmune artificial (AIS, del Inglés artificial immune system), independencia lineal (LI, del Inglés lineal
independence), algoritmo genético (GA, del Inglés genetic algorithm), mapa auto-organizado (SOM, del Inglés self-organizing map),
aprendizaje profundo (DL, del Inglés deep learning ) y remuestreo con resubstitución (BS, del Inglés bootstrap).

59
Análisis de esquemas de descomposición binaria
4
Este capítulo se divide en seis secciones, en las cuales se analiza la separación de clases
en las descomposiciones binarias OVA y OVO, y el desempeño de clasificación de Bayes en
el problema de clasificación BI-RADS. En la primera sección se presenta el banco de datos
utilizado en esta investigación, el cual incluye la descripción del conjunto de ultrasonografías
de mama y las características cuantitativas que fueron extraídas para representar la forma y
textura de cada lesión. En la segunda sección se describe la metodología utilizada para evaluar
la separación de clases en los esquemas de descomposición binaria OVA y OVO. En la tercera
sección se presenta un análisis de correlación de la relevancia de las características en las
descomposiciones binarias. En la cuarta sección se detallan los resultados de la separación de
clases. En la quinta sección se expone el desempeño de clasificación de Bayes. Finalmente en
la sexta sección se presentan las conclusiones del capítulo.

4.1 Descripción del banco de datos


En esta sección se describe el banco de datos del caso de estudio en esta tesis, el cual
es la clasificación BI-RADS de lesiones de mama en ultrasonografías. La descripción incluye
información del equipo utilizado para la captura de las imágenes, número de imágenes obte-
nidas, distribución histopatológica de las lesiones, distribución de las categorías BI-RADS, y
características morfológicas y de textura utilizadas para describir cuantitativamente el léxico
BI-RADS para lesiones.

4.1.1 Ultrasonografías de mama


El banco de ultrasonografías consistió de 1392 imágenes de 821 pacientes, obtenidas du-
rante procedimientos de diagnóstico de mama en el Instituto Nacional de Cáncer (INCa) de

61
62 4.1. Descripción del banco de datos

Rio de Janeiro, Brasil. El comité de ética del INCa aprobó este estudio (protocolo 38/2001).
Las imágenes fueron adquiridas con tres equipos de ultrasonido: Logiq P6 (General Electric),
Logiq 5 (General Electric) y Sonoline Sienna (Siemens). Todas las imágenes fueron obtenidas
con transductores de arreglo lineal con frecuencias entre 7.5 y 12 MHz.
Las edades de las pacientes se encuentran en el rango de 16 a 97 años, mientras que la
media etaria fue de 47 años. Todas las imágenes fueron obtenidas de pacientes con indicación
de biopsia y la distribución histopatológica de las lesiones se muestra en la Figura 4.1, de las
cuales 964 imágenes corresponden a lesiones benignas y 428 a lesiones malignas.

50
Benigna
40 Maligna
Porcentaje (%)

30

20

10

0
Quiste

Otros

Adenosis

Otros

Carcinoma papilar
Cambios

Lipoma

Necrosis
Fibroadenoma

fibroquísticos

Papiloma

Adenocarcinoma
de grasa
invasivo

in situ
Carcinoma ductal

Carcinoma ductal
invasivo

in situ
Carcinoma lobular

Carcinoma lobular

Figura 4.1: Distribución histopatológica de los tipos de lesión de mama en el banco de ultra-
sonografías.

Además, las imágenes fueron diagnosticadas con base en el sistema de clasificación BI-
RADS por un radiólogo con 15 años de experiencia. El especialista comparó la lesión con el
diagnóstico histopatológico y clasificó la lesión en la categoría más apropiada de acuerdo a la
definición de clasificación BI-RADS. Se usó dicho procedimiento para reducir la variabilidad
en la clasificación [18].
Del total de las imágenes con lesiones, 475 fueron diagnosticadas con categoría 2 (C2), 319
con categoría 3 (C3), 483 con categoría 4 (C4) y 115 con categoría 5 (C5). La distribución
de clases histopatológicas, benigna y maligna, se muestra junto con la distribución de las
categorías BI-RADS en la Figura 4.2. El entrenamiento de un clasificador utilizando clases
formadas a partir de una relación entre clases histopatológicas y categorías BI-RADS fue
propuesto por Shen et al. [151] para abordar la clasificación en categorías BI-RADS, por
lo que en esta investigación se consideran cinco clases: lesión benigna con categoría 2 (C2),
lesión benigna con categoría 3 (C3), lesión benigna con categoría 4 (C4b), lesión maligna con
4. Análisis de esquemas de descomposición binaria 63

categoría 4 (C4m) y lesión maligna con categoría 5 (C5).


La Figura 4.3 muestra un ejemplo de una lesión para cada clase considerada en esta
investigación. Se puede observar que la mayor diferencia en la forma y textura de las lesiones
se encuentra entre las clases C2 y C5, mientras que lesiones de clases adyacentes, es decir,
los pares de clases (C2,C3), (C3,C4b), (C4b,C4m), y (C4m,C5) presentan similitudes en sus
características sonográficas.

40
35 Benigna
30 Maligna
Porcentaje (%)

25
20
15
10
5
0
C2 C3 C4 C5
BI-RADS

Figura 4.2: Distribución de clases histopatológicas y de categorías BI-RADS en el banco de


ultrasonografías.

4.1.2 Segmentación de la lesión


En la etapa de segmentación se divide la imagen de ultrasonido en dos regiones no tras-
lapadas para separar la lesión del tejido adyacente. Para generar una segmentación que sea
útil en la extracción de atributos de la lesión, se aplicó una etapa de preprocesamiento para
mejorar el contraste de la imagen y reducir el artefacto speckle, el cual es inherente en las
imágenes de ultrasonido [137].
En este sentido, se empleó el método de segmentación propuesto por Gómez et al. [63],
el cual es considerado semiautomático debido a que un especialista debe identificar la región de
interés donde se ubica la lesión en la imagen. Después, se aplican dos etapas principales para
delinear la forma de la lesión. La primera etapa es el preprocesamiento de la imagen, la cual
involucra tres tareas: (i) mejoramiento del contraste con la técnica de ecualización adaptativa
del histograma limitada por contraste (CLAHE, del Inglés contrast limited adaptive histogram
equalization); (ii) reducción del artefacto speckle con un filtro de difusión anisotrópico; y
(iii) realce de la lesión mediante una función de restricción Gaussiana. En la segunda etapa
se realiza la segmentación de la lesión, en la cual un proceso iterativo de umbralado genera
marcadores para la transformación watershed para crear márgenes potenciales de la lesión.
Posteriormente, la segmentación del tumor está dada por el margen que maximiza el gradiente
64 4.1. Descripción del banco de datos

(a) (b)

(c) (d) (e)

Figura 4.3: Ejemplos de lesiones de mama en ultrasonografías con clases (a) C2, (b) C3,
(c) C4b, (d) C4m y (e) C5.

de intensidad entre la lesión y su fondo. Los autores reportaron que este método presentó
alta exactitud y precisión en relación a delineaciones manuales realizadas por dos radiólogos.
Asimismo, ha mostrado su efectividad en diversos sistemas CAD para ultrasonido de mama [18,
64–66, 118].
En la Figura 4.4 se muestra un ejemplo de una imagen de ultrasonido de mama segmentada
con el método basado en la transformación watershed . La lesión segmentada es una imagen
binaria que representa la forma de la lesión, la cual es usada para calcular características
morfológicas. Además, los límites de la forma binaria de la lesión determinan la mínima región
de interés que contiene a la lesión en la imagen de ultrasonido, la cual es utilizada para el
cálculo de características de textura.

4.1.3 Extracción de características


A partir de las imágenes de ultrasonografías segmentadas se calcularon 180 atributos nu-
méricos relacionados nominalmente a las características cualitativas del léxico BI-RADS para
masas: forma, orientación, margen, patrón de eco y característica posterior. De acuerdo a la
técnica computacional subyacente, los atributos están orientados a describir una propiedad de
la lesión definida en el léxico BI-RADS [110]. En este sentido, las características BI-RADS
4. Análisis de esquemas de descomposición binaria 65

(a) (b)

Figura 4.4: (a) Ultrasonografía de mama segmentada con el método basado en la transfor-
mación watershed . El contorno blanco indica la segmentación de la lesión, mientras que el
rectángulo blanco discontinuo señala la mínima región de interés. (b) Forma binaria de la
lesión.

de forma, orientación y margen son descritas con características morfológicas, mientras que
el margen, patrón de eco y característica posterior se cuantifican mediante características de
textura. En la Tabla 4.1 se listan 30 características morfológicas y 150 de textura asociadas
al léxico BI-RADS, cuyos detalles de implementación se pueden consultar en sus respectivas
referencias.
Las características cualitativas BI-RADS describen diferentes aspectos de la lesión [96, 110,
119]:

La característica de forma describe si la lesión presenta un aspecto en general ovalado,


redondo o irregular.

La característica de orientación indica si el eje mayor de la lesión tiene una orientación


paralela o no paralela a la línea de la piel (eje de las abscisas).

La característica de margen expresa el grado de definición del borde de la lesión, es decir,


si existe una clara demarcación entre la lesión y el tejido circundante. Esta característica
también indica si existen pequeñas ondulaciones o espiculaciones en el contorno de la
lesión.

El patrón de eco indica el nivel de intensidad y homogeneidad del eco interno de la


lesión, donde el eco es observado a partir de la textura.

La característica posterior expresa el nivel de brillo presente en la región posterior a la


lesión, la cual puede ser refuerzo o con mayor brillo, sombra o con menor brillo, o una
combinación de ambas.
66 4.2. Metodología de evaluación de los esquemas de descomposición binaria

Todos los algoritmos para el cálculo de las características cuantitativas se implementaron


en MATLAB versión R2014b (The MathWorks, Natick, MA, USA). Para disminuir el tiempo
de cómputo de algunas subrutinas se utilizó Lenguaje C (GCC 4.8.3) y se compilaron con
la función MEX de MATLAB. Como parte de esta investigación se construyó la biblioteca de
funciones BUSAT [136], la cual se encuentra disponible para su descarga vía web. El Apéndice B
presenta el algoritmo para extraer las 180 características descritas en la Tabla 4.1 utilizando
la biblioteca BUSAT.

4.2 Metodología de evaluación de los esquemas de


descomposición binaria
La clasificación BI-RADS es abordada con los esquemas de descomposición OVA y OVO,
los cuales se evaluaron de acuerdo al grado de separación entre las clases BI-RADS involucradas
en los subproblemas binarios. El grado de separación entre las clases se midió de manera inde-
pendiente para cada característica mediante el índice AUC, esto con el objetivo de identificar
cuáles son las parejas de clases de cada subproblema binario que presentan mejor separación.
Además, mediante el índice mAUC se determina el esquema de descomposición binaria que
obtiene una mejor representación de las clases. Como se mencionó anteriormente, los índices
AUC y mAUC son indicadores de separabilidad de clases para problemas con probabilidades de
clases desbalanceadas [71]. Además, el índice AUC ha sido utilizado con resultados exitosos
para medir la relevancia de las características de los patrones [175].
Cada esquema de descomposición binaria fue utilizado para construir un modelo de clasifi-
cación que distinga las cinco clases BI-RADS definidas como C2, C3, C4b, C4m y C5, utilizando
LDA como clasificador base. Además, en la construcción del modelo de clasificación se utilizó
una normalización softmax para ajustar los valores de las características al rango [−1, 1].
Los métodos de descomposición se evaluaron con el proceso ilustrado en el diagrama de
flujo de la Figura 4.5. El proceso comienza con la segmentación del banco de ultrasonografías
utilizando el método basado en la transformación watershed descrito en la Sección 4.1.2.
Posteriormente, se extraen de cada lesión segmentada 30 características morfológicas y 150
de textura descritas en la Tabla 4.1. Es importante señalar que la extracción de características
para construir el conjunto completo de muestras solamente se realizó una vez en el proceso de
evaluación de los métodos de descomposición. A partir del conjunto completo de muestras se
realizó una validación cruzada con cinco pliegues. El proceso de validación cruzada se repitió
10 veces para mejorar la estimación de desempeño de clasificación [89], resultando un total de
50 conjuntos disjuntos de entrenamiento y prueba. Al finalizar el proceso de validación cruzada,
el promedio de las 50 ejecuciones representa el desempeño final de clasificación. Cabe señalar
4. Análisis de esquemas de descomposición binaria 67

Tabla 4.1: Características cuantitativas morfológicas (M) y de textura (T ) asociadas al léxico


BI-RADS, donde θ indica ángulo, d es el conjunto de distancias, d es la distancia en píxeles y
W es el tamaño de ventana.

Característica
Característica cuantitativa Técnica computacional
BI-RADS
Convexidad, valor residual normalizado, y razón Envolvente
Forma (M)
de superposición convexa [4, 83, 178]
Razón de área, rugosidad del contorno, entropía,
Firma del contorno [4, 29]
media, desviación estándar, y cruces por cero
Extensión, factor de forma, y circularidad Geometría [25, 29, 80, 83]
Forma, eje mayor y eje menor de la elipse, y
Elipse equivalente [115, 150]
relación de aspecto entre los ejes de la elipse
Orientación Ángulo del eje mayor Elipse equivalente [150]
(M) Relación profundidad anchura Geometría [25, 80]
Margen (M) Anfractuosidad, distancia proporcional Elipse equivalente [3, 25]
Número de lobulaciones notables,
Mapa de distancias [150, 151]
espiculaciones, y característica de margen
Índice de homogeneidad del área de los lóbulos,
índice de protuberancias y depresiones Envolvente convexa [83]
significativas
Esqueleto normalizado elíptico, número de
Esqueleto morfológico [25]
puntos terminales del esqueleto
Dimensión fractal con el método de cajas
(d = {1/4, 1/8, . . . , 1/128} y
Firma del contorno [132]
d = {1/5, 1/10, . . . , 1/160}) y de compás
d = {0.050, 0.075, . . . , 0.2}
Característica del borde de la lesión (d = 10 y
Margen (T ) con d abarcando el 25 %, 50 %, y 100 % de la Textura circundante [80, 150]
lesión), y gradiente radial normalizado
Patrón de eco Promedio de los niveles de gris en la lesión, Promedio de
(T ) variación del eco interno y contraste intensidades [150, 151]
Autocorrelación y
Coeficiente de autocorrelación
autocovarianza [22, 79]
Dimensión fractal Dimensión fractal [26]
Media, rango y desviación media absoluta de
homogeneidad, disimilaridad, correlación y GLCM [12, 64]
entropía (θ ∈ {0◦ , 45◦ , 90◦ , 135◦ } y d ∈ {1, 4})
Media, rango y desviación media absoluta de
homogeneidad, disimilaridad, correlación y
GLCM de Ranklet [107, 182]
entropía (θ ∈ {0◦ , 45◦ , 90◦ , 135◦ }, d ∈ {1, 4} y
W ∈ {2, 4, 8})
Media, desviación estándar y energía de las
Energía de textura [95]
máscaras 2-D de Law
Característica Descriptor de eco posterior, y mínima diferencia
Textura circundante [80, 151]
posterior (T ) lateral
4.3. Análisis de correlación de la relevancia de las características en las
68 descomposiciones OVA y OVO

Segmentación Extracción de Conjunto completo


Banco de
de lesiones características de muestras
ultrasonografías

j=0

Construcción de
si no
k-pliegues de Evaluación
i=1 j=j+1 j<10
validación estadística
(pliegues 1 ≤ i ≤ k)

Datos de Construcción de
i=i+1
entrenamiento conjuntos de datos
si
no
Datos de prueba
i<k
(i-ésimo pliegue )

Construcción de Cómputo de
Clasificación de
modelo de índices AUC y
datos de prueba
clasificación LDA mAUC

Figura 4.5: Diagrama de flujo del proceso de evaluación de separabilidad de clases. Bloques
con líneas discontinuas indican datos y bloques con líneas sólidas indican procesos.

que para realizar una comparación equitativa, ambos esquemas de descomposición fueron
evaluados utilizando las mismas particiones del conjunto de muestras, es decir, las mismos
conjuntos de entrenamiento y prueba.
Finalmente, los algoritmos de descomposición binaria y clasificación se implementaron en
MATLAB versión R2014b (The MathWorks, Natick, MA, USA). La plataforma de pruebas
consistió de dos equipos con procesador Intel® i7 4770 con cuatro núcleos y 16 GB de RAM,
con el sistema operativo openSUSE 13.2, con kernel 3.16.6-2.

4.3 Análisis de correlación de la relevancia de las


características en las descomposiciones OVA y OVO
El análisis de correlación entre dos ordenamientos de características permite cuantificar el
grado de similitud entre dichos ordenamientos [145]. Además, es una manera de establecer si
las características relevantes en los subproblemas binarios son distintas.
En este análisis, primero se determinan las características más relevantes (i.e., discriminan-
tes) para cada subproblema binario en términos de AUC. Posteriormente, se mide la correlación
de las características relevantes para cuantificar su grado de similitud en los distintos subpro-
4. Análisis de esquemas de descomposición binaria 69

blemas binarios de las descomposiciones OVA y OVO.


En la Figura 4.6 se presenta el promedio del índice AUC obtenido para cada característica
(eje de las abscisas) y cada subproblema binario en las descomposiciones OVA y OVO (eje de
las ordenadas). Se observa que las características presentan variaciones notables en el valor
de AUC para todos los subproblemas binarios. Además, al realizar la prueba de análisis de
varianza (ANOVA, α = 0.05) en ambas descomposiciones binarias, se encontró que para
todas las características hay diferencia significativa entre al menos un par de subproblemas
binarios (p < 0.05). Esto señala que cada característica cuantitativa tiene un diferente nivel
de discriminación para cada subproblema binario, es decir, una característica puede ser muy
discriminante en un subproblema binario, aunque puede tener una baja capacidad discriminante
para el resto de los subproblemas. Por ejemplo, en la Figura 4.6.a, la característica con índice
102, la cual corresponde al rango de correlación (d = 4 y W = 4), obtuvo un AUC de 0.693,
0.664, 0.529, 0.776 y 0.870 para los subproblemas C2, C3, C4b, C4m y C5, respectivamente.
Nótese que esta característica es capaz de discriminar adecuadamente la clase C5, aunque su
desempeño decae a una clasificación aleatoria para la clase C4b.
Por otro lado, las características de cada subproblema binario son ordenadas descenden-
temente de acuerdo a sus valores de AUC, de modo que la primera característica es la más
relevante. En este sentido, por brevedad, las Tablas 4.2 y 4.3 sólo listan las cinco características
con mayor índice AUC para cada subproblema binario de las descomposiciones OVA y OVO,
respectivamente. Se observa que las características de textura describen mejor la mayoría de
los subproblemas binarios en comparación con las características morfológicas. Además, se
observa de manera general que las características más relevantes de la descomposición OVO
tienen un mayor valor AUC en comparación con aquellas de la descomposición OVA. Esto
se debe a que en la descomposición OVO las clases en los subproblemas binarios presentan
menor traslape, debido a que solamente involucran parejas de clases; en contraparte, cada
subproblema binario de la descomposición OVA involucra a todas las clases, preservando el
traslape original existente entre ellas.
Para cuantificar el grado de diferencia en el ordenamiento de las características entre un par
de subproblemas binarios, la correlación de Pearson mide la relación de dependencia entre los
rangos de los ordenamientos de las características. Nótese que la correlación de Pearson sobre
los rangos de las características es equivalente a la correlación de Spearman entre valores de
relevancia de las características [76]. Un valor de correlación ‘1’ indica que las características
tienen el mismo orden de relevancia en ambos subproblemas, un valor ‘−1’ indica una perfecta
correlación negativa entre los ordenamientos, y un valor ‘0’ indica que los ordenamientos no
están correlacionados.
Las Tablas 4.4 y 4.5 muestran los coeficientes de correlación de Pearson de los ordena-
mientos de características para cada par de subproblemas binarios en las descomposiciones
4.3. Análisis de correlación de la relevancia de las características en las
70 descomposiciones OVA y OVO

(a)

1
C2
0.9
C3
0.8

AUC
C4b
0.7
C4m
0.6
C5
0.5
50 100 150
Características

(b)

1
C2-C3
C2-C4b
0.9
C2-C4m
C2-C5
0.8
C3-C4b
AUC

C3-C4m
0.7
C3-C5
C4b-C4m
0.6
C4b-C5
C4m-C5
0.5
50 100 150
Características

Figura 4.6: AUC promedio obtenido para cada característica y cada subproblema binario en
las descomposiciones (a) OVA, donde los subproblemas binarios son indicados con la clase de
interés que es separada del resto de las clases, y (b) OVO, donde los subproblemas binarios
son indicados con los pares de clases separados por un guión.
4. Análisis de esquemas de descomposición binaria 71

Tabla 4.2: Media y desviación estándar de las cinco características con los mayores valores de
AUC para cada subproblema binario en la descomposición OVA.

Subproblema Tipo Característica Media Desv. Est.


C2 T Media de entropía (d = 4 y W = 8) 0.748 0.024
T Característica del borde de la lesión (d = 25 % de la lesión) 0.748 0.029
T Media de homogeneidad (d = 4 y W = 8) 0.745 0.023
T Característica del borde de la lesión (d = 10) 0.745 0.030
T Media de entropía (d = 1 y W = 8) 0.744 0.026
C3 T Rango de entropía (d = 1 y W = 8) 0.727 0.022
T Desviación media absoluta de homogeneidad (d = 1 y W = 8) 0.725 0.023
T Rango de homogeneidad (d = 1 y W = 8) 0.723 0.023
T Desviación media absoluta de homogeneidad (d = 4 y W = 8) 0.717 0.024
T Desviación media absoluta de homogeneidad (d = 4 y W = 4) 0.715 0.022
C4b T Desviación estándar con máscara de Law R5L5 0.657 0.051
T Desviación media absoluta de entropía (d = 1 y W = 4) 0.638 0.042
T Rango de entropía (d = 4 y W = 8) 0.637 0.037
T Energía con máscara de Law R5L5 0.633 0.054
T Desviación estándar con máscara de Law W5L5 0.632 0.046
C4m M Relación profundidad-anchura 0.793 0.025
T Rango de correlación (d = 4) 0.780 0.027
T Rango de correlación (d = 4 y W = 8) 0.776 0.026
T Rango de correlación (d = 4 y W = 4) 0.776 0.025
T Desviación media absoluta de correlación (d = 4 y W = 4) 0.774 0.025
C5 T Rango de correlación (d = 4 y W = 4) 0.870 0.035
T Rango de correlación (d = 4 y W = 8) 0.869 0.032
T Rango de correlación (d = 4) 0.855 0.033
T Autocorrelación 0.852 0.037
T Desviación media absoluta de correlación (d = 4 y W = 4) 0.851 0.035

OVA y OVO, respectivamente. La mayor correlación obtenida en la descomposición OVA fue


de 0.127 con el par de subproblemas (C4m, C5). Con respecto a la descomposición OVO, la
mayor correlación obtenida fue de 0.202 con el par de subproblemas (C3-C4m, C3-C5).
Además, la correlación media entre todos los pares de subproblemas fue de −0.006 y
0.011 para las descomposiciones OVA y OVO, respectivamente. Por tanto, se puede inferir
que los ordenamientos de las características no están correlacionados y las características más
relevantes difieren en gran medida para cada subproblema binario.

4.4 Análisis de separación entre clases en las


descomposiciones OVA y OVO
En esta sección se presentan los resultados del análisis de separación entre clases, los cuales
sirvieron para determinar el método de descomposición que se usó en esta investigación.
El valor AUC promedio del conjunto completo de características para cada subproblema
binario en las descomposiciones OVA y OVO se muestra gráficamente en la Figura 4.7 y
de manera numérica en la Tabla 4.6. Al realizar la prueba ANOVA se encontró que en am-
bos esquemas de descomposición existe una diferencia estadísticamente significativa entre los
72 4.4. Análisis de separación entre clases en las descomposiciones OVA y OVO

Tabla 4.3: Media y desviación estándar de las cinco características con los mayores valores de
AUC para cada subproblema binario en la descomposición OVO.

Subproblema Tipo Característica Media Desv. Est.


C2-C3 T Desviación media absoluta de homogeneidad (d = 1 y W = 4) 0.732 0.034
T Media con máscara de Law W5W5 0.717 0.034
T Rango de homogeneidad (d = 1 y W = 4) 0.717 0.035
T Media con máscara de Law R5W5 0.715 0.033
T Desviación media absoluta de entropía (d = 1 y W = 4) 0.713 0.037
C2-C4b T Media de entropía (d = 1 y W = 8) 0.756 0.039
T Media de homogeneidad (d = 1 y W = 8) 0.754 0.042
T Característica del borde de la lesión (d = 25 % de la lesión) 0.751 0.049
M Razón de superposición 0.743 0.037
M Valor residual normalizado 0.742 0.037
C2-C4m M Relación profundidad-anchura 0.855 0.026
T Rango de correlación (d = 4 y W = 8) 0.854 0.026
T Rango de correlación (d = 4) 0.847 0.030
T Rango de correlación (d = 1 y W = 8) 0.843 0.028
T Rango de correlación (d = 4 y W = 4) 0.843 0.025
C2-C5 T Rango de correlación (d = 4 y W = 8) 0.938 0.023
T Rango de correlación (d = 4 y W = 4) 0.930 0.027
T Rango de correlación (d = 4) 0.928 0.030
M Dimensión fractal con el método de cajas (d = 1/5, . . .) 0.920 0.031
T Autocorrelación 0.920 0.032
C3-C4b T Media de homogeneidad (d = 1 y W = 8) 0.651 0.057
T Desviación estándar con máscara de Law R5L5 0.650 0.059
T Desviación media absoluta de disimilaridad (d = 1) 0.642 0.047
T Rango de homogeneidad (d = 1 y W = 8) 0.642 0.047
T Desviación media absoluta de disimilaridad (d = 4) 0.640 0.048
C3-C4m M Relación profundidad-anchura 0.863 0.030
T Desviación media absoluta de correlación (d = 4 y W = 4) 0.851 0.027
T Rango de correlación (d = 4 y W = 4) 0.850 0.027
T Desviación media absoluta de disimilaridad (d = 4 y W = 8) 0.848 0.030
T Rango de correlación (d = 4 y W = 8) 0.845 0.029
C3-C5 T Rango de correlación (d = 4 y W = 4) 0.942 0.026
T Rango de correlación (d = 4 y W = 8) 0.941 0.024
T Desviación media absoluta de correlación (d = 4 y W = 4) 0.928 0.026
T Rango de disimilaridad (d = 4 y W = 8) 0.928 0.031
T Rango de homogeneidad (d = 4 y W = 4) 0.928 0.029
C4b-C4m T Rango de homogeneidad (d = 4) 0.790 0.037
T Desviación media absoluta de disimilaridad (d = 4 y W = 4) 0.780 0.037
T Rango de homogeneidad (d = 4 y W = 4) 0.780 0.036
T Desviación media absoluta de homogeneidad (d = 4 y W = 4) 0.777 0.037
T Rango de entropía (d = 4 y W = 8) 0.777 0.039
C4b-C5 T Rango de homogeneidad (d = 4 y W = 4) 0.890 0.043
T Rango de correlación (d = 4 y W = 4) 0.890 0.046
T Rango de homogeneidad (d = 4 y W = 8) 0.880 0.045
T Rango de correlación (d = 4) 0.879 0.043
T Rango de disimilaridad (d = 4 y W = 4) 0.876 0.050
C4m-C5 T Autocorrelación 0.696 0.058
T Rango de correlación (d = 4 y W = 4) 0.694 0.062
M Forma 0.692 0.063
T Rango de correlación (d = 4 y W = 8) 0.690 0.059
M Número de puntos terminales del esqueleto 0.673 0.067
4. Análisis de esquemas de descomposición binaria 73

Tabla 4.4: Promedio (matriz triangular superior) y desviación estándar (matriz triangular in-
ferior) de la correlación de Pearson de los ordenamientos de relevancia de las características
para cada par de problemas binarios en la descomposición OVA.

Subproblema C2 C3 C4b C4m C5


C2 - 0.006 0.008 -0.004 0.005
C3 0.067 - 0.017 -0.140 -0.067
C4b 0.071 0.073 - 0.019 -0.033
C4m 0.054 0.060 0.075 - 0.127
C5 0.065 0.069 0.077 0.074 -

Tabla 4.5: Promedio (matriz triangular superior) y desviación estándar (matriz triangular in-
ferior) de la correlación de Pearson de los ordenamientos de relevancia de las características
para cada par de problemas binarios en la descomposición OVO.

Subproblema C2-C3 C2-C4b C2-C4m C2-C5 C3-C4b C3-C4m C3-C5 C4b-C4m C4b-C5 C4m-C5
C2-C3 - -0.053 -0.137 -0.086 -0.003 -0.092 -0.144 -0.077 -0.069 0.055
C2-C4b 0.084 - 0.057 0.045 0.003 0.024 0.000 0.022 0.012 -0.013
C2-C4m 0.066 0.070 - 0.151 0.028 0.070 0.060 0.068 0.089 -0.026
C2-C5 0.074 0.083 0.065 - 0.025 0.012 0.021 0.023 0.045 0.006
C3-C4b 0.070 0.077 0.054 0.076 - 0.004 -0.033 0.011 0.029 -0.018
C3-C4m 0.066 0.068 0.071 0.068 0.078 - 0.202 0.076 0.133 -0.081
C3-C5 0.057 0.065 0.054 0.059 0.082 0.053 - 0.097 0.112 -0.103
C4b-C4m 0.067 0.075 0.077 0.083 0.075 0.076 0.096 - 0.065 -0.046
C4b-C5 0.081 0.070 0.073 0.066 0.080 0.067 0.084 0.078 - -0.047
C4m-C5 0.089 0.082 0.079 0.079 0.074 0.074 0.065 0.076 0.072 -

subproblemas binarios (p < 0.001). Por tanto, se procedió a realizar el análisis post-hoc de
Tukey-Kramer (α = 0.05) para identificar los pares de subproblemas binarios OVA con di-
ferencias estadísticas en la capacidad de discriminación, cuyos valores-p se presentan en la
Tabla 4.7. Los resultados indican que hay una diferencia significativa en todos los pares de
subproblemas binarios (p < 0.05). Por tanto, las 180 características extraídas tienen una di-
ferente capacidad discriminante para las clases BI-RADS. En este sentido, de acuerdo con la
Figura 4.7.a, se observa que la clase C5 obtuvo el mayor valor de AUC, es decir, es la clase
con una representación más discriminante. Este resultado indica que las lesiones con clase C5
suelen presentar una morfología y un patrón de eco asociados a una alta probabilidad de ma-
lignidad, mismas que son poco comunes en el resto de las clases. En contraparte, las lesiones
con clase C4b presentan el mayor traslape con el resto de las clases, lo cual se debe a que
comparten rasgos morfológicos y de textura con lesiones benignas y malignas.
Por otro lado, de acuerdo con los resultados de la prueba de Tukey-Kramer en la Tabla 4.8
para la descomposición OVO, se encontró que prácticamente todas las parejas de subproblemas
binarios presenta una diferencia significativa en la capacidad de discriminación (p < 0.05). En
74 4.4. Análisis de separación entre clases en las descomposiciones OVA y OVO

(a) (b)

0.8 0.8

0.75 0.75

0.7 0.7

0.65 0.65
AUC

AUC
0.6 0.6

0.55 0.55

0.5 0.5

C2-C5

C3-C5
C2-C3

C2-C4m

C3-C4m
C2 C3 C4b C4m C5

C4b-C5
C2-C4b

C3-C4b

C4m-C5
C4b-C4m
Subproblema binario Subproblema binario

Figura 4.7: Gráfica de cajas del índice AUC obtenido por el conjunto de características para
los subproblemas en las descomposiciones binarias (a) OVA y (b) OVO.

Tabla 4.6: Valores AUC obtenidos por el conjunto de característica para los subproblemas en
las descomposiciones binarias (a) OVA y (b) OVO.

(a) (b)
Subproblema Media Desv. Est. Mín. Máx. Subproblema Media Desv. Est. Mín. Máx.
C2 0.625 0.009 0.605 0.643 C2-C3 0.596 0.012 0.566 0.628
C3 0.605 0.014 0.578 0.638 C2-C4b 0.608 0.013 0.583 0.632
C4b 0.553 0.016 0.522 0.589 C2-C4m 0.675 0.012 0.642 0.697
C4m 0.635 0.013 0.604 0.659 C2-C5 0.743 0.015 0.706 0.789
C5 0.692 0.017 0.655 0.742 C3-C4b 0.570 0.018 0.529 0.600
C3-C4m 0.685 0.017 0.640 0.724
C3-C5 0.726 0.015 0.695 0.765
C4b-C4m 0.630 0.020 0.591 0.673
C4b-C5 0.691 0.022 0.646 0.763
C4m-C5 0.587 0.022 0.542 0.631

general, los subproblemas que separan una clase con histopatología benigna de una clase
con histopatología maligna tienen una discriminación significativamente mejor que aquellos
subproblemas donde ambas clases están relacionadas al mismo tipo de clase histopatológica.
Obsérvese en la Figura 4.7.b que el par de clases C2-C5 tienen el menor grado de traslape,
mientras que el par de clases C3-C4b tienen el mayor grado de traslape. Esto indica que las
lesiones con clase C2 presentan una gran diferencia en forma y textura en comparación con
lesiones con clase C5. En contraparte, lesiones con clase C3 y C4b presentan un alto traslape
debido a que ambas clases involucran lesiones con histopatología benigna, aunque también
presentan algún rasgo indicativo de malignidad.
Por otra parte, la capacidad discriminante promedio del conjunto completo de caracterís-
ticas en la clasificación multiclase BI-RADS es medida con el índice mAUC. En este sentido,
la Figura 4.8 muestra las distribuciones de valores mAUC obtenidas por el conjunto de ca-
4. Análisis de esquemas de descomposición binaria 75

Tabla 4.7: Valores-p obtenidos con la prueba estadística de Tukey-Kramer entre pares de
subproblemas binarios OVA.

Subproblema C3 C4b C4m C5


C2 <0.001 <0.001 0.003 <0.001
C3 - <0.001 <0.001 <0.001
C4b - - <0.001 <0.001
C4m - - - <0.001

Tabla 4.8: Valores-p obtenidos con la prueba estadística de Tukey-Kramer entre pares de
subproblemas binarios OVO.

Subproblema C2-C4b C2-C4m C2-C5 C3-C4b C3-C4m C3-C5 C4b-C4m C4b-C5 C4m-C5
C2-C3 0.013 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 0.332
C2-C4b - <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001
C2-C4m - - <0.001 <0.001 0.115 <0.001 <0.001 <0.001 <0.001
C2-C5 - - - <0.001 <0.001 <0.001 <0.001 <0.001 <0.001
C3-C4b - - - - <0.001 <0.001 <0.001 <0.001 <0.001
C3-C4m - - - - - <0.001 <0.001 0.785 <0.001
C3-C5 - - - - - - <0.001 <0.001 <0.001
C4b-C4m - - - - - - - <0.001 <0.001
C4b-C5 - - - - - - - - <0.001

racterísticas en las descomposiciones OVA y OVO. Los resultados muestran que el conjunto
de características genera un mayor grado de discriminación en la descomposición OVO, con
un valor mAUC promedio de 0.651. En relación a la descomposición OVA, el valor mAUC
promedio es de 0.622. Además, al realizar la prueba estadística de t-Student (α = 0.05) se
encontró que dicha diferencia entre las medias es estadísticamente significativa (p < 0.001).
Por tanto, es más recomendable abordar el problema de clasificación BI-RADS con la descom-
posición OVO, ya que las características presentan un menor grado de traslape entre clases
con respecto a la descomposición OVA.

4.5 Análisis de desempeño de clasificación de Bayes


Determinar el máximo desempeño de clasificación alcanzable con un conjunto de muestras
es un problema de gran importancia en el reconocimiento de patrones, ya que proporciona
una referencia para establecer si es factible mejorar el diseño de un clasificador utilizando
información del problema y además proporciona una medida de la capacidad de discriminación
del espacio de características [171]. Por tanto, conocer el máximo desempeño alcanzable en la
clasificación BI-RADS permitirá establecer un punto de comparación para el enfoque propuesto
en esta tesis.
76 4.5. Análisis de desempeño de clasificación de Bayes

0.8

0.75

mAUC 0.7 0.651±0.008

0.622±0.006
0.65

0.6

0.55

0.5
OVA OVO

Figura 4.8: Gráfico de cajas del índice mAUC obtenido por el conjunto de características en
las descomposiciones OVA y OVO. Se indica la media ± desviación estándar en cada caso.

El error de clasificación obtenido por un clasificador Bayesiano entrenado con un conjunto


de muestras en un espacio de características definido es llamado error de Bayes (EBayes ) [165].
Dicho error provee el límite del mejor desempeño que puede ser alcanzado por cualquier
clasificador en dicho espacio de características, o en un subespacio de características derivado
del espacio original. Por tanto, el error de Bayes provee una medida de utilidad del espacio de
características, así como una medida del error que puede ser reducible cambiando o mejorando
el clasificador [165].
Sin embargo, para obtener el desempeño del clasificador Bayesiano se asume que se conocen
las probabilidades y distribuciones de las clases, lo cual en la práctica pocas veces sucede [103].
Además, es complejo de calcular cuando hay un gran número de características [73]. Por tanto,
se han propuesto aproximaciones no paramétricas para estimar los límites inferior y superior
del error de Bayes [103, 165].
Un método no paramétrico para obtener dichos límites está basado en el algoritmo del
vecino más cercano (NN, del Inglés nearest neighbor ). En el clasificador NN la clase de una
muestra de prueba es asignada de acuerdo con la clase de la muestra de entrenamiento más
cercana, en términos de la distancia Euclidiana. Cabe mencionar que el clasificador NN es no
paramétrico y construye fronteras de decisión no lineales [42].
El límite superior del error de Bayes es simplemente el error de clasificación obtenido por el
clasificador NN (EN N ), mientras que el límite inferior involucra tanto el error del clasificador
NN como el número de clases (c). De esta manera, los límites del error de Bayes están definidos
como [103, 165]:
 r 
c−1 c
1− 1− EN N ≤ EBayes ≤ EN N . (4.1)
c c−1
4. Análisis de esquemas de descomposición binaria 77

Debido a que el error de clasificación no es adecuado cuando existe un alto desbalance de


clases, se utilizó el mismo método no paramétrico basado en el algoritmo NN para estimar los
límites del índice MCC de Bayes (MCCBayes ), en el cual el límite inferior es obtenido por el
MCC del clasificador NN (MCCN N ). Los límites del índice MCC de Bayes se definieron como:

s !
MCCN N + 1

2(1 − c) c
MCCN N ≤ MCCBayes ≤ 1− 1− · 1− + 1. (4.2)
c c−1 2

Los límites de Bayes de error de clasificación e índice MCC se calcularon utilizando los
conjuntos de datos para entrenamiento y prueba definidos en la Sección 4.2, y los resultados
se muestran en la Figura 4.9. Los resultados indican que el error de Bayes para el problema de
clasificación BI-RADS se encuentra en el rango [0.247, 0.417], y el MCC de Bayes se encuentra
en el rango [0.449, 0.695]. Por tanto, se espera obtener un desempeño de clasificación con
tendencia al límite inferior del error de Bayes y al límite superior del MCC de Bayes.
(a) (b)

0.7 1

0.6 0.9
0.417±0.025
0.5 0.8
0.695±0.020
0.4 0.7
MCC
Error

0.247±0.019
0.3 0.6
0.449±0.033
0.2 0.5

0.1 0.4

0 0.3
Inferior Superior Inferior Superior

Figura 4.9: Gráfico de cajas de los límites inferior y superior de Bayes. (a) Error de clasificación
y (b) índice MCC, indicando la media ± desviación estándar.

En la Tabla 4.9 se presentan la matrices de confusión obtenidas con clasificador NN para los
límites inferior y superior del error de Bayes (Ecuación 4.1). En estas matrices se observa que
la clase C2 obtuvo el mayor porcentaje de muestras correctamente clasificadas, mientras que el
menor porcentaje lo obtuvo la clase C4b. El mayor porcentaje de error corresponde a muestras
con clase C5 que fueron etiquetadas como clase C4m, por el contrario, el menor porcentaje
de error corresponde a muestras con clase C2 que fueron etiquetadas como clase C5. Estos
resultados confirman la baja separabilidad que presentó la clase C4b del resto de las clases,
así como el alto grado de discriminación de las características extraídas en el subproblema
binario C2-C5 como se mostró en la Tabla 4.6. Además, se encontró que la mayoría de los
errores corresponden a clases histopatológicas iguales, es decir, ocurren en los subproblemas
78 4.6. Conclusiones del capítulo

C2-C3, C2-C4b, C3-C4b y C4m-C5, lo cual se debe al bajo grado de discriminación de las
características para dichos subproblemas como se mostró en la Tabla 4.6.

Tabla 4.9: (a)Matriz de confusión del clasificador NN con el porcentaje de muestras con
etiqueta de clase verdadera indicada por el renglón que fueron asignadas a la clase señalada
por la columna y (b) matriz de confusión con el límite inferior del error de Bayes. Las celdas
en gris corresponden a muestras correctamente clasificadas.

(a)
Clase C2 C3 C4b C4m C5
C2 72.5±4.8 15.6±3.2 5.1±1.9 5.5±2.3 1.2±1.1
C3 30.2±5.9 50.3±6.7 11.0±3.8 7.3±3.0 1.2±1.5
C4b 14.4±6.4 23.1±7.6 40.4±7.5 16.8±5.3 5.4±4.6
C4m 10.0±3.3 8.7±4.0 12.2±3.8 58.6±5.7 10.5±3.4
C5 3.7±3.8 6.4±4.7 7.3±5.7 35.4±7.4 47.1±9.7
(b)
Clase C2 C3 C4b C4m C5
C2 84.9±2.9 8.5±1.8 2.8±1.0 3.0±1.3 0.8±0.6
C3 17.8±3.9 69.7±5.2 6.5±2.2 4.5±1.7 1.4±0.8
C4b 9.3±4.0 14.3±5.0 61.3±7.2 10.6±3.2 4.4±2.7
C4m 5.8±1.8 5.1±2.2 7.0±2.1 76.0±3.9 6.1±2.0
C5 2.8±2.3 4.3±2.8 4.7±3.2 21.4±5.2 66.8±7.8

4.6 Conclusiones del capítulo


En este capítulo se analizó la capacidad discriminante de las características de forma y
textura en las descomposiciones OVA y OVO para la clasificación BI-RADS. Además, se analizó
el correspondiente desempeño de clasificación de Bayes.
Los resultados obtenidos con el análisis de separación de clases mostraron que la descom-
posición OVO es mejor que la descomposición OVA para la clasificación BI-RADS, ya que
aumenta la capacidad discriminante de las características al distinguir un par de clases en
vez de una clase del resto. Esto se debe a que los subproblemas binarios creados en la des-
composición OVO son más simples en comparación con la descomposición OVA, ya que los
subproblemas OVO involucran solamente parejas de clases y los subproblemas OVA requieren
de un reetiquetado que involucra todas las clases. Además, en la descomposición OVO se cons-
truyen un mayor número de hiperplanos de decisión en comparación con la descomposición
OVA, permitiendo obtener fronteras de decisión más complejas.
El análisis de separación de clases también mostró que las características propuestas en
4. Análisis de esquemas de descomposición binaria 79

la literatura tienen una mayor capacidad discriminante en los subproblemas que separan una
clase con histopatología benigna de una clase con histopatología maligna en comparación
con aquellos subproblemas que separan clases histopatológicas iguales. Por consiguiente, la
clasificación BI-RADS resulta más compleja en comparación con la clasificación binaria, es
decir, en clases benigna y maligna.
Por otra parte, el análisis de correlación indicó que para obtener la mayor discriminación es
conveniente describir cada par de clases en los subproblemas binarios de manera específica o
local, en vez de usar las mismas características para todos los subproblemas, como se hace co-
múnmente. Esto se debe a que las características con mejor discriminación varían dependiendo
de las clases relacionadas al subproblema binario.
Por tanto, para abordar el problema de clasificación BI-RADS se diseñaron dos clasificadores
multiclase con descomposición binaria OVO, especializando cada clasificador base con un
subconjunto de características específico para discriminar su pareja de clases asociada. Con
esto se buscó que el desempeño de clasificación de los enfoques propuestos, en términos del
índice MCC, se encuentre dentro de los límites de Bayes, con una tendencia al mejor límite de
desempeño.
Algoritmos de clasificación multiclase
5
En este capítulo se describen dos algoritmos de clasificación multiclase propuestos en esta
investigación. El capítulo se encuentra organizado en tres secciones. En la primera sección se
detalla un clasificador enfocado a problemas en los cuales las características más relevantes
para cada pareja de clases sean distintas. En la segunda sección se describe un algoritmo de
entrenamiento de ensamble de clasificadores orientado a problemas con alta dimensionalidad
y alta redundancia en las características. Finalmente, la tercera sección contiene un resumen
del capítulo.

5.1 Clasificador basado en ordenamiento y selección


de características
De acuerdo con el análisis presentado en el Capítulo 4, se propone un clasificador basado
en la descomposición OVO y clasificadores base LDA utilizando selección secuencial de carac-
terísticas por parejas de clases. Este enfoque será denominado S-LDA a lo largo de esta tesis.
El S-LDA es un clasificador multiclase que está orientado a problemas donde la relevancia
de las características es altamente dependiente de las parejas de clases involucradas en los
clasificadores base, tal como acontece en la clasificación BI-RADS.
El LDA fue seleccionado como clasificador base debido a su simplicidad, ya que no re-
quiere ajuste de parámetros, presenta buena generalización y tiene una solución analítica (ver
Apéndice A) [65, 66].
Para entrenar el clasificador S-LDA, primero se aplica una normalización softmax de
las muestras de entrenamiento {X, y} utilizando los estadísticos µ y σ que contienen la
media y la desviación estándar de las m características. Una vez normalizadas las mues-
tras de entrenamiento, se obtiene el conjunto de ordenamientos de características, denota-

81
82 5.1. Clasificador basado en ordenamiento y selección de características

do como o = {o1 , o2 , . . . , onc −1 , onc }, con la técnica mrMR para los nc subproblemas bina-
rios, con nc = c(c − 1)/2. Además, con un algoritmo metaheurístico se obtiene el vector
m∗ = [m∗1 , m∗2 , . . . , m∗nc −1 , m∗nc ] donde cada elemento indica el número de características se-
leccionadas en el ordenamiento oi ∈ o para el i-ésimo clasificador binario ci (con 1 ≤ i ≤ nc ).
Además, a partir de las características seleccionadas por la metaheurística, se obtiene el vec-
tor A = [A1 , A2 , . . . , Anc −1 , Anc ] con los valores de AUC que indican la separabilidad entre
las clases de cada subproblema binario. Por tanto, el vector A se utiliza para organizar la
estructura de un grafo G, de manera que los nodos superiores tengan un mayor valor de
AUC en comparación con los nodos hijo, el cual será usado en el método de agregación
DDAG [47, 126, 131, 166]. Posteriormente se entrena el i-ésimo clasificador ci , utilizando las
muestras de la i-ésima pareja de clases y las primeras m∗i características en el ordenamiento oi .
El Algoritmo 10 muestra el pseudocódigo del entrenamiento del clasificador propuesto S-
LDA, donde {Xi , yi } es el conjunto de muestras de la i-ésima pareja de clases, X̆i es el
conjunto de dichas muestras ordenadas con oi , y Θ es un clasificador multiclase con base en
la descomposición binaria OVO, tal que Θ = {c1 , c2 , . . . , cnc −1 , cnc }.

Algoritmo 10 Pseudocódigo para construir el clasificador S-LDA.


Entrada: {X,y}, nc
Salida: Θ, G, m∗ , o, µ, σ
1: Θ ← ∅
2: Obtener los estadísticos µ y σ a partir de X;
3: Normalizar X con softmax usando µ y σ (Ecuación 2.14);
4: Obtener o, m∗ y A a partir de {X,y} (Algoritmo 13);
5: para i = 1 hasta nc hacer
6: Obtener las muestras de la i-ésima pareja de clases {Xi ,yi };
7: Obtener X̆i al permutar las características en Xi con oi ∈ o;
8: Obtener X̆∗i al seleccionar las primeras m∗i ∈ m∗ característica en X̆i ;
9: Entrenar LDA ci usando {X̆∗i , yi };
10: Θ ← {Θ ∪ ci };
11: Definir estructura del grafo DDAG G con Θ, A, ωs ← ∅ y ωr ← ∅ (Algoritmo 11);
12: regresa Θ, G, o, m∗ , µ, σ

El Algoritmo 11 muestra el pseudocódigo para construir un grafo G con la agregación


DDAG estableciendo en los nodos superiores aquellos clasificadores con mayor índice AUC. Este
algoritmo es recursivo y requiere para su ejecución el conjunto de clasificadores Θ, el conjunto
de valores AUC A, y las etiquetas de clase seleccionada (ωs ) y removida (ωr ) utilizadas para
organizar el grafo, las cuales son establecidas con valores nulos en la primera llamada de la
función. Además tiene una complejidad computacional de O(2c−1 · nc ) para un problema de c
clases.
5. Algoritmos de clasificación multiclase 83

Algoritmo 11 Pseudocódigo para definir la estructura del grafo DDAG.


Entrada: Θ, A, ωs , ωr
Salida: G
1: si Θ == ∅ y A == ∅ entonces
2: Establecer nodo G con ci nulo;
3: Establecer clase ωs ganadora en G;
4: sino
5: si ωs == ∅ y ωr == ∅ entonces
6: i ← argmáx(Ai ∈ A);
i
7: Obtener el i-ésimo clasificador ci en Θ;
8: sino
9: rem ← ∅; sel ← ∅;
10: para i = 1 hasta |Θ| hacer
11: si ωr presente en ci ∈ Θ entonces rem ← {rem, i};
12: si ωs presente en ci ∈ Θ entonces sel ← {sel, i};
13: Remover elementos con índices rem en A y Θ;
14: Copiar elementos con índices sel de A y Θ en A0 y Θ0 ;
15: i ← argmáx(A0i ∈ A0 );
i
16: Obtener el i-ésimo clasificador ci en Θ0 ;
17: Obtener índice i del clasificador ci en Θ;
18: Remover i-ésimo elemento en Θ y A;
19: Construir nodo G con clasificador ci ;
20: Obtener las clases ωp y ωq en ci ;
21: nL ← Algoritmo de construcción DDAG con Θ, A, ωs ← ωp y ωr ← ωq ;
22: Añadir un vértice del nodo G al nodo nL con etiqueta ωp ;
23: nR ← Algoritmo de construcción DDAG con Θ, A, ωs ← ωq y ωr ← ωp ;
24: Añadir un vértice del nodo G al nodo nR con etiqueta ωq ;
25: regresa G

Una vez construido el clasificador S-LDA, para asignar la etiqueta de clase de una muestra
arbitraria x ∈ Rm , primero se normaliza x con la técnica softmax usando los estadísticos µ y σ
obtenidos durante el entrenamiento (ver Sección 2.2.5). Posteriormente se evalúa la muestra
en los clasificadores base de Θ de acuerdo a la estructura del grafo G, donde la etiqueta de
clase ŷ es asignada por el clasificador base en el nodo hoja evaluado en G. El Algoritmo 12
muestra el pseudocódigo para asignar una etiqueta de clase a una muestra arbitraria x con base
en el método de agregación DDAG, donde x̆i es la muestra con las características permutadas
a partir de oi , x̆∗i es la muestra con las primeras m∗i características en x̆i , y ci (x̆i ) indica
la evaluación de la muestra con el clasificador base ci . La complejidad computacional del
Algoritmo 12 es O(c · m).
La arquitectura del clasificador S-LDA se muestra en la Figura 5.1 donde x es una muestra
de prueba e ŷ es la etiqueta de clase asignada por el método de agregación DDAG.
84 5.1. Clasificador basado en ordenamiento y selección de características

Algoritmo 12 Pseudocódigo para asignar una etiqueta de clase a una muestra con S-LDA.
Entrada: x, Θ, G, o, m∗ , σ, µ
Salida: ŷ
1: Normalizar x usando los estadísticos σ y µ (ver Sección 2.2.5);
2: nP ← nodo raiz G;
3: ci ← obtener clasificador en nP ;
4: mientras que ci sea diferente de nulo hacer
5: Obtener x̆i al permutar x con oi ∈ o;
6: Obtener x̆∗i al seleccionar las primeras m∗i ∈ m∗ características en x̆i ;
7: ŷ ← ci (x̆∗i );
8: nP ← Nodo conectado a nP con vértice etiquetado ŷ;
9: ci ← obtener clasificador en nP ;
10: regresa ŷ

Muestra Ordenamiento de Selección de Descomposición Agregación Etiqueta


características características binaria OVO de clase

D
D
...

...

...

A
G

Figura 5.1: Arquitectura del clasificador propuesto S-LDA basado en descomposición binaria
OVO para un problema con c clases.

5.1.1 Selección de características basada en metaheurísticas

Nótese que el entrenamiento del clasificador S-LDA, mostrado en el Algoritmo 10, requiere
la selección de las características más relevantes para cada clasificador base. Se ha demostrado
que el problema de selección de características es NP-duro [70]. Para el clasificador propuesto,
una selección por búsqueda exhaustiva requeriría evaluar 2m·nc conjuntos de características.
Por otra parte, una selección secuencial requeriría evaluar solamente mnc conjuntos. Por con-
siguiente, para el problema de clasificación BI-RADS con cinco clases y 180 características,
la búsqueda exhaustiva requeriría evaluar aproximadamente 71.4 × 10540 conjuntos, y una
búsqueda secuencial requeriría evaluar aproximadamente 35.7 × 1021 conjuntos. Además, es
necesario considerar el costo computacional que requiere entrenar y evaluar cada conjunto
de características. En el clasificador S-LDA se plantea la selección de las primeras caracte-
rísticas ordenadas de acuerdo al criterio mrMR como un problema de optimización, ya que
no se presupone un paisaje de aptitud determinado y evaluar todos los posibles conjuntos de
características tendría un costo computacional prohibitivo. En este caso, el espacio de bús-
queda contiene mnc posibles soluciones. En dicho problema de optimización se utiliza una
5. Algoritmos de clasificación multiclase 85

representación entera definida como z = [z1 , z2 , . . . , znc −1 , znc ], tal que 1 ≤ zi ≤ m, donde
zi indica el número de las primeras características seleccionadas para el clasificador base ci .
Además la función objetivo f (z) se estableció como el índice MCC obtenido con una validación
cruzada con cinco pliegues, la cual se evalúa en el Algoritmo 14. Por tanto, en el problema de
optimización definido es necesario encontrar el vector z∗ que maximice el índice MCC para el
clasificador Θ, tal que z∗ ≡ m∗ .
Para abordar el problema de selección de características del clasificador S-LDA, se consi-
deran cinco algoritmos metaheurísticos, dos basados en una sola solución (SA y TS) y tres
basados en una población de soluciones (DE, JADE y PSO).
El Algoritmo 13 muestra el pseudocódigo para encontrar el vector m∗ utilizando una me-
taheurística. En dicho algoritmo, primero es necesario obtener el i-ésimo ordenamiento de
las características oi ∈ o para las muestras de la i-ésima pareja de clases mediante el crite-
rio mrMR, con 1 ≤ i ≤ nc . Posteriormente se utiliza el conjunto de muestras {X,y} y el
conjunto de ordenamientos o en una metaheurística para encontrar m∗ y su vector asociado
A. Por otra parte, el Algoritmo 14 presenta el pseudocódigo para evaluar una solución po-
tencial z en una metaheurística. Nótese que al evaluar una solución potencial z también se
puede obtener el vector A = [A1 , A2 , . . . , Anc −1 , Anc ]. La complejidad del Algoritmo 14 es
O (k · nc · (m3 + 2c−1 )).
La complejidad del entrenamiento del clasificador S-LDA depende del clasificador ba-
se LDA y del algoritmo de optimización, por lo que la complejidad del Algoritmo 10 es
O ((a + 1) · nc · (m3 + 2c−1 )), donde a es un término que depende del número de clasifica-
dores base entrenados durante el proceso de optimización. Por tanto, para SA la complejidad
es O (k · im · nc · (m3 + 2c−1 )), para TS es O (k · im · n2c · (m3 + 2c−1 )), y para DE, JADE y
PSO la complejidad es O (k · im · N P · nc · (m3 + 2c−1 )).

Algoritmo 13 Pseudocódigo para encontrar m∗ basado en metaheurísticas.


Entrada: {X,y}, nc
Salida: o, m∗ , A
1: o ← ∅;
2: para i = 1 hasta nc hacer
3: Identificar las muestras de la i-ésima pareja de clases {Xi ,yi };
4: Obtener ordenamiento oi a partir de {Xi ,yi } mediante criterio mrMR (Ecuación 2.17);
5: o ← {o ∪ oi }
6: Encontrar m∗ y su vector A mediante una metaheurística usando {X, y} y o;
7: regresa o, m∗ , A
86 5.1. Clasificador basado en ordenamiento y selección de características

Algoritmo 14 Pseudocódigo para evaluar una solución potencial con k-pliegues.


Entrada: {X,y}, z, o, k, nc
Salida: f (z), A
1: para j = 1 hasta k hacer
2: Obtener las muestras de entrenamiento del j-ésimo pliegue {XjE ,yjE } de {X,y};
3: Obtener las muestras de validación del j-ésimo pliegue {XjV ,yjV } de {X,y};
4: Obtener los estadísticos µjE y σ jE a partir de XjE ;
5: Θ ← ∅;
6: para i = 1 hasta nc hacer
j j
7: Identificar las muestras de entrenamiento de la i-ésima pareja de clases {Xi E ,yi E };
j j
8: Identificar las muestras de validación de la i-ésima pareja de clases {Xi V ,yi V };
j
9: Permutar características de las muestras en Xi E a partir de oi ∈ o;
j j
10: Obtener X̆i E al seleccionar las primeras zi ∈ z características en Xi E ;
j j
11: Entrenar LDA ci usando {X̆i E , yi E };
j
12: Permutar características de las muestras en Xi V a partir de oi ∈ o;
j j
13: Obtener X̆i V al seleccionar las primeras zi ∈ z características en Xi V ;
j j
14: Medir Ai,j ≡ AUC de ci con muestras de validación {X̆i V , yi V } (Ecuación 2.23);
15: Θ ← {Θ ∪ ci };
16: Definir DDAG G con Θ, [A1,j , A2,j , . . . , Anc ,j ], ωs ← ∅ y ωr ← ∅ (Algoritmo 11);
17: ŷ ← Clasificar muestras en XjV usando Θ, G, o, z, µjE y σ jE con Algoritmo 12.
18: MCCj ← Calcular índice MCC con etiquetas verdaderas yjV y etiquetas asignadas ŷ;
Xk
19: Calcular Ai = k 1
Ai,j , para 1 ≤ i ≤ nc ;
j=1
20: A ← [A1 , A2 , . . . , Anc −1 , Anc ];
k
X
21: Calcular la aptitud de la solución z como f (z) = 1
k
MCCj ;
j=1
22: regresa f (z), A

5.1.2 Configuración de metaheurísticas

El pseudocódigo del SA utilizado se presentó previamente en el Algoritmo 5, donde sus


parámetros fueron definidos como: t0 = 1, L = 200, im = 10000 · nc y α = 0.99. La función
de vecindario N modifica aleatoriamente sólo una posición de la solución z en dirección po-
sitiva o negativa para obtener una solución vecina dentro del espacio de soluciones factibles.
La magnitud del movimiento se elige aleatoriamente entre dos opciones: magnitud unitaria y
magnitud aleatoria en el rango [1, m]. En la función de vecindario N la dirección y magnitud
de la perturbación son aleatorias, ya que que no se presupone que una determinada direc-
ción o magnitud de perturbación mejoren la calidad de solución encontrada en el proceso de
búsqueda. Al perturbar aleatoriamente solamente una posición de la solución z se explora un
vecindario pequeño, con una convergencia lenta, aunque puede mejorar la calidad de las solu-
5. Algoritmos de clasificación multiclase 87

Algoritmo 15 Pseudocódigo de función de vecindario N para el algoritmo SA.


Entrada: z, m, nc
Salida: z
1: i = randi (1, nc );
2: si rand(0, 1) < 0.5 entonces v = 1; sino v = randi (1, m);
3: si rand(0, 1) < 0.5 entonces v = −1 · v;
4: si v > 0 ∧ (zi + v) > m entonces v = randi (B ((m − zi ) > 0) , m − zi ) ;
5: si v < 0 ∧ (zi + v) < 1 entonces v = −1 · randi (B ((zi − 1) > 0) , zi − 1) ;
6: zi = zi + v;
7: regresa z

ciones [167]. El Algoritmo 15 presenta el pseudocódigo de la función de vecindario N, donde


randi (mı́n, máx) es un número entero aleatorio en el rango [mı́n, máx] tomado de una distri-
bución uniforme y B(·) es una función booleana que devuelve ‘0’ si la entrada es falsa y ‘1’ si
es verdadera.
Por otra parte, el pseudocódigo de TS utilizado se presentó en el Algoritmo 6, donde la lista
tabú almacena una colección de soluciones recientemente visitadas, y los parámetros fueron
establecidos como im = 10000 y ts = 0.1 · im . La función de vecindario Nt retorna un vecino
por cada dimensión de la solución z. Dicho vecino es obtenido modificando una posición del
vector z con una dirección y magnitud de movimiento aleatorias, de manera similar a la función
de vecindario N utilizada en el algoritmo SA. El Algoritmo 16 contiene el pseudocódigo de
la función de vecindario Nt , donde Z = {z1 , z2 , . . . , znc −1 , znc } es un conjunto de soluciones
vecinas y cada solución zi = [zi,1 , zi,2 , . . . , zi,nc −1 , zi,nc ] es un vector con nc dimensiones.

Algoritmo 16 Pseudocódigo de función de vecindario Nt para el algoritmo TS.


Entrada: z0 , m, nc
Salida: Z
1: para i = 1 hasta nc hacer
2: zi = z0 ;
3: si rand(0, 1) < 0.5 entonces v = 1; sino v = randi (1, m);
4: si rand(0, 1) < 0.5 entonces v = −1 · v;
5: si v > 0 ∧ (zi,i + v) > m entonces v = randi (B ((m − zi,i ) > 0) , m − zi,i ) ;
6: si v < 0 ∧ (zi,i + v) < 1 entonces v = −1 · randi (B ((zi,i − 1) > 0) , zi,i − 1) ;
7: zi,i = zi,i + v;
8: Z = {z1 , z2 , . . . , znc −1 , znc };
9: regresa Z

Los pseudocódigos de la metaheurísticas poblacionales DE, JADE y PSO utilizados se


presentaron previamente en los Algoritmos 7, 8 y 9, respectivamente. Dichas metaheurísticas
usan el mismo tamaño de población que fue definido como diez veces la dimensionalidad del
vector solución, como es sugerido en la literatura [34]; por tanto, se utilizan 10 · nc individuos.
88 5.2. Ensamble de clasificadores basado en bagging y subespacio aleatorio

Además, el número máximo de iteraciones fue definido como gmáx = 1000. Nótese que los
operadores de mutación en DE y JADE, y actualización de posición de las partículas en PSO,
generan como solución un vector de números reales, por lo que es necesario aplicar un redondeo
de los valores al entero más cercano antes de evaluar la aptitud una solución.

5.2 Ensamble de clasificadores basado en bagging y


subespacio aleatorio
Con base en las propiedades de las técnicas bagging, subespacio aleatorio y descomposición
binaria OVO se propone un ensamble de clasificadores denominado bagging LDA (B-LDA).
El ensamble B-LDA está orientado a problemas de clasificación con alto número de caracte-
rísticas relevantes y redundantes. La técnica bagging mejora el desempeño de clasificadores
que presentan cambios significativos en el modelo de clasificación con pequeñas variaciones
en los datos de entrenamiento [42] y atenúa el efecto de datos atípicos en el entrenamiento
de los clasificadores base [157]. Además, el desempeño de un clasificador basado en bagging
puede ser medido con las propiedades de fuerza y correlación de los clasificadores base. El
método de subespacio aleatorio disminuye la correlación entre los errores de los clasificadores
de un ensamble [77]. El clasificador LDA fue seleccionado debido a que tiene una solución
analítica [42, 169] y se ha probado en la literatura que la técnica bagging disminuye su error
de clasificación [157].
Como clasificador base del ensamble B-LDA se utiliza un clasificador multiclase con des-
composición binaria OVO, denotado como Θ, donde los subproblemas binarios son abordados
con LDA y subespacio aleatorio. Para aplicar la técnica de subespacio aleatorio al i-ésimo cla-
sificador binario ci , primero se obtiene una permutación aleatoria de características denotada
como oi , la cual se aplica a las muestras de entrenamiento Xi para obtener el conjunto X̆i .
Posteriormente se obtiene el conjunto X̆∗i a partir de las primeras m∗i características en X̆i ,
tal que m∗i = randi (1, m), ya que no se tiene una preferencia por un tamaño específico de
subconjuntos de características. Entonces, el clasificador ci se entrena con el conjunto X̆∗i , de
tal forma que se utiliza una combinación lineal de características seleccionadas aleatoriamente
para separar una pareja de clases. Además se define un grafo DDAG denotado como G, donde
los nodos padre tienen una mayor separación de clases en comparación con los nodos hijo en
términos del discriminante de Fisher (Ecuación 2.1). El Algoritmo 17 muestra el pseudocó-
digo para entrenar un clasificador multiclase OVO con LDA y subespacio aleatorio. Además,
la normalización Z-score es empleada para normalizar las características, la cual se utiliza en
la literatura en los clasificadores base dentro de un ensamble bagging [15]. La complejidad
computacional del Algoritmo 17 está dada por el entrenamiento de nc clasificadores LDA y la
5. Algoritmos de clasificación multiclase 89

construcción del grafo DDAG, por lo que es O(nc · (m3 + 2c−1 )).

Algoritmo 17 Pseudocódigo para entrenar un clasificador multiclase OVO con LDA y subes-
pacio aleatorio.
Entrada: {X, y}, nc
Salida: Θ, G, o, m∗ , µ, σ
1: Obtener los estadísticos µ y σ a partir de X;
2: Normalizar X con Z-score usando µ y σ (Ecuación 2.13);
3: Θ ← ∅; J ← ∅; o ← ∅; m∗ ← ∅;
4: para i = 1 hasta nc hacer
5: Obtener las muestras de la i-ésima pareja de clases {Xi ,yi };
6: Obtener permutación aleatoria de características oi ;
7: Obtener conjunto X̆i al permutar características en Xi con oi ;
8: Definir número de características m∗i ;
9: Obtener X̆∗i al seleccionar las primeras m∗i características en X̆i ;
10: Entrenar un clasificador LDA ci usando {X̆∗i , yi };
11: Medir el discriminante de Fisher Ji a partir de ci (Ecuación 2.1) ;
12: Θ ← {Θ ∪ ci }; J ← [J ∪ Ji ]; o ← {o ∪ oi }; m∗ ← [m ∪ m∗i ];
13: Definir estructura del grafo DDAG G con Θ, J, ωs ← ∅, ωr ← ∅ (Algoritmo 11);
14: regresa Θ, G, o, m∗ , µ, σ

El ensamble B-LDA se compone de un conjunto de clasificadores multiclase denotado co-


mo Θ = {Θ1 , Θ2 ,. . . ,Θke }, donde cada clasificador Θi (con 1 ≤ i ≤ ke ) se entrena con un
conjunto de muestras {X0 , y0 } tomadas con la técnica bootstrap del conjunto de muestras
original {X, y} (ver Sección 2.2.4.1). Además, para cada clasificador Θi se obtiene la estruc-
tura del grafo Gi , la permutación aleatoria oi y el número de características seleccionadas
m∗i para los subproblemas binarios, así como los estadísticos de media µi y desviación están-
dar σi para la normalización. El Algoritmo 18 presenta el pseudocódigo del entrenamiento del
ensamble de clasificadores B-LDA, con el cual se obtiene el conjunto de clasificadores mul-
ticlase Θ. La complejidad computacional del entrenamiento del ensamble B-LDA está dada
por el entrenamiento de ke clasificadores multiclase OVO con agregación DDAG, por lo que
es O (ke · nc (m3 + 2c−1 )).
El Algoritmo 19 muestra el pseudocódigo para clasificar una muestra arbitraria x, donde
cada clasificador del ensamble es evaluado con el Algoritmo 12 para obtener un voto para alguna
de las c clases. Para evaluar el i-ésimo clasificador Θi se utiliza el grafo Gi , el ordenamiento
de características oi , el número de características seleccionadas m∗i , y los estadísticos de
normalización Z-score M y S. Una vez evaluados todos los clasificadores Θi se asigna a la
muestra x la etiqueta de clase con más votos. Por tanto, la complejidad computacional del
Algoritmo 19 es O (ke · c · m).
90 5.3. Resumen del capítulo

Algoritmo 18 Pseudocódigo para entrenar el ensamble B-LDA.


Entrada: {X, y}, ke , nc
Salida: Θ, G, O, M∗ , M , S
1: Θ ← ∅; G ← ∅; O ← ∅; M∗ ← ∅; M ← ∅; S ← ∅;
2: para i = 1 hasta ke hacer
3: Muestreo de {X, y} con técnica bootstrap para obtener {X0 , y0 };
4: Obtener Θi , Gi , oi , m∗i , µi y σi al aplicar el Algoritmo 17 con {X0 , y0 } y nc ;
5: Θ ← {Θ ∪ Θi }; G ← {G ∪ Gi }; O ← {O ∪ oi }
6: M∗ ← {M∗ ∪ m∗i }; M ← {M ∪ µi }; S ← {S ∪ σi };
7: regresa Θ, G, O, M∗ , M , S

Algoritmo 19 Pseudocódigo para clasificar una muestra arbitraria con el ensamble B-LDA.
Entrada: x, Θ, G, O, M∗ , M , S, c, nc
Salida: ŷ
1: para i = 1 hasta ke hacer
2: Obtener ŷi al evaluar x en Θ
!i con Gi , oi , mi , µi , σi y nc con el Algoritmo 12;

Xke
3: ŷ = argmáx B(ωq == ŷi ) , para 1 ≤ q ≤ c;
ωq
i=1
4: regresa ŷ

La arquitectura del ensamble de clasificadores B-LDA se muestra en la Figura 5.2. Una


muestra arbitraria x ∈ Rm es evaluada por cada clasificador multiclase del conjunto Θ, de
modo que cada uno emite un voto para alguna de las c clases, y mediante un esquema de voto
mayoritario se asigna la clase final.

5.3 Resumen del capítulo


En este capítulo se presentaron dos clasificadores propuestos para la clasificación BI-RADS.
El primero es un clasificador basado en LDA, descomposición binaria OVO y selección secuen-
cial de características por parejas de clases, el cual fue nombrado S-LDA. Este clasificador
está enfocado a problemas en los cuales las características más discriminantes para cada pa-
reja de clases sean distintas. La segunda propuesta es un ensamble de clasificadores basado
en LDA, descomposición binaria OVO, bagging y subespacio aleatorio, el cual fue nombrado
B-LDA. Dicho ensamble de clasificadores está enfocado a problemas con un alto número de
características relevantes y redundantes.
5. Algoritmos de clasificación multiclase 91

Subespacio aleatorio
Permutación de Selección de Descomposición Agregación Agregación Etiqueta de
Muestra características características binaria OVO clase

D
D
...

...

...

A
G

D
D
...

...

...

A Voto
G mayoritario
...

D
D
...

...

...

A
G

Figura 5.2: Arquitectura del ensamble de clasificadores B-LDA.


Resultados
6
Este capítulo se divide en cinco secciones donde se presentan los resultados obtenidos por
los clasificadores S-LDA y B-LDA para la clasificación BI-RADS. En la primera sección se
presenta la metodología de evaluación de los clasificadores. En la segunda sección se analiza
el desempeño del clasificador S-LDA utilizando diferentes metaheurísticas para la selección de
características. En la tercera sección se analiza el desempeño del ensamble B-LDA con relación
a las propiedades de fuerza y correlación. En la cuarta sección se comparan los clasificadores
S-LDA y B-LDA con dos clasificadores multiclase y con los límites de clasificación de Bayes.
Finalmente, en la quinta sección se presentan las conclusiones del capítulo.

6.1 Metodología de evaluación de los clasificadores


propuestos
Para evaluar los clasificadores propuestos se realizó el proceso mostrado en la Figura 6.1,
el cual comienza con la segmentación del banco de ultrasonografías como se describió en la
Sección 4.1.2. Posteriormente, de cada lesión se extrajeron las 180 características listadas en
la Tabla 4.1. Una vez obtenido el conjunto de características se repitió diez veces el proceso de
validación cruzada con cinco pliegues para entrenar los clasificadores y evaluar sus desempeños
de clasificación [89]. Por tanto, se construyeron 50 conjuntos disjuntos de entrenamiento y
prueba, y el desempeño final de clasificación fue el promedio de las 50 ejecuciones. Adicional-
mente, para realizar una comparación equitativa, los clasificadores fueron evaluados utilizando
las mismas particiones de validación cruzada.
Además, como parte de la validación cruzada anidada, cada conjunto de entrenamiento
fue subdivido usando validación cruzada con cinco pliegues, los cuales fueron utilizados en el
proceso de selección de características del clasificador S-LDA. Una vez concluida la selección

93
94 6.1. Metodología de evaluación de los clasificadores propuestos

Segmentación Extracción de Conjunto completo


Banco de
de lesiones características de muestras
ultrasonografías

j=0

Construcción de
si no
k-pliegues de Evaluación
i=1 j=j+1 j<10
validación estadística
(pliegues 1 ≤ i ≤ k)

Datos de Construcción de
i=i+1
entrenamiento conjuntos de datos
si
Selección de no
características con Datos de prueba
i<k
validación cruzada (i-ésimo pliegue )
de cinco-pliegues

Construcción de Cómputo de
Clasificación de
modelo de índices error y
datos de prueba
clasificación MCC

Figura 6.1: Diagrama de flujo del proceso de evaluación de los clasificadores propuestos. Blo-
ques con líneas discontinuas indican datos y bloques con líneas sólidas representan procesos.
El bloque con doble línea representa la validación cruzada anidada usada en el clasificador
S-LDA; en el caso del clasificador B-LDA este bloque se omite.

de características, se construyó el modelo de clasificación utilizando el conjunto completo de


datos de entrenamiento.
Debido a que la etapa de selección de características en el clasificador B-LDA se realizó
con base en el método de subespacio aleatorio, no se ejecutó la validación cruzada anidada
para validar el desempeño de clasificación de las características seleccionadas.
Finalmente, para medir la capacidad de generalización de los clasificadores se calcularon
los índices de error de clasificación y MCC a partir de los conjuntos de prueba.
La plataforma de pruebas fue conformada por dos equipos con procesador Intel® i7 4770
con cuatro núcleos y 16 GB de RAM, con el sistema operativo openSUSE 13.2 (kernel 3.16.6-
2).

6.1.1 Métodos de clasificación de la literatura


Para comparar el desempeño de los dos clasificadores propuestos (S-LDA y B-LDA) se
implementaron tres clasificadores multiclase de la literatura los cuales se evaluaron mediante el
6. Resultados 95

proceso presentado en la Figura 6.1. Los clasificadores de la literatura se describen brevemente


a continuación:

El ensamble RF combina los métodos de bagging y subespacio aleatorio para entre-


nar un conjunto de árboles de decisión CART [15]. Las principales propiedades de RF
son la reducción de la varianza de clasificación con respecto a los clasificadores base,
la construcción de fronteras de decisión no lineales y la robustez a datos atípicos. El
clasificador RF consideró las 180 características que describen el léxico BI-RADS lista-
das en la Tabla 4.1. Sus parámetros fueron definidos con base en la literatura como
m̃ = blog2 (m) + 1c y ke = 1000 [9, 15]. El ensamble RF tiene la particularidad de que
a mayor número de clasificadores base (ke ) el error de clasificación tiende a disminuir
o mantenerse, lo cual es debido a las propiedades de los métodos bagging y subespacio
aleatorio. En este sentido, en la literatura se ha encontrado que un número de clasi-
ficadores base ke = 1000 es suficiente para lograr el mínimo error de clasificación en
diversos problemas [9]. No obstante, a través de un estudio se podría encontrar un menor
número de clasificadores base que obtenga un error de clasificación similar al obtenido
utilizando ke = 1000 [9]. El número de características seleccionadas en cada nodo de
un árbol CART fue definido como m̃ = blog2 (m) + 1c ya que que en la literatura se
encontró que al utilizar dicho valor el error de clasificación en RF se minimiza [15].

En el clasificador propuesto por Shen et al. [151] (denotado como Shen_2007), la des-
cripción de las lesiones se realizó con ocho características normalizadas con la técnica
softmax: eje menor de la elipse equivalente, anfractuosidad, orientación, característica
de margen, grado de interfaz abrupta de lesión, característica de patrón de eco, carac-
terística de contraste de la lesión y eco posterior. Después se entrenó un clasificador
basado en regresión logística multinomial, el cual es un clasificador lineal. En la etapa
de clasificación se calculó una probabilidad de pertenencia para cada clase y se asignó la
etiqueta de clase mediante el criterio de máxima probabilidad. Es importante mencionar
que los autores no presentan detalles del método de entrenamiento del clasificador, lo
cual requiere ajustar los vectores de pesos de la función logística multiclase [169]. Por
tanto, se utilizó el algoritmo de evolución diferencial JADE para el ajuste de pesos, donde
se minimizó la función de verosimilitud negativa de regresión logística.

El clasificador OVO-LDA está basado en descomposición binaria OVO, clasificadores base


LDA, normalización softmax, agregación DDAG y selección secuencial de características
basada en el criterio mrMR [38]. Se consideraron las 180 características que describe el
léxico BI-RADS listadas en la Tabla 4.1. Para la selección secuencial de características
se maximizó el índice MCC tomado de la validación cruzada con cinco pliegues, de
tal manera que todos los clasificadores base fueron entrenados con el mismo conjunto
96 6.2. Resultados del clasificador S-LDA

de características seleccionado, como se realiza comúnmente en la literatura [38, 58].


Además, el grafo de la agregación DDAG se organizó tal que los nodos padre tuvieran
un mayor valor AUC que los nodos hijo para reducir la propagación del error en el
grafo [126, 131].

6.2 Resultados del clasificador S-LDA


El entrenamiento del clasificador S-LDA implica una selección de características con base
en una metaheurística. Para elegir aquella que maximice la capacidad de generalización del
clasificador S-LDA se evalúan las metaheurísticas SA, TS, DE, JADE y PSO. Además, se
analiza la convergencia de las cinco metaheurística empleadas para verificar que el número de
evaluaciones de la función objetivo definido sea suficiente para concluir la búsqueda. También
se analiza el grafo DDAG construido en el entrenamiento del clasificador y la cardinalidad de
las características seleccionadas.

6.2.1 Desempeño de clasificación


El desempeño de clasificación obtenido con la selección de características realizada con las
metaheurísticas SA, TS, DE, JADE y PSO en el clasificador S-LDA se muestra en la Figura 6.2.
Para realizar una comparación justa, todas las metaheurísticas evaluaron el mismo número de
veces la función objetivo, esto es, 1 × 105 evaluaciones.
Es notable que todas las metaheurística tuvieron un desempeño similar, aunque la me-
taheurística que alcanzó el mejor desempeño fue JADE, obteniendo una media de error de
clasificación de 0.428 ± 0.024 y MCC de 0.449 ± 0.032. En contraste, SA obtuvo el menor
desempeño, con un error de clasificación de 0.434 ± 0.023 y valor MCC de 0.441 ± 0.030.
Al realizar la prueba de análisis de varianza (ANOVA, α = 0.05) entre las medias de los
grupos se encontró que no existen diferencias significativas en error de clasificación (p = 0.767)
y en MCC (p = 0.753). Por tanto, se eligió JADE para seleccionar las características en el
clasificador S-LDA, ya que obtuvo un desempeño de clasificación ligeramente superior a sus
contrapartes.

6.2.2 Convergencia de metaheurísticas


La Figura 6.3 muestra la convergencia promedio obtenida en los conjuntos de entrenamien-
to con las metaheurísticas evaluadas. Se observa que el desempeño de las soluciones en todas
las metaheurísticas alcanzó una meseta antes del número máximo de evaluaciones de la función
objetivo. Nótese que todas las metaheurísticas utilizan el mismo número de evaluaciones de la
función objetivo para una comparativa equitativa. Esto indica que los procesos de búsqueda
6. Resultados 97

(a) (b)

0.55

0.434±0.023 0.432±0.026 0.430±0.025 0.428±0.024 0.429±0.023 0.441±0.030 0.443±0.034 0.445±0.031 0.449±0.032 0.446±0.030
0.5 0.55

0.45 0.5

MCC
Error

0.4 0.45

0.35 0.4

0.3 0.35
SA TS DE JADE PSO SA TS DE JADE PSO

Metaheurística Metaheurística

Figura 6.2: Gráfica de cajas del desempeño de clasificación obtenido por el clasificador S-LDA
con diferentes metaheurísticas, en términos de (a) error de clasificación y (b) MCC, indicando
para cada una su correspondiente media ± desviación estándar.

convergieron, ya que no se obtuvo un incremento en el desempeño de la mejor solución; por


tanto, es poco probable que las metaheurísticas encuentren una mejoría notable en la calidad
de solución al utilizar un mayor número de evaluaciones. Este resultado indica que el número
de evaluaciones de la función objetivo utilizado fue suficiente para realizar la búsqueda con las
metaheurísticas. Además, JADE y TS obtuvieron el mejor desempeño de clasificación durante
el entrenamiento, con un valor MCC promedio de 0.518 ± 0.009.
Al realizar la prueba ANOVA se encontró que existe una diferencia estadística en el desem-
peño de la función objetivo alcanzada por al menos un par de metaheurísticas (p < 0.001).
Por tanto, se realizó el análisis post-hoc de Tukey-Kramer (α = 0.05) para identificar las
diferencias entre pares de metaheurísticas y sus valores-p obtenidos se muestran en la Ta-
bla 6.1. Se observa que las metaheurísticas TS y JADE tienen una diferencia significativa con
respecto a DE y PSO (p < 0.037); mientras que no tuvieron diferencia significativa con SA
(p > 0.466). Además, SA no presentó diferencia significativa con respecto al resto de las
metaheurísticas (p > 0.466). Estos resultados confirman la elección del algoritmo JADE para
realizar la selección de características en el clasificador S-LDA.

6.2.3 Análisis del grafo DDAG


En el entrenamiento del clasificador S-LDA se define un grafo G para el método de agre-
gación DDAG, el cual se utiliza en el proceso de clasificación de una muestra arbitraria. Para
definir el grafo G se establecen como nodos padre aquellos subproblemas con mayor valor
AUC, en comparación con los nodos hijo. De esta manera el nodo raíz es aquel que obtuvo la
mayor separación de clases y los nodos hoja la menor separación.
98 6.2. Resultados del clasificador S-LDA

(a) (b)
0.55 0.55
0.515±0.010 0.518±0.009

0.5 0.5
MCC

MCC
0.45 0.45

0.4 0.4
0 2 4 6 8 10 0 2 4 6 8 10
Evaluaciones de función objetivo 1x10 4 Evaluaciones de función objetivo 1x10 4

(c) (d)
0.55 0.55
0.512±0.009 0.518±0.009

0.5 0.5
MCC

MCC

0.45 0.45

0.4 0.4
0 2 4 6 8 10 0 2 4 6 8 10
Evaluaciones de función objetivo 1x10 4 Evaluaciones de función objetivo 1x10 4

(e)
0.55
0.513±0.010

0.5
MCC

0.45

0.4
0 2 4 6 8 10
Evaluaciones de función objetivo
1x10 4

Figura 6.3: Convergencia promedio obtenida en los conjuntos de entrenamiento por el clasifica-
dor S-LDA con las metaheurísticas (a) SA, (b) TS, (c) DE, (d) JADE y (e) PSO. Se incluyen
barras de error con la desviación estándar obtenida y se indica el promedio ± desviación
estándar de la mejor solución encontrada.
6. Resultados 99

Tabla 6.1: Valores-p obtenidos con la prueba estadística de Tukey-Kramer entre pares de
metaheurísticas en el clasificador S-LDA.

Metaheurística TS DE JADE PSO


SA 0.506 0.594 0.467 0.718
TS - 0.020 0.999 0.036
DE - - 0.017 0.999
JADE - - - 0.030

C2 C5
C2 C5

C2 C4m C3 C5
C2 C4m C3 C5

C2 C4b C3 C4m C4b C5


C2 C4b C3 C4m C4b C5

C2 C3 C3 C4b C4b C4m C4m C5

C2 C3 C4b C4m C5

Figura 6.4: Grafo DDAG definido con mayor frecuencia en el entrenamiento del clasificador
S-LDA. En cada nodo se indica el par de clases que separa el clasificador binario asociado y
cada arista dirigida está etiquetada con la clase ganadora.

El grafo DDAG generado con mayor frecuencia en los experimentos se muestra en la Fi-
gura 6.4, donde en cada nodo se indica el par de clases involucradas en el clasificador base
correspondiente y cada arista está etiquetada con la clase ganadora. Se observa que los no-
dos superiores generalmente corresponden a problemas que involucran clases histopatológicas
diferentes y la mayoría de los nodos hoja corresponden a problemas que involucran la misma
clase histopatológica. También se observa que el nodo raíz corresponde al subproblema que
involucra las clases C2 y C5, las cuales tienen rasgos con un mayor grado de discriminación
para distinguir lesiones con clases histopatológicas diferentes, es decir, separar lesiones benig-
nas de malignas. Además, se observa que en los nodos hoja fueron ubicados los subproblemas
que involucran clases BI-RADS adyacentes de acuerdo a la probabilidad de malignidad de la
lesión, es decir, los pares de clases C2-C3, C3-C4b, C4b-C4m y C4m-C5. Esto se debe a que
las características presentan un bajo grado de separabilidad entre clases BI-RADS adyacentes.
Además, para los 50 experimentos de entrenamiento y prueba, el grafo en la Figura 6.4 fue
definido en 43, 42, 46, 43 y 44 ocasiones por las metaheurísticas SA, TS, DE, JADE y PSO,
respectivamente, de modo que este grafo fue construido en el 87.2 % de los experimentos,
100 6.2. Resultados del clasificador S-LDA

lo cual indica una baja variabilidad al utilizar distintos conjuntos de entrenamiento. Cabe
mencionar que en el resto de los experimentos se definieron otros cuatro grafos distintos, los
cuales fueron construidos en el 6 %, 5.2 %, 1.2 % y 0.4 % de los experimentos. En dichos grafos
el nodo raíz y sus dos nodos hijo corresponden a clasificadores que distinguen lesiones benignas
de malignas, mientras que la mayoría de los nodos hoja corresponden a clases con categorías
BI-RADS adyacentes.

6.2.4 Cardinalidad del conjunto de características seleccionadas


La función objetivo en la selección de características con metaheurísticas está definida
únicamente en términos de la capacidad de generalización del clasificador y no considera el
número de características seleccionadas. No obstante, es importante definir las características
seleccionadas durante el entrenamiento, es decir, aquellas que fueron consideradas altamente
discriminantes en los subproblemas binarios.
En la Tabla 6.2 se muestran las características seleccionadas con la metaheurística JADE,
ordenadas descendentemente de acuerdo a sus ocurrencias (mostradas en porcentaje). Por
brevedad, solamente se listan las cinco características seleccionadas con mayor ocurrencia,
incluyendo las características en los casos que existe empate. En la Tabla 6.2 se observa que
para todos los subproblemas binarios las características más frecuentemente seleccionadas se
componen de una combinación de características morfológicas y de textura. Nótese que las
características seleccionadas difieren notablemente entre subproblemas binarios, confirmando
los hallazgos en el Capítulo 4.
Por otro lado, en la Figura 6.5 se muestra el promedio del número de características selec-
cionadas en los subproblemas binarios, lo cual indica la cantidad de características consideradas
como relevantes. Se observa que prácticamente todas las metaheurísticas obtuvieron el mismo
número de características, donde el algoritmo DE seleccionó un mayor número de característi-
cas con un promedio de 54.7 ± 12.6, mientras que SA y PSO seleccionaron un menor número
de características con 53.2 ± 11.2 y 53.2 ± 12.7, respectivamente. Además, al realizar la prueba
ANOVA no se encontró diferencia significativa entre las medias de los grupos (p = 0.970).
El promedio de características seleccionadas en común para todos los subproblemas binarios
en el clasificador S-LDA fueron 0.04 ± 0.198, 0.02 ± 0.145, 0.08 ± 0.274, 0.02 ± 0.145 y
0.0 ± 0.0, para las metaheurísticas SA, TS, DE, JADE y PSO, respectivamente. Por tanto,
se encontró que existe un pequeño número de características seleccionadas en común, siendo
DE la metaheurística que seleccionó la mayor cantidad, mientras que PSO no seleccionó
ninguna característica en común. Las características seleccionadas en común y el porcentaje
de experimentos en que fueron seleccionadas se muestran en la Tabla 6.3. Estos resultados
confirman que las características más relevantes difieren entre subproblemas binarios.
6. Resultados 101

Tabla 6.2: Características morfológicas (M) y de textura (T ) con mayor porcentaje de ocu-
rrencias para el clasificador S-LDA con la metaheurística JADE.

Subproblema Tipo Característica Ocurrencia ( %)


C2-C3 T Desviación media absoluta de homogeneidad (d = 1 y W = 4) 98.0
M Distancia proporcional 96.0
T Descriptor de eco posterior 86.0
M Razón de superposición 78.0
T Desviación media absoluta de entropía (d = 1 y W = 4) 78.0
C2-C4b M Ángulo del eje mayor 100.0
M Número de lobulaciones notables 98.0
M Distancia proporcional 88.0
M Relación profundidad-anchura 88.0
T Descriptor de eco posterior 86.0
M Razón de superposición 86.0
M Valor residual normalizado 86.0
T Media de entropía (d = 1 y W = 8) 86.0
C2-C4m M Ángulo del eje mayor 100.0
M Relación profundidad-anchura 100.0
M Relación de aspecto entre los ejes de la elipse 98.0
M Cruces por cero de la firma del contorno 98.0
T Característica del borde de la lesión (d = 25 % de la lesión) 96.0
M Número de lobulaciones notables 96.0
C2-C5 T Autocorrelación 100.0
M Dimensión fractal con el método de compás 96.0
M Ángulo del eje mayor 92.0
M Relación profundidad-anchura 88.0
M Gradiente radial normalizado 86.0
C3-C4b M Cruces por cero de la firma del contorno 88.0
M Ángulo del eje mayor 86.0
T Desviación estándar con máscara de Law R5L5 86.0
M Dimensión fractal con el método de compás 82.0
M Relación profundidad-anchura 82.0
C3-C4m T Característica del borde de la lesión (d = 25 % de la lesión) 100.0
M Ángulo del eje mayor 100.0
M Relación de aspecto entre los ejes de la elipse 100.0
M Relación profundidad-anchura 100.0
M Número de lobulaciones notables 100.0
M Cruces por cero de la firma del contorno 100.0
C3-C5 M Relación profundidad-anchura 100.0
M Cruces por cero de la firma del contorno 96.0
M Ángulo del eje mayor 94.0
T Rango de entropía (d = 4 y W = 8) 94.0
T Característica del borde de la lesión (d = 25 % de la lesión) 92.0
M Dimensión fractal con el método de compás 92.0
T Energía con máscara de Law E5L5 92.0
C4b-C4m T Rango de homogeneidad (d = 4) 98.0
M Relación profundidad-anchura 90.0
T Característica del borde de la lesión (d = 10) 88.0
M Relación de aspecto entre los ejes de la elipse 86.0
M Ángulo del eje mayor 76.0
C4b-C5 M Relación profundidad-anchura 98.0
T Autocorrelación 98.0
M Gradiente radial normalizado 96.0
T Característica del borde de la lesión (d = 10) 94.0
M Ángulo del eje mayor 94.0
M Dimensión fractal con el método de compás 94.0
T Desviación media absoluta de disimilaridad (d = 4 y W = 4) 94.0
T Rango de homogeneidad (d = 4 y W = 4) 94.0
T Desviación media absoluta de homogeneidad (d = 4 y W = 4) 94.0
C4m-C5 T Media con máscara de Law R5R5 98.0
M Ángulo del eje mayor 96.0
M Forma 96.0
T Autocorrelación 96.0
T Rango de homogeneidad (d = 4 y W = 2) 96.0
102 6.3. Resultados del ensamble de clasificadores B-LDA

180
160
140
53.2±11.2 53.4±13.7 54.7±12.6 54.1±13.9 53.2±12.7
120
Características 100
80
60
40
20

SA TS DE JADE PSO
Metaheurística

Figura 6.5: Gráfica de cajas del número de características seleccionadas por el clasificador
S-LDA con diferentes metaheurísticas, indicando para cada una su correpondiente media ±
desviación estándar.

Tabla 6.3: Características seleccionadas en común para todos los subproblemas OVO en el
clasificador S-LDA. Dichas características se encuentran organizadas de acuerdo a su porcentaje
de ocurrencias en el total de experimentos.

Metaheurística Tipo Característica Ocurrencia ( %)


SA T Característica del borde de la lesión (d = 10) 2.0
M Razón de superposición 2.0
TS M Razón de superposición 2.0
DE T Característica del borde de la lesión (d = 10) 6.0
M Razón de superposición 2.0
JADE M Razón de superposición 2.0

6.3 Resultados del ensamble de clasificadores B-LDA


En esta sección, se comparan los ensambles de clasificadores RF y B-LDA en términos de
desempeño de clasificación y de relación entre correlación y fuerza, debido a que ambos utilizan
las mismas técnicas de generación de diversidad, esto es, bagging y subespacio aleatorio. Para
una comparación equitativa ambos ensambles utilizaron 1000 clasificadores base.
La Figura 6.6 muestra los desempeños de clasificación obtenidos por los ensambles RF
y B-LDA. Se observa que el clasificador B-LDA obtuvo un menor error de clasificación en
comparación con RF, cuyas medias son 0.382 ± 0.026 y 0.401 ± 0.021, respectivamente.
También B-LDA obtuvo un mayor valor de MCC en comparación con RF, con medias de
0.494 ± 0.034 y 0.465 ± 0.028, respectivamente. Además, al realizar la prueba estadística de
t-Student (α = 0.05) se encontró que la diferencia entre las medias de error y MCC son
estadísticamente significativas (p < 0.001). Por tanto, el ensamble B-LDA es más adecuado
6. Resultados 103

(a) (b)

0.55
0.401±0.021 0.382±0.026 0.465±0.028 0.494±0.034
0.5
0.55

0.45
0.5

MCC
Error

0.4

0.45
0.35

0.3 0.4
RF B-LDA RF B-LDA

Figura 6.6: Gráfica de cajas del (a) error de clasificación y (b) MCC obtenidos por los ensambles
de clasificadores RF y B-LDA. En cada caso se incluye la media ± desviación estándar.

para la clasificación BI-RADS, en comparación con RF.


Por otro lado, la relación ρ̄/s2 entre las propiedades de correlación (ρ̄) y fuerza (s) es una
medida de calidad de un ensamble de clasificadores que se encuentra asociada a la probabilidad
de error esperada. Esto se debe a que la efectividad de un ensamble depende de que sus
clasificadores base tengan una alta exactitud y sus errores no se encuentren correlacionados.
De esta manera, a menor valor ρ̄/s2 hay una mayor efectividad del ensamble y también hay
una menor probabilidad de error de clasificación [11, 15]. Para medir la efectividad de los
ensambles RF y B-LDA se midieron los valores ρ̄, s y relación ρ̄/s2 , los cuales se ilustran
en la Figura 6.7. El ensamble B-LDA obtuvo una mayor fuerza en comparación con RF; sin
embargo, el ensamble RF obtuvo una menor correlación entre sus clasificadores base. Al realizar
la prueba estadística t-Student entre las medias de fuerza y correlación, se encontró que en
ambos casos existen diferencias significativas (p < 0.001). Por otra parte, el ensamble B-LDA
obtuvo un mejor valor de relación entre correlación y fuerza con una media de 10.749 ± 3.063
en comparación con el ensamble RF, el cual obtuvo 12.371 ± 3.214. Al realizar la prueba t-
Student se encontró una diferencia significativa entre las medias (p < 0.001). Por tanto, existe
una menor probabilidad de error de clasificación al utilizar el ensamble B-LDA en comparación
con el ensamble RF. Este resultado confirma el mejor desempeño de clasificación del ensamble
B-LDA mostrado anteriormente en la Figura 6.6.
La Tabla 6.4 presenta la comparativa de la complejidad computacional de los ensambles
de clasificadores RF y B-LDA, y también presenta sus respectivos costos del entrenamiento
aplicado al problema de clasificación BI-RADS. Para este cálculo se consideró el número de
muestras utilizadas para el entrenamiento durante los experimentos mediante la técnica de
validación cruzada con cinco pliegues, esto es, N = 1113. Los resultados muestran que el
104 6.4. Análisis comparativo de clasificadores

(a) (b) (c)

0.4 0.4
0.121±0.150 0.179±0.025 0.173±0.120 0.325±0.017 25 12.371±3.214 10.749±3.063

0.3 0.3 20

15
0.2 0.2

ρ̄
s

ρ̄/s2
10

0.1 0.1
5

0 0 0
RF B-LDA RF B-LDA RF B-LDA

Figura 6.7: Gráfica de cajas de (a) fuerza s, (b) correlación ρ̄ y (c) relación entre correlación
y fuerza ρ̄/s2 , obtenidas por los ensambles RF y B-LDA. Se indica la media ± desviación
estándar obtenida por cada ensamble.

Tabla 6.4: Comparativa de la complejidad computacional del entrenamiento de los clasificado-


res RF y B-LDA, y sus respectivos costos aproximados del entrenamiento aplicado al problema
de clasificación BI-RADS.

RF B-LDA
Complejidad

O(ke · N · m̃ · log(N )) O ke · nc m3 + 2c−1
Costo 27.1 · 106 58.3 · 109

ensamble propuesto B-LDA tiene un mayor costo para el problema de clasificación BI-RADS
en comparación con el ensamble RF, no obstante; el mayor costo se encuentra justificado con
el menor error de clasificación obtenido.

6.4 Análisis comparativo de clasificadores


En esta sección se comparan los desempeños de clasificación de los clasificadores propuestos
S-LDA y B-LDA contra los clasificadores Shen_2007 y OVO-LDA, considerando también los
límites de Bayes de desempeño de clasificación. Las Figuras 6.8 y 6.9 muestran los resultados de
error de clasificación y MCC, respectivamente, donde se observa que el clasificador Shen_2007
obtuvo el menor desempeño de clasificación en términos de error y MCC con una media de
0.488±0.022 y 0.340±0.031, respectivamente. En contraparte, el ensamble B-LDA presentó el
mejor desempeño con una media de 0.382 ± 0.026 y 0.494 ± 0.034 para el error de clasificación
y MCC, respectivamente.
Además, al realizar la prueba ANOVA se encontró que existen diferencias estadísticas entre
6. Resultados 105

0.417±0.025 0.488±0.022 0.441±0.028 0.428±0.024 0.382±0.026 0.247±0.018

0.5
Error

0.4

0.3

0.2
Límite superior Shen_2007 OVO-LDA S-LDA B-LDA Límite inferior
de Bayes de Bayes

Figura 6.8: Gráfica de cajas del error de clasificación BI-RADS obtenido por los clasificadores
evaluados, además se muestran los límites inferior y superior de Bayes. Se indica la media ±
desviación estándar en cada caso. Las líneas en gris delimitan la región entre las medias de los
límites de Bayes.

las medias de los clasificadores en términos de error de clasificación e índice MCC (p < 0.001).
Por tanto, se realizó el análisis post hoc de Tukey-Kramer (α = 0.05) para identificar los pares
de clasificadores con diferencias estadísticas, cuyos valores-p se muestran en la Tabla 6.5.
En relación con los límites de Bayes inferior de error y superior de MCC, los resultados
de la prueba de Tukey-Kramer revelaron que todos los clasificadores tienen una diferencia
estadísticamente significativa (p < 0.001). Por tanto, aún existe la posibilidad de mejorar
el diseño de los clasificadores considerados de manera que se aproximen al mejor desempeño
esperado. Por otro lado, los desempeños de Shen_2007 y OVO-LDA se encuentran fuera de los
límites de Bayes. Inclusive presentan diferencias significativas con respecto a los límites de Bayes
superior de error e inferior de MCC (p < 0.001), lo cual representa el desempeño de clasificación
más bajo esperado. Con respecto al clasificador S-LDA, su desempeño de clasificación es
ligeramente diferente que los límites de Bayes superior de error e inferior de MCC, aunque no
hubo diferencias significativas, con valores-p de 0.999 y 0.254, respectivamente.
Se encontró que el clasificador S-LDA obtuvo un valor de MCC significativamente mejor
que los métodos Shen_2007 (p < 0.001) y OVO-LDA (p = 0.030). Además, S-LDA obtuvo un
error de clasificación significativamente más bajo en comparación con Shen_2007 (p < 0.001),
y obtuvo un menor error de clasificación que OVO-LDA; sin embargo, dicha diferencia no fue
significativa (p = 0.061).
Por último, el ensamble B-LDA fue el único clasificador que presentó un desempeño signi-
ficativamente mejor que los límites de Bayes superior de error e inferior de MCC (p < 0.001).
También el ensamble B-LDA presentó diferencias significativas en error de clasificación y MCC
106 6.4. Análisis comparativo de clasificadores

0.8
0.449±0.033 0.340±0.031 0.430±0.034 0.449±0.032 0.494±0.034 0.695±0.020

0.7

0.6
MCC

0.5

0.4

0.3

Límite inferior Shen_2007 OVO-LDA S-LDA B-LDA Límite superior


de Bayes de Bayes

Figura 6.9: Gráfica de cajas del MCC de clasificación BI-RADS alcanzado por los clasificadores
evaluados. Se incluyen los límites inferior y superior de Bayes. Además se incluye la media ±
desviación estándar en cada caso. Las líneas en gris delimitan la región entre las medias de los
límites de Bayes.

con respecto al resto de los clasificadores (p < 0.001).


Estos resultados indican que la clasificación multiclase obtiene una mejora significativa
en el desempeño al utilizar características específicas para separar las parejas de clases, en
comparación con utilizar el mismo conjunto de características para todos las parejas de clases.
Los clasificadores OVO-LDA y S-LDA tienen mecanismos de selección de características
basados en el criterio mrMR y maximización del índice MCC. En este sentido, de las 180
características implementadas, el clasificador OVO-LDA seleccionó un promedio de 43.1±19.1
características, mientras que el clasificador S-LDA seleccionó un promedio de 54.1 ± 13.9.
Nótese que hubo un alto número de características que no fueron seleccionadas por estos
clasificadores. Las características más frecuentemente seleccionadas por OVO-LDA se muestran
en la Tabla 6.6, mientras que las características más frecuentemente seleccionadas por S-LDA
se mostraron en la Tabla 6.2. Por tanto, S-LDA y B-LDA utilizaron un mayor número de
características para obtener un menor error de clasificación en comparación con Shen_2007 y
OVO-LDA.
El error de clasificación e índice MCC cuantifican de manera general la clasificación correcta
de todas las clases. Sin embargo, en la clasificación de lesiones en categorías BI-RADS también
es importante calcular el desempeño obtenido para cada una de las clases y determinar qué
clase fue asignada cuando se clasificó erróneamente una lesión. La importancia radica en
que los errores entre clases BI-RADS con mayor diferencia en la probabilidad de malignidad
son más graves en comparación con errores cometidos entre clases con probabilidades de
malignidad similares. En la Tabla 6.7 se muestra la matriz de confusión obtenida para los
6. Resultados 107

Tabla 6.5: Valores-p obtenidos con la prueba estadística de Tukey-Kramer entre los clasifica-
dores evaluados con los índices error de clasificación (matriz triangular inferior) y MCC (matriz
triangular superior).

Lím. inferior Lím. superior


Clasificador Shen_2007 OVO-LDA S-LDA B-LDA
de Bayes de Bayes
Lím. inferior
- <0.001 <0.001 0.028 0.999 <0.001
de Bayes
Lím. superior
<0.001 - <0.001 <0.001 <0.001 <0.001
de Bayes
Shen_2007 <0.001 <0.001 - <0.001 <0.001 <0.001
OVO-LDA <0.001 <0.001 <0.001 - 0.030 <0.001
S-LDA <0.001 0.254 <0.001 0.061 - <0.001
B-LDA <0.001 <0.001 <0.001 <0.001 <0.001 -

Tabla 6.6: Características más frecuentemente seleccionadas por el clasificador OVO-LDA.

Tipo Característica Ocurrencia ( %)


M Ángulo del eje mayor 50.0
M Relación de aspecto entre los ejes de la elipse 50.0
M Relación profundidad-anchura 50.0
M Cruces por cero de la firma del contorno 50.0
M Número de lobulaciones notables 48.0
T Autocorrelación 48.0
T Característica del borde de la lesión (d = 25 % de la lesión) 47.0
T Descriptor de eco posterior 47.0
M Dimensión fractal con el método de compás 45.0
M Circularidad 45.0
M Característica del margen 45.0

clasificadores Shen_2007, OVO-LDA, S-LDA y B-LDA. La diagonal principal de las matrices


indica el promedio de aciertos para cada clase, mientras que los valores fuera de la diagonal
principal indican el promedio de errores. Se observa que para todos los clasificadores la mayoría
de los errores se encuentran cerca de la diagonal principal de las matrices, por lo que los errores
más frecuentes ocurren entre pares de clases adyacentes, es decir, C2-C3, C3-C4b, C4b-C4m y
C4m-C5. Además, para todos los clasificadores se encontró que la clase C4b obtuvo el menor
porcentaje de muestras correctamente clasificadas; por el contrario, la clase C2 obtuvo el mayor
porcentaje de aciertos.
Por otro lado, ningún clasificador obtuvo el mayor porcentaje de aciertos para todas las
clases, siendo Shen_2007 el que obtuvo el mejor desempeño para la clase C2 con 75.3±3.9 %,
B-LDA para la clase C3 con 58.9 ± 5.8 %, S-LDA para la clase C4b con 38.4 ± 9.1 %, B-LDA
para la clase C4m con 74.1 ± 5.1 y OVO-LDA para la clase C5 con 63.9 ± 11.6.
En la Tabla 6.8 se muestra la complejidad computacional del entrenamiento de los clasifi-
108 6.4. Análisis comparativo de clasificadores

Tabla 6.7: Matrices de confusión con el porcentaje de muestras con etiqueta de clase verdadera
indicada por el renglón que fueron asignadas a la clase señalada por la columna por los
clasificadores (a) Shen_2007, (b) OVO-LDA, (c) S-LDA y (d) B-LDA. Se resaltan en gris las
celdas correspondientes a una clasificación correcta.

(a)
Clase C2 C3 C4b C4m C5
C2 75.3±3.9 15.6±3.7 1.1±1.0 8.0±2.5 0.1±0.3
C3 56.4±5.4 28.3±5.8 2.7±1.7 12.5±3.4 0.1±0.4
C4b 35.8±7.4 20.4±6.0 8.1±4.1 35.6±7.1 0.0±0.0
C4m 9.5±3.5 8.3±3.5 4.2±2.3 72.0±5.0 6.0±3.3
C5 3.5±3.3 3.3±3.5 0.9±1.8 70.7±8.8 21.7±6.9

(b)
Clase C2 C3 C4b C4m C5
C2 65.6±5.0 21.8±4.2 7.3±3.3 4.6±1.9 0.7±0.9
C3 22.8±5.6 51.4±5.9 18.2±5.0 6.6±2.8 1.1±1.5
C4b 10.3±5.9 27.6±7.1 36.9±7.5 21.3±7.1 3.9±3.6
C4m 3.2±2.3 7.4±3.6 14.0±4.5 53.1±6.0 22.3±6.1
C5 0.2±0.9 2.4±3.2 6.9±5.6 26.6±11.0 63.9±11.6

(c)
Clase C2 C3 C4b C4m C5
C2 63.7±4.7 23.0±4.2 8.1±2.6 4.9±1.9 0.3±0.5
C3 17.5±4.9 57.9±5.9 18.6±5.1 5.6±2.9 0.4±0.8
C4b 8.8±5.1 29.1±7.8 38.4±9.1 20.5±7.1 3.2±3.2
C4m 2.8±2.4 7.6±3.8 15.7±4.3 56.5±6.5 17.4±5.6
C5 0.2±0.9 3.1±3.6 7.7±4.9 30.4±10.1 58.6±11.5

(d)
Clase C2 C3 C4b C4m C5
C2 72.1±3.9 18.6±3.1 3.3±1.9 5.8±2.4 0.1±0.3
C3 24.5±4.7 58.9±5.8 8.8±2.9 7.8±3.1 0.0±0.0
C4b 13.8±5.9 32.1±7.0 27.1±6.4 25.1±7.5 1.9±2.2
C4m 5.0±2.7 8.6±3.6 6.8±3.5 74.1±5.1 5.6±2.6
C5 0.7±1.6 3.5±3.5 5.8±5.5 45.0±8.1 45.0±8.6

cadores Shen_LDA, OVO-LDA, S-LDA y B-LDA, así como sus costos aplicados al problema
de clasificación BI-RADS. Se observa que el clasificador propuesto S-LDA tiene el mayor cos-
to computacional; no obstante, presenta un menor error de clasificación en comparación con
Shen_LDA y OVO-LDA. El alto costo computacional de S-LDA se debe a la complejidad
6. Resultados 109

Tabla 6.8: Complejidad computacional del entrenamiento de los clasificadores evaluados y sus
costos aproximados en el problema de clasificación BI-RADS.

Shen_2007 OVO-LDA S-LDA B-LDA


O m · nc m3 + 2c−1 O k · im · N P · nc · m3 + 2c−1 O ke · nc m3 + 2c−1
  
Complejidad O(im · N P · c · N )
Costo 25.0 · 108 16.7 · 1010 29.1 · 1012 58.3 · 109

de realizar una selección se características para cada uno de los subproblemas binarios maxi-
mizando el índice MCC mediante validación cruzada. También se observa que B-LDA tiene
un menor costo computacional en comparación con OVO-LDA y S-LDA, y también presenta
un menor error de clasificación en comparación con dichos clasificadores. En este sentido, el
bajo costo de B-LDA se debe a que sus mecanismos de generación de diversidad no realizan
procesos iterativos para aumentar el índice MCC de sus clasificadores base.

6.4.1 Desempeño de clasificación en clases histopatológicas


Además del análisis de desempeño de clasificación BI-RADS, también es importante de-
terminar el desempeño de los clasificadores con respecto a las clases histopatológicas benigna
y maligna, lo cual es el enfoque más estudiado en la literatura. En este experimento las cla-
ses C2, C3 y C4b fueron consideradas como clase benigna, mientras que las clases C4m y
C5 fueron consideradas como clase maligna. Las Figuras 6.10 y 6.11 muestran los resultados
de error de clasificación é índice MCC, respectivamente. Se observa que el ensamble B-LDA
obtuvo el mejor desempeño de clasificación, mientras que el método de Shen_2007 obtuvo el
desempeño de clasificación más bajo.
Al realizar la prueba estadística ANOVA se encontraron diferencias significativas entre los
desempeños de los clasificadores evaluados (p < 0.001). Por tanto, se realizó la prueba de
Tukey-Kramer, cuyos valores-p obtenidos para el error y MCC se presentan en la Tabla 6.9.
Se encontró que los clasificadores OVO-LDA, S-LDA y B-LDA obtuvieron un desempe-
ño significativamente mejor que los límites de Bayes superior de error e inferior de MCC
(p < 0.001). En cambio, Shen_2007 no presentó diferencias significativas con dichos límites,
con valores-p de 0.948 y 0.407, respectivamente. Estos resultados estadísticos indican que el
desempeño de todos los clasificadores evaluados se encuentran dentro de los límites de Bayes.
También se encontró que los clasificadores OVO-LDA, S-LDA y B-LDA lograron un desem-
peño significativamente mejor en comparación con Shen_2007 en términos de error y MCC
(p < 0.001). Además, no hubo diferencias significativas entre los clasificadores OVO-LDA,
S-LDA y B-LDA en ambos índices de desempeño de clasificación (p > 0.559).
Por otro lado, en la Tabla 6.10 se muestra una comparativa de los desempeños de los
clasificadores propuestos S-LDA y B-LDA contra ocho trabajos del estado del arte que realizan
110 6.4. Análisis comparativo de clasificadores

0.153±0.017 0.156±0.020 0.130±0.020 0.128±0.020 0.125±0.021 0.084±0.010


0.2

0.15
Error

0.1

0.05

0
Límite superior Shen_2007 OVO-LDA S-LDA B-LDA Límite inferior
de Bayes de Bayes

Figura 6.10: Gráfica de cajas del error de clasificación en clases histopatológicas de los clasifi-
cadores evaluados. Además se presentan los límites inferior y superior de Bayes, y se indica la
media ± desviación estándar en todos los casos.

clasificación en clases histopatológicas. Se observa que S-LDA y B-LDA obtuvieron un mejor


desempeño de clasificación en términos de error y AUC con respecto a cinco trabajos [18, 102,
108, 148, 151]. Por el contrario, los clasificadores propuestos obtuvieron menor desempeño
de error y AUC en relación a tres trabajos [115, 116, 150]. Estos resultados indican que los
clasificadores propuestos tienen un desempeño competitivo con respecto al estado del arte y
además proveen una clasificación BI-RADS.
Es importante señalar que los clasificadores propuestos S-LDA y B-LDA fueron evaluados
con una notable mayor cantidad de muestras que los trabajos comparados. En este sentido, a
mayor número de muestras se esperan modelar las distribuciones de clases con mayor exactitud
y, por tanto, obtener un desempeño de clasificación más cercano al verdadero. Además, debido
a la cantidad limitada de muestras de algunos trabajos, la selección de características o el
proceso de sintonización de parámetros se realizaron minimizando el error de clasificación del
conjunto de datos de prueba y no sobre un conjunto de validación [102, 115, 116, 148]. Dichas
prácticas sesgan de forma optimista el desempeño de clasificación y deben evitarse [158].

6.4.2 Comparativa con clasificación BI-RADS del especialista


Del conjunto total de imágenes utilizadas en esta investigación, descritas en la Sección 4.1,
se utilizaron 564 imágenes de 286 pacientes para comparar el desempeño de clasificación del
ensamble B-LDA con el diagnóstico realizado por un radiólogo con 15 años de experiencia. La
6. Resultados 111

0.9
0.636±0.041 0.652±0.043 0.698±0.046 0.698±0.046 0.712±0.046 0.797±0.026

0.8
MCC

0.7

0.6

0.5
Límite inferior Shen_2007 OVO-LDA S-LDA B-LDA Límite superior
de Bayes de Bayes

Figura 6.11: Gráfica de cajas del MCC obtenido para la clasificación en clases histopatológicas
por los clasificadores evaluados. También se presentan los límites inferior y superior de Bayes.
Además se indica la media ± desviación estándar en cada caso.

distribución de las clases histopatológicas benigna y maligna separadas por categorías BI-RADS
se muestra en la Tabla 6.11.
El radiólogo asignó una categoría BI-RADS en el rango 2 a 5 a cada una de las lesiones
evaluando solamente la ultrasonografía, es decir, sin conocer el historial clínico del paciente,
otro tipo de imagen médica de la lesión e información histopatológica. Por otro lado, para
clasificar las lesiones con el ensamble B-LDA se utilizó la validación LOOCV y un número de
clasificadores base ke = 1000. Las matrices de confusión de la clasificación realizada por el
radiólogo y el ensamble B-LDA se muestran en la Tabla 6.12. En relación con los resultados
del radiólogo, se observa que el mayor porcentaje de aciertos corresponde a la categoría C5,
mientras que el mayor porcentaje de errores corresponde a la categoría C3. Además, el mayor
error de clasificación ocurre entre los pares de categorías C2-C3, C3-C4 y C4-C5. Con respecto
al ensamble B-LDA se observa que el mayor porcentaje de aciertos corresponde a la clase C2,
mientras que el mayor porcentaje de errores corresponde a la clase C4b.
Para medir el desempeño de clasificación BI-RADS se calcularon los índices de error de
clasificación y MCC a partir de la matrices de confusión en la Tabla 6.12. El radiólogo obtuvo
un error de clasificación de 0.285 y un valor MCC de 0.601, mientras que el ensamble B-LDA
obtuvo un error de 0.252 y un valor MCC de 0.582. Por tanto, el ensamble obtuvo un menor
error de clasificación BI-RADS, aunque el radiólogo obtuvo un mayor valor de MCC.
Las etiquetas de clase fueron transformadas a clases benigna y maligna para calcular los
índices de desempeño de clasificación binaria descritos en la Sección 2.4. Para realizar esto,
las categorías C2 y C3 asignadas por el radiólogo fueron consideradas benignas, mientras que
las categorías C4 y C5 fueron consideradas malignas. Adicionalmente, las clases asignadas por
112 6.5. Conclusiones del capítulo

Tabla 6.9: Valores-p obtenidos con la prueba estadística de Tukey-Kramer para índice MCC
(matriz triangular superior) y error de clasificación (matriz triangular inferior).

Lím. inferior Lím. superior


Clasificador Shen_2007 OVO-LDA S-LDA B-LDA
de Bayes de Bayes
Lím. inferior
- <0.001 0.407 <0.001 <0.001 <0.001
de Bayes
Lím. superior
<0.001 - <0.001 <0.001 <0.001 <0.001
de Bayes
Shen_2007 0.984 <0.001 - <0.001 <0.001 <0.001
OVO-LDA <0.001 <0.001 <0.001 - 0.999 0.559
S-LDA <0.001 <0.001 <0.001 0.999 - 0.586
B-LDA <0.001 <0.001 <0.001 0.862 0.972 -

B-LDA C2, C3 y C4b fueron consideradas benignas, mientras que las clases C4m y C5 fueron
consideradas malignas.
Los resultados del desempeño de clasificación en clases benigna y maligna obtenidos por
el radiólogo y el ensamble B-LDA se presentan en la Tabla 6.13. Se encontró que B-LDA
obtuvo un menor error de clasificación y mayores valores de especificidad y MCC; sin embargo,
el radiólogo obtuvo mayores valores de sensibilidad y AUC. Esto indica que el radiólogo fue
capaz de clasificar con mayor exactitud lesiones malignas, mientras que el ensamble B-LDA
tiene una mayor exactitud en lesiones benignas.
La utilidad del ensamble B-LDA como herramienta de apoyo en el diagnóstico médico se
puede encontrar en aquellas lesiones en las que el radiólogo clasificó erróneamente una lesión
benigna como maligna o viceversa. La Figura 6.12 muestra cuatro ejemplos de lesiones correc-
tamente clasificadas por el ensamble B-LDA, dos benignas y dos malignas, las cuales fueron
clasificadas erróneamente por el radiólogo. No obstante, el ensamble B-LDA no substituye el
diagnóstico médico.

6.5 Conclusiones del capítulo


En este capítulo se presentaron los resultados para la clasificación BI-RADS obtenidos por
los clasificadores propuestos S-LDA y B-LDA. Además, se realizó una comparativa con tres
clasificadores del estado del arte: RF, Shen_2007 y OVO-LDA. Dicha comparativa incluyó los
límites de Bayes.
El desempeño del clasificador S-LDA fue evaluado utilizando, de manera independiente,
las metaheurísticas SA, TS, DE, JADE y PSO para la selección de características en términos
de error de clasificación e índice MCC. Se encontró que, para ambos índices, no hay diferencia
6. Resultados 113

Tabla 6.10: Comparativa entre los clasificadores propuestos S-LDA y B-LDA con trabajos
relacionados a la clasificación histopatológica de lesiones en ultrasonografía. Los resultados se
presentan en porcentaje de error (ERR), sensibilidad (SEN) y especificidad (ESP).

Muestras Clasificador Validación Resultados Ref. Año


Error SEN ESP AUC MCC
1392 B-LDA CV 12.53 82.41 89.72 0.898 0.712 b 2017
1392 S-LDA CV 12.82 77.99 91.27 0.907 0.698 b 2017
283 RF CV 21.50 75.30 82.00 0.828 0.572 [148] 2016
69 LR LOOCV 20.00 76.00 81.00 0.830 - [102] 2015
69 LR LOOCV 12.00 86.00 90.00 0.950 - [115] 2013
253 LR-DT LOOCV - 90.00 - 0.960 - [116] 2013
100 KNN CV 19.00 - - 0.803 - [108] 2012
40 LDA LOOCV 15.00 81.00 89.50 0.860 - [18] 2011
426 LR CV 27.00 98.19 59.46 - 0.563 [151]b 2007
265 LR CV 8.30 90.59 92.22 0.970 - [150] 2007
b Implementan clasificación en categorías BI-RADS.

Tabla 6.11: Distribución de clases histopatológicas separadas por categorías BI-RADS.

C2 C3 C4 C5
Benigna 314 55 33 0
Maligna 0 0 130 32

(a) (b)

(c) (d)

Figura 6.12: Ejemplo de lesiones correctamente clasificadas por el ensamble B-LDA con clases
(a) y (b) benignas, y (b) y (c) malignas, clasificadas erróneamente por el radiólogo.
114 6.5. Conclusiones del capítulo

Tabla 6.12: Matriz de confusión de la clasificación (a) del radiólogo y (b) del ensamble B-LDA,
con el porcentaje de lesiones clasificadas. Las celdas en gris corresponden a una clasificación
correcta.

(a)
C2 C3 C4 C5
C2 70.70 28.03 1.27 0
C3 14.55 67.27 18.18 0
C4 0 16.56 72.39 11.04
C5 0 0 18.75 81.25
(b)
C2 C3 C4b C4m C5
C2 90.13 4.78 2.23 2.87 0
C3 60.00 30.91 7.27 1.82 0
C4b 42.42 18.18 27.27 12.12 0
C4m 10.00 3.85 6.92 72.31 6.92
C5 0 0 0 40.63 59.38

Tabla 6.13: Resultados de clasificación en clases benigna y maligna obtenidos por el clasificador
B-LDA y el diagnóstico de un radiólogo.

Error ( %) SEN ( %) SPE ( %) AUC MCC


Radiólogo 9.57 89.51 90.80 0.941 0.777
B-LDA 7.27 83.33 96.52 0.934 0.819

significativa en el desempeño de clasificación entre las metaheurísticas. También se encontró


que TS y JADE obtuvieron valores significativamente mejores de la función objetivo utilizada
en el entrenamiento en comparación con DE y PSO. No obstante, JADE fue elegida para la
selección de características debido a que obtuvo un desempeño de clasificación ligeramente
superior al resto de las metaheurísticas.
Por otro lado, se evaluó el desempeño de clasificación de los ensambles de clasificadores
B-LDA y RF en términos de error de clasificación e índice MCC, donde B-LDA alcanzó un
desempeño de clasificación significativamente mejor que RF. Adicionalmente, se evaluó la
relación entre correlación y fuerza (ρ̄/s2 ), y se encontró que el ensamble B-LDA obtuvo una
relación ρ̄/s2 significativamente mejor que RF. Esta ventaja se debe a que el ensamble B-LDA
separa los pares de clases utilizando características específicas y, por el contrario, el ensamble
RF utiliza el mismo conjunto de características para separar todas las clases.
Por otra parte, al comparar los desempeños de los clasificadores S-LDA, B-LDA, OVO-LDA
6. Resultados 115

y Shen_2007, se encontró que este último obtuvo un desempeño de clasificación significativa-


mente menor que el resto de los clasificadores. Por el contrario, el ensamble B-LDA obtuvo un
desempeño de clasificación significativamente mejor que el resto de los clasificadores. Adicio-
nalmente, el desempeño de clasificación de S-LDA fue significativamente mejor en comparación
con OVO-LDA. Por tanto, el uso de diferentes características para separar cada pareja de clases
en los clasificadores S-LDA y B-LDA permitió obtener un mejor desempeño de clasificación
que OVO-LDA y Shen_2007, los cuales utilizan el mismo conjunto de características para
separar todas las clases.
También, los enfoques S-LDA, B-LDA, OVO-LDA y Shen_2007 fueron evaluados para la
clasificación en clases histopatológicas. Se encontró que Shen_2007 obtuvo un desempeño de
clasificación significativamente menor que los otros tres clasificadores evaluados. Asimismo, no
hubo diferencias significativas entre los desempeños de OVO-LDA, S-LDA y B-LDA, aunque
este último obtuvo un desempeño ligeramente superior.
Conclusiones y trabajo futuro
7
En el problema de clasificación multiclase se ha demostrado que el uso de múltiples clasi-
ficadores puede mejorar el desempeño de clasificadores entrenados de manera individual. Las
técnicas basadas en múltiples clasificadores se dividen en dos tipos: descomposición binaria y
ensambles de clasificadores, en los cuales se entrena un conjunto de clasificadores base cuyas
salidas se unen con un método de agregación para obtener una respuesta global. Ambos en-
foques han sido utilizados en problemas multiclase como la clasificación de vegetación usando
imágenes satelitales, reconocimiento de caracteres escritos a mano, reconocimiento de rostros,
clasificación de tejidos con base en datos de microarreglos, entre otros. El buen desempeño
de clasificación de los enfoques basados en múltiples clasificadores se debe a que construyen
grandes márgenes entre clases, reducen el sesgo y la varianza del clasificador base, y permiten
describir fronteras de decisión complejas.
A pesar de que los enfoques basados en múltiples clasificadores se desempeñan adecuada-
mente en aplicaciones reales, estos presentan limitaciones debido a que se necesitan diseñar
características capaces de diferenciar cuantitativamente a cada una de las clases, lo cual suele
ser difícil en la práctica. Esta limitación se debe a que la separación de todas las clases se rea-
liza a partir de un espacio de características en común para entrenar a todos los clasificadores
base.
Específicamente, el problema de clasificación BI-RADS es difícil debido a que categorías BI-
RADS adyacentes presentan rasgos similares. Por ejemplo, lesiones con forma redonda pueden
encontrarse en categorías 2 y 3. Además, un rasgo que es muy discriminante para distinguir
entre un par de categorías, puede no serlo para otro par de categorías diferente. Por ejemplo,
un descriptor de redondez es capaz de distinguir entre categorías 2 y 5, aunque no es útil
para distinguir entre categorías 2 y 3. Esto se demostró experimentalmente en el Capítulo 4,
considerando a las descomposiciones binarias OVO y OVA, las cuales dividen el problema

117
118

de clasificación multiclase en múltiples subproblemas de clasificación binaria. Los resultados


mostraron que las 180 características tomadas de la literatura presentaron diferente capacidad
discriminante para las cinco clases BI-RADS definidas en esta investigación, lo cual responde
a la primera pregunta de investigación. Estas diferencias se deben a que las características
fueron originalmente diseñadas para el problema de clasificación en clases histopatológicas
benigna y maligna. Inclusive se encontró que su capacidad discriminante aumentó al separar
clases BI-RADS con diferente clase histopatológica. Por tanto, se requiere el diseño de nuevas
características capaces de discriminar entre clases BI-RADS con la misma clase histopatológica.
Adicionalmente, a partir de un análisis de correlación se determinó que las características más
discriminantes difieren entre subproblemas binarios; por tanto, es conveniente describir cada par
de clases en los subproblemas binarios con características específicas. Estos resultados fueron
confirmados en el Capítulo 6, donde se encontró que prácticamente no fueron seleccionadas
características en común para todas las parejas de clases en el clasificador propuesto S-LDA.
Por otro lado, diversos trabajos que comparan el desempeño de las descomposiciones OVA
y OVO presentan discrepancias en sus resultados, ya que algunos estudios indican que OVA se
desempeñó mejor que OVO y en otros estudios pasa el caso contrario. Por tanto, se deduce
que el desempeño de las descomposiciones OVA y OVO es dependiente de la aplicación. La
capacidad discriminante de cada característica, en el problema de clasificación BI-RADS, fue
evaluada de manera independiente para las descomposiciones OVA y OVO. Se encontró que en
el esquema OVO las características presentan una mayor discriminación de clases, en términos
del índice mAUC, debido a que los subproblemas binarios presentan menor traslape, ya que
solamente involucran parejas de clases, mientras que en la descomposición OVA cada subpro-
blema binario involucra a todas las clases preservando el traslape original entre ellas. Debido
a este hallazgo, el esquema OVO fue elegido para el desarrollo de los métodos propuestos en
esta tesis.
Para mejorar el desempeño de clasificación BI-RADS se propuso usar características espe-
cíficas en el entrenamiento de cada clasificador base en el esquema OVO. El clasificador LDA
se eligió como clasificador base debido a que no requiere ajuste de parámetros, presenta buena
generalización y tiene una solución analítica (ver Apéndice A). En el Capítulo 5 se propusieron
dos clasificadores denominados S-LDA y B-LDA. El clasificador S-LDA aplica descomposición
binaria OVO, donde cada clasificador base utiliza selección secuencial de características basada
en una metaheurística. Por otro lado, B-LDA es un ensamble de clasificadores OVO que utiliza
las técnicas de generación de diversidad bagging y subespacio aleatorio. Los resultados mostra-
dos en el Capítulo 6 indicaron que los clasificadores S-LDA y B-LDA se desempeñaron mejor
que dos clasificadores lineales multiclase denominados Shen_2007 y OVO-LDA, los cuales
fueron entrenados con espacios de características comunes para separar las clases BI-RADS.
El clasificador Shen_2007 fue considerado debido a que es la única propuesta en la literatura
7. Conclusiones y trabajo futuro 119

para abordar el problema de clasificación BI-RADS. Por otro lado, el clasificador OVO-LDA
representa la manera convencional de entrenamiento de clasificadores multiclase. A partir del
análisis de los límites de Bayes, se encontró que los clasificadores propuestos estuvieron den-
tro los límites de desempeño esperado, mientras que Shen_2007 y OVO-LDA obtuvieron un
desempeño menor que el desempeño más bajo esperado. Debido a estos resultados se concluye
que el uso de características específicas para separar cada pareja de clases BI-RADS impacta
positivamente en el desempeño de clasificación, lo cual responde a la segunda pregunta de
investigación y confirma la hipótesis. Los resultados obtenidos también indican que los meca-
nismos de entrenamiento y selección de características de los enfoques propuestos permitieron
obtener un mayor índice MCC en comparación con el método Shen_2007. No obstante, se
encontró que el costo computacional del entrenamiento del clasificador S-LDA es mayor en
comparación con Shen_2007 y OVO-LDA, mientras que el costo computacional del entrena-
miento del ensamble B-LDA es mayor que Shen_2007. Este mayor costo computacional se
encuentra justificado por la importancia de obtener un sistema de clasificación más exacto,
que tenga el potencial de ayudar en el diagnóstico médico.
Al comparar los dos clasificadores propuestos se determinó que B-LDA obtuvo mejor desem-
peño de clasificación que S-LDA. Esto se debe a que las respuestas de los clasificadores base
de B-LDA presentan una baja correlación y obtienen un desempeño mejor que el obtenido
con una clasificación aleatoria, lo cual le permite obtener un menor error de clasificación en
comparación con sus clasificadores base. En este sentido, los clasificadores base de B-LDA
pueden considerarse una simplificación del clasificador S-LDA. Inclusive B-LDA se comparó
contra el ensamble de clasificadores RF en términos de la relación de correlación y fuerza,
encontrándose que B-LDA tiene una menor probabilidad de error; sin embargo, dicha venta-
ja viene acompañada de un mayor costo computacional en comparación con RF. Por tanto,
es más conveniente abordar el problema de clasificación BI-RADS utilizando el clasificador
B-LDA, lo cual responde a la tercera pregunta de investigación.
El clasificador B-LDA también fue comparado con el diagnóstico realizado por un radiólogo,
quien valoró solamente la imágen de ultrasonografía. Se encontró que el radiólogo obtuvo una
mayor sensibilidad y un mayor valor AUC, mientras que B-LDA obtuvo un menor error de
clasificación y un mayor valor de MCC. Por tanto, los resultados sugieren que el ensamble
B-LDA tiene un desempeño competitivo con respecto a un radiólogo experimentado, por lo
que podría ser considerado como una segunda opinión. No obstante, es necesario mencionar
que la exactitud del diagnóstico del radiólogo puede mejorar al utilizar la información clínica
del paciente, así como imágenes de la lesión tomadas con otras técnicas.
Los clasificadores propuestos S-LDA y B-LDA pueden ser utilizados en otros problemas de
clasificación en los cuales las clases presenten un alto grado de traslape debido a la dificultad
de obtener características discriminantes para todas las clases. Algunos de estos problemas son
120

el reconocimiento de dígitos escritos a mano [32, 120], el reconocimiento de distintas etapas o


subtipos de enfermedad como la clasificación de tipos de cáncer de pulmón, tipos de leucemia,
tipos de células tumorales, entre otros [163].
Es importante señalar que la capacidad de generalización de B-LDA y S-LDA está limitada
por el clasificador LDA, pudiéndose obtener mejores desempeños al utilizar clasificadores no
lineales, por ejemplo, ANN, SVM y LDA con núcleo no lineal, etc. Sin embargo, se deben
considerar mecanismos para el correcto ajuste de sus parámetros de control, por ejemplo,
número de neuronas en ANN, valor de penalización del margen en SVM, ancho de banda de
núcleos Gaussianos, etc. Por otro lado, el desempeño de clasificación también está limitado por
las características que se utilizaron, para las cuales se encontró que presentan baja capacidad
discriminante entre algunos subproblemas binarios. Finalmente, el desempeño de B-LDA se
encuentra limitado para problemas con pocas características discriminantes, ya que se corre el
riesgo de seleccionar características irrelevantes con el método de subespacio aleatorio.
Producto de esta investigación se publicaron tres artículos de congreso y un artículo de
revista indizado en el Journal Citation Reports. Dichos artículos son descritos brevemente a
continuación:

Se propuso una metodología para la selección secuencial de características para el pro-


blema de clasificación de lesiones en clases benigna y maligna, la cual se basa en el or-
denamiento mrMR y en el análisis estadístico del desempeño de los diferentes conjuntos
de características, con el objetivo de seleccionar un conjunto reducido de características
con un bajo error de clasificación [66].

Se desarrolló una biblioteca de funciones para el análisis de imágenes de ultrasonido


que incluye métodos para el preprocesamiento, segmentación de la lesión, extracción de
características y clasificación de la lesión, la cual esta disponible para su descarga vía
web. Con dicha biblioteca es posible replicar diversos trabajos del estado el arte y extraer
las característica cuantitativas utilizadas en esta investigación [136].

Se desarrolló un estudio del impacto de diversas técnicas de preprocesamiento de imagen


en la calidad de la segmentación y en el error de clasificación en clases benigna y maligna.
Las técnicas de preprocesamiento incluyeron técnicas de mejoramiento del contraste y
reducción del speckle. En dicho estudio se encontró que las técnicas de preprocesamiento
afectan significativamente la segmentación y el error de clasificación [137].

Se propuso el uso conjunto de categorías BI-RADS e información de clases histopatoló-


gicas para formar clases compatibles con la recomendación emitida por el radiólogo, es
decir, la recomendación de un estudio anual para lesiones benignas con categoría 2, un
estudio de seguimiento en seis meses para lesiones probablemente benignas con catego-
7. Conclusiones y trabajo futuro 121

ría 3 y 4, y biopsia para lesiones malignas con categorías 4 y 5. Los resultados indicaron
que el enfoque propuesto obtuvo mejores valores de AUC y MCC en comparación con
la clasificación en clases benigna y maligna [139].

7.1 Trabajo futuro


El trabajo de investigación desarrollado en esta tesis puede continuarse en diferentes áreas,
las cuales se describen a continuación:

Para mejorar el desempeño de clasificación se podrían modelar cuantitativamente los


atributos cualitativos del léxico BI-RADS, para obtener una representación consistente
con la valoración del radiólogo. Por ejemplo, para modelar la característica de forma se
deberían calcular las probabilidades de que una lesión sea redonda, ovalada o irregular.
De manera similar se haría para el resto de las características de orientación, margen,
patrón de eco y característica posterior. Estas probabilidades servirían para entrenar los
clasificadores propuestos. El modelado cuantitativo se podría realizar a partir de técnicas
de aprendizaje supervizado para construir una función de relación entre las características
morfológicas y de textura con las características cualitativas.

Para mejorar el desempeño del ensamble de clasificadores B-LDA se debe reducir la


correlación o aumentar la fuerza de los clasificadores base. Para reducir la correlación se
pueden entrenar simultáneamente variantes de los clasificadores base, es decir, utilizar
aleatoriamente o mediante una heurística la descomposición binaria OVA u OVO. Por
otra parte, para aumentar la fuerza del clasificador base se podría añadir una etapa de
selección de características que maximice un índice de desempeño de clasificación.

El desempeño de la clasificación BI-RADS se ve afectado por la capacidad de discrimina-


ción de las características extraídas y también por la exactitud de la segmentación. Para
superar estas limitaciones se podría utilizar aprendizaje profundo a partir de la región de
la imagen donde se ubica la lesión. Esta técnica ha sido explorada recientemente para
problemas de clasificación de clases histopatológicas de lesiones de mama y de lesiones
de pulmón [28].
Apéndices

123
Derivación del vector de pesos óptimo del LDA
A
El discriminante lineal de Fisher en términos de las matrices de dispersión intra-clase (SW )
e inter-clase (SB ) se define como [169, 176]:

wT SB w
J(w) = . (A.1)
wT SW w

Para optimizar el discriminante J(w) se deriva con respecto del vector de pesos w y se
iguala a cero:

 T 
∂ w SB w
J(w) = =0
∂w wT SW w
∂ ∂
(wT SW w) ∂w (wT SB w) − (wT SB w) ∂w (wT SW w)
= =0
(wT SW w)(wT SW w)
∂ ∂
(wT SW w) ∂w (SB w2 ) − (wT SB w) ∂w (SW w2 )
= =0
(wT SW w)(wT SW w) (A.2)
2(wT SW w)SB w − 2(wT SB w)SW w
= =0
(wT SW w)(wT SW w)
SB w SW w
= T
− J(w) T =0
w SW w w SW w
= SB w − J(w)SW w = 0.

De este modo se tiene el problema generalizado de valores propios (eigenvalues):

125
126

−1
SW SB w = J(w)w
(A.3)
= λw

donde SW−1
es la matriz inversa de SW . Entonces, resolviendo el problema problema generalizado
de valores propios se tiene que el vector de pesos óptimo es:

w T SB w
 

w = arg máx . (A.4)
w wT SW w
En el caso particular de dos clases, no es necesario resolver para los vectores propios y
valores propios de SW
−1
SB debido a que SB w siempre tiene la misma pendiente que el vector
µp − µq , donde µp y µq son las medias de las clases ωp y ωq , respectivamente.

Por tanto, dado que el factor de escala λ para w no es importante, se puede encontrar
una solución inmediata w que optimice J(w) como [42, 75, 169]:

−1
w ∗ = SW (µp − µq ). (A.5)
Extracción de características usando la
B
biblioteca BUSAT

Las 180 características mostradas en la Tabla 4.1 fueron computadas a partir de la bi-
blioteca BUSAT, la cual fue desarrollada en este proyecto de tesis [136] y está basada en
diferentes propuestas de la literatura. Esta biblioteca fue implementada en MATLAB 2014a y
puede descargarse del siguiente enlace:

http://www.tamps.cinvestav.mx/~wgomez/downloads/busat.zip

Al descomprimir el archivo busat.zip se generará una carpeta principal llamada US Toolbox


Ver. 2.0 y las funciones para computar las 180 características se encuentran dentro de la
carpeta Features.

Una vez iniciado el ambiente de trabajo de MATLAB, para instalar la biblioteca BUSAT se de-
be ejecutar el archivo RUN_ME_FIRST.m, que se encuentra en la carpeta principal US Toolbox
Ver. 2.0. Esto permitirá usar todas las funciones de la biblioteca de manera natural en el
ambiente de MATLAB.

Para extraer las 180 características basadas en el léxico BI-RADS, se debe escribir la función
[x,f] = birads_features(I,BW), cuyos argumentos de entrada son la imagen de ultraso-
nido de mama I y su respectiva imagen binaria de segmentación BW, como se muestró en la
Figura 4.4. Los argumentos de salida son el vector de 180 características x y sus respectivos
nombres de las características f. El código que implementa la función birads_features.m
se muestra en el Algoritmo 20.

127
128

Algoritmo 20 Función para extraer las 180 características basadas en el léxico BI-RADS
usadas en esta investigación.
1 f u n c t i o n [ x , f ] = b i r a d s _ f e a t u r e s ( I ,BW)
2 %−−−−−−−−− DESCRIPTORES DE FORMA −−−−−−−−
3 % B a s a d o s en e n v o l v e n t e c o n v e x a
4 [ x1 , f 1 ] = c o n v h u l l d i f f (BW, ’ c n v x ’ , ’ n r v ’ , ’ o r ’ ) ;
5 % B a s a d o s en f i r m a d e l c o n t o r n o
6 [ x2 , f 2 ] = n r l (BW, ’ a r ’ , ’ r o u g h ’ , ’ e n t ’ , ’ mean ’ , ’ s t d ’ , ’ z c r ’ ) ;
7 % B a s a d o s en r a s g o s geom é t r i c o s
8 [ x3 , f 3 ] = g e o m e t r i c (BW, ’ e x t ’ , ’ form ’ , ’ r o u n d ’ ) ;
9 % B a s a d o s en e l i p s e e q u i v a l e n t e
10 [ x4 , f 4 ] = e q u i v e l l i p s e (BW, ’ s h a p e ’ , ’ maxax ’ , ’ minax ’ , ’ l s ’ ) ;
11 %−−−−−−−−− DESCRIPTORES DE ORIENTACIÓN −−−−−−−−
12 % Basado en e l i p s e e q u i v a l e n t e
13 [ x5 , f 5 ] = e q u i v e l l i p s e (BW, ’ a n g l e ’ ) ;
14 % Basado en r a s g o s geom é t r i c o s }
15 [ x6 , f 6 ] = g e o m e t r i c (BW, ’ dwr ’ ) ;
16 %−−−−−−−−− DESCRIPTORES DE MARGEN −−−−−−−−
17 % Basado en e l i p s e e q u i v a l e n t e
18 [ x7 , f 7 ] = e q u i v e l l i p s e (BW, ’ e n c ’ , ’ p d i s t ’ ) ;
19 % Basado en mapa de d i s t a n c i a s
20 [ x8 , f 8 ] = m a r g c l a s s (BW, ’ und ’ , ’ ang ’ , ’ u+a ’ ) ;
21 % B a s a d o s en e n v o l v e n t e c o n v e x a
22 [ x9 , f 9 ] = n s p d _ l i (BW, ’ l i ’ , ’ nsp d ’ ) ;
23 % Basado en e s q u e l e t o m o r f o l ó g i c o
24 [ x10 , f 1 0 ] = e q u i v e l l i p s e (BW, ’ e n s ’ ) ;
25 [ x11 , f 1 1 ] = s p i c u l a t i o n (BW, ’ s k e n d ’ ) ;
26 % B a s a d o s en f i r m a d e l c o n t o r n o
27 [ x12 , f 1 2 ] = f r a c t a l c o n t o u r (BW, ’ box1 ’ , ’ box2 ’ , ’ r u l e r ’ ) ;
28 % B a s a d o s en t e x t u r a c i r c u n d a n t e
29 [ x13 , f 1 3 ] = b o u n d _ f e a t s ( I ,BW) ;
30 %−−−−−−−−− DESCRIPTORES DE PATRÓN DE ECO −−−−−−−−
31 % B a s a d o s en p r o m e d i o de i n t e n s i d a d e s
32 [ x14 , f 1 4 ] = avmass ( I ,BW, ’ e p i ’ , ’ epg ’ , ’ e p c ’ ) ;
33 % Basado en a u t o c o r r e l a c i ón
34 [ x15 , f 1 5 ] = a u t o c o r r ( I ,BW) ;
35 % Basado en d i m e n s i ón f r a c t a l
36 [ a , b ] = f r a c t a l t e x t u r e ( I ,BW) ;
37 x16 = a ( 1 ) ; f 1 6 = b ( 1 ) ;
38 % B a s a d o s en m a t r i z de co−o c u r r e n c i a (GLCM)
39 D = [ 1 4 ] ; % d i s t a n c i a s de GLCM
40 [ x17 , f 1 7 ] = glcm ( I ,BW, 6 4 , D, 1 , ’ mean ’ , ’homom ’ , ’ d i s s i ’ , ’ c o r r m ’ , ’ e n t r o ’ ) ;
41 [ x18 , f 1 8 ] = glcm ( I ,BW, 6 4 , D, 1 , ’ r a n g e ’ , ’homom ’ , ’ d i s s i ’ , ’ c o r r m ’ , ’ e n t r o ’ ) ;
42 [ x19 , f 1 9 ] = glcm ( I ,BW, 6 4 , D, 1 , ’ mad ’ , ’homom ’ , ’ d i s s i ’ , ’ c o r r m ’ , ’ e n t r o ’ ) ;
43 % B a s a d o s en r a n k l e t y m a t r i z de co−c o r r e n c i a (GLCM)
44 [ x20 , f 2 0 ] = rcm ( I ,BW) ;
45 % B a s a d o s en e n e r g í a de t e x t u r a s
46 [ x21 , f 2 1 ] = l a w s e n e r g y ( I ,BW, 1 , ’ mean ’ , ’ s t d ’ , ’ e g y ’ ) ;
47 %−−−−−−−−− DESCRIPTORES DE CARACTER Í STICA POSTERIOR −−−−−−−−
48 [ x22 , f 2 2 ] = pab ( I ,BW, ’ p s d ’ , ’ msd ’ ) ;
49 % C o n c a t e n a v e c t o r f i n a l de c a r a c t e r í s t i c a s
50 x = [ x1 , x2 , x3 , x4 , x5 , x6 , x7 , x8 , x9 , x10 , x11 , x12 , . . .
51 x13 , x14 , x15 , x16 , x17 , x18 , x19 , x20 , x21 , x22 ] ;
52 f = [ f1 , f2 , f3 , f4 , f5 , f6 , f7 , f8 , f9 , f10 , f11 , f12 , . . .
53 f13 , f14 , f15 , f16 , f17 , f18 , f19 , f20 , f21 , f22 ] ;
54 end
Bibliografía

[1] M. Abdel-Nasser, J. Melendez, A. Moreno, O. Omer, and D. Puig, “Breast tumor clas-
sification in ultrasound images using texture analysis and super-resolution methods,”
Engineering Applications of Artificial Intelligence, vol. 59, pp. 84–92, 2017.

[2] M. Adnan and M. Islam, “One-vs-all binarization technique in the context of random fo-
rest,” in Proceedings of the European Symposium on Artificial Neural Networks, Compu-
tational Intelligence and Machine Learning, 2015, pp. 385–390.

[3] M. Alemán-Flores, L. Álvarez, and V. Caselles, “Texture-oriented anisotropic filtering and


geodesic active contours in breast tumor ultrasound segmentation,” Journal of Mathe-
matical Imaging and Vision, vol. 28, no. 1, pp. 81–97, 2007.

[4] A. Alvarenga, A. Infantosi, W. Pereira, and C. Azevedo, “Assessing the combined per-
formance of texture and morphological parameters in distinguishing breast tumors in
ultrasound images,” Medical Physics, vol. 39, no. 12, pp. 7350–7358, 2012.

[5] M. Aly, “Survey on multiclass classification methods,” Neural Networks, pp. 1–9, 2005.

[6] American Cancer Society, “Breast cancer facts & figures 2015-2016,” Atlanta: American
Cancer Society, Inc, 2015.

[7] R. Anand, K. Mehrotra, C. Mohan, and S. Ranka, “Efficient classification for multiclass
problems using modular neural networks,” IEEE Transactions on Neural Networks, vol. 6,
no. 1, pp. 117–124, Jan 1995.

[8] M. Bagheri, Q. Gao, and S. Escalera, “A framework towards the unification of ensemble
classification methods,” in 2013 12th International Conference on Machine Learning and
Applications, vol. 2, Dec 2013, pp. 351–355.

[9] R. E. Banfield, L. O. Hall, K. W. Bowyer, and W. P. Kegelmeyer, “A comparison of


decision tree ensemble creation techniques,” IEEE Transactions on Pattern Analysis and
Machine Intelligence, vol. 29, no. 1, pp. 173–180, Jan 2007.

[10] J. Benesty, J. Chen, Y. Huang, and I. Cohen, “Pearson correlation coefficient,” in Noise
reduction in speech processing. Springer, 2009, pp. 1–4.

[11] S. Bernard, L. Heutte, and S. Adam, A Study of Strength and Correlation in Random
Forests. Berlin, Heidelberg: Springer Berlin Heidelberg, 2010, pp. 186–191.

129
130 BIBLIOGRAFÍA

[12] F. Bianconi and A. Fernández, “Rotation invariant co-occurrence features based on


digital circles and discrete fourier transform,” Pattern Recognition Letters, vol. 48, pp.
34–41, 2014.

[13] C. Bishop, Pattern Recognition and Machine Learning (Information Science and Statis-
tics). Secaucus, NJ, USA: Springer-Verlag New York, Inc., 2006.

[14] A. Biswas, S. Das, A. Abraham, and S. Dasgupta, “Design of fractional-order piλ dµ


controllers with an improved differential evolution,” Engineering Applications of Artificial
Intelligence, vol. 22, no. 2, pp. 343–350, 2009.

[15] L. Breiman, “Random forests,” Machine Learning, vol. 45, no. 1, pp. 5–32, 2001.

[16] D. Cai, X. He, and J. Han, “Training linear discriminant analysis in linear time,” in Data
Engineering, 2008. ICDE 2008. IEEE 24th International Conference on. IEEE, 2008,
pp. 209–217.

[17] L. Cai, X. Wang, Y. Wang, Y. Guo, J. Yu, and Y. Wang, “Robust phase-based tex-
ture descriptor for classification of breast ultrasound images,” BioMedical Engineering
OnLine, vol. 14, no. 1, p. 26, 2015.

[18] M. Calas, A. Alvarenga, B. Gutfilen, and W. Coelho, “Avaliação de parâmetros morfo-


métricos calculados a partir do contorno de lesões de mama em ultrassonografias na
distinção das categorias do sistema bi-rads,” Radiologia Brasileira, vol. 44, pp. 289–96,
2011.

[19] V. Černỳ, “Thermodynamical approach to the traveling salesman problem: An efficient


simulation algorithm,” Journal of optimization theory and applications, vol. 45, no. 1,
pp. 41–51, 1985.

[20] M. Chabi, I. Borget, R. Ardiles, G. Aboud, S. Boussouar, V. Vilar, C. Dromain, and


C. Balleyguier, “Evaluation of the accuracy of a computer-aided diagnosis (cad) system
in breast ultrasound according to the radiologist’s experience,” Academic Radiology,
vol. 19, no. 3, pp. 311–319, 2012.

[21] C. Chang and C. Lin, “Libsvm: A library for support vector machines,” ACM Transactions
on Intelligent Systems and Technology (TIST), vol. 2, no. 3, p. 27, 2011.

[22] R. Chang, W.-J. Wu, W. K. Moon, and D.-R. Chen, “Improvement in breast tumor discri-
mination by support vector machines and speckle-emphasis texture analysis,” Ultrasound
in Medicine & Biology, vol. 29, no. 5, pp. 679–686, 2003.
BIBLIOGRAFÍA 131

[23] K. Chaturvedi, M. Pandit, and L. Srivastava, “Particle swarm optimization with time
varying acceleration coefficients for non-convex economic power dispatch,” International
Journal of Electrical Power & Energy Systems, vol. 31, no. 6, pp. 249–257, 2009.

[24] N. Chawla, K. Bowyer, L. O. Hall, and W. Kegelmeyer, “Smote: synthetic minority over-
sampling technique,” Journal of artificial intelligence research, vol. 16, pp. 321–357,
2002.

[25] C. Chen, Y. Chou, K. Han, G. Hung, C. Tiu, H. Chiou, and S. Chiou, “Breast lesions on
sonograms: Computer-aided diagnosis with nearly setting-independent features and arti-
ficial neural networks,” Radiology, vol. 226, no. 2, pp. 504–514, 2003, pMID: 12563146.

[26] D. Chen, R. Chang, C. Chen, M. Ho, S. Kuo, S. Chen, S. Hung, and W. Moon, “Clas-
sification of breast ultrasound images using fractal feature,” Clinical Imaging, vol. 29,
no. 4, pp. 235–245, 2005.

[27] H. Cheng, J. Shan, W. Ju, Y. Guo, and L. Zhang, “Automated breast cancer detection
and classification using ultrasound images: A survey,” Pattern Recognition, vol. 43, no. 1,
pp. 299–317, 2010.

[28] J.-Z. Cheng, D. Ni, Y.-H. Chou, J. Qin, C.-M. Tiu, Y.-C. Chang, C.-S. Huang, D. Shen,
and C.-M. Chen, “Computer-aided diagnosis with deep learning architecture: applications
to breast lesions in us images and pulmonary nodules in ct scans,” Scientific reports,
vol. 6, p. 24454, 2016.

[29] Y. Chou, C. Tiu, G. Hung, S. Wu, T. Chang, and H. Chiang, “Stepwise logistic regres-
sion analysis of tumor contour features for breast ultrasound diagnosis,” Ultrasound in
Medicine & Biology, vol. 27, no. 11, pp. 1493–1498, 2001.

[30] W. Cohen, “Fast effective rule induction,” in Proceedings of the twelfth international
conference on machine learning, 1995, pp. 115–123.

[31] K. Crammer and Y. Singer, “On the algorithmic implementation of multiclass kernel-
based vector machines,” Journal of machine learning research, vol. 2, no. Dec, pp.
265–292, 2001.

[32] R. Cruz, G. Cavalcanti, and T. Ren, “Handwritten digit recognition using multiple fea-
ture extraction techniques and classifier ensemble,” in 17th International Conference on
Systems, Signals and Image Processing, 2010, pp. 215–218.

[33] S. Das, A. Konar, and U. Chakraborty, “Two improved differential evolution schemes
for faster global search,” in Proceedings of the 7th Annual Conference on Genetic and
Evolutionary Computation, ser. GECCO ’05. ACM, 2005, pp. 991–998.
132 BIBLIOGRAFÍA

[34] S. Das and P. N. Suganthan, “Differential evolution: A survey of the state-of-the-art,”


IEEE Transactions on Evolutionary Computation, vol. 15, no. 1, pp. 4–31, Feb 2011.

[35] M. Dauwan, J. J. van der Zande, E. van Dellen, I. Sommer, P. Scheltens, A. Lemstra, and
C. Stam, “Random forest to differentiate dementia with lewy bodies from alzheimer’s
disease,” Alzheimer’s & Dementia: Diagnosis, Assessment & Disease Monitoring, vol. 4,
pp. 99–106, 2016.

[36] J. Díaz Novás, B. Gallego Machado, and A. León González, “El diagnóstico médico:
bases y procedimientos,” Revista Cubana de Medicina General Integral, vol. 22, no. 1,
pp. 1553–1565, 2006.

[37] T. Dietterich, Ensemble Methods in Machine Learning. Springer Berlin Heidelberg,


2000, pp. 1–15.

[38] C. Ding and H. Peng, “Minimum redundancy feature selection from microarray gene
expression data,” Journal of Bioinformatics and Computational Biology, vol. 3, no. 2,
pp. 185–205, 2005.

[39] J. Ding, H. Cheng, J. Huang, J. Liu, and Y. Zhang, “Breast ultrasound image classifi-
cation based on multiple-instance learning,” Journal of Digital Imaging, vol. 25, no. 5,
pp. 620–627, 2012.

[40] K. Doi, “Current status and future potential of computer-aided diagnosis in medical
imaging,” The British Journal of Radiology, vol. 78, no. 1, pp. s3–s19, 2014.

[41] C. Dromain, B. Boyer, R. Ferre, S. Canale, S. Delaloge, and C. Balleyguier, “Computed-


aided diagnosis (cad) in the detection of breast cancer,” European Journal of Radiology,
vol. 82, no. 3, pp. 417–423, 2012.

[42] R. Duda, P. Hart, and D. Stork, Pattern Classification (2Nd Edition). Wiley-
Interscience, 2000.

[43] E-Hüllermeier and S. Vanderlooy, “Combining predictions in pairwise classification: An


optimal adaptive voting strategy and its relation to weighted voting,” Pattern Recogni-
tion, vol. 43, no. 1, pp. 128–142, 2010.

[44] R. Eberhart and J. Kennedy, “A new optimizer using particle swarm theory,” in Micro
Machine and Human Science, 1995. MHS ’95., Proceedings of the Sixth International
Symposium on, Oct 1995, pp. 39–43.
BIBLIOGRAFÍA 133

[45] B. Efron and R. Tibshirani, “Improvements on cross-validation: the 632+ bootstrap


method,” Journal of the American Statistical Association, vol. 92, no. 438, pp. 548–
560, 1997.

[46] T. Fawcett, “An introduction to ROC analysis,” Pattern Recognition Letters, vol. 27,
no. 8, pp. 861–874, 2006.

[47] J. Feng, Y. Yang, and J. Fan, “Fuzzy multi-class svm classifier based on optimal directed
acyclic graph using in similar handwritten chinese characters recognition,” in Proceedings
of the Second International Conference on Advances in Neural Networks - Volume Part
I, ser. ISNN’05. Berlin, Heidelberg: Springer-Verlag, 2005, pp. 875–880.

[48] J. Ferlay, H. Shin, F. Bray, D. Forman, C. Mathers, and D. Parkin, “Estimates of world-
wide burden of cancer in 2008: Globocan 2008,” International Journal of Cancer, vol.
127, no. 12, pp. 2893–2917, 2010.

[49] J. Ferlay, I. Soerjomataram, R. Dikshit, S. Eser, C. Mathers, M. Rebelo, D. Parkin,


D. Forman, and F. Bray, “Cancer incidence and mortality worldwide: Sources, methods
and major patterns in globocan 2012,” International Journal of Cancer, vol. 136, no. 5,
pp. E359–E386, 2015.

[50] M. Fernández-Delgado, E. Cernadas, S. Barro, and D. Amorim, “Do we need hundreds


of classifiers to solve real world classification problems?” Journal of Machine Learning
Research, vol. 15, no. 1, pp. 3133–3181, 2014.

[51] E. Fix and J. Hodges Jr, “Discriminatory analysis-nonparametric discrimination: consis-


tency properties,” DTIC Document, Tech. Rep., 1951.

[52] W. G. Flores, W. Pereira, and A. Infantosi, “Improving classification performance of


breast lesions on ultrasonography,” Pattern Recognition, vol. 48, no. 4, pp. 1125–1136,
2015.

[53] G. Forman, “A pitfall and solution in multi-class feature selection for text classification,”
in Proceedings of the Twenty-first International Conference on Machine Learning, ser.
ICML ’04. New York, NY, USA: ACM, 2004, pp. 38–46.

[54] Y. Freund and R. Schapire, A desicion-theoretic generalization of on-line learning and


an application to boosting. Berlin, Heidelberg: Springer Berlin Heidelberg, 1995, pp.
23–37.

[55] J. Friedman, “Another approach to polychotomous classification,” Department


of Statistics, Stanford University, Tech. Rep., 1996. [Online]. Available: http:
//www-stat.stanford.edu/~jhf/ftp/poly.ps.Z
134 BIBLIOGRAFÍA

[56] J. Fürnkranz, Pairwise Classification as an Ensemble Technique. Berlin, Heidelberg:


Springer Berlin Heidelberg, 2002, pp. 97–110.

[57] J. Fürnkranz, “Round robin rule learning,” in Proceedings of the 18th International
Conference on Machine Learning (ICML-01). Morgan Kaufmann, 2001, pp. 146–153.

[58] M. Galar, A. Fernández, E. Barrenechea, H. Bustince, and F. Herrera, “An overview of


ensemble methods for binary classifiers in multi-class problems: Experimental study on
one-vs-one and one-vs-all schemes,” Pattern Recognition, vol. 44, no. 8, pp. 1761–1776,
2011.

[59] N. Garcia-Pedrajas and D. Ortiz-Boyer, “Improving multiclass pattern recognition by the


combination of two strategies,” IEEE Transactions on Pattern Analysis and Machine
Intelligence, vol. 28, no. 6, pp. 1001–1006, June 2006.

[60] N. García-Pedrajas and D. Ortiz-Boyer, “An empirical study of binary classifier fusion
methods for multiclass classification,” Information Fusion, vol. 12, no. 2, pp. 111–130,
2011.

[61] F. Glover, “Tabu search—part i,” ORSA Journal on computing, vol. 1, no. 3, pp. 190–
206, 1989.

[62] F. Glover, “Tabu search—part ii,” ORSA Journal on computing, vol. 2, no. 1, pp. 4–32,
1990.

[63] W. Gomez, L. Leija, A. Alvarenga, A. Infantosi, and W. Pereira, “Computerized lesion


segmentation of breast ultrasound based on marker-controlled watershed transforma-
tion,” Medical Physics, vol. 37, no. 1, pp. 82–95, 2010.

[64] W. Gomez, W. Pereira, and A. Infantosi, “Analysis of co-occurrence texture statistics as a


function of gray-level quantization for classifying breast ultrasound,” IEEE Transactions
on Medical Imaging, vol. 31, no. 10, pp. 1889–1899, 2012.

[65] W. Gómez, W. Pereira, A. Infantosi, and A. Diaz-Perez, “Computerized diagnosis of


breast lesions on ultrasonography,” in XXII Congresso Brasileiro de Engenharia Biome-
dica (CBEB), Nov.

[66] W. Gomez, A. Rodriguez, W. Pereira, and A. Infantosi, “Feature selection and classifier
performance in computer-aided diagnosis for breast ultrasound,” in 10th International
Conference and Expo on Emerging Technologies for a Smarter World (CEWIT), 2013,
pp. 1–5.
BIBLIOGRAFÍA 135

[67] J. Gorodkin, “Comparing two k-category assignments by a k-category correlation coeffi-


cient,” Computational Biology and Chemistry, vol. 28, no. 5, pp. 367–374, 2004.

[68] G. Guo and S. Z. Li, “Content-based audio classification and retrieval by support vector
machines,” IEEE Transactions on Neural Networks, vol. 14, no. 1, pp. 209–215, Jan
2003.

[69] M. Guray and A. Sahin, “Benign breast diseases: Classification, diagnosis, and manage-
ment,” The Oncologist, vol. 11, no. 5, pp. 435–449, 2006.

[70] I. Guyon and A. Elisseeff, “An introduction to variable and feature selection,” Journal of
machine learning research, vol. 3, no. Mar, pp. 1157–1182, 2003.

[71] D. Hand and R. Till, “A simple generalisation of the area under the roc curve for multiple
class classification problems,” Machine Learning, vol. 45, no. 2, pp. 171–186, 2001.

[72] L. K. Hansen and P. Salamon, “Neural network ensembles,” IEEE Trans. Pattern Anal.
Mach. Intell., vol. 12, no. 10, pp. 993–1001, Oct. 1990.

[73] T. Hastie, R. Tibshirani, and J. Friedman, “The elements of statistical learning: Data
mining, inference, and prediction,” 2003.

[74] T. Hastie, R. Tibshirani et al., “Classification by pairwise coupling,” Annals of statistics,


vol. 26, no. 2, pp. 451–471, 1998.

[75] T. Hastie, R. Tibshirani, J. Friedman, T. Hastie, J. Friedman, and R. Tibshirani, The


elements of statistical learning. Springer, 2009, vol. 2, no. 1.

[76] J. Hauke and T. Kossowski, “Comparison of values of pearson’s and spearman’s corre-
lation coefficients on the same sets of data,” Quaestiones Geographicae, vol. 30, no. 2,
p. 87, 06 2011.

[77] T. Ho, “The random subspace method for constructing decision forests,” IEEE Transac-
tions on Pattern Analysis and Machine Intelligence, vol. 20, no. 8, pp. 832–844, Aug
1998.

[78] J.-H. Hong, J.-K. Min, U.-K. Cho, and S.-B. Cho, “Fingerprint classification using one-
vs-all support vector machines dynamically ordered with naı¨ve bayes classifiers,” Pattern
Recognition, vol. 41, no. 2, pp. 662—671, 2008.

[79] K. Horsch, M. L. Giger, L. Venta, and C. Vyborny, “Automatic segmentation of breast


lesions on ultrasound,” Medical Physics, vol. 28, no. 8, pp. 1652–1659, 2001.
136 BIBLIOGRAFÍA

[80] K. Horsch, M. Giger, L. Venta, and C. Vyborny, “Computerized diagnosis of breast lesions
on ultrasound,” Medical Physics, vol. 29, no. 2, pp. 157–164, 2002.

[81] C.-W. Hsu and C.-J. Lin, “A comparison of methods for multiclass support vector ma-
chines,” IEEE Transactions on Neural Networks, vol. 13, no. 2, pp. 415–425, Mar 2002.

[82] Q. Huang, Y. Luo, and Q. Zhang, “Breast ultrasound image segmentation: a survey,”
International Journal of Computer Assisted Radiology and Surgery, vol. 12, no. 3, pp.
493–507, Mar 2017.

[83] Y. Huang, D. Chen, Y. Jiang, S. Kuo, H. Wu, and W. Moon, “Computer-aided diagnosis
using morphological features for classifying breast lesions on ultrasound,” Ultrasound in
Obstetrics & Gynecology, vol. 32, no. 4, pp. 565–572, 2008.

[84] M. Immitzer, C. Atzberger, and T. Koukal, “Tree species classification with random forest
using very high spatial resolution 8-band worldview-2 satellite data,” Remote Sensing,
vol. 4, no. 9, pp. 2661–2693, 2012.

[85] A. Jain, R. P. Duin, and J. Mao, “Statistical pattern recognition: A review,” IEEE Tran-
sactions on Pattern Analysis and Machine Intelligence, vol. 22, no. 1, pp. 4–37, 2000.

[86] A. Jalalian, S. Mashohor, H. Mahmud, M. Saripan, A. Ramli, and B. Karasfi, “Computer-


aided detection/diagnosis of breast cancer in mammography and ultrasound: a review,”
Clinical Imaging, vol. 37, no. 3, pp. 420–426, 2013.

[87] G. Jurman, S. Riccadonna, and C. Furlanello, “A comparison of mcc and cen error
measures in multi-class prediction,” PLoS ONE, vol. 7, no. 8, pp. 1–8, 08 2012.

[88] T. Khoshgoftaar, M. Golawala, and J. Van Hulse, “An empirical study of learning from
imbalanced data using random forest,” in Tools with Artificial Intelligence, 2007. ICTAI
2007. 19th IEEE International Conference on, vol. 2. IEEE, 2007, pp. 310–317.

[89] J. Kim, “Estimating classification error rate: Repeated cross-validation, repeated hold-
out and bootstrap,” Computational Statistics & Data Analysis, vol. 53, no. 11, pp.
3735–3745, 2009.

[90] K. Kira and L. Rendell, “The feature selection problem: Traditional methods and a new
algorithm,” in Aaai, vol. 2, 1992, pp. 129–134.

[91] S. Kirkpatrick, D. Jr., and M. Vecchi, “Optimization by simulated annealing,” science,


vol. 220, no. 4598, pp. 671–680, 1983.
BIBLIOGRAFÍA 137

[92] S. Knerr, L. Personnaz, and G. Dreyfus, “Single-layer learning revisited: a stepwise pro-
cedure for building and training a neural network,” in Neurocomputing. Springer, 1990,
pp. 41–50.

[93] D. Kornbrot, “Point biserial correlation,” Wiley StatsRef: Statistics Reference Online,
2005.

[94] S. Kumar, M. Crawford, and J. Ghosh, “A versatile framework for labelling imagery with
a large number of classes,” in Neural Networks, 1999. IJCNN ’99. International Joint
Conference on, vol. 4, 1999, pp. 2829–2833.

[95] K. I. Laws, “Rapid texture identification,” vol. 0238, 1980, pp. 376–381.

[96] L. Levy, M. Suissa, J. Chiche, G. Teman, and B. Martin, “Birads ultrasonography,”


European Journal of Radiology, vol. 61, no. 2, pp. 202–211, 2007.

[97] T. Li, C. Zhang, and M. Ogihara, “A comparative study of feature selection and multiclass
classification methods for tissue classification based on gene expression,” Bioinformatics,
vol. 20, no. 15, p. 2429, 2004.

[98] S.-W. Lin, Z.-J. Lee, S.-C. Chen, and T.-Y. Tseng, “Parameter determination of support
vector machine and feature selection using simulated annealing approach,” Applied Soft
Computing, vol. 8, no. 4, pp. 1505–1512, 2008.

[99] B. Liu, Z. Hao, and E. C. C. Tsang, “Nesting one-against-one algorithm based on svms
for pattern classification,” IEEE Transactions on Neural Networks, vol. 19, no. 12, pp.
2044–2052, Dec 2008.

[100] B. Liu, Z. Hao, and X. Yang, “Nesting algorithm for multi-classification problems,” Soft
Computing, vol. 11, no. 4, pp. 383–389, 2007.

[101] H. Liu and H. Motoda, Computational methods of feature selection. Chapman and
Hall/CRC, 2007.

[102] C. Lo, W. Moon, C. Huang, J. Chen, M. Yang, and R. Chang, “Intensity-invariant texture
analysis for classification of bi-rads category 3 breast masses,” Ultrasound in Medicine
& Biology, vol. 41, no. 7, pp. 2039–2048, 2015.

[103] G. Loizou and S. Maybank, “The nearest neighbor and the bayes error rates,” IEEE
transactions on pattern analysis and machine intelligence, no. 2, pp. 254–262, 1987.

[104] A. Lorena, A. de Carvalho, and J. Gama, “A review on the combination of binary clas-
sifiers in multiclass problems,” Artificial Intelligence Review, vol. 30, no. 1, p. 19, 2009.
138 BIBLIOGRAFÍA

[105] J. Lu, K. Plataniotis, and A. Venetsanopoulos, “Face recognition using lda-based al-
gorithms,” IEEE Transactions on Neural Networks, vol. 14, no. 1, pp. 195–200, Jan
2003.

[106] O. Martínez Montañez, P. Uribe Zúñiga, and M. Hernández Avila, “Políticas públicas
para la detección del cáncer de mama en méxico,” Salud Pública de México, vol. 51, pp.
s350–s360, 2009.

[107] M. Masotti and R. Campanini, “Texture classification using invariant ranklet features,”
Pattern Recognition Letters, vol. 29, no. 14, pp. 1980–1986, 2008.

[108] M. Matsumoto, C. Sehgal, and J. Udupa, “Local binary pattern texture-based classifica-
tion of solid masses in ultrasound breast images,” in SPIE Medical Imaging. International
Society for Optics and Photonics, 2012, pp. 83 201H–83 201H.

[109] J. McDonald, Handbook of biological statistics. Sparky House Publishing Baltimore,


MD, 2009, vol. 2.

[110] B. W. e. a. Mendelson EB, Böhm-Vélez M, “Acr bi-rads®ultrasound. in: Acr bi-


rads®atlas, breast imaging reporting and data system.” Reston, VA: American College
of Radiology, 2013.

[111] P. Mettes, R. Tan, and R. Veltkamp, “A bottom-up approach to class-dependent featu-


re selection for material classification,” in 2014 International Conference on Computer
Vision Theory and Applications (VISAPP), Lisbon, Portugal, January 5-8, vol. 2, Jan
2014, pp. 494–501.

[112] J. Milgram, M. Cheriet, and R. Sabourin, “ “one against one” or “one against all”: Which
one is better for handwriting recognition with svms?” in Tenth International Workshop
on Frontiers in Handwriting Recognition. Suvisoft, 2006.

[113] M. Mohri, A. Rostamizadeh, and A. Talwalkar, Foundations of Machine Learning. The


MIT Press, 2012.

[114] W. Moon, I.C., J. Chang, S. Shin, C. Lo, and R. Chang, “The adaptive computer-aided
diagnosis system based on tumor sizes for the classification of breast tumors detected
at screening ultrasound,” Ultrasonics, vol. 76, pp. 70–77, 2017.

[115] W. Moon, C. Lo, J. Chang, C. Huang, J. Chen, and R. Chang, “Quantitative ultrasound
analysis for classification of bi-rads category 3 breast masses,” Journal of Digital Imaging,
vol. 26, no. 6, pp. 1091–1098, 2013.
BIBLIOGRAFÍA 139

[116] W. Moon, C. Lo, N. Cho, J. Chang, C. Huang, J. Chen, and R. Chang, “Computer-aided
diagnosis of breast masses using quantified bi-rads findings,” Computer Methods and
Programs in Biomedicine, vol. 111, no. 1, pp. 84–92, 2013.

[117] D. Morrison, “On the interpretation of discriminant analysis,” Journal of Marketing


Research, vol. 6, no. 2, pp. 156–163, 1969.

[118] C. Munoz-Meza and W. Gomez, “A feature selection methodology for breast ultrasound
classification,” in 10th International Conference on Electrical Engineering, Computing
Science and Automatic Control (CCE), 2013, pp. 245–249.

[119] A. C. of Radiology, “Breast imaging reporting and data system atlas (bi-rads atlas),”
Reston, VA: American College of Radiology, vol. 98, 2003.

[120] I.-S. Oh, J.-S. Lee, and C. Y. Suen, “Analysis of class separation and combination of
class-dependent features for handwriting recognition,” IEEE Transactions on Pattern
Analysis and Machine Intelligence, vol. 21, no. 10, pp. 1089–1094, 1999.

[121] O. Okun, G. Valentini, and M. Re, Ensembles in Machine Learning Applications. Sprin-
ger Science & Business Media, 2011, vol. 373.

[122] G. Ou and Y. Murphey, “Multi-class pattern classification using neural networks,” Pattern
Recognition, vol. 40, no. 1, pp. 4–18, 2007.

[123] N. Oza and K. Tumer, “Classifier ensembles: Select real-world applications,” Information
Fusion, vol. 9, no. 1, pp. 4–20, 2008, special Issue on Applications of Ensemble Methods.

[124] H. Peng, F. Long, and C. Ding, “Feature selection based on mutual information criteria
of max-dependency, max-relevance, and min-redundancy,” IEEE Transactions on Pattern
Analysis and Machine Intelligence, vol. 27, no. 8, pp. 1226–1238, 2005.

[125] B. Pineda-Bautista, J. Carrasco-Ochoa, and J. Martınez-Trinidad, “General framework


for class-specific feature selection,” Expert Systems with Applications, vol. 38, no. 8,
pp. 10 018–10 024, 2011.

[126] J. C. Platt, N. Cristianini, and J. Shawe-Taylor, “Large margin dags for multiclass clas-
sification,” in Advances in Neural Information Processing Systems 12, S. A. Solla, T. K.
Leen, and K. Müller, Eds. MIT Press, 2000, pp. 547–553.

[127] R. Poli, J. Kennedy, and T. Blackwell, “Particle swarm optimization,” Swarm Intelligence,
vol. 1, no. 1, pp. 33–57, Jun 2007.
140 BIBLIOGRAFÍA

[128] K. L. Priddy and P. E. Keller, Artificial Neural Networks: An Introduction (SPIE Tutorial
Texts in Optical Engineering, Vol. TT68). SPIE- International Society for Optical
Engineering, 2005.

[129] A. Qing, Fundamentals of Differential Evolution. John Wiley & Sons, Ltd, 2009, pp.
41–60.

[130] J. Quinlan, C4.5: programs for machine learning. Elsevier, 2014.

[131] T. M. Quiterio and A. C. Lorena, “Determining the structure of decision directed acy-
clic graphs for multiclass classification problems,” in 2016 5th Brazilian Conference on
Intelligent Systems (BRACIS), Oct 2016, pp. 115–120.

[132] R. Rangayyan and T. Nguyen, “Fractal analysis of contours of breast masses in mam-
mograms,” Journal of Digital Imaging, vol. 20, no. 3, pp. 223–237, 2007.

[133] M. Re and G. Valentini, “Ensemble methods: a review,” in Advances in Machine Learning


and Data Mining for Astronomy, M. Way, J. Scargle, K. M. Ali, and A. Srivastava, Eds.
Chapman & Hall/CRC, 2012, pp. 563–590.

[134] P. Refaeilzadeh, L. Tang, and H. Liu, Cross-Validation. Springer US, 2009, pp. 532–538.

[135] R. Rifkin and A. Klautau, “In defense of one-vs-all classification,” Journal of machine
learning research, vol. 5, no. Jan, pp. 101–141, 2004.

[136] A. Rodríguez-Cristerna, W. Gómez-Flores, and W. de Albuquerque-Pereira, “Busat: A


matlab toolbox for breast ultrasound image analysis,” in Pattern Recognition: 9th Mexi-
can Conference, MCPR 2017, Huatulco, Mexico, June 21-24, 2017, Proceedings. Sprin-
ger International Publishing, 2017, pp. 268–277.

[137] A. Rodríguez-Cristerna, C. Guerrero-Cedillo, G. Donati-Olvera, W. Gómez-Flores, and


W. de Albuquerque-Pereira, “Study of the impact of image preprocessing approaches on
the segmentation and classification of breast lesions on ultrasound,” in Electrical Engi-
neering, Computing Science and Automatic Control (CCE), 14th International Confe-
rence on, Cd. Mexico, September 20-23, 2017, Proceedings. IEEE, 2017, in press.

[138] A. Rodriguez-Cristerna, J. Torres-Jimenez, W. Gómez, and W. Pereira, “Construction


of mixed covering arrays using a combination of simulated annealing and variable neigh-
borhood search,” Electronic Notes in Discrete Mathematics, vol. 47, pp. 109–116, 2015.

[139] A. Rodríguez-Cristerna, W. Gómez-Flores, and W. Pereira, “A computer-aided diagnosis


system for breast ultrasound based on weighted bi-rads classes,” Computer Methods and
Programs in Biomedicine, 2017, in press.
BIBLIOGRAFÍA 141

[140] L. Rokach, “Ensemble-based classifiers,” Artificial Intelligence Review, vol. 33, no. 1, pp.
1–39, 2010.

[141] H. Romeijn and R. Smith, “Simulated annealing for constrained global optimization,”
Journal of Global Optimization, vol. 5, no. 2, pp. 101–126, 1994.

[142] R. Rose and S. Allwin, “Computerized cancer detection and classification using ultra-
sound images: A survey,” International Journal of Engineering Research and Develop-
ment, vol. 5, no. 7, pp. 36–47, 2013.

[143] D. Roses, Breast Cancer. Elsevier, 2005, vol. 2.

[144] D. Rumelhart, G. Hinton, and R. Williams, “Learning internal representations by error


propagation,” in Parallel Distributed Processing: Explorations in the Microstructure of
Cognition, Volume 1: Foundations, D. Rumelhart and J. Mcclelland, Eds. MIT Press,
1986, pp. 318–362.

[145] Y. Saeys, T. Abeel, and Y. Van de Peer, Robust Feature Selection Using Ensemble
Feature Selection Techniques. Berlin, Heidelberg: Springer Berlin Heidelberg, 2008,
pp. 313–325.

[146] J. Sáez, M. Galar, J. Luengo, and F. Herrera, “Analyzing the presence of noise in multi-
class problems: alleviating its influence with the one-vs-one decomposition,” Knowledge
and information systems, vol. 38, no. 1, pp. 179–206, 2014.

[147] B. Sahiner, X. He, W. Chen, H. Chan, L. Hadjiiski, and N. Petrick, “Neural network
training by maximization of the area under the roc curve: application to characterization
of masses on breast ultrasound as malignant or benign,” in SPIE Medical Imaging.
International Society for Optics and Photonics, 2013, pp. 86 701M–86 701M.

[148] J. Shan, S. Alam, B. Garra, Y. Zhang, and T. Ahmed, “Computer-aided diagnosis for
breast ultrasound using computerized bi-rads features and machine learning methods,”
Ultrasound in Medicine & Biology, vol. 42, no. 4, pp. 980–988, 2016.

[149] P. Sharma and M. Kaur, “Classification in pattern recognition: A review,” International


Journal of Advance Research in Computer Science and Software Engineering, vol. 3, pp.
298–306, 2013.

[150] W. Shen, R. Chang, W. K. Moon, Y. Chou, C. Huang et al., “Breast ultrasound


computer-aided diagnosis using bi-rads features.” Academic Radiology, vol. 14, no. 8,
p. 928, 2007.
142 BIBLIOGRAFÍA

[151] W. Shen, R. Chang, and K. Woo, “Computer aided classification system for breast
ultrasound based on breast imaging reporting and data system (bi-rads),” Ultrasound in
Medicine & Biology, vol. 33, no. 11, pp. 1688–1698, 2007.

[152] Y. Shi and R. C. Eberhart, “Empirical study of particle swarm optimization,” in Procee-
dings of the 1999 Congress on Evolutionary Computation-CEC99 (Cat. No. 99TH8406),
vol. 3, July 1999, p. 1950.

[153] B. W. Silverman and M. C. Jones, “E. fix and j.l. hodges (1951): An important con-
tribution to nonparametric discriminant analysis and density estimation: Commentary
on fix and hodges (1951),” International Statistical Review / Revue Internationale de
Statistique, vol. 57, no. 3, pp. 233–238, 1989.

[154] M. Silverstein, A. Recht, M. Lagios, I. Bleiweiss, P. Blumencranz, T. Gizienski, S. Harms,


J. Harness, R. Jackman, V. Klimberg et al., “Image-detected breast cancer: state-of-the-
art diagnosis and treatment,” Journal of the American College of Surgeons, vol. 209,
no. 4, pp. 504–520, 2009.

[155] P. Skaane, “Ultrasonography as adjunct to mammography in the evaluation of breast


tumors.” Acta Radiologica. Supplementum, vol. 420, pp. 1–47, 1999.

[156] P. Skaane, K. Engedal, and A. Skjennald, “Interobserver variation in the interpretation


of breast imaging,” Acta Radiologica, vol. 38, no. 4, pp. 497–502, 1997.

[157] M. Skurichina and R. P. D, “Bagging, boosting and the random subspace method for
linear classifiers,” Pattern Analysis & Applications, vol. 5, no. 2, pp. 121–135, 2002.

[158] P. Smialowski, D. Frishman, and S. Kramer, “Pitfalls of supervised feature selection,”


Bioinformatics, vol. 26, no. 3, p. 440, 2009.

[159] M. Sokolova and G. Lapalme, “A systematic analysis of performance measures for clas-
sification tasks,” Information Processing & Management, vol. 45, no. 4, pp. 427–437,
2009.

[160] S. Sridevi and M. Sundaresan, “Survey of image segmentation algorithms on ultrasound


medical images,” in International Conference on Pattern Recognition, Informatics and
Medical Engineering (PRIME), 2013, 2013, pp. 215–220.

[161] R. Storn and K. Price, “Differential evolution – a simple and efficient heuristic for global
optimization over continuous spaces,” Journal of Global Optimization, vol. 11, no. 4,
pp. 341–359, 1997.
BIBLIOGRAFÍA 143

[162] R. Storn and K. Price, “Differential evolution–a simple and efficient heuristic for global
optimization over continuous spaces,” Journal of global optimization, vol. 11, no. 4, pp.
341–359, 1997.

[163] S. Student and K. Fujarewicz, “Stable feature selection and classification algorithms for
multiclass microarray data,” Biology direct, vol. 7, no. 1, p. 33, 2012.

[164] A. Subasi, E. Alickovic, and J. Kevric, Diagnosis of Chronic Kidney Disease by Using
Random Forest. Singapore: Springer Singapore, 2017, pp. 589–594.

[165] K. T. and J. G., “Bayes error rate estimation using classifier ensembles,” International
Journal of Smart Engineering System Design, vol. 5, no. 2, pp. 95–109, 2003.

[166] F. Takahashi and S. Abe, “Optimizing directed acyclic graph support vector machines,”
Artificial Neural Networks in Pattern Recognition (ANNPR), pp. 166–173, 2003.

[167] E.-G. Talbi, Metaheuristics: from design to implementation. John Wiley & Sons, 2009,
vol. 74.

[168] R. Tate, “Correlation between a discrete and a continuous variable. point-biserial corre-
lation,” The Annals of mathematical statistics, vol. 25, no. 3, pp. 603–607, 1954.

[169] S. Theodoridis, A. Pikrakis, K. Koutroumbas, and D. Cavouras, Introduction to Pattern


Recognition: A Matlab Approach. Academic Press, 2010.

[170] H. Tseng, H. Wu, S. Chen, S. Kuo, Y. Huang, and D. Chen, “Speckle reduction imaging
of breast ultrasound does not improve the diagnostic performance of morphology-based
cad system,” Journal of Clinical Ultrasound, vol. 40, no. 1, pp. 1–6, 2012.

[171] K. Tumer, K. Bollacker, and J. Ghosh, “A mutual information based ensemble method
to estimate bayes error,” C. et al. Dagli, editor, Intelligent Engineering Systems through
Artificial Neural Networks, vol. 8, pp. 17–22, 1998.

[172] S. Varma and R. Simon, “Bias in error estimation when using cross-validation for model
selection,” BMC Bioinformatics, vol. 7, no. 1, p. 91, Feb 2006.

[173] J. Vesterstrom and R. Thomsen, “A comparative study of differential evolution, particle


swarm optimization, and evolutionary algorithms on numerical benchmark problems,” in
Congress on Evolutionary Computation, 2004. CEC2004., vol. 2, June 2004, pp. 1980–
1987.
144 BIBLIOGRAFÍA

[174] L. Wang, N. Zhou, and F. Chu, “A general wrapper approach to selection of class-
dependent features,” IEEE Transactions on Neural Networks, vol. 19, no. 7, pp. 1267–
1278, 2008.

[175] R. Wang and K. Tang, “Feature selection for mauc-oriented classification systems,”
Neurocomputing, vol. 89, pp. 39–54, 2012.

[176] M. Welling, “Fisher linear discriminant analysis,” Department of Computer Science, Uni-
versity of Toronto, vol. 3, 2005.

[177] I. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques,
2nd ed. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2005.

[178] W. Wu, S. Lin, and W. Moon, “Combining support vector machine with genetic algo-
rithm to classify ultrasound breast tumor images,” Computerized Medical Imaging and
Graphics, vol. 36, no. 8, pp. 627–633, 2012.

[179] W. Wu, S. Lin, and W. Moon, “An artificial immune system-based support vector machi-
ne approach for classifying ultrasound breast tumor images,” Journal of Digital Imaging,
vol. 28, no. 5, pp. 576–585, 2015.

[180] X. Wu, V. Kumar, J. Quinlan, J. Ghosh, Q. Yang, H. Motoda, G. McLachlan, A. Ng,


B. Liu, P. Yu, Z.-H. Zhou, M. Steinbach, D. Hand, and D. Steinberg, “Top 10 algorithms
in data mining,” Knowledge and Information Systems, vol. 14, no. 1, pp. 1–37, Jan 2008.

[181] B. Xue, M. Zhang, W. Browne, and X. Yao, “A survey on evolutionary computation ap-
proaches to feature selection,” IEEE Transactions on Evolutionary Computation, vol. 20,
no. 4, pp. 606–626, 2016.

[182] M. Yang, W. Moon, Y. Wang, M. Bae, C. Huang, J. Chen, and R. Chang, “Robust texture
analysis using multi-resolution gray-scale invariant features for breast sonographic tumor
diagnosis,” IEEE Transactions on Medical Imaging, vol. 32, no. 12, pp. 2262–2273, 2013.

[183] X.-S. Yang, Engineering optimization: an introduction with metaheuristic applications.


John Wiley & Sons, 2010.

[184] J. Zhang and A. Sanderson, “Jade: Adaptive differential evolution with optional external
archive,” IEEE Transactions on Evolutionary Computation, vol. 13, no. 5, pp. 945–958,
2009.

[185] Z. Zhou, Ensemble methods: foundations and algorithms. CRC press, 2012.

También podría gustarte