Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Arc2017 PDF
Arc2017 PDF
Doctor en Ciencias
en Computación
_________________________________________________________
A mis asesores, Dr. Wilfrido Gómez Flores y Dr. Wagner Coelho de Albuquerque Pereira
por su amistad, apoyo y enseñanzas.
A mis sinodales, Dr. Arturo Díaz Pérez, Dr. Hiram Galeana Zapién, Dr. Ivan López
Arévalo y Dr. Edgar Tello Leal, por sus acertadas observaciones y recomendaciones que
contribuyeron a mejorar esta investigación.
A mis compañeros Daniel, Rafael, Auraham, José, Adán, Juanita y Giomara por su
amistad.
Índice General I
Índice de Figuras V
Índice de Algoritmos IX
Publicaciones XI
Resumen XIII
Abstract XV
Nomenclatura XVII
1. Introducción 1
1.1. Antecedentes y motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4.2. Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5. Metodología de investigación . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.7. Organización del documento . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Marco teórico 11
2.1. Clasificación de patrones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Métodos de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1. Análisis lineal discriminante . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2. Árboles de clasificación y de regresión . . . . . . . . . . . . . . . . . . 13
2.2.3. Esquemas de descomposición binaria . . . . . . . . . . . . . . . . . . 15
2.2.4. Ensamble de clasificadores . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.4.1. Método bagging . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.4.2. Método de subespacio aleatorio . . . . . . . . . . . . . . . . 19
2.2.4.3. Bosque aleatorio . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.4.4. Medidas de desempeño de un bosque aleatorio . . . . . . . . 20
2.2.5. Normalización de patrones . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3. Selección de características . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.1. Ordenamiento de características mrMR . . . . . . . . . . . . . . . . . 22
2.3.2. Método de selección secuencial . . . . . . . . . . . . . . . . . . . . . 24
2.4. Índices de desempeño de clasificación . . . . . . . . . . . . . . . . . . . . . . 24
i
2.4.1. Error de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.2. Análisis ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.3. Coeficiente de correlación de Matthews . . . . . . . . . . . . . . . . . 27
2.5. Técnicas de remuestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6. Metaheurísticas para optimización global . . . . . . . . . . . . . . . . . . . . 30
2.6.1. Recocido simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6.2. Búsqueda tabú . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.6.3. Evolución diferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.6.4. Optimización por cúmulo de partículas . . . . . . . . . . . . . . . . . 36
2.7. Pruebas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.8. Resumen del capítulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6. Resultados 93
6.1. Metodología de evaluación de los clasificadores propuestos . . . . . . . . . . . 93
6.1.1. Métodos de clasificación de la literatura . . . . . . . . . . . . . . . . . 94
6.2. Resultados del clasificador S-LDA . . . . . . . . . . . . . . . . . . . . . . . . 96
6.2.1. Desempeño de clasificación . . . . . . . . . . . . . . . . . . . . . . . 96
6.2.2. Convergencia de metaheurísticas . . . . . . . . . . . . . . . . . . . . 96
6.2.3. Análisis del grafo DDAG . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.2.4. Cardinalidad del conjunto de características seleccionadas . . . . . . . 100
ii
6.3. Resultados del ensamble de clasificadores B-LDA . . . . . . . . . . . . . . . . 102
6.4. Análisis comparativo de clasificadores . . . . . . . . . . . . . . . . . . . . . . 104
6.4.1. Desempeño de clasificación en clases histopatológicas . . . . . . . . . 109
6.4.2. Comparativa con clasificación BI-RADS del especialista . . . . . . . . 110
6.5. Conclusiones del capítulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
Apéndices 122
Bibliografía 129
iii
Índice de Figuras
v
6.1. Diagrama de flujo del proceso de evaluación de los clasificadores propuestos.
Bloques con líneas discontinuas indican datos y bloques con líneas sólidas re-
presentan procesos. El bloque con doble línea representa la validación cruzada
anidada usada en el clasificador S-LDA; en el caso del clasificador B-LDA este
bloque se omite. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.2. Gráfica de cajas del desempeño de clasificación obtenido por el clasificador S-
LDA con diferentes metaheurísticas, en términos de (a) error de clasificación
y (b) MCC, indicando para cada una su correspondiente media ± desviación
estándar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.3. Convergencia promedio obtenida en los conjuntos de entrenamiento por el cla-
sificador S-LDA con las metaheurísticas (a) SA, (b) TS, (c) DE, (d) JADE y
(e) PSO. Se incluyen barras de error con la desviación estándar obtenida y se
indica el promedio ± desviación estándar de la mejor solución encontrada. . . . 98
6.4. Grafo DDAG definido con mayor frecuencia en el entrenamiento del clasificador
S-LDA. En cada nodo se indica el par de clases que separa el clasificador binario
asociado y cada arista dirigida está etiquetada con la clase ganadora. . . . . . 99
6.5. Gráfica de cajas del número de características seleccionadas por el clasificador
S-LDA con diferentes metaheurísticas, indicando para cada una su correpon-
diente media ± desviación estándar. . . . . . . . . . . . . . . . . . . . . . . . 102
6.6. Gráfica de cajas del (a) error de clasificación y (b) MCC obtenidos por los en-
sambles de clasificadores RF y B-LDA. En cada caso se incluye la media ± des-
viación estándar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.7. Gráfica de cajas de (a) fuerza s, (b) correlación ρ̄ y (c) relación entre correlación
y fuerza ρ̄/s2 , obtenidas por los ensambles RF y B-LDA. Se indica la media ±
desviación estándar obtenida por cada ensamble. . . . . . . . . . . . . . . . . 104
6.8. Gráfica de cajas del error de clasificación BI-RADS obtenido por los clasificado-
res evaluados, además se muestran los límites inferior y superior de Bayes. Se
indica la media ± desviación estándar en cada caso. Las líneas en gris delimitan
la región entre las medias de los límites de Bayes. . . . . . . . . . . . . . . . 105
6.9. Gráfica de cajas del MCC de clasificación BI-RADS alcanzado por los clasifi-
cadores evaluados. Se incluyen los límites inferior y superior de Bayes. Además
se incluye la media ± desviación estándar en cada caso. Las líneas en gris
delimitan la región entre las medias de los límites de Bayes. . . . . . . . . . . 106
6.10. Gráfica de cajas del error de clasificación en clases histopatológicas de los
clasificadores evaluados. Además se presentan los límites inferior y superior de
Bayes, y se indica la media ± desviación estándar en todos los casos. . . . . . 110
6.11. Gráfica de cajas del MCC obtenido para la clasificación en clases histopatoló-
gicas por los clasificadores evaluados. También se presentan los límites inferior
y superior de Bayes. Además se indica la media ± desviación estándar en cada
caso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.12. Ejemplo de lesiones correctamente clasificadas por el ensamble B-LDA con
clases (a) y (b) benignas, y (b) y (c) malignas, clasificadas erróneamente por
el radiólogo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
vi
Índice de Tablas
2.1. Ejemplo de reetiquetados de clases utilizados en los clasificadores base (cp ) del
esquema OVA para un problema con cinco clases. . . . . . . . . . . . . . . . 16
2.2. Ejemplo de las clases involucradas en los clasificadores binarios (cp,q ) utilizados
en la descomposición OVO para un problema con cinco clases. . . . . . . . . . 17
2.3. Matriz de confusión para un problema de clasificación binario, donde VP, FN,
FP, VN son el acumulado de instancias que cumplen las condiciones de las celdas. 26
vii
4.9. (a)Matriz de confusión del clasificador NN con el porcentaje de muestras con
etiqueta de clase verdadera indicada por el renglón que fueron asignadas a la
clase señalada por la columna y (b) matriz de confusión con el límite inferior
del error de Bayes. Las celdas en gris corresponden a muestras correctamente
clasificadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
viii
Índice de Algoritmos
ix
Publicaciones
W. Gomez, A. Rodriguez, W.C.A. Pereira, and A.F.C. Infantosi. Feature selection and clas-
sifier performance in computer-aided diagnosis for breast ultrasound. In 10th International
Conference and Expo on Emerging Technologies for a Smarter World (CEWIT), New York,
EE. UU., October 21-22, pages 1–5, 2013.
xi
Resumen
Para abordar problemas de clasificación complejos se ha propuesto unir las respuestas de múl-
tiples clasificadores en lugar de usar la salida de un solo clasificador. Las técnicas que abordan
el problema multiclase con múltiples clasificadores se dividen en descomposición binaria y en-
samble de clasificadores. En la mayoría de los enfoques que emplean múltiples clasificadores
se utiliza el mismo algoritmo de clasificación base, el cual es entrenado con el mismo espacio
de características para discriminar a todas las clases. Sin embargo, distinguir parejas de clases
utilizando sus propios espacios de características podría mejorar el desempeño de clasificación
en problemas donde las distintas clases presentan un alto grado de traslape.
El diagnóstico de cáncer de mama es un ejemplo notable en donde diferentes etapas de
malignidad pueden describirse con distintas características físicas de los tumores. En este
problema, la clasificación de tumores se realiza en categorías BI-RADS, de modo que se puede
tratar como un problema de clasificación multiclase. En esta tesis se aborda el problema de
clasificación multiclase mediante la unión de las respuestas de múltiples clasificadores que
utilizan conjuntos de características especializados en parejas de clases, tomando como caso
de estudio el problema de clasificación BI-RADS de lesiones de mama en ultrasonografía.
Para abordar el problema de investigación, primero se realizó un estudio de separabilidad
de clases BI-RADS en enfoques de descomposición binaria, en el que se encontró que las
características cuantitativas tienen un diferente nivel discriminante entre diferentes parejas de
clases, por lo que es más conveniente describir cada pareja de clases con su propio conjunto
de características. También se encontró que las características son más discriminantes en la
descomposición uno-contra-uno (OVO), por lo que dicha descomposición binaria fue utilizada
como parte de dos clasificadores multiclase propuestos en esta tesis. Adicionalmente, en este
estudio se determinaron los límites (inferior y superior) del desempeño de clasificación de
Bayes.
xiii
Los clasificadores propuestos en esta tesis fueron denominados S-LDA y B-LDA. El clasifi-
cador S-LDA se basa en la descomposición binaria OVO, selección de características para cada
pareja de clases basada en una metaheurística, y análisis linear discriminante (LDA) como cla-
sificador base. El clasificador B-LDA está basado en un ensamble de clasificadores multiclase
OVO con características específicas para separar cada pareja de clases y clasificadores base
LDA. Además, en el clasificador B-LDA se utilizan los mecanismos de generación de diversi-
dad bagging y subespacio aleatorio para obtener una baja correlación entre los errores de los
clasificadores base.
Los clasificadores propuestos fueron comparados con el único enfoque de clasificación BI-
RADS presente en la literatura, denominado Shen_2007, y con un clasificador basado en la
descomposición binaria OVO con clasificadores base LDA entrenados con el mismo conjun-
to de características, denominado OVO-LDA. Los resultados indicaron que los clasificadores
propuestos S-LDA y B-LDA fueron los únicos dentro los límites de desempeño de clasifica-
ción. Además, S-LDA y B-LDA obtuvieron un significativo mejor desempeño de clasificación
en términos del coeficiente de correlación de Matthews, con una media de 0.449 y 0.494, res-
pectivamente, en comparación con Shen_2007 y OVO-LDA, los cuales obtuvieron una media
de 0.340 y 0.430, respectivamente. También se encontró que B-LDA obtuvo un desempeño de
clasificación significativamente mejor que sus contrapartes. Los resultados obtenidos también
indicaron que el ensamble de clasificadores B-LDA es más adecuado para el problema de cla-
sificación BI-RADS en comparación con el clasificador S-LDA. Estos resultados sugieren que
el uso de diferentes características para separar cada pareja de clases mejora el desempeño de
clasificación BI-RADS, en comparación con utilizar el mismo conjunto de características para
separar todas las parejas de clases.
xiv
Abstract
To solve complex classification problems, it has been proposed joining the output of multiple
classifiers instead of using the output of a single classifier. The techniques that address the
multiclass problem with multiple classifiers are divided into binary decomposition and ensemble
of classifiers. Generally, multiple classifiers approaches use the same base classifiers, trained
with the same feature space to discriminate all classes. However, distinguishing pairs of classes
using their own features spaces could improve the classification performance in problems where
different classes present large overlapping.
Breast cancer diagnosis is a notable example where different stages of malignancy can be
described with different physical features of the tumors. In this problem, tumor classification is
performed in BI-RADS categories, so that it can be seen as a multiclass classification problem.
This thesis addresses the multiclass classification problem by combining the outputs of multiple
classifiers using specialized features sets in pairs of classes, taking the BI-RADS classification
problem of breast lesions in ultrasonography as study case.
In order to address the research problem, we first carried out a study of the separability of
BI-RADS classes in binary decomposition approaches, in which it was found that the quanti-
tative features have different discriminant levels between different pair of classes, so it is more
convenient to describe each pair of classes with their own set of features. It was also found
that the features are more discriminant in the one-vs-one decomposition (OVO), so that such
binary decomposition was used as part of two multiclass classifiers proposed in this thesis.
Additionally, in this study, the limits (lower and higher) of Bayes classification performance
were calculated.
The proposed classifiers in this thesis were named S-LDA and B-LDA. The S-LDA classifier
is based on the OVO binary decomposition, feature selection for each pair of classes based
on a metaheuristic, and linear discriminant analysis (LDA) as the base classifier. The B-LDA
xv
classifier is based on an ensemble of OVO multiclass classifiers with specific features to distin-
guishing each pair of classes and LDA base classifiers. In addition, the B-LDA classifier uses
the diversity mechanisms namely bagging and random subspace for obtaining a low correlation
among the errors of base classifiers.
The proposed classifiers were compared with the only BI-RADS classification approach in
the literature, named Shen_2007, and with a classifier based on OVO binary decomposition
with LDA base classifiers trained with the same set of features, named OVO-LDA. The re-
sults indicated that the proposed classifiers S-LDA and B-LDA were the only ones within the
limits of Bayes. In addition, S-LDA and B-LDA achieved a significantly better classification
performance in terms of Matthews correlation coefficient, with an average of 0.449 and 0.494,
respectively, compared to Shen_2007 and OVO-LDA, which obtained an average of 0.340 and
0.430, respectively. It was also found that B-LDA obtained a significantly better classification
performance than its counterparts. The obtained results also indicated that the ensemble of
classifiers B-LDA is more suitable for the BI-RAD classification problem compared to the clas-
sifier S-LDA. These results suggest that the use of different features to separate each pair
of classes improves BI-RADS classification performance, compared to using the same set of
features to separate all the pairs of classes.
xvi
Nomenclatura
Acrónimos principales
ANN Red neuronal artificial
AUC Área bajo la curva ROC
BI-RADS Sistema de Informes y Registro de Datos de Imagen de Mama
CAD Diagnóstico médico asistido por computadora
CART Árboles de clasificación y regresión
CV Validación cruzada
DDAG Grafo acíclico dirigido de decisión
DE Evolución diferencial
DL Aprendizaje profundo
DT Árbol de decisión
ESP Especificidad
EXC Exactitud
GA Algoritmo genético
JADE Evolución diferencial autoadaptativa
k-NN k-vecinos más cercanos
LDA Análisis lineal discriminante de Fisher
LOOCV Validación cruzada dejando uno fuera
LR Regresión logística
mAUC Área bajo la curva ROC multiclase
MCC Coeficiente de correlación de Matthews
mrMR Mínima redundancia máxima relevancia
NB Bayesiano ingenuo
NN Vecino más cercano
OVA Uno-contra-todos
OVO Uno-contra-uno
PSO Optimización por cúmulo de partículas
RF Bosque aleatorio
SA Recocido simulado
SEN Sensibilidad
SVM Máquina de vectores de soporte
TS Búsqueda tabú
1
Introducción
El reconocimiento de patrones es una disciplina científica que estudia cómo clasificar objetos
en un número de categorías o clases. A los objetos se les conoce con el término genérico de
patrones y una clase de patrones es un conjunto de patrones que poseen propiedades en
común [169]. Esta disciplina provee soluciones a problemas de reconocimiento y clasificación
del mundo real, tales como reconocimiento de voz, reconocimiento facial, clasificación de
caracteres manuscritos, diagnóstico médico, entre otros [85, 149].
Debido al auge de los sistemas CADs, han surgido diversos estudios para evaluar su efecti-
vidad, los cuales concluyen que el uso de un CAD ayuda a mejorar el diagnóstico del especia-
lista [20, 40]. La mayoría de los CADs ofrecen una clasificación binaria que indica la presencia
o ausencia de una patología; sin embargo, en algunos casos como en el diagnóstico de cáncer
de mama, los especialistas prefieren emitir un diagnóstico en categorías o etapas del desarrollo
del cáncer, lo cual se puede abordar como un problema de clasificación multiclase.
1
2 1.1. Antecedentes y motivación
Es importante señalar que las categorías 2 a 5 están reservadas para evaluar imágenes con
presencia de tumores, aunque el BI-RADS también considera las categorías 0, 1 y 6 que indican
nuevo estudio, sin anormalidades, y cáncer confirmado por biopsia, respectivamente. A pesar
de que el estándar BI-RADS es usando ampliamente en el diagnóstico médico, su incorporación
en sistemas CAD ha sido poco explorado, siendo la descripción cuantitativa de los atributos
cualitativos el enfoque más desarrollado [102, 115]. Cabe señalar que la clasificación de lesiones
en clases benigna y maligna es el estudio más abordado en la literatura [27]. Sin embargo, la
clasificación de tumores en categorías BI-RADS es prácticamente inexistente. Inclusive, solo
existe un trabajo en la literatura que realiza la clasificación de lesiones en categorías 3, 4, y 5
para imágenes de ultrasonido [151]. Por tanto, es una área de oportunidad para explorar el
potencial de clasificadores basados en descomposición binaria y ensambles de clasificadores,
ya que la clasificación de tumores en categorías BI-RADS se puede tratar como un problema
de clasificación multiclase. Además, se pueden diseñar clasificadores que utilicen distintas
características para diferenciar entre categorías BI-RADS. Por otro lado, actualmente investigar
sobre el desarrollo de sistemas CAD para el diagnóstico de cáncer de mama es relevante a nivel
mundial, ya que esta patología presenta la más alta tasa de mortalidad por cáncer entre las
4 1.2. Planteamiento del problema
mujeres [48, 49, 106]. De manera que el desarrollo de alternativas tecnológicas puede ayudar
en el diagnóstico oportuno de cáncer de mama.
1.3 Hipótesis
En el problema de clasificación BI-RADS, la unión de las respuestas de múltiples clasifica-
dores entrenados con características específicas para separar cada pareja de clases mejora el
desempeño de clasificación, en términos del coeficiente de correlación de Matthews, en compa-
ración con utilizar el mismo conjunto de características para separar todas las parejas de clases.
1.4 Objetivos
1. Definición del banco de datos. Se obtuvo un banco de datos donde las lesiones están
representadas con características que describen nominalmente a los atributos cualitativos
del léxico BI-RADS:
1. Introducción 7
Establecer los límites (inferior y superior) del error de clasificación de Bayes. Los
límites de clasificación de Bayes obtenidos fueron una referencia del desempeño de
clasificación de los clasificadores propuestos.
1.6 Contribuciones
Las principales contribuciones de esta investigación son las siguientes:
Una artículo de revista indizado en el Journal Citation Reports y tres artículos en con-
gresos internacionales.
11
12 2.2. Métodos de clasificación
una aproximación a la clase a la que pertenece. Para encontrar dicha función se utiliza una
memoria denotada como {X, y}, donde X = {x1 , x2 , . . . , xN } es un conjunto de N muestras
de entrenamiento e y = {y1 , y2 , . . . , yN } denota las correspondientes etiquetas de clase de
cada observación. Entonces, al evaluar una instancia arbitraria en el clasificador g(·) se obtiene
un valor de pertenencia (o confianza) a cada una de las clases en el conjunto Ω.
Por otro lado, el desempeño de un clasificador se cuantifica por medio de índices que com-
paran el conjunto de etiquetas asignadas por el clasificador contra el conjunto de etiquetas
verdaderas. En este sentido, el índice de desempeño más simple es llamado error de clasi-
ficación, el cual cuantifica la fracción de discrepancias entre las etiquetas verdaderas y las
etiquetas asignadas.
wT SB w
J(w) = , (2.1)
wT SW w
donde SB es la matriz de dispersión inter-clase calculada como:
µp − µ q )T ,
µp − µ q )(µ
SB = (µ (2.2)
X X
SW = Pi (xj − µi )(xj − µi )T , (2.3)
ωi ∈{ωp ,ωq } xj ∈ωi
w = S−1 µp − µ q ),
W (µ (2.4)
donde S−1
W denota la inversa de la matriz de dispersión intra-clase. La derivación analítica para
obtener el vector de pesos w se presenta en el Apéndice A. Una vez encontrado el vector de
pesos w, la clasificación de una instancia arbitraria x se realiza con la regla:
ω
p si wT (x − 21 (µ
µp − µ q )) > 0
ŷ(x) = (2.5)
ω
q en otro caso.
Hiperplano de
decisión
Hiperplano de
proyección
Característica 2
Característica 1
Figura 2.1: Ejemplo de hiperplano de proyección e hiperplano de decisión construidos con LDA
para un problema con dos características.
El algoritmo CART realiza un proceso recursivo en donde para un nodo padre, con una
memoria de muestras {X, y}, se elige la característica y el punto de corte con el mayor
decremento de impureza. El tamaño de los subconjuntos resultantes del punto de corte se
encuentra limitado por un número mínimo de muestras denotado como lmı́n . El punto de
corte seleccionado se utiliza para construir dos subconjuntos de muestras, que formarán los
nodos hijo izquierdo y derecho. Si un nodo hijo tiene un número menor de muestras que nmı́n ,
entonces se vuelve un nodo hoja, en otro caso se vuelve un nodo padre sobre el cual es necesario
determinar sus nodos hijo. El proceso continúa hasta que ningún nodo pueda dividirse en nodos
hijo. Si se establece que nmı́n = 2 y lmı́n = 1, entonces el algoritmo CART construye un árbol
denominado sin podar cuyos nodos hoja solamente contienen una observación [169].
Dado un vector que contiene todas las muestras de entrenamiento en el nodo NP repre-
sentadas con la i-ésima característica, con 1 ≤ i ≤ m, el mejor punto de corte es el que
maximiza el decremento de impureza y se calcula como:
donde nP es el nodo padre, nL y nR son los nodos hijo izquierdo y derecho, respectivamente,
y PL y PR son la fracción de muestras en el nodo padre que se asignarán a los nodos izquierdo
y derecho, respectivamente [42]. Además, la función I(·) mide la impureza de un nodo con
base en las muestras que contiene. Para medir la impureza comúnmente se utiliza el índice
Gini, definido como [42]:
X
I(nP ) = 1 − Pq2 , (2.7)
q∈Ω
para obtener el mejor punto de corte dado un conjunto de muestras y una característica
seleccionada se presenta en el Algoritmo 1.
método de agregación más simple, llamado máxima confianza [7], la clase de una observación
de prueba es asignada con el clasificador base que obtiene la mayor respuesta positiva. El
problema de clasificación de cinco clases se ilustra en la Figura 2.2.a, y las correspondientes
fronteras de decisión en el esquema de descomposición OVA se presentan en la Figura 2.2.b.
Tabla 2.1: Ejemplo de reetiquetados de clases utilizados en los clasificadores base (cp ) del
esquema OVA para un problema con cinco clases.
Clasificador base
Clase c1 c2 c3 c4 c5
ω+ ω1 ω2 ω3 ω4 ω5
ω− {Ω \ ω1 } {Ω \ ω2 } {Ω \ ω3 } {Ω \ ω4 } {Ω \ ω5 }
a) b) c)
c2,5
c1,2
c1,5
c1,3
c1 c1,4
c5 c2
c4 c3
c2,3
c4,5
c3,5 c3,4 c2,4
Figura 2.2: (a) Problema de clasificación con cinco clases y las posibles fronteras de decisión de
los clasificadores con las descomposiciones binarias (b) OVA y (c) OVO, indicadas con líneas
discontinuas.
construidas con la descomposición OVO para el problema con cinco clases mostrado en la
Figura 2.2.a.
Tabla 2.2: Ejemplo de las clases involucradas en los clasificadores binarios (cp,q ) utilizados en
la descomposición OVO para un problema con cinco clases.
Clase
Clase ω1 ω2 ω3 ω4 ω5
ω1 - c1,2 c1,3 c1,4 c1,5
ω2 - - c2,3 c2,4 c2,5
ω3 - - - c3,4 c3,5
ω4 - - - - c4,5
En el método de agregación OVO llamado “grafo acíclico dirigido de decisión” (DDAG, del
Inglés decision directed acyclic graph) se construye un árbol de decisión con c−1 niveles, donde
cada nodo está asociado a un clasificador binario. En cada nivel se realiza una clasificación
binaria y se evita el camino que sigue la clase perdedora. Entonces, es necesario evaluar c − 1
nodos y la última clase ganadora es la clase predicha. Este método presenta la ventaja que
no produce produce una región en el espacio de características conocida como región no
clasificable, en la que una muestra podría pertenecer a más de una clase.
Además, la estructura del árbol de decisión se organiza de manera que los nodos superiores
presenten un mejor desempeño de clasificación en el entrenamiento en comparación con los
nodos inferiores [47, 126, 166]. En la Figura 2.3 se ilustra un posible árbol de decisión DDAG
para un problema con cinco clases, en el que cada camino está marcado por su clase ganadora.
Cabe señalar que las descomposiciones binarias OVA y OVO han sido adoptadas porque
mejoran el desempeño de clasificación de diversos algoritmos multiclase [2, 7, 56–58, 81, 92,
18 2.2. Métodos de clasificación
Figura 2.3: Posible árbol de decisión DDAG para un problema con cinco clases, donde ωk ∈ Ω.
122, 135, 146], facilitan el entrenamiento en paralelo de los clasificadores binarios [146] y
posibilitan la especialización de las fronteras de decisión [55, 94, 120].
El método de subespacio aleatorio fue propuesto por Ho [77] para abordar el problema de
sobreajuste en los árboles de decisión y al mismo tiempo construir ensambles de árboles con
una baja correlación entre los miembros del ensamble.
De manera general, en el método de subespacio aleatorio se selecciona aleatoriamente un
subconjunto de características para entrenar un clasificador base. De esta forma, los diferentes
clasificadores base del ensamble observan diferentes subconjuntos de características. Final-
mente, la clase ganadora para una instancia arbitraria es aquella que al ser evaluada por los
clasificadores base recibe la mayor cantidad de votos [77]. El parámetro de control de este mé-
todo es el número de características seleccionadas aleatoriamente, el cual afecta el desempeño
del ensamble [77].
Una ventaja de los ensambles construidos con este método es que a medida que el número
de clasificadores en el ensamble crece, la generalización del ensamble aumenta o se mantie-
ne [77]. Además, este método es efectivo cuando hay muchas características redundantes. No
obstante, no es recomendado para conjuntos de datos con pocas características o con mu-
chas características irrelevantes. En este último caso se recomienda filtrar las características
irrelevantes antes de generar los subespacios [185].
El ensamble de clasificadores RF, propuesto por Breiman [15], combina los métodos
de remuestreo aleatorio (bagging) y de subespacio aleatorio para entrenar un conjunto de
árboles de decisión con una baja correlación en sus errores, utilizando el algoritmo CART
como clasificador base.
El método de bagging es utilizado para crear k conjuntos de muestras {X0 , y0 } tomados
20 2.2. Métodos de clasificación
con la técnica bootstrap del conjunto original de datos de entrenamiento {X, y}. Nótese que
se crean conjuntos de muestras con el mismo número de observaciones que en el conjunto
original.
Como se mencionó anteriormente, en el algoritmo CART se evalúan todas las m caracte-
rísticas y se elige en cada nodo la que maximiza el decremento de impureza [42]. Este criterio
cambia en el ensamble RF debido al método de subespacio aleatorio, donde para cada nodo
de un árbol CART se seleccionan aleatoriamente m̃ características y se elige aquella con la
partición binaria con máximo decremento de impureza. Experimentalmente el autor encontró
que un buen valor del parámetro m̃ es blog2 (m) + 1c [15]. Una vez construido el ensamble
RF, para clasificar una instancia arbitraria cada árbol emite un voto por una clase y la clase
ganadora es aquella con más votos.
El pseudocódigo para construir un ensamble RF se muestra el Algoritmo 3, donde Θ =
{Θ1 , Θ2 , . . . , Θke } es un ensamble con ke clasificadores. Debido al método de subespacio
aleatorio, la complejidad del algoritmo CART se reduce a O(N · m̃ · log(N )). Por tanto, la
complejidad del algoritmo RF es O(ke · N · m̃ · log(N ))
Breiman propuso analizar las propiedades de fuerza (s) y correlación (ρ̄) de RF para
determinar el desempeño de clasificación esperado [15]. Para definir dichas propiedades se
requieren conocer el margen (mr ) y el margen crudo (rm ). El margen mide la distancia entre
el voto promedio para la clase correcta y cualquier otra clase; por tanto, a medida que aumenta
el margen también aumenta la confianza en la clasificación [15]. Esta medida se calcula como:
donde I es la función indicatriz y ĵ(X, y) es una función que obtiene la etiqueta de clase con
mayor probabilidad dentro de las clases incorrectas para cada muestra en X, y se define como:
xi − µ i
x0i = , (2.13)
σi
donde µi y σi son el valor medio y la desviación estándar, respectivamente, de la característi-
ca xi .
22 2.3. Selección de características
Otra normalización comúnmente utilizada es llamada softmax, la cual es una técnica que
utiliza una función sigmoide para ajustar los valores de las características en el rango [−1, 1],
al mismo tiempo que reduce la influencia de valores atípicos. La normalización softmax de la
i-ésima característica está dada por [128]:
1 − exp( xiσ−µ i
)
x0i = i
. (2.14)
1 + exp( xiσ−µ
i
i
)
Esta es una transformación casi lineal para los datos cercanos a la media, y no lineal para
valores extremos, tal que se preserva la relación entre las instancias que se encuentren dentro
del rango [µi − σi , µi + σi ]. Cabe señalar que en la etapa de clasificación los patrones deben
ser normalizados de acuerdo a los valores µi y σi de las muestras de entrenamiento.
La correlación biserial puntual es una medida de asociación entre una variable discreta y
una variable continua, y se calcula como [93, 168]:
s
µp − µq Np Nq
ρb (xi , yp,q ) = , (2.15)
σp N (N − 1)
donde xi es la i-ésima característica con N muestras, yp,q son las etiquetas correspondientes
al par de clases ωp y ωq ; µp , σp , y Np son la media, desviación estándar y número de muestras,
respectivamente, de la característica xi de las muestras correspondientes a las clase ωp , y
análogamente se obtienen µq y Np para ωq .
Ambos coeficientes (ρb y ρp ) toman valores en el rango [−1, 1], donde el valor ‘−1’ indica
una total correlación negativa, el valor ‘1’ indica una total correlación positiva, y el valor ‘0’
indica que no hay correlación lineal.
(AUC, del Inglés area under the curve) [71, 175] y coeficiente de correlación de Matthews
(MCC, del Inglés Matthews correlation coefficient) [67].
La tasa de error no resulta adecuada cuando el número de instancias de las clases es muy
diferente, ya que la clase mayoritaria disminuye el efecto del error en la clase minoritaria. Por
esta razón se han propuesto índices de desempeño de clasificación para clases desbalanceadas
calculados a partir de una matriz de confusión.
Debido a que en este trabajo de investigación se utiliza LDA como clasificador subyacente,
la asignación de etiquetas de clase se realiza con un punto de corte cp = 0, tal y como se
definió en la Ecuación 2.5.
A partir de la matriz de confusión en la Tabla 2.3 se obtiene el desempeño del clasificador
26 2.4. Índices de desempeño de clasificación
Tabla 2.3: Matriz de confusión para un problema de clasificación binario, donde VP, FN, FP,
VN son el acumulado de instancias que cumplen las condiciones de las celdas.
en las instancias positivas con el índice de sensibilidad, el cual se calcula como [159]:
VP
SEN = . (2.21)
VP + FN
VN
SPE = . (2.22)
FP + VN
Por otra parte, el índice de desempeño llamado AUC es recomendado para problemas con
probabilidades de clases desbalanceadas. El índice AUC es un indicador de la separabilidad de
las distribuciones entre dos clases, ω− y ω+ , y tiene la particularidad de ser independiente del
punto de corte de clasificación [71, 175]. Además, el AUC es equivalente a la probabilidad
de que el clasificador asigne un mayor puntaje a una instancia positiva, en comparación con
una instancia negativa [46]. Considérese el vector de confianzas s cuyos valores han sido
ordenados de manera ascendente. Entonces, el índice AUC se calcula utilizando los rangos de
ordenamiento (i.e., posiciones en el arreglo ordenado) de las instancias que verdaderamente
pertenecen a ω+ como [71]:
Pn+
i=1 ri − n+ (n+ + 1)/2
AUC = , (2.23)
n+ n−
2 X AUC(ωp , ωq ) + AUC(ωq , ωp )
mAUC = , (2.24)
c(c − 1) p<q 2
2. Marco teórico 27
donde AUC(ωp , ωq ) es el índice AUC calculado para las clases ωp y ωq con la Ecuación 2.23.
TP · TN − FP · FN
MCC = p . (2.25)
(TP + FP)(TP + FN)(TN + FP)(TN + FN)
Los valores del índice MCC se encuentran en el rango [−1, 1], donde el valor ‘1’ indica
clasificación perfecta, el valor ‘0’ indica una clasificación aleatoria, y el valor ‘−1’ indica un
completo desacuerdo entre las etiquetas reales y las etiquetas asignadas por el clasificador.
Por tanto, un desempeño de clasificación adecuado debe tender a la unidad.
El índice MCC fue generalizado para problemas de más de dos clases por Gorodkin [67].
Este índice es computado a partir de una matriz de confusión multiclase M de tamaño c × c,
cuya entrada Mpq contiene el número de instancias de la clase ωp que fueron asignadas a la
clase ωq por el clasificador. Nótese que la suma de todos los elementos de M es el número
total de instancias de prueba, mientras que la suma de los elementos de la diagonal principal
de M es el número de instancias correctamente clasificadas. Asimismo, la suma de todos los
elementos fuera de la diagonal principal de M es el número de errores. Entonces, el índice
MCC multiclase se calcula como:
P
N · tr(M) − kl Mk Ml
MCC = p P p P , (2.26)
N 2 − kl Mk (MT )l N 2 − kl (MT )k Ml
donde N es el número de muestras, Mk y Ml son el k-ésimo renglón y la l-ésima columna de la
matriz de confusión, respectivamente, MT es la transpuesta de M y tr(·) es la función traza.
prueba entrenamiento
partición 1
partición 2
partición 5
entrenamiento prueba
Figura 2.4: Ejemplo de partición de un conjunto de muestras con dos clases con el método de
validación cruzada con cinco pliegues, donde un círculo blanco es una muestra de la clase ω1
y un círculo gris es una muestra de la clase ω2 .
partición 1
partición 1.1
partición 1.5
entrenamiento prueba
partición 5
partición 5.1
partición 5.5
Figura 2.5: Ejemplo de partición de un conjunto de muestras con dos clases con el método de
validación cruzada anidada con cinco pliegues en las dos etapas.
t = t · α, (2.27)
actual. Una vez hecho el reemplazo, la solución actual o el movimiento en el vecindario que
la produjo es añadido a la lista tabú. El proceso de búsqueda de soluciones en el vecindario
y reemplazo de la solución actual se repite durante un número de iteraciones o hasta que se
cumpla algún criterio de paro [167].
Dos aspectos importantes en el funcionamiento del algoritmo TS son la información en la
lista tabú y el tamaño de la lista. La lista tabú puede almacenar las soluciones previamente
visitadas cuando ésta puede ser representada con una pequeña cantidad de información. De
otra manera, la lista tabú almacena los movimientos utilizados para generar las soluciones
visitadas. Por otra parte, un tamaño pequeño de lista genera ciclos en la búsqueda mientras
que un tamaño muy grande hace la búsqueda muy restrictiva [167].
El pseudocódigo de TS se presenta en el Algoritmo 5, donde Nt (z) es una función que
obtiene los vecinos de una solución z.
j
zi,0 j
= zmı́n j
+ rand(0, 1)(zmáx j
− zmı́n ), (2.28)
donde rand(0, 1) es un número aleatorio en el rango [0, 1] tomado de una distribución uniforme.
El operador de mutación crea un vector donante vi,g mediante la estrategia current-to-
pbest, cuya característica es la exploración de diversas regiones del espacio de búsqueda y se
expresa como:
vi,g = zi,g + F (zpbest,g − zi,g ) + F (zr1,g − zr2,g ), (2.29)
donde F es un factor de mutación aleatorio en el rango [0.5, 1], zpbest,g es un vector tomado
aleatoriamente del conjunto de los p · N P mejores individuos en Zg , zr1,g y zr2,g son vectores
tomados aleatoriamente de la población Zg [33], donde p toma valores en el rango (0, 1].
El operador de cruza genera un individuo hijo ui,g al intercambiar información entre un
individuo padre y su correspondiente individuo donante. De esta manera, la cruza binomial se
define como: (
j
vi,g si rand(0, 1) < CR ∨ j = jrand
j
ui,g = , (2.30)
j
zi,g en otro caso
donde CR es la probabilidad de cruza y jrand es un número entero tomado aleatoriamente en
el rango [1, d]. La probabilidad de cruza CR decrece linealmente con las generaciones de un
valor inicial 1 a un valor final 0.5 [14].
Para garantizar que el individuo hijo esté dentro del espacio de búsqueda, se aplica la técnica
bounce-back, la cual restablece la variable que viola los rangos de búsqueda como [129]:
(
j
zi,g j
+ rand(0, 1)(zmı́n j
− zi,g ) si uji,g < zmı́n
j
uji,g = (2.31)
j j j
zi,g + rand(0, 1)(zmáx − zi,g ) si uji,g > zmáx
j
.
34 2.6. Metaheurísticas para optimización global
Una vez aplicados los operadores de mutación, cruza y selección, el individuo padre reem-
plazado se almacena en el archivo A y los valores de Fi y CRi se almacenan en las memorias
SF y SCR , respectivamente.
y P
CR∈SCR CR
µCR = (1 − c) · µCR + c · , (2.36)
|SCR |
donde |SCR | es el número de elementos en la memoria SCR y la constante c = 0.1. El
pseudocódigo de JADE se muestra en el Algoritmo 8.
36 2.6. Metaheurísticas para optimización global
El algoritmo PSO fue propuesto por Eberhart y Kennedy [44] para la búsqueda en
espacios continuos. Está basado en el comportamiento colectivo de los animales, como los
peces, los cuales se mueven en conjunto para evitar a sus depredadores [183].
En el algoritmo PSO una posible solución es una partícula z, la cual tiene una posición
en el espacio, una dirección de movimiento y una velocidad. Para explorar posibles soluciones,
cada partícula se mueve utilizando el conocimiento de la mejor posición obtenida por ella y la
mejor posición posición obtenida por el cúmulo de partículas. Además, el movimiento de cada
partícula incluye una perturbación aleatoria para evitar estancarse en óptimos locales.
La optimización PSO inicia aleatoriamente la velocidad y posición de las partículas en el
espacio de búsqueda. Posteriormente la optimización entra en un ciclo de actualización de
las velocidades y posiciones de cada partícula [127]. El criterio de paro es arbitrario, siendo
comúnmente utilizado un número máximo de iteraciones.
El desempeño de PSO es influenciado por la actualización de las velocidades de las partícu-
las. La velocidad vi,g para la i-ésima partícula zi,g en la iteración g se actualiza como [44, 152]:
41
42 3.1. Clasificación multiclase basada en descomposición binaria
abordarlos directamente con un solo clasificador [2, 7, 56–58, 81, 92, 122, 135, 146]. A los cla-
sificadores de los subproblemas binarios comúnmente se les denomina como clasificadores base.
La descomposición binaria posibilita el uso de clasificadores binarios y simplifica los algoritmos
de clasificación multiclase complejos [81, 104]; facilita la paralelización de la construcción del
modelo de clasificación debido a que los clasificadores base pueden ser entrenados de manera in-
dependiente [146]; y posibilita la especialización de distintos hiperplanos de decisión utilizando
diferentes algoritmos de clasificación o diferentes parámetros de entrenamiento [55, 94, 120].
Los dos esquemas de descomposición binaria más utilizados son enfoque modular [7] y pares
de clases [55], aunque son mejor conocidos como OVA y OVO, respectivamente [58, 146]. Cabe
mencionar que en la literatura existe una falta de homogeneidad en el nombre de los esquemas
de descomposición OVA y OVO, dificultando la comparativa de los trabajos relacionados.
Por ejemplo, el esquema OVA también es llamado uno-contra-el-resto [13], mientras que el
esquema OVO también recibe los nombres de acoplamiento entre pares [74], aprendizaje round-
robin [57], clasificación por parejas [56] y todos-contra-todos [5, 135].
El esquema OVA fue propuesto en 1995 por Anand et al. [7] para simplificar el entrena-
miento de una ANN multiclase e incrementar su desempeño de clasificación en términos de
error de clasificación [7]. Por otro lado, el esquema OVO fue propuesto en 1996 por Fried-
man [55] para mejorar el desempeño de clasificación de los algoritmos k-NN, DT y ANN,
mediante la generación de fronteras de decisión entre todos los posibles pares de clases. Los
esquemas de descomposición OVA y OVO presentan diversas ventajas y desventajas, las cuales
se resumen en la Tabla 3.1 [21, 24, 60, 88, 135, 146, 146].
En varias propuestas el esquema OVO ha sido preferido frente al esquema OVA debido a sus
ventajas [21, 60, 146], aunque para definir el mejor enfoque de descomposición se han realizado
diferentes estudios comparativos, donde concluyen que la descomposición OVA obtiene mejores
o iguales resultados que OVO [112, 135]. Contrariamente, algunos otros estudios afirman que
la descomposición OVO obtiene mejores resultados que OVA [56–58, 81, 126]. Debido a las
diferentes conclusiones de los estudios comparativos, se deduce que la selección del esquema
de descomposición más adecuado es dependiente de la aplicación.
Por otra parte, cabe señalar que los esquemas de descomposición binaria no son consi-
derados ensambles de clasificadores por algunos autores [60, 185], ya que cada clasificador
base solamente resuelve una parte del problema de clasificación, mientras que en los ensam-
bles todos los clasificadores base resuelven el mismo problema. Sin embargo, de acuerdo con
Bagheri et al. [8], se tienen algunas similitudes con los ensambles de clasificadores, ya que
múltiples clasificadores son especializados y sus salidas son combinadas para obtener una res-
puesta global. Además, combinar las salidas de los múltiples clasificadores base resulta efectiva
si sus errores no se encuentran correlacionados.
3. Estado del arte 43
estará dada por alguno de los dos clasificadores con mayor magnitud de confianza. Por
tanto, los errores de clasificación en la estrategia MC pudieran ser corregidos utilizando
la clase asociada al segundo clasificador con mayor magnitud.
Los clasificadores base en la descomposición OVO tienen una alta exactitud para distin-
guir entre el par de clases para el cual fueron entrenados. Por tanto, sería adecuado reali-
zar la asignación de clase utilizando un clasificador base que distinga a la clase verdadera.
De esta manera, para clasificar una observación arbitraria en la estrategia AO, primero se
evalúan todos los clasificadores base de la descomposición OVA y se identifican los dos clasifi-
cadores con la mayor confianza. Esto determina el par de clases asociado a un clasificador base
en la descomposición OVO, el cual asigna la etiqueta de clase final. Debido a su definición,
la estrategia AO no presenta empates entre clases y tampoco es necesaria una regla especial,
como en el caso de DOO, cuando ningún clasificador tiene una respuesta positiva a su clase
asociada. La estrategia AO ha mejorado los resultados obtenidos por la estrategia MC utili-
zando ANN y SVM como clasificadores base [59]. Sin embargo, la mejoría en el desempeño
de clasificación viene acompañada de un mayor costo computacional, pues requiere entrenar
todos los clasificadores base de las descomposiciones OVA y OVO, es decir, entrenar un total
de c(c + 1)/2 clasificadores base.
La estrategia DOO fue propuesta en 2008 por Hong et al. [78] para dar solución a
los empates en la estrategia MC, cuando más de un clasificador base emite una confianza
positiva. Esta estrategia se propuso originalmente para resolver el problema de reconocimiento
de huellas digitales. Primero se entrenan los c clasificadores base y un clasificador NB usando
las muestras de entrenamiento. Las probabilidades a posteriori de las clases (obtenidas con el
clasificador NB) son ordenadas descendentemente para definir el orden en que serán evaluados
los clasificadores base. Finalmente, la etiqueta de clase es asignada por el primer clasificador
base con respuesta positiva a su clase asociada. En caso de que no exista algún clasificador
base con respuesta positiva, entonces se asigna la clase dada por el clasificador con máxima
confianza, es decir, el de menor magnitud negativa.
La estrategia DOO construye fronteras de decisión no lineales aunque los clasificadores
base sean lineales, esto debido a la no linealidad del clasificador NB. Además, esta agregación
ha obtenido mejores resultados que la estrategia MC, utilizando como clasificador base a los al-
goritmos k-NN, C4.5 y Ripper [58], y también ha mejorado el desempeño de la descomposición
OVO usando SVM como clasificador base [78].
Por otra parte, las principales estrategias de agregación OVO pueden dividirse en estrategias
basadas en la matriz de confianzas y basadas en grafos. Dentro de la primera se encuentran
votación binaria (BV, del Inglés binary voting ) [55], votación ponderada (WV, del Inglés
weighted voting ) [55, 74] y voto anidado (NV, del Inglés nesting vote) [100], mientras que
3. Estado del arte 45
distingue un par de clases y se encuentra conectado a dos nodos hijo, cada uno de los cuales
está relacionado a una de las clases que separa el nodo padre. Por otra parte, los nodos hoja
determinan la etiqueta de clase asignada por la agregación DDAG. Al evaluar una observación
arbitraria en un nodo del grafo se sigue el camino indicado por la clase ganadora y se descartan
los nodos relacionados a la clase perdedora. La agregación DDAG evita empates entre clases,
es decir, no genera una región no clasificable. Además, la agregación DDAG tiene una salida
similar a la agregación BV cuando c − 1 clasificadores base responden de manera positiva
a una clase.
El número total de configuraciones del grafo para un problema de c clases es c!/2 [131],
por lo que establecer el orden del grafo mediante una búsqueda exhaustiva no es viable para
problemas con un alto número de clases. Diferentes autores han sugerido que una posible
estructura del grafo DDAG se obtiene colocando los subproblemas más fáciles en los niveles
superiores y los subproblemas más complejos en los nodos hoja [47, 166]. De esta manera se
reduce la propagación del error en los caminos del grafo [131].
En 2016, Quiterio y Lorena [131] realizaron un estudio sobre el desempeño de clasi-
ficación utilizando diferentes estructuras de grafos DDAG. Los autores encontraron que los
desempeños de las diferentes estructuras no varían notablemente, por lo que el desempeño
obtenido con una estructura aleatoria es competitivo comparado con el desempeño obtenido
con una estructura establecida a través de una heurística [131].
Las principales propiedades de las estrategias de agregación presentadas en esta sección se
listan en la Tabla 3.2. La mayoría de estas estrategias fueron propuestas para disminuir el error
de clasificación de clasificadores inherentemente multiclase, con excepción de la agregación
DOO que fue propuesta para el reconocimiento de huellas digitales.
clases menos separables. Por tanto, las características de las clases menos separables se verían
relegadas por aquellas características de las clases más fácilmente separables. A estos problemas
de preferencia de características se les conoce como siren pitfall.
Por tal motivo, Forman propone abordar el problema de ordenamiento de características
en problemas multiclase con la descomposición OVA, ordenando cada subproblema por la rele-
vancia de las características y después utilizando dichos ordenamientos en conjunto para evitar
relegar características discriminantes para alguna clase. Entonces, en el algoritmo SpreadFx
se toma una característica de cada subproblema binario y se colocan en un vector ordenado.
Una vez que una característica es seleccionada, esta es eliminada de todos los ordenamientos
de los subproblemas binarios. Este proceso de selección de bloques de características se repite
iterativamente hasta que todas las características han sido colocadas en el vector ordenado.
Forman encontró que utilizando el algoritmo SpreadFx para seleccionar características en un
proceso secuencial se obtiene un mejor desempeño de clasificación en comparación con los
métodos tradicionales de ordenamiento de características basados en entropía [53].
En 2012, Wang y Tang [175] propusieron el algoritmo MDFS basado en la descompo-
sición OVO para ordenar las características en problemas multiclase. El algoritmo MDFS fue
diseñado para evitar el problema de siren pitfall. El problema multiclase se simplifica mediante
el esquema OVO, donde las características de cada subproblema son ordenadas de acuerdo
sus valores de relevancia. El AUC es utilizado como índice de relevancia. Posteriormente, la
característica con mayor relevancia para cada subproblema se coloca en un vector ordenado.
Este procedimiento de selección de bloques de característica se repite de manera iterativa
48 3.1. Clasificación multiclase basada en descomposición binaria
hasta que todas las características hayan sido ubicadas en el vector ordenado, eliminando de
todos los subproblemas binarios aquellas características que ya han sido previamente seleccio-
nadas. Los autores encontraron que los subconjuntos de características seleccionados con el
algoritmo MDFS obtiene un mejor desempeño de clasificación en comparación con el algo-
ritmo SpreadFx [175]. No obstante, el método MDFS no toma en cuenta la redundancia de
características, por lo que los subconjuntos de características seleccionados con dicho método
pueden aún ser reducidos utilizando un algoritmo de selección de características por retroceso.
Por otra parte, han surgido algunos tipos entrenamiento de clasificadores basados en la
selección de características para mejorar la separación de las clases en los esquemas OVA
y OVO. El objetivo ha sido mejorar el desempeño de clasificación de los mecanismos de
entrenamiento tradicionales, donde solamente se toma en cuenta un conjunto de características
que discrimine todas las clases en un problema. Los dos trabajos más representativos en este
ámbito fueron propuestos por Wang et al. [174] y Pineda-Bautista et al. [125].
En 2008, Wang et al. [174] propusieron un ensamble de dos clasificadores multiclase,
ambos basados en el esquema OVA u OVO, donde el primero es entrenado con caracterís-
ticas relevantes para discriminar cada clase, y el segundo es entrenado con un conjunto de
características en común para todos clasificadores base. Primero se obtiene un vector de ca-
racterísticas ordenado para cada subproblema utilizando un enfoque filtro como RELIEF [90]
o mrMR [124]. Posteriormente se realiza una selección de características hacia adelante, con
ascenso de colina, de manera independiente para cada subproblema, utilizando como clasifica-
dor una SVM [21]. Con este proceso se construye un primer clasificador multiclase. Además, se
entrena un segundo clasificador multiclase utilizando un conjunto de características formado
por la unión de todos los vectores de características utilizados en el primer clasificador multi-
clase. El producto de la salida de los clasificadores base de ambos clasificadores multiclase es
utilizado para determinar la clase ganadora con la agregación MV o MC. Cabe mencionar que
el ensamble no considera un mecanismo para determinar los mejores parámetros de la SVM.
El ensamble fue evaluado con conjuntos de datos sintéticos y conjuntos de datos de la
literatura, obteniendo un error igual o menor que un clasificador basado en descomposición
multiclase con un conjunto de características común para todos los clasificadores base, aunque
no se reportaron pruebas estadísticas de la ventaja obtenida. Sin embargo, el máximo número
de características seleccionadas y los parámetros de los clasificadores fueron establecidos de
manera arbitraria para simplificar el problema de selección de características y reducir el tiempo
de cómputo. También, al realizar un proceso de selección de características basado en la
minimización del error no se toma en cuenta el desbalance de clases. Además, debido a que
los procesos de selección de características son independientes, no se consideraron las posibles
interacciones entre los clasificadores base.
En 2011, Pineda-Bautista et al. [125] propusieron una arquitectura de cuatro etapas
3. Estado del arte 49
Tabla 3.3: Principales propiedades de los enfoques que utilizan las descomposiciones binarias
OVA y OVO para el ordenamiento de características o para la selección de características en
ensambles de clasificadores.
Descomposición -
Objetivo Ventajas Desventajas Ref.
dominio
El ordenamiento de
características es menos
Ordenamiento
OVA - clasificación sensible al problema siren No toma en cuenta la
de [53]
de textos pitfall que los métodos redundancia de características.
características
tradicionales basados en
entropía.
Subconjuntos de
OVO - propósito características con menor No toma en cuenta la
[175]
general error de clasificación que redundancia de características.
usando el método [53].
No presenta un mecanismo de
ajuste de parámetros del
clasificador. Número máximo
Error de clasificación menor o de características arbitrario.
Ensamble de OVA y OVO -
igual que un clasificador No se consideran las [174]
clasificadores propósito general
basado en OVA u OVO. interacciones entre los
clasificadores base. No se
considera el posible
desbalance de clases.
No presenta un mecanismo de
ajuste de parámetros del
En la mayoría de los casos
clasificador. Las parejas de
OVA - propósito presenta un menor o igual
clases en cada clasificador [125]
general error de clasificación que un
multiclase son separadas con
clasificador multiclase OVO.
el mismo conjunto de
características.
No presenta un mecanismo de
ajuste de parámetros del
Error de clasificación menor o clasificador. No se consideran
OVA - clasificación
igual que un clasificador las interacciones entre los [111]
de materiales
basado en OVA. clasificadores base. No se
considera el posible
desbalance de clases.
por los ensambles se debe a que la unión de los clasificadores construye grandes márgenes entre
clases. La segunda teoría menciona que los ensambles son mecanismos de reducción de varianza
y sesgo de la clasificación. Entonces, los ensambles maximizan de manera indirecta los márgenes
entre clases dado que el margen del ensamble puede ser expresado en términos de varianza
y sesgo, y viceversa. La tercer teoría considera que cada clasificador del ensamble genera
una posible separación de regiones de las clases en el espacio de características, de manera
que el conjunto de separaciones obtiene una separación cercana a la esperada, alcanzando un
desempeño de clasificación dominado por la ley de los grandes números [133].
Por otra parte, Dietterich [37] menciona tres razones prácticas por las cuales frecuente-
mente los ensambles de clasificadores tienen un mejor desempeño de clasificación en compara-
ción con los clasificadores base individuales. La primer razón es estadística. Cuando los datos
de entrenamiento son limitados, un algoritmo de clasificación puede encontrar diferentes fron-
teras de decisión que separen con la misma exactitud al clasificar los datos de entrenamiento.
3. Estado del arte 51
Por tanto, para reducir la probabilidad de elegir un modelo de clasificación equivocado se pue-
den combinar las salidas de diferentes clasificadores base. La segunda razón es computacional.
Diversos algoritmos de clasificación utilizan algoritmos de búsqueda para encontrar y definir
regiones en el espacio de características que separen las observaciones de clases diferentes. Sin
embargo, dichas búsquedas se encuentran basadas en heurísticas, ya que la búsqueda exhausti-
va para encontrar la mejor solución generalmente resulta inviable [37]. Además, los algoritmos
de búsqueda empleados pueden estancarse en óptimos locales, resultando diferentes soluciones
al utilizar distintos puntos iniciales. Por tanto, al entrenar diferentes clasificadores base con
búsquedas que parten de diferentes puntos iniciales, se puede obtener una mejor aproximación
de las verdaderas regiones de las clases en el espacio de características. La tercer razón es
para abordar el problema de representación limitada. En ocasiones no es posible representar
la verdadera frontera de decisión con un solo clasificador base, aunque al utilizar un ensamble
de clasificadores aumenta el espacio de soluciones y se puede aproximar mejor la verdadera
frontera de decisión.
La construcción de un ensamble de clasificadores involucra dos etapas [8]. En la primera
etapa se entrena una diversidad de clasificadores base cuyos errores no se encuentren corre-
lacionados, de manera que las limitantes de un solo clasificador puedan ser superadas por la
respuesta general del ensamble [123]. En la segunda etapa se establece una regla de com-
binación de las salidas de los clasificadores base para obtener una salida del ensamble. La
diversificación de la salida de los clasificadores base en un ensamble se logra manipulando los
siguientes elementos: observaciones de entrenamiento, características de los datos de entrena-
miento, etiquetas de clase, y parámetros de los clasificadores [37].
Los ensambles de clasificadores usualmente son catalogados de acuerdo a los métodos
para generar diversidad entre los clasificadores base. Dos métodos ampliamente utilizados en
la literatura debido a la efectividad que han obtenido en la práctica son llamados boosting y
bagging, ambos métodos son de manipulación de observaciones [185].
En el método de boosting se entrena un clasificador base utilizando todos los datos de
entrenamiento. Posteriormente se entrena un nuevo clasificador base enfocado principalmente
en reducir el error del primer clasificador. De esta manera se entrenan una serie de clasificadores
poniendo cada vez mayor énfasis en el aprendizaje de las observaciones previamente clasificadas
de forma incorrecta [42, 185].
El método de boosting más representativo es llamado Adaboost, el cual fue creado en
1995 por Freund y Schapire para construir un clasificador con una alta exactitud a partir de
clasificadores con un desempeño poco mayor que una clasificación aleatoria [54]. Sin embargo,
el algoritmo Adaboost fue originalmente diseñado para datos sin muestras atípicas [185] y
su desempeño está limitado cuando existen datos atípicos [15]. La limitante del algoritmo
Adaboost proviene del aprendizaje iterativo de las observaciones erróneamente clasificadas, ya
52 3.2. Ensambles de clasificadores
Por otra parte, en el método de bagging (o agregación bootstrap) se entrenan una serie
de clasificadores utilizando en cada uno de ellos un conjunto de observaciones tomadas de
manera aleatoria del conjunto original de datos de entrenamiento. En general, el método de
bagging ayuda a mejorar el desempeño de clasificadores que poseen una alta variabilidad en
su clasificación debido a pequeñas variaciones en los datos [42, 185].
De acuerdo con Breiman, el algoritmo RF obtiene resultados al menos tan buenos como
el algoritmo Adaboost; sin embargo, es más robusto a datos atípicos y ruidosos, y requie-
re de un menor tiempo de entrenamiento [15]. Esto fue confirmado en un extenso estudio
comparativo utilizando 121 conjuntos de datos, en el que RF obtuvo de manera general un
desempeño significativamente mejor que el algoritmo Adaboost [50]. En el mismo estudio,
RF también obtuvo el mejor desempeño de clasificación en una extensa comparativa de 179
clasificadores [50]. Además, debido a su buen desempeño reportado en la literatura, RF ha sido
utilizado en diferentes problemas del mundo real como en la clasificación de vegetación usando
imágenes satelitales [84], diagnóstico de la enfermedad renal crónica [164], para diferenciar
entre pacientes con demencia y pacientes con Alzheimer [35], y clasificación histopatológica
de lesiones de mama [1, 148].
En la Tabla 3.4 se presentan las principales características de los ensambles Adaboost [54]
y RF [15]. Ambos ensambles fueron propuestos como clasificadores de propósito general y se
caracterizan por obtener un menor error de clasificación en comparación con sus clasificado-
res base, por lo que han sido adoptados para abordar problemas de clasificación del mundo
real [185].
3. Estado del arte 53
Mecanismos de
Ensamble generación de Ventajas Desventajas Ref.
diversidad
El entrenamiento se ve
afectado por datos atípicos o
ruidosos. Selección de
Menor error de clasificación características con mayor
Adaboost Boosting [54]
que los clasificadores base. costo computacional en
comparación con la requerida
por un clasificador
inherentemente multiclase.
Mayor costo computacional de
Error de clasificación similar al
selección de características en
Bagging y presentado por el ensamble
RF comparación con un [15]
subespacio aleatorio Adaboost [54], aunque menos
clasificador inherentemente
afectado por datos atípicos.
multiclase.
se realizó con regresión logística (LR, del Inglés logistic regression) multinomial y la prueba
del sistema fue hecha con CV con diez pliegues. Los resultados obtenidos fueron reportados
con un índice denominado nivel de malignidad, el cual indica el porcentaje de casos malignos
en una categoría BI-RADS. Los niveles de malignidad para las categorías BI-RADS 3, 4 y 5
fueron 1.63 %, 40.23 % y 94.74 %, respectivamente. Al considerar los casos de la categoría 3
como benignos y los casos de las categorías 4 y 5 como malignos, obtuvieron un error del 27 %,
sensibilidad del 98.19 % y especificidad del 59.46 %. En un segundo experimento se excluyeron
las predicciones de la categoría 4, resultando en una mejora del desempeño de clasificación
con un error de 2.78 %, sensibilidad del 96.46 % y especificidad del 97.58 %. Sin embargo,
este enfoque no consideró la categoría 2 en sus pruebas y los resultados no se reportaron en
términos de índices de desempeño de clasificación multiclase.
Aunque solamente se ha reportado un trabajo para la clasificación BI-RADS de lesiones de
mama en la literatura, existen una variedad de propuestas que utilizan características relacio-
nadas al léxico BI-RADS para clasificar las lesiones en las clases benigna y maligna.
En 2007, Shen et al. [150] propusieron el uso de ocho descriptores cuantitativos para
representar los descriptores de léxico BI-RADS para masas. Para medir el desempeño de los
descriptores establecieron una clasificación basada en LR y CV con diez pliegues, obteniendo
un error del 8.30 %, sensibilidad del 90.59 %, especificidad del 92.22 % y AUC de 0.97. Los
autores señalan que el descriptor más importante fue la característica angular del margen,
mientras que las menos relevantes fueron la orientación y la característica posterior acústica.
En 2011, Calas et al. [18] estudiaron el desempeño de cinco descriptores morfológicos
evaluados de manera independiente para la clasificación de lesiones en categorías BI-RADS
distribuidas en dos grupos, 2–3 y 4–5. Se entrenó un clasificador basado en LDA, con validación
LOOCV. El mejor desempeño de clasificación lo obtuvo el descriptor denominado razón de
superposición con un error del 15 %, sensibilidad del 81 %, especificidad del 89.5 % y AUC
de 0.86. Este trabajo presenta los siguientes inconvenientes: no se estudiaron combinaciones
de descriptores, no se incluyeron descriptores de textura, y la clasificación de categorías BI-
RADS se redujo a una clasificación binaria. Una combinación de descriptores, utilizando al
mismo tiempo descriptores de textura, hubieran podido reducir el error de clasificación.
En 2012, Chabi et al. [20] evaluaron el desempeño de diagnóstico de radiólogos jóvenes
y experimentados al utilizar un sistema CAD comercial (B-CAD versión 2, Medipattern®).
Este sistema clasifica la lesión en dos posibles rangos, categorías 2–3 (lesión benigna) y ca-
tegorías 4–5 (probablemente maligna). Cuatro radiólogos participaron en el experimento, dos
jóvenes (con entrenamiento menor a un año) y dos experimentados (con más de cinco años
de entrenamiento). Se les pidió diagnosticar las imágenes, primero sin el apoyo del sistema
B-CAD y posteriormente haciendo uso del sistema. Los autores concluyeron que el sistema
B-CAD ayuda en mayor medida a mejorar el diagnóstico de radiólogos jóvenes, aumentando la
3. Estado del arte 55
un error del 20 %, sensibilidad del 76 %, especificidad del 81 % y AUC de 0.83. Los resulta-
dos indican que se obtiene un mejor desempeño de clasificación al extraer los descriptores de
textura a partir de la representación ranklet debido a su robustez a cambios monotónicos de
intensidad en la imagen. No obstante, dicha ventaja en el desempeño también pudo deberse a
que la selección de características fue basada en la reducción del error en el conjunto completo
de datos, sin considerar conjuntos de validación.
En 2016, Shan et al. [148] evaluaron el desempeño de cuatro algoritmos de aprendizaje
supervisado para la clasificación binaria de lesiones de mama: SVM con núcleo Gaussiano,
ANN, DT, y RF. Se utilizaron 10 atributos relacionados al léxico BI-RADS para masas. Para
medir el desempeño de clasificación realizaron una selección de características abajo-arriba
(BU, del Inglés bottom-up) con CV con diez pliegues. El mejor resultado en términos de AUC
lo obtuvo el clasificador SVM con 0.842, seguido de RF (0.828), ANN (0.823) y DT (0.803),
aunque RF obtuvo el menor error (21.5 %) y el mejor coeficiente de correlación de Matthews
(0.572), mientras que obtuvo una sensibilidad del 75.3 % y especificidad del 82.0 %. Los re-
sultados mostraron que las dos características más importantes están orientadas a describir
la orientación y el margen de la lesión. Sin embargo, estos resultados están sobrestimados,
ya que se obtuvieron al realizar tanto la selección de características como la evaluación del
clasificador de manera simultánea durante la validación cruzada [158].
En la Tabla 3.5 se presentan la descripción y limitantes de los trabajos de clasificación de
lesiones de mama relacionados al BI-RADS. Además, la Tabla 3.6 presenta una comparativa
de los métodos utilizados por los sistemas CAD. Se anexan con fines comparativos 11 trabajos
relacionados con la clasificación de lesiones de mama en clases histopatológicas, los cuales no
hacen uso del sistema BI-RADS.
Tabla 3.5: Descripción y limitantes de los trabajos de clasificación de lesiones de mama rela-
cionados al BI-RADS.
Selección de
Muestras Seg. Descriptores Card. Clasificador Validación Resultados Ref. Año
descriptores
Error SEN ESP AUC
156 C C 20 BE LR LOOCV 18.6 83.30 79.50 0.852 [114] 2017
283 M C 5 BU RF CV 21.5 75.30 82.00 0.828 [148]+ 2016
520 M - - - DL CV 17.60 78.70 85.70 89.60 [28] 2016
69 C T 10 BE LR LOOCV 20.00 76.00 81.00 0.830 [102]+ 2015
210 C C 8 AIS SVM CV 3.33 96.67 96.67 0.982 [179] 2015
138 M T 80 - SVM BS 16.83 83.36 83.42 0.862 [17] 2015
641 C M 5 MI LDA .632+ - - - 0.942 [52] 2015
69 C C 38 BE LR LOOCV 12.00 86.00 90.00 0.950 [115]+ 2013
253 C C 38 BE LR-DT LOOCV - 90.00 - 0.960 [116]+ 2013
193 M T 72 - SVM .632+ 13.65 79.56 89.35 0.940 [182] 2013
161 M T 72 - SVM .632+ 15.42 81.50 86.19 0.920 [182] 2013
116 M T 72 - SVM .632+ 18.32 69.66 87.55 0.900 [182] 2013
391 C C 3 - ANN CV - - - 0.838 [147] 2013
100 M T 27 - KNN CV 19.00 - - 0.803 [108]+ 2012
246 C C 5 LI LDA LOOCV 14.63 83.68 89.86 0.881 [4] 2012
436 C T 17 MI LDA .632+ 16.95 78.02 88.11 0.870 [64] 2012
168 C T 100 - SOM-SVM CV 8.93 86.11 94.79 0.960 [39] 2012
210 C C 5 GA SVM CV 4.76 4.76 93.33 0.961 [178] 2012
110 M M 19 - SVM CV - 73.60 78.90 0.824 [170] 2012
40 C M 1 Manual LDA LOOCV 15.00 81.00 89.50 0.860 [18]+ 2011
426 C C 8 - LR CV 27.00 98.19 59.46 - [151]+ b 2007
265 C C 8 - LR CV 8.30 90.59 92.22 0.970 [150]+ 2007
+
Implementan el léxico BI-RADS.
b Implementan clasificación en categorías BI-RADS.
Tipo de segmentación: manual (M), computarizada (C).
Tipo de descriptores: morfológicos (M), de textura (T ), morfológicos y de textura (C).
Resultados en términos de porcentaje de error (Error), sensibilidad (SEN), especificidad (ESP), y en términos de AUC.
Otras abreviaturas: sistema inmune artificial (AIS, del Inglés artificial immune system), independencia lineal (LI, del Inglés lineal
independence), algoritmo genético (GA, del Inglés genetic algorithm), mapa auto-organizado (SOM, del Inglés self-organizing map),
aprendizaje profundo (DL, del Inglés deep learning ) y remuestreo con resubstitución (BS, del Inglés bootstrap).
59
Análisis de esquemas de descomposición binaria
4
Este capítulo se divide en seis secciones, en las cuales se analiza la separación de clases
en las descomposiciones binarias OVA y OVO, y el desempeño de clasificación de Bayes en
el problema de clasificación BI-RADS. En la primera sección se presenta el banco de datos
utilizado en esta investigación, el cual incluye la descripción del conjunto de ultrasonografías
de mama y las características cuantitativas que fueron extraídas para representar la forma y
textura de cada lesión. En la segunda sección se describe la metodología utilizada para evaluar
la separación de clases en los esquemas de descomposición binaria OVA y OVO. En la tercera
sección se presenta un análisis de correlación de la relevancia de las características en las
descomposiciones binarias. En la cuarta sección se detallan los resultados de la separación de
clases. En la quinta sección se expone el desempeño de clasificación de Bayes. Finalmente en
la sexta sección se presentan las conclusiones del capítulo.
61
62 4.1. Descripción del banco de datos
Rio de Janeiro, Brasil. El comité de ética del INCa aprobó este estudio (protocolo 38/2001).
Las imágenes fueron adquiridas con tres equipos de ultrasonido: Logiq P6 (General Electric),
Logiq 5 (General Electric) y Sonoline Sienna (Siemens). Todas las imágenes fueron obtenidas
con transductores de arreglo lineal con frecuencias entre 7.5 y 12 MHz.
Las edades de las pacientes se encuentran en el rango de 16 a 97 años, mientras que la
media etaria fue de 47 años. Todas las imágenes fueron obtenidas de pacientes con indicación
de biopsia y la distribución histopatológica de las lesiones se muestra en la Figura 4.1, de las
cuales 964 imágenes corresponden a lesiones benignas y 428 a lesiones malignas.
50
Benigna
40 Maligna
Porcentaje (%)
30
20
10
0
Quiste
Otros
Adenosis
Otros
Carcinoma papilar
Cambios
Lipoma
Necrosis
Fibroadenoma
fibroquísticos
Papiloma
Adenocarcinoma
de grasa
invasivo
in situ
Carcinoma ductal
Carcinoma ductal
invasivo
in situ
Carcinoma lobular
Carcinoma lobular
Figura 4.1: Distribución histopatológica de los tipos de lesión de mama en el banco de ultra-
sonografías.
Además, las imágenes fueron diagnosticadas con base en el sistema de clasificación BI-
RADS por un radiólogo con 15 años de experiencia. El especialista comparó la lesión con el
diagnóstico histopatológico y clasificó la lesión en la categoría más apropiada de acuerdo a la
definición de clasificación BI-RADS. Se usó dicho procedimiento para reducir la variabilidad
en la clasificación [18].
Del total de las imágenes con lesiones, 475 fueron diagnosticadas con categoría 2 (C2), 319
con categoría 3 (C3), 483 con categoría 4 (C4) y 115 con categoría 5 (C5). La distribución
de clases histopatológicas, benigna y maligna, se muestra junto con la distribución de las
categorías BI-RADS en la Figura 4.2. El entrenamiento de un clasificador utilizando clases
formadas a partir de una relación entre clases histopatológicas y categorías BI-RADS fue
propuesto por Shen et al. [151] para abordar la clasificación en categorías BI-RADS, por
lo que en esta investigación se consideran cinco clases: lesión benigna con categoría 2 (C2),
lesión benigna con categoría 3 (C3), lesión benigna con categoría 4 (C4b), lesión maligna con
4. Análisis de esquemas de descomposición binaria 63
40
35 Benigna
30 Maligna
Porcentaje (%)
25
20
15
10
5
0
C2 C3 C4 C5
BI-RADS
(a) (b)
Figura 4.3: Ejemplos de lesiones de mama en ultrasonografías con clases (a) C2, (b) C3,
(c) C4b, (d) C4m y (e) C5.
de intensidad entre la lesión y su fondo. Los autores reportaron que este método presentó
alta exactitud y precisión en relación a delineaciones manuales realizadas por dos radiólogos.
Asimismo, ha mostrado su efectividad en diversos sistemas CAD para ultrasonido de mama [18,
64–66, 118].
En la Figura 4.4 se muestra un ejemplo de una imagen de ultrasonido de mama segmentada
con el método basado en la transformación watershed . La lesión segmentada es una imagen
binaria que representa la forma de la lesión, la cual es usada para calcular características
morfológicas. Además, los límites de la forma binaria de la lesión determinan la mínima región
de interés que contiene a la lesión en la imagen de ultrasonido, la cual es utilizada para el
cálculo de características de textura.
(a) (b)
Figura 4.4: (a) Ultrasonografía de mama segmentada con el método basado en la transfor-
mación watershed . El contorno blanco indica la segmentación de la lesión, mientras que el
rectángulo blanco discontinuo señala la mínima región de interés. (b) Forma binaria de la
lesión.
de forma, orientación y margen son descritas con características morfológicas, mientras que
el margen, patrón de eco y característica posterior se cuantifican mediante características de
textura. En la Tabla 4.1 se listan 30 características morfológicas y 150 de textura asociadas
al léxico BI-RADS, cuyos detalles de implementación se pueden consultar en sus respectivas
referencias.
Las características cualitativas BI-RADS describen diferentes aspectos de la lesión [96, 110,
119]:
Característica
Característica cuantitativa Técnica computacional
BI-RADS
Convexidad, valor residual normalizado, y razón Envolvente
Forma (M)
de superposición convexa [4, 83, 178]
Razón de área, rugosidad del contorno, entropía,
Firma del contorno [4, 29]
media, desviación estándar, y cruces por cero
Extensión, factor de forma, y circularidad Geometría [25, 29, 80, 83]
Forma, eje mayor y eje menor de la elipse, y
Elipse equivalente [115, 150]
relación de aspecto entre los ejes de la elipse
Orientación Ángulo del eje mayor Elipse equivalente [150]
(M) Relación profundidad anchura Geometría [25, 80]
Margen (M) Anfractuosidad, distancia proporcional Elipse equivalente [3, 25]
Número de lobulaciones notables,
Mapa de distancias [150, 151]
espiculaciones, y característica de margen
Índice de homogeneidad del área de los lóbulos,
índice de protuberancias y depresiones Envolvente convexa [83]
significativas
Esqueleto normalizado elíptico, número de
Esqueleto morfológico [25]
puntos terminales del esqueleto
Dimensión fractal con el método de cajas
(d = {1/4, 1/8, . . . , 1/128} y
Firma del contorno [132]
d = {1/5, 1/10, . . . , 1/160}) y de compás
d = {0.050, 0.075, . . . , 0.2}
Característica del borde de la lesión (d = 10 y
Margen (T ) con d abarcando el 25 %, 50 %, y 100 % de la Textura circundante [80, 150]
lesión), y gradiente radial normalizado
Patrón de eco Promedio de los niveles de gris en la lesión, Promedio de
(T ) variación del eco interno y contraste intensidades [150, 151]
Autocorrelación y
Coeficiente de autocorrelación
autocovarianza [22, 79]
Dimensión fractal Dimensión fractal [26]
Media, rango y desviación media absoluta de
homogeneidad, disimilaridad, correlación y GLCM [12, 64]
entropía (θ ∈ {0◦ , 45◦ , 90◦ , 135◦ } y d ∈ {1, 4})
Media, rango y desviación media absoluta de
homogeneidad, disimilaridad, correlación y
GLCM de Ranklet [107, 182]
entropía (θ ∈ {0◦ , 45◦ , 90◦ , 135◦ }, d ∈ {1, 4} y
W ∈ {2, 4, 8})
Media, desviación estándar y energía de las
Energía de textura [95]
máscaras 2-D de Law
Característica Descriptor de eco posterior, y mínima diferencia
Textura circundante [80, 151]
posterior (T ) lateral
4.3. Análisis de correlación de la relevancia de las características en las
68 descomposiciones OVA y OVO
j=0
Construcción de
si no
k-pliegues de Evaluación
i=1 j=j+1 j<10
validación estadística
(pliegues 1 ≤ i ≤ k)
Datos de Construcción de
i=i+1
entrenamiento conjuntos de datos
si
no
Datos de prueba
i<k
(i-ésimo pliegue )
Construcción de Cómputo de
Clasificación de
modelo de índices AUC y
datos de prueba
clasificación LDA mAUC
Figura 4.5: Diagrama de flujo del proceso de evaluación de separabilidad de clases. Bloques
con líneas discontinuas indican datos y bloques con líneas sólidas indican procesos.
que para realizar una comparación equitativa, ambos esquemas de descomposición fueron
evaluados utilizando las mismas particiones del conjunto de muestras, es decir, las mismos
conjuntos de entrenamiento y prueba.
Finalmente, los algoritmos de descomposición binaria y clasificación se implementaron en
MATLAB versión R2014b (The MathWorks, Natick, MA, USA). La plataforma de pruebas
consistió de dos equipos con procesador Intel® i7 4770 con cuatro núcleos y 16 GB de RAM,
con el sistema operativo openSUSE 13.2, con kernel 3.16.6-2.
(a)
1
C2
0.9
C3
0.8
AUC
C4b
0.7
C4m
0.6
C5
0.5
50 100 150
Características
(b)
1
C2-C3
C2-C4b
0.9
C2-C4m
C2-C5
0.8
C3-C4b
AUC
C3-C4m
0.7
C3-C5
C4b-C4m
0.6
C4b-C5
C4m-C5
0.5
50 100 150
Características
Figura 4.6: AUC promedio obtenido para cada característica y cada subproblema binario en
las descomposiciones (a) OVA, donde los subproblemas binarios son indicados con la clase de
interés que es separada del resto de las clases, y (b) OVO, donde los subproblemas binarios
son indicados con los pares de clases separados por un guión.
4. Análisis de esquemas de descomposición binaria 71
Tabla 4.2: Media y desviación estándar de las cinco características con los mayores valores de
AUC para cada subproblema binario en la descomposición OVA.
Tabla 4.3: Media y desviación estándar de las cinco características con los mayores valores de
AUC para cada subproblema binario en la descomposición OVO.
Tabla 4.4: Promedio (matriz triangular superior) y desviación estándar (matriz triangular in-
ferior) de la correlación de Pearson de los ordenamientos de relevancia de las características
para cada par de problemas binarios en la descomposición OVA.
Tabla 4.5: Promedio (matriz triangular superior) y desviación estándar (matriz triangular in-
ferior) de la correlación de Pearson de los ordenamientos de relevancia de las características
para cada par de problemas binarios en la descomposición OVO.
Subproblema C2-C3 C2-C4b C2-C4m C2-C5 C3-C4b C3-C4m C3-C5 C4b-C4m C4b-C5 C4m-C5
C2-C3 - -0.053 -0.137 -0.086 -0.003 -0.092 -0.144 -0.077 -0.069 0.055
C2-C4b 0.084 - 0.057 0.045 0.003 0.024 0.000 0.022 0.012 -0.013
C2-C4m 0.066 0.070 - 0.151 0.028 0.070 0.060 0.068 0.089 -0.026
C2-C5 0.074 0.083 0.065 - 0.025 0.012 0.021 0.023 0.045 0.006
C3-C4b 0.070 0.077 0.054 0.076 - 0.004 -0.033 0.011 0.029 -0.018
C3-C4m 0.066 0.068 0.071 0.068 0.078 - 0.202 0.076 0.133 -0.081
C3-C5 0.057 0.065 0.054 0.059 0.082 0.053 - 0.097 0.112 -0.103
C4b-C4m 0.067 0.075 0.077 0.083 0.075 0.076 0.096 - 0.065 -0.046
C4b-C5 0.081 0.070 0.073 0.066 0.080 0.067 0.084 0.078 - -0.047
C4m-C5 0.089 0.082 0.079 0.079 0.074 0.074 0.065 0.076 0.072 -
subproblemas binarios (p < 0.001). Por tanto, se procedió a realizar el análisis post-hoc de
Tukey-Kramer (α = 0.05) para identificar los pares de subproblemas binarios OVA con di-
ferencias estadísticas en la capacidad de discriminación, cuyos valores-p se presentan en la
Tabla 4.7. Los resultados indican que hay una diferencia significativa en todos los pares de
subproblemas binarios (p < 0.05). Por tanto, las 180 características extraídas tienen una di-
ferente capacidad discriminante para las clases BI-RADS. En este sentido, de acuerdo con la
Figura 4.7.a, se observa que la clase C5 obtuvo el mayor valor de AUC, es decir, es la clase
con una representación más discriminante. Este resultado indica que las lesiones con clase C5
suelen presentar una morfología y un patrón de eco asociados a una alta probabilidad de ma-
lignidad, mismas que son poco comunes en el resto de las clases. En contraparte, las lesiones
con clase C4b presentan el mayor traslape con el resto de las clases, lo cual se debe a que
comparten rasgos morfológicos y de textura con lesiones benignas y malignas.
Por otro lado, de acuerdo con los resultados de la prueba de Tukey-Kramer en la Tabla 4.8
para la descomposición OVO, se encontró que prácticamente todas las parejas de subproblemas
binarios presenta una diferencia significativa en la capacidad de discriminación (p < 0.05). En
74 4.4. Análisis de separación entre clases en las descomposiciones OVA y OVO
(a) (b)
0.8 0.8
0.75 0.75
0.7 0.7
0.65 0.65
AUC
AUC
0.6 0.6
0.55 0.55
0.5 0.5
C2-C5
C3-C5
C2-C3
C2-C4m
C3-C4m
C2 C3 C4b C4m C5
C4b-C5
C2-C4b
C3-C4b
C4m-C5
C4b-C4m
Subproblema binario Subproblema binario
Figura 4.7: Gráfica de cajas del índice AUC obtenido por el conjunto de características para
los subproblemas en las descomposiciones binarias (a) OVA y (b) OVO.
Tabla 4.6: Valores AUC obtenidos por el conjunto de característica para los subproblemas en
las descomposiciones binarias (a) OVA y (b) OVO.
(a) (b)
Subproblema Media Desv. Est. Mín. Máx. Subproblema Media Desv. Est. Mín. Máx.
C2 0.625 0.009 0.605 0.643 C2-C3 0.596 0.012 0.566 0.628
C3 0.605 0.014 0.578 0.638 C2-C4b 0.608 0.013 0.583 0.632
C4b 0.553 0.016 0.522 0.589 C2-C4m 0.675 0.012 0.642 0.697
C4m 0.635 0.013 0.604 0.659 C2-C5 0.743 0.015 0.706 0.789
C5 0.692 0.017 0.655 0.742 C3-C4b 0.570 0.018 0.529 0.600
C3-C4m 0.685 0.017 0.640 0.724
C3-C5 0.726 0.015 0.695 0.765
C4b-C4m 0.630 0.020 0.591 0.673
C4b-C5 0.691 0.022 0.646 0.763
C4m-C5 0.587 0.022 0.542 0.631
general, los subproblemas que separan una clase con histopatología benigna de una clase
con histopatología maligna tienen una discriminación significativamente mejor que aquellos
subproblemas donde ambas clases están relacionadas al mismo tipo de clase histopatológica.
Obsérvese en la Figura 4.7.b que el par de clases C2-C5 tienen el menor grado de traslape,
mientras que el par de clases C3-C4b tienen el mayor grado de traslape. Esto indica que las
lesiones con clase C2 presentan una gran diferencia en forma y textura en comparación con
lesiones con clase C5. En contraparte, lesiones con clase C3 y C4b presentan un alto traslape
debido a que ambas clases involucran lesiones con histopatología benigna, aunque también
presentan algún rasgo indicativo de malignidad.
Por otra parte, la capacidad discriminante promedio del conjunto completo de caracterís-
ticas en la clasificación multiclase BI-RADS es medida con el índice mAUC. En este sentido,
la Figura 4.8 muestra las distribuciones de valores mAUC obtenidas por el conjunto de ca-
4. Análisis de esquemas de descomposición binaria 75
Tabla 4.7: Valores-p obtenidos con la prueba estadística de Tukey-Kramer entre pares de
subproblemas binarios OVA.
Tabla 4.8: Valores-p obtenidos con la prueba estadística de Tukey-Kramer entre pares de
subproblemas binarios OVO.
Subproblema C2-C4b C2-C4m C2-C5 C3-C4b C3-C4m C3-C5 C4b-C4m C4b-C5 C4m-C5
C2-C3 0.013 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 0.332
C2-C4b - <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001 <0.001
C2-C4m - - <0.001 <0.001 0.115 <0.001 <0.001 <0.001 <0.001
C2-C5 - - - <0.001 <0.001 <0.001 <0.001 <0.001 <0.001
C3-C4b - - - - <0.001 <0.001 <0.001 <0.001 <0.001
C3-C4m - - - - - <0.001 <0.001 0.785 <0.001
C3-C5 - - - - - - <0.001 <0.001 <0.001
C4b-C4m - - - - - - - <0.001 <0.001
C4b-C5 - - - - - - - - <0.001
racterísticas en las descomposiciones OVA y OVO. Los resultados muestran que el conjunto
de características genera un mayor grado de discriminación en la descomposición OVO, con
un valor mAUC promedio de 0.651. En relación a la descomposición OVA, el valor mAUC
promedio es de 0.622. Además, al realizar la prueba estadística de t-Student (α = 0.05) se
encontró que dicha diferencia entre las medias es estadísticamente significativa (p < 0.001).
Por tanto, es más recomendable abordar el problema de clasificación BI-RADS con la descom-
posición OVO, ya que las características presentan un menor grado de traslape entre clases
con respecto a la descomposición OVA.
0.8
0.75
0.622±0.006
0.65
0.6
0.55
0.5
OVA OVO
Figura 4.8: Gráfico de cajas del índice mAUC obtenido por el conjunto de características en
las descomposiciones OVA y OVO. Se indica la media ± desviación estándar en cada caso.
s !
MCCN N + 1
2(1 − c) c
MCCN N ≤ MCCBayes ≤ 1− 1− · 1− + 1. (4.2)
c c−1 2
Los límites de Bayes de error de clasificación e índice MCC se calcularon utilizando los
conjuntos de datos para entrenamiento y prueba definidos en la Sección 4.2, y los resultados
se muestran en la Figura 4.9. Los resultados indican que el error de Bayes para el problema de
clasificación BI-RADS se encuentra en el rango [0.247, 0.417], y el MCC de Bayes se encuentra
en el rango [0.449, 0.695]. Por tanto, se espera obtener un desempeño de clasificación con
tendencia al límite inferior del error de Bayes y al límite superior del MCC de Bayes.
(a) (b)
0.7 1
0.6 0.9
0.417±0.025
0.5 0.8
0.695±0.020
0.4 0.7
MCC
Error
0.247±0.019
0.3 0.6
0.449±0.033
0.2 0.5
0.1 0.4
0 0.3
Inferior Superior Inferior Superior
Figura 4.9: Gráfico de cajas de los límites inferior y superior de Bayes. (a) Error de clasificación
y (b) índice MCC, indicando la media ± desviación estándar.
En la Tabla 4.9 se presentan la matrices de confusión obtenidas con clasificador NN para los
límites inferior y superior del error de Bayes (Ecuación 4.1). En estas matrices se observa que
la clase C2 obtuvo el mayor porcentaje de muestras correctamente clasificadas, mientras que el
menor porcentaje lo obtuvo la clase C4b. El mayor porcentaje de error corresponde a muestras
con clase C5 que fueron etiquetadas como clase C4m, por el contrario, el menor porcentaje
de error corresponde a muestras con clase C2 que fueron etiquetadas como clase C5. Estos
resultados confirman la baja separabilidad que presentó la clase C4b del resto de las clases,
así como el alto grado de discriminación de las características extraídas en el subproblema
binario C2-C5 como se mostró en la Tabla 4.6. Además, se encontró que la mayoría de los
errores corresponden a clases histopatológicas iguales, es decir, ocurren en los subproblemas
78 4.6. Conclusiones del capítulo
C2-C3, C2-C4b, C3-C4b y C4m-C5, lo cual se debe al bajo grado de discriminación de las
características para dichos subproblemas como se mostró en la Tabla 4.6.
Tabla 4.9: (a)Matriz de confusión del clasificador NN con el porcentaje de muestras con
etiqueta de clase verdadera indicada por el renglón que fueron asignadas a la clase señalada
por la columna y (b) matriz de confusión con el límite inferior del error de Bayes. Las celdas
en gris corresponden a muestras correctamente clasificadas.
(a)
Clase C2 C3 C4b C4m C5
C2 72.5±4.8 15.6±3.2 5.1±1.9 5.5±2.3 1.2±1.1
C3 30.2±5.9 50.3±6.7 11.0±3.8 7.3±3.0 1.2±1.5
C4b 14.4±6.4 23.1±7.6 40.4±7.5 16.8±5.3 5.4±4.6
C4m 10.0±3.3 8.7±4.0 12.2±3.8 58.6±5.7 10.5±3.4
C5 3.7±3.8 6.4±4.7 7.3±5.7 35.4±7.4 47.1±9.7
(b)
Clase C2 C3 C4b C4m C5
C2 84.9±2.9 8.5±1.8 2.8±1.0 3.0±1.3 0.8±0.6
C3 17.8±3.9 69.7±5.2 6.5±2.2 4.5±1.7 1.4±0.8
C4b 9.3±4.0 14.3±5.0 61.3±7.2 10.6±3.2 4.4±2.7
C4m 5.8±1.8 5.1±2.2 7.0±2.1 76.0±3.9 6.1±2.0
C5 2.8±2.3 4.3±2.8 4.7±3.2 21.4±5.2 66.8±7.8
la literatura tienen una mayor capacidad discriminante en los subproblemas que separan una
clase con histopatología benigna de una clase con histopatología maligna en comparación
con aquellos subproblemas que separan clases histopatológicas iguales. Por consiguiente, la
clasificación BI-RADS resulta más compleja en comparación con la clasificación binaria, es
decir, en clases benigna y maligna.
Por otra parte, el análisis de correlación indicó que para obtener la mayor discriminación es
conveniente describir cada par de clases en los subproblemas binarios de manera específica o
local, en vez de usar las mismas características para todos los subproblemas, como se hace co-
múnmente. Esto se debe a que las características con mejor discriminación varían dependiendo
de las clases relacionadas al subproblema binario.
Por tanto, para abordar el problema de clasificación BI-RADS se diseñaron dos clasificadores
multiclase con descomposición binaria OVO, especializando cada clasificador base con un
subconjunto de características específico para discriminar su pareja de clases asociada. Con
esto se buscó que el desempeño de clasificación de los enfoques propuestos, en términos del
índice MCC, se encuentre dentro de los límites de Bayes, con una tendencia al mejor límite de
desempeño.
Algoritmos de clasificación multiclase
5
En este capítulo se describen dos algoritmos de clasificación multiclase propuestos en esta
investigación. El capítulo se encuentra organizado en tres secciones. En la primera sección se
detalla un clasificador enfocado a problemas en los cuales las características más relevantes
para cada pareja de clases sean distintas. En la segunda sección se describe un algoritmo de
entrenamiento de ensamble de clasificadores orientado a problemas con alta dimensionalidad
y alta redundancia en las características. Finalmente, la tercera sección contiene un resumen
del capítulo.
81
82 5.1. Clasificador basado en ordenamiento y selección de características
do como o = {o1 , o2 , . . . , onc −1 , onc }, con la técnica mrMR para los nc subproblemas bina-
rios, con nc = c(c − 1)/2. Además, con un algoritmo metaheurístico se obtiene el vector
m∗ = [m∗1 , m∗2 , . . . , m∗nc −1 , m∗nc ] donde cada elemento indica el número de características se-
leccionadas en el ordenamiento oi ∈ o para el i-ésimo clasificador binario ci (con 1 ≤ i ≤ nc ).
Además, a partir de las características seleccionadas por la metaheurística, se obtiene el vec-
tor A = [A1 , A2 , . . . , Anc −1 , Anc ] con los valores de AUC que indican la separabilidad entre
las clases de cada subproblema binario. Por tanto, el vector A se utiliza para organizar la
estructura de un grafo G, de manera que los nodos superiores tengan un mayor valor de
AUC en comparación con los nodos hijo, el cual será usado en el método de agregación
DDAG [47, 126, 131, 166]. Posteriormente se entrena el i-ésimo clasificador ci , utilizando las
muestras de la i-ésima pareja de clases y las primeras m∗i características en el ordenamiento oi .
El Algoritmo 10 muestra el pseudocódigo del entrenamiento del clasificador propuesto S-
LDA, donde {Xi , yi } es el conjunto de muestras de la i-ésima pareja de clases, X̆i es el
conjunto de dichas muestras ordenadas con oi , y Θ es un clasificador multiclase con base en
la descomposición binaria OVO, tal que Θ = {c1 , c2 , . . . , cnc −1 , cnc }.
Una vez construido el clasificador S-LDA, para asignar la etiqueta de clase de una muestra
arbitraria x ∈ Rm , primero se normaliza x con la técnica softmax usando los estadísticos µ y σ
obtenidos durante el entrenamiento (ver Sección 2.2.5). Posteriormente se evalúa la muestra
en los clasificadores base de Θ de acuerdo a la estructura del grafo G, donde la etiqueta de
clase ŷ es asignada por el clasificador base en el nodo hoja evaluado en G. El Algoritmo 12
muestra el pseudocódigo para asignar una etiqueta de clase a una muestra arbitraria x con base
en el método de agregación DDAG, donde x̆i es la muestra con las características permutadas
a partir de oi , x̆∗i es la muestra con las primeras m∗i características en x̆i , y ci (x̆i ) indica
la evaluación de la muestra con el clasificador base ci . La complejidad computacional del
Algoritmo 12 es O(c · m).
La arquitectura del clasificador S-LDA se muestra en la Figura 5.1 donde x es una muestra
de prueba e ŷ es la etiqueta de clase asignada por el método de agregación DDAG.
84 5.1. Clasificador basado en ordenamiento y selección de características
Algoritmo 12 Pseudocódigo para asignar una etiqueta de clase a una muestra con S-LDA.
Entrada: x, Θ, G, o, m∗ , σ, µ
Salida: ŷ
1: Normalizar x usando los estadísticos σ y µ (ver Sección 2.2.5);
2: nP ← nodo raiz G;
3: ci ← obtener clasificador en nP ;
4: mientras que ci sea diferente de nulo hacer
5: Obtener x̆i al permutar x con oi ∈ o;
6: Obtener x̆∗i al seleccionar las primeras m∗i ∈ m∗ características en x̆i ;
7: ŷ ← ci (x̆∗i );
8: nP ← Nodo conectado a nP con vértice etiquetado ŷ;
9: ci ← obtener clasificador en nP ;
10: regresa ŷ
D
D
...
...
...
A
G
Figura 5.1: Arquitectura del clasificador propuesto S-LDA basado en descomposición binaria
OVO para un problema con c clases.
Nótese que el entrenamiento del clasificador S-LDA, mostrado en el Algoritmo 10, requiere
la selección de las características más relevantes para cada clasificador base. Se ha demostrado
que el problema de selección de características es NP-duro [70]. Para el clasificador propuesto,
una selección por búsqueda exhaustiva requeriría evaluar 2m·nc conjuntos de características.
Por otra parte, una selección secuencial requeriría evaluar solamente mnc conjuntos. Por con-
siguiente, para el problema de clasificación BI-RADS con cinco clases y 180 características,
la búsqueda exhaustiva requeriría evaluar aproximadamente 71.4 × 10540 conjuntos, y una
búsqueda secuencial requeriría evaluar aproximadamente 35.7 × 1021 conjuntos. Además, es
necesario considerar el costo computacional que requiere entrenar y evaluar cada conjunto
de características. En el clasificador S-LDA se plantea la selección de las primeras caracte-
rísticas ordenadas de acuerdo al criterio mrMR como un problema de optimización, ya que
no se presupone un paisaje de aptitud determinado y evaluar todos los posibles conjuntos de
características tendría un costo computacional prohibitivo. En este caso, el espacio de bús-
queda contiene mnc posibles soluciones. En dicho problema de optimización se utiliza una
5. Algoritmos de clasificación multiclase 85
representación entera definida como z = [z1 , z2 , . . . , znc −1 , znc ], tal que 1 ≤ zi ≤ m, donde
zi indica el número de las primeras características seleccionadas para el clasificador base ci .
Además la función objetivo f (z) se estableció como el índice MCC obtenido con una validación
cruzada con cinco pliegues, la cual se evalúa en el Algoritmo 14. Por tanto, en el problema de
optimización definido es necesario encontrar el vector z∗ que maximice el índice MCC para el
clasificador Θ, tal que z∗ ≡ m∗ .
Para abordar el problema de selección de características del clasificador S-LDA, se consi-
deran cinco algoritmos metaheurísticos, dos basados en una sola solución (SA y TS) y tres
basados en una población de soluciones (DE, JADE y PSO).
El Algoritmo 13 muestra el pseudocódigo para encontrar el vector m∗ utilizando una me-
taheurística. En dicho algoritmo, primero es necesario obtener el i-ésimo ordenamiento de
las características oi ∈ o para las muestras de la i-ésima pareja de clases mediante el crite-
rio mrMR, con 1 ≤ i ≤ nc . Posteriormente se utiliza el conjunto de muestras {X,y} y el
conjunto de ordenamientos o en una metaheurística para encontrar m∗ y su vector asociado
A. Por otra parte, el Algoritmo 14 presenta el pseudocódigo para evaluar una solución po-
tencial z en una metaheurística. Nótese que al evaluar una solución potencial z también se
puede obtener el vector A = [A1 , A2 , . . . , Anc −1 , Anc ]. La complejidad del Algoritmo 14 es
O (k · nc · (m3 + 2c−1 )).
La complejidad del entrenamiento del clasificador S-LDA depende del clasificador ba-
se LDA y del algoritmo de optimización, por lo que la complejidad del Algoritmo 10 es
O ((a + 1) · nc · (m3 + 2c−1 )), donde a es un término que depende del número de clasifica-
dores base entrenados durante el proceso de optimización. Por tanto, para SA la complejidad
es O (k · im · nc · (m3 + 2c−1 )), para TS es O (k · im · n2c · (m3 + 2c−1 )), y para DE, JADE y
PSO la complejidad es O (k · im · N P · nc · (m3 + 2c−1 )).
Además, el número máximo de iteraciones fue definido como gmáx = 1000. Nótese que los
operadores de mutación en DE y JADE, y actualización de posición de las partículas en PSO,
generan como solución un vector de números reales, por lo que es necesario aplicar un redondeo
de los valores al entero más cercano antes de evaluar la aptitud una solución.
construcción del grafo DDAG, por lo que es O(nc · (m3 + 2c−1 )).
Algoritmo 17 Pseudocódigo para entrenar un clasificador multiclase OVO con LDA y subes-
pacio aleatorio.
Entrada: {X, y}, nc
Salida: Θ, G, o, m∗ , µ, σ
1: Obtener los estadísticos µ y σ a partir de X;
2: Normalizar X con Z-score usando µ y σ (Ecuación 2.13);
3: Θ ← ∅; J ← ∅; o ← ∅; m∗ ← ∅;
4: para i = 1 hasta nc hacer
5: Obtener las muestras de la i-ésima pareja de clases {Xi ,yi };
6: Obtener permutación aleatoria de características oi ;
7: Obtener conjunto X̆i al permutar características en Xi con oi ;
8: Definir número de características m∗i ;
9: Obtener X̆∗i al seleccionar las primeras m∗i características en X̆i ;
10: Entrenar un clasificador LDA ci usando {X̆∗i , yi };
11: Medir el discriminante de Fisher Ji a partir de ci (Ecuación 2.1) ;
12: Θ ← {Θ ∪ ci }; J ← [J ∪ Ji ]; o ← {o ∪ oi }; m∗ ← [m ∪ m∗i ];
13: Definir estructura del grafo DDAG G con Θ, J, ωs ← ∅, ωr ← ∅ (Algoritmo 11);
14: regresa Θ, G, o, m∗ , µ, σ
Algoritmo 19 Pseudocódigo para clasificar una muestra arbitraria con el ensamble B-LDA.
Entrada: x, Θ, G, O, M∗ , M , S, c, nc
Salida: ŷ
1: para i = 1 hasta ke hacer
2: Obtener ŷi al evaluar x en Θ
!i con Gi , oi , mi , µi , σi y nc con el Algoritmo 12;
∗
Xke
3: ŷ = argmáx B(ωq == ŷi ) , para 1 ≤ q ≤ c;
ωq
i=1
4: regresa ŷ
Subespacio aleatorio
Permutación de Selección de Descomposición Agregación Agregación Etiqueta de
Muestra características características binaria OVO clase
D
D
...
...
...
A
G
D
D
...
...
...
A Voto
G mayoritario
...
D
D
...
...
...
A
G
93
94 6.1. Metodología de evaluación de los clasificadores propuestos
j=0
Construcción de
si no
k-pliegues de Evaluación
i=1 j=j+1 j<10
validación estadística
(pliegues 1 ≤ i ≤ k)
Datos de Construcción de
i=i+1
entrenamiento conjuntos de datos
si
Selección de no
características con Datos de prueba
i<k
validación cruzada (i-ésimo pliegue )
de cinco-pliegues
Construcción de Cómputo de
Clasificación de
modelo de índices error y
datos de prueba
clasificación MCC
Figura 6.1: Diagrama de flujo del proceso de evaluación de los clasificadores propuestos. Blo-
ques con líneas discontinuas indican datos y bloques con líneas sólidas representan procesos.
El bloque con doble línea representa la validación cruzada anidada usada en el clasificador
S-LDA; en el caso del clasificador B-LDA este bloque se omite.
En el clasificador propuesto por Shen et al. [151] (denotado como Shen_2007), la des-
cripción de las lesiones se realizó con ocho características normalizadas con la técnica
softmax: eje menor de la elipse equivalente, anfractuosidad, orientación, característica
de margen, grado de interfaz abrupta de lesión, característica de patrón de eco, carac-
terística de contraste de la lesión y eco posterior. Después se entrenó un clasificador
basado en regresión logística multinomial, el cual es un clasificador lineal. En la etapa
de clasificación se calculó una probabilidad de pertenencia para cada clase y se asignó la
etiqueta de clase mediante el criterio de máxima probabilidad. Es importante mencionar
que los autores no presentan detalles del método de entrenamiento del clasificador, lo
cual requiere ajustar los vectores de pesos de la función logística multiclase [169]. Por
tanto, se utilizó el algoritmo de evolución diferencial JADE para el ajuste de pesos, donde
se minimizó la función de verosimilitud negativa de regresión logística.
(a) (b)
0.55
0.434±0.023 0.432±0.026 0.430±0.025 0.428±0.024 0.429±0.023 0.441±0.030 0.443±0.034 0.445±0.031 0.449±0.032 0.446±0.030
0.5 0.55
0.45 0.5
MCC
Error
0.4 0.45
0.35 0.4
0.3 0.35
SA TS DE JADE PSO SA TS DE JADE PSO
Metaheurística Metaheurística
Figura 6.2: Gráfica de cajas del desempeño de clasificación obtenido por el clasificador S-LDA
con diferentes metaheurísticas, en términos de (a) error de clasificación y (b) MCC, indicando
para cada una su correspondiente media ± desviación estándar.
(a) (b)
0.55 0.55
0.515±0.010 0.518±0.009
0.5 0.5
MCC
MCC
0.45 0.45
0.4 0.4
0 2 4 6 8 10 0 2 4 6 8 10
Evaluaciones de función objetivo 1x10 4 Evaluaciones de función objetivo 1x10 4
(c) (d)
0.55 0.55
0.512±0.009 0.518±0.009
0.5 0.5
MCC
MCC
0.45 0.45
0.4 0.4
0 2 4 6 8 10 0 2 4 6 8 10
Evaluaciones de función objetivo 1x10 4 Evaluaciones de función objetivo 1x10 4
(e)
0.55
0.513±0.010
0.5
MCC
0.45
0.4
0 2 4 6 8 10
Evaluaciones de función objetivo
1x10 4
Figura 6.3: Convergencia promedio obtenida en los conjuntos de entrenamiento por el clasifica-
dor S-LDA con las metaheurísticas (a) SA, (b) TS, (c) DE, (d) JADE y (e) PSO. Se incluyen
barras de error con la desviación estándar obtenida y se indica el promedio ± desviación
estándar de la mejor solución encontrada.
6. Resultados 99
Tabla 6.1: Valores-p obtenidos con la prueba estadística de Tukey-Kramer entre pares de
metaheurísticas en el clasificador S-LDA.
C2 C5
C2 C5
C2 C4m C3 C5
C2 C4m C3 C5
C2 C3 C4b C4m C5
Figura 6.4: Grafo DDAG definido con mayor frecuencia en el entrenamiento del clasificador
S-LDA. En cada nodo se indica el par de clases que separa el clasificador binario asociado y
cada arista dirigida está etiquetada con la clase ganadora.
El grafo DDAG generado con mayor frecuencia en los experimentos se muestra en la Fi-
gura 6.4, donde en cada nodo se indica el par de clases involucradas en el clasificador base
correspondiente y cada arista está etiquetada con la clase ganadora. Se observa que los no-
dos superiores generalmente corresponden a problemas que involucran clases histopatológicas
diferentes y la mayoría de los nodos hoja corresponden a problemas que involucran la misma
clase histopatológica. También se observa que el nodo raíz corresponde al subproblema que
involucra las clases C2 y C5, las cuales tienen rasgos con un mayor grado de discriminación
para distinguir lesiones con clases histopatológicas diferentes, es decir, separar lesiones benig-
nas de malignas. Además, se observa que en los nodos hoja fueron ubicados los subproblemas
que involucran clases BI-RADS adyacentes de acuerdo a la probabilidad de malignidad de la
lesión, es decir, los pares de clases C2-C3, C3-C4b, C4b-C4m y C4m-C5. Esto se debe a que
las características presentan un bajo grado de separabilidad entre clases BI-RADS adyacentes.
Además, para los 50 experimentos de entrenamiento y prueba, el grafo en la Figura 6.4 fue
definido en 43, 42, 46, 43 y 44 ocasiones por las metaheurísticas SA, TS, DE, JADE y PSO,
respectivamente, de modo que este grafo fue construido en el 87.2 % de los experimentos,
100 6.2. Resultados del clasificador S-LDA
lo cual indica una baja variabilidad al utilizar distintos conjuntos de entrenamiento. Cabe
mencionar que en el resto de los experimentos se definieron otros cuatro grafos distintos, los
cuales fueron construidos en el 6 %, 5.2 %, 1.2 % y 0.4 % de los experimentos. En dichos grafos
el nodo raíz y sus dos nodos hijo corresponden a clasificadores que distinguen lesiones benignas
de malignas, mientras que la mayoría de los nodos hoja corresponden a clases con categorías
BI-RADS adyacentes.
Tabla 6.2: Características morfológicas (M) y de textura (T ) con mayor porcentaje de ocu-
rrencias para el clasificador S-LDA con la metaheurística JADE.
180
160
140
53.2±11.2 53.4±13.7 54.7±12.6 54.1±13.9 53.2±12.7
120
Características 100
80
60
40
20
SA TS DE JADE PSO
Metaheurística
Figura 6.5: Gráfica de cajas del número de características seleccionadas por el clasificador
S-LDA con diferentes metaheurísticas, indicando para cada una su correpondiente media ±
desviación estándar.
Tabla 6.3: Características seleccionadas en común para todos los subproblemas OVO en el
clasificador S-LDA. Dichas características se encuentran organizadas de acuerdo a su porcentaje
de ocurrencias en el total de experimentos.
(a) (b)
0.55
0.401±0.021 0.382±0.026 0.465±0.028 0.494±0.034
0.5
0.55
0.45
0.5
MCC
Error
0.4
0.45
0.35
0.3 0.4
RF B-LDA RF B-LDA
Figura 6.6: Gráfica de cajas del (a) error de clasificación y (b) MCC obtenidos por los ensambles
de clasificadores RF y B-LDA. En cada caso se incluye la media ± desviación estándar.
0.4 0.4
0.121±0.150 0.179±0.025 0.173±0.120 0.325±0.017 25 12.371±3.214 10.749±3.063
0.3 0.3 20
15
0.2 0.2
ρ̄
s
ρ̄/s2
10
0.1 0.1
5
0 0 0
RF B-LDA RF B-LDA RF B-LDA
Figura 6.7: Gráfica de cajas de (a) fuerza s, (b) correlación ρ̄ y (c) relación entre correlación
y fuerza ρ̄/s2 , obtenidas por los ensambles RF y B-LDA. Se indica la media ± desviación
estándar obtenida por cada ensamble.
RF B-LDA
Complejidad
O(ke · N · m̃ · log(N )) O ke · nc m3 + 2c−1
Costo 27.1 · 106 58.3 · 109
ensamble propuesto B-LDA tiene un mayor costo para el problema de clasificación BI-RADS
en comparación con el ensamble RF, no obstante; el mayor costo se encuentra justificado con
el menor error de clasificación obtenido.
0.5
Error
0.4
0.3
0.2
Límite superior Shen_2007 OVO-LDA S-LDA B-LDA Límite inferior
de Bayes de Bayes
Figura 6.8: Gráfica de cajas del error de clasificación BI-RADS obtenido por los clasificadores
evaluados, además se muestran los límites inferior y superior de Bayes. Se indica la media ±
desviación estándar en cada caso. Las líneas en gris delimitan la región entre las medias de los
límites de Bayes.
las medias de los clasificadores en términos de error de clasificación e índice MCC (p < 0.001).
Por tanto, se realizó el análisis post hoc de Tukey-Kramer (α = 0.05) para identificar los pares
de clasificadores con diferencias estadísticas, cuyos valores-p se muestran en la Tabla 6.5.
En relación con los límites de Bayes inferior de error y superior de MCC, los resultados
de la prueba de Tukey-Kramer revelaron que todos los clasificadores tienen una diferencia
estadísticamente significativa (p < 0.001). Por tanto, aún existe la posibilidad de mejorar
el diseño de los clasificadores considerados de manera que se aproximen al mejor desempeño
esperado. Por otro lado, los desempeños de Shen_2007 y OVO-LDA se encuentran fuera de los
límites de Bayes. Inclusive presentan diferencias significativas con respecto a los límites de Bayes
superior de error e inferior de MCC (p < 0.001), lo cual representa el desempeño de clasificación
más bajo esperado. Con respecto al clasificador S-LDA, su desempeño de clasificación es
ligeramente diferente que los límites de Bayes superior de error e inferior de MCC, aunque no
hubo diferencias significativas, con valores-p de 0.999 y 0.254, respectivamente.
Se encontró que el clasificador S-LDA obtuvo un valor de MCC significativamente mejor
que los métodos Shen_2007 (p < 0.001) y OVO-LDA (p = 0.030). Además, S-LDA obtuvo un
error de clasificación significativamente más bajo en comparación con Shen_2007 (p < 0.001),
y obtuvo un menor error de clasificación que OVO-LDA; sin embargo, dicha diferencia no fue
significativa (p = 0.061).
Por último, el ensamble B-LDA fue el único clasificador que presentó un desempeño signi-
ficativamente mejor que los límites de Bayes superior de error e inferior de MCC (p < 0.001).
También el ensamble B-LDA presentó diferencias significativas en error de clasificación y MCC
106 6.4. Análisis comparativo de clasificadores
0.8
0.449±0.033 0.340±0.031 0.430±0.034 0.449±0.032 0.494±0.034 0.695±0.020
0.7
0.6
MCC
0.5
0.4
0.3
Figura 6.9: Gráfica de cajas del MCC de clasificación BI-RADS alcanzado por los clasificadores
evaluados. Se incluyen los límites inferior y superior de Bayes. Además se incluye la media ±
desviación estándar en cada caso. Las líneas en gris delimitan la región entre las medias de los
límites de Bayes.
Tabla 6.5: Valores-p obtenidos con la prueba estadística de Tukey-Kramer entre los clasifica-
dores evaluados con los índices error de clasificación (matriz triangular inferior) y MCC (matriz
triangular superior).
Tabla 6.7: Matrices de confusión con el porcentaje de muestras con etiqueta de clase verdadera
indicada por el renglón que fueron asignadas a la clase señalada por la columna por los
clasificadores (a) Shen_2007, (b) OVO-LDA, (c) S-LDA y (d) B-LDA. Se resaltan en gris las
celdas correspondientes a una clasificación correcta.
(a)
Clase C2 C3 C4b C4m C5
C2 75.3±3.9 15.6±3.7 1.1±1.0 8.0±2.5 0.1±0.3
C3 56.4±5.4 28.3±5.8 2.7±1.7 12.5±3.4 0.1±0.4
C4b 35.8±7.4 20.4±6.0 8.1±4.1 35.6±7.1 0.0±0.0
C4m 9.5±3.5 8.3±3.5 4.2±2.3 72.0±5.0 6.0±3.3
C5 3.5±3.3 3.3±3.5 0.9±1.8 70.7±8.8 21.7±6.9
(b)
Clase C2 C3 C4b C4m C5
C2 65.6±5.0 21.8±4.2 7.3±3.3 4.6±1.9 0.7±0.9
C3 22.8±5.6 51.4±5.9 18.2±5.0 6.6±2.8 1.1±1.5
C4b 10.3±5.9 27.6±7.1 36.9±7.5 21.3±7.1 3.9±3.6
C4m 3.2±2.3 7.4±3.6 14.0±4.5 53.1±6.0 22.3±6.1
C5 0.2±0.9 2.4±3.2 6.9±5.6 26.6±11.0 63.9±11.6
(c)
Clase C2 C3 C4b C4m C5
C2 63.7±4.7 23.0±4.2 8.1±2.6 4.9±1.9 0.3±0.5
C3 17.5±4.9 57.9±5.9 18.6±5.1 5.6±2.9 0.4±0.8
C4b 8.8±5.1 29.1±7.8 38.4±9.1 20.5±7.1 3.2±3.2
C4m 2.8±2.4 7.6±3.8 15.7±4.3 56.5±6.5 17.4±5.6
C5 0.2±0.9 3.1±3.6 7.7±4.9 30.4±10.1 58.6±11.5
(d)
Clase C2 C3 C4b C4m C5
C2 72.1±3.9 18.6±3.1 3.3±1.9 5.8±2.4 0.1±0.3
C3 24.5±4.7 58.9±5.8 8.8±2.9 7.8±3.1 0.0±0.0
C4b 13.8±5.9 32.1±7.0 27.1±6.4 25.1±7.5 1.9±2.2
C4m 5.0±2.7 8.6±3.6 6.8±3.5 74.1±5.1 5.6±2.6
C5 0.7±1.6 3.5±3.5 5.8±5.5 45.0±8.1 45.0±8.6
cadores Shen_LDA, OVO-LDA, S-LDA y B-LDA, así como sus costos aplicados al problema
de clasificación BI-RADS. Se observa que el clasificador propuesto S-LDA tiene el mayor cos-
to computacional; no obstante, presenta un menor error de clasificación en comparación con
Shen_LDA y OVO-LDA. El alto costo computacional de S-LDA se debe a la complejidad
6. Resultados 109
Tabla 6.8: Complejidad computacional del entrenamiento de los clasificadores evaluados y sus
costos aproximados en el problema de clasificación BI-RADS.
de realizar una selección se características para cada uno de los subproblemas binarios maxi-
mizando el índice MCC mediante validación cruzada. También se observa que B-LDA tiene
un menor costo computacional en comparación con OVO-LDA y S-LDA, y también presenta
un menor error de clasificación en comparación con dichos clasificadores. En este sentido, el
bajo costo de B-LDA se debe a que sus mecanismos de generación de diversidad no realizan
procesos iterativos para aumentar el índice MCC de sus clasificadores base.
0.15
Error
0.1
0.05
0
Límite superior Shen_2007 OVO-LDA S-LDA B-LDA Límite inferior
de Bayes de Bayes
Figura 6.10: Gráfica de cajas del error de clasificación en clases histopatológicas de los clasifi-
cadores evaluados. Además se presentan los límites inferior y superior de Bayes, y se indica la
media ± desviación estándar en todos los casos.
0.9
0.636±0.041 0.652±0.043 0.698±0.046 0.698±0.046 0.712±0.046 0.797±0.026
0.8
MCC
0.7
0.6
0.5
Límite inferior Shen_2007 OVO-LDA S-LDA B-LDA Límite superior
de Bayes de Bayes
Figura 6.11: Gráfica de cajas del MCC obtenido para la clasificación en clases histopatológicas
por los clasificadores evaluados. También se presentan los límites inferior y superior de Bayes.
Además se indica la media ± desviación estándar en cada caso.
distribución de las clases histopatológicas benigna y maligna separadas por categorías BI-RADS
se muestra en la Tabla 6.11.
El radiólogo asignó una categoría BI-RADS en el rango 2 a 5 a cada una de las lesiones
evaluando solamente la ultrasonografía, es decir, sin conocer el historial clínico del paciente,
otro tipo de imagen médica de la lesión e información histopatológica. Por otro lado, para
clasificar las lesiones con el ensamble B-LDA se utilizó la validación LOOCV y un número de
clasificadores base ke = 1000. Las matrices de confusión de la clasificación realizada por el
radiólogo y el ensamble B-LDA se muestran en la Tabla 6.12. En relación con los resultados
del radiólogo, se observa que el mayor porcentaje de aciertos corresponde a la categoría C5,
mientras que el mayor porcentaje de errores corresponde a la categoría C3. Además, el mayor
error de clasificación ocurre entre los pares de categorías C2-C3, C3-C4 y C4-C5. Con respecto
al ensamble B-LDA se observa que el mayor porcentaje de aciertos corresponde a la clase C2,
mientras que el mayor porcentaje de errores corresponde a la clase C4b.
Para medir el desempeño de clasificación BI-RADS se calcularon los índices de error de
clasificación y MCC a partir de la matrices de confusión en la Tabla 6.12. El radiólogo obtuvo
un error de clasificación de 0.285 y un valor MCC de 0.601, mientras que el ensamble B-LDA
obtuvo un error de 0.252 y un valor MCC de 0.582. Por tanto, el ensamble obtuvo un menor
error de clasificación BI-RADS, aunque el radiólogo obtuvo un mayor valor de MCC.
Las etiquetas de clase fueron transformadas a clases benigna y maligna para calcular los
índices de desempeño de clasificación binaria descritos en la Sección 2.4. Para realizar esto,
las categorías C2 y C3 asignadas por el radiólogo fueron consideradas benignas, mientras que
las categorías C4 y C5 fueron consideradas malignas. Adicionalmente, las clases asignadas por
112 6.5. Conclusiones del capítulo
Tabla 6.9: Valores-p obtenidos con la prueba estadística de Tukey-Kramer para índice MCC
(matriz triangular superior) y error de clasificación (matriz triangular inferior).
B-LDA C2, C3 y C4b fueron consideradas benignas, mientras que las clases C4m y C5 fueron
consideradas malignas.
Los resultados del desempeño de clasificación en clases benigna y maligna obtenidos por
el radiólogo y el ensamble B-LDA se presentan en la Tabla 6.13. Se encontró que B-LDA
obtuvo un menor error de clasificación y mayores valores de especificidad y MCC; sin embargo,
el radiólogo obtuvo mayores valores de sensibilidad y AUC. Esto indica que el radiólogo fue
capaz de clasificar con mayor exactitud lesiones malignas, mientras que el ensamble B-LDA
tiene una mayor exactitud en lesiones benignas.
La utilidad del ensamble B-LDA como herramienta de apoyo en el diagnóstico médico se
puede encontrar en aquellas lesiones en las que el radiólogo clasificó erróneamente una lesión
benigna como maligna o viceversa. La Figura 6.12 muestra cuatro ejemplos de lesiones correc-
tamente clasificadas por el ensamble B-LDA, dos benignas y dos malignas, las cuales fueron
clasificadas erróneamente por el radiólogo. No obstante, el ensamble B-LDA no substituye el
diagnóstico médico.
Tabla 6.10: Comparativa entre los clasificadores propuestos S-LDA y B-LDA con trabajos
relacionados a la clasificación histopatológica de lesiones en ultrasonografía. Los resultados se
presentan en porcentaje de error (ERR), sensibilidad (SEN) y especificidad (ESP).
C2 C3 C4 C5
Benigna 314 55 33 0
Maligna 0 0 130 32
(a) (b)
(c) (d)
Figura 6.12: Ejemplo de lesiones correctamente clasificadas por el ensamble B-LDA con clases
(a) y (b) benignas, y (b) y (c) malignas, clasificadas erróneamente por el radiólogo.
114 6.5. Conclusiones del capítulo
Tabla 6.12: Matriz de confusión de la clasificación (a) del radiólogo y (b) del ensamble B-LDA,
con el porcentaje de lesiones clasificadas. Las celdas en gris corresponden a una clasificación
correcta.
(a)
C2 C3 C4 C5
C2 70.70 28.03 1.27 0
C3 14.55 67.27 18.18 0
C4 0 16.56 72.39 11.04
C5 0 0 18.75 81.25
(b)
C2 C3 C4b C4m C5
C2 90.13 4.78 2.23 2.87 0
C3 60.00 30.91 7.27 1.82 0
C4b 42.42 18.18 27.27 12.12 0
C4m 10.00 3.85 6.92 72.31 6.92
C5 0 0 0 40.63 59.38
Tabla 6.13: Resultados de clasificación en clases benigna y maligna obtenidos por el clasificador
B-LDA y el diagnóstico de un radiólogo.
117
118
para abordar el problema de clasificación BI-RADS. Por otro lado, el clasificador OVO-LDA
representa la manera convencional de entrenamiento de clasificadores multiclase. A partir del
análisis de los límites de Bayes, se encontró que los clasificadores propuestos estuvieron den-
tro los límites de desempeño esperado, mientras que Shen_2007 y OVO-LDA obtuvieron un
desempeño menor que el desempeño más bajo esperado. Debido a estos resultados se concluye
que el uso de características específicas para separar cada pareja de clases BI-RADS impacta
positivamente en el desempeño de clasificación, lo cual responde a la segunda pregunta de
investigación y confirma la hipótesis. Los resultados obtenidos también indican que los meca-
nismos de entrenamiento y selección de características de los enfoques propuestos permitieron
obtener un mayor índice MCC en comparación con el método Shen_2007. No obstante, se
encontró que el costo computacional del entrenamiento del clasificador S-LDA es mayor en
comparación con Shen_2007 y OVO-LDA, mientras que el costo computacional del entrena-
miento del ensamble B-LDA es mayor que Shen_2007. Este mayor costo computacional se
encuentra justificado por la importancia de obtener un sistema de clasificación más exacto,
que tenga el potencial de ayudar en el diagnóstico médico.
Al comparar los dos clasificadores propuestos se determinó que B-LDA obtuvo mejor desem-
peño de clasificación que S-LDA. Esto se debe a que las respuestas de los clasificadores base
de B-LDA presentan una baja correlación y obtienen un desempeño mejor que el obtenido
con una clasificación aleatoria, lo cual le permite obtener un menor error de clasificación en
comparación con sus clasificadores base. En este sentido, los clasificadores base de B-LDA
pueden considerarse una simplificación del clasificador S-LDA. Inclusive B-LDA se comparó
contra el ensamble de clasificadores RF en términos de la relación de correlación y fuerza,
encontrándose que B-LDA tiene una menor probabilidad de error; sin embargo, dicha venta-
ja viene acompañada de un mayor costo computacional en comparación con RF. Por tanto,
es más conveniente abordar el problema de clasificación BI-RADS utilizando el clasificador
B-LDA, lo cual responde a la tercera pregunta de investigación.
El clasificador B-LDA también fue comparado con el diagnóstico realizado por un radiólogo,
quien valoró solamente la imágen de ultrasonografía. Se encontró que el radiólogo obtuvo una
mayor sensibilidad y un mayor valor AUC, mientras que B-LDA obtuvo un menor error de
clasificación y un mayor valor de MCC. Por tanto, los resultados sugieren que el ensamble
B-LDA tiene un desempeño competitivo con respecto a un radiólogo experimentado, por lo
que podría ser considerado como una segunda opinión. No obstante, es necesario mencionar
que la exactitud del diagnóstico del radiólogo puede mejorar al utilizar la información clínica
del paciente, así como imágenes de la lesión tomadas con otras técnicas.
Los clasificadores propuestos S-LDA y B-LDA pueden ser utilizados en otros problemas de
clasificación en los cuales las clases presenten un alto grado de traslape debido a la dificultad
de obtener características discriminantes para todas las clases. Algunos de estos problemas son
120
ría 3 y 4, y biopsia para lesiones malignas con categorías 4 y 5. Los resultados indicaron
que el enfoque propuesto obtuvo mejores valores de AUC y MCC en comparación con
la clasificación en clases benigna y maligna [139].
123
Derivación del vector de pesos óptimo del LDA
A
El discriminante lineal de Fisher en términos de las matrices de dispersión intra-clase (SW )
e inter-clase (SB ) se define como [169, 176]:
wT SB w
J(w) = . (A.1)
wT SW w
Para optimizar el discriminante J(w) se deriva con respecto del vector de pesos w y se
iguala a cero:
T
∂ w SB w
J(w) = =0
∂w wT SW w
∂ ∂
(wT SW w) ∂w (wT SB w) − (wT SB w) ∂w (wT SW w)
= =0
(wT SW w)(wT SW w)
∂ ∂
(wT SW w) ∂w (SB w2 ) − (wT SB w) ∂w (SW w2 )
= =0
(wT SW w)(wT SW w) (A.2)
2(wT SW w)SB w − 2(wT SB w)SW w
= =0
(wT SW w)(wT SW w)
SB w SW w
= T
− J(w) T =0
w SW w w SW w
= SB w − J(w)SW w = 0.
125
126
−1
SW SB w = J(w)w
(A.3)
= λw
donde SW−1
es la matriz inversa de SW . Entonces, resolviendo el problema problema generalizado
de valores propios se tiene que el vector de pesos óptimo es:
w T SB w
∗
w = arg máx . (A.4)
w wT SW w
En el caso particular de dos clases, no es necesario resolver para los vectores propios y
valores propios de SW
−1
SB debido a que SB w siempre tiene la misma pendiente que el vector
µp − µq , donde µp y µq son las medias de las clases ωp y ωq , respectivamente.
Por tanto, dado que el factor de escala λ para w no es importante, se puede encontrar
una solución inmediata w que optimice J(w) como [42, 75, 169]:
−1
w ∗ = SW (µp − µq ). (A.5)
Extracción de características usando la
B
biblioteca BUSAT
Las 180 características mostradas en la Tabla 4.1 fueron computadas a partir de la bi-
blioteca BUSAT, la cual fue desarrollada en este proyecto de tesis [136] y está basada en
diferentes propuestas de la literatura. Esta biblioteca fue implementada en MATLAB 2014a y
puede descargarse del siguiente enlace:
http://www.tamps.cinvestav.mx/~wgomez/downloads/busat.zip
Una vez iniciado el ambiente de trabajo de MATLAB, para instalar la biblioteca BUSAT se de-
be ejecutar el archivo RUN_ME_FIRST.m, que se encuentra en la carpeta principal US Toolbox
Ver. 2.0. Esto permitirá usar todas las funciones de la biblioteca de manera natural en el
ambiente de MATLAB.
Para extraer las 180 características basadas en el léxico BI-RADS, se debe escribir la función
[x,f] = birads_features(I,BW), cuyos argumentos de entrada son la imagen de ultraso-
nido de mama I y su respectiva imagen binaria de segmentación BW, como se muestró en la
Figura 4.4. Los argumentos de salida son el vector de 180 características x y sus respectivos
nombres de las características f. El código que implementa la función birads_features.m
se muestra en el Algoritmo 20.
127
128
Algoritmo 20 Función para extraer las 180 características basadas en el léxico BI-RADS
usadas en esta investigación.
1 f u n c t i o n [ x , f ] = b i r a d s _ f e a t u r e s ( I ,BW)
2 %−−−−−−−−− DESCRIPTORES DE FORMA −−−−−−−−
3 % B a s a d o s en e n v o l v e n t e c o n v e x a
4 [ x1 , f 1 ] = c o n v h u l l d i f f (BW, ’ c n v x ’ , ’ n r v ’ , ’ o r ’ ) ;
5 % B a s a d o s en f i r m a d e l c o n t o r n o
6 [ x2 , f 2 ] = n r l (BW, ’ a r ’ , ’ r o u g h ’ , ’ e n t ’ , ’ mean ’ , ’ s t d ’ , ’ z c r ’ ) ;
7 % B a s a d o s en r a s g o s geom é t r i c o s
8 [ x3 , f 3 ] = g e o m e t r i c (BW, ’ e x t ’ , ’ form ’ , ’ r o u n d ’ ) ;
9 % B a s a d o s en e l i p s e e q u i v a l e n t e
10 [ x4 , f 4 ] = e q u i v e l l i p s e (BW, ’ s h a p e ’ , ’ maxax ’ , ’ minax ’ , ’ l s ’ ) ;
11 %−−−−−−−−− DESCRIPTORES DE ORIENTACIÓN −−−−−−−−
12 % Basado en e l i p s e e q u i v a l e n t e
13 [ x5 , f 5 ] = e q u i v e l l i p s e (BW, ’ a n g l e ’ ) ;
14 % Basado en r a s g o s geom é t r i c o s }
15 [ x6 , f 6 ] = g e o m e t r i c (BW, ’ dwr ’ ) ;
16 %−−−−−−−−− DESCRIPTORES DE MARGEN −−−−−−−−
17 % Basado en e l i p s e e q u i v a l e n t e
18 [ x7 , f 7 ] = e q u i v e l l i p s e (BW, ’ e n c ’ , ’ p d i s t ’ ) ;
19 % Basado en mapa de d i s t a n c i a s
20 [ x8 , f 8 ] = m a r g c l a s s (BW, ’ und ’ , ’ ang ’ , ’ u+a ’ ) ;
21 % B a s a d o s en e n v o l v e n t e c o n v e x a
22 [ x9 , f 9 ] = n s p d _ l i (BW, ’ l i ’ , ’ nsp d ’ ) ;
23 % Basado en e s q u e l e t o m o r f o l ó g i c o
24 [ x10 , f 1 0 ] = e q u i v e l l i p s e (BW, ’ e n s ’ ) ;
25 [ x11 , f 1 1 ] = s p i c u l a t i o n (BW, ’ s k e n d ’ ) ;
26 % B a s a d o s en f i r m a d e l c o n t o r n o
27 [ x12 , f 1 2 ] = f r a c t a l c o n t o u r (BW, ’ box1 ’ , ’ box2 ’ , ’ r u l e r ’ ) ;
28 % B a s a d o s en t e x t u r a c i r c u n d a n t e
29 [ x13 , f 1 3 ] = b o u n d _ f e a t s ( I ,BW) ;
30 %−−−−−−−−− DESCRIPTORES DE PATRÓN DE ECO −−−−−−−−
31 % B a s a d o s en p r o m e d i o de i n t e n s i d a d e s
32 [ x14 , f 1 4 ] = avmass ( I ,BW, ’ e p i ’ , ’ epg ’ , ’ e p c ’ ) ;
33 % Basado en a u t o c o r r e l a c i ón
34 [ x15 , f 1 5 ] = a u t o c o r r ( I ,BW) ;
35 % Basado en d i m e n s i ón f r a c t a l
36 [ a , b ] = f r a c t a l t e x t u r e ( I ,BW) ;
37 x16 = a ( 1 ) ; f 1 6 = b ( 1 ) ;
38 % B a s a d o s en m a t r i z de co−o c u r r e n c i a (GLCM)
39 D = [ 1 4 ] ; % d i s t a n c i a s de GLCM
40 [ x17 , f 1 7 ] = glcm ( I ,BW, 6 4 , D, 1 , ’ mean ’ , ’homom ’ , ’ d i s s i ’ , ’ c o r r m ’ , ’ e n t r o ’ ) ;
41 [ x18 , f 1 8 ] = glcm ( I ,BW, 6 4 , D, 1 , ’ r a n g e ’ , ’homom ’ , ’ d i s s i ’ , ’ c o r r m ’ , ’ e n t r o ’ ) ;
42 [ x19 , f 1 9 ] = glcm ( I ,BW, 6 4 , D, 1 , ’ mad ’ , ’homom ’ , ’ d i s s i ’ , ’ c o r r m ’ , ’ e n t r o ’ ) ;
43 % B a s a d o s en r a n k l e t y m a t r i z de co−c o r r e n c i a (GLCM)
44 [ x20 , f 2 0 ] = rcm ( I ,BW) ;
45 % B a s a d o s en e n e r g í a de t e x t u r a s
46 [ x21 , f 2 1 ] = l a w s e n e r g y ( I ,BW, 1 , ’ mean ’ , ’ s t d ’ , ’ e g y ’ ) ;
47 %−−−−−−−−− DESCRIPTORES DE CARACTER Í STICA POSTERIOR −−−−−−−−
48 [ x22 , f 2 2 ] = pab ( I ,BW, ’ p s d ’ , ’ msd ’ ) ;
49 % C o n c a t e n a v e c t o r f i n a l de c a r a c t e r í s t i c a s
50 x = [ x1 , x2 , x3 , x4 , x5 , x6 , x7 , x8 , x9 , x10 , x11 , x12 , . . .
51 x13 , x14 , x15 , x16 , x17 , x18 , x19 , x20 , x21 , x22 ] ;
52 f = [ f1 , f2 , f3 , f4 , f5 , f6 , f7 , f8 , f9 , f10 , f11 , f12 , . . .
53 f13 , f14 , f15 , f16 , f17 , f18 , f19 , f20 , f21 , f22 ] ;
54 end
Bibliografía
[1] M. Abdel-Nasser, J. Melendez, A. Moreno, O. Omer, and D. Puig, “Breast tumor clas-
sification in ultrasound images using texture analysis and super-resolution methods,”
Engineering Applications of Artificial Intelligence, vol. 59, pp. 84–92, 2017.
[2] M. Adnan and M. Islam, “One-vs-all binarization technique in the context of random fo-
rest,” in Proceedings of the European Symposium on Artificial Neural Networks, Compu-
tational Intelligence and Machine Learning, 2015, pp. 385–390.
[4] A. Alvarenga, A. Infantosi, W. Pereira, and C. Azevedo, “Assessing the combined per-
formance of texture and morphological parameters in distinguishing breast tumors in
ultrasound images,” Medical Physics, vol. 39, no. 12, pp. 7350–7358, 2012.
[5] M. Aly, “Survey on multiclass classification methods,” Neural Networks, pp. 1–9, 2005.
[6] American Cancer Society, “Breast cancer facts & figures 2015-2016,” Atlanta: American
Cancer Society, Inc, 2015.
[7] R. Anand, K. Mehrotra, C. Mohan, and S. Ranka, “Efficient classification for multiclass
problems using modular neural networks,” IEEE Transactions on Neural Networks, vol. 6,
no. 1, pp. 117–124, Jan 1995.
[8] M. Bagheri, Q. Gao, and S. Escalera, “A framework towards the unification of ensemble
classification methods,” in 2013 12th International Conference on Machine Learning and
Applications, vol. 2, Dec 2013, pp. 351–355.
[10] J. Benesty, J. Chen, Y. Huang, and I. Cohen, “Pearson correlation coefficient,” in Noise
reduction in speech processing. Springer, 2009, pp. 1–4.
[11] S. Bernard, L. Heutte, and S. Adam, A Study of Strength and Correlation in Random
Forests. Berlin, Heidelberg: Springer Berlin Heidelberg, 2010, pp. 186–191.
129
130 BIBLIOGRAFÍA
[13] C. Bishop, Pattern Recognition and Machine Learning (Information Science and Statis-
tics). Secaucus, NJ, USA: Springer-Verlag New York, Inc., 2006.
[15] L. Breiman, “Random forests,” Machine Learning, vol. 45, no. 1, pp. 5–32, 2001.
[16] D. Cai, X. He, and J. Han, “Training linear discriminant analysis in linear time,” in Data
Engineering, 2008. ICDE 2008. IEEE 24th International Conference on. IEEE, 2008,
pp. 209–217.
[17] L. Cai, X. Wang, Y. Wang, Y. Guo, J. Yu, and Y. Wang, “Robust phase-based tex-
ture descriptor for classification of breast ultrasound images,” BioMedical Engineering
OnLine, vol. 14, no. 1, p. 26, 2015.
[21] C. Chang and C. Lin, “Libsvm: A library for support vector machines,” ACM Transactions
on Intelligent Systems and Technology (TIST), vol. 2, no. 3, p. 27, 2011.
[22] R. Chang, W.-J. Wu, W. K. Moon, and D.-R. Chen, “Improvement in breast tumor discri-
mination by support vector machines and speckle-emphasis texture analysis,” Ultrasound
in Medicine & Biology, vol. 29, no. 5, pp. 679–686, 2003.
BIBLIOGRAFÍA 131
[23] K. Chaturvedi, M. Pandit, and L. Srivastava, “Particle swarm optimization with time
varying acceleration coefficients for non-convex economic power dispatch,” International
Journal of Electrical Power & Energy Systems, vol. 31, no. 6, pp. 249–257, 2009.
[24] N. Chawla, K. Bowyer, L. O. Hall, and W. Kegelmeyer, “Smote: synthetic minority over-
sampling technique,” Journal of artificial intelligence research, vol. 16, pp. 321–357,
2002.
[25] C. Chen, Y. Chou, K. Han, G. Hung, C. Tiu, H. Chiou, and S. Chiou, “Breast lesions on
sonograms: Computer-aided diagnosis with nearly setting-independent features and arti-
ficial neural networks,” Radiology, vol. 226, no. 2, pp. 504–514, 2003, pMID: 12563146.
[26] D. Chen, R. Chang, C. Chen, M. Ho, S. Kuo, S. Chen, S. Hung, and W. Moon, “Clas-
sification of breast ultrasound images using fractal feature,” Clinical Imaging, vol. 29,
no. 4, pp. 235–245, 2005.
[27] H. Cheng, J. Shan, W. Ju, Y. Guo, and L. Zhang, “Automated breast cancer detection
and classification using ultrasound images: A survey,” Pattern Recognition, vol. 43, no. 1,
pp. 299–317, 2010.
[28] J.-Z. Cheng, D. Ni, Y.-H. Chou, J. Qin, C.-M. Tiu, Y.-C. Chang, C.-S. Huang, D. Shen,
and C.-M. Chen, “Computer-aided diagnosis with deep learning architecture: applications
to breast lesions in us images and pulmonary nodules in ct scans,” Scientific reports,
vol. 6, p. 24454, 2016.
[29] Y. Chou, C. Tiu, G. Hung, S. Wu, T. Chang, and H. Chiang, “Stepwise logistic regres-
sion analysis of tumor contour features for breast ultrasound diagnosis,” Ultrasound in
Medicine & Biology, vol. 27, no. 11, pp. 1493–1498, 2001.
[30] W. Cohen, “Fast effective rule induction,” in Proceedings of the twelfth international
conference on machine learning, 1995, pp. 115–123.
[31] K. Crammer and Y. Singer, “On the algorithmic implementation of multiclass kernel-
based vector machines,” Journal of machine learning research, vol. 2, no. Dec, pp.
265–292, 2001.
[32] R. Cruz, G. Cavalcanti, and T. Ren, “Handwritten digit recognition using multiple fea-
ture extraction techniques and classifier ensemble,” in 17th International Conference on
Systems, Signals and Image Processing, 2010, pp. 215–218.
[33] S. Das, A. Konar, and U. Chakraborty, “Two improved differential evolution schemes
for faster global search,” in Proceedings of the 7th Annual Conference on Genetic and
Evolutionary Computation, ser. GECCO ’05. ACM, 2005, pp. 991–998.
132 BIBLIOGRAFÍA
[35] M. Dauwan, J. J. van der Zande, E. van Dellen, I. Sommer, P. Scheltens, A. Lemstra, and
C. Stam, “Random forest to differentiate dementia with lewy bodies from alzheimer’s
disease,” Alzheimer’s & Dementia: Diagnosis, Assessment & Disease Monitoring, vol. 4,
pp. 99–106, 2016.
[36] J. Díaz Novás, B. Gallego Machado, and A. León González, “El diagnóstico médico:
bases y procedimientos,” Revista Cubana de Medicina General Integral, vol. 22, no. 1,
pp. 1553–1565, 2006.
[38] C. Ding and H. Peng, “Minimum redundancy feature selection from microarray gene
expression data,” Journal of Bioinformatics and Computational Biology, vol. 3, no. 2,
pp. 185–205, 2005.
[39] J. Ding, H. Cheng, J. Huang, J. Liu, and Y. Zhang, “Breast ultrasound image classifi-
cation based on multiple-instance learning,” Journal of Digital Imaging, vol. 25, no. 5,
pp. 620–627, 2012.
[40] K. Doi, “Current status and future potential of computer-aided diagnosis in medical
imaging,” The British Journal of Radiology, vol. 78, no. 1, pp. s3–s19, 2014.
[42] R. Duda, P. Hart, and D. Stork, Pattern Classification (2Nd Edition). Wiley-
Interscience, 2000.
[44] R. Eberhart and J. Kennedy, “A new optimizer using particle swarm theory,” in Micro
Machine and Human Science, 1995. MHS ’95., Proceedings of the Sixth International
Symposium on, Oct 1995, pp. 39–43.
BIBLIOGRAFÍA 133
[46] T. Fawcett, “An introduction to ROC analysis,” Pattern Recognition Letters, vol. 27,
no. 8, pp. 861–874, 2006.
[47] J. Feng, Y. Yang, and J. Fan, “Fuzzy multi-class svm classifier based on optimal directed
acyclic graph using in similar handwritten chinese characters recognition,” in Proceedings
of the Second International Conference on Advances in Neural Networks - Volume Part
I, ser. ISNN’05. Berlin, Heidelberg: Springer-Verlag, 2005, pp. 875–880.
[48] J. Ferlay, H. Shin, F. Bray, D. Forman, C. Mathers, and D. Parkin, “Estimates of world-
wide burden of cancer in 2008: Globocan 2008,” International Journal of Cancer, vol.
127, no. 12, pp. 2893–2917, 2010.
[53] G. Forman, “A pitfall and solution in multi-class feature selection for text classification,”
in Proceedings of the Twenty-first International Conference on Machine Learning, ser.
ICML ’04. New York, NY, USA: ACM, 2004, pp. 38–46.
[57] J. Fürnkranz, “Round robin rule learning,” in Proceedings of the 18th International
Conference on Machine Learning (ICML-01). Morgan Kaufmann, 2001, pp. 146–153.
[60] N. García-Pedrajas and D. Ortiz-Boyer, “An empirical study of binary classifier fusion
methods for multiclass classification,” Information Fusion, vol. 12, no. 2, pp. 111–130,
2011.
[61] F. Glover, “Tabu search—part i,” ORSA Journal on computing, vol. 1, no. 3, pp. 190–
206, 1989.
[62] F. Glover, “Tabu search—part ii,” ORSA Journal on computing, vol. 2, no. 1, pp. 4–32,
1990.
[66] W. Gomez, A. Rodriguez, W. Pereira, and A. Infantosi, “Feature selection and classifier
performance in computer-aided diagnosis for breast ultrasound,” in 10th International
Conference and Expo on Emerging Technologies for a Smarter World (CEWIT), 2013,
pp. 1–5.
BIBLIOGRAFÍA 135
[68] G. Guo and S. Z. Li, “Content-based audio classification and retrieval by support vector
machines,” IEEE Transactions on Neural Networks, vol. 14, no. 1, pp. 209–215, Jan
2003.
[69] M. Guray and A. Sahin, “Benign breast diseases: Classification, diagnosis, and manage-
ment,” The Oncologist, vol. 11, no. 5, pp. 435–449, 2006.
[70] I. Guyon and A. Elisseeff, “An introduction to variable and feature selection,” Journal of
machine learning research, vol. 3, no. Mar, pp. 1157–1182, 2003.
[71] D. Hand and R. Till, “A simple generalisation of the area under the roc curve for multiple
class classification problems,” Machine Learning, vol. 45, no. 2, pp. 171–186, 2001.
[72] L. K. Hansen and P. Salamon, “Neural network ensembles,” IEEE Trans. Pattern Anal.
Mach. Intell., vol. 12, no. 10, pp. 993–1001, Oct. 1990.
[73] T. Hastie, R. Tibshirani, and J. Friedman, “The elements of statistical learning: Data
mining, inference, and prediction,” 2003.
[76] J. Hauke and T. Kossowski, “Comparison of values of pearson’s and spearman’s corre-
lation coefficients on the same sets of data,” Quaestiones Geographicae, vol. 30, no. 2,
p. 87, 06 2011.
[77] T. Ho, “The random subspace method for constructing decision forests,” IEEE Transac-
tions on Pattern Analysis and Machine Intelligence, vol. 20, no. 8, pp. 832–844, Aug
1998.
[78] J.-H. Hong, J.-K. Min, U.-K. Cho, and S.-B. Cho, “Fingerprint classification using one-
vs-all support vector machines dynamically ordered with naı¨ve bayes classifiers,” Pattern
Recognition, vol. 41, no. 2, pp. 662—671, 2008.
[80] K. Horsch, M. Giger, L. Venta, and C. Vyborny, “Computerized diagnosis of breast lesions
on ultrasound,” Medical Physics, vol. 29, no. 2, pp. 157–164, 2002.
[81] C.-W. Hsu and C.-J. Lin, “A comparison of methods for multiclass support vector ma-
chines,” IEEE Transactions on Neural Networks, vol. 13, no. 2, pp. 415–425, Mar 2002.
[82] Q. Huang, Y. Luo, and Q. Zhang, “Breast ultrasound image segmentation: a survey,”
International Journal of Computer Assisted Radiology and Surgery, vol. 12, no. 3, pp.
493–507, Mar 2017.
[83] Y. Huang, D. Chen, Y. Jiang, S. Kuo, H. Wu, and W. Moon, “Computer-aided diagnosis
using morphological features for classifying breast lesions on ultrasound,” Ultrasound in
Obstetrics & Gynecology, vol. 32, no. 4, pp. 565–572, 2008.
[84] M. Immitzer, C. Atzberger, and T. Koukal, “Tree species classification with random forest
using very high spatial resolution 8-band worldview-2 satellite data,” Remote Sensing,
vol. 4, no. 9, pp. 2661–2693, 2012.
[85] A. Jain, R. P. Duin, and J. Mao, “Statistical pattern recognition: A review,” IEEE Tran-
sactions on Pattern Analysis and Machine Intelligence, vol. 22, no. 1, pp. 4–37, 2000.
[87] G. Jurman, S. Riccadonna, and C. Furlanello, “A comparison of mcc and cen error
measures in multi-class prediction,” PLoS ONE, vol. 7, no. 8, pp. 1–8, 08 2012.
[88] T. Khoshgoftaar, M. Golawala, and J. Van Hulse, “An empirical study of learning from
imbalanced data using random forest,” in Tools with Artificial Intelligence, 2007. ICTAI
2007. 19th IEEE International Conference on, vol. 2. IEEE, 2007, pp. 310–317.
[89] J. Kim, “Estimating classification error rate: Repeated cross-validation, repeated hold-
out and bootstrap,” Computational Statistics & Data Analysis, vol. 53, no. 11, pp.
3735–3745, 2009.
[90] K. Kira and L. Rendell, “The feature selection problem: Traditional methods and a new
algorithm,” in Aaai, vol. 2, 1992, pp. 129–134.
[92] S. Knerr, L. Personnaz, and G. Dreyfus, “Single-layer learning revisited: a stepwise pro-
cedure for building and training a neural network,” in Neurocomputing. Springer, 1990,
pp. 41–50.
[93] D. Kornbrot, “Point biserial correlation,” Wiley StatsRef: Statistics Reference Online,
2005.
[94] S. Kumar, M. Crawford, and J. Ghosh, “A versatile framework for labelling imagery with
a large number of classes,” in Neural Networks, 1999. IJCNN ’99. International Joint
Conference on, vol. 4, 1999, pp. 2829–2833.
[95] K. I. Laws, “Rapid texture identification,” vol. 0238, 1980, pp. 376–381.
[97] T. Li, C. Zhang, and M. Ogihara, “A comparative study of feature selection and multiclass
classification methods for tissue classification based on gene expression,” Bioinformatics,
vol. 20, no. 15, p. 2429, 2004.
[98] S.-W. Lin, Z.-J. Lee, S.-C. Chen, and T.-Y. Tseng, “Parameter determination of support
vector machine and feature selection using simulated annealing approach,” Applied Soft
Computing, vol. 8, no. 4, pp. 1505–1512, 2008.
[99] B. Liu, Z. Hao, and E. C. C. Tsang, “Nesting one-against-one algorithm based on svms
for pattern classification,” IEEE Transactions on Neural Networks, vol. 19, no. 12, pp.
2044–2052, Dec 2008.
[100] B. Liu, Z. Hao, and X. Yang, “Nesting algorithm for multi-classification problems,” Soft
Computing, vol. 11, no. 4, pp. 383–389, 2007.
[101] H. Liu and H. Motoda, Computational methods of feature selection. Chapman and
Hall/CRC, 2007.
[102] C. Lo, W. Moon, C. Huang, J. Chen, M. Yang, and R. Chang, “Intensity-invariant texture
analysis for classification of bi-rads category 3 breast masses,” Ultrasound in Medicine
& Biology, vol. 41, no. 7, pp. 2039–2048, 2015.
[103] G. Loizou and S. Maybank, “The nearest neighbor and the bayes error rates,” IEEE
transactions on pattern analysis and machine intelligence, no. 2, pp. 254–262, 1987.
[104] A. Lorena, A. de Carvalho, and J. Gama, “A review on the combination of binary clas-
sifiers in multiclass problems,” Artificial Intelligence Review, vol. 30, no. 1, p. 19, 2009.
138 BIBLIOGRAFÍA
[105] J. Lu, K. Plataniotis, and A. Venetsanopoulos, “Face recognition using lda-based al-
gorithms,” IEEE Transactions on Neural Networks, vol. 14, no. 1, pp. 195–200, Jan
2003.
[106] O. Martínez Montañez, P. Uribe Zúñiga, and M. Hernández Avila, “Políticas públicas
para la detección del cáncer de mama en méxico,” Salud Pública de México, vol. 51, pp.
s350–s360, 2009.
[107] M. Masotti and R. Campanini, “Texture classification using invariant ranklet features,”
Pattern Recognition Letters, vol. 29, no. 14, pp. 1980–1986, 2008.
[108] M. Matsumoto, C. Sehgal, and J. Udupa, “Local binary pattern texture-based classifica-
tion of solid masses in ultrasound breast images,” in SPIE Medical Imaging. International
Society for Optics and Photonics, 2012, pp. 83 201H–83 201H.
[112] J. Milgram, M. Cheriet, and R. Sabourin, “ “one against one” or “one against all”: Which
one is better for handwriting recognition with svms?” in Tenth International Workshop
on Frontiers in Handwriting Recognition. Suvisoft, 2006.
[114] W. Moon, I.C., J. Chang, S. Shin, C. Lo, and R. Chang, “The adaptive computer-aided
diagnosis system based on tumor sizes for the classification of breast tumors detected
at screening ultrasound,” Ultrasonics, vol. 76, pp. 70–77, 2017.
[115] W. Moon, C. Lo, J. Chang, C. Huang, J. Chen, and R. Chang, “Quantitative ultrasound
analysis for classification of bi-rads category 3 breast masses,” Journal of Digital Imaging,
vol. 26, no. 6, pp. 1091–1098, 2013.
BIBLIOGRAFÍA 139
[116] W. Moon, C. Lo, N. Cho, J. Chang, C. Huang, J. Chen, and R. Chang, “Computer-aided
diagnosis of breast masses using quantified bi-rads findings,” Computer Methods and
Programs in Biomedicine, vol. 111, no. 1, pp. 84–92, 2013.
[118] C. Munoz-Meza and W. Gomez, “A feature selection methodology for breast ultrasound
classification,” in 10th International Conference on Electrical Engineering, Computing
Science and Automatic Control (CCE), 2013, pp. 245–249.
[119] A. C. of Radiology, “Breast imaging reporting and data system atlas (bi-rads atlas),”
Reston, VA: American College of Radiology, vol. 98, 2003.
[120] I.-S. Oh, J.-S. Lee, and C. Y. Suen, “Analysis of class separation and combination of
class-dependent features for handwriting recognition,” IEEE Transactions on Pattern
Analysis and Machine Intelligence, vol. 21, no. 10, pp. 1089–1094, 1999.
[121] O. Okun, G. Valentini, and M. Re, Ensembles in Machine Learning Applications. Sprin-
ger Science & Business Media, 2011, vol. 373.
[122] G. Ou and Y. Murphey, “Multi-class pattern classification using neural networks,” Pattern
Recognition, vol. 40, no. 1, pp. 4–18, 2007.
[123] N. Oza and K. Tumer, “Classifier ensembles: Select real-world applications,” Information
Fusion, vol. 9, no. 1, pp. 4–20, 2008, special Issue on Applications of Ensemble Methods.
[124] H. Peng, F. Long, and C. Ding, “Feature selection based on mutual information criteria
of max-dependency, max-relevance, and min-redundancy,” IEEE Transactions on Pattern
Analysis and Machine Intelligence, vol. 27, no. 8, pp. 1226–1238, 2005.
[126] J. C. Platt, N. Cristianini, and J. Shawe-Taylor, “Large margin dags for multiclass clas-
sification,” in Advances in Neural Information Processing Systems 12, S. A. Solla, T. K.
Leen, and K. Müller, Eds. MIT Press, 2000, pp. 547–553.
[127] R. Poli, J. Kennedy, and T. Blackwell, “Particle swarm optimization,” Swarm Intelligence,
vol. 1, no. 1, pp. 33–57, Jun 2007.
140 BIBLIOGRAFÍA
[128] K. L. Priddy and P. E. Keller, Artificial Neural Networks: An Introduction (SPIE Tutorial
Texts in Optical Engineering, Vol. TT68). SPIE- International Society for Optical
Engineering, 2005.
[129] A. Qing, Fundamentals of Differential Evolution. John Wiley & Sons, Ltd, 2009, pp.
41–60.
[131] T. M. Quiterio and A. C. Lorena, “Determining the structure of decision directed acy-
clic graphs for multiclass classification problems,” in 2016 5th Brazilian Conference on
Intelligent Systems (BRACIS), Oct 2016, pp. 115–120.
[132] R. Rangayyan and T. Nguyen, “Fractal analysis of contours of breast masses in mam-
mograms,” Journal of Digital Imaging, vol. 20, no. 3, pp. 223–237, 2007.
[134] P. Refaeilzadeh, L. Tang, and H. Liu, Cross-Validation. Springer US, 2009, pp. 532–538.
[135] R. Rifkin and A. Klautau, “In defense of one-vs-all classification,” Journal of machine
learning research, vol. 5, no. Jan, pp. 101–141, 2004.
[140] L. Rokach, “Ensemble-based classifiers,” Artificial Intelligence Review, vol. 33, no. 1, pp.
1–39, 2010.
[141] H. Romeijn and R. Smith, “Simulated annealing for constrained global optimization,”
Journal of Global Optimization, vol. 5, no. 2, pp. 101–126, 1994.
[142] R. Rose and S. Allwin, “Computerized cancer detection and classification using ultra-
sound images: A survey,” International Journal of Engineering Research and Develop-
ment, vol. 5, no. 7, pp. 36–47, 2013.
[145] Y. Saeys, T. Abeel, and Y. Van de Peer, Robust Feature Selection Using Ensemble
Feature Selection Techniques. Berlin, Heidelberg: Springer Berlin Heidelberg, 2008,
pp. 313–325.
[146] J. Sáez, M. Galar, J. Luengo, and F. Herrera, “Analyzing the presence of noise in multi-
class problems: alleviating its influence with the one-vs-one decomposition,” Knowledge
and information systems, vol. 38, no. 1, pp. 179–206, 2014.
[147] B. Sahiner, X. He, W. Chen, H. Chan, L. Hadjiiski, and N. Petrick, “Neural network
training by maximization of the area under the roc curve: application to characterization
of masses on breast ultrasound as malignant or benign,” in SPIE Medical Imaging.
International Society for Optics and Photonics, 2013, pp. 86 701M–86 701M.
[148] J. Shan, S. Alam, B. Garra, Y. Zhang, and T. Ahmed, “Computer-aided diagnosis for
breast ultrasound using computerized bi-rads features and machine learning methods,”
Ultrasound in Medicine & Biology, vol. 42, no. 4, pp. 980–988, 2016.
[151] W. Shen, R. Chang, and K. Woo, “Computer aided classification system for breast
ultrasound based on breast imaging reporting and data system (bi-rads),” Ultrasound in
Medicine & Biology, vol. 33, no. 11, pp. 1688–1698, 2007.
[152] Y. Shi and R. C. Eberhart, “Empirical study of particle swarm optimization,” in Procee-
dings of the 1999 Congress on Evolutionary Computation-CEC99 (Cat. No. 99TH8406),
vol. 3, July 1999, p. 1950.
[153] B. W. Silverman and M. C. Jones, “E. fix and j.l. hodges (1951): An important con-
tribution to nonparametric discriminant analysis and density estimation: Commentary
on fix and hodges (1951),” International Statistical Review / Revue Internationale de
Statistique, vol. 57, no. 3, pp. 233–238, 1989.
[157] M. Skurichina and R. P. D, “Bagging, boosting and the random subspace method for
linear classifiers,” Pattern Analysis & Applications, vol. 5, no. 2, pp. 121–135, 2002.
[159] M. Sokolova and G. Lapalme, “A systematic analysis of performance measures for clas-
sification tasks,” Information Processing & Management, vol. 45, no. 4, pp. 427–437,
2009.
[161] R. Storn and K. Price, “Differential evolution – a simple and efficient heuristic for global
optimization over continuous spaces,” Journal of Global Optimization, vol. 11, no. 4,
pp. 341–359, 1997.
BIBLIOGRAFÍA 143
[162] R. Storn and K. Price, “Differential evolution–a simple and efficient heuristic for global
optimization over continuous spaces,” Journal of global optimization, vol. 11, no. 4, pp.
341–359, 1997.
[163] S. Student and K. Fujarewicz, “Stable feature selection and classification algorithms for
multiclass microarray data,” Biology direct, vol. 7, no. 1, p. 33, 2012.
[164] A. Subasi, E. Alickovic, and J. Kevric, Diagnosis of Chronic Kidney Disease by Using
Random Forest. Singapore: Springer Singapore, 2017, pp. 589–594.
[165] K. T. and J. G., “Bayes error rate estimation using classifier ensembles,” International
Journal of Smart Engineering System Design, vol. 5, no. 2, pp. 95–109, 2003.
[166] F. Takahashi and S. Abe, “Optimizing directed acyclic graph support vector machines,”
Artificial Neural Networks in Pattern Recognition (ANNPR), pp. 166–173, 2003.
[167] E.-G. Talbi, Metaheuristics: from design to implementation. John Wiley & Sons, 2009,
vol. 74.
[168] R. Tate, “Correlation between a discrete and a continuous variable. point-biserial corre-
lation,” The Annals of mathematical statistics, vol. 25, no. 3, pp. 603–607, 1954.
[170] H. Tseng, H. Wu, S. Chen, S. Kuo, Y. Huang, and D. Chen, “Speckle reduction imaging
of breast ultrasound does not improve the diagnostic performance of morphology-based
cad system,” Journal of Clinical Ultrasound, vol. 40, no. 1, pp. 1–6, 2012.
[171] K. Tumer, K. Bollacker, and J. Ghosh, “A mutual information based ensemble method
to estimate bayes error,” C. et al. Dagli, editor, Intelligent Engineering Systems through
Artificial Neural Networks, vol. 8, pp. 17–22, 1998.
[172] S. Varma and R. Simon, “Bias in error estimation when using cross-validation for model
selection,” BMC Bioinformatics, vol. 7, no. 1, p. 91, Feb 2006.
[174] L. Wang, N. Zhou, and F. Chu, “A general wrapper approach to selection of class-
dependent features,” IEEE Transactions on Neural Networks, vol. 19, no. 7, pp. 1267–
1278, 2008.
[175] R. Wang and K. Tang, “Feature selection for mauc-oriented classification systems,”
Neurocomputing, vol. 89, pp. 39–54, 2012.
[176] M. Welling, “Fisher linear discriminant analysis,” Department of Computer Science, Uni-
versity of Toronto, vol. 3, 2005.
[177] I. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques,
2nd ed. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2005.
[178] W. Wu, S. Lin, and W. Moon, “Combining support vector machine with genetic algo-
rithm to classify ultrasound breast tumor images,” Computerized Medical Imaging and
Graphics, vol. 36, no. 8, pp. 627–633, 2012.
[179] W. Wu, S. Lin, and W. Moon, “An artificial immune system-based support vector machi-
ne approach for classifying ultrasound breast tumor images,” Journal of Digital Imaging,
vol. 28, no. 5, pp. 576–585, 2015.
[181] B. Xue, M. Zhang, W. Browne, and X. Yao, “A survey on evolutionary computation ap-
proaches to feature selection,” IEEE Transactions on Evolutionary Computation, vol. 20,
no. 4, pp. 606–626, 2016.
[182] M. Yang, W. Moon, Y. Wang, M. Bae, C. Huang, J. Chen, and R. Chang, “Robust texture
analysis using multi-resolution gray-scale invariant features for breast sonographic tumor
diagnosis,” IEEE Transactions on Medical Imaging, vol. 32, no. 12, pp. 2262–2273, 2013.
[184] J. Zhang and A. Sanderson, “Jade: Adaptive differential evolution with optional external
archive,” IEEE Transactions on Evolutionary Computation, vol. 13, no. 5, pp. 945–958,
2009.
[185] Z. Zhou, Ensemble methods: foundations and algorithms. CRC press, 2012.