Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Arbolitos
Arbolitos
Roco Erandi Barrientos Martnez1, Nicandro Cruz Ramrez1, Hctor Gabriel Acosta Mesa1,
Ivonne Rabatte Surez2, Mara del Carmen Gogeascoechea Trejo2,
Patricia Pavn Len2, Sobeida L. Blzquez Morales2.
RESUMEN ABSTRACT
En este trabajo se evala el desempeo de tres de los algoritmos In this paper, we evaluate the performance of three of the
ms representativos para la construccin de rboles de decisin. most representative algorithms for constructing decision
trees. Los rboles de decisin son un modelo de clasificacin utilizado Decision trees are a classification model used to in
Artificial en la inteligencia artificial, cuya principal caracterstica es su Intelligence, whose main characteristic is its contribution to
aporte visual a la toma de decisiones. Para poner a prueba el visual decision making. In order to test performance of the
rendimiento en el proceso de clasificacin de los rboles de classification process of decision trees, we use two databases,
decisin, se utilizarn dos bases de datos que contienen datos that contain medical data of real patients. These data
correspond mdicos de pacientes reales. Estos datos corresponden a la to the symptoms that a doctor takes into
account for the sintomatologa que un mdico especialista considera para el diagnosis of breast cancer. One of the
databases contains 692 diagnstico de cncer de seno. Una de las bases de datos contiene cases collected from the observation
of one single doctor and 692 casos recopilados de las observaciones de un solo mdico y another contains 322 cases
collected from the observation of 19 la otra, contiene 322 casos recopilados de la observacin de 19 specialists. The purpose is
to determine whether the decision especialistas. En suma, se busca determinar la pertinencia de los trees can be a support
tool for medical diagnosis.
rboles de decisin, es decir, si pueden ser una herramienta de
apoyo para el diagnstico mdico.Keywords: decision trees, breast cancer, algorithm,
Palabras clave: rboles de decisin, cncer de mama, algoritmo, classification.
clasificacin.
rboles de
rboles de decisin
Un rbol de decisin es un modelo de prediccin cuyo objetivo
Figura 1: Estructura de un rbol de decisin.
principal es el aprendizaje inductivo a partir de observaciones y
construcciones lgicas. Son muy similares a los sistemas de
prediccin basados en reglas, que sirven para representar y Un algoritmo de generacin de rboles de decisin
categorizar una serie de condiciones que suceden de forma consta de 2 etapas: la primera corresponde a la induccin del
sucesiva para la solucin de un problema. Constituyen rbol y la segunda a la clasificacin. En la primera etapa se
probablemente el modelo de clasificacin ms utilizado y construye el rbol de decisin a partir del conjunto de
entrenamiento; comnmente cada nodo interno del rbol se
www.uv.mx/rm
OBJETIVO
Evaluar el desempeo de clasificacin de datos mdicos a partir
de los resultados obtenidos en la aplicacin de algoritmos
basados en rboles de decisin, para poder determinar si esta
tcnica de clasificacin puede ser una herramienta de soporte
y ayuda eficaz en el tratamiento y diagnstico mdico.
MATERIALES Y MTODOS
Para llevar a cabo este trabajo de investigacin utilizamos dos
bases de datos [4] que contienen informacin acerca de
tumores (malignos o benignos) para la deteccin de cncer de
mama. Estas bases de datos tienen las siguientes
caractersticas: o La primera est integrada por un conjunto de
datos recopilados por la experiencia de un solo patlogo. Esta
base de datos contiene 692 casos tomados del Departamento
de Patologa del Hospital Royal Hallamshire en Sheffield,
Reino Unido del ao 1992 al 1993.
o La segunda corresponde a un conjunto de datos
recopilados por la experiencia de 19 patlogos
diferentes, quienes cuentan de 5 a 20 aos de
experiencia en la deteccin de cncer de mama; esta
base de datos contiene 322 casos tomados del
departamento de patologa arriba citado, pero del ao
1996 al 1997.
Las bases de datos anteriores contienen las mismas
variables, las cuales corresponden a caractersticas que los
patlogos toman en cuenta para poder emitir un diagnstico
sobre el cncer de mama. En la tabla 1 se describen estas
variables as como los valores que los patlogos asignaron a
www.uv.mx/rm
21
Puesto que el objetivo de este trabajo es verificar si los
rboles de decisin son una herramienta para el diagnstico
Resmenes de Brboles de decisinoestadstica
Tabla 1. Variables de entrada para las bases de datos sobre cncer de mama.
Caracterstica observada Valores que puede tomar Definicin
(variable) la variable
Edad uno, dos o tres Toma valor de uno si la paciente tiene menos de 50 aos, dos si est entre 50 y 70 aos
y tres si tiene ms de 70 aos.
Toma valor de verdadero si la mayora de las clulas epiteliales de la paciente se
Dimensin celular verdadero o falso encuentran dentro de grupos adhesivos y valor de falso si la mayora estn dentro de
grupos cohesivos.
Lumina intracitoplasmtica verdadero o falso Toma valor de verdadero si en las clulas epiteliales de la paciente est presente esta
caracterstica y falso si est ausente.
Agrupaciones de clulas verdadero o falso Toma valor de verdadero si algunos grupos de clulas epiteliales no son planas y valor de
epiteliales tridimensionales falso si todos los grupos de las clulas son planos.
Ncleos bipolares verdadero o falso Toma valor de verdadero si el ncleo bipolar est presente en las clulas y valor de falso
si est ausente.
Macrfago espumoso verdadero o falso Toma valor de verdadero si el macrfago espumoso est presente y valor de falso si est
ausente.
Nucleolos verdadero o falso Toma valor de verdadero si ms de tres nucleolos visibles estn presentes en las clulas de
la paciente y valor de falso si tres o menos estn presentes.
Toma valor de verdadero si algunas de las clulas epiteliales de la paciente tienen
Pleomorfismo nuclear verdadero o falso dimetros nucleares dos veces superior al de otros ncleos de las clulas y valor de falso
si no tienen dicha dimensin el dimetro de sus clulas.
Toma valor de verdadero si alguno de los ncleos de las clulas epiteliales de la paciente
Tamao nuclear verdadero o falso tienen un dimetro dos veces mayor al dimetro de los glbulos rojos, y valor de falso si
los ncleos de las clulas tiene un dimetro inferior al doble de los glbulos rojos.
Clulas epiteliales necrticas verdadero o falso Toma valor de verdadero si las clulas epiteliales necrticas estn presentes en la paciente
y valor de falso si estn ausentes.
Toma valor de verdadero si la mayora de las clulas epiteliales del ncleo de la paciente
Cambios apcrinos verdadero o falso muestran cambios apcrinos y valor de falso si no presentan dichos cambios la mayora
de sus clulas.
Resultados (variable clase) maligno o benigno Toma valor de maligno o benigno dependiendo del diagnstico que el doctor haya
detectado al tumor.
mdico, partiremos del hecho de que no podemos llevar a cabo
los procedimientos mdicos apropiados para detectar un
tumor a una paciente ni determinar si ste es benigno o
maligno. Slo contamos con la informacin cualitativa (valor de
las variables) proporcionada por los patlogos, por lo que la
evaluacin de los rboles la llevaremos a cabo con los
resultados que arroje la tarea de clasificacin, a partir de las
bases de datos descritas anteriormente. Los algoritmos de
clasificacin que utilizamos para evaluar a los rboles son los
siguientes:
o ID3: Algoritmo que aprende a partir de la diferencia que
existe entre los datos para analizar, esto es, un
procedimiento de divide y vencers, que maximiza la
informacin obtenida, la cual se utiliza como una mtrica
para seleccionar el mejor atributo que divida los datos en
clases homogneas [5]. o J48: Este algoritmo construye un
rbol a partir de datos. Se construye iterativamente al ir
agregando nodos o ramas que minimicen la diferencia
entre los datos. Este algoritmo es un descendiente del ID3
y se extiende en el sentido de su capacidad de utilizar
www.uv.mx/rm
22
atributos numricos y vacos para generar reglas del Porcentaje de casos que
rbol. Con el propsito de clasificacin de una nueva clasific correctamente el 93.04% 91.73% 94.35%
algoritmo.
instancia, J48 prueba cada uno de los valores del
o El segundo experimento consisti en considerar a la
atributo de acuerdo con su estructura hasta que
encuentra una hoja, la cual contiene los valores de la segunda base de datos como un conjunto de prueba
clase para cada instancia [6]. (322 casos), mientras que para el conjunto de
entrenamiento se consider el mismo conjunto de 462
o Naive Bayes: Algoritmo que genera un rbol de
casos del primer experimento. El experimento se hizo
decisin a partir del clasificador bayesiano Naive
con el propsito de analizar qu conjunto de datos es
Bayes, que es el modelo ms simple de clasificacin ya ms significativo, a partir del porcentaje de casos que
que asume independencia entre todos los atributos clasifica correctamente. A partir de estos datos, se
dada una clase. Por lo tanto, corresponde a un modelo construyeron los rboles de decisin que
de atributos independientes. En este caso, la corresponden a cada uno de los algoritmos descritos
estructura de la red es fija y slo es necesario en la seccin anterior. Los resultados de estos
aprender los parmetros. El fundamento principal de experimentos se muestran en la tabla 3 y en la figura 3
este clasificador es la suposicin de que todos los
atributos son independientes del valor de la variable rboles de decisin.
clase [7].
Tabla 3.
La eleccin de los algoritmos anteriores obedece a que son los de decisin.
Porcentajes de clasificacin para la segunda base de datos con rboles
ms utilizados debido a su sencillez, precisin y bajo costo de ID3 J48 Naive Bayes Tree
cmputo en su ejecucin. Porcentaje de casos que clasific
correctamente el 82.60% 81.98% 85.71%
algoritmo
METODOLOGA Y RESULTADOS
Para evaluar la capacidad de clasificacin de los rboles de
CONCLUSIONES
decisin se llevaron a cabo los siguientes experimentos: Los resultados obtenidos en los experimentos descritos en la
o El primero consisti en dividir aleatoriamente la primera seccin anterior dan evidencia que es posible construir con
precisin rboles de decisin a partir de datos mdicos, ya que
base datos en dos conjuntos. Uno de 462 casos (dos
los porcentajes de clasificacin, es decir el nmero de casos
terceras partes del total) para poder entrenar el rbol
que clasific correctamente, tienen un margen de error mnimo
de decisin a partir de estos datos. Un segundo
y es posible que pueda mejorar su eficiencia con la ayuda del
conjunto de 230 casos (una tercera parte del total)
experto, ajustando los datos mismos, esto es, agregando
para probar que el rbol tambin clasifica estos datos.
variables o cambiando sus parmetros.
A partir de stos y los algoritmos descritos en la
Tambin es importante mencionar que los resultados
seccin anterior se construyeron los rboles de
obtenidos con los datos de la primera base de datos, la cual
decisin. Los resultados de dichos experimentos se
corresponde a las observaciones obtenidas de un solo
muestran en la tabla 2 y en la figura 2 con uno de los
especialista, son mejores que los resultados obtenidos de los
rboles de decisin que se obtuvieron.
datos provenientes de las observaciones de 19 especialistas
Tabla 2. Porcentajes de clasificacin para la primera base de datos con rboles (datos de la segunda base de datos), ya que la cantidad de
de decisin.
casos que clasific correctamente en la primera base de datos
ID3 J48 Naive Bayes Tree
es mayor que la cantidad en la segunda. Este resultado refleja
que existe mayor discrepancia en la apreciacin (lo cual se
www.uv.mx/rm
23
Rev Med UV, Julio - Diciembre, 2009
Figura 2. rbol de decisin construido con el algoritmo ID3 para la primera base de datos.
Figura 3. rbol de decisin construido con el algoritmo ID3 para la segunda base de datos.
Resmenes de Brboles de decisinoestadstica
importante es contar con un conjunto de datos consistente y 4. Cross SS y cols. Which Decision Support Technologies Are Appropriate for the Cytodiagnosis of
Breast Cancer? Artificial Intelligence confiable, ya que este tipo de herramientas estn supeditadas al Techniques in Breast Cancer Diagnosis and
Prognosis, A. Jain, et al., conocimiento del experto que aportar la informacin. Por ello es Editors. World Scientific 2000; 265-295.
necesario continuar realizando pruebas en otras especialidades 5. Quinlan JR. Learning Decision Tree Classifiers. ACM Computing
Surveys 1996; 28(1): 71-72. mdicas para encontrar el
conjunto ptimo para la construccin 6. Quinlan JR. Programs for Machine Learning. The Morgan Kaufmann de este tipo de herramientas. Series in
Machine Learning. San Mateo (California): Morgan Kaufmann
Publishers; 1993. 7. Dunham MH. Data Mining. Introductory and
Advanced Topics. Upper
Agradecimientos
Saddle River (N J): Prentice Hall; 2003.
Agradecemos al Dr. Simon S. Cruz, Profesor Clnico de la Unidad
Acadmica de Patologa de la Universidad de Sheffield en Reino
Unido, quien amablemente nos proporcion las bases de datos
para este trabajo.