Está en la página 1de 7

ARTCULO ORIGINAL

rboles de decisin como herramienta en el diagnstico


mdico
Decision trees as a tool in the medical diagnosis

Roco Erandi Barrientos Martnez1, Nicandro Cruz Ramrez1, Hctor Gabriel Acosta Mesa1,
Ivonne Rabatte Surez2, Mara del Carmen Gogeascoechea Trejo2,
Patricia Pavn Len2, Sobeida L. Blzquez Morales2.

Recibido: 07/09/2009 - Aceptado: 18/09/2009

RESUMEN ABSTRACT
En este trabajo se evala el desempeo de tres de los algoritmos In this paper, we evaluate the performance of three of the
ms representativos para la construccin de rboles de decisin. most representative algorithms for constructing decision
trees. Los rboles de decisin son un modelo de clasificacin utilizado Decision trees are a classification model used to in
Artificial en la inteligencia artificial, cuya principal caracterstica es su Intelligence, whose main characteristic is its contribution to
aporte visual a la toma de decisiones. Para poner a prueba el visual decision making. In order to test performance of the
rendimiento en el proceso de clasificacin de los rboles de classification process of decision trees, we use two databases,
decisin, se utilizarn dos bases de datos que contienen datos that contain medical data of real patients. These data
correspond mdicos de pacientes reales. Estos datos corresponden a la to the symptoms that a doctor takes into
account for the sintomatologa que un mdico especialista considera para el diagnosis of breast cancer. One of the
databases contains 692 diagnstico de cncer de seno. Una de las bases de datos contiene cases collected from the observation
of one single doctor and 692 casos recopilados de las observaciones de un solo mdico y another contains 322 cases
collected from the observation of 19 la otra, contiene 322 casos recopilados de la observacin de 19 specialists. The purpose is
to determine whether the decision especialistas. En suma, se busca determinar la pertinencia de los trees can be a support
tool for medical diagnosis.
rboles de decisin, es decir, si pueden ser una herramienta de
apoyo para el diagnstico mdico.Keywords: decision trees, breast cancer, algorithm,
Palabras clave: rboles de decisin, cncer de mama, algoritmo, classification.
clasificacin.

rboles de

1 Facultad de Fsica e Inteligencia Artificial.


2 Instituto de Ciencias de la Salud, Universidad Veracruzana, Xalapa, Veracruz, Mxico.
INTRODUCCIN popular. El conocimiento obtenido durante el proceso de
A travs del tiempo se han desarrollado una gran cantidad de aprendizaje inductivo se representa mediante un rbol. Un
mtodos para el anlisis de datos, los cuales principalmente rbol grficamente se representa por un conjunto de nodos,
estn basados en tcnicas estadsticas. Sin embargo, a medida hojas y ramas. El nodo principal o raz es el atributo a partir del
de que la informacin almacenada crece considerablemente, cual se inicia el proceso de clasificacin; los nodos internos
los mtodos estadsticos tradicionales han empezado a corresponden a cada una de las preguntas acerca del atributo
enfrentar problemas de eficiencia y escalabilidad. Debido a que en particular del problema. Cada posible respuesta a los
la mayor parte de esta informacin es histrica y procede de cuestionamientos se representa mediante un nodo hijo. Las
fuentes diversas, parece clara la inminente necesidad de buscar ramas que salen de cada uno de estos nodos se encuentran
mtodos alternativos para el anlisis de este tipo de datos y a etiquetadas con los posibles valores del atributo 2. Los nodos
partir de ellos, poder obtener informacin relevante y no finales o nodos hoja corresponden a una decisin, la cual
explcita. coincide con una de las variables clase del problema a resolver
(Ver Figura 1).
En la mayora de los casos, el anlisis e interpretacin
Este modelo se construye a partir de la descripcin
de los datos se hace de forma manual, es decir, el especialista
narrativa de un problema, ya que provee una visin grfica de
analiza y elabora un informe o hiptesis que refleja las
la toma de decisin, especificando las variables que son
tendencias o pautas de los mismos, para poder presentar sus
evaluadas, las acciones que deben ser tomadas y el orden en el
conclusiones y a partir de ellas poder tomar decisiones
que la toma de decisin ser efectuada. Cada vez que se
importantes y significativas. Como se puede observar, este
ejecuta este tipo de modelo, slo un camino ser seguido
proceso es lento, caro y altamente subjetivo, de hecho, el
dependiendo del valor actual de la variable evaluada. Los
anlisis manual es impracticable en situaciones en las que el
valores que pueden tomar las variables para este tipo de
volumen de los datos crece exponencialmente, ya que la gran
modelos pueden ser discretos o continuos3.
cantidad de datos sobrepasa la capacidad humana para
comprenderlos sin la ayuda de una herramienta adecuada. Por
lo tanto, en la mayora de los casos las decisiones importantes
se toman no a partir de los datos, sino de la intuicin y
experiencia de los expertos, puesto que carecen de
herramientas idneas que los apoyen1.
Para el caso de la medicina, es posible aplicar mtodos
alternativos, debido a la gran cantidad de padecimientos
involucrados, las sintomatologas y los pacientes. Lo ideal sera
que los mdicos pudieran contar con el apoyo de una
herramienta que les permita analizar los datos
sintomatolgicos de cada uno de sus pacientes para poder
determinar con base en casos anteriores, el diagnstico ms
acertado as como el tratamiento ptimo a seguir, lo cual
representara un soporte y ayuda para el mdico. Una
herramienta alternativa para la prediccin y clasificacin de
grandes cantidades de datos que es utilizada ampliamente en
el rea de la inteligencia artificial son los rboles de decisin.

rboles de decisin
Un rbol de decisin es un modelo de prediccin cuyo objetivo
Figura 1: Estructura de un rbol de decisin.
principal es el aprendizaje inductivo a partir de observaciones y
construcciones lgicas. Son muy similares a los sistemas de
prediccin basados en reglas, que sirven para representar y Un algoritmo de generacin de rboles de decisin
categorizar una serie de condiciones que suceden de forma consta de 2 etapas: la primera corresponde a la induccin del
sucesiva para la solucin de un problema. Constituyen rbol y la segunda a la clasificacin. En la primera etapa se
probablemente el modelo de clasificacin ms utilizado y construye el rbol de decisin a partir del conjunto de
entrenamiento; comnmente cada nodo interno del rbol se

www.uv.mx/rm

Rev Med UV, Julio - Diciembre, 2009 20


compone de un atributo de prueba y la porcin del conjunto de cada una de ellas para su descripcin (interpretacin y
entrenamiento presente en el nodo es dividida de acuerdo con codificacin); cabe mencionar que para poder llegar a un
los valores que pueda tomar ese atributo. La construccin del diagnstico final, es decir para confirmar si el tumor detectado
rbol inicia generando su nodo raz, eligiendo un atributo de en las pacientes es maligno o no, fue necesaria una biopsia y
prueba y dividiendo el conjunto de entrenamiento en dos o una mamografa.
ms subconjuntos; para cada particin se genera un nuevo
nodo y as sucesivamente. Cuando en un nodo se tienen
objetos de ms de una clase se genera un nodo interno;
cuando contiene objetos de una clase solamente, se forma una
hoja a la que se le asigna la etiqueta de la clase. En la segunda
etapa del algoritmo cada objeto nuevo es clasificado por el
rbol construido; despus se recorre el rbol desde el nodo raz
hasta una hoja, a partir de la que se determina la membresa
del objeto a alguna clase. El camino a seguir en el rbol lo
determinan las decisiones tomadas en cada nodo interno, de
acuerdo con el atributo de prueba presente en l.

OBJETIVO
Evaluar el desempeo de clasificacin de datos mdicos a partir
de los resultados obtenidos en la aplicacin de algoritmos
basados en rboles de decisin, para poder determinar si esta
tcnica de clasificacin puede ser una herramienta de soporte
y ayuda eficaz en el tratamiento y diagnstico mdico.

MATERIALES Y MTODOS
Para llevar a cabo este trabajo de investigacin utilizamos dos
bases de datos [4] que contienen informacin acerca de
tumores (malignos o benignos) para la deteccin de cncer de
mama. Estas bases de datos tienen las siguientes
caractersticas: o La primera est integrada por un conjunto de
datos recopilados por la experiencia de un solo patlogo. Esta
base de datos contiene 692 casos tomados del Departamento
de Patologa del Hospital Royal Hallamshire en Sheffield,
Reino Unido del ao 1992 al 1993.
o La segunda corresponde a un conjunto de datos
recopilados por la experiencia de 19 patlogos
diferentes, quienes cuentan de 5 a 20 aos de
experiencia en la deteccin de cncer de mama; esta
base de datos contiene 322 casos tomados del
departamento de patologa arriba citado, pero del ao
1996 al 1997.
Las bases de datos anteriores contienen las mismas
variables, las cuales corresponden a caractersticas que los
patlogos toman en cuenta para poder emitir un diagnstico
sobre el cncer de mama. En la tabla 1 se describen estas
variables as como los valores que los patlogos asignaron a

www.uv.mx/rm
21
Puesto que el objetivo de este trabajo es verificar si los
rboles de decisin son una herramienta para el diagnstico
Resmenes de Brboles de decisinoestadstica

Tabla 1. Variables de entrada para las bases de datos sobre cncer de mama.
Caracterstica observada Valores que puede tomar Definicin
(variable) la variable
Edad uno, dos o tres Toma valor de uno si la paciente tiene menos de 50 aos, dos si est entre 50 y 70 aos
y tres si tiene ms de 70 aos.
Toma valor de verdadero si la mayora de las clulas epiteliales de la paciente se
Dimensin celular verdadero o falso encuentran dentro de grupos adhesivos y valor de falso si la mayora estn dentro de
grupos cohesivos.
Lumina intracitoplasmtica verdadero o falso Toma valor de verdadero si en las clulas epiteliales de la paciente est presente esta
caracterstica y falso si est ausente.
Agrupaciones de clulas verdadero o falso Toma valor de verdadero si algunos grupos de clulas epiteliales no son planas y valor de
epiteliales tridimensionales falso si todos los grupos de las clulas son planos.
Ncleos bipolares verdadero o falso Toma valor de verdadero si el ncleo bipolar est presente en las clulas y valor de falso
si est ausente.
Macrfago espumoso verdadero o falso Toma valor de verdadero si el macrfago espumoso est presente y valor de falso si est
ausente.
Nucleolos verdadero o falso Toma valor de verdadero si ms de tres nucleolos visibles estn presentes en las clulas de
la paciente y valor de falso si tres o menos estn presentes.
Toma valor de verdadero si algunas de las clulas epiteliales de la paciente tienen
Pleomorfismo nuclear verdadero o falso dimetros nucleares dos veces superior al de otros ncleos de las clulas y valor de falso
si no tienen dicha dimensin el dimetro de sus clulas.
Toma valor de verdadero si alguno de los ncleos de las clulas epiteliales de la paciente
Tamao nuclear verdadero o falso tienen un dimetro dos veces mayor al dimetro de los glbulos rojos, y valor de falso si
los ncleos de las clulas tiene un dimetro inferior al doble de los glbulos rojos.
Clulas epiteliales necrticas verdadero o falso Toma valor de verdadero si las clulas epiteliales necrticas estn presentes en la paciente
y valor de falso si estn ausentes.
Toma valor de verdadero si la mayora de las clulas epiteliales del ncleo de la paciente
Cambios apcrinos verdadero o falso muestran cambios apcrinos y valor de falso si no presentan dichos cambios la mayora
de sus clulas.
Resultados (variable clase) maligno o benigno Toma valor de maligno o benigno dependiendo del diagnstico que el doctor haya
detectado al tumor.
mdico, partiremos del hecho de que no podemos llevar a cabo
los procedimientos mdicos apropiados para detectar un
tumor a una paciente ni determinar si ste es benigno o
maligno. Slo contamos con la informacin cualitativa (valor de
las variables) proporcionada por los patlogos, por lo que la
evaluacin de los rboles la llevaremos a cabo con los
resultados que arroje la tarea de clasificacin, a partir de las
bases de datos descritas anteriormente. Los algoritmos de
clasificacin que utilizamos para evaluar a los rboles son los
siguientes:
o ID3: Algoritmo que aprende a partir de la diferencia que
existe entre los datos para analizar, esto es, un
procedimiento de divide y vencers, que maximiza la
informacin obtenida, la cual se utiliza como una mtrica
para seleccionar el mejor atributo que divida los datos en
clases homogneas [5]. o J48: Este algoritmo construye un
rbol a partir de datos. Se construye iterativamente al ir
agregando nodos o ramas que minimicen la diferencia
entre los datos. Este algoritmo es un descendiente del ID3
y se extiende en el sentido de su capacidad de utilizar

www.uv.mx/rm
22
atributos numricos y vacos para generar reglas del Porcentaje de casos que
rbol. Con el propsito de clasificacin de una nueva clasific correctamente el 93.04% 91.73% 94.35%
algoritmo.
instancia, J48 prueba cada uno de los valores del
o El segundo experimento consisti en considerar a la
atributo de acuerdo con su estructura hasta que
encuentra una hoja, la cual contiene los valores de la segunda base de datos como un conjunto de prueba
clase para cada instancia [6]. (322 casos), mientras que para el conjunto de
entrenamiento se consider el mismo conjunto de 462
o Naive Bayes: Algoritmo que genera un rbol de
casos del primer experimento. El experimento se hizo
decisin a partir del clasificador bayesiano Naive
con el propsito de analizar qu conjunto de datos es
Bayes, que es el modelo ms simple de clasificacin ya ms significativo, a partir del porcentaje de casos que
que asume independencia entre todos los atributos clasifica correctamente. A partir de estos datos, se
dada una clase. Por lo tanto, corresponde a un modelo construyeron los rboles de decisin que
de atributos independientes. En este caso, la corresponden a cada uno de los algoritmos descritos
estructura de la red es fija y slo es necesario en la seccin anterior. Los resultados de estos
aprender los parmetros. El fundamento principal de experimentos se muestran en la tabla 3 y en la figura 3
este clasificador es la suposicin de que todos los
atributos son independientes del valor de la variable rboles de decisin.
clase [7].
Tabla 3.
La eleccin de los algoritmos anteriores obedece a que son los de decisin.
Porcentajes de clasificacin para la segunda base de datos con rboles
ms utilizados debido a su sencillez, precisin y bajo costo de ID3 J48 Naive Bayes Tree
cmputo en su ejecucin. Porcentaje de casos que clasific
correctamente el 82.60% 81.98% 85.71%
algoritmo

METODOLOGA Y RESULTADOS
Para evaluar la capacidad de clasificacin de los rboles de
CONCLUSIONES
decisin se llevaron a cabo los siguientes experimentos: Los resultados obtenidos en los experimentos descritos en la
o El primero consisti en dividir aleatoriamente la primera seccin anterior dan evidencia que es posible construir con
precisin rboles de decisin a partir de datos mdicos, ya que
base datos en dos conjuntos. Uno de 462 casos (dos
los porcentajes de clasificacin, es decir el nmero de casos
terceras partes del total) para poder entrenar el rbol
que clasific correctamente, tienen un margen de error mnimo
de decisin a partir de estos datos. Un segundo
y es posible que pueda mejorar su eficiencia con la ayuda del
conjunto de 230 casos (una tercera parte del total)
experto, ajustando los datos mismos, esto es, agregando
para probar que el rbol tambin clasifica estos datos.
variables o cambiando sus parmetros.
A partir de stos y los algoritmos descritos en la
Tambin es importante mencionar que los resultados
seccin anterior se construyeron los rboles de
obtenidos con los datos de la primera base de datos, la cual
decisin. Los resultados de dichos experimentos se
corresponde a las observaciones obtenidas de un solo
muestran en la tabla 2 y en la figura 2 con uno de los
especialista, son mejores que los resultados obtenidos de los
rboles de decisin que se obtuvieron.
datos provenientes de las observaciones de 19 especialistas
Tabla 2. Porcentajes de clasificacin para la primera base de datos con rboles (datos de la segunda base de datos), ya que la cantidad de
de decisin.
casos que clasific correctamente en la primera base de datos
ID3 J48 Naive Bayes Tree
es mayor que la cantidad en la segunda. Este resultado refleja
que existe mayor discrepancia en la apreciacin (lo cual se

www.uv.mx/rm
23
Rev Med UV, Julio - Diciembre, 2009

Figura 2. rbol de decisin construido con el algoritmo ID3 para la primera base de datos.

Figura 3. rbol de decisin construido con el algoritmo ID3 para la segunda base de datos.
Resmenes de Brboles de decisinoestadstica

traduce en problemas para la clasificacin) cuando intervienen BIBLIOGRAFA


ms observadores, debido a que se aportan diferentes puntos 1. Cruz-Ramrez N, Acosta-Mesa HG, Carrillo-Calvet H, Barrientos de vista,
Martnez RE. Comparison of the Performance of Seven Classifiers
incrementndose la subjetividad en los valores de las as Effective Decision Support Tools for
the Cytodiagnosis of Breast variables (lo cual corresponde a la sintomatologa). Cancer: A Case Study. Analysis and Design of Intelligent Systems using
Con base en este planteamiento podemos concluir que Soft Computing Techniques. Advances in soft computing; 41: 79 - 87. a partir de un
conjunto de datos aportados por un especialista 2. Russell, S. and P. Norvig, Artificial Intelligence: A Modern Approach.
Second ed. Upper Saddle River (N J): Prentice Hall/ Pearson
en una disciplina es posible tener en los rboles de decisin una 2003. herramienta de apoyo y ayuda confiable para el
Education;
diagnstico 3. Breiman L, Friedman JH, Olshen RA, Stone CJ. Classification and mdico, aun cuando es importante destacar que lo ms Regression
Trees, Wadsworth (New York); 1994.

importante es contar con un conjunto de datos consistente y 4. Cross SS y cols. Which Decision Support Technologies Are Appropriate for the Cytodiagnosis of
Breast Cancer? Artificial Intelligence confiable, ya que este tipo de herramientas estn supeditadas al Techniques in Breast Cancer Diagnosis and
Prognosis, A. Jain, et al., conocimiento del experto que aportar la informacin. Por ello es Editors. World Scientific 2000; 265-295.
necesario continuar realizando pruebas en otras especialidades 5. Quinlan JR. Learning Decision Tree Classifiers. ACM Computing
Surveys 1996; 28(1): 71-72. mdicas para encontrar el
conjunto ptimo para la construccin 6. Quinlan JR. Programs for Machine Learning. The Morgan Kaufmann de este tipo de herramientas. Series in
Machine Learning. San Mateo (California): Morgan Kaufmann
Publishers; 1993. 7. Dunham MH. Data Mining. Introductory and
Advanced Topics. Upper
Agradecimientos
Saddle River (N J): Prentice Hall; 2003.
Agradecemos al Dr. Simon S. Cruz, Profesor Clnico de la Unidad
Acadmica de Patologa de la Universidad de Sheffield en Reino
Unido, quien amablemente nos proporcion las bases de datos
para este trabajo.

También podría gustarte