Está en la página 1de 7

ARTCULO ORIGINAL

rboles de decisin como herramienta en el diagnstico


mdico
Decision trees as a tool in the medical diagnosis

Roco Erandi Barrientos Martnez1, Nicandro Cruz Ramrez1, Hctor Gabriel Acosta Mesa1,
Ivonne Rabatte Surez2, Mara del Carmen Gogeascoechea Trejo2,
Patricia Pavn Len2, Sobeida L. Blzquez Morales2.

Recibido: 07/09/2009 - Aceptado: 18/09/2009

RESUMEN ABSTRACT
En este trabajo se evala el desempeo de tres de los algoritmos In this paper, we evaluate the performance of three of the ms
representativos para la construccin de rboles de decisin. most representative algorithms for constructing decision trees. Los
rboles de decisin son un modelo de clasificacin utilizado Decision trees are a classification model used to in Artificial en
la inteligencia artificial, cuya principal caracterstica es su Intelligence, whose main characteristic is its contribution to
aporte visual a la toma de decisiones. Para poner a prueba el visual decision making. In order to test performance of the
rendimiento en el proceso de clasificacin de los rboles de classification process of decision trees, we use two databases,
decisin, se utilizarn dos bases de datos que contienen datos that contain medical data of real patients. These data correspond
mdicos de pacientes reales. Estos datos corresponden a la to the symptoms that a doctor takes into account for the
sintomatologa que un mdico especialista considera para el diagnosis of breast cancer. One of the databases contains 692
diagnstico de cncer de seno. Una de las bases de datos contiene cases collected from the observation of one single doctor and
692 casos recopilados de las observaciones de un solo mdico y another contains 322 cases collected from the observation of
19 la otra, contiene 322 casos recopilados de la observacin de 19 specialists. The purpose is to determine whether the decision
especialistas. En suma, se busca determinar la pertinencia de los trees can be a support tool for medical diagnosis.
rboles de decisin, es decir, si pueden ser una herramienta de
apoyo para el diagnstico mdico.Keywords: decision trees, breast cancer, algorithm,
Palabras clave: rboles de decisin, cncer de mama, algoritmo, classification.
clasificacin.

1
Facultad de Fsica e Inteligencia Artificial.
2
Instituto de Ciencias de la Salud, Universidad Veracruzana, Xalapa, Veracruz, Mxico.
rboles de
decisin categorizar una serie de condiciones que suceden de forma
sucesiva para la solucin de un problema. Constituyen
probablemente el modelo de clasificacin ms utilizado y
popular. El conocimiento obtenido durante el proceso de
INTRODUCCIN aprendizaje inductivo se representa mediante un rbol. Un rbol
A travs del tiempo se han desarrollado una gran cantidad de grficamente se representa por un conjunto de nodos, hojas y
mtodos para el anlisis de datos, los cuales principalmente ramas. El nodo principal o raz es el atributo a partir del cual se
estn basados en tcnicas estadsticas. Sin embargo, a medida inicia el proceso de clasificacin; los nodos internos
de que la informacin almacenada crece considerablemente, los corresponden a cada una de las preguntas acerca del atributo
mtodos estadsticos tradicionales han empezado a enfrentar en particular del problema. Cada posible respuesta a los
problemas de eficiencia y escalabilidad. Debido a que la mayor cuestionamientos se representa mediante un nodo hijo. Las
parte de esta informacin es histrica y procede de fuentes ramas que salen de cada uno de estos nodos se encuentran
diversas, parece clara la inminente necesidad de buscar etiquetadas con los posibles valores del atributo 2. Los nodos
mtodos alternativos para el anlisis de este tipo de datos y a finales o nodos hoja corresponden a una decisin, la cual
coincide con una de las variables clase del problema a resolver
partir de ellos, poder obtener informacin relevante y no
(Ver Figura 1).
explcita.
Este modelo se construye a partir de la descripcin
En la mayora de los casos, el anlisis e interpretacin
narrativa de un problema, ya que provee una visin grfica de la
de los datos se hace de forma manual, es decir, el especialista
toma de decisin, especificando las variables que son evaluadas,
analiza y elabora un informe o hiptesis que refleja las
las acciones que deben ser tomadas y el orden en el que la toma
tendencias o pautas de los mismos, para poder presentar sus
de decisin ser efectuada. Cada vez que se ejecuta este tipo de
conclusiones y a partir de ellas poder tomar decisiones
modelo, slo un camino ser seguido dependiendo del valor
importantes y significativas. Como se puede observar, este
actual de la variable evaluada. Los valores que pueden tomar las
proceso es lento, caro y altamente subjetivo, de hecho, el
variables para este tipo de modelos pueden ser discretos o
anlisis manual es impracticable en situaciones en las que el
continuos3.
volumen de los datos crece exponencialmente, ya que la gran
cantidad de datos sobrepasa la capacidad humana para
comprenderlos sin la ayuda de una herramienta adecuada. Por
lo tanto, en la mayora de los casos las decisiones importantes
se toman no a partir de los datos, sino de la intuicin y
experiencia de los expertos, puesto que carecen de
herramientas idneas que los apoyen1.
Para el caso de la medicina, es posible aplicar mtodos
alternativos, debido a la gran cantidad de padecimientos
involucrados, las sintomatologas y los pacientes. Lo ideal sera
que los mdicos pudieran contar con el apoyo de una
herramienta que les permita analizar los datos sintomatolgicos
de cada uno de sus pacientes para poder determinar con base
en casos anteriores, el diagnstico ms acertado as como el
tratamiento ptimo a seguir, lo cual representara un soporte y
ayuda para el mdico. Una herramienta alternativa para la
prediccin y clasificacin de grandes cantidades de datos que es
utilizada ampliamente en el rea de la inteligencia artificial son
los rboles de decisin.

rboles de decisin
Figura 1: Estructura de un rbol de decisin.
Un rbol de decisin es un modelo de prediccin cuyo objetivo
principal es el aprendizaje inductivo a partir de observaciones y
Un algoritmo de generacin de rboles de decisin
construcciones lgicas. Son muy similares a los sistemas de
consta de 2 etapas: la primera corresponde a la induccin del
prediccin basados en reglas, que sirven para representar y
rbol y la segunda a la clasificacin. En la primera etapa se
Rev Med UV, Julio - Diciembre, 2009

www.uv.mx/rm
20
construye el rbol de decisin a partir del conjunto de cada una de ellas para su descripcin (interpretacin y
entrenamiento; comnmente cada nodo interno del rbol se codificacin); cabe mencionar que para poder llegar a un
compone de un atributo de prueba y la porcin del conjunto de diagnstico final, es decir para confirmar si el tumor detectado
entrenamiento presente en el nodo es dividida de acuerdo con en las pacientes es maligno o no, fue necesaria una biopsia y una
los valores que pueda tomar ese atributo. La construccin del mamografa.
rbol inicia generando su nodo raz, eligiendo un atributo de
prueba y dividiendo el conjunto de entrenamiento en dos o ms
subconjuntos; para cada particin se genera un nuevo nodo y as
sucesivamente. Cuando en un nodo se tienen objetos de ms de
una clase se genera un nodo interno; cuando contiene objetos
de una clase solamente, se forma una hoja a la que se le asigna
la etiqueta de la clase. En la segunda etapa del algoritmo cada
objeto nuevo es clasificado por el rbol construido; despus se
recorre el rbol desde el nodo raz hasta una hoja, a partir de la
que se determina la membresa del objeto a alguna clase. El
camino a seguir en el rbol lo determinan las decisiones
tomadas en cada nodo interno, de acuerdo con el atributo de
prueba presente en l.

OBJETIVO
Evaluar el desempeo de clasificacin de datos mdicos a partir
de los resultados obtenidos en la aplicacin de algoritmos
basados en rboles de decisin, para poder determinar si esta
tcnica de clasificacin puede ser una herramienta de soporte y
ayuda eficaz en el tratamiento y diagnstico mdico.

MATERIALES Y MTODOS
Para llevar a cabo este trabajo de investigacin utilizamos dos
bases de datos [4] que contienen informacin acerca de
tumores (malignos o benignos) para la deteccin de cncer de
mama. Estas bases de datos tienen las siguientes caractersticas:
o La primera est integrada por un conjunto de datos
recopilados por la experiencia de un solo patlogo. Esta base de
datos contiene 692 casos tomados del Departamento de
Patologa del Hospital Royal Hallamshire en Sheffield, Reino
Unido del ao 1992 al 1993.
o La segunda corresponde a un conjunto de datos
recopilados por la experiencia de 19 patlogos
diferentes, quienes cuentan de 5 a 20 aos de
experiencia en la deteccin de cncer de mama; esta
base de datos contiene 322 casos tomados del
departamento de patologa arriba citado, pero del ao
1996 al 1997.
Las bases de datos anteriores contienen las mismas
variables, las cuales corresponden a caractersticas que los
patlogos toman en cuenta para poder emitir un diagnstico
sobre el cncer de mama. En la tabla 1 se describen estas
variables as como los valores que los patlogos asignaron a

www.uv.mx/rm
21
Puesto que el objetivo de este trabajo es verificar si los J48 prueba cada uno de los valores del atributo de
rboles de decisin son una herramienta para el diagnstico acuerdo con su estructura hasta que encuentra una
mdico, partiremos del hecho de que no podemos llevar a cabo hoja, la cual contiene los valores de la clase para cada
Tabla 1. Variables de entrada para las bases de datos sobre cncer de mama.
Caracterstica observada Valores que puede tomar Definicin
(variable) la variable
Edad uno, dos o tres Toma valor de uno si la paciente tiene menos de 50 aos, dos si est entre 50 y 70 aos
y tres si tiene ms de 70 aos.
Toma valor de verdadero si la mayora de las clulas epiteliales de la paciente se
Dimensin celular verdadero o falso encuentran dentro de grupos adhesivos y valor de falso si la mayora estn dentro de
grupos cohesivos.
Lumina intracitoplasmtica verdadero o falso Toma valor de verdadero si en las clulas epiteliales de la paciente est presente esta
caracterstica y falso si est ausente.
Agrupaciones de clulas verdadero o falso Toma valor de verdadero si algunos grupos de clulas epiteliales no son planas y valor de
epiteliales tridimensionales falso si todos los grupos de las clulas son planos.
Ncleos bipolares verdadero o falso Toma valor de verdadero si el ncleo bipolar est presente en las clulas y valor de
falso si est ausente.
Macrfago espumoso verdadero o falso Toma valor de verdadero si el macrfago espumoso est presente y valor de falso si est
ausente.
Nucleolos verdadero o falso Toma valor de verdadero si ms de tres nucleolos visibles estn presentes en las clulas de
la paciente y valor de falso si tres o menos estn presentes.
Toma valor de verdadero si algunas de las clulas epiteliales de la paciente tienen
Pleomorfismo nuclear verdadero o falso dimetros nucleares dos veces superior al de otros ncleos de las clulas y valor de falso si
no tienen dicha dimensin el dimetro de sus clulas.
Toma valor de verdadero si alguno de los ncleos de las clulas epiteliales de la paciente
Tamao nuclear verdadero o falso tienen un dimetro dos veces mayor al dimetro de los glbulos rojos, y valor de falso si
los ncleos de las clulas tiene un dimetro inferior al doble de los glbulos rojos.
Clulas epiteliales necrticas verdadero o falso Toma valor de verdadero si las clulas epiteliales necrticas estn presentes en la
paciente y valor de falso si estn ausentes.
Toma valor de verdadero si la mayora de las clulas epiteliales del ncleo de la paciente
Cambios apcrinos verdadero o falso muestran cambios apcrinos y valor de falso si no presentan dichos cambios la mayora de
sus clulas.
Resultados (variable clase) maligno o benigno Toma valor de maligno o benigno dependiendo del diagnstico que el doctor haya
detectado al tumor.
Resmenes de Brboles de decisinoestadstica

los procedimientos mdicos apropiados para detectar un tumor instancia [6].


a una paciente ni determinar si ste es benigno o maligno. Slo o Naive Bayes: Algoritmo que genera un rbol de
contamos con la informacin cualitativa (valor de las variables) decisin a partir del clasificador bayesiano Naive Bayes,
proporcionada por los patlogos, por lo que la evaluacin de los que es el modelo ms simple de clasificacin ya que
rboles la llevaremos a cabo con los resultados que arroje la asume independencia entre todos los atributos dada
tarea de clasificacin, a partir de las bases de datos descritas una clase. Por lo tanto, corresponde a un modelo de
anteriormente. Los algoritmos de clasificacin que utilizamos atributos independientes. En este caso, la estructura
para evaluar a los rboles son los siguientes: de la red es fija y slo es necesario aprender los
o ID3: Algoritmo que aprende a partir de la diferencia parmetros. El fundamento principal de este
que existe entre los datos para analizar, esto es, un clasificador es la suposicin de que todos los atributos
procedimiento de divide y vencers, que maximiza la son independientes del valor de la variable clase [7].
informacin obtenida, la cual se utiliza como una La eleccin de los algoritmos anteriores obedece a que son los
mtrica para seleccionar el mejor atributo que divida ms utilizados debido a su sencillez, precisin y bajo costo de
los datos en clases homogneas [5]. o J48: Este cmputo en su ejecucin.
algoritmo construye un rbol a partir de datos. Se
construye iterativamente al ir agregando nodos o
ramas que minimicen la diferencia entre los datos. Este METODOLOGA Y RESULTADOS
algoritmo es un descendiente del ID3 y se extiende en Para evaluar la capacidad de clasificacin de los rboles de
el sentido de su capacidad de utilizar atributos decisin se llevaron a cabo los siguientes experimentos:
numricos y vacos para generar reglas del rbol. Con o El primero consisti en dividir aleatoriamente la primera
el propsito de clasificacin de una nueva instancia, base datos en dos conjuntos. Uno de 462 casos (dos

www.uv.mx/rm
22
terceras partes del total) para poder entrenar el rbol rboles de decisin.
de decisin a partir de estos datos. Un segundo
Tabla 3.
conjunto de 230 casos (una tercera parte del total) para
de decisin.
Porcentajes de clasificacin para la segunda base de datos con rboles
probar que el rbol tambin clasifica estos datos.
ID3 J48 Naive Bayes Tree
A partir de stos y los algoritmos descritos en la seccin
Porcentaje de casos que
anterior se construyeron los rboles de decisin. Los clasific correctamente el 82.60% 81.98% 85.71%
resultados de dichos experimentos se muestran en la algoritmo
tabla 2 y en la figura 2 con uno de los rboles de CONCLUSIONES
decisin que se obtuvieron. Los resultados obtenidos en los experimentos descritos en la
Tabla 2. Porcentajes de clasificacin para la primera base de datos con rboles seccin anterior dan evidencia que es posible construir con
de decisin. precisin rboles de decisin a partir de datos mdicos, ya que
ID3 J48 Naive Bayes Tree los porcentajes de clasificacin, es decir el nmero de casos que
Porcentaje de casos que clasific correctamente, tienen un margen de error mnimo y es
clasific correctamente el 93.04% 91.73% 94.35% posible que pueda mejorar su eficiencia con la ayuda del
algoritmo. experto, ajustando los datos mismos, esto es, agregando
o variables o cambiando sus parmetros.
El segundo experimento consisti en considerar a la Tambin es importante mencionar que los resultados
segunda base de datos como un conjunto de prueba obtenidos con los datos de la primera base de datos, la cual
(322 casos), mientras que para el conjunto de corresponde a las observaciones obtenidas de un solo
entrenamiento se consider el mismo conjunto de 462 especialista, son mejores que los resultados obtenidos de los
casos del primer experimento. El experimento se hizo datos provenientes de las observaciones de 19 especialistas
con el propsito de analizar qu conjunto de datos es (datos de la segunda base de datos), ya que la cantidad de casos
ms significativo, a partir del porcentaje de casos que
que clasific correctamente en la primera base de datos es
clasifica correctamente. A partir de estos datos, se
mayor que la cantidad en la segunda. Este resultado refleja que
construyeron los rboles de decisin que corresponden
a cada uno de los algoritmos descritos en la seccin existe mayor discrepancia en la apreciacin (lo cual se
anterior. Los resultados de estos experimentos se
muestran en la tabla 3 y en la figura 3 con uno de los
Rev Med UV, Julio - Diciembre, 2009

Figura 2. rbol de decisin construido con el algoritmo ID3 para la primera base de datos.

www.uv.mx/rm
23
Figura 3. rbol de decisin construido con el algoritmo ID3 para la segunda base de datos.

Resmenes de Brboles de decisinoestadstica

traduce en problemas para la clasificacin) cuando intervienen BIBLIOGRAFA


ms observadores, debido a que se aportan diferentes puntos 1. Cruz-Ramrez N, Acosta-Mesa HG, Carrillo-Calvet H, Barrientosde vista,
incrementndose la subjetividad en los valores de las Martnez RE. Comparison of the Performance of Seven Classifiers as Effective Decision Support Tools
for the Cytodiagnosis of Breast variables (lo cual corresponde a la sintomatologa). Cancer: A Case Study. Analysis and Design of Intelligent Systems using
Con base en este planteamiento podemos concluir que Soft Computing Techniques. Advances in soft computing; 41: 79 - 87. a partir de un conjunto
de datos aportados por un especialista 2. Russell, S. and P. Norvig, Artificial Intelligence: A Modern Approach.
Second ed. Upper Saddle River (N J): Prentice Hall/ Pearson
en una disciplina es posible tener en los rboles de decisin una 2003. herramienta de apoyo y ayuda confiable para el
Education;
diagnstico 3. Breiman L, Friedman JH, Olshen RA, Stone CJ. Classification and mdico, aun cuando es importante destacar que lo ms Regression
Trees, Wadsworth (New York); 1994.

importante es contar con un conjunto de datos consistente y 4. Cross SS y cols. Which Decision Support Technologies Are Appropriate for the
Cytodiagnosis of Breast Cancer? Artificial Intelligence confiable, ya que este tipo de herramientas estn supeditadas al Techniques in Breast Cancer
Diagnosis and Prognosis, A. Jain, et al., conocimiento del experto que aportar la informacin. Por ello es Editors. World Scientific 2000; 265-295.
necesario continuar realizando pruebas en otras especialidades 5. Quinlan JR. Learning Decision Tree Classifiers. ACM Computing
Surveys 1996; 28(1): 71-72. mdicas para encontrar el
conjunto ptimo para la construccin 6. Quinlan JR. Programs for Machine Learning. The Morgan Kaufmann de este tipo de herramientas. Series in
Machine Learning. San Mateo (California): Morgan Kaufmann
Publishers; 1993. 7. Dunham MH. Data Mining. Introductory and
Advanced Topics. Upper
Agradecimientos
Saddle River (N J): Prentice Hall; 2003.

www.uv.mx/rm
24
Agradecemos al Dr. Simon S. Cruz, Profesor Clnico de la Unidad
Acadmica de Patologa de la Universidad de Sheffield en Reino
Unido, quien amablemente nos proporcion las bases de datos
para este trabajo.

www.uv.mx/rm
25

También podría gustarte