Está en la página 1de 19

MASTER DE INGENIERA BIOMDICA. Mtodos de ayuda al diagnstico clnico.

Tema 6: rboles de decisin.


Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 1

Objetivos del tema


Conocer en qu consiste un rbol de decisin. Aprender los problemas que pueden surgir al aplicar un rbol de decisin. Conocer las ventajas/inconvenientes frente a otros mtodos ya vistos en el curso Aprender a implementar un rbol de decisin.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 2

Dnde estamos

Se ha comprobado el funcionamiento de la red neuronal vericndose que funciona mejor que un modelo lineal. Decidimos plantear un rbol de decisin por varias razones

Queremos un sistema cuya forma de clasicar/predecir sea visible El sistema desarrollado debe permitir la extraccin de regla si...entonces de forma directa Se tienen un gran nmero de variables de entrada discretas no continuas. La red neuronal, aunque ofrece bueno resultados es demasiado grande en relacin al conjunto de datos Tenemos la certeza que existen muchos casos especiales dentro del conjunto de datos
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 3

Qu es un rbol de decisin?
Podramos denir un rbol de decisin como un sistema que clasica el vector de entrada en una serie de clases predenidas usando una serie de preguntas secuenciales. Cada una de estas preguntas hace referencia a una variable de entrada
Y

Si X>5 entonces azul y sino azul.

si no si X > 2 entonces verde

si no si Y>3 entonces azul

Aqu hay que preguntarse; qu orden siguen las preguntas?; hasta qu nivel se debe preguntar para que el modelo de decisin tenga sentido?
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 4

Entropa.
Es la primera piedra en la Teora de la Informacin de Shannon, teora bsica e imprescindible para el anlisis de sistemas de transmisin/recepcin de datos. De una manera intuitiva esta cantidad es directamente proporcional a a la sorpresa que puede provocar una variable, e inversamente proporcional a la regularidad y redundancia que podamos tener en una variable. A modo de ejemplo una distribucin uniforme presenta la mxima entropa porque todos los valores son igualmente posibles.

La obtencin de la entropa en el lanzamiento de una moneda no trucada sera:

Imaginemos que dicha moneda est trucada; tenemos 1/4 posibilidades que salga cara y 3/4 que salga cruz entonces se tiene:

Existen otras magnitudes, tambin se conocen como entropas (por ejemplo la entropa de Renyi). En rboles de decisin otra entropa que se utiliza mucho es el ndice de Gini

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 5

Entropa condicionada.
Como ya vimos en el tema de probabilidad el observar un suceso puede modicar la probabilidad de otro suceso si estn relacionados de alguna forma. Con el concepto de entropa sucede algo similar apareciendo el concepto de entropa condicionada

Asignatura (X)!

Aprobado(Y)!

Matemticas Historia Ciencias Matemticas Matemticas Ciencias Historia Matemticas

Si No Si No No Si No Si

Probabilidad Matemticas Historia Ciencias

H(Y|X=vk)!

0,5 0,25 0,25

1 0 0

Entropa(Y)=H(Y)=1 (tengo 4 aprobados y 4 suspensos)!


H(Y|X)= 0,51+0,250+0,250=0,5

SE REDUCE LA ENTROPA AL CONOCER X.


Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 6

Ganancia en informacin.
La ganancia de informacin determina el decremento de entropa al conocer el resultado de un suceso

Para los rboles de decisin se va a plantear una modicacin del concepto de ganancia de informacin.

Asignatura (X)! Matemticas Historia Ciencias Matemticas Matemticas Ciencias Historia Matemticas

Aprobado(Y)! Si No Si No No Si No Si

En matemticas tenemos 2 Si y 2 No

De lo que se trata es de determinar las entropas condicionadas PONDERADAS a la proporcin de ejemplos que cumplen un determinado atributo (hay que jarse adems de la capacidad de reducir la entropa en la cantidad de ejemplos que van a cada nodo).

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 7

Ejemplo clsico
Tiempo Soleado Soleado Nuboso Lluvioso Lluvioso Lluvioso Nuboso Soleado Soleado Lluvioso Soleado Nuboso Nuboso Lluvioso
Temperatura

(Machine Learning, Tom Mitchell).

Humedad Alta Alta Alta Alta Normal Normal Normal Alta Normal Normal Normal Alta Normal Alta

Viento No Si No No No Si Si No No No Si Si No Si

Juega? N N P P P N P N P P P P P N

Alta Alta Alta Media Media Baja Baja Media Baja Media Media Media Alta Media

Se tiene el siguiente conjunto de datos con el que se intenta construir un rbol de decisin que, en virtud de las condiciones meteorolgicas determine si se juega al tenis (P) o no se juega (N). Hay que determinar las ganancias en informacin de cada uno de los atributos.
8

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010

Clculo de la ganancia de informacin (I)!


Tiempo Soleado Soleado Nuboso Lluvioso Lluvioso Lluvioso Nuboso Soleado Soleado Lluvioso Soleado Nuboso Nuboso Lluvioso Juega? N N P P P N P N P P P P P N

PONEMOS EN LA RAZ DEL RBOL EL TIEMPO.


Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 9

Clculo de la ganancia de informacin (II)!


Tiempo Soleado Soleado Nuboso Lluvioso Lluvioso Lluvioso Nuboso Soleado Soleado Lluvioso Soleado Nuboso Nuboso Lluvioso Temperatura Alta Alta Alta Media Media Baja Baja Media Baja Media Media Media Alta Media Juega? N N P P P N P N P P P P P N

Se escoge entonces como siguiente nodo a la humedad


Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 10

Clculo de la ganancia de informacin (III)!


El proceso se repite hasta construir todo el rbol de manera anloga a lo comentado en las anteriores transparencias.
Tiempo

Lluvioso

Soleado Nublado
Humedad Viento

Alta

Normal
S S

Verdad

Falso

No

No

Este rbol proporciona una ayuda para la toma de decisiones de una manera clara y concisa El primer problema que nos encontramos es que, conforme los nodos se dividen , la cantidad de datos utilizados para las siguientes divisiones se hace ms pequeo de forma exponencial. La construccin del rbol asume que todas las variables interactan (se tienen efectos aditivos) aunque en el problema no intervengan las variables.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 11

Arboles de regresin
Ahora los nodos nales del rbol contienen valores numricos (valores predichos).

Cuando las variables son numricas y no categricas no tiene sentido utilizar la entropa directamente. Se procede de dos maneras principalmente: a) Se procede a categorizar las variables numricas mediante umbrales o algortimos mas sosticados. b) Se utiliza la reduccin del error cuadrtico (o similar) como criterio de separacin en vez de la ganancia de informacin.

Consideramos el error cuadrtico medio antes y despus de realizar la separacin de los datos . El penalizacin de cada conjunto se calcula mediante la suma cuadrado de diferencia entre los valores y el valor medio del conjunto.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 12

Comentarios sobre los rboles de decisin.


El algoritmo que se ha comentado aqu es el bsico (ID3) existiendo muchos ms pero se ha escogido ese por su sencillez. Una evolucin de ese algoritmo es el C4.5 De igual forma existen rboles que no son de decisin sino que se usan para problemas de regresin. Los ms famosos dentro de este grupo son los conocidos como CART. El principal problema de este tipo de modelos es el sobreajuste que se puede cometer. Este sobreajuste se reeja en tener un rbol demasiado profundo, o lo que es lo mismo, especicar para cada nodo ltimo de decisin un patrn de entrada. Para evitar este problema se plantean algoritmos de poda que, la misin que tienen es eliminar ramas excesivamente profundas y especcas del rbol desarrollado. Son modelos muy extendidos en determinados mbitos del conocimiento existiendo un gran nmero de paquetes informticos de libre distribucin que los implementan (por ejemplo WEKA o R).
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 13

Ejemplos (I)!
rbol de decisin para determinar alternativas al uso de la tierra

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 14

Ejemplos (II)!

rbol de decisin para determinar la administracin de un frmaco

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 15

Ejemplos (III)!

rbol de decisin o protocolo de actuacin mdico

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 16

Toma de decisiones.
Los rboles de decisin son una herramienta para elegir entre varias alternativas. Las decisiones pueden estar afectadas por incertidumbre, coste asociados y utilidad. Contienen nodos que representan decisiones, nodos que representan situaciones aleatorias y, nalmente, aparecen las consecuencias de las decisiones. Estas decisiones nales pueden estar asociadas a costes (econmicos) o utilidades (otros factores adems de los econmicos, emocionales, prcticos, etc). Una manera de mejorar el entendimiento del proceso de toma de decisiones consiste en realizar un anlisis de sensibilidad, es decir, realizar cambios en los parmetros hasta que las conclusiones sean afectadas.

Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 17

Ejemplo.
Una hospital realiza un test antes de decidir el tratamiento a proporcionar a los pacientes. Existen 3 tipos de pacientes frmacos A, B y C. Un posible rbol para analizar el problema podra se el siguiente:

Finalmente, aplicando los conceptos, de valor esperado es posible reducir el rbol hasta dejar patente cual es la consecuencia (costes o utilidades) de tomar una decisin.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 18

MASTER DE INGENIERA BIOMDICA. Mtodos de ayuda al diagnstico clnico. Tema 6: rboles de decisin.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 19

También podría gustarte