Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Dnde estamos
Se ha comprobado el funcionamiento de la red neuronal vericndose que funciona mejor que un modelo lineal. Decidimos plantear un rbol de decisin por varias razones
Queremos un sistema cuya forma de clasicar/predecir sea visible El sistema desarrollado debe permitir la extraccin de regla si...entonces de forma directa Se tienen un gran nmero de variables de entrada discretas no continuas. La red neuronal, aunque ofrece bueno resultados es demasiado grande en relacin al conjunto de datos Tenemos la certeza que existen muchos casos especiales dentro del conjunto de datos
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 3
Qu es un rbol de decisin?
Podramos denir un rbol de decisin como un sistema que clasica el vector de entrada en una serie de clases predenidas usando una serie de preguntas secuenciales. Cada una de estas preguntas hace referencia a una variable de entrada
Y
Aqu hay que preguntarse; qu orden siguen las preguntas?; hasta qu nivel se debe preguntar para que el modelo de decisin tenga sentido?
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 4
Entropa.
Es la primera piedra en la Teora de la Informacin de Shannon, teora bsica e imprescindible para el anlisis de sistemas de transmisin/recepcin de datos. De una manera intuitiva esta cantidad es directamente proporcional a a la sorpresa que puede provocar una variable, e inversamente proporcional a la regularidad y redundancia que podamos tener en una variable. A modo de ejemplo una distribucin uniforme presenta la mxima entropa porque todos los valores son igualmente posibles.
Imaginemos que dicha moneda est trucada; tenemos 1/4 posibilidades que salga cara y 3/4 que salga cruz entonces se tiene:
Existen otras magnitudes, tambin se conocen como entropas (por ejemplo la entropa de Renyi). En rboles de decisin otra entropa que se utiliza mucho es el ndice de Gini
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 5
Entropa condicionada.
Como ya vimos en el tema de probabilidad el observar un suceso puede modicar la probabilidad de otro suceso si estn relacionados de alguna forma. Con el concepto de entropa sucede algo similar apareciendo el concepto de entropa condicionada
Asignatura (X)!
Aprobado(Y)!
Si No Si No No Si No Si
H(Y|X=vk)!
1 0 0
Ganancia en informacin.
La ganancia de informacin determina el decremento de entropa al conocer el resultado de un suceso
Para los rboles de decisin se va a plantear una modicacin del concepto de ganancia de informacin.
Asignatura (X)! Matemticas Historia Ciencias Matemticas Matemticas Ciencias Historia Matemticas
Aprobado(Y)! Si No Si No No Si No Si
En matemticas tenemos 2 Si y 2 No
De lo que se trata es de determinar las entropas condicionadas PONDERADAS a la proporcin de ejemplos que cumplen un determinado atributo (hay que jarse adems de la capacidad de reducir la entropa en la cantidad de ejemplos que van a cada nodo).
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 7
Ejemplo clsico
Tiempo Soleado Soleado Nuboso Lluvioso Lluvioso Lluvioso Nuboso Soleado Soleado Lluvioso Soleado Nuboso Nuboso Lluvioso
Temperatura
Humedad Alta Alta Alta Alta Normal Normal Normal Alta Normal Normal Normal Alta Normal Alta
Viento No Si No No No Si Si No No No Si Si No Si
Juega? N N P P P N P N P P P P P N
Alta Alta Alta Media Media Baja Baja Media Baja Media Media Media Alta Media
Se tiene el siguiente conjunto de datos con el que se intenta construir un rbol de decisin que, en virtud de las condiciones meteorolgicas determine si se juega al tenis (P) o no se juega (N). Hay que determinar las ganancias en informacin de cada uno de los atributos.
8
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
Lluvioso
Soleado Nublado
Humedad Viento
Alta
Normal
S S
Verdad
Falso
No
No
Este rbol proporciona una ayuda para la toma de decisiones de una manera clara y concisa El primer problema que nos encontramos es que, conforme los nodos se dividen , la cantidad de datos utilizados para las siguientes divisiones se hace ms pequeo de forma exponencial. La construccin del rbol asume que todas las variables interactan (se tienen efectos aditivos) aunque en el problema no intervengan las variables.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 11
Arboles de regresin
Ahora los nodos nales del rbol contienen valores numricos (valores predichos).
Cuando las variables son numricas y no categricas no tiene sentido utilizar la entropa directamente. Se procede de dos maneras principalmente: a) Se procede a categorizar las variables numricas mediante umbrales o algortimos mas sosticados. b) Se utiliza la reduccin del error cuadrtico (o similar) como criterio de separacin en vez de la ganancia de informacin.
Consideramos el error cuadrtico medio antes y despus de realizar la separacin de los datos . El penalizacin de cada conjunto se calcula mediante la suma cuadrado de diferencia entre los valores y el valor medio del conjunto.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 12
Ejemplos (I)!
rbol de decisin para determinar alternativas al uso de la tierra
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 14
Ejemplos (II)!
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 15
Ejemplos (III)!
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 16
Toma de decisiones.
Los rboles de decisin son una herramienta para elegir entre varias alternativas. Las decisiones pueden estar afectadas por incertidumbre, coste asociados y utilidad. Contienen nodos que representan decisiones, nodos que representan situaciones aleatorias y, nalmente, aparecen las consecuencias de las decisiones. Estas decisiones nales pueden estar asociadas a costes (econmicos) o utilidades (otros factores adems de los econmicos, emocionales, prcticos, etc). Una manera de mejorar el entendimiento del proceso de toma de decisiones consiste en realizar un anlisis de sensibilidad, es decir, realizar cambios en los parmetros hasta que las conclusiones sean afectadas.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 17
Ejemplo.
Una hospital realiza un test antes de decidir el tratamiento a proporcionar a los pacientes. Existen 3 tipos de pacientes frmacos A, B y C. Un posible rbol para analizar el problema podra se el siguiente:
Finalmente, aplicando los conceptos, de valor esperado es posible reducir el rbol hasta dejar patente cual es la consecuencia (costes o utilidades) de tomar una decisin.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 18
MASTER DE INGENIERA BIOMDICA. Mtodos de ayuda al diagnstico clnico. Tema 6: rboles de decisin.
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010 19