Está en la página 1de 44

Arbol de decisin

Es un modelo de prediccin muy utilizado en


Minera de Datos.
Por su forma jerrquica, permite visualizar la
organizacin de los atributos.
Se construye a partir de la identificacin
sucesiva de los atributos ms relevantes.

1
Arbol de decisin Aplicaciones
Descripcin
Su estructura jerrquica les permite mostrar
cmo est organizada la informacin
disponible.
Prediccin
Recorriendo sus ramas se obtienen reglas que
permiten tomar decisiones.
Si todas las hojas se refieren al mismo atributo
y es discreto es un rbol de clasificacin.

2
Arbol de decisin. Ejemplo
Suponga que se dispone de la siguiente
informacin de pacientes tratados
previamente por problemas visuales
Edad

Astigmatismo (si o no)


Grado de miopa
Recomendacin de operarse (si o no)

A partir de esta informacin puede obtenerse un


modelo en forma de rbol que resuma el criterio
seguido para recomendar si debe operarse o no. 3
Arbol de decisin. Ejemplo
Astigmatismo?
no si

Edad? >50 Miopa?


25 6 >6
>25 y
no 50 no si no
Miopa?
1,5 >1,5 y
>10 Note que las
10 opciones son
no no excluyentes
si
4
Obtencin del modelo

Algoritmos
(ej: C4.5, ID3)
Conj. de
Entrenamiento

Edad Astig. Miopa Operar


Arbol
55 SI 3.9 SI (Modelo)
20 NO 7 NO
30 SI 6 SI
Rama del rbol
42 SI 6.5 NO
IF Astigmatismo = SI
60 NO 6 NO
AND (Miopa<=6)
26 SI 3 SI
THEN Operar = SI 5
Uso del modelo

Arbol
(Modelo)

Datos de Datos no
Testing vistos

(29,SI, 3.5)
Edad Astig. Miopa Operar
29 SI 3.5 SI Operar?
63 NO 7 NO
27 SI 6.3 SI SI 6
Arboles como reglas

Si (Astig=NO) y (25< Edad 50) y (1,5< Miopa 10) entonces SI


Si (Astig.=SI) y (Miopa<=6) entonces SI
EN OTRO CASO NO 7
Obtencin del rbol de decisin
Algoritmo Bsico

El rbol se construye de la forma top-down recursive


divide-and-conquer
Al comienzo, todos los ejemplos de entrenamiento
estn en el nodo raz
Los atributos son categricos (si hay valores
continuos, deben discretizarse previamente)
Los ejemplos se particionan recursivamente basado
en los atributos seleccionados
Los atributos se seleccionan en base a una
heurstica o una medida estadstica (p.ej., ganancia
de informacin) 8
Obtencin del rbol de decisin
Condiciones para detener el particionamiento
Todas las muestras para un nodo dado
corresponden a la misma clase.
No hay atributos restantes para particionar. Se
usa voto mayoritario para clasificar la hoja.
No quedan ms muestras (registros del
conjunto de entrenamiento).

9
Ejemplo 1: Construccin del rbol

Cul atributo elegira como raz del rbol?


10
Es la seleccionada por tener la mayor
Qu pasara si eligiera?
cantidad de elementos en subconjuntos
homogneos

PELO PESO
Rubio Pelirrojo Pesado
Ligero
Sara Castao Prom
Diana Emilia Sara Emilia
Alexis Diana
Ana Catalina Pedro
Pedro Alexis Juan
Catalina Juan Ana

PROTECTOR
Si No

Diana Sara
Alexis Ana
Catalina Emilia
Pedro 11
Juan
Cmo sigue?
PELO
Rubio Pelirrojo
Sara Castao
Diana Emilia
Alexis
Ana Pedro
Catalina Juan

Analizar la repuesta del resto de los


atributos para los elementos que aun no
pertenecen a un subconjunto homogneo

12
Qu pasara si eligiera?

ESTATURA PESO
Baja Alta Pesado
Ligero
Ana Prom Prom
Catalina Diana Sara
Sara Diana
Catalina
Ana

PROTECTOR
Si No

Diana Sara
Catalina Ana

Es la seleccionada Por qu? 13


Arbol de clasificacin

PELO
Rubio Pelirrojo
Castao
Quemado
Ninguno
PROTECTOR
Si No
Ninguno Quemado

14
Medida de desorden
El desorden promedio producido por la seleccin de
un atributo puede medirse como:

nb nbc nbc
Desorden Pr omedio ( ) * ( log 2 )
b nt c nb nb
Donde
nb es el nmero de muestras en la rama b,
nt es el nmero total de muestras en todas las ramas,
nbc es el total de muestras en la rama b de la clase c.

Es un nmero real entre 0 y 1 que ser ms chico cuanto ms


homogneos sean los subconjuntos que este atributo genere. 15
Desorden en una rama
Analizando slo una rama de un atributo

nbc nbc
Desorden log 2
c nb nb

Donde
nb es el nmero de muestras en la rama b,
nbc es el total de muestras en la rama b de la clase c.

16
Desorden en una rama
Rama SI del atributo Protector
PROTECTOR
nbc nbc Si No
Desorden log 2 Diana Sara
c nb nb Ana
Alexis
Catalina Emilia
Pedro
Juan

La rama SI tiene nb=3 muestras de las


cuales 0 son Quemadas y 3 son Ninguno
0 0 3 3
Desorden log 2 log 2 0 log 2 1 0
3 3 3 3
17
Desorden en una rama
Rama NO del atributo Protector
PROTECTOR
nbc nbc Si No
Desorden log 2 Diana Sara
c nb nb Ana
Alexis
Catalina Emilia
Pedro
Juan
La rama NO tiene nb=5 muestras de las
cuales 3 son Quemadas y 2 son Ninguno

3 3 2 2
Desorden log 2 log 2 0.4422 0.5288 0.971
5 5 5 5 18
Desorden del atributo Protector
nb nbc nbc
Desorden Pr omedio ( ) * ( log 2 )
b nt c nb nb
PROTECTOR
Si No

Diana Sara
Alexis Ana
Catalina Emilia
Pedro
Juan

3 5
Desorden Pr omedio * 0 * 0.9710 0.6069
8 8
DesordenSI DesordenNO 19
Desorden Promedio de cada atributo
Repitiendo el mismo proceso para el resto de
los atributos puede completarse la siguiente
tabla:

Atributo Desorden
Promedio
Es el seleccionado
Pelo 0.5 por ser el de
Estatura 0.69 menor Desorden
Peso 0.94
Protector 0.61

20
Cmo sigue?
Repitiendo el mismo proceso para cada
rama del atributo PELO que no sea
homognea, se obtiene

Atributo Desorden
Promedio
Estatura 0.5
Peso 1 Es el seleccionado
por ser el de
Protector 0 menor Desorden

21
Arbol de clasificacin

PELO
Rubio Pelirrojo
Castao
Quemado
Ninguno
PROTECTOR
Si No
Ninguno Quemado

22
Ejemplo 2: Construir el rbol a partir
de los siguientes datos
N Ambiente Temperatura Humedad Viento Juega?
1 soleado alta alta no No
2 soleado alta alta si No
3 nublado alta alta no Si
4 lluvioso media alta no Si
5 lluvioso baja normal no Si
6 lluvioso baja normal si No
7 nublado baja normal si Si
8 Soleado media alta no No
9 Soleado baja normal no Si
10 lluvioso media normal no Si
11 Soleado media normal si Si
12 Nublado media alta si Si
13 Nublado alta normal no Si
14 lluvioso media alta si No
23
Analizando el atributo para la raz

AMBIENTE TEMPERATURA
Soleado Lluvioso
Alta Baja
2 SI Nublado Media
3 NO 3 SI 2 SI
4 SI 3 SI
2 NO 2 NO 3 SI 1 NO
1 NO

HUMEDAD VIENTO
Alta Normal Si No
3 SI 6 SI 3 SI 6 SI
4 NO 1 NO 3 NO 2 NO
24
Analizando cada rama de AMBIENTE

AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
4 SI 2 NO

2 2 3 3
DesordenSoleado log 2 log 2 0,9710
5 5 5 5

25
Analizando cada rama de AMBIENTE

AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
4 SI 2 NO
0,9710

4 4
DesordenNublado log 2 0
4 4

26
Analizando cada rama de AMBIENTE

AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
4 SI 2 NO
0,9710 0

3 3 2 2
DesordenLluvioso log 2 log 2 0,9710
5 5 5 5

27
Analizando cada rama de AMBIENTE

AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
4 SI 2 NO
0,9710 0 0,9710

5 4 5
DesordenAMBIENTE * 0,9710 * 0 * 0,9710 0,6935
14 14 14
28
Analizando el atributo para la raz
0,6935

AMBIENTE TEMPERATURA
Soleado Lluvioso
Alta Baja
2 SI Nublado Media
3 NO 3 SI 2 SI
4 SI 3 SI
2 NO 2 NO 3 SI 1 NO
1 NO
1 0,8113
0,9308

HUMEDAD VIENTO
Alta Normal Si No
3 SI 6 SI 3 SI 6 SI
4 NO 1 NO 3 NO 2 NO
29
Analizando el atributo para la raz
0,6935 0,9164

AMBIENTE TEMPERATURA
Soleado Lluvioso
Alta Baja
2 SI Nublado Media
3 NO 3 SI 2 SI
4 SI 3 SI
2 NO 2 NO 3 SI 1 NO
1 NO

HUMEDAD VIENTO
Alta Normal Si No
3 SI 6 SI 3 SI 6 SI
4 NO 1 NO 3 NO 2 NO
30
Es la seleccionada por tener el menor valor de
Desorden, es decir, la mayor cantidad de elementos en
Analizando el atributo para la raz
subconjuntos homogneos
0,6935 0,9164

AMBIENTE TEMPERATURA
Soleado Lluvioso
Alta Baja
2 SI Nublado Media
3 NO 3 SI 2 SI
4 SI 3 SI
2 NO 2 NO 3 SI 1 NO
1 NO

HUMEDAD VIENTO
Alta Normal Si No
3 SI 6 SI 3 SI 6 SI
4 NO 1 NO 3 NO 2 NO
0,7885 0,8922
31
Ya tenemos el nodo raz

AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
SI 2 NO

Si est nublado, SI juega.


Ahora falta analizar las dos ramas que no
son puras.

32
Buscando los nodos del 1er. nivel del rbol

AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
SI 2 NO

Para estas 5 muestras,


calcular el desorden de los
3 atributos restantes

33
Muestras a considerar para la rama
SOLEADO del atributo AMBIENTE
N Ambiente Temperatura Humedad Viento Juega?
1 soleado alta alta no No
2 soleado alta alta si No
8 Soleado media alta no No
9 Soleado baja normal no Si
11 Soleado media normal si Si

34
Buscando el atributo que mejor
clasifica la rama Soleado de Ambiente
AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
SI 2 NO

TEMPERATURA HUMEDAD VIENTO


Alta Baja Alta Normal Si No
Media
2 NO 1 SI 3 NO 2 SI 1 SI 1 SI
1 NO 2 NO
0 1 SI 0
1 NO
1 35
Buscando el atributo que mejor
clasifica la rama Soleado de Ambiente
AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
SI 2 NO

TEMPERATURA HUMEDAD VIENTO


Alta Baja Alta Normal Si No
Media
2 NO 1 SI 3 NO 2 SI 1 SI 1 SI
1 NO 2 NO
1 SI 0 0
1 NO
36
0,40
Buscando el atributo que mejor
clasifica la rama Soleado de Ambiente
AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
SI 2 NO

TEMPERATURA HUMEDAD VIENTO


Alta Baja Alta Normal Si No
Media
2 NO 1 SI 3 NO 2 SI 1 SI 1 SI
1 NO 2 NO
1 SI 0
1 NO 1 0,9183

37
0,40
Buscando el atributo que mejor
clasifica la rama Soleado de Ambiente
AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
SI 2 NO

TEMPERATURA HUMEDAD VIENTO


Alta Baja Alta Normal Si No
Media
2 NO 1 SI 3 NO 2 SI 1 SI 1 SI
1 NO 2 NO
1 SI 0
1 NO 0,9510
38
0,40
Estado actual del rbol

AMBIENTE
Soleado Lluvioso
Nublado
HUMEDAD SI 3 SI
2 NO
Alta Normal
NO SI

Para estas 5 muestras,


calcular el desorden de los
3 atributos restantes
(sacando AMBIENTE)

39
Buscando el atributo que mejor
clasifica la rama Lluvioso de Ambiente
AMBIENTE
Soleado Lluvioso
Nublado
HUMEDAD SI 3 SI
2 NO
Alta Normal
NO SI

TEMPERATURA HUMEDAD VIENTO


Alta Media Baja Alta Normal Si No

0 2 SI 1 SI 1 SI 2 SI 2 NO 3 SI
1 NO 1 NO 1 NO 1 NO
0
0,7510 0,4340 40
Arbol de decisin

AMBIENTE
Soleado Lluvioso
Nublado
HUMEDAD SI VIENTO
Alta Normal Si No
NO SI NO SI

41
Ejercicio 4 (para entregar)
El archivo Curso.xls contiene informacin
del desempeo de un conjunto de alumnos al
desarrollar distinta tareas.
Se ha relevado el desempeo en
Prctica
Actividad Presencial
Actividad a Distancia
Finalmente, para cada alumno se conoce si
ha aprobado o no el curso.
42
Archivo Curso.xls
Practica Activ-Distancia Activ-Presencial Calificacion
bien alta alta aprobado
bien baja alta desaprobado
muy_bien alta alta aprobado
regular alta alta aprobado
regular alta baja desaprobado
regular baja baja desaprobado
muy_bien baja baja aprobado
bien baja baja desaprobado
bien alta baja aprobado
regular baja baja desaprobado
bien alta baja aprobado
muy_bien alta alta aprobado
regular baja baja desaprobado
regular alta alta aprobado
Ejercicio 4 (para entregar)
Utilizando la informacin del archivo
Curso.xls y la medida de Desorden
Promedio, indicar el rbol de clasificacin
para decidir si un alumno aprobar o no el
curso en base a su desempeo en la prctica
y las actividades presencial y a distancia.

Indicar en cada paso los valores de desorden


obtenidos y las selecciones realizadas.

44

También podría gustarte