Documentos de Académico
Documentos de Profesional
Documentos de Cultura
03 Arboles de Clasificacion PDF
03 Arboles de Clasificacion PDF
1
Arbol de decisin Aplicaciones
Descripcin
Su estructura jerrquica les permite mostrar
cmo est organizada la informacin
disponible.
Prediccin
Recorriendo sus ramas se obtienen reglas que
permiten tomar decisiones.
Si todas las hojas se refieren al mismo atributo
y es discreto es un rbol de clasificacin.
2
Arbol de decisin. Ejemplo
Suponga que se dispone de la siguiente
informacin de pacientes tratados
previamente por problemas visuales
Edad
Algoritmos
(ej: C4.5, ID3)
Conj. de
Entrenamiento
Arbol
(Modelo)
Datos de Datos no
Testing vistos
(29,SI, 3.5)
Edad Astig. Miopa Operar
29 SI 3.5 SI Operar?
63 NO 7 NO
27 SI 6.3 SI SI 6
Arboles como reglas
9
Ejemplo 1: Construccin del rbol
PELO PESO
Rubio Pelirrojo Pesado
Ligero
Sara Castao Prom
Diana Emilia Sara Emilia
Alexis Diana
Ana Catalina Pedro
Pedro Alexis Juan
Catalina Juan Ana
PROTECTOR
Si No
Diana Sara
Alexis Ana
Catalina Emilia
Pedro 11
Juan
Cmo sigue?
PELO
Rubio Pelirrojo
Sara Castao
Diana Emilia
Alexis
Ana Pedro
Catalina Juan
12
Qu pasara si eligiera?
ESTATURA PESO
Baja Alta Pesado
Ligero
Ana Prom Prom
Catalina Diana Sara
Sara Diana
Catalina
Ana
PROTECTOR
Si No
Diana Sara
Catalina Ana
PELO
Rubio Pelirrojo
Castao
Quemado
Ninguno
PROTECTOR
Si No
Ninguno Quemado
14
Medida de desorden
El desorden promedio producido por la seleccin de
un atributo puede medirse como:
nb nbc nbc
Desorden Pr omedio ( ) * ( log 2 )
b nt c nb nb
Donde
nb es el nmero de muestras en la rama b,
nt es el nmero total de muestras en todas las ramas,
nbc es el total de muestras en la rama b de la clase c.
nbc nbc
Desorden log 2
c nb nb
Donde
nb es el nmero de muestras en la rama b,
nbc es el total de muestras en la rama b de la clase c.
16
Desorden en una rama
Rama SI del atributo Protector
PROTECTOR
nbc nbc Si No
Desorden log 2 Diana Sara
c nb nb Ana
Alexis
Catalina Emilia
Pedro
Juan
3 3 2 2
Desorden log 2 log 2 0.4422 0.5288 0.971
5 5 5 5 18
Desorden del atributo Protector
nb nbc nbc
Desorden Pr omedio ( ) * ( log 2 )
b nt c nb nb
PROTECTOR
Si No
Diana Sara
Alexis Ana
Catalina Emilia
Pedro
Juan
3 5
Desorden Pr omedio * 0 * 0.9710 0.6069
8 8
DesordenSI DesordenNO 19
Desorden Promedio de cada atributo
Repitiendo el mismo proceso para el resto de
los atributos puede completarse la siguiente
tabla:
Atributo Desorden
Promedio
Es el seleccionado
Pelo 0.5 por ser el de
Estatura 0.69 menor Desorden
Peso 0.94
Protector 0.61
20
Cmo sigue?
Repitiendo el mismo proceso para cada
rama del atributo PELO que no sea
homognea, se obtiene
Atributo Desorden
Promedio
Estatura 0.5
Peso 1 Es el seleccionado
por ser el de
Protector 0 menor Desorden
21
Arbol de clasificacin
PELO
Rubio Pelirrojo
Castao
Quemado
Ninguno
PROTECTOR
Si No
Ninguno Quemado
22
Ejemplo 2: Construir el rbol a partir
de los siguientes datos
N Ambiente Temperatura Humedad Viento Juega?
1 soleado alta alta no No
2 soleado alta alta si No
3 nublado alta alta no Si
4 lluvioso media alta no Si
5 lluvioso baja normal no Si
6 lluvioso baja normal si No
7 nublado baja normal si Si
8 Soleado media alta no No
9 Soleado baja normal no Si
10 lluvioso media normal no Si
11 Soleado media normal si Si
12 Nublado media alta si Si
13 Nublado alta normal no Si
14 lluvioso media alta si No
23
Analizando el atributo para la raz
AMBIENTE TEMPERATURA
Soleado Lluvioso
Alta Baja
2 SI Nublado Media
3 NO 3 SI 2 SI
4 SI 3 SI
2 NO 2 NO 3 SI 1 NO
1 NO
HUMEDAD VIENTO
Alta Normal Si No
3 SI 6 SI 3 SI 6 SI
4 NO 1 NO 3 NO 2 NO
24
Analizando cada rama de AMBIENTE
AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
4 SI 2 NO
2 2 3 3
DesordenSoleado log 2 log 2 0,9710
5 5 5 5
25
Analizando cada rama de AMBIENTE
AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
4 SI 2 NO
0,9710
4 4
DesordenNublado log 2 0
4 4
26
Analizando cada rama de AMBIENTE
AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
4 SI 2 NO
0,9710 0
3 3 2 2
DesordenLluvioso log 2 log 2 0,9710
5 5 5 5
27
Analizando cada rama de AMBIENTE
AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
4 SI 2 NO
0,9710 0 0,9710
5 4 5
DesordenAMBIENTE * 0,9710 * 0 * 0,9710 0,6935
14 14 14
28
Analizando el atributo para la raz
0,6935
AMBIENTE TEMPERATURA
Soleado Lluvioso
Alta Baja
2 SI Nublado Media
3 NO 3 SI 2 SI
4 SI 3 SI
2 NO 2 NO 3 SI 1 NO
1 NO
1 0,8113
0,9308
HUMEDAD VIENTO
Alta Normal Si No
3 SI 6 SI 3 SI 6 SI
4 NO 1 NO 3 NO 2 NO
29
Analizando el atributo para la raz
0,6935 0,9164
AMBIENTE TEMPERATURA
Soleado Lluvioso
Alta Baja
2 SI Nublado Media
3 NO 3 SI 2 SI
4 SI 3 SI
2 NO 2 NO 3 SI 1 NO
1 NO
HUMEDAD VIENTO
Alta Normal Si No
3 SI 6 SI 3 SI 6 SI
4 NO 1 NO 3 NO 2 NO
30
Es la seleccionada por tener el menor valor de
Desorden, es decir, la mayor cantidad de elementos en
Analizando el atributo para la raz
subconjuntos homogneos
0,6935 0,9164
AMBIENTE TEMPERATURA
Soleado Lluvioso
Alta Baja
2 SI Nublado Media
3 NO 3 SI 2 SI
4 SI 3 SI
2 NO 2 NO 3 SI 1 NO
1 NO
HUMEDAD VIENTO
Alta Normal Si No
3 SI 6 SI 3 SI 6 SI
4 NO 1 NO 3 NO 2 NO
0,7885 0,8922
31
Ya tenemos el nodo raz
AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
SI 2 NO
32
Buscando los nodos del 1er. nivel del rbol
AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
SI 2 NO
33
Muestras a considerar para la rama
SOLEADO del atributo AMBIENTE
N Ambiente Temperatura Humedad Viento Juega?
1 soleado alta alta no No
2 soleado alta alta si No
8 Soleado media alta no No
9 Soleado baja normal no Si
11 Soleado media normal si Si
34
Buscando el atributo que mejor
clasifica la rama Soleado de Ambiente
AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
SI 2 NO
37
0,40
Buscando el atributo que mejor
clasifica la rama Soleado de Ambiente
AMBIENTE
Soleado Lluvioso
2 SI Nublado
3 NO 3 SI
SI 2 NO
AMBIENTE
Soleado Lluvioso
Nublado
HUMEDAD SI 3 SI
2 NO
Alta Normal
NO SI
39
Buscando el atributo que mejor
clasifica la rama Lluvioso de Ambiente
AMBIENTE
Soleado Lluvioso
Nublado
HUMEDAD SI 3 SI
2 NO
Alta Normal
NO SI
0 2 SI 1 SI 1 SI 2 SI 2 NO 3 SI
1 NO 1 NO 1 NO 1 NO
0
0,7510 0,4340 40
Arbol de decisin
AMBIENTE
Soleado Lluvioso
Nublado
HUMEDAD SI VIENTO
Alta Normal Si No
NO SI NO SI
41
Ejercicio 4 (para entregar)
El archivo Curso.xls contiene informacin
del desempeo de un conjunto de alumnos al
desarrollar distinta tareas.
Se ha relevado el desempeo en
Prctica
Actividad Presencial
Actividad a Distancia
Finalmente, para cada alumno se conoce si
ha aprobado o no el curso.
42
Archivo Curso.xls
Practica Activ-Distancia Activ-Presencial Calificacion
bien alta alta aprobado
bien baja alta desaprobado
muy_bien alta alta aprobado
regular alta alta aprobado
regular alta baja desaprobado
regular baja baja desaprobado
muy_bien baja baja aprobado
bien baja baja desaprobado
bien alta baja aprobado
regular baja baja desaprobado
bien alta baja aprobado
muy_bien alta alta aprobado
regular baja baja desaprobado
regular alta alta aprobado
Ejercicio 4 (para entregar)
Utilizando la informacin del archivo
Curso.xls y la medida de Desorden
Promedio, indicar el rbol de clasificacin
para decidir si un alumno aprobar o no el
curso en base a su desempeo en la prctica
y las actividades presencial y a distancia.
44