Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Fayyad (1996)
Predictivo
En base al modelo construido es posible predecir hechos futuros.
Por ejemplo se busca predecir:
Cuál medicamento suministrar a un paciente dado.
5
Arbol de decisión – Aplicaciones
Predicción
Recorriendo sus ramas se obtienen reglas que permiten tomar
decisiones.
Si todas las hojas se refieren al mismo atributo y es discreto es
un árbol de clasificación.
Descripción
Su estructura jerárquica les permite mostrar cómo está
organizada la información disponible.
6
Arbol de decisión. Ejemplo
Suponga que se dispone de la siguiente información de
pacientes tratados previamente por problemas visuales
Edad
Arbol
(Modelo)
Datos de Datos no
Testing vistos
(MAYOR,SI, 2.5)
Edad Astig Miopia Operar
JOVEN SI 7 SI
Operar?
ADULTO NO 8 NO
MAYOR SI 2.5 SI NO 11
Arboles como reglas
13
Obtención del árbol de decisión
Condiciones para detener el particionamiento
Todas las muestras, para un nodo dado, corresponden a la
misma clase.
No hay atributos restantes para particionar. Se usa voto
mayoritario para clasificar la hoja.
No quedan más muestras (registros del conjunto de
entrenamiento).
14
Ejemplo 1: AlSol.csv
id Nombre Pelo Estatura Peso Protector Quemado
E1 Sara Rubio Promedio Ligero No SI
E2 Diana Rubio Alta Promedio Si NO
E3 Alexis Castaño Baja Promedio Si NO
E4 Ana Rubio Baja Promedio No SI
E5 Emilia Pelirrojo Promedio Pesado No SI
E6 Pedro Castaño Alta Pesado No NO
E7 Juan Castaño Promedio Pesado No NO
E8 Catalina Rubio Baja Ligero Si NO
ESTATURA PROTECTOR
Alta Si No
Baja
Promedio
? NO ?
E3, E8 (-)
NO E2, E3, E8 (-)
? E6, E7 (-)
E4 (+) E2, E6(-) E1, E4, E5 (+)
E1, E5 (+)
E7 (-)
Es la seleccionada por tener la mayor
cantidad de elementos en subconjuntos
¿Qué pasaría si eligiera?
homogéneos
PELO PESO
Rubio Pelirrojo Pesado
Ligero
? Castaño Prom
E2, E8 (-)
SI ? ?
E1, E4 (+) NO E5(+) ?
E1(+) E5 (+)
E3, E6, E7 (-) E8 (-) E2, E3 (-) E6, E7 (-)
E4 (+)
ESTATURA PROTECTOR
Alta Si No
Baja
Promedio
? NO ?
E3, E8 (-)
NO E2, E3, E8 (-)
? E6, E7 (-)
E4 (+) E2, E6(-) E1, E4, E5 (+)
E1, E5 (+)
E7 (-)
¿Cómo sigue?
PELO
Rubio Pelirrojo
? Castaño
E2, E8 (-)
SI
E1, E4 (+) NO E5(+)
E3, E6, E7 (-)
18
¿Qué pasaría si eligiera?
ESTATURA PESO
Alta Pesado
Baja Ligero
Promedio Prom
?
E8 (-)
NO ?
E4 (+)
SI E2 (-) E1(+)
?
E1 (+) E8 (-) E2 (+)
E4 (-)
PROTECTOR
Si No
NO SI
E2, E8 (-) E1, E4 (+)
PELO
Pelirrojo
Rubio
Castaño
SI
NO
PROTECTOR
Si No
NO SI
20
Métodos de selección de atributos
Utilizados por los algoritmos de construcción para seleccionar en
cada paso, según se va generando el árbol, aquel atributo que
mejor distribuye los ejemplos de acuerdo a su clasificación
objetivo.
Existen distintos criterios
Ganancia de Información (Algoritmo Id3)
Tasa de Ganancia (Algoritmo C4.5)
Indice Gini (Algoritmos CART )
21
Ganancia de Información
Detecta el atributo con menor incertidumbre para
identificar la clase.
La Ganancia de Información es la diferencia entre la
incertidumbre inicial y la del atributo seleccionado.
Luego, se elegirá aquél que brinde la mayor
Ganancia de Información.
22
Entropía
La entropía caracteriza la heterogeneidad de un conjunto de
valores.
Si en el conjunto 𝐸 hay 𝑛 valores distintos, la entropía de 𝐸 se
define como: 𝑛
23
E1, E4, E5 (+)
Entropía E2, E3, E6, E7, E8 (-)
3 3 5 5
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎 𝐸 = − ∗ 𝑙𝑜𝑔2 − ∗ 𝑙𝑜𝑔2
8 8 8 8
= 0.9544
31
Entropía de un atributo
La entropía de un atributo 𝐴 con 𝑉𝑎 valores distintos y un
conjunto de valores 𝐸 se calcula de la siguiente forma:
𝐸𝑣
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎 𝐸, 𝐴 = 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎 𝐸𝑣
𝐸
𝑣∈𝑉𝑎
32
E
Entropía de PELO E1, E4, E5 (+)
E2, E3, E6, E7, E8 (-)
PELO
Rubio Pelirrojo
? Castaño
E2, E8 (-)
SI
E1, E4 (+) NO E5(+)
E3, E6, E7 (-)
2 2 2 2
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎 𝐸𝑟𝑢𝑏𝑖𝑜 =− ∗ 𝑙𝑜𝑔2 − ∗ 𝑙𝑜𝑔2 =1
4 4 4 4
E
Entropía de PELO E1, E4, E5 (+)
E2, E3, E6, E7, E8 (-)
PELO
Rubio Pelirrojo
? Castaño
E2, E8 (-)
SI
E1, E4 (+) NO E5(+)
E3, E6, E7 (-)
1
3 3
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎 𝐸𝑐𝑎𝑠𝑡𝑎ñ𝑜 =− ∗ 𝑙𝑜𝑔2 =0
3 3
E
Entropía de PELO E1, E4, E5 (+)
E2, E3, E6, E7, E8 (-)
PELO
Rubio Pelirrojo
? Castaño
E2, E8 (-)
SI
E1, E4 (+) NO E5(+)
E3, E6, E7 (-)
1
0
1 1
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎 𝐸𝑝𝑒𝑙𝑖𝑟𝑟𝑜𝑗𝑜 =− ∗ 𝑙𝑜𝑔2 =0
1 1
E
Entropía de PELO E1, E4, E5 (+)
E2, E3, E6, E7, E8 (-)
PELO
Rubio Pelirrojo
? Castaño
E2, E8 (-)
SI
E1, E4 (+) NO E5(+)
E3, E6, E7 (-)
1 0
0
4 3 1
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎 𝐸, 𝑃𝑒𝑙𝑜 = ∗1+ ∗0+ ∗ 0 = 0.5
8 8 8
Ganancia de Información
Dado un atributo A y un conjunto de ejemplos E, la Ganancia
de Información de dicho atributo se calcula así:
39
Ganancia de Información
E1, E4, E5 (+)
Entropía(E)=0.9544
E2, E3, E6, E7, E8 (-)
PELO
Rubio Pelirrojo
? Castaño
E2, E8 (-)
SI
E1, E4 (+) NO E5(+)
E3, E6, E7 (-)
Entropía(E, PELO)=0.5
ESTATURA PROTECTOR
Alta Si No
Baja
Promedio
? NO ?
E3, E8 (-)
NO E2, E3, E8 (-)
? E6, E7 (-)
E4 (+) E2, E6(-) E1, E4, E5 (+)
E1, E5 (+)
E7 (-)
¿Qué pasaría si eligiera?
PELO PESO
Rubio Pelirrojo Pesado
Ligero
? Castaño Prom
E2, E8 (-)
SI ? ?
E1, E4 (+) NO E5(+) ?
E1(+) E5 (+)
1 E3, E6, E7 (-) 0 E8 (-) E2, E3 (-) E6, E7 (-)
0 E4 (+)
ESTATURA PROTECTOR
Alta Si No
Baja
Promedio
? NO ?
E3, E8 (-)
NO E2, E3, E8 (-)
? E6, E7 (-)
E4 (+) E2, E6(-) E1, E4, E5 (+)
E1, E5 (+)
E7 (-)
¿Qué pasaría si eligiera?
PELO PESO
Rubio Pelirrojo Pesado
Ligero
? Castaño Prom
E2, E8 (-)
SI ? ?
E1, E4 (+) NO E5(+) ?
E1(+) E5 (+)
E3, E6, E7 (-) E8 (-) E2, E3 (-) E6, E7 (-)
E4 (+)
0,5 1 0,9183
0,9183
ESTATURA PROTECTOR
Alta Si No
Baja
Promedio
? NO ?
E3, E8 (-)
NO E2, E3, E8 (-)
? E6, E7 (-)
E4 (+) E2, E6(-) E1, E4, E5 (+)
E1, E5 (+)
E7 (-)
¿Qué pasaría si eligiera?
PELO PESO
Rubio Pelirrojo Pesado
Ligero
? Castaño Prom
E2, E8 (-)
SI ? ?
E1, E4 (+) NO E5(+) ?
E1(+) E5 (+)
E3, E6, E7 (-) E8 (-) E2, E3 (-) E6, E7 (-)
E4 (+)
0,5 0,9387
ESTATURA PROTECTOR
Alta Si No
Baja
Promedio
? NO ?
E3, E8 (-)
NO E2, E3, E8 (-)
? E6, E7 (-)
E4 (+) E2, E6(-) E1, E4, E5 (+)
0,9183 E1, E5 (+) 0
E7 (-)
0,9183
¿Qué pasaría si eligiera?
PELO PESO
Rubio Pelirrojo Pesado
Ligero
? Castaño Prom
E2, E8 (-)
SI ? ?
E1, E4 (+) NO E5(+) ?
E1(+) E5 (+)
E3, E6, E7 (-) E8 (-) E2, E3 (-) E6, E7 (-)
E4 (+)
0,5 0,9387
ESTATURA PROTECTOR
Alta Si No
Baja
Promedio
? NO ?
E3, E8 (-)
NO E2, E3, E8 (-)
? E6, E7 (-)
E4 (+) E2, E6(-) E1, E4, E5 (+)
0
E1, E5 (+)
0,971
E7 (-)
0,6887
¿Qué pasaría si eligiera?
PELO PESO
Rubio Pelirrojo Pesado
Ligero
? Castaño Prom
E2, E8 (-)
SI ? ?
E1, E4 (+) NO E5(+) ?
E1(+) E5 (+)
E3, E6, E7 (-) E8 (-) E2, E3 (-) E6, E7 (-)
E4 (+)
0,5 0,9387
ESTATURA PROTECTOR
Alta Si No
Baja
Promedio
? NO ?
E3, E8 (-)
NO E2, E3, E8 (-)
? E6, E7 (-)
E4 (+) E2, E6(-) E1, E4, E5 (+)
E1, E5 (+)
E7 (-) 0,6069
0,6887
Selección por Ganancia de Información
Entropía(E) = 0.9544
Ganancia(E,A) = Entropia(E) – Entropia(E,A)
48
¿Cómo sigue?
PELO
Rubio Pelirrojo
? Castaño
E2, E8 (-)
SI
E1, E4 (+) NO E5(+)
E3, E6, E7 (-)
49
¿Qué pasaría si eligiera?
ESTATURA PESO
Alta Pesado
Baja Ligero
Promedio Prom
?
E8 (-)
NO ?
E4 (+)
SI E2 (-) E1(+)
?
E1 (+) E8 (-) E2 (+)
1 0 E4 (-)
0
PROTECTOR
Si No
NO SI
E2, E8 (-) E1, E4 (+)
¿Qué pasaría si eligiera?
ESTATURA PESO
Alta Pesado
Baja Ligero
Promedio Prom
?
E8 (-)
NO ?
E4 (+)
SI E2 (-) E1(+)
?
E1 (+) E8 (-) E2 (+)
E4 (-)
0,5 1
1
PROTECTOR
Si No
NO SI
E2, E8 (-) E1, E4 (+)
¿Qué pasaría si eligiera?
ESTATURA PESO
Alta Pesado
Baja Ligero
Promedio Prom
?
E8 (-)
NO ?
E4 (+)
SI E2 (-) E1(+)
?
E1 (+) E8 (-) E2 (+)
E4 (-)
0,5 1
PROTECTOR
Si No
NO SI
E2, E8 (-) E1, E4 (+)
0 0
¿Qué pasaría si eligiera?
ESTATURA PESO
Alta Pesado
Baja Ligero
Promedio Prom
?
E8 (-)
NO ?
E4 (+)
SI E2 (-) E1(+)
?
E1 (+) E8 (-) E2 (+)
E4 (-)
0,5 1
PROTECTOR
Si No
NO SI
E2, E8 (-) E1, E4 (+)
0
Selección por Ganancia de Información
Entropia(E) = 1 E
E2, E8 (-)
E1, E4 (+)
54
Arbol de clasificación
PELO
Pelirrojo
Rubio
Castaño
SI
NO
PROTECTOR
Si No
NO SI
55
Ejemplo 2: Construir el árbol a partir de los
siguientes datos
Nº Ambiente Temperatura Humedad Viento Juega?
1 soleado alta alta no No
2 soleado alta alta si No
3 nublado alta alta no Si
4 lluvioso media alta no Si
5 lluvioso baja normal no Si
6 lluvioso baja normal si No
7 nublado baja normal si Si
8 Soleado media alta no No
9 Soleado baja normal no Si
10 lluvioso media normal no Si
11 Soleado media normal si Si
12 Nublado media alta si Si
13 Nublado alta normal no Si
14 lluvioso media alta si No
56
Analizando el atributo para la raíz
AMBIENTE TEMPERATURA
Soleado Lluvioso
Nublado Alta Baja
Media
? ?
2 SI 3 SI ? ?
SI ?
3 NO 2 NO 2 SI 3 SI
4 SI 4 SI
2 NO 1 NO
2 NO
HUMEDAD VIENTO
Alta Normal Si No
? ? ? ?
3 SI 6 SI 3 SI 6 SI
4 NO 1 NO 3 NO 2 NO 57
Analizando cada rama de AMBIENTE
AMBIENTE
Soleado Lluvioso
Nublado
? ?
2 SI SI 3 SI
3 NO 2 NO
4 SI
2 2 3 3
EntropiaSoleado log 2 log 2 0,9710
5 5 5 5
58
Analizando cada rama de AMBIENTE
AMBIENTE
Soleado Lluvioso
Nublado
? ?
2 SI SI 3 SI
3 NO 2 NO
4 SI
0,9710
4 4
Entropia Nublado log 2 0
4 4
59
Analizando cada rama de AMBIENTE
AMBIENTE
Soleado Lluvioso
Nublado
? ?
2 SI SI 3 SI
3 NO 2 NO
4 SI
0,9710
0
3 3 2 2
Entropia Lluvioso log 2 log 2 0,9710
5 5 5 5
60
Analizando cada rama de AMBIENTE
AMBIENTE
Soleado Lluvioso
Nublado
? ?
2 SI SI 3 SI
3 NO 2 NO
4 SI
0,9710 0,9710
0
5 4 5
Entropia AMBIENTE * 0,971 * 0 * 0,971 0,6935
14 14 14
61
Analizando el atributo para la raíz
0,6935
AMBIENTE TEMPERATURA
Soleado Lluvioso
Nublado Alta Baja
Media
? ?
2 SI 3 SI ? ?
SI ?
3 NO 2 NO 2 SI 3 SI
4 SI 4 SI
2 NO 1 NO
2 NO
1 0,8113
0,9183
HUMEDAD VIENTO
Alta Normal Si No
? ? ? ?
3 SI 6 SI 3 SI 6 SI
4 NO 1 NO 3 NO 2 NO 62
Analizando el atributo para la raíz
0,6935 0,9164
AMBIENTE TEMPERATURA
Soleado Lluvioso
Nublado Alta Baja
Media
? ?
2 SI 3 SI ? ?
SI ?
3 NO 2 NO 2 SI 3 SI
4 SI 4 SI
2 NO 1 NO
2 NO
HUMEDAD VIENTO
Alta Normal Si No
? ? ? ?
3 SI 6 SI 3 SI 6 SI
4 NO 1 NO 3 NO 2 NO 63
Analizando el atributo para la raíz
0,6935 0,9164
AMBIENTE TEMPERATURA
Soleado Lluvioso
Nublado Alta Baja
Media
? ?
2 SI 3 SI ? ?
SI ?
3 NO 2 NO 2 SI 3 SI
4 SI 4 SI
2 NO 1 NO
2 NO
0,7885 0,8922
HUMEDAD VIENTO
Alta Normal Si No
? ? ? ?
3 SI 6 SI 3 SI 6 SI
4 NO 1 NO 3 NO 2 NO 64
Es el seleccionado por tener el menor valor de Entropia,
Analizando el atributo para la raíz
es decir, la mayor cantidad de elementos en
subconjuntos homogéneos
0,6935 0,9164
AMBIENTE TEMPERATURA
Soleado Lluvioso
Nublado Alta Baja
Media
? ?
2 SI 3 SI ? ?
SI ?
3 NO 2 NO 2 SI 3 SI
4 SI 4 SI
2 NO 1 NO
2 NO
0,7885 0,8922
HUMEDAD VIENTO
Alta Normal Si No
? ? ? ?
3 SI 6 SI 3 SI 6 SI
4 NO 1 NO 3 NO 2 NO 65
Ya tenemos el nodo raíz
AMBIENTE
Soleado Lluvioso
Nublado
? ?
2 SI SI 3 SI
3 NO 2 NO
66
Buscando los nodos del 1er. nivel del árbol
AMBIENTE
Soleado Lluvioso
Nublado
? ?
2 SI SI 3 SI
3 NO 2 NO
4 SI
67
Muestras a considerar para la rama SOLEADO del atributo
AMBIENTE
Nº Ambiente Temperatura Humedad Viento Juega?
1 soleado alta alta no No
2 soleado alta alta si No
8 Soleado media alta no No
9 Soleado baja normal no Si
11 Soleado media normal si Si
68
Buscando el atributo que mejor clasifica la rama
Soleado de Ambiente
AMBIENTE
Soleado Lluvioso
Nublado
? ?
2 SI SI 3 SI
3 NO 2 NO
AMBIENTE
Soleado Lluvioso
Nublado
HUMEDAD SI ?
Alta Normal 3 SI
2 NO
NO SI
AMBIENTE
Soleado Lluvioso
Nublado
HUMEDAD SI VIENTO
Alta Normal Si No
NO SI NO SI
75