Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Arboles de Decisi N 2 PDF
Arboles de Decisi N 2 PDF
Carlos Hurtado L.
Depto de Ciencias de la Computacin,
Universidad de Chile
Cul es el mejor split?
Buscamos splits que generen nodos hijos con la
menor impureza posible (mayor pureza
posible)
Existen distintos mtodos para evaluar splits.
Criterios de Seleccin:
Indice Gini
Entropa (Ganancia de informacin)
Test Chi-cuadrado
Proporcin de Ganancia de Informacin
Teora de Informacin
Supongamos que trasmitimos en un canal
(o codificamos) mensajes que son
smbolos en {x1,x2,,xn}.
A primera vista, necesitamos log n bits
por mensaje.
Si el emisr y el receptr cncen la
distribucin de prb. P(X=xi)=pi,
podramos elabrar un cdg que requiera
menos bits por mensaje.
Cdigos de Huffman
M cod. long. prob
0.8 Entropa
0.6
0.4
Gini
0.2
Min
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Seleccin de splits usando
Entropa
Entropy (t ) = pt ,c log 2 pt ,c
cC
La entropa mide la impureza de los datos S
Mide la informacin (num de bits) promedio necesaria para
codificar las clases de los datos en el nodo t
Casos extremos
Todos los datos pertenecen a la misma clase (Nota: 0log 0 = 0)
Todas las clases son igualmente frecuentes
C1
C1 C2 C3 C2 C3
Outlook
Sunny Rainy
Overcast
Yes Yes
Yes
Yes Yes
Yes
No Yes
Yes
No No
Yes
No No
Ejemplo: Clculo de la Entropa para
split simpla basado en Outlook
2
Entropy ( S ) = pi log 2 pi
i =1
9 9 5 5
= log 2 log 2 = 0.92
14 14 14 14
2 2 3 3
Entropy ( S sunny ) = log 2 log 2 = 0.97
5 5 5 5
4 4 0 0
Entropy ( S overcast ) = log 2 log 2 = 0.00
4 4 4 4
3 3 2 2
Entropy ( S rainy ) = log 2 log 2 = 0.97
5 5 5 5
Ejemplo: Clculo de la Ganancia de
informacin
| Sv |
Gain( S , outlook ) = Entropy ( S ) Entropy ( S v )
vValues ( a ) | S |
5 4 5
= 0.92 0.97 0 0.97
14 14 14
= 0.92 0.69 = 0.23
Gain( S , temp) = 0.03
Gain( S , humidity ) = 0.15 Seleccionar!
Gain( S , windy ) = 0.05
Ejercicio: Expansin de nodo
Sunny (probemos el split
Temperature)
Outlook
Sunny Rainy
Overcast
Temperature
No Yes Yes
No No
Clculo de la Entropa para los
nodos del split Temperature
Entropy ( S ) = 0.97
0 0 2 2
Entropy ( S hot ) = log 2 log 2 = 0
2 2 2 2
1 1 1 1
Entropy ( S mild ) = log 2 log 2 = 1
2 2 2 2
1 1 0 0
Entropy ( S cool ) = log 2 log 2 = 0
1 1 1 1
Clculo de la Ganancia para
Temperature
| Sv |
Gain( S , temp) = Entropy ( S ) Entropy ( S v )
vValues ( a ) | S |
2 2 1
= 0.97 0 1 0
5 5 5
= 0.97 0.40 = 0.57
Gain( S , humidity ) = 0.97
Gain( S , windy ) = 0.02
La ganancia de humidity es mayor
Por lo que seleccionamos este split
Ejemplo: Arbol resultante
Outlook
Sunny Rainy
Overcast
Humidity
Yes Windy
High Normal
True False
No Yes
No Yes
Entropa vs. Indice Gini
Breiman, L., (1996).Technical note: Some
properties of splitting criteria, Machine
Learning 24, 41-47. Conclusiones de estudio
emprico:
Gini tiende a seleccionar splits que ponen una clase
mayoritaria en un slo nodo y el resto en otros
nodos (splits desbalanceados).
Entropa favorece splits balanceados en nmero de
datos.
Entropa vs. Indice Gini
Entropa tiende a
Indice Gini tiende a
aislar clases numerosas encontrar grupos de
de otras clases clases que suman ms del
50% de los datos
class A 40 class A 40
class B 30 class B 30
class C 20 class C 20
class D 10 class D 10
A Clase A
1 Si 1 2 3 4 5
2 No
3 No
4 Si
5 si
Problemas de entropa e Indice
Gini
Favorecen splits con muchos nodos hijos.
Favorece atributos con muchos valores.
Solucin 1.: usar splits binarios
Solucin 2: usar GainRatio
Arboles y Teora de Informacin
Teora de informacin nos entrega un marco para medir la
calidad de un rbol.
Idea: usamos el rbol para construir un cdigo eficiente para
enviar las clases de los datos. Un buen rbol permite un cdigo
ms eficiente.
Codificador Decodificador
X,C X,C
a, c1 a, ?
a, c1 a, ?
b, c2 b, ?
b, c1 b, ?
Teora de la Informacin: Arbol
de un nodo (t)
Codificador Decodificador
(Pt) (Pt)
entropy
. .
. .
. .
. .
red
Color? green
Reduccin
.
de la yellow .
Entropa por
un Split
.
.
. . .
.
. .
. .
red
Color? green
.
yellow .
.
.
. . .
.
. .
. .
Informacin
Ganancia de
red
Color? green
.
yellow .
.
.
. .
. . .
.
. . red
yes .
Dot? .
Color?
no
green
. yellow
.
. .
solid
.
Outline?
dashed
.
Arbol Resultante
. .
. .
. .
Color
red green
yellow
Color? green
.
yellow .
.
.
Information Gain and
Information Gain Ratio
Caf
no si
Ejercicio: seleccin de splits usando
chi-cuadrado en weather.nominal
1. Calcule el estimador chi-cuadrado para
los splits simples de Windy y Humidity
2. Diga en base al test chi-cuadrado si
estos splits son independientes de la
variable de la clase
3. Calcule el estimador chi-cuadrado para
el split simple sobre Outlook.
Medidas de Impureza
Indice Gini
Entropa
Medidas de impureza:
Estudio de Mingers (1989)
Los rboles obtenidos con distintas criterios de
seleccin de splits no difieren significativamente en
su poder predictivo
El criterio s afecta el tamao del rbol obtenido
La eleccin aleatoria de atributos produce rboles de
alrededor del doble de tamao que si utilizamos una
medida de impureza
Entre las medidas vistas, Gain ratio produce rboles
pequeos y Chi-cuadrado produce rboles grandes
Problema de las medidas de
impureza
Fayyad e Irani (1993): no son capaces de
preferir splits que separan clases
Medidas de Separacin
Medidas de Separacin
Medida de Ortogonalidad
Referencias