Está en la página 1de 28

ÁRBOLES DE DECISIÓN

CLASIFICACIÓN
INTRODUCCIÓN
• Método para aproximar funciones valor
discreto
• Equivalentes conjunto de reglas si..entonces
• Facilidad de interpretación
• Diversas aplicaciones: Diagnóstico médico,
riesgo en préstamos, series de tiempo, etc
REPRESENTACIÓN
• Árboles : Nodos y tallos
• Nodo: Atributo
• Tallos: Posibles valores para ese atributo
• Clasificación:
- Comienza nodo inicial
- Prueba atributo en el nodo
- Mueve a siguiente nodo
* Se repite el procedimiento anterior
VALORES

VARIABLES
APLICACIONES
• Problemas representados por atributos
• Respuesta tiene valores discretos
• Descripciones disyuntivas pueden ser
requeridas
• Datos de entrenamiento pueden estar
incompletos
DAY OUTLOOK TEMPERAT. HUMIDITY WIND PLAYTENNIS

D1 SUNNY HOT HIGH WEAK NO


D2 SUNNY HOT HIGH STRONG NO
D3 OVERCAST HOT HIGH WEAK YES
D4 RAIN MILD HIGH WEAK YES
D5 RAIN COOL NORMAL WEAK YES
D6 RAIN COOL NORMAL STRONG NO
D7 OVERCAST COOL NORMAL STRONG YES
D8 SUNNY MILD HIGH WEAK NO
D9 SUNNY COOL NORMAL WEAK YES
D10 RAIN MILD NORMAL WEAK YES
D11 SUNNY MILD NORMAL STRONG YES
D12 OVERCAST MILD HIGH STRONG YES
D13 OVERCAST HOT NORMAL WEAK YES
D14 RAIN MILD HIGH STRONG NO

OUTLOOK

SUNNY OVERCAST RAIN

HUMIDITY YES WIND

HIGH NORMAL STRONG WEAK

NO YES NO YES
OUTLOOK
ATRIBUTOS
HUMIDITY

WIND

Esta prueba permite


PRUEBA ESTADÍSTICA Seleccionar el mejor
atributo

OUTLOOK
Ramas creadas para
OUTLOOK
Cada uno de los valores
Del atributo

Sunny Rainy
Overcast
Cuál atributo corresponde a
Cada uno de estos valores?
HUMIDITY HUMIDITY HUMIDITY
WIND WIND WIND

PRUEBA ESTADÍSTICA

MEJOR ATRIBUTO EN CADA CASO


ENTROPÍA
• Medida de la cantidad de información
necesaria para describir un sistema
• Ej. Billete de lotería
• Se define como

Entropía   p1 log 2 p1  p2 log 2 p2  ...


ENTROPÍA
• Logaritmo en base 2

log10 N ln N
log 2 N  
log10 2 ln 2

• Probabilidades

 
p ÉXITO 

Nro ÉXITOS 
Nro CASOS 
ENTROPÍA
• CASO 1. p1=0.2, p2=0.8
S=-0.2*log20.2-0.8log20.8=0.72
• CASO 2. p1=p2=0.5
S=-0.5*log20.5-0.5*log20.5=1
• CASO 2 : Máxima entropía, cualquiera
puede ocurrir, máxima cantidad información
para describir sistema
GANANCIA DE INFORMACIÓN

• Es la reducción de entropía de un atributo


A1 dado que se conozca el valor del atributo
A2
• Cantidad de Información de un atributo
brindada por conocimiento de otro atributo
• Ganancia información de atributo A relativa
a S es:
GI ( S , A)  Entropía ( S )  Entropía ( S A)
ÁRBOL DE DECISIÓN
OUTLOOK

SUNNY OVERCAST RAIN

HUMIDITY YES WIND

HIGH NORMAL STRONG WEAK

NO YES NO YES

POSIBILIDADES=[YES,NO]=[+,-]
Nro(+)=9, Nro(-)=5
9 9 5  5 
Entropía gral Sistema= 
 * log 2   * log 2   0.94
14   14  14  14  
ÁRBOL DE DECISIÓN
OUTLOOK

Sunny Rainy
Overcast
[2+,3-] [4+,0-] [3+,2-]

S(OUTLOOK)=p(sunny)*S(Sunny)+
p(Overcast)*S(Overcast)
p(Rainy)+S(Rainy)
ÁRBOL DE DECISIÓN
2 2 3  3 
S ( Sunny)    * log 2    * log 2    0.97
5 5 5  5 
4 4 0  0 
S (overcast)    * log 2    * log 2    0
4 4 4  4 
3  3 2  2 
S ( Rainy)    * log 2    * log 2    0.97
5 5 5  5 

5 4 5
S(OUTLOOK)= * 0.97  * 0  * 0.97  0.69
14 14 14

GI(OUTLOOK,GRAL)=0.94-0.69=0.24
ÁRBOL DE DECISIÓN
TEMPERATURE

Cold Hot
Mild
[3+,1-] [4+,2-] [2+,2-]

S(TEMP.)=p(Cold)*S(Cold)+
p(Mild)*S(Mild)+
p(Hot)+S(Hot)
ÁRBOL DE DECISIÓN
3 3 1  1 
S (Cool )    * log 2    * log 2    0.81
4 4 4  4 
4 4 2  2 
S ( Mild )    * log 2    * log 2    0.92
6 6 6  6 
2 2 2  2 
S ( Hot )    * log 2    * log 2    1.00
4 4 4  4 

4 6 4
S(TEMPER.)= * 0. 81  * 0. 92  *1.00  0.91
14 14 14

GI(TEMPER.,GRAL)=0.94-0.91=0.03
ÁRBOL DE DECISIÓN

HUMIDITY

Normal High
[6+,1-] [3+,4-]

S(HUMID.)=p(Normal)*S(Normal)+p(High)*S(High)
ÁRBOL DE DECISIÓN
6 6 1  1 
S ( Normal)    * log 2    * log 2    0.59
7 7 7  7 
3 3 4  4 
S ( High)    * log 2    * log 2    0.97
7 7 7  7 

7 7
S(HUMIDI.)= * 0.59  * 0.97  0.78
14 14

GI(TEMPER.,GRAL)=0.94-0.78=0.16
ÁRBOL DE DECISIÓN

WIND

Weak Strong
[6+,2-] [3+,3-]

S(WIND)=p(Weak)*S(Weak)+p(Strong)*S(Strong)
ÁRBOL DE DECISIÓN
6 6 2  2 
S (Weak )    * log 2    * log 2    0.81
8 8 8  8 
3 3 3  3 
S ( Strong )    * log 2    * log 2    1.00
6 6 6  6 

8 6
S(WIND)= * 0.81  *1.00  0.88
14 14

GI(WIND.,GRAL)=0.94-0.88=0.06
ÁRBOL DE DECISIÓN
ATRIBUTO
GI(GRAL,OUTLOOK)=0.94-0.69=0.24
SELECCIONADO

GI(GRAL,TEMPER.)=0.94-0.91=0.03

GI(GRAL,HUMID.)=0.94-0.78=0.16

GI(GRAL.,WIND)=0.94-0.88=0.06
ÁRBOL DE DECISIÓN
OUTLOOK

Sunny Rainy
Overcast

?
YES

Cuál atributo debe ir aquí???


ÁRBOL DE DECISIÓN
Sunny
[2+,3-]
S(Sunny)=0.97

TEMPERATURE HUMIDITY WIND

Hot Mild Cool Normal High Weak Strong


[0+,2-] [1+,1-] [1+,0-] [2+,0-] [0+,3-] [1+,2-] [1+,1-]

Los Casos deben sumar 5


ÁRBOL DE DECISIÓN
3 2
GI(Sunny,Humidity)=0.97    * 0.0    * 0.0  0.97
5 5

1 2 2
GI(Sunny,Temperature)= 0.97    * 0.0    *1.0    * 0.0  .570
5 5 5

2 3
GI(Sunny,Wind)= 0.97    *1.0    * 0.92  0.019
5 5
ÁRBOL DE DECISIÓN
Rainy
[3+,2-]
S(Rainy)=0.97

TEMPERATURE
WIND

Hot Mild Cool Weak Strong


[0+,0-] [2+,1-] [2+,0-] [3+,0-] [0+,2-]

Los casos nuevamente deben sumar 5!


ÁRBOL DE DECISIÓN

3 2
GI(Sunny,Wind)= 0.97    * 0.0    * 0.0  0.97
5 5

0 3 2
GI(Rainy,Temperature)= 0.97    * 0.0    * 0.91    *1.0  0.28
5 5 5
ÁRBOL DE DECISIÓN
OUTLOOK

SUNNY OVERCAST RAIN

HUMIDITY YES WIND

HIGH NORMAL STRONG WEAK

NO YES NO YES

No fue necesario incluir la temperatura!!!

También podría gustarte