Está en la página 1de 23

Ing.

Juan Javier Gonzlez Barbosa

Clasificador ID3
Inteligencia Artificial II

Ghost Lsa

IT
CM
LOGO

Definicin

ITCM
www.themegall
ery.com

El clasificador ID3 (Induction Decisin Trees) permite


crear rboles de decisin basndose en un conjunto de
entrenamiento, fue diseado en los 80s por J. Ross
Quinlan
El conjunto de entrenamiento contiene ejemplos, los
cuales tienen atributos y una nica clase. El dominio de
cada atributo esta limitado a un conjunto de valores.
El ID3 genera reglas de decisin que clasifican cada
uno de los ejemplos del conjunto de entrenamiento.
Ejemplo Regla: SI (condicin) ENTONCES Asignacin

Objetivo

ITCM
www.themegall
ery.com

El objetivo del ID3 es crear una descripcin


eficiente de un conjunto de datos mediante la utilizacin
de un rbol de decisin. Dados datos consistentes, es
decir, sin contradiccin entre ellos, el rbol resultante
describir el conjunto de entrada a la perfeccin.
Adems el rbol puede ser utilizado para predecir los
valores de nuevos datos, asumiendo siempre que el
conjunto de datos sobre el cual se trabaja es
representativo de la totalidad de los datos.

Terminologa

ITCM
www.themegall
ery.com

Hay dos conceptos importantes a tener en cuenta


en el algoritmo ID3: La entropa y el rbol de decisin.
Entropa: Se utiliza para encontrar el parmetro
ms significativo en la caracterizacin de un
clasificador.
rbol de decisin: Es un medio eficiente e intuitivo
para organizar los descriptores que pueden ser
utilizados con funciones predictivas.

Metodologa ID3

ITCM
www.themegall
ery.com

Construccin de Tablas de Frecuencias

Clculo de la Entropa del Conjunto

Clculo de la Entropa p/cada Atributo

Clculo de la ganancia p/cada Atributo

Construccin del rbol de Decisin

Simplificacin del rbol de Decisin

Construccin de Reglas de Decisin

Ejemplo: Juego de tenis

ITCM
www.themegall
ery.com

Supongamos que queremos analizar cules das


son convenientes para jugar tenis basndonos en la
humedad, el viento y el estado del tiempo.
Los datos que se utilizarn se presentan en la
siguiente tabla:

Conjunto de Entrenamiento

ITCM
www.themegall
ery.com

ESTADO

HUMEDAD

VIENTO

JUEGO TENIS

SOLEADO

ALTA

LEVE

NO

SOLEADO

ALTA

FUERTE

NO

NUBLADO

ALTA

LEVE

SI

LLUVIA

ALTA

LEVE

SI

LLUVIA

NORMAL

LEVE

SI

LLUVIA

NORMAL

FUERTE

NO

NUBLADO

NORMAL

FUERTE

SI

SOLEADO

ALTA

LEVE

NO

SOLEADO

NORMAL

LEVE

SI

LLUVIA

NORMAL

LEVE

SI

SOLEADO

NORMAL

FUERTE

SI

NUBLADO

ALTA

FUERTE

SI

NUBLADO

NORMAL

LEVE

SI

LLUVIA

ALTA

FUERTE

SI

Paso 1: Tabla de frecuencias

ITCM
www.themegall
ery.com

El primer paso del ID3 es la construccin de la tabla


de frecuencias, Para lo cual se identifica cuantos
atributos existen y que dominio tienen. Una vez
realizado esto, se construye una tabla para cada
atributo.
El siguiente paso es contabilizar cuantas veces
aparece cada valor de dominio en las clases posibles,
para este ejemplo las clases posibles (conclusiones)
son: SI es posible jugar tenis o NO es posible jugar
tenis.

ITCM
www.themegall
ery.com

Tabla de Frecuencias
HUMEDAD

ESTADO
SI

NO

SOLEADO

NUBLADO

LLUVIA

SI

NO

ALTA

NORMAL

VIENTO
SI

NO

FUERTE

LEVE

ITCM
www.themegall
ery.com

Paso 2: Entropia del Conjunto

Los valores que se utilizan para el clculo de la


entropa del conjunto se obtienen contabilizando el
numero de ocasiones que apareci cada clase
(conclusin) en un determinado atributo (no importa
cual se tome en cuenta, es el mismo resultado).
Para este caso dichos valores son: SI (10 casos) y
NO (4 casos).
El otro valor se obtiene contabilizando el numero
total de casos del conjunto de entrenamiento (14).

ITCM
www.themegall
ery.com

Paso 3: Entropia de atributos

Para realizar este clculo es necesario identificar los valores


del dominio para cada atributo y se toma en cuenta lo siguiente:
- El numero de ocasiones que cada valor cae en cada clase
(conclusin). Ejemplo para el atributo estado: soleado si (2) y
soleado no(3)
- El numero total de casos del conjunto de entrenamiento (14)
- El numero total de casos de cada valor de dominio de un
atributo. Ejemplo para el atributo estado: Soleado (5) se obtiene de
sumar 2(si) + 3(no)=5(total de casos soleado)

NOTA: Este clculo se realiza para cada atributo.

Paso 4: Ganancia

ITCM
www.themegall
ery.com

El clculo de la ganancia de cada atributo se


obtiene de la siguiente forma:
Ganancia atributo = entropa del conjunto entropa del
atributo
El clculo de la ganancia nos va a permitir
determinar sobre que estado se va a realizar el primer
filtrado para realizar el rbol. Se elige aquel atributo
cuya ganancia tenga mayor peso (ganancia mayor).

ITCM
www.themegall
ery.com

Calculos: Estado
Entropia del conjunto:

10
10 4
4
H ( S ) = - log 2 - log 2
= .86312
14
14 14
14
Entropia:

5 2
2 3
3
H ( S , estado) = - log 2 - log 2 +
14 5
5 5
5
4 4
4 0
- log 2 - log 2
14 4
4 4
= .6046

0 5 4
4 1
1
+ - log 2 - log 2
4 14 5
5 5
5

Ganancia resultante:
Ganancia (S,estado) = H(S) - H(S,estado) = .86312-.6046 =

.25852

Ganancias resultantes
Estado = .258521
Humedad = .0746702
Viento = .00597769

ITCM
www.themegall
ery.com

Paso 5: rbol de Decisin

ITCM
www.themegall
ery.com

El rbol de decisin, se construye realizando filtrados. El


primer filtrado se va a realizar sobre el atributo que tenga la mayor
ganancia y se va a obtener como resultado tablas ms pequeas,
el numero de tablas resultantes va a depender del dominio que
tenga el atributo sobre el cual se realiz el filtrado. Una hoja es
generada cuando se obtiene homogeneidad en la conclusin de
alguna tabla resultante.
En caso de no existir homogeneidad, se tiene que realizar
otro filtrado y para determinar sobre que atributo realizarlo se tiene
que calcular la entropa y ganancia de cada atributo que no haya
sido filtrado. Cabe mencionar que el calculo se va a realizar sobre
la tabla resultante. El proceso se repite hasta que no existan tablas
que filtrar.

Arbol de Decisin

ITCM
www.themegall
ery.com

Arbol de Decision

ITCM
www.themegall
ery.com

Arbol de Decision

ITCM
www.themegall
ery.com

Paso 6: Simplificacin rbol

ITCM
www.themegall
ery.com

El proceso de simplificacin consiste en


representar solamente las hojas del rbol de tal
manera que se facilite la lectura del mismo.

Arbol de Decision

ITCM
www.themegall
ery.com

Paso 7: Reglas de Decisin

ITCM
www.themegall
ery.com

Las reglas de decisin se construyen haciendo un


recorrido del rbol en posfijo, es decir, de arriba hacia
abajo y de izquierda a derecha.

Reglas de Decision
Regla 0
SI estado=lluvia
Y viento=fuerte

ITCM
www.themegall
ery.com

Regla 3
SI estado=nublado
ENTONCES JuegoTenis=Si

Y humedad=alta
ENTONCES JuegoTenis=Si

Regla 4

Regla 1

SI estado=soleado

SI estado=lluvia

Y humedad=alta

Y viento=fuerte

ENTONCES JuegoTenis=No

Y humedad=normal
ENTONCES JuegoTenis=No
Regla 2
SI estado=lluvia
Y viento=leve
ENTONCES JuegoTenis=Si

Regla 5
SI estado=soleado
Y humedad=normal
ENTONCES JuegoTenis=Si

Clasificacin de un ejemplo

ITCM
www.themegall
ery.com

ESTADO

HUMEDAD

VIENTO

JUGAR TENIS

LLUVIA

NORMAL

LEVE

SI
?

ESTADO

HUMEDAD

VIENTO

JUGAR TENIS

LLUVIA

ALTA

FUERTE

SI
?

ESTADO

HUMEDAD

VIENTO

JUGAR TENIS

NUBLADO

NORMAL

FUERTE

SI
?

Regla 2

Regla 0

SI estado=lluvia

SI estado=lluvia

Y viento=leve

Y viento=fuerte

ENTONCES JuegoTenis=Si

Y humedad=alta
ENTONCES JuegoTenis=Si

Regla 3
SI estado=nublado
ENTONCES JuegoTenis=Si