Está en la página 1de 23

IT

CM
LOGO

Clasificador ID3
Inteligencia Artificial II

ITCM
www.themegallery.com

Definicin
El clasificador ID3 (Induction Decisin Trees) permite
crear rboles de decisin basndose en un conjunto de
entrenamiento, fue diseado en los 80s por J. Ross
Quinlan
El conjunto de entrenamiento contiene ejemplos, los
cuales tienen atributos y una nica clase. El dominio de
cada atributo esta limitado a un conjunto de valores.
El ID3 genera reglas de decisin que clasifican cada
uno de los ejemplos del conjunto de entrenamiento.
Ejemplo Regla: SI (condicin) ENTONCES Asignacin

ITCM
www.themegallery.com

Objetivo
El objetivo del ID3 es crear una descripcin
eficiente de un conjunto de datos mediante la utilizacin
de un rbol de decisin. Dados datos consistentes, es
decir, sin contradiccin entre ellos, el rbol resultante
describir el conjunto de entrada a la perfeccin.
Adems el rbol puede ser utilizado para predecir los
valores de nuevos datos, asumiendo siempre que el
conjunto de datos sobre el cual se trabaja es
representativo de la totalidad de los datos.

ITCM
www.themegallery.com

Terminologa
Hay dos conceptos importantes a tener en cuenta
en el algoritmo ID3: La entropa y el rbol de decisin.
Entropa: Se utiliza para encontrar el parmetro
ms significativo en la caracterizacin de un
clasificador.
rbol de decisin: Es un medio eficiente e intuitivo
para organizar los descriptores que pueden ser
utilizados con funciones predictivas.

ITCM
www.themegallery.com

Metodologa ID3
1

Construccin de Tablas de Frecuencias

Clculo de la Entropa del Conjunto

Clculo de la Entropa p/cada Atributo

Clculo de la ganancia p/cada Atributo

Construccin del rbol de Decisin

Simplificacin del rbol de Decisin

Construccin de Reglas de Decisin

ITCM
www.themegallery.com

Ejemplo: Juego de tenis


Supongamos que queremos analizar cules das
son convenientes para jugar tenis basndonos en la
humedad, el viento y el estado del tiempo.
Los datos que se utilizarn se presentan en la
siguiente tabla:

ITCM
www.themegallery.com

Conjunto de Entrenamiento
ESTADO

HUMEDAD

VIENTO

JUEGO TENIS

SOLEADO

ALTA

LEVE

NO

SOLEADO

ALTA

FUERTE

NO

NUBLADO

ALTA

LEVE

SI

LLUVIA

ALTA

LEVE

SI

LLUVIA

NORMAL

LEVE

SI

LLUVIA

NORMAL

FUERTE

NO

NUBLADO

NORMAL

FUERTE

SI

SOLEADO

ALTA

LEVE

NO

SOLEADO

NORMAL

LEVE

SI

LLUVIA

NORMAL

LEVE

SI

SOLEADO

NORMAL

FUERTE

SI

NUBLADO

ALTA

FUERTE

SI

NUBLADO

NORMAL

LEVE

SI

LLUVIA

ALTA

FUERTE

SI

ITCM
www.themegallery.com

Paso 1: Tabla de frecuencias


El primer paso del ID3 es la construccin de la tabla
de frecuencias, Para lo cual se identifica cuantos
atributos existen y que dominio tienen. Una vez
realizado esto, se construye una tabla para cada
atributo.
El siguiente paso es contabilizar cuantas veces
aparece cada valor de dominio en las clases posibles,
para este ejemplo las clases posibles (conclusiones)
son: SI es posible jugar tenis o NO es posible jugar
tenis.

ITCM
www.themegallery.com

Tabla de Frecuencias
HUMEDAD

ESTADO
SI

NO

SOLEADO

NUBLADO

LLUVIA

SI

NO

ALTA

NORMAL

VIENTO
SI

NO

FUERTE

LEVE

ITCM
www.themegallery.com

Paso 2: Entropia del Conjunto


Los valores que se utilizan para el clculo de la
entropa del conjunto se obtienen contabilizando el
numero de ocasiones que apareci cada clase
(conclusin) en un determinado atributo (no importa
cual se tome en cuenta, es el mismo resultado).

Para este caso dichos valores son: SI (10 casos) y


NO (4 casos).
El otro valor se obtiene contabilizando el numero
total de casos del conjunto de entrenamiento (14).

ITCM
www.themegallery.com

Paso 3: Entropia de atributos


Para realizar este clculo es necesario identificar los valores
del dominio para cada atributo y se toma en cuenta lo siguiente:
- El numero de ocasiones que cada valor cae en cada clase
(conclusin). Ejemplo para el atributo estado: soleado si (2) y
soleado no(3)
- El numero total de casos del conjunto de entrenamiento (14)
- El numero total de casos de cada valor de dominio de un
atributo. Ejemplo para el atributo estado: Soleado (5) se obtiene de
sumar 2(si) + 3(no)=5(total de casos soleado)

NOTA: Este clculo se realiza para cada atributo.

ITCM
www.themegallery.com

Paso 4: Ganancia
El clculo de la ganancia de cada atributo se
obtiene de la siguiente forma:
Ganancia atributo = entropa del conjunto entropa del
atributo
El clculo de la ganancia nos va a permitir
determinar sobre que estado se va a realizar el primer
filtrado para realizar el rbol. Se elige aquel atributo
cuya ganancia tenga mayor peso (ganancia mayor).

ITCM
www.themegallery.com

Calculos: Estado
Entropia del conjunto:

10
10 4
4
H ( S ) log 2 log 2
.86312
14
14 14
14
Entropia:

5 2
2 3
3
H ( S , estado) log 2 log 2
14 5
5 5
5
4 4
4 0
log 2 log 2
14 4
4 4
.6046

0 5 4
4 1
1
log 2 log 2
4 14 5
5 5
5

Ganancia resultante:
Ganancia (S,estado) = H(S) - H(S,estado) = .86312-.6046 =

.25852

ITCM
www.themegallery.com

Ganancias resultantes
Estado = .258521
Humedad = .0746702

Viento = .00597769

ITCM
www.themegallery.com

Paso 5: rbol de Decisin


El rbol de decisin, se construye realizando filtrados. El
primer filtrado se va a realizar sobre el atributo que tenga la mayor
ganancia y se va a obtener como resultado tablas ms pequeas,
el numero de tablas resultantes va a depender del dominio que
tenga el atributo sobre el cual se realiz el filtrado. Una hoja es
generada cuando se obtiene homogeneidad en la conclusin de
alguna tabla resultante.
En caso de no existir homogeneidad, se tiene que realizar otro
filtrado y para determinar sobre que atributo realizarlo se tiene que
calcular la entropa y ganancia de cada atributo que no haya sido
filtrado. Cabe mencionar que el calculo se va a realizar sobre la
tabla resultante. El proceso se repite hasta que no existan tablas
que filtrar.

ITCM
www.themegallery.com

Arbol de Decisin

ITCM
www.themegallery.com

Arbol de Decision

ITCM
www.themegallery.com

Arbol de Decision

ITCM
www.themegallery.com

Paso 6: Simplificacin rbol

El proceso de simplificacin consiste en


representar solamente las hojas del rbol de tal
manera que se facilite la lectura del mismo.

ITCM
www.themegallery.com

Arbol de Decision

ITCM
www.themegallery.com

Paso 7: Reglas de Decisin

Las reglas de decisin se construyen haciendo un


recorrido del rbol en posfijo, es decir, de arriba hacia
abajo y de izquierda a derecha.

ITCM
www.themegallery.com

Reglas de Decision
Regla 0
SI estado=lluvia
Y viento=fuerte

Regla 3
SI estado=nublado
ENTONCES JuegoTenis=Si

Y humedad=alta
ENTONCES JuegoTenis=Si

Regla 4

Regla 1

SI estado=soleado

SI estado=lluvia

Y humedad=alta

Y viento=fuerte

ENTONCES JuegoTenis=No

Y humedad=normal

ENTONCES JuegoTenis=No
Regla 2
SI estado=lluvia
Y viento=leve
ENTONCES JuegoTenis=Si

Regla 5
SI estado=soleado
Y humedad=normal
ENTONCES JuegoTenis=Si

ITCM
www.themegallery.com

Clasificacin de un ejemplo
ESTADO

HUMEDAD

VIENTO

JUGAR TENIS

LLUVIA

NORMAL

LEVE

SI
?

ESTADO

HUMEDAD

VIENTO

JUGAR TENIS

LLUVIA

ALTA

FUERTE

SI
?

ESTADO

HUMEDAD

VIENTO

JUGAR TENIS

NUBLADO

NORMAL

FUERTE

SI
?

Regla 2

Regla 0

SI estado=lluvia

SI estado=lluvia

Y viento=leve

Y viento=fuerte

ENTONCES JuegoTenis=Si

Y humedad=alta
ENTONCES JuegoTenis=Si

Regla 3
SI estado=nublado

ENTONCES JuegoTenis=Si