Está en la página 1de 12

rboles de decisin.

ID3
Obtener reglas o relaciones que permitan clasificar a partir de los atributos Ej. de entrada:
Ejemplo 1 2 3 4 5 6 Sitio de acceso: A1 1 1 1 0 1 2 1 cantidad gastada: A2 0 0 2 2 1 2 Vivienda: A3 2 1 0 1 1 1 ltima compra: A4 Libro Disco Libro Libro Libro Libro Clase

Bueno Malo Bueno Bueno Malo Malo

rboles de clasificacin

Medida de orden. Entropa


Seleccionar el atributo que mejor separe (ordene) los ejemplos de acuerdo a las clases. Divide y vencers La entropa es una medida de como est ordenado el universo La teora de la informacin (basada en la entropa) calcula el nmero de bits (informacin, preguntas sobre atributos) que hace falta suministrar para conocer la clase a la que pertenece un ejemplo
rboles de clasificacin

Medida de la informacin
Entropa: propuesta por Shannon en su Teora de la Informacin (1948) Dado un conjunto de eventos A= {A1, A2,..., AN}, con probabilidades {p1, p2,..., pN}, informacin en un mensaje acerca de estos sucesos:
Informacin en el conocimiento de un suceso Ai (bits)

1 I( A i ) = log 2 p = log 2 (p i ) i
Informacin media de A (bits)

I( A ) =

p I( A ) = p log
i =1 i i i =1 i

(p i )

rboles de clasificacin

Medida de la informacin
Ej.: A= {A1, A2, A3, A4}, {1/4, 1/4, 1/4, 1/4}
1 I( A i ) = log 2 4 1 1 I( A ) = log 2 4 4 = 2 bits 1 1 1 1 1 1 log 2 log 2 log 2 = 2 bits 4 4 4 4 4 4

A= {A1, A2, A3, A4}, {1/5, 1/5, 1/5, 2/5}


1 I ( A 1 ) = I ( A 2 ) = I ( A 3 ) = log 2 5 2 I ( A 4 ) = log 2 = 1 . 32 bits ; 5 1 1 1 1 I ( A ) = log 2 log 2 5 5 5 5 = 2 . 32 bits ;

1 1 2 2 log 2 log 2 = 1 . 92 bits 5 5 5 5

Mxima entropa con sucesos equi-probables


rboles de clasificacin

Aplicacin a la clasificacin
Buscamos una medida de lo que se gana tras usar un atributo Ai [G(Ai) = Ganancia de Ai] Informacin antes de utilizar atributos: clases: {C1,, CM}; instancias: {n1,, nM} M n nc c I= log 2 n c =1 n Tras utilizar atributo Ai
I ( Ai ) =
nv ( Ai )

j =1

nij n

I ij ;

I ij =
k =1

nijk nij

log 2

nijk nij

G ( Ai ) = I I ( Ai )
rboles de clasificacin

Ejemplo

Ejemplo 1 2 3 4 5 6

Sitio de acceso: A1 1 1 1 0 1 2

1 cantidad Vivienda: gastada: A2 A3 0 2 0 1 2 0 2 1 1 1 2 1

ltima compra: A4 Libro Disco Libro Libro Libro Libro

Clase

Bueno Malo Bueno Bueno Malo Malo

A3 (zona vivienda)?

0 ejemplo3(B)

1 ejemplo2(M) ejemplo4(B) ejemplo5(M) ejemplo6(M)

2 ejemplo1(B)

rboles de clasificacin

Ejemplo
3 ejemplos clasificados como BUENO de 6 3 ejemplos clasificados como MALO de 6

3 3 3 3 log 2 log 2 = 2 bits 6 6 6 6 3 n1 j n10 n11 n12 1 4 1 I( A 3 ) = I1 j = I10 + I11 + I12 = I10 + I11 + I12 n n n 6 6 6 j=1 n I=
2 valores para clasificacin (BUENO y MALO) Para A3 = 0 hay 1 ejemplo BUENO y 0 MALO Para A3 = 1 hay 1 ejemplo BUENO y 3 MALO Para A3 = 2 hay 1 ejemplo BUENO y 3 MALO

1 A3 = 0 4 A3 = 1 1 A3 = 2

I 10 = I 11 =
2 2

k =1

n 10 k n 1 1 0 0 log 2 10 k = log 2 log 2 = 0 n 10 n 10 1 1 1 1 n 11 k n 1 1 3 3 log 2 11 k = log 2 log 2 = 0 . 81 bits n 11 n 11 4 4 4 4 n 12 k log n 12


2

k =1

I 12 =

k =1

1 1 0 0 n 12 k = log 2 log 2 = 0 n 12 1 1 1 1

I( A 3 ) = 0 .54; G ( A 3 ) = I I ( A 3 ) = 1.46
rboles de clasificacin

bits

Algoritmo ID3 (Quinlan 93)


1. Seleccionar el atributo Ai que maximice la ganancia G(Ai) 2. Crear un nodo para ese atributo con tantos sucesores como valores tenga 3. Introducir los ejemplos en los sucesores segn el valor que tenga el atributo Ai 4. Por cada sucesor:
Si slo hay ejemplos de una clase, Ck Entonces etiquetarlo con Ck Si no, llamar al ID3 con una tabla formada por los ejemplos de ese nodo, eliminando la columna del atributo Ai

rboles de clasificacin

Ejemplo

Ejemplo 1 2 3 4 5 6

Sitio de acceso: A1 1 1 1 0 1 2

1 cantidad Vivienda: gastada: A2 A3 0 2 0 1 2 0 2 1 1 1 2 1

ltima compra: A4 Libro Disco Libro Libro Libro Libro

Clase

Bueno Malo Bueno Bueno Malo Malo

1 4 1 I10 + I11 + I 12 = 0 .66 ; G ( A1 ) = 1,34 6 6 6 2 1 3 I ( A2 ) = I 20 + I 21 + I 22 = 0 .79; G ( A2 ) = 1, 21 6 6 6 1 4 1 I ( A3 ) = I 30 + I 31 + I 32 = 0 .54 ; G ( A3 ) = 1, 46 6 6 6 1 5 I ( A4 ) = I 4 Disco + I 4 Libro = 0 .81; G ( A4 ) = 1,19 6 6 I ( A1 ) =
rboles de clasificacin

Ejemplo

Ejemplo

1 2 3 4 5 6

Sitio de acceso: A1 1 1 1 0 1 2

1 cantidad Vivienda: gastada: A2 A3 0 2 0 1 2 0 2 1 1 1 2 1

ltima compra: A4 Libro Disco Libro Libro Libro Libro

Clase

Bueno Malo Bueno Bueno Malo Malo

A3 (zona vivienda)?

0 ejemplo3(B)
B

1 ejemplo2(M) ejemplo4(B) ejemplo5(M) ejemplo6(M)

2 ejemplo1(B)
B

rboles de clasificacin

Ejemplo
Ejemplo 2 4 5 6 Sitio de acceso: A1 1 0 1 2 1 cantidad gastada: A2 0 2 1 2 ltima compra: A4 Disco Libro Libro Libro Clase

Malo Bueno Malo Malo

1 2 1 I 10 + I11 + I12 = 0; G ( A1 ) = 2 4 4 4 1 1 2 I ( A2 ) = I 20 + I 21 + I 22 = 0.5; G ( A2 ) = 1,5 4 4 4 1 3 I ( A4 ) = I 4 Disco + I 4 Libro = 0.23; G ( A4 ) = 1,77 4 4 I ( A1 ) =

rboles de clasificacin

Ejemplo
A3 (zona vivienda)?

0 ejemplo3(B)
B

2 ejemplo1(B)

A1 (sitio de acceso)?

0 ejemplo4(B)
B

1 ejemplo2(M) ejemplo5(M)
M

2 ejemplo6(M)
M

rboles de clasificacin

También podría gustarte