Está en la página 1de 3

[SONIDO] Bienvenidos a un nuevo video de nuestro curso de minería de datos.

 
En este video estudiaremos en detalle el concepto de ganancia de información, 
término clave para la selección de variables durante la construcción 
de un árbol de decisión. 
Lo que nos motiva en este video es entender cómo, 
finalmente, evaluamos la calidad de una variable, 
principalmente usando el concepto de entropía, visto en el video anterior. 
Dado que you conocemos el concepto de entropía, veremos ahora entonces cómo 
usarla directamente para poder calcular la calidad de una variable. 
Recordemos que para evaluar la calidad de una variable mirábamos qué 
tan homogéneas van quedando las clases de los grupos de datos que se arman 
una vez que vamos instanciando la variable en cada uno de sus posibles valores. 
En este ejemplo, al evaluar la variable género, separamos los datos según sus 
valores y nos queda la parte izquierda con tres casos de la clase ocasional y 
dos casos de la clase frecuente, lo cual no es bueno you que no es homogéneo. 
En la parte derecha, quedan dos casos de la clase ocasional y un caso de la clase 
frecuente, lo cual tampoco es tan homogéneo. 
Al evaluar la variable ingreso, 
dado que tiene tres valores posibles, generamos las tres separaciones. 
Vemos que la parte que corresponde al valor menor que 100 tiene todos los 
casos de la misma clase, eso es muy bueno. 
La parte que corresponde al rango 100- 200 tiene dos casos de la 
clase frecuente y un caso de la clase ocasional, eso no es homogéneo. 
Y finalmente, la parte que corresponde al valor mayor que 200 tiene 
un caso de la clase ocasional y un clase de la clase frecuente, también 
una situación muy desfavorable para poder llevar a cabo una buena clasificación. 
Vemos entonces, 
que para una misma variable se van generando distintas calidades de 
separaciones para los distintos valores que la variable puede tomar. 
Esto sugiere entonces el uso de un promedio ponderado de homogeneidad para 
cada variable que considere la homogeneidad. 
Es decir, la entropía de la clase en cada valor que toma la variable ponderado 
por la cantidad relativa de filas en las que esa variable toma ese valor. 
Teniendo entonces esto claro, 
podemos definir lo qué es la ganancia de información. 
La ganancia de información es el indicador que mide la calidad de una variable. 
Lo que hace, en palabras simples, es calcular cuánto se reduce la entropía 
de la clase que corresponde al primer término del lado derecho de la ecuación 
cuando vamos instanciando la variable A en cuestión. 
Si miramos el segundo término del lado derecho de la ecuación, 
vemos que lo que hace es calcular la entropía de la 
clase en cada una de las tablas de datos que van quedando, 
una vez que vamos instanciando la variable en cuestión. 
Una vez que calcula todas esas entropías, saca su promedio ponderado. 
Los ponderadores del promedio, simplemente, asignan un peso relacionado 
con el número de filas en que la variable toma ese valor, 
el valor B en partícular, dividido por el total de filas. 
Podemos ver también a la ganancia de información, 
como la diferencia en la entropía de la clase una vez que bajamos en el 
árbol por el atributo que estamos evaluando. 
Veamos un ejemplo concreto, entonces. 
Vamos a calcular la ganancia de información de la 
variable género usando la tabla de datos que vemos en la diapositiva. 
Siguiendo la ecuación que vimos para la definición de ganancia de información, 
lo primero es calcular la entropía de la clase, es decir, cuán homogénea es la 
distribución de la clase antes de instanciar cualquier variable. 
En este caso vemos que hay ocho filas, cinco de ellas pertenecen a la 
clase ocasional y tres de ellas a la clase frecuente. 
Por lo tanto, la entropía es la que vemos en la ecuación en pantalla. 
Ahora nos falta el segundo término de la ecuación de la definición de la ganancia 
de información. 
Para obtenerlo tenemos que instanciar la variable género en sus posibles 
valores y medir la entropía de la clase según las filas que quedan 
una vez que instanciamos la variable. 
Vemos, entonces, que al instanciar la variable en el valor hombre nos quedan 
dos casos de la clase ocasional y un caso de la clase frecuente. 
Por lo tanto, la entropía se obtiene reemplazando las proporciones dos 
tercios y un tercio en la fórmula, esto resulta 0.91. 
Ahora instanciamos la variable género en el valor mujer, y vemos que 
quedan tres casos en la clase ocasional y dos casos en la clase frecuente. 
Por lo tanto, 
calculamos la entropía con las proporciones tres quintos y dos quintos. 
Esta entropía resulta 0.97. 
Finalmente entonces, para obtener la ganancia de información de la variable 
género, debemos obtener primero el promedio ponderado 
de las dos entropías que calculamos anteriormente, donde cada ponderador tiene 
que ver con el número de filas que se consideraron para calcular cada entropía. 
En el caso de la entropía igual a 0.91, se usaron tres de las ocho filas, 
y en el caso de la entropía igual a 0.97 se usaron cinco de las ocho filas. 
Estos cálculos se señalan con círculos verdes en la diapositiva. 
El primer término del lado derecho es, simplemente, 
la entropía inicial de la clase. 
you la calculamos y vale 0.95, 
la señalamos con un círculo verde en la diapositiva. 
Finalmente entonces, la ganancia de 
información de la variable género nos da el valor de 0.0025. 
Para practicar un poco más, 
calculemos la ganancia de información de la variable ingreso. 
Separamos entonces los datos 
instanciando cada uno de los valores que esta variable puede tomar. 
Para el caso en que la variable ingreso toma el valor menor que 100, 
vemos que nos quedan todos los datos en la clase ocasional. 
Por lo tanto, la entropía es cero. 
En el caso en que la variable ingreso toma el valor entre 100 y 200, 
vemos que nos quedan dos casos de la clase frecuente y un caso de la clase ocasional. 
Por lo tanto, la entropía se calcula con las proporciones un tercio y dos tercios. 
Finalmente, para el caso en que la variable ingreso vale mayor que 200, 
tenemos un caso para la clase ocasional y un caso para la clase frecuente. 
Por lo tanto, la entropía se calcula con las proporciones un medio y un medio, 
lo que genera una entropía igual a 1. 
para obtener la ganancia de información de la variable ingreso, 
aplicamos la misma ecuación que you conocemos, reemplazando la 
entropía inicial en el primer término del lado izquierdo de la ecuación, 
y el promedio ponderado de las entropías que recién calculamos, 
eso en el segundo término de la parte derecha de la ecuación. 
Esto nos genera una ganancia de información 
de 0.35 para la variable ingreso. 
Les dejo como desafío calcular la ganancia de información de la variable lugar. 
Eso sí les adelanto, el resultado les debería dar 0.265. 
Ahora si queremos decidir cuál es la mejor variable entre todas las variables de la 
tabla, simplemente, 
tenemos que elegir la variable que tiene la ganancia de información más alta. 
es decir, la variable ingreso, que nos dio una ganancia de información de 0.35. 
En este video, aprendimos lo qué es la ganancia de información, 
que corresponde al indicador final con el cual evaluamos la calidad de una variable 
para ser seleccionada durante la construcción del árbol. 
[AUDIO_EN_BLANCO]

También podría gustarte