Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En este video estudiaremos en detalle el concepto de ganancia de información,
término clave para la selección de variables durante la construcción
de un árbol de decisión.
Lo que nos motiva en este video es entender cómo,
finalmente, evaluamos la calidad de una variable,
principalmente usando el concepto de entropía, visto en el video anterior.
Dado que you conocemos el concepto de entropía, veremos ahora entonces cómo
usarla directamente para poder calcular la calidad de una variable.
Recordemos que para evaluar la calidad de una variable mirábamos qué
tan homogéneas van quedando las clases de los grupos de datos que se arman
una vez que vamos instanciando la variable en cada uno de sus posibles valores.
En este ejemplo, al evaluar la variable género, separamos los datos según sus
valores y nos queda la parte izquierda con tres casos de la clase ocasional y
dos casos de la clase frecuente, lo cual no es bueno you que no es homogéneo.
En la parte derecha, quedan dos casos de la clase ocasional y un caso de la clase
frecuente, lo cual tampoco es tan homogéneo.
Al evaluar la variable ingreso,
dado que tiene tres valores posibles, generamos las tres separaciones.
Vemos que la parte que corresponde al valor menor que 100 tiene todos los
casos de la misma clase, eso es muy bueno.
La parte que corresponde al rango 100- 200 tiene dos casos de la
clase frecuente y un caso de la clase ocasional, eso no es homogéneo.
Y finalmente, la parte que corresponde al valor mayor que 200 tiene
un caso de la clase ocasional y un clase de la clase frecuente, también
una situación muy desfavorable para poder llevar a cabo una buena clasificación.
Vemos entonces,
que para una misma variable se van generando distintas calidades de
separaciones para los distintos valores que la variable puede tomar.
Esto sugiere entonces el uso de un promedio ponderado de homogeneidad para
cada variable que considere la homogeneidad.
Es decir, la entropía de la clase en cada valor que toma la variable ponderado
por la cantidad relativa de filas en las que esa variable toma ese valor.
Teniendo entonces esto claro,
podemos definir lo qué es la ganancia de información.
La ganancia de información es el indicador que mide la calidad de una variable.
Lo que hace, en palabras simples, es calcular cuánto se reduce la entropía
de la clase que corresponde al primer término del lado derecho de la ecuación
cuando vamos instanciando la variable A en cuestión.
Si miramos el segundo término del lado derecho de la ecuación,
vemos que lo que hace es calcular la entropía de la
clase en cada una de las tablas de datos que van quedando,
una vez que vamos instanciando la variable en cuestión.
Una vez que calcula todas esas entropías, saca su promedio ponderado.
Los ponderadores del promedio, simplemente, asignan un peso relacionado
con el número de filas en que la variable toma ese valor,
el valor B en partícular, dividido por el total de filas.
Podemos ver también a la ganancia de información,
como la diferencia en la entropía de la clase una vez que bajamos en el
árbol por el atributo que estamos evaluando.
Veamos un ejemplo concreto, entonces.
Vamos a calcular la ganancia de información de la
variable género usando la tabla de datos que vemos en la diapositiva.
Siguiendo la ecuación que vimos para la definición de ganancia de información,
lo primero es calcular la entropía de la clase, es decir, cuán homogénea es la
distribución de la clase antes de instanciar cualquier variable.
En este caso vemos que hay ocho filas, cinco de ellas pertenecen a la
clase ocasional y tres de ellas a la clase frecuente.
Por lo tanto, la entropía es la que vemos en la ecuación en pantalla.
Ahora nos falta el segundo término de la ecuación de la definición de la ganancia
de información.
Para obtenerlo tenemos que instanciar la variable género en sus posibles
valores y medir la entropía de la clase según las filas que quedan
una vez que instanciamos la variable.
Vemos, entonces, que al instanciar la variable en el valor hombre nos quedan
dos casos de la clase ocasional y un caso de la clase frecuente.
Por lo tanto, la entropía se obtiene reemplazando las proporciones dos
tercios y un tercio en la fórmula, esto resulta 0.91.
Ahora instanciamos la variable género en el valor mujer, y vemos que
quedan tres casos en la clase ocasional y dos casos en la clase frecuente.
Por lo tanto,
calculamos la entropía con las proporciones tres quintos y dos quintos.
Esta entropía resulta 0.97.
Finalmente entonces, para obtener la ganancia de información de la variable
género, debemos obtener primero el promedio ponderado
de las dos entropías que calculamos anteriormente, donde cada ponderador tiene
que ver con el número de filas que se consideraron para calcular cada entropía.
En el caso de la entropía igual a 0.91, se usaron tres de las ocho filas,
y en el caso de la entropía igual a 0.97 se usaron cinco de las ocho filas.
Estos cálculos se señalan con círculos verdes en la diapositiva.
El primer término del lado derecho es, simplemente,
la entropía inicial de la clase.
you la calculamos y vale 0.95,
la señalamos con un círculo verde en la diapositiva.
Finalmente entonces, la ganancia de
información de la variable género nos da el valor de 0.0025.
Para practicar un poco más,
calculemos la ganancia de información de la variable ingreso.
Separamos entonces los datos
instanciando cada uno de los valores que esta variable puede tomar.
Para el caso en que la variable ingreso toma el valor menor que 100,
vemos que nos quedan todos los datos en la clase ocasional.
Por lo tanto, la entropía es cero.
En el caso en que la variable ingreso toma el valor entre 100 y 200,
vemos que nos quedan dos casos de la clase frecuente y un caso de la clase ocasional.
Por lo tanto, la entropía se calcula con las proporciones un tercio y dos tercios.
Finalmente, para el caso en que la variable ingreso vale mayor que 200,
tenemos un caso para la clase ocasional y un caso para la clase frecuente.
Por lo tanto, la entropía se calcula con las proporciones un medio y un medio,
lo que genera una entropía igual a 1.
para obtener la ganancia de información de la variable ingreso,
aplicamos la misma ecuación que you conocemos, reemplazando la
entropía inicial en el primer término del lado izquierdo de la ecuación,
y el promedio ponderado de las entropías que recién calculamos,
eso en el segundo término de la parte derecha de la ecuación.
Esto nos genera una ganancia de información
de 0.35 para la variable ingreso.
Les dejo como desafío calcular la ganancia de información de la variable lugar.
Eso sí les adelanto, el resultado les debería dar 0.265.
Ahora si queremos decidir cuál es la mejor variable entre todas las variables de la
tabla, simplemente,
tenemos que elegir la variable que tiene la ganancia de información más alta.
es decir, la variable ingreso, que nos dio una ganancia de información de 0.35.
En este video, aprendimos lo qué es la ganancia de información,
que corresponde al indicador final con el cual evaluamos la calidad de una variable
para ser seleccionada durante la construcción del árbol.
[AUDIO_EN_BLANCO]