Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PUNTOS TOTALES DE 10
1.Pregunta 1
¿En cuál de estás aplicaciones de la vida real no serviría usar el Algoritmo A-Priori?
Ordenamiento de Productos
Es un medida de clasificación
2/5
1/6
4/5
4.Pregunta 4
¿Qué significa que el soporte del itemset {leche, pañales, cerveza} sea de 0.25?
1 punto
De las 4 transacciones que existen en la base de datos, solo 1 contiene leche, pañales y cerveza
25% de las transacciones mostraron que leche, pañales y cerveza se compraron juntos
25% de los consumidores que compraron leche y pañales, también compraron cerveza
5.Pregunta 5
¿Qué mide la confianza de una regla?
1 punto
75% de los consumidores que compraron leche y pañales, también compraron cerveza
De las 4 transacciones que existen en la base de datos, solo 3 contiene leche, pañales y cerveza
75% de los consumidores que compraron cerveza, también compraron leche y pañales
7.Pregunta 7
¿Qué significa que el lift sea mayor a uno?
1 punto
Significa que el antecedente tuvo un efecto negativo en la ocurrencia del consecuente, haciendo que su probabilidad baje
Significa que la probabilidad del consecuente de la regla aumentó una vez que sabemos que el consumidor compró los items del antecedente.
Significa que el antecedente no aporta nada de información respecto a la compra u ocurrencia del consecuente.
Significa que el consecuente tuvo un efecto negativo en la ocurrencia del antecedente, haciendo que su probabilidad baje.
8.Pregunta 8
¿Cuántos itemsets posibles existen con n elementos?
1 punto
2^n-1
2*n
2^n
2*n - 1
9.Pregunta 9
¿Qué implica el principio de monotonicidad? Marque la/s alternativa/s correcta/s
1 punto
El itemset {arroz, mayonesa, pan} es frecuente, por lo que podemos asegurar que los itemsets {arroz}, {arroz, mayonesa}, {mayonesa, arroz} también lo
son.
Si un itemset es frecuente, entonces todos los subgrupos de éste también son frecuentes
Si un itemset no es frecuente, entonces todos los subgrupos de éste también son frecuentes
Si un itemset NO es frecuente, entonces cualquier conjunto que contenga a este itemset tampoco lo será
10.Pregunta 10
¿Qué es una regla de asociación?
1 punto
SEMANA 2
hablaremos sobre la clasificación automática.
Play video starting at 13 seconds and follow transcript0:13
Los principales objetivos de este video son entender para qué sirve la
clasificación automática y cuál es el tipo de aprendizaje relacionado.
Las técnicas de clasificación automática buscan encontrar un modelo
capaz de identificar automáticamente la clase a la cual pertenece un objeto dado.
Play video starting at 30 seconds and follow transcript0:30
Por ejemplo, diseñar un sistema capaz de diferenciar entre un huemul o un reno
a partir de una imagen.
Play video starting at 40 seconds and follow transcript0:40
Otro ejemplo es un sistema capaz de identificar el dígito que aparece en
una foto.
Estos sistemas se pueden usar en la identificación automática
de montos de dinero en documentos bancarios.
Play video starting at 53 seconds and follow transcript0:53
También un problema de clasificación automática sería decidir si un paciente
tiene diabetes o no a partir de los resultados de sus exámenes médicos.
Play video starting at 1 minute 5 seconds and follow transcript1:05
Un ejemplo fascinante de clasificación es también el decidir
si en la imagen de una estrella aparece un planeta o no, algo muy utilizado en
la actualidad para detectar planetas potencialmente habitables por humanos.
Play video starting at 1 minute 21 seconds and follow transcript1:21
También en la industria se usan sistemas de clasificación automática
para evaluar la calidad de un producto.
Por ejemplo,
un sistema capaz de clasificar una fruta como en buen o mal estado de tal forma de
eliminar las frutas malas antes de usarlas para la producción de pulpas congeladas.
Play video starting at 1 minute 41 seconds and follow transcript1:41
El esquema general para resolver un problema de clasificación automática
debe disponer principalmente de dos cosas.
Un conjunto de entrenamiento, es decir,
un conjunto con datos previamente clasificados y un modelo de clasificación.
Play video starting at 1 minute 58 seconds and follow transcript1:58
Una vez que tenemos nuestros datos de entrenamiento
y el modelo de clasificación, se procede a la etapa de ajuste o entrenamiento
del clasificador de tal forma de terminar
en un modelo you entrenado listo para ser utilizado en la práctica.
Play video starting at 2 minutes 16 seconds and follow transcript2:16
Cuando un modelo se ajusta a partir de un set de datos de entrenamiento,
decimos que estamos frente a un proceso de aprendizaje supervisado.
Play video starting at 2 minutes 28 seconds and follow transcript2:28
Aquí tenemos también un ejemplo de aprendizaje supervisado.
Supongamos que nos interesa un modelo de clasificación
capaz de discernir entre perros y gatos a partir de sus imágenes.
Lo primero entonces es que debemos disponer de un conjunto de entrenamiento.
Es decir, de varias imágenes identificadas de perros y gatos.
Play video starting at 2 minutes 51 seconds and follow transcript2:51
Además del conjunto de entrenamiento, necesitamos un algoritmo de entrenamiento.
Es decir, un proceso generalmente iterativo que va analizando los datos
del conjunto de entrenamiento hasta aprender cómo separar
entre las distintas clases y luego poder clasificar datos en el futuro.
Play video starting at 3 minutes 10 seconds and follow transcript3:10
Una vez que termina el proceso de entrenamiento,
nuestro modelo entrenado you es capaz de clasificar datos nuevos.
Por ejemplo, si llega la imagen del perro en la figura,
Play video starting at 3 minutes 24 seconds and follow transcript3:24
nuestro modelo entrenado será capaz de clasificarlo como un perro.
Play video starting at 3 minutes 30 seconds and follow transcript3:30
En este video aprendimos los conceptos de clasificación automática
y aprendizaje supervisado.
Vimos que es necesario disponer de un conjunto de entrenamiento,
es decir, un set de datos con casos previamente etiquetados
y un algoritmo capaz de iterar sobre esos datos y generar un modelo entrenado.
Play video starting at 3 minutes 52 seconds and follow transcript3:52
Me imagino que tienen dudas respecto a cómo son el realidad los algoritmos de
entrenamiento y los modelos de clasificación.
No se preocupen, you que ahora estamos en condiciones de empezar
a revisar algunas de estas técnicas en los próximos videos.
[AUDIO_EN_BLANCO]
REPRESENATCION DE OBJETOS
[MÚSICA] Bienvenidos al nuevo video de nuestro curso de Minería de datos.
En este video hablaremos sobre la forma en que representaremos objetos del mundo real
en nuestras bases de datos.
El objetivo principal de este video es entender cómo representamos objetos en el
computador para permitir después
la aplicación de algoritmos de clasificación automática.
Play video starting at 27 seconds and follow transcript0:27
En general, cuando queremos desarrollar algoritmos automáticos que analizan datos,
tenemos que ver cómo ingresar esos datos en un computador.
Play video starting at 35 seconds and follow transcript0:35
Es necesarios entonces definir una forma estructurada para representar objetos
del mundo real y así ser capaces de ingresarlos en un algoritmo computacional.
Por ejemplo, ¿cómo puede un computador entender una imagen de un animal
o resultados de exámenes médicos o un cliente que realiza compras?
Play video starting at 57 seconds and follow transcript0:57
Supongamos que queremos construir una base de datos de los clientes que visitan
nuestras tiendas.
Una forma posible de presentar a los clientes en el computador,
Play video starting at 1 minute 8 seconds and follow transcript1:08
es un vector de valores que describen al cliente con variables propias y coherentes
del contexto.
Por ejemplo, total de la compra, profesión, ubicación de la tienda,
género, etcétera.
Play video starting at 1 minute 21 seconds and follow transcript1:21
Además de la representación a través de un vector
en contextos en que nos interesa realizar clasificación automática, también
necesitaremos conocer la clase de nuestros clientes en el historial de compras.
Típicamente la clase se agrega como una nueva columna,
indicando el valor de la clase a la cual nuestro objeto pertenece.
En este ejemplo, nuestro cliente pertenece a la clase preferencial.
Notar que las clases posibles deben estar previamente definidas.
Play video starting at 1 minute 50 seconds and follow transcript1:50
El vector que representa entonces a nuestros datos,
tendrá típicamente un identificador que corresponde a un valor
único en la base de datos y en general no es parte del análisis propiamente tal.
Play video starting at 2 minutes 1 second and follow transcript2:01
Una lista de atributos o también llamados variables, descriptores o features.
Y finalmente un valor que corresponde a la clase a la cual pertenece el objeto.
Play video starting at 2 minutes 12 seconds and follow transcript2:12
Notar que pueden haber casos de nuestra base de datos donde la clase del objeto no
es conocida.
Play video starting at 2 minutes 18 seconds and follow transcript2:18
Justamente para esos casos es que necesitaremos de la ayuda de algoritmos
de clasificación automática para predecir el valor de la clase de esos objetos.
Play video starting at 2 minutes 31 seconds and follow transcript2:31
En general, tenemos muchos objetos en nuestros datos.
Típicamente los objetos corresponden a las filas de la base de datos.
Por ejemplo, en el caso de los clientes, si tenemos 1200
clientes significa que tendríamos 1200 filas en nuestra base de datos.
Play video starting at 2 minutes 49 seconds and follow transcript2:49
Otro ejemplo de representación de objetos son las imágenes.
Lo que típicamente se hace es representar la imagen
como un vector que contiene los pixeles de la imagen.
Existen también formas de calcular variables sobre las imágenes.
Por ejemplo histogramas de color o características de forma.
Play video starting at 3 minutes 11 seconds and follow transcript3:11
Supongamos que queremos clasificar un dígito contenido en una imagen,
Play video starting at 3 minutes 15 seconds and follow transcript3:15
podemos representar la imagen como un vector de pixeles, de tal forma que el
clasificador sea capaz de reconocer a qué número corresponde la imagen.
Play video starting at 3 minutes 26 seconds and follow transcript3:26
Recordemos el ejemplo de clasificación mencionado en el video anterior,
sobre exámenes médicos de pacientes que pueden o no tener diabetes.
Play video starting at 3 minutes 38 seconds and follow transcript3:38
Una forma natural de representar los exámenes en el computador es a través de
un vector que contiene todos los descriptores del resultado del examen,
Play video starting at 3 minutes 47 seconds and follow transcript3:47
además de las características del paciente.
Play video starting at 3 minutes 50 seconds and follow transcript3:50
Una vez que podemos confirmar si el paciente tiene o no diabetes,
tendremos una columna al final de cada fila indicando la clase del paciente.
En este caso, diabetes positiva o negativa.
Play video starting at 4 minutes 3 seconds and follow transcript4:03
En este video, vimos cómo representar distintos tipos de objetos
dentro de una base de datos, de tal forma de poder usar
esta representación como input para los algoritmos de clasificación automática.
[AUDIO_ EN_ BLANCO]
VECINOS CEERCANOS
Evaluación Semana 2
PUNTOS TOTALES DE 10
1.Pregunta 1
¿Qué es la clasificación?
1 punto
Un problema de clasificación busca encontrar un sistema capaz de identificar automáticamente para cada objeto la clase a la cual
pertenece
Es una técnica para buscar asociaciones entre distintos productos
2.Pregunta 2
¿Cómo se representan los objetos para poder aplicar un algoritmo de clasificación? Marque la/s alternativa/s correcta/s.
1 punto
No hace falta ningún pre procesamiento. Generalmente es obtener los datos tal cual y entrenar usando un modelo de clasificación
Si fuera una imagen una posibilidad es usar cada uno de los pixeles de la imagen como una variable
3.Pregunta 3
¿Qué hace el algoritmo de vecinos cercanos?
1 punto
4.Pregunta 4
¿Por qué conviene normalizar las variables antes de realizar el algoritmo de vecinos cercanos?
2 puntos
Para que variables con rangos mayores no dominen frente a variables con rangos menores
5.Pregunta 5
La base de datos es de la siguiente manera:
¿Qué tipo de variables serían los atributos Deporte, Posición en la empresa y Sueldo respectivamente?
1 punto
6.Pregunta 6
¿Cuáles de estas aseveraciones corresponden a modificaciones posibles del algoritmo Vecinos Cercanos? (Marca TODAS las alternativas
correctas)
3 puntos
Utilizar pesos para las dimensiones de tal forma de dar pesos menores a las dimensiones menos relevantes
7.Pregunta 7
¿Cuál es la principal desventaja del algoritmo de Vecinos Cercanos?
1 punto
Al utilizar muchas dimensiones y todas con la misma relevancia el algoritmo se vuelve infactible en la práctica
El algoritmo de vecinos cercanos considera las distancias de los vecinos para la votación de la clase
ARBOLES DE DECISION
ENTROPIA
[MÚSICA] ¡Bienvenidos a un nuevo video a nuestro curso de Minería de Datos!
En este video, estudiaremos en detalle el concepto de entropía, término clave
para la selección de variables durante la construcción de un árbol de decisión.
Lo que nos motiva en este video es entender bajo qué criterio se evalúa
la calidad de las variables de nuestra base de datos, a la hora de seleccionar
los mejores nodos durante el proceso de construcción del árbol.
Lo primero es entender que, en el contexto de clasificación automática, la calidad
de una variable tiene que ver con su capacidad de separar los elementos entre
las distintas clases posibles, una vez que esa variable toma alguno de esos valores.
Por ejemplo, distintos valores de la variable
[INCOMPRENSIBLE] distintos valores de la clase.
Si hay una relación directa entre los valores de la variable y las posibles
clases, significa que la variable es muy buena para clasificar.
La calidad de una variable entonces tiene que ver con cuán bien se separan las
clases, cada vez que instanciamos ese atributo.
Las clases se separan bien cuando cada subgrupo generado por la
división del atributo es homogéneo, es decir,
en cada subgrupo todos pertenecen a la misma clase.
Por ejemplo, en la figura tenemos la variable edad.
Vemos que toma dos valores posibles entre 18 y 25 y mayor que 25.
¡Marquemos con colores los distintos valores que puede tomar la variable!
En los casos en que los clientes tienen entre 18 y 25 años,
las clases que aparecen son Frecuente y Ocasional, es decir,
el estar entre 18 y 25 años no nos deja claro a qué clase pertenece el cliente.
Por otro lado, si la edad es mayor que 25, las clases también quedan divididas,
es decir, cuando los clientes tienen más de 25 años,
tampoco nos queda claro al que clase pertenecen.
Por lo tanto, la variable es mala para clasificar.
Ahora tenemos otro ejemplo.
La variable género.
Los valores posibles son hombre o mujer.
Marquemos con colores los distintos valores que puede tomar la variable.
Si seleccionamos de los datos,
los casos en que los clientes son mujeres, vemos que en ambos casos,
la clase es ocasional, por lo tanto, cuando el género del cliente es mujer,
es un buen predictor para los clientes ocasionales.
Ahora, si seleccionamos de los datos, los casos en que los clientes son hombres,
vemos que todos pertenecen a la clase Frecuente.
Por lo tanto, los clientes hombres son un buen predictor para la clase Frecuente.
Finalmente, podemos concluir que la variable género es buena,
you que cuando la instanciamos, genera un buen grado de homogeneidad de la clase.
Dado que you notamos que la calidad de una variable tiene
que ver con la homogeneidad de la clase, una vez que instanciamos la variable,
necesitamos una métrica de homogeneidad.
Veamos un ejemplo, un poco más complejo.
Supongamos que tenemos dos clases posibles sí y no.
Si existen 100 registros en nuestra base de datos,
donde cada clase tiene la mitad de los registros,
y supongamos que al revisar los casos en que A vale 0, nos encontramos con 48
filas que pertenecen a la clase Sí y dos filas que pertenecen a la clase No.
Al mirar ahora los casos en que A vale 1,
vemos que quedan dos casos de la clase Sí y 48 de la clase No.
Entonces, la variable A logró mayormente separar bien las clases cuando
esta fue instanciada.
Ahora revisemos la variable B.
Supongamos que al instanciar la variable B en su valor 0,
nos da que 26 registros pertenecen a la clase Sí y 24 a la clase No.
Esto no es bueno, you que significa que la variable B en su valor 0,
no logró homogeneizar la clase.
Al revés, los dejó aproximadamente mitad de una clase y mitad de la otra.
Algo similar ocurre cuando la variable B se instancia en el valor 1.
24 casos quedan de la clase Sí y 26 casos quedan de la clase No.
Aquí también la variable dejó una mala homogeneización de la clase.
Nuevamente, tenemos el caso de una variable buena y una mala,
pero aquí vemos que la homogeneización toma valores intermedios, es decir,
necesitamos una medida que nos entregue un valor de homogeneización para cada
posible proporción de elementos que pertenezcan a una clase y a la otra.
Dado que you entendimos de los ejemplos que es necesario poder medir la
homogeneidad de la clase cada vez que instanciamos la variable que estamos
evaluando, estamos en condiciones de estudiar el concepto de entropía.
La entropía proviene de la teoría de la información,
es un indicador que nos permite medir el grado de desorden en un conjunto de datos.
La entropía la denotaremos por H y corresponde a menos la suma
del término p log p, para cada clase posible, donde p indica la
proporción de casos que pertenecen a cada valor de la clase en cuestión.
Veamos un ejemplo del uso de entropía.
Consideremos los datos que aparecen en la diapositiva.
Primero, notemos que existen dos posibles clases, Frecuente y Ocasional.
Marcamos las filas con distintos colores, para que sea más fácil visualizarlas.
Si queremos calcular la entropía de la clase,
aplicando la fórmula que vimos anteriormente,
debemos observar las proporciones de casos que ocurren para cada uno de los posibles
valores que toma la clase, en este caso, Frecuente y Ocasional.
En el caso Frecuente, tenemos una fila de un total de cuatro,
y en el caso de Ocasional, tenemos tres filas de un total de cuatro.
Aplicando esas proporciones en la fórmula, vemos en pantalla el resultado.
La entropía es igual a 1, en el caso en que tenemos un 50% de los datos
perteneciendo a cada una de las dos clases posibles.
En este video aprendimos el concepto de entropía,
que mide el grado de homogeneidad en un conjunto de valores.
Típicamente, nosotros medimos homogeneidad en la columna de la clase de los datos
que corresponde al target que queremos predecir en la
clasificación automática.
EN EL ÁRBOL DE DECISIÓN
ejemplob
[MÚSICA] Bienvenidos al nuevo video de nuestro curso de Minería de datos.
En este video, veremos un ejemplo completo de construcción de un árbol de decisión.
La principal motivación de este video es dar un repaso al
proceso completo de construcción de un árbol, de tal forma de fortalecer los
conceptos más importantes involucrados en este proceso.
Play video starting at 25 seconds and follow transcript0:25
Supongamos que tenemos la tabla de datos que aparece en la diapositiva.
Vemos que tenemos tres variables y,
al final, en el lado derecho una columna con la clase de cada elemento.
La idea es construir un árbol de decisión que permita clasificar
el panorama que debería disfrutar un joven dependiendo del clima,
de si el joven vive o no con sus padres y de su situación económica.
Los valores posibles para el panorama son, ir al cine o quedarse en la casa.
Play video starting at 53 seconds and follow transcript0:53
Es importante mencionar que en este ejercicio no utilizaremos ningún tipo de
poda para mantener el ejemplo lo más simple posible.
Play video starting at 1 minute 2 seconds and follow transcript1:02
Lo primero, entonces, para construir el árbol es encontrar la mejor variable,
en particular, la que corresponderá al nodo raíz del árbol.
Para ello, recordemos que tenemos que calcular la ganancia de información
de cada una de las variables.
En la diapositiva aparecen enunciadas las ecuaciones necesarias
para calcular cada una de las ganancias de información.
Play video starting at 1 minute 26 seconds and follow transcript1:26
Les recomiendo fuertemente que pausen el video
y vean con detención cada uno de los términos de las ecuaciones.
En particular, en esta diapositiva aparece la forma de calcular la ganancia de
información de las variables Clima y Vive con sus padres.
Play video starting at 1 minute 42 seconds and follow transcript1:42
Vemos ahora la ecuación para calcular la ganancia de información
de la variable Situación económica.
Notar que para las tres ganancias de información
es necesario calcular la entropía inicial de la clase, en este caso, Panorama.
Play video starting at 1 minute 57 seconds and follow transcript1:57
Y luego, un promedio ponderado de la entropía de la clase una vez
que vamos instanciando los valores posibles de la variable en cuestión.
Play video starting at 2 minutes 7 seconds and follow transcript2:07
Comencemos, entonces, con el cálculo de la entropía de la clase.
Marcamos con colores las filas que corresponden
a distintos valores de la clase.
Play video starting at 2 minutes 16 seconds and follow transcript2:16
Vemos que hay cinco casos para Cine y tres casos para Casa.
Dado que en total son ocho casos, usaremos la proporción de cinco octavos y tres
octavos para el cálculo de la entropía.
Play video starting at 2 minutes 29 seconds and follow transcript2:29
Siguiendo los cálculos que aparecen en las ecuaciones, podemos apreciar que la
entropía, usando las proporciones señaladas, es de 0.9544.
Continuamos, entonces, con la ganancia de información para la variable Clima.
Dado que necesitamos calcular la entropía de Panorama,
cada vez que vamos instanciando la variable Clima marcamos con colores los
posibles valores de esta variable, en este caso Calor, Viento y Lluvia.
En otras palabras,
vamos a calcular la entropía de Panorama tres veces; primero con las filas moradas,
luego con las filas azules, y finalmente con las filas amarillas.
Después de eso, sacamos el promedio ponderado de las tres y así
estamos listos para obtener la ganancia de información de la variable Clima.
Partimos, entonces, con la entropía de Panorama cuando Clima es igual Calor.
Instanciamos la variable Clima a su valor Calor, lo que significa solo considerar
las filas de los datos en que la variable vale Calor.
Con esas filas calculamos la entropía de Panorama.
En este caso,
Panorama tiene dos filas, una con la clase Cine y una con la clase Casa.
Esto implica que debemos usar las proporciones un medio y un medio para el
cálculo de la entropía.
Play video starting at 3 minutes 37 seconds and follow transcript3:37
Esto nos genera una entropía igual a 1.
Ahora, calculamos la entropía de Panorama
para los casos en que la variable Clima es igual a Viento.
Nos quedan dos casos de tres para el valor Cine y un caso de tres para el valor Casa.
Sacamos la entropía, entonces, con las proporciones dos tercios y un tercio.
Play video starting at 3 minutes 59 seconds and follow transcript3:59
La tercera entropía que nos queda
Play video starting at 4 minutes 3 seconds and follow transcript4:03
es la de Panorama cuando la variable Clima vale Lluvia.
Seleccionamos esas filas entonces, en este caso las amarillas, y vemos que
nos queda un caso que pertenece a la clase Casa y dos casos de la clase Cine.
Sacamos la entropía, entonces, con esas proporciones y nos da 0.9183.
Finalmente, para calcular la ganancia de información de la variable Clima,
sacamos el promedio ponderado de las tres entropías que obtuvimos recién.
En este caso, los ponderadores son dos octavos, tres octavos y tres octavos,
que corresponden con el número de filas moradas,
azules y amarillas respectivamente.
Play video starting at 4 minutes 44 seconds and follow transcript4:44
La ganancia sería la entropía inicial que era 0.9544 menos
el promedio ponderado, lo que nos da un total de 0.0015675.
Los invito a realizar el mismo procedimiento con las variables
Vive con sus padres y Situación económica.
Play video starting at 5 minutes 1 second and follow transcript5:01
Las respectivas ganancias de información aparecen en pantalla.
Play video starting at 5 minutes 8 seconds and follow transcript5:08
Comparando las tres ganancias de información,
vemos que la variable Vive con sus padres es la que tiene una mayor ganancia de
información, por lo tanto, es la elegida para ser el nodo raíz del árbol.
[SONIDO] Procedemos a colocarla
y a bajar por cada uno de los posibles valores que puede tomar esa variable.
En este caso, Sí o No.
Cuando la variable vale Sí, la tabla de datos es la que aparece al lado izquierdo.
Cuando la variable vale No,
nos queda una tabla de datos distinta; la podemos ver al lado derecho del árbol.
Play video starting at 5 minutes 48 seconds and follow transcript5:48
Continuamos, entonces, con la construcción del mismo árbol.
En esencia, haremos lo mismo que hicimos para encontrar el nodo raíz,
solo que ahora como you bajamos por ese nodo en el árbol,
trabajaremos solo con los datos que cumplen con que la
variable Vive con los padres es Sí, es decir, la tabla que aparece en pantalla.
Play video starting at 6 minutes 12 seconds and follow transcript6:12
Al igual que la iteración anterior,
tenemos que calcular la ganancia de información de todas las variables
candidatas, en este caso, las variables Clima y Situación económica.
Play video starting at 6 minutes 26 seconds and follow transcript6:26
Al igual que antes, lo primero es calcular la entropía inicial de la clase.
No olvidar que este valor será distinto al de la iteración anterior,
you que ahora tenemos un número menor de filas en nuestra tabla de datos.
Vemos que la clase tiene cuatro casos iguales a Cine y un caso igual a Casa.
Calculando la entropía con esas proporciones nos da 0.7219.
Para calcular la ganancia de información de la variable Clima,
al igual que antes, tenemos que obtener la entropía de
la clase para cada uno de los valores posibles de la variable.
En este caso, los cálculos se hacen mucho más rápido,
you que vemos que nos quedan muy pocas filas para hacer los cálculos.
Por ejemplo, cuando tenemos solo una fila la entropía es 0,
you que tenemos un dato perteneciente a una clase, significa que el 100%
de los casos está en esa clase, es decir, el caso en que la entropía vale 0.
Si tenemos dos filas, y en ambos casos la clase es distinta, significa
que tenemos un 50% de los casos en una clase y 50% de los casos en la otra.
Play video starting at 7 minutes 35 seconds and follow transcript7:35
Eso corresponde a la situación en que la entropía vale 1.
Los invito a que calculen las tres entropías
de la clase para cada uno de los valores de la variable de Clima.
Confirmen que corresponden con los números que aparecen en pantalla.
Play video starting at 7 minutes 51 seconds and follow transcript7:51
Finalmente, sacando el promedio ponderado de las tres entropías y realizando
la resta como lo vemos en pantalla, obtenemos una ganancia de información
Play video starting at 8 minutes 2 seconds and follow transcript8:02
de 0.3219 para la variable Clima cuando la variable Vive con sus padres es Sí.
Play video starting at 8 minutes 9 seconds and follow transcript8:09
Calculemos ahora la ganancia de información para la variable
Situación económica.
Play video starting at 8 minutes 14 seconds and follow transcript8:14
Al igual que con Clima, tenemos que calcular la entropía de la clase
para cada uno de los valores de la variable Situación económica.
Por ejemplo, para el caso en que la situación económica es buena,
tenemos dos filas marcadas con amarillo.
Play video starting at 8 minutes 31 seconds and follow transcript8:31
Ahí vemos que ambas filas pertenecen a la clase Cine, por lo tanto,
un 100% de los casos está en la misma clase, es decir, la entropía es 0.
En el caso en que la variable Situación económica vale Mala,
tenemos tres casos marcados en azul.
De esos casos, dos pertenecen a Cine y uno a Casa, por lo tanto, la
entropía se saca con las proporciones dos tercios y un tercio, resultando 0.9183.
Play video starting at 9 minutes 0 seconds and follow transcript9:00
Aplicando, entonces, los valores encontrados para las dos entropías,
obteniendo el promedio ponderado y realizando la resta, el resultado para la
ganancia de información de la variable Situación económica es de 0.17.
Dado que la ganancia de información del atributo Clima es mayor
a la del atributo Situación económica, el nodo Clima será el siguiente elegido.
Play video starting at 9 minutes 27 seconds and follow transcript9:27
Lo colocamos, entonces, en nuestro árbol y continuamos la construcción.
Play video starting at 9 minutes 33 seconds and follow transcript9:33
Vemos que el nodo Clima tiene tres flechas saliendo desde él,
una para cada valor de la variable.
Play video starting at 9 minutes 40 seconds and follow transcript9:40
En cada caso se genera una tabla de datos distinta.
Aquí lo más probable es que se cumpla alguno de los criterios de detención
del algoritmo.
Recordemos que esos criterios se cumplen cuando tenemos
que todos los datos pertenecen a la misma clase o
cuando todos los datos tenían los mismos valores en sus atributos.
Play video starting at 10 minutes 1 second and follow transcript10:01
Si no se cumple ninguno de los criterios de detención.
tenemos que volver a elegir un nodo.
Play video starting at 10 minutes 7 seconds and follow transcript10:07
Afortunadamente solo nos queda una variable posible por lo tanto no nos
quedaría de otra, que poner el nodo que correspondería a esa variable.
En este caso Situación Económica.
Play video starting at 10 minutes 20 seconds and follow transcript10:20
Veamos la primera flecha posible.
Aquí vemos que no se está cumpliendo ninguno de los criterios de detención you
que las clases son distintas y además los valores en sus atributos también lo son.
Play video starting at 10 minutes 36 seconds and follow transcript10:36
Tenemos que elegir entonces el mejor nodo
dado que sólo queda la variable Situación Económica esa será la variable elegida.
Play video starting at 10 minutes 46 seconds and follow transcript10:46
Colocamos así la variable en nuestro árbol,
podemos ver que naturalmente después de la variable Situación Económica sí se cumplen
los criterios de detención you que nos queda solo una fila en cada brazo,
por lo tanto ponemos la clase que corresponde a cada fila.
Cuando la Situación Económica es mala, la clase que aparece es Casa
y cuando la Situación Económica es buena, la clase que aparece es Cine.
Play video starting at 11 minutes 15 seconds and follow transcript11:15
Vemos ahora que en el caso de que clima es Viento, se cumple uno de
los criterios de detención you que todos los casos están en la clase Cine.
Play video starting at 11 minutes 26 seconds and follow transcript11:26
Ponemos entonces una hoja con la clase Cine en ese caso.
Algo similar ocurre en el caso en que clima vale Lluvia.
Vemos que también se cumple uno de los criterios de detención,
de hecho se cumplen los dos.
¿Por qué?
Play video starting at 11 minutes 42 seconds and follow transcript11:42
Colocamos entonces una hoja con la clase Cine también en ese caso.
Play video starting at 11 minutes 49 seconds and follow transcript11:49
Nos queda ver qué ocurre en la rama en que el nodo Vive con sus padres, vale no.
La tabla de datos en esa situación se puede apreciar en la figura.
Play video starting at 12 minutes 0 seconds and follow transcript12:00
Vemos que no se cumple ninguno de los criterios de detención,
por lo tanto tenemos que elegir la mejor variable para ese caso.
Play video starting at 12 minutes 9 seconds and follow transcript12:09
Eso significa que tenemos que calcular la ganancia de información para
los atributos Clima y Situación Económica con la tabla de datos en pantalla.
Play video starting at 12 minutes 22 seconds and follow transcript12:22
Nuevamente tenemos que calcular la entropía inicial de la Clase.
Aquí hay dos filas en que la Clase vale Casa y una fila en que la Clase vale Cine,
por lo tanto la entropía se calcula con las proporciones dos tercios y un tercio,
el resultado 0.91.
Play video starting at 12 minutes 40 seconds and follow transcript12:40
Procedemos a calcular la ganancia de información de la variable Clima.
Eso requiere el cálculo de la entropía de la Clase para cada uno
de los valores de la variable Clima.
Aquí vemos que los valores que aparecen son Viento y Lluvia.
En el caso de Viento, la entropía es 0 y en el caso de Viento, la entropía es 1.
Play video starting at 13 minutes 2 seconds and follow transcript13:02
No olviden repasar por qué ocurre esta situación.
Play video starting at 13 minutes 7 seconds and follow transcript13:07
Como you sabemos, sacamos el promedio ponderado,
aplicamos la resta y nos da 0.2516.
Hacemos lo mismo para la variable Situación Económica.
Aquí las entropías de la Clase para cada valor de la variable
Situación Económica son,
0 en el caso de que la Situación Económica es buena y 1 en el caso en que es mala.
Play video starting at 13 minutes 33 seconds and follow transcript13:33
Sacando el promedio ponderado y aplicando la resta,
obtenemos el resultado en pantalla.
Play video starting at 13 minutes 43 seconds and follow transcript13:43
Vemos que la ganancia de información de la Situación Económica y el Clima
nos da el mismo valor.
Típicamente lo que se hace en este caso
es elegir una de las variables en forma aleatoria.
Play video starting at 13 minutes 55 seconds and follow transcript13:55
Supongamos que vamos a elegir entonces a la variable Situación Económica.
Play video starting at 14 minutes 3 seconds and follow transcript14:03
Finalmente el árbol queda como aparece en la diapositiva.
Play video starting at 14 minutes 7 seconds and follow transcript14:07
Los invito a chequear las hojas que agregamos y comprobar que son correctas.
Play video starting at 14 minutes 15 seconds and follow transcript14:15
En este video,
vimos un ejemplo completo de la construcción de un árbol de decisión.
Play video starting at 14 minutes 22 seconds and follow transcript14:22
Vimos que recursivamente se van repitiendo los
mismos pasos en cada etapa de la construcción del árbol.
Play video starting at 14 minutes 30 seconds and follow transcript14:30
No olvidar que en este ejemplo en particular no utilizamos Poda,
you que la finalidad era repasar el proceso de construcción desde
0.
Evaluación Semana 3
PUNTOS TOTALES DE 10
1.Pregunta 1
¿De qué tipo es el algoritmo de árbol de decisión?
1 punto
Es de tipo árbol
2.Pregunta 2
¿Cuál es la clasificación para el crédito de un cliente con buen historial e ingreso de $750 dólares?
1 punto
No se puede determinar
Depende de la situación
Aprobado
Rechazado
3.Pregunta 3
Usando la figura de la pregunta anterior, ¿cuál es la variable con mayor ganancia de información?
1 punto
Historial
Ingreso
Cliente
No se puede determinar
4.Pregunta 4
¿Cuál de estas aseveraciones se ajusta mejor al término de entropía para el algoritmo de clasificación?
1 punto
p*log(p)
5.Pregunta 5
¿Qué representa la figura a continuación?
1 punto
Muestra el valor de la entropía versus la proporción de elementos de una clase. Aquí estamos suponiendo que existen tres clases posibles
Muestra el valor de la entropía versus la proporción de elementos de una clase. Aquí estamos suponiendo que existen dos clases posibles
Muestra el valor de la ganancia versus la proporción de elementos de una clase. Aquí estamos suponiendo que existen tres clases
posibles
Muestra el valor de la ganancia versus la proporción de elementos de una clase. Aquí estamos suponiendo que existen dos clases posibles
6.Pregunta 6
¿Cómo se define la ganancia de información?
1 punto
La ganancia de información es la forma de elegir que variable elegir a la hora de separar en el árbol de decisión
p*log(p)
Mide el grado de homogeneidad de un conjunto de datos
7.Pregunta 7
Observe la siguiente tabla. ¿Cuál de las siguientes variables entrega una mayor ganancia de información?
2 puntos
Género
Edad
Rango Sueldo
8.Pregunta 8
¿Cuál/es es/son el/los principal/es problema/s de sobre entrenar o producir overfitting en nuestros algoritmos? Marque la/s alternativa/s
correcta/s.
2 puntos
El sobre entrenamiento haría que nuestro modelo se ajuste también a esos errores
Nuestro modelo se ajusta excelente a los datos de entrenamiento lo cual produce un mejor modelo en la práctica
MODELOS DE CLASIFICACIÓN.
INDICADORES DE RENDIMIENTO,
[MÚSICA] Hola,
bienvenidos a un nuevo video de ayudantía de nuestro curso de minería de datos.
En este video, veremos un ejemplo del algoritmo vecinos cercanos.
El objetivo principal de este video es aplicar el algoritmo que antes mencioné,
que se llama vecinos cercanos, sobre imágenes en escala de grises.
Estas imágenes contienen números del cero al nueve, hechos a mano, la idea es
crear un algoritmo capaz de reconocer o clasificar entre estos diez dígitos.
Primero que todo,
me gustaría recordar un poco de qué se trata el algoritmo de vecinos cercanos.
Como se vio hace un par de semanas, este consiste en colocar nuestros datos en un
espacio N-dimensional, donde N corresponde a la cantidad de variables que tenemos.
En este caso, tenemos 18 instancias en un espacio de dos dimensiones,
nueve son de la clase uno y nueve de la clase dos.
Para clasificar un dato nuevo, como se ve en pantalla, o una nueva instancia,
lo que hacemos es colocarlo en este espacio de dos dimensiones.
Luego, calculamos la distancia que existe entre este nuevo dato y los 18 anteriores.
Si usamos solo un vecino cercano,
nos quedamos con la clase del vecino que esté más cerca.
En este caso, el más cercano a nuestro dato es el que está con un círculo verde,
en pantalla, y corresponde a la clase uno.
Otro caso consistiría en usar más vecinos, como por ejemplo, siete.
En este caso, nuestro dato corresponderá al con mayor frecuencia.
Viendo nuevamente nuestro ejemplo en pantalla,
seis predicen que es de la clase uno y uno que es de la clase dos,
por lo que nuestro dato lo catalogamos como de la clase uno, al ser la mayoría.
Habiendo recordado de qué se trataba el algoritmo visto en clases,
veremos un ejemplo real, extraído de Kaggle.
Como les había mencionado anteriormente al inicio de este video,
utilizaremos una base de datos real,
la cual cuenta con imágenes en escala de grises con los valores del cero al nueve.
Nuestro clasificador debe ser capaz de ver estas imágenes y predecir cuál es el
valor de esta.
Como bien recordarán, una imagen consiste en varios píxeles y para usar el
algoritmo de vecinos cercanos se necesitan de N dimensiones.
En este caso, usaremos la cantidad total de píxeles como las variables para
el modelo, los cuales serían aproximadamente
O:784 píxeles, lo cual corresponde a 28 x 28.
Intuitivamente, lo que estamos haciendo es comparar pixel por pixel en las imágenes
que tenemos, y las que son parecidas deberían tener coloreado en la misma zona.
En este caso, por ejemplo, el cuatro de la izquierda es bien parecido al cuatro de la
derecha en varias partes de la imagen, lo cual, nuestro algoritmo
debe ser capaz de predecir y predecir correctamente que es el número cuatro.
Como les mencionamos anteriormente en este video, lo que intentaremos hacer o lo que
realizaremos es un algoritmo para reconocer dígitos en una imagen.
Para esto, primero que todo, bajaremos la base de datos,
utilizando la plataforma Kaggel.
La plataforma Kaggel, como se les mencionó la primera vez de ayudantía,
consiste en una plataforma donde podemos encontrar distintos data sets públicos,
y en la cual existen competencias donde grupos o grupos de personas
compiten por tener el mejor accuracy y el mejor modelo.
En este caso, trabajaremos con la base de datos llamada Digit Recognizer,
la cual puede ser descargada de forma gratuita,
lo único que necesitamos es una cuenta, la cual se puede crear de manera fácil.
Esta consiste de dos bases de datos, una de training y otra de testing,
pero para este ejercicio debido a que RapidMiner solo es capaz de
usar de 10.000 filas con la licencia gratuita,
usaremos solo el training de data set.
Lo descargamos, cosa que yo you lo tengo acá,
lo tengo you en mi computador y lo que
tenés que hacer es reducir el tamaño de este data set a solo 10.000 filas.
Una vez que tienen eso you preprocesado,
pasamos directamente a nuestra plataforma de RapidMiner.
Lo primero que haremos será agregar el dato,
es por esto nos que iremos a Add Data, My Computer.
Buscaremos el archivo para poder agregarlo.
[SONIDO] Apretamos en next y nuevamente en next, debido a que se procesó bien.
En esta parte, tenemos que formatear las columnas, esto es algo que no habían visto
en la primera videoayudantía, debido a que no era necesario la clasificación.
A RapidMiner debemos decirle cuál de estas columnas corresponde a la clase.
En este caso, la primera columna, la que tiene label, corresponde al número de la
imagen, es por esto que le cambiaremos el rol a la columna.
Change Role y pondremos el rol de label.
Además de esto, RapidMiner no es capaz de trabajar con integers,
que son números enteros, sino que trabaja con palabras, es decir,
tenemos que cambiar el tipo de la columna, en este caso, polinominal.
Apretamos nuevamente en next y la guardamos.
Yo you lo tengo guardado, debido a que se demora aproximadamente unos 30,
40 segundos en cargar.
Una vez que lo tengan cargado en su RapidMiner,
procederemos a realizar el algoritmo.
Primero que todo, moveremos la base de datos en Ambers a la
ventana de procesos y agregaremos los siguientes operadores.
El primer operador será Normalize, el cual nos permite poder normalizar cada columna.
Si bien estas columnas se encuentran entre cero y uno, podríamos decir que you está
normalizado para el tema de la distancia, siempre es bueno normalizar.
Una vez normalizada nuestra columna, procederemos a crear un
training set y un testing set, para esto utilizaremos el bloque llamado Split It,
el cual nos permite dividir nuestra base de datos en dos.
Y vemos en los parámetros y apretaremos en Edit Enumeration.
Agregaremos una entrada, le pondremos 70% y 30% para el testing.
Una vez agregado nuestro Split Data, procederemos a agregar al operador y
también a la métrica de evaluación.
El operador se llama K-NN, de vecinos cercanos, y se encuentra en verde.
Si se fijan,
RapidMiner automáticamente tiene distintos colores para las distintas etapas.
Los colores en verde corresponden a los modelos,
los colores en un morado más claro corresponden al
preprocesamiento y los morados corresponden a los datos mismos.
Conectamos la salida exa con la entrada exa de Split Data y el par con la
entrada de atrás.
Esto, una vez que tenemos el modelo K-NN,
este bloque nos entrega un modelo, Mod modelo.
Incluso si hacen click derecho y seleccionan en Show brighter info,
les va a salir que es model.
Agregamos, tenemos que aplicar nuestro modelo,
para esto usaremos el bloque Apply Model,
el cual nos permite poder agregar este modelo en datos no antes vistos.
Conectamos la salida mod con la entrada mod y la salida par,
que corresponde a nuestro testing con nuestra entrada de Apply Model.
Este operador lo que nos generará es una nueva base de datos,
la misma que teníamos anteriormente con una columna extra,
que es la columna predecida para cada una de estas filas.
Por último, agregaremos el bloque llamado Performance,
el cual nos permitirá poder medir el performance de nuestro clasificador.
Conectamos la salida lab con la entrada lab y la salida per a la entrada res.
Una vez que tenemos todo conectado, podemos proceder a apretar Run.
Es importante recalcar que en estos momentos estamos usando un vecino cercano,
y cambiaremos la distancia a una distancia euclidiana.
Cuando le aprieten Run se va a demorar un poco más,
debido a que estamos trabajando con 30 megabytes.
Es por esto que veremos distintos resultados,
que you los tengo preprocesados.
En esta segunda parte del video, lo que les quiero mostrar es que los distintos
parámetros pueden ir cambiando y también el Performance de nuestro modelo.
En este caso, vamos a usar dos medidas de distancia,
la distancia euclidiana y la distancia Manhattan.
Para esto nos vamos al operador K-NN,
el cual cuenta con estos mismos parámetros y vamos a ir modificando.
Lo que vamos a intentar es modificar el parámetro K,
que es la cantidad de vecinos cercanos, vamos a poner uno, tres y siete.
Y vamos a cambiar también la medida de distancia, Numerical measures,
vamos a probar la medida de Manhattan y la distancia euclidiana.
Como bien les mencioné anteriormente,
estos resultados pueden tomar su tiempo dependiendo del computador, es por esto
que yo you los tengo preprocesados y es a lo que pasaremos a continuación.
Como pueden ver, acá
encuentran las dos matrices de confusión, tanto en la distancia euclidiana
con un vecino cercano, como en la distancia Manhattan con un vecino cercano.
En ambos casos vemos que el accuracy promedio de la distancia Manhattan con un
vecino cercano es superior a la distancia euclidiana.
Pero aún así ambos clasificadores fueron bastante buenos.
Usando tres vecinos cercanos, vemos claramente, nuevamente que la distancia
Manhattan mejora el performance, superando aún más a la distancia euclidiana.
Y por último, con siete vecinos cercanos,
nuevamente la distancia Manhattan también es superior a la distancia euclidiana.
Como en una matriz de confusión, las filas,
tenemos el Precision y tenemos el Recall.
En este video, vimos cómo aplicar el algoritmo de vecinos cercanos,
usando el programa de RapidMiner.
Logramos clasificar correctamente las imágenes de dígitos,
con un rendimiento superior al 90%.
Además, usamos una variante de algoritmo, como lo es la distancia utilizada,
esta última puede ser crítica para el rendimiento de nuestro clasificador
y es recomendable probar más de una que haga sentido con el problema.
Eso ha sido todo por hoy, y espero verlos pronto en el siguiente video,
en donde aplicaremos el algoritmo de árbol de decisión.
[AUDIO_EN_BLANCO]
PUNTOS TOTALES DE 10
1.Pregunta 1 mal
¿Por qué se tiene que separar el set de datos en grupos para entrenar y para testear?
1 punto
2.Pregunta 2 mal
¿En qué consiste el método “Hold Out”?
1 punto
Entrenar un modelo con una porción de los datos y probarlo con datos que el modelo no ha visto
Separar el set de entrenamiento en diez partes y entrenar en cada parte por separado
3.Pregunta 3
¿Por qué es bueno realizar muestreo estratificado a la hora de separar los sets de entrenamiento y testeo?
2 puntos
4.Pregunta 4 mal
¿Cuál es la ventaja del método “K-Fold Cross Validation”?
1 punto
Entrenar un mismo modelo en distintas particiones y así tener resultados más robustos
Es el método más rápido para entrenar un modelo
5.Pregunta 5 mal
Para una matriz de confusión de 3×3 no normalizada, ¿qué representa el elemento 2, 1 (fila 2, columna 1)?
Real
1 2 3
1
Predecido 2 X
3
1 punto
El recall de la clase 2
6.Pregunta 6
¿Qué es el recall de la clase "i"?
1 punto
De los casos en que el clasificador dijo que era de la clase "i", ¿cuántos realmente eran?
De los elementos que el clasificador tenía que detectar de la clase “i”, cuántos realmente detectó
Número de casos en que el clasificador generó una predicción correcta partido por el total de casos
De los elementos que el clasificador tenía que detectar de la clase “j”, cuántos realmente detectó
7.Pregunta 7
¿Qué significa la precision de la clase "i"?
1 punto
Número de casos en que el clasificador generó una predicción correcta partido por el total de casos
De los casos en que el clasificador dijo que era de la clase “i”, ¿cuántos realmente eran?
De los elementos que el clasificador tenía que detectar de la clase “i”, ¿cuántos realmente detectó?
De los casos en que el clasificador dijo que era de la clase “j”, ¿cuántos realmente eran?
8.Pregunta 8
Si tenemos un modelo de predicción de cáncer, donde si decimos que la persona tiene cáncer es porque realmente lo tiene. Equivocarnos
en el diagnóstico puede ser muy perjudicial para la clínica por decir cosas que no corresponden. En cambio, si una persona tenía cancer y
no se detectó, no es de suma importancia debido a que se realizan otras pruebas adicionales obligatorias. ¿Nos gustaría tener un
mejor recall o precision?
2 puntos
Precision
Recall
algoritmos de clustering.
algoritmo K-means.
Seleccione la alternativa verdadera con respecto a la comparación entre algoritmos de clustering y de clasificación
2 puntos
Clustering es un método no supervisado y los algoritmos de clasificación son supervisados
2.Pregunta 2
¿Cuándo se detiene la ejecución del algoritmo K-Means?
1 punto
3.Pregunta 3
¿Por qué conviene normalizar las variables antes de realizar K-Means?
1 punto
Para que variables con rangos mayores no dominen frente a variables con rangos menores
4.Pregunta 4
¿Cuál es la diferencia en la cantidad de clusters iniciales en K-Means y en el clustering jerárquico?
1 punto
5.Pregunta 5
¿Para qué sirve un dendrograma?
Representación gráfica la cual permite apreciar la agrupación de los datos por niveles.
6.Pregunta 6
¿Qué define la forma de los clusters en el algoritmo DBSCAN?
1 punto
7.Pregunta 7
¿Cuál es la ventaja más importante del algoritmo DBSCAN?
1 punto