Está en la página 1de 46

Introducción

Aprendizaje Supervisado
Aprendizaje No Supervisado
Taller

IN7581 - Taller de Advanced Analytics


Clase 6 - Modelación, Evaluación y Visualización de Resultados I

Otoño 2023

Víctor Hernández M.

Universidad of Chile
Departamento de Ingeniería Industrial
http://www.wic.cl/ . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 1/46
victor.hernandez@wic.uchile.cl
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Modelación y Machine Learning
Aprendizaje No Supervisado Tipos de Aprendizaje
Taller

Introducción

1 Introducción
Modelación y Machine Learning
Tipos de Aprendizaje
2 Aprendizaje Supervisado
Regresión
Clasificación
3 Aprendizaje No Supervisado
Clustering
4 Taller
Objetivos y Entregables
Tarea
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 2/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Modelación y Machine Learning
Aprendizaje No Supervisado Tipos de Aprendizaje
Taller

Introducción
Modelación

Como concepto general, modelar (en un contexto matemático) significa realizar


una abstracción en forma de una expresión matemática que describa algún
fenómeno real observado.
En el contexto del Data Mining, lo que haremos ahora será ajustar un modelo a
través de un algoritmo previamente implementado.
Este algoritmo viene de un conjunto de algoritmos que nos habilitan a desarrollar
modelos que mejoran su desempeño a partir de la experiencia. Estos corresponden
a algoritmos de Machine Learning.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 3/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Modelación y Machine Learning
Aprendizaje No Supervisado Tipos de Aprendizaje
Taller

Introducción
Machine Learning

¿Qué es?
Es una rama de la Inteligencia Artificial, que se enfoca en utilizar datos y
algoritmos para replicar la forma en que los humanos aprendemos, gradualmente
mejorando su exactitud. (Fuente: IBM)

Existen distintos tipos de aprendizajes.


De la mano de o anterior, existen diversos modelos, cada uno con sus
parámetros e hiperparámetros.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 4/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Modelación y Machine Learning
Aprendizaje No Supervisado Tipos de Aprendizaje
Taller

Introducción
Parámetros vs Hiperparámetros

Parámetros
Valores internos propios del modelo, obtenidos a través del ajuste del mismo.
Suelen ser afectados por los datos y los hiperparámetros definidos. Ej. coeficientes
en una regresión lineal, centroides descubiertos en un clustering k-means.

Hiperparámetros
Valores definidos por el humano experto, los cuales controlan el algoritmo de
aprendizaje y por lo mismo, inciden en los parámetros obtenidos en el proceso. Ej.
k en un algoritmo k-Means, ramas en un Árbol de Decisión, profundidad de árboles
en Random Forests, función de kernel a utilizar en un SVM no lineal.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 5/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Modelación y Machine Learning
Aprendizaje No Supervisado Tipos de Aprendizaje
Taller

Tipos de Aprendizaje

Aprendizaje Supervisado
El algoritmo ajusta el modelo a partir de casos previamente asociados a un dato de
salida conocido. Es decir, se alimenta de pares de entradas y salidas con el objetivo
de predecir estas últimas.

Aprendizaje No Supervisado
El algoritmo no parte desde una base con salidas conocidas, sino que descubre
patrones a partir de los datos de entrada según un criterio definido.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 6/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Modelación y Machine Learning
Aprendizaje No Supervisado Tipos de Aprendizaje
Taller

Tipos de Aprendizaje
Supervisado - Problemas

Regresión
Se caracteriza la relación entre un conjunto de predictores o variables
independientes y una variable dependiente u objetivo. El resultado de un modelo
de regresión es la predicción de un valor numérico.

Clasificación
Se asocia un vector de atributos (también, las variables independientes) a una
clase determinada. El resultado de un modelo de clasificación es la predicción de
la clase asociada a un vector determinado. Una clasificación puede ser a partir de
dos clases (binaria) o más de dos clases (multiclase).
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 7/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Modelación y Machine Learning
Aprendizaje No Supervisado Tipos de Aprendizaje
Taller

Tipos de Aprendizaje
No Supervisado - Problemas

Clustering
Corresponde a la tarea de agrupar casos (caracterizados por sus respectivos
atributos) en distintos conjuntos o clusters, según un criterio basado en
similitudes o diferencias.

Asociación
Corresponde a la tarea de asociar casos según algún criterio que permita establecer
relaciones entre estos.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 8/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Introducción

1 Introducción
Modelación y Machine Learning
Tipos de Aprendizaje
2 Aprendizaje Supervisado
Regresión
Clasificación
3 Aprendizaje No Supervisado
Clustering
4 Taller
Objetivos y Entregables
Tarea
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 9/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Regresión
Regresión Lineal

¿De qué se trata?


Se modela una relación lineal entre los predictores y la variable objetivo de la siguiente forma:

yi = β0 + β1 x1 + β2 x2 + ... + βn xn

Donde yi corresponde a la variable objetivo, xi son los distintos predictores, βi son los coeficientes
del predictor respectivo y β0 es el intercepto.

Dependiendo de la cantidad de predictores utilizados, se pueden clasificar en


una regresión lineal simple (un predictor) o múltiple (dos o más).
Considera supuestos importantes:
Que existe una relación lineal entre los predictores y la variable objetivo.
Que los predictores son independientes entre ellos.
Que los residuos no están correlacionados y que hay homocedasticidad
. . . . . . . . . . . . . .entre
. . ellos.
. . . .
10/46
. . . . . . . . . . . . . . . . . . . .

Víctor Hernández M. Taller de Advanced Analytics


Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Regresión
Regresión Lineal - Caso polinomial

Es posible formar una regresión lineal polinomial pero univariada, a través de


un polinomio de grado mayor a 1:

yi = β0 + β1 x + β2 x2 + ... + βn xn

Para el caso multivariado, también es posible pero se incluye un término


nuevo por cada cruce entre variables. Por ejemplo, para un caso de 2 variables
en un polinomio grado 2:

yi = β0 + β1 x1 + β2 x2 + β3 x1 x2 + β4 x21 + β5 x22

Debe usarse con cuidado. Es muy fácil sobreajustarse y en función de la


cantidad de variables original y el grado considerado, la cantidad de variables
resultantes podría aumentar dramáticamente. .
.
.
.
.
. . . . .
. . . .
. . . .
. . . .
. . . .
. . . . .
.
.
.
.
.
.
.
.
.
11/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Regresión
Regularización

La regresión lineal estima sus coeficientes minimizando la diferencia entre los valores observados y
estimados. Esto se conoce como mínimos cuadrados ordinarios y puede expresarse como la
siguiente función de costo:


n
Costo = (ŷ − y)2 = ( βi xi − y)2
i=0

Para evitar el sobreajuste que pudiese ser causado por la magnitud de los coeficientes o por la
cantidad de predictores, se aplica el concepto de regularización, que consiste en aplicar una
penalización sobre la magnitud de los coeficientes:


n
Costo = ( βi xi − y)2 + λP
i=0

Donde P es el término de regularización y λ es un hiperparámetro que permite ajustarlo.


. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 12/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Regresión
Regresión Ridge

¿De qué se trata?


Es una regresión lineal con un término de regularización de tipo norma L2 , que
consiste en la norma euclideana del vector de coeficientes.

Es útil para los casos en los que estamos con una cantidad grande de
estimadores.
Tiene una única solución.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 13/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Regresión
LASSO (Least Absolute Shrinkage and Selection Operator)

¿De qué se trata?


Es una regresión lineal con un término de regularización de tipo norma L1 , que
consiste en la suma de los valores absolutos de cada coeficiente.

Tiene más de una solución (la función valor absoluto no es diferenciable en 0)


Entrega una solución dispersa, en el sentido de que algunos coeficientes
terminarán siendo igual a cero.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 14/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Regresión
Elastic-Net

¿De qué se trata?


Es una regresión lineal que utiliza los términos de regularización L1 y L2 ,
combinados y ponderados por un hiperparámetro ρ.

Es útil cuando hay varios estimadores que están correlacionados unos con
otros.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 15/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Regresión
Evaluación

Existen diversas métricas para evaluar una regresión:


Puntaje de Varianza Explicada
Error absoluto medio
Error cuadrado medio
Coeficiente R2

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 16/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Regresión
Evaluación

Varianza explicada
Var{y − ŷ}
EV(y, ŷ) = 1 −
VAR{y}
Varía entre 0 y 1, donde 1 es el mejor valor.

Error absoluto medio


1∑
n−1
MAE(y, ŷ) = |yi − ŷi |
n
i=0

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 17/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Regresión
Evaluación

Error cuadrado medio


1∑
n−1
MSE(y, ŷ) = (yi − ŷi )2
n
i=0

Coeficiente R2
∑n 2
2 i=1 (yi − ŷi )
R (y, ŷ) = ∑n 1 ∑ n
i=1 (yi − n
2
i=1 yi )
Representa la proporción de varianza que está siendo explicada por las variables independientes
del modelo. Es un indicador de la calidad del ajuste, midiendo qué tan bien un caso nuevo podrá
ser predicho por el modelo. El mejor puntaje posible es 1.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 18/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
Tipos

Existe una gran diversidad de modelos de clasificación. Destacaremos los más


utilizados dentro de los siguientes tipos:
Modelos lineales
Regresión Logística
Support Vector Machines (SVM)
Modelos de árboles
Árboles de decisión
Modelos probabilísticos
Naive Bayes
Lazy learners
K-Nearest Neighbors
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 19/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
Regresión Logística

¿De qué se trata?


A pesar de su nombre, la Regresión Logística es un modelo de clasificación, ya
que entrega como resultado una variable dependiente binaria, también conocida
como logit. Esto se da ya que en este tipo de regresión, la respuesta no se modela
directamente sino que en la forma de la probabilidad de pertenecer a una categoría
específica.

Puede ser de distintos tipos, dependiendo de la naturaleza de su variable


dependiente:
Binomial: Cuando su variable dependiente tiene solo dos valores posibles.
Multinomial: Cuando su variable dependiente tiene más de dos valores
posibles. .
.
.
.
.
. . . . .
. . . .
. . . .
. . . .
. . . .
. . . . .
.
.
.
.
.
.
.
.
.
20/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
Support Vector Machines

¿De qué se trata?


Considerando un caso con clases linealmente separables, lo que se busca es encontrar un
hiperplano que maximice las distancias entre las clases. Para encontrar los márgenes que
maximizan estas distancias y que permiten encontrar este hiperplano, el algoritmo utiliza algunos
casos durante su entrenamiento. Estos casos corresponden a los support vectors.

Es efectivo en espacios con alta dimensionalidad.


Podría ser efectivo en casos donde la cantidad de dimensiones es mayor a la de casos.
Si la cantidad de dimensiones es demasiado grande respecto a la cantidad de casos, podría
sobreajustarse. Para evitarlo, podría optarse por una versión no lineal usando funciones de
kernel y considerando un término de regularización.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 21/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
Support Vector Machines - Casos no lineales

Cuando los datos no son linealmente separables, el hiperplano que maximiza las
distancias entre clases no existe. En estos casos, SVM cuenta con las siguientes
alternativas:
Soft-margin SVM
Puede haber casos que crucen los márgenes definidos por los support vectors. En ese caso, se
puede incluir un término de error que caracteriza la distancia entre estos casos y su margen
respectivo, buscando además de maximizar la distancia entre los márgenes y el hiperplano,
minimizar el total de errores presente.

SVM no lineal
Se agrega una función de kernel que permita representar de forma conveniente un mapeo de los
datos de entrada originales a un espacio dimensional más grande, en el que los distintos casos sí
sean linealmente separables. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 22/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
Árboles de decisión

¿De qué se trata?


Es una estructura de tipo árbol (con nodos y ramas) donde cada nodo interno representa una
prueba lógica sobre un atributo, cada rama representa el resultado de esta prueba lógica y cada
nodo terminal u hoja representa una clase.

Los algoritmos más clásicos para construirlos son ID3 y CART, donde el árbol se construye
con un enfoque top-down recursivo.
El algoritmo itera sobre 3 parámetros: Una partición de datos, una lista de atributos y un
método heurístico para escoger el atributo que mejor discrimina la partición de datos dadas
las clases. Las particiones se van dividiendo dado el criterio del método heurístico hasta que
una partición es pura (de una única clase).
Métodos utilizados: Information Gain, Gain Ratio, Gini Index.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 23/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
Naive Bayes

¿De qué se trata?


Modelo probabilístico basado en el Teorema de Bayes:

P(X|Ci )P(Ci )
P(Ci |X) =
P(X)

Donde a partir de un set de entrenamiento con vectores de n-dimensiones


X = (x1 , x2 , ..., xn ) y m clases posibles C1 , C2 , ..., Cm , el clasificador dirá que un caso
X pertenece a la clase cuya probabilidad a posteriori sea la mayor entre todas las
clases. Es decir:
P(Ci |X) > P(Cj |X) con 1 ≤ j ≤ m, j ̸= i
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 24/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
Naive Bayes

¿De qué se trata? - Continuación


Dado lo anterior, se debe maximizar P(Ci |X), lo que significa maximizar
P(X|Ci )P(Ci ) ya que P(X) es constante. También se suele asumir que las clases
son igualmente probables, por lo que P(Ci ) (conocido como prior) también es
constante y todo se reduce a maximizar P(X|Ci )
Entonces, ¿por qué Naive?. Pues, este modelo asume hay independencia
condicional entre clases, por lo que probabilidad condicional (o verosimilitud)
se puede calcular como:
∏n
P(X|Ci ) = P(xk |Ci )
k=1
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 25/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
K-nearest Neighbors

A diferencia de los modelos vistos hasta ahora, que aprenden a partir de un set de
datos de entrenamiento y ajustan un modelo antes de recibir nuevos datos y
realizar predicciones, un modelo lazy learner solo se ajusta cuando va a realizar
una predicción y no antes. Es decir, trabaja más durante la clasificación que
durante su entrenamiento. También se les conoce como instance-based learners.
Un ejemplo de esto es K-nearest Neighbors.
¿De qué se trata?
A partir de un set de entrenamiento n-dimensional, cuando se presenta un caso
nuevo, este modelo busca en el espacio de entrenamiento los k casos más cercanos a
este, definiendo esta cercanía mediante una métrica de similitud. Entonces, al caso
nuevo se le asigna la clase más común entre los k casos más cercanos.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 26/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
K-nearest Neighbors

Puede ser recomendable escalar los atributos antes de usar este algoritmo,
para prevenir que atributos con rangos demasiado grandes influyan más que
los de rangos pequeños.
También se puede utilizar para entregar valores numéricos, entregando la
media de los k vecinos cercanos.
Para encontrar un buen k, se debe experimentar y escoger uno que minimice el
error.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 27/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
Evaluación

¿Cómo podemos medir el desempeño de un clasificador?


Considere un clasificador binario:
Casos positivos: Casos de la principal clase de interés.
Casos negativos: Todos los demás.
Al probar el clasificador utilizando nuestro set de pruebas con clases
conocidas, podemos obtener los siguientes valores:
Verdaderos positivos (TP)
Verdaderos negativos (TN)
Falsos positivos (FP)
Falsos negativos (FN)
Estos términos pueden resumirse en una matriz de confusión.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 28/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
Evaluación - Matriz de Confusión

Ejemplo: Si tenemos dos clases:

SÍ (predicción) NO (predicción) Total


SÍ (real) TP FN P
NO (real) FP TN N
Total P’ N’ P+N
TP+TN
Accuracy = P+N
FP+FN
Errorrate = P+N
Sensitivity = TP
P
Specificity = TN
N
TP
Precision = TP+FP
TP
Recall = TP+FN = TP
P . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 29/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
Evaluación - Métricas de Desempeño

Accuracy
El porcentaje del set de pruebas que fue correctamente clasificado

Error rate (Tasa de clasificación errónea)


1 − Accuracy

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 30/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
Evaluación - Métricas de Desempeño

Considere un caso de clases desbalanceadas donde la clase de interés principal


es rara.
Ejemplo
e.g. Datos médicos, donde la clase cáncer es rara. Podemos tener un Accuracy del
97%, pero si cáncer = sí es solo el 3% del set, esto podría no ser aceptable, ya que
el clasificador solo podría etiquetar correctamente los casos sin cáncer.

Sensitivity
Tasa de reconocimiento de verdaderos positivos.

Specificity
Tasa de reconocimiento de verdaderos negativos. .
.
.
.
.
. . . . .
. . . .
. . . .
. . . .
. . . .
. . . . .
.
.
.
.
.
.
.
.
.
31/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
Evaluación - Métricas de Desempeño

Precision
Una medida de qué porcentaje de los casos etiquetados como positivos en verdad lo
son.

Recall
Una medida de qué porcentaje de los casos positivos son etiquetados como tal. Es
lo mismo que Sensitivity.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 32/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller

Modelos de Clasificación
Evaluación - Métricas de Desempeño

Un puntaje de Precision perfecto para una clase C significa que cada caso que
el clasificador etiquetó como C de verdad pertenece a C. Sin embargo, no dice
nada respecto a los casos que eran C y que el clasificador etiquetó mal (es
decir, respecto a los FN).
Un puntaje de Recall perfecto para una clase significa que cada item de clase
C fue etiquetado como tal, pero no dice nada respecto a otras tuplas que
fueron etiquetadas mal como C (es decir, respecto a los FP)
Hay una forma alternativa de usar Precision y Recall:

2 ∗ precision ∗ recall
F=
precision + recall
Que corresponde a F-measure o F-score. Puede variar entre 0 y 1. .
.
.
.
.
. . . . .
. . . .
. . . .
. . . .
. . . .
. . . . .
.
.
.
.
.
.
.
.
.
33/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado
Clustering
Aprendizaje No Supervisado
Taller

Introducción

1 Introducción
Modelación y Machine Learning
Tipos de Aprendizaje
2 Aprendizaje Supervisado
Regresión
Clasificación
3 Aprendizaje No Supervisado
Clustering
4 Taller
Objetivos y Entregables
Tarea
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 34/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado
Clustering
Aprendizaje No Supervisado
Taller

Clustering
Definición

Es el proceso de agrupar casos con características similares según un criterio o


medida de similitud.
Como resultado entrega clusters o conjuntos de objetos abstractos, muy similares
a otros contenidos dentro de un mismo cluster, pero diferentes a aquellos
contenidos en un cluster diferente.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 35/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado
Clustering
Aprendizaje No Supervisado
Taller

Clustering
Tipos de clustering

Existen distintos tipos de clustering:


Basado en particiones: Se generan distintas particiones y se evalúan según
un criterio.
Jerárquico: Se genera una descomposición jerárquica y se evalúa según un
criterio. Puede ser Aglomerativo o Divisivo
Basado en densidades: Se modelan los clusters considerando regiones
densas en el espacio que caracterizan los datos, separados por regiones
dispersas. Puede ser útil para descubrir clusters sin una forma esférica.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 36/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado
Clustering
Aprendizaje No Supervisado
Taller

Clustering
Basado en particiones - K-Means

¿De qué se trata?


Algoritmo iterativo para obtener clusters a partir de un conjunto de k centroides.
Inicialmente son casos aleatorios dentro del set de datos. En cada iteración se
minimiza la distancia a cada centroide para definir la pertenencia de cada cluster y
se recalculan los centroide utilizando la media de sus puntos respectivos. Si no hay
cambios entre iteraciones, el algoritmo finaliza.

Es susceptible a outliers
Tiende a encontrar óptimos locales, dependiendo de los centroides iniciales,
por lo que sería recomendable correrlo varias veces.
Asume que los clusters son esféricos. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 37/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado
Clustering
Aprendizaje No Supervisado
Taller

Clustering
Basado en particiones - Otras alternativas

K-Medoids
Método que utiliza medoids como centroides en lugar de la media. El medoid es
el objeto más central ubicado dentro del cluster. Es menos susceptible a outliers.

K-Modes
Método que permite realizar clustering cuando los atributos son categóricos.

K-Prototypes
Método que permite realizar clustering cuando se tiene atributos numéricos y
categóricos.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 38/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado
Clustering
Aprendizaje No Supervisado
Taller

Clustering
Evaluación

Existen dos formas principales para evaluar un proceso de clustering:


Método del codo
Heurística calculada a partir de la disimilitud agregada o distorsión, que
equivale a la suma de las distancias cuadradas entre cada caso y su distancia al
centroide del cluster. Se grafican para distintos valores de k y se escoge aquél en el
que la disminución de la distorsión comienza a atenuarse.

El único problema es que este método se considera una especie de


aproximación o regla del pulgar. Necesitamos algo más válido.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 39/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado
Clustering
Aprendizaje No Supervisado
Taller

Clustering
Evaluación

Coeficiente de Silueta
Medida para evaluar qué tan separados están los clusters unos de otros y qué tan compactos son.
Se obtiene calculando para cada caso:
∑ ′
o′ ∈Ci ,o̸=o′ dist(o, o )
a(o) =
|Ci | − 1

o′ ∈Cj dist(o, o′ )
b(o) = minCj ,1≤j≤k,j̸=i
|Cj |
b(o) − a(o)
s(o) =
max(a(o), b(o))
Donde a(o) es la distancia promedio entre o y todos los otros o′ que pertenecen al mismo cluster,
b(o) la mínima distancia promedio entre o y todos los clusters a los que no pertenece.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 40/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado
Clustering
Aprendizaje No Supervisado
Taller

Clustering
Evaluación

El valor del Coeficiente de Silueta (s(o)) varía entre −1 y 1.


a(o) representa lo compacto que es el cluster al que o pertenece. Entre más
pequeño, más compacto.
b(o) representa lo separado que está o de los otros clusters. Entre más grande,
más separado.
Entonces, cuando s(o) se acerca a 1, el cluster es más compacto y más alejado
de los otros. En cambio, cuando se acerca a −1, estamos ante un cluster de
baja calidad.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 41/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado
Clustering
Aprendizaje No Supervisado
Taller

Clustering
Interpretación

Es necesario realizar un Análisis Exploratorio sobre los datos de cada cluster,


para interpretar estos resultados no solo desde una perspectiva técnica sino
que también del negocio.
Algunas preguntas útiles pueden ser:
Primero, es fundamental entender qué es lo que contiene cada cluster.
¿Productos? ¿Clientes? ¿Transacciones?
¿Qué características en común tienen los elementos de cada cluster?
¿Qué diferencias tienen?
¿Hay algún cluster que sea más importante que otro de detectar, respecto al
contexto del negocio?

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 42/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Objetivos y Entregables
Aprendizaje No Supervisado Tarea
Taller

Introducción

1 Introducción
Modelación y Machine Learning
Tipos de Aprendizaje
2 Aprendizaje Supervisado
Regresión
Clasificación
3 Aprendizaje No Supervisado
Clustering
4 Taller
Objetivos y Entregables
Tarea
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 43/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Objetivos y Entregables
Aprendizaje No Supervisado Tarea
Taller

Taller
Desafío 4

Ajustar varios modelos asociados al problema de Machine Learning que deben


resolver en el contexto de sus proyectos

¿Qué se espera como mínimo?


Para cada uno de sus dos datasets resultantes del Desafío 2 (con el paso de Preparación
agregado) y Desafío 3, escoger por lo menos 3 modelos de Machine Learning asociados al
problema.
Ajustar los modelos a sus datos.
Evaluar e Interpretar los resultados de cada modelo utilizando la herramienta
correspondiente.

Entregable
Jupyter Notebook
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 44/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Objetivos y Entregables
Aprendizaje No Supervisado Tarea
Taller

Taller
Presentación Parcial - Próxima clase

Presentación parcial

¿Qué se espera como mínimo?


Preparar una presentación de 15 minutos (máximo) donde exponga el proceso completo
seguido en su proyecto. Para esto, no necesita preparar material adicional al/los
Jupyter Notebook(s) en el/los que ha trabajado hasta ahora.
La presentación debe abordar los siguientes puntos como mínimo:
Descripción del proyecto (contexto y objetivo)
Análisis Exploratorio de Datos
Feature Engineering
Modelación
Evaluación de Resultados
Conclusiones
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 45/46
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Objetivos y Entregables
Aprendizaje No Supervisado Tarea
Taller

Taller
Tarea

Leer documentación de scikit-learn asociada a los modelos que pretende aplicar

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 46/46
Víctor Hernández M. Taller de Advanced Analytics

También podría gustarte