IN7581 - Taller de Advanced Analytics: Clase 6 - Modelación, Evaluación y Visualización de Resultados I

Introducción
Aprendizaje Supervisado
Aprendizaje No Supervisado
Taller
IN7581 - Taller de Advanced Analytics

Clase 6 - Modelación, Evaluación y Visualización de Resultados I
Otoño 2023
Víctor Hernández M.
Universidad of Chile
Departamento de Ingeniería Industrial
http://www.wic.cl/ . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 1/46
victor.hernandez@wic.uchile.cl
Víctor Hernández M. Taller de Advanced Analytics
Introducción
Aprendizaje Supervisado Modelación y Machine Learning
Aprendizaje No Supervisado Tipos de Aprendizaje
Taller
Introducción
1 Introducción
Modelación y Machine Learning
Tipos de Aprendizaje
2 Aprendizaje Supervisado
Regresión
Clasificación
3 Aprendizaje No Supervisado
Clustering
4 Taller
Objetivos y Entregables
Tarea
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 2/46
Introducción
Taller
Introducción
Modelación
Como concepto general, modelar (en un contexto matemático) significa realizar

una abstracción en forma de una expresión matemática que describa algún
fenómeno real observado.
En el contexto del Data Mining, lo que haremos ahora será ajustar un modelo a
través de un algoritmo previamente implementado.
Este algoritmo viene de un conjunto de algoritmos que nos habilitan a desarrollar
modelos que mejoran su desempeño a partir de la experiencia. Estos corresponden
a algoritmos de Machine Learning.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 3/46
Introducción
Taller
Introducción
Machine Learning
¿Qué es?
Es una rama de la Inteligencia Artificial, que se enfoca en utilizar datos y
algoritmos para replicar la forma en que los humanos aprendemos, gradualmente
mejorando su exactitud. (Fuente: IBM)
Existen distintos tipos de aprendizajes.

De la mano de o anterior, existen diversos modelos, cada uno con sus
parámetros e hiperparámetros.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 4/46
Introducción
Taller
Introducción
Parámetros vs Hiperparámetros
Parámetros
Valores internos propios del modelo, obtenidos a través del ajuste del mismo.
Suelen ser afectados por los datos y los hiperparámetros definidos. Ej. coeficientes
en una regresión lineal, centroides descubiertos en un clustering k-means.
Hiperparámetros
Valores definidos por el humano experto, los cuales controlan el algoritmo de
aprendizaje y por lo mismo, inciden en los parámetros obtenidos en el proceso. Ej.
k en un algoritmo k-Means, ramas en un Árbol de Decisión, profundidad de árboles
en Random Forests, función de kernel a utilizar en un SVM no lineal.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 5/46
Introducción
Taller
El algoritmo ajusta el modelo a partir de casos previamente asociados a un dato de
salida conocido. Es decir, se alimenta de pares de entradas y salidas con el objetivo
de predecir estas últimas.
El algoritmo no parte desde una base con salidas conocidas, sino que descubre
patrones a partir de los datos de entrada según un criterio definido.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 6/46
Introducción
Taller
Supervisado - Problemas
Regresión
Se caracteriza la relación entre un conjunto de predictores o variables
independientes y una variable dependiente u objetivo. El resultado de un modelo
de regresión es la predicción de un valor numérico.
Clasificación
Se asocia un vector de atributos (también, las variables independientes) a una
clase determinada. El resultado de un modelo de clasificación es la predicción de
la clase asociada a un vector determinado. Una clasificación puede ser a partir de
dos clases (binaria) o más de dos clases (multiclase).
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 7/46
Introducción
Taller
No Supervisado - Problemas
Clustering
Corresponde a la tarea de agrupar casos (caracterizados por sus respectivos
atributos) en distintos conjuntos o clusters, según un criterio basado en
similitudes o diferencias.
Asociación
Corresponde a la tarea de asociar casos según algún criterio que permita establecer
relaciones entre estos.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 8/46
Introducción
Aprendizaje Supervisado Regresión
Aprendizaje No Supervisado Clasificación
Taller
Introducción
1 Introducción
Regresión
Clasificación
Clustering
4 Taller
Tarea
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 9/46
Introducción
Taller
Modelos de Regresión
Regresión Lineal
¿De qué se trata?

Se modela una relación lineal entre los predictores y la variable objetivo de la siguiente forma:
yi = β0 + β1 x1 + β2 x2 + ... + βn xn
Donde yi corresponde a la variable objetivo, xi son los distintos predictores, βi son los coeficientes
del predictor respectivo y β0 es el intercepto.
Dependiendo de la cantidad de predictores utilizados, se pueden clasificar en

una regresión lineal simple (un predictor) o múltiple (dos o más).
Considera supuestos importantes:
Que existe una relación lineal entre los predictores y la variable objetivo.
Que los predictores son independientes entre ellos.
Que los residuos no están correlacionados y que hay homocedasticidad
. . . . . . . . . . . . . .entre
. . ellos.
. . . .
10/46
. . . . . . . . . . . . . . . . . . . .

Introducción
Taller
Regresión Lineal - Caso polinomial
Es posible formar una regresión lineal polinomial pero univariada, a través de

un polinomio de grado mayor a 1:
yi = β0 + β1 x + β2 x2 + ... + βn xn
Para el caso multivariado, también es posible pero se incluye un término

nuevo por cada cruce entre variables. Por ejemplo, para un caso de 2 variables
en un polinomio grado 2:
yi = β0 + β1 x1 + β2 x2 + β3 x1 x2 + β4 x21 + β5 x22
Debe usarse con cuidado. Es muy fácil sobreajustarse y en función de la

cantidad de variables original y el grado considerado, la cantidad de variables
resultantes podría aumentar dramáticamente. .
.
.
.
.
. . . . .
. . . .
. . . .
. . . .
. . . .
. . . . .
.
.
.
.
.
.
.
.
.
11/46
Introducción
Taller
Regularización
La regresión lineal estima sus coeficientes minimizando la diferencia entre los valores observados y
estimados. Esto se conoce como mínimos cuadrados ordinarios y puede expresarse como la
siguiente función de costo:
∑
n
Costo = (ŷ − y)2 = ( βi xi − y)2
i=0
Para evitar el sobreajuste que pudiese ser causado por la magnitud de los coeficientes o por la
cantidad de predictores, se aplica el concepto de regularización, que consiste en aplicar una
penalización sobre la magnitud de los coeficientes:
∑
n
Costo = ( βi xi − y)2 + λP
i=0
Donde P es el término de regularización y λ es un hiperparámetro que permite ajustarlo.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 12/46
Introducción
Taller
Regresión Ridge
¿De qué se trata?

Es una regresión lineal con un término de regularización de tipo norma L2 , que
consiste en la norma euclideana del vector de coeficientes.
Es útil para los casos en los que estamos con una cantidad grande de
estimadores.
Tiene una única solución.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 13/46
Introducción
Taller
LASSO (Least Absolute Shrinkage and Selection Operator)
¿De qué se trata?

Es una regresión lineal con un término de regularización de tipo norma L1 , que
consiste en la suma de los valores absolutos de cada coeficiente.
Tiene más de una solución (la función valor absoluto no es diferenciable en 0)

Entrega una solución dispersa, en el sentido de que algunos coeficientes
terminarán siendo igual a cero.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 14/46
Introducción
Taller
Elastic-Net
¿De qué se trata?

Es una regresión lineal que utiliza los términos de regularización L1 y L2 ,
combinados y ponderados por un hiperparámetro ρ.
Es útil cuando hay varios estimadores que están correlacionados unos con
otros.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 15/46
Introducción
Taller
Evaluación
Existen diversas métricas para evaluar una regresión:

Puntaje de Varianza Explicada
Error absoluto medio
Error cuadrado medio
Coeficiente R2
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 16/46
Introducción
Taller
Evaluación
Varianza explicada
Var{y − ŷ}
EV(y, ŷ) = 1 −
VAR{y}
Varía entre 0 y 1, donde 1 es el mejor valor.
Error absoluto medio

1∑
n−1
MAE(y, ŷ) = |yi − ŷi |
n
i=0
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 17/46
Introducción
Taller
Evaluación
Error cuadrado medio

1∑
n−1
MSE(y, ŷ) = (yi − ŷi )2
n
i=0
Coeficiente R2
∑n 2
2 i=1 (yi − ŷi )
R (y, ŷ) = ∑n 1 ∑ n
i=1 (yi − n
2
i=1 yi )
Representa la proporción de varianza que está siendo explicada por las variables independientes
del modelo. Es un indicador de la calidad del ajuste, midiendo qué tan bien un caso nuevo podrá
ser predicho por el modelo. El mejor puntaje posible es 1.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 18/46
Introducción
Taller
Modelos de Clasificación
Tipos
Existe una gran diversidad de modelos de clasificación. Destacaremos los más

utilizados dentro de los siguientes tipos:
Modelos lineales
Regresión Logística
Support Vector Machines (SVM)
Modelos de árboles
Árboles de decisión
Modelos probabilísticos
Naive Bayes
Lazy learners
K-Nearest Neighbors
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 19/46
Introducción
Taller
Regresión Logística
¿De qué se trata?

A pesar de su nombre, la Regresión Logística es un modelo de clasificación, ya
que entrega como resultado una variable dependiente binaria, también conocida
como logit. Esto se da ya que en este tipo de regresión, la respuesta no se modela
directamente sino que en la forma de la probabilidad de pertenecer a una categoría
específica.
Puede ser de distintos tipos, dependiendo de la naturaleza de su variable

dependiente:
Binomial: Cuando su variable dependiente tiene solo dos valores posibles.
Multinomial: Cuando su variable dependiente tiene más de dos valores
posibles. .
.
.
.
.
. . . . .
. . . .
. . . .
. . . .
. . . .
. . . . .
.
.
.
.
.
.
.
.
.
20/46
Introducción
Taller
Support Vector Machines
¿De qué se trata?

Considerando un caso con clases linealmente separables, lo que se busca es encontrar un
hiperplano que maximice las distancias entre las clases. Para encontrar los márgenes que
maximizan estas distancias y que permiten encontrar este hiperplano, el algoritmo utiliza algunos
casos durante su entrenamiento. Estos casos corresponden a los support vectors.
Es efectivo en espacios con alta dimensionalidad.

Podría ser efectivo en casos donde la cantidad de dimensiones es mayor a la de casos.
Si la cantidad de dimensiones es demasiado grande respecto a la cantidad de casos, podría
sobreajustarse. Para evitarlo, podría optarse por una versión no lineal usando funciones de
kernel y considerando un término de regularización.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 21/46
Introducción
Taller
Support Vector Machines - Casos no lineales
Cuando los datos no son linealmente separables, el hiperplano que maximiza las
distancias entre clases no existe. En estos casos, SVM cuenta con las siguientes
alternativas:
Soft-margin SVM
Puede haber casos que crucen los márgenes definidos por los support vectors. En ese caso, se
puede incluir un término de error que caracteriza la distancia entre estos casos y su margen
respectivo, buscando además de maximizar la distancia entre los márgenes y el hiperplano,
minimizar el total de errores presente.
SVM no lineal
Se agrega una función de kernel que permita representar de forma conveniente un mapeo de los
datos de entrada originales a un espacio dimensional más grande, en el que los distintos casos sí
sean linealmente separables. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 22/46
Introducción
Taller
Árboles de decisión
¿De qué se trata?

Es una estructura de tipo árbol (con nodos y ramas) donde cada nodo interno representa una
prueba lógica sobre un atributo, cada rama representa el resultado de esta prueba lógica y cada
nodo terminal u hoja representa una clase.
Los algoritmos más clásicos para construirlos son ID3 y CART, donde el árbol se construye
con un enfoque top-down recursivo.
El algoritmo itera sobre 3 parámetros: Una partición de datos, una lista de atributos y un
método heurístico para escoger el atributo que mejor discrimina la partición de datos dadas
las clases. Las particiones se van dividiendo dado el criterio del método heurístico hasta que
una partición es pura (de una única clase).
Métodos utilizados: Information Gain, Gain Ratio, Gini Index.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 23/46
Introducción
Taller
Naive Bayes
¿De qué se trata?

Modelo probabilístico basado en el Teorema de Bayes:
P(X|Ci )P(Ci )
P(Ci |X) =
P(X)
Donde a partir de un set de entrenamiento con vectores de n-dimensiones

X = (x1 , x2 , ..., xn ) y m clases posibles C1 , C2 , ..., Cm , el clasificador dirá que un caso
X pertenece a la clase cuya probabilidad a posteriori sea la mayor entre todas las
clases. Es decir:
P(Ci |X) > P(Cj |X) con 1 ≤ j ≤ m, j ̸= i
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 24/46
Introducción
Taller
Naive Bayes
¿De qué se trata? - Continuación

Dado lo anterior, se debe maximizar P(Ci |X), lo que significa maximizar
P(X|Ci )P(Ci ) ya que P(X) es constante. También se suele asumir que las clases
son igualmente probables, por lo que P(Ci ) (conocido como prior) también es
constante y todo se reduce a maximizar P(X|Ci )
Entonces, ¿por qué Naive?. Pues, este modelo asume hay independencia
condicional entre clases, por lo que probabilidad condicional (o verosimilitud)
se puede calcular como:
∏n
P(X|Ci ) = P(xk |Ci )
k=1
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 25/46
Introducción
Taller
K-nearest Neighbors
A diferencia de los modelos vistos hasta ahora, que aprenden a partir de un set de
datos de entrenamiento y ajustan un modelo antes de recibir nuevos datos y
realizar predicciones, un modelo lazy learner solo se ajusta cuando va a realizar
una predicción y no antes. Es decir, trabaja más durante la clasificación que
durante su entrenamiento. También se les conoce como instance-based learners.
Un ejemplo de esto es K-nearest Neighbors.
¿De qué se trata?
A partir de un set de entrenamiento n-dimensional, cuando se presenta un caso
nuevo, este modelo busca en el espacio de entrenamiento los k casos más cercanos a
este, definiendo esta cercanía mediante una métrica de similitud. Entonces, al caso
nuevo se le asigna la clase más común entre los k casos más cercanos.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 26/46
Introducción
Taller
K-nearest Neighbors
Puede ser recomendable escalar los atributos antes de usar este algoritmo,
para prevenir que atributos con rangos demasiado grandes influyan más que
los de rangos pequeños.
También se puede utilizar para entregar valores numéricos, entregando la
media de los k vecinos cercanos.
Para encontrar un buen k, se debe experimentar y escoger uno que minimice el
error.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 27/46
Introducción
Taller
Evaluación
¿Cómo podemos medir el desempeño de un clasificador?

Considere un clasificador binario:
Casos positivos: Casos de la principal clase de interés.
Casos negativos: Todos los demás.
Al probar el clasificador utilizando nuestro set de pruebas con clases
conocidas, podemos obtener los siguientes valores:
Verdaderos positivos (TP)
Verdaderos negativos (TN)
Falsos positivos (FP)
Falsos negativos (FN)
Estos términos pueden resumirse en una matriz de confusión.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 28/46
Introducción
Taller
Evaluación - Matriz de Confusión
Ejemplo: Si tenemos dos clases:
SÍ (predicción) NO (predicción) Total

SÍ (real) TP FN P
NO (real) FP TN N
Total P’ N’ P+N
TP+TN
Accuracy = P+N
FP+FN
Errorrate = P+N
Sensitivity = TP
P
Specificity = TN
N
TP
Precision = TP+FP
TP
Recall = TP+FN = TP
P . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 29/46
Introducción
Taller
Evaluación - Métricas de Desempeño
Accuracy
El porcentaje del set de pruebas que fue correctamente clasificado
Error rate (Tasa de clasificación errónea)

1 − Accuracy
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 30/46
Introducción
Taller
Considere un caso de clases desbalanceadas donde la clase de interés principal

es rara.
Ejemplo
e.g. Datos médicos, donde la clase cáncer es rara. Podemos tener un Accuracy del
97%, pero si cáncer = sí es solo el 3% del set, esto podría no ser aceptable, ya que
el clasificador solo podría etiquetar correctamente los casos sin cáncer.
Sensitivity
Tasa de reconocimiento de verdaderos positivos.
Specificity
Tasa de reconocimiento de verdaderos negativos. .
.
.
.
.
. . . . .
. . . .
. . . .
. . . .
. . . .
. . . . .
.
.
.
.
.
.
.
.
.
31/46
Introducción
Taller
Precision
Una medida de qué porcentaje de los casos etiquetados como positivos en verdad lo
son.
Recall
Una medida de qué porcentaje de los casos positivos son etiquetados como tal. Es
lo mismo que Sensitivity.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 32/46
Introducción
Taller
Un puntaje de Precision perfecto para una clase C significa que cada caso que
el clasificador etiquetó como C de verdad pertenece a C. Sin embargo, no dice
nada respecto a los casos que eran C y que el clasificador etiquetó mal (es
decir, respecto a los FN).
Un puntaje de Recall perfecto para una clase significa que cada item de clase
C fue etiquetado como tal, pero no dice nada respecto a otras tuplas que
fueron etiquetadas mal como C (es decir, respecto a los FP)
Hay una forma alternativa de usar Precision y Recall:
2 ∗ precision ∗ recall
F=
precision + recall
Que corresponde a F-measure o F-score. Puede variar entre 0 y 1. .
.
.
.
.
. . . . .
. . . .
. . . .
. . . .
. . . .
. . . . .
.
.
.
.
.
.
.
.
.
33/46
Introducción
Clustering
Taller
Introducción
1 Introducción
Regresión
Clasificación
Clustering
4 Taller
Tarea
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 34/46
Introducción
Clustering
Taller
Clustering
Definición
Es el proceso de agrupar casos con características similares según un criterio o

medida de similitud.
Como resultado entrega clusters o conjuntos de objetos abstractos, muy similares
a otros contenidos dentro de un mismo cluster, pero diferentes a aquellos
contenidos en un cluster diferente.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 35/46
Introducción
Clustering
Taller
Clustering
Tipos de clustering
Existen distintos tipos de clustering:

Basado en particiones: Se generan distintas particiones y se evalúan según
un criterio.
Jerárquico: Se genera una descomposición jerárquica y se evalúa según un
criterio. Puede ser Aglomerativo o Divisivo
Basado en densidades: Se modelan los clusters considerando regiones
densas en el espacio que caracterizan los datos, separados por regiones
dispersas. Puede ser útil para descubrir clusters sin una forma esférica.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 36/46
Introducción
Clustering
Taller
Clustering
Basado en particiones - K-Means
¿De qué se trata?

Algoritmo iterativo para obtener clusters a partir de un conjunto de k centroides.
Inicialmente son casos aleatorios dentro del set de datos. En cada iteración se
minimiza la distancia a cada centroide para definir la pertenencia de cada cluster y
se recalculan los centroide utilizando la media de sus puntos respectivos. Si no hay
cambios entre iteraciones, el algoritmo finaliza.
Es susceptible a outliers
Tiende a encontrar óptimos locales, dependiendo de los centroides iniciales,
por lo que sería recomendable correrlo varias veces.
Asume que los clusters son esféricos. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 37/46
Introducción
Clustering
Taller
Clustering
Basado en particiones - Otras alternativas
K-Medoids
Método que utiliza medoids como centroides en lugar de la media. El medoid es
el objeto más central ubicado dentro del cluster. Es menos susceptible a outliers.
K-Modes
Método que permite realizar clustering cuando los atributos son categóricos.
K-Prototypes
Método que permite realizar clustering cuando se tiene atributos numéricos y
categóricos.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 38/46
Introducción
Clustering
Taller
Clustering
Evaluación
Existen dos formas principales para evaluar un proceso de clustering:

Método del codo
Heurística calculada a partir de la disimilitud agregada o distorsión, que
equivale a la suma de las distancias cuadradas entre cada caso y su distancia al
centroide del cluster. Se grafican para distintos valores de k y se escoge aquél en el
que la disminución de la distorsión comienza a atenuarse.
El único problema es que este método se considera una especie de

aproximación o regla del pulgar. Necesitamos algo más válido.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 39/46
Introducción
Clustering
Taller
Clustering
Evaluación
Coeficiente de Silueta
Medida para evaluar qué tan separados están los clusters unos de otros y qué tan compactos son.
Se obtiene calculando para cada caso:
∑ ′
o′ ∈Ci ,o̸=o′ dist(o, o )
a(o) =
|Ci | − 1
∑
o′ ∈Cj dist(o, o′ )
b(o) = minCj ,1≤j≤k,j̸=i
|Cj |
b(o) − a(o)
s(o) =
max(a(o), b(o))
Donde a(o) es la distancia promedio entre o y todos los otros o′ que pertenecen al mismo cluster,
b(o) la mínima distancia promedio entre o y todos los clusters a los que no pertenece.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 40/46
Introducción
Clustering
Taller
Clustering
Evaluación
El valor del Coeficiente de Silueta (s(o)) varía entre −1 y 1.

a(o) representa lo compacto que es el cluster al que o pertenece. Entre más
pequeño, más compacto.
b(o) representa lo separado que está o de los otros clusters. Entre más grande,
más separado.
Entonces, cuando s(o) se acerca a 1, el cluster es más compacto y más alejado
de los otros. En cambio, cuando se acerca a −1, estamos ante un cluster de
baja calidad.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 41/46
Introducción
Clustering
Taller
Clustering
Interpretación
Es necesario realizar un Análisis Exploratorio sobre los datos de cada cluster,

para interpretar estos resultados no solo desde una perspectiva técnica sino
que también del negocio.
Algunas preguntas útiles pueden ser:
Primero, es fundamental entender qué es lo que contiene cada cluster.
¿Productos? ¿Clientes? ¿Transacciones?
¿Qué características en común tienen los elementos de cada cluster?
¿Qué diferencias tienen?
¿Hay algún cluster que sea más importante que otro de detectar, respecto al
contexto del negocio?
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 42/46
Introducción
Aprendizaje Supervisado Objetivos y Entregables
Aprendizaje No Supervisado Tarea
Taller
Introducción
1 Introducción
Regresión
Clasificación
Clustering
4 Taller
Tarea
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 43/46
Introducción
Taller
Taller
Desafío 4
Ajustar varios modelos asociados al problema de Machine Learning que deben

resolver en el contexto de sus proyectos
¿Qué se espera como mínimo?

Para cada uno de sus dos datasets resultantes del Desafío 2 (con el paso de Preparación
agregado) y Desafío 3, escoger por lo menos 3 modelos de Machine Learning asociados al
problema.
Ajustar los modelos a sus datos.
Evaluar e Interpretar los resultados de cada modelo utilizando la herramienta
correspondiente.
Entregable
Jupyter Notebook
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 44/46
Introducción
Taller
Taller
Presentación Parcial - Próxima clase
Presentación parcial
¿Qué se espera como mínimo?

Preparar una presentación de 15 minutos (máximo) donde exponga el proceso completo
seguido en su proyecto. Para esto, no necesita preparar material adicional al/los
Jupyter Notebook(s) en el/los que ha trabajado hasta ahora.
La presentación debe abordar los siguientes puntos como mínimo:
Descripción del proyecto (contexto y objetivo)
Análisis Exploratorio de Datos
Feature Engineering
Modelación
Evaluación de Resultados
Conclusiones
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 45/46
Introducción
Taller
Taller
Tarea
Leer documentación de scikit-learn asociada a los modelos que pretende aplicar
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . 46/46

IN7581 - Taller de Advanced Analytics: Clase 6 - Modelación, Evaluación y Visualización de Resultados I

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

IN7581 - Taller de Advanced Analytics: Clase 6 - Modelación, Evaluación y Visualización de Resultados I

Cargado por

Copyright:

Formatos disponibles

Introducción

IN7581 - Taller de Advanced Analytics

Como concepto general, modelar (en un contexto matemático) significa realizar

Existen distintos tipos de aprendizajes.

¿De qué se trata?

Dependiendo de la cantidad de predictores utilizados, se pueden clasificar en

Víctor Hernández M. Taller de Advanced Analytics

Es posible formar una regresión lineal polinomial pero univariada, a través de

Para el caso multivariado, también es posible pero se incluye un término

Debe usarse con cuidado. Es muy fácil sobreajustarse y en función de la

Donde P es el término de regularización y λ es un hiperparámetro que permite ajustarlo.

¿De qué se trata?

¿De qué se trata?

Tiene más de una solución (la función valor absoluto no es diferenciable en 0)

¿De qué se trata?

Existen diversas métricas para evaluar una regresión:

Error absoluto medio

Error cuadrado medio

Existe una gran diversidad de modelos de clasificación. Destacaremos los más

¿De qué se trata?

Puede ser de distintos tipos, dependiendo de la naturaleza de su variable

¿De qué se trata?

Es efectivo en espacios con alta dimensionalidad.

¿De qué se trata?

¿De qué se trata?

Donde a partir de un set de entrenamiento con vectores de n-dimensiones

¿De qué se trata? - Continuación

¿Cómo podemos medir el desempeño de un clasificador?

Ejemplo: Si tenemos dos clases:

SÍ (predicción) NO (predicción) Total

Error rate (Tasa de clasificación errónea)

Considere un caso de clases desbalanceadas donde la clase de interés principal

Es el proceso de agrupar casos con características similares según un criterio o

Existen distintos tipos de clustering:

¿De qué se trata?

Existen dos formas principales para evaluar un proceso de clustering:

El único problema es que este método se considera una especie de

El valor del Coeficiente de Silueta (s(o)) varía entre −1 y 1.

Es necesario realizar un Análisis Exploratorio sobre los datos de cada cluster,

Ajustar varios modelos asociados al problema de Machine Learning que deben

¿Qué se espera como mínimo?

¿Qué se espera como mínimo?

Leer documentación de scikit-learn asociada a los modelos que pretende aplicar

También podría gustarte