Clase 2 - Conceptos de DM

Data Mining y Aplicaciones en Marketing Digital
Clase 2 | 13 Noviembre 2019
Sebastián Santana R.
Agenda clase 2
Clase 2
Agenda
• Proceso KDD
• Preprocesamiento y transformación de datos
• Modelos de data mining
• Aplicaciones en R
Data Mining y Aplicaciones

2 en Marketing Digital, 2019
Data Mining y
Aplicaciones en Marketing Digital

Motivación
Clase 2
Motivación
35% of Amazon.com’s revenue is generated by its
recommendation engine
Mckinsey: How retailers can keep up with consumers
La forma en la que las compañías se relacionan
con sus clientes ha cambiado. Todos ustedes
poseen en retailer mas grande del mundo en sus
bolsillos y mochilas. Todo eso no viene gratis, las
empresas tienen mas datos de ustedes que nunca
y lo han sabido aprovechar.
Estos datos deben ser utilizados para establecer

relaciones con sus clientes que lo lleven a comprar
y recobrar sus productos reiteradamente
Fuente: https://aws.amazon.com/es/personalize/ Data Mining y Aplicaciones

Motivación
Clase 2
Motivación
How to use machine learning for marketing

KDD es el proceso no-trivial de identificar patrones previamente desconocidos,
válidos, nuevos, potencialmente útiles y comprensibles dentro de los datos.
Interpretación y
evaluación
Minería de datos
Transformación
Preprocesamiento
Selección
Datos
Datos
Datos
seleccionados preprocesados transformados Patrones

en Marketing Digital, 2019
Clase 2
Detección de
datos atípicos

Más técnicas e implementaciones en R:
Outliers
https://www.r-bloggers.com/outlier-detection-and-treatment-with-r/
Boxplot
Outliers Outliers
Máximo
Q75
Rango intercuartil (RIQ)
Q50 
(Mediana)
Q75 - Q25 = 50% de
las observaciones
Q25
1. Medida de dispersión
2. Poco influenciado por outliers
3. Límite inferior : Q25 - 1.5*RIC
Mínimo
4. Límite superior : Q75 + 1.5*RIC

Fuente: https://www.r-bloggers.com/outlier-detection-and-treatment-with-r/

Clase 2
Tratamiento de
datos perdidos

Datos perdidos
Datos perdidos
Tipos de datos perdidos (Taxonomía Clásica) [Little and Rubin, 1987]:
1. Missing Completely at Random (MCAR): los valores perdidos no se relacionan con las
variables en la base de datos. 
2. Missing at Random (MAR): los valores perdidos se relacionan con los valores de las otras
variables dentro de la base de datos.  
3. Not Missing at Random or Nonignorable (NMAR): los valores perdidos dependen del valor de
la variable.

Datos perdidos
Datos perdidos: ¿Qué hacer?
1. Eliminación de datos
a. Eliminación de casos (listwise or casewise deletion)
b. Eliminación de pares (o tuplas) de casos (pairwise
1
data deletion) Observados Reemplazar
2
x1, x2, . . , xa a
1
a∑
Perdidos xobs = xi
2. Sustitución por media, mediana y/o moda:  a
i=1
xa+1, xa+2, . . , xn
n
PROs
• Método sencillo y fácil de aplicar Antes Después
CONs
• Corrompe la distribución Y

Datos perdidos
Datos perdidos: ¿Qué hacer?
3. Simple Hot Deck
Reemplazar los valores perdidos por un valor aleatorio obtenido
de la distribución empírica de la variable
PROs
• Preserva la distribución marginar de la variable
CONs
• Altera correlaciones y covarianzas
4. Métodos de regresión x′ x
1 x
Reemplazar los valores perdidos por un valor obtenido a través 2 Observados
x
de un modelo de regresión x1, x2, . . , xa x x+
+ x
x x+
x x
PROs Perdidos x x + +x x
a x +
x
• Se obtiene un valor más certero xa+1, xa+2, . . , xn
n
CONs
x′
• Aumenta correlaciones

Datos perdidos
Datos perdidos: ¿qué hacer?
5. Imputación múltiple
• Basado en técnicas de simulación, no estadística necesariamente
• Reemplazar cada uno de los valores con m>1 valores simulados. Luego combinar los resultados
obtenidos.
PROs
• Altamente eficiente con pocos datos y muestras válidas
CONs
• Poco eficiente con muestras grandes
• No saca provecho de correlaciones

Datos perdidos
Datos perdidos: resumen
PROs
• Nos “olvidamos” del problema de los datos perdidos.
• No perdemos información. 
CONs
• Las técnicas de imputación alteran los resultados de los
modelos
• El esfuerzo por encontrar una buena técnica para
imputar los datos puede ser mas costoso que el beficio
obtenido

Clase 2
Transformación
de los datos

Transformaciones
Box-cox

Transformaciones
Box-cox
Outliers = 111 Outliers = 36

Transformaciones
Estandarización (Transformación Z)
x−μ
Z= ∼ N(0,1)
σ
PROs
1. Considera propiedades estadísticas.
2. Se conoce μ y σ .
CONs
1. No todas las variables son (o tienen que ser)
normales.
2. z ∈ (−∞, ∞)

Transformaciones
Max-Min
Xi − Xmin
XT =
Xmax − Xmin
PROs
1. Sencillez de implementación.
2. Algunos métodos necesitan este tipo.
CONs
1. ¿Conozco siempre el rango?
2. No considera dispersión.
3. Cuidado con valores fuera de rango.

Clase 2
Extracción de
atributos

Extracción de atributos
Objetivo Tipos
El objetivo del proceso de selección de atributos consiste en 1. Filtros: seleccionan los atributos de forma
encontrar un subconjunto de atributos que lleva a un independiente al algoritmo de aprendizaje. 
desempeño óptimo en una tarea de clasificación, al mismo
tiempo que demanda una menor cantidad de recursos 2. Envolventes (wrappers): evalúan en conjunto con
computacionales en comparación con mantener el conjunto el algoritmo el desempeño que genero un
de datos original (El Aboudi y Benhlima, 2016). subconjunto de atributos. 
Yu y Liu (2004) definen el conjunto de características óptimas 3. Embebidos (embedded): realizan la selección de
como que se compone de todas las características atributos durante el proceso de entrenamiento del
fuertemente relevantes y las débilmente relevantes, pero no algoritmo.
redundantes.

Extracción
Varianza de atributos
Todas aquellas variables que posean una baja
varianza probablemente no contribuirán a explicar
el fenómeno que buscamos modelar. Por tanto,
se deben extraer aquellos atributos.
n
1 2
n∑
Var(X) = (xi − μ)
x=1

Extracción
Correlación de atributos
Otras de las técnicas para la extracción de atributos es mediante el
filtro de correlación. Si existen variables fuertemente correlacionadas,
no se deben incluir todas, sino más bien incluir aquella que posea más
interpretación o sentido en el fenómeno que se estudia. Otro criterio es
seleccionar aquella variable que posea mayor poder explicativo, lo cual
se debe testear.
Si |r|>0.8 es recomendable eliminar atributos altamente

correlacionados.

Tablas de contingencia
Independencia: los valores de una de las dos variables no
afecta la probabilidad de aparición de los valores de la otra
variable. Sexo
Idea: comparar frecuencia esperada con observada. Edad Masculino Femenino Total
Fr * Fk < 30 60 50 110
Fe = = frecuencia esperada de la celda e r=2
n >= 30 80 10 90
Fk = frecuencia total de la columna k Total 140 60 200
k=2
Fr = frecuencia total de la fila r
(Fo − Fe) 2 H0 : Ambas distribuciones son dependientes

Chi − cuadrado =
∑ F
> Rechazar si se alcanza un valor superior al estipulado para df = (r − 1) * (k − 1)
e e

Tablas de contingencia
Ejemplo
Frecuencia esperada Frecuencia observada
Sexo Sexo
Edad Masculino Femenino Total Edad Masculino Femenino Total
< 30 77 33 110 < 30 60 50 110

r=2
>= 30 63 27 90 >= 30 80 10 90
Total 140 60 200 Total 140 60 200
k=2
Valor crítico de chi-cuadrado (df = 1, alpha = 0.01) = 6.63
(Fo − Fe)2 (60 − 77)2 (50 − 33)2 (80 − 63)2 (10 − 27)2
∑
Chi − cuadrado = = + + + = 27.8 > 6.63 = > Se rechaza Ho
e
Fe 77 33 63 27
∴ Edad y sexo son independientes
Kolmogorov-Smirnov
KS compara la función de distribución acumulada observada de una
variable con una distribución teórica. El estadístico se calcula a partir de la
diferencia (en valor absoluto) entre las funciones de distribución
Acepta H0
acumuladas teórica y observada.
D = sup Fn(x̂ i) − F0(xi)
xi = es el i-ésimo valor observado en la muestra

Fn(x̂ i) = es un estimador de la probabilidad de observar valores
menores o iguales que xi
Rechaza H0
F0(xi) = es la probabilidad de observar valores menores o iguales
que xi cuando H0 es cierta
H0 : Ambas distribuciones son dependientes

(provienen de la misma distribución)
Métodos envolventes STOP
Modelo
Atributos
Forward
NO
X1, X2, X3
Resultado 1
Resultado 2 } ¿Resultado 2 > Resultado 1?
SI
Entrenamiento Evaluación
Iterar
STOP
Modelo
Backward
Atributos
}
NO
Resultado 1
¿Resultado 2 > Resultado 1?
X1, . . , Xn−1, Xn Resultado 2
SI
Entrenamiento Evaluación
Iterar

RFM
RFM
Historial de compras
hoy Recency = tiempo entre hoy y última compra

Frequency = frecuencia de compras
Monetary value = monto total de las compras
F
Ejercicio: Otras áreas con
• Ámbito de la aplicación
• Objeto del análisis
R • Observaciones
• “Substitutos” de RFM
• Decisiones a tomar
M
KDD es el proceso no-trivial de identificar patrones previamente desconocidos,
válidos, nuevos, potencialmente útiles y comprensibles dentro de los datos.
Interpretación y
evaluación
Minería de datos
Transformación
Preprocesamiento
Selección
Datos
Datos
Datos
seleccionados preprocesados transformados Patrones

Aprendizajes
Tipos de aprendizaje
Supervisado
El objetivo es aproximar una función que mapea los datos del input ( x ) a el output ( y = f(x) )
No supervisado
El objetivo del aprendizaje no supervisado es encontrar estructuras o distribuciones subyacente

en los datos para aprender más sobre estos.

Entrenamiento
Entrenamiento de un modelo
Datos de entrenamiento (75%-80%)
Datos disponibles (100%)
Datos de testeo (20%-25%)

f(x)
Overfitting
Overfitting
f(x)
f(x)
x x x
(a) Underfitting (b) Good fitting (c) Overfitting

Overfitting
Overfitting
Motivos de overfitting:
1. Se utilizan modelos más complejos de lo

necesario 
- Navaja de Occam: dados dos modelos con errores
similares de generalización, se debe preferir el menos
complejo. 
2. Error al escoger el conjunto de entrenamiento/

validación. 
3. Datos insuficientes.

Bias-Variance
Bias-Variance trade-off

Clase 2
Árboles de decisión

Idea: una decisión nace de una serie de eventos en
cadena
Age Single Purchase
Algoritmo base:  28 Yes 1
30 No 1
1. Partir de un nodo con todos los elementos
2. Ramificar y avanzar al nodo siguiente

44 Yes 1
3. Criterios de detención:  38 No 0
3.1 El nodo tiene sólo elementos de la misma clase
51 No 0
(asignar a ese nodo la clase mayoritaria. Volver al
nodo anterior y si estoy en nodo original terminar)  31 Yes 1
3.2 No quedan atributos ( = 3.1)

100% Age Single Purchase
Si No
Age < 32 28 Yes 1
30 No 1
Yes
50% No
44 Yes 1
Single
38 No 0
50% 17% 33% 51 No 0
Yes Yes No 31 Yes 1

Árboles de decisión ¿Cuánta información aporta un atributo?
Entropía. Ganancia de información.
+ + −
E2(K) = − p * Log2(p ) − p * Log2(p ) − Gain(K) = E2(Nodo superior) − MI(K)
m
∑
K = nodok MI(K) = pj * E2(Ki)
+ − i
p /p = frecuencia relativa de ejemplos
m = número de valores distintos del atributo i
positivos/negativos en nodo K
E2(K) ≥ = 0 Ki = nodo i ∈ {i = 1,..,m}
+ −
E2(K) = 0 ⟷ p = 0 o p = 0 E2(Ki) = entropía del nodo Ki
Algoritmo selecciona nodo con menor entropía. Algoritmo selecciona nodo con mayor ganancia.

Clase 2
K-Nearest Neighbors
(KNN)

KNN
KNN KNN:
1. Escoger k impar (para evitar empates). 
2. Escoger métrica de distancia (generalmente se usa distancia

euclidiana). 
K=3 K=5
? 3. KNN supone que lo vecinos más cercanos entregan la mejor
representación utilizando toda las información (atributos)
disponible. 
4. Si todos los atributos tienen el mismo peso, es posible que

atributos irrelevantes lleven a un error en la clasificación. 
5. Es necesario un buen proceso de selección de atributos. 

K=3 → Triángulo
6. Es conveniente ponderar atributos.
K=5 → Cuadrado

Clase 2
Support Vector Machines
(SVM)

SVM
SVM
Idea: existen dos tipos de errores en un problema de Formulación
clasificación:
1. Errores empíricos: errores asociados a la base de

datos (muestra) que observo. 
2. Error estructural: errores asociados al espacio que

estudio.
Asumiremos que no existe una forma perfecta de

separar las observaciones de dos poblaciones por lo
que se genera un problema de optimización que
penaliza los errores en la función objetivo.

SVM
SVM
{x | (w * x) + b = 0}
Kernels
Vectores de  
soporte
{x | (w * x) + b = + 1}
{x | (w * x) + b = − 1}

Clase 2
Redes Neuronales (NN)

Redes neuronales
Redes neuronales

Redes
Perceptronneuronales
El perceptron es una función
Y = F(X, W)
Donde Y es el vector formado por las salidas del perceptron, X es el vector de entrada al perceptron, W
es el conjunto de todos los parámetros (pesos), y F una función continua no lineal.
X W F Y
output

Redes neuronales
Redes neuronales
Forward Backward
bias bias
bias bias

Hiperparámetros
Hiperparámetros
• Neuronas en capa de input
• Neuronas en capa oculta
bias bias
• Número de capas ocultas (deep learning)
• Número de épocas
• Tasa de aprendizaje
• Función de activación
• Medida de error
• Algoritmo de optimización
Redes neuronales
Redes neuronales

Data Mining y Aplicaciones en Marketing Digital
Clase 2 | 13 Noviembre 2019
Sebastián Santana R.

Clase 2 - Conceptos de DM

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 2 - Conceptos de DM

Cargado por

Copyright:

Formatos disponibles

Data Mining y Aplicaciones en Marketing Digital

Clase 2 | 13 Noviembre 2019

• Preprocesamiento y transformación de datos

• Modelos de data mining

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Estos datos deben ser utilizados para establecer

Fuente: https://aws.amazon.com/es/personalize/ Data Mining y Aplicaciones

Data Mining y Aplicaciones

seleccionados preprocesados transformados Patrones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

2. Poco influenciado por outliers

3. Límite inferior : Q25 - 1.5*RIC

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Si |r|>0.8 es recomendable eliminar atributos altamente

Data Mining y Aplicaciones

Fk = frecuencia total de la columna k Total 140 60 200

(Fo − Fe) 2 H0 : Ambas distribuciones son dependientes

Data Mining y Aplicaciones

Edad Masculino Femenino Total Edad Masculino Femenino Total

< 30 77 33 110 < 30 60 50 110

Total 140 60 200 Total 140 60 200

D = sup Fn(x̂ i) − F0(xi)

xi = es el i-ésimo valor observado en la muestra

H0 : Ambas distribuciones son dependientes

Data Mining y Aplicaciones

hoy Recency = tiempo entre hoy y última compra

seleccionados preprocesados transformados Patrones

Data Mining y Aplicaciones

El objetivo del aprendizaje no supervisado es encontrar estructuras o distribuciones subyacente

Data Mining y Aplicaciones

Datos disponibles (100%)

Datos de testeo (20%-25%)

Data Mining y Aplicaciones

(a) Underfitting (b) Good fitting (c) Overfitting

Data Mining y Aplicaciones

1. Se utilizan modelos más complejos de lo

2. Error al escoger el conjunto de entrenamiento/

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Data Mining y Aplicaciones

Algoritmo base: 28 Yes 1

2. Ramificar y avanzar al nodo siguiente

Data Mining y Aplicaciones

Age < 32 28 Yes 1

50% 17% 33% 51 No 0

Yes Yes No 31 Yes 1

Data Mining y Aplicaciones

Algoritmo base:  28 Yes 1

1. Escoger k impar (para evitar empates). 

5. Es necesario un buen proceso de selección de atributos.