Está en la página 1de 51

Data Mining y Aplicaciones en Marketing Digital

Clase 2 | 13 Noviembre 2019

Sebastián Santana R.
Agenda clase 2
Clase 2

Agenda
• Proceso KDD

• Preprocesamiento y transformación de datos

• Modelos de data mining

• Aplicaciones en R

Data Mining y Aplicaciones


2 en Marketing Digital, 2019
Data Mining y
Aplicaciones en Marketing Digital

Data Mining y Aplicaciones


3 en Marketing Digital, 2019
Motivación
Clase 2

Motivación
35% of Amazon.com’s revenue is generated by its
recommendation engine
Mckinsey: How retailers can keep up with consumers
La forma en la que las compañías se relacionan
con sus clientes ha cambiado. Todos ustedes
poseen en retailer mas grande del mundo en sus
bolsillos y mochilas. Todo eso no viene gratis, las
empresas tienen mas datos de ustedes que nunca
y lo han sabido aprovechar.

Estos datos deben ser utilizados para establecer


relaciones con sus clientes que lo lleven a comprar
y recobrar sus productos reiteradamente

Fuente: https://aws.amazon.com/es/personalize/ Data Mining y Aplicaciones


4 en Marketing Digital, 2019
Motivación
Clase 2

Motivación
How to use machine learning for marketing

Data Mining y Aplicaciones


5 en Marketing Digital, 2019
KDD es el proceso no-trivial de identificar patrones previamente desconocidos,
válidos, nuevos, potencialmente útiles y comprensibles dentro de los datos.

Interpretación y
evaluación

Minería de datos

Transformación

Preprocesamiento

Selección

Datos
Datos
Datos

seleccionados preprocesados transformados Patrones

Data Mining y Aplicaciones


en Marketing Digital, 2019
Clase 2
Detección de
datos atípicos

Data Mining y Aplicaciones


7 en Marketing Digital, 2019
Más técnicas e implementaciones en R:

Outliers
https://www.r-bloggers.com/outlier-detection-and-treatment-with-r/

Boxplot
Outliers Outliers
Máximo

Q75
Rango intercuartil (RIQ)
Q50

(Mediana)
Q75 - Q25 = 50% de

las observaciones
Q25
1. Medida de dispersión

2. Poco influenciado por outliers

3. Límite inferior : Q25 - 1.5*RIC

Mínimo
4. Límite superior : Q75 + 1.5*RIC

Data Mining y Aplicaciones


8 en Marketing Digital, 2019
Fuente: https://www.r-bloggers.com/outlier-detection-and-treatment-with-r/

Data Mining y Aplicaciones


en Marketing Digital, 2019
Clase 2
Tratamiento de
datos perdidos

Data Mining y Aplicaciones


10 en Marketing Digital, 2019
Datos perdidos
Datos perdidos
Tipos de datos perdidos (Taxonomía Clásica) [Little and Rubin, 1987]:

1. Missing Completely at Random (MCAR): los valores perdidos no se relacionan con las
variables en la base de datos.


2. Missing at Random (MAR): los valores perdidos se relacionan con los valores de las otras
variables dentro de la base de datos. 


3. Not Missing at Random or Nonignorable (NMAR): los valores perdidos dependen del valor de
la variable.

Data Mining y Aplicaciones


11 en Marketing Digital, 2019
Datos perdidos
Datos perdidos: ¿Qué hacer?
1. Eliminación de datos
a. Eliminación de casos (listwise or casewise deletion)
b. Eliminación de pares (o tuplas) de casos (pairwise
1
data deletion) Observados Reemplazar
2
x1, x2, . . , xa a
1
a∑
Perdidos xobs = xi
2. Sustitución por media, mediana y/o moda:
 a
i=1
xa+1, xa+2, . . , xn
n
PROs
• Método sencillo y fácil de aplicar Antes Después

CONs
• Corrompe la distribución Y

Data Mining y Aplicaciones


12 en Marketing Digital, 2019
Datos perdidos
Datos perdidos: ¿Qué hacer?
3. Simple Hot Deck
Reemplazar los valores perdidos por un valor aleatorio obtenido
de la distribución empírica de la variable

PROs
• Preserva la distribución marginar de la variable
CONs
• Altera correlaciones y covarianzas

4. Métodos de regresión x′ x
1 x
Reemplazar los valores perdidos por un valor obtenido a través 2 Observados
x
de un modelo de regresión x1, x2, . . , xa x x+
+ x
x x+
x x
PROs Perdidos x x + +x x
a x +
x
• Se obtiene un valor más certero xa+1, xa+2, . . , xn
n
CONs
x′
• Aumenta correlaciones

Data Mining y Aplicaciones


13 en Marketing Digital, 2019
Datos perdidos
Datos perdidos: ¿qué hacer?
5. Imputación múltiple
• Basado en técnicas de simulación, no estadística necesariamente
• Reemplazar cada uno de los valores con m>1 valores simulados. Luego combinar los resultados
obtenidos.

PROs
• Altamente eficiente con pocos datos y muestras válidas
CONs
• Poco eficiente con muestras grandes
• No saca provecho de correlaciones

Data Mining y Aplicaciones


14 en Marketing Digital, 2019
Datos perdidos
Datos perdidos: resumen
PROs
• Nos “olvidamos” del problema de los datos perdidos.
• No perdemos información.


CONs
• Las técnicas de imputación alteran los resultados de los
modelos
• El esfuerzo por encontrar una buena técnica para
imputar los datos puede ser mas costoso que el beficio
obtenido

Data Mining y Aplicaciones


15 en Marketing Digital, 2019
Clase 2
Transformación
de los datos

Data Mining y Aplicaciones


16 en Marketing Digital, 2019
Transformaciones
Box-cox

Data Mining y Aplicaciones


17 en Marketing Digital, 2019
Transformaciones
Box-cox
Outliers = 111 Outliers = 36

Data Mining y Aplicaciones


18 en Marketing Digital, 2019
Transformaciones
Estandarización (Transformación Z)

x−μ
Z= ∼ N(0,1)
σ

PROs
1. Considera propiedades estadísticas.
2. Se conoce μ y σ .

CONs
1. No todas las variables son (o tienen que ser)
normales.
2. z ∈ (−∞, ∞)

Data Mining y Aplicaciones


19 en Marketing Digital, 2019
Transformaciones
Max-Min
Xi − Xmin
XT =
Xmax − Xmin
PROs
1. Sencillez de implementación.
2. Algunos métodos necesitan este tipo.

CONs
1. ¿Conozco siempre el rango?
2. No considera dispersión.
3. Cuidado con valores fuera de rango.

Data Mining y Aplicaciones


20 en Marketing Digital, 2019
Clase 2
Extracción de
atributos

Data Mining y Aplicaciones


21 en Marketing Digital, 2019
Extracción de atributos
Extracción de atributos
Objetivo Tipos
El objetivo del proceso de selección de atributos consiste en 1. Filtros: seleccionan los atributos de forma
encontrar un subconjunto de atributos que lleva a un independiente al algoritmo de aprendizaje.

desempeño óptimo en una tarea de clasificación, al mismo
tiempo que demanda una menor cantidad de recursos 2. Envolventes (wrappers): evalúan en conjunto con
computacionales en comparación con mantener el conjunto el algoritmo el desempeño que genero un
de datos original (El Aboudi y Benhlima, 2016). subconjunto de atributos.


Yu y Liu (2004) definen el conjunto de características óptimas 3. Embebidos (embedded): realizan la selección de
como que se compone de todas las características atributos durante el proceso de entrenamiento del
fuertemente relevantes y las débilmente relevantes, pero no algoritmo.
redundantes.

Data Mining y Aplicaciones


22 en Marketing Digital, 2019
Extracción
Varianza de atributos
Todas aquellas variables que posean una baja
varianza probablemente no contribuirán a explicar
el fenómeno que buscamos modelar. Por tanto,
se deben extraer aquellos atributos.

n
1 2
n∑
Var(X) = (xi − μ)
x=1

Data Mining y Aplicaciones


23 en Marketing Digital, 2019
Extracción
Correlación de atributos
Otras de las técnicas para la extracción de atributos es mediante el
filtro de correlación. Si existen variables fuertemente correlacionadas,
no se deben incluir todas, sino más bien incluir aquella que posea más
interpretación o sentido en el fenómeno que se estudia. Otro criterio es
seleccionar aquella variable que posea mayor poder explicativo, lo cual
se debe testear.

Si |r|>0.8 es recomendable eliminar atributos altamente


correlacionados.

Data Mining y Aplicaciones


24 en Marketing Digital, 2019
Extracción de atributos
Tablas de contingencia
Independencia: los valores de una de las dos variables no
afecta la probabilidad de aparición de los valores de la otra
variable. Sexo
Idea: comparar frecuencia esperada con observada. Edad Masculino Femenino Total

Fr * Fk < 30 60 50 110
Fe = = frecuencia esperada de la celda e r=2
n >= 30 80 10 90

Fk = frecuencia total de la columna k Total 140 60 200

k=2
Fr = frecuencia total de la fila r

(Fo − Fe) 2 H0 : Ambas distribuciones son dependientes


Chi − cuadrado =
∑ F
> Rechazar si se alcanza un valor superior al estipulado para df = (r − 1) * (k − 1)
e e

Data Mining y Aplicaciones


25 en Marketing Digital, 2019
Extracción de atributos
Tablas de contingencia
Ejemplo
Frecuencia esperada Frecuencia observada
Sexo Sexo

Edad Masculino Femenino Total Edad Masculino Femenino Total

< 30 77 33 110 < 30 60 50 110


r=2
>= 30 63 27 90 >= 30 80 10 90

Total 140 60 200 Total 140 60 200

k=2
Valor crítico de chi-cuadrado (df = 1, alpha = 0.01) = 6.63

(Fo − Fe)2 (60 − 77)2 (50 − 33)2 (80 − 63)2 (10 − 27)2

Chi − cuadrado = = + + + = 27.8 > 6.63 = > Se rechaza Ho
e
Fe 77 33 63 27
∴ Edad y sexo son independientes
Data Mining y Aplicaciones
26 en Marketing Digital, 2019
Extracción de atributos
Kolmogorov-Smirnov
KS compara la función de distribución acumulada observada de una
variable con una distribución teórica. El estadístico se calcula a partir de la
diferencia (en valor absoluto) entre las funciones de distribución

Acepta H0
acumuladas teórica y observada.

D = sup Fn(x̂ i) − F0(xi)

xi = es el i-ésimo valor observado en la muestra


Fn(x̂ i) = es un estimador de la probabilidad de observar valores
menores o iguales que xi

Rechaza H0
F0(xi) = es la probabilidad de observar valores menores o iguales
que xi cuando H0 es cierta

H0 : Ambas distribuciones son dependientes


(provienen de la misma distribución)
Data Mining y Aplicaciones
27 en Marketing Digital, 2019
Extracción de atributos
Métodos envolventes STOP

Modelo
Atributos
Forward

NO

X1, X2, X3
Resultado 1
Resultado 2 } ¿Resultado 2 > Resultado 1?
SI

Entrenamiento Evaluación
Iterar

STOP

Modelo
Backward

Atributos
}
NO
Resultado 1
¿Resultado 2 > Resultado 1?
X1, . . , Xn−1, Xn Resultado 2
SI
Entrenamiento Evaluación

Iterar

Data Mining y Aplicaciones


28 en Marketing Digital, 2019
RFM
RFM
Historial de compras

hoy Recency = tiempo entre hoy y última compra


Frequency = frecuencia de compras
Monetary value = monto total de las compras

F
Ejercicio: Otras áreas con

• Ámbito de la aplicación
• Objeto del análisis
R • Observaciones
• “Substitutos” de RFM
• Decisiones a tomar
M
Data Mining y Aplicaciones
29 en Marketing Digital, 2019
KDD es el proceso no-trivial de identificar patrones previamente desconocidos,
válidos, nuevos, potencialmente útiles y comprensibles dentro de los datos.

Interpretación y
evaluación

Minería de datos

Transformación

Preprocesamiento

Selección

Datos
Datos
Datos

seleccionados preprocesados transformados Patrones

Data Mining y Aplicaciones


en Marketing Digital, 2019
Aprendizajes
Tipos de aprendizaje
Supervisado

El objetivo es aproximar una función que mapea los datos del input ( x ) a el output ( y = f(x) )

No supervisado

El objetivo del aprendizaje no supervisado es encontrar estructuras o distribuciones subyacente


en los datos para aprender más sobre estos.

Data Mining y Aplicaciones


31 en Marketing Digital, 2019
Entrenamiento
Entrenamiento de un modelo
Datos de entrenamiento (75%-80%)

Datos disponibles (100%)

Datos de testeo (20%-25%)

Data Mining y Aplicaciones


32 en Marketing Digital, 2019
f(x)

Overfitting
Overfitting

f(x)

f(x)
x x x

(a) Underfitting (b) Good fitting (c) Overfitting

Data Mining y Aplicaciones


33 en Marketing Digital, 2019
Overfitting
Overfitting
Motivos de overfitting:

1. Se utilizan modelos más complejos de lo


necesario

- Navaja de Occam: dados dos modelos con errores
similares de generalización, se debe preferir el menos
complejo.


2. Error al escoger el conjunto de entrenamiento/


validación.


3. Datos insuficientes.

Data Mining y Aplicaciones


34 en Marketing Digital, 2019
Bias-Variance
Bias-Variance trade-off

Data Mining y Aplicaciones


35 en Marketing Digital, 2019
Clase 2
Árboles de decisión

Data Mining y Aplicaciones


36 en Marketing Digital, 2019
Árboles de decisión
Árboles de decisión
Idea: una decisión nace de una serie de eventos en
cadena
Age Single Purchase

Algoritmo base:
 28 Yes 1

30 No 1
1. Partir de un nodo con todos los elementos

2. Ramificar y avanzar al nodo siguiente


44 Yes 1
3. Criterios de detención:
 38 No 0
3.1 El nodo tiene sólo elementos de la misma clase
51 No 0
(asignar a ese nodo la clase mayoritaria. Volver al
nodo anterior y si estoy en nodo original terminar)
 31 Yes 1
3.2 No quedan atributos ( = 3.1)

Data Mining y Aplicaciones


37 en Marketing Digital, 2019
Árboles de decisión
Árboles de decisión
100% Age Single Purchase
Si No

Age < 32 28 Yes 1

30 No 1
Yes
50% No
44 Yes 1
Single
38 No 0

50% 17% 33% 51 No 0

Yes Yes No 31 Yes 1

Data Mining y Aplicaciones


38 en Marketing Digital, 2019
Árboles de decisión
Árboles de decisión ¿Cuánta información aporta un atributo?

Entropía. Ganancia de información.

+ + −
E2(K) = − p * Log2(p ) − p * Log2(p ) − Gain(K) = E2(Nodo superior) − MI(K)
m


K = nodok MI(K) = pj * E2(Ki)
+ − i
p /p = frecuencia relativa de ejemplos
m = número de valores distintos del atributo i
positivos/negativos en nodo K
E2(K) ≥ = 0 Ki = nodo i ∈ {i = 1,..,m}
+ −
E2(K) = 0 ⟷ p = 0 o p = 0 E2(Ki) = entropía del nodo Ki

Algoritmo selecciona nodo con menor entropía. Algoritmo selecciona nodo con mayor ganancia.

Data Mining y Aplicaciones


39 en Marketing Digital, 2019
Clase 2
K-Nearest Neighbors
(KNN)

Data Mining y Aplicaciones


40 en Marketing Digital, 2019
KNN
KNN KNN:

1. Escoger k impar (para evitar empates).


2. Escoger métrica de distancia (generalmente se usa distancia


euclidiana).

K=3 K=5
? 3. KNN supone que lo vecinos más cercanos entregan la mejor
representación utilizando toda las información (atributos)
disponible.


4. Si todos los atributos tienen el mismo peso, es posible que


atributos irrelevantes lleven a un error en la clasificación.


5. Es necesario un buen proceso de selección de atributos.



K=3 → Triángulo
6. Es conveniente ponderar atributos.
K=5 → Cuadrado

Data Mining y Aplicaciones


41 en Marketing Digital, 2019
Clase 2
Support Vector Machines
(SVM)

Data Mining y Aplicaciones


42 en Marketing Digital, 2019
SVM
SVM
Idea: existen dos tipos de errores en un problema de Formulación
clasificación:

1. Errores empíricos: errores asociados a la base de


datos (muestra) que observo.


2. Error estructural: errores asociados al espacio que


estudio.

Asumiremos que no existe una forma perfecta de


separar las observaciones de dos poblaciones por lo
que se genera un problema de optimización que
penaliza los errores en la función objetivo.

Data Mining y Aplicaciones


43 en Marketing Digital, 2019
SVM
SVM
{x | (w * x) + b = 0}
Kernels

Vectores de 

soporte

{x | (w * x) + b = + 1}

{x | (w * x) + b = − 1}

Data Mining y Aplicaciones


44 en Marketing Digital, 2019
Clase 2
Redes Neuronales (NN)

Data Mining y Aplicaciones


45 en Marketing Digital, 2019
Redes neuronales
Redes neuronales

Data Mining y Aplicaciones


46 en Marketing Digital, 2019
Redes
Perceptronneuronales
El perceptron es una función
Y = F(X, W)
Donde Y es el vector formado por las salidas del perceptron, X es el vector de entrada al perceptron, W
es el conjunto de todos los parámetros (pesos), y F una función continua no lineal.

X W F Y

output

Data Mining y Aplicaciones


47 en Marketing Digital, 2019
Redes neuronales
Redes neuronales
Forward Backward

bias bias

bias bias

Data Mining y Aplicaciones


48 en Marketing Digital, 2019
Hiperparámetros
Hiperparámetros
• Neuronas en capa de input

• Neuronas en capa oculta

bias bias

• Número de capas ocultas (deep learning)

• Número de épocas

• Tasa de aprendizaje

• Función de activación

• Medida de error

• Algoritmo de optimización
Data Mining y Aplicaciones
49 en Marketing Digital, 2019
Redes neuronales
Redes neuronales

Data Mining y Aplicaciones


50 en Marketing Digital, 2019
Data Mining y Aplicaciones en Marketing Digital
Clase 2 | 13 Noviembre 2019

Sebastián Santana R.

También podría gustarte