Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase 2 - Conceptos de DM
Clase 2 - Conceptos de DM
Sebastián Santana R.
Agenda clase 2
Clase 2
Agenda
• Proceso KDD
• Aplicaciones en R
Motivación
35% of Amazon.com’s revenue is generated by its
recommendation engine
Mckinsey: How retailers can keep up with consumers
La forma en la que las compañías se relacionan
con sus clientes ha cambiado. Todos ustedes
poseen en retailer mas grande del mundo en sus
bolsillos y mochilas. Todo eso no viene gratis, las
empresas tienen mas datos de ustedes que nunca
y lo han sabido aprovechar.
Motivación
How to use machine learning for marketing
Interpretación y
evaluación
Minería de datos
Transformación
Preprocesamiento
Selección
Datos
Datos
Datos
Outliers
https://www.r-bloggers.com/outlier-detection-and-treatment-with-r/
Boxplot
Outliers Outliers
Máximo
Q75
Rango intercuartil (RIQ)
Q50
(Mediana)
Q75 - Q25 = 50% de
las observaciones
Q25
1. Medida de dispersión
Mínimo
4. Límite superior : Q75 + 1.5*RIC
1. Missing Completely at Random (MCAR): los valores perdidos no se relacionan con las
variables en la base de datos.
2. Missing at Random (MAR): los valores perdidos se relacionan con los valores de las otras
variables dentro de la base de datos.
3. Not Missing at Random or Nonignorable (NMAR): los valores perdidos dependen del valor de
la variable.
CONs
• Corrompe la distribución Y
PROs
• Preserva la distribución marginar de la variable
CONs
• Altera correlaciones y covarianzas
4. Métodos de regresión x′ x
1 x
Reemplazar los valores perdidos por un valor obtenido a través 2 Observados
x
de un modelo de regresión x1, x2, . . , xa x x+
+ x
x x+
x x
PROs Perdidos x x + +x x
a x +
x
• Se obtiene un valor más certero xa+1, xa+2, . . , xn
n
CONs
x′
• Aumenta correlaciones
PROs
• Altamente eficiente con pocos datos y muestras válidas
CONs
• Poco eficiente con muestras grandes
• No saca provecho de correlaciones
CONs
• Las técnicas de imputación alteran los resultados de los
modelos
• El esfuerzo por encontrar una buena técnica para
imputar los datos puede ser mas costoso que el beficio
obtenido
x−μ
Z= ∼ N(0,1)
σ
PROs
1. Considera propiedades estadísticas.
2. Se conoce μ y σ .
CONs
1. No todas las variables son (o tienen que ser)
normales.
2. z ∈ (−∞, ∞)
CONs
1. ¿Conozco siempre el rango?
2. No considera dispersión.
3. Cuidado con valores fuera de rango.
Yu y Liu (2004) definen el conjunto de características óptimas 3. Embebidos (embedded): realizan la selección de
como que se compone de todas las características atributos durante el proceso de entrenamiento del
fuertemente relevantes y las débilmente relevantes, pero no algoritmo.
redundantes.
n
1 2
n∑
Var(X) = (xi − μ)
x=1
Fr * Fk < 30 60 50 110
Fe = = frecuencia esperada de la celda e r=2
n >= 30 80 10 90
k=2
Fr = frecuencia total de la fila r
k=2
Valor crítico de chi-cuadrado (df = 1, alpha = 0.01) = 6.63
(Fo − Fe)2 (60 − 77)2 (50 − 33)2 (80 − 63)2 (10 − 27)2
∑
Chi − cuadrado = = + + + = 27.8 > 6.63 = > Se rechaza Ho
e
Fe 77 33 63 27
∴ Edad y sexo son independientes
Data Mining y Aplicaciones
26 en Marketing Digital, 2019
Extracción de atributos
Kolmogorov-Smirnov
KS compara la función de distribución acumulada observada de una
variable con una distribución teórica. El estadístico se calcula a partir de la
diferencia (en valor absoluto) entre las funciones de distribución
Acepta H0
acumuladas teórica y observada.
Rechaza H0
F0(xi) = es la probabilidad de observar valores menores o iguales
que xi cuando H0 es cierta
Modelo
Atributos
Forward
NO
X1, X2, X3
Resultado 1
Resultado 2 } ¿Resultado 2 > Resultado 1?
SI
Entrenamiento Evaluación
Iterar
STOP
Modelo
Backward
Atributos
}
NO
Resultado 1
¿Resultado 2 > Resultado 1?
X1, . . , Xn−1, Xn Resultado 2
SI
Entrenamiento Evaluación
Iterar
F
Ejercicio: Otras áreas con
• Ámbito de la aplicación
• Objeto del análisis
R • Observaciones
• “Substitutos” de RFM
• Decisiones a tomar
M
Data Mining y Aplicaciones
29 en Marketing Digital, 2019
KDD es el proceso no-trivial de identificar patrones previamente desconocidos,
válidos, nuevos, potencialmente útiles y comprensibles dentro de los datos.
Interpretación y
evaluación
Minería de datos
Transformación
Preprocesamiento
Selección
Datos
Datos
Datos
El objetivo es aproximar una función que mapea los datos del input ( x ) a el output ( y = f(x) )
No supervisado
Overfitting
Overfitting
f(x)
f(x)
x x x
3. Datos insuficientes.
30 No 1
1. Partir de un nodo con todos los elementos
30 No 1
Yes
50% No
44 Yes 1
Single
38 No 0
+ + −
E2(K) = − p * Log2(p ) − p * Log2(p ) − Gain(K) = E2(Nodo superior) − MI(K)
m
∑
K = nodok MI(K) = pj * E2(Ki)
+ − i
p /p = frecuencia relativa de ejemplos
m = número de valores distintos del atributo i
positivos/negativos en nodo K
E2(K) ≥ = 0 Ki = nodo i ∈ {i = 1,..,m}
+ −
E2(K) = 0 ⟷ p = 0 o p = 0 E2(Ki) = entropía del nodo Ki
Algoritmo selecciona nodo con menor entropía. Algoritmo selecciona nodo con mayor ganancia.
Vectores de
soporte
{x | (w * x) + b = + 1}
{x | (w * x) + b = − 1}
X W F Y
output
bias bias
bias bias
bias bias
• Número de épocas
• Tasa de aprendizaje
• Función de activación
• Medida de error
• Algoritmo de optimización
Data Mining y Aplicaciones
49 en Marketing Digital, 2019
Redes neuronales
Redes neuronales
Sebastián Santana R.