Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2-DataPreprocessing MAB
2-DataPreprocessing MAB
Preparación de la información
•Media aritmética:
max
S1
Set de max
datos S2
…
max
Sn
Q1 Q2 Q3 75° perc
25° perc
IQR Interquartile range = Q3 – Q1
Karim Pichara B. PUC Chile
100 - quantiles = percentiles
10 - quantiles = deciles
5 – quantiles = quintiles
4 – quantiles = cuartiles
Outliers
>1.5*IQR+Q3 Max
200 Q3
180
160
Mediana
140
120 Q1
100
80 Min
60
40
20
Fuente: https://arxiv.org/pdf/0711.0703v1.pdf
Boxplots in Python
• Example in python:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
Histograma Simple
PUC Chile
Algunos Gráficos(cont..)
PUC Chile
Ex: Data distribution per class for
one variable
http://arxiv.org/pdf/1104.3142.pdf
https://arxiv.org/pdf/0711.0703v1.pdf
Ex: Histograms for conditionals and
marginals
Fuente: http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2966.2012.22061.x/epdf
Algunos Gráficos(cont..)
Q4
Q3
Ventas $
producto 2
Q2
Q1
Q1 Q2 Q3 Q4
producto1
Ventas tienden a ser menores en producto 1.
Scatter Plot
500
400
Items vendidos
300
correlación
positiva
200
100
Scatter Plot
500
400
Items vendidos
300
correlación
negativa
200
100
Scatter Plot
500
400
Items vendidos
300
Sin correlación
200
100
Difficulty Intelligence
Grade SAT
Letter
BN Factorization:
P(D,I,G,S,L) = P(D)P(I)P(G|D,I)P(S|I)P(L|G)
Ex: Valor más probable
Ex: Valor más probable
Ej: Qué hacemos si Grade es faltante, por ejemplo, tenemos una entrada:
x = [ 0 , 1 , ? , 0, 0 ] (D, I, G, S, L) respectivamente
Datos Faltantes(Cont..)
Y1
Y1’ y=x+1
X1 x
Posibles
outliers
Posibles
outliers
Sin correlación
Correlación Negativa Correlación positiva
-1 0 1
Detección y Resolución de conflictos
entre valores
nt
pon e
l com
n cipa
P ri
PUC Chile
Recordar algunos conceptos
básicos necesarios
(Caso discreto)
(Caso continuo)
Karim Pichara B.
(Monte Carlo approximation)
Conceptos básicos necesarios
• Ejemplo: valor esperado de una función f
model data
p(w|D)
Temp(d) = ∫ 𝑓 𝑤 ∗ 𝑝(𝑤|𝑑𝑎𝑡𝑎) 𝑑𝑤
Karim Pichara B.
Conceptos básicos necesarios
, 𝑤𝑖 ~ 𝑝
Temp(d) = -
∑/ 𝑓 𝑤𝑖
Los casos vienen de la
distribución p
Karim Pichara B.
Recordar algunos conceptos
básicos necesarios
• Linealidad:
promedio promedio
•Matriz de Covarianza:
Recordar algunos conceptos
básicos necesarios
•Covarianza:
DxD