Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Agenda
Limpieza de datos
Mtodos para la descripcin de datos
Deteccin de outliers
Llenando missing values
PCA
Librera dplyr
Limpieza de datos
lesiones
03/01/2013
Caida
Si
05/01/2013
Volcamiento
No
21/01/2013
Atropello
Si
03/02/2013
Caida
Si
08/02/2013
Caida
Si
09/02/2013
Choque
Si
Tipo de accidente
Freq.Clase
Atropello
Caida
19
Choque
Choque Mortal
Cierre Vehiculo
Falla Humana
Falla Mecanica
Perdida de
Control
Salida Via
4
1
Volcamiento
Freq.Clase
Freq.Rel
Atropello
0.08
Caida
19
0.38
Choque
0.16
Choque Mortal
0.02
Cierre Vehiculo
0.1
Falla Humana
0.1
Falla Mecanica
0.04
Perdida de
Control
Salida Via
0.08
0.02
Volcamiento
0.02
Freq.Clase
Freq.Rel
Porcentaje
Atropello
0.08
Caida
19
0.38
38
Choque
0.16
16
Choque Mortal
0.02
Cierre Vehiculo
0.1
10
Falla Humana
0.1
10
Falla Mecanica
0.04
Perdida de
Control
Salida Via
0.08
0.02
Volcamiento
0.02
Los mtodos grficos son muy tiles para describir la forma que
presenta un conjunto de datos
El histograma es la herramienta ms empleada en el anlisis
exploratorio de datos
Cualquier paquete estadstico u hoja de clculo permite generar
este tipo de grficos
Histograma
Histograma MPG. Datos Vehculos
30
Count
20
10
0
10
20
30
MPG
40
20
drv
Count
4
f
r
10
0
10
20
30
40
MPG
count
750
500
250
0
0
10
15
20
Media muestral
x =
i=1 xi
Mediana
Moda
Sesgo
10+10+25+35+125+125
,
6
o 55.
Graficamente
2.0
count
1.5
1.0
0.5
0.0
0
50
100
Otro ejemplo
Resultados
6
4
2
0
Frequency
20 40 60
Histograma Consumo
Traccin trasera
Frequency
Histograma Consumo
Traccin delantera
15 20 25 30 35 40 45
14 16 18 20 22 24 26
MPG
MPG
Min.
1st Qu.
17
26
Min.
1st Qu.
15
17
Median Mean
28
28.16
Median Mean
21
21
3rd Qu.
Max.
29
44
3rd Qu.
Max.
24
26
50
40
30
Frequency
10
20
20
15
10
Frequency
25
60
Histograma Escenario 2
30
Histograma Escenario 1
10
10
20
30
Utilidad
10
10
20
30
Utilidad
Pn
x )2
n1
i=1 (xi
Y la desviacin estndar
se define como la raiz cuadrada de la
varianza muestral: s = s 2 .
model
caravan 2wd
: 11
ram 1500 pickup 4wd: 10
civic
: 9
dakota pickup 4wd : 9
jetta
: 9
mustang
: 9
(Other)
:177
displ
Min.
:1.600
1st Qu.:2.400
Median :3.300
Mean
:3.472
3rd Qu.:4.600
Max.
:7.000
Sistemas grficos en R
Histogramas (Base)
# Sistema Base
hist(mpg$hwy, prob=T, col="lightblue")
0.04
0.02
0.00
Density
0.06
Histogram of mpg$hwy
10
15
20
25
30
35
mpg$hwy
40
45
# Sistema Base
library(car)
par(mfrow=c(1,2))
hist(mpg$hwy, prob=T, xlab="",
main="Histograma de MPG en Carretera")
lines(density(mpg$hwy, na.rm=T))
rug(jitter(mpg$hwy))
qqPlot(mpg$hwy, main="QQ Plot de MPG")
par(mfrow=c(1,2))
30
20
25
mpg$hwy
0.03
0.02
15
0.01
0.00
Density
0.04
35
0.05
40
0.06
45
0.07
10
15
20
25
30
35
40
45
norm quantiles
# Sistema Base
boxplot(mpg$hwy, ylab="MPG - Carretera")
rug(jitter(mpg$hwy), side=2)
abline(h = mean(mpg$hwy, na.rm=T), lty=2)
30
25
20
15
MPG Carretera
35
40
45
Inspeccin de outliers
# Graficamente
plot(mpg$hwy, xlab="")
abline(h = mean(mpg$hwy, na.rm=T), lty=1)
abline(h = mean(mpg$hwy, na.rm=T) + sd(mpg$hwy, na.rm=T),
lty=2)
abline(h = median(mpg$hwy, na.rm=T), lty=3)
30
25
20
15
mpg$hwy
35
40
45
Inspeccin de outliers
50
100
150
200
Traccin
20
30
MPG en Carretera
40
#
g
g
g
g
g
Sistema ggplot
<- ggplot(mpg, aes(drv, hwy))
<- g + geom_boxplot()
<- g + labs(title="Box-Plots Consumo. Datos Vehculos")
<- g + labs(y="MPG", x="Traccin")
40
MPG
30
20
Traccin
#
g
g
g
g
g
g
Sistema ggplot
<- ggplot(mpg, aes(drv, hwy))
<- g + geom_boxplot(aes(fill=drv))
<- g + facet_grid(.~year)
<- g + labs(title="Box-Plots Consumo. Datos Vehculos")
<- g + labs(y="MPG", x="Traccin")
2008
40
drv
30
MPG
4
f
r
20
Traccin
Missing Values
Origen
Tratamiento
Imputacin (valor ms frecuente)
Imputacin (correlaciones)
Imputacin (casos similares, intro a KNN)
Remocin de NAs
# Funcin complete.cases()
library(DMwR); data(algae)
nrow(algae[!complete.cases(algae),])
## [1] 16
16 de los 200 registros en el dataset algae contienen al menos un
NA
algae2 <- na.omit(algae)
Remocin de NAs
Imputacin
Ceros
Medias, medianas, o clase ms frecuente
A partir de modelos lineales (correlaciones)
Casos similares
mP mO
mxPH 1
mnO2
1
Cl
NO3
NH4
oPO4
.
PO4
.
Chla .
a1
a2
.
a3
a4
.
a5
a6
Cl NO NH o P Ch a1 a2 a3 a4 a5 a6 a7
1
.
.
1
,
1
* 1
. .
. .
1
.
1
.
oPO4
1.293061
De manera formal
Primer componente
Zi = 11 X1 + 21 X2 + ... + p1 Xp
Combinacin lineal (normalizada) de los predictores, con la varianza
ms alta
Segundo componente
Z2 = 12 X1 + 22 X2 + ... + p2 Xp
Combinacin lineal (normalizada) de los predictores, con la varianza
ms alta, entre todas las combinaciones lineales que estn no
correlacionadas con el primer componente
Librera dplyr
filter()
##
manufacturer model displ year cyl
trans drv cty h
## 1
audi
a4
1.8 1999
4
auto(l5)
f 18
## 2
audi
a4
1.8 1999
4 manual(m5)
f 21
## 3
audi
a4
2.0 2008
4 manual(m6)
f 20
arrange()
select()
distinct()
Posibles valores de una columna (en combinacin con select())
distinct(select(mpg, trans))
##
##
##
##
##
##
##
##
##
##
##
trans
1
auto(l5)
2 manual(m5)
3 manual(m6)
4
auto(av)
5
auto(s6)
6
auto(l4)
7
auto(l3)
8
auto(l6)
9
auto(s5)
10
auto(s4)
Carlos Ignacio Patio (cpatinof@gmail.com)
mutate()
group_by() y summarize()
Agrupar y resumir datos
mpg.grouped <- group_by(mpg, cyl)
mpg.summ <- summarize(mpg.grouped, hwy.avg = mean(hwy),
cty.avg = mean(cty))
mpg.summ
##
##
##
##
##
##
##
cyl
4
5
6
8
hwy.avg
28.80247
28.75000
22.82278
17.62857
cty.avg
21.01235
20.50000
16.21519
12.57143