Documentos de Académico
Documentos de Profesional
Documentos de Cultura
3
Tipos de Variables y Escalas de Medición
Nominal
Cualitativas Categóricas
Ordinal
Clasificaciones
Orden o jerarquía
4
Cálculo de medidas numéricas
5
Cálculo de medidas numéricas
Medidas de dispersión
Permiten cuantificar, numéricamente, qué tan dispersos se encuentran los datos ya sea con
respecto a la media o con respecto a las unidades de medición.
• Rango (range(), da los valores máximo y mínimo, use la función diff(range()) para
calcular el rango)
6
Medidas numéricas para datos bivariados cuantitativos
Covarianza
Se calcula como n
X i X Yi Y
Cov ( X ,Y ) S XY i 1
n 1
7
Medidas numéricas para datos bivariados cuantitativos
Correlación
1 Corr (X ,Y ) 1
8
Matriz de Varianzas-Covarianzas y de correlación
Se calculan como
X1 X2 Xp X1 X2 Xp
X1 S12 S12 S1p X1 1 12 1p
X 2 S21 S22 S2 p X 2 21 1 2p
S ρ
X p S p1 S p 2 S p2 X p p1 p 2 1
9
Técnicas gráficas para explorar datos
• Simetrías
• Dispersión
• Forma funcional
• Frecuencias
• Patrones de agrupamiento
10
Técnicas gráficas para explorar datos
• Histogramas (hist())
11
Ejemplo. En la tabla “Encuesta Nacional Agropecuaria 24.08.2015.csv” se presentan datos sobre el
inventario de ganado porcícola de Colombia según departamentos. Se presentan las siguientes variables:
13
Lectura de datos en R
# Lectura de datos:
porcino<-read.table(file.choose(),header=T,sep=';',dec=',')
# Para imprimir en pantalla la primera parte de lo que fue guardado en este objeto:
head(porcino)
# Verifique siempre que sus datos hayan quedado bien leídos
14
Lectura de datos en R
vars n mean sd median trimmed mad min max range skew kurtosis se 0% 25% 50% 75% 100%
Superficie 1 22 25796.5 19109.9 23375.5 22946.9 6981.6 1845.0 85635.0 83790.0 1.5 2.4 4074.2 1845.0 20129.5 23375.5 28475.5 85635.0
M.reprod.serv 2 22 1447.1 850.4 1195.3 1414.3 904.6 67.0 2933.0 2866.0 0.4 -1.1 181.3 67.0 818.0 1195.3 1966.1 2933.0
M.reprod.reem 3 22 444.0 623.7 235.6 308.9 256.9 0.0 2218.9 2218.9 1.7 1.9 133.0 0.0 43.2 235.6 386.9 2218.9
H.lact 4 22 1954.7 1456.0 1818.0 1827.0 1523.5 99.6 5681.7 5582.1 0.8 -0.1 310.4 99.6 766.1 1818.0 2661.8 5681.7
H.gesta 5 22 2060.3 1837.6 1302.0 1720.0 1235.1 344.0 7406.8 7062.8 1.5 1.7 391.8 344.0 878.3 1302.0 2647.0 7406.8
H.vacías 6 22 2566.0 1650.5 2369.0 2468.8 1570.2 64.1 6483.2 6419.1 0.5 -0.4 351.9 64.1 1420.0 2369.0 3502.9 6483.2
H.reem 7 22 533.8 525.5 436.2 467.2 567.3 0.0 1664.5 1664.5 0.9 -0.5 112.0 0.0 71.9 436.2 770.0 1664.5
L.lact 8 22 9917.9 7844.9 6096.1 8951.4 4662.2 840.6 29385.1 28544.4 1.0 -0.2 1672.5 840.6 4915.5 6096.1 14818.1 29385.1
L.prece 9 22 4962.1 4660.6 4021.7 4251.9 3993.6 612.8 21476.1 20863.4 1.9 4.4 993.6 612.8 1531.2 4021.7 6730.3 21476.1
C.levante 10 22 10234.4 10624.6 7104.5 8734.0 8563.0 0.0 48470.0 48470.0 2.0 4.8 2265.2 0.0 2717.9 7104.5 15786.9 48470.0
16
Medidas numéricas sobre las variables cuantitativas: Resúmenes
group: Grande
vars n mean sd median trimmed mad min max range skew kurtosis se
1 1 6 14840.36 17324.08 8101.86 14840.36 6646.22 2534.51 48469.98 45935.47 1.09 -0.55 7072.53
----------------------------------------------------------------------------------------------------
group: Mediano
vars n mean sd median trimmed mad min max range skew kurtosis se
1 1 10 11055.75 7146.31 15084.49 11385.29 4273.61 944.93 18530.32 17585.39 -0.4 -1.84 2259.86
----------------------------------------------------------------------------------------------------
group: Pequeño
vars n mean sd median trimmed mad min max range skew kurtosis se
1 1 6 4259.67 3522.67 4114.59 4259.67 4704.83 0 8658.28 8658.28 0.04 -2.01 1438.12
17
Medidas numéricas sobre las variables cuantitativas: Resúmenes
# Calcule resúmenes estadísticos para una variable cuantitativa, según una cualitativa
by(C.levante,Tamaño,quantile)
Tamaño: Grande
0% 25% 50% 75% 100%
2534.510 4774.113 8101.865 15652.268 48469.980
---------------------------------------------------------------------------------------
Tamaño: Mediano
0% 25% 50% 75% 100%
944.930 3892.852 15084.485 16309.685 18530.320
---------------------------------------------------------------------------------------
Tamaño: Pequeño
0% 25% 50% 75% 100%
0.000 1530.988 4114.590 7029.235 8658.280
18
Medidas numéricas sobre las variables cuantitativas
# Matriz de correlaciones
cor(cuantis)
Superficie M.reprod.serv M.reprod.reem H.lact H.gesta H.vacías H.reem L.lact L.prece C.levante
Superficie 1.000 0.270 0.038 0.286 0.413 0.421 0.495 0.259 0.536 0.536
M.reprod.serv 0.270 1.000 0.161 0.789 0.584 0.585 0.689 0.741 0.428 0.423
M.reprod.reem 0.038 0.161 1.000 0.150 0.170 0.635 0.424 0.216 0.463 0.316
H.lact 0.286 0.789 0.150 1.000 0.752 0.730 0.598 0.935 0.643 0.607
H.gesta 0.413 0.584 0.170 0.752 1.000 0.716 0.515 0.799 0.799 0.868
H.vacías 0.421 0.585 0.635 0.730 0.716 1.000 0.656 0.719 0.827 0.736
H.reem 0.495 0.689 0.424 0.598 0.515 0.656 1.000 0.698 0.607 0.629
L.lact 0.259 0.741 0.216 0.935 0.799 0.719 0.698 1.000 0.690 0.710
L.prece 0.536 0.428 0.463 0.643 0.799 0.827 0.607 0.690 1.000 0.912
C.levante 0.536 0.423 0.316 0.607 0.868 0.736 0.629 0.710 0.912 1.000
19
Construya tablas de contingencia para variables cualitativas
# Tabla de frecuencias absolutas para una sóla variable
table(Tamaño)
Tamaño
Grande Mediano Pequeño
6 10 6
20
Construya tablas de contingencia para variables cualitativas
IDH
Tamaño Alto Medio Muy Alto
Grande 2 2 2
Mediano 7 2 1
Pequeño 5 1 0
21
Construya gráficos para ver el comportamiento de las variables
# Histogramas
hist(C.levante,col='gray')
22
Construya gráficos para ver el comportamiento de las variables
# Boxplots
boxplot(C.levante,col='gray',ylab='Cerdos de Levante')
23
Construya gráficos para ver el comportamiento de las variables
# Boxplots comparativos
boxplot(C.levante~Tamaño,col='gray',ylab='Cerdos de Levante',
xlab='Tamaño del Departamento')
24
Construya gráficos para ver el comportamiento de las variables
# Gráfico de barras
barplot(prop.table(table(Tamaño)),cex.names=0.5)
25
Construya gráficos para ver el comportamiento de las variables
# Gráfico de barras comparativas
barplot(prop.table(table(Tamaño,IDH)),col=rainbow(10),
legend.text=sort(unique(Tamaño)))
26
Construya gráficos para ver el comportamiento de las variables
# Gráfico de dispersión
plot(H.gesta, C.levante,pch=16)
27
Construya gráficos para ver el comportamiento de las variables
# Gráfico de dispersión
plot(H.gesta, C.levante,pch=16,col=Tamaño)
legend('topleft',legend=sort(unique(Tamaño)),col=1:3,pch=16,bty='n',cex=0.8)
28
Construya gráficos para ver el comportamiento de las variables
# Matriz de gráficos de dispersión
pairs(cuantis)
29
Verificando normalidad sobre variables cuantitativas
# Gráficos para verificar normalidad
par(mfrow=c(1,3))
boxplot(C.levante)
hist(C.levante)
require(car)
qqPlot(C.levante)
30
Verificando normalidad sobre variables cuantitativas
require(tseries)
require(nortest) lillie.test(C.levante)
Lilliefors normality test
shapiro.test(C.levante) D = 0.172, p-value = 0.08948
Shapiro-Wilk normality test
W = 0.7618, p-value = 0.0001339 pearson.test(C.levante)
Pearson chi-square normality test
jarque.bera.test(C.levante) P = 11.0909, p-value = 0.02556
Jarque Bera Test
X-squared = 45.4905, df = 2, p-value = sf.test(C.levante)
1.324e-10 Shapiro-Francia normality test
W = 0.7444, p-value = 0.0001919
ad.test(C.levante)
Anderson-Darling normality test
A = 1.3088, p-value = 0.001607
cvm.test(C.levante)
Cramer-von Mises normality test
W = 0.1781, p-value = 0.009093
31