Está en la página 1de 31

MÉTODOS ESTADÍSTICOS I – ESTADÍSTICA MATEMÁTICA II

ANÁLISIS DESCRIPTIVO DE DATOS

Diana Marcela Pérez Valencia


Departamento de Ingeniería Industrial
Facultad de Ingeniería
Universidad de Antioquia
Agosto de 2015
Características de los datos

• Buscaremos estudiar un fenómeno donde se observa un número p>1 de variables.

• Los valores de estas p variables se miden para cada unidad experimental

Unidad Var 1 Var 2 … Var p


U1 X11 X12 … X1p
U2 X21 X22 … X2p
. . . .
. . . … .
. . . .
Un Xn1 Xn2 … Xnp
2
Características de los datos

• Los datos anteriores también pueden disponerse de la siguiente forma

 X11 X12 X13  X1 p 


X X 22 X 23  X 2 p 
 21 
X np   X 31 X 32 X 33  X 3 p 
 
      
 X n1 X n2 X n3  X np 

• Donde cada Xij representa el valor de la j-ésima variable en la i-ésima unidad experimental

3
Tipos de Variables y Escalas de Medición

Mediciones Cero arbitrario


Continuas Intervalo
Cuantitativas
Discretas Razón
Conteos Cero absoluto

Nominal
Cualitativas Categóricas
Ordinal
Clasificaciones
Orden o jerarquía

4
Cálculo de medidas numéricas

Medidas de localización y de tendencia central

Permiten cuantificar numéricamente características de la población de la cual fueron tomados los


datos

• Media muestral (mean())

• Percentiles muestrales (quantile())

• Mediana muestral (median())

5
Cálculo de medidas numéricas

Medidas de dispersión

Permiten cuantificar, numéricamente, qué tan dispersos se encuentran los datos ya sea con
respecto a la media o con respecto a las unidades de medición.

• Rango (range(), da los valores máximo y mínimo, use la función diff(range()) para
calcular el rango)

• Varianza muestral (var())

• Dispersión Muestral (sd())

• Rango Intercuartil (IQR())

• Coeficiente de variación (sd()/mean())

6
Medidas numéricas para datos bivariados cuantitativos

Covarianza

Se calcula como n

 X i  X Yi  Y 
Cov ( X ,Y )  S XY  i 1
n 1

La covarianza (cov()) indica el sentido de la relación entre X y Y

• Si Cov(X,Y)>0, la relación es positiva

• Si Cov(X,Y)<0, la relación es negativa

El valor de la covarianza depende de las unidades de medición de las variables aleatorias.

7
Medidas numéricas para datos bivariados cuantitativos

Correlación

Se calcula como Cov ( X ,Y )


Corr ( X ,Y )   XY 
S X SY
La correlación (cor()) mide el grado de asociación lineal entre X y Y.

El rango del coeficiente de correlación es:

 1  Corr (X ,Y )  1

8
Matriz de Varianzas-Covarianzas y de correlación

Se calculan como

X1 X2  Xp X1 X2  Xp
X1  S12 S12  S1p  X1  1 12  1p 
 
X 2  S21 S22  S2 p  X 2   21 1  2p 
S ρ  
             
   
X p  S p1 S p 2  S p2  X p   p1  p 2  1 

9
Técnicas gráficas para explorar datos

Gráficamente es posible observar facetas interesantes de un conjunto de datos tales como

• Simetrías

• Dispersión

• Forma funcional

• Frecuencias

• Tendencias de un conjunto de datos

• Patrones de agrupamiento

• Presencia de valores atípicos

• Comparar medidas de centralidad de varias poblaciones

10
Técnicas gráficas para explorar datos

Gráficos más comunes

• Histogramas (hist())

• Box-plot o diagrama de caja y bigotes (boxplot())

• Diagrama de pastel o circulares (pie())

• Gráficos de barras (barplot())

• Gráficos de Dispersión (plot())

• Gráficos cuantil-cuantil (qqPlot{car})

11
Ejemplo. En la tabla “Encuesta Nacional Agropecuaria 24.08.2015.csv” se presentan datos sobre el
inventario de ganado porcícola de Colombia según departamentos. Se presentan las siguientes variables:

Nombre corto Variable Unidades


Departamento Nombre del Departamento Listado de Deptos.
Región Región geográfica en la que se encuentra el Depto. en Colombia Andina – Caribe – Orinoquía
IDH Índice de Desarrollo Humano Alto – Medio – Muy Alto
Tamaño Tamaño del Departamento Grande – Mediano – Pequeño
Superficie Superficie del Departamento Km2
M.reprod.serv Machos reproductores (en Servicio) Cabezas
M.reprod.reem Machos reproductores (de reemplazo) Cabezas
H.lact Cerdas en lactancia Cabezas
H.gesta Cerdas en gestación Cabezas
H.vacías Cerdas vacías Cabezas
H.reem Cerdas de reemplazo Cabezas
L.lact Lechones Lactantes Cabezas
L.prece Lechones en precebo Cabezas
C.Levante Cerdos en levante Cabezas

Para ver la información completa ir a


http://www.dane.gov.co/index.php/agropecuario-alias/estadisticas-agricolas-y-pecuarias-ena
12
Ejemplo. Hacer el análisis exploratorio de la base de datos “Encuesta Nacional Agropecuaria
24.08.2015.csv”. Para esto tenga en cuenta lo siguiente

i. Calcule medidas numéricas sobre las variables cuantitativas. Calcúlelas también


discriminando por alguna variable cualitativa.

ii. Calcule matrices de correlación sobre las variables cuantitativas.

iii. Construya tablas de contingencia para variables cualitativas.

iv. Construya gráficos para ver el comportamiento de variables individuales.

v. Construya gráficos para ver relaciones entre variables.

vi. Verifique normalidad sobre variables cuantitativas.

13
Lectura de datos en R

# Lectura de datos:
porcino<-read.table(file.choose(),header=T,sep=';',dec=',')

# Para imprimir en pantalla la primera parte de lo que fue guardado en este objeto:
head(porcino)
# Verifique siempre que sus datos hayan quedado bien leídos

# Para que se pueda acceder a las variables de la BD al escribir sus nombres:


attach(porcino)

14
Lectura de datos en R

# Para ver el tipo de variables de la base de datos


str(porcino)
'data.frame': 22 obs. of 14 variables:
$ Departamento : Factor w/ 22 levels "Antioquia","Atlántico",..: 1 2 3 4 5 6 7 8 9 10 ...
$ Región : Factor w/ 3 levels "Andina","Caribe",..: 1 2 2 1 1 3 1 2 2 1 ...
$ IDH : Factor w/ 4 levels "Alto","medio",..: 1 1 1 1 1 4 3 1 1 1 ...
$ Tamaño : Factor w/ 3 levels "Grande","Mediano",..: 1 3 2 2 3 1 1 2 2 2 ...
$ Superficie : int 63612 3386 25978 23189 7888 44640 29308 22905 23980 24210 ...
$ M.reprod.serv: num 1806 988 2677 1155 497 ...
$ M.reprod.reem: num 1134.8 109.5 207.9 394.9 48.4 ...
$ H.lact : num 3890 2233 2342 1291 339 ...
$ H.gesta : num 7407 834 931 1283 566 ...
$ H.vacías : num 6483 1877 1516 2310 1051 ...
$ H.reem : num 1250.2 0 521.5 659.9 23.8 ...
$ L.lact : num 20759 4899 6032 5632 2544 ...
$ L.prece : num 21476 1022 1757 3507 2194 ...
$ C.levante : num 48470 0 1496 6700 5591 ...
15
Medidas numéricas sobre las variables cuantitativas: Resúmenes
# Instale el paquete psych y luego cárguelo
require(psych)
# Lleve a una matriz sólo las variables cuantitativas
cuantis<-porcino[,5:14]
# Calcule resúmenes estadísticos para cada una de las variables cuantitativas
round(cbind(describe(cuantis),t(apply(cuantis,2,quantile))),1)

vars n mean sd median trimmed mad min max range skew kurtosis se 0% 25% 50% 75% 100%
Superficie 1 22 25796.5 19109.9 23375.5 22946.9 6981.6 1845.0 85635.0 83790.0 1.5 2.4 4074.2 1845.0 20129.5 23375.5 28475.5 85635.0
M.reprod.serv 2 22 1447.1 850.4 1195.3 1414.3 904.6 67.0 2933.0 2866.0 0.4 -1.1 181.3 67.0 818.0 1195.3 1966.1 2933.0
M.reprod.reem 3 22 444.0 623.7 235.6 308.9 256.9 0.0 2218.9 2218.9 1.7 1.9 133.0 0.0 43.2 235.6 386.9 2218.9
H.lact 4 22 1954.7 1456.0 1818.0 1827.0 1523.5 99.6 5681.7 5582.1 0.8 -0.1 310.4 99.6 766.1 1818.0 2661.8 5681.7
H.gesta 5 22 2060.3 1837.6 1302.0 1720.0 1235.1 344.0 7406.8 7062.8 1.5 1.7 391.8 344.0 878.3 1302.0 2647.0 7406.8
H.vacías 6 22 2566.0 1650.5 2369.0 2468.8 1570.2 64.1 6483.2 6419.1 0.5 -0.4 351.9 64.1 1420.0 2369.0 3502.9 6483.2
H.reem 7 22 533.8 525.5 436.2 467.2 567.3 0.0 1664.5 1664.5 0.9 -0.5 112.0 0.0 71.9 436.2 770.0 1664.5
L.lact 8 22 9917.9 7844.9 6096.1 8951.4 4662.2 840.6 29385.1 28544.4 1.0 -0.2 1672.5 840.6 4915.5 6096.1 14818.1 29385.1
L.prece 9 22 4962.1 4660.6 4021.7 4251.9 3993.6 612.8 21476.1 20863.4 1.9 4.4 993.6 612.8 1531.2 4021.7 6730.3 21476.1
C.levante 10 22 10234.4 10624.6 7104.5 8734.0 8563.0 0.0 48470.0 48470.0 2.0 4.8 2265.2 0.0 2717.9 7104.5 15786.9 48470.0

16
Medidas numéricas sobre las variables cuantitativas: Resúmenes

# Calcule resúmenes estadísticos para una variable cuantitativa, según una


cualitativa
describeBy(C.levante,group= Tamaño)

group: Grande
vars n mean sd median trimmed mad min max range skew kurtosis se
1 1 6 14840.36 17324.08 8101.86 14840.36 6646.22 2534.51 48469.98 45935.47 1.09 -0.55 7072.53
----------------------------------------------------------------------------------------------------
group: Mediano
vars n mean sd median trimmed mad min max range skew kurtosis se
1 1 10 11055.75 7146.31 15084.49 11385.29 4273.61 944.93 18530.32 17585.39 -0.4 -1.84 2259.86
----------------------------------------------------------------------------------------------------
group: Pequeño
vars n mean sd median trimmed mad min max range skew kurtosis se
1 1 6 4259.67 3522.67 4114.59 4259.67 4704.83 0 8658.28 8658.28 0.04 -2.01 1438.12

17
Medidas numéricas sobre las variables cuantitativas: Resúmenes

# Calcule resúmenes estadísticos para una variable cuantitativa, según una cualitativa
by(C.levante,Tamaño,quantile)

Tamaño: Grande
0% 25% 50% 75% 100%
2534.510 4774.113 8101.865 15652.268 48469.980
---------------------------------------------------------------------------------------
Tamaño: Mediano
0% 25% 50% 75% 100%
944.930 3892.852 15084.485 16309.685 18530.320
---------------------------------------------------------------------------------------
Tamaño: Pequeño
0% 25% 50% 75% 100%
0.000 1530.988 4114.590 7029.235 8658.280

18
Medidas numéricas sobre las variables cuantitativas
# Matriz de correlaciones
cor(cuantis)

Superficie M.reprod.serv M.reprod.reem H.lact H.gesta H.vacías H.reem L.lact L.prece C.levante
Superficie 1.000 0.270 0.038 0.286 0.413 0.421 0.495 0.259 0.536 0.536
M.reprod.serv 0.270 1.000 0.161 0.789 0.584 0.585 0.689 0.741 0.428 0.423
M.reprod.reem 0.038 0.161 1.000 0.150 0.170 0.635 0.424 0.216 0.463 0.316
H.lact 0.286 0.789 0.150 1.000 0.752 0.730 0.598 0.935 0.643 0.607
H.gesta 0.413 0.584 0.170 0.752 1.000 0.716 0.515 0.799 0.799 0.868
H.vacías 0.421 0.585 0.635 0.730 0.716 1.000 0.656 0.719 0.827 0.736
H.reem 0.495 0.689 0.424 0.598 0.515 0.656 1.000 0.698 0.607 0.629
L.lact 0.259 0.741 0.216 0.935 0.799 0.719 0.698 1.000 0.690 0.710
L.prece 0.536 0.428 0.463 0.643 0.799 0.827 0.607 0.690 1.000 0.912
C.levante 0.536 0.423 0.316 0.607 0.868 0.736 0.629 0.710 0.912 1.000

19
Construya tablas de contingencia para variables cualitativas
# Tabla de frecuencias absolutas para una sóla variable
table(Tamaño)
Tamaño
Grande Mediano Pequeño
6 10 6

# Tabla de frecuencias relativas para una sóla variable


prop.table(table(Tamaño))*100
Tamaño
Grande Mediano Pequeño
27.27273 45.45455 27.27273

20
Construya tablas de contingencia para variables cualitativas

# Tabla de frecuencias para dos variables


table(Tamaño,IDH)

IDH
Tamaño Alto Medio Muy Alto
Grande 2 2 2
Mediano 7 2 1
Pequeño 5 1 0

21
Construya gráficos para ver el comportamiento de las variables
# Histogramas
hist(C.levante,col='gray')

22
Construya gráficos para ver el comportamiento de las variables
# Boxplots
boxplot(C.levante,col='gray',ylab='Cerdos de Levante')

23
Construya gráficos para ver el comportamiento de las variables
# Boxplots comparativos
boxplot(C.levante~Tamaño,col='gray',ylab='Cerdos de Levante',
xlab='Tamaño del Departamento')

24
Construya gráficos para ver el comportamiento de las variables
# Gráfico de barras
barplot(prop.table(table(Tamaño)),cex.names=0.5)

25
Construya gráficos para ver el comportamiento de las variables
# Gráfico de barras comparativas
barplot(prop.table(table(Tamaño,IDH)),col=rainbow(10),
legend.text=sort(unique(Tamaño)))

26
Construya gráficos para ver el comportamiento de las variables
# Gráfico de dispersión
plot(H.gesta, C.levante,pch=16)

27
Construya gráficos para ver el comportamiento de las variables
# Gráfico de dispersión
plot(H.gesta, C.levante,pch=16,col=Tamaño)
legend('topleft',legend=sort(unique(Tamaño)),col=1:3,pch=16,bty='n',cex=0.8)

28
Construya gráficos para ver el comportamiento de las variables
# Matriz de gráficos de dispersión
pairs(cuantis)

29
Verificando normalidad sobre variables cuantitativas
# Gráficos para verificar normalidad

par(mfrow=c(1,3))
boxplot(C.levante)
hist(C.levante)
require(car)
qqPlot(C.levante)

30
Verificando normalidad sobre variables cuantitativas

require(tseries)
require(nortest) lillie.test(C.levante)
Lilliefors normality test
shapiro.test(C.levante) D = 0.172, p-value = 0.08948
Shapiro-Wilk normality test
W = 0.7618, p-value = 0.0001339 pearson.test(C.levante)
Pearson chi-square normality test
jarque.bera.test(C.levante) P = 11.0909, p-value = 0.02556
Jarque Bera Test
X-squared = 45.4905, df = 2, p-value = sf.test(C.levante)
1.324e-10 Shapiro-Francia normality test
W = 0.7444, p-value = 0.0001919
ad.test(C.levante)
Anderson-Darling normality test
A = 1.3088, p-value = 0.001607

cvm.test(C.levante)
Cramer-von Mises normality test
W = 0.1781, p-value = 0.009093

31

También podría gustarte