Está en la página 1de 43

Roman Mnguez.

Area
de Estadstica (UCLM)

Estadstica Aplicada a la Investigacion Social.


Tema: Estadstica Descriptiva.
Roman Mnguez Salido
roman.minguez@uclm.es
UCLM


Roman Mnguez. Area
de Estadstica (UCLM)

Tipos de Variables
I

Cualitativas
I

Nominales o Atributos (Factores en lenguaje estadstico R). A


los valores de las variables Factor se les denomina Niveles.
Ordinales.

Cuantitativas.
I
I

Discretas.
Continuas.

Las variables cualitativas (nominales u ordinales) y


cuantitativas discretas se resumen a traves de tablas de
frecuencias.
A partir de los datos ordenados (excepto las variables nominales
que no tienen orden) se pueden calcular las siguientes frecuencias:


Roman Mnguez. Area
de Estadstica (UCLM)

Distribuciones o Tablas de Frecuencias


I

I
I

Frecuencia Absoluta: ni (n
umero de veces que se repite cada
valor o nivel).
Frecuencia Relativa: fi = nNi donde N es el total de datos.
P
Frecuencia Absoluta Acumulada: Ni = j<i nj
(no tiene sentido calcularla en variables nominales).
i
Frecuencia Relativa Acumulada: Fi = N
N
(Idem que la anterior).
n
X

ni = N

i=1
n
X

fi = 1

i=1

Nn = N


Roman Mnguez. Area
de Estadstica (UCLM)

Instalacion software R y R-Commander


Descargar el programa R disponible en la pagina Web
http://cran.r-project.org/. Posteriormente, se instala el paquete
Rcmdr (llamado R-Commander) para poder trabajar con una
interface de men
u.
Una vez instalado el programa R, ejecutarlo y elegir el
men
u Paquetes/Instalar. Elegir un repositorio (pas) cualquiera de
los disponibles y elegir el programa Rcmdr para instalar.
Cuando se haya instalado el Rcmdr, elegir Paquetes/Cargar y
escoger Rcmdr entre los paquetes disponibles para entrar en la
interface de men
u.
La primera vez que se cargue el Rcmdr, pedira confirmacion para
instalar el resto de paquetes necesarios. Aceptar la instalacion de
paquetes adicionales.


Roman Mnguez. Area
de Estadstica (UCLM)
Descargar de Moodle el archivo Datos Desnutr Zambia.txt que
contiene las siguientes variables:
I

index.nutr.nino. ndice de nutrici


on del ni
no. Los valores
numericos son de 0 en adelante (es adimensional pero no
acotado).

durac.lactan: duraci
on en meses de la lactancia del ni
no.

edad.nino: edad en meses de los ni


nos.

sexo.nino: sexo del ni


no (hombre-mujer).

educ.madre: nivel de educaci


on de la madre (entre
no.educacion hasta educacion.superior).

edad.madre.birth: edad de la madre, en a


nos, al nacer el ni
no.

madre.trabaja: variable binaria (s/no) indicadora de si trabaja


la madre.

altura.madre: altura de la madre en metros.

region: region de procedencia del ni


no.


Roman Mnguez. Area
de Estadstica (UCLM)

Ejemplo Tablas de Frecuencias con software R


Entrar en el programa R y cargar el Rcmdr. Elegir la opcion del
men
u Datos/Importar Datos/Desde archivo de texto. Dejar las
opciones por defecto e importar el archivo
Datos Desnutr Zambia.txt.
Ahora escoger Estadsticos/Res
umenes/Distribuci
on de Frecuencias
y elegir las variables para las que se calculan las frecuencias (a
modo de ejemplo, elegimos educaci
on de la madre.)
##
##
##
##
##
##
##
##
##
##

counts:
educ.madre
no.educac
822

primaria secundaria
2756
767

superior
76

percentages:
educ.madre
no.educac
primaria secundaria
18.59
62.34
17.35

superior
1.72


Roman Mnguez. Area
de Estadstica (UCLM)

Agrupacion de variables continuas en intervalos


Para hacer tablas de frecuencias de variables continuas, es
necesario previamente agrupar los valores de las variables en
intervalos. Para ello es necesario determinar los lmites de los
intervalos as como la frecuencia asociada a cada uno de ellos.
Vamos a agrupar en 6 intervalos de la misma amplitud la variable
continua index.nutr.nino.
Para ello, en R-Commander elegir Datos/Modificar variables del
conjunto de datos activo/Segmentar variable numerica.
Elegir la variable index.nutr.nino, como nombre de la nueva
variable. Escoger index.nutr.nino.interv, en los nombres de los
niveles. Elegir Rangos (corresponde a los extremos del intervalo),
en n
umero de clases elegir 6 y en Metodo de Segmentacion escoger
Segmentos Equidistantes (corresponde a intervalos de igual
tama
no).


Roman Mnguez. Area
de Estadstica (UCLM)

Agrupacion de variables continuas en intervalos


Ahora, en la base de datos tendremos una nueva variable factor
denominada index.nutr.nino.interv con niveles (valores de la
variable) iguales a los intervalos correspondientes.
Si hacemos una distribuci
on de frecuencias de la nueva variable por
intervalos, los resultados son los siguientes:
##
##
##
##
##
##
##
##
##
##
##
##
##

counts:
index.nutr.nino.interv
(-1.1,184]
(184,368]
174
1230
(919,1.1e+03]
22
percentages:
index.nutr.nino.interv
(-1.1,184]
(184,368]
3.94
27.82
(919,1.1e+03]

(368,552]
2268

(552,735]
658

(735,919]
69

(368,552]
51.30

(552,735]
14.88

(735,919]
1.56


Roman Mnguez. Area
de Estadstica (UCLM)

Agrupacion de variables continuas en intervalos


Tabla de frecuencias del ndice de nutrici
on

(Li1 Li ]
xi
ni
(-1.1-183] 90.95 174
(183-367]
275 1230
(367-552] 459.5 2268
(552-736]
644
658
(736-920]
828
69
(920-1100] 1010
22

fi
174
= 0,04
4421
1230
= 0,28
4421
2268
= 0,51
4421
658
= 0,15
4421
69
= 0,02
4421
22
= 0,005
4421

Ni
174
1404
3672
4330
4399
4421

Fi
174
= 0,04
4421
1404
= 0.32
4421
3672
= 0,83
4421
4330
= 0,98
4421
4399
=
0,995
4421
4421
=1
4421

Los valores xi son las marcas de clase obtenidas como punto medio
del intervalo. En algunas ocasiones, se representa cada intervalo
por su marca de clase.


Roman Mnguez. Area
de Estadstica (UCLM)

Resumen de una distribucion o tabla de frecuencias


Buscamos caracterizar la distribuci
on por unos cuantos valores que
representen las caractersticas mas importantes (medidas).
I

Medidas de posici
on.

Medidas de dispersi
on.
Medidas de forma.

I
I

Asimetra.
Curtosis.

Medidas de desigualdad y concentraci


on.


Roman Mnguez. Area
de Estadstica (UCLM)

Medidas de Posicion
I

Centrales.
I
I
I

Moda.
Mediana.
Medias.
I
I
I

Aritmetica.
Geometrica.
Arm
onica.

No Centrales.
I

Cuantiles
I
I
I

Cuartiles.
Deciles.
Percentiles.


Roman Mnguez. Area
de Estadstica (UCLM)

Moda
Moda: el valor de la variable con mayor frecuencia absoluta.
Calculo:
I

Variables cualitativas o cuantitativas discretas: basta buscar el


valor con mayor ni .

Variables cuantitativas continuas agrupadas en intervalos: se


considera intervalo modal al valor con mayor densidad de
frecuencia (di ), cociente entre frecuencia absoluta y amplitud
del intervalo. El valor ci es la amplitud del intervalo modal. El
valor Li1 es el extremo inferior del intervalo modal.
M o = Li1 +

di+1
ci
di1 + di+1

Ejemplo: Hallar la moda en la tabla de frecuencias anterior


correspondiente al ndice de nutrici
on.


Roman Mnguez. Area
de Estadstica (UCLM)

Mediana
Mediana: es el valor central de la variable cuando los valores esten
ordenados de menor a mayor.
Calculo de la mediana para variables cuantitativas:
I

Se calcula N/2.

Se busca el valor xi tal que Ni > N/2.

Si casualmente hay alguno que tome tal valor xi , la mediana


es la media entre ese valor y el siguiente.

En otro caso, el primero estrictamente mayor que xi , se c


como mediana.


Roman Mnguez. Area
de Estadstica (UCLM)

Mediana para variables continuas agrupadas en intervalos


Calculo de la mediana para variable continua o agrupada en
intervalos:
I

Mismos pasos anteriores hasta encontrar el intervalo mediano.

Suponiendo que los valores de la variable esten uniformemente


distribuidos dentro del intervalo mediano, aplicar la siguiente
formula como aproximaci
on:
M e = Li1 +

N/2 Ni1
ci
ni

Ejemplo: Hallar la mediana en la tabla de frecuencias anterior del


ndice de nutricion.


Roman Mnguez. Area
de Estadstica (UCLM)

Media Aritmetica
La media aritmetica (al igual que la mediana) s
olo se calcula para
variables de tipo cuantitativo. La formula es la siguiente:
x=

n
X
xi ni
i=1

n
X

xi fi

i=1

P
donde ni=1 xi = x1 + x2 + + xn
Ejemplo: Hallar la media aritmetica en la tabla de frecuencias
anterior del ndice de nutrici
on.


Roman Mnguez. Area
de Estadstica (UCLM)

Propiedades de la media aritmetica


I

La suma de las desviaciones de los valores de la variable


respecto a su media es cero.

La media de las desviaciones al cuadrado de los valores de la


variable respecto a una constante k se hace mnima cuando
k = x.

Cambio de origen: Si a todos los valores de una variable se


les suma una cantidad constante b, entonces su media
tambien queda aumentada en esa cantidad.

Cambio de escala: Si a todos los valores de una variable se


les multiplica una cantidad constante c, entonces su media
tambien queda multiplicada por esa cantidad c.


Roman Mnguez. Area
de Estadstica (UCLM)

Medidas de posicion no centrales (cuantiles)


Cuartiles (Q1 , Q2 , Q3 , Q4 )
Dividen la distribucion en cuatro partes, cada una contiene el 25 %
de los datos.
I

El cuartil Q2 es la mediana.

El cuartil Q4 es el maximo de la distribuci


on.

Los cuartiles Q1 y Q3 se calculan con el mismo procedimiento que


la mediana pero con N/4 y 3N/4 en vez de N/2 como frecuencia
acumulada


Roman Mnguez. Area
de Estadstica (UCLM)

Medidas de posicion no centrales (cuantiles)


Deciles (D1 , D2 , D3 , , D9 , D10 )
Dividen la distribucion en diez partes, cada una contiene el 10 % de
los datos.
I

El decil D5 coincide con la mediana y el segundo cuartil Q2 .

El decil D10 coincide con el maximo de la variable y el cuarto


cuartil Q4 .

Los deciles, se calculan con el mismo procedimiento que la


mediana pero con N/10, 2N/10... y 9N/10 en vez de N/2 como
frecuencia acumulada.


Roman Mnguez. Area
de Estadstica (UCLM)

Medidas de posicion no centrales (cuantiles)


Percentiles (P1 , P2 , P3 , , P99 , P100 )
Dividen la distribucion en cien partes, cada una contiene el 1 % de
los datos.
I

El percentil P50 coincide con Q2 , D5 y la mediana.

El percentil P25 coincide con Q1 y el percentil P75 con Q3 .

El percentil P100 coincide con Q4 , D10 y el maximo de la


variable.

Los percentiles se calculan con el mismo procedimiento que la


mediana pero con N/100, 2N/100,... y 99N/100 en vez de N/2
como frecuencia acumulada.


Roman Mnguez. Area
de Estadstica (UCLM)

Medidas de posicion no centrales (cuantiles)


Calcular los siguientes cuantiles a partir de la tabla de frecuencias
del ndice de nutricion:
I

Por debajo de que valor del ndice de nutricion este el 27 %


de los ni
nos?. Cual es el valor maximo para el 43 % de los
ni
nos peor alimentados?.

Cual es el valor mnimo para el 36 % de los ni


nos mejor
alimentados?.

Entre que valores del ndice de nutrici


on este el 68 % central
de los ni
nos?.


Roman Mnguez. Area
de Estadstica (UCLM)

Calculo de medidas de posicion en R


En el men
u del R-Commander Estadsticos/Res
umenes/Res
umenes
Numericos escoger las variables cuantitativas de las cuales se
quieran calcular las medidas de posici
on (medias, medianas y
cuantiles).
En Estadsticos escoger la media y los cuantiles que se quieran
calcular (para calcular la mediana incluir el valor 0.5 en los
cuantiles).
Ejemplo para calcular la media, mediana y cuartiles de las variables
ndice de nutricion, edad del ni
no (en meses) y edad de la madre
(en a
nos) al nacimiento del ni
no.
##
mean
0%
25%
50%
75%
100%
n
## edad.madre.birth 26.4 13.2 21.1 25.3 31.1
48.7 4421
## edad.nino
27.1 0.0 12.0 26.0 42.0
59.0 4421
## index.nutr.nino 428.8 0.0 343.0 429.0 514.0 1103.0 4421


Roman Mnguez. Area
de Estadstica (UCLM)

Medidas de dispersion
Dispersion: Grado de separaci
on de los valores respecto a sus
medidas de tendencia central. S
olo se calculan para variables de
caracter cuantitativo.
Las medidas de dispersi
on miden la representatividad de las
medidas de posicion central (media, mediana y moda).
I

Medidas de dispersi
on absolutas.

Medidas de dispersi
on relativas.


Roman Mnguez. Area
de Estadstica (UCLM)

Medidas de dispersion absolutas


Vienen expresadas en las mismas unidades que la variable.
1. Rango o Recorrido: Rango=maximo-mnimo
2. Rango o Recorrido intercuartlico: RI = Q3 Q1
P
3. Desviacion Absoluta Media: Dx = ni=1 |xi x| nNi
4. Desviacion Absoluta Mediana: DMed = Mediana{|xi x|}
5. Varianza: s2 =

Pn

2
i=1 (xi x)

6. Desviacion tipica: s =

i=1n xi
N

x2

s2

En general, cuanto mayor sea el valor de la medida de dispersion


correspondiente, menos representativa sera la media u otra medida
de centralizacion (ejemplo: mediana)


Roman Mnguez. Area
de Estadstica (UCLM)

Propiedades de la varianza
1. s2 0. Si s2 = 0 entonces todos los valores xi son iguales
entre s.
2. Las unidades de la varianza s2 son las unidades de la variable
al cuadrado. Por el contrario, la desviaci
on tipica s tiene las
mismas unidades que la variable y que la media.
3. Cambio de origen: Si a todos los valores de una variable se
les suma una cantidad constante b, entonces la varianza no
queda afectada por esa cantidad. Idem para la desviacion
tipica s.
4. Cambio de escala: Si a todos los valores de una variable se
les multiplica una cantidad constante c, entonces la varianza
queda multiplicada por esa cantidad al cuadrado (c2 ). Sin
embargo, la desviaci
on tpica queda multiplicada por la misma
cantidad c.


Roman Mnguez. Area
de Estadstica (UCLM)
Medidas de dispersion absolutas (continuaci
on)
I

Cuasi-varianza. En muchas ocasiones, ademas de la varianza


se utiliza la cuasi-varianza que se define como
Pn
(xi x)2
2
s = i=1
N 1
La cuasi-varianza se puede calcular a partir de la varianza:
s2 = NN1 s2


Roman Mnguez. Area
de Estadstica (UCLM)

Medidas de dispersion relativas


Son adimensionales (caracen de unidades de medida) por lo que
permiten comparar dos o mas distribuciones entre ellas.
I

Coeficiente de variaci
on de Pearson: Cv =

s
|x|

En general, cuanto mayor sea Cv mayor es la dispersion y menor es


la representatividad de la media.
Para comparar la dispersi
on (u homogeneidad) entre variables con
distintas unidades hay que comparar sus coeficientes de variacion
(no sus desviaciones tpicas).
En general, tiene mayor homogeneidad (menor dispersion) la
variable con menor coeficiente de variaci
on.


Roman Mnguez. Area
de Estadstica (UCLM)

Calculo de medidas de dispersion en R


En el men
u del R-Commander Estadsticos/Res
umenes/Res
umenes
Numericos escoger las variables cuantitativas de las cuales se
quieran calcular las medidas de dispersi
on .
En Estadsticos escoger desviaci
on tpica, rango intercuartlico y
coeficiente de variacion. Ademas se pueden incluir otras medidas
de posicion si se quiere (por ejemplo, la media)
Ejemplo con las variables ndice de nutrici
on, edad del ni
no (en
meses) y edad de la madre (en a
nos) al nacimiento del ni
no.


Roman Mnguez. Area
de Estadstica (UCLM)
##
mean
sd IQR
cv
n
## edad.madre.birth 26.4
6.87 10 0.260 4421
## edad.nino
27.1 17.12 30 0.632 4421
## index.nutr.nino 428.8 139.34 171 0.325 4421

Cuestion: Que variables tienen mayor dispersi


on absoluta y mayor
dispersion relativa?. Que variable es mas homogenea?.


Roman Mnguez. Area
de Estadstica (UCLM)

Medidas de forma
Asimetra: Es una medida de forma que mide el grado de
asimetra de la grafica respecto a la media aritmetica.
I

Medida absoluta de asimetra:


m3 =

n
X
i=1

(xi x)3

ni
N

Medida relativa de asimetra (Coeficiente de asimetra de


Fisher):
m3
g1 = 3
s


Roman Mnguez. Area
de Estadstica (UCLM)
I

Si g1 = 0 la distribuci
on es simetrica.

Si g1 > 0 la distribuci
on es asimetrica positiva o asimetrica a
la derecha.

Si g1 < 0 la distribuci
on es asimetrica negativa o asimetrica a
la izquierda.


Roman Mnguez. Area
de Estadstica (UCLM)

Medidas de forma
Curtosis: La curtosis estudia la altura de la grafica, es decir, la
mayor o menor concentraci
on de datos alrededor de la media.
Medida absoluta de curtosis:
m4 =

n
X

(xi x)4

i=1

ni
N

Coeficiente de curtosis (medida relativa adimensional de curtosis):


g2 =

m4
3
s4

Si g2 = 0 la distribuci
on es mesoc
urtica o normal (gaussiana).

Si g2 > 0 la distribuci
on es leptoc
urtica.

Si g2 < 0 la distribuci
on es platic
urtica.

.0

0.1

0.2

0.3

0.4

Roman Mnguez. Area


de Estadstica (UCLM)

normal
leptoc.
platic.


Roman Mnguez. Area
de Estadstica (UCLM)

Calculo de medidas de forma en R


En el men
u del R-Commander Estadsticos/Res
umenes/Res
umenes
Numericos escoger las variables cuantitativas de las cuales se
quieran calcular las medidas de forma .
En Estadsticos escoger Asimetra y Apuntamiento (o curtosis).
Ademas se pueden incluir otras medidas de posici
on o dispersion.
Ejemplo con las variables ndice de nutrici
on, edad del ni
no (en
meses) y edad de la madre (en a
nos) al nacimiento del ni
no.


Roman Mnguez. Area
de Estadstica (UCLM)
##
mean
sd skewness kurtosis
n
## edad.madre.birth 26.4
6.87
0.561
-0.393 4421
## edad.nino
27.1 17.12
0.189
-1.154 4421
## index.nutr.nino 428.8 139.34
0.293
1.365 4421

Que tipo de asimetra muestran las tres variables?. Son


leptoc
urticas, platic
urticas o normales?.


Roman Mnguez. Area
de Estadstica (UCLM)

Representaciones Graficas
I

Histograma: Variables continuas o discretas con datos


agrupados.

Diagrama de caja: Variables continuas o discretas con datos


sin agrupar. Muy u
til para buscar valores atipicos.

Diagrama de barras: Variables cualitativas o cuantitativas


discretas con datos sin agrupar.

Diagrama de sectores: Sobre todo para variables nominales o


atributos.

Pictogramas: Alusivos a la variable analizada.

Cartogramas: Para representaci


on espacial.

Serie temporal: Para variables a lo largo del tiempo.


Roman Mnguez. Area
de Estadstica (UCLM)

Histograma
El histograma de una variable cuantitativa representa los intervalos
correspondientes a los valores de la variable en el eje horizontal. En
el eje vertical se representan barras cuya area es proporcional a la
frecuencia asociada al intervalo (bien absoluta o bien relativa).
El histograma nos proporciona informaci
on de manera visual sobre
las medidas de forma, tanto el apuntamiento (o curtosis) como,
especialmente, del grado de asimetra de la variable representada.


Roman Mnguez. Area
de Estadstica (UCLM)
Para dibujar un histograma con R-Commander elegir
Graficas/Histograma. Elegir la variable cuantitativa para hacer el
histograma y, en Opciones elegir el n
umero de clases (o intervalos)
para representar la variable y los ttulos de los ejes. En la escala de
los ejes pueden representarse las frecuencias absolutas o los
porcentajes (frecuencias relativas)

400
200
0

frequency

Histograma de la Edad de la Madre

20

30

40

50


Roman Mnguez. Area
de Estadstica (UCLM)

Diagramas de caja (Boxplot)


Este grafico para variables continuas representa una caja con el
50 % central de los datos. La amplitud de la caja corresponde a
Q3 Q1 y la barra central es la mediana. Desde cada extremo las
lneas discontinuas representan 1.5 veces el Rango Intercuartlico.
Los valores que sobresalen fuera de las lneas discontinuas son
considerados valores extremos.
Para graficar los boxplot en R-Commander elegir
Graficas/Diagramas de caja. Elegir la variable a representar. Si se
quiere, se puede dividir la variable en grupos definidos por otra
variable factor (cualitativa). Para ello, elegir en Grupos la variable
factor que los define. Finalmente, en Opciones se pueden elegir
ttulos del grafico y el n
umero de outliers u observaciones atpicas
a identificar


Roman Mnguez. Area
de Estadstica (UCLM)

Diagramas de caja (Boxplot)

25

35

45

1277
767
194
3150

2579
1982
2951
4026

15

edad.madre.birth

Ejemplo de Boxplot de la variable Edad de la Madre agrupada para


madres que trabajan o no:

No

Si
madre.trabaja


Roman Mnguez. Area
de Estadstica (UCLM)

Diagramas de barras
Los diagramas de barras son u
tiles para variables factor o
cualitativas. En el eje horizontal se representan los valores de la
variable (ojo: valores individuales, no intervalos como las variables
cuantitativas). En el eje vertical se representan barras con altura
proporcional a la frecuencia absoluta (ojo: es la altura la que es
proporcional a la frecuencia y no el area como las cuantitativas).


Roman Mnguez. Area
de Estadstica (UCLM)

Diagramas de barras
Para hacer un diagrama de barras con R-Commander elegir
Graficas/Grafica de barras. Elegir la variable factor a representar y
los ttulos correspondientes.

1500
500
0

Frequency

2500

Nivel de Educacin de la Madre


Roman Mnguez. Area
de Estadstica (UCLM)

Diagrama de sectores
Los diagramas de sectores tambien son u
tiles para variables factor
o cualitativas. Se representa un crculo dividido en tantos sectores
(porciones de crculo) como valores de la variable.
Para cada sector, el area es proporcional a la frecuencia de cada
valor


Roman Mnguez. Area
de Estadstica (UCLM)

Diagrama de sectores
Para hacer un diagrama de sectores en R-Commander elegir
Graficas/Grafica de Sectores y elegir la variable factor as como los
ttulos correspondientes del grafico.
Nivel de Educacin de la Madre

no.educac
primaria

superior

secundaria