Está en la página 1de 28

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Estadstica. 4o Curso

Licenciatura en Ciencias Ambientales

Licenciatura en Ciencias Ambientales (4o Curso)

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

1 / 28

ndice

Objetivos de la Estadstica Descriptiva

Conceptos Bsicos

Mtodos para la organizacin de conjuntos de datos

Mtodos para la representacin grfica de conjuntos de datos

Mtodos para el resumen de conjuntos de datos

Licenciatura en Ciencias Ambientales (4o Curso)

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

2 / 28

Objetivos de la Estadstica Descriptiva

Estudia los procedimientos apropiados para organizar, representar grficamente y


resumir convenientemente la informacin contenida en un conjunto de datos.
Es la parte de la Estadstica ms conocida por ser muy frecuentemente utilizada en los
medios de comunicacin y en la vida cotidiana.
Los procedimientos que proporciona la Estadstica Descriptiva slo permiten obtener
conclusiones para los conjuntos de datos recogidos y no para las poblaciones de las
que han sido extrados.

Licenciatura en Ciencias Ambientales (4o Curso)

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

3 / 28

Conceptos Bsicos
Experimentos estadsticos
Una vez seleccionada la muestra de la poblacin, medimos en las n unidades
experimentales la variable o variables que pretendemos estudiar.
Si X es una de estas variables obtendremos que x1 , . . . , xn son los valores que toma la
variable X en los individuos 1, 2, . . . , n, respectivamente. Se denomina a su vez
muestra de la variable X.

Ejemplo de tabla de datos


1
2
3
4
..
.
n
Licenciatura en Ciencias Ambientales (4o Curso)

X
x1
x2
x3
x4
..
.
xn

Y
y1
y2
y3
y4
..
.
yn

Z
z1
z2
z3
z4
..
.
zn

W
w1
w2
w3
w4
..
.
wn

...
...
...
...
...
...

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

4 / 28

Mtodos para la organizacin de conjuntos de datos


Tablas de frecuencias: Variables cualitativas
n (tamao de la muestra) frecuencia total.
M1 , . . . , Mk modalidades distintas de la variable sobre la muestra.
ni frecuencia absoluta de Mi ; es el nmero de veces que se repite la modalidad
Mi (n1 + + nk = n )
ni
fi =
fi frecuencia relativa de la modalidad Mi ;
n
(f1 + + fk = 1)
Mod.
M1
M2
..
.
Mk

Licenciatura en Ciencias Ambientales (4o Curso)

ni
n1
n2
..
.
nk
n

fi
f1
f2
..
.
fk
1

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

5 / 28

Mtodos para la organizacin de conjuntos de datos


Ejemplo 1
En una zona contaminada se tomaron una serie de muestras de aire y se midieron los
niveles de CO (alto, medio, bajo), obtenindose los siguientes resultados:
dato
CO
dato
CO

1
A
11
B

2
A
12
A

3
M
13
A

4
B
14
M
Mod.
Alto
Medio
Bajo

Licenciatura en Ciencias Ambientales (4o Curso)

5
A
15
A
ni
8
6
6
20

6
M
16
A

7
B
17
B

8
B
18
M

9
A
19
M

10
M
20
B

fi
0.4
0.3
0.3
1

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

6 / 28

Mtodos para la organizacin de conjuntos de datos


Tablas de frecuencias: Variables cuantitativas discretas
n (tamao de la muestra) frecuencia total.
x1 , . . . , xk valores distintos de la variable sobre la muestra. (x1 < < xn )
ni frecuencia absoluta y fi frecuencia relativa; se definen del mismo
modo que para las variables cualitativas.
Ni frecuencia absoluta acumulada de xi ; Ni = n1 + + ni
Fi frecuencia relativa acumulada de xi ; Fi = f1 + + fi
valor
x1
x2
..
.
xk

Licenciatura en Ciencias Ambientales (4o Curso)

ni
n1
n2
..
.
nk
n

fi
f1
f2
..
.
fk
1

Ni
N1
N2
..
.
Nk = n

(Nk = n)
(Fk = n)

Fi
F1
F2
..
.
Fk = 1

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

7 / 28

Mtodos para la organizacin de conjuntos de datos

Ejemplo 2
Se desea saber el riesgo de extincin de la cigea en una cierta regin. Se eligen en
dicha regin 25 nidos mediante un MAS, contando los huevos que hay en cada nido.
Resulta que 2 de los nidos no tenan huevos, 3 tenan un huevo, 4 tenan 2 huevos, 8
tenan 3 huevos, 5 tenan 4 huevos y el resto 5 huevos.
valor
0
1
2
3
4
5

Licenciatura en Ciencias Ambientales (4o Curso)

ni
2
3
4
8
5
3
25

fi
0.08
0.12
0.16
0.32
0.2
0.12
1

Ni
2
5
9
17
22
25

Fi
0.08
0.2
0.36
0.68
0.88
1

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

8 / 28

Mtodos para la organizacin de conjuntos de datos


Tablas de frecuencias: Variables cuantitativas continuas
Antes de construir la tabla de frecuencias hay que agrupar los datos de estas variables
en intervalos. La forma de hacerlo es la siguiente:
Determinar valores mximo (Vmax ) y mnimo (Vmin ) de los datos.
Determinar el nmero (k) de intervalos a construir, que deben ser todos de la
misma amplitud.
Vmax Vmin
Determinar la amplitud de los intervalos: a
k
A veces conviene redondear esta amplitud pero NUNCA DEBEMOS PERDER
NINGN DATO EN EL PROCESO.

Cmo determinar el nmero de intervalos?


Categoras prefijadas en estudios anteriores.
A criterio del investigador.
Mediante la Frmula de Sturges (k 1 + 3.322 log10 n) u otra similar.
Licenciatura en Ciencias Ambientales (4o Curso)

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

9 / 28

Mtodos para la organizacin de conjuntos de datos


Ejemplo 3
En la siguiente tabla se muestran los niveles de colinesterasa de 34 agricultores
expuestos a insecticidas agrcolas:
10.6
11.5
14.9

12.2
10.3
11.3

Vmin = 7.8

11.8
8.6
11.1

12.5
9.9
12.5

10.8
12.4
12.3

Vmax = 16.5

12.7
8.5
10.2

11.1
11.9
12.5

16.5
9.1
9.7

11.4
10.1
12.3

9.2
11.6
12.0

15.0
7.8

9.3
12.4

k 1 + 3.322 log10 34 = 6.08 6

16.5 7.8
= 1.45( 1.5)
6

Sin redondear:
[7.8, 9.25], (9.25, 10.7], (10.7, 12.15], (12.15, 13.6], (13.6, 15.05], (15.05, 16.5]
Redondeando:
[7.5, 9], (9, 10.5], (10.5, 12], (12, 13.5], (13.5, 15], (15, 16.5]
Licenciatura en Ciencias Ambientales (4o Curso)

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

10 / 28

Mtodos para la organizacin de conjuntos de datos


Tablas de frecuencias: variables cuantitativas continuas
I1 = [a0 , a1 ], I2 = (a1 , a2 ], . . . , Ik = (ak1 , ak ] intervalos en los que se han agrupado
los datos.
ni frecuencia absoluta del intervalo Ii ; es el nmero de valores que pertenecen
al intervalo Ii .
ni
fi frecuencia relativa del intervalo Ii ;
fi =
n
Ni frecuencia absoluta acumulada del intervalo Ii ; Ni = n1 + + ni
Fi frecuencia relativa acumulada del intervalo Ii ; Fi = f1 + + fi
intervalo
I1
I2
..
.
Ik

Licenciatura en Ciencias Ambientales (4o Curso)

ni
n1
n2
..
.
nk
n

fi
f1
f2
..
.
fk
1

Ni
N1
N2
..
.
Nk = n

Fi
F1
F2
..
.
Fk = 1

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

11 / 28

Mtodos para la organizacin de conjuntos de datos

Ejemplo 3 (continuacin)
Tabla de frecuencias para los datos de los niveles de colinesterasa de 34 agricultores
expuestos a insecticidas agrcolas:

Licenciatura en Ciencias Ambientales (4o Curso)

intervalo
[7.5, 9]

ni
3

fi
0.088

Ni
3

Fi
0.088

(9, 10.5]

0.235

11

0.323

(10.5, 12]

11

0.324

22

0.647

(12, 13.5]

0.265

31

0.911

(13.5, 15]

0.059

33

0.971

(15, 16.5]

1
34

0.029
1

34

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

12 / 28

Mtodos para la representacin grfica de conjuntos de


datos
Variables cualitativas: diagrama de sectores
Se calculan frecuencias relativas (fi ).
A la modalidad Mi se le asigna un ngulo de fi 360o .
No es conveniente que haya un nmero excesivo de modalidades.

Ejemplo 1 (continuacin)
Alto

Mod.
Alto
Medio
Bajo

ni
8
6
6
20

fi
0.4
0.3
0.3
1

grados
144
108
108

Bajo
Medio

Licenciatura en Ciencias Ambientales (4o Curso)

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

13 / 28

Mtodos para la representacin grfica de conjuntos de


datos
Variables cualitativas: diagrama de barras
Esta representacin consiste en construir tantos rectngulos o barras como
modalidades presente el carcter bajo estudio. La altura que alcanza cada barra puede
ser igual a la frecuencia absoluta o bien a la frecuencia relativa de la modalidad a la
que corresponde dicha barra.

0.2

0.1

0.0

fi
0.4
0.3
0.3
1

ni
8
6
6
20

Mod.
Alto
Medio
Bajo

0.3

0.4

Ejemplo 1 (continuacin)

Alto

Licenciatura en Ciencias Ambientales (4o Curso)

Bajo

Medio

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Alto

Bajo

Medio

Curso 2009-2010

14 / 28

Mtodos para la representacin grfica de conjuntos de


datos
Variables cuantitativas discretas: polgono de frecuencias
Se colocan los valores ordenados de menor a mayor en el eje horizontal. A cada valor
de la variable se le asocia un punto con la altura correspondiente a su frecuencia
absoluta o bien a su frecuencia relativa. Los puntos se conectan mediante segmentos.
Este polgono puede representarse de forma superpuesta a un diagrama de barras.

Licenciatura en Ciencias Ambientales (4o Curso)

6
4

fi
0.08
0.12
0.16
0.32
0.2
0.12
1

ni
2
3
4
8
5
3
25

valor
0
1
2
3
4
5

Ejemplo 2 (continuacin)

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

15 / 28

Mtodos para la representacin grfica de conjuntos de


datos
Variables cuantitativas continuas: histograma
Para construir el histograma partimos de la tabla de frecuencias de los datos.
Dividimos el eje horizontal en los intervalos en que hemos agrupado los datos.
Sobre cada intervalo construiremos un rectngulo. Para la altura de estos rectngulos
tenemos tres opciones:
Las frecuencias absolutas.
Las frecuencias relativas.
Se construyen rectngulos cuyas reas sean las frecuencias relativas. Si hi es la
altura del rectngulo que hay sobre el intervalo Ii y a es la amplitud de todos los
intervalos
fi
fi = hi a hi =
a

Licenciatura en Ciencias Ambientales (4o Curso)

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

16 / 28

Mtodos para la representacin grfica de conjuntos de


datos

Fi
0.088

(9, 10.5]

0.235

11

0.323

(10.5, 12]

11

0.324

22

0.647

(12, 13.5]

0.265

31

0.911

(13.5, 15]

0.059

33

0.971

(15, 16.5]

1
34

0.029
1

34

Licenciatura en Ciencias Ambientales (4o Curso)

0.15

Ni
3

0.10

fi
0.088

0.05

ni
3

0.00

intervalo
[7.5, 9]

0.20

Ejemplo 3 (continuacin)

10

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

12

14

16

Curso 2009-2010

17 / 28

Mtodos para el resumen de conjuntos de datos


Advertencia!!!
SLO PARA VARIABLES CUANTITATIVAS DISCRETAS Y CONTINUAS SIN
AGRUPAR

Medidas de centralizacin: moda y media


La moda es el dato ms repetido. Puede haber ms de una.
La media (x) es el valor central en el sentido aritmtico. Viene a ser el centro de
gravedad de los datos.
x1 + + xn
x =
n
Si la variable es discreta y los datos estn agrupados en una tabla de frecuencias
x =

Licenciatura en Ciencias Ambientales (4o Curso)

x1 n1 + + xk nk
= x1 f1 + + xk fk
n

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

18 / 28

4. Medidas de sntesis de la informacin

Medidas de centralizacin: mediana


La mediana (x) es un valor que deja la mitad de los datos a su izquierda y la otra
mitad a su derecha. Ocupa la posicin central en el sentido del orden.
Para calcularla hay que ordenar los datos de menor a mayor y entonces:
Si n impar, x dato que ocupa la posicin

n+1
2

Si n par, x punto medio de los datos que ocupan las posiciones

Licenciatura en Ciencias Ambientales (4o Curso)

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

n n
y +1
2 2

Curso 2009-2010

19 / 28

Mtodos para el resumen de conjuntos de datos

Ejemplo 2 (continuacin)
Si en una variable discreta nos dan los datos agrupados en una tabla de frecuencias,
para calcular la mediana se utilizan las frecuencias absolutas acumuladas:
valor
0
1
2
3
4
5

ni
2
3
4
8
5
3

fi
0.08
0.12
0.16
0.32
0.2
0.12

Ni
2
5
9
17
22
25

Licenciatura en Ciencias Ambientales (4o Curso)

Fi
0.08
0.2
0.36
0.68
0.88
1

x = 2.8

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

x = 3

Curso 2009-2010

20 / 28

Mtodos para el resumen de conjuntos de datos

0.15

0.20

Ejemplo 3 (continuacin)

x = 11.45

0.00

0.05

0.10

x = 11.35294 ,

10

12

14

Licenciatura en Ciencias Ambientales (4o Curso)

16

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

21 / 28

Mtodos para el resumen de conjuntos de datos


Medidas de posicin: cuartiles
Primer cuartil (Q1 ) es el valor que deja a su izquierda la cuarta parte de los
n+1
datos. Para calcularlo se ordenan los datos de menor a mayor y se toma
2
redondeado por defecto. A este nmero lo llamamos q.
q+1
.
2
q q
Si q es par, Q1 es el punto medio de los datos que ocupan las posiciones y + 1.
2 2
Si q es impar, Q1 es el dato que ocupa la posicin

Segundo cuartil (Q2 ) Es el valor que deja a la izquierda dos cuartas partes de los
datos. Por tanto se trata de la mediana, Q2 = x.
Tercer cuartil (Q3 ) Es el valor que deja a la izquierda las tres cuartas partes de
los datos. Su posicin es simtrica a la de Q1 .

Otras medidas de posicin


Deciles: El decil i-simo deja i/10 de los datos a la izquierda.
Percentiles: El percentil p deja el 100p% de los datos a la izquierda.
Licenciatura en Ciencias Ambientales (4o Curso)

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

22 / 28

Mtodos para el resumen de conjuntos de datos

Ejemplo 3 (continuacin)
7.80
9.90
11.10
12.00
12.50

8.50
10.10
11.30
12.20
12.50

8.60
10.20
11.40
12.30
12.70

Q1 = 10.10 ,

Licenciatura en Ciencias Ambientales (4o Curso)

9.10
10.30
11.50
12.30
14.90

9.20
10.60
11.60
12.40
15.00

9.30
10.80
11.80
12.40
16.50

Q2 = x = 11.45 ,

9.70
11.10
11.90
12.50

Q3 = 12.40

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

23 / 28

Mtodos para el resumen de conjuntos de datos

Medidas de dispersin
Rango (R): diferencia entre el mximo y el mnimo.
Varianza muestral (s2 ):
Mide la variabilidad de los datos respecto de la media muestral x.
!
n
n
X
1 X
1
2
2
2
2
(xi x) =
xi nx
s =
n1
n1
i=1

i=1

Desviacin tpica (s):

Se define como s = s2 . La raz cuadrada compensa el hecho de haber elevado


los datos al cuadrado. Por tanto se mide en las mismas unidades que los datos.

Licenciatura en Ciencias Ambientales (4o Curso)

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

24 / 28

Mtodos para el resumen de conjuntos de datos


Medidas de dispersin
Rango intercuartlico (RI ): Distancia entre Q1 y Q3 , RI = Q3 Q1 . En esta
distancia se concentran el 50% de los datos, concretamente los que ocupan
posiciones centrales.
Coeficiente de variacin (C.V.): Mide la dispersin de los datos en relacin a
su orden de magnitud. Se utiliza para comparar la dispersin de distintos grupos
de datos.
s
C.V. = 100
x

Ejemplo 3 (continuacin)
R = 8.7

s2 = 3.514082

RI = 2.30

Licenciatura en Ciencias Ambientales (4o Curso)

s = 1.874588

C.V. = 16.51%

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

25 / 28

Mtodos para el resumen de conjuntos de datos


Diagramas de caja
Se trata de una representacin grfica ligada a los cuartiles. Con los datos del Ejemplo
3 podemos dibujar el siguiente:
16

12

Q1

Q3
~
x

10

14

h3

h1

h1 es el dato ms prximo a Q1 1.5RI mayor que este valor.


h3 es el dato ms prximo a Q3 + 1.5RI menor que este valor.
Los valores menores que h1 mayores que h3 son valores atpicos que pueden ser
datos influyentes o simplemente mal tomados.
Licenciatura en Ciencias Ambientales (4o Curso)

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

26 / 28

Mtodos para el resumen de conjuntos de datos


Medidas de forma: coeficiente de asimetra
El coeficiente de asimetra (g1 ) se define como:
1 Xn
(xi x)3
i=1
n
g1 =
s3

4
g1=0

Licenciatura en Ciencias Ambientales (4o Curso)

0.05
0.00

0.0

0.00

0.1

0.05

0.10

0.2

0.10

0.15

0.3

0.15

0.20

0.4

Conforme ms prximo est g1 a 0 ms simetra presentan los datos. Si g1 > 0 hay


una desviacin hacia valores altos y si g1 < 0 hacia valores bajos.

10

12

g1>0

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

10

12

g1<0

Curso 2009-2010

27 / 28

Mtodos para el resumen de conjuntos de datos

Medidas de forma: coeficiente de curtosis


El coeficiente de aplastamiento o de curtosis (g2 ) Se define como:
1 Xn
(xi x)4
i=1
n
3
g2 =
s4
Si g2 = 0 el grado de aplastamiento de los datos ser similar al de una campana de
Gauss. Si g2 > 0 los datos presentan un menor aplastamiento que la campana de
Gauss y si g2 < 0, los datos aparecen ms aplastados que la campana de Gauss.

Ejemplo 3 (continuacin)
g1 = 0.4899285

Licenciatura en Ciencias Ambientales (4o Curso)

g2 = 0.3731027

Tema 2: Anlisis Descriptivo de Conjuntos de Datos

Curso 2009-2010

28 / 28

También podría gustarte