Está en la página 1de 37

TEMA 2: DESCRIPCIN DE VARIABLES CUANTITATIVAS:

DISTRIBUCIN DE FRECUENCIAS Y REPRESENTACIN


GRFICA

La naturaleza numrica de las variables cuantitativas


permite un tratamiento estadstico ms elaborado que con
las variables cualitativas.

Con

las

variables

cuantitativas

pueden

realizarse

operaciones matemticas, lo que permite una descripcin


ms precisa y completa.

En este tema estudiaremos la distribucin de frecuencias y


su representacin grfica (como hemos hecho para las
variables cualitativas en el Tema 1) y en los siguientes
temas veremos otras formas de describir una variable
cuantitativa.

A) Variables Discretas

La distribucin de frecuencias para las variables discretas


es semejante a lo que hemos visto para el caso de las
variables cualitativas, ya que las categoras en que se
agrupan los datos vienen dadas de forma natural por los
valores que toma la variable.

Ejemplo 1:
Cien familias se han clasificado segn el nmero de hijos,
resultando los siguientes datos:

N de Hijos
N de familias

0
11

1
13

2
20

3
25

N=100; k=9

Frecuencias absolutas:
2

4
14

5
10

6
4

7
2

8
1

n1=11; n2=13; n3=20; n4=25; n5=14; n6=10; n7=4; n8=2; n9=1

Frecuencias relativas:

f1

11
0 ,1 1 ;
100

f2

13
0 ,1 3 ;
100

f3

20
0 ,2
100

f4

25
0 ,2 5 ;
100

f5

14
0 ,1 4 ;
100

f6

10
0 ,1
100

f7

4
0 ,0 4 ;
100

f8

2
0 ,0 2 ;
100

f9

1
0 ,0 1
100

Distribucin de frecuencias:

Categoras
0
1
2
3
4
5
6
7
8

ni
11
13
20
25
14
10
4
2
1
N=100

fi
0,11
0,13
0,2
0,25
0,14
0,1
0,04
0,02
0,01
1

La categora ms numerosa es la de familias con 3 hijos y la


menos frecuente es la de familias con 8 hijos

Diagrama de barras
Frecuencias relativas fi
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0

Frecuencias absolutas ni
30
25
20
15
10
5
0
0

En general, las clases vienen ordenadas de forma


natural de menor a mayor por lo que tiene sentido
definir la distribucin de frecuencias acumulada.

Para

construir la

distribucin

de

frecuencias

acumulada hay que sumar a la frecuencia de cada


clase (absoluta o relativa) la de las clases anteriores.

Los valores de la distribucin de frecuencias


acumulada no decrecen.

La informacin sobre los datos que proporcionan la


distribucin de frecuencias y la distribucin de
frecuencias acumulada es equivalente. Cada una
puede obtenerse a partir de la otra.

Ejemplo: N de hijos
Frecuencias

Frecuencias absolutas

Frecuencias

Frecuencias

Categoras

absolutas

acumuladas

relativas

relativas acumuladas

0
1
2
3
4
5
6
7
8

ni
11
13
20
25
14
10
4
2
1
N=100

Ni
11
24
44
69
83
93
97
99
100

fi
0,11
0,13
0,2
0,25
0,14
0,1
0,04
0,02
0,01
1

Fi
0,11
0,24
0,44
0,69
0,83
0,93
0,97
0,99
1

El ltimo valor de la distribucin de frecuencias


absolutas acumuladas coincide con N.

El ltimo valor de la distribucin de frecuencias


relativas acumuladas es 1 (salvo error de redondeo).

La distribucin de frecuencias acumulada nos


permite conocer la proporcin (o el nmero) de
observaciones por debajo de cierto valor, entre dos
valores o por encima de una cantidad.

Ejemplo: N de hijos

- Qu proporcin de familias tiene menos de 2 hijos?


0,24

- Cuntas familias tienen menos de 4 hijos? 69

- Qu proporcin de familias tiene ms de 6 hijos?


0,03=1-0,97=0,01+0,02

- Qu proporcin de familias tiene ms de 3 hijos pero


menos de 7? 0,28=0,14+0,1+0,04=0,97-0,69

Representacin grfica de la distribucin de frecuencias


acumulada

Frecuencias relativas Fi
8

1.0
0.8
0.6
0.4
0.2
0.0
0

Ejercicio 3.2 de Pea y Romo


Los siguientes datos corresponden al nmero de
bibliotecarios en las bibliotecas pblicas de las diferentes
provincias espaolas:

4 7 5 2 4 5 6 4 7 3 7 4 3 4 4 3 4 3 2 4 4 1 10 2 5 3 2 2 5 3 3 8
12 3 2 2 5 4 1 5 8 6 6 1 3 15 16 6 7 12

(a)

Hallar la distribucin de frecuencias relativas y


representarla mediante un diagrama de barras

(b)

Obtener

representar

la

distribucin

de

frecuencias relativas acumuladas


(c)

Qu proporcin de provincias tiene ms de 7


bibliotecarios?

10

Bibliotecarios

1
2
3
4
5
6
7
8
10
12
15
16

Frecuencias

Frecuencias absolutas

Frecuencias

Frecuencias

absolutas

acumuladas

relativas

relativas acumuladas

ni
3
7
9
10
6
4
4
2
1
2
1
1

Ni
3
10
19
29
35
39
43
45
46
48
49
50

fi
0,06
0,14
0,18
0,2
0,12
0,08
0,08
0,04
0,02
0,04
0,02
0,02

Fi
0,06
0,2
0,38
0,58
0,7
0,78
0,86
0,9
0,92
0,96
0,98
1

11

Frecuencias relativas: fi
0.25
0.20
0.15
0.10
0.05
0.00
1

10 12 15 16

Frecuencias relativas acumuladas: Fi


1.0
0.8
0.6
0.4
0.2
0.0
1

12

10 12 15 16

- La

proporcin

de

provincias

con

ms

de

bibliotecarios es de 0,14
0,14=1-0,86=0,04+0,02+0,04+0,02+0,02

- La mayora de las provincias

(62%) tiene 4

bibliotecarios o ms: 0,62=1-0,38=


=0,2+0,12+0,08+0,08+0,04+0,02+0,04+0,02+0,02

- 4 es la clase ms frecuente con una frecuencia relativa


de 0,2

- Ms de la mitad de las provincias espaolas (F4=0,58)


tiene menos de 5 bibliotecarios

- La proporcin de provincias espaolas que tienen


entre 5 y 7 bibliotecarios es de 0,28
0,28=0,12+0,08+0,08=0,86-0,58

13

B) Variables Continuas

El anlisis de la distribucin de frecuencias de las variables


cuantitativas continuas es ms complejo que el de las
variables cualitativas o discretas.

Las categoras o clases no vienen dadas de forma natural


sino que deben elegirse.

Tendremos que dividir el recorrido (o conjunto de posibles


valores de la variable) en intervalos que no se solapen.

El punto central de cada intervalo se llama marca de clase


(ci).

El resto de los elementos y conceptos de la distribucin de


frecuencias de una variable continua es equivalente a lo
visto en las cualitativas y discretas.

14

Ejemplo:
La variable GTINE representa el gasto total. Los datos
correspondientes a 75 hogares son:

81.861 105.628 110.690 134.246 226.177 273.870 142.376 309.964 101.431


276.273 662.803 493.728 308.787 254.420 172.928 142.678 510.223 158.829
278.854 168.620 176.204 179.108 113.074 876.161 64.425 112.352 255.465
321.307 434.375 707.444 90.460 89.498 466.862 87.112 309.829 247.425
427.812 195.740 257.638 176.656 285.935 450.571 56.292 306.488 156.772
531.099 475.760 316.500 279.586 48.586 96.670 256.548 514.330 161.595
228.368 638.366 442.162 65.060 160.580 197.390 152.077 228.808 76.920
255.196 241.986 417.103 752.436 352.708 259.472 225.388 174.341 308.705
455.125 122.696 479.791

- Tomando intervalos o clases iguales y de tamao


100.000 pesetas, vamos a calcular la distribucin de
frecuencias.
- Por

ejemplo,

el

primer

intervalo

0<GTINE100.000 y la marca de clase c1=50.000.


- El nmero de intervalos o clases ser k=9.

15

ser:

Gasto Total (GTINE G)

Gasto
(en miles de ptas.)

0<G100
100<G200
200<G300
300<G400
400<G500
500<G600
600<G700
700<G800
800<G900

Frecuencias

Frecuencias absolutas

Frecuencias

Frecuencias

absolutas

acumuladas

relativas

relativas acumuladas

ni
10
22
17
8
10
3
2
2
1
N=75

Ni
10
32
49
57
67
70
72
74
75

fi
0,13
0,29
0,23
0,11
0,13
0,04
0,03
0,03
0,01
1

Fi
0,13
0,42
0,65
0,76
0,89
0,93
0,96
0,99
1

16

- La proporcin de familias que gasta 200.000 pesetas o


menos es de 0,42.

- La proporcin de familias que gasta ms de 600.000


pesetas es 0,07=1-0,93=0,03+0,03+0,01.

- La proporcin de familias que gasta ms de 100.000


pero no ms de 300.000 es 0,52=0,29+0,23=0,65-0,13

17

Representacin grfica de la distribucin de frecuencias

1) El Histograma
El histograma es un grfico que representa las
frecuencias mediante reas. Sobre cada clase (o rango
de valores) se dibuja un rectngulo cuyo rea
representa la frecuencia (absoluta o relativa) de esa
clase.

Cuando las clases (o intervalos) en que dividimos los


datos son de distinta longitud el eje vertical no tiene
sentido. Como la frecuencia es el rea de cada
rectngulo, si dibujamos rectngulos con distinta base
su mayor o menor altura no nos da informacin.

(Ver Ejemplo de GTINE en Figura 3.4 de Pea y


Romo)

18

Cuando las clases (o intervalos) son de la misma


longitud, las frecuencias son proporcionales a las
alturas de los rectngulos. La altura nos informa
sobre la densidad o concentracin de datos en ese
intervalo:
- donde los rectngulos son ms altos hay ms datos de
la variable
- donde los rectngulos son ms bajos los datos de la
variable son ms escasos
Ejemplo: GTINE (distribucin frecuencias pag.16)

Frecuencias relativas (%)

Histograma de GTINE
30
25
20
15
10
5
0
0

0,2

0,4

0,6

GTINE

19

0,8

1
(X 1,E6)

Los rectngulos se dibujan contiguos (a diferencia del


diagrama de barras o de Pareto) para transmitir la
idea de variable continua.

La

forma

del

histograma

es

la

misma

si

representamos frecuencias absolutas o relativas, slo


cambia la escala del eje vertical.
Ejemplo: GTINE

Frecuencias absolutas

Histograma de GTINE
24
20
16
12
8
4
0
0

0,2

0,4

0,6

GTINE

20

0,8

1
(X 1,E6)

Comparar con el histograma de frecuencias relativas


de la pgina anterior.

La forma del histograma s que depende de:


- anchura de las clases o tamao de los intervalos
- eleccin del punto donde empieza la primera clase
Ejemplo: GTINE

Frecuencias relativas (%)

Histograma de GTINE
18
15
12
9
6
3
0
0

0,2

0,4

0,6

0,8

GTINE

1
(X 1,E6)

Cmo elegimos los intervalos (o el nmero de clases)?

- Empezar con pocas clases y ver (en el histograma) si


con ms clases tenemos ms informacin (ver Figura
3.6 de Pea y Romo de la variable NOTAS)

21

- Si tenemos N observaciones elegir el nmero de clases


igual al entero ms prximo a

(En el ejemplo de

GTINE como N=75 entonces

7 5 8 ,6 9 )

tanto

la

Por qu

nos

preocupa

forma

del

histograma? Porque la forma del histograma refleja


propiedades importantes de la variable.

El histograma (al igual que el diagrama de barras)


nos muestran caractersticas de una variable que
pueden apreciarse visualmente:

- Se puede ver si la distribucin es simtrica alrededor


de un eje central o si es asimtrica
Ejemplo:
GTINE es asimtrica a la derecha (ver pag. 19)
NOTAS es simtrica alrededor del 5 (ver Figura 3.6
de Pea y Romo)

22

- Se puede ver si presenta un solo mximo o pico o


moda y es, por tanto, unimodal o si presenta varias
modas

- Algunas de las formas ms frecuentes de histogramas


son (ver Figura 3.8 de Pea y Romo):
o Unimodal simtrico: se suele dar en variables en
las que hay una gran cantidad de observaciones
con valores intermedios y algunos valores en
ambos extremos (notas, peso, altura)
o Unimodal asimtrico a la derecha: se da en
variables que tienen una gran cantidad de
observaciones pequeas o intermedias y algunos
datos grandes (gasto, ingreso)
o Unimodal asimtrico a la izquierda: variables
con muchas observaciones de valor alto o
intermedio (esperanza de vida en los distintos
pases)

23

o Bimodal simtrico: suele aparecer cuando los


datos son de 2 grupos heterogneos y conviene
estudiarlos por separado (un objeto que se
hiciera en dos tamaos distintos en cantidades
iguales)

El

histograma

representar

se

puede

frecuencias

relativas)

Ejemplo: GTINE

24

emplear

acumuladas

tambin

para

(absolutas

Histograma de GTINE
100

F (%)

80
60
40
20
0
0

0,2

0,4

0,6

GTINE

25

0,8

1
(X 1,E6)

2) El polgono de frecuencias
El polgono de frecuencias es una representacin
grfica de las frecuencias equivalente al histograma.
Se obtiene a partir del histograma uniendo los centros
de la base superior de sus rectngulos.
Ejemplo: GTINE

Frecuencias relativas (%)

Histograma de GTINE
30
25
20
15
10
5
0
0

0,2

0,4

0,6

0,8

GTINE

1
(X 1,E6)

Frecuencias relativas (%)

Polgono de frecuencias de GTINE


30
25
20
15
10
5
0
0

0,2

0,4

0,6

GTINE

26

0,8

1
(X 1,E6)

Se puede obtener para frecuencias acumuladas a


partir del histograma de frecuencias acumuladas.
La diferencia fundamental entre el histograma y el
polgono es que ste proporciona una representacin
ms suavizada de la distribucin de frecuencias.

3) El diagrama de tallos y hojas


Nos permite obtener simultneamente la distribucin
de frecuencias de la variable y su representacin
grfica.

Para construirlo hay que separar en cada dato el


ltimo dgito de la derecha (la hoja) del resto de las
cifras (el tallo).

Los tallos aparecen a la izquierda de una lnea


vertical y a la derecha de cada uno anotamos las
cifras finales (hojas) de todos los datos de cada clase.

27

Ejemplo:
Se tienen datos del rendimiento anual (en %) de unas
acciones a lo largo de 30 aos:
-3

17

-13 -10 20

15

-2

41

-22

21

53

10 15

25

31

-1

10

17

26

-13 11

-3
-2
-1
-0
0
1
2
3
4
5

21

5
2
4
3
3
0
0
1
1
3

-14 -35
-1 28
18

3
2
4
0
1

3
1
6
1
1

0
1
5

5
5

7
8

Al igual que el histograma o el polgono, el diagrama nos


proporciona una impresin visual del nmero de
observaciones de cada clase.

28

Tiene la ventaja de que al darnos un mayor detalle nos


permite recuperar los datos, lo que no puede hacerse
con el histograma o el polgono.

Con conjuntos de datos muy grandes puede no resultar


informativo porque las clases tengan demasiados datos,
aunque siempre se pueden subdividir

En el ejemplo en lugar de poner los valores de 10 en 10,


podemos cogerlos de 5 en 5, es decir, cada lnea
podemos dividirla en 2 (en vez de 10 a 19, hacer de 10 a
14 y de 15 a 19).

29

Ejemplo: GTINE
Stem-and-Leaf Display for GTINE: unit = 10000,0
represents 120000,0

10
32
(17)
26
18
8
5
3
1

1|2

0|4566788899
1|0011123445556667777799
2|22224455555577778
3|00000125
4|1234556779
5|113
6|36
7|05
8|7

La columna situada a la izquierda nos da las


frecuencias absolutas acumuladas de arriba hacia
abajo y de abajo hacia arriba hasta llegar al valor
entre parntesis que es frecuencia de la clase que
contiene el dato central.

30

Ejercicio 3.6 (Pea y Romo)


Los datos de la variable G4 (Tabla 2.1) miden el gasto en
menaje de 75 hogares:
a,b) Construir la distribucin de frecuencias y representarla
con un histograma.
Frequency Tabulation for G4
-------------------------------------------------------Lower
Upper
Class Limit
Limit
ci
ni
fi
Ni
Fi
-------------------------------------------------------at or below
0
6
0,0800
6
0,0800
1
0
14000
7000 40
0,5333
46
0,6133
2
14000
28000
21000
9
0,1200
55
0,7333
3
28000
42000
35000
8
0,1067
63
0,8400
4
42000
56000
49000
6
0,0800
69
0,9200
5
56000
70000
63000
2
0,0267
71
0,9467
6
70000
84000
77000
1
0,0133
72
0,9600
7
84000
98000
91000
1
0,0133
73
0,9733
8
98000 112000 105000
1
0,0133
74
0,9867
9 112000 126000 119000
1
0,0133
75
1,0000

Histogram for G4

percentage

80
60
40
20
0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
(X 10000)

G4

31

Histogram for G4

percentage

100
80
60
40
20
0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
(X 10000)

G4

c) Marque en el histograma la proporcin de valores de G4


menores que 40.000 pesetas Qu porcentaje de las
observaciones suponen esos datos?
Algo ms del 80% (el 84%)
---------------------------------------------------Lower
Upper
Class Limit
Limit
ci
ni
fi
Ni
Fi
---------------------------------------------------at or below
0
6
0,0800
6 0,0800
1
0
10000
5000 32
0,4267 38 0,5067
2
10000
20000
15000 13
0,1733 51 0,6800
3
20000
30000
25000 7
0,0933 58 0,7733
4
30000
40000
35000 5
0,0667 63 0,8400
5
40000
50000
45000 2
0,0267 65 0,8667
6
50000
60000
55000 5
0,0667 70 0,9333
7
60000
70000
65000 1
0,0133 71 0,9467
8
70000
80000
75000 1
0,0133 72 0,9600
9
80000
90000
85000 0
0,0000 72 0,9600
10
90000 100000
95000 1
0,0133 73 0,9733
11 100000 110000 105000 1
0,0133 74 0,9867
12 110000 120000 115000 0
0,0000 74 0,9867
13 120000 130000 125000 1
0,0133 75 1,0000

32

frecuencias relativas (%)

Histograma de G4
60
50
40
30
20
10
0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
(X 10000)

G4

Histograma de G4
100

F (%)

80
60
40
20
0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
(X 10000)

G4

33

e) Marcar en el histograma el rea correspondiente a las


observaciones entre 50.000 y 70.000 pesetas. Qu proporcin
representan? Cmo obtendra a partir de las frecuencias
acumuladas esa proporcin?

Son el 8% (0,08=0,0667+0,0133=0,9467-0,8667)

f) Qu porcentaje de hogares tiene un gasto en menaje


superior a 80.000 pesetas?

El 4% (0,04=1-0,96=0,0133x3)

g) Cmo es la distribucin de G4?

Es asimtrica a la derecha

h) Dibuje el diagrama de tallos y hojas

34

Stem-and-Leaf Display for G4: unit = 1000,0 1|2 = 12000,0


(38)
37
24
17
12
10
5

0|00000000000011122222333344456667888889
1|0001233356689
2|0444889
3|33355
4|69
5|02249
6|7
HI|79828,0 91068,0 104452,0 120444,0

Datos de G4:
780 4296 3044 52016 13128 2392 8536 35800 4000 0
28432 16856 50800 6188 8544 24441 33012 28999 16440
360 2268 0 10764 0 0 1960 91068 24000 35136 46000
2144 3524 104452 2480 1528 19516 0 0 18191 3172 13936
8300 8660 4524 6256 10346 11820 20468 33496 192 9000
29856 24685 3848 54228 120444 67379 10048 288 216
8099 7620 5428 15360 2028 33220 12212 52768 49896
6752 840 79828 59280 1692 13782

35

Ejercicio 3.14 (Pea y Romo)

La variable TMUN (Tabla 2.1) expresa el tamao del


municipio: 1 menos de 2000 habitantes, 2 entre 2000 y 10000,
3 entre 10000 y 50000 y 4 capitales de provincia o con ms de
50000.

a, b) Obtener la distribucin de frecuencias absolutas,


relativas y acumuladas.

TMUN
1
2
3
4

ni
4
9
14
48
4

i1

Ni
4
13
27
75

fi
0,0533
0,12
0,1867
0,64
4

ni N 75

i1

36

fi 1

Fi
0,0533
0,1733
0,36
1

c) Dibujar el histograma de la distribucin

frecuencias relativas (%)

Histograma de TMUN
80
60
40
20
0
0

TMUN

d) Qu tipo de simetra o asimetra presenta?


Asimetra a la izquierda
Datos de TMUN:
4 4 4 4 4 4 2 4 4 4 4 3 3 4 1 4 4 3 4 2 3 4 3 4 3 4 2
4 4 1 2 3 4 2 4 4 2 4 4 4 4 4 2 4 4 3 4 4 4 3 4 3 4 4
3 4 4 4 2 1 4 3 1 3 4 4 2 4 3 4 4 4 4 4 4

37

También podría gustarte