Está en la página 1de 37

TEMA 2: DESCRIPCIN DE VARIABLES CUANTITATIVAS:

DISTRIBUCIN DE FRECUENCIAS Y REPRESENTACIN


GRFICA

La naturaleza numrica de las variables cuantitativas

permite un tratamiento estadstico ms elaborado que con

las variables cualitativas.

Con las variables cuantitativas pueden realizarse

operaciones matemticas, lo que permite una descripcin

ms precisa y completa.

En este tema estudiaremos la distribucin de frecuencias y

su representacin grfica (como hemos hecho para las

variables cualitativas en el Tema 1) y en los siguientes

temas veremos otras formas de describir una variable

cuantitativa.

1
A) Variables Discretas

La distribucin de frecuencias para las variables discretas

es semejante a lo que hemos visto para el caso de las

variables cualitativas, ya que las categoras en que se

agrupan los datos vienen dadas de forma natural por los

valores que toma la variable.

Ejemplo 1:

Cien familias se han clasificado segn el nmero de hijos,

resultando los siguientes datos:

N de Hijos 0 1 2 3 4 5 6 7 8
N de familias 11 13 20 25 14 10 4 2 1

N=100; k=9

Frecuencias absolutas:

2
n1=11; n2=13; n3=20; n4=25; n5=14; n6=10; n7=4; n8=2; n9=1

Frecuencias relativas:

11 13 20
f1 0 ,1 1 ; f2 0 ,1 3 ; f3 0 ,2
100 100 100

25 14 10
f4 0 ,2 5 ; f5 0 ,1 4 ; f6 0 ,1
100 100 100

4 2 1
f7 0 ,0 4 ; f8 0 ,0 2 ; f9 0 ,0 1
100 100 100

3
Distribucin de frecuencias:

Categoras ni fi
0 11 0,11
1 13 0,13
2 20 0,2
3 25 0,25
4 14 0,14
5 10 0,1
6 4 0,04
7 2 0,02
8 1 0,01
N=100 1

La categora ms numerosa es la de familias con 3 hijos y la

menos frecuente es la de familias con 8 hijos

4
Diagrama de barras

Frecuencias relativas fi

0.30

0.25

0.20

0.15

0.10

0.05

0.00
0 1 2 3 4 5 6 7 8

Frecuencias absolutas ni

30

25

20

15

10

0
0 1 2 3 4 5 6 7 8

5
En general, las clases vienen ordenadas de forma

natural de menor a mayor por lo que tiene sentido

definir la distribucin de frecuencias acumulada.

Para construir la distribucin de frecuencias

acumulada hay que sumar a la frecuencia de cada

clase (absoluta o relativa) la de las clases anteriores.

Los valores de la distribucin de frecuencias

acumulada no decrecen.

La informacin sobre los datos que proporcionan la

distribucin de frecuencias y la distribucin de

frecuencias acumulada es equivalente. Cada una

puede obtenerse a partir de la otra.

6
Ejemplo: N DE HIJOS

Frecuencias Frecuencias absolutas Frecuencias Frecuencias

Categoras absolutas acumuladas relativas relativas acumuladas

ni Ni fi Fi
0 11 11 0,11 0,11
1 13 24 0,13 0,24
2 20 44 0,2 0,44
3 25 69 0,25 0,69
4 14 83 0,14 0,83
5 10 93 0,1 0,93
6 4 97 0,04 0,97
7 2 99 0,02 0,99
8 1 100 0,01 1
N=100 1

El ltimo valor de la distribucin de frecuencias

absolutas acumuladas coincide con N.

El ltimo valor de la distribucin de frecuencias

relativas acumuladas es 1 (salvo error de redondeo).

La distribucin de frecuencias acumulada nos

permite conocer la proporcin (o el nmero) de

observaciones por debajo de cierto valor, entre dos

valores o por encima de una cantidad.

7
Ejemplo: N de hijos

- Qu proporcin de familias tiene menos de 2 hijos?

0,24

- Cuntas familias tienen menos de 4 hijos? 69

- Qu proporcin de familias tiene ms de 6 hijos?

0,03=1-0,97=0,01+0,02

- Qu proporcin de familias tiene ms de 3 hijos pero

menos de 7? 0,28=0,14+0,1+0,04=0,97-0,69

Representacin grfica de la distribucin de frecuencias

acumulada

Frecuencias relativas Fi

8
1.0

0.8

0.6

0.4

0.2

0.0
0 1 2 3 4 5 6 7 8

9
Ejercicio 3.2 de Pea y Romo

Los siguientes datos corresponden al nmero de

bibliotecarios en las bibliotecas pblicas de las diferentes

provincias espaolas:

4 7 5 2 4 5 6 4 7 3 7 4 3 4 4 3 4 3 2 4 4 1 10 2 5 3 2 2 5 3 3 8

12 3 2 2 5 4 1 5 8 6 6 1 3 15 16 6 7 12

(a) Hallar la distribucin de frecuencias relativas y

representarla mediante un diagrama de barras

(b) Obtener y representar la distribucin de

frecuencias relativas acumuladas

(c) Qu proporcin de provincias tiene ms de 7

bibliotecarios?

10
Frecuencias Frecuencias absolutas Frecuencias Frecuencias

Bibliotecarios absolutas acumuladas relativas relativas acumuladas

ni Ni fi Fi
1 3 3 0,06 0,06
2 7 10 0,14 0,2
3 9 19 0,18 0,38
4 10 29 0,2 0,58
5 6 35 0,12 0,7
6 4 39 0,08 0,78
7 4 43 0,08 0,86
8 2 45 0,04 0,9
10 1 46 0,02 0,92
12 2 48 0,04 0,96
15 1 49 0,02 0,98
16 1 50 0,02 1

11
Frecuencias relativas: fi

0.25

0.20

0.15

0.10

0.05

0.00
1 2 3 4 5 6 7 8 10 12 15 16

Frecuencias relativas acumuladas: Fi

1.0

0.8

0.6

0.4

0.2

0.0
1 2 3 4 5 6 7 8 10 12 15 16

12
- La proporcin de provincias con ms de 7

bibliotecarios es de 0,14

0,14=1-0,86=0,04+0,02+0,04+0,02+0,02

- La mayora de las provincias (62%) tiene 4

bibliotecarios o ms: 0,62=1-0,38=

=0,2+0,12+0,08+0,08+0,04+0,02+0,04+0,02+0,02

- 4 es la clase ms frecuente con una frecuencia relativa

de 0,2

- Ms de la mitad de las provincias espaolas (F4=0,58)

tiene menos de 5 bibliotecarios

- La proporcin de provincias espaolas que tienen

entre 5 y 7 bibliotecarios es de 0,28

0,28=0,12+0,08+0,08=0,86-0,58

13
B) Variables Continuas

El anlisis de la distribucin de frecuencias de las variables

cuantitativas continuas es ms complejo que el de las

variables cualitativas o discretas.

Las categoras o clases no vienen dadas de forma natural

sino que deben elegirse.

Tendremos que dividir el recorrido (o conjunto de posibles

valores de la variable) en intervalos que no se solapen.

El punto central de cada intervalo se llama marca de clase

(ci).

El resto de los elementos y conceptos de la distribucin de

frecuencias de una variable continua es equivalente a lo

visto en las cualitativas y discretas.

14
Ejemplo:

La variable GTINE representa el gasto total. Los datos

correspondientes a 75 hogares son:

81.861 105.628 110.690 134.246 226.177 273.870 142.376 309.964 101.431

276.273 662.803 493.728 308.787 254.420 172.928 142.678 510.223 158.829

278.854 168.620 176.204 179.108 113.074 876.161 64.425 112.352 255.465

321.307 434.375 707.444 90.460 89.498 466.862 87.112 309.829 247.425

427.812 195.740 257.638 176.656 285.935 450.571 56.292 306.488 156.772

531.099 475.760 316.500 279.586 48.586 96.670 256.548 514.330 161.595

228.368 638.366 442.162 65.060 160.580 197.390 152.077 228.808 76.920

255.196 241.986 417.103 752.436 352.708 259.472 225.388 174.341 308.705

455.125 122.696 479.791

- Tomando intervalos o clases iguales y de tamao

100.000 pesetas, vamos a calcular la distribucin de

frecuencias.

- Por ejemplo, el primer intervalo ser:

0<GTINE100.000 y la marca de clase c1=50.000.

- El nmero de intervalos o clases ser k=9.

15
Gasto Total (GTINE G)

Frecuencias Frecuencias absolutas Frecuencias Frecuencias


Gasto
absolutas acumuladas relativas relativas acumuladas
(en miles de ptas.)
ni Ni fi Fi
0<G100 10 10 0,13 0,13
100<G200 22 32 0,29 0,42
200<G300 17 49 0,23 0,65
300<G400 8 57 0,11 0,76
400<G500 10 67 0,13 0,89
500<G600 3 70 0,04 0,93
600<G700 2 72 0,03 0,96
700<G800 2 74 0,03 0,99
800<G900 1 75 0,01 1
N=75 1

16
- La proporcin de familias que gasta 200.000 pesetas o

menos es de 0,42.

- La proporcin de familias que gasta ms de 600.000

pesetas es 0,07=1-0,93=0,03+0,03+0,01.

- La proporcin de familias que gasta ms de 100.000

pero no ms de 300.000 es 0,52=0,29+0,23=0,65-0,13

17
Representacin grfica de la distribucin de frecuencias

1) El Histograma

El histograma es un grfico que representa las

frecuencias mediante reas. Sobre cada clase (o rango

de valores) se dibuja un rectngulo cuyo rea

representa la frecuencia (absoluta o relativa) de esa

clase.

Cuando las clases (o intervalos) en que dividimos los

datos son de distinta longitud el eje vertical no tiene

sentido. Como la frecuencia es el rea de cada

rectngulo, si dibujamos rectngulos con distinta base

su mayor o menor altura no nos da informacin.

(Ver Ejemplo de GTINE en Figura 3.4 de Pea y

Romo)

18
Cuando las clases (o intervalos) son de la misma

longitud, las frecuencias son proporcionales a las

alturas de los rectngulos. La altura nos informa

sobre la densidad o concentracin de datos en ese

intervalo:

- donde los rectngulos son ms altos hay ms datos de

la variable

- donde los rectngulos son ms bajos los datos de la

variable son ms escasos

Ejemplo: GTINE (distribucin frecuencias pag.16)

Histograma de GTINE
Frecuencias relativas (%)

30
25
20
15
10
5
0
0 0,2 0,4 0,6 0,8 1
(X 1,E6)
GTINE

19
Los rectngulos se dibujan contiguos (a diferencia del

diagrama de barras o de Pareto) para transmitir la

idea de variable continua.

La forma del histograma es la misma si

representamos frecuencias absolutas o relativas, slo

cambia la escala del eje vertical.

Ejemplo: GTINE

Histograma de GTINE
24
Frecuencias absolutas

20
16
12
8
4
0
0 0,2 0,4 0,6 0,8 1
(X 1,E6)
GTINE

20
Comparar con el histograma de frecuencias relativas

de la pgina anterior.

La forma del histograma s que depende de:

- anchura de las clases o tamao de los intervalos

- eleccin del punto donde empieza la primera clase

Ejemplo: GTINE

Histograma de GTINE
Frecuencias relativas (%)

18
15
12
9
6
3
0
0 0,2 0,4 0,6 0,8 1
(X 1,E6)
GTINE

Cmo elegimos los intervalos (o el nmero de clases)?

- Empezar con pocas clases y ver (en el histograma) si

con ms clases tenemos ms informacin (ver Figura

3.6 de Pea y Romo de la variable NOTAS)

21
- Si tenemos N observaciones elegir el nmero de clases

igual al entero ms prximo a N (En el ejemplo de

GTINE como N=75 entonces N 7 5 8 ,6 9 )

Por qu nos preocupa tanto la forma del

histograma? Porque la forma del histograma refleja

propiedades importantes de la variable.

El histograma (al igual que el diagrama de barras)

nos muestran caractersticas de una variable que

pueden apreciarse visualmente:

- Se puede ver si la distribucin es simtrica alrededor

de un eje central o si es asimtrica

Ejemplo:

GTINE es asimtrica a la derecha (ver pag. 19)

NOTAS es simtrica alrededor del 5 (ver Figura 3.6

de Pea y Romo)

22
- Se puede ver si presenta un solo mximo o pico o

moda y es, por tanto, unimodal o si presenta varias

modas

- Algunas de las formas ms frecuentes de histogramas

son (ver Figura 3.8 de Pea y Romo):

o Unimodal simtrico: se suele dar en variables en

las que hay una gran cantidad de observaciones

con valores intermedios y algunos valores en

ambos extremos (notas, peso, altura)

o Unimodal asimtrico a la derecha: se da en

variables que tienen una gran cantidad de

observaciones pequeas o intermedias y algunos

datos grandes (gasto, ingreso)

o Unimodal asimtrico a la izquierda: variables

con muchas observaciones de valor alto o

intermedio (esperanza de vida en los distintos

pases)

23
o Bimodal simtrico: suele aparecer cuando los

datos son de 2 grupos heterogneos y conviene

estudiarlos por separado (un objeto que se

hiciera en dos tamaos distintos en cantidades

iguales)

El histograma se puede emplear tambin para

representar frecuencias acumuladas (absolutas o

relativas)

Ejemplo: GTINE

24
Histograma de GTINE
100

80

60
F (%)

40

20

0
0 0,2 0,4 0,6 0,8 1
(X 1,E6)
GTINE

25
2) El polgono de frecuencias

El polgono de frecuencias es una representacin

grfica de las frecuencias equivalente al histograma.

Se obtiene a partir del histograma uniendo los centros

de la base superior de sus rectngulos.

Ejemplo: GTINE

Histograma de GTINE
Frecuencias relativas (%)

30

25
20

15
10
5
0
0 0,2 0,4 0,6 0,8 1
(X 1,E6)
GTINE

Polgono de frecuencias de GTINE


Frecuencias relativas (%)

30
25
20
15
10
5
0
0 0,2 0,4 0,6 0,8 1
(X 1,E6)
GTINE

26
Se puede obtener para frecuencias acumuladas a

partir del histograma de frecuencias acumuladas.

La diferencia fundamental entre el histograma y el

polgono es que ste proporciona una representacin

ms suavizada de la distribucin de frecuencias.

3) El diagrama de tallos y hojas

Nos permite obtener simultneamente la distribucin

de frecuencias de la variable y su representacin

grfica.

Para construirlo hay que separar en cada dato el

ltimo dgito de la derecha (la hoja) del resto de las

cifras (el tallo).

Los tallos aparecen a la izquierda de una lnea

vertical y a la derecha de cada uno anotamos las

cifras finales (hojas) de todos los datos de cada clase.

27
Ejemplo:

Se tienen datos del rendimiento anual (en %) de unas

acciones a lo largo de 30 aos:

-3 17 -13 -10 20 15

3 -2 41 21 6 -22

21 53 10 15 -14 -35

25 31 -1 10 -1 28

17 4 26 -13 11 18

-3 5
-2 2
-1 4 3 3 0
-0 3 2 1 1
0 3 4 6
1 0 0 1 5 5 7 7 8
2 0 1 1 5 8 6
3 1
4 1
5 3

Al igual que el histograma o el polgono, el diagrama nos

proporciona una impresin visual del nmero de

observaciones de cada clase.

28
Tiene la ventaja de que al darnos un mayor detalle nos

permite recuperar los datos, lo que no puede hacerse

con el histograma o el polgono.

Con conjuntos de datos muy grandes puede no resultar

informativo porque las clases tengan demasiados datos,

aunque siempre se pueden subdividir

En el ejemplo en lugar de poner los valores de 10 en 10,

podemos cogerlos de 5 en 5, es decir, cada lnea

podemos dividirla en 2 (en vez de 10 a 19, hacer de 10 a

14 y de 15 a 19).

29
Ejemplo: GTINE
Stem-and-Leaf Display for GTINE: unit = 10000,0 1|2
represents 120000,0

10 0|4566788899
32 1|0011123445556667777799
(17) 2|22224455555577778
26 3|00000125
18 4|1234556779
8 5|113
5 6|36
3 7|05
1 8|7

La columna situada a la izquierda nos da las

frecuencias absolutas acumuladas de arriba hacia

abajo y de abajo hacia arriba hasta llegar al valor

entre parntesis que es frecuencia de la clase que

contiene el dato central.

30
Ejercicio 3.6 (Pea y Romo)

Los datos de la variable G4 (Tabla 2.1) miden el gasto en

menaje de 75 hogares:

a,b) Construir la distribucin de frecuencias y representarla

con un histograma.

Frequency Tabulation for G4

--------------------------------------------------------
Lower Upper
Class Limit Limit ci ni fi Ni Fi
--------------------------------------------------------
at or below 0 6 0,0800 6 0,0800
1 0 14000 7000 40 0,5333 46 0,6133
2 14000 28000 21000 9 0,1200 55 0,7333
3 28000 42000 35000 8 0,1067 63 0,8400
4 42000 56000 49000 6 0,0800 69 0,9200
5 56000 70000 63000 2 0,0267 71 0,9467
6 70000 84000 77000 1 0,0133 72 0,9600
7 84000 98000 91000 1 0,0133 73 0,9733
8 98000 112000 105000 1 0,0133 74 0,9867
9 112000 126000 119000 1 0,0133 75 1,0000

Histogram for G4
80

60
percentage

40

20

0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
(X 10000)
G4

31
Histogram for G4
100

80
percentage

60

40

20

0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
(X 10000)
G4

c) Marque en el histograma la proporcin de valores de G4

menores que 40.000 pesetas Qu porcentaje de las

observaciones suponen esos datos?

Algo ms del 80% (el 84%)


----------------------------------------------------
Lower Upper
Class Limit Limit ci ni fi Ni Fi
----------------------------------------------------
at or below 0 6 0,0800 6 0,0800
1 0 10000 5000 32 0,4267 38 0,5067
2 10000 20000 15000 13 0,1733 51 0,6800
3 20000 30000 25000 7 0,0933 58 0,7733
4 30000 40000 35000 5 0,0667 63 0,8400
5 40000 50000 45000 2 0,0267 65 0,8667
6 50000 60000 55000 5 0,0667 70 0,9333
7 60000 70000 65000 1 0,0133 71 0,9467
8 70000 80000 75000 1 0,0133 72 0,9600
9 80000 90000 85000 0 0,0000 72 0,9600
10 90000 100000 95000 1 0,0133 73 0,9733
11 100000 110000 105000 1 0,0133 74 0,9867
12 110000 120000 115000 0 0,0000 74 0,9867
13 120000 130000 125000 1 0,0133 75 1,0000

32
frecuencias relativas (%) Histograma de G4
60
50
40
30
20
10
0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
(X 10000)
G4

Histograma de G4
100

80

60
F (%)

40

20

0
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
(X 10000)
G4

33
e) Marcar en el histograma el rea correspondiente a las

observaciones entre 50.000 y 70.000 pesetas. Qu proporcin

representan? Cmo obtendra a partir de las frecuencias

acumuladas esa proporcin?

Son el 8% (0,08=0,0667+0,0133=0,9467-0,8667)

f) Qu porcentaje de hogares tiene un gasto en menaje

superior a 80.000 pesetas?

El 4% (0,04=1-0,96=0,0133x3)

g) Cmo es la distribucin de G4?

Es asimtrica a la derecha

h) Dibuje el diagrama de tallos y hojas

34
Stem-and-Leaf Display for G4: unit = 1000,0 1|2 = 12000,0

(38) 0|00000000000011122222333344456667888889
37 1|0001233356689
24 2|0444889
17 3|33355
12 4|69
10 5|02249
5 6|7

HI|79828,0 91068,0 104452,0 120444,0

Datos de G4:

780 4296 3044 52016 13128 2392 8536 35800 4000 0

28432 16856 50800 6188 8544 24441 33012 28999 16440

360 2268 0 10764 0 0 1960 91068 24000 35136 46000

2144 3524 104452 2480 1528 19516 0 0 18191 3172 13936

8300 8660 4524 6256 10346 11820 20468 33496 192 9000

29856 24685 3848 54228 120444 67379 10048 288 216

8099 7620 5428 15360 2028 33220 12212 52768 49896

6752 840 79828 59280 1692 13782

35
Ejercicio 3.14 (Pea y Romo)

La variable TMUN (Tabla 2.1) expresa el tamao del

municipio: 1 menos de 2000 habitantes, 2 entre 2000 y 10000,

3 entre 10000 y 50000 y 4 capitales de provincia o con ms de

50000.

a, b) Obtener la distribucin de frecuencias absolutas,

relativas y acumuladas.

TMUN ni Ni fi Fi
1 4 4 0,0533 0,0533
2 9 13 0,12 0,1733
3 14 27 0,1867 0,36
4 48 75 0,64 1
4 4


i1
ni N 75 i1
fi 1

36
c) Dibujar el histograma de la distribucin

Histograma de TMUN
frecuencias relativas (%)

80

60

40

20

0
0 1 2 3 4
TMUN

d) Qu tipo de simetra o asimetra presenta?

Asimetra a la izquierda

Datos de TMUN:

4 4 4 4 4 4 2 4 4 4 4 3 3 4 1 4 4 3 4 2 3 4 3 4 3 4 2

4 4 1 2 3 4 2 4 4 2 4 4 4 4 4 2 4 4 3 4 4 4 3 4 3 4 4

3 4 4 4 2 1 4 3 1 3 4 4 2 4 3 4 4 4 4 4 4

37

También podría gustarte