Está en la página 1de 12

Capítulo 2.

Variables cualitativas: distribución de frecuencias.

Uno de los objetivos fundamentales de la Estadística es extraer la información contenida


en un conjunto de observaciones. Por ejemplo, en la Tabla 2.1 se presenta una colección de
datos correspondiente a una encuesta de presupuestos familiares. Cada columna responde a una
variable diferente (ingresos, gastos, número de componentes de la unidad familiar, situación
profesional, clase social, etcétera) y cada fila contiene los valores de dichas variables para las
unidades de gasto observadas. Esta disposición de los valores en la tabla no facilita la com-
prensión de la información que aportan sobre el comportamiento de las variables en la
población. En muchos casos, el tamaño de los conjuntos de observaciones o su formato hacen
muy difícil llegar a conclusiones inmediatas e interesantes sobre las variables. A lo largo de los
capítulos de la primera parte, presentaremos técnicas gráficas y numéricas que permiten
describir una variable resumiendo la información contenida en un conjunto de datos.

2.1. Población y variable.

El universo de objetos al cual se refiere el estudio que se pretende realizar recibe el


nombre de población. Por ejemplo, el conjunto de hogares o unidades de gasto cuyos datos
aparecen en la Tabla 21, el grupo de alumnas y alumnos de una clase, los automóviles
fabricados en una factoría durante un mes o los habitantes de un país conforman diferentes
poblaciones que pueden ser objeto de un estudio estadístico.
Cada rasgo o característica de los elementos de una población constituye lo que se llama
una variable o variable estadística El gasto anual en alimentación, el color de los ojos de los
habitantes de una ciudad, el tiempo de funcionamiento del carburador de un vehículo de cierta
marca o el número de matrimonios a lo largo de la vida de las personas de mi país, son ejemplos
de variables estadísticas. Las variables estadísticas pueden ser, esencialmente, de dos tipos:
cualitativas y cuantitativas.
Las variables cualitativas son aquellas que no aparecen en forma numérica, sino como
categorías o atributos; por ejemplo, el sexo, el color de los ojos o la profesión de una persona. A
veces, también reciben el nombre de variables categóricas.
Las variables cuantitativas son las que pueden expresarse numéricamente, como el peso,
el número de goles en un partido de fútbol, la temperatura o los ingresos anuales. Una primera
clasificación, basada en el tipo de valores que pueden tomar, permite distinguir entre variables
cuantitativas discretas —que son frecuentemente el resultado de contar y, por tanto, toman sólo
valores enteros— y continuas, que resultan de medir y pueden contener cifras decimales.
Ejemplos de discretas son el número de descendientes de una pareja o el número de lavadoras
producidas por una empresa en un año. Variables continuas son aquellas cuyos valores pueden
ser cualquier cantidad en un intervalo, como la temperatura, el peso o la altura de una persona o
la superficie de las viviendas.
Dependiendo de su naturaleza y del tipo de operaciones que se pueden realizar con
ellas, las variables cuantitativas se clasifican también en cuatro clases: nomínales, ordinales, de
intervalo y de cociente.
Las nominales son variables cualitativas que se convierten en cuantitativas asignando
números a las categorías. Por ejemplo, dando el valor uno al sexo femenino y cero al masculino
o etiquetando con un número cada una de las profesiones que aparecen en un estudio, como en
la variable SITPROF de la Tabla 2.1 que expresa la situación profesional.
Tabla 2.1. Datos de la encuesta española de presupuestos familiares (1973)
correspondientes a 75 unidades de gasto.
N° TMUN CAPITAS L14 SOC SITPROF EDC NPER M2V IT ITOTAL

1 4 4 2 3 1 3 1 0 90.000 90.000

2 4 2 0 7 2 2 1 54 62.091 61520

3 4 6 4 3 2 2 1 94 113.379 114.080

4 4 4 2 5 2 4 2 90 137.168 137.600

5 4 3 1 3 2 3 1 82 156.860 158.000

6 4 5 0 5 2 1 1 100 213.841 213.841

7 4 1 1 4 2 2 75 146.374 147.100

3 4 6 3 5 1 7 2 0 600.000 600.000

9 4 1 0 7 1 1 1 0 48.000 48.000

10 4 5 3 5 1 3 1 0 212.800 212.800

11 4 4 0 5 2 7 2 70 438.000 450.000

12 3 7 0 3 2 3 6 68 597.688 597.688

13 3 5 0 3 2 3 4 80 270.000 270.000

14 4 6 2 5 2 3 2 75 277.200 277.200

15 1 3 0 1 1 2 2 0 115.008 115.008

16 4 4 2 1 2 2 1 59 82.999 84.000

17 4 5 1 3 2 3 2 65 317.200 317.200

18 3 3 0 2 2 3 2 55 149.085 150.000

19 4 6 2 2 2 2 3 300 236.869 238.720

20 3 1 3 4 3 1 120 130.999 13Z000

21 3 2 0 2 2 2 2 130 220.808 220.808

22 4 3 0 3 1 3 1 0 98.000 98.000

23 3 3 1 7 2 2 1 72 256.000 256.000

24 4 7 1 5 2 5 3 0 501.149 506.000

25 3 3 0 3 1 3 2 0 92.400 91400

26 4 3 1 3 1 3 1 0 127.750 127.750

27 2 0 3 2 3 1 90 131000 131000

28 4 5 0 5 2 3 2 65 346.000 346.000

29 4 6 4 5 1 3 1 0 360.000 360.000

30 1 4 2 5 1 4 1 0 240.000 240.000

31 3 0 7 2 1 2 220 106.560 106.560

32 3 2 0 7 1 3 1 0 71.400 71.400

33 4 2 0 5 2 7 2 110 562.199 563.000


34 2 5 2 1 1 3 2 0 111.080 111.080

35 4 5 0 4 2 3 1 0 111200 114.000

36 4 4 0 2 1 3 3 0 298.000 298.000

37 2 4 0 1 1 2 4 0 320.124 320.124

38 4 3 1 7 1 3 1 0 184.800 184.800

39 4 4 1 3 1 3 2 0 263.200 263200

40 4 1 0 4 2 3 1 25 90.350 90.656

41 4 1 0 3 1 3 1 0 242.000 241000

42 4 4 2 3 2 3 1 54 229.999 234.000

43 2 1 0 3 2 3 1 40 78.520 78.520

Tabla 2.1. (continuación) Datos de la encuesta española de presupuestos familiares (1973)


correspondientes a 75 unidades de gasto
N.* TMUN CAPITAS L14 SOC SITPROF EDC NPER M2V IT ITOTAL
44 4 5 1 5 2 3 2 40 238.280 238.400
45 4 2 0 3 3 1 1 70 113.000 113.000
46 3 4 0 3 2 3 3 70 350.599 351.600
47 4 5 0 6 1 3 3 0 346.000 346.000
48 4 4 2 6 2 2 1 84 154.999 156.000
49 4 3 0 7 2 7 1 70 207.853 207.853
50 3 2 0 2 2 2 49 56.944 56.944
51 4 2 0 7 2 2 1 86 76.471 76.732
52 3 5 0 1 2 3 3 60 278.812 278.812
53 4 6 1 3 2 3 5 80 617.590 617.590
54 4 4 2 3 1 3 1 0 96.000 96.000
55 3 5 2 2 2 3 1 50 233.379 233.580
56 4 4 0 5 2 7 1 100 476.000 482.000
57 4 4 0 3 2 3 1 100 313518 316.400
58 4 1 0 7 2 3 1 86 99.000 99.000
59 2 2 0 2 2 3 1 106 148.939 149.740
60 1 7 3 2 2 3 3 70 194.166 194.592
61 4 2 0 7 1 1 1 0 138.800 138.800
62 3 6 0 5 2 3 5 54 241.168 241.300
63 1 2 0 2 2 3 96 66.886 66.916
64 3 6 1 2 2 3 1 70 218.539 219.040
65 4 4 0 7 2 3 3 108 522.857 528.000
66 4 5 3 6 4 4 1 90 748.000 748.000
67 2 9 3 1 2 2 5 80 319.934 320.000
68 4 4 2 5 1 3 1 0 32X712 321712
69 3 5 3 3 1 3 1 0 230.562 230.562
70 4 5 0 5 2 3 1 89 265.800 267.000
71 4 4 2 3 2 3 1 52 235.568 236.000
72 4 4 0 3 2 3 70 241.099 241.600
N.° AHORRO GTINE CAR Gl G2 G4 G6 G7

1 0 81.861 1200 55.432 6.880 780 4.120 2.400

2 2.000 105.628 0 63.076 1620 4.296 0 384

3 11000 110.690 0 61816 1.000 3.044 1470 0

4 0 134246 0 80136 7.980 52.016 3.744 0

5 3.620 226.177 0 90.6J6 8.080 13.128 40.801 26.560

6 0 273.870 0 89.752 43.100 1392 13.474 956

7 11000 141376 0 84.552 19.976 8.536 0 180

8 25.000 309564 0 111112 18.832 35.800 44.321 29.128

9 0 101.431 0 55.848 28.400 4.000 0 3.000

10 0 276273 0 157.820 31.141 0 0 44.612

11 0 661803 0 181.324 49.760 28.432 31.064 69.360


Tabla 2.1. (continuación) Datos de la encuesta española de presupuestos
familiares correspondientes a 75 unidades de gasto
AHORRO GTINE CAR Gl G2 G4 G6
te
12 49.800 493.728 0 256.724 15.076 16.856 62184
13 0 308.787 0 96.460 15.220 50.800 29.743
14 0 254.420 0 173.004 0 6.188 0
15 0 171928 0 109.460 8.144 8.544 4.760
16 10.000 141678 0 61348 19541 24.441 1680
17 0 510.223 0 143.468 24.072 33.012 75.018
18 0 158.829 0 71488 11.804 28.999 8.140
19 0 278.854 19.000 118.872 28.236 16.440 23.800
20 0 168.620 0 121368 18.160 360 0
21 40.000 176204 0 91208 5.900 2.268 24.800
22 0 179.108 0 120.172 5.600 0 18.744
23 50.000 113.074 0 69.004 11.980 10.764 3.640
24 6.000 876.161 0 241.072 128.640 0 5.200
25 0 64.425 0 56.836 0 0 150
26 30.000 111352 0 61348 7.000 1560 11240
27 29.300 255.465 0 87548 1.200 91.068 6.664
28 0 321.307 0 133.640 3.040 24.000 27.048
29 0 434J75 0 94.536 46.600 35.136 58.672
30 0 707.444 1800 97.812 27.480 46000 73.064
31 60.000 90.460 0 68.380 408 2.144 5.200
32 0 89.498 0 70.616 2220 3.524 0
33 200.000 466.862 0 114.712 61.000 104.452 3.000
34 0 87.112 0 45.552 6.480 1480 7.732
35 0 309.829 0 170.769 10.080 1.528 44.430
36 45.000 247.425 0 87.152 9.660 19.516 31140
37 50.000 427.812 0 189.072 11.080 0 0
38 0 195.740 0 130.780 10.000 0 0
39 0 257.638 0 94.744 24.656 18.191 11.152
40 0 176.656 0 136.344 0 3.172 1766
41 0 285535 0 29224 8.000 13.936 4.896
42 0 450.571 0 107.900 21400 8.300 31180
43 0 56292 0 24232 4.476 8.660 260
44 0 306.488 0 108.316 6.000 4.524 10248
45 0 156.772 0 65.416 16.480 6256 0
46 35.000 531.099 64 291254 9.414 10.346 56.032
47 20.000 475.760 0 117588 60.940 11.820 50.452
48 79.000 316.500 0 149.552 63.600 20.468 0
49 0 279.586 0 101.192 10.400 33.496 2100
50 0 48.586 0 31200 0 192 240
51 0 96.670 0 70.668 1040 9.000 0
52 0 256.548 0 106.288 39.868 29.856 7.800
53 16.000 514.330 35.000 112996 18.360 24.685 158.468
54 0 161.595 0 81224 0 3.848 43.800
55 0 228.368 60.000 79.560 9.301 54228 67.900
56 0 638.366 0 161312 41280 120.444 93.606
57 0 441162 0 227.500 13.500 67379 14.508
58 33.000 65.060 0 31760 3.480 10.048 0
"abla 2.1. (continuación) Datos de la encuesta española de presupuestos familiares (1973)
correspondientes a 75 unidades de gasto
N. AHORRO GTINE CAR Gl G2 G4 G6 G7
"
59 50.000 160.580 0 105.144 9.780 288 0 2184
60 0 197390 0 149.448 17.972 216 676 7.548
61 0 152077 0 119.704 3.760 8.099 2912 144
62 500 228.808 0 110.188 20.224 7.620 2800 14.506
63 0 76520 0 62088 . 728 5.428 20 2500
64 0 255.196 0 98.072 9.200 15.360 4.900 38.536
65 0 24L986 1.500 83.668 1200 2028 30.727 9.060
66 50.000 417.103 0 49.920 113.200 33220 72210 17.456
67 0 752436 0 140.660 30.392 12212 112 23.368
68 0 352708 0 82732 12172 52768 68260 23.840
69 40.000 259.472 0 105.560 21.336 49.896 936 25.648
70 3.986 225.388 0 76.492 22840 6.752 10.656 29.828
71 57.000 174.341 0 93.860 6.360 840 2912 4380
72 0 308.705 0 124.124 14.360 79.828 9236 2340
73 0 455.125 0 140.088 78.161 59.280 42380 11.128
74 0 122696 0 33.956 3.840 1.692 3.912 0
75 0 479.791 31 246.958 24.527 13.782 32436 49.433

Las variables ordinales recogen la idea de orden —ausente en las nominales—, pero no
tiene sentido realizar operaciones aritméticas con ellas; un ejemplo es pedir a una persona que
indique sus preferencias sobre tres objetos asignando el valor 3 al preferido, 2 al siguiente y 1 al
menos deseado. No tiene sentido decir que, como las diferencias entre 1 y 2 y entre 2 y 3 son las
mismas, ocurre igual con las preferencias entre los objetos. Tampoco se puede operar
aritméticamente con este tipo de variables: carece de significado establecer que el objeto
favorito es tan preferido como la suma de los otros dos.
Las variables de intervalo incluyen la noción de orden y admiten las operaciones de
suma y resta. Por ejemplo, si en vez de solicitar a una persona que ordene tres objetos, le
pedimos que indique sus preferencias en una escala de 0 a 100. Supongamos que los valores
obtenidos son 90, 55 y 40; ahora las diferencias tienen sentido y se puede afirmar que hay más
diferencia entre las preferencias del primero y el segundo que entre las del segundo y el último.
Un rasgo de este tipo de variables es que no hay un valor que sea el cero —u origen— natural
de la escala: en el ejemplo anterior, es igual tomar una escala de í) a 100 que de 200 a 300.
Finalmente, las de cociente admiten cualquier tipo de operación matemática y son variables
como el ingreso o el gasto.
La naturaleza de las variables con que se trabaja es importante porque de ella depende el
tipo de técnicas que pueden utilizarse para estudiarlas.

2.2. Descripción de variables cualitativas: la distribución de frecuencias.

Supongamos que disponemos de N observaciones de una variable. Los datos


correspondientes a variables cualitativas se agrupan de manera natural en diferentes categorías o
clases; por ejemplo, las observaciones correspondientes a la variable «color de los coches que
atraviesan un semáforo» se pueden clasificar en categorías como «rojo», «verde», «blanco»,
«negro», etc. Si la variable puede tomar valores pertenecientes a k clases, representaremos por

el número de datos que aparecen en cada una de ellas. El valor n¡ representa el número
de observaciones en la clase i-ésima y recibe el nombre de frecuencia
absoluta de dicha clase. La proporción ni/N de datos en cada una de las clases la
denotaremos por f¡ y recibe el nombre de frecuencia relativa de la i-ésima clase.
Claramente, las frecuencias son números no negativos. Además, la suma de las
frecuencias absolutas es el número total N de observaciones. La suma de las frecuencias
relativas es uno.
El interés de las frecuencias relativas radica en que permiten comparar las frecuencias
de las clases en conjuntos de datos con distinto número de observaciones. La tabla que presenta
las clases o categorías de la variable y sus respectivas frecuencias se llama distribución de
frecuencias (indica cómo la frecuencia total se distribuye entre las clases) y constituye el
resumen más importante de la información contenida en una variable cualitativa.

Ejemplo 2.1.

En la Tabla 2.1, SITPROF es una variable cualitativa que describe la situación


profesional. Las etiquetas numéricas utilizadas la convierten en una variable de tipo nominal
Puede tomar los valores: 1, patrono o profesional que emplea personal; 2, empresario o
profesional que no emplea personal; 3, persona que trabaja a sueldo con carácter fijo; 4, persona
que trabaja a sueldo con carácter eventual.

La distribución de frecuencias absolutas es

y la distribución de frecuencias relativas es

En la Tabla 12 se presenta esta distribución de frecuencias. Se observa que, en este


conjunto de datos, la clase más numerosa es la de empresario o profesional que no emplea
personal y la menos frecuente es la de empleado a sueldo con carácter fijo.

2.3. Representaciones gráficas.

Veremos tres tipos de representaciones gráficas de la distribución de frecuencias de una


variable cualitativa: el diagrama de barras, el diagrama de Pareto y el pictograma. El diagrama
de barras permite visualizar de manera sencilla la distribución de una variable cualitativa; la
Figura 21 presenta el correspondiente a la variable SITPROF. Para construirlo, basta con dibujar
sobre la clase correspondiente una barrajo rectángulo) cuya altura coincida con la frecuencia
(absoluta o relativa, esto no modifica la forma) de dicha clase. Si se ordenan las clases de mayor
a menor frecuencia y se dibujan rectángulos, se tiene el diagrama de Pareto que puede verse en
la Figura 22 En la parte superior de la figura suele trazarse una línea que expresa la frecuencia
total de cada clase y las que la preceden.
El pictograma consiste en un círculo en el que se representan sectores (< porciones) con
áreas proporcionales a las frecuencias de cada una de las clases. La Figura 23 proporciona el
pictograma de la variable SITPROF. Se construye tomando ángulos proporcionales a las
frecuencias para cada una de las clases para obtenerlo, se utilizan habitualmente programas
informáticos con aplicaciones estadísticas.
Ejemplo 2.2.

La variable EDC de la Tabla 2.1 representa el nivel educativo. Las categorías son: 1,
analfabeto; 2, sin estudios; 3, estudios primarios; 4, bachillerato elemental o equivalente; 5,
bachillerato superior o equivalente; 6, formación profesional; 7, anterior al superior; 8, superior.
En la Figura 2.4 pueden verse el diagrama de

barras, el de Párelo y el pictograma para estos datos. Nótese que las clases 6 y 8 tienen
frecuencia igual a cero en este conjunto de observaciones.
En el diagrama de Pareto que aparece en (b) pueden verse las clases ordenadas de
mayor a menor frecuencia. La clase con más personas es la 3 (estudios primarios), seguida por
la de personas sin estudios (2) y analfabetos (1). Nótese cómo la frecuencia en las ciases 4 y 5
disminuye al aumentar el nivel de estudios.
La información que aporta esta variable combinada con la que aparecía en el Ejemplo
21 hace pensar que los datos corresponden muy probablemente a un núcleo rural.

Las Figuras 21 a 2.4 ponen de manifiesto cómo las representaciones gráficas facilitan la
obtención de conclusiones sobre la distribución de frecuencias y la variable estadística El
diagrama de Pareto es la más utilizada: es fácil de construir y proporciona rápidamente la
información fundamental sobre la distribución de los datos.

2.4. La moda.
La descripción numérica natural de una variable cualitativa o categórica viene dada por
la frecuencia relativa f¡ —o proporción de datos p¡— de cada una de las clases. El dato o clase
de mayor frecuencia recibe el nombre de moda o clase modal y sirve como descripción de la
variable en el sentido de ser el dato o clase más representativo por ser el más frecuente. Como
puede existir más de una clase o dato con la máxima frecuencia, la moda no es necesariamente
única.

Ejemplo 2.3.

La moda o clase de mayor frecuencia para la variable SITPROF del Ejemplo 2.1 es la
categoría 2 (empresario o profesional que no emplea personal). En el Ejemplo 22, la moda es la
categoría 3 que corresponde a las personas con estudios primarios. Esto corrobora la conclusión
sobre los datos expresada al final del Ejemplo 2.2

2.5. Resumen.

Uno de los objetivos de la Estadística es extraer información de un conjunto de datos.


Las ideas de población, que es el colectivo objeto de estudio, y variable, que es el rasgo de
interés, son dos de los conceptos esenciales en esta disciplina. Las variables pueden ser
cualitativas o cuantitativas. La distribución de frecuencias es la forma básica de resumir la
información contenida en las observaciones. Los diagramas de barras y de Pareto y los
pictogramas son las representaciones gráficas más comunes para las distribuciones de
frecuencias de variables cualitativas. Finalmente, son modas aquellos datos o clases de máxima
frecuencia.

2.6. Ejercicios.

2.1. Clasificar las siguientes variables:


a) Temperatura máxima diaria
b) Número en la camiseta de los jugadores de un equipo de baloncesto.
c) Calificación obtenida en un examen.
d) Marca de refresco consumido.
e) Código postal que aparece en una carta
f) Estado civil de una persona

2.2. Dar cuatro ejemplos de variables cualitativas.


2.3. Proponer dos ejemplos de cada uno de los tipos de variables cuantitativas.
2.4. Se desea comparar la calidad de vida en varias ciudades. Proponer de forma
razonada seis variables que podrían utilizarse para realizar el estudio. ¿Qué tipo de variable es
cada una de ellas?
2.5. Se plantea un estudio para ordenar las cien mayores empresas de un país.
Determinar razonadamente tres variables en que basar la clasificación. ¿De qué tipo es cada una
de ellas?
2.6. Cierta universidad decide evaluar la capacidad docente de su profesorado mediante
encuestas realizadas entre todos los alumnos. Proponer de forma justificada cinco variables que
deban figurar en el estudio. ¿Qué tipo de variable es cada una de ellas?
2.7. La variable SOC en la Tabla 2.1 describe la categoría socioeconómica La clase 1
corresponde a trabajadores agrarios; la 2, a empresarios agrarios sin asalariados; la 3, a obreros;
la 4, a clase media; la 5, a clase alta y la 6, a retirados.
a) Obtener las frecuencias absolutas de cada una de las categorías.
b) Calcular las frecuencias relativas y mostrar la distribución de frecuencias.
c) Hallar la moda.
d) En general, ¿qué ventaja supone utilizar las frecuencias relativas en vez de las
frecuencias absolutas?
e) Hallar el correspondiente diagrama de Pareto y pictograma
f) ¿Qué conclusiones pueden extraerse de este estudio?
2.8. Tomar cuarenta observaciones de una variable cualitativa
a) Calcular las frecuencias absolutas de cada una de las clases.
b) Hallar las frecuencias relativas.
c) Dibujar los diagramas de barras, de Pareto y el pictograma
d) ¿Cuál es la clase (o clases) modal?
e) ¿Qué conclusiones pueden extraerse de este estudio?
2.9. Los siguientes datos corresponden a régimen de tenencia de viviendas en España:
Por compra (totalmente pagada)... 6.158.320
Por compra (con pagos pendientes)... 1.825.695
Por herencia o donación... 1.182109
Facilitadas (por otras personas, empresas u organismos)... 538.572
En alquiler 1.757.469
Otras formas 362.504

a) Hallar la distribución de frecuencias relativas.


b) Representar mediante un diagrama de Pareto y un pictograma la distribución de la
variable.
c) ¿Cuál es la clase modal?
d) ¿Qué conclusiones pueden extraerse?

También podría gustarte