Está en la página 1de 14

TEMA 2

DISTRIBUCIONES DE FRECUENCIAS DE UNA CARACTERÍSTICA

1. Distribución de frecuencias y representaciones gráficas de un atributo.


Como se expuso en el tema anterior, un atributo, que se denota por A, es una característica cualitativa
(no numérica) de los elementos observados en la población o muestra. Vamos a denotar por N al total
de observaciones disponibles para dicho atributo (también es habitual representarlo por n) y las
diferentes modalidades que se observan para este atributo (que se representarán ordenadas de menor a
mayor si el atributo se mide en escala ordinal son a1 , a2 ,..., ak . Nótese que forzosamente k ≤ N , y que
k = N sólo se cumple cuando todas las modalidades observadas del atributo son distintas. De manera
general nos referiremos a las modalidades del atributo como ai , para i=1,…,k.

A partir de aquí surgen las siguientes definiciones que serán útiles para describir el colectivo de
valores:

Frecuencia (absoluta) de la modalidad ai : es el número de veces que aparece esa modalidad en los
datos y se representa ni , para i=1,…,k.

Frecuencia relativa de la modalidad ai : se representa fi y se define como la proporción de


ni
apariciones de esa modalidad respecto al total de datos observados, es decir, fi = , para i=1,…,k.
N

Las dos siguientes propiedades son inmediatas:

k
1. ∑n
i =1
i = n1 + n2 + ... + nk = N (la suma de todas las frecuencias absolutas coincide con el tamaño

de la población o muestra).
k
2. ∑f
i =1
i = f1 + f 2 + ... + f k = 1 (la suma de todas las frecuencias relativas vale 1).

La distribución de frecuencias (absolutas) del atributo A viene dada por el conjunto de todas las
modalidades observadas junto con sus frecuencias absolutas, es decir ( ai , ni ) , para i=1,…,k, lo que se
suele representar en una tabla como la siguiente:

ai a1 a2 … ai … ak
ni n1 n2 … ni … nk N

Estadística : Apuntes de apoyo Tema 2. pág. 1


De manera análoga la distribución de frecuencias relativas del atributo A viene dada por el conjunto de
todas las modalidades observadas junto con sus frecuencias relativas, es decir ( ai , fi ) , para i=1,…,k, lo
que se suele representar en una tabla similar a la anterior.

Ejemplo 1: Consultando la Encuesta de Ocupación Hotelera de 2008 elaborada por el INE, obtenemos
información sobre el atributo "país de residencia de los viajeros extranjeros de la Unión Europea que
vinieron a España", cuya distribución frecuencias aparece a continuación:
País de procedencia ( ai ) ni fi
Reino Unido 7602122 0,2726
Alemania 7074680 0,2537
Francia 3579311 0,1283
Italia 2528966 0,0907
Países Bajos 1378110 0,0494
Portugal 1297037 0,0465
Resto de países 4428685 0,1588
Total 27888911 1

Cuando el atributo A se presenta en una escala ordinal, considerando las modalidades ordenadas de
menor a mayor a1 < a2 < ... < ak , se pueden definir los siguientes tipos de frecuencias:

Frecuencia (absoluta) acumulada de la modalidad ai : se representa N i y se define como el total de


i
observaciones con modalidad inferior o igual a ai . Es decir, N i = n1 + n2 + ... + ni = ∑n
j =1
j , para i=1,…,k.

(Nótese que N k = N y que N i − N i −1 =


ni para i=2,…,k).

Frecuencia relativa acumulada de la modalidad ai : se representa Fi y se define como la proporción


i
Ni
de observaciones con modalidad inferior o iguales a xi . Es decir, Fi = f1 + f 2 + ... + fi = ∑f
j =1
j =
N
,

para i=1,…,k. (Nótese que Fk = 1 y que Fi − Fi −1 =


fi para i=2,…,k).

Ejemplo 2: Según el INE, El número de hoteles en España en Junio de 2009, se distribuye por
categorías de la siguiente forma:
Categoría del hotel Número de hoteles
1 estrella 1320
2 estrellas 2032
3 estrellas 2729
4 estrellas 1763
5 estrellas 212

Estadística : Apuntes de apoyo Tema 2. pág. 2


En la tabla siguiente presenta para el atributo A=”Categoría del hotel”, su distribución de frecuencias
con todas las frecuencias antes definidas:

ai ni fi Ni Fi
1 estrella 1320 0,1639 1320 0,1639
2 estrellas 2032 0,2522 3352 0,4161
3 estrellas 2729 0,3388 6081 0,7548
4 estrellas 1763 0,2188 7844 0,9737
5 estrellas 212 0,0263 8056 1,0000
Total 8056 1

Interpretando los datos de la tercera fila tenemos que, en Junio de 2009, había una oferta de 2729
hoteles de 3 estrellas, lo que suponía un 25’22% de todos los hoteles ofertados. Además, había 6081
hoteles con 3 estrellas o menos, lo que suponía un 75’48% del total.

Antes de entrar en las representaciones gráficas de los datos observados para atributos, vamos a hacer
algunos comentarios de carácter general, válidos para todas las representaciones gráficas que se harán a
lo largo del tema:
• El objetivo de las representaciones gráficas es el de proporcionar una visión global y rápida del
fenómeno que se está investigando.
• Es importante observar que es indiferente hacer las representaciones con frecuencias absolutas o
relativas, ya que el uso de unas u otras únicamente supone un cambio de escala en la gráfica.

Entrando específicamente en las representaciones gráficas para atributos, las cuales se basan en el
principio de proporcionalidad de las áreas a las frecuencias absolutas, vamos mencionar dos de las más
importantes:
Diagrama de rectángulos o bloques: Consiste en representar en un diagrama de ejes cartesianos
bidimensional para cada modalidad rectángulos de base y anchura constante y de altura proporcional a
la frecuencia absoluta de la modalidad (se suele tomar la frecuencia absoluta o relativa). La siguiente
gráfica muestra el diagrama de bloques del ejemplo 1 anterior usando las frecuencias absolutas como
alturas de los rectángulos.

Estadística : Apuntes de apoyo Tema 2. pág. 3


Diagrama de sectores o de pastel: Consiste en representar, en una circunferencia de radio arbitrario,
un sector circular para cada modalidad de manera que el área del sector sea proporcional a la frecuencia
absoluta de la modalidad, para ello basta asignar al sector circular correspondiente a la modalidad ai
un número de grados igual a α i = 360· fi . La gráfica siguiente muestra el diagrama de sectores para el
ejemplo 2.

2. Distribución de frecuencias y representaciones gráficas de una variable no


agrupada.
A partir de ahora X representará una determinada variable que toma valores para una población o
muestra y que va a ser objeto de estudio. El total de observaciones disponibles para dicha variable se
representará por N (también es habitual representarlo por n) y los diferentes valores que se observan
para esa variable se representarán ordenados, siendo éstos x1 < x2 < ... < xk . Nótese que forzosamente
k ≤ N , y que k = N sólo se cumple cuando todos los valores observados de la variable son distintos.
De manera general nos referiremos a los valores de la variable como xi , para i=1,…,k.

Estadística : Apuntes de apoyo Tema 2. pág. 4


A partir de aquí surgen las siguientes definiciones totalmente análogas a las vistas para los atributos,
que serán útiles para describir el colectivo de valores:

Frecuencia (absoluta) del valor xi : es el número de veces que aparece ese valor en los datos y se
representa ni , para i=1,…,k.

Frecuencia relativa del valor xi : se representa fi y se define como la proporción de apariciones de ese
ni
valor respecto al total de valores observados, es decir, fi = , para i=1,…,k.
N

Las dos siguientes propiedades son inmediatas:

k
1. ∑n
i =1
i = n1 + n2 + ... + nk = N (la suma de todas las frecuencias absolutas coincide con el tamaño

de la población o muestra).
k
2. ∑f
i =1
i = f1 + f 2 + ... + f k = 1 (la suma de todas las frecuencias relativas vale 1).

La distribución de frecuencias (absolutas) de la variable X viene dada por el conjunto de todos los
valores observados junto con sus frecuencias absolutas, es decir ( xi , ni ) , para i=1,…,k, lo que se suele
representar en una tabla como la siguiente:

xi x1 x2 … xi … xk
ni n1 n2 … ni … nk N

De manera análoga la distribución de frecuencias relativas de la variable X viene dada por el conjunto
de todos los valores observados junto con sus frecuencias relativas, es decir ( xi , fi ) , para i=1,…,k, lo
que se suele representar en una tabla similar a la anterior.

En el contexto de las variables no agrupadas la cantidad de observaciones diferentes xi no es


excesivamente grande y la tabla anterior es operativa.

Ejemplo 3: Se pregunta a un grupo de 9 personas por la variable X = número de hermanos que tienen,
siendo los valores observados los siguientes: 1, 1, 0, 2, 5, 2, 2, 1, 0. La distribución de frecuencias de
esta variable viene dada por:

Estadística : Apuntes de apoyo Tema 2. pág. 5


Valores Frecuencias Frecuencias
observados absolutas relativas
xi ni fi
0 2 2 9 = 0 ' 22
1 3 3 9 = 0 '33
2 3 3 9 = 0 '33
5 1 1 9 = 0 '11
Total N= 9 Total 1
Es decir, para tabular observaciones hay que ordenarlas y los valores no se repiten, sino que se indica
su frecuencia, cosa que facilita la visión panorámica del fenómeno que se desea estudiar. Además, de
manera similar a como se vio para el caso de los atributos medidos en escala ordinal, se pueden definir
de la siguiente manera las frecuencias acumuladas:

Frecuencia (absoluta) acumulada del valor xi : se representa N i y se define como el total de


i
observaciones inferiores o iguales a xi . Es decir, N i = n1 + n2 + ... + ni = ∑n
j =1
j , para i=1,…,k. (Nótese

que N k = N y que N i − N i −1 =
ni para i=2,…,k).

Frecuencia relativa acumulada del valor xi : se representa Fi y se define como la proporción de


i
Ni
observaciones inferiores o iguales a xi . Es decir, Fi = f1 + f 2 + ... + fi = ∑f
j =1
j =
N
, para i=1,…,k.

(Nótese que Fk = 1 y que Fi − Fi −1 =


fi para i=2,…,k).

Ejemplo 4: Se pregunta a N= 8 trabajadores de una empresa por su salario mensual (en €) y las
observaciones ha sido estas: 1400, 1950, 1400, 1500, 1400, 1500, 1950, 2300
Entonces la tabla de frecuencias de la variable X= salario mensual en euros sería así:
xi ni fi Ni Fi
1400 3 3 8 = 0 '375 3 3 8 = 0 '375
1500 2 2 8 = 0 ' 25 5 5 8 = 0 '625
1950 2 2 8 = 0 ' 25 7 7 8 = 0 '875
2300 1 1 8 = 0 '125 8 8 8 =1
N= 8
Interpretando los datos de la tercera fila tenemos que 2 de éstos 8 trabajadores, que representan un 25%
del total, tienen un salario de 1950€ mensuales. Además, 7 trabajadores, que son el 87’5% del total,
tienen un salario de 1950€ o menos.

Estadística : Apuntes de apoyo Tema 2. pág. 6


En cuanto a las representaciones gráficas para este tipo de variables, de manera general éstas se hacen
en un diagrama de ejes cartesianos bidimensional, representando en el eje horizontal los valores de la
variable y en el vertical las frecuencias correspondientes (acumuladas o no acumuladas, con lo que
tendremos dos posibles representaciones gráficas).

Diagramas de barras, se obtiene asignando a cada valor del eje horizontal una barra de altura igual a
su frecuencia, y las frecuencias acumuladas (absolutas o relativas) utilizando los diagramas en
escalera, asignando a cada valor del eje horizontal la frecuencia que acumula.

Presentamos para el ejemplo 3 de los salarios estos diagramas, realizados tanto con frecuencias
absolutas como relativas para poner de manifiesto que es indiferente usar unas u otras ya que el único
efecto es un cambio de escala en el eje de ordenadas, siendo la apariencia del gráfico la misma.

Conviene señalar que las gráficas de las frecuencias acumuladas son escalonadas, no decrecientes y
continuas por la derecha, tal como se indica en los eventuales puntos de salto. Además, el valor del
salto coincide con la frecuencia no acumulada de cada punto. Cuando este diagrama se realiza con las
frecuencias relativas se denomina gráfico de la función de distribución empírica de la variable.

Estadística : Apuntes de apoyo Tema 2. pág. 7


3. Distribución de frecuencias y representaciones gráficas de una variable
agrupada.
Cuando se dispone de un conjunto de observaciones a veces suele ser más práctico agrupar los valores
de esa variable en intervalos porque el número de valores diferentes que se observan es excesivamente
grande. Por costumbre los intervalos que se usan para la agrupación se suelen tomar abiertos por la
izquierda y cerrados por la derecha, excepto el primer intervalo, que se toma cerrado por los dos lados
y cuyo extremo inferior será el menor de los valores observados.

La notación habitual para este proceso es la siguiente:


Intervalos Frecuencias absolutas
Li −1 − Li ni
1er intervalo [ L0 , L1 ] n1
2º intervalo ( L1 , L2 ] n2
3er intervalo ( L2 , L3 ] n3
.................. ......... ........
k-ésimo intervalo ( Lk −1 , Lk ] nk

Definición: La amplitud del intervalo i-ésimo ( Li −1 , Li ] es a=


i Li − Li −1

En este caso ni es el número de observaciones dentro del intervalo i-ésimo ( Li −1 , Li ] y fi la proporción


de tales observaciones. La frecuencia acumulada N i es el número de observaciones menores o iguales
que Li , y Fi la proporción de tales observaciones (siendo todas las relaciones antes vistas igualmente
válidas en este contexto).

Ejemplo 5: El peso en kg de los recién nacidos en una clínica (variable X observada durante una cierta
mañana) ha proporcionado estas 19 observaciones:
2’8 4’5 3’9 3’65 2’65 3 3’65 2’4 4’15 3’3 3’15 3’7 3’2 3’1 3’75 3’8 3’15 3’5 3,95

En este caso, como los valores apenas se repiten y son excesivamente numerosos vamos a proceder a su
agrupación en los intervalos siguientes: [2’4, 2’9] (2’9, 3’3] (3’3, 3’8] (3’8, 4’5], lo que da lugar a
esta tabla:

Estadística : Apuntes de apoyo Tema 2. pág. 8


Frecuencias Frecuencias
Intervalos Frecuencias Amplitudes Valor central Frecuencias
acumuladas relativas
Li −1 − Li ni ai del intervalo xi relativas fi
Ni acumuladas Fi
[2’4, 2’9] 3 3 0’5 2’65 0’158 0’158
(2’9, 3’3] 6 9 0’4 3’1 0’316 0’474
(3’3, 3’8] 6 15 0’5 3’55 0’316 0’789
(3’8, 4’5] 4 19 0’7 4’15 0’210 1

Interpretando los datos de la tercera fila tenemos que 6 de éstos 19 bebés, que representan un 31.6% del
total, tuvieron un peso al nacer entre 3.3 y 3.8 kgr. Además, 15 bebés, que son el 78.9% del total,
pesaron al nacer 3.8 kgr o menos.

Observaciones:
1) Cuando una observación pierde su valor exacto individual para incorporarse a un intervalo existe
una pérdida de información que se denomina error de agrupamiento.
2) Cuando haya que efectuar cálculos con la variable, se suelen identificar todos los valores del
intervalo con un determinado valor que se denominará marca de clase del intervalo. La marca de
clase se elige dependiendo de la información disponible, y cuando no haya ninguna
L +L
información extra se tomará el valor central del intervalo, es decir, se tomará xi = i −1 i
2

Por ejemplo, si se quiere calcular la media aritmética de los pesos de los recién nacidos, si se trabaja
con sus valores exactos se obtiene que el resultado es 3’437, como puede fácilmente comprobarse
sumando las observaciones y dividiendo entre 19. Pero si identificamos cada valor con la marca de
2 '65 ⋅ 3 + 3'1 ⋅ 6 + 3'55 ⋅ 6 + 4 '15 ⋅ 4
clase de su intervalo entonces el cálculo es = 3'392 , y los cálculos no
19
coinciden por el error de agrupamiento.

3) Cuando se decida proceder a una agrupación, el número de intervalos que se tomen debe lograr un
equilibrio entre el excesivo y el escaso detalle. Si se elige un número excesivamente grande de
intervalos se pierde poca información pero se obtiene una tabla poco manejable, lo contrario
ocurre cuando se elige un número demasiado pequeño de intervalos, (varios autores recomiendan
que no sea mayor que N ).
4) Un intervalo de agrupación está bien elegido en función de los valores que contiene cuando se
verifica que dentro de él esos valores están distribuidos de forma aproximadamente uniforme,
criterio fundamental que debe respetarse para decidir cómo tomar los intervalos. Por ejemplo, si
en el dibujo que sigue los puntos representan los valores observados (o parte de ellos), entonces

Estadística : Apuntes de apoyo Tema 2. pág. 9


aproximadamente se diferencian tres “grupos con ritmos o densidades distintas”, y a cada uno de
esos grupos le debe corresponder un intervalo de agrupación diferente.

Definición: La densidad de frecuencias absolutas en un intervalo de agrupación se define como


n f
di = i (ó i si tomamos las frecuencias relativas). La densidad de frecuencias informa de la situación
ai ai
en los diferentes intervalos, pues indica el grado de “apretujamiento” de las observaciones en cada
intervalo, al igual que la densidad de población informa de los “apretados” que están los habitantes de
un territorio. Por ejemplo, en el dibujo de arriba el intervalo izquierdo es el de mayor densidad.

De manera análoga al caso no agrupado, las representaciones gráficas para variables agrupadas se
hacen en un diagrama de ejes cartesianos bidimensional, representando en el eje horizontal los
intervalos de la variable y en el vertical las frecuencias correspondientes (acumuladas o no acumuladas,
con lo que tendremos dos posibles representaciones gráficas).

Las frecuencias no acumuladas se representan mediante los denominados histogramas (nombre que se
debe a un término griego que designa las velas de un barco a los que estos gráficos recuerdan)
formados por rectángulos cuyas bases son los intervalos de agrupación y construidos de manera que el
área de cada uno de esos rectángulos es igual (en realidad basta que sea proporcional) a la frecuencia de
cada intervalo. Entonces si las bases de cada rectángulo tienen amplitud ai y las alturas de los
rectángulos las representamos como hi , como el área de cada rectángulo es igual al producto de la base
por la altura, se tiene la siguiente relación entre valores: n=
i ai ⋅ hi .
De ahí se puede despejar el valor de hi , o sea, hi = ni ai , de donde resulta que cada hi se puede tomar
como la densidad de las observaciones en el correspondiente intervalo, di .

Veamos cómo se construiyen los histogramas para el ejemplo 4 de los pesos agrupados de los recién
nacidos, y para ello volvemos a poner la tabla incorporando el cálculo de las densidades

Densidades de
frecuencias absolutas
Intervalos Frecuencias ni Amplitudes ai
n
di = i
ai
[2’4, 2’9] 3 0’5 6
(2’9, 3’3] 6 0’4 15

Estadística : Apuntes de apoyo Tema 2. pág. 10


(3’3, 3’8] 6 0’5 12
(3’8, 4’5] 4 0’7 5’71

Peso recién nacidos


(histograma de densidades absolutas)

di 20

15

10

0
X
2,0 2,5 3,0 3,5 4,0 4,5 5,0

Lo esencial que hay que recordar es que a mayor área del rectángulo mayor frecuencia de
observaciones en el intervalo base, y que a mayor altura mayor densidad. Por ejemplo, los
rectángulos 2º y 3º tienen igual área porque tanto en el 2º intervalo como en el 3º hay 6 observaciones,
pero la densidad de observaciones en el 2º intervalo es mayor (es decir, las observaciones están más
“apretadas”), y por eso su rectángulo es más alto.

Análogamente se puede representar el histograma tomando como alturas las densidades de frecuencias
relativas di = fi a i , y resultaría una gráfica igual, salvo que la escala del eje vertical habría variado.

Peso recién nacidos


(histograma de densidades relativas)

di 1
0,8
0,6
0,4
0,2
0
X
2,0 2,5 3,0 3,5 4,0 4,5 5,0

Nótese que si la amplitud ai de cada intervalo fuese igual en todos, es decir, una amplitud constante a,
entonces se puede tomar como altura de los rectángulos las frecuencias absolutas ni (o las frecuencias
relativas fi ), puesto que entonces las áreas de los rectángulos valdrán a × ni , que es proporcional a la
frecuencia (con constante de proporcionalidad dada por el valor a). En otras palabras, las alturas de los
rectángulos del histograma deben ser en general las densidades, pero cuando los intervalos son de
amplitud constante también sirven las frecuencias.

Estadística : Apuntes de apoyo Tema 2. pág. 11


En cuanto a la representación de las frecuencias acumuladas sabemos cuál es su valor en los extremos
de los intervalos, pero, ¿qué frecuencia se debe asignar en los otros puntos? Para contestar esta
pregunta debemos hacer una suposición adicional, que el ritmo del incremento de la frecuencia
acumulada no varía dentro de un mismo intervalo, o dicho de una forma más precisa, que dentro de
cada intervalo la distribución de observaciones es uniforme. Esta suposición adicional permite que la
frecuencia acumulada dentro de un intervalo se pueda representar mediante un segmento, dando lugar a
la figura denominada gráfica poligonal de frecuencias acumuladas, que en nuestro caso sería así:

Frecuencias Frecuencias
Intervalos acumuladas absolutas acumuladas relativas
Ni Fi
[2’4, 2’9] 3 0’158
(2’9, 3’3] 9 0’474
(3’3, 3’8] 15 0’789
(3’8, 4’5], 19 1

Peso recién nacidos (frecuencias absolutas acumuladas)

Ni 20

15

10

0 X
2 2,5 3 3,5 4 4,5 5

Cuya gráfica es similar si en vez de las frecuencias acumuladas absolutas se toman las relativas:

Peso recién nacidos (frecuencias relativas acumuladas)

Fi 1,000

0,800
0,600
0,400
0,200
0,000 X
2 2,5 3 3,5 4 4,5 5

Estadística : Apuntes de apoyo Tema 2. pág. 12


En relación con estas poligonales de frecuencias acumuladas destacamos también las siguientes dos
circunstancias:

a) La hipótesis de que la distribución agrupada es uniforme dentro de cada intervalo es coherente con
tomar el valor central de cada intervalo (la marca de clase) como valor representativo de dicho
intervalo, tal y como se hizo en el Ejemplo 3 al calcular la media con datos agrupados.

b) En el polígono donde se representan las frecuencias N i , las pendientes de los segmentos son
justamente las densidades, pues las pendientes valen =
mi ( N i − N i −1 ) ai y puesto que N i − N i −1 =
ni
entonces efectivamente mi = ni ai , de modo que los intervalos del polígono de frecuencias
acumuladas donde el crecimiento es más rápido se corresponden con aquellos donde la densidad es
mayor. Y la interpretación es la misma si en vez del polígono de frecuencias acumuladas absolutas
se observa el polígono de frecuencias acumuladas relativas Fi .

Cualquiera de las 4 distribuciones de frecuencias vistas para los atributos y para los dos tipos de
variables (absolutas, relativas, absolutas acumuladas y relativas acumuladas 1) determina la distribución
de frecuencias del atributo o de la variable y permite por tanto obtener cualquiera de las características
y realizar las representaciones gráficas que se irán explicando a lo largo de los siguientes temas.

Concluimos aportando una tabla resumen con los nombres de gráficos utilizados para representar las
frecuencias en cada situación (es indiferente que sean absolutas o relativas), así como alguna de las
interpretaciones asociadas a cada gráfico.

1
Nótese que en el caso de atributos medidos en una escala nominal no tiene sentido hablar de frecuencias acumuladas.

Estadística : Apuntes de apoyo Tema 2. pág. 13


VARIABLE
FRECUENCIA NO AGRUPADA AGRUPADA
Diagrama de barras Histograma
La longitud de la barra es El área del rectángulo es proporcional a la
proporcional a la frecuencia frecuencia.
La altura del rectángulo es proporcional a
la densidad.
SIN ACUMULAR Peso recién nacidos
(histograma de densidades absolutas)

di 20
15
10
5
0
2,0 2,5 3,0 3,5 4,0 4,5 5,0X

Polígono de frecuencias
Diagrama en escalera acumuladas
El salto es igual a la frecuencia La pendiente del segmento es
no acumulada proporcional a la densidad.
Peso recién nacidos (frecuencias absolutas acumuladas)

ACUMULADA
Ni 20

15
10

5
0
2 2,5 3 3,5 4 4,5 5X

Estadística : Apuntes de apoyo Tema 2. pág. 14

También podría gustarte