Documentos de Académico
Documentos de Profesional
Documentos de Cultura
02 - Tema 2
02 - Tema 2
A partir de aquí surgen las siguientes definiciones que serán útiles para describir el colectivo de
valores:
Frecuencia (absoluta) de la modalidad ai : es el número de veces que aparece esa modalidad en los
datos y se representa ni , para i=1,…,k.
k
1. ∑n
i =1
i = n1 + n2 + ... + nk = N (la suma de todas las frecuencias absolutas coincide con el tamaño
de la población o muestra).
k
2. ∑f
i =1
i = f1 + f 2 + ... + f k = 1 (la suma de todas las frecuencias relativas vale 1).
La distribución de frecuencias (absolutas) del atributo A viene dada por el conjunto de todas las
modalidades observadas junto con sus frecuencias absolutas, es decir ( ai , ni ) , para i=1,…,k, lo que se
suele representar en una tabla como la siguiente:
ai a1 a2 … ai … ak
ni n1 n2 … ni … nk N
Ejemplo 1: Consultando la Encuesta de Ocupación Hotelera de 2008 elaborada por el INE, obtenemos
información sobre el atributo "país de residencia de los viajeros extranjeros de la Unión Europea que
vinieron a España", cuya distribución frecuencias aparece a continuación:
País de procedencia ( ai ) ni fi
Reino Unido 7602122 0,2726
Alemania 7074680 0,2537
Francia 3579311 0,1283
Italia 2528966 0,0907
Países Bajos 1378110 0,0494
Portugal 1297037 0,0465
Resto de países 4428685 0,1588
Total 27888911 1
Cuando el atributo A se presenta en una escala ordinal, considerando las modalidades ordenadas de
menor a mayor a1 < a2 < ... < ak , se pueden definir los siguientes tipos de frecuencias:
Ejemplo 2: Según el INE, El número de hoteles en España en Junio de 2009, se distribuye por
categorías de la siguiente forma:
Categoría del hotel Número de hoteles
1 estrella 1320
2 estrellas 2032
3 estrellas 2729
4 estrellas 1763
5 estrellas 212
ai ni fi Ni Fi
1 estrella 1320 0,1639 1320 0,1639
2 estrellas 2032 0,2522 3352 0,4161
3 estrellas 2729 0,3388 6081 0,7548
4 estrellas 1763 0,2188 7844 0,9737
5 estrellas 212 0,0263 8056 1,0000
Total 8056 1
Interpretando los datos de la tercera fila tenemos que, en Junio de 2009, había una oferta de 2729
hoteles de 3 estrellas, lo que suponía un 25’22% de todos los hoteles ofertados. Además, había 6081
hoteles con 3 estrellas o menos, lo que suponía un 75’48% del total.
Antes de entrar en las representaciones gráficas de los datos observados para atributos, vamos a hacer
algunos comentarios de carácter general, válidos para todas las representaciones gráficas que se harán a
lo largo del tema:
• El objetivo de las representaciones gráficas es el de proporcionar una visión global y rápida del
fenómeno que se está investigando.
• Es importante observar que es indiferente hacer las representaciones con frecuencias absolutas o
relativas, ya que el uso de unas u otras únicamente supone un cambio de escala en la gráfica.
Entrando específicamente en las representaciones gráficas para atributos, las cuales se basan en el
principio de proporcionalidad de las áreas a las frecuencias absolutas, vamos mencionar dos de las más
importantes:
Diagrama de rectángulos o bloques: Consiste en representar en un diagrama de ejes cartesianos
bidimensional para cada modalidad rectángulos de base y anchura constante y de altura proporcional a
la frecuencia absoluta de la modalidad (se suele tomar la frecuencia absoluta o relativa). La siguiente
gráfica muestra el diagrama de bloques del ejemplo 1 anterior usando las frecuencias absolutas como
alturas de los rectángulos.
Frecuencia (absoluta) del valor xi : es el número de veces que aparece ese valor en los datos y se
representa ni , para i=1,…,k.
Frecuencia relativa del valor xi : se representa fi y se define como la proporción de apariciones de ese
ni
valor respecto al total de valores observados, es decir, fi = , para i=1,…,k.
N
k
1. ∑n
i =1
i = n1 + n2 + ... + nk = N (la suma de todas las frecuencias absolutas coincide con el tamaño
de la población o muestra).
k
2. ∑f
i =1
i = f1 + f 2 + ... + f k = 1 (la suma de todas las frecuencias relativas vale 1).
La distribución de frecuencias (absolutas) de la variable X viene dada por el conjunto de todos los
valores observados junto con sus frecuencias absolutas, es decir ( xi , ni ) , para i=1,…,k, lo que se suele
representar en una tabla como la siguiente:
xi x1 x2 … xi … xk
ni n1 n2 … ni … nk N
De manera análoga la distribución de frecuencias relativas de la variable X viene dada por el conjunto
de todos los valores observados junto con sus frecuencias relativas, es decir ( xi , fi ) , para i=1,…,k, lo
que se suele representar en una tabla similar a la anterior.
Ejemplo 3: Se pregunta a un grupo de 9 personas por la variable X = número de hermanos que tienen,
siendo los valores observados los siguientes: 1, 1, 0, 2, 5, 2, 2, 1, 0. La distribución de frecuencias de
esta variable viene dada por:
que N k = N y que N i − N i −1 =
ni para i=2,…,k).
Ejemplo 4: Se pregunta a N= 8 trabajadores de una empresa por su salario mensual (en €) y las
observaciones ha sido estas: 1400, 1950, 1400, 1500, 1400, 1500, 1950, 2300
Entonces la tabla de frecuencias de la variable X= salario mensual en euros sería así:
xi ni fi Ni Fi
1400 3 3 8 = 0 '375 3 3 8 = 0 '375
1500 2 2 8 = 0 ' 25 5 5 8 = 0 '625
1950 2 2 8 = 0 ' 25 7 7 8 = 0 '875
2300 1 1 8 = 0 '125 8 8 8 =1
N= 8
Interpretando los datos de la tercera fila tenemos que 2 de éstos 8 trabajadores, que representan un 25%
del total, tienen un salario de 1950€ mensuales. Además, 7 trabajadores, que son el 87’5% del total,
tienen un salario de 1950€ o menos.
Diagramas de barras, se obtiene asignando a cada valor del eje horizontal una barra de altura igual a
su frecuencia, y las frecuencias acumuladas (absolutas o relativas) utilizando los diagramas en
escalera, asignando a cada valor del eje horizontal la frecuencia que acumula.
Presentamos para el ejemplo 3 de los salarios estos diagramas, realizados tanto con frecuencias
absolutas como relativas para poner de manifiesto que es indiferente usar unas u otras ya que el único
efecto es un cambio de escala en el eje de ordenadas, siendo la apariencia del gráfico la misma.
Conviene señalar que las gráficas de las frecuencias acumuladas son escalonadas, no decrecientes y
continuas por la derecha, tal como se indica en los eventuales puntos de salto. Además, el valor del
salto coincide con la frecuencia no acumulada de cada punto. Cuando este diagrama se realiza con las
frecuencias relativas se denomina gráfico de la función de distribución empírica de la variable.
Ejemplo 5: El peso en kg de los recién nacidos en una clínica (variable X observada durante una cierta
mañana) ha proporcionado estas 19 observaciones:
2’8 4’5 3’9 3’65 2’65 3 3’65 2’4 4’15 3’3 3’15 3’7 3’2 3’1 3’75 3’8 3’15 3’5 3,95
En este caso, como los valores apenas se repiten y son excesivamente numerosos vamos a proceder a su
agrupación en los intervalos siguientes: [2’4, 2’9] (2’9, 3’3] (3’3, 3’8] (3’8, 4’5], lo que da lugar a
esta tabla:
Interpretando los datos de la tercera fila tenemos que 6 de éstos 19 bebés, que representan un 31.6% del
total, tuvieron un peso al nacer entre 3.3 y 3.8 kgr. Además, 15 bebés, que son el 78.9% del total,
pesaron al nacer 3.8 kgr o menos.
Observaciones:
1) Cuando una observación pierde su valor exacto individual para incorporarse a un intervalo existe
una pérdida de información que se denomina error de agrupamiento.
2) Cuando haya que efectuar cálculos con la variable, se suelen identificar todos los valores del
intervalo con un determinado valor que se denominará marca de clase del intervalo. La marca de
clase se elige dependiendo de la información disponible, y cuando no haya ninguna
L +L
información extra se tomará el valor central del intervalo, es decir, se tomará xi = i −1 i
2
Por ejemplo, si se quiere calcular la media aritmética de los pesos de los recién nacidos, si se trabaja
con sus valores exactos se obtiene que el resultado es 3’437, como puede fácilmente comprobarse
sumando las observaciones y dividiendo entre 19. Pero si identificamos cada valor con la marca de
2 '65 ⋅ 3 + 3'1 ⋅ 6 + 3'55 ⋅ 6 + 4 '15 ⋅ 4
clase de su intervalo entonces el cálculo es = 3'392 , y los cálculos no
19
coinciden por el error de agrupamiento.
3) Cuando se decida proceder a una agrupación, el número de intervalos que se tomen debe lograr un
equilibrio entre el excesivo y el escaso detalle. Si se elige un número excesivamente grande de
intervalos se pierde poca información pero se obtiene una tabla poco manejable, lo contrario
ocurre cuando se elige un número demasiado pequeño de intervalos, (varios autores recomiendan
que no sea mayor que N ).
4) Un intervalo de agrupación está bien elegido en función de los valores que contiene cuando se
verifica que dentro de él esos valores están distribuidos de forma aproximadamente uniforme,
criterio fundamental que debe respetarse para decidir cómo tomar los intervalos. Por ejemplo, si
en el dibujo que sigue los puntos representan los valores observados (o parte de ellos), entonces
De manera análoga al caso no agrupado, las representaciones gráficas para variables agrupadas se
hacen en un diagrama de ejes cartesianos bidimensional, representando en el eje horizontal los
intervalos de la variable y en el vertical las frecuencias correspondientes (acumuladas o no acumuladas,
con lo que tendremos dos posibles representaciones gráficas).
Las frecuencias no acumuladas se representan mediante los denominados histogramas (nombre que se
debe a un término griego que designa las velas de un barco a los que estos gráficos recuerdan)
formados por rectángulos cuyas bases son los intervalos de agrupación y construidos de manera que el
área de cada uno de esos rectángulos es igual (en realidad basta que sea proporcional) a la frecuencia de
cada intervalo. Entonces si las bases de cada rectángulo tienen amplitud ai y las alturas de los
rectángulos las representamos como hi , como el área de cada rectángulo es igual al producto de la base
por la altura, se tiene la siguiente relación entre valores: n=
i ai ⋅ hi .
De ahí se puede despejar el valor de hi , o sea, hi = ni ai , de donde resulta que cada hi se puede tomar
como la densidad de las observaciones en el correspondiente intervalo, di .
Veamos cómo se construiyen los histogramas para el ejemplo 4 de los pesos agrupados de los recién
nacidos, y para ello volvemos a poner la tabla incorporando el cálculo de las densidades
Densidades de
frecuencias absolutas
Intervalos Frecuencias ni Amplitudes ai
n
di = i
ai
[2’4, 2’9] 3 0’5 6
(2’9, 3’3] 6 0’4 15
di 20
15
10
0
X
2,0 2,5 3,0 3,5 4,0 4,5 5,0
Lo esencial que hay que recordar es que a mayor área del rectángulo mayor frecuencia de
observaciones en el intervalo base, y que a mayor altura mayor densidad. Por ejemplo, los
rectángulos 2º y 3º tienen igual área porque tanto en el 2º intervalo como en el 3º hay 6 observaciones,
pero la densidad de observaciones en el 2º intervalo es mayor (es decir, las observaciones están más
“apretadas”), y por eso su rectángulo es más alto.
Análogamente se puede representar el histograma tomando como alturas las densidades de frecuencias
relativas di = fi a i , y resultaría una gráfica igual, salvo que la escala del eje vertical habría variado.
di 1
0,8
0,6
0,4
0,2
0
X
2,0 2,5 3,0 3,5 4,0 4,5 5,0
Nótese que si la amplitud ai de cada intervalo fuese igual en todos, es decir, una amplitud constante a,
entonces se puede tomar como altura de los rectángulos las frecuencias absolutas ni (o las frecuencias
relativas fi ), puesto que entonces las áreas de los rectángulos valdrán a × ni , que es proporcional a la
frecuencia (con constante de proporcionalidad dada por el valor a). En otras palabras, las alturas de los
rectángulos del histograma deben ser en general las densidades, pero cuando los intervalos son de
amplitud constante también sirven las frecuencias.
Frecuencias Frecuencias
Intervalos acumuladas absolutas acumuladas relativas
Ni Fi
[2’4, 2’9] 3 0’158
(2’9, 3’3] 9 0’474
(3’3, 3’8] 15 0’789
(3’8, 4’5], 19 1
Ni 20
15
10
0 X
2 2,5 3 3,5 4 4,5 5
Cuya gráfica es similar si en vez de las frecuencias acumuladas absolutas se toman las relativas:
Fi 1,000
0,800
0,600
0,400
0,200
0,000 X
2 2,5 3 3,5 4 4,5 5
a) La hipótesis de que la distribución agrupada es uniforme dentro de cada intervalo es coherente con
tomar el valor central de cada intervalo (la marca de clase) como valor representativo de dicho
intervalo, tal y como se hizo en el Ejemplo 3 al calcular la media con datos agrupados.
b) En el polígono donde se representan las frecuencias N i , las pendientes de los segmentos son
justamente las densidades, pues las pendientes valen =
mi ( N i − N i −1 ) ai y puesto que N i − N i −1 =
ni
entonces efectivamente mi = ni ai , de modo que los intervalos del polígono de frecuencias
acumuladas donde el crecimiento es más rápido se corresponden con aquellos donde la densidad es
mayor. Y la interpretación es la misma si en vez del polígono de frecuencias acumuladas absolutas
se observa el polígono de frecuencias acumuladas relativas Fi .
Cualquiera de las 4 distribuciones de frecuencias vistas para los atributos y para los dos tipos de
variables (absolutas, relativas, absolutas acumuladas y relativas acumuladas 1) determina la distribución
de frecuencias del atributo o de la variable y permite por tanto obtener cualquiera de las características
y realizar las representaciones gráficas que se irán explicando a lo largo de los siguientes temas.
Concluimos aportando una tabla resumen con los nombres de gráficos utilizados para representar las
frecuencias en cada situación (es indiferente que sean absolutas o relativas), así como alguna de las
interpretaciones asociadas a cada gráfico.
1
Nótese que en el caso de atributos medidos en una escala nominal no tiene sentido hablar de frecuencias acumuladas.
di 20
15
10
5
0
2,0 2,5 3,0 3,5 4,0 4,5 5,0X
Polígono de frecuencias
Diagrama en escalera acumuladas
El salto es igual a la frecuencia La pendiente del segmento es
no acumulada proporcional a la densidad.
Peso recién nacidos (frecuencias absolutas acumuladas)
ACUMULADA
Ni 20
15
10
5
0
2 2,5 3 3,5 4 4,5 5X