Está en la página 1de 2

Construcción

de un histograma
La representación gráfica más frecuente para describir como se distribuyen los valores de una
variable cuantitativa continua es el histograma. Para construir un histograma primero
necesitamos agrupar los valores de la variable en intervalos. Un histograma es un conjunto de
rectángulos, uno por cada uno de los intervalos en que se han agrupado los datos. La base de
cada rectángulo es igual a la amplitud del intervalo (la llamaremos ci), y la altura (a la que
llamaremos hi) se determina de manera que el área del rectángulo sea proporcional a la
frecuencia del intervalo (la frecuencia del intervalo es el número de datos en el mismo y la
llamaremos ni). Cuando la amplitud de todos los intervalos es la misma (el caso más
frecuente) basta con que las alturas sean proporcionales a la frecuencia del intervalo.
Propiedad fundamental del histograma: el área de cada rectángulo es proporcional a la frecuencia de su intervalo.
En la siguiente tabla se muestran los datos correspondientes al tiempo empleado en una
consulta, en minutos, para 60 pacientes:
2.2 2.5 2.5 2.6 2.7 2.9 3.0 3.1 3.2 3.3 3.5 3.6
3.8 4.1 4.4 4.5 4.8 4.8 5.0 5.1 5.1 5.1 5.1 5.2
5.2 5.3 5.4 5.4 5.4 5.6 6.3 6.5 6.6 6.7 6.9 7.6
8.1 8.3 8.4 8.5 8.6 8.9 9.4 10.0 10.1 10.1 10.2 11.0
13.1 13.5 14.5 14.6 14.8 15.7 15.7 16.4 17.3 18.8 19.9 21.6

Agrupación de los datos en intervalos


El primer paso es agrupar los datos en intervalos. En nuestro caso hemos elegido emplear 5
intervalos, aunque podríamos tomar una cantidad menor o mayor. Existen diferentes criterios
para seleccionar los extremos de los intervalos y para ilustrarlo mostraremos 2 de ellas:
Intervalo ni Intervalo ni
[2; 6[ 30 [2; 4[ 13
[6; 10[ 13 [4; 6[ 17
[10; 14[ 7 [6; 9[ 12
[14; 18[ 7 [9; 15[ 11

[18; 22] 3 [15; 22] 7
La misma amplitud. Aproximadamente el mismo número de datos.
Los intervalos son cerrados a la izquierda y abiertos a la derecha, excepto el último, que está cerrado a ambos lados.
El primer criterio consiste en construir intervalos de idéntica amplitud; en nuestro caso,
construimos 5 intervalos de 4 unidades de amplitud. Esta opción es, con diferencia, la más
utilizada, pero en nuestro caso no es la más recomendable, ya que da lugar a intervalos con
frecuencias muy diferentes: el primer intervalo contiene 30 datos, mientras que el último sólo
contiene 3 datos. El segundo criterio consiste en construir intervalos con aproximadamente el
mismo número de datos. Este criterio se usa con menor frecuencia, pero resulta de utilidad
cuando los datos no se distribuyen de manera homogénea (veremos que en nuestro caso los
datos presentan una acusada asimetría positiva).
La propiedad fundamental del histograma indica que el área de cada rectángulo ha de ser
proporcional a su frecuencia, es decir, si un intervalo contiene, por ejemplo, doble número de
datos que otro el área del primero será el doble que la del segundo, mientras que dos
intervalos con el mismo número de datos en su interior tendrán la misma área (no
necesariamente la misma altura, ya que pueden tener diferente amplitud).
En un histograma, a mayor área en un rectángulo le corresponde un mayor número de datos (frecuencia) en el intervalo asociado.
Como el área del i‐ésimo rectángulo se calcula multiplicando su base por su altura, la
propiedad fundamental del histograma se traduce en la siguiente relación: , dónde k
es la constante de proporcionalidad que usualmente se iguala a 1, pero que puede tomar otro
valor si con ello el histograma se interpreta con mayor facilidad.

1
Construcción de un histograma
Como la base de cada rectángulo, , y su frecuencia, , son conocidas, queda por determinar
el valor de la altura, que se obtiene despejando en la anterior expresión: ⁄ .
No es necesario que el área de los intervalos coincida con la frecuencia, basta con que sea proporcional a la misma.
Con todo lo anterior queda clara la necesidad de ampliar las tablas anteriores, para incluir,
para cada intervalo, los valores y , según se ilustra a continuación:
Intervalo ni ci hi 4hi Intervalo ni ci hi 6hi
[2; 6[ 30 4 7,50 30 [2; 4[ 13 2 6,50 39
[6; 10[ 13 4 3,25 13 [4; 6[ 17 2 8,50 51
[10; 14[ 7 4 1,75 7 [6; 9[ 12 3 4,00 24
[14; 18[ 7 4 1,75 7 [9; 15[ 11 6 1,83 11

[18; 22] 3 4 0,75 3 [15; 22] 7 7 1,00 6
La misma amplitud. Aproximadamente el mismo nº de datos.
En las dos tablas anteriores se ha empleado la constante de proporcionalidad para conseguir
alturas sin decimales (en el primer caso 4 y en el segundo caso 6). Esto no es
necesario, pero puede ser útil para simplificar la escala del eje vertical.
Para cada uno de los casos representaremos el histograma, según se ha definido:

0 2 4 6 8 10 12 14 16 18 20 22 24 26 0 2 4 6 8 10 12 14 16 18 20 22 24 26

La misma amplitud. Aproximadamente el mismo nº de datos.
El polígono de frecuencias
El histograma suele venir acompañado del llamado polígono de frecuencias, que es una línea
poligonal que une los centros de las líneas superiores de los rectángulos, según se puede
apreciar en las siguientes figuras:

0 2 4 6 8 10 12 14 16 18 20 22 24 26 0 2 4 6 8 10 12 14 16 18 20 22 24 26

La misma amplitud. Aproximadamente el mismo nº de datos.
Los extremos del polígono se obtienen alargando cada uno de los rectángulos extremos en la
mitad de su amplitud. En ambos histogramas se aprecia la asimetría positiva antes
mencionada (la cola hacia la derecha).
El polígono de frecuencias indica, para cada punto, la mayor o menor densidad alrededor del
mismo, es decir, un punto para el que el polígono de frecuencias es muy alto indica que hay
muchos datos alrededor de dicho punto (zona de alta densidad), mientras que los puntos para
los que el polígono de frecuencias es muy bajo son puntos de baja densidad, es decir, puntos
alrededor de los cuales hay pocos datos.
El polígono de frecuencias indica lo “apretados” que están los datos alrededor de cada punto (densidad).

También podría gustarte