Está en la página 1de 11

Dr. Freddy S.

Navarro Pineda

Histogramas y la distribución normal


estándar
Contenido
1. Histogramas ................................................................................................................ 2

1.1. Definición .............................................................................................................. 2

1.2. Objetivo ................................................................................................................. 2

1.3. Partes de un histograma..................................................................................... 2

Datos de entrada ...................................................................................................... 2

Rango de datos (R) ................................................................................................... 2

Clase ............................................................................................................................ 2

Número de clases (𝑘) ................................................................................................ 2

Rango de clase (𝑖) ..................................................................................................... 3

1.4. Ejemplo .................................................................................................................. 3

Histograma punto a punto ....................................................................................... 3

Histograma según la raíz cuadrada del número de datos ................................. 5

Histograma logarítmico............................................................................................. 6

Histograma usando herramientas computacionales .......................................... 8

1.5. Alcance de los histogramas............................................................................... 9

2. La distribución normal ............................................................................................. 10

2.1. Ejemplo ................................................................................................................ 11

1
Dr. Freddy S. Navarro Pineda

1. Histogramas
1.1. Definición

El histograma es un tipo especial de gráfico de barras que muestra la


distribución de probabilidad (o frecuencia) de ciertos datos al agruparlos
dentro de una serie de rangos (clases).

1.2. Objetivo

La idea es visualizar una serie de datos para determinar el tipo de distribución


de probabilidad que presentan. Por lo general, se asume que los datos
presentan una distribución normal.

1.3. Partes de un histograma

Datos de entrada

Son los datos sobre los cuales se pretende realizar el análisis estadístico.

Rango de datos (𝑹)

Se refiere a la diferencia entre el dato máximo (𝑥𝑚𝑎𝑦𝑜𝑟) y mínimo (𝑥𝑚𝑒𝑛𝑜𝑟).

Clase

Se refiere a un conjunto de datos que entran dentro de ciertos valores


determinados.

Número de clases (𝒌)

Número de conjuntos entre los que se dividirán los datos. Hay principalmente
tres maneras de calcular el número de clases:

• Punto a punto: En este caso, el valor 𝑘 será igual al número de datos de


carácter diferente dentro de los datos de entrada: 𝑘 = 1 + 𝑅⁄𝑟, siendo 𝑟 el
ritmo de aumento en los datos.

• Raíz cuadrada de los datos: 𝑘 = ⟦√𝑛⟧ + 1, siendo 𝑛 el número de datos de


entrada.

• Logarítmico: 𝑘 = ⟦1 + 3.322 × log 𝑛⟧ + 1.

2
Dr. Freddy S. Navarro Pineda

Rango de clase (𝒊)

Diferencia entre el valor máximo y mínimo de cada clase. Se calcula como:

• Raíz cuadrada de los datos:

𝑥𝑚𝑎𝑦𝑜𝑟 − 𝑥𝑚𝑒𝑛𝑜𝑟 𝑅
𝑖= =
𝑘−1 𝑘−1
• Logarítmico
𝑥𝑚𝑎𝑦𝑜𝑟 − 𝑥𝑚𝑒𝑛𝑜𝑟 𝑅
𝑖= =
1 + 3.322 × log 𝑛 1 + 3.322 × log 𝑛

1.4. Ejemplo

Categorice los 110 datos (𝑛 = 110) de la Tabla 1 en un histograma:


TABLA 1. M UESTRA DE 110 DATOS .

Dato Valor Dato Valor Dato Valor Dato Valor Dato Valor Dato Valor Dato Valor Dato Valor Dato Valor Dato Valor

1 2.531 12 2.545 23 2.551 34 2.558 45 2.564 56 2.538 67 2.549 78 2.553 89 2.56 100 2.57

2 2.532 13 2.545 24 2.551 35 2.558 46 2.565 57 2.538 68 2.549 79 2.554 90 2.561 101 2.57

3 2.532 14 2.545 25 2.551 36 2.559 47 2.565 58 2.539 69 2.55 80 2.554 91 2.561 102 2.57

4 2.533 15 2.545 26 2.552 37 2.559 48 2.566 59 2.542 70 2.55 81 2.555 92 2.561 103 2.571

5 2.534 16 2.546 27 2.552 38 2.559 49 2.567 60 2.542 71 2.55 82 2.556 93 2.561 104 2.571

6 2.534 17 2.546 28 2.552 39 2.559 50 2.567 61 2.542 72 2.55 83 2.556 94 2.561 105 2.572

7 2.536 18 2.546 29 2.552 40 2.559 51 2.568 62 2.543 73 2.551 84 2.556 95 2.562 106 2.572

8 2.536 19 2.546 30 2.552 41 2.56 52 2.568 63 2.543 74 2.551 85 2.556 96 2.562 107 2.574

9 2.537 20 2.547 31 2.552 42 2.56 53 2.569 64 2.543 75 2.551 86 2.556 97 2.563 108 2.574

10 2.537 21 2.547 32 2.553 43 2.56 54 2.569 65 2.544 76 2.551 87 2.557 98 2.564 109 2.575

11 2.538 22 2.547 33 2.553 44 2.56 55 2.569 66 2.544 77 2.551 88 2.558 99 2.564 110 2.575

El rango de datos para este caso es de:

𝑅 = 𝑥𝑚𝑎𝑦𝑜𝑟 − 𝑥𝑚𝑒𝑛𝑜𝑟 = 2.575 − 2.531 = 0.044

Histograma punto a punto

Los datos aumentan a un ritmo de 0.001 empezando desde 2.531 (𝑥𝑚𝑒𝑛𝑜𝑟) hasta
2.575 (𝑥𝑚𝑎𝑦𝑜𝑟). Por tanto,

2.575 − 2.531 0.044


𝑘= +1= + 1 = 45
0.001 0.001

• El primer rango de clase involucra los datos que oscilan entre -∞ hasta el
valor mínimo (𝑥𝑚𝑒𝑛𝑜𝑟) inclusive.

3
Dr. Freddy S. Navarro Pineda

• El segundo rango de clase iniciará desde el valor mínimo (𝑥𝑚𝑒𝑛𝑜𝑟) hasta el


valor 𝑥𝑚𝑒𝑛𝑜𝑟 + 𝑟 inclusive.
• El tercer rango de clase iniciará desde el valor 𝑥𝑚𝑒𝑛𝑜𝑟 + 𝑟 hasta el valor
𝑥𝑚𝑒𝑛𝑜𝑟 + 2 × 𝑟 y así sucesivamente.
• De manera general una clase intermedia iniciara desde el valor 𝑥𝑚𝑒𝑛𝑜𝑟 +
(𝑁 − 2) × 𝑟 hasta el valor 𝑥𝑚𝑒𝑛𝑜𝑟 + (𝑁 − 1) × 𝑟 para todo 𝑁 ≥ 2, siendo 𝑁 la
clase estudiada.

Los datos se organizan de la siguiente manera:


TABLA 2. R ANGO DE CLASES PARA EL HISTOGRAMA PUNTO A PUNTO .

Clase Rango de clase Frecuencia Clase Rango de clase Frecuencia


1 (-∞, 2.531] 1 24 (2.553, 2.554] 2
2 (2.531, 2.532] 2 25 (2.554, 2.555] 1
3 (2.532, 2.533] 1 26 (2.555, 2.556] 5
4 (2.533, 2.534] 2 27 (2.556, 2.557] 1
5 (2.534, 2.535] 0 28 (2.557, 2.558] 3
6 (2.535, 2.536] 2 29 (2.558, 2.559] 5
7 (2.536, 2.537] 2 30 (2.559, 2.56] 5
8 (2.537, 2.538] 3 31 (2.56, 2.561] 5
9 (2.538, 2.539] 1 32 (2.561, 2.562] 2
10 (2.539, 2.54] 0 33 (2.562, 2.563] 1
11 (2.54, 2.541] 0 34 (2.563, 2.564] 3
12 (2.541, 2.542] 3 35 (2.564, 2.565] 2
13 (2.542, 2.543] 3 36 (2.565, 2.566] 1
14 (2.543, 2.544] 2 37 (2.566, 2.567] 2
15 (2.544, 2.545] 4 38 (2.567, 2.568] 2
16 (2.545, 2.546] 4 39 (2.568, 2.569] 3
17 (2.546, 2.547] 3 40 (2.569, 2.57] 3
18 (2.547, 2.548] 0 41 (2.57, 2.571] 2
19 (2.548, 2.549] 2 42 (2.571, 2.572] 2
20 (2.549, 2.55] 4 43 (2.572, 2.573] 0
21 (2.55, 2.551] 8 44 (2.573, 2.574] 2
22 (2.551, 2.552] 6 45 (2.574, 2.575] 2
23 (2.552, 2.553] 3 46 (2.575, ∞) 0

El histograma de los datos será el siguiente:

4
Dr. Freddy S. Navarro Pineda

2,53 2,535 2,54 2,545 2,55 2,555 2,56 2,565 2,57 2,575
40 40

35 35

30 30

25 25
Frecuencia

20 20

15 15

10 8 10
6
5 5 5 5
4 4 4
5 3 3 3 3 3 3 3 3 3 5
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
1 1 1 1 1 1 1
0 0 0 0 0
0 0

Rango de clases
Datos Distribución normal de los datos

FIGURA 1. H ISTOGRAMA PUNTO A PUNTO DE LOS DATOS .

Histograma según la raíz cuadrada del número de datos

En este caso, el número de clases y el rango de clases se calculan como:

𝑘 = ⟦√𝑛⟧ + 1 = ⟦√110⟧ + 1 = 10 + 1 = 11

𝑥𝑚𝑎𝑦𝑜𝑟 − 𝑥𝑚𝑒𝑛𝑜𝑟 𝑅 0.044


𝑖= = = = 0.0044
𝑘−1 𝑘 − 1 11 − 1
• El primer rango de clase involucra los datos que oscilan entre -∞ hasta el
valor mínimo (𝑥𝑚𝑒𝑛𝑜𝑟) inclusive.
• El segundo rango de clase iniciará desde el valor mínimo (𝑥𝑚𝑒𝑛𝑜𝑟) hasta el
valor 𝑥𝑚𝑒𝑛𝑜𝑟 + 𝑖 inclusive.
• El tercer rango de clase iniciará desde el valor 𝑥𝑚𝑒𝑛𝑜𝑟 + 𝑖 hasta el valor
𝑥𝑚𝑒𝑛𝑜𝑟 + 2 × 𝑖 y así sucesivamente.
• De manera general una clase intermedia iniciara desde el valor 𝑥𝑚𝑒𝑛𝑜𝑟 +
(𝑁 − 2) × 𝑖 hasta el valor 𝑥𝑚𝑒𝑛𝑜𝑟 + (𝑁 − 1) × 𝑖 para todo 𝑁 ≥ 2, siendo 𝑁 la
clase estudiada.

Los datos se organizan de la siguiente manera:

5
Dr. Freddy S. Navarro Pineda

TABLA 3. R ANGO DE CLASES PARA EL HISTOGRAMA SEGÚN LA RAÍZ CUADRADA DE LOS DATOS .

Clase Rango de clase Frecuencia


1 (-∞, 2.531] 1
2 (2.531, 2.5354] 5
3 (2.5354, 2.5398] 8
4 (2.5398, 2.5442] 8
5 (2.5442, 2.5486] 11
6 (2.5486, 2.553] 23
7 (2.553, 2.5574] 9
8 (2.5574, 2.5618] 18
9 (2.5618, 2.5662] 9
10 (2.5662, 2.5706] 10
11 (2.5706, ∞) 8

El histograma será el siguiente:

2,531 2,536 2,541 2,546 2,551 2,556 2,561 2,566 2,571


40 40

35 35

30 30

25 25
Frecuencia

23

20 18 20

15 15
11
10
9 9
10 8 8 8 10
5
5 5
1

0 0

Rango de clases
Datos Distribución normal de datos

FIGURA 2. H ISTOGRAMA SEGÚN LA RAÍZ CUADRADA DE LOS DATOS .

Histograma logarítmico

En este caso, el número de clases y el rango de clases se calculan como:

𝑘 = ⟦1 + 3.322 × log 𝑛⟧ + 1 = ⟦1 + 3.322 × log 110⟧ + 1 = 7 + 1 = 8

6
Dr. Freddy S. Navarro Pineda

𝑥𝑚𝑎𝑦𝑜𝑟 − 𝑥𝑚𝑒𝑛𝑜𝑟 𝑅 0.044


𝑖= = = = 0.0056
1 + 3.322 × log 𝑛 1 + 3.322 × log 𝑛 1 + 3.322 × log 110

• El primer rango de clase involucra los datos que oscilan entre el valor
mínimo (𝑥𝑚𝑒𝑛𝑜𝑟) hasta el valor 𝑥𝑚𝑒𝑛𝑜𝑟 + 𝑖 inclusive.
• El segundo rango de clase iniciará desde el valor 𝑥𝑚𝑒𝑛𝑜𝑟 + 𝑖 hasta el valor
𝑥𝑚𝑒𝑛𝑜𝑟 + 2 × 𝑖 y así sucesivamente.
• De manera general una clase intermedia iniciara desde el valor 𝑥𝑚𝑒𝑛𝑜𝑟 +
(𝑁 − 1) × 𝑖 hasta el valor 𝑥𝑚𝑒𝑛𝑜𝑟 + 𝑁 × 𝑖 para todo 𝑁 ≥ 1, siendo 𝑁 la clase
estudiada.

Los datos se organizan de la siguiente manera:


TABLA 4. R ANGO DE CLASES PARA EL HISTOGRAMA LOGARÍTMICO .

Clase Rango de clase Frecuencia


1 [2.531, 2.5367] 8
2 (2.5367, 2.5423] 9
3 (2.5423, 2.548] 16
4 (2.548, 2.5536] 23
5 (2.5536, 2.5593] 17
6 (2.5593, 2.5649] 16
7 (2.5649, 2.5706] 13
8 (2.5706, 2.5762] 8

El histograma será el siguiente:

7
Dr. Freddy S. Navarro Pineda

2,53 2,535 2,54 2,545 2,55 2,555 2,56 2,565 2,57 2,575
40 40

35 35

30 30

25 23 25
Frecuencia

20 20
17
16 16

15 13 15

9
10 8 8 10

5 5

0 0
2,5367 2,5423 2,5480 2,5536 2,5593 2,5649 2,5706 2,5762
Rango de clases

Datos Distribución normal de datos

FIGURA 3. H ISTOGRAMA LOGARÍTMICO .

Histograma usando herramientas computacionales

Por medio de herramientas computacionales se pueden generar histogramas


de datos automáticamente asegurando el mejor ajuste de los datos. La Figura 4
muestra el histograma resultante usando el programa Microsoft Excel 2016.

8
Dr. Freddy S. Navarro Pineda

2,53 2,535 2,54 2,545 2,55 2,555 2,56 2,565 2,57 2,575
40 40

35 35

30 27
30
26

25 25
Frecuencia

19
20 18 20
14
15 15

10 10
6

5 5

0 0
[2.531, (2.5391, (2.5472, (2.5553, (2.5634, (2.5715,
2.5391] 2.5472] 2.5553] 2.5634] 2.5715] 2.5796]
Rango de clases
Datos Distribución normal de datos

FIGURA 4. H ISTOGRAMA USANDO EL PROGRAMA MICROSOFT EXCEL 2016.

1.5. Alcance de los histogramas

A partir de los datos organizados bajo el esquema de un histograma se puede


obtener la proporción de ciertos datos de interés. En la industria, uno de estos
datos es el Índice de Control de Calidad (𝐼𝑐𝑐) definido como:

𝑄𝑝,𝑐
𝐼𝑐𝑐 = × 100%
𝑄𝑝,𝑡

Siendo:

• 𝐼𝑐𝑐, índice de control de calidad.


• 𝑄𝑝,𝑐 , cantidad de artículos en la muestra que son aceptables, es decir,
que se encuentran dentro de los límites de conformidad (también
conocidos como límites de especificación).
• 𝑄𝑝,𝑡 , cantidad de total de artículos muestreados.

Por ejemplo, suponga que el histograma de la Figura 4 hace referencia a la


longitud (en centímetros) de una muestra de 110 tornillos (𝑄𝑝,𝑡 = 110) que
representa toda una producción de estos a escala industrial. Asumiendo que
aquellos tornillos con una longitud inferior o igual a 2.5391 cm son considerados
9
Dr. Freddy S. Navarro Pineda

como defectuosos, la proporción esperada de tornillos no defectuosos de toda


la producción sería del 87.27%, calculada como:

𝑄𝑝,𝑐 19 + 26 + 27 + 18 + 6 96
𝐼𝑐𝑐 = × 100% = × 100% = × 100% = 87.27%
𝑄𝑝,𝑡 110 110

Note que fue posible calcular esta proporción mediante una muestra (de 110
tornillos) y no a partir de una inspección de toda la producción.

2. La distribución normal
El histograma es útil para calcular la proporción esperada de obtener un dato
cuyo valor se encuentre en cierto rango especificado. Sin embargo, esta
limitado a los datos de corte de cada rango. Por ejemplo, teniendo en cuenta
el histograma de la Figura 4, no se puede saber con certeza la proporción de
datos que presentan un valor menor a 2.54, ya que se desconoce cuántos de
los 19 datos de la segunda clase (que oscila entre 2.5391 y 2.5472) cumplen con
esta condición. Asimismo, si los datos del histograma representan una muestra
para establecer conclusiones de una producción a nivel industrial, se debe
tener una mayor certeza sobre su naturaleza.

Para realizar conclusiones acerca de los datos de un histograma se recomienda


ajustarlos a la distribución de probabilidad que indica el gráfico. En la industria,
se espera que los datos recabados para realizar un control estadístico de
calidad sigan una distribución normal. Conocer el promedio y la desviación
estándar poblacional es virtualmente imposible dado que la producción es
masiva y continua, por tanto, los datos recabados permiten calcular un
estimador de la media y la desviación estándar poblacional. Esto permitirá
calcular cualquier proporción de interés mediante la función de probabilidad
normal:

𝑃(𝑋 < 𝑋𝑟𝑒𝑓 ) = 𝑃(𝑋𝑁 < 𝑍)

𝑋𝑟𝑒𝑓 − 𝜇
𝑍=
𝜎
Siendo:

• 𝑃(𝑋 < 𝑋𝑟𝑒𝑓 ), probabilidad de obtener un valor 𝑋 menor a un valor de


referencia 𝑋𝑟𝑒𝑓 .
• 𝑃(𝑋𝑁 < 𝑍), probabilidad de obtener un valor 𝑋 normalizado (𝑋𝑁 ) menor a
un valor 𝑍.
• 𝜇, media de la muestra.

10
Dr. Freddy S. Navarro Pineda

• 𝜎, desviación estándar de la muestra.

Recuerdo que:

𝑃(𝑋 ≥ 𝑋𝑟𝑒𝑓 ) = 1 − 𝑃(𝑋 < 𝑋𝑟𝑒𝑓 ) = 1 − 𝑃(𝑋𝑁 < 𝑍)

2.1. Ejemplo

Los 110 datos que componen el histograma de la Figura 4 (véase Tabla 1)


presentan una media y una desviación estándar de 2.554 y 0.011 cm,
respectivamente (note que, con sólo el histograma, no puede obtenerse ni la
media ni la desviación estándar de los datos). Si dichos datos hacen referencia
a la longitud (en centímetros) de una muestra de 110 tornillos (𝑄𝑝,𝑡 = 110) que
representa toda una producción de estos a escala industrial y considerando
que la longitud mínima debería ser de 2.54 cm, el índice de control de calidad
(𝐼𝑐𝑐) para este caso vendría dado por la probabilidad de obtener un valor 𝑋
mayor a 2.54 cm (𝑋𝑟𝑒𝑓 = 2.54) teniendo en cuenta una media de 2.554 cm (𝜇 =
2.554) y una desviación estándar de 0.011 cm (𝜎 = 0.011). Esta probabilidad es
del 89.9%, calculada como:

𝑋𝑟𝑒𝑓 − 𝜇 2.54 − 2.554


𝑍= = = −1.273
𝜎 0.011

𝐼𝑐𝑐 = 𝑃(𝑋 ≥ 𝑋𝑟𝑒𝑓 ) = 1 − 𝑃(𝑋 < 𝑋𝑟𝑒𝑓 ) = 1 − 𝑃(𝑋𝑁 < 𝑍) = 1 − 𝑃(𝑋𝑁 < −1.273)
= 1 − 0.101 = 0.899 ≅ 89.9%

11

También podría gustarte