Está en la página 1de 14

APUNTES YAHILYIRÉ FLORES RODRÍGUEZ

PROBABILIDAD Y ESTADÍSTICA

MATERIAS BÁSICAS, TRONCO COMÚN DE


INGENIERÍA

Unidad 1 - Lección 4

1.8 Datos agrupados y no agrupados

La inferencia estadística a través del análisis de estudios observacionales o de diseños


experimentales se utiliza en muchas áreas científicas. Los datos reunidos pueden ser discretos o
continuos, según el área de aplicación. En la Teoría de la Probabilidad se hacen distinciones
importantes entre datos discretos y continuos que nos permiten hacer inferencias estadísticas.
Cuando se recolectan los datos, estos datos no se encuentran ordenados. El orden en que se
recaban es aleatorio. Se utilizan métodos matemáticos y estadísticos para ordenarlos del manera
sistemática. Se muestran a continuación estos métodos y sus definiciones.

1.8.1 Distribución de frecuencias

• Frecuencia Absoluta de un dato: Es el número de veces que se repite ese dato, también se
presenta la frecuencia absoluta de un intervalo que se refiere al número de datos que
pertenecen a ese intervalo. La denotaremos por f.
• Frecuencia Absoluta Acumulada: Hasta un dato específico, es la suma de las frecuencias
absolutas de todos los datos anteriores, incluyendo también la del dato mismo del cual se
desea su frecuencia acumulada. De un intervalo es la suma de las frecuencias absolutas
de todos los intervalos de clase anteriores.
• Frecuencia acumulada. La última frecuencia absoluta acumulada deberá ser igual al
número total de datos. La denotaremos por fa.

Probabilidad y Estadística Facultad de Ingeniería, BUAP 1


APUNTES YAHILYIRÉ FLORES RODRÍGUEZ
• Frecuencia Relativa: De un dato, se obtiene al dividir la frecuencia absoluta de cada dato
entre el número total de datos. De un intervalo se obtiene al dividir la frecuencia absoluta
de cada intervalo entre el número total de datos. La denotamos por fr.
• Frecuencia Relativa Acumulada: Hasta un dato específico de la observación, es la suma
de las frecuencias relativas de todos los datos anteriores, incluyendo también la del dato
mismo del cual se desea su frecuencia relativa acumulada de un intervalo es la suma de
las frecuencias relativas de todos los intervalos de clase anteriores incluyendo la
frecuencia del intervalo mismo del cual se desea su frecuencia relativa acumulada.
La última frecuencia relativa acumulada deberá ser igual a la unidad. La denotaremos por
fra.

1.8.2 Deducción y aplicación de la Regla de Sturges

La regla de Sturges es un criterio utilizado para determinar el número de clases o intervalos que son
necesarios para representar gráficamente un conjunto de datos estadísticos. Esta regla fue
enunciada en 1926 por el matemático alemán Herbert Sturges.

Sturges propuso un método sencillo, basado en el número de muestras x que permitiesen


encontrar el número de clases y su amplitud de rango. La regla de Sturges es muy utilizada sobre
todo en el área de la estadística, específicamente para construir histogramas de frecuencia que
permite determinar el número de clases que deben existir en el mencionado histograma de
frecuencias, para poder clasificar un conjunto de datos que representan una muestra o población.

Con esta regla se determina el ancho de intervalo de los contenedores gráficos, de los
histogramas de frecuencia.

Para establecer su regla, Herbert Sturges consideró un diagrama de frecuencias ideal, que consta
de K intervalos, donde el i-ésimo intervalo contiene un determinado número de muestras (i = 0,…
k – 1), representado como:

Probabilidad y Estadística Facultad de Ingeniería, BUAP 2


APUNTES YAHILYIRÉ FLORES RODRÍGUEZ
C (k −1,i)=C i = k −1
k −1

i ( )
Ese número de muestras es dado por el número de formas en que puede extraerse un
subconjunto de un conjunto; es decir, por el coeficiente binomial, expresado de la siguiente
manera:

k −1 (k−1)!
C (k −1,i)=C i =
i !(k−1)!
Y para el número N de muestras

i=0

k−1 i ( )
N =∑ k−1 =1+1 =2
k −1 k −1

Se simplificó la expresión aplicando las propiedades de los logaritmos en ambas partes de la


ecuación:

log 2 (N )=k−1
Así, Sturges estableció que el número óptimo de intervalos k es dado por la expresión:

k =1+log2 (N )
La cual se reexpresa como:

k =1+3.322∗log10 (N )

Dónde:

k=número de clases
N =número de observaciones de la muestra
log=logaritmo común de base 10

Probabilidad y Estadística Facultad de Ingeniería, BUAP 3


APUNTES YAHILYIRÉ FLORES RODRÍGUEZ
Ejercicio Ilustrativo 7

Determine la cantidad de intervalos en los cuales dividir una muestra aleatoria de la estatura de
142 trabajadores del volante.

Solución

El número de intervalos o clases que tendrá la distribución está dado por:

k =1+3.322(log10 N )
k=1+3.322(log10 142)
k=1+3.322(2.1543)
k=8.150≈8
Así, la distribución será en 8 intervalos.

El número de intervalos siempre debe estar representado por números enteros. En los casos
en los que el valor sea decimal, se debe hacer una aproximación al número entero más
próximo

1.8.3 Aplicación de la Regla de Sturges para agrupación de datos

La regla de Sturges es aplicada principalmente en estadística, ya que esta permite realizar una

distribución de frecuencias a través del cálculo del número de clases k , así como la longitud
de cada una de estas, conocida también como amplitud.

La amplitud es la diferencia del límite superior e inferior de la clase, dividido entre el número de
clases, y se expresa como:

Probabilidad y Estadística Facultad de Ingeniería, BUAP 4


APUNTES YAHILYIRÉ FLORES RODRÍGUEZ
límite superior − límite inferior
a=
k

Existen muchas reglas empíricas que permiten hacer una distribución de frecuencias. Sin
embargo, la regla de Sturges es comúnmente usada porque hace una aproximación del número
de clases, que generalmente va de 5 a 15.

De esa forma, considera un valor que representa adecuadamente una muestra o población; es
decir, la aproximación no representa agrupaciones extremadas, así como tampoco trabaja con un
número excesivo de clases que no permitan resumir la muestra.

Ejercicio Ilustrativo 8

Elaborar un histograma de frecuencia de acuerdo a los datos dados, que corresponden a edades
obtenidas en una encuesta realizada a mujeres y adolescentes que hacen ejercicios en un
gimnasio de la localidad.

11 25 19 45 12
41 17 47 17 19
23 21 27 21 48
46 32 36 31 19
17 23 14 15 37
14 16 15 51 23

Para determinar los intervalos se debe saber cuál es el tamaño de la muestra o el número de
observaciones; en este caso, se tienen 30 observaciones. Aplicando la regla de Sturges:

k =1+3.322(log10 N )
k =1+3.322(log10 30)

Probabilidad y Estadística Facultad de Ingeniería, BUAP 5


APUNTES YAHILYIRÉ FLORES RODRÍGUEZ
k=1+3.322(1.478)
k =5.906≈6≈6 intervalos
A partir del número de intervalos se puede calcular la amplitud que estos van a tener; es decir, la
anchura de cada barra representada en el histograma de frecuencias:

límite superior − límite inferior


a=
k
También lo podemos encontrar como:

Dato mayor−Dato menor Rango


Ancho de clase(a)= c = =
k k

El límite inferior es considerado como el valor menor de los datos, y el límite superior es el
valor mayor. La diferencia entre el límite superior e inferior es denominada rango o recorrido de la
variable .

De la tabla se tiene que el límite superior es 67 (la mujer de mayor edad de la tabla) y el inferior 11
(la mujer de menor edad de la tabla); de esa manera, la amplitud de cada clase está dada por:

(50 − 11) 34
a= = =6.6≈7 datos
6 6
Para asegurarse de que las clases cubren los datos, se pasa siempre el ancho de clase resultante
al entero siguiente, aún si sale 4.2, se pasa a cinco.

A continuación determinaremos los límites de clase y los límites reales de clase. Los intervalos
estarán compuestos por un límite superior e inferior. Para determinar esos intervalos se comienza
contando desde el límite inferior, sumándole a este la amplitud determinada por la regla , de la
siguiente manera:

Probabilidad y Estadística Facultad de Ingeniería, BUAP 6


APUNTES YAHILYIRÉ FLORES RODRÍGUEZ
Valor menor=11=límite inferior de la primera clase
El ancho de clase en este ejercicio es igual a 7, por lo tanto el límite inferior de la segunda clase
es igual a

límite inferior dela segunda clase=11+7=18

límite inferior dela tercera clase=19+7=26

límite inferior de la cuarta clase=27+7=34

límite inferior dela quinta clase=35+7=42

límite inferior dela sexta clase=43+7=50


Tomamos los datos de la tabla y los ordenamos de menor a mayor.

Nota especial: Es importante hacer mención que los datos presentados en esta
forma son datos desagrupados

11, 12, 14, 14, 15, 15, 16, 17, 17, 17, 19, 19, 19, 21, 21, 23, 23, 23,25,
27, 31, 32, 36, 37, 41, 45, 46, 47, 48, 51

Y contamos la cantidad de datos que encajan en cada categoría. Construimos la siguiente tabla

Probabilidad y Estadística Facultad de Ingeniería, BUAP 7


APUNTES YAHILYIRÉ FLORES RODRÍGUEZ
Número de Límites de clase Límites reales de Frecuencia
Clase clase absoluta
fa
Inferior - Superior Inferior - Superior
1 11 - 18 10.5 – 18.5 10
2 19 - 26 18.5 – 26.5 9
3 27 - 34 26.5 – 34.5 3
4 35 - 42 34.5 – 42.5 3
5 43 - 50 42.5 – 50.5 4
6 51 - 58 50.5 – 59.5 1

∑fa 30

La suma de las frecuencias debe darnos el total de los datos proporcionados

La marca de clase es el promedio entre los valores de los límites reales de clase. Por
ejemplo para la primera categoría tenemos:

10.5+18.5
Marca de clase (x )= =14.5
2

Probabilidad y Estadística Facultad de Ingeniería, BUAP 8


APUNTES YAHILYIRÉ FLORES RODRÍGUEZ
Número Límites de clase Límites reales de Frecuencia Marca de
de clase clase absoluta
fa
clase x
Inferior - Superior Inferior - Superior
1 11 - 18 10.5 – 18.5 10 14.5
2 19 - 26 18.5 – 26.5 9 22.5
3 27 - 34 26.5 – 34.5 3 30.5
4 35 - 42 34.5 – 42.5 3 38.5
5 43 - 50 42.5 – 50.5 4 46.5
6 51 - 58 50.5 – 59.5 1 55
∑fa 30

Posteriormente se calcula la frecuencia relativa (f r) de cada intervalo, dividiendo la


frecuencia absoluta (f a) de esta entre el número total de observaciones (N ) de acuerdo
con la siguiente fórmula:

fa
f r=
N

Añadimos una nueva columna a la tabla donde incluiremos estos valores. La suma de los valores
obtenidos para la frecuencia relativa (f r) debe darnos el valor de 1, si tomaramos todos los
dígitos del cociente.

Nota especial: Es importante hacer mención que los datos ya presentados en esta
tabla son considerados como datos agrupados

Probabilidad y Estadística Facultad de Ingeniería, BUAP 9


APUNTES YAHILYIRÉ FLORES RODRÍGUEZ
Número de Límites de Límites Frecuencia Marca de Frecuencia Relativa
clase clase reales de absoluta clase (f ) r
clase (f a ) (x )
Inferior - Inferior -
Superior Superior
1 11 - 18 10.5 – 18.5 10 14.5 0.33333
2 19 - 26 18.5 – 26.5 9 22.5 0.3
3 27 - 34 26.5 – 34.5 3 30.5 0.1
4 35 - 42 34.5 – 42.5 3 38.5 0.1
5 43 - 50 42.5 – 50.5 4 46.5 0.13333
6 51 - 58 50.5 – 59.5 1 55 0.033333

∑fa 30 ∑ Fr =0.9999633≈1

PORCENTAJE DE CADA INTERVALO DE CLASE EN LA


FRECUENCIA RELATIVA
3%
13%
33%
1
10% 2
3
4
5
6

10%

30%

Probabilidad y Estadística Facultad de Ingeniería, BUAP 10


APUNTES YAHILYIRÉ FLORES RODRÍGUEZ
Los datos de la gráfica de pastel muestran que los datos de la frecuencia relativa (f r ) también
se expresan como porcentajes.

Se realizará una gráfica que refleje los datos, y también el diagrama a partir de la frecuencia
absoluta con relación a los intervalos obtenidos, como se puede observar a continuación.

12

10
FRECUENCIA ABSOLUTA

0
11 - 18

35 - 42

51 - 58
19 - 26

27 - 34

INTERVALOS DE CLASES 43 - 50

A esta gráfica le llamamos histograma de frecuencias

Probabilidad y Estadística Facultad de Ingeniería, BUAP 11


APUNTES YAHILYIRÉ FLORES RODRÍGUEZ
Cuando elaboramos un gráfico con los valores de los límites de clase con las marcas de clase
que están en medio del intervalo, obtenemos un gráfico llamado Polígono de Frecuencias

GRAFICO DE POLÍGONO DE FRECUENCIAS


12
FRECUENCIA ABSOLUTA (fa)

10

0
11 - 18 19 - 26 27 - 34 35 - 42 43 - 50 51 - 58
INTERVALOS DE CLASE

MARCAS DE CLASE

La sobreposición de los gráficos de Histograma de Frecuencias y Polígono de Frecuencias,


nos proporciona un gráfico combinado, donde se aprecia en conjunto, la distribución de los datos
agrupados del ejercicio, como se muestra a continuación

Probabilidad y Estadística Facultad de Ingeniería, BUAP 12


APUNTES YAHILYIRÉ FLORES RODRÍGUEZ
GRAFICO DE SOBREPOSICIÓN DEL HISTOGRAMA DE
FRECUENCIAS Y EL POLÍGONO DE FRECUENCIAS
12
FRECUENCIA ABSOLUTA (fa)

10

0
11 - 18 19 - 26 27 - 34 35 - 42 43 - 50 51 - 58
INTERVALOS DE CLASE

INTERVALO DE CLASE MARCAS DE CLASE

A manera de conclusión establecemos que la regla de Sturges permite determinar la cantidad de


clases o intervalos en los que puede ser dividida una muestra, con la finalidad de resumir una
muestra de datos a través de la elaboración de tablas y gráficas.

Probabilidad y Estadística Facultad de Ingeniería, BUAP 13


APUNTES YAHILYIRÉ FLORES RODRÍGUEZ
Actividad del Estudiante

El estudiante realizará la agrupación de datos, con todos los pasos descritos para la siguiente
tabla, la cual muestra la productividad de un grupo de trabajadores, donde se obtuvieron los datos
del número de piezas que pasaron el control de calidad ( en adelante les llamaremos piezas
aceptables) producidas por 120 trabajadores. Nota: Estos datos están desagrupados

33 15 47 25 19 18 14 24 25 17
12 21 54 26 16 18 15 26 27 11
37 14 48 24 13 14 12 25 21 19
31 17 37 17 19 14 12 14 26 61
49 21 31 18 19 15 14 16 29 58
16 20 46 19 19 16 14 19 23 54
17 24 15 17 15 16 17 19 23 59
65 29 17 17 11 15 18 18 23 56
63 39 13 18 14 14 15 17 26 16
17 37 28 18 17 19 14 14 25 54
21 7 29 19 17 12 15 15 26 25
29 65 29 15 18 14 14 15 22 22

Bibliografía

(Nieves & Domínguez, 2017) Nieves, A. Dominguez, F. (2017) Probabilidad y Estadística


para Ingeniería. Un enfoque moderno, Mc Graw Hill, Ciudad de México, 2017

(Walpole, et al 2012) Ronald E. Walpole, R; Raymond H. Myers; Sharon L. Myers; Keying Ye


Probabilidad y Estadística para Ingeniería y Ciencias. Person Educación México 2012

Probabilidad y Estadística Facultad de Ingeniería, BUAP 14

También podría gustarte