T2 Pruebas de La Bondad Del Ajuste y Análisis de Varianza

1
Tema 2
Pruebas de la Bondad de ajuste y

Análisis de Varianza
Introducción.
Una prueba de bondad de ajuste se utiliza para determinar si una población tiene
una distribución teórica especificada. Ésta prueba corresponde al área de la denominada
estadística no paramétrica. La estadística no paramétrica en contraste con la estadística
paramétrica no se ocupa de hacer estimaciones y pruebas de hipótesis acerca de parámetros
y no depende del conocimiento de cómo se distribuye la población. Más aún, otra ventaja es
que, por lo general, los cálculos necesarios son más sencillos. Sin embargo, no podemos
esperar que, en el caso de una cierta distribución, la cantidad de información dada por un
método no paramétrico sea la misma que daría un método paramétrico que sólo se aplica a
esa distribución específica. Es decir, si se conoce que la distribución es normal, una prueba
paramétrica es más eficiente que una no paramétrica.
Los métodos no paramétricos pueden ser usados para analizar datos de tipo cualitativo, ya
sean ordinales o jerarquizados ó nominales; así como también para datos cuantitativos,
mientras que los métodos paramétricos solo pueden usarse para datos cuantitativos (discretos
o continuos).
Por otra parte, frecuentemente, las circunstancias hacen necesario diseñar un
experimento de tal forma que varias variables o poblaciones puedan estudiarse
simultáneamente. Si deseamos investigar las diferencias entre cinco medias, se podría sugerir
en primera instancia, el uso de la distribución t de student para contrastar los diez pares de
medias por separado. Pero se presentan algunas situaciones por las cuales éste no es un buen
procedimiento estadístico. Un método más eficiente para comparar más de dos medias, es el
análisis de varianzas (ANOVA).
2.1 Análisis Ji-Cuadrada

El análisis ji cuadrada, o chi-cuadrada, contempla varios procedimientos de prueba de
hipótesis que emplean como estadístico de prueba variables con distribución ji cuadrada 𝜒 2 . A
continuación, se estudian tres de los más comunes: la prueba de independencia, de bondad
de ajuste y las tablas de contingencia.
Es relevante anotar que le estadístico de prueba utilizado en el desarrollo de estos
procedimientos se define por la expresión:
(𝑜𝑖 −𝑒𝑖 )2
𝜒 2 = ∑𝑘𝑖=1 (2.1)
𝑒𝑖
donde
 es un valor de una variable aleatoria cuya distribución muestral es muy aproximada a la
distribución ji-cuadrada o llamada también distribución chi-cuadrada
𝑜𝑖 es la i-ésima frecuencia observada
𝑒𝑖 es la i-ésima frecuencia esperada
2
2.1.1 Prueba de independencia
Esta prueba, en base a evidencia muestral, se aplica para probar la hipótesis nula de
independencia entre dos variables de clasificación. Se describe esta prueba con el siguiente
enunciado.
Ejemplo 1.
Una muestra aleatoria de 200 hombres casados, todos jubilados, se clasifica de acuerdo
con la educación y el número de hijos:
Educación Número de hijos
0a1 2a3 más de 3
Primaria 14 37 32
Secundaria 19 42 17
Preparatoria 12 17 10
Con un nivel de significancia de 0.05, pruebe la hipótesis de que el tamaño de la familia es
independiente del nivel de académico alcanzado por el padre.
(Walpole, Myers, Myers, & Keying, 2012, pág. 384)
La forma general de la hipótesis nula, para la prueba de independencia es:

H0: Las variables de clasificación son independientes entre sí.
Ha: Las variables de clasificación no son independientes entre sí.
Entonces, las hipótesis a probar para este ejemplo, son:

H0: El tamaño de la familia es independiente del nivel de académico alcanzado por el padre.
Ha: El tamaño de la familia depende del nivel de académico alcanzado por el padre.
La tabla de datos con r renglones y c columnas, es conocida como tabla de contingencias

rxc
Determinamos las frecuencias marginales, es decir, los totales por columna y por renglón en
la tabla de contingencias r x c.
Educación Número de hijos Total, columna

0 a 1 2 a 3 más de 3
Primaria 14 37 32 83
Secundaria 19 42 17 78
Preparatoria 12 17 10 39
Total, renglón 45 96 59 n=200
A continuación, se calcula las frecuencias esperadas en la tabla de contingencias, partiendo

del supuesto de independencia (concepto estudiado en tu curso de probabilidad), por medio
de la siguiente expresión:
(𝑡𝑜𝑡𝑎𝑙 𝑑𝑒𝑙 𝑟𝑒𝑛𝑔𝑙ó𝑛 𝑖)(𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 𝑗)
𝑒𝑖𝑗 = (2.2)
𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
(83)(45) (83)(96) (83)(59)

𝑒11 = = 18.7 𝑒12 = = 39.8. 𝑒13 = = 24.5
200 200 200
(78)(45) (78)(96) (78)(59)
𝑒21 = = 17.6 𝑒22 = = 37.4 𝑒23 = = 23.0
200 200 200
3
(39)(45) (39)(96) (39)(59)
𝑒31 = = 8.8 𝑒32 = = 18.7 𝑒33 = = 11.5
200 200 200
Nota: Se redondean los resultados a un decimal.
Estadístico de prueba:
𝜒 2 = ∑𝑖 (2.3)
𝑒𝑖
donde la suma se extiende a todas las celdas rc en la tabla de contingencia r x c.
𝑜𝑖𝑗 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑐𝑎𝑡𝑒𝑔𝑜𝑟í𝑎 𝑒𝑛 𝑒𝑙 𝑟𝑒𝑛𝑔𝑙ó𝑛 𝑖 𝑦 𝑙𝑎 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 𝑗 𝑑𝑒 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎

𝑒𝑖𝑗 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑐𝑎𝑡𝑒𝑔𝑜𝑟í𝑎 𝑒𝑛 𝑒𝑙 𝑟𝑒𝑛𝑔𝑙ó𝑛 𝑖 𝑦 𝑙𝑎 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 𝑗 𝑑𝑒 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎
Sustituyendo en (2.3)
(14 − 18.7)2 (37 − 39.8)2 (32 − 24.5)2 (19 − 17.6)2 (42 − 37.4)2 (17 − 23)2
𝜒2 = + + + + +
18.7 39.8 24.5 17.6 37.4 23
(12 − 8.8)2 (17 − 18.7)2 (10 − 11.5)2
+ + + = 7.43
8.8 18.7 11.5
La zona de rechazo siempre estará ubicada en la parte derecha de la gráfica. Los grados de
libertad, en la prueba de independencia están dados por:
𝜈 = (𝑟 − 1)(𝑐 − 1) (2.4)
Como 𝑟 = 3 𝑦 𝑐 = 3, 𝑠𝑒 𝑡𝑖𝑒𝑛𝑒 𝑞𝑢𝑒 𝜈 = (3 − 1)(3 − 1) = 4
De la tabla ji cuadrada, determinamos: 𝜒 2 0.05,4 = 9.49
El valor calculado 7.43, ha quedado en la zona de

aceptación de H0, no se puede rechazar la hipótesis nula.
Anotamos la conclusión.
Conclusión.
El tamaño de la familia es independiente del nivel de académico alcanzado por el padre
4
Un caso especial en la prueba de independencia es cuando se tiene una tabla de contingencia
de 2 x 2, en el cual aplica una corrección llamada corrección de yates por continuidad, se utiliza
el siguiente estadístico de prueba:
(|𝑜𝑖 −𝑒𝑖 |−0.5)2

𝜒 2 (𝑐𝑜𝑟𝑟𝑒𝑔𝑖𝑑𝑎) = ∑𝑖 (2.5)
𝑒𝑖
Algebraicamente, podemos observar que, si las frecuencias de celdas esperadas son grandes,
los resultados corregidos y sin corrección son casi los mismos. Cuando las frecuencias
esperadas están entre 5 y 10, se debería aplicar la corrección de Yates.
Ejemplo 2.
Una muestra aleatoria de 90 adultos se clasifica de acuerdo con su género y el número de
horas que pasan viendo la televisión durante una semana:
Sexo
Masculino Femenino
Más de 25 horas 15 29
Menos de 25 horas 27 19
Utilice un nivel de significancia de 0.01 y pruebe la hipótesis de que el tiempo que pasan
viendo televisión es independiente de si el espectador es hombre o mujer.
Seguimos los pasos aplicados en el ejemplo 1.
H0: El tiempo que pasan viendo televisión, los adultos, es independiente de si el espectador es
hombre o mujer.
Ha: El tiempo que pasan viendo televisión, los adultos, depende de si el espectador es hombre
o mujer.
Determinamos las frecuencias marginales.
Sexo
Masculino Femenino Total
Más de 25 horas 15 29 44
Menos de 25 horas 27 19 46
Total 42 48 n=90
Calculamos las frecuencias esperadas
(44)(42) (44)(48)
𝑒11 = = 20.5 𝑒12 = = 23.5
90 90
(46)(42) (46)(48)
𝑒21 = = 21.5 𝑒22 = = 24.5
90 90
Calculamos con el estadístico de prueba:

𝜒 2 = ∑𝑖 𝑒𝑖
5
(15 − 20.5)2 (29 − 23.5)2 (27 − 21.5)2 (19 − 24.5)2
𝜒2 = + + + = 𝟓. 𝟒𝟎
20.5 23.5 21.5 24.5
Hagamos el cálculo con la corrección de Yates
(|𝑜𝑖 −𝑒𝑖 |−0.5)2

𝜒 2 (𝑐𝑜𝑟𝑟𝑒𝑔𝑖𝑑𝑎) = ∑𝑖 𝑒𝑖
2
(|15 − 20.5| − 0.5)2 (|29 − 23.5| − 0.5)2 (|27 − 21.5| − 0.5)2 (|19 − 24.5| − 0.5)2
𝜒 = + + +
20.5 23.5 21.5 24.5
𝜒 2 = 𝟒. 𝟒𝟕
Grados de libertad, 𝜈 = (𝑟 − 1)(𝑐 − 1) = (2 − 1)(2 − 1) = 1
El valor calculado 5.40 (4.47 en el segundo cálculo), ha

quedado en la zona de aceptación de H0, por lo que se
no se puede rechazar la hipótesis nula.
Anotamos conclusión.
Conclusión.
El tiempo que pasan viendo televisión, los adultos, es independiente de si el espectador es
hombre o mujer.
Discute con tus compañeros acerca de los valores 5.40 y 4.47 calculados.
2.1.2 Prueba de la bondad del ajuste

Esta prueba se utiliza para determinar si una población tiene una distribución teórica
especificada (binomial, poisson, uniforme, geométrica, normal, etcétera). La prueba está
basada en que tan bueno es un ajuste entre la frecuencia de ocurrencia, 𝑜𝑖 , de observaciones
en una muestra investigada y las frecuencias esperadas, 𝑒𝑖 , obtenidas de la distribución
teórica especificada.
La prueba de bondad del ajuste entre las frecuencias observadas y esperadas, como se anotó
anteriormente, se basa en:
𝜒 2 = ∑𝑘𝑖=1 (2.6)
𝑒𝑖
donde
 es un valor de una variable aleatoria cuya distribución muestral es muy aproximada a la
distribución chi-cuadrada con 𝜈 = 𝑘 − 1 grados de libertad,
k es el número de celdas o resultados diferentes del experimento,
𝑜𝑖 𝑦 𝑒𝑖 son las frecuencias observadas y esperadas respectivamente para la i-ésima celda.
6
Si las frecuencias observadas son cercanas a las frecuencias esperadas correspondientes,

el valor de 2 será pequeño, indicando un buen ajuste. Ahora bien, si las frecuencias
observadas difieren considerablemente de las frecuencias esperadas el valor de 2 será
grande y por lo tanto el ajuste será pobre.
Un buen ajuste en la prueba conduce a la aceptación de Ho, mientras que un ajuste deficiente
conduce a su rechazo.
La región crítica (zona de rechazo de H0) caerá entonces en el extremo derecho de la

distribución chi-cuadrada.
NOTA: Este criterio de decisión es válido solo si 𝑒𝑖 es mayor o igual con 5.
La frecuencia esperada 𝑒𝑖 , se calcula por medio de la expresión:
𝑒𝑖 = 𝑝(𝑘𝑖 )𝑁 (2.7)
donde
𝑝(𝑘𝑖 ) es la probabilidad de la k-ésima celda, que se calcula con la distribución teórica que este
siendo probada bajo la hipótesis nula,
N es el total de observaciones en el experimento.
𝑁 = ∑ 𝑜𝑖 (2.8)
Se proponen las siguientes etapas para llevar a cabo ésta prueba:
Etapa 1. Establecer la hipótesis nula y la hipótesis alterna.

Etapa 2. Calcular las probabilidades 𝑝(𝑘𝑖 ) por medio de la distribución teórica a probar,
establecida en H0.
Etapa 3. Calcular las frecuencias esperadas 𝑒𝑖 utilizando (2.7). Reagrupar las frecuencias
esperadas 𝑒𝑖 en caso de requerirse (deben cumplir que 𝑒𝑖 ≥ 5 ).
Etapa 4. Establecer las zonas de aceptación y de rechazo, utilizando la distribución chi-
cuadrada, considerando si se reagruparon o no las celdas para definir los grados de libertad.
Etapa 5. Calcular el estadístico de prueba, ocupando (2.6):
𝜒 2 = ∑𝑘𝑖=1 𝑒𝑖
Etapa 6. Concluir según que el valor calculado del estadístico de prueba, etapa 5, haya
quedado en la zona de aceptación o de rechazo.
Ejemplo 3.
Se extraen 3 cartas de una baraja ordinaria, con reemplazo, y se registra el número Y de
espadas. Después de repetir el experimento 64 veces, se registran los siguientes resultados:
y 0 1 2 3
oi 21 31 12 0
Con un nivel de significancia de 0.01, pruebe la hipótesis de que los datos registrados se
1
pueden ajustar mediante la distribución binomial 𝑏 (𝑦; 3, 4) 𝑦 = 0,1,2,3.
7
Aplicamos las etapas sugeridas para realizar esta prueba.

Etapa 1.
H0: El número de cartas, que se registran, con la figura de espadas puede ajustarse mediante
la distribución binomial.
Ha: El número de cartas, que se registran, con la figura de espadas no puede ajustarse
mediante la distribución binomial.
Etapa 2.
Cálculo de las probabilidades 𝑝(𝑘𝑖 ). Para este ejemplo se utiliza la distribución binomial.
De tu curso de probabilidad, anotamos la fórmula

𝑏(𝑦; 𝑛, 𝑝) = 𝑛𝐶𝑦. 𝑝 𝑦 𝑞 𝑛−𝑦
𝑛𝐶𝑦 representa una combinación, su valor lo puedes obtener utilizando tu calculadora
13 1
𝑝 es la probabilidad de un éxito, en este ejemplo 𝑝 = 52 = 4
1 3
𝑞 es la probabilidad de un fracaso, 𝑞 = 1 − 𝑝 = 1 − 4 = 4
Tenemos, entonces:
1 1 0 3 3−0 27 27
𝑝(𝑘1 ) = 𝑏 (0; 3, 4) = 3𝐶0. (4) (4) = (1)(1) (64) = 64
1 1 1 3 3−1 1 9 27
𝑝(𝑘2 ) = 𝑏 (1; 3, 4) = 3𝐶1. (4) (4) = (3) (4) (16) = 64
1 1 2 3 3−2 1 3 9
𝑝(𝑘3 ) = 𝑏 (2; 3, 4) = 3𝐶2. (4) (4) = (3) (16) (4) = 64
1 1 3 3 3−3 1 1
𝑝(𝑘4 ) = 𝑏 (3; 3, 4) = 3𝐶3. (4) (4) = (1) (64) (1) = 64
Etapa 3. Calcular las frecuencias esperadas 𝑒𝑖 .

Determinamos 𝑁 = ∑ 𝑜𝑖 = 21 + 31 + 12 + 0 = 64
Utilizamos la ecuación (2.7) 𝑒𝑖 = 𝑝(𝑘𝑖 )𝑁

27
𝑒1 = ( ) (64) = 27
64
27
𝑒2 = (64) (64) = 27
9
𝑒3 = (64) (64) = 9
1
𝑒4 = (64) (64) = 1
Resumimos lo valores calculados en la siguiente tabla.
y 0 1 2 3
𝑜𝑖 21 31 12 0
𝑝(𝑘𝑖 ) 27 27 9 1
64 64 64 64
𝑒𝑖 27 27 9 1
Observemos que, en la última columna de la anterior tabla, la frecuencia esperada es igual con
1 y no cumple la condición 𝑒𝑖 ≥ 5, por lo que se procede a agrupar las frecuencias esperadas.
8
En este caso bastará con agrupar la última y penúltima columnas (celdas), quedando el
siguiente acomodo entre las frecuencias observadas y esperadas.
𝑜𝑖 21 31 12
𝑒𝑖 27 27 10
En la penúltima tabla tenemos que el número de columnas o celdas es k=4, y que después de
agrupar las frecuencias esperadas, el número de columnas o celdas es k=3.
Lo anterior es importante, ya que los grados de libertad se calculan en base al número de
celdas.
Grados de libertad; 𝜈 = 𝑘 − 1 = 3 − 1 = 2
Etapa 4. Establecer las zonas de aceptación y de rechazo.
Con 𝛼 = 0.01 𝑦 𝜈 = 2, 𝜒 2 0.01,2 = 9.21
Etapa 5. Calcular el estadístico de prueba
(𝑜𝑖 −𝑒𝑖 )2 (21−27)2 (31−27)2 (12−10)2

𝜒 2 = ∑𝑘𝑖=1 = + + = 2.33
𝑒𝑖 27 27 10
Observamos que el estadístico de prueba, 2.33, queda en la zona de aceptación, por lo que
no puede rechazarse la hipótesis nula.
Etapa 6. Conclusión.
El número de cartas, que se registran, con la figura de espadas puede ajustarse mediante
la distribución binomial.
Ejemplo 4.
Se lanza 180 veces un dado con los siguientes resultados:
x 1 2 3 4 5 6
oi 28 36 36 30 27 23
¿Es un dado balanceado? Utilice un nivel de significancia de 0.01.

Nota: Si un dado está balanceado, entonces la probabilidad de ocurrencia de cualquiera de

sus resultados es la misma, en otras palabras, el dado cumple con seguir una distribución
uniforme.
Etapa 1.
H0: El dado está balanceado.
Ha: El dado no está balanceado.
9
Etapa 2.
Cálculo de las probabilidades 𝑝(𝑘𝑖 ). Las hipótesis propuestas equivalen a probar que los
resultados siguen una distribución uniforme.
De tu curso de probabilidad, anotamos la fórmula

1
𝑝(𝑥; 𝑘) = , 𝑥 = 𝑥1 , 𝑥1 , ⋯ , 𝑥𝑘
𝑘
Donde.
𝑘 es el número de resultados diferentes observados.
Entonces se tiene:
1
𝑝(𝑥; 6) = , 𝑥 = 1, 2,3,4,5,6
6
De antemano sabíamos que la probabilidad de ocurrencia de cualquier valor, cuando se lanza

1
un dado balanceado, es de 6
1
𝑝(1) = 𝑝(2) = 𝑝(3) = 𝑝(4) = 𝑝(5) = 𝑝(6) =
6
Etapa 3. Calcular las frecuencias esperadas 𝑒𝑖 .

Determinamos 𝑁 = ∑ 𝑜𝑖 = 28 + 36 + 36 + 30 + 27 + 23 = 180
Utilizamos la ecuación (2.7) 𝑒𝑖 = 𝑝(𝑘𝑖 )𝑁

1 1 1
𝑒1 = (6) (180) = 30, 𝑒2 = (6) (180) = 30, ⋯,𝑒6 = (6) (180)
Resumimos lo valores calculados en la siguiente tabla.
x 1 2 3 4 5 6
𝑜𝑖 28 36 36 30 27 23
𝑝(𝑘𝑖 ) 1 1 1 1 1 1
6 6 6 6 6 6
𝑒𝑖 30 30 30 30 30 30
En este caso no es necesario reagrupar celdas ya que todas las frecuencias esperadas
cumplen con la condición 𝑒𝑖 ≥ 5
𝑜𝑖 28 36 36 30 27 23
𝑒𝑖 30 30 30 30 30 30
Número de columnas o celdas 𝑘 = 6

Grados de libertad; 𝜈 = 𝑘 − 1 = 6 − 1 = 5
Etapa 4. Establecer las zonas de aceptación y de rechazo.
Con 𝛼 = 0.01 𝑦 𝜈 = 5, 𝜒 2 0.01,5 = 15.09

10
Etapa 5. Calcular el estadístico de prueba
(𝑜𝑖 −𝑒𝑖 )2 (28−30)2 (36−30)2 (36−30)2 (30−30)2 (27−30)2 (23−30)2

𝜒 2 = ∑𝑘𝑖=1 = + + + + + = 4.47
𝑒𝑖 30 30 30 30 30 30
Observamos que el estadístico de prueba queda en la zona de aceptación, por lo que no puede
rechazarse la hipótesis nula.
Etapa 6. Conclusión.
El dado está balanceado. Los resultados observados al lanzar un dado 180 veces, siguen una
distribución uniforme.
2.1.3 Tablas de contingencia
Prueba de homogeneidad.
En el procedimiento, para esta prueba, existe similitud en los cálculos con respecto a la prueba
de independencia y también se manejan dos variables de clasificación, pero ahora lo que se
pretende probar es que las proporciones de población dentro de cada renglón son las mismas
con respecto a las columnas que conforman la otra variable de clasificación, es decir son
homogéneas.
Ejemplo 5.
Para determinar las posiciones actuales acerca de las oraciones en escuelas públicas, se
llevó a cabo una investigación en cuatro condados de Virginia. La siguiente tabla da las
opiniones de 200 padres del condado de Craig, 150 padres del de Giles, 100 padres del de
Franklin y 100 del de Montgomery:
Condado
Posición Craig Giles Franklin Montgomery
A favor 65 66 40 34
En contra 42 30 33 42
Sin opinión 93 54 27 24
Pruebe la homogeneidad de las opiniones entre los 4 condados con respecto a las oraciones
en escuelas públicas. Utiliza un nivel de significancia de 0.05.
11
H0: Para cada posición, las proporciones de los condados Craig, Giles, Franklin y
Montgomery son las mismas.
Ha: Para cada posición, las proporciones de los condados Craig, Giles, Franklin y Montgomery
no son las mismas.
Adicionamos a la tabla de contingencias, las frecuencias marginales.
Condado
Posición Craig Giles Franklin Montgomery Total
A favor 65 66 40 34 205
En contra 42 30 33 42 147
Sin opinión 93 54 27 24 198
Total 200 150 100 100 550
Aplicamos la expresión (2.2), para el cálculo de las frecuencias esperadas

𝑒𝑖𝑗 = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
Cálculos, redondeando a un decimal.

(205)(200) (205)(150) (198)(100) (198)(100)
𝑒11 = = 74.5, 𝑒12 = = 55.9, ⋯ , 𝑒32 = = 36, 𝑒33 = = 36
550 550 550 550
En la siguiente tabla presentamos cada frecuencia observada con su respectiva frecuencia

esperada, para observar claramente los cálculos a realizar.
oi ei oi ei oi ei oi ei
65 74.5 66 55.9 40 37.3 34 37.3
42 53.5 30 40.1 33 26.7 42 26.7
93 72 54 54 27 36 24 36
𝜒 2 = ∑𝑖 𝑒𝑖
(65−74.5)2 (66−55.9)2 (40−37.3)2 (54−54)2 (27−36)2 (24−36)2

𝜒2 = + + +⋯+ + + = 31.17
74.5 55.9 37.3 54 36 36
Grados de libertad 𝜈 = (𝑟 − 1)(𝑐 − 1)
De la tabla chi-cuadrada, determinamos: 𝜒 2 0.05,6 = 12.59

12
El valor calculado 31.17, ha quedado en

la zona de rechazo de H0, se rechaza la
hipótesis nula y se acepta la hipótesis
alterna.
Anotamos la conclusión.
Conclusión.
Para cada posición, las proporciones de los condados Craig, Giles, Franklin y Montgomery no
son las mismas. No existe homogeneidad de las opiniones entre los 4 condados con respecto
a las oraciones en escuelas públicas.
Prueba para varias proporciones.

El estadístico chi-cuadrada para probar la homogeneidad también se aplica cuando se
prueba la hipótesis de que k parámetros binomiales tienen el mismo valor. Esta es, por tanto,
una extensión de la prueba para determinar diferencias entre dos proporciones a una prueba
para determinar diferencias entre k proporciones. La hipótesis nula se escribe en la forma:
𝐻0 = 𝑃1 = 𝑃2 = ⋯ = 𝑃𝐾
contra la hipótesis alternativa, Ha, de que las proporciones de la población no son todas
iguales. (Walpole, Myers, Myers, & Keying, 2012, pág. 378)
Ejemplo 6.
En un estudio de un taller, se reúne un conjunto de datos para determinar si la proporción de
defectuosos producida por los trabajadores es la misma para el turno matutino, vespertino o
nocturno. Se reunieron los datos siguientes:
Turno Matutino Vespertino Nocturno

Defectuosos 45 55 70
No defectuosos 905 890 870
Utilice un nivel de significancia de 0.025 para determinar si la proporción de defectuosos es

la misma para los tres turnos.
Anotamos las hipótesis.

𝐻0 : 𝑃𝑀 = 𝑃𝑉 = 𝑃𝑁
𝐻𝑎 : 𝑛𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑝𝑟𝑜𝑝𝑜𝑟𝑐𝑖𝑜𝑛𝑒𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠
Anexamos a la tabla de contingencias las frecuencias marginales.
Turno Matutino Vespertino Nocturno Total

Defectuosos 45 55 70 170
No defectuosos 905 890 870 2665
Total 950 945 940 2835
13
Aplicamos la expresión (2.2), para el cálculo de las frecuencias esperadas
𝑒𝑖𝑗 = 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
Cálculos, redondeando a un decimal.

(170)(950) (170)(945) (170)(940)
𝑒11 = = 57, 𝑒12 = = 56.7, 𝑒13 = = 56.4
2835 2835 2835
(2665)(950) (2665)(945) (2665)(940)
𝑒21 = = 893, 𝑒22 = = 888.3, 𝑒23 = = 883.6
2835 2835 2835
𝜒 2 = ∑𝑖
𝑒𝑖
(45−57)2 (55−56.7)2 (70−56.4)2 (905−893)2 (890−888.3)2 (870−883.6)2

𝜒2 = + + + + + = 6.23
57 56.7 56.4 893 888.3 36
Grados de libertad 𝜈 = (𝑟 − 1)(𝑐 − 1)
El valor calculado 6.23, ha quedado en la zona de

aceptación de H0, por lo que se no se puede rechazar
la hipótesis nula.
Conclusión.
La proporción de defectuosos es la misma para los tres turnos.
14
2.2 Análisis de varianza (ANOVA)
El análisis de varianza se ha diseñado en concreto para probar si dos o más poblaciones tienen
la misma varianza. Pero la finalidad de este análisis es probar si más de dos poblaciones
presentan diferencias en sus medias.
La distribución de probabilidad a utilizar en ANOVA es la distribución F de Fisher. Para probar
si dos poblaciones difieren o no en sus varianzas, también se utiliza la distribución F.
Las poblaciones para ambas situaciones deben cumplir el seguir una distribución normal.
2.2.1 Inferencia sobre una varianza de población.

En muchas situaciones, los tomadores de decisiones responsables tienen que hacer
inferencias sobre la variabilidad de una población. Con el fin de programar la fuerza de
trabajo en la temporada de cosecha, un cultivador de duraznos necesita conocer no sólo el
tiempo medio que tardan los duraznos en madurar, sino también su varianza alrededor de
ese tiempo medio. Un sociólogo que investiga el efecto de la educación en el poder
adquisitivo desea saber si los ingresos de los egresados de la universidad son más variables
que los egresados de bachillerato. Los instrumentos de precisión que se utilizan en el trabajo
de laboratorio deben ser bastante precisos en promedio; pero, además, las mediciones
repetidas deberán mostrar poca variación. (Levin & S, 2004, pág. 484)
En tu curso de Estadística I, al construir intervalos de confianza para la varianza en una

población y para un cociente de varianzas de dos poblaciones, utilizaste las distribuciones ji
cuadrada y F respectivamente.
Los estadísticos que dan lugar a las fórmulas que utilizaste en la determinación de dichos
intervalos son:
(𝑛−1)𝑆 2
𝜒2 = (2.9)
𝜎2
𝑆12 𝜎22
𝑓= (2.10)
𝑆22 𝜎12
Estos son los estadísticos de prueba a utilizar en las pruebas de hipótesis, para una población
y para dos poblaciones.
Aplicamos la metodología de las pruebas de hipótesis, para realizar inferencias sobre la

varianza de una población.
Ejemplo 7.
Por experiencia se sabe que el tiempo que se requiere para que los estudiantes de
preparatoria de último año completen una prueba estandarizada es una variable aleatoria
normal, con una desviación estándar de 6 minutos. Pruebe la hipótesis de que σ = 6 contra
la alternativa de que σ < 6, si una muestra aleatoria de 20 estudiantes de preparatoria de
último año tiene una desviación estándar s = 4.51. Utilice un nivel de significancia de 0.05.
1. Definimos la hipótesis nula y la hipótesis alterna

H0: 𝜎 = 6
Ha: 𝜎 < 6
2. Establecemos el nivel de significancia

=0.05
15
3. Definimos el criterio de decisión para la prueba
Los grados de libertad están dados por: 𝜈 = 𝑛 − 1 = 20 − 1 = 19

De la tabla de chi-cuadrada, 𝜒 2 0.05,19 = 30.1
4. Calculamos el estadístico de prueba.
Datos
n = 20
(𝑛−1)𝑆 2 (20−1)(4.51)2
S = 4.51 𝜒2 = = = 10.74 Ubicar el valor en la gráfica
𝜎2 (6)2
𝜎=6
El estadístico de prueba queda en la región de aceptación, 10.74 < 30.1. No se puede rechazar
la hipótesis nula.
5. Anotamos la conclusión
La desviación estándar del tiempo que requieren los estudiantes de preparatoria de último año
para completar la prueba estandarizada es de 6 minutos.
2.2.2 Inferencia sobre la varianza de dos poblaciones.

Consideremos ahora el problema de probar la igualdad de las varianzas 𝜎12 𝑦 𝜎22 de dos
poblaciones. Esto es, probaremos la hipótesis nula H0 de que 𝜎12 = 𝜎22 en contraposición
de una de las alternativas usuales
𝜎12 < 𝜎22 , 𝜎12 > 𝜎22 𝑜 𝜎12 ≠ 𝜎22 .
Para muestras aleatorias independientes de tamaños n 1 y n2, respectivamente, de las dos
poblaciones, el valor f para probar 𝜎12 = 𝜎22 es la razón:
𝑆2
𝑓 = 𝑆12 (2.11)
2
donde 𝑆12 𝑦 𝑆22 son las varianzas calculadas de las dos muestras.
Observamos que la expresión (2.11) la obtenemos a partir de la expresión (2.10) al suponer

como verdadera la hipótesis nula de igualdad de las varianzas.
16
Ejemplo 8.
Se realiza un estudio para comparar la longitud de tiempo entre hombres y mujeres para
ensamblar cierto producto. La experiencia indica que la distribución de los tiempos tanto para
hombres como para mujeres es aproximadamente normal, pero que la varianza de los tiempos
para las mujeres es menor que para los hombres. Una muestra aleatoria de tiempos para 11
hombres y 14 mujeres da los siguientes datos:
Hombres Mujeres
n1=11 n2=14
s1=6.1 s2=5.3
Pruebe la hipótesis de que 𝜎12 = 𝜎22 contra la alternativa de que 𝜎12 > 𝜎22 . Utiliza un nivel de
significancia de 0.05.
1. Definimos la hipótesis nula y la hipótesis alterna

H0: 𝜎12 = 𝜎22
Ha: 𝜎12 > 𝜎22
2. Establecemos el nivel de significancia

=0.05
3. Definimos el criterio de decisión para la prueba
Los grados de libertad están dados por:

𝜈1 = 𝑛1 − 1 = 11 − 1 = 10
𝜈2 = 𝑛2 − 1 = 14 − 1 = 13
De la tabla f de Fisher, 𝑓0.05,(10,13) = 2.67
4. Calculamos el estadístico de prueba.
Datos
s1 = 6.1
𝑆2
s2 = 5.3 Estadístico de prueba 𝑓 = 𝑆12
2
𝑆12 (6.1)2
𝑓 = 𝑆2 = (5.3)2 = 1.32 Ubicar el valor en la gráfica
2
17
El estadístico de prueba queda en la región de aceptación, 1.32 < 2.67. No se puede
rechazar la hipótesis nula.
5. Anotamos la conclusión
Las varianzas de las longitudes de tiempo entre hombres y mujeres para ensamblar cierto
producto se pueden considerar estadísticamente iguales.
Uso de software.
Como herramienta de comprobación en los cálculos realizados al trabajar inferencia sobre
varianza de una población e inferencias sobre la varianza de dos poblaciones, sigamos la
siguiente ruta en minitab:
Estadísticas→Estadística básica→ 1 varianza (o 2 varianzas según corresponda)
Para el ejemplo 7, elegimos la opción Desviación estándar de la muestra, ya que es el dato

con el que contamos (en otro caso elegir la opción pertinente).
Llenamos los recuadros con los datos del ejemplo y damos en la pestaña Aceptar.
18
En la ventana de sesión, se muestra la salida de resultados
Resultado del desarrollo del ejemplo 7 y resultado de minitab 7
De una forma similar realiza la comprobación de resultados para el ejemplo 8.
ANOVA.
El análisis de varianza (ANOVA) es un método de prueba de igualdad de tres o más medias
poblacionales, por medio del análisis de las varianzas muestrales.
El análisis de varianza será útil en situaciones tales como la comparación del kilometraje
logrado por cinco clases diferentes de gasolina; la prueba de cuál de cuatro métodos de
capacitación produce el aprendizaje más rápido; o en la comparación de los ingresos del
primer año de los graduados de una media docena de escuelas de administración. En cada
caso, se pueden comparar las medias de más de dos muestras. (Levin & S, 2004, pág. 468)
El análisis de varianzas se puede definir como una técnica mediante la cual la variación total
presente en un conjunto de datos se divide en varias componentes, cada una de las cuales
tiene asociada una fuente de variación específica, de manera que en el análisis es posible
conocer la magnitud de las contribuciones de cada fuente de variación a la variación total.
19
El desarrollo del análisis de varianza se debe principalmente a los trabajos de A. Fisher
realizados entre 1912 y 1962.
La relación entre el análisis de varianzas y otra área llamada diseño de experimentos, se puede
resumir diciendo que cuando se diseña un experimento el cual queremos someter a un análisis,
los investigadores pueden, antes de llevar a cabo su investigación, identificar aquellas fuentes
de variación que consideran importantes y pueden seleccionar un modelo que les permita
medir la extensión de la contribución de esas fuentes a la variación total.
En el análisis de varianza a las variables independientes se les suele llamar factores y a los
diferentes niveles de cada variable o factor se les llama tratamientos o categorías.
Para realizar el análisis de varianza se deben cumplir las siguientes suposiciones:

1. Todas las poblaciones involucradas son normales.
2. Todas las poblaciones tienen la misma varianza.
3. Las muestras se seleccionan independientemente.
El problema básico de inferencia para el que el análisis de varianza da respuesta, es probar la

hipótesis nula 𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻𝑎 : 𝑛𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠
Donde k indica el número de poblaciones o tratamientos en estudio. Se acostumbra especificar

cada tratamiento en su propia columna.
Las expresiones que se presentan a continuación conforman la técnica del análisis de

varianza, y representan respectivamente la variación total del conjunto de datos en estudio, la
variación de tratamientos y la variación aleatoria.
Suma de los cuadrados totales 𝑆𝐶𝑇 = (𝑦𝑖𝑗 − 𝑦̿)2 (2.12)
2
Suma de cuadrados para tratamientos 𝑆𝐶𝑇𝑅 = ∑ 𝑟𝑗 (𝑦̅𝑗 − 𝑦̿) (2.13)
2
Suma de cuadrados del error 𝑆𝐶𝐸 = (𝑦𝑖𝑗 − 𝑦̅𝑗 ) (2.14)
donde
𝑦𝑖𝑗 representa el valor del dato ubicado en el i-ésimo renglón y en la i-ésima columna
𝑦̿ representa la media del total de datos en el problema
𝑟𝑗 representa el número de datos en la columna j
𝑦̅𝑗 representa la media de los datos contenidos en la i-ésima columna
𝑆𝐶𝑇𝑅
Cuadrado medio para los tratamientos 𝐶𝑀𝑇𝑅 = 𝑘−1
𝑆𝐶𝐸
Cuadrado medio del error 𝐶𝑀𝐸 = 𝑛−𝑘
Por lo tanto, la relación F para probar 𝐻0 : 𝜇1 = 𝜇2 = ⋯ = 𝜇𝑘 está dada por:

𝐶𝑀𝑇𝑅
𝐹= 𝐶𝑀𝐸
Las fórmulas para calcular las sumatorias (2.12, 2.13 y 2.14) de manera simplificada son:
(∑ 𝑦)2
𝑆𝐶𝑇 = (𝑦𝑖𝑗 − 𝑦̿)2 = ∑ 𝑦 2 − 𝑛
20
2 𝑇𝑖 2 (∑ 𝑦)2
𝑆𝐶𝑇𝑅 = ∑ 𝑟𝑗 (𝑦̅𝑗 − 𝑦̿) = ∑ −
𝑛𝑖 𝑛
𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑅
La tabla de resumen de análisis de varianza, que siempre debemos de formar, es:
Fuente de Suma de Grados de Cuadrados medios Razón F

variación cuadrados libertad
Tratamiento 𝑆𝐶𝑇𝑅 k–1 𝑆𝐶𝑇𝑅 𝐶𝑀𝑇𝑅
𝐶𝑀𝑇𝑅 = 𝐹=
𝑘−1 𝐶𝑀𝐸
Error 𝑆𝐶𝐸 n-k 𝑆𝐶𝐸
𝐶𝑀𝐸 =
𝑛−𝑘
Total 𝑆𝐶𝑇 n-1
En el siguiente ejemplo mostraremos como aplicar las expresiones anteriores.
Ejemplo 9.
Están en consideración seis máquinas diferentes para utilizarlas en la manufactura de juntas
de caucho. Las máquinas se comparan con respecto de la resistencia a la tensión del
producto. Se emplea una muestra aleatoria de 4 juntas procedentes de cada máquina, para
determinar si la resistencia media a la tensión varía de una máquina a otra. Las siguientes
son las mediciones de esa resistencia en kilogramos por centímetro cuadrado × 10 −1:
Máquina
1 2 3 4 5 6
17.5 16.4 20.3 14.6 17.5 18.3
16.9 19.2 15.7 16.7 19.2 16.2
15.8 17.7 17.8 20.8 16.5 17.5
18.6 15.4 18.9 18.9 20.5 20.1
Lleve a cabo el análisis de varianza con un nivel de significancia de 0.05, e indique si las
resistencias medias a la tensión difieren o no en forma significativa para las 6 máquinas.
Iniciamos, anotando las hipótesis.

𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5 = 𝜇6
𝐻𝑎 : 𝑛𝑜 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠
Se recomienda anotar las hipótesis, con base al contexto del enunciado, tenemos entonces:
𝐻0 : Las resistencias medias a la tensión no difieren en forma significativa para las 6 máquinas.
𝐻𝑎 : Las resistencias medias a la tensión difieren en forma significativa para las 6 máquinas.
En la tabla de datos, cada columna constituye un tratamiento. Completamos los siguientes

valores en la tabla, para facilitar cálculos posteriores.
21
Máquina
1 2 3 4 5 6 Total
17.5 16.4 20.3 14.6 17.5 18.3
16.9 19.2 15.7 16.7 19.2 16.2
15.8 17.7 17.8 20.8 16.5 17.5
18.6 15.4 18.9 18.9 20.5 20.1
Total 68.8 68.7 72.7 71 73.7 72.1 427
Media 17.2 17.175 17.175 17.75 18.425 18.025 17.7917
Si en tu calculadora capturas todos los datos, utilizando el modo de estadística, obtenemos

directamente
∑ 𝑦 2 = 7665.02 , ∑ 𝑦 = 427 n = 24
De la tabla anterior identificamos 6 tratamientos cuyas sumas y cuadrados de sus sumas son:
𝑇1 = 68.8 𝑇12 = 4733.44
𝑇2 = 68.7 𝑇22 = 4719.69
𝑇3 = 72.7 𝑇32 = 5285.29
𝑇4 = 71.0 𝑇42 = 5041
𝑇5 = 73.7 𝑇52 = 5431.69
𝑇6 = 72.1 𝑇62 = 5198.41
Como todas las muestras son del mismo tamaño, tenemos que: 𝑛1 = 𝑛2 = 𝑛3 = 𝑛4 = 𝑛5 = 𝑛6
Sustituimos nuestros valores en las expresiones (2.12, 2.13 y 2.14)
(∑ 𝑦)2 (427)2
𝑆𝐶𝑇 = (𝑦𝑖𝑗 − 𝑦̿)2 = ∑ 𝑦 2 − = 7665.02 − = 67.9783
𝑛 24
𝑇𝑖 2 (∑ 𝑦)2
𝑆𝐶𝑇𝑅 = ∑ 𝑟𝑗 (𝑦̅𝑗 − 𝑦̿)2 = ∑ − =
𝑛𝑖 𝑛
4733.44 4719.69 5285.29 5041 5431.69 5198.41 (427)2
= + + + + + − = 7602.38 − 7597.0417 = 5.3383
4 4 4 4 4 4 24
𝑆𝐶𝐸 = 𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑅 = 67.9783 − 5.3383 = 62.64
Con lo anterior llenamos la tabla ANOVA
Fuente de Suma de Grados de Cuadrados medios Razón f

variación cuadrados libertad
Tratamiento 5.3383 6–1 = 5 5.3383 1.0677
𝐶𝑀𝑇𝑅 = = 1.0677 𝑓= = 0.3068
(máquinas) 5 3.84
Error 62.64 24–6 = 18 62.64
𝐶𝑀𝐸 = = 3.84
18
Total 67.9783 24–1 = 23
Ahora construimos el criterio de decisión.
De la tabla de Fisher, obtener 𝑓𝛼,(𝑘−1,𝑛−𝑘) , entonces obtenemos 𝑓0.05,(5,18)=2.77

La región de rechazo se ubica siempre al lado derecho de la distribución f de Fisher
22
El valor del estadístico de prueba obtenido en la tabla

ANOVA 0.3068, queda en la zona de aceptación. No se
puede rechazar H0
Conclusión.
Las resistencias medias a la tensión no difieren en forma significativa para las 6 máquinas
Uso de software.
Como herramienta de comprobación en los cálculos realizados en el análisis de varianza,
ejemplo 9, seguimos la siguiente ruta en minitab:
Estadísticas → ANOVA → Un solo factor
En forma previa capturamos los datos en la hoja de trabajo
En la ventana que aparece, seleccionamos la opción, “Los datos de respuesta están en una
columna separa para cada nivel de factor”, daremos clic en la ventana en blanco y con doble
clic pasamos las columnas que constituyen los tratamientos.
23
damos clic en la pestaña Aceptar
En la ventana de sesión, ubicamos parte de la salida de resultados que nos muestra la tabla
de ANOVA
Y ya podemos comparar los resultados del desarrollo del ejemplo 9 con los de la salida que
proporciona minitab.
La comprobación de resultados también la podemos realizar con Excel, investiga cómo

hacerlo.
24
2.3 Aplicaciones.
1.
Se lleva a cabo un experimento para comparar el contenido de alcohol en una salsa de
soya en dos líneas de producción diferentes. La producción se supervisa ocho veces al día.
Los datos son los que aquí se muestran.
Línea de producción 1:
0.48 0.39 0.42 0.52 0.40 0.48 0.52 0.52
Línea de producción 2:
0.38 0.37 0.39 0.41 0.38 0.39 0.40 0.39
Suponga que ambas poblaciones son normales. Se sospecha que la línea de producción 1
no produce con la consistencia de la línea 2 en términos de contenido de alcohol. Pruebe la
hipótesis de que 𝜎1 = 𝜎2 contra la alternativa de que 𝜎1 ≠ 𝜎2 . Utilice un nivel de significancia
de 5%.
2.
Se dice que una máquina despachadora de bebida gaseosa está fuera de control si la
varianza de los contenidos excede 1.15 decilitros. Si una muestra aleatoria de 25 bebidas
de esta máquina tiene una varianza de 2.03 decilitros, ¿esto indica con un nivel de
significancia de 0.05 que la máquina está fuera de control? Suponga que los contenidos se
distribuyen de forma aproximadamente normal.
3.
Se supone que una máquina mezcla cacahuates, avellanas, anacardos y pacanas a razón
de 5:2:2:1. Se encuentra que una lata que contiene 500 de tales nueces mezcladas tiene
269 cacahuates, 112 avellanas, 74 anacardos y 45 pacanas. Al nivel de significancia de
0.05, pruebe la hipótesis de que la máquina mezcla las nueces a una razón de 5:2:2:1.
4.
Se seleccionan tres canicas de una urna que contiene 5 canicas rojas y 3 verdes. Después
de registrar el número X de canicas rojas, las canicas se reemplazan en la urna y el
experimento se repite 112 veces. Los resultados que se obtienen son los siguientes:
x 0 1 2 3
f 1 31 55 25
Con un nivel de significancia de 0.05, pruebe la hipótesis de que los datos registrados se
pueden ajustar con la distribución hipergeométrica h(x, 8, 3, 5), x = 0, 1, 2, 3.
5.
Un criminólogo realizó una investigación para determinar si, en una ciudad grande, la
incidencia de ciertos tipos de delitos varía de una parte a otra. Los crímenes específicos
de interés son asalto (con violencia), robo en casa, hurto y homicidio. La siguiente tabla
muestra el número de delitos cometidos en cuatro áreas de la ciudad durante el año
pasado.
25
Tipo de crimen
Distrito Asalto Robo en casa Hurto Homicidio
1 162 118 451 18
2 310 196 996 25
3 258 193 458 10
4 280 175 390 19
¿A partir de tales datos podemos concluir, con un nivel de significancia de 0.01, que la
ocurrencia de estos tipos de delitos es dependiente del distrito de la ciudad?
6.
De acuerdo con un estudio de la Universidad Johns Hopkins publicado en American Journal
of Public Health, las viudas viven más que los viudos. Considere los siguientes datos de
supervivencia de 100 viudas y 100 viudos después de la muerte del cónyuge:
Viuda Viudo
Años vividos
Menos de 5 25 39
de 5 a 10 42 40
Más de 10 33 21
¿Con un nivel de significancia de 0.05 podemos concluir que las proporciones de viudas y
viudos son iguales con respecto a los diferentes periodos que un cónyuge sobrevive luego
de la muerte de su compañero? (Walpole, Myers, Myers, & Keying, 2012, pág. 384)
7.
Las siguientes respuestas con respecto al estándar de vida al momento de una encuesta
de opinión independiente de 1000 familias contra un año antes parece estar de acuerdo con
los resultados de un estudio publicado en Across the Board (junio de 1981):
Estándar de vida
Periodo Algo mejor Igual No tan bueno Total
1980: Enero 72 144 84 300
Mayo 63 135 102 300
Septiembre 47 100 53 200
1981_ Enero 40 105 55 200
Pruebe la hipótesis de que las proporciones de familias dentro de cada estándar de vida
son las mismas para cada uno de los cuatro periodos. Utilice un nivel de significancia de
0.05.
8.
Se compararon tres métodos de capacitación para ver si los empleados tienen una mayor
productividad después de capacitarse. Los datos que se presentan a continuación son
medidas de la productividad de los individuos capacitados por cada método.
26
Método 1 45 40 50 39 53 44
Método 2 59 43 47 51 39 49
Método 3 41 37 43 40 52 37
Al nivel de significancia de 0.05, ¿los tres métodos de entrenamiento llevan a diferentes

niveles de productividad? (Levin & S, 2004, pág. 480)
9.
Los datos siguientes indican el número de solicitudes de pago de seguro procesadas
diariamente por un grupo de cuatro empleados de aseguradoras observados durante cierto
número de días. Pruebe la hipótesis de que las solicitudes medias de los empleados por día
son las mismas. Utilice un nivel de significancia de 0.05.
Empleado 1 15 17 14 12
Empleado 2 12 10 13 17
Empleado 3 11 14 13 15 12
Empleado 4 13 12 12 14 10 9
(Levin & S, 2004, pág. 480)
10.
Una compañía maderera está preocupada por saber cómo las tasas de interés crecientes
afectan a la construcción de casas nuevas en el área. Para explorar esta cuestión, la
compañía ha reunido datos con respecto a nuevas construcciones durante los tres
trimestres pasados en tres de los municipios circundantes. Esta información se presenta en
la siguiente tabla. Al nivel de significancia de 0.05, ¿existen diferencias en el número de
nuevas construcciones de casas durante los tres trimestres?
Trimestre 1 41 53 54 55 43
Trimestre 2 45 51 48 43 39
Trimestre 3 34 44 46 45 51
(Levin & S, 2004, pág. 482)
11.
Un asesor financiero está interesado en las diferencias de estructura de capital respecto a
compañías de distintos tamaños dentro de cierta industria. El asesor investiga un grupo de
empresas con activos de diferentes cantidades y las organiza en tres grupos. Clasifica cada
compañía según si su débito total es mayor que la cantidad de acciones ordinarias de los
accionistas o si es menor que éstas. Los resultados de la investigación son:
Tamaño del activo de la compañía (en miles de dólares)

< 500 500 - 2000 2000 + Total
Deuda menor que cantidades 7 10 8 25
de acciones
Deuda mayor que cantidades 10 18 9 37
de acciones
Total 17 28 17 62
¿Los tres tamaños de empresas tienen la misma estructura de capital? Use un nivel de
significancia de 0.10. (Levin & S, 2004, pág. 461)
27
12.
Un educador opina que las calificaciones obtenidas por los alumnos de bachillerato
dependen del tiempo que pasan escuchando música. Para probar esta teoría, ha repartido
al azar 400 cuestionarios entre estudiantes. En ellos hay dos preguntas: ¿cuántas horas por
semana escuchas música?, ¿qué promedio general de calificaciones tienes? Los datos de
la encuesta se presentan en la tabla siguiente. Utilizando un nivel de significancia del 5%,
pruebe si las calificaciones y el tiempo dedicado a escuchar música son independientes o
dependientes.
Horas consumidas Promedio general de calificaciones

escuchando música A B C D F Total
<5 13 10 11 16 5 55
5-10 h 20 27 27 19 2 95
11-20 h 9 27 71 16 32 155
> 20 8 11 41 24 11 95
Total 50 75 150 75 50 400
(Levin & S, 2004, pág. 461)
13.
Para el nivel de significancia de 0.10, ¿se puede concluir que las siguientes 400
observaciones siguen una distribución de Poisson con  = 3?
Número de llegadas por hora 0 1 2 3 4 5 o más

Número de horas 20 57 98 85 78 62
(Levin & S, 2004, pág. 465)
14.
Louis Armstrong, vendedor de Dillard Paper Company, debe visitar cinco cuentas
diariamente. Se sugiere que la variable “ventas del señor Armstrong” puede describirse
mediante la distribución binomial y con una probabilidad de venta para cada cuenta de 0.4.
Dada la siguiente distribución de frecuencias del número de ventas por día del señor
Armstrong, ¿podemos concluir que los datos de hecho siguen la distribución sugerida? Haga
los cálculos para un nivel de significancia de 0.05.
Ventas por día 0 1 2 3 4 5

Frecuencia del número de ventas 10 41 60 20 6 3
(Levin & S, 2004, pág. 466)
15.
El gerente de un supermercado lleva un registro de la llegada de clientes a las cajas para
determinar cuántas debe mantener abiertas para manejar el flujo. En una muestra de 500
periodos de cinco minutos, hubo 22, 74, 115, 95, 94, 80 y 20 periodos con 0, 1, 2, 3, 4, 5 y
6 o más clientes, respectivamente. ¿Son estos datos consistentes con una distribución de
Poisson con  = 3, para un nivel de significancia de 0.05?
(Levin & S, 2004, pág. 467)

T2 Pruebas de La Bondad Del Ajuste y Análisis de Varianza

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

T2 Pruebas de La Bondad Del Ajuste y Análisis de Varianza

Cargado por

Copyright:

Formatos disponibles

1

Pruebas de la Bondad de ajuste y

2.1 Análisis Ji-Cuadrada

La forma general de la hipótesis nula, para la prueba de independencia es:

Entonces, las hipótesis a probar para este ejemplo, son:

La tabla de datos con r renglones y c columnas, es conocida como tabla de contingencias

Educación Número de hijos Total, columna

A continuación, se calcula las frecuencias esperadas en la tabla de contingencias, partiendo

(83)(45) (83)(96) (83)(59)

Nota: Se redondean los resultados a un decimal.

donde la suma se extiende a todas las celdas rc en la tabla de contingencia r x c.

𝑜𝑖𝑗 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑐𝑎𝑡𝑒𝑔𝑜𝑟í𝑎 𝑒𝑛 𝑒𝑙 𝑟𝑒𝑛𝑔𝑙ó𝑛 𝑖 𝑦 𝑙𝑎 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 𝑗 𝑑𝑒 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎

Como 𝑟 = 3 𝑦 𝑐 = 3, 𝑠𝑒 𝑡𝑖𝑒𝑛𝑒 𝑞𝑢𝑒 𝜈 = (3 − 1)(3 − 1) = 4

De la tabla ji cuadrada, determinamos: 𝜒 2 0.05,4 = 9.49

El valor calculado 7.43, ha quedado en la zona de

(|𝑜𝑖 −𝑒𝑖 |−0.5)2

Seguimos los pasos aplicados en el ejemplo 1.

Determinamos las frecuencias marginales.

Calculamos las frecuencias esperadas

Calculamos con el estadístico de prueba:

Hagamos el cálculo con la corrección de Yates

(|𝑜𝑖 −𝑒𝑖 |−0.5)2

Grados de libertad, 𝜈 = (𝑟 − 1)(𝑐 − 1) = (2 − 1)(2 − 1) = 1

De la tabla ji cuadrada, determinamos: 𝜒 2 0.01,1 = 6.63

El valor calculado 5.40 (4.47 en el segundo cálculo), ha

2.1.2 Prueba de la bondad del ajuste

Si las frecuencias observadas son cercanas a las frecuencias esperadas correspondientes,

La región crítica (zona de rechazo de H0) caerá entonces en el extremo derecho de la

La frecuencia esperada 𝑒𝑖 , se calcula por medio de la expresión:

Se proponen las siguientes etapas para llevar a cabo ésta prueba:

Etapa 1. Establecer la hipótesis nula y la hipótesis alterna.

Aplicamos las etapas sugeridas para realizar esta prueba.

De tu curso de probabilidad, anotamos la fórmula

Etapa 3. Calcular las frecuencias esperadas 𝑒𝑖 .

Utilizamos la ecuación (2.7) 𝑒𝑖 = 𝑝(𝑘𝑖 )𝑁

Resumimos lo valores calculados en la siguiente tabla.

Etapa 4. Establecer las zonas de aceptación y de rechazo.

Con 𝛼 = 0.01 𝑦 𝜈 = 2, 𝜒 2 0.01,2 = 9.21

Etapa 5. Calcular el estadístico de prueba

(𝑜𝑖 −𝑒𝑖 )2 (21−27)2 (31−27)2 (12−10)2

¿Es un dado balanceado? Utilice un nivel de significancia de 0.01.

Nota: Si un dado está balanceado, entonces la probabilidad de ocurrencia de cualquiera de

De tu curso de probabilidad, anotamos la fórmula

De antemano sabíamos que la probabilidad de ocurrencia de cualquier valor, cuando se lanza

Etapa 3. Calcular las frecuencias esperadas 𝑒𝑖 .

Utilizamos la ecuación (2.7) 𝑒𝑖 = 𝑝(𝑘𝑖 )𝑁

Resumimos lo valores calculados en la siguiente tabla.

Número de columnas o celdas 𝑘 = 6

Etapa 4. Establecer las zonas de aceptación y de rechazo.

Con 𝛼 = 0.01 𝑦 𝜈 = 5, 𝜒 2 0.01,5 = 15.09

Etapa 5. Calcular el estadístico de prueba

(𝑜𝑖 −𝑒𝑖 )2 (28−30)2 (36−30)2 (36−30)2 (30−30)2 (27−30)2 (23−30)2

2.1.3 Tablas de contingencia

Adicionamos a la tabla de contingencias, las frecuencias marginales.

Aplicamos la expresión (2.2), para el cálculo de las frecuencias esperadas

Cálculos, redondeando a un decimal.

En la siguiente tabla presentamos cada frecuencia observada con su respectiva frecuencia

(65−74.5)2 (66−55.9)2 (40−37.3)2 (54−54)2 (27−36)2 (24−36)2

Grados de libertad 𝜈 = (𝑟 − 1)(𝑐 − 1)

Como 𝑟 = 3 𝑦 𝑐 = 4, 𝑠𝑒 𝑡𝑖𝑒𝑛𝑒 𝑞𝑢𝑒 𝜈 = (3 − 1)(4 − 1) = 6

De la tabla chi-cuadrada, determinamos: 𝜒 2 0.05,6 = 12.59

El valor calculado 31.17, ha quedado en

Prueba para varias proporciones.