Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
nombre de la categoría
1 A1 O1
2 A2 O2
. .
. .
. .
k 𝐴𝑘 ok
Total n
La i-ésima frecuencia observada 𝑜𝑖 indica el número de veces que se repite la
categoría (o el valor de la variable) en la muestra de tamaño n. En otras palabras, o i
representa la frecuencia absoluta fi de tal manera que se debe cumplir que:
∑𝑜𝑖 = n
Esta prueba se aplica cuando se desea verificar si al menos una de las frecuencias
observadas 𝑜𝑖 perteneciente a la i-ésima categoría o valor de la variable
(mutuamente excluyente) difiera
significativamente de su respectiva frecuencia teórica o frecuencia esperada 𝑒𝑖
Cada frecuencia esperada 𝑒𝑖 se obtiene multiplicando el tamaño de la muestra n
por la probabilidad teórica correspondiente 𝑝𝑖
𝑒𝑖= n 𝑝𝑖
En algunas pruebas de bondad de ajuste, las probabilidades teóricas o hipotéticas
𝑝𝑖 son establecidas por el investigador, mientras que en otras pruebas deben ser
estimadas a partir de la distribución teórica formulada en la hipótesis nula. De tal
manera que se debe cumplir que: ∑𝑝𝑖 = 1
Prueba Estadística
Debido a las fluctuaciones aleatorias en el proceso de muestreo es razonable que
las frecuencias observadas 𝑜𝑖 y las frecuencias esperadas 𝑒𝑖 no coincidan. La
hipótesis nula afirma que la discrepancia entre dichas frecuencias no es muy
grande.
Como medida de discrepancia, entre las frecuencias esperadas y observadas,
Pearson propuso el siguiente estadístico:
𝑥 𝑒𝑖 ~ 𝑥(2𝑘−𝑚−1)
Región Critica. Valores elevados del estadístico 𝑥2 evidencian discrepancias
relevantes entre las frecuencias observadas 𝑜𝑖 y las frecuencias 𝑒𝑖 por lo que
deberá rechazarse la hipótesis nula de que dicha muestra procede de una
población con probabilidades teóricas 𝑝𝑖 . por lo tanto, si
𝑥𝑐2 > 𝑥(21−𝛼 ;𝑘−𝑚−1) se rechaza 𝐻0 .
El percentil 𝑥(21−𝛼 ;𝑘−𝑚−1) o valor critico 𝑥𝑐𝑟𝑖𝑡2 (también conocido como valor
tabular, 𝑥𝑡𝑎𝑏2 ) es determinado por el complemento del nivel de significación
asignado (es decir, 1- α) y el número de grados de libertad. Donde: K = número de
2
categorías o valores de la variable en que se dividen los datos en la tabla de
frecuencias; m= número de parámetros estimados a partir de la muestra. Los
parámetros estimados a partir de la muestra son utilizados para calcular los 𝑝𝑖 y
dependen de la distribución teórica propuesta en la hipótesis y si estos son
conocidos o desconocidos.
En resumen, las pruebas de bondad de ajuste tienen como objetivo verificar si unos
conjuntos de datos se ajustan a una distribución teórica preestablecida por el
investigador. Si bien es cierto que mediante este tipo de prueba se puede verificar
si un conjunto de datos presenta cualquier distribución teórica, en el presente
curso solo se realizarán los siguientes ajustes:
• Ajuste a la Distribución Multinomial. Conocida
también como prueba de frecuencia o de
proporciones.
• Ajuste de la Distribución Binomial • Ajuste a la
Distribución de Poisson Observaciones:
a. Dado que la distribución del estadístico 𝑥2 es asintótica se utiliza, comúnmente,
como regla de aproximación aceptable que los valores esperados deben ser
superiores a 5. Si esto no sucede se deben agrupar las clases que tienen valores
esperados menores a 5 con aquella clase más cercana y más pequeña hasta
lograr el cumplimiento de esta regla. Este reagrupamiento produce a su vez una
reducción de los grados de libertad de la distribución del estadístico 𝑥2, al unirse
algunas categorías o valores de la variable X.
b. Si se tiene un solo grado de libertad para el valor crítico o el tamaño de muestra
es pequeña (n<50), se puede hacer uso de la corrección de Yates, el cual hace un
ajuste al estadístico 𝑥2
⌊𝑜𝑖−𝑒𝑖
𝑥
⌋ −0.52 (2𝑘−𝑚−1)
∑
𝑥𝑐2 = 𝑒𝑖 ~
Procedimiento:
3
El “p-valor” llamado el nivel de significación observado, es el mínimo valor de α al cual
se rechazaría la hipótesis nula. “p-valor” cercano a cero indica que es muy poco posible
que 𝐻0 ocurra por lo que estaremos inclinados a rechazarla.
1. Planteamiento de la hipótesis
1. Planteamiento de la hipótesis
4. Desarrollo de la prueba
5. Criterio de decisión
Una fábrica cuenta con tres máquinas para la producción de un mismo producto.
Durante la última semana de producción se han producido 135 artículos. El jefe de
producción cree que las máquinas no producen en cantidades similares. Por lo que ha
solicitado clasifiquen cada producto según la máquina que la ha producido. A
continuación, se presenta la tabla de frecuencias de las cantidades producidas por cada
máquina:
4
Use nivel de significación 5% para probar si la cantidad producida es la misma en las 3
máquinas. use el valor-p y la prueba estadística respectiva. Usando la prueba estadística 1.
Planteamiento de la hipótesis.
𝐻1: Las cantidades producidas por las tres máquinas no son iguales
2. α = 0.05
3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(23−1)
4. Desarrollo de la prueba
Observe que las probabilidades para cada máquina deben ser las mismas, pues debe
tenerse igual frecuencia teórica en el supuesto de que la producción es la misma para
cada máquina
𝑥
𝑒𝑖
5. Decisión
𝑥02.95(2) = 5.9915 se lee en tabla de la distribución Chi-
Cuadrado Como 𝑥𝑐2 = 2.3111 ≤ 5.9915 aceptamos la
hipótesis nula 𝐻0
6. Conclusión.
En conclusión, las cantidades producidas por las tres máquinas son iguales o las
mismas.
Ejemplo 2.
La compañía “FINANCE S. A.” es una institución crediticia con mayor número de
agencias en los distritos de San Isidro, San Borja, y Surco. La gerencia realizó un estudio
para poder tener un adecuado control sobre el número y monto de las cuentas
atrasadas en los pagos de los clientes, debidos a que un número excesivo de estas
cuentas podrían ocasionar problemas de liquidez financiera y un incremento de gastos
adicionales de operación.
5
Se proporciona a continuación la información recolectada:
¿Se puede afirmar que el número de clientes del distrito de Surco que han solicitado
regularizar sus montos de cuentas atrasadas, no siguen la proporción 3:4:3? Use el p-
valor y la prueba estadística. Utilizando la prueba estadística
1. Planteamiento de la hipótesis.
𝐻0 : El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, sigue la proporción 3:4:3
𝐻1: El número de clientes del distrito de Surco que han solicitado regularizar sus
montos de cuentas atrasadas, No sigue la proporción 3:4:3
2. α = 0.05
3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(23−1)
4. Desarrollo de la prueba
𝑥
𝑒𝑖
5. Decisión
𝑥02.95(2) = 5.9915 se lee en tabla de la distribución Chi-Cuadrado
Como 𝑥𝑐2 = 6.5126 > 5.9915 Se Rechaza hipótesis nula 𝐻0 y se acepta 𝐻1
6. Conclusión. A un nivel de significación del 5%, se puede afirmar que el número de
clientes del distrito de Surco que han solicitado regularizar sus montos de cuentas
atrasadas, No sigue la proporción 3:4:3
6
1.2 Ajuste a la Distribución Binomial
En esta prueba, las probabilidades teóricas 𝑝𝑖 que serán utilizadas para calcular las
frecuencias esperadas deben ser estimadas a partir de la distribución Binomial
𝑥
𝑛 (1 − 𝑝)𝑛−𝑥 x = 0, 1, 2, …, n
P (X = x) = (𝑥) 𝑝
La distribución Binomial tiene dos parámetros n y p y denotamos X ~ B (n, p)
𝐻0 : Los datos provenientes de la variable en estudio “X” se ajustan a una distribución teórica
Binomial
𝐻1: Los datos provenientes de la variable en estudio “X” no se ajustan a una distribución
teórica Binomial
2. Nivel de significación (α)
3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(2𝑘−𝑚−1) p = ¿…?
m=1
𝐻1: Los datos provenientes del número de ventas realizadas por el vendedor de
seguros NO se ajustan a una distribución teórica Binomial
4. Desarrollo de la prueba
∑𝑥𝑜
E(X) = = 1.2857143
𝑛 𝐸(𝑋) 1.2857143
Valor esperado de la distribución Binomial E(X) = np ~ p=
0.3214286
𝑛 4
Esta probabilidad de éxito utilizada para calcular las probabilidades teóricas que a la vez
servirán para calcular las frecuencias esperadas:
𝑥
𝑛 (1 − 𝑝)𝑛−𝑥 x = 0, 1, 2, 3, 4
P (X = x) = (𝑥) 𝑝
8
0
4 (0.6785714)4 = 0.67857144 = 0.212023
P(X=0) = ( ) 0.3214286
0
Se puede facilitar los calculos en Excel.
=DISTR.BINOM. N (
Así sucesivamente
9
No se rechaza 𝐻0 Si: 𝑥𝑐2 ≤ 𝑥𝑐𝑟𝑖𝑡2
Se rechaza 𝐻0 Si: 𝑥𝑐2 > 𝑥𝑐𝑟𝑖𝑡2
Ejemplo 4.
Se cree que el número de accidentes automovilísticos diarios en un cruce de dos
avenidas de determinada ciudad tiene una distribución de Poisson. En una muestra de
80 días del año pasado se obtuvieron los datos de la tabla adjunta ¿Apoyan estos datos
la hipótesis de que el número diario de accidentes tienen una distribución de Poisson?
Use nivel de significación 0.05 y concluya usando p-valor y la prueba estadística
N° accidentes 𝑜𝑖
0 34
1 25
2 11
3 7
4 3
Usando
Prueba
estadística 1.
Planteamiento de
la hipótesis.
2. α = 0.05
3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(2𝑘−𝑚−1) p = ¿…?
m=1
Nª accidentes 𝑜𝑖 𝑋𝑖𝑜𝑖
(𝑋𝑖)
0 34 0
1 25 25
2 11 22
3 7 21
4 3 12
10
80=n 80
λ=
A continuación, tenemos otros cálculos que nos permiten realizar la prueba y obtener
los grados de libertad de la estadística de prueba.
𝜀−𝜆𝜆𝑥
P (X =x) = X= 0, 1, 2, …
𝑥!
𝑖
0 0.3679 34 29.43 0.7096
1 0.3679 25 29.43 0.6668
2 0.1839 11 14.72 0.9401
3 o más 0.0613 10 6.42 1.9963
1.0000 80=n 80.00 4.3129
𝑥
𝑒𝑖
5. Criterio de decisión
Los grados de libertad para la distribución Chi –Cuadrado de la prueba son: k-m-1 = 4-1-
1 = 2 grados de libertad
𝑥𝛼2(𝑘−𝑚−1) = 𝑥02.95(2) = 5.9915
Como 𝑥𝑐2 = 4.3129 ≤ 5.9915 Aceptamos la hipótesis nula 𝐻0
6. Conclusión
11
A un nivel de significación del 5 % no se rechaza la hipótesis nula 𝐻0 por lo tanto no
podemos afirmar que la variable número de accidentes automovilísticos en el cruce de
las avenidas de interés siguen una distribución teórica distinta a la distribución de
Poisson.
Ejemplo 5.
Un zootecnista ha registrado el número de crías vivas que 86 hebras de cierta especie
de mamífero asentado en cierta área geográfica tuvieron durante su vida productiva:
Crías Hembras
0 8
1 35
2 25
3 10
4 8
¿A qué distribución cree usted se ajustaría mejor la variable en estudio? Use α
= 0.05 Solución
Procedimiento
1. Planteamiento de la hipótesis.
Ejemplo 1
El jefe de una planta industrial desea determinar si existe relación entre el rendimiento en
el trabajo y turno laboral del empleado. Se tomó una muestra aleatoria de 400 empleados
y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de
contingencia.
12
Mañana Tarde Noche Total
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy bueno 9 49 63 121
Total 60 188 152 400
Con el nivel de significación 0.01. ¿La calificación del rendimiento del trabajador está
asociada con el turno en el que labora el empleado? Use el p-valor y la prueba estadística.
4. Desarrollo de la prueba
La siguiente tabla muestra tanto las frecuencias observadas como las esperadas (entre
paréntesis)
5. Criterio de decisión.
Si 𝑥𝑐2 > 𝑥𝑐𝑟𝑖𝑡2 Se rechaza 𝐻0
Si 𝑥𝑐2 ≤ 𝑥𝑐𝑟𝑖𝑡2 NO Se rechaza 𝐻0
Con nivel de significación α = 0.01 se rechaza 𝐻0. Por lo tanto, se puede afirmar que la
calificación del rendimiento real de un empleado en el trabajo está relacionada con el
turno en el que labora.
13
Use el p-valor
Turno Laboral % (filas)
R. en el trabajo
Mañana Tarde Noche Total
Deficiente 23 60 29 112 28.0
0
Promedio 28 79 60 167 41.7
5
Muy bueno 9 49 63 121 30.2
5
Total 6 18 15 400 100.00
0 8 2
Valores esperados
Turno Laboral
P Chi-Cuadrado 0.00046038
Como P = 0.00046038< α = 0.01
Se rechaza la hipótesis nula 𝐻0
Conclusión
Con nivel de significación α = 0.01 se rechaza 𝐻0. Por lo tanto, se puede afirmar que la
calificación del rendimiento real de un empleado en el trabajo está relacionada con el
turno en el que labora.
=PRUEBA.CHICAD(
Ejemplo 2.
De acuerdo a un reciente estudio realizado por los estudiantes de ingeniería en gestión
Empresarial de cierta Universidad, para establecer un restaurante de comida rápida
pero saludable y cuyos potenciales clientes serían los mismos estudiantes de la
universidad, se encuestó un grupo de estudiantes seleccionados al azar y se registró el
sexo de los estudiantes y se preguntó entre otras cosas lo siguiente:
X Hombres Mujeres
Desayuno 154 85
14
Almuerzo Cena 80 101
46 18
¿Es posible relacionar la comida que consumen con más frecuencia fuera de casa con el
sexo de los estudiantes? Use α = 0.01. Solución
1. Formulación de hipótesis.
𝐻0 : La comida que consumen con más frecuencia fuera de casa es independiente del
sexo.
𝐻1: La comida que consumen con más frecuencia fuera de casa NO es independiente
del sexo.
2. α = 0.01
3. Prueba Estadística 𝑥 𝑒𝑖 ~ 𝑥(2𝑖−1)(𝑗−1) donde: i = filas; j =
columnas
4. Desarrollo de la prueba
Frecuencias Esperadas
X Hombres Mujeres Total
Desayuno 183.26 100.74 284
Almuerzo 104.71 76.29 181
Cena 37.02 26.98 64
Total 324.99 204.01 529
Con un nivel de significación de 0.01 se puede afirmar que la comida que consumen
fuera de casa no es independiente del sexo.
15
2.2 Prueba de Homogeneidad de Subpoblaciones
Estas pruebas se aplican cuando se desea verificar si una característica tiene un componente
semejante u homogéneo en dos o más poblaciones. Es decir, las muestras correspondientes a
“C” poblaciones son clasificadas de acuerdo a las clases o categorías de una categoría “A”.
En una prueba de homogeneidad de subpoblaciones uno de los totales marginales de
filas y columnas es aleatorio y el otro es fijo.
Procedimiento
1. Planteamiento de la hipótesis.
4. Desarrollo de la prueba
5. Criterio de decisión
No se rechaza 𝐻0 Si: 𝑥𝑐2 ≤ 𝑥𝑐𝑟𝑖𝑡2
Se rechaza 𝐻0 Si: 𝑥𝑐2 > 𝑥𝑐𝑟𝑖𝑡2
6. Conclusión Ejemplo 1
Tipos de Material
Condición
Material A Material B Material C Total
16
Desintegrados 41(36) 27(24) 22(30) 90
Permanecieron Intactos 79(84) 53(56) 78(70) 210
Total 120 80 100 300
𝑥
5. Criterio de decisión p-valor = 0.101
2
No se rechaza 𝐻0 Si: 𝑥𝑐 ≤ 5.9915
Se rechaza 𝐻0 Si: 𝑥𝑐2 > 5.9915
6. Conclusión
P Chi-Cuadrado 0.1014998
Para probar la protección de dos vacunas contra los abortos producidos por cierta
enfermedad, se han seleccionado tres grupos de vacas (Grupo 1, grupo 2, y grupo 3),
cada uno de los cuales tienen un total de 150 vacas sometidas al estudio. Estos grupos
de vacas fueron vacunados de la forma siguiente: Grupo 1: placebo (vacuna inocua)
Grupo 2: vacuna X
Grupo 3: vacuna Y
4. Desarrollo de la prueba.
5. Criterio de decisión
𝑥𝑐2 = 10.843 𝑥02.95(2) = 5.99 p-valor = 0.004
6. Conclusión
Por lo tanto, se puede afirmar que la probabilidad de abortos No es la misma en los tres
grupos de vacas.
18
✓ Esta prueba estadística no pertenece al grupo de pruebas no paramétricas.
✓ Es presentada como parte de la aplicación de la distribución Chi Cuadrado dado que
será utilizada como supuesto en los diseños experimentales.
Procedimiento
a) Formulación de la Hipótesis
𝐻0 : 𝜎12 = 𝜎22 = ⋯ = 𝜎𝑖2 = 𝜎2
𝐻1 : Al menos un 𝜎𝑖2 es diferente i = 1, 2, …, t
b) Nivel de significación α
c) Estadística de prueba
B= ~
𝑥𝑡−1
𝑖 𝑖
d) Desarrollo de la prueba
e) Criterio de Decisión
B > 𝑥12−𝛼,𝑡−1
f) Conclusiones
Ejemplo 1
Una empresa usa cuatro máquinas para el llenado de bolsas de detergente. Todas las
máquinas son de la misma marca y modelo. Dichas máquinas están programadas para
llenar 250 gr. En cada bolsa de detergente. El jefe de producción se ha quejado de que
las 4 máquinas presentan cierto nivel de variabilidad en la cantidad de detergente de
cada bolsa. Un especialista encargado por la compañía selecciona al azar 6 bolsas de
c/u de las máquinas y posteriormente pesa las bolsas. Los resultados obtenidos se
muestran a continuación.
19
Repetición
A B C D
1 250.3 249.3 250.0 251.1
2 250.2 246.8 251.1 250.1
3 249.9 248.3 250.9 248.9
4 249.3 247.9 248.3 249.3
5 250.6 249.7 248.9 251.0
6 250.3 249.9 249.9 249.9
Total 1500.6 1491.9 1499.1 1500.3
Promedio 250.10 248.65 249.85 250.05
𝑆𝑖2 0.20 1.44 1.20 0.78
Solución
a) Usando
prueba
estadística 1.
Formulación de
la Hipótesis
𝐻0 : 𝜎12 = 𝜎22 = ⋯ = 𝜎42 = 𝜎2
𝐻1 : Al menos un 𝜎𝑖2 es diferente i = 1, 2, …, 4
2. Nivel de significación α = 0.05
3. Estadística de prueba
B=
~ 𝑥𝑡−1
𝑖 𝑖
4. Desarrollo de la Prueba
20
20xLn (0.905) = - 1.99640671
B= =
B
B = 4.208
5. Criterio de decisión
𝑥02.95(3)= 7.8147
Como B = 4,208 < 7.8147 se acepta la hipótesis nula 𝐻0
6. Conclusión
Por lo tanto, no se puede afirmar que las varianzas sean heterogéneas. Se cumple el
supuesto de homogeneidad de varianzas.
Ejemplo 2
Un ingeniero Agrónomo quiere saber si la variabilidad del rendimiento por planta (en
kg.) es diferente en al menos una localidad donde se realizaron las plantaciones y se
aplicó el uso de agroquímicos como practica cultural. Para esto decidió correr sus datos
en un conocido programa estadístico. Obtuvo los siguientes resultados.
21
Realice la prueba más adecuada
1. Hipótesis
𝐻0 : 𝜎12 = 𝜎22 = ⋯ = 𝜎42 = 𝜎2
𝐻1 : Al menos un 𝜎𝑖2 es diferente i = 1, 2, 3
2. Nivel de significación α = 0.05
3. Estadística de prueba
B= ~
𝑥𝑡−1
𝑖 𝑖
4. Desarrollo de la Prueba
B=
5. Criterio de decision:
Como B = 0.5399 < 𝑥02.95(2)= 5.99 Se acepta la hipótesis nula 𝐻0
6. Conclusión
Por lo tanto, no se puede afirmar que las varianzas del rendimiento (en Kg.) por
localidad donde se aplicaron agroquímicos sean heterogéneas. Se cumple el supuesto
de homogeneidad de varianzas. Ejemplos Propuestos.
https://www.youtube.com/watch?v=mjA0zxKIee8
Sexo Opinión
F Si
M No
F Si
F Si
F Si
M Si
M No
M No
M No
23
F Si
F No
F No
F Si
F Si
M Si
F No
M No
F No
M Si
F No
M Si
M Si
M Si
F No
F No
Tabla de Contingencia
Genero
Opinión M F Total
No 7 5 12
Si 7 6 13
Total 14 11 25
24
Nutrición buena 252.467368 233.257895 173.8 209.474737 869
Nutrición pobre 23.5326316 21.7421053 16.2 19.5252632 81
276 255 190 229 950
P Chi-cuadrado
0.02080166 Como
Los valores del coeficiente intelectual son dependientes de los hábitos alimenticios
=PRUEBA.CHICUAD(
Resalte lo que se indica en ventana de dialogo de Excel
25