Está en la página 1de 8

Prueba de bondad de ajustes y prueba ji-cuadrado

Las pruebas de bondad de ajuste son pruebas de hipótesis para verificar si los datos
observados en una muestra aleatoria se ajustan con algún nivel de significancia a
determinada distribución de probabilidad (uniforme, exponencial, normal, polisón, u
otra cualquiera).
La hipótesis nula 𝐻0 indica la distribución propuesta, mientras que la hipótesis
alternativa 𝐻1 , nos indica que la variable en estudio tiene una distribución que no se
ajusta a la distribución propuesta.
𝐻0 : 𝑓 (𝑥 ) = 𝑓0 (𝑥)
{ 𝑣𝑠
𝐻1 : 𝑓(𝑥) ≠ 𝑓0 (𝑥)

Estadístico de prueba:
𝑚
(𝑂𝑖 − 𝐸𝑖 )2
𝑋02 =∑
𝐸𝑖
𝑖=1
2
Si 𝑋02 ≥ 𝜒(1−𝛼,𝑀−𝐾−1), se rechaza 𝐻0 .

𝑚: Número de muestra
𝑘: Número de parámetros a estimar en cada distribución
𝑂𝑖 :Frecuencia observada
𝐸𝑖 : Frecuencia Esperada
𝐸𝑖 = 𝑛𝑃𝑖
𝑃𝑖 :Probabilidad de cada muestra
𝑛:Tamaño de la muestra

Pruebas de bondad de ajuste - la prueba ji-cuadrada


Existen varios procedimientos para probar la bondad de ajuste de una distribución
a los datos observados en una muestra, uno de ellos es la prueba Ji-cuadrada

𝐻0 : Las variables X e Y no se asocian (independientes).


{ 𝑣𝑠
𝐻1 : Las variables X e Y se asocian (dependientes)
El cual se basa en el estadístico de prueba:

Estadístico de prueba:
𝒓 𝒄 𝟐
(𝑶𝒊𝒋 − 𝑬𝒊𝒋 )
𝑿𝟐𝒊 = ∑ ∑ ~𝝌𝟐((𝒓−𝟏)(𝒄−𝟏) , 𝟏−𝜶)
𝑬𝒊𝒋
𝒊=𝟏 𝒋=𝟏

El cual tiene distribución Ji-cuadrada con (𝒓 − 𝟏)(𝒄 − 𝟏) grados de libertad

𝑟: Número de filas
𝑐: Número de columna
(𝑟 − 1)(𝑐 − 1): grados de libertad
Con: 𝑖 = 𝑓𝑖𝑙𝑎𝑠 , 𝑗 = 𝑐𝑜𝑙𝑢𝑚𝑛𝑎
2
Si 𝑋𝑖2 ≥ 𝜒((𝑟−1)(𝑐−1),1−𝛼), se rechaza 𝐻0 .

Ejemplo # 2 (Ejercicio 10.86, Probabilidad y estadística para ingeniería Walpole 8


edición)
En un experimento diseñado para estudiar la dependencia de la hipertensión con
respecto a los hábitos de fumar se tomaron los siguientes datos de 180 individuos:

No Fumadores Fumadores
fumadores moderados empedernidos
Con hypertension 21 36 30
Sin hypertension 48 26 19

Pruebe la hipótesis de que la presencia o ausencia de hipertensión es independiente


de los hábitos de tabaquismo. Utilice un nivel de significancia de 𝛼 = 0.05

Solución:
Solución:
Se desea probar el siguiente juego de hipótesis
𝐻0 : La presencia o ausencia de hipertensión es independiente de los hábitos de tabaquismo
𝐻1 La presencia o ausencia de hipertensión no es independiente de los hábitos de tabaquismo
Tenemos que 𝑟 = 2 𝑦 𝑐 = 3 (𝑟 − 1)(𝑐 − 1) = 2
2
Si 𝛼 = 0.05, entonces 𝜒(2 ,1−0.05) = 5.991465
No Fumadores Fumadores
fumadores moderados empedernidos Total
Con hypertension 21 36 30 87
Sin hypertension 48 26 19 93
Total 69 62 49 180

Luego

(69)(87)
𝐸11 = = 33.4
180
(69)(93)
𝐸12 = = 35.7
180

(62)(87)
𝐸21 = = 29.97
180

(62)(93)
𝐸22 = = 32.03
180
(49)(87)
𝐸31 = = 23.7
180
(49)(93)
𝐸32 = = 25.4
180

El estadístico de prueba es:


(21 − 33.4)2 (19 − 25.4)2
𝑋𝑖2 = + . . . + = 14.60
33.4 25.4
2
Como 𝑋𝑖2 = 14.60 > 5.991465 = 𝜒(2 ,1−0.05) Se rechaza la hipótesis nula 𝐻0 , es decir,
la presencia o ausencia de hipertensión no es independiente de los hábitos de
tabaquismo

Prueba de hipótesis para igualdad de varianza

Cuando se quiere comparar dos poblaciones independientes, se llevan a cabo


pruebas de hipótesis de las formas:

Se tienen dos poblaciones normales independientes con varianzas 𝜎12 𝑦 𝜎22


desconocidas. Se extraen dos muestras aleatorias de tamaños 𝑛1 𝑦 𝑛2
respectivamente, y sean 𝑆12 𝑦 𝑆22 las varianzas muestrales. Se desea probar la
hipótesis

𝐻0 : 𝜎12 = 𝜎22
{ 𝑣𝑠
𝐻1 : 𝜎12 ≠ 𝜎22
Se calcula el estadístico
𝑆12
𝐹0 = 2
𝑆2
y rechazamos 𝐻0

si 𝐹0 < 𝑓(𝛼 ,𝑛 o si 𝐹0 > 𝑓(1−𝛼 ,𝑛


2 2 −1,𝑛1 −1) 2 2 −1,𝑛1 −1)

Nota: Se puede calcular (se intercambian los grados de libertad)

𝑓(𝛼 ,𝑛 = 1/ 𝑓(1−𝛼 ,𝑛
2 2 −1,𝑛1 −1) 2 2 −1,𝑛1 −1)

10.74 En el ejercicio 10.41 de la página 358 pruebe la hipótesis a un nivel de


significancia de 0.05 de que 𝜎12 = 𝜎22 contra la alternativa de que 𝜎12 ≠ 𝜎22 , donde 𝜎12
y 𝜎22 son las varianzas para el numero de organismos por metro cuadrado de agua
en los dos lugares diferentes de Cedar Run.

El Departamento de Zoología de Virginia Tech llevo a cabo un estudio para


determinar si existe una diferencia significativa en la densidad de organismos en
dos estaciones diferentes ubicadas en Cedar Run, una corriente secundaria que se
localiza en la cuenca del rio Roanoke. El drenaje de una planta de tratamiento de
aguas negras y el sobre flujo del estanque de sedimentación de la Federal Mogul
Corporation entran al flujo cerca del nacimiento del rio. Los siguientes datos
proporcionan las medidas de densidad, en número de organismos por metro
cuadrado, en las dos estaciones colectoras:

Solución:

La prueba a contrastar es una prueba a dos colas


𝐻0 : 𝜎12 = 𝜎22
{ 𝑣𝑠
𝐻1 : 𝜎12 ≠ 𝜎22

Se tiene el resumen de los datos

Estación 1 𝑛1 = 16 𝑆1 = 7432.748
Estación 2 𝑛2 = 12 𝑆2 = 2479.503

Valores críticos Para 𝛼 = 0.05,

𝑓(1−𝛼 ,𝑛 −1,𝑛1 −1)


=𝑓 0.05 = 3.33
2 2 (1− ,15,11)
2
𝑓(𝛼 ,𝑛 −1,𝑛 −1) = 𝑓 0.05 = 0.33
2 2 1 ( ,15,11)
2

Valor del estadístico de prueba

𝑆12 (7874.329)2
𝐹0 = 2 = = 10.07
𝑆2 (2479.503)2

Criterio de Rechazo:

Como 0.33 ≰ 𝐹0 ≰ 3.33, entonces se rechaza la hipótesis nula 𝐻0 , con un nivel de


significancia 𝛼 = 0.05, entonces se puede concluir que las varianzas para el numero
de organismos por metro cuadrado de agua en los dos lugares diferentes de Cedar
Run.

10.77 Se lleva a cabo un experimento para comparar el contenido de alcohol en una


salsa de soya en dos líneas de producción diferentes. La producción se supervisa
ocho veces al día. A continuación, se presentan los datos.

Suponga que ambas poblaciones son normales. Se sospecha que la línea de


producción 1 no está produciendo tan consistentemente como la línea 2 en términos
de contenido de alcohol. Pruebe la hipótesis de que 𝜎12 = 𝜎22 contra la alternativa de
que 𝜎12 ≠ 𝜎22 . Utilice un valor P.
Solución:

La prueba a contrastar es una prueba a dos colas


𝐻0 : 𝜎12 = 𝜎22
{ 𝑣𝑠
𝐻1 : 𝜎12 ≠ 𝜎22

Se tiene el resumen de los datos

Línea producción 1 𝑛1 = 8 𝑆1 = 0.0553


Línea producción 2 𝑛2 = 12 𝑆2 = 0.0125

Valor del estadístico de prueba

𝑆12 (0.0553)2
𝐹0 = = = 19.7
𝑆22 (0.0125)2

Ahora calculemos el p-valor

𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 2𝑃 (𝑓 > 𝐹0 ) = 2(1 − 𝑃(𝑓 ≤ 𝐹0 ) = 2(1 − 𝑃 (19.7)) = 0.0009

Como el p-valor es menor que el nivel de significancia α = 0.05 entonces se rechaza


la hipótesis nula H0 , por lo tanto la línea de producción 1 no está produciendo tan
consistentemente como la línea 2 en términos de contenido de alcohol.

12.15 Con el fi n de determinar la relación entre la calificación de su desempeño


laboral (y) y las calificaciones en cuatro exámenes, el departamento de personal de
cierta empresa industrial realizo un estudio en el que participaron 12 sujetos. Los
datos son los siguientes:
Estime los coeficientes de regresión del modelo

𝑦̂ = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑏3 𝑥3 + 𝑏4 𝑥4

Solución:

Observe que X = [1 X1 ] donde X1 = [X1 X2 , X3 , X4 ] y 1 es un vector de unos, se


tiene

1 56.5 71.0 38.5 43.0


1 59.5 72.5 38.2 44.8
1 69.2 76.0 42.5 49.0
1 74.5 79.5 43.4 56.3
1 81.2 84.0 47.5 60.2
𝑋= 1 88.0 86.2 47.4 62.0
1 78.2 80.5 44.5 58.1
1 69.0 72.0 41.8 48.1
1 58.1 68.0 42.1 46.0
1 80.5 85.0 48.1 60.3
1 58.3 71.0 37.5 47.1
(1 84.0 87.2 51.0 65.2)

Luego
12.0 857.00 932.90 522.50 640.10
857.0 62595.82 67434.10 37803.06 46636.29
(𝑋′ 𝑋) = 932.9 67434.10 73038.03 40912.03 50325.34
522.5 37803.06 40912.03 22955.07 28215.59
( 640.1 46636.29 50325.34 28215.59 34805.53 )

58.745 0.377 −1.257 −0.799 0.879


0.377 0.012 −0.009 −0.004 −0.007
𝑦 (𝑋′ 𝑋)−1 = −1.257 −0.009 0.036 0.004 −0.021
−0.799 −0.004 0.004 0.041 −0.020
( 0.879 −0.007 −0.021 −0.020 0.039 )

Luego

213.10
15688.43
𝑋 ′ 𝑌 = 16830.85
9444.07
(11677.13)

Entonces;

58.745 0.377 −1.257 −0.799 0.879 213.10


−1 0.377 0.012 −0.009 −0.004 −0.007 15688.43
′ ′
𝛽̂ = (𝑋 𝑋) 𝑋 𝑌 = −1.257 −0.009 0.036 0.004 −0.021 16830.85
−0.799 −0.004 0.004 0.041 −0.020 9444.07
( 0.879 −0.007 −0.021 −0.020 0.039 ) (11677.13)
3.320
0.421
= −0.296
0.016
( 0.125 )

En consecuencia, la ecuación de regresión lineal múltiple

𝑦̂ = 3.320 + 0.421𝑥1 − 0.296𝑥2 + 0.016𝑥3 + 0.125𝑥4

También podría gustarte