Está en la página 1de 20

Análisis de datos categóricos: Bondad de ajuste, independencia y

homogeneidad

Prueba de bondad de ajuste

¿Para qué sirve la bondad de ajuste?

Sirve para determinar si una población tiene una Dn teórica específica.

Algunas características

 Es un método NO paramétrico: no es necesario suposiciones respecto a la forma


de la población.
 Muy útil para datos medidos en una escala nominal (los datos solo se clasifican y
no hay un orden natural).

Estadístico sobre el que se basa su decisión

k 2
2 ( Oi−e i )
x =∑
i=1 ei

x 2=aproximado DnC hi−cuadrado

k =celdad (resultados posibles de un experimento)

Oi=frecuencias observada

e i=frecuencias esperadas

gl=k −1
Notas importantes
Si las frecuencias observadas (𝑂𝑖) se acercan a las frecuencias esperadas (e𝑖), el valor de
x cuadrado será pequeño, lo cual indica un buen ajuste.

Un buen ajuste conduce a la aceptación de H₀, caso contrario su rechazo.

Prueba de Bondad de Ajuste (Frecuencias esperadas - proporciones iguales)

Ejemplos

Ejemplo 1. Walpole, página 371 (Dn uniforme discreta)

Se lanza un dado 120 veces y se registra cada resultado. Teóricamente se espera que
cada cara ocurra 20 veces (6 x 20 = 120) pero al comparar los resultados observados con
los esperados no hay coincidencia. Utilizar 𝛼 = 0,05. ¿Las diferencias son producto del
error de muestreo, de que el dado no es legal o de que la Dn de resultados no es
uniforme?

Frecuencias resultantes de 120 lanzamientos


Cara 1 2 3 4 5 6
Observadas 20 22 17 18 19 24
Esperadas 20 20 20 20 20 20

Desarrollo

H 0 : Dnuniforme

H 1 :Otra distribución

1. Se realiza el cálculo de los grados de libertad:

gl=6−1=5

2. Se realiza el cálculo del estadístico:

k 2
2 ( Oi−e i )
x =∑
i=1 ei
( 20−20 )2 ( 22−20 )2 ( 17−20 )2 ( 18−20 )2 (19−20 )2 ( 24−20 )2
x 2= + + + + + =1.7
20 20 20 20 20 20

Se acepta H0 si:

x 2< x2α

( x ¿¿ 2=1.7)<( x25 ;0.05 =11.07) ¿

Por lo tanto, según la demostración anterior, se acepta la H 0 y se puede considerar


Dn uniforme. Además, el p-value es mayor que 0.05, como se puede observar a
continuación.
Prueba de Bondad de Ajuste (Frecuencias esperadas - proporciones especificadas)

Ejemplos

Ejemplo 10.79. Walpole, página 382 (Proporción)

Una máquina mezcla cacahuates, avellanas, castañas y pacanas a razón de


5:2:2:1. Se observa que 1 lata con 500 nueces mezcladas tiene 269 cacahuates,
112 avellanas, 74 castañas y 45 pacanas. A un nivel de significancia de 𝛼 = 0,05
pruebe la hipótesis de que la máquina mezcla a razón de 5:2:2:1.

Desarrollo

H 0 : Dnuniforme

H 1 :Otra distribución

1. Calcular las proporciones esperadas.

Observada Esperada Proporció


s s n
269 250 0,5
112 100 0,2
74 100 0,2
45 50 0,1

2. Se calculan los grados de libertad

gl=6−1=5

3. Se calcula el estadístico

k 2
2 ( Oi−e i )
x =∑
i=1 ei

( 269−250 )2 ( 112−100 )2 ( 74−100 )2 ( 45−50 )2


x 2= + + + =10.144
250 100 100 50
Se acepta H0 si:

x 2< x2α

( x ¿¿ 2=10.144)>(x23 ;0.05 =7.815) ¿

Por lo tanto, según la demostración anterior, se rechaza la H 0, ya que la máquina


no mezcla a razón de 5:2:2:1. Además, el p-value es menor que 0.05, como se
puede observar a continuación.
Prueba de Bondad de Ajuste (Frecuencias esperadas NO iguales)

Ejemplos

Ejemplo. Walpole, página 372 (Dn Normal)

En la siguiente tabla se muestra una distribución de frecuencias de la duración de 40


baterías. ¿La Dn de Frecuencias de la duración de las baterías se puede aproximar a una
Dn Normal con media 𝜇= 3,5 y desviación 𝜎= 0,7. A un nivel de significancia de 𝛼 = 0,05

Dn frecuencias duración de baterías


Límites de
N° clase 0i ei
1 1,45-1,95 2
2 1,95-2,45 1
3 2,45-2,95 4
4 2,95-3,45 15
5 3,45-3,95 10
6 3,95-4,45 5
7 4,45-4,95 3

Desarrollo

1.Se procede a calcular las frecuencias esperadas. Se obtienen calculando las áreas bajo
la curva normal que se encuentra entre los límites de clase.

Frecuencia esperada clase N°1

x −μ 1.95−3.5
Z= = =−2.214
σ 0.7

1.95 − ( x−3.5 )
1 2∗0.7
2

P ( Z ←2.214 ) = ∫ ∗e dx=0.0134
−∞ 0.7∗√2 π

Frecuencia esperada clase N°2

x −μ 1.95−3.5
Z= = =−2.214
σ 0.7

x −μ 2.45−3.5
Z= = =−1.5
σ 0.7
2.45 − ( x−3.5)
1 2∗0.7
2

P (−2.214< Z ←1.5 )= ∫ ∗e dx=0.0534


1.95 0.7∗√ 2 π

Frecuencia esperada clase N°3

x −μ 2.45−3.5
Z= = =−1.5
σ 0.7

x −μ 2.95−3.5
Z= = =−0.7857
σ 0.7

2. 95 −( x−3.5 )
1 2∗0.7
2

P (−1.5<Z <−0.7857 )= ∫ ∗e dx=0.1492


2.45 0.7∗√ 2 π

Frecuencia esperada clase N°4

x −μ 2.95−3.5
Z= = =−0.7857
σ 0.7

x −μ 3.45−3.5
Z= = =−0.0714
σ 0.7

3.45 −( x−3.5 )
1 2∗0.7
2

P (−0.0714< Z ←0.7857 )= ∫ ∗e dx=0.2555


2.95 0.7∗√ 2 π

Frecuencia esperada clase N°5

x −μ 3.45−3.5
Z= = =−0.0714
σ 0.7

x −μ 3.95−3.5
Z= = =0.6429
σ 0.7

3.95 − ( x−3.5)
1 2∗0.7
2

P (−0.7857< Z< 0.6429 )= ∫ ∗e dx=0.2683


3.45 0.7∗√ 2 π

Frecuencia esperada clase N°6

x −μ 3.95−3.5
Z= = =0.6429
σ 0.7
x −μ 4.45−3.5
Z= = =1.3571
σ 0.7

4.45 − ( x−3.5 )
1 2∗0.7
2

P ( 0.6429<Z <1.3571 )= ∫ ∗e dx =0 .1728


3.9 5 0.7∗ √ 2 π

Frecuencia esperada clase N°7

x −μ 4.45−3.5
Z= = =1.3571
σ 0.7

+∞ − ( x−3.5 )
1 2∗0.7
2

P ( Z >1.3571 )= ∫ ∗e dx=0.0874
4.45 0.7∗√ 2 π

Dn frecuencias duración de baterías


N° Límites de clase 0i ei
0.0134*40=0.5
1 1,45-1,95 2 36
0.0534*40= 2.
2 1,95-2,45 1 136
0.1492*40= 5.
3 2,45-2,95 4 968
0.2555*40= 10
4 2,95-3,45 15 .22
0.2683*40= 10
5 3,45-3,95 10 .732
0.1728*40= 6.
6 3,95-4,45 5 912
0.0874*40= 3.
7 4,45-4,95 3 496

Si las ei (frecuencias esperadas) son menores que 5; se deben sumar las ei de


intervalos contiguos hasta que todos los intervalos tengan fe  5.

2. Se realiza el cálculo de los grados de libertad:

gl=4−1=3
3. Se realiza el cálculo del estadístico:

k 2
2 ( Oi−e i )
x =∑
i=1 ei

( 7−8.64 )2 ( 15−10.22 )2 ( 10−10.732 )2 ( 8−10.408 )2


x 2= + + + =3.154
8.64 10.22 10.732 10.408

Se acepta H0 si:

x 2< x2α

( x ¿¿ 2=3.154)<(x32; 0.05=7.815)¿

Por lo tanto, según la demostración anterior, se acepta la H 0 y se puede considerar


Dn uniforme. Además, el p-value es mayor que 0.05, como se puede observar a
continuación.
Limitaciones de usar chi-cuadrada

Si una celda tiene una frecuencia esperada (e𝑖) pequeña se puede generar una
conclusión errónea.

Características de Dn Chi-cuadrada:

1. Los valores de chi-cuadrada nunca son negativos: debido a que 𝑂𝑖 − 𝑒𝑖 2

2. Existe una familia de distribuciones chi; cada vez que se cambia de grados de libertad,
se crea una nueva distribución

3. La Dn Chi-cuadrada tiene un sesgo positivo. Pero a medida que aumentan los gl


comienza a aproximarse a la Dn normal
Ejemplo

Los datos mostrados representan la duración, en años, de 30 bombas (número entero


más cercano). Probar la bondad de ajuste entre las frecuencias de clase observadas y
esperadas correspondientes a una distribución normal con 𝜇 = 1,8 y 𝜎 = 0,4. Utilice 𝛼 =
0,01.

Datos
2 0,4 Dn frecuencia duración bombas
0,2 2,3 N° Límites clase Oi
0,5 0,7 1 0-0,5 6
3 4,5 2 0,5-1,5 6
6 1 Desarrollo 3 1,5-2,5 4
4 0,3 4 2,5-3,5 3
0,3 6 1.Se procede a calcular las frecuencias esperadas.
5 Se obtienen
3,5-4,5 1
5,5 1,5 calculando las áreas bajo la curva normal que se6 encuentra4,5-5,5
entre 3
5,9 5,6 7 5,5-6,5 6
los límites de clase.
3,3 0,5 8 6,5-7,5 1
6,5 6
1,8 2,5
1,3 1,2
0,2 5
4,7 0,2
Frecuencia esperada clase N°1

x −μ 0.5−1.8
Z= = =−3.25
σ 0.4

0.5 − ( x−1.8)
1 2∗0.4
2

P ( Z ←3.25 )= ∫ ∗e dx=0.0 0057


−∞ 0.4∗√ 2 π

Frecuencia esperada clase N°2

x −μ 0.5−1.8
Z= = =−3.25
σ 0.4

x −μ 1.5−1.8
Z= = =−0.75
σ 0.4

1.5 − ( x−1.8 )
1 2∗0.4
2

P (−3.25<Z <−0.75 )=∫ ∗e dx=0.22605


0.5 0. 4∗ √ 2 π

Frecuencia esperada clase N°3

x −μ 1.5−1.8
Z= = =−0.75
σ 0.4

x −μ 2.5−1.8
Z= = =1. 7 5
σ 0.4

2.5 −( x−1.8 )
1 2∗0.4
2

P (−0.75< Z<1.75 )=∫ ∗e dx=0.73331


1.5 0.4∗√ 2 π

Frecuencia esperada clase N°4

x −μ 2.5−1.8
Z= = =1.75
σ 0.4

x −μ 3.5−1.8
Z= = =4.25
σ 0.4

3.5 − ( x−1.8 )
1 2∗0. 4
2

P ( 1.75<Z < 4.25 )=∫ ∗e dx =0. 04004


2.5 0. 4∗ √ 2 π
Frecuencia esperada clase N°5

x −μ 3.5−1.8
Z= = =4.25
σ 0.4

x −μ 4.5−1.8
Z= = =6.75
σ 0.4

4.5 − ( x−1.8 )
1 2∗0. 4
2

P ( 4.25< Z< 6.75 )=∫ ∗e dx=0. 00001


3.5 0. 4∗ √ 2 π

Frecuencia esperada clase N°6

x −μ 4.5−1.8
Z= = =6.75
σ 0.4

x −μ 5.5−1.8
Z= = =9.25
σ 0.4

5.5 − ( x−1.8 )
1 2∗0.4
2
−12
P ( 6.75<Z < 9.25 )=∫ ∗e dx=7.39224 ×10
4.5 0.4∗ √ 2 π

Frecuencia esperada clase N°7

x −μ 5.5−1.8
Z= = =9.25
σ 0.4

x −μ 6.5−1.8
Z= = =11.75
σ 0.4

6.5 − ( x−1.8 )
1 2∗0.4
2

P ( 9.25< Z<11.75 )=∫ ∗e dx=0


5.5 0.4∗ √ 2 π

Frecuencia esperada clase N°8

x −μ 6.5−1.8
Z= = =11.75
σ 0.4

x −μ 7.5−1.8
Z= = =14.25
σ 0.4

7.5 − ( x−1.8 )
1 2∗0.4
2

P ( 11.75< Z< 14.25 )=∫ ∗e dx=0


6.5 0.4∗√ 2 π
Dn frecuencia duración bombas
N° Límites clase Oi ei
 0.00057*30=0.
1 0-0,5 6 0171
 0.22605*30=6.
2 0,5-1,5 6 7815
 0.73331*30=21
3 1,5-2,5 4 .9993
 0.04004*30=1.
4 2,5-3,5 3 2012
5 3,5-4,5 1  0
6 4,5-5,5 3  0
7 5,5-6,5 6  0
8 6,5-7,5 1  0

Si las ei (frecuencias esperadas) son menores que 5; se deben sumar las ei de


intervalos contiguos hasta que todos los intervalos tengan fe  5.

2. Se realiza el cálculo de los grados de libertad:

gl=2−1=1

3. Se realiza el cálculo del estadístico:

k 2
2 ( Oi−e i )
x =∑
i=1 ei

2 ( 12−6.7986 )2 ( 18−23.2005 )2
x= + =5.1451
6.7986 23.2005
Se acepta H0 si:

x 2< x2α

( x ¿¿ 2=5.1451)<( x 21 ;0.01=6.635)¿

Por lo tanto, según la demostración anterior, se acepta la H 0 y se puede considerar


Dn uniforme. Además, el p-value es mayor que 0.01, como se puede observar a
continuación.
Prueba de independencia

Chi-cuadrada para probar la hipótesis de independencia (si están asociadas).

Ejemplo para 2 variables categóricas

Se desea determinar si las opiniones de los votantes del estado de Illinois


respecto a la reforma fiscal son independientes de sus niveles de ingreso. Los
resultados de una muestra aleatoria de 1000 votantes son los siguientes:

Tabla de contingencia r x c= 2x3

Nivel de ingreso económico


Bajo Medio Alto Total
Opiniones sobre reforma fiscal
Oi ei Oi ei Oi ei  
A favor 182   213   203   598
En contra 154   138   110   402
Total 336   351   313   1000

Desarrollo

1. Se definen la hipótesis nula y la hipótesis alternativa

H 0 :independientes de su nivel de ingreso


H 1 : no independientes

2. Se definen los grados de libertad:


gl=( r −1 )( c −1 )=( 2−1 ) ( 3−1 ) =2

3. Se definen los eventos involucrados


• Bajo (B): persona en el nivel de ingreso bajo
336
P ( B )= =0.336
1000
• Medio (M): persona en el nivel de ingreso medio
351
P ( M )= =0.351
1000

• Alto (H): persona en el nivel de ingreso alto


313
P ( A )= =0.313
1000

• Favor (F): a favor de la reforma fiscal


598
P ( F )= =0. 598
1000

• Contra (C): en contra de la reforma fiscal


402
P (C)= =0.402
1000

4. Se procede a calcular las frecuencias esperadas (𝑒i)


P ( B ∩ F )=0.336∗0.598∗1000=200.928
P ( M ∩ F )=0.3 51∗0.598∗1000=20 9.898
P ( A ∩ F )=0.313∗0.598∗1000=187.174
P ( B ∩C )=0.336∗0. 402∗1000=135.072
P ( M ∩C )=0.3 51∗0. 402∗1000=141.102
P ( A ∩ C )=0.313∗0. 402∗1000=125.826

Tabla de contingencia r x c= 2x3

Nivel de ingreso económico


Bajo Medio Alto Total
Opiniones sobre reforma fiscal
Oi ei Oi ei Oi ei  
 200.92 209.89  187.17
A favor 182 213 203 598
8 8  4
135.07 141.10 125.82
En contra 154 138 110 402
2 2  6 
Total 336   351   313   1000

5. Se calcula el estadístico.
k 2
2 ( Oi−e i )
x =∑
i=1 ei

( 182−200.928 )2 ( 154−135.072 )2 ( 213−2 09.898 )2 ( 138−141.102 )2 ( 203−187.174 )2 ( 110−


x 2= + + + + +
200.928 135.072 2 09.898 141.102 187.174 12

Se acepta H0 si:

x 2< x2α

( x ¿¿ 2=7.878)>( x 21 ;0.01=5.991)¿
Por lo tanto, según la demostración anterior, se rechaza H₀. La opinión de los votantes
sobre la reforma y su nivel de ingreso NO son independientes. Además, el p-value es
menor que 0.05, como se puede observar a continuación.

También podría gustarte