Está en la página 1de 8

El siguiente material se encuentra en etapa de corrección y no deberá

ser considerado una versión final.


Para hacer comentarios y sugerencias, o reportar errores, enviar mail
a Alejandro D. Zylberberg <alejandro@probabilidad.com.ar>
Versión Actualizada al: 12 de julio de 2004
Prueba de bondad de ajuste
Esta prueba es un poco diferente de las demás pruebas estudiadas en este capítulo,
porque las hipótesis no son sólo sobre los parámetros de determinadas
distribuciones sino también sobre distribuciones en sí.
La prueba de bondad de ajuste sirve para determinar si es razonable pensar que
determinados datos recogidos provienen de una determinada distribución específica.

Ejemplo con distribución discreta


Durante 30 días se ha registrado la cantidad de veces por día que un determinado
servidor ha caído en downtime. Se obtuvieron los siguientes resultados:
0, 2, 4, 2, 3, 0, 1, 1, 2, 1, 3, 1, 2, 0, 2, 1, 1, 3, 2, 3, 2, 6, 0, 4, 1, 4, 2, 1, 3, 2.
¿Puede afirmarse, a un nivel de significación del 5%, que la cantidad de fallas por
día sigue una distribución Poisson con µ = 2 ?

Ejemplo con distribución continua


Se ha registrado la duración en horas de 25 componentes electrónicos. Se
obtuvieron los siguientes resultados:
6.88, 17.68, 9.74, 20.05, 16.43, 19.99, 10.84, 3.54, 1.37, 5.87, 3.26, 4.20, 35.01,
8.45, 7.28, 4.32, 3.30, 4.20, 10.70, 7.93, 21.18, 19.33, 8.26, 5.03, 1.46
¿Puede afirmarse, a un nivel de significación del 5%, que la duración de los
componentes tiene una distribución exponencial negativa con λ = 0.1?

Método
1) Debe conocerse la distribución que se desea probar, aunque no necesariamente
el valor de sus parámetros. (Ejemplo: podemos suponer una distribución Poisson,
aunque no necesariamente saber qué valor proponer para el parámetro µ ).

2) Si no se sabe qué valores proponer para uno o más parámetros, estimarlos a


partir de la muestra. Se recomienda usar el estimador habitual de ese parámetro, o
bien estimar mediante máxima verosimilitud.
3) Plantear las hipótesis:
H0: Los datos recogidos provienen de una distribución xxxx con parámetro(s) xxxx.
HA: Los datos recogidos no provienen de tal distribución.

4) Si la distribución a probar es discreta:


Hacer una tabla con la cantidad de veces que aparece en la muestra cada uno
de los valores posibles de la distribución.
Si la distribución a probar es continua:
Dividir los valores posibles de la distribución en intervalos, y hacer una tabla
con la frecuencia de cada uno de los intervalos (es decir, la cantidad de
elementos de la muestra que caen en cada uno de los intervalos). En
principio, hacer los intervalos con longitudes pequeñas.

En cualquiera de los dos casos, la tabla debe cumplir con lo siguente:


• Si hay filas con frecuencia cero, se deben agrupar con el anterior o el
siguiente, de modo tal que no queden filas con frecuencia cero.
• Si hay filas con frecuencias muy pequeñas (en relación con las demás)
puede ser conveniente agruparlas de modo tal que no queden filas con
frecuencias muy pequeñas.

5) Calcular para cada fila de la tabla la probabilidad de que una variable aleatoria
distribuida según la distribución que se desea probar asuma el valor o los valores
agrupados en dicha fila.

6) Calcular el estadístico:
k (n p − x )2
Χ =∑
2 i i

i =1 n pi
donde:
• k es la cantidad de filas de la tabla
• xi es la frecuencia de la fila
• p i es la probabilidad de la fila
• n es el tamaño de la muestra

Χ 2 > χ 12− α ; k − c
7) Rechazar H 0 si
donde:
• α es el nivel de confianza
• k es la cantidad de filas de la tabla
• c es 1 + la cantidad de parámetros que fueron estimados en base a la
muestra para poder proponer la distribución.

Resolución del ejemplo con distribución discreta


1) Vamos a ensayar si los datos recogidos vienen de una distribución Poisson con µ
= 2.
2) No necesitamos estimar ningún parámetro. El único parámetro de la distribución
de Poisson es µ , y ya sabemos qué valor vamos a proponer para él.
3) Planteamos:
H0: Los datos recogidos provienen de una distribución Poisson con parámetro µ = 2
HA: Los datos recogidos no provienen de tal distribución.
4) Armamos la tabla de frecuencias:
Caídas Frecuencia
0 4
1 8
2 9
3 5
4 3
5 0
6 1
7 0
8 0
... 0
Hay filas con frecuencia cero. Si agrupamos los ceros del 7 en adelante con el 6, la
tabla queda así:
Caídas Frecuencia
0 4
1 8
2 9
3 5
4 3
5 0
6 ó más 1
Sigue quedando una fila con cero. Agrupemos el "5" con el "6 ó más":
Caídas Frecuencia
0 4
1 8
2 9
3 5
4 3
5 ó más 1
• Ya no queda ninguna fila con frecuencia cero.
• Observamos que ninguna fila ha quedado con frecuencia extremadamente
pequeña con respecto a las demás.
Entonces hemos construido una tabla que cumple con las dos condiciones.

5) Calculamos la probabilidad de los valores agrupados en cada fila de la tabla:


e −2 2 0
P ( X = 0) = = 0,13534
0!
e −2 2 1
P( X = 1) = = 0,27067
1!
e −2 2 2
P ( X = 2) = = 0,27067
2!
e −2 2 3
P ( X = 3) = = 0,18045
3!
e −2 2 4
P ( X = 4) = = 0,09022
4!
P ( X ≥ 5) = 1 − P ( X < 5) = 1 − P ( X = 0 ) − P ( X = 1) − P ( X = 2 ) − P ( X = 3) − P ( X = 4 ) = 0,05265
Le agregamos estas probabilidades a la tabla:
Caídas Frecuencia Probabilidad
0 4 0,13534
1 8 0,27067
2 9 0,27067
3 5 0,18045
4 3 0,09022
5 ó más 1 0,05265
k (
n p i − x i )2
Χ =∑2 = 0,37397
i =1 n p i
6) Calculamos:
7) α = 0,05; k = 6; c = 1, porque no se estimó ningún parámetro.
χ 02 , 9 5 ; 5 = 11 , 0 7 1
Buscamos en la tabla:
Χ 2 < χ 12− α ; k − c
Como , no rechazamos H 0, y por lo tanto con un nivel de
significación del 5% decimos que los datos recogidos efectivamente provienen de
una distribución de Poisson con µ = 2.

Resolución del ejemplo con distribución continua


1) Vamos a ensayar si los datos recogidos provienen de una distribución
exponencial negativa con λ = 0.1
2) No necesitamos estimar ningún parámetro. El único parámetro de la distribución
exponencial negativa es λ , y ya sabemos qué valor vamos a proponer para él.
3) Planteamos:
H0: Los datos recogidos provienen de una distribución Exponencial negativa con
parámetro λ = 0.1
HA: Los datos recogidos no provienen de tal distribución.
4) Elegimos intervalos 0-1.99, 2-3.99, 4-5.99, etc. y la tabla queda:
Duración Frecuencia Duración Frecuencia
0 - 1.99 2 18 - 19.99 2
2 - 3.99 3 20 - 21.99 2
4 - 5.99 5 22 - 23.99 0
6 - 7.99 3 24 - 25.99 0
8 - 9.99 3 26 - 27.99 0
10 - 11.99 2 28 - 29.99 0
12 - 13.99 0 30 - 31.99 0
14 - 15.99 0 32 - 33.99 0
16 - 17.99 2 34 - 35.99 1
Quedaron algunos intervalos con frecuencia cero. Para solucionarlo, agruparemos
algunos intervalos, y la tabla nos queda:
Duración Frecuencia
0 - 1.99 2
2 - 3.99 3
4 - 5.99 5
6 - 7.99 3
8 - 9.99 3
10 - 13.99 2
14 - 17.99 2
18 - 19.99 2
20 - 21.99 2
22 ó más 1
• Ya no queda ninguna fila con frecuencia cero.
• Observamos que ninguna fila ha quedado con frecuencia extremadamente
pequeña con respecto a las demás.
Entonces hemos construido una tabla que cumple con las condiciones pedidas.

5) Calculamos la probabilidad de que una variable distribuida exponencialmente con


λ = 0.1 caiga en los intervalos de cada fila, y por comodidad agregamos dichos
valores a la tabla:
Duración Frecuencia Probabilidad
0 - 1.99 2 0.18127
2 - 3.99 3 0.14841
4 - 5.99 5 0.12151
6 - 7.99 3 0.09948
8 - 9.99 3 0.08145
10 - 13.99 2 0.12128
14 - 17.99 2 0.08130
18 - 19.99 2 0.02996
20 - 21.99 2 0.02453
22 ó más 1 0.11080
(n p i − x i )2
Χ2 = ∑
k
= 10,087
i =1 n pi
6) Calculamos:
7) α = 0,05; k = 10; c = 1, porque no se estimó ningún parámetro.
χ 02 , 9 5 ; 9 = 1 6 , 9 1 9
Buscamos en la tabla:
Χ 2 < χ 12− α ; k − c
Como , no rechazamos H 0, y por lo tanto con un nivel de
significación del 5% decimos que los datos recogidos efectivamente provienen de
una distribución exponencial negativa con λ = 2.

Problemas típicos
Además de los dos ejemplos ya resueltos, deben considerarse problemas típicos
aquellos en los cuales hay que estimar el valor de los parámetros antes de poder
hacer la prueba. A continuación, un ejemplo de ello:

1) En una determinada ciudad, las precipitaciones para el mes de abril de los


últimos 40 años han sido:
12.62, 6.54, 7.00, 5.24, 9.98, 10.23, 11.79, 6.13, 6.82, 10.22, 6.58, 6.31,
10.88, 7.82, 6.61, 4.22, 6.72, 10.56, 9.66, 5.16, 7.14, 14.78, 10.46, 0.48, 8.94,
3.96, 1.84, 11.83, 10.07, 9.39, 1.78, 7.35, 5.81, 8.11, 9.71, 9.39, 7.73, 7.81,
9.20, 2.13
Determine, a un nivel de significación del 5%, si las precipitaciones siguen
una distribución normal.

Resolución
Vamos a probar si las precipitaciones siguen una distribución normal. Para hacer
una prueba de bondad de ajuste necesitamos probar una distribución concreta, por
lo cual para poder proponer una distribución hay que proponerla completa junto
con sus parámetros. Si no sabemos qué valores de los parámetros tendrá la
distribución que vamos a proponer, primero debemos estimarlos.
La distribución normal tiene dos parámetros: µ y σ. Usaremos los estimadores
habituales de dichos parámetros. Obtenemos:
∑x ∑ (X − X )
n n
2
i i
µ≅X= i =1 = 7.7256 σ≅S= i =1 = 3.1243
n n −1
Entonces vamos a proponer que las precipitaciones son X:N(7.7256 ; 3.1243). Las
hipótesis nos quedan:
H0: Los datos recogidos provienen de una distribución normal con parámetros µ =
7.7256, σ = 3.1243
HA: Los datos recogidos no provienen de tal distribución.
Elegimos intervalos 0-0.99, 1-1.99, 2-2.99, etc. y la tabla queda:
Precipitaciones Frecuencia Precipitaciones Frecuencia
0≤X<1 1 9 ≤ X < 10 6
1≤X<2 2 10 ≤ X < 11 6
2≤X<3 1 11 ≤ X < 12 2
3≤X<4 1 12 ≤ X < 13 1
4≤X<5 1 13 ≤ X < 14 0
5≤X<6 3 14 ≤ X < 15 1
6≤X<7 7 15 ≤ X < 16 0
7≤X<8 6 16 ≤ X < 17 0
8≤X<9 2 ... 0
Agrupamos algunos intervalos para que no quede ninguno con frecuencia,
controlamos que ninguno quede con frecuencia extremadamente pequeña, y
calculamos las probabilidades de cada intervalo (para lo cual debemos estandarizar
y usar la tabla de la normal estándar). La tabla queda:
Precipitaciones Frecuencia Probabilidad
X<1 1 0.01567
1≤X<2 2 0.01776
2≤X<3 1 0.03177
3≤X<4 1 0.05134
4≤X<5 1 0.07496
5≤X<6 3 0.09887
6≤X<7 7 0.11781
7≤X<8 6 0.12682
8≤X<9 2 0.12333
9 ≤ X < 10 6 0.10836
10 ≤ X < 11 6 0.08601
11 ≤ X < 12 2 0.06167
12 ≤ X < 13 1 0.03995
13 ≤ X 1 0.04569
k (n p − x )2
Χ2 = ∑ i i = 10,979
i =1 n p i
Calculamos:
α = 0,05; k = 14; c = 1 + 2 = 3, porque se estimaron 2 parámetros.
χ 02 , 9 5 ;1 1 = 19 , 6 7 5
Buscamos en la tabla:
Χ 2 < χ 12− α ; k − c
Como , no rechazamos H 0, y por lo tanto con un nivel de
significación del 5% decimos que los datos recogidos efectivamente provienen de
una distribución normal.
Este material se encuentra en etapa de corrección y no deberá ser
considerado una versión final.
Para hacer comentarios y sugerencias, o reportar errores, enviar mail
a Alejandro D. Zylberberg <alejandro@probabilidad.com.ar>
Versión Actualizada al: 12 de julio de 2004

También podría gustarte