Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Pruebas de Bondad y Ajuste
Pruebas de Bondad y Ajuste
Dadas las observaciones (X1 , . . . , Xn ) independientes, con distribucion F , deseamos probar la hipotesis nula H0 : F = F0 . En principio, la hipotesis
alternativa sera H: F = F0 , pero es posible que dentro de esta alternativa
m
ultiple haya algunas distribuciones para las que nos interese especialmente
que la prueba tenga una buena potencia.
A la hipotesis H0 se la llama hip
otesis de ajuste de la distribucion F0 al
modelo del cual proviene la muestra. Las pruebas de H0 se llaman pruebas de
ajuste.
A lo largo del Siglo XIX, los modelos aleatorios se volvieron cada vez mas
frecuentes y cada vez mas necesarios para describir la naturaleza. Un modelo
se consideraba adecuado en tanto no presentara incoherencias evidentes con
los resultados de la experiencia.
Recien en 1999 surgio la primera prueba de ajuste, a partir de la cual los
cientcos pudieron poner a prueba sus modelos e incluso seleccionar entre
varios modelos propuestos para un mismo fenomenos, cuales con adecuados y
cuales no lo son. Esa primera prueba es la llamada prueba 2 de Pearson.
2.2
Enrique M. Caba
na.
Captulo 2: Pruebas de bondad de ajuste.
dades F para la que, si Y1 , . . . , Yn es una muestra de F , entonces la probabilidad
de que resulte {Y1 , . . . , Yn } = {X1 , . . . , Xn } es maxima. Esta probabilidad es
positiva solo si F tiene probabilidades p1 , . . . , pn concentradas en X1 , . . . , Xn ,
y vale n! ni=1 pi , cuando las Xi (i = 1 . . . , n) son todas diferentes.
El maximo de este producto, con la condicion ni=1 pi 1, se produce
cuando todas las probabilidades son iguales: p1 = . . . = pn = 1/n.
Como consecuencia, F es la distribucion emprica Fn .
Cuando Fn es cercana a F0 , no hay razones para rechazar H0 . En cambio,
cuando Fn dista mucho de F0 , vamos a rechazar H0 .
No debe extra
narnos entonces que las pruebas mas utilizadas tengan como
region crtica {(X1 , . . . , Xn ) : d(Fn , F0 ) > constante}, donde d es una distancia entre probabilidades, o una seudo - distancia, como suele llamarse a una
funcion con las propiedades de una distancia, excepto la que establece que
d(F, G) = 0 implica F = G.
Las pruebas que incluimos en las secciones siguientes resultan de elegir
adecuadamente d. La primera de ellas ha sido analizada en ??. Las otras dos
han sido presentadas en ??, en el marco de aplicaciones del proceso emprico,
y ahora las estudiaremos con mayor detenimiento.
18
2.3
Prueba 2 de ajuste.
Licenciatura en Estadstica.
2.3. Prueba 2 .
19
2.3.1
La distribuci
on aproximada del estadstico de Pearson para n grande.
La esperanza de 1{Xi I} es P{X1 I}, de modo que EM = np. Las covariancias Cov(1{Xi I} , 1{Xi J} ) valen
E1{Xi I} 1{Xi J} E1{Xi I} E1{Xi J}
= P{Xi I, Xi J} P{Xi I}P{Xi J}
de manera que
VarM = n, con = diagp pptr .
El Teorema del Lmite Central permite deducir que la distribucion asintotica de 1n (M np) es Normal(0, ). La matriz es singular, porque cuando
u = (1, 1, . . . , 1)tr , u = diagpu pptr u = 0. El recorrido de la transformacion
lineal x x es ortogonal a u, porque utr x = xtr u = 0.
Observemos que un vector Z Normal(0, ) esta contenido con probabilidad 1 en el complemento ortogonal u de u, ya que la variable aleatoria u, Z
= utr Z tiene esperanza Eutr Z = 0 y variancia Varutr Z = utr u = 0.
Llamemos a la matriz de la proyeccion ortogonal sobre el complemento de
u, es decir, = I uutr /n. Denotamos por T a la matriz de la transformacion
lineal que, como la asociada a , tiene por n
ucleo al subespacio generado por
Enrique M. Caba
na.
Captulo 2: Pruebas de bondad de ajuste.
20
2.3.2
Una deducci
on alternativa de la distribuci
on asint
otica de Q bajo H0 .
2.3.3
An
alisis a partir del cociente de verosimilitudes.
Mh !
maxima verosimillitud
de p es M/n, de modo que el cociente de verosimilitudes
vale = k
k
h=1
h=1
p0,hh
(Mh /n)Mh
Licenciatura en Estadstica.
2.3. Prueba 2 .
21
k
Mh log(Mh /np0,h ).
h=1
k
1
Mh [(Mh /np0,h 1) (Mh /np0,h 1)2 + A(Mh /np0,h 1)3 ].
2
h=1
k
h=1
k
Mh Mh np0,h
(Mh np0,h )2
np0,h
np0,h
np0,h
h=1
2A
de modo que 2 log es asintoticamente equivalente a
2
k
1
Mh [(Mh /np0,h 1) (Mh /np0,h 1)2 ] =
2
h=1
=2
k
h=1
Mh
k
Mh
Mh2
1 =2
2n
np0,h
h=1 np0,h
k
k
(Mh np0,h )2
(Mh np0,h )2
+
(Mh np0,h ) =
.
np0,h
np0,h
h=1
h=1
h=1
k
k
h=1
(Mh np0,h )2
np0,h
22
2.3.4
Enrique M. Caba
na.
Captulo 2: Pruebas de bondad de ajuste.
La selecci
on de los intervalos de partici
on.
2.3.5
(2.1)
dependen solo de n, k.
Se observara que Qn es una variable aleatoria discreta, que solo puede
asumir un n
umero nito de valores. Por ese motivo, la ecuacion (2.1) debe
reemplazarse por
P{Qn > c } , P{Qn c } > .
Esto implica que c es uno de los valores que alcanza la variable aleatoria Qn .
Si estos valores se ordenan de manera creciente: q1 < q2 < . . . < qm , entonces
m
c = qj() cuando m
j=j() P{Qn = qj } > , y
j=j()+1 P{Qn = qj } .
Licenciatura en Estadstica.
2.3. Prueba 2 .
23
k
14
15
16
17
18
19
20
21
21
22
23
23
24
25
25
26
26
31
35
38
41
43
46
48
50
= .10
n/k
1.4286
1.6667
1.8750
2.0588
2.2222
2.3684
2.5000
2.6190
2.8571
2.9545
3.0435
3.2609
3.3333
3.4000
3.6000
3.6538
3.8462
4.8387
5.7143
6.5789
7.3171
8.1395
8.6957
9.3750
10.0000
k
12
14
15
16
16
17
18
19
19
20
21
21
22
22
23
23
24
28
31
34
37
39
41
43
45
= .05
n/k
1.6667
1.7857
2.0000
2.1875
2.5000
2.6471
2.7778
2.8947
3.1579
3.2500
3.3333
3.5714
3.6364
3.8636
3.9130
4.1304
4.1667
5.3571
6.4516
7.3529
8.1081
8.9744
9.7561
10.4651
11.1111
k
11
12
13
14
14
15
16
16
17
17
18
18
19
19
20
20
21
24
27
30
32
34
36
38
39
= .01
n/k
1.8182
2.0833
2.3077
2.5000
2.8571
3.0000
3.1250
3.4375
3.5294
3.8235
3.8889
4.1667
4.2105
4.4737
4.5000
4.7500
4.7619
6.2500
7.4074
8.3333
9.3750
10.2941
11.1111
11.8421
12.8205
Enrique M. Caba
na.
Captulo 2: Pruebas de bondad de ajuste.
24
k
50
45
= .10
40
= .05
35
= .01
30
25
20
15
10
50
100
150
200
250
300
350
400
450
500
n
Figura 2.1: Graco de k = 4 5 2n2 /(1 (1 ))2 para = .1, .05 y .01
La Tabla 2.2 indica valores de c estimados mediante una simulacion basada
en 10.000 replicaciones, correspondientes a = 5% para varios valores de n, k,
e incluye el valor asintotico en la lnea n = . Los resultados muestran
que la aproximacion resultante de reemplazar c por el valor lmite cuando
n es buena. Muestran tambien que se requiere una simulacion mas
precisa, basada en un n
umero considerablemente mayor de replicaciones, para
describir adecuadamente la evolucion de c en funcion de n, ya que resulta
mas razonable atribuir las uctuaciones observadas a medida que n crece a
los errores de la simulacion que al comportamiento de los verdaderos valores
crticos.
2.4
En el mismo n
umero de la revista Giornale dellIstituto Italiano degli Attuari,
que diriga F. P. Cantelli, de enero de 1933, aparecieron un artculo de V.
Glivenko 1 en el que muestra la validez del hoy llamado Lema de Glivenko Cantelli y el artculo en que A. N. Kolmogorov propone la prueba que lleva su
nombre 2
1
2
Licenciatura en Estadstica.
2.4. Prueba de Kolmogorov.
25
Tabla 2.2: Valores crticos para la prueba 2 de Pearson de nivel 5%, correspondientes a k clases equiprobables, y muestras de tama
no n.
n
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
n
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
k
3
5.2000
6.2000
5.2000
6.1000
5.8400
5.6000
5.7143
6.0500
5.7333
5.9200
6.1455
6.1000
5.9385
5.9429
6.0800
6.0250
6.0941
6.0667
5.9579
6.0200
5.9915
10
11
7.6000
7.6667
7.6000
7.4800
7.8667
7.6286
7.6000
7.5333
7.7600
7.6182
7.6000
7.6769
7.8286
7.5067
7.4000
7.8471
7.6889
7.6947
7.6000
7.8147
9.0000
8.6667
9.0000
9.2000
9.3333
9.4286
9.2500
9.5556
9.4000
9.6364
9.3333
9.5385
9.4286
9.4667
9.5000
9.2941
9.6667
9.2632
9.6000
9.4877
10.4000
11.0000
10.6000
10.7600
11.2000
10.7714
11.0000
10.8667
10.9600
10.7818
10.8000
10.7846
10.9143
11.0000
11.0500
10.9294
10.9333
10.9158
10.8800
11.0705
14.3333
13.6000
14.3600
13.7333
14.1429
14.0000
13.8444
14.0000
14.0909
13.8667
14.1385
14.1143
14.0667
13.8000
13.9176
14.1778
14.0526
13.9200
14.0671
15.6000
15.1000
14.9600
15.6000
15.1429
15.3500
15.2000
15.5200
15.5273
15.6000
15.4462
15.3714
15.1200
15.4000
15.6941
15.6000
15.3684
15.2000
15.5073
16.3333
17.0000
17.0000
16.6667
16.7143
16.5000
16.5556
16.8000
17.1818
16.6667
16.6923
17.1429
16.8667
17.0000
17.0000
16.6667
16.8947
16.6000
16.9190
17.4000
17.6800
18.4000
18.1143
18.3000
18.3111
18.2000
18.4000
18.1000
18.0923
18.3143
18.1333
18.4500
18.1412
18.5333
18.3579
17.9200
18.3070
15
12.5333
12.2000
12.2400
12.4667
12.4000
12.5000
12.7111
12.4400
12.5818
12.8000
12.4308
12.4000
12.6400
12.4000
12.4235
12.3556
12.8000
12.5600
12.5916
k
16
12
19.6000
19.6400
19.6000
19.5143
19.4000
19.2667
19.6000
19.8364
19.6000
19.3692
19.4857
19.5600
19.6000
19.6118
19.6000
19.3158
19.7600
19.6751
13
20.3000
21.2800
21.1333
20.3429
21.1000
21.1556
20.7200
21.3455
20.6000
20.8000
20.6286
21.2000
20.7500
20.9882
20.9333
20.9053
20.9000
21.0261
14
17
18
19
20
22.6000
22.2667
22.2000
22.3000
22.5111
22.2400
22.1273
22.1333
22.2308
22.0000
22.2533
22.2000
22.2235
22.3111
22.4526
22.6400
22.3620
23.6000
24.0000
22.8571
23.7500
24.0000
23.8000
23.8182
23.5000
23.8462
23.8571
23.6000
23.5000
23.5294
23.6667
23.5789
23.6000
23.6848
24.2800
25.4667
24.8857
24.8000
24.3333
25.5200
24.4182
24.8000
24.8462
25.0857
25.0533
25.2000
25.1176
25.2000
25.0842
24.8000
24.9958
26.6667
26.6857
26.3000
25.6444
26.1600
26.2909
26.1333
25.7538
26.1714
26.3200
26.2500
26.4000
26.3556
26.1474
26.1400
26.2962
27.6000
28.2571
27.5000
27.4000
27.7600
27.1455
27.6000
27.7692
27.7143
27.0000
28.0000
27.4471
27.2000
27.2105
27.4400
27.5871
29.5333
28.5143
29.3500
28.8889
29.0400
28.9455
29.3000
28.8308
29.3429
28.6133
29.2500
28.7765
29.0667
29.2000
28.8200
28.8693
30.0000
29.5714
30.0000
30.1111
30.0000
30.4545
30.0000
30.0769
30.0000
29.8000
30.0000
30.0588
30.0000
30.2632
30.0000
30.1435
Enrique M. Caba
na.
Captulo 2: Pruebas de bondad de ajuste.
26
n
5
6
7
8
9
10
11
12
13
10%
1.136
1.144
1.154
1.157
1.162
1.167
1.167
1.168
1.176
5%
1.258
1.271
1.279
1.285
1.292
1.295
1.297
1.299
1.307
n
14
15
16
17
18
19
20
25
30
10%
1.176
1.177
1.179
1.183
1.184
1.181
1.183
1.188
1.191
5%
1.307
1.307
1.310
1.314
1.316
1.312
1.314
1.320
1.326
n
35
40
45
50
60
70
80
100
10%
1.197
1.201
1.202
1.206
1.203
1.205
1.205
1.209
1.224
5%
1.330
1.337
1.335
1.334
1.336
1.341
1.339
1.340
1.358
El estadstico
de Kolmogorov es D = sup |Fn (x) F (x)|, la prueba tiene
region crtica nD > cn (), con cn () elegido para que el nivel sea , y en el
artculo mencionado, Kolmogorov muestra
(i) que la distribucion de D cuando se cumple H0 F = F0 es la misma
para cualquier distribucion F0 continua, y
(ii) que limn cn () = c(), solucion de = 2
j1 2j 2 c2 ()
e
.
j=1 (1)
Licenciatura en Estadstica.
2.4. Prueba de Kolmogorov.
27
3/4
1/4
a
a
u1
Enrique M. Caba
na.
Captulo 2: Pruebas de bondad de ajuste.
28
caso tienen fuera de esa region un triangulo de area 2(a 1/2)2 . Como
consecuencia,
g1
g2
g4
g3
2.5
Licenciatura en Estadstica.
r - von Mises.
2.5. Pruebas de Crame
29
n X(i+1)
i=0 X(i)
n F0 (X(i+1) )
i
i
( F0 (x))2 (F0 (x))dF0 (x) = n
( u)2 (u)du.
n
n
i=0 F0 (X(i) )
2.5.1
El estadstico de Cram
er - von Mises propiamente
dicho.
n F0 (X(i+1) )
i=0 F0 (X(i) )
n F0 (X(i+1) ) 2
i
i
2iu
u)2 du = n
+ u2 )du
( 2
n
n
n
i=0 F0 (X(i) )
1
n
n
1
i2 [F0 (X(i+1) ) F0 (X(i) )]
i[F02 (X(i+1) ) F02 (X(i) )] + n
u2 du
n i=0
0
i=0
Enrique M. Caba
na.
Captulo 2: Pruebas de bondad de ajuste.
30
=
n
n+1
n
1 n+1
1
n
(i1)2 F0 (X(i) )
i2 F0 (X(i) ) (i1)F02 (X(i) )+ iF02 (X(i) )+
n i=1
n i=0
3
i=2
i=1
n
n
n
n2 1
(1 2i)F0 (X(i) ) n +
F02 (X(i) ) +
+
=
n
n i=1
3
i=1
=
=
n
n
i=1
2i 1
F0 (X(i) )
2n
F0 (X(i) )
i=1
2i 1
2n
2
n
2
i=1
i
1
i2
2+ 2
2
n
n
4n
n
3
F0 (X(i) )
i=1
2.5.2
n
2i 1
2n
2
1
.
12n
Sobre la distribuci
on asint
otica del estadstico de
Cram
er - von Mises.
E
0
fi (v)b(v)dv
fj (v)b(v)dv =
fi (u)[
(Eb(u)b(v))fj (v)dv]du.
(2.3)
para alg
un valor de j , porque en ese caso tendramos
1
Cov(
0
fi (u)b(u)du,
fi (v)b(v)dv) =
fi (u)j fj (u)du
0,
i ,
si i = j,
si i = j.
Licenciatura en Estadstica.
r - von Mises.
2.5. Pruebas de Crame
31
f (u) =
0
(u v uv)f (v)dv = (1 u)
vf (v)dv + u
0
f (v)(1 v)dv.
u
0
u
1
vf (v)dv +
0
1 2
Z , con Z1 , Z2 , . . . i.i.d. normales tpicas. Se trata de una distribucion
2 2 i
i=1 i
con puntos de contacto con las distribuciones 2 . En vez de una suma nita
de cuadrados de variables normales tpicas independientes, como es el caso de
las distribuciones 2 , se trata de una suma innita de tales cuadrados, pero
multiplicados por coecientes diferentes, que tienden a cero de modo que la
1
variancia (que en este caso vale
= 1/6) es nita.
2
2
i=1 i
2.5.3
El estadstico de Anderson - Darling integra los cuadrados b2n de los apartamientos del proceso emprico respecto de su esperanza (nula bajo H0 ) medidos
Enrique M. Caba
na.
Captulo 2: Pruebas de bondad de ajuste.
32
=
0
2.6
n
1
)2 . Luego se tipica la muestra en la forma Yi = Xi
y
2 = n i=1 (Xi
2
se aplica a Y1 , . . . , Yn una prueba de ajuste a la distribucion F0 , adaptada a la
circunstancia de que la muestra tipicada no es i.i.d., ya que las variables no
son independientes, puesto que en todas intervienen
y
2.
= xdFn (x) = + 1 xdb(X) se expresa
El promedio de la muestra
=X
n
n
convenientemente a partir de la funcion de distribucion emprica o del proceso
emprico.
2
Lo mismo ocurre con el estimador de la variancia,
2 = n1 ni=1 (Xi X)
2 dFn (x) = 2 + 1 (x )2 db(X) 1 xdb(X) 2 .
= (x X)
n
n
n
n
Introducimoe el proceso emprico estimado
n
n
1
bn (y) = 1
1{Yi y} F0 (y) =
1{Xi X+sy}
F0 (y)
n i=1
n i=1
n
1
=
1
F0 (y) .
X
s
n i=1 {Zi y+( 1)y+ }
Con la notacion
X1
,
n
1
(x)
=
1{Zi x} F0 (x) .
b(Z)
n
n i=1
X
s
yn = y +
1 y+
,
. . ., Zn =
Xn
Licenciatura en Estadstica.
r - von Mises.
2.6. Pruebas de Crame
escribimos
bn (y) = b(Z) (yn ) +
n
33
(Z)
Como consecuencia, de b(X)
n (x) = bn
, obtenemos
X
1
zdbn(Z) (z),
=
n
1 2 (Z)
1
s2
=
1
+
z
db
(z)
n
2
n
n
zdbn(Z)
2
y entonces
1
y 2 (Z)
yn = y +
zdbn(Z) (z) +
z dbn (z) + o(1/ n).
n
2 n
Como consecuencia, si F0 tiene densidad f0 , podemos escribir
bn (y) = b(Z) (yn ) +
n
zdb(Z)
n (z) +
y 2 (Z)
z dbn (z) f0 (y) + o(1/ n).
2
Puesto que bn(Z) tiene la distribucion asintotica del puente browniano b(F0 )
asociado a F0 , bajo F = F0 , la distribucion lmite del proceso emprico
estimado bn (y) es tambien gaussiana. El lmite de las covariancias muestra
que esta distribucion asintotica es la de
(F0 )
(y) +
(F0 )
zdb
y 2 (F0 )
(z) +
z db (z) f0 (y).
2
(2.4)
Se observara que el procedimiento de estimacion de los parametros proporciona estimadores que no son invariantes respecto de la transformacion
canonica X F0 (X). Por ese motivo, la distribucion de los estadsticos que
describen el tama
no de bn no es independiente de la distribucion F0 , o mas precisamente, no es independiente de la familia de distribuciones de probabildad
que interviene en la hipotesis nula de ajuste. Por ese motivo, los procedimientos basados en lo que precede requieren la determinacion de los valores crticos
para cada F0 en particular.
Una prueba analoga puede realizarse para cualquier otra familia de distribuciones que sea la mnima familia cerrada bajo cambios de posicion o de
dispersion que contiene a una distribucion F0 dada. Por lo que acabamos de
indicar, el procedimiento es el mismo, pero los valores crticos tienen que ser
calculados nuevamente, para cada familia.
34
2.6.1
Enrique M. Caba
na.
Captulo 2: Pruebas de bondad de ajuste.
((x
)/
)| = Dn .
En resumen es equivalente utilizar la muestra tipicada estimada, y compararla con la distribuci
on normal tpica, o comparar directamente la distribuci
on emprica con la distribuci
on normal estimada.