Pruebas de Bondad y Ajuste

Captulo 2
Pruebas de bondad de ajuste.

2.1
Pruebas de ajuste simples.
Dadas las observaciones (X1 , . . . , Xn ) independientes, con distribucion F , deseamos probar la hipotesis nula H0 : F = F0 . En principio, la hipotesis
alternativa sera H: F = F0 , pero es posible que dentro de esta alternativa
m
ultiple haya algunas distribuciones para las que nos interese especialmente
que la prueba tenga una buena potencia.
A la hipotesis H0 se la llama hip
otesis de ajuste de la distribucion F0 al
modelo del cual proviene la muestra. Las pruebas de H0 se llaman pruebas de
ajuste.
A lo largo del Siglo XIX, los modelos aleatorios se volvieron cada vez mas
frecuentes y cada vez mas necesarios para describir la naturaleza. Un modelo
se consideraba adecuado en tanto no presentara incoherencias evidentes con
los resultados de la experiencia.
Recien en 1999 surgio la primera prueba de ajuste, a partir de la cual los
cientcos pudieron poner a prueba sus modelos e incluso seleccionar entre
varios modelos propuestos para un mismo fenomenos, cuales con adecuados y
cuales no lo son. Esa primera prueba es la llamada prueba 2 de Pearson.
2.2
Generalidades sobre las pruebas de ajuste.
Para decidir si se rechaza H0 :F = F0 a partir de la informacion dada por

la muestra aleatoria simple X1 , . . . , Xn de F , resulta natural estimar F por
medio de la muestra, y comparar la estimacion con F0 .
El estimador de maxima verosimilitud de F es la distribucion de probabili17
Enrique M. Caba
na.
Captulo 2: Pruebas de bondad de ajuste.
dades F para la que, si Y1 , . . . , Yn es una muestra de F , entonces la probabilidad
de que resulte {Y1 , . . . , Yn } = {X1 , . . . , Xn } es maxima. Esta probabilidad es
positiva solo si F tiene probabilidades p1 , . . . , pn concentradas en X1 , . . . , Xn ,

y vale n! ni=1 pi , cuando las Xi (i = 1 . . . , n) son todas diferentes.

El maximo de este producto, con la condicion ni=1 pi 1, se produce
cuando todas las probabilidades son iguales: p1 = . . . = pn = 1/n.
Como consecuencia, F es la distribucion emprica Fn .
Cuando Fn es cercana a F0 , no hay razones para rechazar H0 . En cambio,
cuando Fn dista mucho de F0 , vamos a rechazar H0 .
No debe extra
narnos entonces que las pruebas mas utilizadas tengan como
region crtica {(X1 , . . . , Xn ) : d(Fn , F0 ) > constante}, donde d es una distancia entre probabilidades, o una seudo - distancia, como suele llamarse a una
funcion con las propiedades de una distancia, excepto la que establece que
d(F, G) = 0 implica F = G.
Las pruebas que incluimos en las secciones siguientes resultan de elegir
adecuadamente d. La primera de ellas ha sido analizada en ??. Las otras dos
han sido presentadas en ??, en el marco de aplicaciones del proceso emprico,
y ahora las estudiaremos con mayor detenimiento.
18
2.3
Prueba 2 de ajuste.
Para probar la hipotesis H0 F = F0 a partir de una muestra aleatoria simple

X1 , . . . , Xn de F , Karl Pearson propuso el siguiente procedimiento, que es en
0 Para cada uno de los intervalos I de una particion
realidad una prueba de H
nita P de R, se cumple F (I) = F0 (I), y, como consecuencia, una prueba
aproximada de H0 en la medida que la particion P sea sucientemente na.
Llamemos p0 al vector de las probabilidades F0 (I) correspondientes a los
0 equivale a p =
intervalos de P, y p al de las probabilidades F (I). Entonces, H
p0 . Esta u
ltima es una hipotesis simple sobre el parametro p de la distribucion
multinomial(n, p) del vector M cuyas componentes son las frecuencias M (I) =

nFn (I) = ni=1 1{Xi I} , I P.
Denotemos ahora P = {I1 , . . . , Ik }, y p0,j = F0 (Ij ), Mj = M (Ij ). El
estadstico de Pearson es
k
(nFn (Ij ) np0,j )2
(Mj EMj )2
Qn =
=
.
np0,j
EMj
j=1
j=1
k
Su distribucion bajo H0 depende de n y p0 , y puede obtenerse en cada caso

mediante el calculo directo a partir de la distribucion multinomial, o por simulacion. Su distribucion asintotica para n es 2 con k 1 grados
Licenciatura en Estadstica.
2.3. Prueba 2 .
19
de libertad. En la seccion siguiente se aportan argumentos basados en la

utilizacion de la distribucion normal asintotica de la multinomial, o bien en
el comportamiento asintotico del cociente de verosimilitudes, para obtener la
mencionada distribucion asintotica.
2.3.1
La distribuci
on aproximada del estadstico de Pearson para n grande.
La esperanza de 1{Xi I} es P{X1 I}, de modo que EM = np. Las covariancias Cov(1{Xi I} , 1{Xi J} ) valen
E1{Xi I} 1{Xi J} E1{Xi I} E1{Xi J}
= P{Xi I, Xi J} P{Xi I}P{Xi J}
de manera que
VarM = n, con = diagp pptr .
El Teorema del Lmite Central permite deducir que la distribucion asintotica de 1n (M np) es Normal(0, ). La matriz es singular, porque cuando
u = (1, 1, . . . , 1)tr , u = diagpu pptr u = 0. El recorrido de la transformacion
lineal x x es ortogonal a u, porque utr x = xtr u = 0.
Observemos que un vector Z Normal(0, ) esta contenido con probabilidad 1 en el complemento ortogonal u de u, ya que la variable aleatoria u, Z
= utr Z tiene esperanza Eutr Z = 0 y variancia Varutr Z = utr u = 0.
Llamemos a la matriz de la proyeccion ortogonal sobre el complemento de
u, es decir, = I uutr /n. Denotamos por T a la matriz de la transformacion
lineal que, como la asociada a , tiene por n
ucleo al subespacio generado por
u, y recorrido u , y cuya restriccion a u es la inversa de la restriccion de

al mismo subespacio, es decir, T = . Un calculo directo permite vericar
que T = (diagp)1 , ya que (diagp)1 = (diagp)1 (diagp pptr ) =
(I uptr ) = .
El calculo anterior permite conrmar que el recorrido de no solo es ortogonal a u sino que es u . Como es simetrica, T tambien lo es, y tiene una
raz cuadrada simetrica T 1/2 . El vector T 1/2 Z tiene variancia T 1/2 (T 1/2 )tr
= , y
T 1/2 Z
2 = Z tr T Z 2k1 .
Por lo tanto la forma cuadratica
k

1
(Mi npi )2
1
Q = (M np)tr (diagp)1 (M np) =
n
n
npi
i=1
Enrique M. Caba
na.
20
tiene distribucion asintotica 2 con k 1 grados de libertad, cuando P consta

de k intervalos.
Por este motivo, la prueba con region crtica
Q > 2k1,1
tiene nivel asintotico para n grande.
2.3.2
Una deducci
on alternativa de la distribuci
on asint
otica de Q bajo H0 .
El argumento constructivo de la seccion anterior puede reemplazarse por el

siguiente, mucho mas directo, pero basado en un articio que resulta explicable
una vez que se conoce el resultado.
Hemos visto que 1n (M np) es asintoticamente Normal(0, ), de modo que
deseamos establecer que, si Y Normal(0, ), entonces Q = Y tr (diagp)1 Y
=
(diagp)1/2 Y
2 tiene distribucion 2 con k 1 grados de libertad.
Consideremos ahora un vector Z = (Z1 , . . . , Zk )tr normal tpico en Rk .
Su proyeccion sobre el vector de norma uno v = ( p1 , . . . , pk )tr es vv tr Z,

y, como consecuencia, su proyeccion sobre el complemento ortogonal de v es
Z vv tr Z. Por tratarse de la proyeccion de un vector normal tpico sobre un
subespacio de dimension k 1, se cumple
Z vv tr Z
2 2k1 .
La variancia de la proyeccion es Var(I vv tr )Z = (I vv tr )VarZ(I vv tr )
= (I vv tr )2 = I vv tr . Por otra parte, la variancia de (diagp)1/2 Y es
(diagp)1/2 (diagp)1/2 I (diagp)1/2 pptr (diagp)1/2 = I vv tr . En resumen,
(diagp)1/2 Y y la proyeccion (I vv tr )Z de Z tienen la misma distribucion,
y esto nos permite concluir que Q =
(diagp)1/2 Y
2 tiene la misma distribucion que la norma al cuadrado de la proyeccion, es decir, 2k1 .
2.3.3
An
alisis a partir del cociente de verosimilitudes.
Consideremos la prueba del cociente de verosimilitudes de la hipotesis nula H0

p = p0 contra la alternativa H1 p = p0 , a partir de las observaciones M
de la distribucion multinomial (n, p).
k
Mh
La verosimilitud de la muestra es k n!
stico de
h=1 ph , y el estad
h=1
Mh !
maxima verosimillitud
de p es M/n, de modo que el cociente de verosimilitudes

vale = k
k
h=1
h=1
p0,hh
(Mh /n)Mh
El parametro p esta en el espacio de parametros formado por los vectores

de Rk cuya suma de componentes vale 1. La dimension de este espacio es k 1.
2.3. Prueba 2 .
21
Como consecuencia, la distribucion asintotica de 2 log es 2 con k1 grados

de libertad.
Vamos a calcular
2 log = 2
k
Mh log(Mh /np0,h ).
h=1
El desarrollo de Taylor log(1 + x) = x 12 x2 + Ax3 , A acotado, nos conduce a

1
log(Mh /np0,h ) = (Mh /np0,h 1) (Mh /np0,h 1)2 + A(Mh /np0,h 1)3
2
y entonces
2 log = 2
k
1
Mh [(Mh /np0,h 1) (Mh /np0,h 1)2 + A(Mh /np0,h 1)3 ].
2
h=1
El sumando que contiene la constante A se acota por

2A
k
Mh (Mh /np0,h 1)3 2A max

h
h=1
k
Mh Mh np0,h
(Mh np0,h )2
np0,h
np0,h
np0,h
h=1
2A
de modo que 2 log es asintoticamente equivalente a
2
k
1
Mh [(Mh /np0,h 1) (Mh /np0,h 1)2 ] =
2
h=1
=2
k

h=1
Mh
k

Mh
Mh2
1 =2
2n
np0,h
h=1 np0,h
k
k

(Mh np0,h )2
(Mh np0,h )2
+
(Mh np0,h ) =
.
np0,h
np0,h
h=1
h=1
h=1
k
Concluimos como consecuencia que

totica 2k1 para n grande.
k
h=1
(Mh np0,h )2
np0,h
tiene distribucion asin-
22
2.3.4
Enrique M. Caba
na.
La selecci
on de los intervalos de partici
on.
La arbitrariedad con que puede partirse el recorrido de la variable aleatoria es

una caracterstica que da a la prueba 2 una gran versatilidad, y, al mismo
tiempo, constituye una debilidad de la misma. Lo primero llega al extremo
de que, sin ning
un cambio, la prueba es aplicable al ajuste de distribuciones
multivariantes, por ejemplo. Lo segundo es causa de que los diferentes criterios
para el dise
no de la prueba sean relativamente complicados.
Estos criterios se vuelven relativamente simples cuando la meta es conseguir una prueba cuyo estadstico tenga una distribucion que se aproxime
rapidamente a la asintotica (este no es un argumento de calidad de caracter
estadstico, sino simplemente de comodidad para el usuario). En ese caso,
estudios empricos muestran que conviene utilizar (k) clases con iguales probabilidades (1/k), con valor esperado de observaciones por clase (n/k) no demasiado peque
no, al menos 1 o 2 (tanto mayor cuanto mas peque
no sea el nivel
de la prueba).
Una recomendacion tradicional, popularizada hace varias decadas, que estudios posteriores han mostrado que es excesivamente conservativa, es que la
esperanza del n
umero de observaciones en cada clase de la particion sea al
menos 5. Una
on de Mann y Wald para k celdas equiprobables, es
recomendaci
5
2
1
elegir k = 4 2n /( (1 ))2 cuando la muestra tiene tama
no n (grande)
y el nivel de la prueba es .
2.3.5
Los valores crticos.
Es recomendable la utilizacion de particiones con iguales probabilidades, es

decir, p0 = k1 (1, 1, . . . , 1)tr .
En ese caso, los valores crticos c tales que
P{Qn > c } =
(2.1)
dependen solo de n, k.
Se observara que Qn es una variable aleatoria discreta, que solo puede
asumir un n
umero nito de valores. Por ese motivo, la ecuacion (2.1) debe
reemplazarse por
P{Qn > c } , P{Qn c } > .
Esto implica que c es uno de los valores que alcanza la variable aleatoria Qn .
Si estos valores se ordenan de manera creciente: q1 < q2 < . . . < qm , entonces

m
c = qj() cuando m
j=j() P{Qn = qj } > , y
j=j()+1 P{Qn = qj } .
2.3. Prueba 2 .
23
Tabla 2.1: Valores de k dados por la formula de Mann y Wald, y esperanza

del n
umero de observaciones por celda en cada caso.
n
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
150
200
250
300
350
400
450
500
k
14
15
16
17
18
19
20
21
21
22
23
23
24
25
25
26
26
31
35
38
41
43
46
48
50
= .10
n/k
1.4286
1.6667
1.8750
2.0588
2.2222
2.3684
2.5000
2.6190
2.8571
2.9545
3.0435
3.2609
3.3333
3.4000
3.6000
3.6538
3.8462
4.8387
5.7143
6.5789
7.3171
8.1395
8.6957
9.3750
10.0000
k
12
14
15
16
16
17
18
19
19
20
21
21
22
22
23
23
24
28
31
34
37
39
41
43
45
= .05
n/k
1.6667
1.7857
2.0000
2.1875
2.5000
2.6471
2.7778
2.8947
3.1579
3.2500
3.3333
3.5714
3.6364
3.8636
3.9130
4.1304
4.1667
5.3571
6.4516
7.3529
8.1081
8.9744
9.7561
10.4651
11.1111
k
11
12
13
14
14
15
16
16
17
17
18
18
19
19
20
20
21
24
27
30
32
34
36
38
39
= .01
n/k
1.8182
2.0833
2.3077
2.5000
2.8571
3.0000
3.1250
3.4375
3.5294
3.8235
3.8889
4.1667
4.2105
4.4737
4.5000
4.7500
4.7619
6.2500
7.4074
8.3333
9.3750
10.2941
11.1111
11.8421
12.8205
Enrique M. Caba
na.
24
k
50
45
= .10
40
= .05
35
= .01
30
25
20
15
10
50
100
150
200
250
300
350
400
450
500
n

Figura 2.1: Graco de k = 4 5 2n2 /(1 (1 ))2 para = .1, .05 y .01
La Tabla 2.2 indica valores de c estimados mediante una simulacion basada
en 10.000 replicaciones, correspondientes a = 5% para varios valores de n, k,
e incluye el valor asintotico en la lnea n = . Los resultados muestran
que la aproximacion resultante de reemplazar c por el valor lmite cuando
n es buena. Muestran tambien que se requiere una simulacion mas
precisa, basada en un n
umero considerablemente mayor de replicaciones, para
describir adecuadamente la evolucion de c en funcion de n, ya que resulta
mas razonable atribuir las uctuaciones observadas a medida que n crece a
los errores de la simulacion que al comportamiento de los verdaderos valores
crticos.
2.4
Prueba de ajuste de Kolmogorov.
En el mismo n
umero de la revista Giornale dellIstituto Italiano degli Attuari,
que diriga F. P. Cantelli, de enero de 1933, aparecieron un artculo de V.
Glivenko 1 en el que muestra la validez del hoy llamado Lema de Glivenko Cantelli y el artculo en que A. N. Kolmogorov propone la prueba que lleva su
nombre 2
1
2
Sulla determinazione empirica delle leggi di probabilit`

a, pp. 92-99.
Sulla determinazione empirica di una legge di distribuzione, pp. 83 - 91.
2.4. Prueba de Kolmogorov.
25
Tabla 2.2: Valores crticos para la prueba 2 de Pearson de nivel 5%, correspondientes a k clases equiprobables, y muestras de tama
no n.
n
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
n
20
25
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
k
3
5.2000
6.2000
5.2000
6.1000
5.8400
5.6000
5.7143
6.0500
5.7333
5.9200
6.1455
6.1000
5.9385
5.9429
6.0800
6.0250
6.0941
6.0667
5.9579
6.0200
5.9915
10
11
7.6000
7.6667
7.6000
7.4800
7.8667
7.6286
7.6000
7.5333
7.7600
7.6182
7.6000
7.6769
7.8286
7.5067
7.4000
7.8471
7.6889
7.6947
7.6000
7.8147
9.0000
8.6667
9.0000
9.2000
9.3333
9.4286
9.2500
9.5556
9.4000
9.6364
9.3333
9.5385
9.4286
9.4667
9.5000
9.2941
9.6667
9.2632
9.6000
9.4877
10.4000
11.0000
10.6000
10.7600
11.2000
10.7714
11.0000
10.8667
10.9600
10.7818
10.8000
10.7846
10.9143
11.0000
11.0500
10.9294
10.9333
10.9158
10.8800
11.0705
14.3333
13.6000
14.3600
13.7333
14.1429
14.0000
13.8444
14.0000
14.0909
13.8667
14.1385
14.1143
14.0667
13.8000
13.9176
14.1778
14.0526
13.9200
14.0671
15.6000
15.1000
14.9600
15.6000
15.1429
15.3500
15.2000
15.5200
15.5273
15.6000
15.4462
15.3714
15.1200
15.4000
15.6941
15.6000
15.3684
15.2000
15.5073
16.3333
17.0000
17.0000
16.6667
16.7143
16.5000
16.5556
16.8000
17.1818
16.6667
16.6923
17.1429
16.8667
17.0000
17.0000
16.6667
16.8947
16.6000
16.9190
17.4000
17.6800
18.4000
18.1143
18.3000
18.3111
18.2000
18.4000
18.1000
18.0923
18.3143
18.1333
18.4500
18.1412
18.5333
18.3579
17.9200
18.3070
15
12.5333
12.2000
12.2400
12.4667
12.4000
12.5000
12.7111
12.4400
12.5818
12.8000
12.4308
12.4000
12.6400
12.4000
12.4235
12.3556
12.8000
12.5600
12.5916
k
16
12
19.6000
19.6400
19.6000
19.5143
19.4000
19.2667
19.6000
19.8364
19.6000
19.3692
19.4857
19.5600
19.6000
19.6118
19.6000
19.3158
19.7600
19.6751
13
20.3000
21.2800
21.1333
20.3429
21.1000
21.1556
20.7200
21.3455
20.6000
20.8000
20.6286
21.2000
20.7500
20.9882
20.9333
20.9053
20.9000
21.0261
14
17
18
19
20
22.6000
22.2667
22.2000
22.3000
22.5111
22.2400
22.1273
22.1333
22.2308
22.0000
22.2533
22.2000
22.2235
22.3111
22.4526
22.6400
22.3620
23.6000
24.0000
22.8571
23.7500
24.0000
23.8000
23.8182
23.5000
23.8462
23.8571
23.6000
23.5000
23.5294
23.6667
23.5789
23.6000
23.6848
24.2800
25.4667
24.8857
24.8000
24.3333
25.5200
24.4182
24.8000
24.8462
25.0857
25.0533
25.2000
25.1176
25.2000
25.0842
24.8000
24.9958
26.6667
26.6857
26.3000
25.6444
26.1600
26.2909
26.1333
25.7538
26.1714
26.3200
26.2500
26.4000
26.3556
26.1474
26.1400
26.2962
27.6000
28.2571
27.5000
27.4000
27.7600
27.1455
27.6000
27.7692
27.7143
27.0000
28.0000
27.4471
27.2000
27.2105
27.4400
27.5871
29.5333
28.5143
29.3500
28.8889
29.0400
28.9455
29.3000
28.8308
29.3429
28.6133
29.2500
28.7765
29.0667
29.2000
28.8200
28.8693
30.0000
29.5714
30.0000
30.1111
30.0000
30.4545
30.0000
30.0769
30.0000
29.8000
30.0000
30.0588
30.0000
30.2632
30.0000
30.1435
Enrique M. Caba
na.
26
Tabla 2.3: Valores crticos del estadstico de Kolmogorov nD obtenidos por

medio de una simulacion basada en 200.000 replicaciones.
n
5
6
7
8
9
10
11
12
13
10%
1.136
1.144
1.154
1.157
1.162
1.167
1.167
1.168
1.176
5%
1.258
1.271
1.279
1.285
1.292
1.295
1.297
1.299
1.307
n
14
15
16
17
18
19
20
25
30
10%
1.176
1.177
1.179
1.183
1.184
1.181
1.183
1.188
1.191
5%
1.307
1.307
1.310
1.314
1.316
1.312
1.314
1.320
1.326
n
35
40
45
50
60
70
80
100
10%
1.197
1.201
1.202
1.206
1.203
1.205
1.205
1.209
1.224
5%
1.330
1.337
1.335
1.334
1.336
1.341
1.339
1.340
1.358
El estadstico
de Kolmogorov es D = sup |Fn (x) F (x)|, la prueba tiene
region crtica nD > cn (), con cn () elegido para que el nivel sea , y en el
artculo mencionado, Kolmogorov muestra
(i) que la distribucion de D cuando se cumple H0 F = F0 es la misma
para cualquier distribucion F0 continua, y
(ii) que limn cn () = c(), solucion de = 2
j1 2j 2 c2 ()
e
.
j=1 (1)
La Tabla 2.3 describe de manera emprica la variacion de cn () con n.

Un calculo exacto de la probabilidad gn (a) = P{Dn > a} podra hacerse
integrando la densidad n! de la distribucion de probabilidades de la muestra
ordenada U(1) , U(2) , . . . , U(n) de la distribucion uniforme en [0, 1], en la region
denida por las desigualdades |Fn (u) u| < a, 0 < u < 1. Se trata de un
n
umero innito de desigualdades, una para cada u en [0, 1], pero para que todas
se cumplan basta que los puntos de coordenadas (U(i) , (i 1)/n), (U(i) , i/n),
i = 1, 2, . . . , n esten en la banda {(u, y) : 0 < u < 1, u a < y < u + a}.
Para que esto ocurra es necesario y suciente que los puntos medios de los
segmentos verticales del graco de la funcion de distribucion emprica - todos
ellos de longitud 1/n - disten menos de a 1/2n de la diagonal, de manera
que 1 gn (a) es el producto de n! por la medida (longitud, area, volumen ...)
de la region de Rn formada por los puntos u = (u1 , . . . , un ) que verican las
ecuaciones
|(i 1/2)/n ui | < a 1/2n, i = 1, 2 . . . , n.
2.4. Prueba de Kolmogorov.
27
Ejemplo 2.4.1 El calculo directo mediante la integraci

on de la densidad conjunta es inabordable para valores grandes de n como lo muestra el siguiente
analisis para algunos valores peque
nos:
n = 1 Las desigualdades se reducen a |1/2 u| < a 1/2, que dene para
a > 1/2 un intervalo de longitud min(2a 1, 1). De all resulta g1 (a) =
1 min(2a 1, 1) = 2(1 a)+ (la notacion x+ = max(x, 0) indica la
parte positiva de x).
n = 2 Las desigualdades |1/4 u1 | < a 1/4, |3/4 u2 | < a 1/4 denen
un cuadrado cuya interseccion con [0, 1]2 tiene lado 2(a 1/4) cuando
1/4 < a 1/2. Luego, para 1/2 < a 1, el lado es 1/4 + (a 1/4) = a,
y para a > 1 la interseccion es todo el cuadrado unitario, y el lado es
constante igual a 1.
u2
3/4
1/4
a
a
u1
Figura 2.2: Regiones de integracion para el calculo de la distribucion de D2 .

Estos cuadrados estan contenidos en el primer caso en la region de integracion o recorrido de la variable 0 u1 u2 1, y en el segundo
Enrique M. Caba
na.
28
caso tienen fuera de esa region un triangulo de area 2(a 1/2)2 . Como
consecuencia,
1 2(2a 1/2)2 = 1/2 + 4a 8a2

g2 (a) = 1 2(a2 2(a 1/2)2 )
si 1/4 < a 1/2

si 1/2 < a 1
si 1 < a.
La Figura 2.3 muestra los gracos de las funciones g1 y g2 obtenidas en

el Ejemplo precedente, y tambien de g3 y g4 calculadas mediante integracion
numerica.
g1
g2
g4
g3
Figura 2.3: Representacion graca de gn (a) = P{Dn > a} para n = 1, 2, 3, 4.
2.5
Pruebas de ajuste de Cram

er - von Mises.
Los estadsticos de Cramer - von Mises son de la forma

Qn = n
(Fn (x) F0 (x))2 (F0 (x))dF0 (x) =
b2n (F0 (x))(F0 (x))dF0 (x),

(2.2)
r - von Mises.
2.5. Pruebas de Crame
29
donde Fn es la funcion de distribucion emprica de una la muestra aleatoria

simple X1 , . . . , Xn de cierta distribucion F que suponemos continua.
El cambio de variables u = F0 (x) permite escribirlos de manera equivalente
como Qn = n 01 (Fn (F01 (u)) u)2 (u)du. Dado que las variables Ui = F0 (Xi )
constituyen una muestra aleatoria simple de la distribucion uniforme, y que la
funcion en escalera Fn (F01 (u)) es la funcion de distribucion emprica de esa
muestra, esta u
ltima escritura muestra que la distribucion de Q no depende
de F0 cuando F = F0 .
Muestra
tambien que la distribucion lmite para n del estadstico Qn

es la de 01 b2 (u)(u)du, donde b es un puente browniano tpico.
Llamemos X(1) , . . . , X(n) a los estadsticoa de orden que se obtienen ordenando la muestra de menor a mayor. El estadstico Qn puede calcularse
teniendo en cuenta que en cada intervalo de la forma (X(i) , X(i+1) ), la funcion
Fn (x) es constante, igual a i/n. Esta observacion vale para i = 0, 1, . . . , n con
la convencion X(0) = , X(n+1) = . A partir de esta observacion podemos
escribir
Qn = n
n X(i+1)

i=0 X(i)
n F0 (X(i+1) )

i
i
( F0 (x))2 (F0 (x))dF0 (x) = n
( u)2 (u)du.
n
n
i=0 F0 (X(i) )
El calculo explcito de estas integrales, cuya eventual dicultad depende de la

seleccion de la funcion , permite reducir la expresion que dene al estadstico
Qn a una suma nita que depende de la muestra a traves de las variables
aleatorias uniformes F0 (Xi ). Encontramos de nuevo de esta manera que la
distribucion de Qn no depende de cual sea la distribucion F0 . Solo depende de
n y de cual sea la funcion .
2.5.1
El estadstico de Cram
er - von Mises propiamente
dicho.
La prueba propuesta por Cramer y von Mises se basa en el estadstico (2.2)

correspondiente a (u) = u.
El estadstico se calcula en la forma
Qn = n
n F0 (X(i+1) )

i=0 F0 (X(i) )
n F0 (X(i+1) ) 2

i
i
2iu
u)2 du = n
+ u2 )du
( 2
n
n
n
i=0 F0 (X(i) )
1
n
n

1
i2 [F0 (X(i+1) ) F0 (X(i) )]
i[F02 (X(i+1) ) F02 (X(i) )] + n
u2 du
n i=0
0
i=0
Enrique M. Caba
na.
30
=
n
n+1
n

1 n+1
1
n
(i1)2 F0 (X(i) )
i2 F0 (X(i) ) (i1)F02 (X(i) )+ iF02 (X(i) )+
n i=1
n i=0
3
i=2
i=1
n
n

n
n2 1
(1 2i)F0 (X(i) ) n +
F02 (X(i) ) +
+
=
n
n i=1
3
i=1
=
=
n
n

i=1
2i 1
F0 (X(i) )
2n
F0 (X(i) )
i=1
2i 1
2n
2
n
2
i=1
i
1
i2
2+ 2
2
n
n
4n
n
3
n(n + 1)(2n + 1) n(n + 1)

n
n
+
2+
2
2
6n
2n
4n
3
F0 (X(i) )
i=1
2.5.2
n
2i 1
2n
2
1
.
12n
Sobre la distribuci
on asint
otica del estadstico de
Cram
er - von Mises.

Ya hemos observado que Qn converge en ley a Q = 01 b2 (u)du. Para describir

la distribucion de Q, tomemos una sucesion de funciones f1 , . . . , fn , . . . que
constituyan un sistema ortonormal completo en el espacio L = {f : [0, 1] R :
Ef 2 (U ) < , U Unif[0, 1]}, con el producto interno f, g = 01 f (u)g(u)du.

1
En ese caso,
del desarrollo de
Fourier b(u) =
i=1 fi (u) 0 fi (v)b(v)dv re

1
2
sulta
b
2 = 01 b2(u)du =
i=1 ( 0 fi (v)b(v)dv) .
Las variables 01 fi (v)b(v)dv tienen distribucion normal conjunta, con esperanzas cero y covariancias
1
E
0
fi (v)b(v)dv
fj (v)b(v)dv =
fi (u)[
(Eb(u)b(v))fj (v)dv]du.
Esta expresion se simplicara notablemente si se cumpliera

1
(Eb(u)b(v))fj (v)dv = j fj (u)
(2.3)
para alg
un valor de j , porque en ese caso tendramos
1
Cov(
0
fi (u)b(u)du,
fi (v)b(v)dv) =
fi (u)j fj (u)du
0,
i ,
si i = j,
si i = j.
Vamos a vericar que las funciones fj pueden elegirse de manera que se

cumpla (2.3), es decir:
1
0
(u v uv)fj (v)dv = j fj (u).
r - von Mises.
31
Veamos en primer lugar que funciones f cumplen

1
f (u) =
0
(u v uv)f (v)dv = (1 u)
vf (v)dv + u
0
f (v)(1 v)dv.
Al derivar esta ecuacion una vez, encontramos

f (u) =
u
0
vf (v)dv + u(1 u)f (u) +

=
u
1
vf (v)dv +
0
f (v)(1 v)dv u(1 u)f (u),

f (v)dv.
Una nueva derivacion muestra que f debe cumplir f (u) = f

(u). Las
soluciones de esta ecuacion son de la forma a cos(u/ ) + b sin(u/ ).
La ecuacion de partida muestra que f (0) = f (1) = 0, y esto implica que,
de las funciones trigonom
solo podemos conservar las de la
etricas indicadas,
2 2
forma fi (u) = bi sin(u/ i ), con1/i = i . Para que las funciones fi tengan
norma 1, se requiere elegir bi = 2.
Es conocido que el sistema de las funciones trigonometricas 1, sin(nt), cos(nt)
(n = 1, 2, . . .) es un sistema completo en el intervalo [, ], y, de manera
equivalente, que 1, sin(nu), cos(nu) (n = 1, 2, . . .) son un sistema com1
pleto en [1, 1]. Esto signica que cuando 1
f 2 (x)dx < , f coincide en
L2 ([1, 1]) con su desarrollo
en serie de Fourier.

Por este motivo, si 01 f 2 (u)du < , entonces la funcion impar f igual a
f en [0, 1] coincide en L2 ([1, 1]) con su desarrollo en serie de Fourier, que es
un desarrollo de senos, porque los coecientes de los cosenos son todos nulos,
debido a que f es impar. Esto implica que f coincide en L2 ([0, 1]) en [0, 1] con
su desarrollo en serie de Fourier de senos.
Un calculo directo muestra que las funciones fi (u) = 2 sin(nu) cumplen

las condiciones que muestran que 01 b2 (u)du tiene la distribucion de la suma

1 2
Z , con Z1 , Z2 , . . . i.i.d. normales tpicas. Se trata de una distribucion
2 2 i
i=1 i
con puntos de contacto con las distribuciones 2 . En vez de una suma nita
de cuadrados de variables normales tpicas independientes, como es el caso de
las distribuciones 2 , se trata de una suma innita de tales cuadrados, pero
multiplicados por coecientes diferentes, que tienden a cero de modo que la

1
variancia (que en este caso vale
= 1/6) es nita.
2
2
i=1 i
2.5.3
La prueba de Anderson y Darling.
El estadstico de Anderson - Darling integra los cuadrados b2n de los apartamientos del proceso emprico respecto de su esperanza (nula bajo H0 ) medidos
Enrique M. Caba
na.
32
en relacion a Varb2n (x) = F0 (x)(1 F0 (x)). En otras palabras, se utiliza

1
(F0 (x)) = F0 (x)(1F
.
0 (x))
Como en el caso de la Prueba de Cramer - von Mises, puede obtenerse una
formula para calcular el estadstico
A2n
=
0
b2n (F0 (x))

dF0 (x)
F0 (x)(1 F0 (x))
mediante una suma nita, y puede describirse la ley asintotica, que es la de

1 b2 (u)
0 u(1u) du como la de una serie del mismo tipo que la encontrada en el caso
de Craner - von Mises.
2.6
Pruebas de ajuste a la familia

F = {L( + X) : L(X) = F0, R, R+}.
Para probar H0 :F F, pueden estimarse y 2 mediante

= n1 ni=1 Xi ,
n
1
)2 . Luego se tipica la muestra en la forma Yi = Xi
y
2 = n i=1 (Xi
2
se aplica a Y1 , . . . , Yn una prueba de ajuste a la distribucion F0 , adaptada a la
circunstancia de que la muestra tipicada no es i.i.d., ya que las variables no
son independientes, puesto que en todas intervienen
y
2.
= xdFn (x) = + 1 xdb(X) se expresa
El promedio de la muestra
=X
n
n
convenientemente a partir de la funcion de distribucion emprica o del proceso
emprico.

2
Lo mismo ocurre con el estimador de la variancia,
2 = n1 ni=1 (Xi X)

2 dFn (x) = 2 + 1 (x )2 db(X) 1 xdb(X) 2 .
= (x X)
n
n
n
n
Introducimoe el proceso emprico estimado
n
n

1
bn (y) = 1
1{Yi y} F0 (y) =
1{Xi X+sy}
F0 (y)
n i=1
n i=1
n
1
=
1
F0 (y) .
X
s
n i=1 {Zi y+( 1)y+ }
El proceso emprico de las variables tipicadas Z1 =

es
Con la notacion
X1
,
n

1
(x)
=
1{Zi x} F0 (x) .
b(Z)
n
n i=1

X
s
yn = y +
1 y+
,
. . ., Zn =
Xn
r - von Mises.
escribimos
bn (y) = b(Z) (yn ) +
n
33
n (F0 (yn ) F0 (y)) .
(Z)
Como consecuencia, de b(X)
n (x) = bn
, obtenemos

X
1
zdbn(Z) (z),
=
n
1 2 (Z)
1
s2
=
1
+
z
db
(z)
n
2
n
n
zdbn(Z)
2
y entonces
1
y 2 (Z)
yn = y +
zdbn(Z) (z) +
z dbn (z) + o(1/ n).
n
2 n
Como consecuencia, si F0 tiene densidad f0 , podemos escribir
bn (y) = b(Z) (yn ) +
n
zdb(Z)
n (z) +
y 2 (Z)
z dbn (z) f0 (y) + o(1/ n).
2
Puesto que bn(Z) tiene la distribucion asintotica del puente browniano b(F0 )
asociado a F0 , bajo F = F0 , la distribucion lmite del proceso emprico
estimado bn (y) es tambien gaussiana. El lmite de las covariancias muestra
que esta distribucion asintotica es la de

(F0 )
(y) +
(F0 )
zdb
y 2 (F0 )
(z) +
z db (z) f0 (y).
2
(2.4)
Se observara que el procedimiento de estimacion de los parametros proporciona estimadores que no son invariantes respecto de la transformacion
canonica X F0 (X). Por ese motivo, la distribucion de los estadsticos que
describen el tama
no de bn no es independiente de la distribucion F0 , o mas precisamente, no es independiente de la familia de distribuciones de probabildad
que interviene en la hipotesis nula de ajuste. Por ese motivo, los procedimientos basados en lo que precede requieren la determinacion de los valores crticos
para cada F0 en particular.
Una prueba analoga puede realizarse para cualquier otra familia de distribuciones que sea la mnima familia cerrada bajo cambios de posicion o de
dispersion que contiene a una distribucion F0 dada. Por lo que acabamos de
indicar, el procedimiento es el mismo, pero los valores crticos tienen que ser
calculados nuevamente, para cada familia.
34
2.6.1
Enrique M. Caba
na.
Un ejemplo: La prueba de normalidad de Lilliefors.
n = sup |Fn |, donde Fn (y) =

La utilizacion del estadstico de Kolmogorov D
1 n
i=1 1{Yi y} dentro del contexto precedente, conduce a la llamada Prueba de
n
n > cn ().
Lilliefors de region crtica D
Intuitivamente, es de esperar que, si la muestra tiene distribucion normal,
la muestra tipicada estimada este mas cerca de la distribucion normal tpica
que la muestra tipicada con los verdaderos parametros, ya que
y
2 son
los parametros de la distribucion normal que mejor se ajusta a la muestra, en
particular, mejor que la verdadera distribucion que dio lugar a la muestra.
Este argumento no es concluyente, ya que los estimadores son los que maximizan la verosimilitud, en el caso de la distribucion normal, y no los que
minimizan la distancia de Kolmogorov. Pero la intuicion es correcta: Lilliefors
n , y sus tablas lo conrman.
obtuvo empricamente la distribucion de D
Existe una propuesta analoga de Lilliefors, para la cual tambien ha calculado tablas de los valores crticos, para probar la hipotesis nula de que la
distribucion es exponencial.
El estadstico de la prueba de normalidad de Lilliefors suele escribirse en
la forma
Ln = sup |Fn (x) F (x)|,
donde F es la distribucion normal cuyas media y variancia son las estimadas,
es decir, con Z normal tpica, F (x) = P{
+
Z x} = ((x
)/
), pero el
1 n
cambio de variables Yi = (Xi
)/
conduce a escribir Fn (x) = n i=1 1{Xi x}
1 n
= n i=1 1{Yi (x)/} = Fn ((x

)/
) y entonces Ln = sup |Fn ((x
)/
)
((x
)/
)| = Dn .
En resumen es equivalente utilizar la muestra tipicada estimada, y compararla con la distribuci
on normal tpica, o comparar directamente la distribuci
on emprica con la distribuci
on normal estimada.

Pruebas de Bondad y Ajuste

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pruebas de Bondad y Ajuste

Cargado por

Copyright:

Formatos disponibles

Captulo 2

Pruebas de bondad de ajuste.

Pruebas de ajuste simples.

Generalidades sobre las pruebas de ajuste.

Para decidir si se rechaza H0 :F = F0 a partir de la informacion dada por

Para probar la hipotesis H0 F = F0 a partir de una muestra aleatoria simple

Su distribucion bajo H0 depende de n y p0 , y puede obtenerse en cada caso

de libertad. En la seccion siguiente se aportan argumentos basados en la

u, y recorrido u , y cuya restriccion a u es la inversa de la restriccion de

tiene distribucion asintotica 2 con k 1 grados de libertad, cuando P consta

El argumento constructivo de la seccion anterior puede reemplazarse por el

Su proyeccion sobre el vector de norma uno v = ( p1 , . . . , pk )tr es vv tr Z,

Consideremos la prueba del cociente de verosimilitudes de la hipotesis nula H0

El parametro p esta en el espacio de parametros formado por los vectores

Como consecuencia, la distribucion asintotica de 2 log es 2 con k1 grados

El desarrollo de Taylor log(1 + x) = x 12 x2 + Ax3 , A acotado, nos conduce a

El sumando que contiene la constante A se acota por

Mh (Mh /np0,h 1)3 2A max

Concluimos como consecuencia que

tiene distribucion asin-

La arbitrariedad con que puede partirse el recorrido de la variable aleatoria es

Los valores crticos.

Es recomendable la utilizacion de particiones con iguales probabilidades, es

Tabla 2.1: Valores de k dados por la formula de Mann y Wald, y esperanza

Prueba de ajuste de Kolmogorov.

Sulla determinazione empirica delle leggi di probabilit`

Tabla 2.3: Valores crticos del estadstico de Kolmogorov nD obtenidos por

La Tabla 2.3 describe de manera emprica la variacion de cn () con n.

Ejemplo 2.4.1 El calculo directo mediante la integraci

Figura 2.2: Regiones de integracion para el calculo de la distribucion de D2 .

1 2(2a 1/2)2 = 1/2 + 4a 8a2

si 1/4 < a 1/2

La Figura 2.3 muestra los gracos de las funciones g1 y g2 obtenidas en

Figura 2.3: Representacion graca de gn (a) = P{Dn > a} para n = 1, 2, 3, 4.

Pruebas de ajuste de Cram

Los estadsticos de Cramer - von Mises son de la forma

(Fn (x) F0 (x))2 (F0 (x))dF0 (x) =

b2n (F0 (x))(F0 (x))dF0 (x),

donde Fn es la funcion de distribucion emprica de una la muestra aleatoria

El calculo explcito de estas integrales, cuya eventual dicultad depende de la

La prueba propuesta por Cramer y von Mises se basa en el estadstico (2.2)

n(n + 1)(2n + 1) n(n + 1)

Ya hemos observado que Qn converge en ley a Q = 01 b2 (u)du. Para describir

Esta expresion se simplicara notablemente si se cumpliera

(Eb(u)b(v))fj (v)dv = j fj (u)

Vamos a vericar que las funciones fj pueden elegirse de manera que se

(u v uv)fj (v)dv = j fj (u).

Veamos en primer lugar que funciones f cumplen

Al derivar esta ecuacion una vez, encontramos

vf (v)dv + u(1 u)f (u) +

f (v)(1 v)dv u(1 u)f (u),

Una nueva derivacion muestra que f debe cumplir f  (u) = f

Un calculo directo muestra que las funciones fi (u) = 2 sin(nu) cumplen

La prueba de Anderson y Darling.

en relacion a Varb2n (x) = F0 (x)(1 F0 (x)). En otras palabras, se utiliza

b2n (F0 (x))

mediante una suma nita, y puede describirse la ley asintotica, que es la de

Pruebas de ajuste a la familia

Para probar H0 :F F, pueden estimarse y 2 mediante

El proceso emprico de las variables tipicadas Z1 =

n (F0 (yn ) F0 (y)) .

Un ejemplo: La prueba de normalidad de Lilliefors.

n = sup |Fn |, donde Fn (y) =

Una nueva derivacion muestra que f debe cumplir f (u) = f