Está en la página 1de 18

Capı́tulo 2

Pruebas de bondad de ajuste.

2.1 Pruebas de ajuste simples.


Dadas las observaciones (X1 , . . . , Xn ) independientes, con distribución F , de-
seamos probar la hipótesis nula H0 : “F = F0 ”. En principio, la hipótesis
alternativa será H: “F = F0 ”, pero es posible que dentro de esta alternativa
múltiple haya algunas distribuciones para las que nos interese especialmente
que la prueba tenga una buena potencia.
A la hipótesis H0 se la llama hipótesis de ajuste de la distribución F0 al
modelo del cual proviene la muestra. Las pruebas de H0 se llaman pruebas de
ajuste.
A lo largo del Siglo XIX, los modelos aleatorios se volvieron cada vez más
frecuentes y cada vez más necesarios para describir la naturaleza. Un modelo
se consideraba adecuado en tanto no presentara incoherencias evidentes con
los resultados de la experiencia.
Recién en 1999 surgió la primera prueba de ajuste, a partir de la cual los
cientı́ficos pudieron poner a prueba sus modelos e incluso seleccionar entre
varios modelos propuestos para un mismo fenómenos, cuáles con adecuados y
cuáles no lo son. Esa primera prueba es la llamada prueba χ2 de Pearson.

2.2 Generalidades sobre las pruebas de ajuste.


Para decidir si se rechaza H0 :“F = F0 ” a partir de la información dada por
la muestra aleatoria simple X1 , . . . , Xn de F , resulta natural estimar F por
medio de la muestra, y comparar la estimación con F0 .
El estimador de máxima verosimilitud de F es la distribución de probabili-

17
Enrique M. Cabaña.
18
Capı́tulo 2: Pruebas de bondad de ajuste.
dades F̂ para la que, si Y1 , . . . , Yn es una muestra de F̂ , entonces la probabilidad
de que resulte {Y1 , . . . , Yn } = {X1 , . . . , Xn } es máxima. Esta probabilidad es
positiva sólo si F̂ tiene probabilidades p1 , . . . , pn concentradas en X1 , . . . , Xn ,

y vale n! ni=1 pi , cuando las Xi (i = 1 . . . , n) son todas diferentes.

El máximo de este producto, con la condición ni=1 pi ≤ 1, se produce
cuando todas las probabilidades son iguales: p1 = . . . = pn = 1/n.
Como consecuencia, F̂ es la distribución empı́rica Fn .
Cuando Fn es cercana a F0 , no hay razones para rechazar H0 . En cambio,
cuando Fn dista mucho de F0 , vamos a rechazar H0 .
No debe extrañarnos entonces que las pruebas más utilizadas tengan como
región crı́tica {(X1 , . . . , Xn ) : d(Fn , F0 ) > constante}, donde d es una distan-
cia entre probabilidades, o una seudo - distancia, como suele llamarse a una
función con las propiedades de una distancia, excepto la que establece que
d(F, G) = 0 implica F = G.
Las pruebas que incluimos en las secciones siguientes resultan de elegir
adecuadamente d. La primera de ellas ha sido analizada en §??. Las otras dos
han sido presentadas en §??, en el marco de aplicaciones del proceso empı́rico,
y ahora las estudiaremos con mayor detenimiento.

2.3 Prueba χ2 de ajuste.


Para probar la hipótesis H0 “F = F0 ” a partir de una muestra aleatoria simple
X1 , . . . , Xn de F , Karl Pearson propuso el siguiente procedimiento, que es en
realidad una prueba de H̃0 “Para cada uno de los intervalos I de una partición
finita P de R, se cumple F (I) = F0 (I)”, y, como consecuencia, una prueba
aproximada de H0 en la medida que la partición P sea suficientemente fina.
Llamemos p0 al vector de las probabilidades F0 (I) correspondientes a los
intervalos de P, y p al de las probabilidades F (I). Entonces, H̃0 equivale a “p =
p0 ”. Esta última es una hipótesis simple sobre el parámetro p de la distribución
multinomial(n, p) del vector M cuyas componentes son las frecuencias M (I) =

nFn (I) = ni=1 1{Xi ∈I} , I ∈ P.
Denotemos ahora P = {I1 , . . . , Ik }, y p0,j = F0 (Ij ), Mj = M (Ij ). El
estadı́stico de Pearson es

k
(nFn (Ij ) − np0,j )2  k
(Mj − EMj )2
Qn = = .
j=1 np0,j j=1 EMj
Su distribución bajo H0 depende de n y p0 , y puede obtenerse en cada caso
mediante el cálculo directo a partir de la distribución multinomial, o por si-
mulación. Su distribución asintótica para n → ∞ es χ2 con k − 1 grados
Licenciatura en Estadı́stica.
19
2.3. Prueba χ2 .
de libertad. En la sección siguiente se aportan argumentos basados en la
utilización de la distribución normal asintótica de la multinomial, o bien en
el comportamiento asintótico del cociente de verosimilitudes, para obtener la
mencionada distribución asintótica.

2.3.1 La distribución aproximada del estadı́stico de Pear-


son para n grande.
La esperanza de 1{Xi ∈I} es P{X1 ∈ I}, de modo que EM = np. Las covarian-
cias Cov(1{Xi ∈I} , 1{Xi ∈J} ) valen

E1{Xi ∈I} 1{Xi ∈J} − E1{Xi ∈I} E1{Xi ∈J}

= P{Xi ∈ I, Xi ∈ J} − P{Xi ∈ I}P{Xi ∈ J}


de manera que
VarM = nΣ, con Σ = diagp − pptr .
El Teorema del Lı́mite Central permite deducir que la distribución asintó-
tica de √1n (M − np) es Normal(0, Σ). La matriz Σ es singular, porque cuando
u = (1, 1, . . . , 1)tr , Σu = diagpu − pptr u = 0. El recorrido de la transformación
lineal x → Σx es ortogonal a u, porque utr Σx = xtr Σu = 0.
Observemos que un vector Z ∼Normal(0, Σ) está contenido con probabili-
dad 1 en el complemento ortogonal u⊥ de u, ya que la variable aleatoria u, Z
= utr Z tiene esperanza Eutr Z = 0 y variancia Varutr Z = utr Σu = 0.
Llamemos Π a la matriz de la proyección ortogonal sobre el complemento de
u, es decir, Π = I − uutr /n. Denotamos por T a la matriz de la transformación
lineal que, como la asociada a Σ, tiene por núcleo al subespacio generado por
u, y recorrido u⊥ , y cuya restricción a u⊥ es la inversa de la restricción de Σ
al mismo subespacio, es decir, T Σ = Π. Un cálculo directo permite verificar
que T = Π(diagp)−1 Π, ya que Π(diagp)−1 ΠΣ = Π(diagp)−1 (diagp − pptr ) =
Π(I − uptr ) = Π.
El cálculo anterior permite confirmar que el recorrido de Σ no sólo es or-
togonal a u sino que es u⊥ . Como Σ es simétrica, T también lo es, y tiene una
raı́z cuadrada simétrica T 1/2 . El vector T 1/2 Z tiene variancia T 1/2 Σ(T 1/2 )tr
= Π, y
T 1/2 Z
2 = Z tr T Z ∼ χ2k−1 .
Por lo tanto la forma cuadrática

1 1 k
(Mi − npi )2
Q = √ (M − np)tr (diagp)−1 √ (M − np) =
n n i=1 npi
Enrique M. Cabaña.
20
Capı́tulo 2: Pruebas de bondad de ajuste.
tiene distribución asintótica χ2 con k − 1 grados de libertad, cuando P consta
de k intervalos.
Por este motivo, la prueba con región crı́tica
Q > χ2k−1,1−α
tiene nivel asintótico α para n grande.

2.3.2 Una deducción alternativa de la distribución asin-


tótica de Q bajo H0 .
El argumento constructivo de la sección anterior puede reemplazarse por el
siguiente, mucho más directo, pero basado en un artificio que resulta explicable
una vez que se conoce el resultado.
Hemos visto que √1n (M −np) es asintóticamente Normal(0, Σ), de modo que
deseamos establecer que, si Y ∼ Normal(0, Σ), entonces Q∞ = Y tr (diagp)−1 Y
=
(diagp)−1/2 Y
2 tiene distribución χ2 con k − 1 grados de libertad.
Consideremos ahora un vector Z = (Z1 , . . . , Zk )tr normal tı́pico en Rk .
√ √
Su proyección sobre el vector de norma uno v = ( p1 , . . . , pk )tr es vv tr Z,
y, como consecuencia, su proyección sobre el complemento ortogonal de v es
Z − vv tr Z. Por tratarse de la proyección de un vector normal tı́pico sobre un
subespacio de dimensión k − 1, se cumple
Z − vv tr Z
2 ∼ χ2k−1 .
La variancia de la proyección es Var(I − vv tr )Z = (I − vv tr )VarZ(I − vv tr )
= (I − vv tr )2 = I − vv tr . Por otra parte, la variancia de (diagp)−1/2 Y es
(diagp)−1/2 Σ(diagp)−1/2 I −(diagp)−1/2 pptr (diagp)−1/2 = I −vv tr . En resumen,
(diagp)−1/2 Y y la proyección (I − vv tr )Z de Z tienen la misma distribución,
y esto nos permite concluir que Q∞ =
(diagp)−1/2 Y
2 tiene la misma dis-
tribución que la norma al cuadrado de la proyección, es decir, χ2k−1 .

2.3.3 Análisis a partir del cociente de verosimilitudes.


Consideremos la prueba del cociente de verosimilitudes de la hipótesis nula H0
“p = p0 ” contra la alternativa H1 “p = p0 ”, a partir de las observaciones M
de la distribución multinomial (n, p).
k Mh
La verosimilitud de la muestra es k n! h=1 ph , y el estadı́stico de
h=1
Mh !
máxima verosimillitud

de p es M/n, de modo que el cociente de verosimilitudes
k M
p0,hh
vale λ = k h=1
.
h=1
(Mh /n)Mh
El parámetro p está en el espacio de parámetros Θ formado por los vectores
de Rk cuya suma de componentes vale 1. La dimensión de este espacio es k −1.
Licenciatura en Estadı́stica.
21
2.3. Prueba χ2 .
Como consecuencia, la distribución asintótica de −2 log λ es χ2 con k−1 grados
de libertad.
Vamos a calcular


k
−2 log λ = 2 Mh log(Mh /np0,h ).
h=1

El desarrollo de Taylor log(1 + x) = x − 12 x2 + Ax3 , A acotado, nos conduce a

1
log(Mh /np0,h ) = (Mh /np0,h − 1) − (Mh /np0,h − 1)2 + A(Mh /np0,h − 1)3
2

y entonces


k
1
−2 log λ = 2 Mh [(Mh /np0,h − 1) − (Mh /np0,h − 1)2 + A(Mh /np0,h − 1)3 ].
h=1 2

El sumando que contiene la constante A se acota por


k
Mh Mh − np0,h k
(Mh − np0,h )2
2A Mh (Mh /np0,h − 1)3 ≤ 2A max
h=1
h np0,h np0,h h=1 np0,h

≤ 2A

de modo que −2 log λ es asintóticamente equivalente a


k
1
2 Mh [(Mh /np0,h − 1) − (Mh /np0,h − 1)2 ] =
h=1 2

 
∼ 
k
Mh k
Mh2
=2 Mh −1 =2 − 2n
h=1 np0,h h=1 np0,h


k
(Mh − np0,h )2  k k
(Mh − np0,h )2
= + (Mh − np0,h ) = .
h=1 np0,h h=1 h=1 np0,h
k (Mh −np0,h )2
Concluimos como consecuencia que h=1 np0,h
tiene distribución asin-
tótica χ2k−1 para n grande.
Enrique M. Cabaña.
22
Capı́tulo 2: Pruebas de bondad de ajuste.
2.3.4 La selección de los intervalos de partición.
La arbitrariedad con que puede partirse el recorrido de la variable aleatoria es
una caracterı́stica que da a la prueba χ2 una gran versatilidad, y, al mismo
tiempo, constituye una debilidad de la misma. Lo primero llega al extremo
de que, sin ningún cambio, la prueba es aplicable al ajuste de distribuciones
multivariantes, por ejemplo. Lo segundo es causa de que los diferentes criterios
para el diseño de la prueba sean relativamente complicados.
Estos criterios se vuelven relativamente simples cuando la meta es con-
seguir una prueba cuyo estadı́stico tenga una distribución que se aproxime
rápidamente a la asintótica (este no es un argumento de calidad de carácter
estadı́stico, sino simplemente de comodidad para el usuario). En ese caso,
estudios empı́ricos muestran que conviene utilizar (k) clases con iguales pro-
babilidades (1/k), con valor esperado de observaciones por clase (n/k) no de-
masiado pequeño, al menos 1 o 2 (tanto mayor cuanto más pequeño sea el nivel
de la prueba).
Una recomendación tradicional, popularizada hace varias décadas, que es-
tudios posteriores han mostrado que es excesivamente conservativa, es que la
esperanza del número de observaciones en cada clase de la partición sea al
menos 5. Una  recomendación de Mann y Wald para k celdas equiprobables, es
elegir k = 4 5 2n2 /(Φ−1 (1 − α))2 cuando la muestra tiene tamaño n (grande)
y el nivel de la prueba es α.

2.3.5 Los valores crı́ticos.


Es recomendable la utilización de particiones con iguales probabilidades, es
decir, p0 = k1 (1, 1, . . . , 1)tr .
En ese caso, los valores crı́ticos cα tales que

P{Qn > cα } = α (2.1)

dependen sólo de n, k.
Se observará que Qn es una variable aleatoria discreta, que sólo puede
asumir un número finito de valores. Por ese motivo, la ecuación (2.1) debe
reemplazarse por

P{Qn > cα } ≤ α, P{Qn ≥ cα } > α.

Esto implica que cα es uno de los valores que alcanza la variable aleatoria Qn .
Si estos valores se ordenan de manera creciente: q1 < q2 < . . . < qm , entonces
 m
cα = qj(α) cuando m j=j(α) P{Qn = qj } > α, y j=j(α)+1 P{Qn = qj } ≤ α.
Licenciatura en Estadı́stica.
23
2.3. Prueba χ2 .

Tabla 2.1: Valores de k dados por la fórmula de Mann y Wald, y esperanza


del número de observaciones por celda en cada caso.

α = .10 α = .05 α = .01


n k n/k k n/k k n/k
20 14 1.4286 12 1.6667 11 1.8182
25 15 1.6667 14 1.7857 12 2.0833
30 16 1.8750 15 2.0000 13 2.3077
35 17 2.0588 16 2.1875 14 2.5000
40 18 2.2222 16 2.5000 14 2.8571
45 19 2.3684 17 2.6471 15 3.0000
50 20 2.5000 18 2.7778 16 3.1250
55 21 2.6190 19 2.8947 16 3.4375
60 21 2.8571 19 3.1579 17 3.5294
65 22 2.9545 20 3.2500 17 3.8235
70 23 3.0435 21 3.3333 18 3.8889
75 23 3.2609 21 3.5714 18 4.1667
80 24 3.3333 22 3.6364 19 4.2105
85 25 3.4000 22 3.8636 19 4.4737
90 25 3.6000 23 3.9130 20 4.5000
95 26 3.6538 23 4.1304 20 4.7500
100 26 3.8462 24 4.1667 21 4.7619
150 31 4.8387 28 5.3571 24 6.2500
200 35 5.7143 31 6.4516 27 7.4074
250 38 6.5789 34 7.3529 30 8.3333
300 41 7.3171 37 8.1081 32 9.3750
350 43 8.1395 39 8.9744 34 10.2941
400 46 8.6957 41 9.7561 36 11.1111
450 48 9.3750 43 10.4651 38 11.8421
500 50 10.0000 45 11.1111 39 12.8205
Enrique M. Cabaña.
24
Capı́tulo 2: Pruebas de bondad de ajuste.

k 50

45
α = .10
40

α = .05
35

30 α = .01
25

20

15

10
0 50 100 150 200 250 300 350 400 450 500


Figura 2.1: Gráfico de k = 4 5 2n2 /(Φ−1 (1 − α))2 para α = .1, .05 y .01

La Tabla 2.2 indica valores de cα estimados mediante una simulación basada


en 10.000 replicaciones, correspondientes a α = 5% para varios valores de n, k,
e incluye el valor asintótico en la lı́nea n = ∞. Los resultados muestran
que la aproximación resultante de reemplazar cα por el valor lı́mite cuando
n → ∞ es buena. Muestran también que se requiere una simulación más
precisa, basada en un número considerablemente mayor de replicaciones, para
describir adecuadamente la evolución de c en función de n, ya que resulta
más razonable atribuir las fluctuaciones observadas a medida que n crece a
los errores de la simulación que al comportamiento de los verdaderos valores
crı́ticos.

2.4 Prueba de ajuste de Kolmogorov.


En el mismo número de la revista Giornale dell’Istituto Italiano degli Attuari,
que dirigı́a F. P. Cantelli, de enero de 1933, aparecieron un artı́culo de V.
Glivenko 1 en el que muestra la validez del hoy llamado Lema de Glivenko -
Cantelli y el artı́culo en que A. N. Kolmogorov propone la prueba que lleva su
nombre 2
1
Sulla determinazione empirica delle leggi di probabilità, pp. 92-99.
2
Sulla determinazione empirica di una legge di distribuzione, pp. 83 - 91.
Licenciatura en Estadı́stica.
25
2.4. Prueba de Kolmogorov.

Tabla 2.2: Valores crı́ticos para la prueba χ2 de Pearson de nivel 5%, corres-
pondientes a k clases equiprobables, y muestras de tamaño n.

n k
3 4 5 6 7 8 9 10 11
5 5.2000
10 6.2000 7.6000 9.0000 10.4000
15 5.2000 7.6667 8.6667 11.0000 12.5333 14.3333 15.6000 16.3333
20 6.1000 7.6000 9.0000 10.6000 12.2000 13.6000 15.1000 17.0000 17.4000
25 5.8400 7.4800 9.2000 10.7600 12.2400 14.3600 14.9600 17.0000 17.6800
30 5.6000 7.8667 9.3333 11.2000 12.4667 13.7333 15.6000 16.6667 18.4000
35 5.7143 7.6286 9.4286 10.7714 12.4000 14.1429 15.1429 16.7143 18.1143
40 6.0500 7.6000 9.2500 11.0000 12.5000 14.0000 15.3500 16.5000 18.3000
45 5.7333 7.5333 9.5556 10.8667 12.7111 13.8444 15.2000 16.5556 18.3111
50 5.9200 7.7600 9.4000 10.9600 12.4400 14.0000 15.5200 16.8000 18.2000
55 6.1455 7.6182 9.6364 10.7818 12.5818 14.0909 15.5273 17.1818 18.4000
60 6.1000 7.6000 9.3333 10.8000 12.8000 13.8667 15.6000 16.6667 18.1000
65 5.9385 7.6769 9.5385 10.7846 12.4308 14.1385 15.4462 16.6923 18.0923
70 5.9429 7.8286 9.4286 10.9143 12.4000 14.1143 15.3714 17.1429 18.3143
75 6.0800 7.5067 9.4667 11.0000 12.6400 14.0667 15.1200 16.8667 18.1333
80 6.0250 7.4000 9.5000 11.0500 12.4000 13.8000 15.4000 17.0000 18.4500
85 6.0941 7.8471 9.2941 10.9294 12.4235 13.9176 15.6941 17.0000 18.1412
90 6.0667 7.6889 9.6667 10.9333 12.3556 14.1778 15.6000 16.6667 18.5333
95 5.9579 7.6947 9.2632 10.9158 12.8000 14.0526 15.3684 16.8947 18.3579
100 6.0200 7.6000 9.6000 10.8800 12.5600 13.9200 15.2000 16.6000 17.9200
∞ 5.9915 7.8147 9.4877 11.0705 12.5916 14.0671 15.5073 16.9190 18.3070
n k
12 13 14 15 16 17 18 19 20
20 19.6000 20.3000
25 19.6400 21.2800 22.6000 23.6000 24.2800
30 19.6000 21.1333 22.2667 24.0000 25.4667 26.6667 27.6000 29.5333 30.0000
35 19.5143 20.3429 22.2000 22.8571 24.8857 26.6857 28.2571 28.5143 29.5714
40 19.4000 21.1000 22.3000 23.7500 24.8000 26.3000 27.5000 29.3500 30.0000
45 19.2667 21.1556 22.5111 24.0000 24.3333 25.6444 27.4000 28.8889 30.1111
50 19.6000 20.7200 22.2400 23.8000 25.5200 26.1600 27.7600 29.0400 30.0000
55 19.8364 21.3455 22.1273 23.8182 24.4182 26.2909 27.1455 28.9455 30.4545
60 19.6000 20.6000 22.1333 23.5000 24.8000 26.1333 27.6000 29.3000 30.0000
65 19.3692 20.8000 22.2308 23.8462 24.8462 25.7538 27.7692 28.8308 30.0769
70 19.4857 20.6286 22.0000 23.8571 25.0857 26.1714 27.7143 29.3429 30.0000
75 19.5600 21.2000 22.2533 23.6000 25.0533 26.3200 27.0000 28.6133 29.8000
80 19.6000 20.7500 22.2000 23.5000 25.2000 26.2500 28.0000 29.2500 30.0000
85 19.6118 20.9882 22.2235 23.5294 25.1176 26.4000 27.4471 28.7765 30.0588
90 19.6000 20.9333 22.3111 23.6667 25.2000 26.3556 27.2000 29.0667 30.0000
95 19.3158 20.9053 22.4526 23.5789 25.0842 26.1474 27.2105 29.2000 30.2632
100 19.7600 20.9000 22.6400 23.6000 24.8000 26.1400 27.4400 28.8200 30.0000
∞ 19.6751 21.0261 22.3620 23.6848 24.9958 26.2962 27.5871 28.8693 30.1435
Enrique M. Cabaña.
26
Capı́tulo 2: Pruebas de bondad de ajuste.

Tabla 2.3: Valores crı́ticos del estadı́stico de Kolmogorov nD obtenidos por
medio de una simulación basada en 200.000 replicaciones.

α α α
n 10% 5% n 10% 5% n 10% 5%
5 1.136 1.258 14 1.176 1.307 35 1.197 1.330
6 1.144 1.271 15 1.177 1.307 40 1.201 1.337
7 1.154 1.279 16 1.179 1.310 45 1.202 1.335
8 1.157 1.285 17 1.183 1.314 50 1.206 1.334
9 1.162 1.292 18 1.184 1.316 60 1.203 1.336
10 1.167 1.295 19 1.181 1.312 70 1.205 1.341
11 1.167 1.297 20 1.183 1.314 80 1.205 1.339
12 1.168 1.299 25 1.188 1.320 100 1.209 1.340
13 1.176 1.307 30 1.191 1.326 ∞ 1.224 1.358

√ de Kolmogorov es D = sup |Fn (x) − F (x)|, la prueba tiene


El estadı́stico
región crı́tica nD > cn (α), con cn (α) elegido para que el nivel sea α, y en el
artı́culo mencionado, Kolmogorov muestra
(i) que la distribución de D cuando se cumple H0 “F = F0 ” es la misma
para cualquier distribución F0 continua, y
∞ j−1 −2j 2 c2 (α)
(ii) que limn→∞ cn (α) = c(α), solución de α = 2 j=1 (−1) e .
La Tabla 2.3 describe de manera empı́rica la variación de cn (α) con n.
Un cálculo exacto de la probabilidad gn (a) = P{Dn > a} podrı́a hacerse
integrando la densidad n! de la distribución de probabilidades de la muestra
ordenada U(1) , U(2) , . . . , U(n) de la distribución uniforme en [0, 1], en la región
definida por las desigualdades |Fn (u) − u| < a, 0 < u < 1. Se trata de un
número infinito de desigualdades, una para cada u en [0, 1], pero para que todas
se cumplan basta que los puntos de coordenadas (U(i) , (i − 1)/n), (U(i) , i/n),
i = 1, 2, . . . , n estén en la banda {(u, y) : 0 < u < 1, u − a < y < u + a}.
Para que esto ocurra es necesario y suficiente que los puntos medios de los
segmentos verticales del gráfico de la función de distribución empı́rica - todos
ellos de longitud 1/n - disten menos de a − 1/2n de la diagonal, de manera
que 1 − gn (a) es el producto de n! por la medida (longitud, área, volumen ...)
de la región de Rn formada por los puntos u = (u1 , . . . , un ) que verifican las
ecuaciones
|(i − 1/2)/n − ui | < a − 1/2n, i = 1, 2 . . . , n.
Licenciatura en Estadı́stica.
27
2.4. Prueba de Kolmogorov.
Ejemplo 2.4.1 El cálculo directo mediante la integración de la densidad con-
junta es inabordable para valores grandes de n como lo muestra el siguiente
análisis para algunos valores pequeños:

n = 1 Las desigualdades se reducen a |1/2 − u| < a − 1/2, que define para


a > 1/2 un intervalo de longitud min(2a − 1, 1). De allı́ resulta g1 (a) =
1 − min(2a − 1, 1) = 2(1 − a)+ (la notación x+ = max(x, 0) indica la
parte positiva de x).

n = 2 Las desigualdades |1/4 − u1 | < a − 1/4, |3/4 − u2 | < a − 1/4 definen


un cuadrado cuya intersección con [0, 1]2 tiene lado 2(a − 1/4) cuando
1/4 < a ≤ 1/2. Luego, para 1/2 < a ≤ 1, el lado es 1/4 + (a − 1/4) = a,
y para a > 1 la intersección es todo el cuadrado unitario, y el lado es
constante igual a 1.

u2

3/4

1/4 a a u1

Figura 2.2: Regiones de integración para el cálculo de la distribución de D2 .

Estos cuadrados están contenidos en el primer caso en la región de in-


tegración o recorrido de la variable 0 ≤ u1 ≤ u2 ≤ 1, y en el segundo
Enrique M. Cabaña.
28
Capı́tulo 2: Pruebas de bondad de ajuste.
caso tienen fuera de esa región un triángulo de área 2(a − 1/2)2 . Como
consecuencia,

1 − 2(2a − 1/2)2 = 1/2 + 4a − 8a2

 si 1/4 < a ≤ 1/2
g2 (a) = 1 − 2(a2 − 2(a − 1/2)2 ) si 1/2 < a ≤ 1


0 si 1 < a.

La Figura 2.3 muestra los gráficos de las funciones g1 y g2 obtenidas en


el Ejemplo precedente, y también de g3 y g4 calculadas mediante integración
numérica.

g1

g2
g3
g4

Figura 2.3: Representación gráfica de gn (a) = P{Dn > a} para n = 1, 2, 3, 4.

2.5 Pruebas de ajuste de Cramér - von Mises.


Los estadı́sticos de Cramér - von Mises son de la forma
∞ ∞
Qn = n (Fn (x) − F0 (x))2 ψ(F0 (x))dF0 (x) = b2n (F0 (x))ψ(F0 (x))dF0 (x),
−∞ −∞
(2.2)
Licenciatura en Estadı́stica.
29
2.5. Pruebas de Cramér - von Mises.
donde Fn es la función de distribución empı́rica de una la muestra aleatoria
simple X1 , . . . , Xn de cierta distribución F que suponemos continua.
El cambio de variables u = F0 (x) permite escribirlos de manera equivalente
como Qn = n 01 (Fn (F0−1 (u)) − u)2 ψ(u)du. Dado que las variables Ui = F0 (Xi )
constituyen una muestra aleatoria simple de la distribución uniforme, y que la
función en escalera Fn (F0−1 (u)) es la función de distribución empı́rica de esa
muestra, esta última escritura muestra que la distribución de Q no depende
de F0 cuando F = F0 .
Muestra

también que la distribución lı́mite para n → ∞ del estadı́stico Qn
es la de 01 b2 (u)ψ(u)du, donde b es un puente browniano tı́pico.
Llamemos X(1) , . . . , X(n) a los estadı́sticoa de orden que se obtienen or-
denando la muestra de menor a mayor. El estadı́stico Qn puede calcularse
teniendo en cuenta que en cada intervalo de la forma (X(i) , X(i+1) ), la función
Fn (x) es constante, igual a i/n. Esta observación vale para i = 0, 1, . . . , n con
la convención X(0) = −∞, X(n+1) = ∞. A partir de esta observación podemos
escribir
n X(i+1)
 n F0 (X(i+1) )
i i
Qn = n ( −F0 (x))2 ψ(F0 (x))dF0 (x) = n ( −u)2 ψ(u)du.
i=0 X(i) n i=0 F0 (X(i) ) n

El cálculo explı́cito de estas integrales, cuya eventual dificultad depende de la


selección de la función ψ, permite reducir la expresión que define al estadı́stico
Qn a una suma finita que depende de la muestra a través de las variables
aleatorias uniformes F0 (Xi ). Encontramos de nuevo de esta manera que la
distribución de Qn no depende de cuál sea la distribución F0 . Sólo depende de
n y de cuál sea la función ψ.

2.5.1 El estadı́stico de Cramér - von Mises propiamente


dicho.
La prueba propuesta por Cramér y von Mises se basa en el estadı́stico (2.2)
correspondiente a ψ(u) = u.
El estadı́stico se calcula en la forma
n F0 (X(i+1) )
 n F0 (X(i+1) ) 2
i i 2iu
Qn = n ( − u)2 du = n ( 2− + u2 )du
i=0 F0 (X(i) ) n i=0 F0 (X(i) ) n n

1
1 n n
= i2 [F0 (X(i+1) ) − F0 (X(i) )] − i[F02 (X(i+1) ) − F02 (X(i) )] + n u2 du
n i=0 i=0 0
Enrique M. Cabaña.
30
Capı́tulo 2: Pruebas de bondad de ajuste.

1 n+1 1 n 
n+1 n
n
= (i−1)2 F0 (X(i) )− i2 F0 (X(i) )− (i−1)F02 (X(i) )+ iF02 (X(i) )+
n i=1 n i=0 i=2 i=1 3
n2 1  n n
n
= + (1 − 2i)F0 (X(i) ) − n + F02 (X(i) ) +
n n i=1 i=1 3
n 2  
 2i − 1 
n
i2 i 1 n
= F0 (X(i) ) − − 2
− 2+ 2 +
i=1 2n i=1 n n 4n 3
n 2
 2i − 1 n(n + 1)(2n + 1) n(n + 1) n n
= F0 (X(i) ) − − 2
+ 2
− 2+
i=1 2n 6n 2n 4n 3
n 2
 2i − 1 1
= F0 (X(i) ) − + .
i=1 2n 12n

2.5.2 Sobre la distribución asintótica del estadı́stico de


Cramér - von Mises.

Ya hemos observado que Qn converge en ley a Q = 01 b2 (u)du. Para describir
la distribución de Q, tomemos una sucesión de funciones f1 , . . . , fn , . . . que
constituyan un sistema ortonormal completo en el espacio L = {f : [0, 1] → R :
Ef 2 (U ) < ∞, U ∼ Unif[0, 1]}, con el producto interno f, g = 01 f (u)g(u)du.

En ese caso,

del desarrollo de
Fourier b(u) = ∞ 1
i=1 fi (u) 0 fi (v)b(v)dv re-

sulta
b
2 = 01 b2 (u)du = ∞ 1 2
i=1 ( 0 fi (v)b(v)dv) .
Las variables 01 fi (v)b(v)dv tienen distribución normal conjunta, con espe-
ranzas cero y covariancias
1 1 1 1
E fi (v)b(v)dv fj (v)b(v)dv = fi (u)[ (Eb(u)b(v))fj (v)dv]du.
0 0 0 0

Esta expresión se simplificarı́a notablemente si se cumpliera


1
(Eb(u)b(v))fj (v)dv = λj fj (u) (2.3)
0

para algún valor de λj , porque en ese caso tendrı́amos


1 1 1 
0, si i = j,
Cov( fi (u)b(u)du, fi (v)b(v)dv) = fi (u)λj fj (u)du
0 0 0 λi , si i = j.
Vamos a verificar que las funciones fj pueden elegirse de manera que se
cumpla (2.3), es decir:
1
(u ∧ v − uv)fj (v)dv = λj fj (u).
0
Licenciatura en Estadı́stica.
31
2.5. Pruebas de Cramér - von Mises.
Veamos en primer lugar qué funciones f cumplen
1 u 1
λf (u) = (u ∧ v − uv)f (v)dv = (1 − u) vf (v)dv + u f (v)(1 − v)dv.
0 0 u
Al derivar esta ecuación una vez, encontramos
u 1
λf  (u) = − vf (v)dv + u(1 − u)f (u) + f (v)(1 − v)dv − u(1 − u)f (u),
0 u
1 1
=− vf (v)dv + f (v)dv.
0 u
Una nueva derivación muestra que f debe cumplir√ λf  (u) = −f √(u). Las
soluciones de esta ecuación son de la forma a cos(u/ λ) + b sin(u/ λ).
La ecuación de partida muestra que f (0) = f (1) = 0, y esto implica que,
de las funciones trigonométricas
√ indicadas, sólo podemos conservar las de la
forma fi (u) = bi sin(u/ λi ), con√1/λi = i2 π 2 . Para que las funciones fi tengan
norma 1, se requiere elegir bi = 2.
Es conocido que el sistema de las funciones trigonométricas 1, sin(nt), cos(nt)
(n = 1, 2, . . .) es un sistema completo en el intervalo [−π, π], y, de manera
equivalente, que 1, sin(nπu), cos(nπu) (n = 1, 2, . . .) son un sistema com-
pleto en [−1, 1]. Esto significa que cuando −1 1
f 2 (x)dx < ∞, f coincide en
L2 ([−1, 1]) con su desarrollo

en serie de Fourier.
Por este motivo, si 01 f 2 (u)du < ∞, entonces la función impar f˜ igual a
f en [0, 1] coincide en L2 ([−1, 1]) con su desarrollo en serie de Fourier, que es
un desarrollo de senos, porque los coeficientes de los cosenos son todos nulos,
debido a que f˜ es impar. Esto implica que f coincide en L2 ([0, 1]) en [0, 1] con
su desarrollo en serie de Fourier de senos. √
Un cálculo directo muestra que las funciones fi (u) = 2 sin(nπu) cumplen
las condiciones que muestran que 01 b2 (u)du tiene la distribución de la suma
∞
1 2
Z , con Z1 , Z2 , . . . i.i.d. normales tı́picas. Se trata de una distribución
2 2 i
i=1 i π
con puntos de contacto con las distribuciones χ2 . En vez de una suma finita
de cuadrados de variables normales tı́picas independientes, como es el caso de
las distribuciones χ2 , se trata de una suma infinita de tales cuadrados, pero
multiplicados por coeficientes diferentes, que tienden a cero de modo que la
∞
1
variancia (que en este caso vale 2 2
= 1/6) es finita.
i=1 i π

2.5.3 La prueba de Anderson y Darling.


El estadı́stico de Anderson - Darling integra los cuadrados b2n de los apartamien-
tos del proceso empı́rico respecto de su esperanza (nula bajo H0 ) medidos
Enrique M. Cabaña.
32
Capı́tulo 2: Pruebas de bondad de ajuste.
en relación a Varb2n (x) = F0 (x)(1 − F0 (x)). En otras palabras, se utiliza
1
ψ(F0 (x)) = F0 (x)(1−F 0 (x))
.
Como en el caso de la Prueba de Cramér - von Mises, puede obtenerse una
fórmula para calcular el estadı́stico
1
b2n (F0 (x))
A2n = dF0 (x)
0 F0 (x)(1 − F0 (x))
mediante una suma finita, y puede describirse la ley asintótica, que es la de
1 b2 (u)
0 u(1−u) du como la de una serie del mismo tipo que la encontrada en el caso
de Cranér - von Mises.

2.6 Pruebas de ajuste a la familia


F = {L(µ + σX) : L(X) = F0, µ ∈ R, σ ∈ R+}.

Para probar H0 :“F ∈ F”, pueden estimarse µ y σ 2 mediante µ̂ = n1 ni=1 Xi ,

σ̂ 2 = n1 ni=1 (Xi − µ̂)2 . Luego se tipifica la muestra en la forma Yi = Xσ̂i −µ̂ 2 y
se aplica a Y1 , . . . , Yn una prueba de ajuste a la distribución F0 , adaptada a la
circunstancia de que la muestra tipificada no es i.i.d., ya que las variables no
son independientes, puesto que en todas intervienen µ̂ y σ̂ 2 .
El promedio de la muestra µ̂ = X̄ = xdFn (x) = µ + √1n xdb(X) n se expresa
convenientemente a partir de la función de distribución empı́rica o del proceso
empı́rico.

Lo mismo ocurre con el estimador de la variancia, σ̂ 2 = n1 ni=1 (Xi − X̄)2
 2
= (x − X̄)2 dFn (x) = σ 2 + √1n (x − µ)2 db(X)
n − 1
n
xdb(X)
n .
Introducimoe el proceso empı́rico estimado
n   n  
1  1 
b̂n (y) = √ 1{Yi ≤y} − F0 (y) = √ 1{Xi ≤X̄+sy} − F0 (y)
n i=1 n i=1

1  n
=√ 1 X̄−µ − F0 (y) .
n i=1 {Zi ≤y+( σ −1)y+ σ }
s

X1 −µ Xn −µ
El proceso empı́rico de las variables tipificadas Z1 = σ
, . . ., Zn = σ
es n 
1  
b(Z)
n (x) = √ 1{Zi ≤x} − F0 (x) .
n i=1
Con la notación 
s X̄ − µ
yn = y + −1 y+ ,
σ σ
Licenciatura en Estadı́stica.
33
2.6. Pruebas de Cramér - von Mises.
escribimos

b̂n (y) = bn(Z) (yn ) + n (F0 (yn ) − F0 (y)) .
 
x−µ
Como consecuencia, de b(X) (Z)
n (x) = bn σ
, obtenemos

X̄ − µ 1
=√ zdbn(Z) (z),
σ n
2
s2 1 2 (Z) 1
= 1 + √ z db n (z) − zdbn(Z) ,
σ2 n n
y entonces
1 y 2 (Z) √
yn = y + √ zdbn(Z) (z) + √ z dbn (z) + o(1/ n).
n 2 n

Como consecuencia, si F0 tiene densidad f0 , podemos escribir



y 2 (Z) √
b̂n (y) = bn(Z) (yn ) + zdb(Z)
n (z) + z dbn (z) f0 (y) + o(1/ n).
2

Puesto que bn(Z) tiene la distribución asintótica del puente browniano b(F0 )
asociado a F0 , bajo “F = F0 ”, la distribución lı́mite del proceso empı́rico
estimado b̂n (y) es también gaussiana. El lı́mite de las covariancias muestra
que esta distribución asintótica es la de

(F0 ) (F0 ) y 2 (F0 )
b (y) + zdb (z) + z db (z) f0 (y). (2.4)
2
Se observará que el procedimiento de estimación de los parámetros pro-
porciona estimadores que no son invariantes respecto de la transformación
canónica X → F0 (X). Por ese motivo, la distribución de los estadı́sticos que
describen el tamaño de b̂n no es independiente de la distribución F0 , o más pre-
cisamente, no es independiente de la familia de distribuciones de probabildad
que interviene en la hipótesis nula de ajuste. Por ese motivo, los procedimien-
tos basados en lo que precede requieren la determinación de los valores crı́ticos
para cada F0 en particular.
Una prueba análoga puede realizarse para cualquier otra familia de dis-
tribuciones que sea la mı́nima familia cerrada bajo cambios de posición o de
dispersión que contiene a una distribución F0 dada. Por lo que acabamos de
indicar, el procedimiento es el mismo, pero los valores crı́ticos tienen que ser
calculados nuevamente, para cada familia.
Enrique M. Cabaña.
34
Capı́tulo 2: Pruebas de bondad de ajuste.
2.6.1 Un ejemplo: La prueba de normalidad de Lil-
liefors.
La utilización del estadı́stico de Kolmogorov D̂n = sup |F̂n −Φ|, donde F̂n (y) =
1 n
n i=1 1{Yi ≤y} dentro del contexto precedente, conduce a la llamada Prueba de
Lilliefors de región crı́tica D̂n > ĉn (α).
Intuitivamente, es de esperar que, si la muestra tiene distribución normal,
la muestra tipificada estimada esté más cerca de la distribución normal tı́pica
que la muestra tipificada con los verdaderos parámetros, ya que µ̂ y σ̂ 2 son
los parámetros de la distribución normal que mejor se ajusta a la muestra, en
particular, mejor que la verdadera distribución que dio lugar a la muestra.
Este argumento no es concluyente, ya que los estimadores son los que ma-
ximizan la verosimilitud, en el caso de la distribución normal, y no los que
minimizan la distancia de Kolmogorov. Pero la intuición es correcta: Lilliefors
obtuvo empı́ricamente la distribución de D̂n , y sus tablas lo confirman.
Existe una propuesta análoga de Lilliefors, para la cual también ha cal-
culado tablas de los valores crı́ticos, para probar la hipótesis nula de que la
distribución es exponencial.
El estadı́stico de la prueba de normalidad de Lilliefors suele escribirse en
la forma
Ln = sup |Fn (x) − F̂ (x)|,
donde F̂ es la distribución normal cuyas media y variancia son las estimadas,
es decir, con Z normal tı́pica, F̂ (x) = P{µ̂ + σ̂Z ≤ x} = Φ((x − µ̂)/σ̂), pero el

cambio de variables Yi = (Xi − µ̂)/σ̂ conduce a escribir Fn (x) = n1 ni=1 1{Xi ≤x}

= n1 ni=1 1{Yi ≤(x−µ̂)/σ̂} = F̂n ((x − µ̂)/σ̂) y entonces Ln = sup |F̂n ((x − µ̂)/σ̂) −
Φ((x − µ̂)/σ̂)| = D̂n .
En resumen es equivalente utilizar la muestra tipificada estimada, y com-
pararla con la distribución normal tı́pica, o comparar directamente la dis-
tribución empı́rica con la distribución normal estimada.