Ajuste PDF

1
Centro de Matemática
BIOESTADISTICA
Curso 2006
Pruebas de Bondad de Ajuste
En esta sección estudiaremos el problema de ajuste a una distribución. Dada una muestra X1 , X2 , · · · , Xn
de variables i.i.d. con distribución F , un problema básico en estadı́stica es encontrar un modelo para
los datos. Por ejemplo, supongamos que nos interesa ver hasta qué punto es razonable suponer que
los datos provienen de una cierta distribución F0 .
Las pruebas estadı́sticas destinadas a la resolución de este tipo de problemas son las llamadas Pruebas
de Bondad de Ajuste. La mayorı́a de ellas se basa en la convergencia de la función de distribución
n
X
empı́rica de la muestra: Fn (x) = 1{Xi ≤x} , a la función de distribución subyacente a la muestra
i=1
F . Dicha convergencia está garantizada en condiciones muy generales por el Teorema de Glivenko-
Cantelli, también llamado Teorema Fundamental de la Estadı́stica.
En esta sección se incluyen algunas pruebas muy generales y conocidas (χ2 , Kolmogorov-Smirnov, y
otras pruebas más especı́ficas (Lilliefors, D’Agostino, Filliben).
1 La Prueba χ2 de Pearson
La primera prueba de bondad de ajuste fue propuesta por Karl Pearson en el año 1900.
Pearson propuso evaluar el ajuste de una función de distribución F0 a una muestra de variables i.i.d.,
mediante el uso de un estadı́stico de tipo cuadrático. Este planteamiento constituye la primera evalu-
ación rigurosa de la calidad del ajuste a una distribución. Anteriormente a Pearson sólo se intentaron
comparaciones subjetivas.
Baste como ejemplo el de la utilización de la distribución normal en la teorı́a de errores. Dicha dis-
tribución fue introducida por Gauss en 1801 para modelar los errores en la determinación de la posición
del asteroide Ceres. Años después Laplace y Poisson llegaron a ella en versiones primigenias del Teo-
rema Central del Lı́mite. Poisson agregarı́a contraejemplos con lı́mites no gaussianos. La primera
justificación de la aplicabilidad del modelo fue dada por un ingeniero alemán: G. Hagen, en 1837.
Pero hubo que esperar casi un siglo hasta que alguien (Pearson) propusiera verificar la adecuación del
modelo.
En el caso de hipótesis nula compuesta, en que es necesario estimar parámetros, las distribuciones
2 LA PRUEBA DE KOLMOGOROV Y SMIRNOV 2
asintóticas de los estadı́sticos del tipo χ2 dependen del método de estimación utilizado.
Fundamentación de la prueba
Dada una muestra X1 , X2 , · · · , Xn de variables i.i.d., con función de distribución F , y una distribución
F0 , Pearson considera la partición en k clases A1 , A2 , · · · , Ak del soporte de F0 y a partir de ella
propone el estadı́stico
k
X (Xni − npi )2
S=
i=1
npi
n
X
donde Xni = 1Ai (Xj ) y pi = F (Ai ). La distribución de S depende en general del número de clases
j=1
k, del vector de probabilidades (p1 , · · · , pk ) y del tamaño de muestra n. En un artı́culo de 1973,
Katti da tables exactas para el caso uniforme. De acuerdo al siguiente teorema, que enunciamos sin
demostración, S tiene, bajo la hipótesis nula distribución χ2 con k − 1 grados de libertad, mientras
que bajo la alternativa “F 6= F0 ”, S tiende casi seguramente a infinito.
Teorema
Sea p1 , p2 , · · · , pk una k-upla de números no negativos que suman 1, y sean Z1 , Z2 , · · · vectores multino-
n
X
miales e independientes con parámetros {(p1 , p2 , · · · , pk ), 1}. Si definimos Xn = Zm , el estadı́stico
m=1
k
X (Xni − npi )2
S=
i=1
npi
tiene distribución asintótica χ2 con k − 1 grados de libertad
2 La Prueba de Kolmogorov y Smirnov

Esta prueba de ajuste se basa en el llamado Teorema Fundamental de la Estadı́stica, que enunciamos
a continuación
Teorema Fundamental de la Estadı́stica (Glivenko-Cantelli)

Sea X1 , X2 , · · · , Xn , · · · una sucesión de variables aleatorias i.i.d. con distribución F , y sea Fn la
función de distribución empı́rica para la muestra de tamaño n, es decir
n
X n
X
Fn (x) = 1(Xi ,+∞) (x) = 1[−∞,x) (Xi )
i=1 i=1
entonces
supx∈IR |Fn (x) − F (x)| −→ 0
2 LA PRUEBA DE KOLMOGOROV Y SMIRNOV 3
con probabilidad 1.
Supongamos entonces que tenemos una muestra X1 , X2 , · · · , Xn proveniente de una distribución F

y queremos realizar la prueba de hipótesis H0 : F = F0 y H1 : F 6= F0 para una cierta distribución
F0 . El teorema anterior sugiere el uso del siguiente estadı́stico
KS = supx∈IR |Fn (x) − F0 (x)|
Bajo la hipótesis nula KS (que depende de n) tenderá a cero, mientras que, bajo la hipótesis alterna-
tiva, la descomposición
KS = supx∈IR |Fn (x) − F0 (x)| = supx∈IR |Fn (x) − F (x) + F (x) − F0 (x)|
nos muestra que KS tiende a

supx∈IR |F (x) − F0 (x)| =
6 0
de modo que la prueba es consistente frente a cualquier alternativa.
Observaciones
1. Nótese en primer lugar que, por la forma de la función de distribución empı́rica, si el supremo
involucrado en el cálculo del estadı́stico KS no se alcanza en alguno de los puntos de la muestra,
entonces tomará en valor
∆−i = limx→X − |Fn (x) − F0 (Xi )|
i
para alguno de los puntos de la muestra.

Calcular KS se reduce entonces a calcular:
n o
KS = max max1≤i≤n {|Fn (Xi ) − F0 (Xi )|}, max1≤i≤n {∆−
i } =
max {max1≤i≤n {|i/n − F0 (Xi∗ )|}, max1≤i≤n {|(i − 1)/n − F0 (Xi∗ )|}}}
2. La distribución bajo H0 del estadı́stico KS no depende de la distribución subyacente a la muestra.

Sea la muestra X1 , X2 , · · · , Xn de variables i.i.d. con distribución F = F0 . Si hacemos el cambio
de variables Ui = F0 (Xi ) y u = F0 (x) tendremos
n
X
KS = supx∈IR |Fn (x) − F0 (x)| = supx∈IR | 1{Xi ≤x} − F0 (x)| =
i=1
n
X n
X
supx∈IR | 1{F0 (Xi )≤F0 (x)} − F0 (x)| = supu∈[0,1] | 1{Ui ≤u} − u|
i=1 i=1
Es decir que la distribución del estadı́stico de Kolmogorov y Smirnov para la muestra X1 , X2 , · · · , Xn

es igual a la del estadı́stico para la muestra uniforme U1 , U2 , · · · , Un (recuérdese que las variables
Ui tienen distribución uniforme en [0,1]).
Para tamaños muestrales pequeños una tabla de Montecarlo basada en la distribución uniforme,
da los percentiles para poder aplicar la prueba de Kolmogorov-Smirnov.
3 LA PRUEBA DE NORMALIDAD DE LILLIEFORS 4
3. En el caso asintótico, los percentiles para la aplicación de la prueba vienen dados por un famoso
resultado debido a Donsker (1952).
4. En caso en que la distribución dependa de algunos parámetros desconocidos, si la muestra

es suficientemente grande, podemos dividirla en dos, usando una primera parte para estimar
los parámetros y la segunda para aplicar la prueba de ajuste a la distribución en la que se
sustituyen los parámetros por sus respectivos estimadores. Esta forma de proceder involucra
varias decisiones sobre la división de la muestra. En particular, decidir qué parte de la muestra
se usará para estimar los parámetros y qué parte para aplicar la prueba, es una arbitrariedad;
para evitarla, se puede volver a aplicar el procedimiento estimando los parámetros con la segunda
parte de la muestra y aplicando la prueba de ajuste con la primera (en este caso es razonable
rechazar si alguna de las dos pruebas arrojara un resultado significativo).
3 La Prueba de Normalidad de Lilliefors

Esta prueba de normalidad utiliza el estadı́stico de Kolmogorov y Smirnov, en el caso en que la media
y el desvı́o de la distribución (desconocidos) se estiman utilizando toda la muestra. Es decir que el
estadı́stico vale
x − X̄n
KSL = supx∈IR |Fn (x) − Φ( )|
sn
donde Φ es la función de distribución normal tı́pica, Si determinamos la región crı́tica usando la tabla
de Kolmogorov y Smirnov, el resultado es una prueba muy conservadora. Lilliefors ha tabulado por
el método de Montecarlo los percentiles de este estadı́stico.
4 La Prueba de Normalidad de D’Agostino

Este estadı́stico compara (a menos de una constante) un estimador lineal del desvı́o tı́pico en el caso
de una distribución normal, con el desvı́o muestral.
Para la muestra aleatoria simple X1 , X2 , · · · , Xn y la prueba cuya hipótesis nula es ΛH0 : “la mues-
tra tiene distribución normal” y cuya hipótesis alternativa es la complementaria, el estadı́stico de
D’Agostino vale:
Xn i − n+1
2 Xi∗
D=
i=1
n2 sn
donde s2n = n1 ni=1 (Xi − X̄)2 .
P
El valor esperado de este estadı́stico es aproximadamente 2√1 π . Para tamaños muestrales pequeños se
dispone de una tabla de simulación que da un criterio de decisión. Para muestras de tamaño grande,
la variable
√ D − 2√1 π
n √ 1
12 3−27+2π 2
24π
se puede aproximar por una variable normal tı́pica.
5 LA PRUEBA DE NORMALIDAD DE FILLIBEN 5
5 La Prueba de Normalidad de Filliben

Esta prueba se basa en la comparación entre la muestra ordenada X1∗ , X2∗ , · · · , Xn∗ y el vector Y1 , Y2 , · · · , Yn ,
donde Yi = Φ−1 ( n+1i
) donde Φ es la función de distribución nomrmal tı́pica. Para cada i, la compo-
nente i-ésima del vector es una aproximación del valor esperado del i-ésimo estadı́stico de orden de una
normal tı́pica (considere la transformación canónica que lleva normales en uniformes y su inversa).
El estadı́stico de Filliben es el coeficiente de correlación lineal entre X e Y , o sea
n
Xi∗ − X̄ Yi

X
RF =
i=1
sn sn (Y )
donde sn (Y )2 = ni=1 (Yi − Ȳ )2 .

P
La tabla de Filliben (1975) resume el estudio por simulación del comportamiento de este estadı́stico
bajo la hipótesis de normalidad. La hipótesis de normalidad se rechaza para valores pequeños de RF .

Ajuste PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ajuste PDF

Cargado por

Copyright:

Formatos disponibles

1

Pruebas de Bondad de Ajuste

tiene distribución asintótica χ2 con k − 1 grados de libertad

2 La Prueba de Kolmogorov y Smirnov

Teorema Fundamental de la Estadı́stica (Glivenko-Cantelli)

Supongamos entonces que tenemos una muestra X1 , X2 , · · · , Xn proveniente de una distribución F

KS = supx∈IR |Fn (x) − F0 (x)|

nos muestra que KS tiende a

para alguno de los puntos de la muestra.

2. La distribución bajo H0 del estadı́stico KS no depende de la distribución subyacente a la muestra.

Es decir que la distribución del estadı́stico de Kolmogorov y Smirnov para la muestra X1 , X2 , · · · , Xn

4. En caso en que la distribución dependa de algunos parámetros desconocidos, si la muestra

3 La Prueba de Normalidad de Lilliefors

4 La Prueba de Normalidad de D’Agostino

5 La Prueba de Normalidad de Filliben

donde sn (Y )2 = ni=1 (Yi − Ȳ )2 .

También podría gustarte