Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ajuste PDF
Ajuste PDF
Centro de Matemática
BIOESTADISTICA
Curso 2006
En esta sección estudiaremos el problema de ajuste a una distribución. Dada una muestra X1 , X2 , · · · , Xn
de variables i.i.d. con distribución F , un problema básico en estadı́stica es encontrar un modelo para
los datos. Por ejemplo, supongamos que nos interesa ver hasta qué punto es razonable suponer que
los datos provienen de una cierta distribución F0 .
Las pruebas estadı́sticas destinadas a la resolución de este tipo de problemas son las llamadas Pruebas
de Bondad de Ajuste. La mayorı́a de ellas se basa en la convergencia de la función de distribución
n
X
empı́rica de la muestra: Fn (x) = 1{Xi ≤x} , a la función de distribución subyacente a la muestra
i=1
F . Dicha convergencia está garantizada en condiciones muy generales por el Teorema de Glivenko-
Cantelli, también llamado Teorema Fundamental de la Estadı́stica.
En esta sección se incluyen algunas pruebas muy generales y conocidas (χ2 , Kolmogorov-Smirnov, y
otras pruebas más especı́ficas (Lilliefors, D’Agostino, Filliben).
1 La Prueba χ2 de Pearson
La primera prueba de bondad de ajuste fue propuesta por Karl Pearson en el año 1900.
Pearson propuso evaluar el ajuste de una función de distribución F0 a una muestra de variables i.i.d.,
mediante el uso de un estadı́stico de tipo cuadrático. Este planteamiento constituye la primera evalu-
ación rigurosa de la calidad del ajuste a una distribución. Anteriormente a Pearson sólo se intentaron
comparaciones subjetivas.
Baste como ejemplo el de la utilización de la distribución normal en la teorı́a de errores. Dicha dis-
tribución fue introducida por Gauss en 1801 para modelar los errores en la determinación de la posición
del asteroide Ceres. Años después Laplace y Poisson llegaron a ella en versiones primigenias del Teo-
rema Central del Lı́mite. Poisson agregarı́a contraejemplos con lı́mites no gaussianos. La primera
justificación de la aplicabilidad del modelo fue dada por un ingeniero alemán: G. Hagen, en 1837.
Pero hubo que esperar casi un siglo hasta que alguien (Pearson) propusiera verificar la adecuación del
modelo.
En el caso de hipótesis nula compuesta, en que es necesario estimar parámetros, las distribuciones
2 LA PRUEBA DE KOLMOGOROV Y SMIRNOV 2
asintóticas de los estadı́sticos del tipo χ2 dependen del método de estimación utilizado.
Fundamentación de la prueba
Dada una muestra X1 , X2 , · · · , Xn de variables i.i.d., con función de distribución F , y una distribución
F0 , Pearson considera la partición en k clases A1 , A2 , · · · , Ak del soporte de F0 y a partir de ella
propone el estadı́stico
k
X (Xni − npi )2
S=
i=1
npi
n
X
donde Xni = 1Ai (Xj ) y pi = F (Ai ). La distribución de S depende en general del número de clases
j=1
k, del vector de probabilidades (p1 , · · · , pk ) y del tamaño de muestra n. En un artı́culo de 1973,
Katti da tables exactas para el caso uniforme. De acuerdo al siguiente teorema, que enunciamos sin
demostración, S tiene, bajo la hipótesis nula distribución χ2 con k − 1 grados de libertad, mientras
que bajo la alternativa “F 6= F0 ”, S tiende casi seguramente a infinito.
Teorema
Sea p1 , p2 , · · · , pk una k-upla de números no negativos que suman 1, y sean Z1 , Z2 , · · · vectores multino-
n
X
miales e independientes con parámetros {(p1 , p2 , · · · , pk ), 1}. Si definimos Xn = Zm , el estadı́stico
m=1
k
X (Xni − npi )2
S=
i=1
npi
entonces
supx∈IR |Fn (x) − F (x)| −→ 0
2 LA PRUEBA DE KOLMOGOROV Y SMIRNOV 3
con probabilidad 1.
Bajo la hipótesis nula KS (que depende de n) tenderá a cero, mientras que, bajo la hipótesis alterna-
tiva, la descomposición
KS = supx∈IR |Fn (x) − F0 (x)| = supx∈IR |Fn (x) − F (x) + F (x) − F0 (x)|
Observaciones
1. Nótese en primer lugar que, por la forma de la función de distribución empı́rica, si el supremo
involucrado en el cálculo del estadı́stico KS no se alcanza en alguno de los puntos de la muestra,
entonces tomará en valor
∆−i = limx→X − |Fn (x) − F0 (Xi )|
i
max {max1≤i≤n {|i/n − F0 (Xi∗ )|}, max1≤i≤n {|(i − 1)/n − F0 (Xi∗ )|}}}
3. En el caso asintótico, los percentiles para la aplicación de la prueba vienen dados por un famoso
resultado debido a Donsker (1952).
El valor esperado de este estadı́stico es aproximadamente 2√1 π . Para tamaños muestrales pequeños se
dispone de una tabla de simulación que da un criterio de decisión. Para muestras de tamaño grande,
la variable
√ D − 2√1 π
n √ 1
12 3−27+2π 2
24π
se puede aproximar por una variable normal tı́pica.
5 LA PRUEBA DE NORMALIDAD DE FILLIBEN 5
La tabla de Filliben (1975) resume el estudio por simulación del comportamiento de este estadı́stico
bajo la hipótesis de normalidad. La hipótesis de normalidad se rechaza para valores pequeños de RF .