Pruebas de Bondad de Ajuste

Estadı́stica III
Pruebas de bondad de ajuste
Alejandro López Hernández
FES Acatlán - UNAM
March 27, 2020

Índice
1 Introducción
2 Prueba de Kolgomorov-Smirnov
3 Prueba de Cramér-von Mises
4 Prueba de Anderson-Darling
5 Pruebas de 2 Muestras
Introducción
La idea de las pruebas de bondad de ajuste es comparar la función de distribución de

nuestros datos (F̂n ) con una función de distribución dada (F0 ). Nuestro objetivo será
encontar estadı́stos que nos ayuden a aceptar o rechazar la siguiente prueba:
H0 : F = F 0
Introducción
Ejemplo: Supongamos que tenemos los datos
X = 0.254, 1.23, 4.566, 2.165, 1.23, 1.829, 5, 3.23
Una pregunta interesante es si los datos tiene una distribución uniforme, para probar la
hipótesis, es necesario calcular F̂n y con ella la prueba serı́a de la forma:
H0 : F = F0 ∼ U(0, 5)
Introducción
Algunas alternativas para medir las diferencias en las distribucciones son:

• Dn+ = sup−∞<t<∞ (F̂n (t) − F0 (t))
• Dn− = sup−∞<t<∞ (F0 (t) − F̂n (t))
• Dn = sup−∞<t<∞ |F0 (t) − F̂n (t)| = max(Dn+ , Dn− )
• Vn = Dn+ + Dn−
• Cn = (F0 (t) − F̂n (t))2 dF0 (t)
R
(t)−F0 (t))2
• An = F(F̂n(t)(1−F
R
0 0 (t))
dF0 (t)
• wn,k,g = (F0 (t) − F̂n (t))k g (F0 (t))dF0 (t)
R
• wn,k,g = (F0 (t) − F̂n (t))k g (F0 (t))dF0 (t)

R
Prueba de Kolgomorov-Smirnov
La prueba de Kolgomorov-Smirnov se define como
Dn = sup |F0 (t) − F̂n (t)|

−∞<t<∞
Se define de esa manera debido al teorema de Gilvenko-Cantelli, que nos dice que
sup−∞<t<∞ |F (t) − F̂n (t)| → 0 a.s, es decir que la máxima distancia entre la
distribución empı́rica y la real tiende a 0. Por lo tanto si nuestra F0 es la distribución
real, se espera que Dn sea pequeño.
Para calcular Dn solo es necesario conocer las observaciones X1 , X2 , ..., Xn , si X{i} es el

i-ésimo estadı́stico de orden, se puede probar que
i i −1
Dn = max max( − F0 (X{i} ), F0 (X{i} ) − )
1≤i≤n n n
Con el siguiente resultado encontraremos la distribución asintótica de Dn

Teorema 1
Sea X1 , X2 , ..., Xn ∼ F0 y sea Dn = supt |F0 (t) − F̂n (t)| entonces, suponiendo que F0
es continua; √
nDn → sup |B(t)| en distribución
0≤t≤1
Donde B(t) es un puente Browniano.

Afortunadamente, se puede desarrollar la distribución del puente browniano.

Proposición 1
Bajo la hipótesis H0 entonces
∞
√ X 2 2
lim P( nDn ≤ λ) = 1 − 2 (−1)j−1 e −2j λ
n
j=1
Con está distribución podemos calcular cuantiles y derivar regiones de rechazo.

Prueba de Cramér-von Mises
La idea de este estadı́stico es medir el area que separa F̂n de F0 , el estadı́stico se define
como: Z
Cn = (F0 (t) − F̂n (t))2 dF0 (t)
De forma analoga a el estadı́stico Dn , Cn se puede escribir en función de los

estadı́sticos de orden:
n
2i − 1 2

1 X
Cn = + F0 (X{i} ) −
12n 2n
i=1
Con el siguiente resultado encontraremos la distribución asintótica de Cn

Teorema 2
Sea X1 , X2 , ..., Xn ∼ F0 y sea Cn = (F0 (t) − F̂n (t))2 dF0 (t) entonces, suponiendo que
R
F0 es continua; Z 1
nCn → B 2 (t)dt en distribución
0
De forma similar que con Dn se puede calcular la distribución asintótica de Cn

Proposición 2
Bajo la hipótesis H0 entonces
∞ Z 4j 2 π2 s √ xy
1X j+1 − y e− 2
lim P(nCn > λ) = (−1) √ dy
n π (2j−1)2 π 2 sin( y ) y
j=1
De igual forma podemos crear regiones de rechazo con esta distribución.

Prueba de Anderson-Darling
La idea es tambien medir el área en que separa F̂n de F0 , sin embargo, el termino
F0 (t)(1 − F0 (t)) busca tener una mayor ponderación en la región donde la distribución
F0 (t) tiene mayor incertidumbre. El estadistico se define como
(F̂n (t) − F0 (t))2

Z
An = dF0 (t)
F0 (t)(1 − F0 (t))
De forma analoga a los estadı́sticos anteriores An se puede escribir como:

" n #
1 X
An = −n − (2i − 1)(log F0 (X{i} ) + log(1 − F0 (X{n−i+1} ))
n
i=1
Con el siguiente resultado encontraremos la distribución asintótica de An

Teorema 3
(t)−F0 (t))2
Sea X1 , X2 , ..., Xn ∼ F0 y sea An = F(F̂0n(t)(1−F
R
0 (t))
dF0 (t) entonces, suponiendo que F0
es continua; Z 1
B 2 (t)
nAn → dt en distribución
0 t(1 − t)

Pruebas de 2 Muestras
Supongamos que tenemos dos muestras independientes, X1 , X2 , ..., Xn ∼ F0 y

Y1 , Y2 , ..., Ym ∼ F , entonces para comparar las 2 muestras hacemos la prueba de
hipótesis H0 : F = F0 , para construir la prueba usamos Fm , Gm la función de
distribución empı́rica de Xi y Yi respectivamente. De forma análoga a lo desarrollado
para las prebas de una muestra, necesitamos una forma de comparar ambas
distribuciones. Para ello usamos el estadı́stico:
Dn,m = sup |Fn (t) − Gm (t)|

0≤t≤1
Pruebas de 2 Muestras
La distribución lı́mite de Dn,m es la siguiente:

Teorema 4
Sea X1 , X2 , ..., Xn ∼ F0 y Y1 , Y2 , ..., Ym ∼ F donde F0 y F son distribuciones
continuas. Bajo la hipotesis H0 : F = F0 :
r ∞
nm X 2 2
lim P( Dn,m ≤ λ) = 1 − 2 (−1)j−1 e −2j λ
n,m n+m
j=1
m
dado que para algún 0 < γ < 1, n+m →γ

Pruebas de Bondad de Ajuste

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pruebas de Bondad de Ajuste

Cargado por

Copyright:

Formatos disponibles

Estadı́stica III

Pruebas de bondad de ajuste

Alejandro López Hernández

FES Acatlán - UNAM

March 27, 2020

3 Prueba de Cramér-von Mises

La idea de las pruebas de bondad de ajuste es comparar la función de distribución de

Ejemplo: Supongamos que tenemos los datos

X = 0.254, 1.23, 4.566, 2.165, 1.23, 1.829, 5, 3.23

Algunas alternativas para medir las diferencias en las distribucciones son:

• wn,k,g = (F0 (t) − F̂n (t))k g (F0 (t))dF0 (t)

La prueba de Kolgomorov-Smirnov se define como

Dn = sup |F0 (t) − F̂n (t)|

Para calcular Dn solo es necesario conocer las observaciones X1 , X2 , ..., Xn , si X{i} es el

Con el siguiente resultado encontraremos la distribución asintótica de Dn

Donde B(t) es un puente Browniano.

Afortunadamente, se puede desarrollar la distribución del puente browniano.

Con está distribución podemos calcular cuantiles y derivar regiones de rechazo.

De forma analoga a el estadı́stico Dn , Cn se puede escribir en función de los

Con el siguiente resultado encontraremos la distribución asintótica de Cn

De forma similar que con Dn se puede calcular la distribución asintótica de Cn

De igual forma podemos crear regiones de rechazo con esta distribución.

(F̂n (t) − F0 (t))2

De forma analoga a los estadı́sticos anteriores An se puede escribir como:

Con el siguiente resultado encontraremos la distribución asintótica de An

Donde B(t) es un puente Browniano.

Supongamos que tenemos dos muestras independientes, X1 , X2 , ..., Xn ∼ F0 y

Dn,m = sup |Fn (t) − Gm (t)|

La distribución lı́mite de Dn,m es la siguiente:

También podría gustarte