Está en la página 1de 18

Estadı́stica III

Pruebas de bondad de ajuste

Alejandro López Hernández

FES Acatlán - UNAM

March 27, 2020


Índice

1 Introducción

2 Prueba de Kolgomorov-Smirnov

3 Prueba de Cramér-von Mises

4 Prueba de Anderson-Darling

5 Pruebas de 2 Muestras
Introducción

La idea de las pruebas de bondad de ajuste es comparar la función de distribución de


nuestros datos (F̂n ) con una función de distribución dada (F0 ). Nuestro objetivo será
encontar estadı́stos que nos ayuden a aceptar o rechazar la siguiente prueba:

H0 : F = F 0
Introducción

Ejemplo: Supongamos que tenemos los datos

X = 0.254, 1.23, 4.566, 2.165, 1.23, 1.829, 5, 3.23

Una pregunta interesante es si los datos tiene una distribución uniforme, para probar la
hipótesis, es necesario calcular F̂n y con ella la prueba serı́a de la forma:

H0 : F = F0 ∼ U(0, 5)
Introducción

Algunas alternativas para medir las diferencias en las distribucciones son:


• Dn+ = sup−∞<t<∞ (F̂n (t) − F0 (t))
• Dn− = sup−∞<t<∞ (F0 (t) − F̂n (t))
• Dn = sup−∞<t<∞ |F0 (t) − F̂n (t)| = max(Dn+ , Dn− )
• Vn = Dn+ + Dn−
• Cn = (F0 (t) − F̂n (t))2 dF0 (t)
R

(t)−F0 (t))2
• An = F(F̂n(t)(1−F
R
0 0 (t))
dF0 (t)
• wn,k,g = (F0 (t) − F̂n (t))k g (F0 (t))dF0 (t)
R

• wn,k,g = (F0 (t) − F̂n (t))k g (F0 (t))dF0 (t)


R
Prueba de Kolgomorov-Smirnov

La prueba de Kolgomorov-Smirnov se define como

Dn = sup |F0 (t) − F̂n (t)|


−∞<t<∞

Se define de esa manera debido al teorema de Gilvenko-Cantelli, que nos dice que
sup−∞<t<∞ |F (t) − F̂n (t)| → 0 a.s, es decir que la máxima distancia entre la
distribución empı́rica y la real tiende a 0. Por lo tanto si nuestra F0 es la distribución
real, se espera que Dn sea pequeño.
Prueba de Kolgomorov-Smirnov

Para calcular Dn solo es necesario conocer las observaciones X1 , X2 , ..., Xn , si X{i} es el


i-ésimo estadı́stico de orden, se puede probar que
i i −1
Dn = max max( − F0 (X{i} ), F0 (X{i} ) − )
1≤i≤n n n
Prueba de Kolgomorov-Smirnov

Con el siguiente resultado encontraremos la distribución asintótica de Dn


Teorema 1
Sea X1 , X2 , ..., Xn ∼ F0 y sea Dn = supt |F0 (t) − F̂n (t)| entonces, suponiendo que F0
es continua; √
nDn → sup |B(t)| en distribución
0≤t≤1

Donde B(t) es un puente Browniano.


Prueba de Kolgomorov-Smirnov

Afortunadamente, se puede desarrollar la distribución del puente browniano.


Proposición 1
Bajo la hipótesis H0 entonces

√ X 2 2
lim P( nDn ≤ λ) = 1 − 2 (−1)j−1 e −2j λ
n
j=1

Con está distribución podemos calcular cuantiles y derivar regiones de rechazo.


Prueba de Cramér-von Mises

La idea de este estadı́stico es medir el area que separa F̂n de F0 , el estadı́stico se define
como: Z
Cn = (F0 (t) − F̂n (t))2 dF0 (t)
Prueba de Cramér-von Mises

De forma analoga a el estadı́stico Dn , Cn se puede escribir en función de los


estadı́sticos de orden:
n 
2i − 1 2

1 X
Cn = + F0 (X{i} ) −
12n 2n
i=1
Prueba de Cramér-von Mises

Con el siguiente resultado encontraremos la distribución asintótica de Cn


Teorema 2
Sea X1 , X2 , ..., Xn ∼ F0 y sea Cn = (F0 (t) − F̂n (t))2 dF0 (t) entonces, suponiendo que
R

F0 es continua; Z 1
nCn → B 2 (t)dt en distribución
0
Donde B(t) es un puente Browniano.
Prueba de Cramér-von Mises

De forma similar que con Dn se puede calcular la distribución asintótica de Cn


Proposición 2
Bajo la hipótesis H0 entonces
∞ Z 4j 2 π2 s √ xy
1X j+1 − y e− 2
lim P(nCn > λ) = (−1) √ dy
n π (2j−1)2 π 2 sin( y ) y
j=1

De igual forma podemos crear regiones de rechazo con esta distribución.


Prueba de Anderson-Darling

La idea es tambien medir el área en que separa F̂n de F0 , sin embargo, el termino
F0 (t)(1 − F0 (t)) busca tener una mayor ponderación en la región donde la distribución
F0 (t) tiene mayor incertidumbre. El estadistico se define como

(F̂n (t) − F0 (t))2


Z
An = dF0 (t)
F0 (t)(1 − F0 (t))
Prueba de Anderson-Darling

De forma analoga a los estadı́sticos anteriores An se puede escribir como:


" n #
1 X
An = −n − (2i − 1)(log F0 (X{i} ) + log(1 − F0 (X{n−i+1} ))
n
i=1
Prueba de Anderson-Darling

Con el siguiente resultado encontraremos la distribución asintótica de An


Teorema 3
(t)−F0 (t))2
Sea X1 , X2 , ..., Xn ∼ F0 y sea An = F(F̂0n(t)(1−F
R
0 (t))
dF0 (t) entonces, suponiendo que F0
es continua; Z 1
B 2 (t)
nAn → dt en distribución
0 t(1 − t)

Donde B(t) es un puente Browniano.


Pruebas de 2 Muestras

Supongamos que tenemos dos muestras independientes, X1 , X2 , ..., Xn ∼ F0 y


Y1 , Y2 , ..., Ym ∼ F , entonces para comparar las 2 muestras hacemos la prueba de
hipótesis H0 : F = F0 , para construir la prueba usamos Fm , Gm la función de
distribución empı́rica de Xi y Yi respectivamente. De forma análoga a lo desarrollado
para las prebas de una muestra, necesitamos una forma de comparar ambas
distribuciones. Para ello usamos el estadı́stico:

Dn,m = sup |Fn (t) − Gm (t)|


0≤t≤1
Pruebas de 2 Muestras

La distribución lı́mite de Dn,m es la siguiente:


Teorema 4
Sea X1 , X2 , ..., Xn ∼ F0 y Y1 , Y2 , ..., Ym ∼ F donde F0 y F son distribuciones
continuas. Bajo la hipotesis H0 : F = F0 :
r ∞
nm X 2 2
lim P( Dn,m ≤ λ) = 1 − 2 (−1)j−1 e −2j λ
n,m n+m
j=1

m
dado que para algún 0 < γ < 1, n+m →γ

También podría gustarte