Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Complemento 3 Prueba de Bondad de Ajuste de Kolmogorov Smirnov PDF
Complemento 3 Prueba de Bondad de Ajuste de Kolmogorov Smirnov PDF
Kolmogorov-Smirnov (KS)
Hiptesis a contrastar:
H0: Los datos analizados siguen una distribucin M.
H1: Los datos analizados no siguen una distribucin M.
Estadstico de contraste:
D = sup Fn ( xi ) F0 ( xi )
1i n
donde:
xi es el i-simo valor observado en la muestra (cuyos
valores se han ordenado previamente de menor a mayor).
Fn ( xi ) es un estimador de la probabilidad de observar
valores menores o iguales que xi.
F0 ( x ) es la probabilidad de observar valores menores o
iguales que xi cuando H0 es cierta.
As pues, D es la mayor diferencia absoluta observada entre la
frecuencia acumulada observada Fn ( x ) y la frecuencia
acumulada terica F0 ( x ) , obtenida a partir de la distribucin de
probabilidad que se especifica como hiptesis nula.
Si los valores observados Fn ( x ) son similares a los esperados
F0 ( x ) , el valor de D ser pequeo. Cuanto mayor sea la
discrepancia entre la distribucin emprica F ( x ) y la distribucin
n
P (Rechazar H0 H0 es cierta) =
i 1
D = max F0 ( xi )
1i n
n
D + = max F0 ( xi ) ,
1i n
n
D = max {D + , D }
c
k ( n)
donde c y k(n) se encuentran en las tablas siguientes:
D =
Modelo
General
Normal
Exponencial
Weibull n=10
Weibull n=20
Weibull n=50
Weibull n=
0.1
1.224
0.819
0.990
0.760
0.779
0.790
0.803
0.05
1.358
0.895
1.094
0.819
0.843
0.856
0.874
0.01
1.628
1.035
1.308
0.944
0.973
0.988
1.007
DISTRIBUCIN QUE SE
CONTRASTA
General. Parmetros conocidos.
k(n)
k (n) = n + 0.12 +
Normal
k ( n) = n 0.01 +
Exponencial
k (n) = n + 0.12 +
Weibull
k ( n) = n
0.11
n
0.85
n
0.11
Ejemplo 1:
Determinar si los valores de la primera columna se conforman a una
distribucin normal:
Y
6.0
2.3
4.8
5.6
4.5
3.4
3.3
1.9
4.8
4.5
Y-ordenados
1.9
2.3
3.3
3.4
4.5
4.5
4.8
4.8
5.6
6.0
Orden
1
2
3
4
5
6
7
8
9
10
F
Z
0.1 -1.628
0.2 -1.332
0.3 -0.592
0.4 -0.518
0.5 0.296
0.6 0.296
0.7 0.518
0.8 0.518
0.9 1.11
1.0 1.406
Fo
0.051
0.091
0.276
0.302
0.616
0.616
0.698
0.698
0.867
0.920
D+
0.049
0.109
0.024
0.098
-0.116*
-0.016
0.002
0.102
0.033
0.080
D0.051
-0.009
0.076
0.002
0.216*
0.116
0.098
-0.002
0.067
0.020
0.895
10 0.01 +
0.85
0.895
= 0.262
3.42
10
Ejemplo 2:
En los siguientes ejemplos se han simulado datos con distribucin
exponencial o normal, contrastndose en todos los casos si puede
aceptarse que los datos siguen distribucin exponencial. Se ha
acompaado al contraste con el histograma de los datos y el grfico Q-Q
Plot (grfico cuantil-cuantil: se representan los cuantiles de la distribucin
terica supuesta frente a los cuantiles de la distribucin emprica. En un
buen ajuste, la gran mayora de estos puntos deberan situarse sobre la
recta y=x)
1.0
0.5
0.0
Density
1.5
Histogram of x
0.0
0.5
1.0
1.5
2.0
2.5
2.0
2.5
2
1
0
qu
Q-Q Plot
0.0
0.5
1.0
1.5
x
Kolmogorov Smirnov D = 0.030760
p-valor = 0.3004146
1.0
0.5
0.0
Density
1.5
Histogram of x
2
1
0
qu
Q-Q Plot
x
Kolmogorov Smirnov D = 0.018285
3
p-valor = 0.8917437
1.5
1.0
0.0
0.5
Density
2.0
Histogram of x
0.0
0.5
1.0
1.5
2.0
2.5
3.0
2.0
2.5
3.0
2
1
0
qu
Q-Q Plot
0.0
0.5
1.0
1.5
x
Kolmogorov Smirnov D = 0.047714
p-valor = 0.02106549
Ntese que, en este caso, aunque los datos se han generado realmente
con distibucin exponencial, el p-valor conduce a rechazar que sta sea la
distribucin de los datos.
0.4
0.2
0.0
Density
0.6
Histogram of x
-1
2
1
0
qu
Q-Q Plot
-1
x
Kolmogorov Smirnov D = 0.237
p-valor = 0
0.4
0.0
Density
0.8
Histogram of x
-1.0
-0.5
0.0
0.5
1.0
0.8
0.4
0.0
qu
1.2
Q-Q Plot
-0.5
0.0
x
Kolmogorov Smirnov D = 0.33481
0.5
1.0
p-valor = 0.2122409
En este caso, aunque los datos se han generado con distribucin normal,
el contraste conduce a aceptar que siguen distribucin normal. Ello se
debe a que en general cuando hay poca informacin (en este caso slo
diez datos), la hiptesis nula tiende a no ser rechazada, salvo que haya
una evidencia abrumadora en su contra.
0.4
0.0
Density
0.8
Histogram of x
0.0
0.5
1.0
1.5
0.8
0.4
0.0
qu
1.2
Q-Q Plot
0.2
0.4
0.6
0.8
x
Kolmogorov Smirnov D = 0.54233
1.0
1.2
1.4
p-valor = 0.005575512
Aqu ha ocurrido lo contrario al caso anterior; a pesar de que los datos son
originalmente exponenciales, el contraste rechaza que lo sean