Está en la página 1de 10

Prueba de Bondad de Ajuste de

Kolmogorov-Smirnov (KS)
Hiptesis a contrastar:
H0: Los datos analizados siguen una distribucin M.
H1: Los datos analizados no siguen una distribucin M.
Estadstico de contraste:

D = sup Fn ( xi ) F0 ( xi )
1i n

donde:
xi es el i-simo valor observado en la muestra (cuyos
valores se han ordenado previamente de menor a mayor).
Fn ( xi ) es un estimador de la probabilidad de observar
valores menores o iguales que xi.
F0 ( x ) es la probabilidad de observar valores menores o
iguales que xi cuando H0 es cierta.
As pues, D es la mayor diferencia absoluta observada entre la
frecuencia acumulada observada Fn ( x ) y la frecuencia
acumulada terica F0 ( x ) , obtenida a partir de la distribucin de
probabilidad que se especifica como hiptesis nula.
Si los valores observados Fn ( x ) son similares a los esperados
F0 ( x ) , el valor de D ser pequeo. Cuanto mayor sea la
discrepancia entre la distribucin emprica F ( x ) y la distribucin
n

terica , mayor ser el valor de D.

Por tanto, el criterio para la toma de la decisin entre las dos


hiptesis ser de la forma:
Si DD Aceptar H0
Si D>D Rechazar H0
donde el valor D se elige de tal manera que:

P (Rechazar H0 H0 es cierta) =

= P ( D > D Los datos siguen la distribucion M) =

siendo el nivel de significacin del contraste.


Para el clculo prctico del estadstico D deben obtenerse:

i 1

D = max F0 ( xi )

1i n
n

D + = max F0 ( xi ) ,
1i n
n

y a partir de estos valores:

D = max {D + , D }

A su vez, el valor de D depende del tipo de distribucin a probar


y se encuentra tabulado. En general es de la forma:

c
k ( n)
donde c y k(n) se encuentran en las tablas siguientes:
D =

Modelo
General
Normal
Exponencial
Weibull n=10
Weibull n=20
Weibull n=50
Weibull n=

0.1
1.224
0.819
0.990
0.760
0.779
0.790
0.803

0.05
1.358
0.895
1.094
0.819
0.843
0.856
0.874

0.01
1.628
1.035
1.308
0.944
0.973
0.988
1.007

DISTRIBUCIN QUE SE
CONTRASTA
General. Parmetros conocidos.

k(n)

k (n) = n + 0.12 +

Normal

k ( n) = n 0.01 +

Exponencial

k (n) = n + 0.12 +

Weibull

k ( n) = n

0.11
n
0.85
n
0.11

Ejemplo 1:
Determinar si los valores de la primera columna se conforman a una
distribucin normal:
Y
6.0
2.3
4.8
5.6
4.5
3.4
3.3
1.9
4.8
4.5

Y-ordenados
1.9
2.3
3.3
3.4
4.5
4.5
4.8
4.8
5.6
6.0

Orden
1
2
3
4
5
6
7
8
9
10

F
Z
0.1 -1.628
0.2 -1.332
0.3 -0.592
0.4 -0.518
0.5 0.296
0.6 0.296
0.7 0.518
0.8 0.518
0.9 1.11
1.0 1.406

Fo
0.051
0.091
0.276
0.302
0.616
0.616
0.698
0.698
0.867
0.920

D+
0.049
0.109
0.024
0.098
-0.116*
-0.016
0.002
0.102
0.033
0.080

D0.051
-0.009
0.076
0.002
0.216*
0.116
0.098
-0.002
0.067
0.020

(media: 4.1 varianza: 1.82)


D =

0.895
10 0.01 +

0.85

0.895
= 0.262
3.42

10

Como el valor D = 0.216 < 0.262, no se rechaza H0 y se acepta


que los datos se distribuyen normalmente.

Modo alternativo de realizar la prueba de Kolmogorov


Smirnov.
La toma de la decisin en el contraste anterior puede llevarse a
cabo tambin mediante el empleo del p-valor asociado al
estadstico D observado. El p-valor se define como:
p-valor = P ( D > Dobs H 0 es cierta )

Si el p-valor es grande significa que, siendo cierta la hiptesis


nula, el valor observado del estadstico D era esperable. Por
tanto no hay razn para rechazar dicha hiptesis. Asimismo, si el
p-valor fuera pequeo, ello indicara que, siendo cierta la
hiptesis nula, era muy difcil que se produjera el valor de D que
efectivamente se ha observado. Ello obliga a poner muy en duda,
y por tanto a rechazar, la hiptesis nula. De esta forma, para un
nivel de significacin , la regla de decisin para este contraste
es:
Si p-valor Aceptar H0
Si p-valor < Rechazar H0
Obviamente, la obtencin del p-valor requiere conocer la
distribucin de D bajo la hiptesis nula y hacer el clculo
correspondiente. En el caso particular de la prueba de
Kolmogorov Smirnov, la mayora de los paquetes de software
estadstico realizan este clculo y proporcionan el p-valor
directamente.

Ejemplo 2:
En los siguientes ejemplos se han simulado datos con distribucin
exponencial o normal, contrastndose en todos los casos si puede
aceptarse que los datos siguen distribucin exponencial. Se ha
acompaado al contraste con el histograma de los datos y el grfico Q-Q
Plot (grfico cuantil-cuantil: se representan los cuantiles de la distribucin
terica supuesta frente a los cuantiles de la distribucin emprica. En un
buen ajuste, la gran mayora de estos puntos deberan situarse sobre la
recta y=x)

Simulacin de datos con distribucin exponencial


n=1000

1.0
0.5
0.0

Density

1.5

Histogram of x

0.0

0.5

1.0

1.5

2.0

2.5

2.0

2.5

2
1
0

qu

Q-Q Plot

0.0

0.5

1.0

1.5

x
Kolmogorov Smirnov D = 0.030760

p-valor = 0.3004146

Simulacin de datos con distribucin exponencial:


n=1000

1.0
0.5
0.0

Density

1.5

Histogram of x

2
1
0

qu

Q-Q Plot

x
Kolmogorov Smirnov D = 0.018285

3
p-valor = 0.8917437

Simulacin de datos con distribucin exponencial


n=1000

1.5
1.0
0.0

0.5

Density

2.0

Histogram of x

0.0

0.5

1.0

1.5

2.0

2.5

3.0

2.0

2.5

3.0

2
1
0

qu

Q-Q Plot

0.0

0.5

1.0

1.5

x
Kolmogorov Smirnov D = 0.047714

p-valor = 0.02106549

Ntese que, en este caso, aunque los datos se han generado realmente
con distibucin exponencial, el p-valor conduce a rechazar que sta sea la
distribucin de los datos.

Simulacin de datos con distribucin normal


n=1000

0.4
0.2
0.0

Density

0.6

Histogram of x

-1

2
1
0

qu

Q-Q Plot

-1

x
Kolmogorov Smirnov D = 0.237

p-valor = 0

En este caso, obviamente se rechaza que la distribucin sea exponencial,


cosa que adems se ve claramente en los grficos.

Simulacin de datos con distribucin normal


n=10

0.4
0.0

Density

0.8

Histogram of x

-1.0

-0.5

0.0

0.5

1.0

0.8
0.4
0.0

qu

1.2

Q-Q Plot

-0.5

0.0
x
Kolmogorov Smirnov D = 0.33481

0.5

1.0

p-valor = 0.2122409

En este caso, aunque los datos se han generado con distribucin normal,
el contraste conduce a aceptar que siguen distribucin normal. Ello se
debe a que en general cuando hay poca informacin (en este caso slo
diez datos), la hiptesis nula tiende a no ser rechazada, salvo que haya
una evidencia abrumadora en su contra.

Simulacin de datos con distribucin exponencial


n=10

0.4
0.0

Density

0.8

Histogram of x

0.0

0.5

1.0

1.5

0.8
0.4
0.0

qu

1.2

Q-Q Plot

0.2

0.4

0.6

0.8

x
Kolmogorov Smirnov D = 0.54233

1.0

1.2

1.4

p-valor = 0.005575512

Aqu ha ocurrido lo contrario al caso anterior; a pesar de que los datos son
originalmente exponenciales, el contraste rechaza que lo sean

También podría gustarte