Pruebas de Bondad de Ajuste y de Normalidad

Pruebas de bondad de ajuste
Prueba Ji-cuadrada
Esta prueba trata de verificar que una muestra aleatoria proviene de una distribucin en particular,
es decir que sigue una distribucin de probabilidad especfica.
Luego,
H0: La muestra aleatoria proviene de una poblacin f(x). vs
H1: La muestra aleatoria NO proviene de una poblacin f(x).
Esta prueba se aplica de la siguiente manera. Suponer una muestra aleatoria de tamao n.
1. Organizar los valores de la muestra aleatoria en la siguiente tabla de frecuencias.
Intervalo de clase
1
2
3
4
Frecuencia observada
FO1
FO2
FO3
FO4
FOk
Frecuencia esperada
FE1
FE2
FE3
FE4
FEk
Donde FEi = n Prob(x intervalo i ), y n es el tamao de la muestra aleatoria.

Adems, se requiere que FEi 5 para todo i.
(FO i FE i ) 2
.
FE i
i 1
k
2
2. Calcular
3. Rechazar H0 con un nivel de significancia si 2 2 , k r 1 , donde k es el nmero de

sumandos en 2 , r es el nmero de parmetros independientes estimados.
Ejemplo: Resolver Problema 8.64/Scheaffer&McClave 4 ed.

Los siguientes datos (X) representan el nmero de colonias de bacterias encontradas en cada una de
400 muestras observadas al microscopio. Investigar si es razonable pensar que siguen una
distribucin Poisson.
X
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
SUMA
FOi
56
104
80
62
42
27
9
9
5
3
2
0
0
0
0
0
0
0
0
1
400
Solucin: La siguiente tabla presenta los clculos requeridos para la obtencin del valor del
estadstico Ji-cuadrada. Para la obtencin de las frecuencias esperadas se calcularon probabilidades
basadas en una Poisson con =2.44, el cual es el valor promedio para las X en la muestra.
FOi
X*Foi
56
104
104
80
160
62
186
42
168
27
135
54
63
40
27
10
20
11
12
13
14
15
16
17
18
19
SUMA
1
400
19
976
P(X=x)
FEi
0.087160 34.864
851
34
0.212672 85.068
478
99
0.259460 103.78
423
42
0.211027 84.411
81
12
0.128726 51.490
964
79
0.062818 25.127
759
5
0.025546 10.218
295
52
0.008904 3.5618
709
83
0.002715 1.0863
936
74
0.000736 0.2945
32
28
0.000179 0.0718
662
65
3.98523E- 0.0159
05
41
8.10331E- 0.0032
06
41
1.52093E- 0.0006
06
08
2.65076E- 0.0001
07
06
4.31191E1.72E08
05
6.57566E2.63E09
06
3.78E9.438E-10
07
1.27937E5.12E10
08
1.64298E6.57E11
09
400
PROMED
IO
2.44
Los valores en rojo muestran valores esperados muy pequeos por lo que se unen los renglones en
uno solo obteniendo:
(O
MAS)
FOi
0
56
104
80
62
42
27
20
SUMA
400
P(X=x
(Foi)
FEi
Fei)
0.0871 34.864 21.135
0
61
34
66
0.2126 85.068 18.931
104
72
99
01
0.2594 103.78 23.784
160
6
42
2
0.2110 84.411 22.411
186
28
12
1
0.1287 51.490 9.4907
168
27
79
9
0.0628 25.127 1.8724
135
19
5
97
0.0255 10.218 1.2185
54
46
52
2
0.0125 5.0345 14.965
140
86
68
43
1
400
VALOR CRITICO
CONCLUSIN:
SE RECHAZA LA DISTRIBUCIN
POISSON.
APORTACI
ON A JICUADRAD
A
12.81298
001
4.212852
373
5.450606
8
5.950145
686
1.749342
385
0.139538
071
0.145303
484
44.48527
866
74.94604 VALOR JI747 CUADRADA
12.59158
724
Pruebas sobre normalidad basada en un conjunto de datos

Primeramente la exploracin grfica debe arrojar un histograma aproximadamente simtrico y en
forma de campana:
Histogram of X1
Normal
35
Mean
StDev
N
30
1.074
1.009
299
Frequency
25
20
15
10
5
0
-1.50
-0.75
0.00
0.75
X1
1.50
2.25
3.00
Otras formas de verificacin:

1. Construir una grfica Q-Q
Los pasos para construir una grfica Q-Q son los siguientes:
a. Ordenar las observaciones para obtener los estadsticos de orden x (1), x(2), . x(n) y sus
1
1
1
correspondientes valores de probabilidad: 1 n , 2 n , , n n .

2
2
2
b. Calcular los cuantiles normales estndar q(1), q(2), . q(n)

Un cuantil normal estndar est definido por la siguiente relacin:
q( j )
P ( Z q( j ) )
j 12
1 z2 2
e dz
n
2
c. Graficar los pares de observaciones (q(1), x(1)), (q(2, x(2). (q(n, x(n) y examinar la
rectitud de la grfica.
Los grficos Q-Q no son particularmente informativos a menos que el tamao muestral
sea grande (por lo menos n 20 ).
Ejemplo. Construir la grfica Q-Q de los siguientes datos para verificar si provienen de una
distribucin normal. (observe que X = 44.096 y S = 37.703)
y (percentiles tericos)
k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
x
1.1
3.5
3.8
9.8
13.7
14.7
16.5
16.8
17.1
21.5
22.4
28.6
29.3
31.0
35.6
36.6
53.9
68.0
72.1
83.9
91.2
92.2
105.4
108.4
125.3
Prob. acumulada
0.02
0.06
0.10
0.14
0.18
0.22
0.26
0.30
0.34
0.38
0.42
0.46
0.50
0.54
0.58
0.62
0.66
0.70
0.74
0.78
0.82
0.86
0.90
0.94
0.98
Percentil terico (y)

-33.3
-14.5
-4.2
3.4
9.6
15.0
19.8
24.3
28.5
32.6
36.5
40.3
44.1
47.9
51.7
55.6
59.6
63.9
68.4
73.2
78.6
84.8
92.4
102.7
121.5
(x, y)
(1.1, -33.3)
(3.5, -14.5)
(3.8, -4.2)
(9.8, 3.4)
(13.7, 9.6)
(14.7, 15.0)
(16.5, 19.8)
(16.8, 24.3)
(17.1, 28.5)
(21.5, 32.6)
(22.4, 36.5)
(28.6, 40.3)
(29.3, 44.1)
(31.0, 47.9)
(35.6, 51.7)
(36.6, 55.6)
(53.9, 59.6)
(68.0, 63.9)
(72.1, 68.4)
(83.9, 73.2)
(91.2, 78.6)
(92.2, 84.8)
(105.4, 92.4)
(108.4, 102.7)
(125.3, 121.5)
150
100
y
recta a 45
50
0
-50
50
100
150
x (valores de la muestra)
Ejemplo. Hacer una grfica Q-Q para los datos del ejemplo anterior ajustndolos a una distribucin
exponencial.
y (percentiles tericos)
k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
x
1.1
3.5
3.8
9.8
13.7
14.7
16.5
16.8
17.1
21.5
22.4
28.6
29.3
31.0
35.6
36.6
53.9
68.0
72.1
83.9
91.2
92.2
105.4
108.4
125.3
Prob. acumulada
0.02
0.06
0.10
0.14
0.18
0.22
0.26
0.30
0.34
0.38
0.42
0.46
0.50
0.54
0.58
0.62
0.66
0.70
0.74
0.78
0.82
0.86
0.90
0.94
0.98
Percentil terico (y)

0.9
2.7
4.6
6.7
8.8
11.0
13.3
15.7
18.3
21.1
24.0
27.2
30.6
34.2
38.3
42.7
47.6
53.1
59.4
66.8
75.6
86.7
101.5
124.1
172.5
(x, y)
(1.1, 0.9)
(3.5, 2.7)
(3.8, 4.6)
(9.8, 6.7)
(13.7, 8.8)
(14.7, 11.0)
(16.5, 13.3)
(16.8, 15.7)
(17.1, 18.3)
(21.5, 21.1)
(22.4, 24.0)
(28.6, 27.2)
(29.3, 30.6)
(31.0, 34.2)
(35.6, 38.3)
(36.6, 42.7)
(53.9, 47.6)
(68.0, 53.1)
(72.1, 59.4)
(83.9, 66.8)
(91.2, 75.6)
(92.2, 86.7)
(105.4, 101.5)
(108.4, 124.1)
(125.3, 172.5)
200
150
y
recta a 45
100
50
0
0
50
100
x (valores de la muestra)
2. Coeficiente de correlacin
150
Una forma de medir la rectitud de la grfica Q-Q puede ser a travs del coeficiente de
correlacin de los puntos en la grfica.
Este coeficiente de correlacin queda definido por:
x x q q
n
rQ
j 1
x x q q
n
j 1
j 1
Con este coeficiente es posible hacer una prueba de normalidad poderosa. Se rechaza la
hiptesis de normalidad si el coeficiente de correlacin es inferior al nivel crtico.
PUNTOS CRTICOS PARA LA PRUEBA DE NORMALIDAD BASADA EN EL

COEFICIENTE DE CORRELACIN LOS PUNTOS EN LA Q-Q PLOT
Tamao de la
muestra
n
5
10
15
20
25
30
35
40
45
50
55
60
75
100
150
200
300
0.01
0.8299
0.8801
0.9126
0.9269
0.9410
0.9479
0.9538
0.9599
0.9632
0.9671
0.9695
0.9720
0.9771
0.9822
0.9879
0.9905
0.9935
Niveles de Significancia
0.05
0.8788
0.9198
0.9389
0.9508
0.9591
0.9652
0.9682
0.9726
0.9749
0.9768
0.9787
0.9801
0.9838
0.9873
0.9913
0.9931
0.9953
0.10
0.9032
0.9351
0.9503
0.9604
0.9665
0.9715
0.9740
0.9771
0.9792
0.9809
0.9822
0.9836
0.9866
0.9895
0.9928
0.9942
0.9960
Ms informacin:
Filliben, J.J. The probability plot correlation coefficient test for normality. Technometrics, 17,
No. 1 (1975), 111-117.
Ejemplo
Construir una Q-Q plot para la radiacin solar dada en la siguiente tabla y hacer
una prueba de normalidad basada en el coeficiente correlacin rQ . Sea 0.05
y use la entrada correspondiente para n=40 en la Tabla 4.2
j
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
solar
radiation(x2)
30
35
37
40
48
52
62
62
64
67
68
69
70
71
71
71
72
72
72
75
76
77
78
79
79
79
80
82
83
84
84
85
86
86
88
88
probability
levels
0.011904762
0.035714286
0.05952381
0.083333333
0.107142857
0.130952381
0.154761905
0.178571429
0.202380952
0.226190476
0.25
0.273809524
0.297619048
0.321428571
0.345238095
0.369047619
0.392857143
0.416666667
0.44047619
0.464285714
0.488095238
0.511904762
0.535714286
0.55952381
0.583333333
0.607142857
0.630952381
0.654761905
0.678571429
0.702380952
0.726190476
0.75
0.773809524
0.797619048
0.821428571
0.845238095
quantiles
-2.26019
-1.80274
-1.55878
-1.38299
-1.24187
-1.1219
-1.01622
-0.92082
-0.83315
-0.75145
-0.67449
-0.60133
-0.53126
-0.46371
-0.39821
-0.33438
-0.27188
-0.21043
-0.14976
-0.08964
-0.02985
0.029845
0.089642
0.149762
0.210428
0.27188
0.334377
0.398209
0.463708
0.531261
0.601332
0.67449
0.751452
0.833147
0.920823
1.016222
37
38
39
40
41
42
90
91
91
98
103
107
0.869047619
0.892857143
0.916666667
0.94047619
0.964285714
0.988095238
1.1219
1.241867
1.382994
1.558784
1.802743
2.260189
Scatterplot of solar radiation vs quantiles

110
100
solar radiation
90
80
70
60
50
40
30
20
-2
-1
0
quantiles
(x
j 1
( j)
x )(q ( j ) q ) 686.8434
(x
j 1
( j)
x ) 2 111 .0006
( j)
q ) 2 6.383553
(q
j 1
(x
( j)
rQ
x ) ( q( j ) q )
j 1
(x
j 1
( j)
x)
(q
j 1
( j)
0.969326
q)
Notamos que rQ <0.9726, por lo tanto rechazamos la hiptesis de normalidad al

5% de significancia.
3. Clculo del coeficiente de Shapiro-Wilk

Esta prueba est desarrollada en torno a los estadsticos de orden.
Recordemos que los estadsticos de orden son los valores de X ordenados
de menor a mayor. Estos se denotan por X(i).
Tiene una forma semejante al coeficiente de correlacin, pero reemplaza q(j) por una
funcin del valor esperado de los estadsticos de orden de la normal estndar y sus
covarianzas. Para muestras grandes ambos coeficientes son prcticamente iguales.
La prueba de Shapiro-Wilks es proporcionado por diversos paquetes estadsticos y
consiste en seguir los siguientes pasos:
El estadstico de prueba es:
b2
W
(n 1) s 2
n/2
i 1
donde b
n i 1
( x ( n i 1) x( i ) )
( n 1) / 2
a
i 1
n i 1
ai a n i 1
( x( n i 1) x (i ) )
si n es par.
si n es impar.
son los coeficientes de Shapiro - Wilk
Cabe mencionar que una desventaja del estadstico W radica en su

dificultad de cmputo dado que se requiere un conjunto diferente de
coeficientes para cada tamao de muestra.
En este caso, el criterio de decisin ser el siguiente: si el valor del
estadstico W es igual o menor que el W crtico, entonces rechazar H0.
Ejemplo. Se consideran 15 pares de plantas cultivadas en la misma

maceta. La diferencia entre alturas se muestra a continuacin. Investigar la
normalidad de estos datos mediante la prueba de Shapiro-Wilk.
Macet
a
I
I
I
II
II
II
III
III
III
III
III
IV
IV
IV
IV
Plant
a
A
188
96
168
176
153
172
177
163
146
173
186
168
177
184
96
Plant
aB
138
1163
160
160
147
149
149
122
132
144
130
144
102
124
144
Diferen
cia
50
-67
8
16
6
23
28
41
14
29
56
24
75
60
-48
Las hiptesis sern las siguientes:

H0: Los datos provienen de una distribucin normal.
H1: Los datos no provienen de una distribucin normal.
Primero que nada, note que n es impar y por lo tanto, la suma de b tendr
como lmite superior (n 1) / 2 .
Conforme a lo descrito antes, sea entonces:
Indic
e
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
x(i )
n i 1
a n i 1 ai
x( n i 1)
x(i )
( x ( n i 1) x( i ) )
a n i 1 ( x( n i 1) x( i ) )
-67
-48
6
8
14
16
23
24
28
29
41
50
56
60
75
15
14
13
12
11
10
9
-
-0.515
-0.3306
-0.2495
-0.1878
-0.1353
-0.088
-0.0433
-
75
60
56
50
41
29
28
-
-67
-48
6
8
14
16
23
-
142
108
50
42
27
13
5
-
-73.13
-35.7048
-12.475
-7.8876
-3.6531
-1.144
-0.2165
-
b
Ahora bien,
( n 1) / 2
a
i 1
n i 1
( x( n i 1) x ( i ) ) 134.211
2
y s 1428.714 .
Finalmente,
b2
(134.211) 2
(n 1) s 2 (15 1)(1428.714)
W 0.90054
Dado un =0.05, el W crtico es 0.881.
Como W>W crtico, entonces no se puede rechazar H0.
En todos los casos las pruebas de bondad de ajuste realizadas por un
paquete estadstico proporcionarn el valor-p correspondiente a la prueba.
Si el valor-p es inferior al nivel de significancia escogido para la
prueba, entonces se proceder a rechazar la hiptesis nula de que
los datos siguen la distribucin establecida.
Prueba de bondad de ajuste de Kolmogorov-Smirnov.

Esta prueba evala la hiptesis de que cierto conjunto de datos proviene de
una distribucin poblacional terica especfica. Como antes, la distribucin
terica que nos interesa es la distribucin normal.
Esta prueba est diseada para utilizarse con variables de tipo continuo y
requiere del cmputo de la funcin de distribucin acumulada.
La idea detrs de la prueba de Kolmogorov-Smirnov es comparar las
frecuencias acumuladas, tanto observadas como esperadas.
En trminos generales, la prueba de KS utiliza un estadstico definido por la
distancia vertical entre cualesquiera dos puntos de la funcin de distribucin
acumulada de la muestra y la funcin de distribucin acumulada terica. En el
punto de mxima separacin entre las dos distribuciones, la funcin de la
muestra ser significativamente mayor o menor que la distribucin acumulada
terica. Esto quiere decir que la prueba ser evaluada a dos colas.
Finalmente tendremos las siguientes hiptesis:
H0: F(X) = F0(X)

H1: F(X) F0(X)
de la muestra y
donde
F0(X)
F(X) representa la distribucin acumulada

representa
la
distribucin
acumulada
terica.
Cabe mencionar que la distancia podra declararse como nicamente mayor o

menor. En otras palabras, la prueba podra ser evaluada a una sola cola; sin
embargo, este criterio depender del problema del investigador.
Suponiendo una muestra aleatoria de tamao n, esta prueba se aplica de la
siguiente manera:
1. Ordenar los datos de la muestra de menor a mayor. Esto es,
x(1) , x ( 2) ,..., x ( n )
.
2. Obtener la frecuencia absoluta para el conjunto de los datos.
3. Obtener la frecuencia absoluta acumulada para el conjunto de los datos.
4. Obtener el cuantil para cada observacin conforme la distribucin
normal estndar. Esto es, estandarizar cada observacin mediante el
cociente:
5. Obtener la proporcin acumulada observada. Esto significa obtener la
proporcin acumulada para el conjunto de datos obtenido en el paso 3.
6. Obtener la probabilidad acumulada esperada. Esto es, obtenga la

probabilidad acumulada conforme al cuantil Z.
7. Obtener la diferencia absoluta entre la probabilidad acumulada
observada y la probabilidad acumulada esperada.
8. Obtenga la diferencia absoluta entre la probabilidad acumulada
observada (i-1) y la probabilidad acumulada esperada.
9. Sea D el mximo valor del conjunto de datos obtenido en el paso 7.
10.Sea D el mximo valor del conjunto de datos obtenido en el paso 8.
El estadstico de la prueba ser el mximo valor entre D y D.
Finalmente, el criterio de decisin ser el siguiente: si el valor del estadstico
KS es igual o mayor que el KS crtico, entonces rechazar H0.
Ejemplo. Un investigador conduce un estudio donde evala si la distribucin
del tiempo de reaccin de pacientes de migraa que responden a una dosis de
100 mg. de cierto medicamento corresponde a una distribucin normal con
media de 90 seg. y desviacin estndar de 35 seg. (i.e. =90 seg. =35 seg.)
Las 30 observaciones registradas por el investigador se enlistan
continuacin:
21,32,38,40,48,55,63,66,70,75,80,84,86,90,90,93,95,
98,100,105,106,108,115,118,126,128,130,142,155.

H0: Los datos provienen de una distribucin normal con =90 seg. y =35 seg.
H1: Los datos no provienen de una distribucin normal con los parmetros
especificados.
Conforme al algoritmo descrito antes, obtenemos la siguiente tabla:
Indic
e
Observ
.
Frecuenci
a
observad
a
Frecuenci
a
acumulad
a
21
32
38
40
48
55
63
66
70
F0(X)
F(X)
1.97
1.66
1.49
1.43
1.20
1.00
0.77
0.69
0.57
0.024
3
0.048
7
0.068
7
0.076
6
0.115
1
0.158
7
0.220
2
0.246
4
0.283
9
0.033
3
0.066
7
0.100
0
0.133
3
0.166
7
0.200
0
0.233
3
0.266
7
0.300
0
|F(X)F0(X)|
|F(X)i-1F0(X)|
0.008996
0.024337
0.017921
0.015412
0.031323
0.002011
0.056770
0.023436
0.051597
0.018264
0.041345
0.008011
0.013107
0.020226
0.020220
0.013113
0.016145
0.017188
0.43
0.29
0.17
0.11
10
75
10
11
80
11
12
84
12
13
86
13
14
90
15
0.00
15
93
16
0.09
16
95
17
0.14
17
98
18
0.23
18
100
19
0.29
19
105
20
0.43
20
106
21
0.46
21
108
22
0.51
22
115
23
0.71
23
118
24
0.80
24
126
25
1.03
25
128
26
1.09
26
130
27
1.14
27
142
28
1.49
28
145
29
1.57
29
155
30
1.86
0.334
1
0.387
5
0.431
9
0.454
5
0.500
0
0.534
2
0.556
8
0.590
4
0.612
5
0.665
9
0.676
2
0.696
5
0.762
5
0.788
1
0.848
2
0.861
2
0.873
5
0.931
3
0.942
0
0.968
4
0.333
3
0.366
7
0.400
0
0.433
3
0.500
0
0.533
3
0.566
7
0.600
0
0.633
3
0.666
7
0.700
0
0.733
3
0.766
7
0.800
0
0.833
3
0.866
7
0.900
0
0.933
3
0.966
7
1.000
0
0.000784
0.034118
0.020882
0.054215
0.031943
0.065277
0.021172
0.054506
0.000000
0.066667
0.000820
0.034153
0.009868
0.023465
0.009601
0.023732
0.020882
0.012452
0.000784
0.032549
0.023784
0.009549
0.036859
0.003526
0.004192
0.029141
0.011855
0.021478
0.014826
0.048159
0.005469
0.027864
0.026549
0.006784
0.002011
0.031323
0.024708
0.008625
0.031645
0.001688
Finalmente,
KS=Max{D=0.056,D=0.066}=0.066
Suponiendo un =0.05, el KS crtico es 0.242. Por lo tanto, como KS<KS crtico,
podemos concluir en no rechazar Ho. Esto es, no existe evidencia estadstica
suficiente que sugiera que los datos no provienen de una poblacin N(=90,
=35).
Prueba de bondad de ajuste de Anderson-Darling.
Esta prueba se sustenta en la idea que hemos trabajado antes: la diferencia
en el ajuste que puede existir entre la distribucin emprica y la
distribucin terica. La funcin propuesta por Anderson y Darling (1952) es:
n [ F ( x) F0 ( x)]2 ( F0 ( x ))dF0 ( x )
donde
Especficamente, ellos utilizaron

resulta en el siguiente estadstico:
( F0 ( x)) es una ponderacin.
( F0 ( x )) [ F0 ( x)(1 F0 ( x))]1 que finalmente
1 n
[2i 1] [ln( F ( xi )) ln(1 F ( x n i 1 )]
n i 1
A 2 ( n)
Es importante sealar que este esquema asigna una mayor ponderacin a las
colas de la distribucin.
Finalmente, el criterio de decisin ser el siguiente: si el valor del
estadstico AD es igual o mayor que el AD critico, entonces rechazar
H0.
Ejemplo. En el Aeropuerto MacArthur de Long Island se ha registrado
diariamente la velocidad del viento durante el mes de Julio. Este conjunto de
datos sugiere una distribucin con colas moderadamente pesadas. Se desea
saber si el conjunto de datos proviene de una distribucin normal.
Los datos son los siguientes:
7.7,8.5,6.9,11.1,17.1,13.3,8.9,11.1,8.8,8.9,9,11.2,6.2,7.8,11.5,
10.2, 8.7,10.7,8.8,9.5,5.6, 6.2,10.4,12.5,8.1,5.9,10.7,7.7,5.2,3.8,7.4
Conforme al estadstico descrito antes, obtenemos la siguiente tabla:
Indic
e
Obse
r.
3.8
5.2
5.6
5.9
6.2
6.2
6.9
7.4
F(X)
1.94
1.42
1.27
1.16
1.05
1.05
0.79
0.60
0.02
6
0.07
8
0.10
2
0.12
4
0.14
8
0.14
8
0.21
6
0.27
4
[2i 1]
[ln( F ( xi ) ln(1 F ( x n i 1 ))]
-10.267
-5.441
-4.609
-3.819
-3.481
11
-3.431
13
-3.051
15
-2.620
7.7
10
7.7
11
7.8
12
8.1
13
8.5
14
8.7
15
8.8
16
8.8
17
8.9
18
8.9
0.49
0.49
0.45
0.34
0.19
0.12
0.08
0.08
0.04
0.04
19
0.00
20
9.5
0.18
21
10.2
0.44
22
10.4
0.52
23
10.7
0.63
24
10.7
0.63
25
11.1
0.78
26
11.1
0.78
27
11.2
0.81
28
11.5
0.92
29
12.5
1.30
30
13.3
1.59
31
17.1
3.01
0.31
3
0.31
3
0.32
6
0.36
7
0.42
4
0.45
4
0.46
8
0.46
8
0.48
3
0.48
3
0.49
8
0.57
2
0.67
1
0.69
7
0.73
5
0.73
5
0.78
1
0.78
1
0.79
2
0.82
2
0.90
3
0.94
5
0.99
9
17
-2.489
19
-2.356
21
-2.231
23
-1.850
25
-1.546
27
-1.451
29
-1.419
31
-1.390
33
-1.359
35
-1.332
37
-1.249
39
-1.016
41
-0.794
43
-0.736
45
-0.683
47
-0.629
49
-0.490
51
-0.407
53
-0.393
55
-0.327
57
-0.210
59
-0.138
61
-0.028
Donde
[2i 1] [ln(F ( x )) ln(1 F ( x

i
i 1
Finalmente,
n i 1
)] 970.335
(970.335) (31)
(970.335) 0.30112
n
31
A 2 ( n)
Suponiendo un =0.10, el valor crtico de la prueba AD es 0.656. Ya que
A 2 A 2 0.10 no se puede rechazar H0. Esto es, no existe evidencia estadstica

suficiente que sugiera que el conjunto de datos (velocidad del viento en el mes
de Julio) no sigue una distribucin normal.
Prueba de bondad de ajuste de Ryan-Joiner.
La idea detrs de esta prueba es conocer qu tan relacionados estarn los
datos suponiendo que son normales; es decir, utiliza el coeficiente de
correlacin como mtrica entre los datos y los cuantiles de la distribucin
normal estndar. Los pasos para desarrollar esta prueba son los siguientes:
Ordenar los datos de la muestra de menor a mayor.
Esto es,
x(1) , x ( 2) ,..., x ( n )
Calcular el cuantil:
i 0.375
n 0.25 .
Calcular la probabilidad de dicho cuantil dada la distribucin normal estndar.
Esto es
i 0.375
n 0.25
y i 1
Obtener el coeficiente de correlacin para el conjunto de datos

Recordemos que el coeficiente de correlacin r est dado por:
n
(x
i 1
{xi , y i } .
x )( yi y )
sx s y
Similarmente, recordemos que mientras ms se aleje el valor de r de 1,

entonces menor ser la indicacin de que los datos estn relacionados; es
decir, la conclusin de que los datos se pueden modelar como una distribucin
normal ser ms dbil.
En resumen, el criterio de decisin ser el siguiente: si el valor del
estadstico RJ es igual o menor que el RJ critico, entonces rechazar H 0.
Ejemplo. Considere el siguiente conjunto de datos y aplique la prueba de RyanJoiner para verificar que dicho conjunto proviene de una distribucin normal.
Los datos son los siguientes:

1.15,1.4,1.34,1.29,1.36,1.26,1.22,1.4,1.29,1.14,1.32,1.34,1.26,1.36,1.36,1.3,1.
28,1.45,1.29,1.28,1.38,1.55,1.46,1.32
Conforme a lo descrito en los pasos para esta prueba, obtenemos la siguiente
tabla:
i 0.375
n 0.25
Indic
e
Obser
v. (Xi)
i 0.375
n 0.25
y i 1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1.14
1.15
1.22
1.26
1.26
1.28
1.28
1.29
1.29
1.29
1.3
1.32
1.32
1.34
1.34
1.36
1.36
1.36
1.38
1.4
1.4
1.45
1.46
1.55
1.67
0.02577
0.06701
0.10825
0.14948
0.19072
0.23196
0.27320
0.31443
0.35567
0.39691
0.43814
0.47938
0.52062
0.56186
0.60309
0.64433
0.68557
0.72680
0.76804
0.80928
0.85052
0.89175
0.93299
0.97423
0.97525
-1.94690
-1.49843
-1.23590
-1.03865
-0.87524
-0.73241
-0.60318
-0.48332
-0.37006
-0.26136
-0.15568
-0.05171
0.05171
0.15568
0.26136
0.37006
0.48332
0.60318
0.73241
0.87524
1.03865
1.23590
1.49843
1.94690
1.96417
En este caso,r=0.95787. Suponiendo un =0.05, el valor crtico de la prueba
RJ RJ
0.05
RJ es 0.9582. Ya que
podemos concluir en rechazar H 0. Es
importante notar que si tomramos r=0.96, entonces no rechazaramos H 0.
Bibliografa.
- Walpole Ronald, Myers Raymond, et al. Probability & Statistics for

Engineers & Scientists. Prentice Hall, 8th ed.
- Devore Jay L., Probabilidad y estadstica para Ingeniera y Ciencias.

-
Cengage Learning, 7th ed.

Henry C. Thode, Testing For Normality. CRC Press, 2002.
Sheskin David J., Hanbook of Parametric and Nonparametric Statistical
Procedures. Champan nd Hall/CRC, 2004.
Transformaciones a la normalidad
Escala original
Escala transformada
1. Conteos, y
y
p
1
log
2
1 - p
2.Proporciones, p
logit(p)
3.Correlaciones, r
Fishers z(r)
1
1 r
log
2
1 r
Power transformations:
Transformacin de Box y Cox
x 1
0
x ( )
ln x 0
La solucin es aqulla que maximiza la expresin:
n 1 n
l ( ) ln x (j ) x ( )
2 n j 1
donde:
x ( )
1 ln x j
j 1
( )
1 n ( ) 1 n x j 1
x
j n
n j 1

j 1
Una vez realizada la transformacin elegida, deber realizarse una inspeccin para
verificar el supuesto de normalidad de los datos transformados.

Pruebas de Bondad de Ajuste y de Normalidad

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pruebas de Bondad de Ajuste y de Normalidad

Cargado por

Copyright:

Formatos disponibles

Pruebas de bondad de ajuste

Donde FEi = n Prob(x intervalo i ), y n es el tamao de la muestra aleatoria.

3. Rechazar H0 con un nivel de significancia si 2 2 , k r 1 , donde k es el nmero de

Ejemplo: Resolver Problema 8.64/Scheaffer&McClave 4 ed.

Pruebas sobre normalidad basada en un conjunto de datos

Otras formas de verificacin:

correspondientes valores de probabilidad: 1 n , 2 n , , n n .

b. Calcular los cuantiles normales estndar q(1), q(2), . q(n)

Percentil terico (y)

Percentil terico (y)

PUNTOS CRTICOS PARA LA PRUEBA DE NORMALIDAD BASADA EN EL

Scatterplot of solar radiation vs quantiles

Notamos que rQ <0.9726, por lo tanto rechazamos la hiptesis de normalidad al

3. Clculo del coeficiente de Shapiro-Wilk

son los coeficientes de Shapiro - Wilk

Cabe mencionar que una desventaja del estadstico W radica en su

Ejemplo. Se consideran 15 pares de plantas cultivadas en la misma

Las hiptesis sern las siguientes:

Prueba de bondad de ajuste de Kolmogorov-Smirnov.

H0: F(X) = F0(X)

F(X) representa la distribucin acumulada

Cabe mencionar que la distancia podra declararse como nicamente mayor o

6. Obtener la probabilidad acumulada esperada. Esto es, obtenga la

Las hiptesis sern las siguientes:

Especficamente, ellos utilizaron

( F0 ( x)) es una ponderacin.

( F0 ( x )) [ F0 ( x)(1 F0 ( x))]1 que finalmente

[2i 1] [ln( F ( xi )) ln(1 F ( x n i 1 )]

[ln( F ( xi ) ln(1 F ( x n i 1 ))]

[2i 1] [ln(F ( x )) ln(1 F ( x

Suponiendo un =0.10, el valor crtico de la prueba AD es 0.656. Ya que

A 2 A 2 0.10 no se puede rechazar H0. Esto es, no existe evidencia estadstica

Obtener el coeficiente de correlacin para el conjunto de datos

Similarmente, recordemos que mientras ms se aleje el valor de r de 1,

Los datos son los siguientes:

En este caso,r=0.95787. Suponiendo un =0.05, el valor crtico de la prueba

- Walpole Ronald, Myers Raymond, et al. Probability & Statistics for

- Devore Jay L., Probabilidad y estadstica para Ingeniera y Ciencias.

Cengage Learning, 7th ed.

La solucin es aqulla que maximiza la expresin:

También podría gustarte