Está en la página 1de 22

Pruebas de bondad de ajuste

Prueba Ji-cuadrada
Esta prueba trata de verificar que una muestra aleatoria proviene de una distribucin en particular,
es decir que sigue una distribucin de probabilidad especfica.
Luego,
H0: La muestra aleatoria proviene de una poblacin f(x). vs
H1: La muestra aleatoria NO proviene de una poblacin f(x).
Esta prueba se aplica de la siguiente manera. Suponer una muestra aleatoria de tamao n.
1. Organizar los valores de la muestra aleatoria en la siguiente tabla de frecuencias.
Intervalo de clase
1
2
3
4

Frecuencia observada
FO1
FO2
FO3
FO4

FOk

Frecuencia esperada
FE1
FE2
FE3
FE4

FEk

Donde FEi = n Prob(x intervalo i ), y n es el tamao de la muestra aleatoria.


Adems, se requiere que FEi 5 para todo i.
(FO i FE i ) 2
.
FE i
i 1
k

2
2. Calcular

3. Rechazar H0 con un nivel de significancia si 2 2 , k r 1 , donde k es el nmero de


sumandos en 2 , r es el nmero de parmetros independientes estimados.

Ejemplo: Resolver Problema 8.64/Scheaffer&McClave 4 ed.


Los siguientes datos (X) representan el nmero de colonias de bacterias encontradas en cada una de
400 muestras observadas al microscopio. Investigar si es razonable pensar que siguen una
distribucin Poisson.

X
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
SUMA

FOi
56
104
80
62
42
27
9
9
5
3
2
0
0
0
0
0
0
0
0
1
400

Solucin: La siguiente tabla presenta los clculos requeridos para la obtencin del valor del
estadstico Ji-cuadrada. Para la obtencin de las frecuencias esperadas se calcularon probabilidades
basadas en una Poisson con =2.44, el cual es el valor promedio para las X en la muestra.

FOi

X*Foi

56

104

104

80

160

62

186

42

168

27

135

54

63

40

27

10

20

11

12

13

14

15

16

17

18

19
SUMA

1
400

19
976

P(X=x)
FEi
0.087160 34.864
851
34
0.212672 85.068
478
99
0.259460 103.78
423
42
0.211027 84.411
81
12
0.128726 51.490
964
79
0.062818 25.127
759
5
0.025546 10.218
295
52
0.008904 3.5618
709
83
0.002715 1.0863
936
74
0.000736 0.2945
32
28
0.000179 0.0718
662
65
3.98523E- 0.0159
05
41
8.10331E- 0.0032
06
41
1.52093E- 0.0006
06
08
2.65076E- 0.0001
07
06
4.31191E1.72E08
05
6.57566E2.63E09
06
3.78E9.438E-10
07
1.27937E5.12E10
08
1.64298E6.57E11
09
400

PROMED
IO

2.44

Los valores en rojo muestran valores esperados muy pequeos por lo que se unen los renglones en
uno solo obteniendo:

(O
MAS)

FOi
0

56

104

80

62

42

27

20

SUMA

400

P(X=x
(Foi)
FEi
Fei)
0.0871 34.864 21.135
0
61
34
66
0.2126 85.068 18.931
104
72
99
01
0.2594 103.78 23.784
160
6
42
2
0.2110 84.411 22.411
186
28
12
1
0.1287 51.490 9.4907
168
27
79
9
0.0628 25.127 1.8724
135
19
5
97
0.0255 10.218 1.2185
54
46
52
2
0.0125 5.0345 14.965
140
86
68
43
1

400

VALOR CRITICO

CONCLUSIN:
SE RECHAZA LA DISTRIBUCIN
POISSON.

APORTACI
ON A JICUADRAD
A

12.81298
001
4.212852
373
5.450606
8
5.950145
686
1.749342
385
0.139538
071
0.145303
484
44.48527
866
74.94604 VALOR JI747 CUADRADA
12.59158
724

Pruebas sobre normalidad basada en un conjunto de datos


Primeramente la exploracin grfica debe arrojar un histograma aproximadamente simtrico y en
forma de campana:
Histogram of X1
Normal
35

Mean
StDev
N

30

1.074
1.009
299

Frequency

25
20
15
10
5
0

-1.50

-0.75

0.00

0.75
X1

1.50

2.25

3.00

Otras formas de verificacin:


1. Construir una grfica Q-Q
Los pasos para construir una grfica Q-Q son los siguientes:
a. Ordenar las observaciones para obtener los estadsticos de orden x (1), x(2), . x(n) y sus
1
1
1

correspondientes valores de probabilidad: 1 n , 2 n , , n n .


2
2
2

b. Calcular los cuantiles normales estndar q(1), q(2), . q(n)


Un cuantil normal estndar est definido por la siguiente relacin:
q( j )

P ( Z q( j ) )

j 12
1 z2 2
e dz
n
2

c. Graficar los pares de observaciones (q(1), x(1)), (q(2, x(2). (q(n, x(n) y examinar la
rectitud de la grfica.
Los grficos Q-Q no son particularmente informativos a menos que el tamao muestral
sea grande (por lo menos n 20 ).
Ejemplo. Construir la grfica Q-Q de los siguientes datos para verificar si provienen de una
distribucin normal. (observe que X = 44.096 y S = 37.703)

y (percentiles tericos)

k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

x
1.1
3.5
3.8
9.8
13.7
14.7
16.5
16.8
17.1
21.5
22.4
28.6
29.3
31.0
35.6
36.6
53.9
68.0
72.1
83.9
91.2
92.2
105.4
108.4
125.3

Prob. acumulada
0.02
0.06
0.10
0.14
0.18
0.22
0.26
0.30
0.34
0.38
0.42
0.46
0.50
0.54
0.58
0.62
0.66
0.70
0.74
0.78
0.82
0.86
0.90
0.94
0.98

Percentil terico (y)


-33.3
-14.5
-4.2
3.4
9.6
15.0
19.8
24.3
28.5
32.6
36.5
40.3
44.1
47.9
51.7
55.6
59.6
63.9
68.4
73.2
78.6
84.8
92.4
102.7
121.5

(x, y)
(1.1, -33.3)
(3.5, -14.5)
(3.8, -4.2)
(9.8, 3.4)
(13.7, 9.6)
(14.7, 15.0)
(16.5, 19.8)
(16.8, 24.3)
(17.1, 28.5)
(21.5, 32.6)
(22.4, 36.5)
(28.6, 40.3)
(29.3, 44.1)
(31.0, 47.9)
(35.6, 51.7)
(36.6, 55.6)
(53.9, 59.6)
(68.0, 63.9)
(72.1, 68.4)
(83.9, 73.2)
(91.2, 78.6)
(92.2, 84.8)
(105.4, 92.4)
(108.4, 102.7)
(125.3, 121.5)

150
100
y
recta a 45

50
0
-50

50

100

150

x (valores de la muestra)
Ejemplo. Hacer una grfica Q-Q para los datos del ejemplo anterior ajustndolos a una distribucin
exponencial.

y (percentiles tericos)

k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

x
1.1
3.5
3.8
9.8
13.7
14.7
16.5
16.8
17.1
21.5
22.4
28.6
29.3
31.0
35.6
36.6
53.9
68.0
72.1
83.9
91.2
92.2
105.4
108.4
125.3

Prob. acumulada
0.02
0.06
0.10
0.14
0.18
0.22
0.26
0.30
0.34
0.38
0.42
0.46
0.50
0.54
0.58
0.62
0.66
0.70
0.74
0.78
0.82
0.86
0.90
0.94
0.98

Percentil terico (y)


0.9
2.7
4.6
6.7
8.8
11.0
13.3
15.7
18.3
21.1
24.0
27.2
30.6
34.2
38.3
42.7
47.6
53.1
59.4
66.8
75.6
86.7
101.5
124.1
172.5

(x, y)
(1.1, 0.9)
(3.5, 2.7)
(3.8, 4.6)
(9.8, 6.7)
(13.7, 8.8)
(14.7, 11.0)
(16.5, 13.3)
(16.8, 15.7)
(17.1, 18.3)
(21.5, 21.1)
(22.4, 24.0)
(28.6, 27.2)
(29.3, 30.6)
(31.0, 34.2)
(35.6, 38.3)
(36.6, 42.7)
(53.9, 47.6)
(68.0, 53.1)
(72.1, 59.4)
(83.9, 66.8)
(91.2, 75.6)
(92.2, 86.7)
(105.4, 101.5)
(108.4, 124.1)
(125.3, 172.5)

200
150
y
recta a 45

100
50
0
0

50

100

x (valores de la muestra)

2. Coeficiente de correlacin

150

Una forma de medir la rectitud de la grfica Q-Q puede ser a travs del coeficiente de
correlacin de los puntos en la grfica.
Este coeficiente de correlacin queda definido por:

x x q q
n

rQ

j 1

x x q q
n

j 1

j 1

Con este coeficiente es posible hacer una prueba de normalidad poderosa. Se rechaza la
hiptesis de normalidad si el coeficiente de correlacin es inferior al nivel crtico.

PUNTOS CRTICOS PARA LA PRUEBA DE NORMALIDAD BASADA EN EL


COEFICIENTE DE CORRELACIN LOS PUNTOS EN LA Q-Q PLOT
Tamao de la
muestra
n
5
10
15
20
25
30
35
40
45
50
55
60
75
100
150
200
300

0.01
0.8299
0.8801
0.9126
0.9269
0.9410
0.9479
0.9538
0.9599
0.9632
0.9671
0.9695
0.9720
0.9771
0.9822
0.9879
0.9905
0.9935

Niveles de Significancia
0.05
0.8788
0.9198
0.9389
0.9508
0.9591
0.9652
0.9682
0.9726
0.9749
0.9768
0.9787
0.9801
0.9838
0.9873
0.9913
0.9931
0.9953

0.10
0.9032
0.9351
0.9503
0.9604
0.9665
0.9715
0.9740
0.9771
0.9792
0.9809
0.9822
0.9836
0.9866
0.9895
0.9928
0.9942
0.9960

Ms informacin:
Filliben, J.J. The probability plot correlation coefficient test for normality. Technometrics, 17,
No. 1 (1975), 111-117.

Ejemplo

Construir una Q-Q plot para la radiacin solar dada en la siguiente tabla y hacer
una prueba de normalidad basada en el coeficiente correlacin rQ . Sea 0.05
y use la entrada correspondiente para n=40 en la Tabla 4.2

j
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36

solar
radiation(x2)
30
35
37
40
48
52
62
62
64
67
68
69
70
71
71
71
72
72
72
75
76
77
78
79
79
79
80
82
83
84
84
85
86
86
88
88

probability
levels
0.011904762
0.035714286
0.05952381
0.083333333
0.107142857
0.130952381
0.154761905
0.178571429
0.202380952
0.226190476
0.25
0.273809524
0.297619048
0.321428571
0.345238095
0.369047619
0.392857143
0.416666667
0.44047619
0.464285714
0.488095238
0.511904762
0.535714286
0.55952381
0.583333333
0.607142857
0.630952381
0.654761905
0.678571429
0.702380952
0.726190476
0.75
0.773809524
0.797619048
0.821428571
0.845238095

quantiles
-2.26019
-1.80274
-1.55878
-1.38299
-1.24187
-1.1219
-1.01622
-0.92082
-0.83315
-0.75145
-0.67449
-0.60133
-0.53126
-0.46371
-0.39821
-0.33438
-0.27188
-0.21043
-0.14976
-0.08964
-0.02985
0.029845
0.089642
0.149762
0.210428
0.27188
0.334377
0.398209
0.463708
0.531261
0.601332
0.67449
0.751452
0.833147
0.920823
1.016222

37
38
39
40
41
42

90
91
91
98
103
107

0.869047619
0.892857143
0.916666667
0.94047619
0.964285714
0.988095238

1.1219
1.241867
1.382994
1.558784
1.802743
2.260189

Scatterplot of solar radiation vs quantiles


110
100

solar radiation

90
80
70
60
50
40
30
20
-2

-1

0
quantiles

(x
j 1

( j)

x )(q ( j ) q ) 686.8434

(x
j 1

( j)

x ) 2 111 .0006

( j)

q ) 2 6.383553

(q
j 1

(x

( j)

rQ

x ) ( q( j ) q )

j 1

(x
j 1

( j)

x)

(q

j 1

( j)

0.969326
q)

Notamos que rQ <0.9726, por lo tanto rechazamos la hiptesis de normalidad al


5% de significancia.

3. Clculo del coeficiente de Shapiro-Wilk


Esta prueba est desarrollada en torno a los estadsticos de orden.
Recordemos que los estadsticos de orden son los valores de X ordenados
de menor a mayor. Estos se denotan por X(i).

Tiene una forma semejante al coeficiente de correlacin, pero reemplaza q(j) por una
funcin del valor esperado de los estadsticos de orden de la normal estndar y sus
covarianzas. Para muestras grandes ambos coeficientes son prcticamente iguales.
La prueba de Shapiro-Wilks es proporcionado por diversos paquetes estadsticos y
consiste en seguir los siguientes pasos:
El estadstico de prueba es:

b2
W
(n 1) s 2

n/2

i 1

donde b

n i 1

( x ( n i 1) x( i ) )

( n 1) / 2

a
i 1

n i 1

ai a n i 1

( x( n i 1) x (i ) )

si n es par.
si n es impar.

son los coeficientes de Shapiro - Wilk

Cabe mencionar que una desventaja del estadstico W radica en su


dificultad de cmputo dado que se requiere un conjunto diferente de
coeficientes para cada tamao de muestra.
En este caso, el criterio de decisin ser el siguiente: si el valor del
estadstico W es igual o menor que el W crtico, entonces rechazar H0.

Ejemplo. Se consideran 15 pares de plantas cultivadas en la misma


maceta. La diferencia entre alturas se muestra a continuacin. Investigar la
normalidad de estos datos mediante la prueba de Shapiro-Wilk.
Macet
a
I
I
I
II
II
II
III
III
III
III
III
IV
IV
IV
IV

Plant
a
A
188
96
168
176
153
172
177
163
146
173
186
168
177
184
96

Plant
aB
138
1163
160
160
147
149
149
122
132
144
130
144
102
124
144

Diferen
cia
50
-67
8
16
6
23
28
41
14
29
56
24
75
60
-48

Las hiptesis sern las siguientes:


H0: Los datos provienen de una distribucin normal.
H1: Los datos no provienen de una distribucin normal.

Primero que nada, note que n es impar y por lo tanto, la suma de b tendr
como lmite superior (n 1) / 2 .
Conforme a lo descrito antes, sea entonces:
Indic
e
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

x(i )

n i 1

a n i 1 ai

x( n i 1)

x(i )

( x ( n i 1) x( i ) )

a n i 1 ( x( n i 1) x( i ) )

-67
-48
6
8
14
16
23
24
28
29
41
50
56
60
75

15
14
13
12
11
10
9
-

-0.515
-0.3306
-0.2495
-0.1878
-0.1353
-0.088
-0.0433
-

75
60
56
50
41
29
28
-

-67
-48
6
8
14
16
23
-

142
108
50
42
27
13
5
-

-73.13
-35.7048
-12.475
-7.8876
-3.6531
-1.144
-0.2165
-

b
Ahora bien,

( n 1) / 2

a
i 1

n i 1

( x( n i 1) x ( i ) ) 134.211

2
y s 1428.714 .

Finalmente,

b2
(134.211) 2

(n 1) s 2 (15 1)(1428.714)

W 0.90054
Dado un =0.05, el W crtico es 0.881.
Como W>W crtico, entonces no se puede rechazar H0.
En todos los casos las pruebas de bondad de ajuste realizadas por un
paquete estadstico proporcionarn el valor-p correspondiente a la prueba.
Si el valor-p es inferior al nivel de significancia escogido para la
prueba, entonces se proceder a rechazar la hiptesis nula de que
los datos siguen la distribucin establecida.

Prueba de bondad de ajuste de Kolmogorov-Smirnov.


Esta prueba evala la hiptesis de que cierto conjunto de datos proviene de
una distribucin poblacional terica especfica. Como antes, la distribucin
terica que nos interesa es la distribucin normal.
Esta prueba est diseada para utilizarse con variables de tipo continuo y
requiere del cmputo de la funcin de distribucin acumulada.
La idea detrs de la prueba de Kolmogorov-Smirnov es comparar las
frecuencias acumuladas, tanto observadas como esperadas.
En trminos generales, la prueba de KS utiliza un estadstico definido por la
distancia vertical entre cualesquiera dos puntos de la funcin de distribucin
acumulada de la muestra y la funcin de distribucin acumulada terica. En el
punto de mxima separacin entre las dos distribuciones, la funcin de la
muestra ser significativamente mayor o menor que la distribucin acumulada
terica. Esto quiere decir que la prueba ser evaluada a dos colas.
Finalmente tendremos las siguientes hiptesis:

H0: F(X) = F0(X)


H1: F(X) F0(X)
de la muestra y

donde
F0(X)

F(X) representa la distribucin acumulada


representa

la

distribucin

acumulada

terica.

Cabe mencionar que la distancia podra declararse como nicamente mayor o


menor. En otras palabras, la prueba podra ser evaluada a una sola cola; sin
embargo, este criterio depender del problema del investigador.
Suponiendo una muestra aleatoria de tamao n, esta prueba se aplica de la
siguiente manera:
1. Ordenar los datos de la muestra de menor a mayor. Esto es,

x(1) , x ( 2) ,..., x ( n )

.
2. Obtener la frecuencia absoluta para el conjunto de los datos.
3. Obtener la frecuencia absoluta acumulada para el conjunto de los datos.
4. Obtener el cuantil para cada observacin conforme la distribucin
normal estndar. Esto es, estandarizar cada observacin mediante el

cociente:
5. Obtener la proporcin acumulada observada. Esto significa obtener la
proporcin acumulada para el conjunto de datos obtenido en el paso 3.

6. Obtener la probabilidad acumulada esperada. Esto es, obtenga la


probabilidad acumulada conforme al cuantil Z.
7. Obtener la diferencia absoluta entre la probabilidad acumulada
observada y la probabilidad acumulada esperada.
8. Obtenga la diferencia absoluta entre la probabilidad acumulada
observada (i-1) y la probabilidad acumulada esperada.
9. Sea D el mximo valor del conjunto de datos obtenido en el paso 7.
10.Sea D el mximo valor del conjunto de datos obtenido en el paso 8.
El estadstico de la prueba ser el mximo valor entre D y D.
Finalmente, el criterio de decisin ser el siguiente: si el valor del estadstico
KS es igual o mayor que el KS crtico, entonces rechazar H0.
Ejemplo. Un investigador conduce un estudio donde evala si la distribucin
del tiempo de reaccin de pacientes de migraa que responden a una dosis de
100 mg. de cierto medicamento corresponde a una distribucin normal con
media de 90 seg. y desviacin estndar de 35 seg. (i.e. =90 seg. =35 seg.)
Las 30 observaciones registradas por el investigador se enlistan
continuacin:
21,32,38,40,48,55,63,66,70,75,80,84,86,90,90,93,95,
98,100,105,106,108,115,118,126,128,130,142,155.

Las hiptesis sern las siguientes:


H0: Los datos provienen de una distribucin normal con =90 seg. y =35 seg.
H1: Los datos no provienen de una distribucin normal con los parmetros
especificados.
Conforme al algoritmo descrito antes, obtenemos la siguiente tabla:
Indic
e

Observ
.

Frecuenci
a
observad
a

Frecuenci
a
acumulad
a

21

32

38

40

48

55

63

66

70

F0(X)

F(X)

1.97
1.66
1.49
1.43
1.20
1.00
0.77
0.69
0.57

0.024
3
0.048
7
0.068
7
0.076
6
0.115
1
0.158
7
0.220
2
0.246
4
0.283
9

0.033
3
0.066
7
0.100
0
0.133
3
0.166
7
0.200
0
0.233
3
0.266
7
0.300
0

|F(X)F0(X)|

|F(X)i-1F0(X)|

0.008996

0.024337

0.017921

0.015412

0.031323

0.002011

0.056770

0.023436

0.051597

0.018264

0.041345

0.008011

0.013107

0.020226

0.020220

0.013113

0.016145

0.017188

0.43
0.29
0.17
0.11

10

75

10

11

80

11

12

84

12

13

86

13

14

90

15

0.00

15

93

16

0.09

16

95

17

0.14

17

98

18

0.23

18

100

19

0.29

19

105

20

0.43

20

106

21

0.46

21

108

22

0.51

22

115

23

0.71

23

118

24

0.80

24

126

25

1.03

25

128

26

1.09

26

130

27

1.14

27

142

28

1.49

28

145

29

1.57

29

155

30

1.86

0.334
1
0.387
5
0.431
9
0.454
5
0.500
0
0.534
2
0.556
8
0.590
4
0.612
5
0.665
9
0.676
2
0.696
5
0.762
5
0.788
1
0.848
2
0.861
2
0.873
5
0.931
3
0.942
0
0.968
4

0.333
3
0.366
7
0.400
0
0.433
3
0.500
0
0.533
3
0.566
7
0.600
0
0.633
3
0.666
7
0.700
0
0.733
3
0.766
7
0.800
0
0.833
3
0.866
7
0.900
0
0.933
3
0.966
7
1.000
0

0.000784

0.034118

0.020882

0.054215

0.031943

0.065277

0.021172

0.054506

0.000000

0.066667

0.000820

0.034153

0.009868

0.023465

0.009601

0.023732

0.020882

0.012452

0.000784

0.032549

0.023784

0.009549

0.036859

0.003526

0.004192

0.029141

0.011855

0.021478

0.014826

0.048159

0.005469

0.027864

0.026549

0.006784

0.002011

0.031323

0.024708

0.008625

0.031645

0.001688

Finalmente,
KS=Max{D=0.056,D=0.066}=0.066
Suponiendo un =0.05, el KS crtico es 0.242. Por lo tanto, como KS<KS crtico,
podemos concluir en no rechazar Ho. Esto es, no existe evidencia estadstica
suficiente que sugiera que los datos no provienen de una poblacin N(=90,
=35).
Prueba de bondad de ajuste de Anderson-Darling.
Esta prueba se sustenta en la idea que hemos trabajado antes: la diferencia
en el ajuste que puede existir entre la distribucin emprica y la
distribucin terica. La funcin propuesta por Anderson y Darling (1952) es:

n [ F ( x) F0 ( x)]2 ( F0 ( x ))dF0 ( x )

donde

Especficamente, ellos utilizaron


resulta en el siguiente estadstico:

( F0 ( x)) es una ponderacin.

( F0 ( x )) [ F0 ( x)(1 F0 ( x))]1 que finalmente

1 n

[2i 1] [ln( F ( xi )) ln(1 F ( x n i 1 )]

n i 1

A 2 ( n)

Es importante sealar que este esquema asigna una mayor ponderacin a las
colas de la distribucin.
Finalmente, el criterio de decisin ser el siguiente: si el valor del
estadstico AD es igual o mayor que el AD critico, entonces rechazar
H0.
Ejemplo. En el Aeropuerto MacArthur de Long Island se ha registrado
diariamente la velocidad del viento durante el mes de Julio. Este conjunto de
datos sugiere una distribucin con colas moderadamente pesadas. Se desea
saber si el conjunto de datos proviene de una distribucin normal.
Los datos son los siguientes:
7.7,8.5,6.9,11.1,17.1,13.3,8.9,11.1,8.8,8.9,9,11.2,6.2,7.8,11.5,
10.2, 8.7,10.7,8.8,9.5,5.6, 6.2,10.4,12.5,8.1,5.9,10.7,7.7,5.2,3.8,7.4
Las hiptesis sern las siguientes:
H0: Los datos provienen de una distribucin normal.
H1: Los datos no provienen de una distribucin normal.
Conforme al estadstico descrito antes, obtenemos la siguiente tabla:
Indic
e

Obse
r.

3.8

5.2

5.6

5.9

6.2

6.2

6.9

7.4

F(X)

1.94
1.42
1.27
1.16
1.05
1.05
0.79
0.60

0.02
6
0.07
8
0.10
2
0.12
4
0.14
8
0.14
8
0.21
6
0.27
4

[2i 1]

[ln( F ( xi ) ln(1 F ( x n i 1 ))]

-10.267

-5.441

-4.609

-3.819

-3.481

11

-3.431

13

-3.051

15

-2.620

7.7

10

7.7

11

7.8

12

8.1

13

8.5

14

8.7

15

8.8

16

8.8

17

8.9

18

8.9

0.49
0.49
0.45
0.34
0.19
0.12
0.08
0.08
0.04
0.04

19

0.00

20

9.5

0.18

21

10.2

0.44

22

10.4

0.52

23

10.7

0.63

24

10.7

0.63

25

11.1

0.78

26

11.1

0.78

27

11.2

0.81

28

11.5

0.92

29

12.5

1.30

30

13.3

1.59

31

17.1

3.01

0.31
3
0.31
3
0.32
6
0.36
7
0.42
4
0.45
4
0.46
8
0.46
8
0.48
3
0.48
3
0.49
8
0.57
2
0.67
1
0.69
7
0.73
5
0.73
5
0.78
1
0.78
1
0.79
2
0.82
2
0.90
3
0.94
5
0.99
9

17

-2.489

19

-2.356

21

-2.231

23

-1.850

25

-1.546

27

-1.451

29

-1.419

31

-1.390

33

-1.359

35

-1.332

37

-1.249

39

-1.016

41

-0.794

43

-0.736

45

-0.683

47

-0.629

49

-0.490

51

-0.407

53

-0.393

55

-0.327

57

-0.210

59

-0.138

61

-0.028

Donde

[2i 1] [ln(F ( x )) ln(1 F ( x


i

i 1

Finalmente,

n i 1

)] 970.335

(970.335) (31)
(970.335) 0.30112
n

31

A 2 ( n)

Suponiendo un =0.10, el valor crtico de la prueba AD es 0.656. Ya que

A 2 A 2 0.10 no se puede rechazar H0. Esto es, no existe evidencia estadstica


suficiente que sugiera que el conjunto de datos (velocidad del viento en el mes
de Julio) no sigue una distribucin normal.
Prueba de bondad de ajuste de Ryan-Joiner.
La idea detrs de esta prueba es conocer qu tan relacionados estarn los
datos suponiendo que son normales; es decir, utiliza el coeficiente de
correlacin como mtrica entre los datos y los cuantiles de la distribucin
normal estndar. Los pasos para desarrollar esta prueba son los siguientes:
Ordenar los datos de la muestra de menor a mayor.
Esto es,

x(1) , x ( 2) ,..., x ( n )

Calcular el cuantil:

i 0.375
n 0.25 .
Calcular la probabilidad de dicho cuantil dada la distribucin normal estndar.
Esto es

i 0.375

n 0.25

y i 1

Obtener el coeficiente de correlacin para el conjunto de datos


Recordemos que el coeficiente de correlacin r est dado por:
n

(x
i 1

{xi , y i } .

x )( yi y )
sx s y

Similarmente, recordemos que mientras ms se aleje el valor de r de 1,


entonces menor ser la indicacin de que los datos estn relacionados; es
decir, la conclusin de que los datos se pueden modelar como una distribucin
normal ser ms dbil.
En resumen, el criterio de decisin ser el siguiente: si el valor del
estadstico RJ es igual o menor que el RJ critico, entonces rechazar H 0.
Ejemplo. Considere el siguiente conjunto de datos y aplique la prueba de RyanJoiner para verificar que dicho conjunto proviene de una distribucin normal.

Los datos son los siguientes:


1.15,1.4,1.34,1.29,1.36,1.26,1.22,1.4,1.29,1.14,1.32,1.34,1.26,1.36,1.36,1.3,1.
28,1.45,1.29,1.28,1.38,1.55,1.46,1.32
Las hiptesis sern las siguientes:
H0: Los datos provienen de una distribucin normal.
H1: Los datos no provienen de una distribucin normal.
Conforme a lo descrito en los pasos para esta prueba, obtenemos la siguiente
tabla:

i 0.375

n 0.25

Indic
e

Obser
v. (Xi)

i 0.375
n 0.25

y i 1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

1.14
1.15
1.22
1.26
1.26
1.28
1.28
1.29
1.29
1.29
1.3
1.32
1.32
1.34
1.34
1.36
1.36
1.36
1.38
1.4
1.4
1.45
1.46
1.55
1.67

0.02577
0.06701
0.10825
0.14948
0.19072
0.23196
0.27320
0.31443
0.35567
0.39691
0.43814
0.47938
0.52062
0.56186
0.60309
0.64433
0.68557
0.72680
0.76804
0.80928
0.85052
0.89175
0.93299
0.97423
0.97525

-1.94690
-1.49843
-1.23590
-1.03865
-0.87524
-0.73241
-0.60318
-0.48332
-0.37006
-0.26136
-0.15568
-0.05171
0.05171
0.15568
0.26136
0.37006
0.48332
0.60318
0.73241
0.87524
1.03865
1.23590
1.49843
1.94690
1.96417

En este caso,r=0.95787. Suponiendo un =0.05, el valor crtico de la prueba

RJ RJ

0.05
RJ es 0.9582. Ya que
podemos concluir en rechazar H 0. Es
importante notar que si tomramos r=0.96, entonces no rechazaramos H 0.

Bibliografa.

- Walpole Ronald, Myers Raymond, et al. Probability & Statistics for


Engineers & Scientists. Prentice Hall, 8th ed.

- Devore Jay L., Probabilidad y estadstica para Ingeniera y Ciencias.


-

Cengage Learning, 7th ed.


Henry C. Thode, Testing For Normality. CRC Press, 2002.
Sheskin David J., Hanbook of Parametric and Nonparametric Statistical
Procedures. Champan nd Hall/CRC, 2004.

Transformaciones a la normalidad

Escala original

Escala transformada

1. Conteos, y

y
p
1

log
2
1 - p

2.Proporciones, p

logit(p)

3.Correlaciones, r

Fishers z(r)

1
1 r
log

2
1 r

Power transformations:
Transformacin de Box y Cox

x 1
0

x ( )
ln x 0

La solucin es aqulla que maximiza la expresin:

n 1 n
l ( ) ln x (j ) x ( )
2 n j 1

donde:
x ( )

1 ln x j
j 1

( )
1 n ( ) 1 n x j 1
x

j n

n j 1

j 1

Una vez realizada la transformacin elegida, deber realizarse una inspeccin para
verificar el supuesto de normalidad de los datos transformados.

También podría gustarte