Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Prueba Ji-cuadrada
Esta prueba trata de verificar que una muestra aleatoria proviene de una distribucin en particular,
es decir que sigue una distribucin de probabilidad especfica.
Luego,
H0: La muestra aleatoria proviene de una poblacin f(x). vs
H1: La muestra aleatoria NO proviene de una poblacin f(x).
Esta prueba se aplica de la siguiente manera. Suponer una muestra aleatoria de tamao n.
1. Organizar los valores de la muestra aleatoria en la siguiente tabla de frecuencias.
Intervalo de clase
1
2
3
4
Frecuencia observada
FO1
FO2
FO3
FO4
FOk
Frecuencia esperada
FE1
FE2
FE3
FE4
FEk
2
2. Calcular
X
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
SUMA
FOi
56
104
80
62
42
27
9
9
5
3
2
0
0
0
0
0
0
0
0
1
400
Solucin: La siguiente tabla presenta los clculos requeridos para la obtencin del valor del
estadstico Ji-cuadrada. Para la obtencin de las frecuencias esperadas se calcularon probabilidades
basadas en una Poisson con =2.44, el cual es el valor promedio para las X en la muestra.
FOi
X*Foi
56
104
104
80
160
62
186
42
168
27
135
54
63
40
27
10
20
11
12
13
14
15
16
17
18
19
SUMA
1
400
19
976
P(X=x)
FEi
0.087160 34.864
851
34
0.212672 85.068
478
99
0.259460 103.78
423
42
0.211027 84.411
81
12
0.128726 51.490
964
79
0.062818 25.127
759
5
0.025546 10.218
295
52
0.008904 3.5618
709
83
0.002715 1.0863
936
74
0.000736 0.2945
32
28
0.000179 0.0718
662
65
3.98523E- 0.0159
05
41
8.10331E- 0.0032
06
41
1.52093E- 0.0006
06
08
2.65076E- 0.0001
07
06
4.31191E1.72E08
05
6.57566E2.63E09
06
3.78E9.438E-10
07
1.27937E5.12E10
08
1.64298E6.57E11
09
400
PROMED
IO
2.44
Los valores en rojo muestran valores esperados muy pequeos por lo que se unen los renglones en
uno solo obteniendo:
(O
MAS)
FOi
0
56
104
80
62
42
27
20
SUMA
400
P(X=x
(Foi)
FEi
Fei)
0.0871 34.864 21.135
0
61
34
66
0.2126 85.068 18.931
104
72
99
01
0.2594 103.78 23.784
160
6
42
2
0.2110 84.411 22.411
186
28
12
1
0.1287 51.490 9.4907
168
27
79
9
0.0628 25.127 1.8724
135
19
5
97
0.0255 10.218 1.2185
54
46
52
2
0.0125 5.0345 14.965
140
86
68
43
1
400
VALOR CRITICO
CONCLUSIN:
SE RECHAZA LA DISTRIBUCIN
POISSON.
APORTACI
ON A JICUADRAD
A
12.81298
001
4.212852
373
5.450606
8
5.950145
686
1.749342
385
0.139538
071
0.145303
484
44.48527
866
74.94604 VALOR JI747 CUADRADA
12.59158
724
Mean
StDev
N
30
1.074
1.009
299
Frequency
25
20
15
10
5
0
-1.50
-0.75
0.00
0.75
X1
1.50
2.25
3.00
P ( Z q( j ) )
j 12
1 z2 2
e dz
n
2
c. Graficar los pares de observaciones (q(1), x(1)), (q(2, x(2). (q(n, x(n) y examinar la
rectitud de la grfica.
Los grficos Q-Q no son particularmente informativos a menos que el tamao muestral
sea grande (por lo menos n 20 ).
Ejemplo. Construir la grfica Q-Q de los siguientes datos para verificar si provienen de una
distribucin normal. (observe que X = 44.096 y S = 37.703)
y (percentiles tericos)
k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
x
1.1
3.5
3.8
9.8
13.7
14.7
16.5
16.8
17.1
21.5
22.4
28.6
29.3
31.0
35.6
36.6
53.9
68.0
72.1
83.9
91.2
92.2
105.4
108.4
125.3
Prob. acumulada
0.02
0.06
0.10
0.14
0.18
0.22
0.26
0.30
0.34
0.38
0.42
0.46
0.50
0.54
0.58
0.62
0.66
0.70
0.74
0.78
0.82
0.86
0.90
0.94
0.98
(x, y)
(1.1, -33.3)
(3.5, -14.5)
(3.8, -4.2)
(9.8, 3.4)
(13.7, 9.6)
(14.7, 15.0)
(16.5, 19.8)
(16.8, 24.3)
(17.1, 28.5)
(21.5, 32.6)
(22.4, 36.5)
(28.6, 40.3)
(29.3, 44.1)
(31.0, 47.9)
(35.6, 51.7)
(36.6, 55.6)
(53.9, 59.6)
(68.0, 63.9)
(72.1, 68.4)
(83.9, 73.2)
(91.2, 78.6)
(92.2, 84.8)
(105.4, 92.4)
(108.4, 102.7)
(125.3, 121.5)
150
100
y
recta a 45
50
0
-50
50
100
150
x (valores de la muestra)
Ejemplo. Hacer una grfica Q-Q para los datos del ejemplo anterior ajustndolos a una distribucin
exponencial.
y (percentiles tericos)
k
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
x
1.1
3.5
3.8
9.8
13.7
14.7
16.5
16.8
17.1
21.5
22.4
28.6
29.3
31.0
35.6
36.6
53.9
68.0
72.1
83.9
91.2
92.2
105.4
108.4
125.3
Prob. acumulada
0.02
0.06
0.10
0.14
0.18
0.22
0.26
0.30
0.34
0.38
0.42
0.46
0.50
0.54
0.58
0.62
0.66
0.70
0.74
0.78
0.82
0.86
0.90
0.94
0.98
(x, y)
(1.1, 0.9)
(3.5, 2.7)
(3.8, 4.6)
(9.8, 6.7)
(13.7, 8.8)
(14.7, 11.0)
(16.5, 13.3)
(16.8, 15.7)
(17.1, 18.3)
(21.5, 21.1)
(22.4, 24.0)
(28.6, 27.2)
(29.3, 30.6)
(31.0, 34.2)
(35.6, 38.3)
(36.6, 42.7)
(53.9, 47.6)
(68.0, 53.1)
(72.1, 59.4)
(83.9, 66.8)
(91.2, 75.6)
(92.2, 86.7)
(105.4, 101.5)
(108.4, 124.1)
(125.3, 172.5)
200
150
y
recta a 45
100
50
0
0
50
100
x (valores de la muestra)
2. Coeficiente de correlacin
150
Una forma de medir la rectitud de la grfica Q-Q puede ser a travs del coeficiente de
correlacin de los puntos en la grfica.
Este coeficiente de correlacin queda definido por:
x x q q
n
rQ
j 1
x x q q
n
j 1
j 1
Con este coeficiente es posible hacer una prueba de normalidad poderosa. Se rechaza la
hiptesis de normalidad si el coeficiente de correlacin es inferior al nivel crtico.
0.01
0.8299
0.8801
0.9126
0.9269
0.9410
0.9479
0.9538
0.9599
0.9632
0.9671
0.9695
0.9720
0.9771
0.9822
0.9879
0.9905
0.9935
Niveles de Significancia
0.05
0.8788
0.9198
0.9389
0.9508
0.9591
0.9652
0.9682
0.9726
0.9749
0.9768
0.9787
0.9801
0.9838
0.9873
0.9913
0.9931
0.9953
0.10
0.9032
0.9351
0.9503
0.9604
0.9665
0.9715
0.9740
0.9771
0.9792
0.9809
0.9822
0.9836
0.9866
0.9895
0.9928
0.9942
0.9960
Ms informacin:
Filliben, J.J. The probability plot correlation coefficient test for normality. Technometrics, 17,
No. 1 (1975), 111-117.
Ejemplo
Construir una Q-Q plot para la radiacin solar dada en la siguiente tabla y hacer
una prueba de normalidad basada en el coeficiente correlacin rQ . Sea 0.05
y use la entrada correspondiente para n=40 en la Tabla 4.2
j
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
solar
radiation(x2)
30
35
37
40
48
52
62
62
64
67
68
69
70
71
71
71
72
72
72
75
76
77
78
79
79
79
80
82
83
84
84
85
86
86
88
88
probability
levels
0.011904762
0.035714286
0.05952381
0.083333333
0.107142857
0.130952381
0.154761905
0.178571429
0.202380952
0.226190476
0.25
0.273809524
0.297619048
0.321428571
0.345238095
0.369047619
0.392857143
0.416666667
0.44047619
0.464285714
0.488095238
0.511904762
0.535714286
0.55952381
0.583333333
0.607142857
0.630952381
0.654761905
0.678571429
0.702380952
0.726190476
0.75
0.773809524
0.797619048
0.821428571
0.845238095
quantiles
-2.26019
-1.80274
-1.55878
-1.38299
-1.24187
-1.1219
-1.01622
-0.92082
-0.83315
-0.75145
-0.67449
-0.60133
-0.53126
-0.46371
-0.39821
-0.33438
-0.27188
-0.21043
-0.14976
-0.08964
-0.02985
0.029845
0.089642
0.149762
0.210428
0.27188
0.334377
0.398209
0.463708
0.531261
0.601332
0.67449
0.751452
0.833147
0.920823
1.016222
37
38
39
40
41
42
90
91
91
98
103
107
0.869047619
0.892857143
0.916666667
0.94047619
0.964285714
0.988095238
1.1219
1.241867
1.382994
1.558784
1.802743
2.260189
solar radiation
90
80
70
60
50
40
30
20
-2
-1
0
quantiles
(x
j 1
( j)
x )(q ( j ) q ) 686.8434
(x
j 1
( j)
x ) 2 111 .0006
( j)
q ) 2 6.383553
(q
j 1
(x
( j)
rQ
x ) ( q( j ) q )
j 1
(x
j 1
( j)
x)
(q
j 1
( j)
0.969326
q)
Tiene una forma semejante al coeficiente de correlacin, pero reemplaza q(j) por una
funcin del valor esperado de los estadsticos de orden de la normal estndar y sus
covarianzas. Para muestras grandes ambos coeficientes son prcticamente iguales.
La prueba de Shapiro-Wilks es proporcionado por diversos paquetes estadsticos y
consiste en seguir los siguientes pasos:
El estadstico de prueba es:
b2
W
(n 1) s 2
n/2
i 1
donde b
n i 1
( x ( n i 1) x( i ) )
( n 1) / 2
a
i 1
n i 1
ai a n i 1
( x( n i 1) x (i ) )
si n es par.
si n es impar.
Plant
a
A
188
96
168
176
153
172
177
163
146
173
186
168
177
184
96
Plant
aB
138
1163
160
160
147
149
149
122
132
144
130
144
102
124
144
Diferen
cia
50
-67
8
16
6
23
28
41
14
29
56
24
75
60
-48
Primero que nada, note que n es impar y por lo tanto, la suma de b tendr
como lmite superior (n 1) / 2 .
Conforme a lo descrito antes, sea entonces:
Indic
e
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
x(i )
n i 1
a n i 1 ai
x( n i 1)
x(i )
( x ( n i 1) x( i ) )
a n i 1 ( x( n i 1) x( i ) )
-67
-48
6
8
14
16
23
24
28
29
41
50
56
60
75
15
14
13
12
11
10
9
-
-0.515
-0.3306
-0.2495
-0.1878
-0.1353
-0.088
-0.0433
-
75
60
56
50
41
29
28
-
-67
-48
6
8
14
16
23
-
142
108
50
42
27
13
5
-
-73.13
-35.7048
-12.475
-7.8876
-3.6531
-1.144
-0.2165
-
b
Ahora bien,
( n 1) / 2
a
i 1
n i 1
( x( n i 1) x ( i ) ) 134.211
2
y s 1428.714 .
Finalmente,
b2
(134.211) 2
(n 1) s 2 (15 1)(1428.714)
W 0.90054
Dado un =0.05, el W crtico es 0.881.
Como W>W crtico, entonces no se puede rechazar H0.
En todos los casos las pruebas de bondad de ajuste realizadas por un
paquete estadstico proporcionarn el valor-p correspondiente a la prueba.
Si el valor-p es inferior al nivel de significancia escogido para la
prueba, entonces se proceder a rechazar la hiptesis nula de que
los datos siguen la distribucin establecida.
donde
F0(X)
la
distribucin
acumulada
terica.
x(1) , x ( 2) ,..., x ( n )
.
2. Obtener la frecuencia absoluta para el conjunto de los datos.
3. Obtener la frecuencia absoluta acumulada para el conjunto de los datos.
4. Obtener el cuantil para cada observacin conforme la distribucin
normal estndar. Esto es, estandarizar cada observacin mediante el
cociente:
5. Obtener la proporcin acumulada observada. Esto significa obtener la
proporcin acumulada para el conjunto de datos obtenido en el paso 3.
Observ
.
Frecuenci
a
observad
a
Frecuenci
a
acumulad
a
21
32
38
40
48
55
63
66
70
F0(X)
F(X)
1.97
1.66
1.49
1.43
1.20
1.00
0.77
0.69
0.57
0.024
3
0.048
7
0.068
7
0.076
6
0.115
1
0.158
7
0.220
2
0.246
4
0.283
9
0.033
3
0.066
7
0.100
0
0.133
3
0.166
7
0.200
0
0.233
3
0.266
7
0.300
0
|F(X)F0(X)|
|F(X)i-1F0(X)|
0.008996
0.024337
0.017921
0.015412
0.031323
0.002011
0.056770
0.023436
0.051597
0.018264
0.041345
0.008011
0.013107
0.020226
0.020220
0.013113
0.016145
0.017188
0.43
0.29
0.17
0.11
10
75
10
11
80
11
12
84
12
13
86
13
14
90
15
0.00
15
93
16
0.09
16
95
17
0.14
17
98
18
0.23
18
100
19
0.29
19
105
20
0.43
20
106
21
0.46
21
108
22
0.51
22
115
23
0.71
23
118
24
0.80
24
126
25
1.03
25
128
26
1.09
26
130
27
1.14
27
142
28
1.49
28
145
29
1.57
29
155
30
1.86
0.334
1
0.387
5
0.431
9
0.454
5
0.500
0
0.534
2
0.556
8
0.590
4
0.612
5
0.665
9
0.676
2
0.696
5
0.762
5
0.788
1
0.848
2
0.861
2
0.873
5
0.931
3
0.942
0
0.968
4
0.333
3
0.366
7
0.400
0
0.433
3
0.500
0
0.533
3
0.566
7
0.600
0
0.633
3
0.666
7
0.700
0
0.733
3
0.766
7
0.800
0
0.833
3
0.866
7
0.900
0
0.933
3
0.966
7
1.000
0
0.000784
0.034118
0.020882
0.054215
0.031943
0.065277
0.021172
0.054506
0.000000
0.066667
0.000820
0.034153
0.009868
0.023465
0.009601
0.023732
0.020882
0.012452
0.000784
0.032549
0.023784
0.009549
0.036859
0.003526
0.004192
0.029141
0.011855
0.021478
0.014826
0.048159
0.005469
0.027864
0.026549
0.006784
0.002011
0.031323
0.024708
0.008625
0.031645
0.001688
Finalmente,
KS=Max{D=0.056,D=0.066}=0.066
Suponiendo un =0.05, el KS crtico es 0.242. Por lo tanto, como KS<KS crtico,
podemos concluir en no rechazar Ho. Esto es, no existe evidencia estadstica
suficiente que sugiera que los datos no provienen de una poblacin N(=90,
=35).
Prueba de bondad de ajuste de Anderson-Darling.
Esta prueba se sustenta en la idea que hemos trabajado antes: la diferencia
en el ajuste que puede existir entre la distribucin emprica y la
distribucin terica. La funcin propuesta por Anderson y Darling (1952) es:
n [ F ( x) F0 ( x)]2 ( F0 ( x ))dF0 ( x )
donde
1 n
n i 1
A 2 ( n)
Es importante sealar que este esquema asigna una mayor ponderacin a las
colas de la distribucin.
Finalmente, el criterio de decisin ser el siguiente: si el valor del
estadstico AD es igual o mayor que el AD critico, entonces rechazar
H0.
Ejemplo. En el Aeropuerto MacArthur de Long Island se ha registrado
diariamente la velocidad del viento durante el mes de Julio. Este conjunto de
datos sugiere una distribucin con colas moderadamente pesadas. Se desea
saber si el conjunto de datos proviene de una distribucin normal.
Los datos son los siguientes:
7.7,8.5,6.9,11.1,17.1,13.3,8.9,11.1,8.8,8.9,9,11.2,6.2,7.8,11.5,
10.2, 8.7,10.7,8.8,9.5,5.6, 6.2,10.4,12.5,8.1,5.9,10.7,7.7,5.2,3.8,7.4
Las hiptesis sern las siguientes:
H0: Los datos provienen de una distribucin normal.
H1: Los datos no provienen de una distribucin normal.
Conforme al estadstico descrito antes, obtenemos la siguiente tabla:
Indic
e
Obse
r.
3.8
5.2
5.6
5.9
6.2
6.2
6.9
7.4
F(X)
1.94
1.42
1.27
1.16
1.05
1.05
0.79
0.60
0.02
6
0.07
8
0.10
2
0.12
4
0.14
8
0.14
8
0.21
6
0.27
4
[2i 1]
-10.267
-5.441
-4.609
-3.819
-3.481
11
-3.431
13
-3.051
15
-2.620
7.7
10
7.7
11
7.8
12
8.1
13
8.5
14
8.7
15
8.8
16
8.8
17
8.9
18
8.9
0.49
0.49
0.45
0.34
0.19
0.12
0.08
0.08
0.04
0.04
19
0.00
20
9.5
0.18
21
10.2
0.44
22
10.4
0.52
23
10.7
0.63
24
10.7
0.63
25
11.1
0.78
26
11.1
0.78
27
11.2
0.81
28
11.5
0.92
29
12.5
1.30
30
13.3
1.59
31
17.1
3.01
0.31
3
0.31
3
0.32
6
0.36
7
0.42
4
0.45
4
0.46
8
0.46
8
0.48
3
0.48
3
0.49
8
0.57
2
0.67
1
0.69
7
0.73
5
0.73
5
0.78
1
0.78
1
0.79
2
0.82
2
0.90
3
0.94
5
0.99
9
17
-2.489
19
-2.356
21
-2.231
23
-1.850
25
-1.546
27
-1.451
29
-1.419
31
-1.390
33
-1.359
35
-1.332
37
-1.249
39
-1.016
41
-0.794
43
-0.736
45
-0.683
47
-0.629
49
-0.490
51
-0.407
53
-0.393
55
-0.327
57
-0.210
59
-0.138
61
-0.028
Donde
i 1
Finalmente,
n i 1
)] 970.335
(970.335) (31)
(970.335) 0.30112
n
31
A 2 ( n)
x(1) , x ( 2) ,..., x ( n )
Calcular el cuantil:
i 0.375
n 0.25 .
Calcular la probabilidad de dicho cuantil dada la distribucin normal estndar.
Esto es
i 0.375
n 0.25
y i 1
(x
i 1
{xi , y i } .
x )( yi y )
sx s y
i 0.375
n 0.25
Indic
e
Obser
v. (Xi)
i 0.375
n 0.25
y i 1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1.14
1.15
1.22
1.26
1.26
1.28
1.28
1.29
1.29
1.29
1.3
1.32
1.32
1.34
1.34
1.36
1.36
1.36
1.38
1.4
1.4
1.45
1.46
1.55
1.67
0.02577
0.06701
0.10825
0.14948
0.19072
0.23196
0.27320
0.31443
0.35567
0.39691
0.43814
0.47938
0.52062
0.56186
0.60309
0.64433
0.68557
0.72680
0.76804
0.80928
0.85052
0.89175
0.93299
0.97423
0.97525
-1.94690
-1.49843
-1.23590
-1.03865
-0.87524
-0.73241
-0.60318
-0.48332
-0.37006
-0.26136
-0.15568
-0.05171
0.05171
0.15568
0.26136
0.37006
0.48332
0.60318
0.73241
0.87524
1.03865
1.23590
1.49843
1.94690
1.96417
RJ RJ
0.05
RJ es 0.9582. Ya que
podemos concluir en rechazar H 0. Es
importante notar que si tomramos r=0.96, entonces no rechazaramos H 0.
Bibliografa.
Transformaciones a la normalidad
Escala original
Escala transformada
1. Conteos, y
y
p
1
log
2
1 - p
2.Proporciones, p
logit(p)
3.Correlaciones, r
Fishers z(r)
1
1 r
log
2
1 r
Power transformations:
Transformacin de Box y Cox
x 1
0
x ( )
ln x 0
n 1 n
l ( ) ln x (j ) x ( )
2 n j 1
donde:
x ( )
1 ln x j
j 1
( )
1 n ( ) 1 n x j 1
x
j n
n j 1
j 1
Una vez realizada la transformacin elegida, deber realizarse una inspeccin para
verificar el supuesto de normalidad de los datos transformados.