Está en la página 1de 10

Mtodos No Paramtricos I

Elena J . Martnez 2do cuat. 2011




52
Test de Wilcoxon de rangos signados


Hemos visto que, con mnimas hiptesis sobre la distribucin subyacente (nica
mediana y distribucin continua), el test del signo es UMP para las hiptesis
unilaterales. Veremos ahora que, si agregamos la hiptesis de simetra, es posible
hallar un test ms potente que el test del signo, un test basado en rangos.

La teora de los tests basados en rangos es ms complicada que la del test del signo.
Bajo H
o
, el estadstico de un test de rangos puede ser representado como una suma
de v.a. independientes pero no idnticamente distribuidas y, bajo H
1
, se pierde
inclusive la independencia. Por ello, necesitaremos nuevas versiones del TCL.

Cmo justificar la hiptesis de simetra? En el problema de una muestra
(posicin) puede haber razones valederas para suponer simetra de la distribucin
subyacente. En el caso del diseo de datos apareados, sean (T,C) dos v.a.
representando un tratamiento y un control, respectivamente y sea F
TC
(t,c) su funcin
de distribucin conjunta. Suponiendo que los sujetos son asignados a tratamiento o
control en forma aleatoria e independiente, la hiptesis nula de no diferencia entre
tratamiento y control, implica que F
TC
(t,c) =F
TC
(c,t) y por lo tanto que X=T-C tiene
distribucin simtrica (es decir, F(x) =1 - F(-x)). Si la alternativa especifica que el
tratamiento agrega una constante al control, el problema se reduce a un problema de
posicin sobre X, es decir a testear

H
o
: =0 vs H
1
: >0

siendo el centro de simetra de X (ser adems la media si sta existe).

Supondremos que X
1
,...,X
n
es una muestra aleatoria de una distribucin F(x-)
con F
s
, siendo


s
={F / F es absolutamente continua, simtrica y con nica mediana en 0}

y que se desea testear

H
o
: =0 vs H
1
: >0


El test del signo se basa en informacin sobre el signo de las observaciones y no
utiliza informacin sobre la distancia de las observaciones al cero. Sin embargo, si la
distribucin es simtrica alrededor de 0, el vector de valores absolutos |X
1
|, |X
2
|,...,|X
n
|
es un estadstico suficiente y por lo tanto, parece razonable tratar de incorporar esta
informacin.

Sea |X|
(1)
|X|
(2)
....

|X|
(n)
, la muestra de valores absolutos ordenados y

R
j
=rango (|X
j
|) es decir |X
j
| =|X|
(Rj)


D
j
=j-simo antirango es decir |X
Dj
| =|X|
(j)

Estadstico del test: el estadstico del test de Wilcoxon (1945), T
+
, es la suma de los
rangos de los valores absolutos de las observaciones mayores que 0 en la muestra
original. Es decir, si definimos

Mtodos No Paramtricos I
Elena J . Martnez 2do cuat. 2011


53

w
]
= _
1 si |X|
(])
corrcsponJc o uno obscr:ocion moyor quc u
u cn coso controrio



I
+
= ] w
]
= R
]
s(X
]
)
n
]=1
n
]=1


siendo

s(x) = ]
1 si x > u
u si x u




Observacin: Si >0 y la distribucin simtrica se halla desplazada hacia la derecha,
las observaciones positivas tienden a estar ms alejadas del 0 que las negativas,
entonces T
+
tiende a ser grande y se rechazara H
o
.

La mediana puede ser 0 aunque la distribucin sea asimtrica. Observemos la
siguiente funcin de densidad:






Es fcil ver que, en este caso, T
+
tender a ser grande aun cuando la mediana es 0.
La hiptesis de simetra es necesaria para evitar interpretaciones errneas de los
valores grandes del estadstico. Si se conoce la mediana de la distribucin, T
+
provee
un test de simetra.



1
1 0 -0.5
Mtodos No Paramtricos I
Elena J . Martnez 2do cuat. 2011


54

Hiptesis a testear y regin de rechazo: Al testear

H
o
: =0 vs H
1
: >0

se rechazar H
o
si T
+
>w
1-
, donde w
1-
es el percentil 1- de la distribucin exacta del
estadstico, que ha sido tabulada.

Si las hiptesis a testear fuesen

H
o
: =0 vs H
1
: <0

se rechazara H
o
si T
+
w

, donde w

es el percentil de la distribucin exacta.
Tambin se podra definir T
-
como la suma de los rangos de los valores absolutos de
las observaciones menores que 0 en la muestra original. Es decir, definimos


<
=
0 si 0
0 si 1
) (
~
x
x
x s .



+
=

+
= =

T
n n
X s R T
j
n
j
j
2
) 1 (
) (
~
1


La ltima igualdad vale si no hay observaciones iguales a 0. Usando T
-
se rechazara
H
o
si T
-
> w
1-
.

En caso de producirse empates, se asigna a cada observacin empatada el promedio
de los rangos que tendran si no fuesen empates. Por ejemplo, si las observaciones
ordenadas son

1 1 2 3 4 4 4 5 6

los correspondientes rangos seran

1.5 1.5 3 4 6 6 6 8 9


Cmo se trabaja si hay observaciones iguales al valor a testear (que podemos
suponer es 0)? . Hay dos propuestas:

Eliminar los valores iguales a 0 y trabajar con el tamao de muestra reducido, es
decir con (n n
o
).

Pratt (1959) sugiere ordenar los datos incluyendo los ceros, calcular los rangos con
todos los datos y luego, calcular T
+
como antes, es decir sin contar los ceros. Si se
usa esta forma, se debe usar la aproximacin Normal o las tablas exactas dadas
por Rahe (1974, J ASA, 368-373).





Mtodos No Paramtricos I
Elena J . Martnez 2do cuat. 2011


55
Si hay empates o si n es grande, conviene usar el siguiente estadstico:



I =
I
o
( R

2 n
=1
)
12




con
+
= T T T
o
. Si no hay empates,

I =
I
o
_
n(n + 1)(2n + 1)
6
=
2 I
+
-
n(n +1)
2
_
n(n + 1)(2n +1)
6



El estadstico T tiene distribucin asinttica Normal standard.


Resumamos las hiptesis a testear y las zonas de rechazo.

A. H
o
: =0 vs H
1
: 0

Se rechaza H
o
si T
+
>w
1-/2
o si T
+
w
/2
, o bien si hay empates o la muestra es
grande, si |T| >z
/2
.


B. H
o
: =0 vs H
1
: <0

Se rechaza H
o
si T
+
w

(o equivalentemente si T
-
>w
1-
), o bien si hay empates o la
muestra es grande, si T -z

.


C. H
o
: =0 vs H
1
: >0

Se rechaza H
o
si T
+
>w
1-
, o bien si hay empates o la muestra es grande, si T >z

.


Distribucin del estadstico de Wilcoxon bajo H
0
: = 0:

Teorema: Bajo H
o
, y si F
s


a) (s(X
1
), ...,s(X
n
)) y (R
1
,...,R
n
) son independientes.

b) W
1
,...,W
n
son independientes e idnticamente distribuidos con W
j
~Bi(1,1/2)
Entonces,
j
n
j
W j T
1

=
+
= es combinacin lineal de v.a. i.i.d. Bi(1,1/2) bajo H
o
, y por lo
tanto es distribucin libre. Adems


24
) 1 2 )( 1 (
) (
4
) 1 (
) (
+ +
=
+
=
+ +
n n n
T V
n n
T E
Mtodos No Paramtricos I
Elena J . Martnez 2do cuat. 2011


56

Demostracin: a) Como (R
1
,..., R
n
) es funcin de (|X
1
|,...,|X
n
|), y los pares (s(X
i
), |X
i
|),
i =1,...,n son independientes, es suficiente mostrar que s(X
i
) y |X
i
| son independientes.

P(s(X
i
) =1, |X
i
| x) =P( 0 <X
i
x) =F(x) F(0) =

=F(x) = (2 F(x) 1) =P(s(X
i
) =1) P(|X
i
| x)

Del mismo modo, se trabaja con P(s(X
i
) =0, |X
i
| x).

As como los signos son independientes de los rangos, lo son tambin de los
antirangos, o sea (s(X
1
), ...,s(X
n
)) y (D
1
,...,D
n
) son independientes.


b) Sea D=(D
1
,...,D
n
) y d=(d
1
,...,d
n
), entonces usando que w
]
= s(X

]
),


= =

= = = = =
= = = = = = =
d
2
1
)
/
n n
n d
d
d
n D
d
D n n
d D P d D P w X s w X s P
d D P d D w X s w X s P w W w W P
n
n
(
2
1
) ( ) ) ( ,...., ) ( (
) ( ) ) ( ,...., ) ( ( ) ,..., (
1
1 1 1
1
1


Por lo tanto, ), ( ) ,..., (
1
1 1 i
n
i
i n n
w W P w W w W P = = = =

=
. 2 / 1 ) ( = =
i i
w W P

Adems, como
j
n
j
W j T
1

=
+
= , bajo H
o
,

E(I
+
) = ]
1
2
n
]=1
=
n(n +1)
4


I(I
+
) = ]
2
1
4
=
n(n +1)(2n + 1)
24
n
]=1




Veamos cmo se obtiene la distribucin exacta de T
+
con un ejemplo: Sea n=4. Los
posibles rangos de los valores absolutos son 1, 2, 3 y 4. En la siguiente tabla se
presentan las posibles asignaciones de signos a los rangos 1, 2, 3 y 4, con el valor
asociado del estadstico T
+
. Recordemos que cada signo es +o con probabilidad .










Mtodos No Paramtricos I
Elena J . Martnez 2do cuat. 2011


57
Rangos T
+

1 2 3 4
+ + + + 10
+ + + - 6
+ + - + 7
+ - + + 8
- + + + 9
+ + - - 3
+ - + - 4
+ - - + 5
- + + - 5
- + - + 6
- - + + 7
- - - + 4
- - + - 3
- + - - 2
+ - - - 1
- - - - 0

Como, bajo la hiptesis nula, cada configuracin tiene probabilidad 1/16, podemos
obtener P(T
+
=k) para todo k. Por ejemplo,

P(T
+
=10) =1/16
P(T
+
= 6) =2/16
P(T
+
> 8) =2/16

Otra forma de obtener la distribucin exacta es usando la funcin generadora de
momentos.


Lema: Bajo H
o
, la funcin generadora de momentos de T
+
es

H(t) = E(c
t 1
+
) =
1
2
n
_(1 + c
t ]
)
n
]=1


Por otro lado,

E(c
t 1
+
) = c
t k
P(I
+
n(n+1)
2
k=0
= k) = c
t k
o
k
n(n+1)
2
k=0



con o
k
= P(I
+
= k).

A partir de la funcin generadora de momentos podemos obtener los momentos de T
+

y su funcin de probabilidad puntual.


Cmo lo haramos para nuestro ejemplo (n=4)?.



Mtodos No Paramtricos I
Elena J . Martnez 2do cuat. 2011


58
Si n=2,

) 1 (
2
1
) 1 )( 1 (
2
1
) (
3 2
2
2
2
2
t t t t t
e e e e e t M + + + = + + =

entonces, P(T
+
=0) =P(T
+
=1) = P(T
+
=2) =P(T
+
=3) =.

Si n=3,

) 1 )( (
2
1
) 1 )( 1 )( 1 (
2
1
) (
3
2
3 2
3
3
t t t t
e t M e e e t M + = + + + =


Si n=4,


y obtenemos, el siguiente desarrollo:

) 2 2 2 2 2 (
16
1
) (
10 9 8 7 6 5 4 3 2 1 0
4
t t t t t t t t t t t
e e e e e e e e e e e t M + + + + + + + + + + =
y por lo tanto la siguiente funcin de probabilidad de T
+
:

T
+
0 1 2 3 4 5 6 7 8 9 10
p 1/16 1/16 1/16 2/16 2/16 2/16 2/16 2/16 1/16 1/16 1/16


Es posible programar este algoritmo recursivo y obtener la distribucin exacta de T
+

para cualquier valor de n.


Distribucin asinttica del estadstico de Wilcoxon bajo H
0
: = 0: Supongamos
que n es grande. Dado que T
+
es una combinacin lineal de los W
i
, que bajo H
0
son
independientes e idnticamente distribuidos, debemos utilizar la siguiente versin del
Teorema Central del Lmite (Lindeberg):

Teorema: Sean V
1
,...V
n
v.a. i.i.d con E(V
i
)=0 y Var(V
i
) =
2
, 0 <
2
<. Definamos


n
V a
S
n
i
i i
=
=
1


Si 0
1
2

=
n
i
i
i
a
a max
, entonces


[ ]
n a S Var N Z
S Var
S
n
i
i
d
/ ) ( con ) 1 , 0 ( ~
) ( 1
2 2
2 / 1

=
=
) 1 )( (
2
1
) 1 )( 1 )( 1 )( 1 (
2
1
) (
4
3
4 3 2
4
4
t t t t t
e t M e e e e t M + = + + + + =
Mtodos No Paramtricos I
Elena J . Martnez 2do cuat. 2011


59


Demostracin: Teorema A9, pag 301, Hettmansperger.

En nuestro caso,

=
+
=
n
j
j
W j T
1


entonces, eligiendo 2 / 1 =
i i
W V y valores adecuados de
i
a y verificando las
condiciones del teorema, se obtiene que

) 1 , 0 ( ~
24
) 1 2 )( 1 (
4 / ) 1 (
N Z
n n n
n n T
d

+ +
+
+



Observaciones: 1) Al usar la aproximacin, puede aplicarse correccin por
continuidad.

2) Hay algunas modificaciones que mejoran la aproximacin, como por ejemplo una
debida a Fellingham y Stocker (J ASA, 1964), quienes mostraron que


( )
) ( ) 3 (
) 1 2 )( 1 ( 10
1 3 3
) ( ) (
3
2
t t t
n n n
n n
t k T P

+ +
+
+
+



donde [ ]
2 / 1
) ( / )) ( 5 . 0 (
+ +
+ = T Var T E k t y es la funcin de densidad normal
standard.

Aplicacin del test de Wilcoxon a datos apareados: Sean (X
1
,Y
1
),...., (X
n
,Y
n
)
observaciones independientes. Podemos pensar que X
i
es el resultado
correspondiente al control e Y
i
el correspondiente al tratamiento. Sea


n i X Y D
i i i
,..., 1 = =

El test de Wilcoxon para datos apareados consiste en la aplicacin del test a las
diferencias D
i
, suponiendo que la distribucin de las diferencias es simtrica.



Ejemplos: 1) Un fabricante de planchas, deseando probar la precisin del control del
termostato en la posicin de 500F, da instrucciones a un ingeniero para que obtenga
temperaturas reales a ese ajuste en 15 planchas, utilizando un termopar. Las
mediciones obtenidas son:



W j T n
j W 1 = + =
Mtodos No Paramtricos I
Elena J . Martnez 2do cuat. 2011


60
Temperaturas
529.77 541.08 467.91
462.75 486.04 542.15
464.20 539.94 495.13
489.17 489.07 531.73
531.09 500.65 527.88

Se desea testear

H
o
: =500 vs H
1
: 500

siendo la mediana de la distribucin subyacente.

Restando 500 a cada observacin y ordenando esas diferencias segn sus valores
absolutos, se obtiene

(+)0.65 (-)4.87 (-)10.83 (-)10.93 (-)13.96 (+)27.88 (+)29.77 (+)31.09


(+)31.73 (-)32.09 (-)35.80 (-)37.25 (+)39.94 (+)41.08 (+)42.15


Construimos el estadstico T
+
, sumando los rangos correspondientes a las diferencias
positivas

T
+
=1 +6 +7 +8 +9 +13 +14 +15 =73

A nivel 0.05, se rechaza H
o
si T
+
>w
0.975
=120 26 =94 T
+
w
0.025
=26 . Estos
valores se encuentran en la tabla A13 del libro de Conover. Por lo tanto no se rechaza
H
o
.


S-PLUS o R proveen el p-valor. Por ejemplo, la salida de R correspondiente a estos
datos es la siguiente:


wilcox.test(ejemplo59,mu=500,alternative="two.sided")

Wilcoxon signed rank test

data: ejemplo59
V = 73, p-value = 0.4887
alternative hypothesis: true location is not equal to 500



2) Se realiz un estudio comparativo en el cual se evalu la efectividad de dos
mtodos, uno tradicional y uno moderno de enseanza del lgebra. En ese estudio 14
individuos fueron extrados al azar de la poblacin de inters y se formaron 7 pares en
base a su IQ. Los miembros de cada par fueron asignados al azar a uno de los dos
mtodos de enseanza, y posteriormente ambos grupos fueron instruidos durante 3
semanas. Todos los estudiantes rindieron el mismo examen al final del periodo de
instruccin y los resultados obtenidos fueron los siguientes:


Mtodos No Paramtricos I
Elena J . Martnez 2do cuat. 2011


61
Par Moderno Tradicional D
i
Rango (+) Rango (-)
1 31 36 -5 3
2 42 38 4 2
3 44 33 11 6
4 48 36 12 7
5 51 53 -2 1
6 57 49 8 4
7 62 52 10 5



Se deseaba testear

H
o
: =0 vs H
1
: >0

siendo la mediana de las diferencias D =Moderno Tradicional. La zona de rechazo
de nivel 0.05 para n =7 es T
+
>24, entonces a este nivel, como T
+
= 24 no se rechaza
H
o
. La correspondiente salida de R es


wilcox.test(ejemplo60[,1],ejemplo60[,2],alternative="greater",
paired=TRUE)

Wilcoxon signed rank test

data: ejemplo60[, 1] and ejemplo60[, 2]
V = 24, p-value = 0.05469
alternative hypothesis: true location shift is greater than 0

También podría gustarte