Está en la página 1de 34

Test de suma de rangos

Validacin de hiptesis de un
proceso de Poisson no homogneo
Georgina Flesia
FaMAF
22 de mayo, 2014
Bondad de ajuste

Se tiene una muestra de datos y se quiere contrastar la hiptesis


H
0
) Los datos provienen de la distribucin F.

Test chi-cuadrado y test de Kolmogorov Smirnov.

Se tienen dos muestras de datos:


H
0
) los datos de las dos muestras provienen de una misma
distribucin.

Test de suma de rangos (Mann-Whitney o de Wilcoxon).

Se tienen k muestras, k 2,
H
0
) Los datos de todas las muestras provienen de una misma
distribucin.

Test de Kruskal-Wallis.
El problema de las dos muestras

Se han observado m datos: Y


1
, . . . , Y
m
. Por ejemplo, tiempos de
permanencia de clientes en un sistema a lo largo de un da.

Se establece un modelo matemtico para estos datos,


asumiendo que las Y
i
son independientes e igualmente
distribuidas.

Se realiza una simulacin de datos X


1
, . . . , X
n
de acuerdo a este
modelo matemtico.

Se puede asegurar que Y


1
, . . . , Y
m
, X
1
, . . . , X
n
son
independientes e igualmente distribuidas?
H
0
) Las n +m variables aleatorias Y
1
, . . . , Y
m
, X
1
, . . . , X
n
son independientes e igualmente distribuidas.
Test de suma de rangos
Mtodo:
Muestra 1: X
1
, . . . , X
n
Muestra 2: Y
1
, . . . , Y
m

Nota: Cualquiera de las dos muestras puede elegirse como


primera.

Se ordenan los n +m valores, que asumimos todos distintos.

R(x
i
): rango de x
i
, i -simo elemento de la muestra 1, entre los
n +m valores.

R: Suma de los rangos de la muestra 1.


R =
n

i =1
R(x
i
).

Ejemplo:
Muestra 1: 1, 7, 5, 4. Ordenamiento: 1, 2, 3, 4, 5, 7, 9.
Muestra 2: 3, 2, 9.
R = 1 + 4 + 5 + 6 = 16
.
Test de suma de rangos
R = suma de los rangos de la primera muestra. Estadstico

Un valor grande de R indica que los datos de la primera muestra


son en general mayores que los de la segunda.

Un valor chico de R indica que los datos de la primera muestra


son en general menores que los de la segunda.

Si el valor observado es R = r , se rechaza H


0
si son pequeas
alguna de las probabilidades
P
H
0
(R r ) o P
H
0
(R r ).
Ejemplo

Se observaron durante 5 das los siguientes valores:


342, 448, 504, 361, 453,
y la simulacin del modelo matemtico propuesto para el
sistema arroj los siguientes valores:
186, 220, 225, 456, 276, 199, 371, 426, 242, 311.

Test de suma de rangos:


186, 199, 220, 225, 242, 276, 311, 342, 361, 371, 426, 448, 453, 456, 504
R = 8 + 12 + 15 + 9 + 13 = 57
Clculo de P
H
0
(R r )

Si n y m son valores pequeos, puede utilizarse una frmula


recursiva para el clculo de P
H
0
(R r ).

Si n y m son valores grandes ( 8), conviene utilizar

distribucin de R, o

simulacin.
Muestras chicas

P
n,m
(r ): probabilidad que de dos conjuntos de datos igualmente
distribuidos, de tamaos n y m respectivamente, la suma de los
rangos de los datos del primer conjunto sea menor o igual a r .

Notacin:
P
n,m
(r ) = P
H
0
(R r )
Clculo de P
n,m
(r )

R = r : suma de rangos de la primera muestra (de tamao n).

Si el mayor valor es de la primera muestra:


r = r (m+n) + (m+n)

r (m+n): suma de los rangos de los n 1 restantes.

m+n: rango del mayor.


P(R r | el mayor est en la 1ra. muestra) = P
n1,m
(r mn)

Si el mayor valor corresponde a la segunda muestra, se tiene


P(R r | el mayor est en la 2da. muestra) = P
n,m1
(r )
Clculo de P
n,m
(r )

Las probabilidades que un elemento de la primera (segunda,


respectivamente) muestra sea el mayor son:
n
m+n
y
m
m+n

Denicin recursiva de P
n,m
(r ):
P
n,m
(r ) =
n
n +m
P
n1,m
(r n m) +
m
m+n
P
n,m1
(r ).

Condiciones iniciales:
P
1,0
(k) =
_
0 k 0
1 k > 0.
P
0,1
(k) =
_
0 k < 0
1 k 0.
Clculo recursivo del valor p

El valor p est dado por


2 min{P
H
0
(R r ), P
H
0
(R r )}

P
H
0
(R r ) = 1 P
H
0
(R r 1).

Clculo del valor p por recursin:


valor p = 2 min{P
n,m
(r ), 1 P
n,m
(r 1)}.
Desventajas del mtodo recursivo

Para n = m = 20, 1 + 2 + + 40 = 820, por lo que el rango de


la muestra de menor rango podra alcanzar el valor 410.

En tal caso, ser necesario calcular


20 20 410 = 164000
valores de P
n,m
(r ).
Distribucin del estadstico R

H
0
: Las dos muestras estn igualmente distribuidas.

Bajo la hiptesis H
0
, todos los ordenamientos de los n +m
valores son igualmente probables.

Notacin:

N = n +m.

x
1
, . . . , x
n
: elementos de la primera muestra.

R(x
i
): rango del elemento x
i
, i = 1 . . . n.

R = R(x
1
) + +R(x
n
) tiene una distribucin aproximadamente
normal:
R E[R]
_
Var(R)
N(0, 1).
Parmetros de la distribucin de R.
E[R(x
i
)] =
N

j =1
j
1
N
=
N + 1
2
.
E[R] =
n

i =1
E[R(x
i
)] = n
N + 1
2
.
Var(R(x
i
)) =
(N 1)(N + 1)
12
cov(R(x
i
), R(x
j
)) =
N + 1
2
Var(R) = n m
N + 1
12
Distribucin de R

Bajo la hiptesis H
0
y para n y m grandes:
W =
R n
N + 1
2
_
n m
N + 1
12
N(0, 1)

Si r E[W], entonces P(W r ) P(W r ).

Si r E[W], entonces P(W r ) P(W r ).


valor p
_
_
_
2P(Z < r

) si r n
N + 1
2
2P(Z > r

) caso contrario.
r

=
r
n (N + 1)
2
_
n m(N + 1)
12
Ejemplo

Los siguientes valores corresponden a observaciones de un


sistema durante 5 das:
132, 104, 162, 171, 129

La simulacin segn el modelo matemtico propuesto para el


sistema arroja los siguientes valores:
107, 94, 136, 99, 114, 122, 108, 130, 106, 88.

El rango de la primera muestra resulta


12 + 4 + 14 + 15 + 10 = 55.

Valor p usando recursin? Ross: 0.0752579. Ejercicio.


Ejemplo

Valor p por aproximacin normal:


E[R] = 5
5 + 10 + 1
2
= 40, 55 > 40.
valor p = 2P
_
_
_
_
Z
55 40
_
50 16
12
_
_
_
_
= 2P(Z 1.8371) = 0.066.

Respuesta exacta: 0.0752579.


Aproximacin mediante simulacin

H
0
: si los n +m datos son distintos, todos los ordenamientos son
igualmente probables.

Simulacin:

Generar un subconjunto de tamao n del conjunto 1, 2, . . . , n +m.

Determinar R: suma de los elementos generados.

Comparar R con el valor observado r .


R r R r .

Repetir los pasos anteriores k veces.

Se habrn obtenido valores R


1
, . . . , R
k
.

Estimar:
P(R r ) =
#{i | R
i
r }
k
, P(R r ) =
#{i | R
i
r }
k
.
Caso de datos repetidos

Si las muestras tienen datos repetidos, se utiliza como rango el
promedio de los rangos de dichos valores.

Ejemplo:

Muestra 1: 2, 3, 4.

Muestra 2: 3, 5, 7.
Ordenamiento:

2, 3, 3 , 4, 5, 7

R = 1 + 2.5 + 4 = 7.5.

En este caso, utilizar la aproximacin normal.


Problema de mltiples muestras

Se tienen m muestras de tamaos n


1
, n
2
, . . . , n
m
.

R
i
: rango de la i -sima muestra.

n = n
1
+ +n
m
: nmero total de datos u observaciones.

H
0
: todas las muestras estn igualmente distribuidas todos
los ordenamientos de los n datos son igualmente probables.

E[R
i
] = n
i
n + 1
2
.

Estadstico:
R =
12
n(n + 1)
m

i =1
(R
i
n
i
(n + 1)/2)
2
n
i
.

Valores chicos de R no indicaran que haya que rechazar H


0
.
Problema de mltiples muestras

Si se observa R = y, entonces
valor p = P
H
0
(R y).

Si los tamaos de las muestras son grandes, R puede


aproximarse por una distribucin chi-cuadrado con m1 grados
de libertad:
valor p P(
2
m1
y).

Puede usarse simulacin.

La aproximacin chi-cuadrado tambin puede utilizarse si hay


datos repetidos.
Proceso de Poisson no homogneo

H
0
) Las llegadas diarias a un sistema ocurren de acuerdo a un
Proceso de Poisson no homogneo.

El nmero de llegadas en un perodo (t , t +s) es una variable


aleatoria Poisson:
E[N(t +s) N(t )] =
_
s+t
s
(x) dx,
(x) es la funcin de intensidad.

El nmero de llegadas diarias es una v. a. Poisson, con media

=
_
T
0
(x) dx, T: long. del da.

Si las llegadas diarias durante r das fueron N


1
, . . . , N
r
, puede
utilizarse un test de bondad de ajuste para validar la hiptesis
que son v. a. Poisson con la misma media.
Mtodo alternativo

En una variable aleatoria Poisson X, la media es igual a la


varianza:
E[X] = Var(X) = .

Esto implica en particular


Var(X)
E[X]
= 1.

Si las observaciones del nmero de llegadas durante r das son


respectivamente:
N
1
, N
2
, . . . , N
r
,
la hiptesis nula establece que E[N
i
] = Var[N
i
], i = 1, . . . , r .

Podemos estimar la media y la varianza con la media muestral N


y la varianza muestral S
2
:
N =

r
i =1
N
i
r
, S
2
=
r

i =1
(N
i
N)
2
r 1
.

Si H
0
es cierta, N y S
2
deberan ser aproximadamente iguales.

Estadstico del test:


T =
S
2
N
.

Valores grandes o pequeos de T indicaran que la hiptesis no


es correcta.
valor p = 2 min{P
H
0
(T t ), P
H
0
(T t )} .

Notar que H
0
no especica la media de la distribucin (), por lo
tanto debe ser estimada.

Sea m la estimacin de la media: N = m.

Denotamos P
m
(A) como la probabilidad bajo H
0
, suponiendo
que la media es m:
valor p = 2 min{P
m
(T t ), P
m
(T t )} .

El valor p puede calcularse mediante simulacin:

Generar r v. a. Poisson, con media m,

Calcular T y comparar con el valor observado t .

Repetir k veces.

Estimar
P(T t ) =
#{i | T
i
t }
k
, P(T t ) =
#{i | T
i
t }
k
.

Si el valor p es pequeo se rechaza la hiptesis que el


nmero de llegadas diarias sea una v.a. Poisson.

Si no se rechaza la hiptesis, hay evidencias que los tiempos


de llegadas de un da y otro correspondan a una misma funcin
de intensidad?

Se han observado N
i
tiempos de llegada el da i -simo:
X
i ,1
, X
i ,2
, . . . , X
i ,N
i
, . i = 1, . . . , r .

Si los tiempos de llegada corresponden a un P.P. no homogneo,


entonces cada conjunto {X
i ,1
, X
i ,2
, . . . , X
i ,N
i
} es una muestra de
una misma distribucin.

Bajo la hiptesis nula, todos los X


i ,j
son independientes y estn
igualmente distribuidos.

En particular, se tienen r muestras de v.a. independientes, con


la misma distribucin.

Validacin: utilizar la prueba de Kruskal-Wallis (varias muestras).

N = N
1
+ +N
r
: nmero total de llegadas.

R
i
: rango de la i -sima muestra (da).
R =
12
N(N + 1)
r

i =1
(R
i
N
i
(N + 1)/2)
2
N
i
.

Si H
0
es cierta,
R
2
r 1
.

Valor observado de R = y:
valor p = 2 min{P
H
0
(R y), P
H
0
(R y)}
= 2 min
_
P(
2
r 1
y), P(
2
r 1
y)
_
Test chi-cuadrado

Dos colas: se est testeando homogeneidad e independencia.

Para calcular el valor p tambin se puede utilizar simulacin.


Ejemplo

Se han observado durante 5 das los tiempos de entrega y los


nmeros de entregas diarias.
Das 1 2 3 4 5 Total
Nmeros de entrega 18 24 16 19 25 102

Si se ordenan los tiempos de entrega, la suma R


i
de los rangos
de entregas de cada da son:
i 1 2 3 4 5
R
i
1010 960 1180 985 1118

Paso 1: validar la hiptesis que el nmero de entregas proviene


de una misma distribucin de Poisson.
N =
102
5
= 20.4, S
2
= 15.3, T = 0.75 .

valor p: mediante simulacin,

generar M muestras de 5 v. a. Poisson independientes con


media m = 20.4,

calcular T = S
2
/N.

valor p 0.84: no se rechaza la hiptesis que los nmeros de


entrega sean v.a. independientes con una distribucin de
Poisson.

Paso 2: Validar la hiptesis de un P. P. no homogneo:


R =
12
N(N + 1)
5

i =1
(R
i
N
i
(N + 1)/2)
2
N
i
= 14.425.

Prueba chi-cuadrado:
P(
2
4
14.425) = 0.006

Se rechaza la hiptesis que los tiempos de llegada provienen de


un Proceso de Poisson no homogneo.
La funcin de intensidad

Si no se rechaza la hiptesis de un proceso de Poisson no


homogneo, cmo se estima la funcin de intensidad (t )?
Estimacin de (t )

Ordenar los N tiempos de llegada


y
0
< y
1
< < y
N
.

En el tiempo (y
j 1
, y
j
) ocurri una llegada en el total de r das,
por lo que se estima que en un da hay un promedio de 1/r
llegadas.

Si

(t ) es la f. de intensidad, :
E[N(y
j
) N(y
j 1
)] =
_
y
j
y
j 1

(t ) dt =
1
r
.

Se puede elegir

(t ) =
1
(y
j
y
j 1
) r
, y
j 1
< t < y
j
.
Proceso de Poisson homogneo

Si el P. Poisson se supone homogneo, N


1
, N
2
, . . . , N
r
tambin
deben ser v. a. Poisson.

Paso 1: validar la hiptesis que los nmeros de llegada diarias


son v. a. Poisson. Igual que para no homogneos.

Paso 2: validar que los tiempos de llegada son v. a. con una


misma distribucin. Se puede mejorar este paso.

En un proceso de Poisson homogneos, dado el nmero de


llegadas en un da, los tiempos de llegada estn uniformemente
distribuidos.

Para validar que esta hiptesis, puede utilizarse el Test de


Kolmogorov-Smirnov.
Test de Kolmogorov-Smirnov
Dados los tiempos de llegada en los r das:
X
1,1
, X
1,2
, . . . , X
1,N
1
X
2,1
, X
2,2
, . . . , X
2,N
2
.
.
.
X
r ,1
, X
r ,2
, . . . , X
r ,N
r

Ordenar los tiempos X


i ,j
, i = 1, . . . , r , j = 1, . . . , N
i
.

N = N
1
+N
2
+ +N
r
: nmero total de llegadas, valor conocido

H
0
) Los N tiempos de llegada estn uniformemente distribuidos
en un da (o intervalo (0, T).)
Proceso de Poisson homogneo

Denir la distribucin emprica:


F
e
(x) =
#{(i , j ) | X
i ,j
x}
N
.

Estadstico de Kolmogorov-Smirnov:
D = max
0xT

F
e
(x)
x
T

Calcular el valor p mediante simulacin.


Ejemplos
Plantear la resolucin de los siguientes ejercicios:

Se han registrado el siguiente nmero de arribos diarios durante


8 das:
122, 118, 120, 116, 125, 119, 124, 130.
Puede decirse que los arribos diarios provienen de un proceso
de Poisson no homogneo?

Durante un intervalo de tiempo de longitud 100, se han


producido 18 llegadas en los siguientes instantes:
12, 20, 33, 44, 55, 56, 61, 63, 66, 70, 73, 75, 78, 80, 82, 85, 87, 90.
Aproximar el pvalor de la muestra bajo la hiptesis: El proceso
de llegada es de Poisson homogneo.

También podría gustarte