Está en la página 1de 146

Máster Universitario en Técnicas Estadı́sticas

Métodos No Paramétricos

José A. Vilar
jose.vilarf@udc.es

Departamento de Matemáticas, Facultad de Informática

Curso Académico 2022-23, A Coruña


Introducción

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 2 / 139
Introducción Modelos paramétricos vs no paramétricos

Modelo paramétrico
Sea X una v.a. con función de distribución de probabilidad F , i.e. F (x) = P (X ≤ x).

Se dice que X sigue un modelo paramétrico si su distribución de probabilidad F


pertenece a una familia de distribuciones indexada por un parámetro θ de dimensión
finita:
X ∼ F ∈ F θ = F θ ; θ ∈ Θ ⊆ Rk .


Ejemplo 1.1.1
I Es razonable asumir que los datos antropométricos de los individuos de una misma
población, raza, sexo y edad, muestren un comportamiento gaussiano. Ası́, variables como
estatura o peso siguen el modelo paramétrico:

F(µ,σ) = Φ(µ,σ) ; µ ∈ R, σ ≥ 0 , (1)

donde Φ(µ,σ) (·) denota la función de distribución de una N (µ, σ).


I X =“número de bacterias por cm2 de cultivo” podrı́a seguir el modelo paramétrico:
( x
)
x
−λ λ
X
Fλ = Fλ (x) = e ; λ = E(X) ≥ 0 . (2)
x!
i=0

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 3 / 139
Introducción Modelos paramétricos vs no paramétricos

Modelo no paramétrico

Cuando sobre la función de distribución F de una variable aleatoria X solamente se


asumen algunas condiciones de regularidad, sin confinarla a una familia indexada por un
parámetro finito-dimensional, se dice que X sigue un modelo no paramétrico.

A menudo estas condiciones de regularidad conciernen a caracterı́sticas de forma o de


suavidad de la distribución, tales como:
I F es una función de distribución absolutamente continua.
I F es simétrica en torno a su mediana.
I F tiene función de densidad f con dos derivadas continuas.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 4 / 139
Introducción Modelos paramétricos vs no paramétricos

Modelos paramétricos vs no paramétricos


I En un modelo paramétrico, el modelo de probabilidad subyacente a X queda
completamente determinado una vez establecido el valor del parámetro θ. La
complejidad del modelo está acotada:

P (x |θ, (X1 , . . . , Xn ) ) = P (x |θ ) .

I En los modelos no paramétricos, la distribución subyacente pertenece a un


subconjunto de distribuciones no acotado, potencialmente de dimensión infinita y,
por consiguiente, el grado de información que se puede obtener sobre el modelo
puede crecer con el número de datos muestrales.

En este sentido los modelos no paramétricos son más flexibles que los modelos
paramétricos. Por ejemplo, si f es la función de densidad de la variable X, un
modelo no paramétrico relativamente frecuente es la familia de densidades:
 Z 
00
2 2
f ∈F = g(·); g (x) dx ≤ C , para alguna constante C ,
R

que identifica el conjunto de densidades que no son demasiado “fluctuantes”.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 5 / 139
Introducción Métodos no paramétricos

Métodos de inferencia no paramétricos

I No hay consenso en la literatura a la hora de establecer una definición/clasificación


de métodos de inferencia no paramétricos (ver Sección 2.5 en [Con99] ).

H0 : Med = Med0
El contraste de hipótesis:
H1 : Med 6= Med0
¿paramétrico o no paramétrico?

I Consideraremos que un procedimiento de inferencia estadı́stica es no paramétrico si


es válido bajo hipótesis tan poco restrictivas como sea posible y, en particular, sin
asumir un modelo paramétrico para la distribución generadora de los datos.

I Distinguiremos dos familias de procedimientos no paramétricos:

1 Métodos clásicos libres de la distribución de los datos.


2 Métodos de estimación no paramétrica de curvas.

[Con99] Conover, W.J. Practical nonparametric statistics, 1999.


José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 6 / 139
Introducción Métodos no paramétricos

Métodos clásicos libres de la distribución de los datos

Métodos de inferencia basados en estadı́sticos cuya distribución en el muestreo no


depende de la distribución generadora de los datos (free-distribution property).

I Por ejemplo, un contraste de hipótesis es de distribución libre si la distribución bajo


la hipótesis nula del estadı́stico de contraste se establece con independencia de cuál
sea la distribución generadora de los datos.

I A menudo se conocen como “Métodos de distribución libre”, pero ojo con esta
traducción poco afortunada de “free-distribution methods”.

I En esta familia se engloban los métodos de inferencia expuestos en los Temas 1 a 4


del programa, incluyendo: (i) métodos de bondad de ajuste, (ii) contrastes de
localización para una, dos y más de dos muestras, y (iii) análisis de dependencia.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 7 / 139
Introducción Métodos no paramétricos

Métodos clásicos libres de la distribución de los datos


Fundamentalmente nos centraremos en contrastes de hipótesis. Algunos ejemplos:

I Bondad de ajuste: H0 : F (x) = F0 (x)
H1 : F (x) 6= F0 (x)

con F0 (·) parcial o completamente especificada.


I Localización: H0 : MedX = MedY
H1 : MedX 6= MedY


I Dependencia: H0 : X e Y son independientes
H1 : X e Y no son independientes

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 8 / 139
Introducción Métodos no paramétricos

Métodos de estimación no paramétrica de curvas

Sea Ψ(x) un cierto funcional de la distribución de probabilidad de una variable X.


El problema de estimar la curva Ψ(x) a partir de una muestra aleatoria de X sin asumir
que la curva está confinada a una familia paramétrica indexada por un parámetro
finito-dimensional (i.e. X no sigue un modelo paramétrico) se denomina estimación no
paramétrica de curvas.

Entre otros, casos especiales de habitual interés suelen ser:


I La distribución de probabilidad: Ψ(x) = F (x) = P(X ≤ x).

d
I La densidad de probabilidad: Ψ(x) = f (x) = F (x).
dx
I La función de regresión: Ψ(x) = m(x) = E (Y |X = x ).

f (x)
I La razón de fallo: Ψ(x) = λ(x) = .
1 − F (x)

I La varianza condicional: Ψ(x) = σ 2 (x) = Var (Y |X = x ).


José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 9 / 139
Introducción El sentido del enfoque no paramétrico

¿Por qué son útiles los métodos no paramétricos?

1 En el enfoque paramétrico se asumen condiciones estrictas sobre el modelo


generador de la muestra y a partir de ellas se construyen procedimientos de
inferencia muy eficientes. Sin embargo, si las hipótesis de partida sobre este modelo
son incorrectas, los procedimientos son inconsistentes.

2 El enfoque no paramétrico parte de hipótesis débiles sobre el modelo generador y


proporciona métodos de inferencia muy generales y consistentes para un amplio
espectro de modelos. El coste de esta versatilidad es una pérdida de eficiencia,
sobre todo con tamaños muestrales pequeños o moderados.

3 Ambos enfoques no son excluyentes sino complementarios.


Por ejemplo, los métodos no paramétricos pueden ser de gran utilidad:
I Para validar modelos paramétricos.
I Para establecer potenciales modelos paramétricos de interés.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 10 / 139
Contenidos Parte I: Métodos No Paramétricos Clásicos de Distribución Libre

Contenidos Parte I

1 Estimación de la función de distribución

2 Contrastes de bondad de ajuste

3 Contrastes de localización: una muestra y muestras apareadas

4 El problema general de dos muestras independientes

5 El problema general de k > 2 muestras independientes

6 El problema general de b > 2 muestras relacionadas

7 Referencias

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 11 / 139
Contenidos Parte II: Estimación No Paramétrica de Curvas

Contenidos Parte II

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 12 / 139
Parte I

Métodos No Paramétricos Clásicos de


Distribución Libre

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 13 / 139
Estimación de la función de distribución

Contenidos

1 Estimación de la función de distribución


La función de distribución empı́rica (ECDF)
Propiedades de la función de distribución empı́rica

2 Contrastes de bondad de ajuste

3 Contrastes de localización: una muestra y muestras apareadas

4 El problema general de dos muestras independientes

5 El problema general de k > 2 muestras independientes

6 El problema general de b > 2 muestras relacionadas

7 Referencias
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 13 / 139
Estimación de la función de distribución La función de distribución empı́rica (ECDF)

Función de distribución empı́rica (ECDF). Definición


Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de tamaño n de una variable aleatoria
X con función de distribución F (x) = P (X ≤ x).

La función de distribución empı́rica (ECDF) asigna a cada número real x la proporción


de valores en la muestra menores o iguales que x. Formalmente:
n
1 1X
Fn (x) = # {Xi ≤ x; i = 1, . . . , n} = 1 (Xi ≤ x) ,
n n
i=1

donde 
1 si Xi ≤ x
1 (Xi ≤ x) = 0 si Xi > x

Si X(1) , X(2) , . . . , X(n) denota la secuencia de estadı́sticos ordenados de la muestra:



 0
 si x < X(1)
k
Fn (x) = si X(k) ≤ x < X(k+1) , para k = 1, 2, . . . , n − 1
 n
si x ≥ X(n)
 1

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 14 / 139
Estimación de la función de distribución Propiedades de la función de distribución empı́rica

ECDF - Propiedades: Distribución de una v.a. discreta.

1 La distribución empı́rica Fn (·) es una función de distribución de probabilidad.

Fn es la función de distribución de la va- Por consiguiente se satisface:


riable aleatoria discreta, digamos Xe , con
I Fn (x) ∈ [0, 1] para todo x ∈ R.
función de masa de probabilidad dada por:
I Fn es continua por la derecha.
Valores Xe pi = P(Xe = xi )
x(1) 1/n I Fn es no decreciente.
x(2) 1/n
.. .. I lı́mx→−∞ Fn (x) = 0.
. .
x(n) 1/n I lı́mx→∞ Fn (x) = 1.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 15 / 139
Estimación de la función de distribución Propiedades de la función de distribución empı́rica

ECDF - Propiedades: Ejemplo

1.0
F10
F100
0.8

F
0.6
Fn(x)
0.4
0.2
0.0

−1.5 −1.0 −0.5 0.0 0.5 1.0

x
Figura 1: Función de distribución de una N(0,1) y dos distribuciones empı́ricas basadas en
muestras aleatorias de tamaños 10 y 100, respectivamente.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 16 / 139
Estimación de la función de distribución Propiedades de la función de distribución empı́rica

ECDF - Propiedades: Distribución

2 Para cada x ∈ R, Fn (x) es una variable aleatoria tal que nFn (x) se distribuye de
acuerdo a una binomial con parámetros n y p = F (x):

nFn (x) ∼ B (n, F (x))

En efecto:
n

1 (Xi ≤ x), donde los n sumandos, 1 (Xi ≤ x), i = 1, . . . , n, son


X
nFn (x) =
i=1
variables aleatorias independientes de Bernoulli con probabilidad de éxito:

p = P (1 (Xi ≤ x) = 1) = P (Xi ≤ x) = F (x).

Se sigue:
 
i n
 
I P Fn (x) = = F (x)i (1 − F (x))n−i , para i = 0, 1, . . . , n.
n i

1
I E (Fn (x)) = F (x); Var (Fn (x)) = F (x) (1 − F (x)) .
n
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 17 / 139
Estimación de la función de distribución Propiedades de la función de distribución empı́rica

ECDF - Propiedades: Consistencia y distribución asintótica

3 Fn (x) −→ F (x) casi seguro.

√ Fn (x) − F (x)
4 np −→ Z, en distribución, donde Z ∼ N (0, 1).
F (x) (1 − F (x))

Nótese que denotando por Yi = 1 (Xi ≤ x), Fn (x) = Y n . Por tanto, la propiedad 3 es
una aplicación inmediata de la ley fuerte de los grandes números y la 4 sigue del
teorema central del lı́mite.

5 [Teorema de Glivenko-Cantelli] sup |Fn (x) − F (x)| −→ 0 casi seguro.


x∈R

6 [Desigualdad de Dvoretzky-Kiefer-Wolfowitz (DKW)] Para cualquier ε > 0,


 
2
P sup |F (x) − Fn (x)| > ε ≤ 2e−2nε .
x∈R

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 18 / 139
Estimación de la función de distribución Propiedades de la función de distribución empı́rica

ECDF - Propiedades: Una banda de confianza simple


La desigualdad DKW en 6 permite construir una banda de confianza no paramétrica
para F :

7 Para algún 0 < α < 1, sean:


r
1 2
 
εn = log L(x) = máx {Fn (x) − εn , 0} U (x) = mı́n {Fn (x) + εn , 1}
2n α

Entonces, para todo F y para todo n se satisface:

P (L(x) ≤ F (x) ≤ U (x), para todo x ∈ R) ≥ 1 − α.

En el r
ejemplo que sigue [Was06], n = 799, de modo que tomando α = 0.05, se tiene que
1 2
 
εn = log = 0.048, y este valor puede usarse para construir la banda
2n 0.05
(L(x), U (x)) al 95 % de confianza dada en 7 .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 19 / 139
Estimación de la función de distribución Propiedades de la función de distribución empı́rica

ECDF - Propiedades: Ejemplo banda de confianza


Ejemplo 2.1.1

1.0
0.8
0.6
Fn
0.4
0.2
0.0

0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4

X = Tiempo entre impulsos fibra nerviosa


n:799 m:0

Figura 2: Función de distribución de un ejemplo con datos reales (n = 799) y banda de


confianza (L(x), U (x)) al 95 %.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 20 / 139
Contrastes de bondad de ajuste

Contenidos

1 Estimación de la función de distribución

2 Contrastes de bondad de ajuste


El problema de la bondad de ajuste
El contraste de Kolmogorov-Smirnov
Contrastes tipo Cramér-von Mises
Contraste de bondad de ajuste a un modelo paramétrico
Bondad de ajuste a una normal

3 Contrastes de localización: una muestra y muestras apareadas

4 El problema general de dos muestras independientes

5 El problema general de k > 2 muestras independientes

6 El problema general de b > 2 muestras relacionadas


José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 20 / 139
Contrastes de bondad de ajuste El problema de la bondad de ajuste

Introducción
Sea X1 , X2 , . . . , Xn una m.a.s. de una v.a. X con función de distribución F .

Problemática
Basándose en la muestra obtener información acerca del modelo de probabilidad F .

I Enfoque paramétrico:

1 Asumir que F ∈ Fθ = Fθ ; θ ∈ Θ ⊆ Rk .
2 Emplear la muestra para inferir sobre θ.

Ejemplo 3.1.1
Se asume F ∼ N (µ, σ) y se realiza inferencia sobre µ y σ.
Por ejemplo, el contraste de hipótesis: Bajo normalidad, el estadı́stico de contraste

H 0 : µ = µ0 √ X n − µ0
t= n ∼ tn−1 .
H1 : µ 6= µ0 Sn−1

Dado que la normalidad determina la distribución de t y las probabilidades de error de la


prueba, parece razonable chequear esta hipótesis.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 21 / 139
Contrastes de bondad de ajuste El problema de la bondad de ajuste

Contrastes de bondad de ajuste


I La compatibilidad de una muestra con un modelo especı́fico de distribución F0 se
evalúa mediante un contraste de bondad de ajuste (goodness-of-fit test - GOF-):

Contraste de bondad de ajuste



H0 : F (x) = F0 (x) para todo x ∈ R
(3)
H1 : F (x) 6= F0 (x) para algún x ∈ R

I Idealmente, la distribución F0 bajo la nula se asume completamente especificada.

I La alternativa en (3) es bilateral, pero pueden plantearse alternativas unilaterales:

H0 : F (x) ≤ F0 (x) para todo x ∈ R vs. H1 : F (x) > F0 (x) para algún x ∈ R (4)

H0 : F (x) ≥ F0 (x) para todo x ∈ R vs. H1 : F (x) < F0 (x) para algún x ∈ R (5)
I El rechazo de la nula no proporciona mucha información ya que la alternativa es
amplia (incluye diferencias en localización, escala, forma, . . . ). Esto justifica el
interés primario de estas pruebas en refutar o no la distribución postulada en la nula.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 22 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov

El contraste de Kolmogorov-Smirnov: Planteamiento


Problema
Sea X1 , . . . , Xn una m.a.s. de una v.a. X con distribución de desconocida F . Sea F0
una distribución de probabilidad completamente especificada. Contrastar:

H0 : F (x) = F0 (x) para todo x ∈ R
H1 : F (x) 6= F0 (x) para algún x ∈ R

Posible enfoque
La distribución empı́rica Fn basada en la muestra es un estimador no paramétrico
consistente de la función de distribución. Por tanto, si H0 es cierta, la “distancia” entre
Fn y F0 decrecerá con n.

Estadı́stico bilateral de Kolmogorv-Smirnov


¿Cómo medir la distancia entre Fn y F0 ? El Teorema de Glivenko-Cantelli establece:
supx∈R |Fn (x) − F0 (x)| −→ 0 casi seguro, lo que sugiere usar el estadı́stico de contraste:

Dn = supx∈R |Fn (x) − F0 (x)|

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 23 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov

El contraste de Kolmogorov-Smirnov: Pruebas unilaterales


y regla de decisión

I Para las pruebas unilaterales (4) y (5), emplear los estadı́sticos respectivos:

Dn+ = sup (Fn (x) − F0 (x)) y Dn− = sup (F0 (x) − Fn (x))
x∈R x∈R

I Nótese que Dn = máx Dn+ , Dn− ; de modo que, bajo la hipótesis nula, los tres

estadı́sticos convergen a cero casi seguro cuando n → ∞.

Regla de decisión del contraste


Rechazar H0 al nivel de significación α, 0 < α < 1, si el estadı́stico de contraste
apropiado, Dn , Dn+ o Dn− , toma un valor superior al cuantil 1 − α de la distribución del
estadı́stico bajo la nula.

Se establece a continuación que los estadı́sticos KS son estadı́sticos de distribución libre.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 24 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov

El contraste de Kolmogorov-Smirnov: Distribución libre


Teorema
Si F0 es absolutamente continua y estrictamente creciente, entonces la distribución bajo
H0 de Dn , Dn+ y Dn− no depende de F0 .

Si F0 es absolutamente continua y estrictamente creciente se tiene:


I X ∼ F0 ⇒ F0 (X) ∼ U [0, 1] I U ∼ U [0, 1] ⇒ F0−1 (U ) ∼ F0

Sea U1 , U2 , . . . , Un una m.a.s. de una U [0, 1] y FnU su distribución empı́rica. Se tiene:


n n
1X 1X
1 (Xi ≤ x) = 1 F0−1 (Ui ) ≤ x =

Fn (x) =
n n
i=1 i=1
n
1X
1 (Ui ≤ F0 (x)) = FnU (F0 (x)).
n
i=1

Luego: Dn = sup |Fn (x) − F0 (x)| = sup FnU (F0 (x)) − F0 (x) = sup FnU (u) − u ,
x∈R x∈R u∈[0,1]
que expresa Dn como el estadı́stico KS basado en una m.a.s. de una U [0, 1].

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 25 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov

El contraste de Kolmogorov-Smirnov: Distribución exacta


I Como Dn es de distribución libre, para determinar su distribución exacta puede
asumirse sin pérdida de generalidad que F ∼ U [0, 1]. Con este criterio, el
Teorema 3.2 en [GC14] establece la distribución exacta de Dn para una distribución
F continua:
Distribución exacta de Dn bajo H0 si F es continua
 0 si ν ≤ 0
1 +ν Z
 Z 2n 3 +ν Z 2n−1 +ν
 2n 2n
1  2n−1
P Dn < +ν = ... f (u1 , . . . , un ) dun . . . du1 si 0 < ν <
2n
2n 1 −ν 3 −ν 2n−1

 2n −ν
2n 2n
2n−1
1 si ν ≥
2n

donde f (u1 , . . . , un ) = n! para 0 < u1 < . . . < un < 1 y 0 en otro caso.

I La distribución exacta de Dn está tabulada y se proporciona en apéndices de varias


monografı́as (ver p.e. Tabla F del Apéndice en [GC14] para n ≤ 40). También
puede aproximarse por simulación.
I La distribución exacta de Dn+ se proporciona en el Teorema 3.4 de [GC14]. Nótese
que, por simetrı́a, Dn+ y Dn− tienen la misma distribución.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 26 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov

El contraste de Kolmogorov-Smirnov: Distribución


asintótica de Dn

Distribución asintótica de Dn bajo H0 si F es continua


Para d > 0 arbitrario:

√ X 2 2
(−1)(i−1) e−2i d .

lı́m P nDn ≤ d = L(d), con L(d) = 1 − 2
n→∞
i=1

I Esta aproximación es razonablemente correcta siempre que n ≥ 35.

I Algunos cuantiles de la distribución asintótica se proporcionan en la tabla que sigue.

d 1.07 1.14 1.22 1.36 1.63


√ 
P nDn > d 0.20 0.15 0.10 0.05 0.01

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 27 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov

El contraste de Kolmogorov-Smirnov: Distribución


asintótica de Dn+ (Dn− )
Distribución asintótica de Dn+ y Dn− bajo H0 si F es continua
1 Para d > 0 arbitrario:
√ + 2
nDn ≤ d = 1 − e−2d .

lı́m P
n→∞

+ 2
∼ χ22 .

2 Asintóticamente, 4n Dn

I El resultado 2 sigue de 1 :
√ +  2  2
 2  c
nDn ≤ d = P 4n Dn+ ≤ 4d2 = 1−e−2d ⇔ P 4n Dn+ ≤ c = 1−e− 2

P

que es la distribución de una χ22 .

+ − 1.22
I Si n grande y α = 0.05, se sigue de 2 que: Dn,0.95 = Dn,0.95 ∼ √ .
n

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 28 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov

El contraste de Kolmogorov-Smirnov: Ejemplos


Ejemplo 3.2.1
¿Se puede rechazar que la muestra que si-
gue procede de una N (40, 3)?

35 45 47 50 31
30 25 33 35 40
45 47 49 42 40
50 46 55 42 46

H0 : F = N (40, 3)
H1 : F 6= N (40, 3)

1 n = 20
2 D̂20 = 0.45221.
3 p = P(D20 > 0.45221) < 0.01.
4 Concluir el rechazo de H0 .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 29 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov

El contraste de Kolmogorov-Smirnov: Ejemplos


Ejemplo 3.2.1
¿Se puede rechazar que la muestra que si-
gue proceda de una N (40, 3)?

1.0
35 45 47 50 31 F20
F = N(40, 3)
30 25 33 35 40 ^
D20 = 0.45

0.8
45 47 49 42 40
50 46 55 42 46

0.6
Fn(x)

H0 : F = N (40, 3)

0.4
H1 : F 6= N (40, 3)

0.2
1 n = 20
2 D̂20 = 0.45221.
0.0

3 p = P(D20 > 0.45221) < 0.01. 25 30 35 40 45 50 55

X
4 Concluir el rechazo de H0 .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 30 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov

El contraste de Kolmogorov-Smirnov: Ejemplos


Ejemplo 3.2.2
Se simula una m.a.s. de tamaño 50 de una
distribución Exp(1) y se emplea la prueba
de Kolmogorv-Smirnov para chequear si se

1.0
puede asumir que esa distribución exponen-
cial genera los datos. Es decir:

0.8

H0 : F = Exp(1)

0.6
H1 : F 6= Exp(1)

Fn(x)
0.4
1 n = 50

0.2
F50
2 D̂50 = 0.070232. F = Exp(1)
^
3 p-valor = 0.9515 (exacto). D50 = 0.07
0.0

4 p-valor = 0.9661 (asintótico). 0 1 2 3 4 5

X
5 No se rechaza H0 .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 31 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov

Banda de confianza basada en el estadı́stico de


Kolmogorov-Smirnov
Tomando como base la distribución exacta o la distribución asintótica de Dn es factible
construir bandas de confianza para la función de distribución generadora de los datos.
1 Fijar el nivel de confianza 1 − α, para 0 < α < 1.
2 Obtener, bien de la distribución exacta de Dn bien de su distribución asintótica, el
cuantil dn,1−α tal que:
 
P (Dn ≤ dn,1−α ) = 1 − α ⇐⇒ P sup |Fn (x) − F (x)| ≤ dn,1−α =1−α
x∈R

⇐⇒ P (Fn (x) − dn,1−α < F (x) < Fn (x) + dn,1−α , para todo x ∈ R) = 1 − α
3 Definir:

Ln (x) = máx {Fn (x) − dn,1−α , 0} Un (x) = mı́n {Fn (x) + dn,1−α , 1}

4 La región (Ln (x), Un (x)) es una banda de confianza al nivel (1 − α) para F .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 32 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov

Banda de confianza basada Kolmogorov-Smirnov: Ejemplo


1.0










0.8











0.6




Fn(x)








0.4











0.2











0.0

0 1 2 3 4 5

X
n = 50

Figura 3: Función de distribución empı́rica y banda de confianza al 95 % basada en el


estadı́stico Dn de Kolmogorov-Smirnov para una m.a.s. de tamaño 50 de una Exp(1).

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 33 / 139
Contrastes de bondad de ajuste Contrastes tipo Cramér-von Mises

Contrastes tipo Cramér-von Mises: Planteamiento


Problema
Dada una m.a.s. X1 , X2 , . . . , Xn de una v.a. X con distribución absolutamente continua
y completamente especificada F0 , contrastar:

H0 : F (x) = F0 (x) para todo x ∈ R
H1 : F (x) 6= F0 (x) para algún x ∈ R

Un criterio de contraste alternativo


Evaluar una distancia en media cuadrática entre la distribución empı́rica Fn y F0 :
Z
Q2n =n (Fn (x) − F0 (x))2 Ψ (F0 (x)) dF0 (x)
R

siendo Ψ(·) una función peso que satisface ciertas condiciones de regularidad.
Con la transformación u = F0 (x) (notar que U = F0 (X) ∼ U [0, 1]) se tiene que:
Z Z 1
Q2n = n (Fn (x) − F0 (x))2 Ψ (F0 (x)) dF0 (x) = n (Gn (u) − u)2 Ψ(u) du,
R 0

donde Gn (u) es la distribución empı́rica de las n i.i.d. v.a. Ui = F0 (Xi ) ∼ U [0, 1].
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 34 / 139
Contrastes de bondad de ajuste Contrastes tipo Cramér-von Mises

Contraste de bondad de ajuste de Cramér-von Mises


Contraste de bondad de ajuste de Cramér-von Mises
Tomando Ψ(x) = 1 para todo x ∈ R, se obtiene el estadı́stico de contraste de
Cramér-von Mises:
Z Z 1
ωn2 = n (Fn (x) − F0 (x))2 dF0 (x) = n (Gn (u) − u)2 du,
R 0

donde Gn (u) es la distribución empı́rica de las n i.i.d. v.a. Ui = F0 (Xi ) ∼ U [0, 1].
I Si U(i) denota el estadı́stico de orden i en la muestra uniforme, ωn2 se escribe como
n 2
1 2i − 1
X 
ωn2 = + U(i) − .
12 2n
i=1

I ωn2 es de distribución libre y se han establecido sus distribuciones exacta y asintótica


[CF96]. El criterio del contraste es rechazar H0 para valores superiores al cuantil
correspondiente.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 35 / 139
Contrastes de bondad de ajuste Contrastes tipo Cramér-von Mises

Contraste de bondad de ajuste de Anderson-Darling


Contraste de bondad de ajuste de Anderson-Darling
Tomando Ψ(x) = (x(1 − x))−1 para todo x ∈ R, se obtiene el estadı́stico de contraste
de Anderson-Darling:

1
(Fn (x) − F0 (x))2 (Gn (u) − u)2
Z Z
A2n =n dF0 (x) = n du,
R
F0 (x) (1 − F0 (x)) 0
u(1 − u)

donde Gn (u) es la distribución empı́rica de las n i.i.d. v.a. Ui = F0 (Xi ) ∼ U [0, 1].
I Si U(i) denota el estadı́stico de orden i en la muestra uniforme, A2n se escribe como
n
1 X
A2n = −n −
 
(2i − 1) ln U(i) + (2n + 1 − 2i) ln 1 − U(i)
n
i=1

I A2n otorga más peso a las colas de la distribución nula que ωn2 .
I A2n es de distribución libre. Su distribución exacta es muy compleja (aproximar por
simulación). La asintótica ha sido establecida [AD52] pero su cálculo es también
complejo [MM04]. Rechazar H0 para valores superiores al cuantil correspondiente.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 36 / 139
Contrastes de bondad de ajuste Contraste de bondad de ajuste a un modelo paramétrico

Contraste de bondad de ajuste a un modelo paramétrico

I A menudo se desea contrastar si la muestra sigue un modelo paramétrico especı́fico.


Es decir, el contraste de hipótesis se plantea en los términos que siguen:

Contraste de bondad de ajuste a un modelo paramétrico



H0 : F = Fθ para algún θ ∈ Θ
(6)
H1 : F 6= Fθ para todo θ ∈ Θ

Ejemplo 3.4.1

H0 : F sigue una distribución normal
H1 : F no sigue una distribución normal

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 37 / 139
Contrastes de bondad de ajuste Contraste de bondad de ajuste a un modelo paramétrico

Contraste de bondad de ajuste a un modelo paramétrico


I Las pruebas de bondad de ajuste de Kolmogorov-Smirnov, Cramér-von Mises y
Anderson-Darling contrastan si una muestra procede de un modelo de probabilidad
completamente especificado, no dependiente de los datos (i.e. no se precisa estimar
previamente parámetro alguno).
Ejemplo 3.4.2

H0 : F ∼ N (0, 1)
H1 : F  N (0, 1)

I Si el modelo no está completamente especificado, es preciso estimar algún


parámetro y estas pruebas son extremadamente conservadoras (error Tipo I inferior
a α). O sea, fallan en detectar la alternativa y su uso no es adecuado.
Ejemplo 3.4.3

H0 : F ∼ N (µ, 1), para algún µ ∈ R
H1 : F  N (µ, 1) para todo µ ∈ R

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 38 / 139
Contrastes de bondad de ajuste Contraste de bondad de ajuste a un modelo paramétrico

Contraste de bondad de ajuste a un modelo paramétrico



H0 : F = Fθ para algún θ ∈ Θ
Para contrastar:
H1 : F 6= Fθ para todo θ ∈ Θ

los estadı́sticos de Kolmogorv-Smirnov (Dn ) y de tipo Cramér-von Mises (ωn2 y A2n ) se


modifican reemplazando en sus expresiones F0 (no existe un F0 único bajo H0 ) por Fθ̂ ,
siendo θ̂ el estimador máximo verosı́mil de θ.
Por ejemplo, el estadı́stico KS modificado para chequear la bondad de ajuste a un
modelo paramétrico toma la forma:
D̃n = sup |Fn (x) − Fθ̂ (x)| ,
x∈R

con θ̂ la estimación por máxima verosimilitud del parámetro desconocido θ.


Sobre la distribución de D̃n conviene enfatizar que:
1 No coincide con la distribución de Dn .
2 Depende del modelo paramétrico especificado en la hipótesis nula y, por tanto, no
es de distribución libre.
3 Está tabulada para algunos modelos concretos tales como el modelo Gaussiano o el
exponencial (pruebas de Lilliefors).
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 39 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal

Bondad de ajuste a una normal


Problema: Contraste de bondad de ajuste a una normal
Sea X1 , . . . , Xn una m.a.s. de una v.a. X. Se desea chequear la normalidad de X, i.e.

H0 : X se distribuye de acuerdo a una N (µ, σ), con µ y σ desconocidas
(7)
H1 : X no se distribuye de acuerdo a una N (µ, σ)

PRUEBAS ANALÍTICAS PRUEBAS GRÁFICAS

1 Kolmogorov-Smirnov-Lilliefors 1 Histograma
2 Cramér-von Mises 2 Diagrama de cajas
3 Anderson-Darling 3 Gráfico de tallo y hojas
4 Shapiro-Wilk 4 Gráfico P-P
5 Jarque-Bera 5 Gráfico Q-Q
6 D’Agostino-Pearson

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 40 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal

Métodos gráficos: Histograma y Diagrama de tallo y hojas

NORMAL NO NORMAL NO NORMAL

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 41 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal

Métodos gráficos: Gráficos P-P y Q-Q

Gráfico P-P (probabilidad-probabilidad)


Compara la distribución empı́rica de una muestra, Fn , con una distribución teórica
completamente especificada, F0 , mediante el diagrama de dispersión de los puntos:
  
Fn X(i) , F0 X(i) ; i = 1, . . . , n .
  n
i X(i) − µ
En el caso de una N (µ, σ) es habitual considerar la nube: ,Φ .
n+1 σ
i=1

Gráfico Q-Q (quantile-quantile)


Compara los cuantiles de una muestra con los cuantiles de una distribución teórica estandarizada
F0 de una familia especı́fica de distribuciones, F , mediante el diagrama de dispersión de los
puntos:
i
n    o
F0−1 , X(i) ; i = 1, . . . , n .
n+1
on
i
n  
En el caso de distribuciones normales es habitual considerar: Φ−1 , X(i) .
n+1 i=1

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 42 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal

Métodos gráficos: Gráficos P-P y Q-Q

I Un patrón lineal en un gráfico Q-Q indica que el modelo de distribuciones


especificado describe razonablemente el comportamiento de la muestra. El intercept
y la pendiente del ajuste lineal aproximan respectivamente la media y desviación
estándar de la distribución. El gráfico P-P, en cambio, requiere que se precise F0 y
la lı́nea de referencia siempre es la diagonal.

I El patrón de linealidad en un gráfico Q-Q no se ve afectado por cambios en


localización o escala. En cambio, tales cambios no preservan la linealidad en un
gráfico P-P.

I En zonas de alta densidad de probabilidad los cambios en probabilidad acumulada


son más acentuados que en zonas de baja probabilidad. Por ello, un gráfico P-P es
particularmente apropiado para detectar diferencias en estas zonas, p.e. para
detectar desviaciones en la zona central de una normal especificada.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 43 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal

Métodos gráficos: Gráficos P-P y Q-Q


NORMALIDAD NO NORMALIDAD NO NORMALIDAD
4
Q−Q Q−Q 4 Q−Q
5.0

2
Cuantiles Muestrales

Cuantiles Muestrales

Cuantiles Muestrales
2.5
2

0.0

−2 0
−2.5

−4
−5.0
−2 −1 0 1 2 −2 0 2 4 −1 0 1 2 3
Cuantiles Teóricos Cuantiles Teóricos Cuantiles Teóricos

1.00 1.00 1.00


P−P P−P P−P

0.75 0.75 0.75


Φ(x)

Φ(x)

Φ(x)
0.50 0.50 0.50

0.25 0.25 0.25

0.00 0.00 0.00


0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
Fn(x) Fn(x) Fn(x)

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 44 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal

Contrastes de bondad de ajuste a una normal


Contraste de Lilliefors para normalidad
Lilliefors tabuló los valores crı́ticos del estadı́stico modificado de Kolmogorov-Smirnov:

D̃nL,N = sup |Fn (z) − Φ(z)| ,


z∈R

donde Φ(·) es la distribución de la N (0, 1) y Fn la distribución empı́rica de los datos


n n
Xi − X n 1X 1 X 2
estandarizados Zi = , con X n = Xi y Sn−1 = Xi − X n .
Sn−1 n n−1
i=1 i=1

Contrastes de Cramér-von Mises y de Anderson-Darling para normalidad


D’Agostino y Stephens tabularon los valores crı́ticos de los estadı́sticos de Cramér-von
Mises, ωn2 , y de Anderson-Darling, A2n , modificados para una hipótesis compuesta de
normalidad reemplazando F0 por Φ y considerando la distribución empı́rica de los datos
estandarizados con X n y Sn−1 .

Estos contrastes no son de distribución libre pero si son libres de parámetros, en el


sentido que sus distribuciones no dependen de los valores de µ y σ.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 45 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal

Contrastes de bondad de ajuste a una normal


Contraste de Shapiro-Wilk (a menudo llamado W -test)
Se emplea el estadı́stico de contraste:
hP
k
i 2
i=1
ai,n X(n−i+1) − X(i)
Wn = Pn 2 ,
i=1
Xi − X n
siendo X(i) el estadı́stico de orden i; k = n/2 si n par y (n − 1)/2 si n impar; y los
coeficientes ai,n (disponibles en tablas, ver p.e. Tabla A.17 en [Con99]) dados por:
mt V −1
(ai,1 , . . . , ai,n ) =
(mt V −1 V −1 m)1/2
siendo m = (m1 , . . . , mn )t los valores esperados de los estadı́sticos de orden de variables
iid N (0, 1) y V la matriz de covarianza de estos estadı́sticos de orden.
Wn ∈ (0, 1] y puede interpretarse como una medida de la bondad de ajuste lineal de los
puntos sobre un Q-Q plot. Por ello, rechazar H0 al nivel α en (7) si Ŵn < wn,1−α ,
siendo wn,1−α el (1 − α)-cuantil en las tablas apropiadas (p.e. Tabla A.18 en [Con99]).

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 46 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal

Contrastes de bondad de ajuste a una normal


Algunas pruebas de normalidad se basan en el comportamiento de estimadores de los
momentos. En particular, este es el caso de las pruebas de Jarque-Bera y de
D’Agostino-Pearson.

Bajo la hipótesis nula de que la muestra procede de una distribución normal se tiene que:

1 El coeficiente muestral de asimetrı́a:


n r !
1 X 6
b1 = (Xi − X)3 →d Y ∼ N 0,
nS 3 n
i=1

2 El coeficiente muestral de apuntamiento o kurtosis:


n r !
1 X 24
b2 = (Xi − X)4 →d Y ∼ N 3,
nS 4 n
i=1

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 47 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal

Contrastes de bondad de ajuste a una normal

Contraste de Jarque-Bera
Emplea el estadı́stico de contraste:
n 2 n
JBn =
b1 + (b2 − 3)2 →d Y ∼ χ22
6 24
I JBn es siempre no negativo y el criterio de la prueba es rechazar H0 al nivel α en
c n > χ22,1−α .
(7) si JB
I El contraste de Jarque-Bera presenta errores de Tipo I grandes con muestras
pequeñas.

Contraste de D’Agostino-Pearson (K 2 )
b1 y b2 son asintóticamente normales pero presentan tasas de convergencia muy lentas.
Por ello se han propuesto transformaciones Z(b1 ) y Z(b2 ) que aceleran esta convergencia
y presentan mejores propiedades para detectar desviaciones de la normalidad causadas
por asimetrı́a o apuntamiento diferente de 3:

Kn2 = Z(b1 )2 + Z(b2 )2 ∼ χ22

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 48 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal

Contrastes de bondad de ajuste a una normal


Ejemplo 3.5.1: Chequeando normalidad. X1 , . . . , X40 de una N (2, 5)
0.12

1.00 ●
Histograma P−P ●

Ajuste normal ●

0.10


● ● ●



0.75
0.08


Densidad





0.06

Φ(x)

0.50 ●



● ●
0.04

● ● ●

0.25

KS-Lilliefors:
0.02



● ●



● ● ●

p = 0.5929
0.00

0 5 10
0.00

Cramér-von Mises:
X
0.00 0.25 0.50
Fn(x)
0.75 1.00
p = 0.4979
Anderson-Darling:
p = 0.4431
Q−Q Shapiro-Wilk:

p = 0.5044

Asimetrı́a:
Cuantiles Muestrales

10 ●




●●
●●●
● ●

p = 0.2555
●●


● ●●
●●●

●●

Kurtosis:


● ● ● ●
● ●●
●●

p = 0.6965
0

Jarque-Bera:
p = 0.435
D’Agostino-Pearson:
0 5 10
0 5 10
Cuantiles Teóricos p = 0.2477
X

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 49 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal

Contrastes de bondad de ajuste a una normal


Ejemplo 3.5.2: Chequeando normalidad. X1 , . . . , X40 de una U [−2, 2]
0.4

1.00
Histograma P−P ●

Ajuste normal ●

● ●



● ●
0.3



0.75 ●

● ●


Densidad



0.2

Φ(x)
0.50 ● ●

● ●

0.1

0.25 ●
● ●
● ●

KS-Lilliefors:
p = 0.1699


● ●
0.0

−2 −1 0 1 2
0.00
● ●
● ●
Cramér-von Mises:
X
0.00 0.25 0.50
Fn(x)
0.75 1.00
p = 0.1625
Anderson-Darling:
p = 0.1252
4
Q−Q Shapiro-Wilk:
p = 0.09102
2 ● Asimetrı́a:
Cuantiles Muestrales




● ●

●●
●●
●●


p = 0.2055
●● ●●

0 ●●

●●

●●

Kurtosis:
p = 0.1975

● ●●●





● ●
Jarque-Bera:
−2
p = 0.1655
D’Agostino-Pearson:
−2 −1 0 1 2
−2 −1
Cuantiles Teóricos
0 1 2
p = 0.2127
X

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 50 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal

Contrastes de bondad de ajuste a una normal


Ejemplo 3.5.3: Chequeando normalidad. X1 , . . . , X40 de una t5
0.35

1.00 ●
Histograma P−P ● ●
Ajuste normal
0.30

● ●



0.25

0.75 ●

● ●

● ●
0.20
Densidad


Φ(x)
● ●
● ●
0.50
0.15


● ●
● ●
● ●
0.10

0.25 ● ●
● ●
● ●
KS-Lilliefors:
0.05

● ●

p = 0.3194
0.00

−4 −2 0 2 4
0.00 ●

Cramér-von Mises:
X
0.00 0.25 0.50
Fn(x)
0.75 1.00
p = 0.358
Anderson-Darling:
p = 0.326
4
Q−Q

Shapiro-Wilk:
p = 0.4326
● ●
2 ● ●
Asimetrı́a:
Cuantiles Muestrales

● ●


●●
●●


p = 0.7385

+ +
0

● ●●

●●

●● ●●

Kurtosis:

● ●
● ●●

●●

p = 0.037
−2 ●
Jarque-Bera:
p = 0.1375

−4

D’Agostino-Pearson:
−2 0 2
−4 −2 0 2
Cuantiles Teóricos p = 0.7361
X

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 51 / 139
Contrastes de localización: una muestra y muestras apareadas

Contenidos

1 Estimación de la función de distribución

2 Contrastes de bondad de ajuste

3 Contrastes de localización: una muestra y muestras apareadas


Introducción
El test de los signos
Inferencia sobre cuantiles
Test de los signos con muestras apareadas
El test de rangos con signo de Wilcoxon
Eficiencia relativa asintótica (ARE)

4 El problema general de dos muestras independientes

5 El problema general de k > 2 muestras independientes

6 El problema general
José A. Vilar Métodosde b > 2 muestras
No Paramétricos relacionadas
- Máster Técnicas Estadı́sticas 20 de noviembre de 2022 51 / 139
Contrastes de localización: una muestra y muestras apareadas Introducción

Introducción
Problema y objetivos con una muestra unidimensional
I Sea X1 , . . . , Xn una m.a.s. de una v.a. X con distribución desconocida F .
I Se desea realizar inferencia sobre parámetros de localización de F (one-sample problem).
I Por ejemplo, si M denota la mediana de la distribución de X y M0 es un valor especı́fico,
podrı́a interesar chequear:
H0 : M = M0 vs H1 : M 6= M0 (8)

I En el contexto paramétrico, se asume que F ∼ N (µ, σ) y, dado que bajo normalidad media
(µ) y mediana coinciden, el contraste (8) se plantea en los términos:
H0 : µ = M0 vs H1 : µ 6= M0

X n − M0 √
que se resuelve con los estadı́sticos de contraste n, si se conoce σ, y
σ
X n − M0 √
n, si no se conoce σ, cuyas distribuciones bajo H0 son N (0, 1) y tn−1 ,
Sn−1
respectivamente.
I El objetivo es realizar la inferencia sin necesidad de asumir la normalidad de F .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 52 / 139
Contrastes de localización: una muestra y muestras apareadas Introducción

Introducción

Problema y objetivos con una muestra bidimensional


I Si se dispone de datos apareados, i.e. de una m.a.s. (X1 , Y1 ), . . . , (Xn , Yn ) de una variable
bidimensional (X, Y ), se puede realizar inferencia sobre parámetros de localización de la
diferencia entre X e Y empleando las mismas técnicas que en el problema one-sample.

En efecto, basta tener en cuenta que D1 = X1 − Y1 , . . . , Dn = Xn − Yn es una m.a.s. de


la población univariante D = X − Y y, por ejemplo, si MD denota la mediana de la
población de diferencias D, podrı́a plantearse el problema:
n
H0 : MD = 0
H1 : MD 6= 0

I Conviene enfatizar que, en general, no es cierto que MD = MX − MY y por tanto:


n n
H 0 : MX = MY H0 : MD = 0
<
H1 : MX 6= MY H1 : MD 6= 0

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 53 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos

El test de los signos: Problema y enfoque

Problema
Sea X1 , . . . , Xn una m.a.s. de una v.a. X con distribución absolutamente continua F y
mediana desconocida M . Se desea contrastar:
H1 : M 6= M0
(
H 0 : M = M0 vs H1 : M > M0
H1 : M < M0

Enfoque alternativo
Como P(X = M ) = 0, por definición de mediana: P(X > M0 ) = P(X < M0 ) = 0.5 bajo
H0 . Entonces el contraste puede escribirse:

H1 : P(X > M0 ) 6= 0.5


(
H0 : P(X > M0 ) = 0.5 vs H1 : P(X > M0 ) > 0.5
H1 : P(X > M0 ) < 0.5

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 54 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos

El test de los signos: Estadı́stico de contraste

Estadı́stico de contraste
Se calculan las diferencias Di = Xi − M0 y se define el estadı́stico que contabiliza el
número de diferencias con signo positivo, i.e.:
n

1 (Xi > M0 ) .
X
Sn = # {Di > 0; i = 1, . . . , n} =
i=1

Bajo H0 , P(X > M0 ) = 0.5 y, por tanto, las variables 1 (Xi > M0 ) se distribuyen según
una Bernoulli(p = 0.5), para i = 1, . . . , n. Como además son independientes, se tiene:
n

1 (Xi > M0 ) ∼ B(n, p = 0.5), si H0 es cierta y sea cual sea F .


X
Sn =
i=1

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 55 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos

El test de los signos: Región de rechazo


Región de rechazo
n

1 (Xi > M0 ) .
X
Sn = # {Di > 0; i = 1, . . . , n} =
i=1

H1 : M 6= M0 H1 : M < M0 H1 : M > M0

Bajo H0 , E (Sn ) = n/2. Bajo H1 , E (Sn ) < n/2. Bajo H1 , E (Sn ) > n/2.
Rechazar para valores de Sn Rechazar para valores Rechazar para valores
distantes de n/2. pequeños de Sn . grandes de Sn .
1
n  
p = P Sn ≤ Ŝn p = P Sn ≥ Ŝn

p = 2 mı́n , P Sn ≥ Ŝn ,
2

P Sn ≤ Ŝn

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 56 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos

El test de los signos: Comentarios sobre la distribución


1 Como la distribución exacta de Sn es binomial, y por tanto discreta, el nivel de
significación deseado α no se alcanzará en general de modo exacto. Por ejemplo,
para H1 : M > M0 , el nivel exacto es:
n   n  
0
X n X n
α = 0.5n , con sn,1−α el menor entero tal que 0.5n ≤ α.
i i
i=sn,1−α i=sn,1−α

p
2 Por el Teorema Central del Lı́mite, B(n, p) ≈ N (np, np(1 − p)). La aproximación
es particularmente buena cuando p = 0.5. Por tanto, para valores moderadamente
grandes de n (n > 12):
n n
 q 
Sn ≈ N , . (9)
2 4

Con la aproximación asintótica (9) se debe aplicar la corrección por continuidad:


!
k − n/2 + 0.5
P (Sn ≤ k) ≈ P Z≤ p , donde Z ∼ N (0, 1).
n/4

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 57 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos

El test de los signos: Ejemplo

Ejemplo 4.2.1: Planteamiento


La mediana de la duración de una visita al médico es de 27 minutos. Se cree que en
centros sanitarios con un número elevado de pacientes, la duración de la visita por
paciente es menor que 27 minutos. Para comprobarlo, se tienen los siguientes datos sobre
las visitas de 20 pacientes seleccionados aleatoriamente en centros sanitarios con un
número elevado de pacientes:

Duración de la visita
21.6 13.4 20.4 26.4
23.5 27.8 24.8 29.3
23.4 9.4 26.8 21.9
24.9 25.6 20.1 26.2
28.7 28.1 29.1 18.9

¿Hay evidencia estadı́stica al nivel del 5 % de que con un número elevado de pacientes la
duración de la visita es menor que 27 minutos?

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 58 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos

Test de los signos: Ejemplo

Ejemplo 4.2.1: Contraste de interés

X = “Duración de la visita en centros con número elevado de pacientes”

Se considera la aplicación de una prueba no paramétrica toda vez que:


I Algunas pruebas de bondad de ajuste a una normal para la distribución de X
resultan significativas (ver página siguiente).
I Se trata de una muestra de tamaño 20, por tanto pequeña.

¿Hay evidencia estadı́stica al nivel del 5 % de que, a mayor número de pacientes, la


duración de la visita es menor que 27 minutos? Si M denota la mediana de X, la
pregunta anterior puede plantearse en términos de la prueba de hipótesis:

H0 : M = 27
H1 : M < 27

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 59 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos

El test de los signos: Ejemplo


Ejemplo 4.2.1: Bondad de ajuste a una normal

1.00
Histograma P−P
0.08

Ajuste normal
● ●


0.75 ●
0.06



KS-Lilliefors:
Densidad

● ●

p = 0.3054

Φ(x)
0.04

0.50 ● ●


Cramér-von Mises:

p = 0.101
0.02


0.25 ●


Anderson-Darling:
p = 0.05364
0.00


0.00 ●

5 10 15 20 25 30
0.00 0.25 0.50 0.75 1.00 Shapiro-Wilk:
X Fn(x)
p = 0.01962
Asimetrı́a:
p = 0.0115
Q−Q
Kurtosis:
30
p = 0.124
Cuantiles Muestrales

● ●

● ●



Jarque-Bera:

● ●
● ●

p = 0.0225
+
20 ●


D’Agostino-Pearson:

p = 0.01325

10 ●

15 20 25 30
10 15 20 25 30
Cuantiles Teóricos
X

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 60 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos

El test de los signos: Ejemplo


Ejemplo 4.2.1: Aplicación del test
20

1 (Xi > 27) = 5 .


X
Bajo H0 : M = 27, el valor del estadı́stico es Ŝ20 =
i=1

Duración de la visita
21.6 13.4 20.4 26.4
23.5 27.8 24.8 29.3
23.4 9.4 26.8 21.9
24.9 25.6 20.1 26.2
28.7 28.1 29.1 18.9

Como H1 : M < 27, se rechaza H0 para valores pequeños de S20 y el p-valor es:

p = P S20 ≤ Ŝ20 |M = 27 = P (B(20, 0.5) ≤ 5) = 0.0207 < 0.05 = α.

Se concluye el rechazo de H0 al nivel α = 0.05, i.e. se concluye que la duración de la


visita por paciente en centros sanitarios con un número elevado de pacientes es
significativamente menor que 27 minutos.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 61 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos

El test de los signos: Ejemplo


Ejemplo 4.2.1: Sobre las distribuciones exacta y asintótica
Se ha considerado la distribución exacta de S20 : p = P (B(20, 0.5) ≤ 5) = 0.0207 .

!
5 − 20/2 + 0.5
Considerando la aproximación normal: p = P Z≤ p = 0.02209 .
20/4

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 62 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos

El test de los signos: Diferencias iguales a cero

I Al asumir que F es absolutamente continua, la probabilidad de que un dato


muestral coincida con M0 (Di = 0 para algún i) es nula. Sin embargo, diferencias
Di iguales a cero pueden presentarse en la práctica debido a la falta de precisión en
el proceso de registro de los datos.

En tal caso se han apuntado diferentes soluciones:

1 La más común: ignorar estas diferencias cero y reducir el tamaño muestral


consecuentemente.
2 Tratar la mitad de ceros como diferencias positivas y la otra mitad como
diferencias negativas.
3 Asignar los ceros a aquel signo menos contrario al rechazo de la nula.
4 Aleatorizar la asignación de las diferencias cero a signos positivos o negativos.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 63 / 139
Contrastes de localización: una muestra y muestras apareadas Inferencia sobre cuantiles

Estimación puntual de un cuantil


Definición
La función cuantil QX (·) asociada a una variable aleatoria X con distribución FX
continua se define como:
−1
QX (τ ) = FX (τ ) = ı́nf{x; FX (x) ≥ τ }, para 0 < τ < 1.

La función cuantil asigna a cada 0 < τ < 1 el correspondiente τ −cuantil y en adelante


nos referiremos a QX (τ ) por qτ .

Teorema
Sea X1 , . . . , Xn una m.a.s. de una variable X con distribución absolutamente continua
FX y denótese por X(r) al r−ésimo estadı́stico ordenado. Entonces:
 1/2
n 
fX (qτ ) X(r) − qτ
τ (1 − τ )

se distribuye aproximadamente como una normal estándar cuando n → ∞ y r/n → τ ,


0 < τ < 1, con qτ el τ -cuantil de la variable X, i.e. FX (qτ ) = τ .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 64 / 139
Contrastes de localización: una muestra y muestras apareadas Inferencia sobre cuantiles

El test cuantil
El test de los signos puede adaptarse trivialmente para contrastar si el cuantil qτ de la
distribución de X es igual, menor o mayor que un valor qτ,0 postulado en la nula.

Ejemplo 4.3.1
Con la muestra del Ejemplo 4.2.1, ¿puede asumirse con un 5 % de significación que en centros sanitarios con
un número elevado de pacientes la quinta parte de los pacientes tardan en su visita menos de 23 minutos?

H0 : q0.2 = 23 vs. H1 : q0.2 < 23

20
X
Considerar el estadı́stico de contraste S20 = 1 (Xi > 23). En este caso: Ŝ20 = 13.
i=1
Sea cual sea la distribución de los tiempos de duración de las visitas, si H0 es cierta: S20 ∼ B(20, 0.8).
Ası́ pues, en media, el 80 % de registros será superior a 23, y este porcentaje será menor bajo H1 .

Se rechazará la nula para valores de S20 significativamente más pequeños que E (S20 |H0 ) = 20 × 0.8 = 16.

p = P S20 ≤ Ŝ20 |q0.2 = 23 = P (B(20, 0.8) ≤ 13) = 0.0867 > 0.05 = α.

Al nivel α = 0.05, se concluye el no rechazo de la nula.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 65 / 139
Contrastes de localización: una muestra y muestras apareadas Inferencia sobre cuantiles

Intervalo de confianza para un cuantil


Si r y s son dos enteros con r < s entonces: s−1
n i
 X
n−i
P X(r) < qτ < X(s) = P (r ≤ B(n, τ ) < s) = τ (1 − τ ) (10)
i
i=r

Usando (10) y la técnica del test de los signos se construye un intervalo de confianza
Pn para el τ -cuantil qτ :
1 En un test bilateral, no se rechaza H0 : qτ = qτ,0 al nivel α si S − =
n i=1
1 (Xi < qτ,0 ) (nótese
que se usan los signos negativos en congruencia con (10)) satisface la desigualdad:
− − −
sn,α/2 + 1 ≤ Sn ≤ sn,1−α/2 − 1, (11)

siendo s−
n,α/2
y s−
n,1−α/2
los enteros más grande y más pequeño que satisfacen respectivamente:

s
n,α/2 n
n i n i
X X
n−i n−i
τ (1 − τ ) ≤ α/2 y τ (1 − τ ) ≤ α/2.
i i
i=0 −
i=s
n,1−α/2
2 Tomando r = s−
n,α/2
+ 1 y s = s−
n,1−α/2
, se tiene de acuerdo a (10) y (11):
 −
 − − −

P X(r) < qτ < X(s) = P r ≤ Sn < s = P sn,α/2 + 1 ≤ Sn ≤ sn,1−α/2 − 1

3 Por tanto, un intervalo de confianza al nivel de confianza 100(1 − α) % para qτ está dado por:

(X(s− +1)
, X(s− )
)
n,α/2 n,1−α/2

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 66 / 139
Contrastes de localización: una muestra y muestras apareadas Inferencia sobre cuantiles

Intervalo de confianza para un cuantil: Asintótico


Los valores de s−
n,α/2
y s−
n,1−α/2
podrı́an aproximarse usando la aproximación normal:

!
s−
n,α/2
− nτ + 0.5 α s−
n,α/2
− nτ + 0.5
P Z≤ p = ⇔ p = −zα/2 ⇔
nτ (1 − τ ) 2 nτ (1 − τ )


p
sn,α/2 = nτ − 0.5 − zα/2 nτ (1 − τ )

!
s−
n,1−α/2
− nτ − 0.5 α s−
n,1−α/2
− nτ − 0.5
P Z≥ p = ⇔ p = zα/2 ⇔
nτ (1 − τ ) 2 nτ (1 − τ )


p
sn,1−α/2 = nτ + 0.5 + zα/2 nτ (1 − τ )

Por tanto el intervalo de confianza asintótico al nivel de confianza 100(1 − α) % para qτ está dado por:

 p p
X(r) , X(s) con r = nτ + 0.5 − zα/2 nτ (1 − τ ) y s = nτ + 0.5 + zα/2 nτ (1 − τ ).

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 67 / 139
Contrastes de localización: una muestra y muestras apareadas Inferencia sobre cuantiles

Intervalo de confianza para un cuantil: Ejemplo


Ejemplo 4.3.2
En el proceso de control de calidad de una fábrica de tubos de radio se seleccionan al azar 16 tubos y se evalúa
el número de horas que tarda cada uno en fallar (ver tabla siguiente). Construir un intervalo de confianza al
95 % para el tercer cuartil de la distribución de la variable “Horas de vida de los tubos”.
Horas de vida tubos
63.40 49.10 59.90 56.50 47.20 63.20 59.20 67.10
73.30 63.30 78.50 67.70 64.10 56.80 63.70 46.90

1 Por tratarse de q0.75 , el estadı́stico apropiado es S16 ∼ B(16, 0.75).
2 Determinar el entero más grande s−
16,0.025 y el más pequeño s−
16,0.975 tales que:


 −

P B(16, 0.75) ≤ s16,0.025 ≤ 0.025 y P B(16, 0.75) ≥ s16,0.975 ≤ 0.025

Se concluye que s− −
16,0.025 = 7 y s16,0.975 = 15. Se toman entonces r = 8 y s = 15.

3 El intervalo de confianza buscado es: X(8) , X(15) = (63.2, 73.3)


1 Para construir el asintótico, s−
16,0.025 = 16 × 0.75 − 0.5 − 1.96 16 × 0.75 × 0.25 = 8.10518 y
− √
s16,0.975 = 16 × 0.75 + 0.5 + 1.96 16 × 0.75 × 0.25 = 15.89482, que se redondean
respectivamente por 8 y 16 para garantizar la confianza del 95 %. Se toman entonces r = 9 y s = 16

2 Resultando: X(9) , X(16) = (63.4, 78.5).

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 68 / 139
Contrastes de localización: una muestra y muestras apareadas Inferencia sobre cuantiles

Intervalo de confianza para un cuantil: Ausencia de


diferencias cero

1 Nótese que la construcción de un intervalo de confianza para un cuantil qτ no


requiere calcular las diferencias Di = Xi − qτ,0 , evitando ası́ el problema de las
diferencias nulas. De ahı́, nunca es preciso disminuir el tamaño muestral n en la
construcción de un intervalo de confianza por este motivo.

2 Como consecuencia de este hecho, cuando se desea realizar el contraste



H0 : qτ = qτ,0
H1 : qτ 6= qτ,0

y hay muchas diferencias Di = Xi − qτ,0 = 0, resulta más potente abordar el


contraste por la vı́a de la construcción de un intervalo de confianza.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 69 / 139
Contrastes de localización: una muestra y muestras apareadas Test de los signos con muestras apareadas

Muestras apareadas y test del signo


Problema
Sea (X1 , Y1 ), . . . , (Xn , Yn ) una m.a.s. de una v.a. bidimensional (X, Y ). Considérese la población diferencia
D = X − Y de la que se dispone de la m.a.s. D1 = X1 − Y1 , . . . , Dn = Xn − Yn . Se asume que D es
absolutamente continua y denótese por MD y qτ,D a la mediana y el τ −cuantil de D respectivamente.
Se plantean contrastes del tipo:
 
6 MD,0
H1 : M D = H1 : qτ 6= qτ,D
H0 : MD = MD,0 vs H1 : MD > MD,0 ; H0 : qτ = qτ,D vs H1 : qτ > qτ,D
H1 : MD < MD,0 H1 : qτ < qτ,D

En este contexto de muestras apareadas, tı́picamente el interés radica en chequear:


 
6 0
H1 : M D = H1 : P(X > Y ) 6= 0.5
H0 : M D = 0 vs H1 : M D > 0 ⇔ H0 : P(X > Y ) = 0.5 vs H1 : P(X > Y ) > 0.5
H1 : M D < 0 H1 : P(X > Y ) < 0.5

Nótese que si X, Y y D son simétricas, entonces


MD = E(D) = E(X) − E(Y ) = MX − MY ⇐⇒ H0 : MD = 0 ⇔ H0 : MX = MY

Posible solución
Es trivial que la prueba de los signos puede ser aplicada para resolver este contraste.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 70 / 139
Contrastes de localización: una muestra y muestras apareadas Test de los signos con muestras apareadas

Muestras apareadas y test del signo: Ejemplo


Ejemplo 4.4.1
Se cree que la susceptibilidad a la hipnosis puede adquirirse o mejorarse con entrenamiento. Para chequear esta
afirmación, la susceptibilidad a la hipnosis de seis sujetos fue evaluada en una escala de 1 a 20 (mayor
puntuación supone mayor susceptibilidad). Todos ellos se sometieron a cuatro semanas de entrenamiento
apropiado y a una evaluación posterior en la misma escala. Los resultados figuran en la tabla que sigue y se
desea concluir si el entrenamiento resulta o no efectivo.
Sujeto 1 2 3 4 5 6
B: Puntuación previa: 10 16 7 4 7 2
A: Puntuación posterior: 18 19 11 3 5 3

Sea D = A − B =“Incremento puntuación susceptibilidad a la hipnosis tras entrenamiento”

Interesa contrastar:
Sujeto: 1 2 3 4 5 6
B: 10 16 7 4 7 2
n
H0 : M D = 0
H1 : M D > 0 A: 18 19 11 3 5 3
D: 1 1 1 0 0 1
6
Test de los signos: X
1 S6 =
P6
1(Di = Ai − Bi > 0). Ŝ6 = 1(Di = Ai − Bi > 0) = 4
i=1
i=1
2 Bajo H0 , S6 ∼ B(6, 0.5).
p = P (B(6, 0.5) ≥ 4) = 0.3438
3 Rechazar H0 para valores grandes de S6 .
No rechazar H0 , es decir la probabilidad de mayor susceptibilidad a la hipnosis no aumenta significativamente
tras el entrenamiento.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 71 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Un punto débil en la prueba de los signos


Sea X1 , . . . , Xn una m.a.s. de una v.a. X con distribución absolutamente continua F y
mediana desconocida M .
H1 : M 6= M0
(
Se desea contrastar: H0 : M = M0 vs H1 : M > M0
H1 : M < M0

La prueba de los signos emplea el estadı́stico de contraste:


n

1 (Xi > M0 ) .
X
Sn = # {Di > 0; i = 1, . . . , n} =
i=1

Se oberva que Sn solo tiene en cuenta el signo de las diferencias Di = Xi − M0 pero


ignora la magnitud de las mismas, lo que supone una pérdida de información cuando el
valor de estas diferencias está disponible.

Si es factible asumir la simetrı́a de la distribución generadora F , la prueba de Wilcoxon


de los rangos con signo proporciona un test más potente al tener en cuenta los valores
de estas diferencias.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 72 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test rangos con signo de Wilcoxon: Problema y enfoque


Problema
Sea X1 , . . . , Xn una m.a.s. de una v.a. X con distribución simétrica y absolutamente
continua F y mediana desconocida M . Se desea contrastar:

H1 : M 6= M0
(
H 0 : M = M0 vs H1 : M > M0
H1 : M < M0

Enfoque
Bajo H0 y por la simetrı́a de F , las diferencias Di = Xi − M0 están simétricamente distribuidas en torno al
0, i.e. diferencias positivas y negativas de igual magnitud son equiprobables. Bajo H0 :
I Y una v.a. que toma los valores 1 y −1 con igual probabilidad 0.5,
D = X − M0 ∼ Y × W
I W ∼ |X − M0 |, una v.a. que mide la distancia entre X y M0 ,
I Y y W son independientes.

Por ello, la magnitud |Di | de cualquier diferencia Di corresponderá con igual probabilidad a una diferencia
positiva o a una diferencia negativa y de ahı́ cabe esperar que estas se repartan por igual bajo H0 .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 73 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test rangos con signo de Wilcoxon: Simetrı́a


0.4

0.6
0.5
0.3

0.4
0.2

0.3
0.2
0.1

0.1
0.0
0.0

−4 −2 0 2 4 0 1 2 3 4 5 6

Xi Xi
0.4

0.7
0.6
0.3

0.5
0.4
0.2

0.3
0.2
0.1

0.1

12 46 9 11 12 3 457 9
3 57 8 10 12 6 8 10 11 12
0.0
0.0

0 1 2 3 4 0 1 2 3 4 5
|Di| = |Xi − M| |Di| = |Xi − M|

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 74 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test rangos con signo de Wilcoxon: Algoritmo

Algoritmo
1 Calcular las diferencias Di = Xi − M0 , siendo M0 la mediana postulada en la nula.
2 Ordenar los valores {|Di |, i = 1, . . . , n} en sentido creciente.
3 Asignar rangos a la muestra de valores |Di |:
r (|Di |) = j ⇔ |Di | ocupa el lugar j en la muestra ordenada ⇔ |Di | = |D|(j)

4 Considerar el estadı́stico de contraste Tn+ que computa la suma de rangos de valores |Di | tales que
Di > 0, es decir X Xn

r (|Di |) 1 (Di > 0)


+
Tn = r (|Di |) =
Di >0 i=1

5 de rangos de diferencias positivas Tn+ iguala el de la suma de


Bajo H0 , el valor esperado de la suma P
r (|Di |) 1 (Di < 0). Como Tn+ + Tn− es la suma de
n
rangos de diferencias negativas Tn− =
i=1
todos los rangos, bajo H0 :
n
1 n(n + 1)
X
+ −
E(Tn ) = E(Tn ) = i=
2 4
i=1

Rechazar H0 si Tn+ difiere significativamente de n(n + 1)/4 en el sentido de H1 .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 75 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test rangos con signo de Wilcoxon: Criterio de rechazo


Región de rechazo
n

r (|Di |) 1 (Di > 0) .


X
Tn+ =
i=1
H1 : M 6= M0 H1 : M < M0 H1 : M > M0

Bajo H0 : Bajo H1 : Bajo H1 :


 n(n + 1)  n(n + 1)  n(n + 1)
E Tn+> . E Tn+
< . E Tn+
> .
4 4 4
Rechazar para valores de Rechazar para valores Rechazar para valores
Tn+ distantes de n(n+1)
4
. pequeños de Tn+ . grandes de Tn+ .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 76 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test rangos con signo de Wilcoxon: Estadı́stico

Al objeto de determinar la distribución bajo la nula del estadı́stico de contraste


Tn+ , considérense, para i = 1, . . . , n, las variables:
 
Yi = 1 (Di > 0) y Wi = 1 Dr−1 (|D|(i) ) > 0

Nótese que Wi toma el valor 1 si |D|(i) corresponde a una diferencia Dj positiva


y 0 en otro caso.

Entonces el estadı́stico de contraste de la prueba de los rangos con signo de


Wilcoxon puede escribirse:
Xn n
X
Tn+ = r (|Di |) Yi = jWj
i=1 j=1

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 77 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test rangos con signo de Wilcoxon: Propiedades

Teorema
Si F es absolutamente continua y simétrica, entonces bajo H0 se tiene que:
I r (|Di |) e Yj son independientes para i, j = 1, . . . , n.

Demostración.
Como r (|Di |) son función de las |Di |, se prueba la independencia de las |Di | y las
Yj . Denótese por F 0 (x) = F (x − M ). Se tiene:

P (|Di | ≤ d, Yi = 1) = P (|Di | ≤ d, Di > 0) = P (0 < Di ≤ d) =


1 1
= F 0 (d) − F 0 (0) = F 0 (d) −
= (2F 0 (d) − 1) = P (Yi = 1) P (|Di | ≤ d)
2 2
Análogamente se procede para Yi = 0.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 78 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test rangos con signo de Wilcoxon: Propiedades

Teorema
Si F es absolutamente continua y simétrica, entonces bajo H0 se tiene que:
I W1 , . . . , Wn son i.i.d. según una Bernoulli de parámetro 1/2.

Demostración.
P (W1 = w1 , . . . , Wn = wn ) =
X
1 > 0 = w1 , . . . , 1 Dr−1 (dn ) > 0 = wn d1 , . . . , dn × P (d1 , . . . , dn )
   
P Dr−1 (d
1)
(d1 ,...,dn )
(por ser r|Di | e Yj independientes)
z}|{
X =
1 > 0 = w1 , . . . , 1 Dr−1 (dn ) > 0 = wn × P (d1 , . . . , dn )
   
P Dr−1 (d
1)
(d1 ,...,dn )  n  n
1 1
X
= P (d1 , . . . , dn ) =
2 2
(d1 ,...,dn )
Q n
En definitiva, P (W1 = w1 , . . . , Wn = wn ) = P (Wi = wi ), siendo P (Wi = wi ) = 1/2.
i=1

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 79 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test rangos con signo de Wilcoxon: Distribución

Sobre la distribución de Tn+ bajo H0


Si F es absolutamente continua y simétrica, entonces bajo H0 :
1 Tn+ es una v.a. discreta que toma valores t ∈ {0, 1, . . . , n(n + 1)/2}. Como Tn+ está completamente
determinado por la n-upla (Y1 , . . . , Yn ) tomando valores 0s y 1s, se tiene que:
+
 n(t)
P Tn = t =
2n
donde n(t) es el número de formas posibles de asignar 0s y 1s a (Y1 , . . . , Yn ) para que Tn+ = t, y 2n
es el número posible de asignaciones (equiprobables bajo H0 ) de 0s y 1s a las Yi . Cada arreglo tiene su
conjugado, ası́ que la distribución de Tn+ es simétrica en torno a su media.

Se concluye que la distribución de Tn+ no depende de la distribución F generadora de la muestra.


n n
1 n(n + 1)
 X X
+
2 E Tn H0 = j E (Wj | H0 ) = j=
2 4
j=1 j=1

n n
1 n(n + 1)(2n + 1)
 X X
+ 2 2
3 Var Tn H0 = j Var (Wj | H0 ) = j =
4 24
j=1 j=1

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 80 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test de Wilcoxon de los rangos con signo: Región de


rechazo
I La distribución exacta de Tn+ bajo H0 está tabulada para valores de n pequeños y
moderados (n ≤ 50).

I Bajo H0 , la simetrı́a de Tn+ y el hecho de que Tn+ + Tn− = n(n + 1)/2 supone que a
valores grandes de Tn+ corresponden valores pequeños de Tn− y viceversa. Es
inmediato probar que Tn+ y Tn− tienen idéntica distribución si H0 es cierta.

I En base a estas propiedades es frecuente emplear Tn = mı́n{Tn+ , Tn− }. Sea tn,α el


α-cuantil de Tn , i.e. P(Tn ≤ tn,α ) = α. La región de rechazo con el test de los
rangos con signo de Wilcoxon al nivel α puede calcularse:

Alternativa R.R. (α) con Tn+ R.R. (α) con Tn− R.R. (α) con Tn
H1 : M < M0 Tn+ ≤ tn,α Tn− ≥ tn,1−α Tn = Tn+ ≤ tn,α
H1 : M > M0 Tn+ ≥ tn,1−α Tn− ≤ tn,α Tn = Tn− ≤ tn,α
H1 : M 6= M0 Tn+ ≤ tn,α/2 o Tn− ≤ tn,α/2 o Tn ≤ tn,α/2
Tn+ ≥ tn,1−α/2 Tn− ≥ tn,1−α/2

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 81 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test de Wilcoxon de los rangos con signo: Distribución


asintótica

I Para tamaños muestrales grandes (n > 50) puede emplearse su distribución


asintótica que es normal en virtud del Teorema Central del Lı́mite ya que, bajo H0 ,
Tn+ es una combinación lineal de las n v.a. Wi , todas ellas i.i.d., con media y
varianza finitas.

Especı́ficamente:
n(n + 1)
Tn+ −
r 4 d
−→ Z ∼ N (0, 1)
n(n + 1)(2n + 1)
24

I Como en el caso del test de los signos, también en esta prueba debe aplicarse la
corrección por continuidad para determinar las probabilidades apropiadas empleando
la aproximación asintótica.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 82 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test de Wilcoxon de los rangos con signo: Potenciales


problemas en la aplicación práctica
I Diferencias cero Como en la prueba de los signos, podrı́an existir Di = 0. Proceder
entonces como se indicó para la mencionada prueba. Lo más habitual es eliminar los
Di = 0 y reducir el tamaño muestral consecuentemente al ejecutar la prueba.

I Empates La aparición de grupos de diferencias Di que son iguales, disponiendo ası́


de n diferencias distribuidas en solo r < n grupos con valores distintos.
Pr Si ti denota
el número de diferencias en cada uno de esos r grupos, entonces t = n.
i=1 i

A modo de ejemplo considerar la muestra de diferencias ordenada:

{1, 6, 6, 9, 11, 11, 11, 16, 21, 35}

Hay n = 10 diferencias pero solo r = 7 diferentes, con t2 = 2 (|D|(2) = |D|(3) = 6),


t4 = 3 (|D|(5) = |D|(6) = |D|(7) = 11) y tj = 1 para j = 1, 3, 5, 6, 7.

Con empates, la asignación de rangos se realizará con algún procedimiento que


minimice los efectos sobre la distribución del estadı́stico Tn+ en el muestreo.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 83 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test de Wilcoxon de los rangos con signo: Empates


Procedimientos usuales de asignar rangos a observaciones empatadas
I Aleatorización Asignar al azar los rangos que corresponderı́an a las observaciones empatadas. Hay
Qr
ti ! posibles asignaciones. En nuestra muestra ejemplo, hay 2! × 3! = 12 posibles asignaciones.
i=1
En nuestro ejemplo: {1, 2, 3, 4, 7, 6, 5, 8, 9, 10}. La distribución bajo H0 de Tn+ no cambia pero sı́
queda afectada la distribución bajo la alternativa.

I Rango medio Asignar a cada observación de un grupo con empates el rango promedio de aquellos que
corresponderı́an a las observaciones del grupo. En nuestro ejemplo: {1, 2.5, 2.5, 4, 6, 6, 6, 8, 9, 10}.
Este método es el más usado. La distribución bajo H0 de Tn+ se ve afectada. Obviamente no cambia la
media pero la varianza se reduce. Conviene aplicar una corrección por empates a la prueba.
Qr
I Estadı́stico promedio Evaluar Tn+ para todas las posibles asignaciones de rangos, ti !, y quedarse
i=1
con el promedio de todos ellos. Como en el caso anterior, no se modifica la esperanza de Tn+ pero sı́
disminuye su varianza.
Qr
I Estadı́stico más conservador Evaluar Tn+ para todas las posibles asignaciones de rangos, ti !, y
i=1
seleccionar el que minimiza la probabilidad de rechazo.

I Omitir empates Omitir las observaciones empatadas y reducir n consecuentemente. Supone perder
información, pero mı́nima si hay pocos empates. En general, introduce sesgo hacia el rechazo de la nula.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 84 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test Wilcoxon rangos con signo: Corrección por empates


Al emplear la distribución asintótica y deshacer los empates con el rango promedio es
deseable corregir la varianza de la distribución lı́mite (con muestras pequeñas el efecto
no es importante).
Considérese un grupo con t diferencias empatadas. Sus rangos s, s + 1, . . . , s + t han sido reemplazados por
el rango promedio s + (t + 1)/2. La suma de rangos no cambia pero sı́ la de sus cuadrados:
t
1
X
I SC(rangos sin empates): 2 2
(s + i) = ts + st(t + 1) + t(t + 1)(2t + 1)
6
i=1
 2  
1 2 1 2
I SC(rangos con empates): t s+ (t + 1) =t s + s(t + 1) + (t + 1)
2 4
1 1 2 1
I La SC decrece en: t(t + 1)(2t + 1) − t(t + 1) = t(t + 1)(t − 1)
6 4 12

La varianza reducida del estadı́stico es:


 n(n + 1)(2n + 1) 1 X 2
Var Tn+ H0 = − t(t − 1),
24 48
gt
donde la suma se extiende a todos los grupos gt con t observaciones empatadas.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 85 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test de Wilcoxon de los rangos con signo: Ejemplo

Ejemplo 4.5.1: Resolver el Ejemplo 4.2.1 con el test de los rangos con signo
La mediana de la duración de una visita al médico es de 27 minutos. Se cree que en
centros sanitarios con un número elevado de pacientes, la duración de la visita por
paciente es menor que 27 minutos. Para comprobarlo, se tienen los siguientes datos sobre
las visitas de 20 pacientes seleccionados aleatoriamente en centros sanitarios con un
número elevado de pacientes:

Duración de la visita
21.6 13.4 20.4 26.4
23.5 27.8 24.8 29.3
23.4 9.4 26.8 21.9
24.9 25.6 20.1 26.2
28.7 28.1 29.1 18.9

¿Hay evidencia estadı́stica al nivel del 5 % de que con un número elevado de pacientes la
duración de la visita es menor que 27 minutos?

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 86 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test de Wilcoxon de los rangos con signo: Ejemplo


Ejemplo 4.5.1: Aplicación del test de rangos con signo de Wilcoxon
X = “Duración de la visita en centros con número elevado de pacientes”
H0 : M = 27 versus H1 : M < 27
Di = Xi − 27 |Di | = |Xi − 27| r(|Di |)
-5.4 -13.6 -6.6 -0.6 5.4 13.6 6.6 0.6 15 19 16 2
-3.5 0.8 -2.2 2.3 3.5 0.8 2.2 2.3 12 3.5 10 11
-3.6 -17.6 -0.2 -5.1 3.6 17.6 0.2 5.1 13 20 1 14
-2.1 -1.4 -6.9 -0.8 2.1 1.4 6.9 0.8 8.5 6 17 3.5
1.7 1.1 2.1 -8.1 1.7 1.1 2.1 8.1 7 5 8.5 18
20

r(|Xi − 27|)1 (Xi > 27) = 3.5 + 11 + 7 + 5 + 8.5 = 35


+
X
T̂20 =
i=1

Como H1 : M < 27, se rechaza H0 para valores pequeños de Tn+ y el p-valor es:
+ + +
 
p = P T20 ≤ T̂20 |M = 27 = P T20 ≤ 35 |M = 27 < 0.05 = α.

Rechazar H0 al nivel α = 0.05: la duración de cada visita en centros sanitarios con un


número elevado de pacientes es significativamente menor que 27 minutos.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 87 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test de Wilcoxon de los rangos con signo: Ejemplo


Ejemplo 4.5.1: Sobre las distribuciones exacta y asintótica
+
Se ha considerado la distribución exacta de Tn+ : T̂20 = 35 < t20,0.005 = 37 < t20,0.01 = 43.

 
20 · 21
+ 0.5 35 −
Con la aproximación normal: p = P Z ≤ q 4  = P(Z ≤ −2.5951) = 0.00473 .
20 · 21 · 41 2·3
−2
24 48

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 88 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test de Wilcoxon de los rangos con signo: Construcción de


un intervalo de confianza
Determinar I = [M1 , M2 ] tal que H0 : M = M0 vs. H1 : M 6= M0 no sea significativo al
nivel α para todo M0 ∈ I, i.e. Tn+ > tn,α/2 y Tn− > tn,α/2 con Tn+ y Tn− basados en M0 .
Para una m.a. V1 , . . . , Vn de cualquier variable:
S(Vi − Vk ), con S(u) = 1(u ≥ 0)
Pn P
r(Vi ) = k=1
S(Vi − Vk ) = 1 + k6=i

Con esta notación:


n

1(Xi > M0 )r (|Xi − M0 |)


X
Tn+ =
i=1
n n

1(Xi > M0 ) + 1(Xi > M0 )S (|Xi − M0 | − |Xk − M0 |) (12)


X X X
=
i=1 i=1 k6=i

En el cómputo de Tn+ en (12) se suma o no un 1 según cada una de las: n


comparaciones de Xi con M0 y las n2 = n(n − 1)/2 comparaciones de |Xi − M0 | con
|Xk − M0 |, i 6= k.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 89 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test de Wilcoxon de los rangos con signo: Construcción de


un intervalo de confianza
n n X

1(Xi > M0 ) + 1(Xi > M0 )S (|Xi − M0 | − |Xk − M0 |)


X X
Tn+ =
i=1 i=1 k6=i

I Obviamente, en los n primeros sumandos se añade un 1 por cada Xi > M0 .

I Es sencillo comprobar que cada una de las restantes n(n − 1)/2 comparaciones
añaden un 1 si se satisface Xi > M0 y (Xi + Xk )/2 > M0 , k 6= i.

I Por simetrı́a, se suma 1 a Tn− si Xi < M0 y si Xi < M0 y (Xi + Xk )/2 < M0 ,


k 6= i.

I Por tanto, si se ordenan en sentido creciente las n observaciones Xi y los


n(n − 1)/2 valores (Xi + Xk )/2 y se elige como M1 el valor que ocupa la
tn,α/2 + 1 posición partiendo desde el inicio y como M2 el valor que ocupa la
tn,α/2 + 1 posición partiendo desde el final, se obtiene un intervalo de confianza
para M al nivel (1 − α).

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 90 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Test de Wilcoxon de los rangos con signo: Ejemplo


Ejemplo 4.5.2: Intervalo de confianza basado en el test de los rangos signados
Construir un intervalo de confianza al 95 % para la mediana M de una v.a. X con
distribución simétrica y continua en base a la m.a.s. {−1, 6, 13, 4, 2, 3, 5, 9}
1 En la tabla con la distribución exacta de T8+ se observa que P(T8+ ≤ 3) = 0.0195
mientras que P(T8+ ≤ 4) > 0.025. Por tanto se fija t8,0.025 = 3.
2 Se ordenan los Xi en sentido creciente y se calcula (Xi + Xk )/2 para i 6= k:
X(i) (Xi + Xk )/2, i=6 k
-1.0 0.5 1.0 1.5 2.0 2.5 4.0 6.0
2.0 2.5 3.0 3.5 4.0 5.5 7.5
3.0 3.5 4.0 4.5 6.0 8.0
4.0 4.5 5.0 6.5 8.5
5.0 5.5 7.0 9.0
6.0 7.5 9.5
9.0 11.0
13.0

3 Como t8,0.025 = 3, seleccionar los valores en la tabla previa que, una vez ordenados,
ocupan el lugar 4 desde el menor (M1 = 1.5) y desde el mayor (M2 = 9).
4 El intervalo de confianza al 95 % para la mediana M es (1.5, 9), con un nivel de
confianza exacto de (1 − 2 × 0.0195)100 % = 96.1 %.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 91 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon

Muestras apareadas y test rangos con signo: Ejemplo


Ejemplo 4.5.3: Resolver el Ejemplo 4.4.1 con el test de los rangos con signo
Se cree que la susceptibilidad a la hipnosis puede adquirirse o mejorarse con entrenamiento. Para chequear esta
afirmación, la susceptibilidad a la hipnosis de seis sujetos fue evaluada en una escala de 1 a 20 (mayor
puntuación supone mayor susceptibilidad). Todos ellos se sometieron a cuatro semanas de entrenamiento
apropiado y a una evaluación posterior en la misma escala. Los resultados figuran en la tabla que sigue y se
desea concluir si el entrenamiento resulta o no efectivo.
Sujeto 1 2 3 4 5 6
B: Puntuación previa: 10 16 7 4 7 2
A: Puntuación posterior: 18 19 11 3 5 3

Sea D = A − B =“Incremento puntuación susceptibilidad a la hipnosis tras entrenamiento”

Interesa contrastar:
Sujeto: 1 2 3 4 5 6
Di = Ai − Bi 8 3 4 -1 -2 1
n
H0 : M D = 0
H1 : M D > 0 |Di | 8 3 4 1 2 1
r(|Di |) 6 4 5 1.5 3 1.5
6
Test de los rangos con signo de Wilcoxon: X
r(|Di |)1(Di > 0) = 16.5
+
1 Calcular Di = Ai − Bi y r(|Di |). T̂6 =

r(|Di |)1(Di > 0).


P6
2 T6+ = i=1
 
i=1 + +
p = P T6 ≥ 16.5 = P T6 ≥ 17 = 0.109
3 Rechazar H0 para valores grandes de T6+ .
No rechazar H0 , es decir la probabilidad de mayor susceptibilidad a la hipnosis no aumenta significativamente
tras el entrenamiento.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 92 / 139
Contrastes de localización: una muestra y muestras apareadas Eficiencia relativa asintótica (ARE)

Eficiencia relativa de dos pruebas de hipótesis


Definición
Sean T1 y T2 dos tests que contrastan las mismas hipótesis nula y alternativa, H0 vs H1 ,
con regiones crı́ticas de igual tamaño α.

La eficiencia relativa de T1 con respecto a T2 , RET1 ,T2 , es el cociente n2 /n1 , donde n1 y


n2 son los respectivos tamaños muestrales requeridos por T1 y T2 para alcanzar una
potencia preespecificada 1 − β.

I Si n1 < n2 , entonces RET1 ,T2 > 1 y T1 es más eficiente que T2 pues alcanza la
potencia especificada con menos datos muestrales.

I Si H1 es compuesta, RET1 ,T2 debe calcularse con cada distribución de probabilidad


determinada por la alternativa.

I Por definición, RET1 ,T2 depende del nivel de significación α, de la potencia 1 − β, y


del tipo de alternativa si esta es compuesta H1 : θ1 ∈ Θ1 . Serı́a deseable un criterio
alternativo liberado de estos condicionantes.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 93 / 139
Contrastes de localización: una muestra y muestras apareadas Eficiencia relativa asintótica (ARE)

Eficiencia relativa asintótica de dos pruebas de hipótesis


Definición
Sean T1 y T2 dos tests consistentes para contrastar las mismas hipótesis nula y
alternativa, H0 vs H1 . Sean n1 y n2 los tamaños muestrales respectivos requeridos por
T1 y T2 para alcanzar igual potencia 1 − β con el mismo nivel de significación α.
La eficiencia asintótica relativa de T1 con respecto a T2 , ARET1 ,T2 , es el lı́mite de n2 /n1
cuando n1 → ∞ y α y β están fijos, si ese lı́mite es independiente de α y β.

I Si un test es consistente, para un α fijo, β decrece con n. En lugar de permitir que β


decrezca, se opta por fijar α y β y elegir la alternativa lo suficientemente cercana a
la nula para satisfacer esos valores de α y de β, o sea permitir θ1 ∈ H1 → θ0 ∈ H0 .

n2 (α, β, θ1 )
I RET1 ,T2 = RET1 ,T2 (α, β, θ1 ) = , depende de α, β y θ1 .
n1 (α, β, θ1 )
n2 (α, β, θ1 )
ARET1 ,T2 = lı́m cuando n1 → ∞ y θ1 → θ0 , con α y β fijas.
n1 (α, β, θ1 )
I Ası́ definido, el ARE se conoce como eficiencia de Pitman. Otras definiciones de
ARE son las de Bahadur (α → 0, con β y θ fijos) y Hodges-Lehmann (β → 1, con
α y θ fijos).
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 94 / 139
Contrastes de localización: una muestra y muestras apareadas Eficiencia relativa asintótica (ARE)

ARE de las dos pruebas de los signos


ARE respecto al test t de Student para una muestra
Bajo simetrı́a E(X) = Med(X), de modo que las dos pruebas de los signos son
“competidores” no paramétricos de la prueba t de Student de localización de la media.

Respecto al test t de Student Signos Rangos con Signos


ARE (Normal) 0.637 0.955
ARE (Uniforme) 1
ARE (Continua y simétrica) ≥ 0.333 ≥ 0.864
¿ARE ≥ 1? Algunas distribuciones Distribuciones con colas más
pesadas que la normal(1)
(1) Por ejemplo, el test de los rangos con signo tiene un ARE respecto al test t de Student igual a 1.50 para la
distribución de Laplace e igual a 1.09 para la distribución logı́stica, ambas con colas muy pesadas.

ARE del test de los signos respecto al de los rangos con signo de Wilcoxon

ARE Signos respecto a Rangos con Signo


Normal Uniforme Doble exponencial
2/3 1/3 4/3

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 95 / 139
El problema general de dos muestras independientes

Contenidos

1 Estimación de la función de distribución

2 Contrastes de bondad de ajuste

3 Contrastes de localización: una muestra y muestras apareadas

4 El problema general de dos muestras independientes


Introducción
El test de rachas de Wald-Wolfowitz
El test de Kolmogorov-Smirnov para dos muestras
El test de Cramér-von Mises para dos muestras
El test de Mann-Whitney-Wilcoxon

5 El problema general de k > 2 muestras independientes

6 El problema general de b > 2 muestras relacionadas


José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 95 / 139
El problema general de dos muestras independientes Introducción

Introducción
El problema de dos muestras (two-sample problem)
Sean X1 , . . . , Xm e Y1 , . . . , Yn m.a.s. independientes de v.a. respectivas X e Y con funciones
de distribución desconocidas FX y FY , respectivamente.
En base a ambas muestras, se desea realizar inferencia para determinar si han sido generadas del
mismo modelo de distribución de probabilidad, i.e. chequear la nula:
H0 : FX = FY

I En el contexto paramétrico se asume que ambas muestras son normales y el problema se


reduce a chequear igualdad de medias y de varianzas:
H0 : E(X) = E(Y ) y H0 : Var(X) = Var(Y )

Para ello existen pruebas óptimas basadas en la t de Student y en la F -de Fisher-Snedecor,


respectivamente.

I Con tamaños muestrales pequeños (incluso razonablemente grandes en el caso de la


igualdad de varianzas), estas pruebas son muy sensibles a desviaciones de la normalidad, lo
que sugiere la importancia de pruebas no paramétricas de distribución libre.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 96 / 139
El problema general de dos muestras independientes Introducción

Introducción: Interés en la práctica


Diferencias en general
(
H1 : FX (x) 6= FY (x) para algún x
H0 : FX = FY vs H1 : FX (x) > FY (x) para algún x
H1 : FX (x) < FY (x) para algún x

Diferencias en localización
Se asume que X e Y son iguales en distribución salvo a lo sumo en un posible desplazamiento
de magnitud θ > 0. Más precisamente: FY (x) = P(Y ≤ x) = P(X ≤ x − θ) = FX (x − θ), para
todo x y algún θ 6= 0.
H0 : FX = FY vs H1 : FX (x) = FY (x − θ) para todo x y algún θ

Diferencias en escala
Se asume que X e Y son iguales en distribución salvo a lo sumo en un posible factor de escala θ.
Más precisamente: FY (x) = P(Y ≤ x) = P(X ≤ θx) = FX (θx), para todo x y algún θ > 0,
θ 6= 1.
H0 : FX = FY vs H1 : FX (x) = FY (θx) para todo x y algún θ 6= 1

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 97 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz

El test de rachas de Wald-Wolfowitz: Fundamento


Contraste
I X1 , . . . , Xm i.i.d. X ∼ FX , FX continua
n
I Y1 , . . . , Yn i.i.d. Y ∼ FY , FY continua H0 : FX (x) = FY (x) para todo x
H1 : FX (x) 6= FY (x) para algún x
I X1 , . . . , Xm e Y1 , . . . , Yn independientes

Fundamento del test basado en rachas


I Como FX y FY son continuas no hay posibilidad de empates y existe una única ordenación
de la muestra conjunta (combinación de ambas muestras).
I Bajo H0 , X1 , . . . , Xm e Y1 , . . . , Yn vienen de la misma población y cualquiera de las
m+n

m
posibles configuraciones de la muestra conjunta ordenada es equiprobable.
I Sean p.e. m = 4 y n = 5. Se procede a mezclar y a ordenar en sentido creciente ambas
muestras manteniendo en mente su población origen. Dos posibles resultados serı́an:
R1 X Y Y X X Y X Y Y
R2 X X X X Y Y Y Y Y
I La muestra global es una m.a.s. de tamaño m + n de una distribución común, luego R1 es
más acorde con H0 : ambas muestras parecen mezclarse al azar. R2 es muy improbable bajo
H0 : sugiere que las muestras proceden de poblaciones diferentes, en concreto FX > FY .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 98 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz

El test de rachas de Wald-Wolfowitz: Estadı́stico


Definición
Dada una secuencia ordenada de dos o más tipos de sı́mbolos, una racha se define como una
sucesión de uno o más sı́mbolos idénticos seguida y precedida bien por un sı́mbolo diferente bien
por ningún sı́mbolo.

I En el ejemplo previo: R1 X Y Y X X Y X Y Y 6 rachas


R2 X X X X Y Y Y Y Y 2 rachas

Test de rachas de Wald-Wolfowitz

H0 : FX (x) = FY (x) para todo x vs H1 : FX (x) 6= FY (x) para algún x


1 Combinar ambas muestras y ordenar la muestra conjunta en sentido creciente.
2 Reemplazar los valores en la muestra conjunta ordenada por sı́mbolos indicativos de la
población origen.
3 Evaluar el estadı́stico: Rm,n =“Número total de rachas en la muestra conjunta ordenada”
4 Rechazar H0 para valores pequeños de Rm,n .
Región de rechazo al nivel α: Rm,n ≤ Rm,n,α , siendo Rm,n,α el mayor entero tal que
P (Rm,n ≤ Rm,n,α | H0 ) ≤ α.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 99 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz

El test de rachas de Wald-Wolfowitz: Distribución nula


Lema 5.2.1
El número de formas distintas de separar m sı́mbolos iguales en r bloques distinguibles sin
m − 1
huecos entre ellos es , m ≥ r.
r−1

Teorema 5.2.1
Considérese una muestra aleatoria de m + n objetos, m de un tipo 1 y n de un tipo 2. Denótese
por R1 y R2 a las v.a. que contabilizan las rachas en la muestras de objetos de tipo 1 y de tipo
2, respectivamente. Entonces:
m−1

n−1

c r1 −1 r2 −1
P (R1 = r1 , R2 = r2 ) = m+n
 r1 = 1, . . . , m; r2 = 1, . . . , n; y r1 = r2 o r1 = r2 ±1
m

donde c = 2 si r1 = r2 y c = 1 si r1 = r2 ± 1.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 100 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz

El test de rachas de Wald-Wolfowitz: Distribución nula


Teorema 5.2.2 (Distribución exacta de Rm,n bajo H0 )
Sean X1 , . . . , Xm e Y1 , . . . , Yn m.a.s. independientes de variables X e Y con distribuciones
continuas FX y FY , respectivamente. Sea Rm,n el estadı́stico que contabiliza el número de
rachas en la muestra combinada de ambas ordenada en sentido creciente.
Si FX = FY , la función de masa de probabilidad de Rm,n viene dada por:
 m−1

n−1

2 r/2−1 r/2−1
si r es par

 

 m+n
m

P (Rm,n = r) =    
m−1 n−1 m−1 n−1


 (r−1)/2 (r−3)/2
+ (r−3)/2 (r−1)/2

 m+n
 si r es impar
m

para r = 2, 3, . . . , m + n.

Momentos de Rm,n bajo H0


Bajo H0 se tiene que:
2mn 2mn(2mn − m − n)
I E (Rm,n ) = 1 + I Var (Rm,n ) =
m+n (m + n)2 (m + n − 1)

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 101 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz

El test de rachas de Wald-Wolfowitz: Distribución


asintótica
Distribución asintótica de Rm+n bajo H0
m n
Si m, n → ∞ de modo que →λy → 1 − λ, con 0 < λ < 1 fijo. Entonces, bajo
m+n m+n
H0 :
Rm,n Rm,n
   
lı́m E = 2λ(1 − λ) y lı́m Var √ = 4λ2 (1 − λ)2
m,n→∞ m+n m,n→∞ m+n
Además, la variable estandarizada
Rm,n − 2(m + n)λ(1 − λ)
Z= √ ≈ N (0, 1) (13)
2 m + nλ(1 − λ)

Si m y n elevados (m, n > 12), la distribución de Rm,n bajo H0 puede aproximarse usando la
distribución normal con media y varianza de la distribución exacta y la corrección por
continuidad, i.e. rechazar H0 : FX = FY al nivel α si:
2mn
Rm,n − 0.5 −
m+n 
r ≤ zα/2 , con zα/2 tal que P N (0, 1) ≤ zα/2 = α/2
2mn(2mn − m − n)
(m + n)2 (m + n − 1)

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 102 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz

El test de rachas de Wald-Wolfowitz: Observaciones

1 Empates. Si la muestra combinada contiene valores que se repiten (empates), el


estadı́stico de contraste Rm,n solo se ve afectado si los empates involucran a
observaciones de ambas muestras. En tal caso se sugiere deshacer los empates de
todas las formas posibles y calcular el valor del estadı́stico Rm,n para cada caso.
Entonces seleccionar el valor más grande de Rm,n que hace la prueba más
conservadora.

2 La prueba de rachas es muy general, siendo consistente para cualquier alternativa.

3 Al basarse en el número total de rachas, el estadı́stico de contraste no facilita


información sobre alternativas unilaterales, es decir, sobre si X es estocásticamente
mayor que Y (FX < FY ) o viceversa.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 103 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz

El test de rachas de Wald-Wolfowitz: Ejemplo

Ejemplo 5.2.1: Planteamiento


Los siguientes datos proceden de un estudio sobre diferenciación de castas en hormigas, para lo
que se estudió a lo largo del tiempo el número de larvas grandes que hay en dos hormigueros:

Colonia 1 47 29 52 42 58 43 35 30 38
Colonia 2 47 36 44 45 33 46 38 33 50

¿Puede concluirse que ambas colonias son homogéneas?

Se dispone de dos m.a.s. independientes de tamaño 9 de las variables:


X = “Número de larvas grandes existentes en hormigueros de la colonia 1”
Y = “Número de larvas grandes existentes en hormigueros de la colonia 2”

Interesa contrastar: H0 : FX = FY vs H1 : FX 6= FY , siendo FX y FY las distribuciones de


probabilidad de las v.a. X e Y respectivamente. Nótese que:
I Los tamaños muestrales son pequeños (m = n = 9).
I No tenemos garantizada la normalidad de las variables X e Y .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 104 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz

El test de rachas de Wald-Wolfowitz: Ejemplo


Ejemplo 5.2.1: Resolución
1 Se combinan las muestras y se ordenan en sentido creciente identificando la muestra origen.
2 Se observan tres empates dobles en 33, 38 y 47. El 33 se alcanza con dos observaciones de
la misma colonia, luego no afecta al estadı́stico. Se deshacen de todas las formas posibles
los otros dos grupos de empates (2!2! = 4).
3 Para cada secuencia resultante, se calcula el número total de rachas R̂9,9 .

29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 R̂9,9 = 11
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 R̂9,9 =9
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 R̂9,9 = 11
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 R̂9,9 =9

4 Se selecciona el mayor valor, de modo que R̂9,9 = 11.


5 En la tabla con la distribución exacta bajo H0 de R9,9 se observa que P(R9,9 ≤ 6) = 0.044
y P(R9,9 ≤ 7) = 0.109, por tanto R9,9,0.05 = 6, y la región de rechazo al 5 % es [2, 6].
6 Como R̂9,9 = 11 ∈ / [2, 6], se concluye que la prueba es no significativa al 5 %, i.e. no hay
evidencias para descartar que se trate de colonias homogéneas con un 5 % de significación.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 105 / 139
El problema general de dos muestras independientes El test de Kolmogorov-Smirnov para dos muestras

Kolmogorov-Smirnov para dos muestras: Fundamento


Contraste
I X1 , . . . , Xm i.i.d. X ∼ FX , FX continua n
H0 : FX (x) = FY (x) para todo x
I Y1 , . . . , Yn i.i.d. Y ∼ FY , Fy continua H1 : FX (x) 6= FY (x) para algún x
I X1 , . . . , Xm e Y1 , . . . , Yn independientes (14)

Fundamento de la extensión de la prueba KS para una muestra al problema de dos muestras


m n
1 1
1 (Xi ≤ x) y FY,n (x) = 1 (Yi ≤ x) las funciones de distribución
X X
Sean FX,m (x) =
m n
i=1 i=1
empı́ricas asociadas a las m.a.s. de X e Y , respectivamente.
De acuerdo con el Th. de Glivenko-Cantelli, bajo H0 , FX,m y FY,n convergen uniformemente
con probabilidad uno a la distribución común F = FX = FY . Por tanto, bajo H0 , el estadı́stico
de Kolmogorov-Smirnov para dos muestras dado por:

Dm,n = sup FX,m (x) − FY,n (x)


x∈R

converge a cero cuando n, m → ∞ y puede considerarse un estadı́stico de contraste apropiado


para chequear (14).

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 106 / 139
El problema general de dos muestras independientes El test de Kolmogorov-Smirnov para dos muestras

Kolmogorov-Smirnov para dos muestras: Estadı́sticos y


criterios de resolución
Alternativas unilaterales
Para las alternativas unilaterales emplear los estadı́sticos que siguen:
+

H1 : FX (x) > FY (x) para algún x Dm,n = supx∈R FX,m (x) − FY,n (x)



H1 : FX (x) < FY (x) para algún x Dm,n = supx∈R FY,n (x) − FX,m (x)

Criterios de resolución

H0 H1 Región crı́tica (α) p-valor 


FX (x) = FY (x) FX (x) 6= FY (x) D̂m,n > Dm,n,1−α P Dm,n > D̂m,n
+ + + +

FX (x) = FY (x) FX (x) > FY (x) D̂m,n > Dm,n,1−α P Dm,n > D̂m,n
− − − −

FX (x) = FY (x) FX (x) < FY (x) D̂m,n > Dm,n,1−α P Dm,n > D̂m,n

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 107 / 139
El problema general de dos muestras independientes El test de Kolmogorov-Smirnov para dos muestras

Kolmogorov-Smirnov para dos muestras: Distribución libre


Teorema
Si H0 es cierta, i.e. FX = FY = F , y F es absolutamente continua entonces las distribuciones
+ −
de Dm,n , Dm,n y Dm,n no dependen de F .

La prueba de este resultado sigue un camino análogo al empleado en el caso de una muestra.
Bajo H0 : FX = FY = F , se tiene:
U
FX,m (x) = Fm (F (x)) y FY,n (x) = FnV (F (x))
donde Fm U y F V son distribuciones empı́ricas basadas en m.a.s. independientes U , . . . , U
n 1 m y
V1 , . . . , Vn de variables U [0, 1].

Entonces, bajo H0 , se tiene:


U
Dm,n = sup FX,m (x) − FY,n (x) = sup Fm (F (x)) − FnV (F (x)) = sup U
Fm (u) − FnV (u)
x∈R x∈R u∈[0,1]

que es el valor del estadı́stico KS para dos m.a.s. independientes de una U [0, 1], y por tanto la
distribución de Dm,n no depende de F .
+ −
Análogos argumentos prueban el resultado para Dm,n y Dm,n .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 108 / 139
El problema general de dos muestras independientes El test de Kolmogorov-Smirnov para dos muestras

Kolmogorov-Smirnov para dos muestras: Distribución libre


+ −
Aunque no lo parezca a primera vista, Dm,n , Dm,n y Dm,n dependen solamente del orden de
las Xi y de las Yj en la muestra conjunta ordenada, con independencia de sus valores numéricos.
5

A modo ilustrativo, sean m = 3 y n = 2. Hay 2
= 10 posibles ordenaciones:

+ − + −
Ordenación D3,2 D3,2 D3,2 Ordenación D3,2 D3,2 D3,2
X<X<X<Y <Y 1 1 0 X<Y <X<Y <X 1/3 1/3 1/3
X<X<Y <X<Y 2/3 2/3 0 Y <X<X<Y <X 1/2 1/6 1/2
X<Y <X<X<Y 1/2 1/2 1/6 X<Y <Y <X <X 2/3 1/3 2/3
Y <X<X<X<Y 1/2 1/2 1/2 Y <X<Y <X <X 2/3 0 2/3
X<X<Y <Y <X 2/3 2/3 1/3 Y <Y <X<X <X 1 0 1

Bajo H0 , cualquiera de las diez ordenaciones es igualmente probable: p = 1/10 = 0.1.


Por tanto las distribuciones de los estadı́sticos de contraste son:

d 0 1/6 1/3 1/2 2/3 1


P(D3,2 = d) 1/10 3/10 4/10 2/10
+
P(D3,2 = d) 2/10 1/10 2/10 2/10 2/10 1/10

P(D3,2 = d) 2/10 1/10 2/10 2/10 2/10 1/10

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 109 / 139
El problema general de dos muestras independientes El test de Kolmogorov-Smirnov para dos muestras

Kolmogorov-Smirnov para dos muestras: Distribución nula


I Las distribuciones exactas bajo H0 de los estadı́sticos de Kolmogorv-Smirnov para dos
muestras están tabuladas para tamaños muestrales pequeños.

Teorema (distribución asintótica)


1 Para d > 0: ∞
mn
q  X 2 2
lı́m P Dm,n ≤ d =1−2 (−1)(i−1) e−2i d
.
m,n→∞ m+n
i=1

mn
q 
2 Para d > 0: 2
lı́m P D+ ≤ d = 1 − e−2d .
m,n→∞ m + n m,n

3 Para tamaños muestrales m y n grandes:


mn +
2
4 Dm,n ≈ χ22 .
m+n
4 Para tamaños muestrales m y n grandes y α = 0.05:
q mn q mn
+ −
Dm,n,1−α ≈ 1.36 , Dm,n,1−α = Dm,n,1−α ≈ 1.22 .
m+n m+n

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 110 / 139
El problema general de dos muestras independientes El test de Kolmogorov-Smirnov para dos muestras

Kolmogorov-Smirnov para dos muestras: Ejemplo


Ejemplo 5.3.1: Resolución del Ejemplo 5.2.1 con la prueba de Kolmogorov-Smirnov
Los siguientes datos proceden de un estudio sobre diferenciación de castas en hormigas, para lo
que se estudió a lo largo del tiempo el número de larvas grandes que hay en dos hormigueros:

Colonia 1 47 29 52 42 58 43 35 30 38
Colonia 2 47 36 44 45 33 46 38 33 50

¿Puede concluirse que ambas colonias son homogéneas?


X =“Núm. larvas grandes colonia 1”∼ FX
Y =“Núm. larvas grandes colonia 2”∼ FY

1.0
● ●

FC1 ● ●

FC2
H0 : FX = FY vs H1 : FX 6= FY

0.8
● ●

● ●

1 m=n=9
0.6 ● ●
Fn(x)

2 D̂9,9 = 0.22222. ●
0.4

3 Tablas: D9,9,0.8 = 0.55555 ● ●

● ●
0.2

4 p = P(D9,9 > 0.22222) > 0.2 ●

5 Asintótico: p = 0.9749.
0.0

30 35 40 45 50 55
6 Concluir el no rechazo de H0 . x

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 111 / 139
El problema general de dos muestras independientes El test de Cramér-von Mises para dos muestras

Cramér-von Mises para dos muestras

Contraste
I X1 , . . . , Xm i.i.d. X ∼ FX , FX continua
n
I Y1 , . . . , Yn i.i.d. Y ∼ FY , Fy continua H0 : FX (x) = FY (x) para todo x
H1 : FX (x) 6= FY (x) para algún x
I X1 , . . . , Xm e Y1 , . . . , Yn independientes

Extensión de la prueba Cramér-von Mises para una muestra al problema de dos muestras
De manera análoga a la prueba de Kolmogorv-Smirnov, es factible evaluar la distancia entre
FX,m (x) y FY,n (x) en media cuadrática y extender ası́ la prueba Cramér-von Mises para una
muestra al problema de dos muestras.

( m n
)
mn X 2 X 2
Q2m,n = FX,m (Xi ) − FY,n (Xi ) + FX,m (Yj ) − FY,n (Yj )
(m + n)2
i=1 j=1

La distribución exacta con muestras pequeñas puede calcularse como con KS y está tabulada. Su
distribución asintótica ha sido establecida por Anderson y Darling (1952).

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 112 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon

El test de Mann-Whitney: Estadı́stico de contraste


Contraste
I X1 , . . . , Xm i.i.d. X ∼ FX , FX continua
n
I Y1 , . . . , Yn i.i.d. Y ∼ FY , Fy continua H0 : FX (x) = FY (x) para todo x
H1 : FX (x) 6= FY (x) para algún x
I X1 , . . . , Xm e Y1 , . . . , Yn independientes

Estadı́stico de Mann-Whitney
Para i = 1, . . . , m y j = 1, . . . , n se define:
m X
n
Zij = 1 (Xi < Yj )
X
y entonces se construye el estadı́stico Um,n = Zij
i=1 j=1

Como Zij vale 1 si Yj es mayor que Xi y 0 en otro caso, el estadı́stico Um,n contabiliza el
número de veces que las Yj son mayores que algún Xi . Si, por ejemplo, m = 4, n = 3 y la
muestra conjunta ordenada es:
X2 < X1 < Y3 < Y2 < X4 < Y1 < X3
Hay 3 ı́ndices j con Yj > X1 , 3 con Yj > X2 , 0 con Yj > X3 y 1 con Yj > X4 . De este modo
se concluye: U4,3 = 3 + 3 + 0 + 1 = 7.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 113 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon

El test de Mann-Whitney: Fundamento


Estadı́stico de Mann-Whitney: Fundamento y criterios de rechazo
m n
Zij = 1 (Xi < Yj )
X X
Um,n = Zij
i=1 j=1

I Si todos los Xi son mayores que todos los Yj , entonces Um,n = 0.

I Si todos los Xi son menores que todos los Yj , entonces hay m Xi ’s menores que Y1 , m
Xi ’s menores que Y2 , . . . , y m Xi ’s menores que Yn ; de modo que Um,n = mn.
I Por tanto: 0 ≤ Um,n ≤ mn.

I Un valor grande de Um,n supone que un número elevado de Yj ’s están por encima de los
valores Xi ’s. Sugiere por tanto la alternativa H1 : FX > FY . Un razonamiento análogo
conduce a que valores pequeños de Um,n sugieren la alternativa H1 : FX < FY .
I Por consiguiente los criterios de rechazo serı́an como se indican a continuación:

H0 H1 Región crı́tica (α)


FX (x) = FY (x) FX (x) 6= FY (x) Ûm,n ≥ Um,n,1−α/2 o Ûm,n ≤ Um,n,α/2
FX (x) = FY (x) FX (x) > FY (x) Ûm,n ≥ Um,n,1−α
FX (x) = FY (x) FX (x) < FY (x) Ûm,n ≤ Um,n,α

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 114 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon

El test de Mann-Whitney: Distribución exacta bajo H0


Estadı́stico de Mann-Whitney: Una vı́a de construir la distribución nula con muestra pequeñas
1 Sea pm,n (u) = P (Um,n = u| H0 ).
2 Al ordenar la muestra conjunta, el valor más grande puede ser una Xi o una Yj . Como
bajo H0 cualquier ordenación de los m + n datos es equiprobable, el valor más grande será
una Xi con probabilidad m/(n + m) y una Yj con probabilidad n/(n + m).
3 Si el valor más grande es una Xi , no contribuye a incrementar Um,n y, en tal caso,
pm,n (u) = pm−1,n (u).
4 Si el valor más grande es una Yj , este valor Yj será mayor que las m Xi ’s y, por tanto, en
tal caso, pm,n (u) = pm,n−1 (u − m).
5 En consecuencia se concluye:
m n
pm,n (u) = pm−1,n (u) + pm,n−1 (u − m) (15)
m+n m+n
6 Por otro lado se tiene:
n
1 si u = 0
p0,n (u) = pm,0 (u) = y pm,n (u) = 0, si u < 0 y m, n ≥ 0
0 si u > 0

7 Con estos valores de inicio y aplicando recursivamente (15) es factible determinar la


distribución de Um,n bajo H0 para valores pequeños de m y n con m ≤ n.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 115 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon

El test de Mann-Whitney: Distribución asintótica bajo H0


Estadı́stico de Mann-Whitney: Momentos bajo H0
Bajo H0 , P(X < Y ) = P(X > Y ) = 1/2, por tanto Zij ∼ Bernoulli(1/2) y de ahı́:
I E(Zij ) = 1/2 para todo 1 ≤ i ≤ m y 1 ≤ j ≤ n, de modo que:
mn
E(Um,n ) =
2
I Var(Zij ) = 1/4, pero aquı́ no todas las Zij son independientes: Zij y Zkh son
independientes solo si i 6= k y j 6= h. Bajo H0 se prueba:
mn(m + n + 1)
Var(Um,n ) =
12

Estadı́stico de Mann-Whitney: Distribución asintótica bajo H0


Si m, n → ∞ de tal forma que m/n → λ = cte, entonces el estadı́stico Um,n estandarizado
converge a una variable N (0, 1). En la práctica, emplear (con corrección por continuidad):
mn
Um,n −
Z= r 2 ≈ N (0, 1)
mn(m + n + 1)
12

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 116 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon

El test de Mann-Whitney: Ejemplo


Ejemplo 5.5.1: Resolución del Ejemplo 5.2.1 con la prueba de Mann-Whitney
X =“Núm. larvas grandes colonia 1”∼ FX Y =“Núm. larvas grandes colonia 2”∼ FY
m.a.s. de X (Colonia 1, m = 9): 47 29 52 42 58 43 35 30 38
m.a.s. de Y (Colonia 2, n = 9): 47 36 44 45 33 46 38 33 50
H0 : FX = FY vs H1 : FX 6= FY
1 Combinar y ordenar en sentido creciente las muestras identificando la muestra origen.
2 Deshacer empates (incluyendo datos de muestras diferentes) de todas las formas posibles.
3 En cada caso, calcular el total de veces que Yj se ubica después de algún Xi : Û9,9 .

29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 Û9,9 = 42
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 Û9,9 = 41
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 Û9,9 = 43
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 Û9,9 = 42

Por ejemplo, en la primera fila Û9,9 = 2 + 2 + 3 + 4 + 6 + 6 + 6 + 6 + 7 = 42.


4 Selecciona el valor más congruente con la nula: Û9,9 = 41.
5 En la tabla correspondiente: U9,9,0.975 = 63 ⇒ U9,9,0.025 = 9 × 9 − 63 = 18.
6 Dado que 18 < Û9,9 = 41 < 63, concluir que la prueba es no significativa al 5 %.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 117 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon

El test de Mann-Whitney: Ejemplo

Ejemplo 5.5.1: Resolución del Ejemplo 5.2.1 con la prueba de Mann-Whitney


X =“Núm. larvas grandes colonia 1”∼ FX Y =“Núm. larvas grandes colonia 2”∼ FY
m.a.s. de X (Colonia 1, m = 9): 47 29 52 42 58 43 35 30 38
m.a.s. de Y (Colonia 2, n = 9): 47 36 44 45 33 46 38 33 50

H0 : FX = FY vs H1 : FX 6= FY

Si se emplea la distribución asintótica:


1 z0.025 = −1.96 de modo que la región del rechazo al 5 % es (−∞, −1.96) ∪ (1.96, ∞).
2 El valor del estadı́stico estandarizado y corregido por continuidad es:
9×9 81
Û9,9 − 0.5 − 41 − 0.5 −
ẑ = r 2 = q 2 =0
9 × 9 × (9 + 9 + 1) 81 × 19
12 12

3 Como −1.96 < ẑ = 0 < 1.96, concluir que la prueba es no significativa al 5 %.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 118 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon

El test de la suma de rangos de Wilcoxon: Fundamento

Contraste
I X1 , . . . , Xm i.i.d. X ∼ FX , FX continua
n
I Y1 , . . . , Yn i.i.d. Y ∼ FY , Fy continua H0 : FX (x) = FY (x) para todo x
H1 : FX (x) 6= FY (x) para algún x
I X1 , . . . , Xm e Y1 , . . . , Yn independientes

Estadı́stico del test de la suma de rangos de Wilcoxon: Fundamento


1 Bajo H0 , los m + n datos son una m.a.s. de una única distribución F y su etiquetado con
una X o una Y es aleatorio.
2 Considerése la muestra conjunta ordenada y denótese por Tm,n,X y por Tm,n,Y a las
sumas de los rangos de los datos Xi e Yj respectivamente en esa muestra conjunta de
tamaño m + n.
m(m + n + 1) n(m + n + 1)
3 Bajo H0 cabe esperar que Tm,n,X ≈ y Tm,n,Y ≈ .
2 2
4 Valores grandes de Tm,n,X sugieren FX (x) < FY (x) (i.e. FX estocásticamente mayor que
FY ) y valores pequeños de Tm,n,X sugieren lo contrario, FX (x) > FY (x).

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 119 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon

El test de la suma de rangos de Wilcoxon: Distribución nula


Estadı́stico del test de la suma de rangos de Wilcoxon: Distribución exacta
Formalmente el estadı́stico de Wilcoxon para dos muestras independientes puede expresarse
como:
m+n n
1 si el dato con rango j es una Xi
X
Tm,n,X = jWj siendo Wj =
0 si el dato con rango j es una Yi
j=1

1 La distribución bajo H0 de Tm,n,X depende de los rangos de los datos y no de su


distribución, por ello es de distribución libre.

2 La distribución exacta bajo H0 de Tm,n,X está tabulada para muestras pequeñas.

3 Se prueba que:
 m(m + n + 1)  mn(m + n + 1)
E Tm,n,X = y Var Tm,n,X =
2 12

4 Se prueba también la normalidad asintótica de Tm,n,X con estos parámetros.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 120 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon

El test de la suma de rangos de Wilcoxon: Ejemplo

Ejemplo 5.5.2: Resolución del Ejemplo 5.2.1 con la prueba de suma de rangos de Wilcoxon
X =“Núm. larvas grandes colonia 1”∼ FX Y =“Núm. larvas grandes colonia 2”∼ FY
m.a.s. de X (Colonia 1, m = 9): 47 29 52 42 58 43 35 30 38
m.a.s. de Y (Colonia 2, n = 9): 47 36 44 45 33 46 38 33 50
H0 : FX = FY vs H1 : FX 6= FY
1 Combinar y ordenar en sentido creciente las muestras identificando la muestra origen.
2 Asignar rangos y deshacer los empates por el rango promedio.
Datos: 29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58
Rangos: 1 2 3.5 3.5 5 6 7.5 7.5 9 10 11 12 13 14.5 14.5 16 17 18

3 Suma de los rangos de las Xi : T̂9,9,X = 1 + 2 + 5 + 7.5 + 9 + 10 + 14.5 + 17 + 18 = 84.


18 × 19
4 En la tabla correspondiente: T9,9,X,0.025 = 63 ⇒ T9,9,X,0.975 = − 63 = 108.
2
5 Dado que 63 < T̂9,9,X = 84 < 108, concluir que la prueba es no significativa al 5 %.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 121 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon

Las pruebas de Mann-Whitney y de Wilcoxon: Comentarios


1 Se demuestra que las pruebas de Mann-Whitney y de la suma de rangos de Wilcoxon son
m(m + 1)
equivalentes. Especı́ficamente: Um,n = Tm,n,X −
2
2 Ambas pruebas son consistentes para el problema general de detectar diferencias entre los
dos modelos de probabilidad generadores de las muestras.
3 Son pruebas con muy buen comportamiento para el problema especı́fico de detectar
diferencias en localización:
H0 : FX = FY vs H1 : FX (x) = FY (x − θ) para todo x y algún θ
Nótese que este contraste es equivalente a los contrastes:
( (
H1 : E(X) 6= E(Y ) H1 : MX 6= MY
H0 : E(X) = E(Y ) vs H1 : E(X) > E(Y ) H0 : MX = MY vs H 1 : MX > M Y
H1 : E(X) < E(Y ) H 1 : MX < M Y

La consistencia de estas pruebas para los dos contrastes previos requiere asumir que FX y
FY son idénticas salvo a lo sumo en su localización. Muestras de diferentes distribuciones
pero con igual mediana (o media) podrı́an conducir a pruebas significativas.
4 En el contexto de diferencias en localización, el ARE de Mann-Whitney-Wilcoxon respecto
a la prueba t de Student es 0.9555 para distribuciones normales, 1 para uniformes y nunca
inferior a 0.864 para distribuciones continuas arbitrarias. Llega a ser superior a 1 con
distribuciones con colas pesadas.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 122 / 139
El problema general de k > 2 muestras independientes

Contenidos

1 Estimación de la función de distribución

2 Contrastes de bondad de ajuste

3 Contrastes de localización: una muestra y muestras apareadas

4 El problema general de dos muestras independientes

5 El problema general de k > 2 muestras independientes


Introducción
El test de Kruskal-Wallis

6 El problema general de b > 2 muestras relacionadas

7 Referencias
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 122 / 139
El problema general de k > 2 muestras independientes Introducción

Introducción
El problema de varias muestras independientes (k-sample problem)
Sean {Xi1 , Xi2 , . . . , Xini }, i = 1, . . . , k, k > 2, m.a.s. independientes de v.a. respectivas Xi
Pk
con funciones de distribución continuas y desconocidas Fi . Denótese por N = i=1
ni .
Se desea realizar inferencia para determinar si las k muestras han sido generadas del mismo
modelo de distribución de probabilidad, i.e. realizar el contraste de hipótesis:
H0 : F1 = F2 = . . . = Fk vs H1 : Fi 6= Fj para al menos un par (i, j), i 6= j

De particular interés es que la diferencia se produce en términos exclusivamente de localización:


H0 : F1 = F2 = . . . = Fk vs H1 : ∃ i, j, i 6= j, tal que Fi (x) = Fj (x − θ) ∀ x y algún θ 6= 0

En tal caso el contraste de hipótesis se puede escribir en la forma:


H0 : E(Xi ) = µ, 1 ≤ i ≤ k vs H1 : E(Xi ) 6= E(Xj ) para al menos un par (i, j), i 6= j
o también en términos de las medianas de las distribuciones:
H0 : Mi = M, 1 ≤ i ≤ k vs H1 : Mi 6= Mj para al menos un par (i, j), i 6= j
donde Mi = Med(Xi ).

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 123 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis

El test de Kruskal-Wallis: Fundamento


El test de Kruskal-Wallis
1 Combinar las k muestras y ordenar los N datos de la muestra conjunta en sentido creciente.
2 Asignar rangos: r (Xij ) = “rango de Xij en la muestra conjunta ordenada”.
ni
X
3 Calcular las k sumas de rangos de datos de cada muestra: Ri = r (Xij ), 1 ≤ i ≤ k.
j=1
4 Bajo H0 : Fi = F , 1 ≤ i ≤ k, los N datos son una m.a.s. generada desde F y su
etiquetado con una u otra Xi es aleatorio. De ahı́, cualquier ordenación de las N etiquetas
es equiprobable y, por tanto, la suma total de rangos, N (N + 1)/2, deberı́a repartirse entre
las Ri de manera proporcional a los tamaños muestrales ni . En otro términos:
ni N (N + 1) ni (N + 1)
Bajo H0 : Fi = F, 1 ≤ i ≤ k : E (Ri ) = =
N 2 2
5 Un estadı́stico de contraste razonable serı́a aquel que evaluase las desviaciones entre las Ri
observadas y sus valores esperados bajo la nula. Considerando las desviaciones al cuadrado:
k  2
X ni (N + 1)
SN = Ri −
2
i=1

El criterio del contraste es rechazar H0 para valores grandes de SN .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 124 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis

El test de Kruskal-Wallis: Distribución bajo H0


El test de Kruskal-Wallis: Distribución bajo H0
I Considérese una tabla con k columnas, en cada una de las cuales se apuntan los rangos de
las observaciones de la i-ésima muestra y su suma Ri . A modo ilustrativo, sean k = 4,
n1 = n3 = 3 y n2 = n4 = 2, de modo que N = 10.

r(X1j ) r(X2j ) r(X3j ) r(X4j ) S10


2 5 3 9 6 10 4 8 1 7
Ri 10 15 22 8 97.5

I Como cualquier ordenación de los rangos es equiprobable bajo H0 , los rangos son
asignados al azar a cada columna con la única restricción del tamaño muestral ni . Hay por
n ,...,nk Qk
lo tanto Pn 1 = N !/ i=1 ni ! formas de asignar los rangos a las columnas de la
tabla y, por la equiprobabilidad de las ordenaciones:
Qk
i=1
ni !
P(SN = s) = t(s)
N!
siendo t(s) el número de formas posibles de distribuir los rangos entre las columnas para
obtener valores de Ri que conduzcan a SN = s.
I Los cálculos son muy tediosos. Hay tablas con probabilidades exactas de SN para k = 3, 4
y 5 pero solamente para ni iguales y muy pequeños. Se dispone también de valores crı́ticos
especı́ficos para ni iguales y más grandes.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 125 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis

El test de Kruskal-Wallis basado en el estadı́stico H

El estadı́stico H de Kruskal-Wallis
Kruskal y Wallis (1952) propusieron un estadı́stico considerando una versión ponderada de las
desviaciones Ri − ni (N + 1)/2 con pesos inversamente proporcionales a los tamaños muestrales.
Especı́ficamente:
k 2
12 1 ni (N + 1)
X 
HN = Ri −
N (N + 1) ni 2
i=1

k
12 X R2 i
I HN también admite la expresión equivalente: HN = − 3(N + 1)
N (N + 1) ni
i=1

I Cuando los ni son iguales, HN y SN son criterios de test equivalentes.

I Hay tablas con probabilidades exactas de HN para k = 3 y todo ni ≤ 5. Para los casos
k = 4 y todo ni ≤ 4 y k = 5 y todo ni ≤ 3 se dispone de tablas de las distribuciones
exactas de HN a partir del cuantil 0.9.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 126 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis

El test de Kruskal-Wallis: Distribución asintótica bajo H0


I Bajo H0 , asignar rangos a la i-ésima muestra es seleccionar al azar y sin reemplazamiento
ni valores de los enteros {1, 2, . . . , N }. Esta variable tiene media y varianza:
N N  2
X 1 N +1 X N +1 1 N2 − 1
µ= i = σ2 = i− =
N 2 2 N 12
i=1 i=1
I El promedio de la suma de rangos para la i-ésima muestra, Ri = Ri /ni , es por tanto una
media muestral basada en una muestra sin reemplazamiento de tamaño ni de la población
finita {1, 2, . . . , N }. Por tanto, como para cualquier media muestral de una muestra sin
reemplazamiento de una población finita:
 N +1  σ2 N − ni (N + 1)(N − ni )
E Ri = µ = Var Ri = =
2 ni N − 1 12ni
Ri − (N + 1)/2
I Por el TCL, si ni grande: Zi = p ≈d N (0, 1) ⇒ Zi2 ≈d χ21 .
(N + 1)(N − ni )/12ni
k P
I Ahora bien, las Zi no son independientes dado que n R = N (N + 1)/2 = cte (de
i=1 i i
hecho, Cov(Ri , Rj ) = −(N + 1)/12).
I Kruskal (1952) mostró que bajo H0 y con valores no muy pequeños de ni :
k
X N − ni
Zi2 = HN ≈d χ2k−1
N
i=1

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 127 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis

El test de Kruskal-Wallis: Distribución asintótica bajo H0


con empates
I Si hay g grupos con t observaciones empatadas (t puede variar entre los diferentes grupos
obviamente) involucrando a datos de diferentes muestras y se deshacen los empates por el
criterio del rango medio, entonces la varianza de la población finita disminuye:
N2 − 1 1 X
σ2 = − t(t2 − 1) (16)
12 12
g(t)

I La expresión (16) debe de ser reemplazada en la fórmula de la Var(Ri ). Se prueba


entonces que, con esta corrección, el estadı́stico de HN de Kruskal-Wallis toma la forma:

HN,c.e. = P HN =
HN
(17)
g(t)
t(t2 − 1) C
1−
N (N 2 − 1)

I Nótese que C < 1 y por tanto HN,c.e. > HN de modo que si la nula es rechazada al nivel
α con el estadı́stico HN , también lo es empleando HN,c.e. : χ2k−1,1−α < HN < HN,c.e.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 128 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis

El test de Kruskal-Wallis: Comparaciones múltiples


I Si el F -test de un ANOVA con un factor de efectos fijos es significativo, procede realizar
pruebas de rango múltiple para detectar diferencias entre pares de tratamientos con un
nivel de significación global. Este problema es también de interés cuando la prueba de
Kruskal-Wallis ha resultado significativa.
I El método de Tukey puede adaptarse para chequear las k(k − 1)/2 pruebas de hipótesis:

H0ij : E(Xi ) = E(Xj ) vs H1ij : E(Xi ) 6= E(Xj )

∀ i, j ∈ 1, . . . , k, i < j. El criterio es rechazar H0ij al nivel de significación global α si:


s  
qk,1−α N (N + 1) 1 1
Ri − Rj > √ +
2 12 ni nj

siendo qk,1−α el (1 − α)-cuantil de la distribución del rango estudentizado. Este criterio es


válido si no hay empates y con independencia de que las ni sean o no iguales.
I Si hay empates, es preferible emplear el estadı́stico:
s
χ2k,1−α N (N + 1)
 
1 1
Ri − Rj > +
C 12 ni nj

siendo C la constante correctora introducida en (17).

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 129 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis

El test de Kruskal-Wallis: Ejemplo


Ejemplo 6.1.1
A la luz de los siguientes datos de producción de maı́z en parcelas independientes y con cuatro diferentes
métodos, ¿podemos afirmar que los cuatro métodos son equivalentes?
m.a.s. X1 (Mét. 1, n1 = 9): 83 91 94 89 89 96 91 92 90
m.a.s. X2 (Mét. 2, n2 = 10): 91 90 81 83 84 83 88 91 89 84
m.a.s. X3 (Mét. 3, n3 = 7): 101 100 91 93 96 95 94
m.a.s. X4 (Mét. 4, n4 = 8): 78 82 81 77 79 81 80 81

H0 : F1 = F2 = F3 = F4 vs H1 : Fi 6= Fj para al menos un par (i, j), 1 ≤ i < j ≤ 4

Mét. 1 Mét. 2 Mét. 3 Mét. 4


X1j r(X1j ) X2j r(X2j ) X3j r(X3j ) X4j r(X4j )
83 11 91 23 101 34 78 2
91 23 90 19.5 100 33 82 9
94 28.5 81 6.5 91 23 81 6.5
89 17 83 11 93 27 77 1
89 17 84 13.5 96 31.5 79 3
96 31.5 83 11 95 30 81 6.5
91 23 88 15 94 28.5 80 4
92 26 91 23 81 6.5
90 19.5 89 17
84 13.5
Ri 196.5 153 207 38.5

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 130 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis

El test de Kruskal-Wallis: Ejemplo


Ejemplo 6.1.1
I Se calcula el estadı́stico de Kruskal-Wallis sin corregir por empates:
k
12 X R2 i
Ĥ34 = − 3(N + 1)
N (N + 1) ni
i=1
 
12 196.52 1532 2072 38.52
= + + + − 3 × 35 = 25.46437
34 × 35 9 10 7 8

I Se observa que: χ23,0.95 = 7.814 < Ĥ34 = 25.46 < Ĥ34,c.e. .


I Al 5 % de significación se concluye que al menos dos métodos difieren significativamente.
I En cualquier caso, para el cómputo de la corrección por empates se tendrı́a en cuenta que
hay siete grupos de empates: tres de dos datos (84, 94 y 96); dos de tres datos (83 y 89) y
dos de cuatro datos (81 y 91). Entonces la constante correctora toma el valor:
3 × 2 × 3 + 2 × 3 × 8 + 2 × 4 × 15
C =1− = 0.9998417 ⇒
34(342 − 1)
25.46437
Ĥ34,c.e. = = 25.4684
0.9998417

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 131 / 139
El problema general de b > 2 muestras relacionadas

Contenidos

1 Estimación de la función de distribución

2 Contrastes de bondad de ajuste

3 Contrastes de localización: una muestra y muestras apareadas

4 El problema general de dos muestras independientes

5 El problema general de k > 2 muestras independientes

6 El problema general de b > 2 muestras relacionadas


Introducción
El test de Friedman

7 Referencias
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 131 / 139
El problema general de b > 2 muestras relacionadas Introducción

Introducción
El problema de varias muestras relacionadas: Los datos
I Sean n v.a. X1 , . . . , Xn de las que se obtienen b realizaciones en “diferentes condiciones
experimentales” (bloques).
Por ejemplo, se registran valores de crecimiento de plantas con cuatro fertilizantes
(variables o tratamientos, n = 4) en tres parcelas de tierra con caracterı́sticas diferentes
(bloques, b = 3), obteniendo ası́: {(X1j , X2j , X3j , X4j ) , j = 1, 2, 3}.

I Las observaciones dentro de cada bloque están relacionadas y no son independientes.


En el ejemplo, parcelas con buenos niveles de humedad y buenas caracterı́sticas dará
mejores resultados que parcelas de mala calidad con independencia del fertilizante.

I Los datos muestrales admiten la representación tabular que sigue.

Variables
Bloques X1 X2 ... Xn
1 X11 X21 ... Xn1
2 X12 X22 ... Xn2
. . . .. .
.. .. .. . ..
b X1b X2b ... Xnb

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 132 / 139
El problema general de b > 2 muestras relacionadas Introducción

Introducción
El problema de varias muestras relacionadas: Las hipótesis estructurales
I Se asume que las Xi están igualmente distribuidas excepto a lo sumo en términos de su
localización, que puede variar según el “bloque” (la “fila”) y la propia variable (el
“tratamiento” o la “columna”).
Xij = µ+bj +θi +εij , con εij i.i.d. según una distribución desconocida de media cero F (·)

Nótese que E(Xij ) = µ + bj + θi . Ası́, bj mide el efecto sobre la respuesta media debida al
j-ésimo bloque y θi el el efecto sobre la respuesta media debida al i-ésimo tratamiento. En
el contexto del diseño experimental, se habla de un diseño en bloques completamente
aleatorizados (si los “tratamientos” se asignaron al azar dentro de cada bloque).
I El problema de interés es:

H 0 : θ1 = . . . = θn vs H1 : θi 6= θj para al menos un par (i, j), i 6= j


I En un contexto paramétrico se asume F ∼ N (0, σ) y se emplea la vı́a del F -test del
análisis de la varianza.
I Objetivo: Abordar este problema con un procedimiento de distribución libre que no requiera
la hipótesis de normalidad.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 133 / 139
El problema general de b > 2 muestras relacionadas El test de Friedman

El test de Friedman: Fundamento


El test de Friedman
1 Dentro de cada uno de los bloques: ordenar los n datos y asignar rangos.
2 Sea Rij = r(Xij ), i.e. Rij denota el rango del i-ésimo tratamiento en el j-ésimo bloque. Sea
Pb
Ri = Rij la suma de los rangos del i-ésimo tratamiento a lo largo de todos los bloques.
j=1

Rangos
Bloques X1 X2 ... Xn Total Bloque
1 R11 R21 ... Rn1 n(n+1)/2
2 R12 R22 ... Rn2 n(n+1)/2
. . . .. . .
. . . . . .
. . . . .
b R1b R2b ... Rnb n(n+1)/2
Total Xi R1 R2 ... Rn bn(n+1)/2
3 Bajo H0 : θ1 = . . . = θn , para un bloque arbitrario j, (R1j , . . . , Rnj ) es una permutación al azar de
los n primeros enteros. Por lo tanto, bajo H0 , E(Ri ) = E(Rk ), para todo i y k, y como
Pn b(n + 1)
Ri = bn(n + 1)/2, se concluye: E (Ri | H0 ) = .
i=1 2
4 Evaluar las desviaciones entre las Ri observadas y sus valores esperados bajo la nula:
n  n
" b #2
2 X 
b(n + 1) n+1
X X
Sn,b = Ri − = Rij −
2 2
i=1 i=1 j=1

5 Rechazar H0 para valores grandes de Sn,b .

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 134 / 139
El problema general de b > 2 muestras relacionadas El test de Friedman

El test de Friedman: Distribución bajo H0

El test de Friedman: Distribución bajo H0


I Bajo H0 hay (n!)b formas diferentes y equiprobables de llenar la tabla de rangos. Por tanto:

t(s)
P(Sn,b = s) =
(n!)b
siendo t(s) el número de disposiciones posibles de los rangos que producen valores de Ri
generando Sn,b = s.

I Acerca de los momentos del estadı́stico de contraste bajo H0 , se prueba:


 bn(n2 − 1)  n2 b(b − 1)(n − 1)(n + 1)2
E Sn,b H0 = Var Sn,b H0 =
12 72

I Se han propuesto procedimientos para el cálculo sistemático de los valores t(s) que han
permitido aliviar el tedioso trabajo de construir tablas para obtener la distribución exacta
bajo la nula de Sn,b . Con todo, las cuentas son considerables y lo habitual es emplear
alguna aproximación para obtener las regiones crı́ticas y p-valores de la prueba.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 135 / 139
El problema general de b > 2 muestras relacionadas El test de Friedman

El test de Friedman: Distribución aproximada


El test de Friedman: Función lineal de Sn,b y distribución aproximada
I Es común emplear como estadı́stico de contraste una función lineal de Sn,b :
Pn
12Sn,b 12 i=1 Ri2
Fn,b = = − 3b(n + 1)
bn(n + 1) bn(n + 1)
I Se prueba que E(Fn,b |H0 ) = n − 1 y Var(Fn,b |H0 ) = 2(n − 1)(b − 1)/b ≈ 2(n − 1) si b es
elevado. O sea, los dos primeros momentos de una χ2n−1 . Sus momentos de mayor orden
son también buenas aproximaciones de los de una χ2n−1 y estudios numéricos muestran
que una χ2n−1 aproxima razonablemente bien la distribución de Fn,b si b > 7.
I En consecuencia, la prueba de Friedman basada en el estadı́stico Fn,b rechaza, a un nivel
aproximado de (1 − α)100 %, la hipótesis nula en el contraste:
H 0 : θ1 = . . . = θn vs H1 : θi 6= θj para al menos un par (i, j), i 6= j
siempre que Fn,b ≥ χ2n−1,1−α .
I El estadı́stico corregido por empates (deshechos por el rango medio) toma la forma:

12(n − 1)Sn,b
Fn,b,c.e. = PP
bn(n2 − 1) − t(t2 − 1)
donde el doble sumatorio se extiende a los grupos de t empates en cada uno de los bloques.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 136 / 139
El problema general de b > 2 muestras relacionadas El test de Friedman

El test de Friedman: Ejemplo


Ejemplo 7.1.1: Planteamiento
Se solicita a un grupo de doce médicos su impresión particular, en una escala de 0 a 5, acerca del grado de
gravedad de cuatro enfermedades (codificadas de 1 a 4). El interés del experimento radica en chequear si
existen diferencias significativas en los niveles de gravedad de las cuatro enfermedades.

I Si el experimento se ha aleatorizado adecuadamente (selección al azar de los 12 médicos y aleatorización


del orden de las preguntas para cada uno de ellos) se tiene un diseño en bloques completamente
aleatorizados. Los bloques son los médicos (b = 12), las enfermedades son los tratamientos (n = 4) y
las respuestas toman valores enteros entre 0 y 5, de modo que no cabe asumir normalidad.

I El modelo matemático para el comportamiento de las respuestas es:

Xij = µ + bj + θi + εij , con εij i.i.d. según una distribución desconocida de media cero F (·)

donde Xij es el nivel de gravedad que el doctor j-ésimo asigna a la i-ésima enfermedad, µ es una
media global independiente de médico y enfermedad, bj es el efecto promedio respecto de µ del j-ésimo
doctor (los habrá propensos a juzgar más graves las enfermedades que otros) y θi mide el efecto
promedio propio de la i-ésima enfermedad con respecto a µ y con independencia del doctor.

I El problema de interés es:


H0 : θ1 = θ2 = θ3 = θ4 vs H1 : θi 6= θj para al menos un par (i, j), 1 ≤ i < j ≤ 4

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 137 / 139
El problema general de b > 2 muestras relacionadas El test de Friedman

El test de Friedman: Ejemplo


Ejemplo 7.1.1: Resolución

Datos Rangos
Enferm. Enfermedades Empates
Bloques 1 2 3 4 1 2 3 4 t
Méd. 1 4 2 2 3 4 1.5 1.5 3 2
Méd. 2 3 2 4 5 2 1 3 4 0
Méd. 3 5 1 3 4 4 1 2 3 0
Méd. 4 3 2 3 3 3 1 3 3 3
Méd. 5 5 3 4 4 4 1 2.5 2.5 2
Méd. 6 3 1 3 4 2.5 1 2.5 4 2
Méd. 7 2 2 3 3 1.5 1.5 3.5 3.5 2y2
Méd. 8 5 3 4 3 4 1.5 3 1.5 2
Méd. 9 4 2 4 3 3.5 1 3.5 2 2
Méd. 10 4 1 1 4 3.5 1.5 1.5 3.5 2y2
Méd. 11 4 1 2 4 3.5 1 2 3.5 2
Méd. 12 3 3 1 4 2.5 2.5 1 4 2
R1 = 38 R2 = 15.5 R3 = 29 R4 = 37.5

I Se calcula el estadı́stico de Friedman sin corregir por empates:



12 382 + 15.52 + 292 + 37.52
F̂4,12 = − 3 × 12 × 5 = 16.575
12 × 4 × 5
I Se observa que: χ23,0.95 = 7.814 < F̂4,12 = 16.575 < F̂4,12,c.e. .
I Al menos dos enfermedades presentan niveles de gravedad significativamente distintos al 5 %.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 138 / 139
Referencias

Contenidos

1 Estimación de la función de distribución

2 Contrastes de bondad de ajuste

3 Contrastes de localización: una muestra y muestras apareadas

4 El problema general de dos muestras independientes

5 El problema general de k > 2 muestras independientes

6 El problema general de b > 2 muestras relacionadas

7 Referencias

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 138 / 139
Referencias

Referencias

T. W. Anderson and D. A. Darling, Asymptotic theory of certain goodness of fit


criteria based on stochastic processes, Ann. Math. Statist. 23 (1952), no. 2,
193–212.
Sandor Csorgo and Julian J. Faraway, The exact and asymptotic distributions of
cramer-von mises statistics, Journal of the Royal Statistical Society. Series B
(Methodological) 58 (1996), no. 1, 221–234.

W.J. Conover, Practical nonparametric statistics, 3 ed., Wiley series in probability


and statistics: Applied probability and statistics, Wiley, 1999.

J.D. Gibbons and S. Chakraborti, Nonparametric statistical inference, 4 ed., Taylor


& Francis, 2014.

George Marsaglia and John Marsaglia, Evaluating the Anderson-Darling


Distribution, Journal of Statistical Software 9 (2004), no. i02.

L. Wasserman, All of nonparametric statistics, Springer Texts in Statistics, Springer


New York, 2006.

José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 139 / 139

También podría gustarte