MNP Manual Parte A Metodos Distribucion Libre

Máster Universitario en Técnicas Estadı́sticas
Métodos No Paramétricos
José A. Vilar
jose.vilarf@udc.es
Departamento de Matemáticas, Facultad de Informática
Curso Académico 2022-23, A Coruña

Introducción
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 2 / 139
Introducción Modelos paramétricos vs no paramétricos
Modelo paramétrico
Sea X una v.a. con función de distribución de probabilidad F , i.e. F (x) = P (X ≤ x).
Se dice que X sigue un modelo paramétrico si su distribución de probabilidad F

pertenece a una familia de distribuciones indexada por un parámetro θ de dimensión
finita:
X ∼ F ∈ F θ = F θ ; θ ∈ Θ ⊆ Rk .

Ejemplo 1.1.1
I Es razonable asumir que los datos antropométricos de los individuos de una misma
población, raza, sexo y edad, muestren un comportamiento gaussiano. Ası́, variables como
estatura o peso siguen el modelo paramétrico:

F(µ,σ) = Φ(µ,σ) ; µ ∈ R, σ ≥ 0 , (1)
donde Φ(µ,σ) (·) denota la función de distribución de una N (µ, σ).

I X =“número de bacterias por cm2 de cultivo” podrı́a seguir el modelo paramétrico:
( x
)
x
−λ λ
X
Fλ = Fλ (x) = e ; λ = E(X) ≥ 0 . (2)
x!
i=0
Modelo no paramétrico
Cuando sobre la función de distribución F de una variable aleatoria X solamente se

asumen algunas condiciones de regularidad, sin confinarla a una familia indexada por un
parámetro finito-dimensional, se dice que X sigue un modelo no paramétrico.
A menudo estas condiciones de regularidad conciernen a caracterı́sticas de forma o de

suavidad de la distribución, tales como:
I F es una función de distribución absolutamente continua.
I F es simétrica en torno a su mediana.
I F tiene función de densidad f con dos derivadas continuas.
Modelos paramétricos vs no paramétricos

I En un modelo paramétrico, el modelo de probabilidad subyacente a X queda
completamente determinado una vez establecido el valor del parámetro θ. La
complejidad del modelo está acotada:
P (x |θ, (X1 , . . . , Xn ) ) = P (x |θ ) .
I En los modelos no paramétricos, la distribución subyacente pertenece a un

subconjunto de distribuciones no acotado, potencialmente de dimensión infinita y,
por consiguiente, el grado de información que se puede obtener sobre el modelo
puede crecer con el número de datos muestrales.
En este sentido los modelos no paramétricos son más flexibles que los modelos
paramétricos. Por ejemplo, si f es la función de densidad de la variable X, un
modelo no paramétrico relativamente frecuente es la familia de densidades:
Z
00
2 2
f ∈F = g(·); g (x) dx ≤ C , para alguna constante C ,
R
que identifica el conjunto de densidades que no son demasiado “fluctuantes”.
Introducción Métodos no paramétricos
Métodos de inferencia no paramétricos
I No hay consenso en la literatura a la hora de establecer una definición/clasificación

de métodos de inferencia no paramétricos (ver Sección 2.5 en [Con99] ).

H0 : Med = Med0
El contraste de hipótesis:
H1 : Med 6= Med0
¿paramétrico o no paramétrico?
I Consideraremos que un procedimiento de inferencia estadı́stica es no paramétrico si

es válido bajo hipótesis tan poco restrictivas como sea posible y, en particular, sin
asumir un modelo paramétrico para la distribución generadora de los datos.
I Distinguiremos dos familias de procedimientos no paramétricos:
1 Métodos clásicos libres de la distribución de los datos.

2 Métodos de estimación no paramétrica de curvas.
[Con99] Conover, W.J. Practical nonparametric statistics, 1999.

Métodos clásicos libres de la distribución de los datos
Métodos de inferencia basados en estadı́sticos cuya distribución en el muestreo no

depende de la distribución generadora de los datos (free-distribution property).
I Por ejemplo, un contraste de hipótesis es de distribución libre si la distribución bajo

la hipótesis nula del estadı́stico de contraste se establece con independencia de cuál
sea la distribución generadora de los datos.
I A menudo se conocen como “Métodos de distribución libre”, pero ojo con esta
traducción poco afortunada de “free-distribution methods”.
I En esta familia se engloban los métodos de inferencia expuestos en los Temas 1 a 4

del programa, incluyendo: (i) métodos de bondad de ajuste, (ii) contrastes de
localización para una, dos y más de dos muestras, y (iii) análisis de dependencia.
Métodos clásicos libres de la distribución de los datos

Fundamentalmente nos centraremos en contrastes de hipótesis. Algunos ejemplos:

I Bondad de ajuste: H0 : F (x) = F0 (x)
H1 : F (x) 6= F0 (x)
con F0 (·) parcial o completamente especificada.

I Localización: H0 : MedX = MedY
H1 : MedX 6= MedY

I Dependencia: H0 : X e Y son independientes
H1 : X e Y no son independientes
Métodos de estimación no paramétrica de curvas
Sea Ψ(x) un cierto funcional de la distribución de probabilidad de una variable X.

El problema de estimar la curva Ψ(x) a partir de una muestra aleatoria de X sin asumir
que la curva está confinada a una familia paramétrica indexada por un parámetro
finito-dimensional (i.e. X no sigue un modelo paramétrico) se denomina estimación no
paramétrica de curvas.
Entre otros, casos especiales de habitual interés suelen ser:

I La distribución de probabilidad: Ψ(x) = F (x) = P(X ≤ x).
d
I La densidad de probabilidad: Ψ(x) = f (x) = F (x).
dx
I La función de regresión: Ψ(x) = m(x) = E (Y |X = x ).
f (x)
I La razón de fallo: Ψ(x) = λ(x) = .
1 − F (x)
I La varianza condicional: Ψ(x) = σ 2 (x) = Var (Y |X = x ).

Introducción El sentido del enfoque no paramétrico
¿Por qué son útiles los métodos no paramétricos?
1 En el enfoque paramétrico se asumen condiciones estrictas sobre el modelo

generador de la muestra y a partir de ellas se construyen procedimientos de
inferencia muy eficientes. Sin embargo, si las hipótesis de partida sobre este modelo
son incorrectas, los procedimientos son inconsistentes.
2 El enfoque no paramétrico parte de hipótesis débiles sobre el modelo generador y

proporciona métodos de inferencia muy generales y consistentes para un amplio
espectro de modelos. El coste de esta versatilidad es una pérdida de eficiencia,
sobre todo con tamaños muestrales pequeños o moderados.
3 Ambos enfoques no son excluyentes sino complementarios.

Por ejemplo, los métodos no paramétricos pueden ser de gran utilidad:
I Para validar modelos paramétricos.
I Para establecer potenciales modelos paramétricos de interés.
Contenidos Parte I: Métodos No Paramétricos Clásicos de Distribución Libre
Contenidos Parte I
1 Estimación de la función de distribución
2 Contrastes de bondad de ajuste
3 Contrastes de localización: una muestra y muestras apareadas
4 El problema general de dos muestras independientes
5 El problema general de k > 2 muestras independientes
6 El problema general de b > 2 muestras relacionadas
7 Referencias
Contenidos Parte II: Estimación No Paramétrica de Curvas
Contenidos Parte II
Parte I
Métodos No Paramétricos Clásicos de

Distribución Libre
Estimación de la función de distribución
Contenidos

La función de distribución empı́rica (ECDF)
Propiedades de la función de distribución empı́rica
7 Referencias
Estimación de la función de distribución La función de distribución empı́rica (ECDF)
Función de distribución empı́rica (ECDF). Definición

Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de tamaño n de una variable aleatoria
X con función de distribución F (x) = P (X ≤ x).
La función de distribución empı́rica (ECDF) asigna a cada número real x la proporción

de valores en la muestra menores o iguales que x. Formalmente:
n
1 1X
Fn (x) = # {Xi ≤ x; i = 1, . . . , n} = 1 (Xi ≤ x) ,
n n
i=1
donde
1 si Xi ≤ x
1 (Xi ≤ x) = 0 si Xi > x
Si X(1) , X(2) , . . . , X(n) denota la secuencia de estadı́sticos ordenados de la muestra:


 0
 si x < X(1)
k
Fn (x) = si X(k) ≤ x < X(k+1) , para k = 1, 2, . . . , n − 1
 n
si x ≥ X(n)
 1
Estimación de la función de distribución Propiedades de la función de distribución empı́rica
ECDF - Propiedades: Distribución de una v.a. discreta.
1 La distribución empı́rica Fn (·) es una función de distribución de probabilidad.
Fn es la función de distribución de la va- Por consiguiente se satisface:

riable aleatoria discreta, digamos Xe , con
I Fn (x) ∈ [0, 1] para todo x ∈ R.
función de masa de probabilidad dada por:
I Fn es continua por la derecha.
Valores Xe pi = P(Xe = xi )
x(1) 1/n I Fn es no decreciente.
x(2) 1/n
.. .. I lı́mx→−∞ Fn (x) = 0.
. .
x(n) 1/n I lı́mx→∞ Fn (x) = 1.
ECDF - Propiedades: Ejemplo
1.0
F10
F100
0.8
F
0.6
Fn(x)
0.4
0.2
0.0
−1.5 −1.0 −0.5 0.0 0.5 1.0
x
Figura 1: Función de distribución de una N(0,1) y dos distribuciones empı́ricas basadas en
muestras aleatorias de tamaños 10 y 100, respectivamente.
ECDF - Propiedades: Distribución
2 Para cada x ∈ R, Fn (x) es una variable aleatoria tal que nFn (x) se distribuye de
acuerdo a una binomial con parámetros n y p = F (x):
nFn (x) ∼ B (n, F (x))
En efecto:
n
1 (Xi ≤ x), donde los n sumandos, 1 (Xi ≤ x), i = 1, . . . , n, son

X
nFn (x) =
i=1
variables aleatorias independientes de Bernoulli con probabilidad de éxito:
p = P (1 (Xi ≤ x) = 1) = P (Xi ≤ x) = F (x).
Se sigue:

i n

I P Fn (x) = = F (x)i (1 − F (x))n−i , para i = 0, 1, . . . , n.
n i
1
I E (Fn (x)) = F (x); Var (Fn (x)) = F (x) (1 − F (x)) .
n
ECDF - Propiedades: Consistencia y distribución asintótica
3 Fn (x) −→ F (x) casi seguro.
√ Fn (x) − F (x)
4 np −→ Z, en distribución, donde Z ∼ N (0, 1).
F (x) (1 − F (x))
Nótese que denotando por Yi = 1 (Xi ≤ x), Fn (x) = Y n . Por tanto, la propiedad 3 es
una aplicación inmediata de la ley fuerte de los grandes números y la 4 sigue del
teorema central del lı́mite.
5 [Teorema de Glivenko-Cantelli] sup |Fn (x) − F (x)| −→ 0 casi seguro.

x∈R
6 [Desigualdad de Dvoretzky-Kiefer-Wolfowitz (DKW)] Para cualquier ε > 0,

2
P sup |F (x) − Fn (x)| > ε ≤ 2e−2nε .
x∈R
ECDF - Propiedades: Una banda de confianza simple

La desigualdad DKW en 6 permite construir una banda de confianza no paramétrica
para F :
7 Para algún 0 < α < 1, sean:

r
1 2

εn = log L(x) = máx {Fn (x) − εn , 0} U (x) = mı́n {Fn (x) + εn , 1}
2n α
Entonces, para todo F y para todo n se satisface:
P (L(x) ≤ F (x) ≤ U (x), para todo x ∈ R) ≥ 1 − α.
En el r
ejemplo que sigue [Was06], n = 799, de modo que tomando α = 0.05, se tiene que
1 2

εn = log = 0.048, y este valor puede usarse para construir la banda
2n 0.05
(L(x), U (x)) al 95 % de confianza dada en 7 .
ECDF - Propiedades: Ejemplo banda de confianza

Ejemplo 2.1.1
1.0
0.8
0.6
Fn
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4
X = Tiempo entre impulsos fibra nerviosa

n:799 m:0
Figura 2: Función de distribución de un ejemplo con datos reales (n = 799) y banda de

confianza (L(x), U (x)) al 95 %.
Contrastes de bondad de ajuste
Contenidos

El problema de la bondad de ajuste
El contraste de Kolmogorov-Smirnov
Contrastes tipo Cramér-von Mises
Contraste de bondad de ajuste a un modelo paramétrico
Bondad de ajuste a una normal

Contrastes de bondad de ajuste El problema de la bondad de ajuste
Introducción
Sea X1 , X2 , . . . , Xn una m.a.s. de una v.a. X con función de distribución F .
Problemática
Basándose en la muestra obtener información acerca del modelo de probabilidad F .
I Enfoque paramétrico:

1 Asumir que F ∈ Fθ = Fθ ; θ ∈ Θ ⊆ Rk .
2 Emplear la muestra para inferir sobre θ.
Ejemplo 3.1.1
Se asume F ∼ N (µ, σ) y se realiza inferencia sobre µ y σ.
Por ejemplo, el contraste de hipótesis: Bajo normalidad, el estadı́stico de contraste

H 0 : µ = µ0 √ X n − µ0
t= n ∼ tn−1 .
H1 : µ 6= µ0 Sn−1
Dado que la normalidad determina la distribución de t y las probabilidades de error de la

prueba, parece razonable chequear esta hipótesis.
Contrastes de bondad de ajuste El problema de la bondad de ajuste
Contrastes de bondad de ajuste

I La compatibilidad de una muestra con un modelo especı́fico de distribución F0 se
evalúa mediante un contraste de bondad de ajuste (goodness-of-fit test - GOF-):
Contraste de bondad de ajuste

H0 : F (x) = F0 (x) para todo x ∈ R
(3)
H1 : F (x) 6= F0 (x) para algún x ∈ R
I Idealmente, la distribución F0 bajo la nula se asume completamente especificada.
I La alternativa en (3) es bilateral, pero pueden plantearse alternativas unilaterales:
H0 : F (x) ≤ F0 (x) para todo x ∈ R vs. H1 : F (x) > F0 (x) para algún x ∈ R (4)
H0 : F (x) ≥ F0 (x) para todo x ∈ R vs. H1 : F (x) < F0 (x) para algún x ∈ R (5)
I El rechazo de la nula no proporciona mucha información ya que la alternativa es
amplia (incluye diferencias en localización, escala, forma, . . . ). Esto justifica el
interés primario de estas pruebas en refutar o no la distribución postulada en la nula.
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov
El contraste de Kolmogorov-Smirnov: Planteamiento

Problema
Sea X1 , . . . , Xn una m.a.s. de una v.a. X con distribución de desconocida F . Sea F0
una distribución de probabilidad completamente especificada. Contrastar:

Posible enfoque
La distribución empı́rica Fn basada en la muestra es un estimador no paramétrico
consistente de la función de distribución. Por tanto, si H0 es cierta, la “distancia” entre
Fn y F0 decrecerá con n.
Estadı́stico bilateral de Kolmogorv-Smirnov

¿Cómo medir la distancia entre Fn y F0 ? El Teorema de Glivenko-Cantelli establece:
supx∈R |Fn (x) − F0 (x)| −→ 0 casi seguro, lo que sugiere usar el estadı́stico de contraste:
Dn = supx∈R |Fn (x) − F0 (x)|
El contraste de Kolmogorov-Smirnov: Pruebas unilaterales

y regla de decisión
I Para las pruebas unilaterales (4) y (5), emplear los estadı́sticos respectivos:
Dn+ = sup (Fn (x) − F0 (x)) y Dn− = sup (F0 (x) − Fn (x))
x∈R x∈R
I Nótese que Dn = máx Dn+ , Dn− ; de modo que, bajo la hipótesis nula, los tres

estadı́sticos convergen a cero casi seguro cuando n → ∞.
Regla de decisión del contraste

Rechazar H0 al nivel de significación α, 0 < α < 1, si el estadı́stico de contraste
apropiado, Dn , Dn+ o Dn− , toma un valor superior al cuantil 1 − α de la distribución del
estadı́stico bajo la nula.
Se establece a continuación que los estadı́sticos KS son estadı́sticos de distribución libre.
El contraste de Kolmogorov-Smirnov: Distribución libre

Teorema
Si F0 es absolutamente continua y estrictamente creciente, entonces la distribución bajo
H0 de Dn , Dn+ y Dn− no depende de F0 .
Si F0 es absolutamente continua y estrictamente creciente se tiene:

I X ∼ F0 ⇒ F0 (X) ∼ U [0, 1] I U ∼ U [0, 1] ⇒ F0−1 (U ) ∼ F0
Sea U1 , U2 , . . . , Un una m.a.s. de una U [0, 1] y FnU su distribución empı́rica. Se tiene:

n n
1X 1X
1 (Xi ≤ x) = 1 F0−1 (Ui ) ≤ x =

Fn (x) =
n n
i=1 i=1
n
1X
1 (Ui ≤ F0 (x)) = FnU (F0 (x)).
n
i=1
Luego: Dn = sup |Fn (x) − F0 (x)| = sup FnU (F0 (x)) − F0 (x) = sup FnU (u) − u ,
x∈R x∈R u∈[0,1]
que expresa Dn como el estadı́stico KS basado en una m.a.s. de una U [0, 1].
El contraste de Kolmogorov-Smirnov: Distribución exacta

I Como Dn es de distribución libre, para determinar su distribución exacta puede
asumirse sin pérdida de generalidad que F ∼ U [0, 1]. Con este criterio, el
Teorema 3.2 en [GC14] establece la distribución exacta de Dn para una distribución
F continua:
Distribución exacta de Dn bajo H0 si F es continua
 0 si ν ≤ 0
1 +ν Z
 Z 2n 3 +ν Z 2n−1 +ν
 2n 2n
1 2n−1
P Dn < +ν = ... f (u1 , . . . , un ) dun . . . du1 si 0 < ν <
2n
2n 1 −ν 3 −ν 2n−1

 2n −ν
2n 2n
2n−1
1 si ν ≥
2n
donde f (u1 , . . . , un ) = n! para 0 < u1 < . . . < un < 1 y 0 en otro caso.
I La distribución exacta de Dn está tabulada y se proporciona en apéndices de varias

monografı́as (ver p.e. Tabla F del Apéndice en [GC14] para n ≤ 40). También
puede aproximarse por simulación.
I La distribución exacta de Dn+ se proporciona en el Teorema 3.4 de [GC14]. Nótese
que, por simetrı́a, Dn+ y Dn− tienen la misma distribución.
El contraste de Kolmogorov-Smirnov: Distribución

asintótica de Dn
Distribución asintótica de Dn bajo H0 si F es continua

Para d > 0 arbitrario:
∞
√ X 2 2
(−1)(i−1) e−2i d .

lı́m P nDn ≤ d = L(d), con L(d) = 1 − 2
n→∞
i=1
I Esta aproximación es razonablemente correcta siempre que n ≥ 35.
I Algunos cuantiles de la distribución asintótica se proporcionan en la tabla que sigue.
d 1.07 1.14 1.22 1.36 1.63

√
P nDn > d 0.20 0.15 0.10 0.05 0.01
El contraste de Kolmogorov-Smirnov: Distribución

asintótica de Dn+ (Dn− )
Distribución asintótica de Dn+ y Dn− bajo H0 si F es continua
1 Para d > 0 arbitrario:
√ + 2
nDn ≤ d = 1 − e−2d .

lı́m P
n→∞
+ 2
∼ χ22 .

2 Asintóticamente, 4n Dn
I El resultado 2 sigue de 1 :
√ + 2 2
2 c
nDn ≤ d = P 4n Dn+ ≤ 4d2 = 1−e−2d ⇔ P 4n Dn+ ≤ c = 1−e− 2

P
que es la distribución de una χ22 .
+ − 1.22
I Si n grande y α = 0.05, se sigue de 2 que: Dn,0.95 = Dn,0.95 ∼ √ .
n
El contraste de Kolmogorov-Smirnov: Ejemplos

Ejemplo 3.2.1
¿Se puede rechazar que la muestra que si-
gue procede de una N (40, 3)?
35 45 47 50 31
30 25 33 35 40
45 47 49 42 40
50 46 55 42 46

H0 : F = N (40, 3)
H1 : F 6= N (40, 3)
1 n = 20
2 D̂20 = 0.45221.
3 p = P(D20 > 0.45221) < 0.01.
4 Concluir el rechazo de H0 .

Ejemplo 3.2.1
¿Se puede rechazar que la muestra que si-
gue proceda de una N (40, 3)?
1.0
35 45 47 50 31 F20
F = N(40, 3)
30 25 33 35 40 ^
D20 = 0.45
0.8
45 47 49 42 40
50 46 55 42 46
0.6
Fn(x)

H0 : F = N (40, 3)
0.4
H1 : F 6= N (40, 3)
0.2
1 n = 20
2 D̂20 = 0.45221.
0.0
3 p = P(D20 > 0.45221) < 0.01. 25 30 35 40 45 50 55
X
4 Concluir el rechazo de H0 .

Ejemplo 3.2.2
Se simula una m.a.s. de tamaño 50 de una
distribución Exp(1) y se emplea la prueba
de Kolmogorv-Smirnov para chequear si se
1.0
puede asumir que esa distribución exponen-
cial genera los datos. Es decir:
0.8

H0 : F = Exp(1)
0.6
H1 : F 6= Exp(1)
Fn(x)
0.4
1 n = 50
0.2
F50
2 D̂50 = 0.070232. F = Exp(1)
^
3 p-valor = 0.9515 (exacto). D50 = 0.07
0.0
4 p-valor = 0.9661 (asintótico). 0 1 2 3 4 5
X
5 No se rechaza H0 .
Banda de confianza basada en el estadı́stico de

Kolmogorov-Smirnov
Tomando como base la distribución exacta o la distribución asintótica de Dn es factible
construir bandas de confianza para la función de distribución generadora de los datos.
1 Fijar el nivel de confianza 1 − α, para 0 < α < 1.
2 Obtener, bien de la distribución exacta de Dn bien de su distribución asintótica, el
cuantil dn,1−α tal que:

P (Dn ≤ dn,1−α ) = 1 − α ⇐⇒ P sup |Fn (x) − F (x)| ≤ dn,1−α =1−α
x∈R
⇐⇒ P (Fn (x) − dn,1−α < F (x) < Fn (x) + dn,1−α , para todo x ∈ R) = 1 − α
3 Definir:
Ln (x) = máx {Fn (x) − dn,1−α , 0} Un (x) = mı́n {Fn (x) + dn,1−α , 1}
4 La región (Ln (x), Un (x)) es una banda de confianza al nivel (1 − α) para F .
Banda de confianza basada Kolmogorov-Smirnov: Ejemplo

1.0
●
●
●
●
●
●
●
●
●
●
0.8
●
●
●
●
●
●
●
●
●
●
0.6
●
●
●
Fn(x)
●
●
●
●
●
●
●
0.4
●
●
●
●
●
●
●
●
●
●
0.2
●
●
●
●
●
●
●
●
●
●
0.0
0 1 2 3 4 5
X
n = 50
Figura 3: Función de distribución empı́rica y banda de confianza al 95 % basada en el

estadı́stico Dn de Kolmogorov-Smirnov para una m.a.s. de tamaño 50 de una Exp(1).
Contrastes de bondad de ajuste Contrastes tipo Cramér-von Mises
Contrastes tipo Cramér-von Mises: Planteamiento

Problema
Dada una m.a.s. X1 , X2 , . . . , Xn de una v.a. X con distribución absolutamente continua
y completamente especificada F0 , contrastar:

Un criterio de contraste alternativo

Evaluar una distancia en media cuadrática entre la distribución empı́rica Fn y F0 :
Z
Q2n =n (Fn (x) − F0 (x))2 Ψ (F0 (x)) dF0 (x)
R
siendo Ψ(·) una función peso que satisface ciertas condiciones de regularidad.
Con la transformación u = F0 (x) (notar que U = F0 (X) ∼ U [0, 1]) se tiene que:
Z Z 1
Q2n = n (Fn (x) − F0 (x))2 Ψ (F0 (x)) dF0 (x) = n (Gn (u) − u)2 Ψ(u) du,
R 0
donde Gn (u) es la distribución empı́rica de las n i.i.d. v.a. Ui = F0 (Xi ) ∼ U [0, 1].
Contraste de bondad de ajuste de Cramér-von Mises

Contraste de bondad de ajuste de Cramér-von Mises
Tomando Ψ(x) = 1 para todo x ∈ R, se obtiene el estadı́stico de contraste de
Cramér-von Mises:
Z Z 1
ωn2 = n (Fn (x) − F0 (x))2 dF0 (x) = n (Gn (u) − u)2 du,
R 0
I Si U(i) denota el estadı́stico de orden i en la muestra uniforme, ωn2 se escribe como
n 2
1 2i − 1
X
ωn2 = + U(i) − .
12 2n
i=1
I ωn2 es de distribución libre y se han establecido sus distribuciones exacta y asintótica

[CF96]. El criterio del contraste es rechazar H0 para valores superiores al cuantil
correspondiente.
Contraste de bondad de ajuste de Anderson-Darling

Contraste de bondad de ajuste de Anderson-Darling
Tomando Ψ(x) = (x(1 − x))−1 para todo x ∈ R, se obtiene el estadı́stico de contraste
de Anderson-Darling:
1
(Fn (x) − F0 (x))2 (Gn (u) − u)2
Z Z
A2n =n dF0 (x) = n du,
R
F0 (x) (1 − F0 (x)) 0
u(1 − u)
I Si U(i) denota el estadı́stico de orden i en la muestra uniforme, A2n se escribe como
n
1 X
A2n = −n −

(2i − 1) ln U(i) + (2n + 1 − 2i) ln 1 − U(i)
n
i=1
I A2n otorga más peso a las colas de la distribución nula que ωn2 .
I A2n es de distribución libre. Su distribución exacta es muy compleja (aproximar por
simulación). La asintótica ha sido establecida [AD52] pero su cálculo es también
complejo [MM04]. Rechazar H0 para valores superiores al cuantil correspondiente.
Contrastes de bondad de ajuste Contraste de bondad de ajuste a un modelo paramétrico
I A menudo se desea contrastar si la muestra sigue un modelo paramétrico especı́fico.

Es decir, el contraste de hipótesis se plantea en los términos que siguen:

H0 : F = Fθ para algún θ ∈ Θ
(6)
H1 : F 6= Fθ para todo θ ∈ Θ
Ejemplo 3.4.1

H0 : F sigue una distribución normal
H1 : F no sigue una distribución normal

I Las pruebas de bondad de ajuste de Kolmogorov-Smirnov, Cramér-von Mises y
Anderson-Darling contrastan si una muestra procede de un modelo de probabilidad
completamente especificado, no dependiente de los datos (i.e. no se precisa estimar
previamente parámetro alguno).
Ejemplo 3.4.2

H0 : F ∼ N (0, 1)
H1 : F N (0, 1)
I Si el modelo no está completamente especificado, es preciso estimar algún

parámetro y estas pruebas son extremadamente conservadoras (error Tipo I inferior
a α). O sea, fallan en detectar la alternativa y su uso no es adecuado.
Ejemplo 3.4.3

H0 : F ∼ N (µ, 1), para algún µ ∈ R
H1 : F N (µ, 1) para todo µ ∈ R

H0 : F = Fθ para algún θ ∈ Θ
Para contrastar:
H1 : F 6= Fθ para todo θ ∈ Θ
los estadı́sticos de Kolmogorv-Smirnov (Dn ) y de tipo Cramér-von Mises (ωn2 y A2n ) se

modifican reemplazando en sus expresiones F0 (no existe un F0 único bajo H0 ) por Fθ̂ ,
siendo θ̂ el estimador máximo verosı́mil de θ.
Por ejemplo, el estadı́stico KS modificado para chequear la bondad de ajuste a un
modelo paramétrico toma la forma:
D̃n = sup |Fn (x) − Fθ̂ (x)| ,
x∈R
con θ̂ la estimación por máxima verosimilitud del parámetro desconocido θ.

Sobre la distribución de D̃n conviene enfatizar que:
1 No coincide con la distribución de Dn .
2 Depende del modelo paramétrico especificado en la hipótesis nula y, por tanto, no
es de distribución libre.
3 Está tabulada para algunos modelos concretos tales como el modelo Gaussiano o el
exponencial (pruebas de Lilliefors).
Contrastes de bondad de ajuste Bondad de ajuste a una normal
Bondad de ajuste a una normal

Problema: Contraste de bondad de ajuste a una normal
Sea X1 , . . . , Xn una m.a.s. de una v.a. X. Se desea chequear la normalidad de X, i.e.

H0 : X se distribuye de acuerdo a una N (µ, σ), con µ y σ desconocidas
(7)
H1 : X no se distribuye de acuerdo a una N (µ, σ)
PRUEBAS ANALÍTICAS PRUEBAS GRÁFICAS
1 Kolmogorov-Smirnov-Lilliefors 1 Histograma
2 Cramér-von Mises 2 Diagrama de cajas
3 Anderson-Darling 3 Gráfico de tallo y hojas
4 Shapiro-Wilk 4 Gráfico P-P
5 Jarque-Bera 5 Gráfico Q-Q
6 D’Agostino-Pearson
Métodos gráficos: Histograma y Diagrama de tallo y hojas
NORMAL NO NORMAL NO NORMAL
Métodos gráficos: Gráficos P-P y Q-Q
Gráfico P-P (probabilidad-probabilidad)

Compara la distribución empı́rica de una muestra, Fn , con una distribución teórica
completamente especificada, F0 , mediante el diagrama de dispersión de los puntos:

Fn X(i) , F0 X(i) ; i = 1, . . . , n .
n
i X(i) − µ
En el caso de una N (µ, σ) es habitual considerar la nube: ,Φ .
n+1 σ
i=1
Gráfico Q-Q (quantile-quantile)

Compara los cuantiles de una muestra con los cuantiles de una distribución teórica estandarizada
F0 de una familia especı́fica de distribuciones, F , mediante el diagrama de dispersión de los
puntos:
i
n o
F0−1 , X(i) ; i = 1, . . . , n .
n+1
on
i
n
En el caso de distribuciones normales es habitual considerar: Φ−1 , X(i) .
n+1 i=1
I Un patrón lineal en un gráfico Q-Q indica que el modelo de distribuciones

especificado describe razonablemente el comportamiento de la muestra. El intercept
y la pendiente del ajuste lineal aproximan respectivamente la media y desviación
estándar de la distribución. El gráfico P-P, en cambio, requiere que se precise F0 y
la lı́nea de referencia siempre es la diagonal.
I El patrón de linealidad en un gráfico Q-Q no se ve afectado por cambios en

localización o escala. En cambio, tales cambios no preservan la linealidad en un
gráfico P-P.
I En zonas de alta densidad de probabilidad los cambios en probabilidad acumulada

son más acentuados que en zonas de baja probabilidad. Por ello, un gráfico P-P es
particularmente apropiado para detectar diferencias en estas zonas, p.e. para
detectar desviaciones en la zona central de una normal especificada.

NORMALIDAD NO NORMALIDAD NO NORMALIDAD
4
Q−Q Q−Q 4 Q−Q
5.0
2
Cuantiles Muestrales
2.5
2
0.0
−2 0
−2.5
−4
−5.0
−2 −1 0 1 2 −2 0 2 4 −1 0 1 2 3
Cuantiles Teóricos Cuantiles Teóricos Cuantiles Teóricos
1.00 1.00 1.00

P−P P−P P−P
0.75 0.75 0.75

Φ(x)
Φ(x)
Φ(x)
0.50 0.50 0.50
0.25 0.25 0.25
0.00 0.00 0.00

0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00 0.00 0.25 0.50 0.75 1.00
Fn(x) Fn(x) Fn(x)
Contrastes de bondad de ajuste a una normal

Contraste de Lilliefors para normalidad
Lilliefors tabuló los valores crı́ticos del estadı́stico modificado de Kolmogorov-Smirnov:
D̃nL,N = sup |Fn (z) − Φ(z)| ,

z∈R
donde Φ(·) es la distribución de la N (0, 1) y Fn la distribución empı́rica de los datos

n n
Xi − X n 1X 1 X 2
estandarizados Zi = , con X n = Xi y Sn−1 = Xi − X n .
Sn−1 n n−1
i=1 i=1
Contrastes de Cramér-von Mises y de Anderson-Darling para normalidad

D’Agostino y Stephens tabularon los valores crı́ticos de los estadı́sticos de Cramér-von
Mises, ωn2 , y de Anderson-Darling, A2n , modificados para una hipótesis compuesta de
normalidad reemplazando F0 por Φ y considerando la distribución empı́rica de los datos
estandarizados con X n y Sn−1 .
Estos contrastes no son de distribución libre pero si son libres de parámetros, en el

sentido que sus distribuciones no dependen de los valores de µ y σ.

Contraste de Shapiro-Wilk (a menudo llamado W -test)
Se emplea el estadı́stico de contraste:
hP
k
i 2
i=1
ai,n X(n−i+1) − X(i)
Wn = Pn 2 ,
i=1
Xi − X n
siendo X(i) el estadı́stico de orden i; k = n/2 si n par y (n − 1)/2 si n impar; y los
coeficientes ai,n (disponibles en tablas, ver p.e. Tabla A.17 en [Con99]) dados por:
mt V −1
(ai,1 , . . . , ai,n ) =
(mt V −1 V −1 m)1/2
siendo m = (m1 , . . . , mn )t los valores esperados de los estadı́sticos de orden de variables
iid N (0, 1) y V la matriz de covarianza de estos estadı́sticos de orden.
Wn ∈ (0, 1] y puede interpretarse como una medida de la bondad de ajuste lineal de los
puntos sobre un Q-Q plot. Por ello, rechazar H0 al nivel α en (7) si Ŵn < wn,1−α ,
siendo wn,1−α el (1 − α)-cuantil en las tablas apropiadas (p.e. Tabla A.18 en [Con99]).

Algunas pruebas de normalidad se basan en el comportamiento de estimadores de los
momentos. En particular, este es el caso de las pruebas de Jarque-Bera y de
D’Agostino-Pearson.
Bajo la hipótesis nula de que la muestra procede de una distribución normal se tiene que:
1 El coeficiente muestral de asimetrı́a:

n r !
1 X 6
b1 = (Xi − X)3 →d Y ∼ N 0,
nS 3 n
i=1
2 El coeficiente muestral de apuntamiento o kurtosis:

n r !
1 X 24
b2 = (Xi − X)4 →d Y ∼ N 3,
nS 4 n
i=1
Contraste de Jarque-Bera
Emplea el estadı́stico de contraste:
n 2 n
JBn =
b1 + (b2 − 3)2 →d Y ∼ χ22
6 24
I JBn es siempre no negativo y el criterio de la prueba es rechazar H0 al nivel α en
c n > χ22,1−α .
(7) si JB
I El contraste de Jarque-Bera presenta errores de Tipo I grandes con muestras
pequeñas.
Contraste de D’Agostino-Pearson (K 2 )
b1 y b2 son asintóticamente normales pero presentan tasas de convergencia muy lentas.
Por ello se han propuesto transformaciones Z(b1 ) y Z(b2 ) que aceleran esta convergencia
y presentan mejores propiedades para detectar desviaciones de la normalidad causadas
por asimetrı́a o apuntamiento diferente de 3:
Kn2 = Z(b1 )2 + Z(b2 )2 ∼ χ22

Ejemplo 3.5.1: Chequeando normalidad. X1 , . . . , X40 de una N (2, 5)
0.12
1.00 ●
Histograma P−P ●
●
Ajuste normal ●
●
0.10
●
● ● ●
●
●
●
0.75
0.08
●
Densidad
●
●
●
●
0.06
Φ(x)
●
0.50 ●
●
●
● ●
0.04
● ● ●
0.25
●
KS-Lilliefors:
0.02
●
●
●
● ●
●
●
●
● ● ●
p = 0.5929
0.00
0 5 10
0.00
●
Cramér-von Mises:
X
0.00 0.25 0.50
Fn(x)
0.75 1.00
p = 0.4979
Anderson-Darling:
p = 0.4431
Q−Q Shapiro-Wilk:
●
p = 0.5044
●
Asimetrı́a:
10 ●
●
●
●
●●
●●●
● ●
●
p = 0.2555
●●
●
● ●●
●●●
●
●●
●
Kurtosis:
●
●
● ● ● ●
● ●●
●●
p = 0.6965
0
●
Jarque-Bera:
p = 0.435
D’Agostino-Pearson:
0 5 10
0 5 10
Cuantiles Teóricos p = 0.2477
X

Ejemplo 3.5.2: Chequeando normalidad. X1 , . . . , X40 de una U [−2, 2]
0.4
1.00
Histograma P−P ●
Ajuste normal ●
●
●
● ●
●
●
● ●
0.3
●
●
0.75 ●
●
● ●
●
●
Densidad
●
●
●
0.2
Φ(x)
0.50 ● ●
● ●
●
0.1
0.25 ●
● ●
● ●
KS-Lilliefors:
p = 0.1699
●
●
● ●
0.0
−2 −1 0 1 2
0.00
● ●
● ●
Cramér-von Mises:
X
0.00 0.25 0.50
Fn(x)
0.75 1.00
p = 0.1625
Anderson-Darling:
p = 0.1252
4
Q−Q Shapiro-Wilk:
p = 0.09102
2 ● Asimetrı́a:
●
●
●
● ●
●●
●●
●●
●
●
p = 0.2055
●● ●●
0 ●●
●
●●
●
●●
Kurtosis:
p = 0.1975
●
● ●●●
●
●
●
●
●
●
● ●
Jarque-Bera:
−2
p = 0.1655
−2 −1 0 1 2
−2 −1
Cuantiles Teóricos
0 1 2
p = 0.2127
X

Ejemplo 3.5.3: Chequeando normalidad. X1 , . . . , X40 de una t5
0.35
1.00 ●
Histograma P−P ● ●
Ajuste normal
0.30
● ●
●
●
●
0.25
0.75 ●
●
● ●
● ●
0.20
Densidad
●
●
Φ(x)
● ●
● ●
0.50
0.15
●
● ●
● ●
● ●
0.10
0.25 ● ●
● ●
● ●
KS-Lilliefors:
0.05
● ●
●
p = 0.3194
0.00
−4 −2 0 2 4
0.00 ●
●
Cramér-von Mises:
X
0.00 0.25 0.50
Fn(x)
0.75 1.00
p = 0.358
Anderson-Darling:
p = 0.326
4
Q−Q
●
Shapiro-Wilk:
p = 0.4326
● ●
2 ● ●
Asimetrı́a:
● ●
●
●●
●●
●
●
●
p = 0.7385
●
+ +
0
●
● ●●
●
●●
●
●● ●●
Kurtosis:
●
● ●
● ●●
●
●●
p = 0.037
−2 ●
Jarque-Bera:
p = 0.1375
●
−4
●
−2 0 2
−4 −2 0 2
Cuantiles Teóricos p = 0.7361
X
Contrastes de localización: una muestra y muestras apareadas
Contenidos

Introducción
El test de los signos
Inferencia sobre cuantiles
Test de los signos con muestras apareadas
El test de rangos con signo de Wilcoxon
Eficiencia relativa asintótica (ARE)
6 El problema general
José A. Vilar Métodosde b > 2 muestras
No Paramétricos relacionadas
- Máster Técnicas Estadı́sticas 20 de noviembre de 2022 51 / 139
Contrastes de localización: una muestra y muestras apareadas Introducción
Introducción
Problema y objetivos con una muestra unidimensional
I Sea X1 , . . . , Xn una m.a.s. de una v.a. X con distribución desconocida F .
I Se desea realizar inferencia sobre parámetros de localización de F (one-sample problem).
I Por ejemplo, si M denota la mediana de la distribución de X y M0 es un valor especı́fico,
podrı́a interesar chequear:
H0 : M = M0 vs H1 : M 6= M0 (8)
I En el contexto paramétrico, se asume que F ∼ N (µ, σ) y, dado que bajo normalidad media
(µ) y mediana coinciden, el contraste (8) se plantea en los términos:
H0 : µ = M0 vs H1 : µ 6= M0
X n − M0 √
que se resuelve con los estadı́sticos de contraste n, si se conoce σ, y
σ
X n − M0 √
n, si no se conoce σ, cuyas distribuciones bajo H0 son N (0, 1) y tn−1 ,
Sn−1
respectivamente.
I El objetivo es realizar la inferencia sin necesidad de asumir la normalidad de F .
Contrastes de localización: una muestra y muestras apareadas Introducción
Introducción
Problema y objetivos con una muestra bidimensional

I Si se dispone de datos apareados, i.e. de una m.a.s. (X1 , Y1 ), . . . , (Xn , Yn ) de una variable
bidimensional (X, Y ), se puede realizar inferencia sobre parámetros de localización de la
diferencia entre X e Y empleando las mismas técnicas que en el problema one-sample.
En efecto, basta tener en cuenta que D1 = X1 − Y1 , . . . , Dn = Xn − Yn es una m.a.s. de

la población univariante D = X − Y y, por ejemplo, si MD denota la mediana de la
población de diferencias D, podrı́a plantearse el problema:
n
H0 : MD = 0
H1 : MD 6= 0
I Conviene enfatizar que, en general, no es cierto que MD = MX − MY y por tanto:

n n
H 0 : MX = MY H0 : MD = 0
<
H1 : MX 6= MY H1 : MD 6= 0
Contrastes de localización: una muestra y muestras apareadas El test de los signos
El test de los signos: Problema y enfoque
Problema
Sea X1 , . . . , Xn una m.a.s. de una v.a. X con distribución absolutamente continua F y
mediana desconocida M . Se desea contrastar:
H1 : M 6= M0
(
H 0 : M = M0 vs H1 : M > M0
H1 : M < M0
Enfoque alternativo
Como P(X = M ) = 0, por definición de mediana: P(X > M0 ) = P(X < M0 ) = 0.5 bajo
H0 . Entonces el contraste puede escribirse:
H1 : P(X > M0 ) 6= 0.5

(
H0 : P(X > M0 ) = 0.5 vs H1 : P(X > M0 ) > 0.5
H1 : P(X > M0 ) < 0.5
El test de los signos: Estadı́stico de contraste
Estadı́stico de contraste
Se calculan las diferencias Di = Xi − M0 y se define el estadı́stico que contabiliza el
número de diferencias con signo positivo, i.e.:
n
1 (Xi > M0 ) .
X
Sn = # {Di > 0; i = 1, . . . , n} =
i=1
Bajo H0 , P(X > M0 ) = 0.5 y, por tanto, las variables 1 (Xi > M0 ) se distribuyen según
una Bernoulli(p = 0.5), para i = 1, . . . , n. Como además son independientes, se tiene:
n
1 (Xi > M0 ) ∼ B(n, p = 0.5), si H0 es cierta y sea cual sea F .

X
Sn =
i=1
El test de los signos: Región de rechazo

Región de rechazo
n
1 (Xi > M0 ) .
X
Sn = # {Di > 0; i = 1, . . . , n} =
i=1
H1 : M 6= M0 H1 : M < M0 H1 : M > M0
Bajo H0 , E (Sn ) = n/2. Bajo H1 , E (Sn ) < n/2. Bajo H1 , E (Sn ) > n/2.
Rechazar para valores de Sn Rechazar para valores Rechazar para valores
distantes de n/2. pequeños de Sn . grandes de Sn .
1
n
p = P Sn ≤ Ŝn p = P Sn ≥ Ŝn

p = 2 mı́n , P Sn ≥ Ŝn ,
2

P Sn ≤ Ŝn
El test de los signos: Comentarios sobre la distribución

1 Como la distribución exacta de Sn es binomial, y por tanto discreta, el nivel de
significación deseado α no se alcanzará en general de modo exacto. Por ejemplo,
para H1 : M > M0 , el nivel exacto es:
n n
0
X n X n
α = 0.5n , con sn,1−α el menor entero tal que 0.5n ≤ α.
i i
i=sn,1−α i=sn,1−α
p
2 Por el Teorema Central del Lı́mite, B(n, p) ≈ N (np, np(1 − p)). La aproximación
es particularmente buena cuando p = 0.5. Por tanto, para valores moderadamente
grandes de n (n > 12):
n n
q
Sn ≈ N , . (9)
2 4
Con la aproximación asintótica (9) se debe aplicar la corrección por continuidad:

!
k − n/2 + 0.5
P (Sn ≤ k) ≈ P Z≤ p , donde Z ∼ N (0, 1).
n/4
El test de los signos: Ejemplo
Ejemplo 4.2.1: Planteamiento

La mediana de la duración de una visita al médico es de 27 minutos. Se cree que en
centros sanitarios con un número elevado de pacientes, la duración de la visita por
paciente es menor que 27 minutos. Para comprobarlo, se tienen los siguientes datos sobre
las visitas de 20 pacientes seleccionados aleatoriamente en centros sanitarios con un
número elevado de pacientes:
Duración de la visita
21.6 13.4 20.4 26.4
23.5 27.8 24.8 29.3
23.4 9.4 26.8 21.9
24.9 25.6 20.1 26.2
28.7 28.1 29.1 18.9
¿Hay evidencia estadı́stica al nivel del 5 % de que con un número elevado de pacientes la
duración de la visita es menor que 27 minutos?
Test de los signos: Ejemplo
Ejemplo 4.2.1: Contraste de interés
X = “Duración de la visita en centros con número elevado de pacientes”
Se considera la aplicación de una prueba no paramétrica toda vez que:

I Algunas pruebas de bondad de ajuste a una normal para la distribución de X
resultan significativas (ver página siguiente).
I Se trata de una muestra de tamaño 20, por tanto pequeña.
¿Hay evidencia estadı́stica al nivel del 5 % de que, a mayor número de pacientes, la

duración de la visita es menor que 27 minutos? Si M denota la mediana de X, la
pregunta anterior puede plantearse en términos de la prueba de hipótesis:

H0 : M = 27
H1 : M < 27

Ejemplo 4.2.1: Bondad de ajuste a una normal
1.00
Histograma P−P
0.08
Ajuste normal
● ●
●
●
●
0.75 ●
0.06
●
●
●
KS-Lilliefors:
Densidad
● ●
p = 0.3054
Φ(x)
0.04
0.50 ● ●
●
Cramér-von Mises:
●
p = 0.101
0.02
●
0.25 ●
●
Anderson-Darling:
p = 0.05364
0.00
●
0.00 ●
5 10 15 20 25 30
0.00 0.25 0.50 0.75 1.00 Shapiro-Wilk:
X Fn(x)
p = 0.01962
Asimetrı́a:
p = 0.0115
Q−Q
Kurtosis:
30
p = 0.124
● ●
● ●
●
●
●
●
Jarque-Bera:
●
● ●
● ●
p = 0.0225
+
20 ●
●
●
●
●
p = 0.01325
●
10 ●
15 20 25 30
10 15 20 25 30
Cuantiles Teóricos
X

Ejemplo 4.2.1: Aplicación del test
20
1 (Xi > 27) = 5 .

X
Bajo H0 : M = 27, el valor del estadı́stico es Ŝ20 =
i=1
21.6 13.4 20.4 26.4
23.5 27.8 24.8 29.3
23.4 9.4 26.8 21.9
24.9 25.6 20.1 26.2
28.7 28.1 29.1 18.9
Como H1 : M < 27, se rechaza H0 para valores pequeños de S20 y el p-valor es:

p = P S20 ≤ Ŝ20 |M = 27 = P (B(20, 0.5) ≤ 5) = 0.0207 < 0.05 = α.
Se concluye el rechazo de H0 al nivel α = 0.05, i.e. se concluye que la duración de la

visita por paciente en centros sanitarios con un número elevado de pacientes es
significativamente menor que 27 minutos.

Ejemplo 4.2.1: Sobre las distribuciones exacta y asintótica
Se ha considerado la distribución exacta de S20 : p = P (B(20, 0.5) ≤ 5) = 0.0207 .
!
5 − 20/2 + 0.5
Considerando la aproximación normal: p = P Z≤ p = 0.02209 .
20/4
El test de los signos: Diferencias iguales a cero
I Al asumir que F es absolutamente continua, la probabilidad de que un dato

muestral coincida con M0 (Di = 0 para algún i) es nula. Sin embargo, diferencias
Di iguales a cero pueden presentarse en la práctica debido a la falta de precisión en
el proceso de registro de los datos.
En tal caso se han apuntado diferentes soluciones:
1 La más común: ignorar estas diferencias cero y reducir el tamaño muestral

consecuentemente.
2 Tratar la mitad de ceros como diferencias positivas y la otra mitad como
diferencias negativas.
3 Asignar los ceros a aquel signo menos contrario al rechazo de la nula.
4 Aleatorizar la asignación de las diferencias cero a signos positivos o negativos.
Contrastes de localización: una muestra y muestras apareadas Inferencia sobre cuantiles
Estimación puntual de un cuantil

Definición
La función cuantil QX (·) asociada a una variable aleatoria X con distribución FX
continua se define como:
−1
QX (τ ) = FX (τ ) = ı́nf{x; FX (x) ≥ τ }, para 0 < τ < 1.
La función cuantil asigna a cada 0 < τ < 1 el correspondiente τ −cuantil y en adelante

nos referiremos a QX (τ ) por qτ .
Teorema
Sea X1 , . . . , Xn una m.a.s. de una variable X con distribución absolutamente continua
FX y denótese por X(r) al r−ésimo estadı́stico ordenado. Entonces:
1/2
n
fX (qτ ) X(r) − qτ
τ (1 − τ )
se distribuye aproximadamente como una normal estándar cuando n → ∞ y r/n → τ ,

0 < τ < 1, con qτ el τ -cuantil de la variable X, i.e. FX (qτ ) = τ .
El test cuantil
El test de los signos puede adaptarse trivialmente para contrastar si el cuantil qτ de la
distribución de X es igual, menor o mayor que un valor qτ,0 postulado en la nula.
Ejemplo 4.3.1
Con la muestra del Ejemplo 4.2.1, ¿puede asumirse con un 5 % de significación que en centros sanitarios con
un número elevado de pacientes la quinta parte de los pacientes tardan en su visita menos de 23 minutos?
H0 : q0.2 = 23 vs. H1 : q0.2 < 23
20
X
Considerar el estadı́stico de contraste S20 = 1 (Xi > 23). En este caso: Ŝ20 = 13.
i=1
Sea cual sea la distribución de los tiempos de duración de las visitas, si H0 es cierta: S20 ∼ B(20, 0.8).
Ası́ pues, en media, el 80 % de registros será superior a 23, y este porcentaje será menor bajo H1 .
Se rechazará la nula para valores de S20 significativamente más pequeños que E (S20 |H0 ) = 20 × 0.8 = 16.

p = P S20 ≤ Ŝ20 |q0.2 = 23 = P (B(20, 0.8) ≤ 13) = 0.0867 > 0.05 = α.
Al nivel α = 0.05, se concluye el no rechazo de la nula.
Intervalo de confianza para un cuantil

Si r y s son dos enteros con r < s entonces: s−1
n i
X
n−i
P X(r) < qτ < X(s) = P (r ≤ B(n, τ ) < s) = τ (1 − τ ) (10)
i
i=r
Usando (10) y la técnica del test de los signos se construye un intervalo de confianza
Pn para el τ -cuantil qτ :
1 En un test bilateral, no se rechaza H0 : qτ = qτ,0 al nivel α si S − =
n i=1
1 (Xi < qτ,0 ) (nótese
que se usan los signos negativos en congruencia con (10)) satisface la desigualdad:
− − −
sn,α/2 + 1 ≤ Sn ≤ sn,1−α/2 − 1, (11)
siendo s−
n,α/2
y s−
n,1−α/2
los enteros más grande y más pequeño que satisfacen respectivamente:
−
s
n,α/2 n
n i n i
X X
n−i n−i
τ (1 − τ ) ≤ α/2 y τ (1 − τ ) ≤ α/2.
i i
i=0 −
i=s
n,1−α/2
2 Tomando r = s−
n,α/2
+ 1 y s = s−
n,1−α/2
, se tiene de acuerdo a (10) y (11):
−
− − −

P X(r) < qτ < X(s) = P r ≤ Sn < s = P sn,α/2 + 1 ≤ Sn ≤ sn,1−α/2 − 1
3 Por tanto, un intervalo de confianza al nivel de confianza 100(1 − α) % para qτ está dado por:
(X(s− +1)
, X(s− )
)
n,α/2 n,1−α/2
Intervalo de confianza para un cuantil: Asintótico

Los valores de s−
n,α/2
y s−
n,1−α/2
podrı́an aproximarse usando la aproximación normal:
!
s−
n,α/2
− nτ + 0.5 α s−
n,α/2
− nτ + 0.5
P Z≤ p = ⇔ p = −zα/2 ⇔
nτ (1 − τ ) 2 nτ (1 − τ )
−
p
sn,α/2 = nτ − 0.5 − zα/2 nτ (1 − τ )
!
s−
n,1−α/2
− nτ − 0.5 α s−
n,1−α/2
− nτ − 0.5
P Z≥ p = ⇔ p = zα/2 ⇔
nτ (1 − τ ) 2 nτ (1 − τ )
−
p
sn,1−α/2 = nτ + 0.5 + zα/2 nτ (1 − τ )
Por tanto el intervalo de confianza asintótico al nivel de confianza 100(1 − α) % para qτ está dado por:
p p
X(r) , X(s) con r = nτ + 0.5 − zα/2 nτ (1 − τ ) y s = nτ + 0.5 + zα/2 nτ (1 − τ ).
Intervalo de confianza para un cuantil: Ejemplo

Ejemplo 4.3.2
En el proceso de control de calidad de una fábrica de tubos de radio se seleccionan al azar 16 tubos y se evalúa
el número de horas que tarda cada uno en fallar (ver tabla siguiente). Construir un intervalo de confianza al
95 % para el tercer cuartil de la distribución de la variable “Horas de vida de los tubos”.
Horas de vida tubos
63.40 49.10 59.90 56.50 47.20 63.20 59.20 67.10
73.30 63.30 78.50 67.70 64.10 56.80 63.70 46.90
−
1 Por tratarse de q0.75 , el estadı́stico apropiado es S16 ∼ B(16, 0.75).
2 Determinar el entero más grande s−
16,0.025 y el más pequeño s−
16,0.975 tales que:
−
−

P B(16, 0.75) ≤ s16,0.025 ≤ 0.025 y P B(16, 0.75) ≥ s16,0.975 ≤ 0.025
Se concluye que s− −
16,0.025 = 7 y s16,0.975 = 15. Se toman entonces r = 8 y s = 15.

3 El intervalo de confianza buscado es: X(8) , X(15) = (63.2, 73.3)
√
1 Para construir el asintótico, s−
16,0.025 = 16 × 0.75 − 0.5 − 1.96 16 × 0.75 × 0.25 = 8.10518 y
− √
s16,0.975 = 16 × 0.75 + 0.5 + 1.96 16 × 0.75 × 0.25 = 15.89482, que se redondean
respectivamente por 8 y 16 para garantizar la confianza del 95 %. Se toman entonces r = 9 y s = 16

2 Resultando: X(9) , X(16) = (63.4, 78.5).
Intervalo de confianza para un cuantil: Ausencia de

diferencias cero
1 Nótese que la construcción de un intervalo de confianza para un cuantil qτ no

requiere calcular las diferencias Di = Xi − qτ,0 , evitando ası́ el problema de las
diferencias nulas. De ahı́, nunca es preciso disminuir el tamaño muestral n en la
construcción de un intervalo de confianza por este motivo.
2 Como consecuencia de este hecho, cuando se desea realizar el contraste

H0 : qτ = qτ,0
H1 : qτ 6= qτ,0
y hay muchas diferencias Di = Xi − qτ,0 = 0, resulta más potente abordar el

contraste por la vı́a de la construcción de un intervalo de confianza.
Contrastes de localización: una muestra y muestras apareadas Test de los signos con muestras apareadas
Muestras apareadas y test del signo

Problema
Sea (X1 , Y1 ), . . . , (Xn , Yn ) una m.a.s. de una v.a. bidimensional (X, Y ). Considérese la población diferencia
D = X − Y de la que se dispone de la m.a.s. D1 = X1 − Y1 , . . . , Dn = Xn − Yn . Se asume que D es
absolutamente continua y denótese por MD y qτ,D a la mediana y el τ −cuantil de D respectivamente.
Se plantean contrastes del tipo:

6 MD,0
H1 : M D = H1 : qτ 6= qτ,D
H0 : MD = MD,0 vs H1 : MD > MD,0 ; H0 : qτ = qτ,D vs H1 : qτ > qτ,D
H1 : MD < MD,0 H1 : qτ < qτ,D
En este contexto de muestras apareadas, tı́picamente el interés radica en chequear:

6 0
H1 : M D = H1 : P(X > Y ) 6= 0.5
H0 : M D = 0 vs H1 : M D > 0 ⇔ H0 : P(X > Y ) = 0.5 vs H1 : P(X > Y ) > 0.5
H1 : M D < 0 H1 : P(X > Y ) < 0.5
Nótese que si X, Y y D son simétricas, entonces

MD = E(D) = E(X) − E(Y ) = MX − MY ⇐⇒ H0 : MD = 0 ⇔ H0 : MX = MY
Posible solución
Es trivial que la prueba de los signos puede ser aplicada para resolver este contraste.
Contrastes de localización: una muestra y muestras apareadas Test de los signos con muestras apareadas
Muestras apareadas y test del signo: Ejemplo

Ejemplo 4.4.1
Se cree que la susceptibilidad a la hipnosis puede adquirirse o mejorarse con entrenamiento. Para chequear esta
afirmación, la susceptibilidad a la hipnosis de seis sujetos fue evaluada en una escala de 1 a 20 (mayor
puntuación supone mayor susceptibilidad). Todos ellos se sometieron a cuatro semanas de entrenamiento
apropiado y a una evaluación posterior en la misma escala. Los resultados figuran en la tabla que sigue y se
desea concluir si el entrenamiento resulta o no efectivo.
Sujeto 1 2 3 4 5 6
B: Puntuación previa: 10 16 7 4 7 2
A: Puntuación posterior: 18 19 11 3 5 3
Sea D = A − B =“Incremento puntuación susceptibilidad a la hipnosis tras entrenamiento”
Interesa contrastar:
Sujeto: 1 2 3 4 5 6
B: 10 16 7 4 7 2
n
H0 : M D = 0
H1 : M D > 0 A: 18 19 11 3 5 3
D: 1 1 1 0 0 1
6
Test de los signos: X
1 S6 =
P6
1(Di = Ai − Bi > 0). Ŝ6 = 1(Di = Ai − Bi > 0) = 4
i=1
i=1
2 Bajo H0 , S6 ∼ B(6, 0.5).
p = P (B(6, 0.5) ≥ 4) = 0.3438
3 Rechazar H0 para valores grandes de S6 .
No rechazar H0 , es decir la probabilidad de mayor susceptibilidad a la hipnosis no aumenta significativamente
tras el entrenamiento.
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
Un punto débil en la prueba de los signos

Sea X1 , . . . , Xn una m.a.s. de una v.a. X con distribución absolutamente continua F y
mediana desconocida M .
H1 : M 6= M0
(
Se desea contrastar: H0 : M = M0 vs H1 : M > M0
H1 : M < M0
La prueba de los signos emplea el estadı́stico de contraste:

n
1 (Xi > M0 ) .
X
Sn = # {Di > 0; i = 1, . . . , n} =
i=1
Se oberva que Sn solo tiene en cuenta el signo de las diferencias Di = Xi − M0 pero

ignora la magnitud de las mismas, lo que supone una pérdida de información cuando el
valor de estas diferencias está disponible.
Si es factible asumir la simetrı́a de la distribución generadora F , la prueba de Wilcoxon

de los rangos con signo proporciona un test más potente al tener en cuenta los valores
de estas diferencias.
Test rangos con signo de Wilcoxon: Problema y enfoque

Problema
Sea X1 , . . . , Xn una m.a.s. de una v.a. X con distribución simétrica y absolutamente
continua F y mediana desconocida M . Se desea contrastar:
H1 : M 6= M0
(
H 0 : M = M0 vs H1 : M > M0
H1 : M < M0
Enfoque
Bajo H0 y por la simetrı́a de F , las diferencias Di = Xi − M0 están simétricamente distribuidas en torno al
0, i.e. diferencias positivas y negativas de igual magnitud son equiprobables. Bajo H0 :
I Y una v.a. que toma los valores 1 y −1 con igual probabilidad 0.5,
D = X − M0 ∼ Y × W
I W ∼ |X − M0 |, una v.a. que mide la distancia entre X y M0 ,
I Y y W son independientes.
Por ello, la magnitud |Di | de cualquier diferencia Di corresponderá con igual probabilidad a una diferencia
positiva o a una diferencia negativa y de ahı́ cabe esperar que estas se repartan por igual bajo H0 .
Test rangos con signo de Wilcoxon: Simetrı́a

0.4
0.6
0.5
0.3
0.4
0.2
0.3
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 0 1 2 3 4 5 6
Xi Xi
0.4
0.7
0.6
0.3
0.5
0.4
0.2
0.3
0.2
0.1
0.1
12 46 9 11 12 3 457 9
3 57 8 10 12 6 8 10 11 12
0.0
0.0
0 1 2 3 4 0 1 2 3 4 5
|Di| = |Xi − M| |Di| = |Xi − M|
Test rangos con signo de Wilcoxon: Algoritmo
Algoritmo
1 Calcular las diferencias Di = Xi − M0 , siendo M0 la mediana postulada en la nula.
2 Ordenar los valores {|Di |, i = 1, . . . , n} en sentido creciente.
3 Asignar rangos a la muestra de valores |Di |:
r (|Di |) = j ⇔ |Di | ocupa el lugar j en la muestra ordenada ⇔ |Di | = |D|(j)
4 Considerar el estadı́stico de contraste Tn+ que computa la suma de rangos de valores |Di | tales que
Di > 0, es decir X Xn
r (|Di |) 1 (Di > 0)

+
Tn = r (|Di |) =
Di >0 i=1
5 de rangos de diferencias positivas Tn+ iguala el de la suma de

Bajo H0 , el valor esperado de la suma P
r (|Di |) 1 (Di < 0). Como Tn+ + Tn− es la suma de
n
rangos de diferencias negativas Tn− =
i=1
todos los rangos, bajo H0 :
n
1 n(n + 1)
X
+ −
E(Tn ) = E(Tn ) = i=
2 4
i=1
Rechazar H0 si Tn+ difiere significativamente de n(n + 1)/4 en el sentido de H1 .
Test rangos con signo de Wilcoxon: Criterio de rechazo

Región de rechazo
n
r (|Di |) 1 (Di > 0) .

X
Tn+ =
i=1
H1 : M 6= M0 H1 : M < M0 H1 : M > M0
Bajo H0 : Bajo H1 : Bajo H1 :

n(n + 1) n(n + 1) n(n + 1)
E Tn+> . E Tn+
< . E Tn+
> .
4 4 4
Rechazar para valores de Rechazar para valores Rechazar para valores
Tn+ distantes de n(n+1)
4
. pequeños de Tn+ . grandes de Tn+ .
Test rangos con signo de Wilcoxon: Estadı́stico
Al objeto de determinar la distribución bajo la nula del estadı́stico de contraste

Tn+ , considérense, para i = 1, . . . , n, las variables:

Yi = 1 (Di > 0) y Wi = 1 Dr−1 (|D|(i) ) > 0
Nótese que Wi toma el valor 1 si |D|(i) corresponde a una diferencia Dj positiva

y 0 en otro caso.
Entonces el estadı́stico de contraste de la prueba de los rangos con signo de

Wilcoxon puede escribirse:
Xn n
X
Tn+ = r (|Di |) Yi = jWj
i=1 j=1
Test rangos con signo de Wilcoxon: Propiedades
Teorema
Si F es absolutamente continua y simétrica, entonces bajo H0 se tiene que:
I r (|Di |) e Yj son independientes para i, j = 1, . . . , n.
Demostración.
Como r (|Di |) son función de las |Di |, se prueba la independencia de las |Di | y las
Yj . Denótese por F 0 (x) = F (x − M ). Se tiene:
P (|Di | ≤ d, Yi = 1) = P (|Di | ≤ d, Di > 0) = P (0 < Di ≤ d) =

1 1
= F 0 (d) − F 0 (0) = F 0 (d) −
= (2F 0 (d) − 1) = P (Yi = 1) P (|Di | ≤ d)
2 2
Análogamente se procede para Yi = 0.
Test rangos con signo de Wilcoxon: Propiedades
Teorema
Si F es absolutamente continua y simétrica, entonces bajo H0 se tiene que:
I W1 , . . . , Wn son i.i.d. según una Bernoulli de parámetro 1/2.
Demostración.
P (W1 = w1 , . . . , Wn = wn ) =
X
1 > 0 = w1 , . . . , 1 Dr−1 (dn ) > 0 = wn d1 , . . . , dn × P (d1 , . . . , dn )

P Dr−1 (d
1)
(d1 ,...,dn )
(por ser r|Di | e Yj independientes)
z}|{
X =
1 > 0 = w1 , . . . , 1 Dr−1 (dn ) > 0 = wn × P (d1 , . . . , dn )

P Dr−1 (d
1)
(d1 ,...,dn ) n n
1 1
X
= P (d1 , . . . , dn ) =
2 2
(d1 ,...,dn )
Q n
En definitiva, P (W1 = w1 , . . . , Wn = wn ) = P (Wi = wi ), siendo P (Wi = wi ) = 1/2.
i=1
Test rangos con signo de Wilcoxon: Distribución
Sobre la distribución de Tn+ bajo H0

Si F es absolutamente continua y simétrica, entonces bajo H0 :
1 Tn+ es una v.a. discreta que toma valores t ∈ {0, 1, . . . , n(n + 1)/2}. Como Tn+ está completamente
determinado por la n-upla (Y1 , . . . , Yn ) tomando valores 0s y 1s, se tiene que:
+
n(t)
P Tn = t =
2n
donde n(t) es el número de formas posibles de asignar 0s y 1s a (Y1 , . . . , Yn ) para que Tn+ = t, y 2n
es el número posible de asignaciones (equiprobables bajo H0 ) de 0s y 1s a las Yi . Cada arreglo tiene su
conjugado, ası́ que la distribución de Tn+ es simétrica en torno a su media.
Se concluye que la distribución de Tn+ no depende de la distribución F generadora de la muestra.

n n
1 n(n + 1)
X X
+
2 E Tn H0 = j E (Wj | H0 ) = j=
2 4
j=1 j=1
n n
1 n(n + 1)(2n + 1)
X X
+ 2 2
3 Var Tn H0 = j Var (Wj | H0 ) = j =
4 24
j=1 j=1
Test de Wilcoxon de los rangos con signo: Región de

rechazo
I La distribución exacta de Tn+ bajo H0 está tabulada para valores de n pequeños y
moderados (n ≤ 50).
I Bajo H0 , la simetrı́a de Tn+ y el hecho de que Tn+ + Tn− = n(n + 1)/2 supone que a
valores grandes de Tn+ corresponden valores pequeños de Tn− y viceversa. Es
inmediato probar que Tn+ y Tn− tienen idéntica distribución si H0 es cierta.
I En base a estas propiedades es frecuente emplear Tn = mı́n{Tn+ , Tn− }. Sea tn,α el

α-cuantil de Tn , i.e. P(Tn ≤ tn,α ) = α. La región de rechazo con el test de los
rangos con signo de Wilcoxon al nivel α puede calcularse:
Alternativa R.R. (α) con Tn+ R.R. (α) con Tn− R.R. (α) con Tn
H1 : M < M0 Tn+ ≤ tn,α Tn− ≥ tn,1−α Tn = Tn+ ≤ tn,α
H1 : M > M0 Tn+ ≥ tn,1−α Tn− ≤ tn,α Tn = Tn− ≤ tn,α
H1 : M 6= M0 Tn+ ≤ tn,α/2 o Tn− ≤ tn,α/2 o Tn ≤ tn,α/2
Tn+ ≥ tn,1−α/2 Tn− ≥ tn,1−α/2
Test de Wilcoxon de los rangos con signo: Distribución

asintótica
I Para tamaños muestrales grandes (n > 50) puede emplearse su distribución

asintótica que es normal en virtud del Teorema Central del Lı́mite ya que, bajo H0 ,
Tn+ es una combinación lineal de las n v.a. Wi , todas ellas i.i.d., con media y
varianza finitas.
Especı́ficamente:
n(n + 1)
Tn+ −
r 4 d
−→ Z ∼ N (0, 1)
n(n + 1)(2n + 1)
24
I Como en el caso del test de los signos, también en esta prueba debe aplicarse la
corrección por continuidad para determinar las probabilidades apropiadas empleando
la aproximación asintótica.
Test de Wilcoxon de los rangos con signo: Potenciales

problemas en la aplicación práctica
I Diferencias cero Como en la prueba de los signos, podrı́an existir Di = 0. Proceder
entonces como se indicó para la mencionada prueba. Lo más habitual es eliminar los
Di = 0 y reducir el tamaño muestral consecuentemente al ejecutar la prueba.
I Empates La aparición de grupos de diferencias Di que son iguales, disponiendo ası́

de n diferencias distribuidas en solo r < n grupos con valores distintos.
Pr Si ti denota
el número de diferencias en cada uno de esos r grupos, entonces t = n.
i=1 i
A modo de ejemplo considerar la muestra de diferencias ordenada:
{1, 6, 6, 9, 11, 11, 11, 16, 21, 35}
Hay n = 10 diferencias pero solo r = 7 diferentes, con t2 = 2 (|D|(2) = |D|(3) = 6),

t4 = 3 (|D|(5) = |D|(6) = |D|(7) = 11) y tj = 1 para j = 1, 3, 5, 6, 7.
Con empates, la asignación de rangos se realizará con algún procedimiento que

minimice los efectos sobre la distribución del estadı́stico Tn+ en el muestreo.
Test de Wilcoxon de los rangos con signo: Empates

Procedimientos usuales de asignar rangos a observaciones empatadas
I Aleatorización Asignar al azar los rangos que corresponderı́an a las observaciones empatadas. Hay
Qr
ti ! posibles asignaciones. En nuestra muestra ejemplo, hay 2! × 3! = 12 posibles asignaciones.
i=1
En nuestro ejemplo: {1, 2, 3, 4, 7, 6, 5, 8, 9, 10}. La distribución bajo H0 de Tn+ no cambia pero sı́
queda afectada la distribución bajo la alternativa.
I Rango medio Asignar a cada observación de un grupo con empates el rango promedio de aquellos que
corresponderı́an a las observaciones del grupo. En nuestro ejemplo: {1, 2.5, 2.5, 4, 6, 6, 6, 8, 9, 10}.
Este método es el más usado. La distribución bajo H0 de Tn+ se ve afectada. Obviamente no cambia la
media pero la varianza se reduce. Conviene aplicar una corrección por empates a la prueba.
Qr
I Estadı́stico promedio Evaluar Tn+ para todas las posibles asignaciones de rangos, ti !, y quedarse
i=1
con el promedio de todos ellos. Como en el caso anterior, no se modifica la esperanza de Tn+ pero sı́
disminuye su varianza.
Qr
I Estadı́stico más conservador Evaluar Tn+ para todas las posibles asignaciones de rangos, ti !, y
i=1
seleccionar el que minimiza la probabilidad de rechazo.
I Omitir empates Omitir las observaciones empatadas y reducir n consecuentemente. Supone perder
información, pero mı́nima si hay pocos empates. En general, introduce sesgo hacia el rechazo de la nula.
Test Wilcoxon rangos con signo: Corrección por empates

Al emplear la distribución asintótica y deshacer los empates con el rango promedio es
deseable corregir la varianza de la distribución lı́mite (con muestras pequeñas el efecto
no es importante).
Considérese un grupo con t diferencias empatadas. Sus rangos s, s + 1, . . . , s + t han sido reemplazados por
el rango promedio s + (t + 1)/2. La suma de rangos no cambia pero sı́ la de sus cuadrados:
t
1
X
I SC(rangos sin empates): 2 2
(s + i) = ts + st(t + 1) + t(t + 1)(2t + 1)
6
i=1
2
1 2 1 2
I SC(rangos con empates): t s+ (t + 1) =t s + s(t + 1) + (t + 1)
2 4
1 1 2 1
I La SC decrece en: t(t + 1)(2t + 1) − t(t + 1) = t(t + 1)(t − 1)
6 4 12
La varianza reducida del estadı́stico es:

n(n + 1)(2n + 1) 1 X 2
Var Tn+ H0 = − t(t − 1),
24 48
gt
donde la suma se extiende a todos los grupos gt con t observaciones empatadas.
Test de Wilcoxon de los rangos con signo: Ejemplo
Ejemplo 4.5.1: Resolver el Ejemplo 4.2.1 con el test de los rangos con signo
La mediana de la duración de una visita al médico es de 27 minutos. Se cree que en
centros sanitarios con un número elevado de pacientes, la duración de la visita por
paciente es menor que 27 minutos. Para comprobarlo, se tienen los siguientes datos sobre
las visitas de 20 pacientes seleccionados aleatoriamente en centros sanitarios con un
número elevado de pacientes:
21.6 13.4 20.4 26.4
23.5 27.8 24.8 29.3
23.4 9.4 26.8 21.9
24.9 25.6 20.1 26.2
28.7 28.1 29.1 18.9
¿Hay evidencia estadı́stica al nivel del 5 % de que con un número elevado de pacientes la
duración de la visita es menor que 27 minutos?

Ejemplo 4.5.1: Aplicación del test de rangos con signo de Wilcoxon
X = “Duración de la visita en centros con número elevado de pacientes”
H0 : M = 27 versus H1 : M < 27
Di = Xi − 27 |Di | = |Xi − 27| r(|Di |)
-5.4 -13.6 -6.6 -0.6 5.4 13.6 6.6 0.6 15 19 16 2
-3.5 0.8 -2.2 2.3 3.5 0.8 2.2 2.3 12 3.5 10 11
-3.6 -17.6 -0.2 -5.1 3.6 17.6 0.2 5.1 13 20 1 14
-2.1 -1.4 -6.9 -0.8 2.1 1.4 6.9 0.8 8.5 6 17 3.5
1.7 1.1 2.1 -8.1 1.7 1.1 2.1 8.1 7 5 8.5 18
20
r(|Xi − 27|)1 (Xi > 27) = 3.5 + 11 + 7 + 5 + 8.5 = 35

+
X
T̂20 =
i=1
Como H1 : M < 27, se rechaza H0 para valores pequeños de Tn+ y el p-valor es:
+ + +

p = P T20 ≤ T̂20 |M = 27 = P T20 ≤ 35 |M = 27 < 0.05 = α.
Rechazar H0 al nivel α = 0.05: la duración de cada visita en centros sanitarios con un

número elevado de pacientes es significativamente menor que 27 minutos.

Ejemplo 4.5.1: Sobre las distribuciones exacta y asintótica
+
Se ha considerado la distribución exacta de Tn+ : T̂20 = 35 < t20,0.005 = 37 < t20,0.01 = 43.
 
20 · 21
+ 0.5 35 −
Con la aproximación normal: p = P Z ≤ q 4  = P(Z ≤ −2.5951) = 0.00473 .
20 · 21 · 41 2·3
−2
24 48
Test de Wilcoxon de los rangos con signo: Construcción de

un intervalo de confianza
Determinar I = [M1 , M2 ] tal que H0 : M = M0 vs. H1 : M 6= M0 no sea significativo al
nivel α para todo M0 ∈ I, i.e. Tn+ > tn,α/2 y Tn− > tn,α/2 con Tn+ y Tn− basados en M0 .
Para una m.a. V1 , . . . , Vn de cualquier variable:
S(Vi − Vk ), con S(u) = 1(u ≥ 0)
Pn P
r(Vi ) = k=1
S(Vi − Vk ) = 1 + k6=i
Con esta notación:

n
1(Xi > M0 )r (|Xi − M0 |)

X
Tn+ =
i=1
n n
1(Xi > M0 ) + 1(Xi > M0 )S (|Xi − M0 | − |Xk − M0 |) (12)

X X X
=
i=1 i=1 k6=i
En el cómputo de Tn+ en (12) se suma o no un 1 según cada una de las: n

comparaciones de Xi con M0 y las n2 = n(n − 1)/2 comparaciones de |Xi − M0 | con
|Xk − M0 |, i 6= k.
Test de Wilcoxon de los rangos con signo: Construcción de

un intervalo de confianza
n n X
1(Xi > M0 ) + 1(Xi > M0 )S (|Xi − M0 | − |Xk − M0 |)

X X
Tn+ =
i=1 i=1 k6=i
I Obviamente, en los n primeros sumandos se añade un 1 por cada Xi > M0 .
I Es sencillo comprobar que cada una de las restantes n(n − 1)/2 comparaciones
añaden un 1 si se satisface Xi > M0 y (Xi + Xk )/2 > M0 , k 6= i.
I Por simetrı́a, se suma 1 a Tn− si Xi < M0 y si Xi < M0 y (Xi + Xk )/2 < M0 ,

k 6= i.
I Por tanto, si se ordenan en sentido creciente las n observaciones Xi y los

n(n − 1)/2 valores (Xi + Xk )/2 y se elige como M1 el valor que ocupa la
tn,α/2 + 1 posición partiendo desde el inicio y como M2 el valor que ocupa la
tn,α/2 + 1 posición partiendo desde el final, se obtiene un intervalo de confianza
para M al nivel (1 − α).

Ejemplo 4.5.2: Intervalo de confianza basado en el test de los rangos signados
Construir un intervalo de confianza al 95 % para la mediana M de una v.a. X con
distribución simétrica y continua en base a la m.a.s. {−1, 6, 13, 4, 2, 3, 5, 9}
1 En la tabla con la distribución exacta de T8+ se observa que P(T8+ ≤ 3) = 0.0195
mientras que P(T8+ ≤ 4) > 0.025. Por tanto se fija t8,0.025 = 3.
2 Se ordenan los Xi en sentido creciente y se calcula (Xi + Xk )/2 para i 6= k:
X(i) (Xi + Xk )/2, i=6 k
-1.0 0.5 1.0 1.5 2.0 2.5 4.0 6.0
2.0 2.5 3.0 3.5 4.0 5.5 7.5
3.0 3.5 4.0 4.5 6.0 8.0
4.0 4.5 5.0 6.5 8.5
5.0 5.5 7.0 9.0
6.0 7.5 9.5
9.0 11.0
13.0
3 Como t8,0.025 = 3, seleccionar los valores en la tabla previa que, una vez ordenados,
ocupan el lugar 4 desde el menor (M1 = 1.5) y desde el mayor (M2 = 9).
4 El intervalo de confianza al 95 % para la mediana M es (1.5, 9), con un nivel de
confianza exacto de (1 − 2 × 0.0195)100 % = 96.1 %.
Muestras apareadas y test rangos con signo: Ejemplo

Ejemplo 4.5.3: Resolver el Ejemplo 4.4.1 con el test de los rangos con signo
Se cree que la susceptibilidad a la hipnosis puede adquirirse o mejorarse con entrenamiento. Para chequear esta
afirmación, la susceptibilidad a la hipnosis de seis sujetos fue evaluada en una escala de 1 a 20 (mayor
puntuación supone mayor susceptibilidad). Todos ellos se sometieron a cuatro semanas de entrenamiento
apropiado y a una evaluación posterior en la misma escala. Los resultados figuran en la tabla que sigue y se
desea concluir si el entrenamiento resulta o no efectivo.
Sujeto 1 2 3 4 5 6
B: Puntuación previa: 10 16 7 4 7 2
A: Puntuación posterior: 18 19 11 3 5 3
Sea D = A − B =“Incremento puntuación susceptibilidad a la hipnosis tras entrenamiento”
Interesa contrastar:
Sujeto: 1 2 3 4 5 6
Di = Ai − Bi 8 3 4 -1 -2 1
n
H0 : M D = 0
H1 : M D > 0 |Di | 8 3 4 1 2 1
r(|Di |) 6 4 5 1.5 3 1.5
6
Test de los rangos con signo de Wilcoxon: X
r(|Di |)1(Di > 0) = 16.5
+
1 Calcular Di = Ai − Bi y r(|Di |). T̂6 =
r(|Di |)1(Di > 0).

P6
2 T6+ = i=1

i=1 + +
p = P T6 ≥ 16.5 = P T6 ≥ 17 = 0.109
3 Rechazar H0 para valores grandes de T6+ .
No rechazar H0 , es decir la probabilidad de mayor susceptibilidad a la hipnosis no aumenta significativamente
tras el entrenamiento.
Contrastes de localización: una muestra y muestras apareadas Eficiencia relativa asintótica (ARE)
Eficiencia relativa de dos pruebas de hipótesis

Definición
Sean T1 y T2 dos tests que contrastan las mismas hipótesis nula y alternativa, H0 vs H1 ,
con regiones crı́ticas de igual tamaño α.
La eficiencia relativa de T1 con respecto a T2 , RET1 ,T2 , es el cociente n2 /n1 , donde n1 y

n2 son los respectivos tamaños muestrales requeridos por T1 y T2 para alcanzar una
potencia preespecificada 1 − β.
I Si n1 < n2 , entonces RET1 ,T2 > 1 y T1 es más eficiente que T2 pues alcanza la
potencia especificada con menos datos muestrales.
I Si H1 es compuesta, RET1 ,T2 debe calcularse con cada distribución de probabilidad

determinada por la alternativa.
I Por definición, RET1 ,T2 depende del nivel de significación α, de la potencia 1 − β, y

del tipo de alternativa si esta es compuesta H1 : θ1 ∈ Θ1 . Serı́a deseable un criterio
alternativo liberado de estos condicionantes.
Eficiencia relativa asintótica de dos pruebas de hipótesis

Definición
Sean T1 y T2 dos tests consistentes para contrastar las mismas hipótesis nula y
alternativa, H0 vs H1 . Sean n1 y n2 los tamaños muestrales respectivos requeridos por
T1 y T2 para alcanzar igual potencia 1 − β con el mismo nivel de significación α.
La eficiencia asintótica relativa de T1 con respecto a T2 , ARET1 ,T2 , es el lı́mite de n2 /n1
cuando n1 → ∞ y α y β están fijos, si ese lı́mite es independiente de α y β.
I Si un test es consistente, para un α fijo, β decrece con n. En lugar de permitir que β

decrezca, se opta por fijar α y β y elegir la alternativa lo suficientemente cercana a
la nula para satisfacer esos valores de α y de β, o sea permitir θ1 ∈ H1 → θ0 ∈ H0 .
n2 (α, β, θ1 )
I RET1 ,T2 = RET1 ,T2 (α, β, θ1 ) = , depende de α, β y θ1 .
n1 (α, β, θ1 )
n2 (α, β, θ1 )
ARET1 ,T2 = lı́m cuando n1 → ∞ y θ1 → θ0 , con α y β fijas.
n1 (α, β, θ1 )
I Ası́ definido, el ARE se conoce como eficiencia de Pitman. Otras definiciones de
ARE son las de Bahadur (α → 0, con β y θ fijos) y Hodges-Lehmann (β → 1, con
α y θ fijos).
ARE de las dos pruebas de los signos

ARE respecto al test t de Student para una muestra
Bajo simetrı́a E(X) = Med(X), de modo que las dos pruebas de los signos son
“competidores” no paramétricos de la prueba t de Student de localización de la media.
Respecto al test t de Student Signos Rangos con Signos

ARE (Normal) 0.637 0.955
ARE (Uniforme) 1
ARE (Continua y simétrica) ≥ 0.333 ≥ 0.864
¿ARE ≥ 1? Algunas distribuciones Distribuciones con colas más
pesadas que la normal(1)
(1) Por ejemplo, el test de los rangos con signo tiene un ARE respecto al test t de Student igual a 1.50 para la
distribución de Laplace e igual a 1.09 para la distribución logı́stica, ambas con colas muy pesadas.
ARE del test de los signos respecto al de los rangos con signo de Wilcoxon
ARE Signos respecto a Rangos con Signo

Normal Uniforme Doble exponencial
2/3 1/3 4/3
El problema general de dos muestras independientes
Contenidos

Introducción
El test de rachas de Wald-Wolfowitz
El test de Kolmogorov-Smirnov para dos muestras
El test de Cramér-von Mises para dos muestras
El test de Mann-Whitney-Wilcoxon

El problema general de dos muestras independientes Introducción
Introducción
El problema de dos muestras (two-sample problem)
Sean X1 , . . . , Xm e Y1 , . . . , Yn m.a.s. independientes de v.a. respectivas X e Y con funciones
de distribución desconocidas FX y FY , respectivamente.
En base a ambas muestras, se desea realizar inferencia para determinar si han sido generadas del
mismo modelo de distribución de probabilidad, i.e. chequear la nula:
H0 : FX = FY
I En el contexto paramétrico se asume que ambas muestras son normales y el problema se

reduce a chequear igualdad de medias y de varianzas:
H0 : E(X) = E(Y ) y H0 : Var(X) = Var(Y )
Para ello existen pruebas óptimas basadas en la t de Student y en la F -de Fisher-Snedecor,

respectivamente.
I Con tamaños muestrales pequeños (incluso razonablemente grandes en el caso de la

igualdad de varianzas), estas pruebas son muy sensibles a desviaciones de la normalidad, lo
que sugiere la importancia de pruebas no paramétricas de distribución libre.
El problema general de dos muestras independientes Introducción
Introducción: Interés en la práctica

Diferencias en general
(
H1 : FX (x) 6= FY (x) para algún x
H0 : FX = FY vs H1 : FX (x) > FY (x) para algún x
H1 : FX (x) < FY (x) para algún x
Diferencias en localización
Se asume que X e Y son iguales en distribución salvo a lo sumo en un posible desplazamiento
de magnitud θ > 0. Más precisamente: FY (x) = P(Y ≤ x) = P(X ≤ x − θ) = FX (x − θ), para
todo x y algún θ 6= 0.
H0 : FX = FY vs H1 : FX (x) = FY (x − θ) para todo x y algún θ
Diferencias en escala
Se asume que X e Y son iguales en distribución salvo a lo sumo en un posible factor de escala θ.
Más precisamente: FY (x) = P(Y ≤ x) = P(X ≤ θx) = FX (θx), para todo x y algún θ > 0,
θ 6= 1.
H0 : FX = FY vs H1 : FX (x) = FY (θx) para todo x y algún θ 6= 1
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz
El test de rachas de Wald-Wolfowitz: Fundamento

Contraste
I X1 , . . . , Xm i.i.d. X ∼ FX , FX continua
n
I Y1 , . . . , Yn i.i.d. Y ∼ FY , FY continua H0 : FX (x) = FY (x) para todo x
I X1 , . . . , Xm e Y1 , . . . , Yn independientes
Fundamento del test basado en rachas

I Como FX y FY son continuas no hay posibilidad de empates y existe una única ordenación
de la muestra conjunta (combinación de ambas muestras).
I Bajo H0 , X1 , . . . , Xm e Y1 , . . . , Yn vienen de la misma población y cualquiera de las
m+n

m
posibles configuraciones de la muestra conjunta ordenada es equiprobable.
I Sean p.e. m = 4 y n = 5. Se procede a mezclar y a ordenar en sentido creciente ambas
muestras manteniendo en mente su población origen. Dos posibles resultados serı́an:
R1 X Y Y X X Y X Y Y
R2 X X X X Y Y Y Y Y
I La muestra global es una m.a.s. de tamaño m + n de una distribución común, luego R1 es
más acorde con H0 : ambas muestras parecen mezclarse al azar. R2 es muy improbable bajo
H0 : sugiere que las muestras proceden de poblaciones diferentes, en concreto FX > FY .
El test de rachas de Wald-Wolfowitz: Estadı́stico

Definición
Dada una secuencia ordenada de dos o más tipos de sı́mbolos, una racha se define como una
sucesión de uno o más sı́mbolos idénticos seguida y precedida bien por un sı́mbolo diferente bien
por ningún sı́mbolo.
I En el ejemplo previo: R1 X Y Y X X Y X Y Y 6 rachas

R2 X X X X Y Y Y Y Y 2 rachas
Test de rachas de Wald-Wolfowitz
H0 : FX (x) = FY (x) para todo x vs H1 : FX (x) 6= FY (x) para algún x

1 Combinar ambas muestras y ordenar la muestra conjunta en sentido creciente.
2 Reemplazar los valores en la muestra conjunta ordenada por sı́mbolos indicativos de la
población origen.
3 Evaluar el estadı́stico: Rm,n =“Número total de rachas en la muestra conjunta ordenada”
4 Rechazar H0 para valores pequeños de Rm,n .
Región de rechazo al nivel α: Rm,n ≤ Rm,n,α , siendo Rm,n,α el mayor entero tal que
P (Rm,n ≤ Rm,n,α | H0 ) ≤ α.
El test de rachas de Wald-Wolfowitz: Distribución nula

Lema 5.2.1
El número de formas distintas de separar m sı́mbolos iguales en r bloques distinguibles sin
m − 1
huecos entre ellos es , m ≥ r.
r−1
Teorema 5.2.1
Considérese una muestra aleatoria de m + n objetos, m de un tipo 1 y n de un tipo 2. Denótese
por R1 y R2 a las v.a. que contabilizan las rachas en la muestras de objetos de tipo 1 y de tipo
2, respectivamente. Entonces:
m−1

n−1

c r1 −1 r2 −1
P (R1 = r1 , R2 = r2 ) = m+n
r1 = 1, . . . , m; r2 = 1, . . . , n; y r1 = r2 o r1 = r2 ±1
m
donde c = 2 si r1 = r2 y c = 1 si r1 = r2 ± 1.
El test de rachas de Wald-Wolfowitz: Distribución nula

Teorema 5.2.2 (Distribución exacta de Rm,n bajo H0 )
Sean X1 , . . . , Xm e Y1 , . . . , Yn m.a.s. independientes de variables X e Y con distribuciones
continuas FX y FY , respectivamente. Sea Rm,n el estadı́stico que contabiliza el número de
rachas en la muestra combinada de ambas ordenada en sentido creciente.
Si FX = FY , la función de masa de probabilidad de Rm,n viene dada por:
 m−1

n−1

2 r/2−1 r/2−1
si r es par



 m+n
m

P (Rm,n = r) =
m−1 n−1 m−1 n−1


 (r−1)/2 (r−3)/2
+ (r−3)/2 (r−1)/2

 m+n
si r es impar
m
para r = 2, 3, . . . , m + n.
Momentos de Rm,n bajo H0

Bajo H0 se tiene que:
2mn 2mn(2mn − m − n)
I E (Rm,n ) = 1 + I Var (Rm,n ) =
m+n (m + n)2 (m + n − 1)
El test de rachas de Wald-Wolfowitz: Distribución

asintótica
Distribución asintótica de Rm+n bajo H0
m n
Si m, n → ∞ de modo que →λy → 1 − λ, con 0 < λ < 1 fijo. Entonces, bajo
m+n m+n
H0 :
Rm,n Rm,n

lı́m E = 2λ(1 − λ) y lı́m Var √ = 4λ2 (1 − λ)2
m,n→∞ m+n m,n→∞ m+n
Además, la variable estandarizada
Rm,n − 2(m + n)λ(1 − λ)
Z= √ ≈ N (0, 1) (13)
2 m + nλ(1 − λ)
Si m y n elevados (m, n > 12), la distribución de Rm,n bajo H0 puede aproximarse usando la
distribución normal con media y varianza de la distribución exacta y la corrección por
continuidad, i.e. rechazar H0 : FX = FY al nivel α si:
2mn
Rm,n − 0.5 −
m+n
r ≤ zα/2 , con zα/2 tal que P N (0, 1) ≤ zα/2 = α/2
2mn(2mn − m − n)
(m + n)2 (m + n − 1)
El test de rachas de Wald-Wolfowitz: Observaciones
1 Empates. Si la muestra combinada contiene valores que se repiten (empates), el

estadı́stico de contraste Rm,n solo se ve afectado si los empates involucran a
observaciones de ambas muestras. En tal caso se sugiere deshacer los empates de
todas las formas posibles y calcular el valor del estadı́stico Rm,n para cada caso.
Entonces seleccionar el valor más grande de Rm,n que hace la prueba más
conservadora.
2 La prueba de rachas es muy general, siendo consistente para cualquier alternativa.
3 Al basarse en el número total de rachas, el estadı́stico de contraste no facilita

información sobre alternativas unilaterales, es decir, sobre si X es estocásticamente
mayor que Y (FX < FY ) o viceversa.
El test de rachas de Wald-Wolfowitz: Ejemplo

Los siguientes datos proceden de un estudio sobre diferenciación de castas en hormigas, para lo
que se estudió a lo largo del tiempo el número de larvas grandes que hay en dos hormigueros:
Colonia 1 47 29 52 42 58 43 35 30 38
Colonia 2 47 36 44 45 33 46 38 33 50
¿Puede concluirse que ambas colonias son homogéneas?
Se dispone de dos m.a.s. independientes de tamaño 9 de las variables:

X = “Número de larvas grandes existentes en hormigueros de la colonia 1”
Y = “Número de larvas grandes existentes en hormigueros de la colonia 2”
Interesa contrastar: H0 : FX = FY vs H1 : FX 6= FY , siendo FX y FY las distribuciones de

probabilidad de las v.a. X e Y respectivamente. Nótese que:
I Los tamaños muestrales son pequeños (m = n = 9).
I No tenemos garantizada la normalidad de las variables X e Y .
El test de rachas de Wald-Wolfowitz: Ejemplo

Ejemplo 5.2.1: Resolución
1 Se combinan las muestras y se ordenan en sentido creciente identificando la muestra origen.
2 Se observan tres empates dobles en 33, 38 y 47. El 33 se alcanza con dos observaciones de
la misma colonia, luego no afecta al estadı́stico. Se deshacen de todas las formas posibles
los otros dos grupos de empates (2!2! = 4).
3 Para cada secuencia resultante, se calcula el número total de rachas R̂9,9 .
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 R̂9,9 = 11
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 R̂9,9 =9
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 R̂9,9 = 11
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 R̂9,9 =9
4 Se selecciona el mayor valor, de modo que R̂9,9 = 11.

5 En la tabla con la distribución exacta bajo H0 de R9,9 se observa que P(R9,9 ≤ 6) = 0.044
y P(R9,9 ≤ 7) = 0.109, por tanto R9,9,0.05 = 6, y la región de rechazo al 5 % es [2, 6].
6 Como R̂9,9 = 11 ∈ / [2, 6], se concluye que la prueba es no significativa al 5 %, i.e. no hay
evidencias para descartar que se trate de colonias homogéneas con un 5 % de significación.
El problema general de dos muestras independientes El test de Kolmogorov-Smirnov para dos muestras
Kolmogorov-Smirnov para dos muestras: Fundamento

Contraste
I X1 , . . . , Xm i.i.d. X ∼ FX , FX continua n
H0 : FX (x) = FY (x) para todo x
I Y1 , . . . , Yn i.i.d. Y ∼ FY , Fy continua H1 : FX (x) 6= FY (x) para algún x
I X1 , . . . , Xm e Y1 , . . . , Yn independientes (14)
Fundamento de la extensión de la prueba KS para una muestra al problema de dos muestras

m n
1 1
1 (Xi ≤ x) y FY,n (x) = 1 (Yi ≤ x) las funciones de distribución
X X
Sean FX,m (x) =
m n
i=1 i=1
empı́ricas asociadas a las m.a.s. de X e Y , respectivamente.
De acuerdo con el Th. de Glivenko-Cantelli, bajo H0 , FX,m y FY,n convergen uniformemente
con probabilidad uno a la distribución común F = FX = FY . Por tanto, bajo H0 , el estadı́stico
de Kolmogorov-Smirnov para dos muestras dado por:
Dm,n = sup FX,m (x) − FY,n (x)

x∈R
converge a cero cuando n, m → ∞ y puede considerarse un estadı́stico de contraste apropiado

para chequear (14).
Kolmogorov-Smirnov para dos muestras: Estadı́sticos y

criterios de resolución
Alternativas unilaterales
Para las alternativas unilaterales emplear los estadı́sticos que siguen:
+

H1 : FX (x) > FY (x) para algún x Dm,n = supx∈R FX,m (x) − FY,n (x)
−

H1 : FX (x) < FY (x) para algún x Dm,n = supx∈R FY,n (x) − FX,m (x)
Criterios de resolución
H0 H1 Región crı́tica (α) p-valor

FX (x) = FY (x) FX (x) 6= FY (x) D̂m,n > Dm,n,1−α P Dm,n > D̂m,n
+ + + +

FX (x) = FY (x) FX (x) > FY (x) D̂m,n > Dm,n,1−α P Dm,n > D̂m,n
− − − −

FX (x) = FY (x) FX (x) < FY (x) D̂m,n > Dm,n,1−α P Dm,n > D̂m,n
Kolmogorov-Smirnov para dos muestras: Distribución libre

Teorema
Si H0 es cierta, i.e. FX = FY = F , y F es absolutamente continua entonces las distribuciones
+ −
de Dm,n , Dm,n y Dm,n no dependen de F .
La prueba de este resultado sigue un camino análogo al empleado en el caso de una muestra.
Bajo H0 : FX = FY = F , se tiene:
U
FX,m (x) = Fm (F (x)) y FY,n (x) = FnV (F (x))
donde Fm U y F V son distribuciones empı́ricas basadas en m.a.s. independientes U , . . . , U
n 1 m y
V1 , . . . , Vn de variables U [0, 1].
Entonces, bajo H0 , se tiene:

U
Dm,n = sup FX,m (x) − FY,n (x) = sup Fm (F (x)) − FnV (F (x)) = sup U
Fm (u) − FnV (u)
x∈R x∈R u∈[0,1]
que es el valor del estadı́stico KS para dos m.a.s. independientes de una U [0, 1], y por tanto la
distribución de Dm,n no depende de F .
+ −
Análogos argumentos prueban el resultado para Dm,n y Dm,n .
Kolmogorov-Smirnov para dos muestras: Distribución libre

+ −
Aunque no lo parezca a primera vista, Dm,n , Dm,n y Dm,n dependen solamente del orden de
las Xi y de las Yj en la muestra conjunta ordenada, con independencia de sus valores numéricos.
5

A modo ilustrativo, sean m = 3 y n = 2. Hay 2
= 10 posibles ordenaciones:
+ − + −
Ordenación D3,2 D3,2 D3,2 Ordenación D3,2 D3,2 D3,2
X<X<X<Y <Y 1 1 0 X<Y <X<Y <X 1/3 1/3 1/3
X<X<Y <X<Y 2/3 2/3 0 Y <X<X<Y <X 1/2 1/6 1/2
X<Y <X<X<Y 1/2 1/2 1/6 X<Y <Y <X <X 2/3 1/3 2/3
Y <X<X<X<Y 1/2 1/2 1/2 Y <X<Y <X <X 2/3 0 2/3
X<X<Y <Y <X 2/3 2/3 1/3 Y <Y <X<X <X 1 0 1
Bajo H0 , cualquiera de las diez ordenaciones es igualmente probable: p = 1/10 = 0.1.

Por tanto las distribuciones de los estadı́sticos de contraste son:
d 0 1/6 1/3 1/2 2/3 1

P(D3,2 = d) 1/10 3/10 4/10 2/10
+
P(D3,2 = d) 2/10 1/10 2/10 2/10 2/10 1/10
−
P(D3,2 = d) 2/10 1/10 2/10 2/10 2/10 1/10
Kolmogorov-Smirnov para dos muestras: Distribución nula

I Las distribuciones exactas bajo H0 de los estadı́sticos de Kolmogorv-Smirnov para dos
muestras están tabuladas para tamaños muestrales pequeños.
Teorema (distribución asintótica)

1 Para d > 0: ∞
mn
q X 2 2
lı́m P Dm,n ≤ d =1−2 (−1)(i−1) e−2i d
.
m,n→∞ m+n
i=1
mn
q
2 Para d > 0: 2
lı́m P D+ ≤ d = 1 − e−2d .
m,n→∞ m + n m,n
3 Para tamaños muestrales m y n grandes:

mn +
2
4 Dm,n ≈ χ22 .
m+n
4 Para tamaños muestrales m y n grandes y α = 0.05:
q mn q mn
+ −
Dm,n,1−α ≈ 1.36 , Dm,n,1−α = Dm,n,1−α ≈ 1.22 .
m+n m+n
Kolmogorov-Smirnov para dos muestras: Ejemplo

Ejemplo 5.3.1: Resolución del Ejemplo 5.2.1 con la prueba de Kolmogorov-Smirnov
Los siguientes datos proceden de un estudio sobre diferenciación de castas en hormigas, para lo
que se estudió a lo largo del tiempo el número de larvas grandes que hay en dos hormigueros:
Colonia 1 47 29 52 42 58 43 35 30 38
Colonia 2 47 36 44 45 33 46 38 33 50
¿Puede concluirse que ambas colonias son homogéneas?

X =“Núm. larvas grandes colonia 1”∼ FX
Y =“Núm. larvas grandes colonia 2”∼ FY
1.0
● ●
FC1 ● ●
FC2
H0 : FX = FY vs H1 : FX 6= FY
0.8
● ●
● ●
1 m=n=9
0.6 ● ●
Fn(x)
2 D̂9,9 = 0.22222. ●
0.4
3 Tablas: D9,9,0.8 = 0.55555 ● ●
● ●
0.2
4 p = P(D9,9 > 0.22222) > 0.2 ●
5 Asintótico: p = 0.9749.
0.0
30 35 40 45 50 55
6 Concluir el no rechazo de H0 . x
El problema general de dos muestras independientes El test de Cramér-von Mises para dos muestras
Cramér-von Mises para dos muestras
Contraste
n
I Y1 , . . . , Yn i.i.d. Y ∼ FY , Fy continua H0 : FX (x) = FY (x) para todo x
Extensión de la prueba Cramér-von Mises para una muestra al problema de dos muestras
De manera análoga a la prueba de Kolmogorv-Smirnov, es factible evaluar la distancia entre
FX,m (x) y FY,n (x) en media cuadrática y extender ası́ la prueba Cramér-von Mises para una
muestra al problema de dos muestras.
( m n
)
mn X 2 X 2
Q2m,n = FX,m (Xi ) − FY,n (Xi ) + FX,m (Yj ) − FY,n (Yj )
(m + n)2
i=1 j=1
La distribución exacta con muestras pequeñas puede calcularse como con KS y está tabulada. Su
distribución asintótica ha sido establecida por Anderson y Darling (1952).
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon
El test de Mann-Whitney: Estadı́stico de contraste

Contraste
n
Estadı́stico de Mann-Whitney
Para i = 1, . . . , m y j = 1, . . . , n se define:
m X
n
Zij = 1 (Xi < Yj )
X
y entonces se construye el estadı́stico Um,n = Zij
i=1 j=1
Como Zij vale 1 si Yj es mayor que Xi y 0 en otro caso, el estadı́stico Um,n contabiliza el
número de veces que las Yj son mayores que algún Xi . Si, por ejemplo, m = 4, n = 3 y la
muestra conjunta ordenada es:
X2 < X1 < Y3 < Y2 < X4 < Y1 < X3
Hay 3 ı́ndices j con Yj > X1 , 3 con Yj > X2 , 0 con Yj > X3 y 1 con Yj > X4 . De este modo
se concluye: U4,3 = 3 + 3 + 0 + 1 = 7.
El test de Mann-Whitney: Fundamento

Estadı́stico de Mann-Whitney: Fundamento y criterios de rechazo
m n
Zij = 1 (Xi < Yj )
X X
Um,n = Zij
i=1 j=1
I Si todos los Xi son mayores que todos los Yj , entonces Um,n = 0.
I Si todos los Xi son menores que todos los Yj , entonces hay m Xi ’s menores que Y1 , m
Xi ’s menores que Y2 , . . . , y m Xi ’s menores que Yn ; de modo que Um,n = mn.
I Por tanto: 0 ≤ Um,n ≤ mn.
I Un valor grande de Um,n supone que un número elevado de Yj ’s están por encima de los
valores Xi ’s. Sugiere por tanto la alternativa H1 : FX > FY . Un razonamiento análogo
conduce a que valores pequeños de Um,n sugieren la alternativa H1 : FX < FY .
I Por consiguiente los criterios de rechazo serı́an como se indican a continuación:
H0 H1 Región crı́tica (α)

FX (x) = FY (x) FX (x) 6= FY (x) Ûm,n ≥ Um,n,1−α/2 o Ûm,n ≤ Um,n,α/2
FX (x) = FY (x) FX (x) > FY (x) Ûm,n ≥ Um,n,1−α
FX (x) = FY (x) FX (x) < FY (x) Ûm,n ≤ Um,n,α
El test de Mann-Whitney: Distribución exacta bajo H0

Estadı́stico de Mann-Whitney: Una vı́a de construir la distribución nula con muestra pequeñas
1 Sea pm,n (u) = P (Um,n = u| H0 ).
2 Al ordenar la muestra conjunta, el valor más grande puede ser una Xi o una Yj . Como
bajo H0 cualquier ordenación de los m + n datos es equiprobable, el valor más grande será
una Xi con probabilidad m/(n + m) y una Yj con probabilidad n/(n + m).
3 Si el valor más grande es una Xi , no contribuye a incrementar Um,n y, en tal caso,
pm,n (u) = pm−1,n (u).
4 Si el valor más grande es una Yj , este valor Yj será mayor que las m Xi ’s y, por tanto, en
tal caso, pm,n (u) = pm,n−1 (u − m).
5 En consecuencia se concluye:
m n
pm,n (u) = pm−1,n (u) + pm,n−1 (u − m) (15)
m+n m+n
6 Por otro lado se tiene:
n
1 si u = 0
p0,n (u) = pm,0 (u) = y pm,n (u) = 0, si u < 0 y m, n ≥ 0
0 si u > 0
7 Con estos valores de inicio y aplicando recursivamente (15) es factible determinar la

distribución de Um,n bajo H0 para valores pequeños de m y n con m ≤ n.
El test de Mann-Whitney: Distribución asintótica bajo H0

Estadı́stico de Mann-Whitney: Momentos bajo H0
Bajo H0 , P(X < Y ) = P(X > Y ) = 1/2, por tanto Zij ∼ Bernoulli(1/2) y de ahı́:
I E(Zij ) = 1/2 para todo 1 ≤ i ≤ m y 1 ≤ j ≤ n, de modo que:
mn
E(Um,n ) =
2
I Var(Zij ) = 1/4, pero aquı́ no todas las Zij son independientes: Zij y Zkh son
independientes solo si i 6= k y j 6= h. Bajo H0 se prueba:
mn(m + n + 1)
Var(Um,n ) =
12
Estadı́stico de Mann-Whitney: Distribución asintótica bajo H0

Si m, n → ∞ de tal forma que m/n → λ = cte, entonces el estadı́stico Um,n estandarizado
converge a una variable N (0, 1). En la práctica, emplear (con corrección por continuidad):
mn
Um,n −
Z= r 2 ≈ N (0, 1)
mn(m + n + 1)
12
El test de Mann-Whitney: Ejemplo

Ejemplo 5.5.1: Resolución del Ejemplo 5.2.1 con la prueba de Mann-Whitney
X =“Núm. larvas grandes colonia 1”∼ FX Y =“Núm. larvas grandes colonia 2”∼ FY
m.a.s. de X (Colonia 1, m = 9): 47 29 52 42 58 43 35 30 38
m.a.s. de Y (Colonia 2, n = 9): 47 36 44 45 33 46 38 33 50
1 Combinar y ordenar en sentido creciente las muestras identificando la muestra origen.
2 Deshacer empates (incluyendo datos de muestras diferentes) de todas las formas posibles.
3 En cada caso, calcular el total de veces que Yj se ubica después de algún Xi : Û9,9 .
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 Û9,9 = 42
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 Û9,9 = 41
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 Û9,9 = 43
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 Û9,9 = 42
Por ejemplo, en la primera fila Û9,9 = 2 + 2 + 3 + 4 + 6 + 6 + 6 + 6 + 7 = 42.

4 Selecciona el valor más congruente con la nula: Û9,9 = 41.
5 En la tabla correspondiente: U9,9,0.975 = 63 ⇒ U9,9,0.025 = 9 × 9 − 63 = 18.
6 Dado que 18 < Û9,9 = 41 < 63, concluir que la prueba es no significativa al 5 %.
El test de Mann-Whitney: Ejemplo
Ejemplo 5.5.1: Resolución del Ejemplo 5.2.1 con la prueba de Mann-Whitney

m.a.s. de X (Colonia 1, m = 9): 47 29 52 42 58 43 35 30 38
m.a.s. de Y (Colonia 2, n = 9): 47 36 44 45 33 46 38 33 50
Si se emplea la distribución asintótica:

1 z0.025 = −1.96 de modo que la región del rechazo al 5 % es (−∞, −1.96) ∪ (1.96, ∞).
2 El valor del estadı́stico estandarizado y corregido por continuidad es:
9×9 81
Û9,9 − 0.5 − 41 − 0.5 −
ẑ = r 2 = q 2 =0
9 × 9 × (9 + 9 + 1) 81 × 19
12 12
3 Como −1.96 < ẑ = 0 < 1.96, concluir que la prueba es no significativa al 5 %.
El test de la suma de rangos de Wilcoxon: Fundamento
Contraste
n
Estadı́stico del test de la suma de rangos de Wilcoxon: Fundamento

1 Bajo H0 , los m + n datos son una m.a.s. de una única distribución F y su etiquetado con
una X o una Y es aleatorio.
2 Considerése la muestra conjunta ordenada y denótese por Tm,n,X y por Tm,n,Y a las
sumas de los rangos de los datos Xi e Yj respectivamente en esa muestra conjunta de
tamaño m + n.
m(m + n + 1) n(m + n + 1)
3 Bajo H0 cabe esperar que Tm,n,X ≈ y Tm,n,Y ≈ .
2 2
4 Valores grandes de Tm,n,X sugieren FX (x) < FY (x) (i.e. FX estocásticamente mayor que
FY ) y valores pequeños de Tm,n,X sugieren lo contrario, FX (x) > FY (x).
El test de la suma de rangos de Wilcoxon: Distribución nula

Estadı́stico del test de la suma de rangos de Wilcoxon: Distribución exacta
Formalmente el estadı́stico de Wilcoxon para dos muestras independientes puede expresarse
como:
m+n n
1 si el dato con rango j es una Xi
X
Tm,n,X = jWj siendo Wj =
0 si el dato con rango j es una Yi
j=1
1 La distribución bajo H0 de Tm,n,X depende de los rangos de los datos y no de su

distribución, por ello es de distribución libre.
2 La distribución exacta bajo H0 de Tm,n,X está tabulada para muestras pequeñas.
3 Se prueba que:
m(m + n + 1) mn(m + n + 1)
E Tm,n,X = y Var Tm,n,X =
2 12
4 Se prueba también la normalidad asintótica de Tm,n,X con estos parámetros.
El test de la suma de rangos de Wilcoxon: Ejemplo
Ejemplo 5.5.2: Resolución del Ejemplo 5.2.1 con la prueba de suma de rangos de Wilcoxon
m.a.s. de X (Colonia 1, m = 9): 47 29 52 42 58 43 35 30 38
m.a.s. de Y (Colonia 2, n = 9): 47 36 44 45 33 46 38 33 50
1 Combinar y ordenar en sentido creciente las muestras identificando la muestra origen.
2 Asignar rangos y deshacer los empates por el rango promedio.
Datos: 29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58
Rangos: 1 2 3.5 3.5 5 6 7.5 7.5 9 10 11 12 13 14.5 14.5 16 17 18
3 Suma de los rangos de las Xi : T̂9,9,X = 1 + 2 + 5 + 7.5 + 9 + 10 + 14.5 + 17 + 18 = 84.

18 × 19
4 En la tabla correspondiente: T9,9,X,0.025 = 63 ⇒ T9,9,X,0.975 = − 63 = 108.
2
5 Dado que 63 < T̂9,9,X = 84 < 108, concluir que la prueba es no significativa al 5 %.
Las pruebas de Mann-Whitney y de Wilcoxon: Comentarios

1 Se demuestra que las pruebas de Mann-Whitney y de la suma de rangos de Wilcoxon son
m(m + 1)
equivalentes. Especı́ficamente: Um,n = Tm,n,X −
2
2 Ambas pruebas son consistentes para el problema general de detectar diferencias entre los
dos modelos de probabilidad generadores de las muestras.
3 Son pruebas con muy buen comportamiento para el problema especı́fico de detectar
diferencias en localización:
H0 : FX = FY vs H1 : FX (x) = FY (x − θ) para todo x y algún θ
Nótese que este contraste es equivalente a los contrastes:
( (
H1 : E(X) 6= E(Y ) H1 : MX 6= MY
H0 : E(X) = E(Y ) vs H1 : E(X) > E(Y ) H0 : MX = MY vs H 1 : MX > M Y
H1 : E(X) < E(Y ) H 1 : MX < M Y
La consistencia de estas pruebas para los dos contrastes previos requiere asumir que FX y
FY son idénticas salvo a lo sumo en su localización. Muestras de diferentes distribuciones
pero con igual mediana (o media) podrı́an conducir a pruebas significativas.
4 En el contexto de diferencias en localización, el ARE de Mann-Whitney-Wilcoxon respecto
a la prueba t de Student es 0.9555 para distribuciones normales, 1 para uniformes y nunca
inferior a 0.864 para distribuciones continuas arbitrarias. Llega a ser superior a 1 con
distribuciones con colas pesadas.
El problema general de k > 2 muestras independientes
Contenidos

Introducción
El test de Kruskal-Wallis
7 Referencias
El problema general de k > 2 muestras independientes Introducción
Introducción
El problema de varias muestras independientes (k-sample problem)
Sean {Xi1 , Xi2 , . . . , Xini }, i = 1, . . . , k, k > 2, m.a.s. independientes de v.a. respectivas Xi
Pk
con funciones de distribución continuas y desconocidas Fi . Denótese por N = i=1
ni .
Se desea realizar inferencia para determinar si las k muestras han sido generadas del mismo
modelo de distribución de probabilidad, i.e. realizar el contraste de hipótesis:
H0 : F1 = F2 = . . . = Fk vs H1 : Fi 6= Fj para al menos un par (i, j), i 6= j
De particular interés es que la diferencia se produce en términos exclusivamente de localización:

H0 : F1 = F2 = . . . = Fk vs H1 : ∃ i, j, i 6= j, tal que Fi (x) = Fj (x − θ) ∀ x y algún θ 6= 0
En tal caso el contraste de hipótesis se puede escribir en la forma:

H0 : E(Xi ) = µ, 1 ≤ i ≤ k vs H1 : E(Xi ) 6= E(Xj ) para al menos un par (i, j), i 6= j
o también en términos de las medianas de las distribuciones:
H0 : Mi = M, 1 ≤ i ≤ k vs H1 : Mi 6= Mj para al menos un par (i, j), i 6= j
donde Mi = Med(Xi ).
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis
El test de Kruskal-Wallis: Fundamento

El test de Kruskal-Wallis
1 Combinar las k muestras y ordenar los N datos de la muestra conjunta en sentido creciente.
2 Asignar rangos: r (Xij ) = “rango de Xij en la muestra conjunta ordenada”.
ni
X
3 Calcular las k sumas de rangos de datos de cada muestra: Ri = r (Xij ), 1 ≤ i ≤ k.
j=1
4 Bajo H0 : Fi = F , 1 ≤ i ≤ k, los N datos son una m.a.s. generada desde F y su
etiquetado con una u otra Xi es aleatorio. De ahı́, cualquier ordenación de las N etiquetas
es equiprobable y, por tanto, la suma total de rangos, N (N + 1)/2, deberı́a repartirse entre
las Ri de manera proporcional a los tamaños muestrales ni . En otro términos:
ni N (N + 1) ni (N + 1)
Bajo H0 : Fi = F, 1 ≤ i ≤ k : E (Ri ) = =
N 2 2
5 Un estadı́stico de contraste razonable serı́a aquel que evaluase las desviaciones entre las Ri
observadas y sus valores esperados bajo la nula. Considerando las desviaciones al cuadrado:
k 2
X ni (N + 1)
SN = Ri −
2
i=1
El criterio del contraste es rechazar H0 para valores grandes de SN .
El test de Kruskal-Wallis: Distribución bajo H0

El test de Kruskal-Wallis: Distribución bajo H0
I Considérese una tabla con k columnas, en cada una de las cuales se apuntan los rangos de
las observaciones de la i-ésima muestra y su suma Ri . A modo ilustrativo, sean k = 4,
n1 = n3 = 3 y n2 = n4 = 2, de modo que N = 10.
r(X1j ) r(X2j ) r(X3j ) r(X4j ) S10

2 5 3 9 6 10 4 8 1 7
Ri 10 15 22 8 97.5
I Como cualquier ordenación de los rangos es equiprobable bajo H0 , los rangos son
asignados al azar a cada columna con la única restricción del tamaño muestral ni . Hay por
n ,...,nk Qk
lo tanto Pn 1 = N !/ i=1 ni ! formas de asignar los rangos a las columnas de la
tabla y, por la equiprobabilidad de las ordenaciones:
Qk
i=1
ni !
P(SN = s) = t(s)
N!
siendo t(s) el número de formas posibles de distribuir los rangos entre las columnas para
obtener valores de Ri que conduzcan a SN = s.
I Los cálculos son muy tediosos. Hay tablas con probabilidades exactas de SN para k = 3, 4
y 5 pero solamente para ni iguales y muy pequeños. Se dispone también de valores crı́ticos
especı́ficos para ni iguales y más grandes.
El test de Kruskal-Wallis basado en el estadı́stico H
El estadı́stico H de Kruskal-Wallis
Kruskal y Wallis (1952) propusieron un estadı́stico considerando una versión ponderada de las
desviaciones Ri − ni (N + 1)/2 con pesos inversamente proporcionales a los tamaños muestrales.
Especı́ficamente:
k 2
12 1 ni (N + 1)
X
HN = Ri −
N (N + 1) ni 2
i=1
k
12 X R2 i
I HN también admite la expresión equivalente: HN = − 3(N + 1)
N (N + 1) ni
i=1
I Cuando los ni son iguales, HN y SN son criterios de test equivalentes.
I Hay tablas con probabilidades exactas de HN para k = 3 y todo ni ≤ 5. Para los casos
k = 4 y todo ni ≤ 4 y k = 5 y todo ni ≤ 3 se dispone de tablas de las distribuciones
exactas de HN a partir del cuantil 0.9.
El test de Kruskal-Wallis: Distribución asintótica bajo H0

I Bajo H0 , asignar rangos a la i-ésima muestra es seleccionar al azar y sin reemplazamiento
ni valores de los enteros {1, 2, . . . , N }. Esta variable tiene media y varianza:
N N 2
X 1 N +1 X N +1 1 N2 − 1
µ= i = σ2 = i− =
N 2 2 N 12
i=1 i=1
I El promedio de la suma de rangos para la i-ésima muestra, Ri = Ri /ni , es por tanto una
media muestral basada en una muestra sin reemplazamiento de tamaño ni de la población
finita {1, 2, . . . , N }. Por tanto, como para cualquier media muestral de una muestra sin
reemplazamiento de una población finita:
N +1 σ2 N − ni (N + 1)(N − ni )
E Ri = µ = Var Ri = =
2 ni N − 1 12ni
Ri − (N + 1)/2
I Por el TCL, si ni grande: Zi = p ≈d N (0, 1) ⇒ Zi2 ≈d χ21 .
(N + 1)(N − ni )/12ni
k P
I Ahora bien, las Zi no son independientes dado que n R = N (N + 1)/2 = cte (de
i=1 i i
hecho, Cov(Ri , Rj ) = −(N + 1)/12).
I Kruskal (1952) mostró que bajo H0 y con valores no muy pequeños de ni :
k
X N − ni
Zi2 = HN ≈d χ2k−1
N
i=1
El test de Kruskal-Wallis: Distribución asintótica bajo H0

con empates
I Si hay g grupos con t observaciones empatadas (t puede variar entre los diferentes grupos
obviamente) involucrando a datos de diferentes muestras y se deshacen los empates por el
criterio del rango medio, entonces la varianza de la población finita disminuye:
N2 − 1 1 X
σ2 = − t(t2 − 1) (16)
12 12
g(t)
I La expresión (16) debe de ser reemplazada en la fórmula de la Var(Ri ). Se prueba

entonces que, con esta corrección, el estadı́stico de HN de Kruskal-Wallis toma la forma:
HN,c.e. = P HN =
HN
(17)
g(t)
t(t2 − 1) C
1−
N (N 2 − 1)
I Nótese que C < 1 y por tanto HN,c.e. > HN de modo que si la nula es rechazada al nivel
α con el estadı́stico HN , también lo es empleando HN,c.e. : χ2k−1,1−α < HN < HN,c.e.
El test de Kruskal-Wallis: Comparaciones múltiples

I Si el F -test de un ANOVA con un factor de efectos fijos es significativo, procede realizar
pruebas de rango múltiple para detectar diferencias entre pares de tratamientos con un
nivel de significación global. Este problema es también de interés cuando la prueba de
Kruskal-Wallis ha resultado significativa.
I El método de Tukey puede adaptarse para chequear las k(k − 1)/2 pruebas de hipótesis:
H0ij : E(Xi ) = E(Xj ) vs H1ij : E(Xi ) 6= E(Xj )
∀ i, j ∈ 1, . . . , k, i < j. El criterio es rechazar H0ij al nivel de significación global α si:

s
qk,1−α N (N + 1) 1 1
Ri − Rj > √ +
2 12 ni nj
siendo qk,1−α el (1 − α)-cuantil de la distribución del rango estudentizado. Este criterio es

válido si no hay empates y con independencia de que las ni sean o no iguales.
I Si hay empates, es preferible emplear el estadı́stico:
s
χ2k,1−α N (N + 1)

1 1
Ri − Rj > +
C 12 ni nj
siendo C la constante correctora introducida en (17).
El test de Kruskal-Wallis: Ejemplo

Ejemplo 6.1.1
A la luz de los siguientes datos de producción de maı́z en parcelas independientes y con cuatro diferentes
métodos, ¿podemos afirmar que los cuatro métodos son equivalentes?
m.a.s. X1 (Mét. 1, n1 = 9): 83 91 94 89 89 96 91 92 90
m.a.s. X2 (Mét. 2, n2 = 10): 91 90 81 83 84 83 88 91 89 84
m.a.s. X3 (Mét. 3, n3 = 7): 101 100 91 93 96 95 94
m.a.s. X4 (Mét. 4, n4 = 8): 78 82 81 77 79 81 80 81
H0 : F1 = F2 = F3 = F4 vs H1 : Fi 6= Fj para al menos un par (i, j), 1 ≤ i < j ≤ 4
Mét. 1 Mét. 2 Mét. 3 Mét. 4

X1j r(X1j ) X2j r(X2j ) X3j r(X3j ) X4j r(X4j )
83 11 91 23 101 34 78 2
91 23 90 19.5 100 33 82 9
94 28.5 81 6.5 91 23 81 6.5
89 17 83 11 93 27 77 1
89 17 84 13.5 96 31.5 79 3
96 31.5 83 11 95 30 81 6.5
91 23 88 15 94 28.5 80 4
92 26 91 23 81 6.5
90 19.5 89 17
84 13.5
Ri 196.5 153 207 38.5
El test de Kruskal-Wallis: Ejemplo

Ejemplo 6.1.1
I Se calcula el estadı́stico de Kruskal-Wallis sin corregir por empates:
k
12 X R2 i
Ĥ34 = − 3(N + 1)
N (N + 1) ni
i=1

12 196.52 1532 2072 38.52
= + + + − 3 × 35 = 25.46437
34 × 35 9 10 7 8
I Se observa que: χ23,0.95 = 7.814 < Ĥ34 = 25.46 < Ĥ34,c.e. .

I Al 5 % de significación se concluye que al menos dos métodos difieren significativamente.
I En cualquier caso, para el cómputo de la corrección por empates se tendrı́a en cuenta que
hay siete grupos de empates: tres de dos datos (84, 94 y 96); dos de tres datos (83 y 89) y
dos de cuatro datos (81 y 91). Entonces la constante correctora toma el valor:
3 × 2 × 3 + 2 × 3 × 8 + 2 × 4 × 15
C =1− = 0.9998417 ⇒
34(342 − 1)
25.46437
Ĥ34,c.e. = = 25.4684
0.9998417
El problema general de b > 2 muestras relacionadas
Contenidos

Introducción
El test de Friedman
7 Referencias
El problema general de b > 2 muestras relacionadas Introducción
Introducción
El problema de varias muestras relacionadas: Los datos
I Sean n v.a. X1 , . . . , Xn de las que se obtienen b realizaciones en “diferentes condiciones
experimentales” (bloques).
Por ejemplo, se registran valores de crecimiento de plantas con cuatro fertilizantes
(variables o tratamientos, n = 4) en tres parcelas de tierra con caracterı́sticas diferentes
(bloques, b = 3), obteniendo ası́: {(X1j , X2j , X3j , X4j ) , j = 1, 2, 3}.
I Las observaciones dentro de cada bloque están relacionadas y no son independientes.

En el ejemplo, parcelas con buenos niveles de humedad y buenas caracterı́sticas dará
mejores resultados que parcelas de mala calidad con independencia del fertilizante.
I Los datos muestrales admiten la representación tabular que sigue.
Variables
Bloques X1 X2 ... Xn
1 X11 X21 ... Xn1
2 X12 X22 ... Xn2
. . . .. .
.. .. .. . ..
b X1b X2b ... Xnb
El problema general de b > 2 muestras relacionadas Introducción
Introducción
El problema de varias muestras relacionadas: Las hipótesis estructurales
I Se asume que las Xi están igualmente distribuidas excepto a lo sumo en términos de su
localización, que puede variar según el “bloque” (la “fila”) y la propia variable (el
“tratamiento” o la “columna”).
Xij = µ+bj +θi +εij , con εij i.i.d. según una distribución desconocida de media cero F (·)
Nótese que E(Xij ) = µ + bj + θi . Ası́, bj mide el efecto sobre la respuesta media debida al
j-ésimo bloque y θi el el efecto sobre la respuesta media debida al i-ésimo tratamiento. En
el contexto del diseño experimental, se habla de un diseño en bloques completamente
aleatorizados (si los “tratamientos” se asignaron al azar dentro de cada bloque).
I El problema de interés es:
H 0 : θ1 = . . . = θn vs H1 : θi 6= θj para al menos un par (i, j), i 6= j

I En un contexto paramétrico se asume F ∼ N (0, σ) y se emplea la vı́a del F -test del
análisis de la varianza.
I Objetivo: Abordar este problema con un procedimiento de distribución libre que no requiera
la hipótesis de normalidad.
El problema general de b > 2 muestras relacionadas El test de Friedman
El test de Friedman: Fundamento

El test de Friedman
1 Dentro de cada uno de los bloques: ordenar los n datos y asignar rangos.
2 Sea Rij = r(Xij ), i.e. Rij denota el rango del i-ésimo tratamiento en el j-ésimo bloque. Sea
Pb
Ri = Rij la suma de los rangos del i-ésimo tratamiento a lo largo de todos los bloques.
j=1
Rangos
Bloques X1 X2 ... Xn Total Bloque
1 R11 R21 ... Rn1 n(n+1)/2
2 R12 R22 ... Rn2 n(n+1)/2
. . . .. . .
. . . . . .
. . . . .
b R1b R2b ... Rnb n(n+1)/2
Total Xi R1 R2 ... Rn bn(n+1)/2
3 Bajo H0 : θ1 = . . . = θn , para un bloque arbitrario j, (R1j , . . . , Rnj ) es una permutación al azar de
los n primeros enteros. Por lo tanto, bajo H0 , E(Ri ) = E(Rk ), para todo i y k, y como
Pn b(n + 1)
Ri = bn(n + 1)/2, se concluye: E (Ri | H0 ) = .
i=1 2
4 Evaluar las desviaciones entre las Ri observadas y sus valores esperados bajo la nula:
n n
" b #2
2 X
b(n + 1) n+1
X X
Sn,b = Ri − = Rij −
2 2
i=1 i=1 j=1
5 Rechazar H0 para valores grandes de Sn,b .
El test de Friedman: Distribución bajo H0
El test de Friedman: Distribución bajo H0

I Bajo H0 hay (n!)b formas diferentes y equiprobables de llenar la tabla de rangos. Por tanto:
t(s)
P(Sn,b = s) =
(n!)b
siendo t(s) el número de disposiciones posibles de los rangos que producen valores de Ri
generando Sn,b = s.
I Acerca de los momentos del estadı́stico de contraste bajo H0 , se prueba:

bn(n2 − 1) n2 b(b − 1)(n − 1)(n + 1)2
E Sn,b H0 = Var Sn,b H0 =
12 72
I Se han propuesto procedimientos para el cálculo sistemático de los valores t(s) que han
permitido aliviar el tedioso trabajo de construir tablas para obtener la distribución exacta
bajo la nula de Sn,b . Con todo, las cuentas son considerables y lo habitual es emplear
alguna aproximación para obtener las regiones crı́ticas y p-valores de la prueba.
El test de Friedman: Distribución aproximada

El test de Friedman: Función lineal de Sn,b y distribución aproximada
I Es común emplear como estadı́stico de contraste una función lineal de Sn,b :
Pn
12Sn,b 12 i=1 Ri2
Fn,b = = − 3b(n + 1)
bn(n + 1) bn(n + 1)
I Se prueba que E(Fn,b |H0 ) = n − 1 y Var(Fn,b |H0 ) = 2(n − 1)(b − 1)/b ≈ 2(n − 1) si b es
elevado. O sea, los dos primeros momentos de una χ2n−1 . Sus momentos de mayor orden
son también buenas aproximaciones de los de una χ2n−1 y estudios numéricos muestran
que una χ2n−1 aproxima razonablemente bien la distribución de Fn,b si b > 7.
I En consecuencia, la prueba de Friedman basada en el estadı́stico Fn,b rechaza, a un nivel
aproximado de (1 − α)100 %, la hipótesis nula en el contraste:
H 0 : θ1 = . . . = θn vs H1 : θi 6= θj para al menos un par (i, j), i 6= j
siempre que Fn,b ≥ χ2n−1,1−α .
I El estadı́stico corregido por empates (deshechos por el rango medio) toma la forma:
12(n − 1)Sn,b
Fn,b,c.e. = PP
bn(n2 − 1) − t(t2 − 1)
donde el doble sumatorio se extiende a los grupos de t empates en cada uno de los bloques.
El test de Friedman: Ejemplo

Se solicita a un grupo de doce médicos su impresión particular, en una escala de 0 a 5, acerca del grado de
gravedad de cuatro enfermedades (codificadas de 1 a 4). El interés del experimento radica en chequear si
existen diferencias significativas en los niveles de gravedad de las cuatro enfermedades.
I Si el experimento se ha aleatorizado adecuadamente (selección al azar de los 12 médicos y aleatorización

del orden de las preguntas para cada uno de ellos) se tiene un diseño en bloques completamente
aleatorizados. Los bloques son los médicos (b = 12), las enfermedades son los tratamientos (n = 4) y
las respuestas toman valores enteros entre 0 y 5, de modo que no cabe asumir normalidad.
I El modelo matemático para el comportamiento de las respuestas es:
Xij = µ + bj + θi + εij , con εij i.i.d. según una distribución desconocida de media cero F (·)
donde Xij es el nivel de gravedad que el doctor j-ésimo asigna a la i-ésima enfermedad, µ es una
media global independiente de médico y enfermedad, bj es el efecto promedio respecto de µ del j-ésimo
doctor (los habrá propensos a juzgar más graves las enfermedades que otros) y θi mide el efecto
promedio propio de la i-ésima enfermedad con respecto a µ y con independencia del doctor.
I El problema de interés es:

H0 : θ1 = θ2 = θ3 = θ4 vs H1 : θi 6= θj para al menos un par (i, j), 1 ≤ i < j ≤ 4
El test de Friedman: Ejemplo

Ejemplo 7.1.1: Resolución
Datos Rangos
Enferm. Enfermedades Empates
Bloques 1 2 3 4 1 2 3 4 t
Méd. 1 4 2 2 3 4 1.5 1.5 3 2
Méd. 2 3 2 4 5 2 1 3 4 0
Méd. 3 5 1 3 4 4 1 2 3 0
Méd. 4 3 2 3 3 3 1 3 3 3
Méd. 5 5 3 4 4 4 1 2.5 2.5 2
Méd. 6 3 1 3 4 2.5 1 2.5 4 2
Méd. 7 2 2 3 3 1.5 1.5 3.5 3.5 2y2
Méd. 8 5 3 4 3 4 1.5 3 1.5 2
Méd. 9 4 2 4 3 3.5 1 3.5 2 2
Méd. 10 4 1 1 4 3.5 1.5 1.5 3.5 2y2
Méd. 11 4 1 2 4 3.5 1 2 3.5 2
Méd. 12 3 3 1 4 2.5 2.5 1 4 2
R1 = 38 R2 = 15.5 R3 = 29 R4 = 37.5
I Se calcula el estadı́stico de Friedman sin corregir por empates:

12 382 + 15.52 + 292 + 37.52
F̂4,12 = − 3 × 12 × 5 = 16.575
12 × 4 × 5
I Se observa que: χ23,0.95 = 7.814 < F̂4,12 = 16.575 < F̂4,12,c.e. .
I Al menos dos enfermedades presentan niveles de gravedad significativamente distintos al 5 %.
Referencias
Contenidos
7 Referencias
Referencias
Referencias
T. W. Anderson and D. A. Darling, Asymptotic theory of certain goodness of fit

criteria based on stochastic processes, Ann. Math. Statist. 23 (1952), no. 2,
193–212.
Sandor Csorgo and Julian J. Faraway, The exact and asymptotic distributions of
cramer-von mises statistics, Journal of the Royal Statistical Society. Series B
(Methodological) 58 (1996), no. 1, 221–234.
W.J. Conover, Practical nonparametric statistics, 3 ed., Wiley series in probability

and statistics: Applied probability and statistics, Wiley, 1999.
J.D. Gibbons and S. Chakraborti, Nonparametric statistical inference, 4 ed., Taylor

& Francis, 2014.
George Marsaglia and John Marsaglia, Evaluating the Anderson-Darling

Distribution, Journal of Statistical Software 9 (2004), no. i02.
L. Wasserman, All of nonparametric statistics, Springer Texts in Statistics, Springer

New York, 2006.

MNP Manual Parte A Metodos Distribucion Libre

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

MNP Manual Parte A Metodos Distribucion Libre

Cargado por

Copyright:

Formatos disponibles

Máster Universitario en Técnicas Estadı́sticas

Departamento de Matemáticas, Facultad de Informática

Curso Académico 2022-23, A Coruña

Se dice que X sigue un modelo paramétrico si su distribución de probabilidad F

donde Φ(µ,σ) (·) denota la función de distribución de una N (µ, σ).

Cuando sobre la función de distribución F de una variable aleatoria X solamente se

A menudo estas condiciones de regularidad conciernen a caracterı́sticas de forma o de

Modelos paramétricos vs no paramétricos

I En los modelos no paramétricos, la distribución subyacente pertenece a un

que identifica el conjunto de densidades que no son demasiado “fluctuantes”.

Métodos de inferencia no paramétricos

I No hay consenso en la literatura a la hora de establecer una definición/clasificación

I Consideraremos que un procedimiento de inferencia estadı́stica es no paramétrico si

I Distinguiremos dos familias de procedimientos no paramétricos:

1 Métodos clásicos libres de la distribución de los datos.

[Con99] Conover, W.J. Practical nonparametric statistics, 1999.

Métodos clásicos libres de la distribución de los datos

Métodos de inferencia basados en estadı́sticos cuya distribución en el muestreo no

I Por ejemplo, un contraste de hipótesis es de distribución libre si la distribución bajo

I En esta familia se engloban los métodos de inferencia expuestos en los Temas 1 a 4

Métodos clásicos libres de la distribución de los datos

con F0 (·) parcial o completamente especificada.

Métodos de estimación no paramétrica de curvas

Sea Ψ(x) un cierto funcional de la distribución de probabilidad de una variable X.

Entre otros, casos especiales de habitual interés suelen ser:

I La varianza condicional: Ψ(x) = σ 2 (x) = Var (Y |X = x ).

¿Por qué son útiles los métodos no paramétricos?

1 En el enfoque paramétrico se asumen condiciones estrictas sobre el modelo

2 El enfoque no paramétrico parte de hipótesis débiles sobre el modelo generador y

3 Ambos enfoques no son excluyentes sino complementarios.

1 Estimación de la función de distribución

2 Contrastes de bondad de ajuste

3 Contrastes de localización: una muestra y muestras apareadas

4 El problema general de dos muestras independientes

5 El problema general de k > 2 muestras independientes

6 El problema general de b > 2 muestras relacionadas

Métodos No Paramétricos Clásicos de

1 Estimación de la función de distribución

2 Contrastes de bondad de ajuste

3 Contrastes de localización: una muestra y muestras apareadas

4 El problema general de dos muestras independientes

5 El problema general de k > 2 muestras independientes

6 El problema general de b > 2 muestras relacionadas

Función de distribución empı́rica (ECDF). Definición

La función de distribución empı́rica (ECDF) asigna a cada número real x la proporción

Si X(1) , X(2) , . . . , X(n) denota la secuencia de estadı́sticos ordenados de la muestra:

ECDF - Propiedades: Distribución de una v.a. discreta.

1 La distribución empı́rica Fn (·) es una función de distribución de probabilidad.

Fn es la función de distribución de la va- Por consiguiente se satisface:

ECDF - Propiedades: Ejemplo

−1.5 −1.0 −0.5 0.0 0.5 1.0

ECDF - Propiedades: Distribución

nFn (x) ∼ B (n, F (x))

1 (Xi ≤ x), donde los n sumandos, 1 (Xi ≤ x), i = 1, . . . , n, son

p = P (1 (Xi ≤ x) = 1) = P (Xi ≤ x) = F (x).

ECDF - Propiedades: Consistencia y distribución asintótica

3 Fn (x) −→ F (x) casi seguro.

5 [Teorema de Glivenko-Cantelli] sup |Fn (x) − F (x)| −→ 0 casi seguro.

6 [Desigualdad de Dvoretzky-Kiefer-Wolfowitz (DKW)] Para cualquier ε > 0,

ECDF - Propiedades: Una banda de confianza simple

7 Para algún 0 < α < 1, sean:

Entonces, para todo F y para todo n se satisface:

P (L(x) ≤ F (x) ≤ U (x), para todo x ∈ R) ≥ 1 − α.