Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Métodos No Paramétricos
José A. Vilar
jose.vilarf@udc.es
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 2 / 139
Introducción Modelos paramétricos vs no paramétricos
Modelo paramétrico
Sea X una v.a. con función de distribución de probabilidad F , i.e. F (x) = P (X ≤ x).
Ejemplo 1.1.1
I Es razonable asumir que los datos antropométricos de los individuos de una misma
población, raza, sexo y edad, muestren un comportamiento gaussiano. Ası́, variables como
estatura o peso siguen el modelo paramétrico:
F(µ,σ) = Φ(µ,σ) ; µ ∈ R, σ ≥ 0 , (1)
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 3 / 139
Introducción Modelos paramétricos vs no paramétricos
Modelo no paramétrico
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 4 / 139
Introducción Modelos paramétricos vs no paramétricos
P (x |θ, (X1 , . . . , Xn ) ) = P (x |θ ) .
En este sentido los modelos no paramétricos son más flexibles que los modelos
paramétricos. Por ejemplo, si f es la función de densidad de la variable X, un
modelo no paramétrico relativamente frecuente es la familia de densidades:
Z
00
2 2
f ∈F = g(·); g (x) dx ≤ C , para alguna constante C ,
R
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 5 / 139
Introducción Métodos no paramétricos
I A menudo se conocen como “Métodos de distribución libre”, pero ojo con esta
traducción poco afortunada de “free-distribution methods”.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 7 / 139
Introducción Métodos no paramétricos
I Localización: H0 : MedX = MedY
H1 : MedX 6= MedY
I Dependencia: H0 : X e Y son independientes
H1 : X e Y no son independientes
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 8 / 139
Introducción Métodos no paramétricos
d
I La densidad de probabilidad: Ψ(x) = f (x) = F (x).
dx
I La función de regresión: Ψ(x) = m(x) = E (Y |X = x ).
f (x)
I La razón de fallo: Ψ(x) = λ(x) = .
1 − F (x)
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 10 / 139
Contenidos Parte I: Métodos No Paramétricos Clásicos de Distribución Libre
Contenidos Parte I
7 Referencias
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 11 / 139
Contenidos Parte II: Estimación No Paramétrica de Curvas
Contenidos Parte II
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 12 / 139
Parte I
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 13 / 139
Estimación de la función de distribución
Contenidos
7 Referencias
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 13 / 139
Estimación de la función de distribución La función de distribución empı́rica (ECDF)
donde
1 si Xi ≤ x
1 (Xi ≤ x) = 0 si Xi > x
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 14 / 139
Estimación de la función de distribución Propiedades de la función de distribución empı́rica
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 15 / 139
Estimación de la función de distribución Propiedades de la función de distribución empı́rica
1.0
F10
F100
0.8
F
0.6
Fn(x)
0.4
0.2
0.0
x
Figura 1: Función de distribución de una N(0,1) y dos distribuciones empı́ricas basadas en
muestras aleatorias de tamaños 10 y 100, respectivamente.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 16 / 139
Estimación de la función de distribución Propiedades de la función de distribución empı́rica
2 Para cada x ∈ R, Fn (x) es una variable aleatoria tal que nFn (x) se distribuye de
acuerdo a una binomial con parámetros n y p = F (x):
En efecto:
n
Se sigue:
i n
I P Fn (x) = = F (x)i (1 − F (x))n−i , para i = 0, 1, . . . , n.
n i
1
I E (Fn (x)) = F (x); Var (Fn (x)) = F (x) (1 − F (x)) .
n
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 17 / 139
Estimación de la función de distribución Propiedades de la función de distribución empı́rica
√ Fn (x) − F (x)
4 np −→ Z, en distribución, donde Z ∼ N (0, 1).
F (x) (1 − F (x))
Nótese que denotando por Yi = 1 (Xi ≤ x), Fn (x) = Y n . Por tanto, la propiedad 3 es
una aplicación inmediata de la ley fuerte de los grandes números y la 4 sigue del
teorema central del lı́mite.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 18 / 139
Estimación de la función de distribución Propiedades de la función de distribución empı́rica
En el r
ejemplo que sigue [Was06], n = 799, de modo que tomando α = 0.05, se tiene que
1 2
εn = log = 0.048, y este valor puede usarse para construir la banda
2n 0.05
(L(x), U (x)) al 95 % de confianza dada en 7 .
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 19 / 139
Estimación de la función de distribución Propiedades de la función de distribución empı́rica
1.0
0.8
0.6
Fn
0.4
0.2
0.0
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 20 / 139
Contrastes de bondad de ajuste
Contenidos
Introducción
Sea X1 , X2 , . . . , Xn una m.a.s. de una v.a. X con función de distribución F .
Problemática
Basándose en la muestra obtener información acerca del modelo de probabilidad F .
I Enfoque paramétrico:
1 Asumir que F ∈ Fθ = Fθ ; θ ∈ Θ ⊆ Rk .
2 Emplear la muestra para inferir sobre θ.
Ejemplo 3.1.1
Se asume F ∼ N (µ, σ) y se realiza inferencia sobre µ y σ.
Por ejemplo, el contraste de hipótesis: Bajo normalidad, el estadı́stico de contraste
H 0 : µ = µ0 √ X n − µ0
t= n ∼ tn−1 .
H1 : µ 6= µ0 Sn−1
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 21 / 139
Contrastes de bondad de ajuste El problema de la bondad de ajuste
H0 : F (x) ≤ F0 (x) para todo x ∈ R vs. H1 : F (x) > F0 (x) para algún x ∈ R (4)
H0 : F (x) ≥ F0 (x) para todo x ∈ R vs. H1 : F (x) < F0 (x) para algún x ∈ R (5)
I El rechazo de la nula no proporciona mucha información ya que la alternativa es
amplia (incluye diferencias en localización, escala, forma, . . . ). Esto justifica el
interés primario de estas pruebas en refutar o no la distribución postulada en la nula.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 22 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov
Posible enfoque
La distribución empı́rica Fn basada en la muestra es un estimador no paramétrico
consistente de la función de distribución. Por tanto, si H0 es cierta, la “distancia” entre
Fn y F0 decrecerá con n.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 23 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov
I Para las pruebas unilaterales (4) y (5), emplear los estadı́sticos respectivos:
Dn+ = sup (Fn (x) − F0 (x)) y Dn− = sup (F0 (x) − Fn (x))
x∈R x∈R
I Nótese que Dn = máx Dn+ , Dn− ; de modo que, bajo la hipótesis nula, los tres
estadı́sticos convergen a cero casi seguro cuando n → ∞.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 24 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov
Luego: Dn = sup |Fn (x) − F0 (x)| = sup FnU (F0 (x)) − F0 (x) = sup FnU (u) − u ,
x∈R x∈R u∈[0,1]
que expresa Dn como el estadı́stico KS basado en una m.a.s. de una U [0, 1].
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 25 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 26 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 27 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov
+ 2
∼ χ22 .
2 Asintóticamente, 4n Dn
I El resultado 2 sigue de 1 :
√ + 2 2
2 c
nDn ≤ d = P 4n Dn+ ≤ 4d2 = 1−e−2d ⇔ P 4n Dn+ ≤ c = 1−e− 2
P
+ − 1.22
I Si n grande y α = 0.05, se sigue de 2 que: Dn,0.95 = Dn,0.95 ∼ √ .
n
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 28 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov
35 45 47 50 31
30 25 33 35 40
45 47 49 42 40
50 46 55 42 46
H0 : F = N (40, 3)
H1 : F 6= N (40, 3)
1 n = 20
2 D̂20 = 0.45221.
3 p = P(D20 > 0.45221) < 0.01.
4 Concluir el rechazo de H0 .
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 29 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov
1.0
35 45 47 50 31 F20
F = N(40, 3)
30 25 33 35 40 ^
D20 = 0.45
0.8
45 47 49 42 40
50 46 55 42 46
0.6
Fn(x)
H0 : F = N (40, 3)
0.4
H1 : F 6= N (40, 3)
0.2
1 n = 20
2 D̂20 = 0.45221.
0.0
X
4 Concluir el rechazo de H0 .
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 30 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov
1.0
puede asumir que esa distribución exponen-
cial genera los datos. Es decir:
0.8
H0 : F = Exp(1)
0.6
H1 : F 6= Exp(1)
Fn(x)
0.4
1 n = 50
0.2
F50
2 D̂50 = 0.070232. F = Exp(1)
^
3 p-valor = 0.9515 (exacto). D50 = 0.07
0.0
X
5 No se rechaza H0 .
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 31 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov
⇐⇒ P (Fn (x) − dn,1−α < F (x) < Fn (x) + dn,1−α , para todo x ∈ R) = 1 − α
3 Definir:
Ln (x) = máx {Fn (x) − dn,1−α , 0} Un (x) = mı́n {Fn (x) + dn,1−α , 1}
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 32 / 139
Contrastes de bondad de ajuste El contraste de Kolmogorov-Smirnov
●
●
●
●
●
●
●
●
●
●
0.6
●
●
●
Fn(x)
●
●
●
●
●
●
●
0.4
●
●
●
●
●
●
●
●
●
●
0.2
●
●
●
●
●
●
●
●
●
●
0.0
0 1 2 3 4 5
X
n = 50
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 33 / 139
Contrastes de bondad de ajuste Contrastes tipo Cramér-von Mises
siendo Ψ(·) una función peso que satisface ciertas condiciones de regularidad.
Con la transformación u = F0 (x) (notar que U = F0 (X) ∼ U [0, 1]) se tiene que:
Z Z 1
Q2n = n (Fn (x) − F0 (x))2 Ψ (F0 (x)) dF0 (x) = n (Gn (u) − u)2 Ψ(u) du,
R 0
donde Gn (u) es la distribución empı́rica de las n i.i.d. v.a. Ui = F0 (Xi ) ∼ U [0, 1].
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 34 / 139
Contrastes de bondad de ajuste Contrastes tipo Cramér-von Mises
donde Gn (u) es la distribución empı́rica de las n i.i.d. v.a. Ui = F0 (Xi ) ∼ U [0, 1].
I Si U(i) denota el estadı́stico de orden i en la muestra uniforme, ωn2 se escribe como
n 2
1 2i − 1
X
ωn2 = + U(i) − .
12 2n
i=1
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 35 / 139
Contrastes de bondad de ajuste Contrastes tipo Cramér-von Mises
1
(Fn (x) − F0 (x))2 (Gn (u) − u)2
Z Z
A2n =n dF0 (x) = n du,
R
F0 (x) (1 − F0 (x)) 0
u(1 − u)
donde Gn (u) es la distribución empı́rica de las n i.i.d. v.a. Ui = F0 (Xi ) ∼ U [0, 1].
I Si U(i) denota el estadı́stico de orden i en la muestra uniforme, A2n se escribe como
n
1 X
A2n = −n −
(2i − 1) ln U(i) + (2n + 1 − 2i) ln 1 − U(i)
n
i=1
I A2n otorga más peso a las colas de la distribución nula que ωn2 .
I A2n es de distribución libre. Su distribución exacta es muy compleja (aproximar por
simulación). La asintótica ha sido establecida [AD52] pero su cálculo es también
complejo [MM04]. Rechazar H0 para valores superiores al cuantil correspondiente.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 36 / 139
Contrastes de bondad de ajuste Contraste de bondad de ajuste a un modelo paramétrico
Ejemplo 3.4.1
H0 : F sigue una distribución normal
H1 : F no sigue una distribución normal
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 37 / 139
Contrastes de bondad de ajuste Contraste de bondad de ajuste a un modelo paramétrico
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 38 / 139
Contrastes de bondad de ajuste Contraste de bondad de ajuste a un modelo paramétrico
1 Kolmogorov-Smirnov-Lilliefors 1 Histograma
2 Cramér-von Mises 2 Diagrama de cajas
3 Anderson-Darling 3 Gráfico de tallo y hojas
4 Shapiro-Wilk 4 Gráfico P-P
5 Jarque-Bera 5 Gráfico Q-Q
6 D’Agostino-Pearson
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 40 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 41 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 42 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 43 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal
2
Cuantiles Muestrales
Cuantiles Muestrales
Cuantiles Muestrales
2.5
2
0.0
−2 0
−2.5
−4
−5.0
−2 −1 0 1 2 −2 0 2 4 −1 0 1 2 3
Cuantiles Teóricos Cuantiles Teóricos Cuantiles Teóricos
Φ(x)
Φ(x)
0.50 0.50 0.50
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 44 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 46 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal
Bajo la hipótesis nula de que la muestra procede de una distribución normal se tiene que:
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 47 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal
Contraste de Jarque-Bera
Emplea el estadı́stico de contraste:
n 2 n
JBn =
b1 + (b2 − 3)2 →d Y ∼ χ22
6 24
I JBn es siempre no negativo y el criterio de la prueba es rechazar H0 al nivel α en
c n > χ22,1−α .
(7) si JB
I El contraste de Jarque-Bera presenta errores de Tipo I grandes con muestras
pequeñas.
Contraste de D’Agostino-Pearson (K 2 )
b1 y b2 son asintóticamente normales pero presentan tasas de convergencia muy lentas.
Por ello se han propuesto transformaciones Z(b1 ) y Z(b2 ) que aceleran esta convergencia
y presentan mejores propiedades para detectar desviaciones de la normalidad causadas
por asimetrı́a o apuntamiento diferente de 3:
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 48 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal
1.00 ●
Histograma P−P ●
●
Ajuste normal ●
●
0.10
●
● ● ●
●
●
●
0.75
0.08
●
Densidad
●
●
●
●
0.06
Φ(x)
●
0.50 ●
●
●
● ●
0.04
● ● ●
0.25
●
KS-Lilliefors:
0.02
●
●
●
● ●
●
●
●
● ● ●
p = 0.5929
0.00
0 5 10
0.00
●
Cramér-von Mises:
X
0.00 0.25 0.50
Fn(x)
0.75 1.00
p = 0.4979
Anderson-Darling:
p = 0.4431
Q−Q Shapiro-Wilk:
●
p = 0.5044
●
Asimetrı́a:
Cuantiles Muestrales
10 ●
●
●
●
●●
●●●
● ●
●
p = 0.2555
●●
●
● ●●
●●●
●
●●
●
Kurtosis:
●
●
● ● ● ●
● ●●
●●
p = 0.6965
0
●
Jarque-Bera:
p = 0.435
D’Agostino-Pearson:
0 5 10
0 5 10
Cuantiles Teóricos p = 0.2477
X
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 49 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal
1.00
Histograma P−P ●
Ajuste normal ●
●
●
● ●
●
●
● ●
0.3
●
●
0.75 ●
●
● ●
●
●
Densidad
●
●
●
0.2
Φ(x)
0.50 ● ●
● ●
●
0.1
0.25 ●
● ●
● ●
KS-Lilliefors:
p = 0.1699
●
●
● ●
0.0
−2 −1 0 1 2
0.00
● ●
● ●
Cramér-von Mises:
X
0.00 0.25 0.50
Fn(x)
0.75 1.00
p = 0.1625
Anderson-Darling:
p = 0.1252
4
Q−Q Shapiro-Wilk:
p = 0.09102
2 ● Asimetrı́a:
Cuantiles Muestrales
●
●
●
● ●
●●
●●
●●
●
●
p = 0.2055
●● ●●
0 ●●
●
●●
●
●●
Kurtosis:
p = 0.1975
●
● ●●●
●
●
●
●
●
●
● ●
Jarque-Bera:
−2
p = 0.1655
D’Agostino-Pearson:
−2 −1 0 1 2
−2 −1
Cuantiles Teóricos
0 1 2
p = 0.2127
X
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 50 / 139
Contrastes de bondad de ajuste Bondad de ajuste a una normal
1.00 ●
Histograma P−P ● ●
Ajuste normal
0.30
● ●
●
●
●
0.25
0.75 ●
●
● ●
● ●
0.20
Densidad
●
●
Φ(x)
● ●
● ●
0.50
0.15
●
● ●
● ●
● ●
0.10
0.25 ● ●
● ●
● ●
KS-Lilliefors:
0.05
● ●
●
p = 0.3194
0.00
−4 −2 0 2 4
0.00 ●
●
Cramér-von Mises:
X
0.00 0.25 0.50
Fn(x)
0.75 1.00
p = 0.358
Anderson-Darling:
p = 0.326
4
Q−Q
●
Shapiro-Wilk:
p = 0.4326
● ●
2 ● ●
Asimetrı́a:
Cuantiles Muestrales
● ●
●
●●
●●
●
●
●
p = 0.7385
●
+ +
0
●
● ●●
●
●●
●
●● ●●
Kurtosis:
●
● ●
● ●●
●
●●
p = 0.037
−2 ●
Jarque-Bera:
p = 0.1375
●
−4
●
D’Agostino-Pearson:
−2 0 2
−4 −2 0 2
Cuantiles Teóricos p = 0.7361
X
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 51 / 139
Contrastes de localización: una muestra y muestras apareadas
Contenidos
6 El problema general
José A. Vilar Métodosde b > 2 muestras
No Paramétricos relacionadas
- Máster Técnicas Estadı́sticas 20 de noviembre de 2022 51 / 139
Contrastes de localización: una muestra y muestras apareadas Introducción
Introducción
Problema y objetivos con una muestra unidimensional
I Sea X1 , . . . , Xn una m.a.s. de una v.a. X con distribución desconocida F .
I Se desea realizar inferencia sobre parámetros de localización de F (one-sample problem).
I Por ejemplo, si M denota la mediana de la distribución de X y M0 es un valor especı́fico,
podrı́a interesar chequear:
H0 : M = M0 vs H1 : M 6= M0 (8)
I En el contexto paramétrico, se asume que F ∼ N (µ, σ) y, dado que bajo normalidad media
(µ) y mediana coinciden, el contraste (8) se plantea en los términos:
H0 : µ = M0 vs H1 : µ 6= M0
X n − M0 √
que se resuelve con los estadı́sticos de contraste n, si se conoce σ, y
σ
X n − M0 √
n, si no se conoce σ, cuyas distribuciones bajo H0 son N (0, 1) y tn−1 ,
Sn−1
respectivamente.
I El objetivo es realizar la inferencia sin necesidad de asumir la normalidad de F .
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 52 / 139
Contrastes de localización: una muestra y muestras apareadas Introducción
Introducción
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 53 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos
Problema
Sea X1 , . . . , Xn una m.a.s. de una v.a. X con distribución absolutamente continua F y
mediana desconocida M . Se desea contrastar:
H1 : M 6= M0
(
H 0 : M = M0 vs H1 : M > M0
H1 : M < M0
Enfoque alternativo
Como P(X = M ) = 0, por definición de mediana: P(X > M0 ) = P(X < M0 ) = 0.5 bajo
H0 . Entonces el contraste puede escribirse:
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 54 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos
Estadı́stico de contraste
Se calculan las diferencias Di = Xi − M0 y se define el estadı́stico que contabiliza el
número de diferencias con signo positivo, i.e.:
n
1 (Xi > M0 ) .
X
Sn = # {Di > 0; i = 1, . . . , n} =
i=1
Bajo H0 , P(X > M0 ) = 0.5 y, por tanto, las variables 1 (Xi > M0 ) se distribuyen según
una Bernoulli(p = 0.5), para i = 1, . . . , n. Como además son independientes, se tiene:
n
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 55 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos
1 (Xi > M0 ) .
X
Sn = # {Di > 0; i = 1, . . . , n} =
i=1
H1 : M 6= M0 H1 : M < M0 H1 : M > M0
Bajo H0 , E (Sn ) = n/2. Bajo H1 , E (Sn ) < n/2. Bajo H1 , E (Sn ) > n/2.
Rechazar para valores de Sn Rechazar para valores Rechazar para valores
distantes de n/2. pequeños de Sn . grandes de Sn .
1
n
p = P Sn ≤ Ŝn p = P Sn ≥ Ŝn
p = 2 mı́n , P Sn ≥ Ŝn ,
2
P Sn ≤ Ŝn
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 56 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos
p
2 Por el Teorema Central del Lı́mite, B(n, p) ≈ N (np, np(1 − p)). La aproximación
es particularmente buena cuando p = 0.5. Por tanto, para valores moderadamente
grandes de n (n > 12):
n n
q
Sn ≈ N , . (9)
2 4
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 57 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos
Duración de la visita
21.6 13.4 20.4 26.4
23.5 27.8 24.8 29.3
23.4 9.4 26.8 21.9
24.9 25.6 20.1 26.2
28.7 28.1 29.1 18.9
¿Hay evidencia estadı́stica al nivel del 5 % de que con un número elevado de pacientes la
duración de la visita es menor que 27 minutos?
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 58 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 59 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos
1.00
Histograma P−P
0.08
Ajuste normal
● ●
●
●
●
0.75 ●
0.06
●
●
●
KS-Lilliefors:
Densidad
● ●
p = 0.3054
Φ(x)
0.04
0.50 ● ●
●
Cramér-von Mises:
●
p = 0.101
0.02
●
0.25 ●
●
Anderson-Darling:
p = 0.05364
0.00
●
0.00 ●
5 10 15 20 25 30
0.00 0.25 0.50 0.75 1.00 Shapiro-Wilk:
X Fn(x)
p = 0.01962
Asimetrı́a:
p = 0.0115
Q−Q
Kurtosis:
30
p = 0.124
Cuantiles Muestrales
● ●
● ●
●
●
●
●
Jarque-Bera:
●
● ●
● ●
p = 0.0225
+
20 ●
●
●
●
D’Agostino-Pearson:
●
p = 0.01325
●
10 ●
15 20 25 30
10 15 20 25 30
Cuantiles Teóricos
X
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 60 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos
Duración de la visita
21.6 13.4 20.4 26.4
23.5 27.8 24.8 29.3
23.4 9.4 26.8 21.9
24.9 25.6 20.1 26.2
28.7 28.1 29.1 18.9
Como H1 : M < 27, se rechaza H0 para valores pequeños de S20 y el p-valor es:
p = P S20 ≤ Ŝ20 |M = 27 = P (B(20, 0.5) ≤ 5) = 0.0207 < 0.05 = α.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 61 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos
!
5 − 20/2 + 0.5
Considerando la aproximación normal: p = P Z≤ p = 0.02209 .
20/4
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 62 / 139
Contrastes de localización: una muestra y muestras apareadas El test de los signos
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 63 / 139
Contrastes de localización: una muestra y muestras apareadas Inferencia sobre cuantiles
Teorema
Sea X1 , . . . , Xn una m.a.s. de una variable X con distribución absolutamente continua
FX y denótese por X(r) al r−ésimo estadı́stico ordenado. Entonces:
1/2
n
fX (qτ ) X(r) − qτ
τ (1 − τ )
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 64 / 139
Contrastes de localización: una muestra y muestras apareadas Inferencia sobre cuantiles
El test cuantil
El test de los signos puede adaptarse trivialmente para contrastar si el cuantil qτ de la
distribución de X es igual, menor o mayor que un valor qτ,0 postulado en la nula.
Ejemplo 4.3.1
Con la muestra del Ejemplo 4.2.1, ¿puede asumirse con un 5 % de significación que en centros sanitarios con
un número elevado de pacientes la quinta parte de los pacientes tardan en su visita menos de 23 minutos?
20
X
Considerar el estadı́stico de contraste S20 = 1 (Xi > 23). En este caso: Ŝ20 = 13.
i=1
Sea cual sea la distribución de los tiempos de duración de las visitas, si H0 es cierta: S20 ∼ B(20, 0.8).
Ası́ pues, en media, el 80 % de registros será superior a 23, y este porcentaje será menor bajo H1 .
Se rechazará la nula para valores de S20 significativamente más pequeños que E (S20 |H0 ) = 20 × 0.8 = 16.
p = P S20 ≤ Ŝ20 |q0.2 = 23 = P (B(20, 0.8) ≤ 13) = 0.0867 > 0.05 = α.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 65 / 139
Contrastes de localización: una muestra y muestras apareadas Inferencia sobre cuantiles
Usando (10) y la técnica del test de los signos se construye un intervalo de confianza
Pn para el τ -cuantil qτ :
1 En un test bilateral, no se rechaza H0 : qτ = qτ,0 al nivel α si S − =
n i=1
1 (Xi < qτ,0 ) (nótese
que se usan los signos negativos en congruencia con (10)) satisface la desigualdad:
− − −
sn,α/2 + 1 ≤ Sn ≤ sn,1−α/2 − 1, (11)
siendo s−
n,α/2
y s−
n,1−α/2
los enteros más grande y más pequeño que satisfacen respectivamente:
−
s
n,α/2 n
n i n i
X X
n−i n−i
τ (1 − τ ) ≤ α/2 y τ (1 − τ ) ≤ α/2.
i i
i=0 −
i=s
n,1−α/2
2 Tomando r = s−
n,α/2
+ 1 y s = s−
n,1−α/2
, se tiene de acuerdo a (10) y (11):
−
− − −
P X(r) < qτ < X(s) = P r ≤ Sn < s = P sn,α/2 + 1 ≤ Sn ≤ sn,1−α/2 − 1
3 Por tanto, un intervalo de confianza al nivel de confianza 100(1 − α) % para qτ está dado por:
(X(s− +1)
, X(s− )
)
n,α/2 n,1−α/2
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 66 / 139
Contrastes de localización: una muestra y muestras apareadas Inferencia sobre cuantiles
!
s−
n,α/2
− nτ + 0.5 α s−
n,α/2
− nτ + 0.5
P Z≤ p = ⇔ p = −zα/2 ⇔
nτ (1 − τ ) 2 nτ (1 − τ )
−
p
sn,α/2 = nτ − 0.5 − zα/2 nτ (1 − τ )
!
s−
n,1−α/2
− nτ − 0.5 α s−
n,1−α/2
− nτ − 0.5
P Z≥ p = ⇔ p = zα/2 ⇔
nτ (1 − τ ) 2 nτ (1 − τ )
−
p
sn,1−α/2 = nτ + 0.5 + zα/2 nτ (1 − τ )
Por tanto el intervalo de confianza asintótico al nivel de confianza 100(1 − α) % para qτ está dado por:
p p
X(r) , X(s) con r = nτ + 0.5 − zα/2 nτ (1 − τ ) y s = nτ + 0.5 + zα/2 nτ (1 − τ ).
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 67 / 139
Contrastes de localización: una muestra y muestras apareadas Inferencia sobre cuantiles
−
−
P B(16, 0.75) ≤ s16,0.025 ≤ 0.025 y P B(16, 0.75) ≥ s16,0.975 ≤ 0.025
Se concluye que s− −
16,0.025 = 7 y s16,0.975 = 15. Se toman entonces r = 8 y s = 15.
3 El intervalo de confianza buscado es: X(8) , X(15) = (63.2, 73.3)
√
1 Para construir el asintótico, s−
16,0.025 = 16 × 0.75 − 0.5 − 1.96 16 × 0.75 × 0.25 = 8.10518 y
− √
s16,0.975 = 16 × 0.75 + 0.5 + 1.96 16 × 0.75 × 0.25 = 15.89482, que se redondean
respectivamente por 8 y 16 para garantizar la confianza del 95 %. Se toman entonces r = 9 y s = 16
2 Resultando: X(9) , X(16) = (63.4, 78.5).
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 68 / 139
Contrastes de localización: una muestra y muestras apareadas Inferencia sobre cuantiles
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 69 / 139
Contrastes de localización: una muestra y muestras apareadas Test de los signos con muestras apareadas
Posible solución
Es trivial que la prueba de los signos puede ser aplicada para resolver este contraste.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 70 / 139
Contrastes de localización: una muestra y muestras apareadas Test de los signos con muestras apareadas
Interesa contrastar:
Sujeto: 1 2 3 4 5 6
B: 10 16 7 4 7 2
n
H0 : M D = 0
H1 : M D > 0 A: 18 19 11 3 5 3
D: 1 1 1 0 0 1
6
Test de los signos: X
1 S6 =
P6
1(Di = Ai − Bi > 0). Ŝ6 = 1(Di = Ai − Bi > 0) = 4
i=1
i=1
2 Bajo H0 , S6 ∼ B(6, 0.5).
p = P (B(6, 0.5) ≥ 4) = 0.3438
3 Rechazar H0 para valores grandes de S6 .
No rechazar H0 , es decir la probabilidad de mayor susceptibilidad a la hipnosis no aumenta significativamente
tras el entrenamiento.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 71 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
1 (Xi > M0 ) .
X
Sn = # {Di > 0; i = 1, . . . , n} =
i=1
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 72 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
H1 : M 6= M0
(
H 0 : M = M0 vs H1 : M > M0
H1 : M < M0
Enfoque
Bajo H0 y por la simetrı́a de F , las diferencias Di = Xi − M0 están simétricamente distribuidas en torno al
0, i.e. diferencias positivas y negativas de igual magnitud son equiprobables. Bajo H0 :
I Y una v.a. que toma los valores 1 y −1 con igual probabilidad 0.5,
D = X − M0 ∼ Y × W
I W ∼ |X − M0 |, una v.a. que mide la distancia entre X y M0 ,
I Y y W son independientes.
Por ello, la magnitud |Di | de cualquier diferencia Di corresponderá con igual probabilidad a una diferencia
positiva o a una diferencia negativa y de ahı́ cabe esperar que estas se repartan por igual bajo H0 .
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 73 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
0.6
0.5
0.3
0.4
0.2
0.3
0.2
0.1
0.1
0.0
0.0
−4 −2 0 2 4 0 1 2 3 4 5 6
Xi Xi
0.4
0.7
0.6
0.3
0.5
0.4
0.2
0.3
0.2
0.1
0.1
12 46 9 11 12 3 457 9
3 57 8 10 12 6 8 10 11 12
0.0
0.0
0 1 2 3 4 0 1 2 3 4 5
|Di| = |Xi − M| |Di| = |Xi − M|
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 74 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
Algoritmo
1 Calcular las diferencias Di = Xi − M0 , siendo M0 la mediana postulada en la nula.
2 Ordenar los valores {|Di |, i = 1, . . . , n} en sentido creciente.
3 Asignar rangos a la muestra de valores |Di |:
r (|Di |) = j ⇔ |Di | ocupa el lugar j en la muestra ordenada ⇔ |Di | = |D|(j)
4 Considerar el estadı́stico de contraste Tn+ que computa la suma de rangos de valores |Di | tales que
Di > 0, es decir X Xn
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 75 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 76 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 77 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
Teorema
Si F es absolutamente continua y simétrica, entonces bajo H0 se tiene que:
I r (|Di |) e Yj son independientes para i, j = 1, . . . , n.
Demostración.
Como r (|Di |) son función de las |Di |, se prueba la independencia de las |Di | y las
Yj . Denótese por F 0 (x) = F (x − M ). Se tiene:
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 78 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
Teorema
Si F es absolutamente continua y simétrica, entonces bajo H0 se tiene que:
I W1 , . . . , Wn son i.i.d. según una Bernoulli de parámetro 1/2.
Demostración.
P (W1 = w1 , . . . , Wn = wn ) =
X
1 > 0 = w1 , . . . , 1 Dr−1 (dn ) > 0 = wn d1 , . . . , dn × P (d1 , . . . , dn )
P Dr−1 (d
1)
(d1 ,...,dn )
(por ser r|Di | e Yj independientes)
z}|{
X =
1 > 0 = w1 , . . . , 1 Dr−1 (dn ) > 0 = wn × P (d1 , . . . , dn )
P Dr−1 (d
1)
(d1 ,...,dn ) n n
1 1
X
= P (d1 , . . . , dn ) =
2 2
(d1 ,...,dn )
Q n
En definitiva, P (W1 = w1 , . . . , Wn = wn ) = P (Wi = wi ), siendo P (Wi = wi ) = 1/2.
i=1
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 79 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
n n
1 n(n + 1)(2n + 1)
X X
+ 2 2
3 Var Tn H0 = j Var (Wj | H0 ) = j =
4 24
j=1 j=1
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 80 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
I Bajo H0 , la simetrı́a de Tn+ y el hecho de que Tn+ + Tn− = n(n + 1)/2 supone que a
valores grandes de Tn+ corresponden valores pequeños de Tn− y viceversa. Es
inmediato probar que Tn+ y Tn− tienen idéntica distribución si H0 es cierta.
Alternativa R.R. (α) con Tn+ R.R. (α) con Tn− R.R. (α) con Tn
H1 : M < M0 Tn+ ≤ tn,α Tn− ≥ tn,1−α Tn = Tn+ ≤ tn,α
H1 : M > M0 Tn+ ≥ tn,1−α Tn− ≤ tn,α Tn = Tn− ≤ tn,α
H1 : M 6= M0 Tn+ ≤ tn,α/2 o Tn− ≤ tn,α/2 o Tn ≤ tn,α/2
Tn+ ≥ tn,1−α/2 Tn− ≥ tn,1−α/2
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 81 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
Especı́ficamente:
n(n + 1)
Tn+ −
r 4 d
−→ Z ∼ N (0, 1)
n(n + 1)(2n + 1)
24
I Como en el caso del test de los signos, también en esta prueba debe aplicarse la
corrección por continuidad para determinar las probabilidades apropiadas empleando
la aproximación asintótica.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 82 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 83 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
I Rango medio Asignar a cada observación de un grupo con empates el rango promedio de aquellos que
corresponderı́an a las observaciones del grupo. En nuestro ejemplo: {1, 2.5, 2.5, 4, 6, 6, 6, 8, 9, 10}.
Este método es el más usado. La distribución bajo H0 de Tn+ se ve afectada. Obviamente no cambia la
media pero la varianza se reduce. Conviene aplicar una corrección por empates a la prueba.
Qr
I Estadı́stico promedio Evaluar Tn+ para todas las posibles asignaciones de rangos, ti !, y quedarse
i=1
con el promedio de todos ellos. Como en el caso anterior, no se modifica la esperanza de Tn+ pero sı́
disminuye su varianza.
Qr
I Estadı́stico más conservador Evaluar Tn+ para todas las posibles asignaciones de rangos, ti !, y
i=1
seleccionar el que minimiza la probabilidad de rechazo.
I Omitir empates Omitir las observaciones empatadas y reducir n consecuentemente. Supone perder
información, pero mı́nima si hay pocos empates. En general, introduce sesgo hacia el rechazo de la nula.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 84 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 85 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
Ejemplo 4.5.1: Resolver el Ejemplo 4.2.1 con el test de los rangos con signo
La mediana de la duración de una visita al médico es de 27 minutos. Se cree que en
centros sanitarios con un número elevado de pacientes, la duración de la visita por
paciente es menor que 27 minutos. Para comprobarlo, se tienen los siguientes datos sobre
las visitas de 20 pacientes seleccionados aleatoriamente en centros sanitarios con un
número elevado de pacientes:
Duración de la visita
21.6 13.4 20.4 26.4
23.5 27.8 24.8 29.3
23.4 9.4 26.8 21.9
24.9 25.6 20.1 26.2
28.7 28.1 29.1 18.9
¿Hay evidencia estadı́stica al nivel del 5 % de que con un número elevado de pacientes la
duración de la visita es menor que 27 minutos?
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 86 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
Como H1 : M < 27, se rechaza H0 para valores pequeños de Tn+ y el p-valor es:
+ + +
p = P T20 ≤ T̂20 |M = 27 = P T20 ≤ 35 |M = 27 < 0.05 = α.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 87 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
20 · 21
+ 0.5 35 −
Con la aproximación normal: p = P Z ≤ q 4 = P(Z ≤ −2.5951) = 0.00473 .
20 · 21 · 41 2·3
−2
24 48
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 88 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 89 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
I Es sencillo comprobar que cada una de las restantes n(n − 1)/2 comparaciones
añaden un 1 si se satisface Xi > M0 y (Xi + Xk )/2 > M0 , k 6= i.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 90 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
3 Como t8,0.025 = 3, seleccionar los valores en la tabla previa que, una vez ordenados,
ocupan el lugar 4 desde el menor (M1 = 1.5) y desde el mayor (M2 = 9).
4 El intervalo de confianza al 95 % para la mediana M es (1.5, 9), con un nivel de
confianza exacto de (1 − 2 × 0.0195)100 % = 96.1 %.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 91 / 139
Contrastes de localización: una muestra y muestras apareadas El test de rangos con signo de Wilcoxon
Interesa contrastar:
Sujeto: 1 2 3 4 5 6
Di = Ai − Bi 8 3 4 -1 -2 1
n
H0 : M D = 0
H1 : M D > 0 |Di | 8 3 4 1 2 1
r(|Di |) 6 4 5 1.5 3 1.5
6
Test de los rangos con signo de Wilcoxon: X
r(|Di |)1(Di > 0) = 16.5
+
1 Calcular Di = Ai − Bi y r(|Di |). T̂6 =
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 92 / 139
Contrastes de localización: una muestra y muestras apareadas Eficiencia relativa asintótica (ARE)
I Si n1 < n2 , entonces RET1 ,T2 > 1 y T1 es más eficiente que T2 pues alcanza la
potencia especificada con menos datos muestrales.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 93 / 139
Contrastes de localización: una muestra y muestras apareadas Eficiencia relativa asintótica (ARE)
n2 (α, β, θ1 )
I RET1 ,T2 = RET1 ,T2 (α, β, θ1 ) = , depende de α, β y θ1 .
n1 (α, β, θ1 )
n2 (α, β, θ1 )
ARET1 ,T2 = lı́m cuando n1 → ∞ y θ1 → θ0 , con α y β fijas.
n1 (α, β, θ1 )
I Ası́ definido, el ARE se conoce como eficiencia de Pitman. Otras definiciones de
ARE son las de Bahadur (α → 0, con β y θ fijos) y Hodges-Lehmann (β → 1, con
α y θ fijos).
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 94 / 139
Contrastes de localización: una muestra y muestras apareadas Eficiencia relativa asintótica (ARE)
ARE del test de los signos respecto al de los rangos con signo de Wilcoxon
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 95 / 139
El problema general de dos muestras independientes
Contenidos
Introducción
El problema de dos muestras (two-sample problem)
Sean X1 , . . . , Xm e Y1 , . . . , Yn m.a.s. independientes de v.a. respectivas X e Y con funciones
de distribución desconocidas FX y FY , respectivamente.
En base a ambas muestras, se desea realizar inferencia para determinar si han sido generadas del
mismo modelo de distribución de probabilidad, i.e. chequear la nula:
H0 : FX = FY
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 96 / 139
El problema general de dos muestras independientes Introducción
Diferencias en localización
Se asume que X e Y son iguales en distribución salvo a lo sumo en un posible desplazamiento
de magnitud θ > 0. Más precisamente: FY (x) = P(Y ≤ x) = P(X ≤ x − θ) = FX (x − θ), para
todo x y algún θ 6= 0.
H0 : FX = FY vs H1 : FX (x) = FY (x − θ) para todo x y algún θ
Diferencias en escala
Se asume que X e Y son iguales en distribución salvo a lo sumo en un posible factor de escala θ.
Más precisamente: FY (x) = P(Y ≤ x) = P(X ≤ θx) = FX (θx), para todo x y algún θ > 0,
θ 6= 1.
H0 : FX = FY vs H1 : FX (x) = FY (θx) para todo x y algún θ 6= 1
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 97 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 98 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 99 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz
Teorema 5.2.1
Considérese una muestra aleatoria de m + n objetos, m de un tipo 1 y n de un tipo 2. Denótese
por R1 y R2 a las v.a. que contabilizan las rachas en la muestras de objetos de tipo 1 y de tipo
2, respectivamente. Entonces:
m−1
n−1
c r1 −1 r2 −1
P (R1 = r1 , R2 = r2 ) = m+n
r1 = 1, . . . , m; r2 = 1, . . . , n; y r1 = r2 o r1 = r2 ±1
m
donde c = 2 si r1 = r2 y c = 1 si r1 = r2 ± 1.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 100 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz
para r = 2, 3, . . . , m + n.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 101 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz
Si m y n elevados (m, n > 12), la distribución de Rm,n bajo H0 puede aproximarse usando la
distribución normal con media y varianza de la distribución exacta y la corrección por
continuidad, i.e. rechazar H0 : FX = FY al nivel α si:
2mn
Rm,n − 0.5 −
m+n
r ≤ zα/2 , con zα/2 tal que P N (0, 1) ≤ zα/2 = α/2
2mn(2mn − m − n)
(m + n)2 (m + n − 1)
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 102 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 103 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz
Colonia 1 47 29 52 42 58 43 35 30 38
Colonia 2 47 36 44 45 33 46 38 33 50
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 104 / 139
El problema general de dos muestras independientes El test de rachas de Wald-Wolfowitz
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 R̂9,9 = 11
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 R̂9,9 =9
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 R̂9,9 = 11
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 R̂9,9 =9
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 105 / 139
El problema general de dos muestras independientes El test de Kolmogorov-Smirnov para dos muestras
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 106 / 139
El problema general de dos muestras independientes El test de Kolmogorov-Smirnov para dos muestras
−
H1 : FX (x) < FY (x) para algún x Dm,n = supx∈R FY,n (x) − FX,m (x)
Criterios de resolución
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 107 / 139
El problema general de dos muestras independientes El test de Kolmogorov-Smirnov para dos muestras
La prueba de este resultado sigue un camino análogo al empleado en el caso de una muestra.
Bajo H0 : FX = FY = F , se tiene:
U
FX,m (x) = Fm (F (x)) y FY,n (x) = FnV (F (x))
donde Fm U y F V son distribuciones empı́ricas basadas en m.a.s. independientes U , . . . , U
n 1 m y
V1 , . . . , Vn de variables U [0, 1].
que es el valor del estadı́stico KS para dos m.a.s. independientes de una U [0, 1], y por tanto la
distribución de Dm,n no depende de F .
+ −
Análogos argumentos prueban el resultado para Dm,n y Dm,n .
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 108 / 139
El problema general de dos muestras independientes El test de Kolmogorov-Smirnov para dos muestras
+ − + −
Ordenación D3,2 D3,2 D3,2 Ordenación D3,2 D3,2 D3,2
X<X<X<Y <Y 1 1 0 X<Y <X<Y <X 1/3 1/3 1/3
X<X<Y <X<Y 2/3 2/3 0 Y <X<X<Y <X 1/2 1/6 1/2
X<Y <X<X<Y 1/2 1/2 1/6 X<Y <Y <X <X 2/3 1/3 2/3
Y <X<X<X<Y 1/2 1/2 1/2 Y <X<Y <X <X 2/3 0 2/3
X<X<Y <Y <X 2/3 2/3 1/3 Y <Y <X<X <X 1 0 1
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 109 / 139
El problema general de dos muestras independientes El test de Kolmogorov-Smirnov para dos muestras
mn
q
2 Para d > 0: 2
lı́m P D+ ≤ d = 1 − e−2d .
m,n→∞ m + n m,n
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 110 / 139
El problema general de dos muestras independientes El test de Kolmogorov-Smirnov para dos muestras
Colonia 1 47 29 52 42 58 43 35 30 38
Colonia 2 47 36 44 45 33 46 38 33 50
1.0
● ●
FC1 ● ●
FC2
H0 : FX = FY vs H1 : FX 6= FY
0.8
● ●
● ●
1 m=n=9
0.6 ● ●
Fn(x)
2 D̂9,9 = 0.22222. ●
0.4
● ●
0.2
5 Asintótico: p = 0.9749.
0.0
30 35 40 45 50 55
6 Concluir el no rechazo de H0 . x
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 111 / 139
El problema general de dos muestras independientes El test de Cramér-von Mises para dos muestras
Contraste
I X1 , . . . , Xm i.i.d. X ∼ FX , FX continua
n
I Y1 , . . . , Yn i.i.d. Y ∼ FY , Fy continua H0 : FX (x) = FY (x) para todo x
H1 : FX (x) 6= FY (x) para algún x
I X1 , . . . , Xm e Y1 , . . . , Yn independientes
Extensión de la prueba Cramér-von Mises para una muestra al problema de dos muestras
De manera análoga a la prueba de Kolmogorv-Smirnov, es factible evaluar la distancia entre
FX,m (x) y FY,n (x) en media cuadrática y extender ası́ la prueba Cramér-von Mises para una
muestra al problema de dos muestras.
( m n
)
mn X 2 X 2
Q2m,n = FX,m (Xi ) − FY,n (Xi ) + FX,m (Yj ) − FY,n (Yj )
(m + n)2
i=1 j=1
La distribución exacta con muestras pequeñas puede calcularse como con KS y está tabulada. Su
distribución asintótica ha sido establecida por Anderson y Darling (1952).
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 112 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon
Estadı́stico de Mann-Whitney
Para i = 1, . . . , m y j = 1, . . . , n se define:
m X
n
Zij = 1 (Xi < Yj )
X
y entonces se construye el estadı́stico Um,n = Zij
i=1 j=1
Como Zij vale 1 si Yj es mayor que Xi y 0 en otro caso, el estadı́stico Um,n contabiliza el
número de veces que las Yj son mayores que algún Xi . Si, por ejemplo, m = 4, n = 3 y la
muestra conjunta ordenada es:
X2 < X1 < Y3 < Y2 < X4 < Y1 < X3
Hay 3 ı́ndices j con Yj > X1 , 3 con Yj > X2 , 0 con Yj > X3 y 1 con Yj > X4 . De este modo
se concluye: U4,3 = 3 + 3 + 0 + 1 = 7.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 113 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon
I Si todos los Xi son menores que todos los Yj , entonces hay m Xi ’s menores que Y1 , m
Xi ’s menores que Y2 , . . . , y m Xi ’s menores que Yn ; de modo que Um,n = mn.
I Por tanto: 0 ≤ Um,n ≤ mn.
I Un valor grande de Um,n supone que un número elevado de Yj ’s están por encima de los
valores Xi ’s. Sugiere por tanto la alternativa H1 : FX > FY . Un razonamiento análogo
conduce a que valores pequeños de Um,n sugieren la alternativa H1 : FX < FY .
I Por consiguiente los criterios de rechazo serı́an como se indican a continuación:
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 114 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 115 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 116 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 Û9,9 = 42
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 Û9,9 = 41
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 Û9,9 = 43
29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58 Û9,9 = 42
H0 : FX = FY vs H1 : FX 6= FY
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 118 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon
Contraste
I X1 , . . . , Xm i.i.d. X ∼ FX , FX continua
n
I Y1 , . . . , Yn i.i.d. Y ∼ FY , Fy continua H0 : FX (x) = FY (x) para todo x
H1 : FX (x) 6= FY (x) para algún x
I X1 , . . . , Xm e Y1 , . . . , Yn independientes
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 119 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon
3 Se prueba que:
m(m + n + 1) mn(m + n + 1)
E Tm,n,X = y Var Tm,n,X =
2 12
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 120 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon
Ejemplo 5.5.2: Resolución del Ejemplo 5.2.1 con la prueba de suma de rangos de Wilcoxon
X =“Núm. larvas grandes colonia 1”∼ FX Y =“Núm. larvas grandes colonia 2”∼ FY
m.a.s. de X (Colonia 1, m = 9): 47 29 52 42 58 43 35 30 38
m.a.s. de Y (Colonia 2, n = 9): 47 36 44 45 33 46 38 33 50
H0 : FX = FY vs H1 : FX 6= FY
1 Combinar y ordenar en sentido creciente las muestras identificando la muestra origen.
2 Asignar rangos y deshacer los empates por el rango promedio.
Datos: 29 30 33 33 35 36 38 38 42 43 44 45 46 47 47 50 52 58
Rangos: 1 2 3.5 3.5 5 6 7.5 7.5 9 10 11 12 13 14.5 14.5 16 17 18
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 121 / 139
El problema general de dos muestras independientes El test de Mann-Whitney-Wilcoxon
La consistencia de estas pruebas para los dos contrastes previos requiere asumir que FX y
FY son idénticas salvo a lo sumo en su localización. Muestras de diferentes distribuciones
pero con igual mediana (o media) podrı́an conducir a pruebas significativas.
4 En el contexto de diferencias en localización, el ARE de Mann-Whitney-Wilcoxon respecto
a la prueba t de Student es 0.9555 para distribuciones normales, 1 para uniformes y nunca
inferior a 0.864 para distribuciones continuas arbitrarias. Llega a ser superior a 1 con
distribuciones con colas pesadas.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 122 / 139
El problema general de k > 2 muestras independientes
Contenidos
7 Referencias
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 122 / 139
El problema general de k > 2 muestras independientes Introducción
Introducción
El problema de varias muestras independientes (k-sample problem)
Sean {Xi1 , Xi2 , . . . , Xini }, i = 1, . . . , k, k > 2, m.a.s. independientes de v.a. respectivas Xi
Pk
con funciones de distribución continuas y desconocidas Fi . Denótese por N = i=1
ni .
Se desea realizar inferencia para determinar si las k muestras han sido generadas del mismo
modelo de distribución de probabilidad, i.e. realizar el contraste de hipótesis:
H0 : F1 = F2 = . . . = Fk vs H1 : Fi 6= Fj para al menos un par (i, j), i 6= j
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 123 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 124 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis
I Como cualquier ordenación de los rangos es equiprobable bajo H0 , los rangos son
asignados al azar a cada columna con la única restricción del tamaño muestral ni . Hay por
n ,...,nk Qk
lo tanto Pn 1 = N !/ i=1 ni ! formas de asignar los rangos a las columnas de la
tabla y, por la equiprobabilidad de las ordenaciones:
Qk
i=1
ni !
P(SN = s) = t(s)
N!
siendo t(s) el número de formas posibles de distribuir los rangos entre las columnas para
obtener valores de Ri que conduzcan a SN = s.
I Los cálculos son muy tediosos. Hay tablas con probabilidades exactas de SN para k = 3, 4
y 5 pero solamente para ni iguales y muy pequeños. Se dispone también de valores crı́ticos
especı́ficos para ni iguales y más grandes.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 125 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis
El estadı́stico H de Kruskal-Wallis
Kruskal y Wallis (1952) propusieron un estadı́stico considerando una versión ponderada de las
desviaciones Ri − ni (N + 1)/2 con pesos inversamente proporcionales a los tamaños muestrales.
Especı́ficamente:
k 2
12 1 ni (N + 1)
X
HN = Ri −
N (N + 1) ni 2
i=1
k
12 X R2 i
I HN también admite la expresión equivalente: HN = − 3(N + 1)
N (N + 1) ni
i=1
I Hay tablas con probabilidades exactas de HN para k = 3 y todo ni ≤ 5. Para los casos
k = 4 y todo ni ≤ 4 y k = 5 y todo ni ≤ 3 se dispone de tablas de las distribuciones
exactas de HN a partir del cuantil 0.9.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 126 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 127 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis
HN,c.e. = P HN =
HN
(17)
g(t)
t(t2 − 1) C
1−
N (N 2 − 1)
I Nótese que C < 1 y por tanto HN,c.e. > HN de modo que si la nula es rechazada al nivel
α con el estadı́stico HN , también lo es empleando HN,c.e. : χ2k−1,1−α < HN < HN,c.e.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 128 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 129 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 130 / 139
El problema general de k > 2 muestras independientes El test de Kruskal-Wallis
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 131 / 139
El problema general de b > 2 muestras relacionadas
Contenidos
7 Referencias
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 131 / 139
El problema general de b > 2 muestras relacionadas Introducción
Introducción
El problema de varias muestras relacionadas: Los datos
I Sean n v.a. X1 , . . . , Xn de las que se obtienen b realizaciones en “diferentes condiciones
experimentales” (bloques).
Por ejemplo, se registran valores de crecimiento de plantas con cuatro fertilizantes
(variables o tratamientos, n = 4) en tres parcelas de tierra con caracterı́sticas diferentes
(bloques, b = 3), obteniendo ası́: {(X1j , X2j , X3j , X4j ) , j = 1, 2, 3}.
Variables
Bloques X1 X2 ... Xn
1 X11 X21 ... Xn1
2 X12 X22 ... Xn2
. . . .. .
.. .. .. . ..
b X1b X2b ... Xnb
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 132 / 139
El problema general de b > 2 muestras relacionadas Introducción
Introducción
El problema de varias muestras relacionadas: Las hipótesis estructurales
I Se asume que las Xi están igualmente distribuidas excepto a lo sumo en términos de su
localización, que puede variar según el “bloque” (la “fila”) y la propia variable (el
“tratamiento” o la “columna”).
Xij = µ+bj +θi +εij , con εij i.i.d. según una distribución desconocida de media cero F (·)
Nótese que E(Xij ) = µ + bj + θi . Ası́, bj mide el efecto sobre la respuesta media debida al
j-ésimo bloque y θi el el efecto sobre la respuesta media debida al i-ésimo tratamiento. En
el contexto del diseño experimental, se habla de un diseño en bloques completamente
aleatorizados (si los “tratamientos” se asignaron al azar dentro de cada bloque).
I El problema de interés es:
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 133 / 139
El problema general de b > 2 muestras relacionadas El test de Friedman
Rangos
Bloques X1 X2 ... Xn Total Bloque
1 R11 R21 ... Rn1 n(n+1)/2
2 R12 R22 ... Rn2 n(n+1)/2
. . . .. . .
. . . . . .
. . . . .
b R1b R2b ... Rnb n(n+1)/2
Total Xi R1 R2 ... Rn bn(n+1)/2
3 Bajo H0 : θ1 = . . . = θn , para un bloque arbitrario j, (R1j , . . . , Rnj ) es una permutación al azar de
los n primeros enteros. Por lo tanto, bajo H0 , E(Ri ) = E(Rk ), para todo i y k, y como
Pn b(n + 1)
Ri = bn(n + 1)/2, se concluye: E (Ri | H0 ) = .
i=1 2
4 Evaluar las desviaciones entre las Ri observadas y sus valores esperados bajo la nula:
n n
" b #2
2 X
b(n + 1) n+1
X X
Sn,b = Ri − = Rij −
2 2
i=1 i=1 j=1
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 134 / 139
El problema general de b > 2 muestras relacionadas El test de Friedman
t(s)
P(Sn,b = s) =
(n!)b
siendo t(s) el número de disposiciones posibles de los rangos que producen valores de Ri
generando Sn,b = s.
I Se han propuesto procedimientos para el cálculo sistemático de los valores t(s) que han
permitido aliviar el tedioso trabajo de construir tablas para obtener la distribución exacta
bajo la nula de Sn,b . Con todo, las cuentas son considerables y lo habitual es emplear
alguna aproximación para obtener las regiones crı́ticas y p-valores de la prueba.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 135 / 139
El problema general de b > 2 muestras relacionadas El test de Friedman
12(n − 1)Sn,b
Fn,b,c.e. = PP
bn(n2 − 1) − t(t2 − 1)
donde el doble sumatorio se extiende a los grupos de t empates en cada uno de los bloques.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 136 / 139
El problema general de b > 2 muestras relacionadas El test de Friedman
Xij = µ + bj + θi + εij , con εij i.i.d. según una distribución desconocida de media cero F (·)
donde Xij es el nivel de gravedad que el doctor j-ésimo asigna a la i-ésima enfermedad, µ es una
media global independiente de médico y enfermedad, bj es el efecto promedio respecto de µ del j-ésimo
doctor (los habrá propensos a juzgar más graves las enfermedades que otros) y θi mide el efecto
promedio propio de la i-ésima enfermedad con respecto a µ y con independencia del doctor.
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 137 / 139
El problema general de b > 2 muestras relacionadas El test de Friedman
Datos Rangos
Enferm. Enfermedades Empates
Bloques 1 2 3 4 1 2 3 4 t
Méd. 1 4 2 2 3 4 1.5 1.5 3 2
Méd. 2 3 2 4 5 2 1 3 4 0
Méd. 3 5 1 3 4 4 1 2 3 0
Méd. 4 3 2 3 3 3 1 3 3 3
Méd. 5 5 3 4 4 4 1 2.5 2.5 2
Méd. 6 3 1 3 4 2.5 1 2.5 4 2
Méd. 7 2 2 3 3 1.5 1.5 3.5 3.5 2y2
Méd. 8 5 3 4 3 4 1.5 3 1.5 2
Méd. 9 4 2 4 3 3.5 1 3.5 2 2
Méd. 10 4 1 1 4 3.5 1.5 1.5 3.5 2y2
Méd. 11 4 1 2 4 3.5 1 2 3.5 2
Méd. 12 3 3 1 4 2.5 2.5 1 4 2
R1 = 38 R2 = 15.5 R3 = 29 R4 = 37.5
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 138 / 139
Referencias
Contenidos
7 Referencias
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 138 / 139
Referencias
Referencias
José A. Vilar Métodos No Paramétricos - Máster Técnicas Estadı́sticas 20 de noviembre de 2022 139 / 139