Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Introducción 7
2. Inferencia estadística 9
2.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Modelo estadístico . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1. Tipos de inferencia . . . . . . . . . . . . . . . . . . . . 13
2.3. Estadístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3
4 ÍNDICE GENERAL
7. Intervalos de confianza 89
7.1. Intervalos de confianza para la media de una distribución normal 89
7.2. Intervalos de confianza abiertos . . . . . . . . . . . . . . . . . 94
7.3. Intervalos de confianza en otros casos . . . . . . . . . . . . . . 95
7.3.1. Intervalos de confianza aproximados. . . . . . . . . . . 98
7.3.2. Transformaciones estabilizadoras de la varianza . . . . 100
Introducción
7
8 CAPÍTULO 1. INTRODUCCIÓN
Capítulo 2
Inferencia estadística
2.1. Ejemplo
Pregunta: ¿Será posible modelar el tiempo de fallo de un componente
electrónico con fines de predicción?
Solución: Podemos responder esta pregunta dividiéndola en dos partes:
1. Modelo probabilístico: Asuma que el tiempo de vida del componente
es exponencial (en años).
2. Parámetro: Sea θ > 0 la tasa de fallo (unidades: 1/Tiempo(años)).
Es decir, tenemos un modelo (exponencial) y buscaremos hacer una escogencia
del parámetro θ de manera que el modelo refleje la realidad de la información
disponible.
Nota: ¿Cómo obtendríamos la información disponible?
Muestra: Secuencia (sucesión) de variables aleatorias independientes
X1 , X2 , . . . , Xn , . . ..
i.i.d
En nuestro ejemplo, tomemos una muestra X1 , X2 , . . . , Xn , . . . ∼ Exp(θ).
Objetivos
9
10 CAPÍTULO 2. INFERENCIA ESTADÍSTICA
1X 1
Xi −−−→ E(X) =
P
n i=1 n→∞ θ
| {z }
X̄n
θ ∼ Γ(α0 , β0 )
Supongamos que antes de observar los datos la tasa esperada es 0.5/año
(según estudios previos). Como
1 α0
E(θ) = = .
2 β0
X t = Yt + |{z}
|{z} |{z}
Observable Hip. observable Ruido
y Xt es observable.
2. Distribución conjunta de una muestra de variables observables.
Es decir cuál es el supuesto general que estoy usando para describir mis
observaciones. La distribución debe estar indexada por el conjunto de
parámetros de interés.
3. Parámetros que son hipotéticamente observables (desconocidos).
Permiten calibrar la distribución conjunta de modo que el modelo
estadístico se ajuste a los datos.
4. (Opcional) Distribución conjunta de los parámetros.
Caso bayesiano: los parámetros dejan de ser determinísticos y se con-
vierten en variables aleatorias. En este caso la distribución conjunta de
la muestra es condicional en θ.
Inferencia estadística: procedimiento que genera afirmaciones probabilísti-
cas de un modelo estadístico.
12 CAPÍTULO 2. INFERENCIA ESTADÍSTICA
10000
!
L(Xi ) > u = Probabilidad de ruina
X
P
i=1
2.3. ESTADÍSTICO 13
2.3. Estadístico
Definición. Si X1 , . . . , Xn es una muestra observable. Sea r una función real
de n variables:
T = r(X1 , . . . , Xn )
es un estadístico.
Nota: T también es aleatorio y representa una síntesis o resumen de la
información disponible.
Ejemplos:
1 10000 # no pagan
p̂ = Xi = = r(X1 , . . . , X10000 )
X
10000 i=1 Total
Lm = máx L(Xi ) (saldo del cliente más riesgoso).
Rm = máx L(Xi ) − mı́n L(Xi ), 1 ≤ i ≤ 10000
14 CAPÍTULO 2. INFERENCIA ESTADÍSTICA
Capítulo 3
1 α α−1 βθ
π(θ) = β θ e = 2e−2θ , θ>0
Γ(α)
15
16CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
q
E[θ] = 0,0002, Var(θ) = 0,0001.
α α
E[θ] = , Var(θ) = 2
β β
α
β = 2 × 10−4
=⇒ s
α =⇒ β = 20000, α = 4
β2
= 1 × 10−4
Notación:
X = (X1 , . . . , Xn ): vector que contiene la muestra aleatoria.
Densidad conjunta de X: fθ (x).
Densidad de X condicional en θ: fn (x|θ).
Supuesto: X viene de una muestra aleatoria si y solo si X es condicionalmente
independiente dado θ.
3.2. DENSIDAD POSTERIOR 17
Consecuencia:
Ejemplo
Si X = (X1 , . . . , Xn ) es una muestra tal que Xi ∼ Exp(θ),
Q
n θe−θXi si Xi > 0
fn (X|θ) = i=1
0 si no
Pn
θ n e−θ i=1 Xi Xi > 0
=
0 si no
fn (X|θ) = θn e−θy
Z +∞
Γ(n + 4)
gn (x) = θn+3 e−(20000+y)θ dθ =
0 (20000 + y)n+4
θn+3 e−(20000+y)θ
π(θ|X) = (20000 + y)n+4
Γ(n + 4)
Por otro lado, si tuviéramos 5 observaciones (en horas): 2911, 3403, 3237,
3509, 3118. Entonces:
5
y= Xi = 16478, n=5
X
i=1
Densidad
Posterior
Previa
Ejemplo.
Sea θ la proporción de aparatos defectuosos, con θ ∈ [0, 1]. Defina:
0
falló
Xi =
1 no falló
Previa:
π(θ) = 1{0≤θ≤1}
Posterior:
Por el teorema de Bayes,
α β
z }| { z }| {
π(θ|X) ∝ θ (1 − θ)
y n−y
· 1 = θy + 1 −1 (1 − θ)n − y + 1 −1
Predicción.
Supuesto: los datos son secuenciales, es decir se observan uno a la vez siguiendo
el orden de su índice.
Calculamos la distribución posterior usando el supuesto anterior:
Z
gn (X) = f (Xn |θ)π(θ|X1 , . . . , Xn−1 ) dθ
Ω
= P (Xn |X1 , . . . , Xn−1 ) (Predicción para Xn )
se tiene
Z 1
9,55 × 1041
f (X6 |X) = 2,6 × 1036 θe −θX6
θ8 e−36178θ dθ =
0 | {z } (X6 + 36178)10
Densidad de X6
22CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
Entonces,
Z ∞
9,55 × 1041
P (X6 > 3000|X1 , . . . , X5 ) = dX6 = 0,4882
3000 (X6 + 36178)10
donde y = i Xi . Asuma que la previa de λ está definida por π(λ) ∝ λα−1 e−βλ .
P
Prueba:
Verosimilitud:
1 Xn
" #
fn (X|θ) ∝ exp − 2 (Xi − θ)2
2σ i=1
Luego,
n n
(Xi − θ)2 = (Xi − X̄ + X̄ − θ)2
X X
i=1 i=1
n n
= n(X̄ − θ)2 + (Xi − X̄)2 + 2 (Xi − X̄)(X̄ − θ)
X X
i=1 i=1
| {z
P }
=0 pues Xi=nX̄
Entonces
n
fn (X|θ) ∝ exp − (X̄ − θ)2 .
2σ 2
24CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
Previa:
1
" #
π(θ) ∝ exp − 2 (θ − µ0 )2 .
2V0
Posterior:
1
" #
n
π(θ|X) ∝ exp − 2 (X̄ − θ)2 − (θ − µ0 )2 .
2σ 2V02
n 1 1 n
(X̄ − θ)2 + 2 (θ − µ0 )2 = 2 (θ − µ1 )2 + 2 (X̄n − µ0 )2
σ 2 V0 V1 σ + nV02
| {z }
Constante con respecto a θ
Por lo tanto,
1
" #
π(θ|X) ∝ exp − 2 (θ − µ1 )2
2V1
Media posterior:
σ2 nV02
µ1 = 2 µ0 + 2 X̄n
σ + nV02 σ + nV02
| {z } | {z }
W1 W2
Afirmaciones:
1) Si V02 y σ 2 son fijos, entonces W1 −−−→ 0 (la importancia de la media
n→∞
empírica crece conforme aumenta el tamaño de muestra).
2) Si V02 y n son fijos, entonces W2 −−2−−→ 0 (la importancia de la media
σ →∞
empírica decrece conforme la muestra es menos precisa).
3) Si σ 2 y n son fijos, entonces W2 −−2−−→ 1 (la importancia de la media
V0 →∞
empírica crece conforma la previa es menos precisa).
3.5. DENSIDADES PREVIAS IMPROPIAS 25
Ejemplo (determinación de n)
Sean X1 , . . . , Xn ∼ N (θ, 1) y θ ∼ N (µ0 , 4). Sabemos que
σ 2 V02
V12 = .
σ 2 + nV02
Buscamos que V1 ≤ 0,01, entonces
4
≤ 0,01 =⇒ n ≥ 99,75 (al menos 100 observaciones)
4n + 1
Conteos Ocurrencias
144 0
91 1
32 2
11 3
2 4
1, . . . , X280 = 0 ∼ Poi(λ).
Previa: λ ∼ Γ(α, β).
Posterior: λ|X ∼ Γ(y + α, n + β) = Γ(196 + α, 280 + β).
Sustituyendo, α = β = 0
1 α α−1 βλ
π(λ) = β λ e
Γ(α)
1
∝ λα−1 e−λβ =
λ
1
Z ∞
y recuerden que dλ = ∞.
0 λ
Por teorema de Bayes,
λ|X ∼ Γ(196, 280)
Esperanza previa X̄
α+y α+β
z }| { z}|{
α y n
δ ∗ (X1 , . . . , Xn ) = = · + · .
α+β+n α+β α+β+n n α+β+n
28CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
X1 , . . . , Xn ∼ Ber(θ)
Primer previa. Distribución Beta con α = β = 1 (uniforme). El esti-
mador bayesiano corresponde a
α+y 1 + 10
E[θ|X] = = = 0,108
α+β+n 2 + 100
Segunda previa. α = 1, β = 2 =⇒ π(θ) = 2(1 − θ), θ > 0.
1 + 10 11
E[θ|X] = = = 0,107
1 + 2 + 100 103
Los dos estimadores bayesianos anteriores son muy similares entre sí, y son
10
similares a la media empírica que es X̄n = = 0,1, debido a que el tamaño
100
de muestra n = 100 es relativamente grande.
3.8. Consistencia
Definición. Un estimador δ(X1 , . . . , Xn ) de θ es consistente si
δ(X1 , . . . , Xn ) −−−→ θ.
P
n→∞
h : Ω → H ⊂ Rd .
Sea ψ = h(θ). Un estimador de ψ es un estadístico δ ∗ (X1 , . . . , Xn ) ∈ H.
Ejemplo. X1 , . . . , Xn ∼ Exp(θ), θ|X ∼ Γ(α, β) = Γ(4, 8,6). La característica
1
de interés es ψ = , es decir el valor esperado del tiempo de fallo.
θ
Es estimador se calcula de la siguiente manera:
Z ∞
1
δ ∗ (x) = E[ψ|x] = π(θ|x) dθ
0 θ
Z ∞
1 8,64 3 −8,6θ
= θ e dθ
0 θ Γ(4)
8,64 Z ∞ 2 −8,6θ
= θ e dθ
6 |0 {z }
Γ(3)
8,63
8,64 2
= = 2,867 unidades de tiempo.
6 8,63
4
Por otro lado, note que E(θ|X) = . El estimador plug-in correspondería a
8,6
1 8,6
ψ(E(θ|X)) = = = 2,15.
E(θ|X) 4
3.9. Laboratorio
Lo primero es cargar los paquetes necesarios que usaremos en todo el curso
library(tidyverse)
alpha_previa <- 4
beta_previa <- 20000
## [1] 16178
(n <- length(x))
## [1] 5
(alpha_posterior <- n + alpha_previa)
## [1] 9
3.9. LABORATORIO 33
## [1] 36178
ggplot(data = data.frame(x = c(0, 7.5e5)), aes(x)) +
stat_function(fun = dgamma,
args = list(shape = alpha_previa,
scale = beta_previa), aes(color = "Previa")) +
stat_function(fun = dgamma,
args = list(shape = alpha_posterior,
scale = beta_posterior), aes(color = "Posterior")) +
stat_function(fun = dexp, args = list(rate = theta),
aes(color = "Verosimilitud")) +
ylim(0, 1.5e-5) +
theme_minimal()
1.5e-05
1.0e-05
colour
Posterior
y
Previa
Verosimilitud
5.0e-06
0.0e+00
## [1] 9
(beta_previa <- beta_posterior)
## [1] 36178
(alpha_posterior <- alpha_previa + 1)
## [1] 10
(beta_posterior <- beta_previa + 3000)
## [1] 39178
ggplot(data = data.frame(x = c(0, 1e6)), aes(x)) +
stat_function(fun = dgamma,
args = list(shape = 4, scale = 20000),
aes(color = "Previa #1")) +
stat_function(
fun = dgamma,
args = list(shape = alpha_previa, scale = beta_previa),
aes(color = "Previa #2")
) +
stat_function(
fun = dgamma,
args = list(shape = alpha_posterior, scale = beta_posterior),
aes(color = "Posterior")
) +
ylim(0, 1.5e-5) +
theme_minimal()
3.9. LABORATORIO 35
1.5e-05
1.0e-05
colour
Posterior
y
Previa #1
Previa #2
5.0e-06
0.0e+00
## [1] 8.774957
(sigma <- sd(x))
## [1] 1.220284
(n <- length(x))
## [1] 3
(mu_previa <- 0)
## [1] 0
36CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
(sigma_previa <- 1)
## [1] 1
(mu_posterior <-
((sigmaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu_previa +
((n * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2)) * mu)
## [1] 5.864185
(sigma2_posterior <-
(sigmaˆ2 * sigma_previaˆ2) / (sigmaˆ2 + n * sigma_previaˆ2))
## [1] 0.3317135
ggplot(data = data.frame(x = c(-5, 15)), aes(x)) +
stat_function(
fun = dnorm,
args = list(mean = mu_previa, sd = sigma_previa),
aes(color = "Previa")
) +
stat_function(
fun = dnorm,
args = list(mean = mu_posterior, sd = sqrt(sigma2_posterior)),
aes(color = "Posterior")
) +
stat_function(fun = dnorm,
args = list(mean = mu, sd = sigma),
aes(color = "Verosimilitud")) +
theme_minimal()
3.9. LABORATORIO 37
0.6
0.4
colour
Posterior
y
Previa
Verosimilitud
0.2
0.0
-5 0 5 10 15
x
## [1] 9.955318
(sigma <- sd(x))
## [1] 0.9811633
(n <- length(x))
## [1] 100
(mu_previa <- 0)
## [1] 0
(sigma_previa <- 1)
## [1] 1
38CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
## [1] 9.860393
(sigma2_posterior <- (sigmaˆ2 * sigma_previaˆ2) /
(sigmaˆ2 + n * sigma_previaˆ2))
## [1] 0.009535022
ggplot(data = data.frame(x = c(-5, 15)), aes(x)) +
stat_function(
fun = dnorm,
args = list(mean = mu_previa, sd = sigma_previa),
aes(color = "Previa")
) +
stat_function(
fun = dnorm,
args = list(mean = mu_posterior, sd = sqrt(sigma2_posterior)),
aes(color = "Posterior")
) +
stat_function(fun = dnorm,
args = list(mean = mu, sd = sigma),
aes(color = "Verosimilitud")) +
theme_minimal()
3.9. LABORATORIO 39
2 colour
Posterior
y
Previa
Verosimilitud
-5 0 5 10 15
x
Si los datos por si solo son muy variable, la posterior tiende a parecerse a la
distribución previa en lugar que a la verosimilitud.
x <- rnorm(n = 10, mean = 10, sd = 5)
## [1] 10.34527
(sigma <- sd(x))
## [1] 4.396509
(n <- length(x))
## [1] 10
(mu_previa <- 0)
## [1] 0
(sigma_previa <- 1)
## [1] 1
40CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
## [1] 3.527283
(sigma2_posterior <- (sigmaˆ2 * sigma_previaˆ2) /
(sigmaˆ2 + n * sigma_previaˆ2))
## [1] 0.6590439
ggplot(data = data.frame(x = c(-5, 15)), aes(x)) +
stat_function(
fun = dnorm,
args = list(mean = mu_previa, sd = sigma_previa),
aes(color = "Previa")
) +
stat_function(
fun = dnorm,
args = list(mean = mu_posterior, sd = sqrt(sigma2_posterior)),
aes(color = "Posterior")
) +
stat_function(fun = dnorm,
args = list(mean = mu, sd = sigma),
aes(color = "Verosimilitud")) +
theme_minimal()
3.9. LABORATORIO 41
0.5
0.4
0.3 colour
Posterior
y
Previa
0.2 Verosimilitud
0.1
0.0
-5 0 5 10 15
x
## [1] 0.00024877
## [1] 313469.4
Y por lo tanto el tiempo promedio del componente electrónico es
1/θ=3,1901041 × 10−6 .
OJO: En este caso la pérdida cuadrática ajusta mejor ya que la
distribución que la pérdida absoluta ya que la distribución NO es
simétrica. En el caso simétrico los resultados serían muy similares.
f (x|p) ∝ ps (1 − p)f
0.15
0.10
0.05
0.00
## p prior post
## [1,] 0.05 0.03 0.00
## [2,] 0.15 0.18 0.00
## [3,] 0.25 0.28 0.13
## [4,] 0.35 0.25 0.48
## [5,] 0.45 0.16 0.33
## [6,] 0.55 0.07 0.06
## [7,] 0.65 0.02 0.00
## [8,] 0.75 0.00 0.00
## [9,] 0.85 0.00 0.00
## [10,] 0.95 0.00 0.00
44CAPÍTULO 3. DENSIDADES PREVIAS CONJUGADAS Y ESTIMADORES DE BAYES
0.2
0.1
0.0
100
50
0
2 4 6 8 10 12
horas_sueno
Ahora supongamos que se tiene quiere ajustar una previa continua a este
modelo. Para esto usaremos una distribución Beta con parámetros α y β, de
la forma
a <- ab[1]
b <- ab[2]
s <- 11
f <- 16
Previa
Verosimilitud
Posterior
Densidad
3
2
1
0
p
Capítulo 4
¿Será posible estimar sin una densidad previa y sin una función de pérdida?
i.i.d
Recuerde que, para X1 , . . . , Xn ∼ f (X|θ) con θ fijo, la función de
verosimilitud se define como
n
L(θ|X) := fn (X|θ) = f (Xi |θ).
Y
i=1
47
48 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
n
1 −Xi /θ 1 1X n
!
L(θ|X) = fn (X|θ) = = n exp Xi = θ−n e−y/θ .
Y
e
i=1 θ θ θ i=1
Considere la log-verosimilitud
y
`(θ|X) = log L(θ|X) = −n log θ −
θ
∂ −n y
`(θ|X) = + 2 =0
∂θ θ θ
1 y
=⇒ −n + =0
θ θ
y
=⇒ θ̂ = = X̄n .
n
2y 1 2y
" #
∂ 2` n −n
= − = n − y = < 0.
∂θ2 θ2 θ3 θ= ny
θ̂2 n θ̂2
4e-49
0e+00 2e-49
theta
-110
-120
-130
l
-140
-150
theta
n
1 (xi − µ)2 1 Xn
! !
L(µ|x) = exp − = (2πσ ) 2 −n/2
exp − 2 (xi − µ)2 .
Y
√
i=1 2πσ 2 2σ 2 2σ i=1
La log-verosimilitud es de la forma
−n 1 Xn
`(µ|x) = log(2πσ 2 ) − 2 (xi − µ)2 .
2 2σ i=1
n n
∂Q
= −2 (xi − µ) =⇒ nµ = xi =⇒ µ̂ = x̄n .
X X
∂µ i=1 i=1
n 1 Xn
`(σ 2 |X1 , . . . , Xn ) = log(2πσ 2 ) − − 2 (xi − x̄n )2
2 2σ i=1
∂` n 1 1 X n
=− + (xi − x̄n )2 = 0
∂σ 2 2 2πσ 2 2(σ ) i=1
2 2
Entonces
1X n
σ̂ =
2
(xi − µ)2 (varianza muestral)
n i=1
√ √
Por ejemplo: h(x, y) = y (es inyectiva), entonces h(x̄n , σ̂ 2 ) = σ̂ 2 = σ̂.
σ σ̂
Otro ejemplo: el MLE de = .
µ x̄n
Laboratorio:
library(scatterplot3d)
x <- rnorm(100)
n <- length(x)
ms[, 2]
0.6
l
0.4
0.2
0.0
-0.2
-0.4
-0.6
0.4 0.6 0.8 1.0 1.2 1.4 1.6
ms[, 1]
53
i.i.d
Ejemplo. Suponga que X1 , . . . , Xn ∼ Unif(0, θ), con (θ > 0). Estime θ.
Suponga que xi > 0, ∀i.
1
f (X|θ) = · 1[0,θ] (X)
θ
La verosimilitud es
n
1 Y n
L(θ|x) = f (xi |θ) = 1{0≤xi ≤θ} 0 ≤ xi ≤ θ
Y
∀i
i=1 θn i=1
1
L(θ|x) = 1{x ≤θ}
θn (n)
Laboratorio:
x <- runif(100, 0, 2)
n <- length(x)
L <- numeric(1000)
for (k in 1:1000) {
L[k] <- 1 / theta[k]ˆn * prod(x < theta[k])
}
plot(theta, L)
54 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
1.5e-30
1.0e-30
L
5.0e-31
0.0e+00
theta
fn (x|θ) = fn (x|h(ψ)).
1
Ejemplo: g(θ) = es biyectiva si θ > 0. Así,
θ
1 1
= 1 = X̄n es parámetro de la tasa, bajo un modelo Exp(θ).
θ̂ X̄n
Gt = {θ : g(θ) = t}
Defina L∗ (t) = máx log fn (x|θ). El MLE de g(θ)(= t̂) se define como el valor
θ∈Gt
t̂ que cumple: L (t̂) = máx L∗ (t).
∗
t∈G
4.1.2. Consistencia
Como se afirmó anteriormente, bajo ciertas condiciones un estimador bayesiano
es un estimador consistente de θ. Por lo tanto si un MLE fuera consistente de
θ tanto el MLE como el estimador bayesiano tendrían como límite el mismo
valor θ.
56 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
1 Q P
Verosimilitud: fn (x|α) = ( x i )e xi
.
Γ(α)n
" #
∂ ∂
L(α|x) = − n ln Γ(α) + (α − 1) ln(πxi ) −
X
xi
∂α ∂α
1 d
= −n Γ(α) + ln( xi ) = 0
Y
Γ(α) dα
4.2. TEMAS ADICIONALES 57
i.i.d.
Definición. Asumimos que X1 , . . . , Xn ∼ F indexada con un parámetro
θ ∈ Rk y que al menos tiene k momentos finitos. Para j = 1, . . . , k sea
µj (θ) = E[X1j |θ]. Suponga que µ(θ) = (µ1 (θ), . . . , µk (θ)) es biyectiva. Sea M
la inversa de µ,
M (µ(θ)) = θ = M (µ1 (θ), . . . , µ2 (θ))
y defina los momentos empíricos
1X n
mj = Xj, j = 1, . . . , k.
n i=1 i
θ̂ = M (m1 , . . . , mk ).
Nota: Del ejemplo anterior, µ1 (α) = E[x1 |α] = α.Dado que m1 = x̄n , el
sistema por resolver es
µ1 (α) = m1 ⇐⇒ α = x̄n
α α2
= VarX = E[X 2
] − E[X] 2
= E[X 2
] − .
β2 β2
Se debe resolver el sistema
α
µ1 (θ) =
= X̄n = m1 (1)
β
α(α + 1)
µ2 (θ) = = m2 (2)
β2
m1 β(m1 β + 1) m1 m1
m2 = 2
= m21 + = m2 =⇒ m2 − m21 = .
β β β
De esta manera,
m1 m21
β̂ = , α̂ =
m2 − m21 m2 − m21
58 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
1 X σ2
Var(X̄n ) = Var(X 1 ) =
n2 n
Implica que se debe multiplicar la media muestral por una constante para
hacer la desviación de X̄n con respecto a θ visible y, con ello, hacer inferencia
del parámetro θ.
Caso general. Si f (X|θ) es “suficientemente suave” como función de θ, es
puede comprobar que la verosimilitud tiende a una normal conforme n → ∞.
Es decir,
−1
f (X|θ) ∝ exp (θ − θ̂)2 , n → ∞ (∗)
2 Vnn(θ)
Notas:
1) En el caso bayesiano, ninguna previa en θ puede anular el efecto en la
verosimilitud cuando n → ∞.
2) Por (∗) el MLE se distribuye asintóticamente como
V∞ (θ)
!
N θ, ,
n
4.2. TEMAS ADICIONALES 59
√
n d
[α(X̄n ) − α(µ)] →
− N (0, 1)
σα0 (µ)
1 1
Si α(µ) = (µ 6= 0) =⇒ − 2 = α0 (µ). Entonces por el método Delta
µ µ
√
n 2 1 1 d
" #
µ − − N (0, 1)
→
σ X̄n µ
Ejemplo
i.i.d 1
Si X1 , X2 . . . ∼ Exp(θ). Sea Tn = Xi entonces el MLE de θ es θ̂ = =
P
X̄n
n
.
Tn
60 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
1
Note que = X̄n y
θ̂
√ "
1
#
n d
X̄n − −−−→ N (0, 1).
σ θ n→∞
1
La varianza de una exponencial es σ 2 = Var(X1 ) = , entonces
θ2
√ 1
" #
d
θ n X̄n − −−−→ N (0, 1).
θ n→∞
1 0 1
El método Delta nos dice, con α(µ) = , α (µ) = − 2 , el comportamiento
µ µ
asintótico de MLE:
√ " √ "
1 θ n 1
# #
θ n d
ᾱ(Xn ) − α = 2 − θ −−−→ N (0, 1)
α (1/θ)
0 θ θ X̄n n→∞
√ "
n 1
#
d
= −θ − − −→ N (0, 1)
θ X̄n n→∞
1
Por lo tanto el MLE θ̂ = es asintóticamente normal con media θ y varianza
X̄n
Vn (θ) θ2
= .
n n
Caso bayesiano. En el ejemplo anterior, tome una previa θ ∼ Γ(α, β). La
distribución posterior es θ ∼ Γ(α + n, β + y), y = Xi . Supongamos que α
P
i=1
y las variables exponenciales son independientes. Por lo tanto, por el T.L.C.,
la distribución posterior θ|X se distribuye asintóticamente como una normal
α+n α+n
con media y varianza . Tomando una previa poco informativa,
β+y (β + y)2
(α, β son cercanos a cero), la media es
n 1
= = θ̂M LE
y X̄1
4.3. LABORATORIO 61
y la varianza
1 θ2 Vn (θ̂)
2
= = .
y /n n n
que son los mismos obtenidos por la distribución asintótica del MLE de θ.
4.3. Laboratorio
Suponga que tenemos una tabla con los siguientes datos, los cuales representan
la cantidad de giros hacia la derecha en cierta intersección.
(X <- c(rep(0, 14), rep(1, 30), rep(2, 36), rep(3, 68), rep(4, 43), rep(5, 43),
rep(6, 30), rep(7, 14), rep(8, 10), rep(9, 6), rep(10, 4), rep(11, 1), rep(12, 1)))
## [1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1
## [26] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2
## [51] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
## [76] 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
## [101] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
## [126] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4
## [151] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
## [176] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5
## [201] 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
## [226] 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
## [251] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 7
## [276] 7 7 7 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 10 10 10 10 11 12
Queremos ajustar esta tabla a una distribución Poisson con función de densi-
dad
λx e−λ
P(X = x) =
x!
0.10
0.05
0.00
0 2 4 6 8 10 12
## [1] 3.893331
mean(X)
## [1] 3.893333
Un resultado similar se puede obtener a través de la función mle2 del paquete
bbmle:
library(bbmle)
lambda.hat2 <- mle2(negloglike, start = list(lambda = 0.5))
lambda.hat2
##
## Call:
## mle2(minuslogl = negloglike, start = list(lambda = 0.5))
##
## Coefficients:
## lambda
## 3.893333
##
## Log-likelihood: -667.18
64 CAPÍTULO 4. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
Capítulo 5
Estadísticos Suficientes y
Criterio de Factorización
65
66CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN
fn (x|θ) = u(x)v(r(x), θ) ∀x ∈ Rn , ∀θ ∈ R.
P(X = x ∩ T = t)
Pθ (X = x|T = t) =
P(T = t)
fn (x|θ, T = t)
= X
fn (y|θ)
y∈A(t)
u(x)v(r(x), θ)
= X
u(y)v(r(y), θ)
y∈A(t)
u(x)v(t, θ)
= X (Como y ∈ A(t) entonces r(y) = t que es constante.)
v(t, θ) u(y)
y∈A(t)
u(x)
= X
u(y)
y∈A(t)
no depende de θ.
Si x ∈
/ A(t) =⇒ P(X = x|T = t) = 0 no depende de θ.
“⇒” Si T es un estadístico suficiente, u(x) = P(X = x|T = t) no depende de
θ. Sea v(t, θ) = Pθ (T = t). Entonces
5.2. TEOREMA DE FACTORIZACIÓN DE FISHER 67
P(X = x|θ)
fn (x|θ) = P(X = x|θ) = Pθ (T = t) = u(x)v(t, θ).
Pθ (T = t)
P
n
e−λ λxi e−λn λ xi ( =r(x))
1
fn (x|θ) = = = Qn e| −λn{zλr(x)}
Y
xi ! xi ! !
Q
i=1 x
i=1 i
| {z } v(r(x),λ)
u(x)
Ejemplo. X1 , . . . , Xn ∼ f (x|θ)
θxθ−1 0<x<1
f (x|θ) =
0 otro caso
" #θ−1
fn (x|θ) = θ n
= θn (r(x))θ−1 · |{z}
1
Y
xi
| {z } | {z }
v(r(x),θ) u(x)
r(x)
1 Xn
" #
fn (x|θ) = (2πσ )2 −n/2
exp − 2 (Xi − µ)2
2σ i=1
1 Xn n
" #
µ X µ2 n
= (2πσ 2 )−n/2 exp − 2 Xi2 + 2 Xi − 2
2σ i=1 σ i=1 2σ
| {z } | {z }
r2 (x) r1 (x)
Tome
1 Xn
" #
u(x) = (2πσ ) 2 −n/2
exp − 2 Xi2 ,
2σ i=1
" #
µ nµ2
v(r1 (x), µ) = exp 2 r1 (x) − 2 .
σ 2σ
µ.
Con σ 2 desconocido, θ = (µ, σ 2 ), tome u(x) = 1,
Entonces X
r(x) = (r1 (x), r2 (x)) = x2i
X
xi ,
es un estadístico suficiente para (µ, σ 2 ).
i.i.d 1
Ejemplo. X1 , . . . , Xn ∼ Unif(0, θ), θ > 0, f (x|θ) = 1[0,θ] (x) .
θ
n
1
fn (x|θ) = 1[0,θ] (xi )
Y
i=1 θ
n
T1 =
X
Xi
i=1
n
T2 = Xi2
X
i=1
1X n
T10 = Xi
n i=1
1X n
T20 = (Xi − X n )2
n i=1
1 1 1
(T10 , T20 ) = g(T1 , T2 ) = T1 , T2 − 2 T12 .
n n n
70CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN
De la primera entrada,
1
T10 = T1 =⇒ T1 = nT10 .
n
De la segunda,
1 1 1X 2 1X 2
T20 = T2 − 2 T12 = Xi − Xi
n n n n
1X 2
= Xi − 2Xi X̄n2 + X̄n
n
1X
= (Xi − X̄n )2 = σ̂n2
n
y además T2 = n(T20 + T102 ).
Como g es biyectiva entonces (X̄n , σn2 ) es un estadístico suficiente para (µ, σ 2 ).
Ejemplo. X1 , . . . , Xn ∼ Unif(a, b), a < b. Encuentre un estadístico suficiente.
1. Si xi ≤ a o xi > b, tome u(x) = 0.
2. Si a < xi < b ∀i,
a. xi > a ∀i ⇔ x(1) > a.
b. xi < b ∀i ⇔ x(n) < b.
La verosimilitud es de la forma
n
1
fn (x|(a, b)) = 1[a,b] (xi ) = 1{(z,w):z>a,w<b} (X(1) , X(n) ) · |{z}
1
Y
i=1 (b − a)n
| {z } u(x)
v(r1 (x),r2 (x),(a,b))
i.i.d
Definición (Estadístico de orden). Sean X1 , . . . , Xn ∼ f . Al ordenar los
datos
1
f (x|α) = [1 + (x − α)2 ]−1 , x ∈ R
π
n n
1 1 Y n
fn (x|α) = f (xi |α) = [1 + (xi − α)2 ]−1 = n [1 + (x(i) − α)2 ]−1
Y Y
i=1 i=1 π π
|{z} i=1 | {z }
u(x)
v(y,α)
donde h es la característica.
Nota: como no estamos asignando una previa sobre θ entonces lo que se
busca es un estimador δ(x) para el cual el MSE sea pequeño para cada valor
de θ ∈ Ω.
Definición.
Decimos que δ es inadmisible si ∃δ0 (otro estimador) tal que R(θ, δ0 ) ≤
R(θ, δ) ∀θ ∈ Ω y al menos hay un θ ∈ Ω es donde la desigualdad es estricta.
En este caso específico decimos que δ0 “domina” a δ. Por otro lado decimos
que δ0 es admisible si no existe otro estimador que domine a δ0 .
5.5. MEJORANDO ESTIMADORES 73
R(θ, δ0 ) ≤ R(θ, δ) ∀θ ∈ Ω
También,
Entonces,
R(θ, δ0 )=Eθ [{δ0 (T ) − θ}2 ] ≤ E[E[(δ(X) − θ)2 |T ]] = E[(δ(X) − θ)2 ] = R(θ, δ).
Notas:
## [1] 1 3 3 0 3 4 1 1 2 2 1 3 4 2 3 3 3 4 0 2
hist(X)
74CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN
Histogram of X
1000 1500 2000 2500
Frequency
500
0
0 2 4 6 8 10
A partir de la verosimilitud,
P
e−θn θ Xi
fn (X|θ) = Q
Xi !
## [1] TRUE FALSE FALSE FALSE FALSE FALSE TRUE TRUE FALSE FALSE
El objetivo es estimar p donde p es la probabilidad de que Xi = 1 (solo llegue
un cliente por hora). Un estimador de p (MLE) es
P
Yi
δ(x) =
n
5.5. MEJORANDO ESTIMADORES 75
## [1] 0.2663
¿Es el óptimo?
Calculamos
1X n
E[δ(x)|T ] = E(Yi |T )
n i=1
Vea que
P(Xi = 1, T = t)
E[Yi |T = t] = P(Xi = 1|T = t) =
P(T = t)
P(Xi = 1, j6=i Xj = t − 1)
P
=
P(T = t)
P(Xi = 1)P( j6=i Xj = t − 1)
P
= =∆
P(T = t)
P(Xi = 1) = θe−θ
((n − 1)θ)t−1
j6=i Xj = t − 1) = e
P −(n−1)θ
P(
(t − 1)!
(nθ)t
P(T = t) = e−nθ
t!
Entonces,
((n − 1)θ)t−1
θe−nθ
(t − 1)! t 1 t−1
∆= = 1 −
(nθ)t n n
e−nθ
t!
y este último término no depende de i. Por lo tanto el estimador con MSE
mínimo es δ0 = ∆.
T <- sum(X)
n <- length(X)
(delta_0 <- (T / n) * (1 - 1 / n)ˆ(T - 1))
## [1] 0.2690194
En este caso δ0 es mejor que δ bajo una pérdida cuadrática.
76CAPÍTULO 5. ESTADÍSTICOS SUFICIENTES Y CRITERIO DE FACTORIZACIÓN
Capítulo 6
Distribución muestral de un
estadístico
1X n
X̄n = Xi .
n i=1
!
σ2
X̄n ∼ N µ,
n
1X n
1
E[X̄n ] = E[Xi ] = · nE[X1 ] = µ.
n i=1 n
1X n
1
!
σ2
Var(X̄n ) = Var Xi = 2 · n · Var(X1 ) = .
n i=1 n n
77
78 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
i.i.d
Ejemplo. Sea Xi : tiempo de vida de un aparato. Suponga que X1 , . . . , Xn ∼
Exp(θ) y que la previa de θ es Γ(1, 2). Solamente observamos n = 3 tiempos.
La posterior sería
3
θ|X ∼ Γ(1 + 3, 2 + Xi ).
X
i=1
4
!
Fθ̂ (t|θ) = P(θ̂ ≤ t|θ) = P ≤ tθ
2+T
4
!
= P 2 + T ≥ θ
t
4
!
= P T ≥ − 2θ
t
De esta manera,
3
!
θ̂M LE
−1 < 0,1θ =P − 1 < 0,1θ =∆
P
| θ {z
θT
}
Cambio relativo
80 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
3 3 3
! !
∆ = P 0,9 < < 1,1θ = P < θT < = 13, 4 %
θT 1,1 0,9
6.2. Distribución χ2
Definición. Para m > 0 definimos
m 1
χ2m ∼Γ ,
2 2
k
Xi ∼ χ2P mi
X
i=1
Si X ∼ N (0, 1) =⇒ Y = X 2 ∼ χ21 .
i.i.d
Si Xi ∼ N (0, 1) =⇒ Xi2 = χ2m .
Pm
i=1
Xi − µ
Ejemplo. Si X1 , . . . , Xn ∼ N (µ, σ 2 ) =⇒ Z = ∼ N (0, 1) ∀i.
σ
Entonces
Zi2 ∼ χ2n
X
P (Xi −µ)2
es decir σ2
∼ χ2n (∗).
Por otro lado si µ es conocido y σ 2 desconocido, entonces el MLE de σ 2 es
1X n
σ̂02 = (Xi − µ)2
n i=1
6.2. DISTRIBUCIÓN χ2 81
n 1X n
σ̂02
(X i − µ)2
= n ∼ χ2n
σ 2 n i=1 σ2
i.i.d.
Teorema. Si X1 , . . . , Xn ∼ N (0, 1), A es una matriz ortogonal n × n y
i.i.d.
Y = AX donde X = (X1 , . . . , Xn )T entonces Y1 , . . . , Yn ∼ N (0, 1) y
kY k22 = kXk22
.
Prueba. Ver Teorema 8.3.4 en el DeGroot.
Para justificar el Teorema (++), sea X1 , . . . , Xn ∼ N (0, 1). Usando el método
de Gram-Schmidt con vector inicial
1 1
" #
u = √ ,··· , √
n n
82 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
u
podemos generar una matriz A = .. ortogonal. Defina Y = AX. Entonces
.
1 X n √
Y1 = uX = √ Xi = nX̄n .
n i=1
n n
Por la propiedad (∆∆), Yi2 = Xi2 . Entonces,
X X
i=1 i=1
n n n n
Yi2 = Yi2 − Y12 = Xi2 − nX̄n2 = (Xi − X̄n )2 .
X X X X
1 Pn
Como Y12 y ni=2 Yi2 son independientes, entonces X̄n y i=1 (Xi − X̄n )
2
P
n
son independientes.
i.i.d
Note que Yi2 ∼ χ2n−1 ya que Yi ∼ N (0, 1).
Pn
i=2
Si X1 , . . . , Xn ∼ N (µ, σ 2 ), tome Zi = Xi −µ
σ
y repita todo lo anterior.
Ejemplo. X1 , . . . , Xn ∼ N (µ, σ 2 ) (µ, σ desconocidos). Los MLE son
#1
1X n
"
2
µ̂ = X̄n , σ̂ = (Xi − X̄n )2 .
n i=1
1
" #
σ σ
p = P |µ̂ − µ| < , |σ̂ − σ| < ≥ .
5 5 2
Por un lado,
" # " √ √ √ # √ ! √ !
σ n n(µ̂ − µ) n n n
P |µ̂ − µ| < =P − ≤ < =Φ −Φ − .
5 5 | σ
{z } 5 5 5
N (0,1)
6.2. DISTRIBUCIÓN χ2 83
Además,
" # " #
σ σ σ
P |σ̂ − σ| < =P − < σ̂ − σ <
5 5 5
" #
σ σ
=P − + σ < σ̂ < + σ
5 5
4 6
" #
=P − σ < σ̂ < σ
5 5
4 6
" #
σ̂
=P − < <
5 σ 5
4 6
" 2 2 2 #
σ̂
=P − < 2 <
5 σ 5
ˆ2
" #
nσ
=P 0,64n < 2 < 1,44n
σ
=Fχ2n−1 (1,44n) − Fχ2n−1 (0,64n).
colour
05 grados de libertad
10 grados de libertad
20 grados de libertad
0 10 20 30 40
x
6.3. Distribución t
Definición. Sea Y y Z dos variables independientes tal que Y ∼ χ2m y
Z ∼ N (0, 1). Si
Z
X := s ,
Y
m
entonces decimos que X tiene una distribución t de Student con m grados
de libertad. La función de densidad de X es:
m+1
Γ ! m+1
2 − 2
fX (x) = √ 2 1 + x
, x ∈ R.
m m
mπΓ
2
6.3. DISTRIBUCIÓN T 85
Propiedades:
1. fX es simétrica.
2. La media de X no existe si m ≤ 1. Si la media existe, es 0.
3. Las colas de una t de Student son más pesadas que una N (0, 1).
4. Si m es entero, los primeros m − 1 momentos de X existen y no hay
momentos de orden superior.
m
5. Si m > 2, Var (X) = .
m−2
6. Si m = 1, X ∼ Cauchy.
7. Ejercicio: fx (x) −−−→ Φ(x) (sirve como aproximación). La discrepan-
m→∞
cia de ambas está principalmente en sus colas y se disipa cuando m es
grande.
nσ̂ 2
Recuerde que, por el teorema 8.3.1 (DeGroot), X̄n y Y = son v.a.
! σ
σ2
independientes, con X̄n ∼ N µ, y Y ∼ χ2n−1 . Además,
n
√ X̄n − µ
Z= n ∼ N (0, 1).
σ
Sea
√ X̄n − µ
Z n X̄n − µ
T =s = v σ =s
2
Y u nσ̂
u σ̂
n−1 n−1
u
t σ2
n−1
el cual no depende de σ.
i.i.d
Teorema. Si X1 , . . . , Xn ∼ N (µ, σ 2 ), defina
#1
1 X n
"
2
σ =
0
(Xi − X̄n )2 .
n − 1 i=1
86 CAPÍTULO 6. DISTRIBUCIÓN MUESTRAL DE UN ESTADÍSTICO
Entonces √
n(X̄n − µ)
∼ tn−1
σ0
1
n
2
Nota. σ 0 = σ̂ (si n es grande, σ 0 = σ̂).
n−1
Prueba. Sean
n √ X̄n − µ
Sn2 = (Xi − X̄n )2 , Z=
X
n .
i=1 σ
Sn2
Dado que Y = ∼ χ2n−1 , entonces
σ2
√
n
Z (X̄n − µ)
U= s = sσ
Y Sn2
n−1 σ 2 (n − 1)
√
n(X̄n − µ)
= s 2
Sn
n−1
√
n(X̄n − µ)
= ∼ tn−1 .
σ0
colour
t con 01 grados de libertad
t con 05 grados de libertad
t con 10 grados de libertad
Normal(0,1)
Intervalos de confianza
T1 ≤ θ ≤ T2
89
90 CAPÍTULO 7. INTERVALOS DE CONFIANZA
" √ #
n(X̄n − µ)
P[−c < U < c] = P − c < <c
σ0
cσ 0 cσ 0
" #
= P − √ < X̄n − µ < √
n n
0
cσ 0
" #
cσ
= P X̄n − √ < µ < X̄n + √
n n
El intervalo
cσ 0 cσ 0
" #
T = X̄n − √ , X̄n + √
n n
P(µ ∈ T ) = γ.
Entonces
γ+1 γ+1
= Ftn−1 (c) =⇒ c = Ft−1 .
2 n−1
2
γ + 1 σ0 γ + 1 σ0
" #
X̄n − Ft−1 √ , X̄n + Ft−1 √
n−1
2 n n−1
2 n
1+γ
c= Ft−1 = Ft−1 (0,975) = 2,060
25
2 25
1.00
(2.060,0.975)
0.75
t 25
0.50
0.25
0.00
-2 0 2
X̄n ± 0,404 σ 0
| {z }
2,060
√
26
P[g(θ) < B] ≥ γ,
√ !
n(X̄n − µ)
Ftn−1 (c) = P(U > −c) = P −c < .
σ0
Entonces
σ0
!
γ = P µ < X̄n + √ c .
n
7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS 95
Por lo tanto
σ0
B = X̄n + √ Ft−1 (γ).
n n−1
G−1 (γ)
" #
γ = P[θT < G−1 (γ)] = P θ < .
T
G−1 (γ)
El límite superior es .
T
theta <- 2
X <- rexp(3, rate = theta)
T <- sum(X)
G_inv <- qgamma(p = 0.95, shape = 3, rate = 1)
i.i.d
Ejemplo. Sea X1 , . . . , Xn ∼ N (µ, σ 2 ). Encuentre A, B tales que P[A < σ 2 <
B] = γ.
Se sabe que
nσ̂ 2
∼ χ2n−1 .
σ2
nσ̂ 2
Tome V (X, σ 2 ) = . Entonces
σ2
γ = P[χ2n−1,γ1 < V (X, σ 2 ) < χ2n−1,γ2 ]
donde γ = γ2 − γ1 . Tome
(Xi − X̄n )2 nσ̂ 2
P
r(v, X) = = .
v v
Invirtiendo el intervalo,
(Xi − X̄n )2 (Xi − X̄n )2
"P P #
γ=P 2
< σ2 <
χn−1,γ2 χ2n−1,γ1
| {z } | {z }
A B
7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS 97
P
(Xi − X̄n )2 (Xi − X̄n )2
P
, .
χ2n−1,γ2 χ2n−1,γ1
Por ejemplo
X <- rnorm(n = 1000, 0, 2)
gamma2 - gamma1
## [1] 0.95
(chi2_gamma1 <- qchisq(p = gamma1, df = 1000 - 1))
## [1] 913.301
(chi2_gamma2 <- qchisq(p = gamma2, df = 1000 - 1))
## [1] 1088.487
(diferencias <- sum((X - mean(X))ˆ2))
## [1] 3854.307
Finalmente el intervalo es
c(diferencias / chi2_gamma2, diferencias / chi2_gamma1)
Así,
D ≈ Φ z 1+γ − Φ −z 1+γ = γ.
n→∞ 2 2
σ
X̄n ± z 1+γ √ .
2 n
X̄n − µ
Considere U = √ . U es pivotal, pero no necesariamente una tn−1 .
σ0/ n
Como (σ 0 )2 = n
n−1
σ̂ 2 y además σ̂ 2 es el MLE de σ 2 y por lo tanto consistente:
σ̂ 2 →
− σ2
P
((σ 0 )2 →
− σ 2 ).
P
d d
Recuerde que si Xn →
− Z y Yn →
− a, entonces Xn Yn →
P
− aZ.
Por lo tanto, √
X̄n − µ σ/ n d
√ · √ →− N (0, 1)
σ/ n σ 0 / n
| {z } | {z }
d P
→
− N (0,1) →
−1
d
Entonces U →
− N (0, 1).
Como consecuencia
" #
X̄n − µ T LC
P − z 1+γ < 0 √ < z 1+γ ≈ γ.
2 σ/ n 2
7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS 99
σ0
X̄n ± z 1+γ √ .
2 n
√ X̄n − θ d
n √ − N (0, 1).
→
θ
Entonces
"√ √ # √ !
n|X̄n − θ| c n c n
P[|X̄n − θ| < c] = P √ < √ ≈ 2Φ √ − 1.
θ θ θ
ggplot(Xbar) +
geom_histogram(mapping = aes(x = Z, y = ..density..), color = "white") +
stat_function(fun = dnorm, args = list(mean = 0, sd = 1), color = "red") +
facet_wrap(. ~ n, scales = "free")
100 CAPÍTULO 7. INTERVALOS DE CONFIANZA
10 2000
0.6
0.4
0.3
0.4
density
0.2
0.2
0.1
0.0 0.0
-3 -2 -1 0 1 2 -2 0 2
Z
α0 (u)2 σ 2 (µ) = 1
1
=⇒ α0 (µ) = (σ(µ) > 0)
σ(µ)
Z µ
dx
=⇒ α(µ) = dx
a σ(x)
7.3. INTERVALOS DE CONFIANZA EN OTROS CASOS 101
√
Z µ
dx
α(µ) = √ =2 µ
0 x
1 1
1 1 |2X̄n2 − 2θ 2 | √ √
P[|2X̄n − 2θ | < c] = P
2 2 q < nc ≈ 2Φ( nc) − 1
1/n
Desarrollando,
1 1 1 √
P[−c + 2X̄n2 < 2θ 2 < c + 2X̄n2 ] ≈ 2Φ( nc) − 1
1
El intervalo de confianza para 2θ 2 es
1 1
" #
1 1
2X̄n − √ z 1+γ , 2X̄n2 + √ z 1+γ
2
n 2 n 2
set.seed(42)
X <- rpois(n = 1000, lambda = 5)
Xbar <- mean(X)
z <- qnorm(p = 0.975)
!2 !2 #
1 1 1 1
"
1 1
2X̄n2 − √ z 1+γ , 2X̄n2 + √ z 1+γ .
4 n 2 4 n 2
c((1 / 4) * (2 * sqrt(Xbar) - 1 / sqrt(1000) * z)ˆ2,
(1 / 4) * (2 * sqrt(Xbar) + 1 / sqrt(1000) * z)ˆ2)
1
1 1
" #
2
f (x|µ, σ ) =
2
exp − 2 (x − µ)2
2πσ 2 2σ
1 " #
τ τ
2
= exp − (x − µ)2 = f (x|µ, τ ).
2π 2
n "n
#
τ τX
2
fn (x|µ, τ ) = exp − (xi − µ)2 .
2π 2 i=1
103
104 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD
( βα
xα−1 e−βx for x > 0
f (x | α, β) = Γ(α)
0 for x ≤ 0
Y la verosimilitud es
!α−1
n
β nα Pn
e−β xi
for x > 0
Y
xi i=1
fn (x | α, β) = Γ(α)n i=1
0 for x ≤ 0
i.i.d
Teorema. Si X1 , . . . , Xn ∼ N (µ, τ −1 ), µ ∈ R, τ > 0 (precisión) y suponga
las siguientes dos densidades previas:
µ|τ ∼ N (µ0 , (λ0 τ )−1 ), µ ∈ R, λ0 > 0
τ ∼ Γ(α0 , β0 ), α0 , β0 > 0.
Entonces
[µ, τ |x] ∝ [µ|τ, x] · [τ |x]
donde µ|τ, x ∼ N (µ1 , (λ1 τ )−1 ) con
λ0 µ0 + nx̄n
λ1 = λ0 + n, µ1 = ,
λ0 + n
y τ |x ∼ Γ(α1 , β1 ),
n 1 nλ0 (X̄n − µ0 )2
α1 = α0 + , β1 = β0 + s2n + .
2 2 2(λ0 + n)
Prueba.
Previa:
8.1. PRECISIÓN DE UNA DISTRIBUCIÓN NORMAL 105
[µ, τ ] ∝ [µ|τ ] · [τ ]
" #
1 λ0 τ
= τ exp −
2 (µ − µ0 ) · τ α0 −1 e−β0 τ
2
" #
α0 − 21 λ0 τ
=τ exp − (µ − µ0 ) − β0 τ
2
2
Por Bayes:
Además
n n
(xi − µ) =2
(xi − x̄n + x̄n − µ)2 = s2n + n(x̄n − µ)2 .
X X
i=1 i=1
nλ0 (x̄n − µ0 )
n(x̄n − µ)2 + λ0 (µ − µ0 )2 = (λ0 + n)(µ − µ1 )2 + .
λ0 + n
Entonces
n
nλ0 (x̄n − µ0 )
(xi − µ)2 + λ0 (µ − µ0 )2 = (λ0 + n)(µ − µ1 ) + s2n +
X
i=1
| {z } λ0 + n
λ1 | {z }
β1
Entonces
106 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD
α
z }|1 {
n
α0 + − 1
" #
λ1 τ
2
1
[µ, τ |x] ∝ τ exp[−β1 τ ] · τ 2 exp − (µ − µ1 )2
| {z } 2
[τ |x] | {z }
[µ|τ,x]
!1
λ0 α 0 2
(µ − µ0 ) ∼ t2α0 .
β0
Prueba. Note que µ|τ ∼ N (µ0 , (λ0 τ )−1 ). Despejando la desviación estándar:
1 1
λ0 τ = 2
=⇒ σ = (λ0 τ )− 2 .
σ
Entonces
Z = (λ0 τ )1/2 (µ − µ0 )|τ ∼ N (0, 1).
f (z, τ ) = π2 (τ ) · π1 (z|τ )
8.2. DISTRIBUCIÓN MARGINAL DE µ 107
1 1
f (z, τ ) = π2 (τ ) · g1 ((λ0 τ )− 2 z + µ0 |τ )(λ0 τ )− 2 = π2 φ(z)
| {z }
φ(z)
2α0 1
Y ∼Γ , =⇒ Y ∼ χ22α0
2 2
y Y es independiente de Z.
Por lo tanto,
Z
U= 12 ∼ t2α0 .
Y
2α0
Observe que
1 !1
(λ0 τ ) 2 (µ − µ0 ) λ0 α 0 2
U= !1 = (µ − µ0 ).
2β0 τ 2 β0
2α0
Consecuencia:
!1
β0 2
µ= U + µ0 , U ∼ t2α0 .
λ0 α0
Propiedades:
E(µ) = µ0 + 0 = µ0 .
β0 α0 β0
Var(µ) = · = .
α0 λ0 α0 − 1 λ0 (α0 − 1)
Ejemplo. Se hizo un experimento para determinar la relación del sabor del
queso con respecto a su composición química.
Vamos a cargar la base de datos que corresponde a este estudio.
108 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD
Histogram of cheese$Lactic
7
6
5
Frequency
4
3
2
1
0
cheese$Lactic
Intervalo t-student
## [1] 1.442
(s <- sd(cheese$Lactic))
## [1] 0.30349
(s2 <- var(cheese$Lactic))
## [1] 0.09210621
(n <- length(cheese$Lactic))
## [1] 30
(gamma <- 0.9)
## [1] 0.9
(level <- (gamma + 1) / 2)
## [1] 0.95
(tquantile <- qt(p = level, df = n - 1))
## [1] 1.699127
c(Xbar - tquantile * s / sqrt(n), Xbar + tquantile * s / sqrt(n))
Los datos de este experimento son n = 30, x̄n = 1,442, s2n = 0,0921062.
Aplicando las fórmulas del teorema anterior:
(mu_1 <- (lambda_0 * mu_0 + n * Xbar) / (lambda_0 + n))
## [1] 1.427742
(lambda_1 <- lambda_0 + n)
## [1] 31
(alpha_1 <- alpha_0 + n / 2)
## [1] 15.5
(beta_1 <- beta_0 + 0.5 * (n - 1) * sˆ2 +
n * lambda_0 * (Xbar - mu_0) / (2 * (lambda_0 + n)))
## [1] 2.049411
µ1 = 1,4277419.
λ1 = 31.
α1 = 15,5.
β1 = 2,049411
La posterior es
library(NormalGamma)
previa <-
dnormgam(par = c(mu_0, sqrt(s2 / lambda_0), alpha_0, 1 / beta_0),
plot = FALSE)
posterior <-
dnormgam(par = c(mu_1, sqrt(s2 / lambda_1), alpha_1, 1 / beta_1),
plot = FALSE)
8.2. DISTRIBUCIÓN MARGINAL DE µ 111
df <-
rbind(
data.frame(
distribucion = "Previa",
x = previa$xout,
y = previa$dout
),
data.frame(
distribucion = "Posterior",
x = posterior$xout,
y = posterior$dout
)
)
0.6
0.4
distribucion
Posterior
y
Previa
0.2
0.0
0 5 10 15 20
x
"s
1
#
P[σ > 0,3|x] = P > 0,3x
τ
1
" #
=P > 0,32 x
τ
1
" #
=P τ < x
0,32
" #
=P τ < 11,11x
= 0,9554296
## [1] 0.9554296
Lo más importante es que basados en el resultado de la distribución marginal
de µ podemos construir un intervalo de confianza para µ. Para la distribución
posterior de µ sabemos que:
!1
λ1 α1 2
U= (µ − µ1 ) ∼ t2α1
β1
entonces
!1
α0 λ0 2
(µ − µ0 ) = 0,025(µ − 200) ∼ t2·2 = t4 .
β0
Entonces
0,95 = P[l < 0,025(µ − 200) < u] = 2Ft4 (u) − 1 =⇒ u = t4,0,975 = 2,776.
Así,
P[−2,776 < 0,025(µ − 200) < 2,776] = 0,95
y el intervalo es [89, 311].
Con datos: X̄n = 182,17 y s2n = 88678,5. Los hiperparámetros posteriores son
µ1 = 183,95, λ1 = 20, α1 = 11, β1 = 50925,37.
Resolvemos el mismo problema:
!1
α 1 λ1 2
(µ − µ0 ) = 0,0657(µ − 183,95) ∼ t2α1 =22 .
β1
114 CAPÍTULO 8. ESTIMACIÓN BAYESIANA BAJO NORMALIDAD
Se busca u:
0,95 + 1
Ft22 (u|x) = =⇒ u = t22,0,975 = 2,074
2
y
0,95 = P[−2,074 < 0,0657(µ − 183,95) < 2,074|x].
σ0
X̄n + t17,0,975 √ al 95 %.
18
El intervalo de confianza observado es [146,25, 218,09].
Ejercicio Usando los datos de la variable InPatientDays de la siguiente base
de datos.
load("./data/Nursing.rda")
head(Nursing$InPatientDays)
π(A ≤ θ ≤ B|x) = γ
3
θ|X ∼ Γ(4, 2 + Xi ).
X
i=1
8.3. INTERVALOS DE CREDIBILIDAD. 115
4
E[θ|X] = θ̂ =
2+
P3
i=1 Xi
alpha <- 4
beta <- 2 + sum(X)
## [1] 0.7848404
A <- qgamma(p = 0.025, shape = alpha, rate = beta)
B <- qgamma(p = 0.975, shape = alpha, rate = beta)
c(A, B)
0.9
0.6
y
0.3
0.0
0 1 2 3 4
x
Ejercicio Para hacer este ejercicio sin usar bayes, se debe resolver usando
una función estabilizadora de la varianza. Encuentre esa función y aplique el
procedimiento que vimos el capítulo anterior.
1 3 1 1 1
dσ
3
= − τ − 2 =⇒ τ − 2 fσ = τ −1 .
dτ 2 2 1
τ2 2
Entonces [µ, τ ] ∝ τ −1 .
Ejercicio. Verifique que [µ, τ ] ∼ Normal-Gamma(µ0 = 0, λ0 = 0, α0 =
−1/2, β0 = 0).
8.4. EFECTO DE PREVIAS NO INFORMATIVAS (OPCIONAL) 117
Entonces
µ|τ ∼ N (X̄n , nτ )
n − 1 s2n
!
τ |x ∼ Γ ,
2 2
.
Por lo tanto,
Ejemplo. Tomando X̄n = 5,134, s2n = 63,96 con una previa no informativa
para µ, τ . Entonces la posterior es Normal-Gamma con hiperparámetros:
25
µ1 = 5,134, λ1 = 26, α = , β1 = 31,98. Queremos hacer inferencia sobre µ:
2
!1
α1 λ1 2
Calculemos P[µ > 4|x]. Sea w = = 3,188.
β1
P[µ > 4|x] = P [w(µ − X̄n ) > w(4 − X̄n )] = 1 − Tt25 (−3,615) = 0,9993.
Generalizando:
!1 !1 !1
n(n − 1)/2 2
n(n − 1) 2
n 2
w= = = .
s2n /2 s2n (σ 0 )2
Entonces
" !1 #
n 2
γ = P − tn−1, 1+γ < (µ − X̄n ) < tn−1, 1+γ
2 (σ 0 )2 2
σ0 σ0
" #
= P X̄n − tn−1, 1+γ √ < µ < X̄n + tn−1, 1+γ √ .
2 n 2 n
Capítulo 9
Estimación insesgada
1X n
E[X̄n ] = E(Xi ) = µ
n i=1
3 3
θ̂ = = P3
T i=1 Xi
119
120 CAPÍTULO 9. ESTIMACIÓN INSESGADA
theta_hat <- 3 / T
150
100
50
0
0 50 100
theta_hat - theta_real
3 1
" # " #
E[θ̂] = E = 3E , T ∼ Γ(3, θ)
T T
Como 1
T
∼ Gamma Inversa(3, θ)1 , se tiene que
1 3θ
" #
θ
E = =⇒ E[θ̂] = 6= θ
T 2 2
3θ θ
sesgo(θ̂) = −θ = .
2 2
1 β
La Gamma Inversa con paramétros α y β tiene media α−1 .
9.1. ESTIMADORES INSESGADOS 121
## [1] 2.252184
Si U = 2θ̂
3
= 2
3
· 3
T
= T2 ,
2 2 3
E[U ] = E(θ̂) = · θ = θ.
3 3 2
## [1] -0.1652107
Importante: El caso ideal es encontrar estimadores en donde Var(δ(x)) → 0
y además que sean insesgados.
¿Cómo controlar sesgo y varianza simultáneamente?
Defina la siguiente cantidad
Ejemplo. Comparar θ̂ y U = 2
T
en términos del MSE.
122 CAPÍTULO 9. ESTIMACIÓN INSESGADA
θ2 2
Dado que Var 1
T
= 4
, se tiene
2
MSE(U ) = Var 2
T
= 4 θ4 = θ2 .
var(U) + mean(U - theta_real)ˆ2
## [1] 23.42551
θ2 9θ2 5θ2
MSE(θ̂) = (Sesgo(θ̂))2 + Var 3
T
= 4
+ 4
= 2
.
var(theta_hat) + mean(theta_hat - theta_real)ˆ2
## [1] 57.71831
U es mejor estimador en términos de MSE que θ̂.
Nota: El estimado bayesiano es θBayes = 4
2+T
y este es mejor en términos de
MSE.
theta_bayes <- 4 / (2 + T)
var(theta_bayes) + mean(theta_bayes - theta_real)ˆ2
## [1] 11.89967
1 X
σ̂12 = (Xi − X̄n )2
n−1
es un estimador insesgado de σ 2 .
Prueba. Recuerde que:
n n 2 2
(Xi − µ)2 = + n X̄n − µ (9.1)
X X
Xi − X̄n
i=1 i=1
2
Por lo tanto si σ̂02 = Xi − X̄n , entonces:
1 Pn
n i=1
2 β2
Si X ∼ Gamma-Inversa(α, β) entonces Var(X) = (α−1)2 (α−2) .
9.2. ESTIMACIÓN INSESGADA DE LA VARIANZA 123
Pn 2
Xi − X̄n 1X n−1 2
" #
σ2
i=1
E[σ̂02 ] = =E (Xi −µ)2 −E[(X̄n −µ)2 ] = σ 2 − = σ .
E
n n n n
" #
n
E σ̂ 2 = E[σ̂12 ] = σ 2 .
n−1 0
i.i.d
Ejemplo. Sean X1 , . . . , Xn ∼ Poi(θ). E(Xi ) = Var(Xi ) = θ. Estimadores
insesgados de θ son:
1. X̄n .
2. σ̂12 .
hist(m)
124 CAPÍTULO 9. ESTIMACIÓN INSESGADA
Histogram of m
20
15
Frequency
10
5
0
hist(v)
Histogram of v
35
30
25
Frequency
20
15
10
5
0
v
9.2. ESTIMACIÓN INSESGADA DE LA VARIANZA 125
hist(a)
Histogram of a
25
20
Frequency
15
10
5
0
" n #
X 2
E[Tc ] = cE Xi − X̄n
i=1
" Pn 2 #
i=1 Xi − X̄n
= c(n − 1)E
n−1
= c(n − 1)σ 2 .
126 CAPÍTULO 9. ESTIMACIÓN INSESGADA
n
!
2
Var(Tc ) = c Var
2
X
Xi − X̄n
i=1
(Xi − X̄n )2
= c Varσ
2 2
X
2
| {zσ }
∼χ2n−1
= 2(n − 1)c2 σ 4 .
Entonces
Optimizando,
mı́n
c
MSE(Tc ) = mı́n
c
[(n2 − 1)c2 − 2(n − 1)c + 1],
(Xi −X̄n )
Pn 2
se resuelve tomando ĉ = 1
n+1
.
Así, T 1 = n+1
es el mejor estimador
i=1
n+1
de σ en el sentido de MSE. Aunque se puede demostrar que este estimador
2
d Z Z
d
f (x|θ)dx = f (x|θ)dx
dθ X X dθ
d2 Z Z
d2
f (x|θ)dx = f (x|θ)dx
dθ2 X X dθ 2
Z
E[λ (X|θ)] =
0
λ0 (x|θ)f (x|θ)dx
X
Z
f 0 (x|θ)
= f (x|θ)dx
X f (x|θ)
Z
= f 0 (x|θ)dx
X
d Z
= f (x|θ)dx (por supuesto 3.)
dθ X
d
= 1=0
dθ
En consecuencia,
Var(λ0 (X|θ)) = E[(λ0 (X|θ))2 ] − 0 = I(θ).
Además,
!0
f 0 (x|θ) f (x|θ)f 00 (x|θ) − f 0 (x|θ)2 f 00 (x|θ)
λ (x|θ) =
00
= = − (λ0 (x|θ))2
f (x|θ) f (x|θ)
2 f (x|θ)
f 00 (X|θ) f 00 (x|θ)
" Z #
E = f (x|θ)dx
f (X|θ) X f (x|θ)
" #
d d Z
= f (x|θ)dx
dθ dθ X
" #
d d
= 1 =0
dθ dθ
Entonces,
f 00 (X|θ)
" #
E[λ (X|θ)] = E
00
− E[(λ0 (X|θ))2 ] = −I(θ).
f (X|θ)
Entonces,
λ(x|p) = ln[px (1 − p)1−x ] = x ln p + (1 − x) ln(1 − p).
λ0 (x|p) = x
p
− 1−x
1−p
.
λ00 (x|p) = − px2 − 1−x
(1−p)2
.
De esta manera,
1−X 1−p 1 1
" #
X p
I(p) = E + = + = = .
p (1 − p)2 p2 (1 − p)2 p(1 − p) Var(X)
Vea que
d Z Z
f (x|µ)dx = f 0 (x|µ)dx
dµ R R
1 2(x − µ) 1
Z
= −√ exp − 2 (x − µ) dx
2
R 2πσ 2 2σ 2 2σ
1 Z u − u2 x−µ
=− 2 √ e 2 du = 0 usando el cambio de variable
σ R 2π σ
| {z }
E[N (0,1)]
Por lo que
1
I(µ) = −E[λ00 (x|µ)] =
Var(X)
i=1
De esta forma,
n
In (θ) = −E[λ00 (X|θ)] = − E[λ00 (Xi |θ)] = nI(θ).
X
i=1
Ejemplo. Suponga que una compañía quiere conocer como se comportan sus
clientes en sus tiendas. Hay dos propuestas para este modelo
Un modelo Poisson de parámetro tθ (t es cualquier valor) para deter-
minar la tasa promedio de llegada de clientes por unidad de tiempo θ.
Y ∼ Poisson(θt) y Y : número de clientes que llegan a la tienda a lo
largo de t unidades de tiempo.
Un modelo donde cada cliente es una v.a. exponencial con tasa de llegada
por unidad de tiempo θ y al final se sumará todas las variables para
obtener una Gamma(n, θ). X ∼ ni=1 Exp(θ) = Γ(n, θ) y X: tiempo
P
t n θ2 t
IY (θ) = IX (θ) =⇒ = 2 =⇒ n = = tθ.
θ θ θ
Ojo que según lo estimado ambas informaciones de Fisher debería dar aproxi-
madamente igualdad.
132 CAPÍTULO 9. ESTIMACIÓN INSESGADA
## [1] 3.99104
## [1] 4
Histogram of Y
200
150
Frequency
100
50
0
El proceso X (Gamma) modela cuánto tiempo se debe esperar para que 100
personas entren a la tienda, asumiendo una tasa de entrada de 5 por minuto.
hist(X)
9.4. DESIGUALDAD DE CRAMÉR-RAO 133
Histogram of X
200
150
Frequency
100
50
0
14 16 18 20 22 24 26 28
Z Z
fn0 (x|θ)dx1 · · · dxn = [f (x1 |θ) · · · f (xn |θ)]0 dx1 · · · dxn
Xn Xn
d Z
= f (x1 |θ) · · · f (xn |θ)dx1 · · · dxn
dθ X n
d
= 1
dθ
= 0.
Entonces
Z
fn0 (x|θ)
E[λ0n (X|θ)] = fn (x|θ)dx1 · · · dxn = 0
Xn f (x|θ)
Por lo tanto,
Sea
Z
m(θ) = r(x)fn (x | θ)dx1 . . . dxn
Xn
d Z
Cov[T, λ0n (X|θ)] = r(x)fn (x|θ)dx1 · · · dxn
dθ X n
d d
= Eθ [r(X)] = Eθ [T ] = m0 (θ)
dθ dθ
Cov[T, λ0n (X|θ)]2 ≤ Var(T )Var(λ0n (X|θ)) =⇒ [m0 (θ)]2 ≤ Var(T )In (θ).
[m0 (θ)]2
Entonces Var(T ) ≥ In (θ)
.
Caso particular. Si T es un estimador insesgado de θ, entonces Varθ (T ) ≥
1
In (θ)
.
Ejemplo. X1 , . . . , Xn ∼ Exp(β), n > 2.
f (x|β) = βe−βx , x > 0.
λ(x|β) = ln f (x|β) = ln β − βx.
λ0 (x|β) = 1
β
− x.
λ00 = − β12 .
Vea que Z ∞
1= βe−βx dx = u→∞
lı́m F (u) = u→∞
lı́m [1 − e−βu ]
0
plot(beta, n / betaˆ2)
100
80
60
n/beta^2
40
20
1 2 3 4 5
beta
1 β2
= ,
In (β) n
5
4
3
2
1
1 2 3 4 5
beta
0.25
0.20
0.15
0.10
0.05
1 2 3 4 5
beta
Ahora, estime θ = 1
β
= m(β). Un estimador insesgado de θ es T = X̄n :
1 Var(X1 ) 1
E[X̄n ] = E[X1 ] = = θ, Var(X̄n ) = = .
β n nβ 2
La cota de Cramér es
}
)
1.0
0.8
0.6
0.4
0.2
1/beta
0.008
0.004
0.000
1 2 3 4 5
beta
La cota de CR es nθ , pero
Var(X1 ) θ
Var(X̄n ) = = .
n n
9.6. COMPORTAMIENTO ASINTÓTICO DEL MLE 141
(m0 (θ))2
E[T ] = m(θ), Var(T ) =
nI(θ)
m0 (θ) 0
Entonces T = λ (X|θ)
nI(θ) n
+ m(θ). Por lo tanto,
#1 #1
1
" "
nI(θ) 2 2
[T − m(θ)] = λ0n (X|θ) −−−→ N (0, 1).
m0 (θ)2 nI(θ) n→∞
2 1/2
" #
Ejemplo. X1 , . . . , Xn ∼ N (0, σ ), con σ desconocida. σ̂n =
2 1 Pn
n i=1 Xi − X̄n
es MLE de σ y I(σ) = 2
σ2
. Usando el teorema anterior,
s
2n
(σ̂n − σ) ∼ N (0, 1) .
σ2 n→∞
O lo que es equivalente a
!
σ2
∼ N σ,
σ̂n n→∞ .
2n
1
!
∼ N θ̂n ,
θ|X n→∞ .
nI(θ̂n )
Pruebas de hipótesis
## Unseeded.Clouds Seeded.Clouds
## 1 1202.6 2745.6
## 2 830.1 1697.8
## 3 372.4 1656.0
## 4 345.5 978.0
## 5 321.2 703.4
## 6 244.3 489.1
Sin embargo usaremos los datos en escala logarítmica para facilitar el cálculo
lognubes <- log(nubes)
head(lognubes)
## Unseeded.Clouds Seeded.Clouds
145
146 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
## 1 7.092241 7.917755
## 2 6.721546 7.437089
## 3 5.919969 7.412160
## 4 5.844993 6.885510
## 5 5.772064 6.555926
## 6 5.498397 6.192567
ggplot(data = df) +
geom_histogram(aes(
x = lluvia,
y = ..density..,
fill = tratamiento
),
color = "black", bins = 10
) +
facet_wrap(. ~ tratamiento)
10.1. PRUEBAS DE HIPÓTESIS 147
Seeded.Clouds Unseeded.Clouds
0.0025
0.0020
0.0015
tratamiento
density
Seeded.Clouds
Unseeded.Clouds
0.0010
0.0005
0.0000
ggplot(data = df) +
geom_histogram(aes(
x = log_lluvia,
y = ..density..,
fill = tratamiento
), color = "black", bins = 10) +
facet_wrap(. ~ tratamiento)
148 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
Seeded.Clouds Unseeded.Clouds
0.3
0.2 tratamiento
density
Seeded.Clouds
Unseeded.Clouds
0.1
0.0
0 2 4 6 8 0 2 4 6 8
log_lluvia
Note que para el caso bayesiano, es posible calcular directamente P[µ > 4|X],
pero
H0 : hipótesis en donde θ ∈ Ω0 .
H1 : hipótesis en donde θ ∈ Ω1 .
mu0 <- 2
T <- abs(Xbar - mu0)
1.00
Promedio de veces donde T >= c
0.75
region
0.50 S_0
S_1
0.25
0.00
En este caso el valor donde decrece la curva es cercano a 0. Eso quiere decir
que antes de ese valor, nos encontramos en la región de rechazo. Luego esa
región se va haciendo cada vez más pequeña |X − µ| ≈ 0.
1.00
Promedio de veces donde T >= c
0.75
region
0.50 S_0
S_1
0.25
0.00
0 1 2 3
c
H0 : µ ≤ 4 versus H1 : µ > 4
n1/2 (X̄n − 4)
U=
σ0
Función de potencia:
154 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
mu0 <- 4
c <- 2
n <- 100
sigma <- 3
funcion_de_poder <- 1 -
pnorm(sqrt(n) * (mu0 + c - mu) / sigma) +
pnorm(sqrt(n) * (mu0 - c - mu) / sigma)
1.00
0.75
funcion_de_poder
tipo
0.50 1 - Función de poder
Función de poder
0.25
0.00
0 2 4 6 8
mu
funcion_de_poder_n_c <- 1 -
pnorm(sqrt(n) * (mu0 + mu_c[, 2] - mu_c[, 1]) / sigma) +
pnorm(sqrt(n) * (mu0 - mu_c[, 2] - mu_c[, 1]) / sigma)
library(scatterplot3d)
1.0
0.8
Función de poder
0.6
mu
8
0.4
6
4
0.2
2
0.0
0
0 1 2 3 4
Tipos de error:
Al igual que en el proceso de estimación puntual, el proceso de inferencia
estadística involucrado en una prueba de hipótesis tiene un error asociado.
En este caso se puede cometer dos tipos de errores:
Error Tipo I : error de rechazar H0 si θ ∈ Ω0 .
Error Tipo II : error de no rechazar H0 si θ ∈ Ω1 .
En términos de la función de potencia tenemos que:
Si θ ∈ Ω0 : π(θ|δ) es el error tipo I.
Si θ ∈ Ω1 : 1 − π(θ|δ) es el error tipo II.
El objetivo es seleccionar una procedimiento de prueba o regla de decisión
δ que tenga un error pequeño. Es decir buscamos que π(θ|δ) sea pequeño
cuando θ ∈ Ω0 y al mismo tiempo requerimos que π(θ|δ) sea grande cuando
θ ∈ Ω1 . Una forma de alcanzar ese balance es seleccionar α0 ∈ (0, 1) tal que
π(θ|δ) ≤ α0 ∀θ ∈ Ω0 (∗)
y entre todas las pruebas que cumplan (∗) se selecciona aquella que maximice
la potencia para θ ∈ Ω1 .
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR 157
1.00
0.75
funcion_de_poder
tipo
0.50 1 - Función de poder
Función de poder
0.25
0.00
0 2 4 6 8
mu
Nota. Bajo la primera solución se produce una asimetría entre las hipótesis,
ya que resulta difícil (o muy costoso) que ambas condiciones se cumplan. Por
lo general, se le da más énfasis a (∗), ya que se trata de controlar el error
más serio (Error tipo I). En este caso es importante anotar que un científico
puede seleccionar su hipótesis nula de manera que el error tipo I sea el más
deseable de controlar.
Definición. Una prueba que satisface (∗) se llama una prueba de nivel
α0 y decimos que la prueba tiene un nivel de significancia α0 . Además el
tamaño α(δ) de una prueba δ se define como:
H0 : 3 ≤ θ ≤ 4 H1 : θ < 3 o θ > 4.
2,9 n
n
Si θ > 4 =⇒ P[Yn ≤ 2,9|θ] = y P[Yn ≥ 4|θ] = 1 −
Y
P[Xi <
θ i=1
4
n
4|θ] = 1 − .
θ
Entonces
1 si θ ≤ 2,9
2,9 n
π(θ|δ) = si 2,9 < θ ≤ 4
θ n
2,9 4
n
1 + si θ > 4
−
θ θ
for (k in 1:length(theta)) {
if (theta[k] < 2.9) {
funcion_poder[k] <- 1
} else if (theta[k] > 2.9 & theta[k] <= 4) {
funcion_poder[k] <- (2.9 / theta[k])ˆn
} else if (theta[k] > 4) {
funcion_poder[k] <- (2.9 / theta[k])ˆn + 1 - (4 / theta[k])ˆn
}
}
1.0
0.8
funcion_poder
0.6
0.4
0.2
1 2 3 4 5 6
theta
2,9 2,9
n n
α(δ) = sup π(θ|δ) = sup = .
3≤θ≤4 3≤θ≤4 θ 3
n <- 1:100
0.4
0.2
0.0
0 20 40 60 80 100
2,9
68
Si n = 68 =⇒ α(δ) = = 0,0997.
3
Entonces si n = 68, entonces δ es una prueba con nivel de significancia
α0 ≥ 0,0997.
Pregunta importante: ¿Cómo diseñar una prueba para que tenga un cierto
nivel de significancia?
Suponga que queremos probar H0 : θ ∈ Ω0 vs H1 : θ ∈ Ω1 . Sea T un estadístico
de prueba y suponga que si T ≥ c, c constante, entonces rechazamos H0 .
Si queremos que nuestra prueba tenga nivel de significancia α0 entonces:
!
σ2
Como bajo H0 : Y = X̄n − µ0 ∼ N 0, , entonces podemos encontrar c tal
n
que
P[|X̄n − µ0 | ≥ c] = α0 ,
y cualquier c mayor va a cumplir (∗).
De esta manera el problema se convierte en encontrar c∗ tal que P[|Z| > c∗ ] =
X̄n − µ0
α0 , donde Z = √ .
σ/ n
Note que
α0 = P(|Z| > c∗ )
= P(Z > c∗ ) + P(Z < −c∗ )
= 1 − P(Z ≤ c∗ ) + P(Z < −c∗ )
= 1 − P(Z ≤ c∗ ) + 1 − P(Z < c∗ )
= 2 − 2P(Z ≤ c∗ )
Entonces
α0
P(Z ≤ c∗ ) = 1 −
2
α0
c∗ = FZ−1 1 −
2
α0
Φ(c∗ ) = 1 − =⇒ c∗ = z1− α20 .
2
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR 163
Procedimiento: rechazamos H0 si
X̄ − µ
n 0
|Z| = √ ≥ z1− α20 .
σ/ n
n <- 10
alpha0 <- 0.05
X <- rnorm(n = n, mean = 5, sd = 1)
Xbar <- mean(X)
mu0 <- 5
## [1] 1.959964
dnorm_limit <- function(x, q) {
y <- dnorm(x)
y[-q <= x & x <= q] <- NA
return(y)
}
0.4
0.3
0.2
y
0.1
0.0
-2 0 2
x
## [1] FALSE
Si preguntamos ¿Rechazamos H0 ?
abs(Z) > q
## [1] TRUE
10.3. FUNCIÓN DE POTENCIA Y TIPOS DE ERROR 165
mu0 <- 5
n <- 10
sigma <- 1
alpha0 <- 0.05
c <- qnorm(1 - alpha0 / 2) * sigma / sqrt(n)
funcion_de_poder <- 1 -
pnorm(sqrt(n) * (mu0 + c - mu) / sigma) +
pnorm(sqrt(n) * (mu0 - c - mu) / sigma)
0.6
0.4
0.2
3 4 5 6 7
mu
Sea Y = ni=1 Xi ∼ Binomial(n, p). Es trivial concluir que entre más grande
P
es p entonces más grande esperamos que sea Y . Podemos definir la regla que
166 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
n
! n
! !y
n y n p
P[Y ≥ c|p] = p (1 − p)n−y = (1 − p)n
X X
c 0 1 2 3 4 5 6
P[Y ≥ c|p0 ] 1 0.97 0.85 0.62 0.35 0.15 0.05
Para que el tamaño sea menor que 10 % seleccione c > 5. Si c ∈ [5, 6] entonces
el nivel de significancia es a lo sumo 0,15 y la prueba no cambia (ya que Y es
una variable discreta).
c <- 5
n <- 10
alpha0 <- 0.05
p <- seq(0, 1, length.out = 1000)
0.6
0.4
0.2
0.0
10.4. Valor p
Restricción. El procedimiento de prueba depende de α0 .
Pregunta. ¿Será posible construir un estadístico que resuma el grado de
evidencia en los datos en contra de H0 ?
Respuesta. Cualquier procedimiento usa las siguientes dos fuentes:
1. El valor observado del estadístico de prueba.
2. Todos los valores de α0 en donde rechazamos la nula.
Ejemplo (Caso Normal). Se rechaza H0 : µ = µ0 si |Z| > z1− α20
Ahora si α0 = 0,05 y z1− α20 = 1,96, entonces para Z = 1,97 y Z = 2,78 y
Z = 6,97 todos cumplen esa condición.
Entonces la preguntas son:
168 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
α0
z>Φ −1
1−
2
α0
Φ(z) > 1 −
2
α0 > 2(1 − Φ(z))
Si Z = 1,97 entonces α0 > 0,0488384
Si Z = 2,78 entonces α0 > 0,0054359
Si Z = 6,97 entonces α0 > 3,1694647 × 10−12
Nota: En cada caso se estimó usando el comando 2*(1-pnorm(Z)).
Definición. El valor-p es el nivel más pequeño de significancia en donde
rechazaríamos H0 bajo los datos observados.
Nota. El valor-p es un estadístico.
Si valor-p < α0 , rechazo H0 . (El valor-p es muy pequeño).
Si valor-p > α0 , no rechazo H0 . (El valor-p es muy grande).
Cálculo del valor-p
En los casos en donde la región de rechazo tiene la forma T ≥ c se puede
calcular el valor-p fácilmente. Para cada t, sea δt la prueba que rechaza H0 si
T ≥ t. Note que el valor-p cuando se observa T = t se calcula a partir de la
regla de decisión de rechazo (θ ∈ Ω0 ):
t ≥ Fθ−1 (1 − α0 )
10.5. DUALIDAD ENTRE PRUEBAS DE HIPÓTESIS Y REGIONES DE CONFIANZA169
lo cual es equivalente a:
Fθ (t) ≥ 1 − α0 =⇒ α0 ≥ Pθ [T ≥ t] =⇒ α0 ≥ sup Pθ [T ≥ t]
θ∈Ω0
σ0
X̄n ± tn−1, 1+γ √ .
2 n
1/2
donde σ 0 = n−1
1
i=1 (Xi − X̄n )
n 2
. Para cada µ0 , podemos usar el intervalo
P
H0 : µ = µ0 vs H1 : µ 6= µ0 .
σ0 σ0
µ0 > X̄n + tn−1, 1+γ √ o µ0 < X̄n − tn−1, 1+γ √ ,
2 n 2 n
que se puede resumir como
X̄ − µ
n 0
0 √ > tn−1, 1+γ
σ/ n 2
es decir 1+γ
2
=1− α
2
es el nivel de confianza en el cálculo del cuantil de la t
de Student.
n <- 1000
gamma <- 0.95
alpha <- 0.95
X <- rnorm(n = n, mean = 1, sd = 2)
mu0 <- 1
El intervalo de confianza es
c(Xbar - t_quantil * sigma_prima / sqrt(n), Xbar + t_quantil * sigma_prima / sqrt(n))
H0 : µ = 1 vs H1 : µ 6= 1.
Preguntamos ¿Rechazamos H0 ?
Z > t_quantil
## [1] FALSE
Si tuvieramos otros datos con otra media, el resultado será diferente.
n <- 1000
gamma <- 0.95
alpha <- 0.95
X <- rnorm(n = n, mean = 5, sd = 2)
mu0 <- 1
¿Rechazamos H0 ?
Z <- abs ((Xbar - mu0) / (sigma_prima / sqrt(n)))
Z > t_quantil
## [1] TRUE
Ejemplo. X1 , . . . , Xn ∼ N (µ, σ 2 ), µ desconocido, σ 2 conocido. Construya un
intervalo de confianza con nivel γ a partir de
H0 : µ = µ0 vs H1 : µ 6= µ0 .
Rechazamos H0 si
X̄ − µ
n 0
√ ≥ z1− α20 .
σ/ n
al nivel α0 . Usando los teoremas anteriores, una región de confianza con nivel
γ = 1 − α0 satisface:
( )
X̄ − µ
n
µ∈ X: √ < z1− α20 = ω(X)
σ/ n
Por tanto,
X̄ − µ σ σ
n
√ < z1− α20 ⇔ − √ z1− α20 < X̄n − µ < √ z1− α20
σ/ n n n
σ σ
⇔ X̄n − √ z1− α20 < µ < X̄n + √ z1− α20
n n
que es el IC con nivel de confianza γ = 1 − α0 para µ.
Si
ω(x) = {g0 : δg0 no rechaza H0,g0 si X = x}
H0 : p ≤ p0 vs H1 : p > p0 , p0 ∈ (0, 1)
n
Y = Xi ≥ c(p0 )
X
i=1
donde
sup Pp [Y ≥ c] = Pp0 [Y ≥ c] ≤ α0 .
p≤p0
Entonces
σ0
!
X̄n − tn−1,γ √ , ∞ .
n
σ0 X̄n − µ0
µ0 ≤ X̄n − tn−1,γ √ ⇔ T = 0 √ ≥ tn−1,γ
n σ/ n
supθ∈Ω0 fn (x|θ)
Λ(x) = .
supθ∈Ω fn (x|θ)
H0 : θ = θ0 vs H1 : θ 6= θ0 .
Verosimilitud: f (y|θ) = n
y
θy (1 − θ)n−y .
Ω0 = {θ0 }, Ω1 = [0, 1] \ {θ0 }.
Numerador: f (y|θ0 ).
!
n y
Denominador: f (y|ȳ) = ȳ (1 − ȳ)n−y .
y
!y !n−y
f (y|θ0 ) nθ0 n(1 − θ0 )
Λ(y) = = , y = 0, . . . , n.
f (y|ȳ) y n−y
n <- 10
p0 <- 0.3
y <- 0:10
alpha0 <- 0.05
0.4
0.2
0.0
0 2 4 6 8 10
y Lambda p
0 0.0282475 0.0282475
1 0.3124791 0.1210608
2 0.7731201 0.2334744
3 1.0000000 0.2668279
4 0.7978583 0.2001209
5 0.4182119 0.1029193
6 0.1465454 0.0367569
7 0.0337359 0.0090017
8 0.0047906 0.0014467
9 0.0003556 0.0001378
10 0.0000059 0.0000059
ix <- order(p)
knitr::kable(cbind(y[ix], cumsum(p[ix])))
10 0.0000059
9 0.0001437
8 0.0015904
7 0.0105921
0 0.0388396
6 0.0755965
5 0.1785159
1 0.2995767
4 0.4996976
2 0.7331721
3 1.0000000
Rechazamos H0 con nivel α0 = 0,05 en y ∈ {10, 9, 8, 7, 0} y k ∈ [0,028, 0,147)
si rechazo cuando Λ(y) ≤ k. El tamaño de prueba es
## [1] 3.841459
¿Rechazamos H0 ?
knitr::kable(data.frame(y, test = -2 * log(Lambda) > qchisq(p = 0.95, df = 1)))
y test
0 TRUE
1 FALSE
2 FALSE
3 FALSE
4 FALSE
5 FALSE
6 FALSE
7 TRUE
8 TRUE
9 TRUE
10 TRUE
178 CAPÍTULO 10. PRUEBAS DE HIPÓTESIS
Capítulo 11
2(n!)
Xi > 0
f1 (x) = (2 + Xi )n+1
P
0 si no
1 − 1 P Xi
e 2 si Xi > 0
f0 (x) = 2n
0
si no
f1 <- 2 / (2 + x)ˆ2
179
180 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES
f0 <- 1 / 2 * exp(-1 / 2 * x)
0.5
0.4
0.3
Distribución
f_0
f
f_1
0.2
0.1
0.0
H0 : θ = θ0 vs H1 : θ = θ1
1 - pexp(q = 4, rate = 1 / 2)
## [1] 0.1353353
Z 4
2
β(δ) = P[X1 < 4|θ = θ1 ] = dx1 = 0,667.
0 (2 + x1 )2
x∈S1 x∈S1c
" #
=a f0 (x) + b 1 − f1 (x)
X X
x∈S1 x∈S1
x∈S1
y lo anterior es mínimo si seleccionamos S1 de manera que af0 (x) − bf1 (x) < 0
dentro de S1 y S1 que no tiene puntos x en donde af0 (x) − bf1 (x) > 0.
Definición. Defina el Cociente de verosimilitud como:
f1 (x)
.
f0 (x)
f1 (x) 4 X1
>1⇔ exp > 1 (∗)
f0 (x) (2 + X1 )2 2
1
g(X 1 )
1 2 3 4 5 6
x
## [1] 0.08086291
y β(δ ∗ )
densidad_f1 <- function(x) {
2 / (x + 2)ˆ2
}
184 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES
1 Pn
" #
f1 (x) = (2π) −n/2
exp − (Xi − 1)2 .
2 i=1
Entonces
f1 (x) 1X n
" #
= exp − (Xi2 − 2Xi + 1 − X12 )
f0 (x) 2 i=1
" #
n
= exp nX̄n −
2
1
" #
= exp n X̄n −
2
Rechazamos H0 si
f1 (x) 1 1 ln k
" #
= exp n X̄n − > k ⇔ X̄n > + .
f0 (x) 2 2 n
| {z }
k0
Entonces, entre todas las pruebas en donde α(δ) ≤ 0,05, la que tiene el error
tipo II más pequeño es la que rechaza H0 si
z0,95 1,645
X̄n > √ = √ .
n n
H0 : p = 0,2 vs H1 : p = 0,4.
f1 (x) 3 8
n y
=
f0 (x) 4 3
y se rechaza H0 si
f1 (x) 4 8
> k ⇔ −n ln + y ln > ln k
f0 (x) 3 3
ln k + n ln(4/3)
⇔y> = k0.
ln(8/3)
Por lo tanto, se puede especificar una prueba con nivel 0.05, y con tamaño
α(δ) = 0,0328 y potencia mínima si tiene como región de rechazo Y > 4.
11.3. PRUEBAS INSESGADAS 187
π (θ0 | δ) = α0
d
π(θ | δ) =0
dθ
θ=θ0
1 1
H0 : θ = vs H1 : θ 6=
2 2
La pregunta sería cómo encontrar un test que sea insesgado?
Primero podemos hacer una prueba del cociente de verosimilitud para encon-
trar que tipo de prueba es más adecuada. Tomando t = ni=1 Xi :
P
(1/2)n exp(−t/2)
n
t
Λ(x) = = exp(n − t/2)
(n/t) exp(−n)
n 2n
n <- 10
t <- 1:50
plot(t, f)
abline(h = 0.2, col = "red")
1.0
0.8
0.6
f
0.4
0.2
0.0
0 10 20 30 40 50
return(c(zero, alpha))
}
sol$par
Derivando (ver 9.4.13 del libro), se plantea la segunda ecuación del sistema:
∂ n
G(x; n, θ) = [G(x; n, θ) − G(x; n + 1, θ)]
∂θ θ
por lo tanto
d
π(θ | δ) =0
dθ θ=θ0
⇐⇒ G0 (c1 ; 3, 1/2) − G0 (c2 ; 3, 1/2) = 0
lo cual es equivalente a:
3 3
!
[G(c1 ; 3, 1/2) − G(c1 ; 4, 1/2)] − [G(c2 ; 3, 1/2) − G(c2 ; 4, 1/2)] = 0
1/2 1/2
q = c2,
shape = n,
rate = 1 / 2,
lower.tail = FALSE
)
return(c(zero, alpha))
}
sol$par
11.4. Prueba t
La prueba t se aplica cuando tanto la media µ como la desviación estándar σ
son desconocidas en el caso de una muestra normal, y se busca hacer inferencia
sobre µ.
Suponga que X1 , . . . , Xn ∼ N (µ, σ 2 ), con (µ, σ 2 ) desconocidos, y considere
las siguientes hipótesis:
H0 : µ ≤ µ0 vs H1 : µ > µ0 .
X̄n − µ0
Recuerde que si U = √ , entonces la prueba rechaza H0 si U ≥ c. Si
σ0/ n
µ = µ0 entonces U ∼ tn−1 .
Si H0 : µ ≥ µ0 vs H1 : µ < µ0 , entonces se rechaza H0 si U ≤ c.
192 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES
Histogram of Nursing$InPatientDays
12
10
8
Frequency
6
4
2
0
Nursing$InPatientDays
√ (X − µ)
U= n
σ0
¿Rechazamos H0 ?
U > quantil_t
## [1] FALSE
Entonces no tenemos suficiente evidencia en la muestra para rechazar la
hipótesis H0 con un nivel de significancia del 10 %.
Ejemplo:
## [1] 0.9064029
t.test(x, alternative = "greater", mu = 200)
##
## One Sample t-test
##
## data: x
## t = -1.3369, df = 51, p-value = 0.9064
## alternative hypothesis: true mean is greater than 200
## 95 percent confidence interval:
## 163.6466 Inf
## sample estimates:
## mean of x
## 183.8654
X̄n − µ0
Región de rechazo: δ: U ≥ c con U = √ .
σ0/ n
Función de potencia:
11.4. PRUEBA T 195
" #
X̄n − µ0
P[Rechazo|µ] = P √ ≥ tn−1,1−α0 µ
σ0/ n
X̄n + µ − µ − µ0
" #
== P √ ≥ tn−1,1−α0 µ
σ0/ n
" #
X̄n − µ µ − µ0
=P √ + √ ψ̂ ≥ t µ
0 0 n−1,1−α0
σ/ n σ/ n
| {z } | {z }
∆
Observe que
√
n(X̄n − µ)
X̄n − µ σ σ N (0, 1)
∆= 0 √ · = 0 ∼s 2 ∼ tn−1 .
σ/ n σ σ χn−1
σ n−1
ψ
√ √ z√ }| {
n(X̄n − µ0 ) n n
(X̄n − µ) + (µ − µ0 ) N (ψ, 1)
U= σ = σ σ ∼s 2 .
0 0
σ σ χn−1
σ σ n−1
## [1] 0.02792138
0,2199 − 0
U= 0,5342 = 5,271 > t163,1−0,01 = 2,35.
√
164
El valor-p de la prueba es
√
σ µ − µ0 σ/4 − 0 164
µ= =⇒ ψ = √ = √ = = 3,2.
4 σ/ n σ/ 164 3
π(µ|δ) = P[U ≥ tn−1,1− α20 |µ]+P[U ≤ −tn−1,1− α20 |µ] = Tn−1 (−c|ψ)+1−Tn−1 (c|ψ).
α0
|u| ≥ tn−1,1− α20 ⇔ Tn−1 (|U |) ≥ 1 − ⇔ α0 ≥ 2[1 − Tn−1 (|u|)] .
2 | {z }
valor-p
198 CAPÍTULO 11. PRUEBAS CON HIPÓTESIS SIMPLES
Prueba de comparación de
medias en 2 poblaciones
i=1 i=1
Teorema. Considere
199
200CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES
=⇒ c = Tn+m−2
−1
(1 − α0 )
n <- nrow(nubes)
## [1] 5.134187
(Ybar <- mean(sin_tratamiento))
## [1] 3.990406
(S2_X <- (n - 1) * var(con_tratamiento))
## [1] 63.96109
(S2_Y <- (n - 1) * var(sin_tratamiento))
## [1] 67.39158
Entonces el estadístico que queremos construir para comparar la medias es
(OJO en este caso m = n porque tienen la misma cantidad de datos: )
(U <- sqrt(n + n - 2) * (Xbar - Ybar) /
(sqrt(1 / n + 1 / n) * sqrt(S2_X + S2_Y)))
## [1] 2.544369
Por tanto se debe comparar con una t-student con 26 + 26 − 2 = 50 grados
de libertad. Asuma un α = 0,01
(qnt <- qt(p = 1 - 0.01, df = n + n - 2))
## [1] 2.403272
¿ Rechazamos H0 ?
U > qnt
## [1] TRUE
¿Cuál es el p-valor?
202CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES
1 - pt(q = U, df = n + n - 2)
## [1] 0.007041329
Interpretación: rechazamos al nivel 1 % de significancia la hipótesis de que las
nubes irradiadas tienen una log-precipitación media menor a la de las nubes
no irradiadas. En general se rechaza la hipótesis nula ante cualquier nivel de
significancia superior a 0.007.
H0 : µ1 = µ2 H1 : µ1 6= µ2
n + m - 2
12.3. PRUEBA F 203
## [1] 16
Xbar <- 2.6
Ybar <- 2.3
## [1] 3.442652
Si α0 = 1 %
(qnt <- qt(p = 1 - 0.01 / 2, df = n + m - 2))
## [1] 2.920782
Entonces, ¿Rechazamos H0 ?
abs(U) > qnt
## [1] TRUE
El valor p es 2[1 − T16 (|3,442|)]
2 * (1 - pt(q = U, df = n + m - 2))
## [1] 0.003345064
Interpretación: Rechazamos al 1 % de significancia la hipótesis de una diferen-
cia no significativa entre las cantidades medias de cobre en cada localización.
En general, rechazamos la misma hipótesis para cualquier nivel de significancia
superior a 0.0033.
Ejercicio. La prueba t de 2 muestras es un LRT.
12.3. Prueba F
Definición Si Y y W son variables aleatorias independientes, Y ∼ χ2m y
W ∼ χ2n , m, n ∈ Z+ . Defina
204CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES
Y /m
X= ∼ Fm,n
W/n
Propiedades:
1. Si X ∼ Fm,n =⇒ 1/X ∼ Fn,m .
2. Si Y ∼ tn =⇒ Y 2 ∼ F1,n .
3. Los siguientes esquemas son equivalentes:
U ∼ tn−1 U 2 ∼ F1,n−1
H0 : µ = µ0 ⇔ H0 : µ = µ0
|U | ≥ |c| U 2 ≥ c∗
i.i.d i.i.d
Sean X1 , . . . , Xn ∼ N (µ1 , σ12 ) y Y1 , . . . , Yn ∼ N (µ2 , σ22 ). Si (X, Y ) son
independientes, considere:
2
SX
V = m− 1
SY2
n−1
Interpretación?
Es decir tener 20 datos normales con σ12 = 6 y 40 datos normales con σ22 = 2.
En todo caso asuma que σ es desconocidos para cada caso y solo tenemos los
datos. Además queremos hacer la prueba de hipótesis
12.3. PRUEBA F 207
H0 : σ12 ≤ σ22
H1 : σ12 > σ22
Calculamos el estadístico V
(S2_X_divido_m_1 <- var(X))
## [1] 7.319257
(S2_Y_divido_n_1 <- var(Y))
## [1] 1.712337
(V <- S2_X_divido_m_1 / S2_Y_divido_n_1)
## [1] 4.274424
## [1] 1.85992
¿Rechazamos H0 ?
V > qnt
## [1] TRUE
y el valor-p de la prueba es
1 - pf(q = V, df1 = m - 1, df2 = n - 1)
## [1] 6.111004e-05
α0 α0 α0 α0
P[V ≤ c1 ] = y P[V ≥ c2 ] = =⇒ c1 = G−1 y c2 = G−1 1−
2 2 m−1,n−1
2 m−1,n−1
2
H0 : σcon
2
trat. = σsin trat.
2
vs H1 : σcon
2
trat. 6= σsin trat.
2
(m <- length(con_tratamiento))
## [1] 26
(n <- length(sin_tratamiento))
## [1] 26
(S2_X_divido_m_1 <- var(con_tratamiento))
## [1] 2.558444
(S2_Y_divido_n_1 <- var(sin_tratamiento))
## [1] 2.695663
(V <- S2_X_divido_m_1 / S2_Y_divido_n_1)
## [1] 0.9490963
63,96
25 = 0,9491
V = 67,39
25
## [1] 0.4483698
(c2 <- qf(0.975, df1 = m - 1, df2 = n - 1))
## [1] 2.230302
¿Rechazamos H0 ?
V < c1
## [1] FALSE
V > c2
## [1] FALSE
No rechazamos la hipótesis nula.
Si observamos V = v, podemos rechazar si
α0
v≤ G−1 =⇒ 2Gm−1,n−1 (v) ≤ α0
m−1,n−1
2
o tambien si
α0 α0
v≥ G−1 1− =⇒ Gm−1,n−1 (v) ≥ 1− =⇒ α0 ≥ 2Ḡm−1,n−1 (v)
m−1,n−1
2 2
## [1] 0.8971154
Interpretación: La prueba de hipótesis rechaza la hipótesis de homocedas-
ticidad con niveles de significancia de al menos 0.897. Es decir no se rechaza
la hipótesis con un nivel de 0.05.
Propiedad. La prueba F es un LRT.
210CAPÍTULO 12. PRUEBA DE COMPARACIÓN DE MEDIAS EN 2 POBLACIONES
Capítulo 13
Bondad de ajuste
13.1. Prueba χ2
Suponga que se tienen datos categóricos, es decir datos en los cuales el
rango de la variable asume un número finito de categorías o estados (niveles).
Ejemplo: Por ejemplo suponga que tenemos información del tipo de sangre
en la población de un lugar específico, entonces
211
212 CAPÍTULO 13. BONDAD DE AJUSTE
pi = P[Categoría i], i = 1, . . . , k
H0 : pi = p0i para i = 1, . . . , k
(N1 , . . . , Nk ) ∼ Multinomial(n, p1 , . . . , pk )
(
n
px1 1 · · · pxkk if x1 + · · · + xk = n
Pr (X1 = x1 , . . . , Xk = xk ) = x1 ,...,xk
0 otherwise.
donde
13.1. PRUEBA χ2 213
!
n n!
=
x1 , . . . , x k x1 !x2 ! · · · xk !
k
(Ni − np0i )2
Q=
X
.
i=1 np0i
Q −→ χ2k−1 .
H0
PH0 [Q ≥ c] ≤ α0 =⇒ c = Fχ−1
2 (1 − α0 )
k−1
k
(observadoi − esperadoi )2
Q=
X
.
i=1 esperadoi
Reglas empíricas
1. La aproximación (Q ∼ χ2k−1 ) funciona muy bien si np0i ≥ 5.
2. La aproximación es buena si np0i ≥ 1,5, i = 1, . . . , k.
Ejemplo: Continuando con el ejemplo, suponga que se observan 6004 personas
de raza blanca en California y tienen las siguientes estadísticas e hipótesis:
214 CAPÍTULO 13. BONDAD DE AJUSTE
##
## Chi-squared test for given probabilities
##
## data: observado
## X-squared = 20.359, df = 3, p-value = 0.000143
Rechazamos la hipótesis de que las probabilidades teóricas de tipo de sangre
son iguales a los valores hipotéticos.
Ejemplo. Sean 0 < Xi < 1, i = 1, 2, . . . , 100. Asuma que Xi ∼ f donde f
una densidad continua. Considere las alternativas:
13.1. PRUEBA χ2 215
i−1 i
≤ Xj <
20 20
.
Nivel 1 2 ··· 20
Frecuencia N1 N2 ··· N20
i Xi Grupo
1 X1 2
2 X2 4
3 X3 17
.. .. ..
. . .
100 X100 20
1
y además note que np0i = 100 · = 5, i = 1, . . . , 20.
20
Entonces el estadístico χ2 es:
20
(Ni − 5)2
Q=
X
.
i=1 5
ii. Determine las probabilidades p0i hipotéticas que se asignará cada subin-
tervalo. El valor teórico para cada subintervalo será np0i
iii. Cuente las observaciones que caen en cada subintervalo. Llame este
valor Ni
hist(x)
13.1. PRUEBA χ2 217
Histogram of x
8
6
Frequency
4
2
0
0 50 100 150
hist(log_x)
Histogram of log_x
7
6
5
Frequency
4
3
2
1
0
log_x
5 1
p0i = P[log-tiempo pertenezca al i-ésimo intervalo] ≥ ≈ .
23 4
G1 G2 G3 G4
3 4 8 8
chisq.test(conteos)
##
## Chi-squared test for given probabilities
##
## data: conteos
## X-squared = 3.6087, df = 3, p-value = 0.3069
Nota: La función chisq.test si no se llama con ninguna hipótesis nula
p, esta asume que p = 1/n para cada categoría. En este caso como son 4
categorías sería 1/4.
Con un nivel de significancia de al menos un 31 % aproximadamente, se
rechazaría la hipótesis de normalidad con esa escogencia de parámetros.
Nota: Otra escogencia de paramétros podría dar un resultado distinto.
En esta sección veremos una técnica para lidiar con este problema.
Escriba cada pi (i = 1, . . . , k) como
pi = πi (θ), θ = (θ1 , . . . , θs )
H1 : lo anterior no es cierto
El estadístico de prueba es
k
[Ni − nπi (θ̂)]2
Q=
X
p1 = θ2 = π1 (θ),
p2 = 2θ(1 − θ) = π2 (θ),
p3 = (1 − θ)2 = π3 (θ).
s = 1, Ω = [0, 1].
Como la distribución de (N1 , . . . , Nk ) ∼ Multinomial(n, p1 , . . . , pk ), se obtiene
H0
la verosimilitud
!
n
L(θ|N1 , . . . , Nk ) = (π1 (θ))N1 · · · (πk (θ))Nk
N1 · · · Nk
Retomando el ejemplo,
1
!
Z bi
bi − µ ai − µ
πi (µ, σ ) =
2
(2πσ )
2 −1/2
exp − 2 (x − µ)2 dx = Φ −Φ
ai 2σ σ σ
La verosimilitud es
222 CAPÍTULO 13. BONDAD DE AJUSTE
y se optimiza numéricamente.
cortes <- qnorm(
p = c(0, 1 / 4, 2 / 4, 3 / 4, 1),
mean = log(50),
sd = sqrt(0.25)
)
pi <- numeric()
for (k in 1:(G - 1)) {
pi[k] <- pnorm(q = cortes[k + 1], mean = mu, sd = sigma) -
pnorm(q = cortes[k], mean = mu, sd = sigma)
}
return(l)
}
sol$par
13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS 223
pi <- numeric()
for (k in 1:(G - 1)) {
pi[k] <- pnorm(q = cortes[k + 1], mean = mu, sd = sigma) -
pnorm(q = cortes[k], mean = mu, sd = sigma)
}
224 CAPÍTULO 13. BONDAD DE AJUSTE
pi
##
## Chi-squared test for given probabilities
##
## data: conteos
## X-squared = 1.3381, df = 3, p-value = 0.7201
Entonces
size = 2
) +
stat_function(
fun = dnorm,
args = list(mean = mean(log_x), sd = sd(log_x)),
aes(color = "Hipótesis con MLE"),
size = 2
) +
theme_minimal()
1.5
1.0
colour
density
0.5
0.0
3 4 5 6
x
Conteos 0 1 2 3 ≥ 4 Total
Núm. de obs. 144 91 32 11 2 280
df <- data.frame(
conteos = c(0, 1, 2, 3, 4),
observaciones = c(144, 91, 32, 11, 2)
)
150
100
observaciones
50
0 1 2 3 4
conteos
H0 : f = Poisson(θ), θ > 0.
El MLE de θ̂ es
0 · 144 + 1 · 91 + 2 · 32 + 3 · 11 + 2 · 4 196
= = 0,7
280 280
e−θ̂ θ̂
π2 (θ̂) = = 0,3476.
1!
13.2. PRUEBAS χ2 CON HIPÓTESIS PARAMETRIZADAS 227
e−θ̂ θ̂2
π3 (θ̂) = = 0,1217.
2!
e−θ̂ θ̂3
π4 (θ̂) = = 0,0283.
3!
0.5
0.4
observaciones/total
0.3
colour
Hipótesis con MLE
0.2
0.1
0.0
0 1 2 3 4
x
Capítulo 14
Tablas de contingencia
229
230 CAPÍTULO 14. TABLAS DE CONTINGENCIA
j=1
R
N+j = Nij .
X
i=1
R X
C
Nij = n.
X
i=1 j=1
j=1
R
p+j = P[Individuo se clasifique en la columna j] = pij .
X
i=1
columna j.
C
R X
pij = 1.
X
i=1 j=1
C
R X
(Nij − Êij )2
Q= χ2k−s−1
X
∼
i=1 j=1 Êij n grande, H0
59 · 92
Ê11 = = 27,14
200
38 · 64
Ê32 = = 12,165
200
La tabla de valores esperados bajo H0 es
## knitr::kable(M)
##
## Pearson’s Chi-squared test
##
## data: M
## X-squared = 6.6849, df = 6, p-value = 0.351
14.2. PRUEBA DE HOMOGENEIDAD 233
Definimos, para i = 1, . . . , R y j = 1, . . . , C:
La hipótesis de homogeneidad es
C
(Nij − Ni+ pij )2
Q(i) =
X
Supuesto. Las R muestras son independientes. Esto implica que {Q(i) }i son
variables independientes y
R X
C
(Nij − Ni+ pij )2
Q= ∼ χ2R(C−1)
X
R X
2
(Nij − Êij )2
Q= ∼ χ2R−1
X
.
Ejemplo. 100 personas se seleccionan aleatoriamente en una ciudad. Se les
pregunta si los bomberos trabajan bien. Ocurre un incendio y después se les
pregunta lo mismo.
Satisfactoria No satisfactoria
Antes del incendio 80 20
Después del incendio 72 28
y para mujeres
entonces
Pruebas de
Kolmogorov-Smirnov
k
Fn (x) = .
n
241
242 CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV
0 si x < x(1)
1 Xn
Fn (x) = 1{x ≤x} si x(1) ≤ x < x(n)
n i=1 i
1 si x(n) ≥ x
Como {Xi }ni=1 son independientes, {1{Xi ≤x} }ni=1 son independientes. Entonces,
por la ley de grandes números
1X n
Fn (x) = 1{Xi ≤x} −−−→ E[1Xi ≤x ] = F (x)
P
n i=1 n→∞
Ejemplo Recuerden el ejemplo de los 23 tiempos de vida útil para una parte
mecánica de un automóvil.
x <- c(
17.88, 28.92, 33, 41.52, 42.12, 45.6, 48.8, 51.84, 51.96, 54.12, 55.56,
67.8, 68.44, 68.64, 68.88, 84.12, 93.12, 98.64, 105.12, 105.84, 127.92,
128.04, 173.4
)
df <- as.data.frame(x)
1.00
0.75
colour
0.50
y
F_n(x)
0.25
0.00
50 100 150
x
1.00
0.75
colour
0.50 F_n(x)
y
F(x)
0.25
0.00
Entonces
− 0.
P
Dn →
H0 : F = F ∗ vs H1 : F 6= F ∗
Entonces Z1 , . . . , Zn ∼ Unif(0, 1)
H0
Dn∗,G = sup |Gn (z)−G∗ (z)| = sup |Gn (z)−FUnif(0,1) (z)| = sup |Gn (z)−z|
0<z<1 0<z<1 0<z<1
Observe que
1X n
1X n
1X n
Gn (z) = 1{Zi ≤z} = 1{F ∗ (Xi )≤z} = 1{Xi ≤(F ∗ )−1 (z)} = Fn ((F ∗ )−1 (z))
n i=1 n i=1 n i=1
∞
2 t2
lı́m P(n1/2 Dn∗ ≤ t) = 1 − 2 (−1)i−1 e−2i =: H(t).
X
n→∞
i=1
t H(t) t H(t)
0.30 0.0000 1.20 0.8878
0.35 0.0003 1.25 0.9121
0.40 0.0028 1.30 0.9319
0.45 0.0126 1.35 0.9478
0.50 0.0361 1.40 0.9603
0.55 0.0772 1.45 0.9702
0.60 0.1357 1.50 0.9778
0.65 0.2080 1.60 0.9880
0.70 0.2888 1.70 0.9938
0.75 0.3728 1.80 0.9969
0.80 0.4559 1.90 0.9985
0.85 0.5347 2.00 0.9993
0.90 0.6073 2.10 0.9997
0.95 0.6725 2.20 0.9999
1.00 0.7300 2.30 0.9999
1.05 0.7798 2.40 1.0000
1.10 0.8223 2.50 1.0000
1.15 0.8580
Los valores más comunes de cuantiles para las pruebas son
α H −1 (1 − α)
0.01 1.63
0.05 1.36
0.1 1.22
Ejemplo:
En el caso de las partes mecánicas quisiéramos saber si los log-valores siguen
o no una distribución normal.
02
Dado que queremos comparar estos valores con un N (µ̂, σ ), entonces
ks.test(
x = log(x),
y = "pnorm",
mean = mean(log(x)),
248 CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV
sd = sd(log(x))
)
##
## One-sample Kolmogorov-Smirnov test
##
## data: log(x)
## D = 0.091246, p-value = 0.9815
## alternative hypothesis: two-sided
Note que estos parámetros de localización y escala son muy importantes
ya que si se quisiera comparar con una distribución N (0, 1) el resultado es
diferente.
ks.test(
x = log(x),
y = "pnorm",
mean = 0,
sd = 1
)
##
## One-sample Kolmogorov-Smirnov test
##
## data: log(x)
## D = 0.99803, p-value = 4.441e-16
## alternative hypothesis: two-sided
H0 : µ1 = µ2 vs H1 : µ1 6= µ2
H0 es verdadera
Para el caso de dos muestras se puede probar que si H(t) es la distribución
límite en el caso de una muestra y t > 0, entonces se cumple que
1 !
mn
2
lı́m P Dmn ≤ t = H(t)
m,n→∞ m+n
1
mn 2
En este caso se rechaza la hipótesis nula si Dmn ≥ H −1 (1 − α0 ).
m+n
Ejemplo Suponga que se tienen dos grupos de personas a las cuales a unas se
les dio un tratamiento para la presión arterial y al otro se le dio un placebo.
A cada persona en cada grupo se le midió las diferencias en las presiones
arteriales al inicio y al final de 12 semanas de tratamiento con un suplemento
con calcio.
Los resultados fueron estos
Medicina <- c(7, -4, 18, 17, -3, -5, 1, 10, 11, -2)
Placebo <- c(-1, 12, -1, -3, 3, -5, 5, 2, -11, -1, -3)
##
## Two-sample Kolmogorov-Smirnov test
##
## data: Medicina and Placebo
## D = 0.40909, p-value = 0.3446
## alternative hypothesis: two-sided
250 CAPÍTULO 15. PRUEBAS DE KOLMOGOROV-SMIRNOV
ggplot(df) +
stat_ecdf(aes(x, color = Tratamiento)) +
theme_minimal()
1.00
0.75
Tratamiento
0.50 Medicina
y
Placebo
0.25
0.00
-10 0 10
x
Capítulo 16
Pruebas no-paramétricas:
pruebas de signo y rango
P(Xi ≤ µ) = 0, 5.
1
La densidad de una distribución Cauchy se define como f (x; x0 , γ) =
1 γ2
,, donde x0 y γ son parámetros de localización y escala respecti-
πγ (x − x0 )2 + γ 2
vamente. Esta distribución no tiene ningún momento definido y su mediana es x0 .
2
Importante: Aunque normalmente se denota µ como la media, en este capítulo µ es
la mediana.
251
252CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO
H0 :µ ≤ µ0
H1 :µ > µ0
¿Por qué esta prueba? Note que esta se basa en el hecho de que µ ≤ µ0 si y
solo si P(Xi < µ0 ) ≥ 0, 5 para i = 1, . . . , n.
Y1 , . . . , Yn ∼ Bernoulli(p).
c
1 n c+1
1 n
! !
X n X n
≤ α0 <
w=0 w 2 w=0 w 2
Se rechaza H0 si W ≤ c.
1
H0 :µ 6= µ0 p=
2
1
H1 :µ 6= µ0 p 6=
2
c
1 n c+1
1
n
! !
X n α0 X n
≤ <
w=0 w 2 2 w=0 w 2
c
!
n
P(W ≤ c) = (1 − p)n−w pw
X
w=0 w
175
x
150
125
H0 :µ = 150
H1 :µ =
6 150
## diferencias signo_negativo
## 1 36 FALSE
## 2 31 FALSE
## 3 26 FALSE
## 4 -1 TRUE
## 5 34 FALSE
16.1. PRUEBA DE SIGNO 255
## 6 40 FALSE
## 7 8 FALSE
## 8 -11 TRUE
## 9 25 FALSE
## 10 -2 TRUE
## 11 2 FALSE
## 12 -39 TRUE
## 13 -9 TRUE
## 14 3 FALSE
## 15 40 FALSE
## 16 7 FALSE
## 17 -19 TRUE
## 18 -1 TRUE
## 19 -15 TRUE
## 20 -18 TRUE
summary(M$signo_negativo)
## [1] 0.8238029
Rechazamos la hipótesis nula con un nivel α0 ≥ 0,8238.
Este mismo problema se puede resolver con la función binom.test de R (x
es el número de signos negativos y n es el número total de datos).
binom.test(x = 9, n = 20)
##
## Exact binomial test
##
## data: 9 and 20
## number of successes = 9, number of trials = 20, p-value = 0.8238
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
256CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO
## 0.2305779 0.6847219
## sample estimates:
## probability of success
## 0.45
H0 :F = G
H1 :F =
6 G
(W(1) , . . . , W(n+m) )
Para una muestra como X1 , . . . , Xm se tiene que las posiciones de cada uno
los datos se puede escribir como variables aleatorias
16.2. PRUEBA DE WILCONXON-MANN-WHITNEY 257
m(m + n + 1) mn(m + n + 1)
!
S ∼N , .
H0 2 12
m(m + n + 1)
S − ≥c
2
dfw
## W variable rango
## 1 2.120 y 1
## 2 2.153 y 2
## 3 2.183 x 3
## 4 2.213 y 4
## 5 2.240 y 5
## 6 2.245 y 6
## 7 2.266 y 7
## 8 2.281 y 8
## 9 2.336 y 9
## 10 2.431 x 10
## 11 2.556 x 11
## 12 2.558 y 12
## 13 2.587 y 13
16.2. PRUEBA DE WILCONXON-MANN-WHITNEY 259
## 14 2.629 x 14
## 15 2.641 x 15
## 16 2.715 x 16
## 17 2.805 x 17
## 18 2.840 x 18
ggplot(dfw, aes(y = W, fill = variable)) +
geom_boxplot() +
theme_minimal()
2.7
variable
2.5
W
x
y
2.3
2.1
-0.2 0.0 0.2
(m <- length(x))
## [1] 8
(n <- length(y))
## [1] 10
## [1] 76
260CAPÍTULO 16. PRUEBAS NO-PARAMÉTRICAS: PRUEBAS DE SIGNO Y RANGO
## [1] 126.6667
Tomamos la suma de todos los rangos de la muestra X:
S <- dfw %> %
filter(variable == "x") %> %
summarise (S = sum(rango))
(S <- as.numeric(S))
## [1] 104
√
La variable S sigue una distribución N (76, 126,67). Por lo tanto su p-valor
es
2 * (1 - pnorm(q = (S - media_S) / sqrt(var_S)))
## [1] 0.01285124
Rechazamos H0 si el nivel de significacia α0 > 0,0128
La función en R wilcox.test calcula la misma prueba, aunque esta hace
algunos ajustes adicionales a los rangos, por eso los valores son ligeramente
diferentes. Los detalles los pueden consultar en la ayuda de la función.
wilcox.test(x, y)
##
## Wilcoxon rank sum exact test
##
## data: x and y
## W = 68, p-value = 0.01166
## alternative hypothesis: true location shift is not equal to 0