Documentos de Académico
Documentos de Profesional
Documentos de Cultura
IyDapuntes PDF
IyDapuntes PDF
Enero de 2006
Índice abreviado
Capı́tulo 1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
i
Índice general
Índice abreviado I
Índice general II
Prólogo VII
1. Introducción 1
1.1. Datos y modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1. Variables y vectores aleatorios . . . . . . . . . . . . . . . . 3
1.2.2. Distribución de una variable aleatoria. Funciones de dis-
tribución, de probabilidad y de densidad . . . . . . . . . . 4
1.2.3. Esperanza y varianza . . . . . . . . . . . . . . . . . . . . . 5
1.2.4. Muestra aleatoria simple . . . . . . . . . . . . . . . . . . . 6
1.2.5. Modelo paramétrico . . . . . . . . . . . . . . . . . . . . . 7
1.2.6. Sumas de variables aleatorias . . . . . . . . . . . . . . . . 8
1.3. Dos familias de distribuciones importantes . . . . . . . . . . . . . 12
1.3.1. Familias de localización y escala . . . . . . . . . . . . . . 12
1.3.2. Familias exponenciales . . . . . . . . . . . . . . . . . . . . 13
1.4. Muestreo de una distribución normal . . . . . . . . . . . . . . . . 13
1.4.1. Distribuciones asociadas a la normal . . . . . . . . . . . . 16
1.5. Leyes de los Grandes Números y Teorema Central del Lı́mite . . 18
1.5.1. Leyes de los grandes números . . . . . . . . . . . . . . . . 18
1.5.2. Teorema central del lı́mite . . . . . . . . . . . . . . . . . . 19
1.5.3. Versiones multivariantes . . . . . . . . . . . . . . . . . . . 20
1.6. Lista de problemas . . . . . . . . . . . . . . . . . . . . . . . . . . 21
iii
iv ÍNDICE GENERAL
Referencias 243
Prólogo
vii
Capı́tulo 1
Introducción
Ejemplo 1
Se desea estimar la proporción de estudiantes universitarios que no se duchan
desde hace dos dı́as o más. Supongamos que podemos entrevistar a 20 estudian-
tes.
1
2 CAPÍTULO 1. INTRODUCCIÓN
Ejemplo 2
Estudio de la aspirina.
Con el fin de determinar si la aspirina tiene algún efecto preventivo en los ataques
cardı́acos se desarrolló un estudio controlado entre médicos (aproximadamente
22.000) entre 40 y 84 años que tomaron bien una aspirina (325 mg.) bien un
placebo durante cinco años. Los resultados del estudio fueron los siguientes:
¿Hay suficiente evidencia para concluir que la aspirina protege contra los ataque
de corazón? Se plantea aquı́ un problema de decisión o el contraste de
una hipótesis.
. .
Los datos que aparecen en los problemas estadı́sticos pueden suponerse pro-
venientes de un experimento, es decir, son valores en un espacio muestral.
Ejemplo 3
Se desea estudiar la proporción de enfermos que responde positivamente a una
nueva terapia.
Se podrı́a pensar en administrar la medicina a todos los enfermos que lo
deseen y utilizar como resultado del estudio las respuestas de los pacientes tra-
tados con la nueva terapia, aunque esta muestra responde a un experimento
no controlado y puede ser difı́cil obtener resultados extrapolables a toda la po-
blación. Serı́a más aconsejable identificar la población a la que está dirigida la
1.2. VARIABLE ALEATORIA 3
X : Ω −→ IR
Por otro lado, la esperanza de una variable aleatoria continua se puede calcular
ası́: Z
E(X) = xfX (x)dx.
IR
6 CAPÍTULO 1. INTRODUCCIÓN
Ejemplo 4
Si X ∼ N (µ, σ 2 ),
1 1 2
fX (x|µ, σ 2 ) = √ e− 2σ2 (x−µ) .
2πσ 2
La distribución de X es conocida salvo por dos parámetros, µ y σ 2 . En este caso
k = 2, θ = (µ, σ 2 )2 y Θ = IR × IR+ ⊂ IR2 .
1 Pn 1
− 12 (xi −µ)2 − 1
||x−1n µ||2
f ( x |µ, σ 2 ) = e 2σ i=1 = e (2πσ2 )n
X e 2
(2πσ ) n 2
(2πσ ) n
e
donde 1n = (1, . . . , 1)t ∈ IRn .
. .
8 CAPÍTULO 1. INTRODUCCIÓN
Ejemplo 5
n
X
T (X1 , . . . , Xn ) = Xi , X, X + 3, mı́n{X1 , . . . , Xn }
i=1
Xn n
X
T (X1 , . . . , Xn ) = ( Xi , (Xi − X)2 )
i=1 i=1
n
X n
X
T (X1 , . . . , Xn ) = (mı́n{X1 , . . . , Xn }, Xi , (Xi − X)2 )
i=1 i=1
T (X1 , . . . , Xn ) = (X1 , . . . , Xn )
. .
Ejemplo 6
T (X1 , . . . , Xn ) = X es un estimador de µ = E(X).
. .
Pn
Teorema 1 Sean x1 , . . . , xn n números reales, sea x = n1 i=1 xi su media
Pn
aritmética y sea S 2 = i=1 (xi − x)2 /(n − 1) su varianza muestral.
Pn Pn
(a) mı́na − a)2 = i=1 (xi − x)2 .
i=1 (xi
Pn Pn
(b) (n − 1)S 2 = i=1 (xi − x)2 = i=1 x2i − nx2 .
Demostración:
(a)
n
X n
X
(xi − a)2 = (xi − x + x − a)2 =
i=1 i=1
n
X n
X n
X
(xi − x)2 + (x − a)2 + 2 (xi − x)(x − a) =
i=1 i=1 i=1
n
X n
X n
X
(xi − x)2 + (x − a)2 + 2(x − a) (xi − x) =
i=1 i=1 i=1
Pn
(observar que i=1 (xi − x) = 0)
n
X n
X n
X
(xi − x)2 + (x − a)2 ≥ (xi − x)2 .
i=1 i=1 i=1
(b) Trivial.
(a) E(X) = µ,
(c) E(S 2 ) = σ 2 .
Demostración: (a), (b) Triviales, por el lema anterior y las propiedades básicas
de la esperanza y la varianza.
(c)
n
X 2 2
(n − 1)S 2 = Xi2 − nX =⇒ (n − 1)E(S 2 ) = nE(X 2 ) − nE(X ) =
i=1
1
n(V (X) + E(X)2 ) − n(V (X) + E(X)2 ) = nσ 2 + nµ2 − n σ 2 − nµ2 =
n
(n − 1)σ 2 =⇒ E(S 2 ) = σ 2 .
2
2
1.2. VARIABLE ALEATORIA 11
Ejemplo 7
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ). Entonces,
σ 2 t2
MX (t) = exp(µt + ).
2
Ası́,
µ ¶n
µt σ 2 (t/n)2 σ 2 t2
MX (t) = exp( + ) = exp(µt + )
n 2 2n
y, por tanto, X ∼ N (µ, σ 2 /n).
. .
Ejemplo 8
X1 , . . . , Xn m.a.s. de X ∼ γ(α, β). Entonces,
xα−1 e−x/β
fX (x) = , x > 0, E(X) = αβ, V (X) = αβ 2 ,
Γ(α)β α
µ ¶α
1 1
MX (t) = , t< .
1 − βt β
Ası́,
µµ ¶α ¶n µ ¶αn
1 1
MX (t) = =
1 − βt/n 1 − (β/n)t
y, por lo tanto, X ∼ γ(nα, β/n).
Un caso particular de distribución gamma es la distribución exponencial.
Si X es exponencial de media µ, entonces X ∼ γ(1, µ). Ası́ que la media de
exponenciales de media µ será una γ(n, µ/n) que tendrá
µ µ2 µ2
E(X) = n = µ, V (X)n 2 = .
n n n
. .
Proposición 1
(a) Z ∼ f (x) ⇐⇒ X = σZ + µ ∼ f (x|µ, σ).
(b) X ∼ f (x|µ, σ) ⇐⇒ X−µ
σ ∼ f (x).
Ejemplo 9
Las siguientes son algunas de las familias de distribuciones usuales que son de
localización y escala y se parametrizan habitualmente como tales: normal, doble
exponencial, Cauchy. La distribución uniforme U (a, b) también es una familia
de localización y escala. En este caso µ = (a + b)/2 y σ = b − a podrı́an servir
como parámetros de posición y escala.
. .
Pn
Observar que si definimos Tj (X1 , . . . , Xn ) = i=1 tj (Xi ), j = 1, . . . , p, en-
tonces la distribución de (T1 , . . . , Tk ) viene dada por
k
X
n
fT (u1 , . . . , uk |θ) = H(u1 , . . . , uk ) (c(θ)) exp wj (θ)uj ,
j=1
Ejemplo 10
Ejemplos de familias exponenciales son éstos: binomial, geométrica, Poisson, bi-
nomial negativa, exponencial, normal, gamma, beta.
. .
µ ¶n (
n n
)
1 1 X 1X (∗)
2 2
√ n exp − (y1 − yi ) − (yi + y1 ) =
2π 2 i=2
2 i=2
½ ¾ ( Ã n n
!)
n 1 2 1 X 2 X
2
√ exp − ny1 exp − y +( yi ) .
( 2π)n 2 2 i=2 i i=2
Xn n
X n
X n
X
y12 + ( yi )2 − 2y1 yi + yi2 + (n − 1)y12 + 2y1 yi =
i=2 i=2 i=2 i=2
n
X n
X
ny12 + ( yi )2 + yi2 .
i=2 i=2
n−1
(n − 1)Sn2 = (n − 2)Sn−1
2
+ (Xn − X n−1 )2 .
n
En efecto,
n
X n−1
X
(n − 1)Sn2 = (Xi − X n )2 = (Xi − X n−1 + X n−1 − X n )2 + (Xn − X n )2 =
i=1 i=1
2
(n − 2)Sn−1 + (n − 1)(X n−1 − X n )2 + (Xn − X n )2 = (∗)
2 1 2 (n − 1)2
(∗) = (n − 2)Sn−1 + (n − 1) (X n−1 − Xn ) + (X n−1 − Xn )2 =
n2 n2
2 n−1
(n − 2)Sn−1 + (Xn − X n−1 )2 .
n
1
S22 = (X2 − X1 )2 .
2
√
Como X1 y X2 son N (0, 1) independientes, entonces (X2 − X1 )/ 2 ∼ N (0, 1)
y de ahı́ que
√
S22 = ((X2 − X1 )/ 2)2 ∼ χ21 ,
(k − 1)Sk2 /σ 2 ∼ χ2k−1 .
16 CAPÍTULO 1. INTRODUCCIÓN
2 k
kSk+1 = (k − 1)Sk2 + (Xk+1 − X k )2 .
| {z } k + 1
∼χ2k−1
µ ¶ Ãr !2
k+1 k
Xk+1 − X k ∼ N 0, =⇒ (Xk+1 − X k ) ∼ χ21
k k+1
La ley χ2ν
Diremos que X tiene distribución χ2 con ν grados de libertad y se denota
X ∼ χ2ν si su función de densidad es
1
fν (x) = x(ν/2)−1 e−x/2 , 0 < x < ∞,
Γ(ν/2)2ν/2
(X − µ)2
∼ χ21 .
σ2
La ley tp
Diremos que X sigue una distribución t de Student con p grados de
libertad y lo denotaremos X ∼ tp , si su función de densidad es
Γ((p + 1)/2) 1 1
fp (x) = √ , −∞ < x < ∞.
Γ(p/2) πp (1 + t2 /p)(p+1)/2
Si p = 1 se trata de la distribución de Cauchy.
X −µ
√ ∼ tn−1 .
S/ n
U/p
X= ∼ Fp,q .
V /q
(Nota: esta propiedad se usa a veces como definición de la distribución
F .)
18 CAPÍTULO 1. INTRODUCCIÓN
2
(b) Sean X1 , . . . , Xn m.a.s. de N (µX , σX ), Y1 , . . . , Ym m.a.s. de N (µY , σY2 ),
dos muestras independientes. Entonces
2 2
SX /σX
∼ Fn−1,m−1 .
SY2 /σY2
p X ³p q ´
∼ Beta , .
q 1 + pq X 2 2
(f ) Si X ∼ Fn−1,m−1 , entonces
µ ¶ µ ¶ µ ¶
χ2n−1 /(n − 1) χ2n−1 m−1
E(X) = E =E E =
χ2m−1 /(m − 1) n−1 χ2m−1
µ ¶µ ¶
n−1 m−1 m−1
= .
n−1 m−3 m−3
Teorema 5 (Ley débil de los grandes números) Sea {Xn }n∈IN una suce-
sión de variables aleatorias incorreladas con momentos de segundo orden aco-
Pn
tados por una constante C, independiente de n. Sea Sn = i=1 Xi . Entonces
ï ¯ !
¯ Sn − E(Sn ) ¯2 C
E ¯¯ ¯
¯ ≤
n n
y, como consecuencia
Sn − E(Sn )
lı́m =0
n−→∞ n
en el sentido de la convergencia en media cuadrática.
Teorema 6 (Ley fuerte de los grandes números) Bajo las hipótesis del teo-
rema 5 se tiene que
Sn − E(Sn )
lı́m =0
n−→∞ n
en el sentido de la convergencia casi segura.
Teorema 7 (Teorema central del lı́mite) Sea {Xn }n∈IN una sucesión de
variables aleatorias independientes e idénticamente distribuidas con momento
de segundo orden finito. Sea µ la esperanza común y σ 2 la varianza común, que
Pn
supondremos estrictamente positiva. Sea Sn = i=1 Xi . Se tiene que
Sn − nµ
√ −→D Z,
σ n
donde Z ∼ N (0, 1) y −→D indica convergencia en distribución.
20 CAPÍTULO 1. INTRODUCCIÓN
Se tiene lo siguiente:
a) Prueba que
XX n n
1
S2 = (Xi − Xj )2 .
2n(n − 1) i=1 j=1
b) Prueba que µ ¶
2 1 n−3 2
V (S ) = θ4 − θ .
n n−1 2
c) Da la expresión de Cov(X, S 2 ) en términos de θ1 , . . . , θ4 . ¿Bajo qué con-
diciones son X y S 2 incorreladas?
d ) Si la distribución de X es simétrica respecto de θ1 , ¿es posible que la
covarianza de esos estadı́sticos sea no nula?
e) Si la distribución de X no es simétrica respecto de θ1 , ¿es posible que
la covarianza de esos estadı́sticos sea nula?
a)
1
X n+1 = (Xn+1 + nX n ).
n+1
22 CAPÍTULO 1. INTRODUCCIÓN
b)
2 n
nSn+1 = (n − 1)Sn2 + (Xn+1 − X n )2 .
n+1
5. (Casella-Berger, 5.18) Sean X 1 y X 2 las medias muestrales calculadas a
partir de dos muestras independientes de tamaño n de una población con
varianza σ 2 . Halla el menor valor de n que garantiza que
³ σ´
P |X 1 − X 2 | <
5
es al menos 0.99. Para ello, utiliza tanto la desigualdad de Chebychev
como el Teorema Central del Lı́mite. Comenta los resultados obtenidos.
a) χ23 .
b) t2 .
c) F1,2 .
Z = mı́n{U1 , . . . , UX }.
Familias exponenciales
10. (Casella-Berger, 3.28, 3.29) Prueba que las siguientes son familias expo-
nenciales y describe el espacio paramétrico natural de cada una de ellas.
Prueba que
∂
E(t (X)) = − log(c( η )).
η i ∂ηi e
e
Indicación: Usa el hecho de que para una familia exponencial se tiene
que Z ∞ Z ∞ j
∂j ∂
f (x)dx = f (x)dx.
j
∂ηi −∞ η −∞ ∂ηi
j η
e e
12. Considera la familia de distribuciones normales con media θ y varianza
θ2 , donde θ puede tomar cualquier valor real. Prueba que esta familia es
una familia exponencial y determina el espacio paramétrico natural.
13. Sean X1 , . . . , Xn v.a.i.i.d. con distribución perteneciente a una familia ex-
ponencial expresada en términos del espacio paramétrico natural. Prueba
que la distribución conjunta de las n variables también pertenece a la
familia exponencial.
14. (Arnold 1990, Ex. A1, pg 257-258) Sean X1 , . . . , Xn v.a. independientes
tales que Xi ∼ Poisson(iθ), θ > 0. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
15. (Arnold 1990, Ex. A2, pg 257-258) Sean X1 , . . . , Xn v.a. independientes
tales que Xi ∼ N (iθ, 1), θ ∈ R. Prueba que la familia de distribuciones
conjuntas de las n variables es una familia exponencial.
16. (Arnold 1990, Ex. A3, pg 257-258) Sean X1 , . . . , Xn v.a. independientes
tales que Xi ∼ Exp(1/(iθ)), E(Xi ) = iθ, θ > 0. Prueba que la familia de
distribuciones conjuntas de las n variables es una familia exponencial.
a) µ = 0, σ = 1.
b) µ = 3, σ = 1.
c) µ = 3, σ = 2.
19. (Casella-Berger, 3.33) Sea Z una variable aleatoria con densidad f (z). Se
define zα como un número que satisface que
Z ∞
α = P (Z > zα ) = f (z)dz.
zα
21. (Casella-Berger, 3.35) Sea f (x) una función de densidad con media µ y
varianza σ 2 . Indica cómo crear una familia de localización y escala basada
en f (x) tal que la densidad estándar de la familia, f ∗ (x), tenga esperanza
0 y varianza 1.
Capı́tulo 2
Ejemplo 11
Se lanza una moneda n veces y se anota cada vez Xi = 1 si sale cara y Xi = 0
si sale cruz. El espacio muestral es
Pn
Se define T ( x ) = i=1 xi . Entonces
e
T = {0, 1, 2, . . . , n}.
En este tema estudiaremos dos principios para reducir los datos que garan-
tizan que en el proceso de reducción no se pierde información relevante sobre
los aspectos en estudio de la variable aleatoria de interés. Estos principios son
el principio de suficiencia y el principio de verosimilitud. A ellos puede añadirse
el principio de invariancia, que no trataremos aquı́ (puede consultarse la sección
6.3 del Casella-Berger como material de lectura).
En adelante supondremos que la variable aleatoria X en estudio tiene dis-
tribución perteneciente a una familia paramétrica:
X ∼ {f (x|θ), θ ∈ Θ ⊆ IRk }.
Ejemplo 12
Sea X = (X1 , . . . , Xn ) muestra aleatoria simple de X ∼ Bern(θ), 0 < θ < 1. El
e
estadı́stico T ( X ) = X1 + · · · + Xn ∼ B(n, θ) es suficiente para θ:
e
Qn
f ( x |θ) θxi (1 − θ)1−xi
e = ¡i=1¢
n t n−t
=
q(T ( x )|θ) t θ (1 − θ)
e
2.1. PRINCIPIO DE SUFICIENCIA 29
Pn
(donde se ha definido t = i=1 xi )
θt (1 − θ)n−t 1
¡n¢ = ¡n¢
θ t (1 − θ)n−t
t t
que no depende de θ.
. .
Ejemplo 13
Sea X = (X1 , . . . , Xn ) muestra aleatoria simple de X ∼ N (µ, σ 2 ), σ 2 conocido.
e
El estadı́stico T (X) = X ∼ N (µ, σ 2 /n) es suficiente para µ:
© Pn ª
f ( x |θ) (2πσ 2 )−n/2 exp − 2σ1 2 i=1 (xi − µ)2
e = © ª =
q(T ( x )|θ) n1/2 (2πσ 2 )−1/2 exp − 2σn2 (x − µ)2
e
© ¡Pn ¢ª
(2πσ )2 −n/2
exp − 2σ1 2 2
i=1 (xi − x) + n(x − µ)
2
© ª =
n1/2 (2πσ 2 )−1/2 exp − 2σn2 (x − µ)2
© Pn ª
(2πσ 2 )−n/2 exp − 2σ1 2 i=1 (xi − x)2
=
n1/2 (2πσ 2 )−1/2
( n
)
2 −(n−1)/2 −1/2 1 X 2
(2πσ ) n exp − 2 (xi − x) ,
2σ i=1
que no depende de µ.
. .
f ( x |θ) = Pθ ( X = x ) = Pθ ( X = x , T ( X ) = T ( x )) =
e e e e e e e
30 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
Ejemplo 14
Sea X ∼ U {1, 2, . . . , θ} y X1 , . . . , Xn una m.a.s. de X. La función de masa de
probabilidad de X es
1
f (x|θ) = I{1,2,...,θ} (x)
θ
donde IA (x) es la función indicatriz del conjunto A, que vale 1 si x ∈ A y 0 en
caso contrario.
La verosimilitud de la muestra es
n
1 Y
f (x1 , . . . , xn |θ) = I{1,2,...,θ} (xi ) =
θn i=1
à n
!Ã n
! Ã n !Ã n !
1 Y Y 1 Y Y
IIN−{0} (xi ) I(−∞,θ] (xi ) = n IIN−{0} (xi ) I[xi ,∞) (θ) =
θn i=1 i=1
θ i=1 i=1
à n !
1 Y
I
n (máx{xi :1≤i≤n},∞)
(θ) IIN−{0} (xi )
|θ {z } i=1
| {z }
g(t|θ), donde t=máxi xi
h( x )
e
. .
2.1. PRINCIPIO DE SUFICIENCIA 31
Ejemplo 15
Sea X ∼ N (µ, σ 2 ), σ 2 conocida. Entonces la verosimilitud de una muestra es
( )
1 X
n n n o
2 −n/2
f ( x |µ) = (2πσ ) exp − 2 (xi − x) exp − 2 (x − µ)2
2
e 2σ i=1 | 2σ{z }
| {z }
g(t|µ), donde t=x
h( x )
e
Por lo tanto T ( X ) = X es estadı́stico suficiente para µ.
e P
n
Obsérvese que i=1 Xi = nX también es estadı́stico suficiente: podrı́a defi-
© ª
nirse h( x ) como antes y g(t|µ) = exp −(n/(2σ 2 ))(t/n − µ)2 .
e
. .
Hasta ahora hemos visto únicamente estadı́sticos suficientes con valores rea-
les, es decir, unidimensionales. Sin embargo, en la aplicación del teorema de
factorización puede ocurrir que la función g(t|θ) dependa de la muestra a través
de más de una función suya. En ese caso la colección de esas funciones, digamos
T ( X ) = (T1 ( X ), . . . , Tr ( X )), es un estadı́stico suficiente r-dimensional. Las
e e e
definiciones y resultados referentes a la suficiencia ya vistos para el caso unidi-
mensional también se aplican al caso r-dimensional. Usualmente, si el parámetro
θ es de dimensión mayor que 1, entonces también lo será el estadı́stico suficiente.
Ejemplo 16
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos: θ =
(µ, σ 2 ). Ası́,
( )
1 X
n n n o
2 2 −n/2
f ( x |µ, σ ) = (2πσ ) exp − 2 (xi − x) exp − 2 (x − µ)2 .
2
e 2σ i=1 2σ
Pn
Sean T1 ( x ) = x y T2 ( x ) = S 2 = ( i=1 (xi − x)2 )/(n − 1). Entonces,
e e
½ ¾ n n o
2 2 −n/2 (n − 1) 2
f ( x |µ, σ ) = (2πσ ) exp − T2 ( x ) exp − (T1 ( x ) − µ) =
e 2σ 2 e 2σ 2 e
32 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
g(T1 ( x ), T2 ( x )|µ, σ 2 )
e e
y tomando h( x ) = 1 se tiene la factorización de f ( x |µ, σ 2 ) que implica que
e e
T ( X ) = (T1 ( X ), T2 ( X )) = (X, S 2 ) es un estadı́stico suficiente para (µ, σ 2 ) en
e e e
la distribución normal. Es un estadı́stico bivariante.
Obsérvese que el hecho de que un estadı́stico sea o no suficiente para un
parámetro depende del modelo que siguen las variables aleatorias implicadas.
En el caso de muestrear una normal, podemos anotar únicamente la media y la
varianza muestral y estar seguros de que tenemos toda la información relevante
sobre los parámetros desconocidos (µ, σ 2 ). Sin embargo, si no estamos seguros
de la normalidad de los datos no deberı́amos conformarnos con conocer única-
mente la media y la varianza muestral.
. .
Ejemplo 17
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos. Hemos
visto en el ejemplo 16 que (T1 ( X ), T2 ( X )) = (X, S 2 ) es un estadı́stico suficiente
e e
para (µ, σ 2 ).
Suponemos ahora que σ 2 es conocido. Vimos en el ejemplo 13 que T1 ( X ) =
e
X es estadı́stico suficiente para µ. Pero también es cierto que (T1 ( X ), T2 ( X )) =
e e
(X, S 2 ) es suficiente para µ. Claramente T1 ( X ) consigue una mejor reducción
e
2.1. PRINCIPIO DE SUFICIENCIA 33
Ejemplo 18
Sea X = (X1 , . . . , Xn ) m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros des-
e
conocidos. Sean x e y dos muestras observadas y sean (x, Sx2 ), (y, Sy2 ) las
e e y varianzas muestrales. Recordando la factorización
correspondientes medias
de f ( x |µ, σ 2 ) que vimos en el ejemplo 16, se tiene que
e
n o © n ª
f ( x |θ) (2πσ 2 )−n/2 exp − (n−1) 2 2
X e 2σ 2 Sx exp − 2σ 2 (x − µ)
e = n o © ª =
f ( y |θ) (2πσ 2 )−n/2 exp − (n−1) S 2 exp − n (y − µ)2
X e 2σ 2 y 2σ 2
e
½ ¾
1 ¡ 2 2 2 2
¢
exp −n(x − µ) + n(y − µ) − (n − 1)(Sx − S y ) =
2σ 2
½ ¾
1 ¡ 2 2 2 2
¢
exp −n(x − y ) + 2nµ(x − µ) − (n − 1)(Sx − Sy )
2σ 2
Esta expresión es constante como función de (µ, σ 2 ) si y sólo si
Pn
y recordando que Sx2 = i=1 x2i − nx2 eso ocurrirá si y sólo si
n
X n
X
2nµ(x − y) − x2i + yi2 = 0, para todo µ,
i=1 i=1
x = y y Sx2 = Sy2 .
Concluimos pues que (X, S 2 ) es estadı́stico minimal suficiente para (µ, σ 2 ) cuan-
do muestreamos de una normal.
. .
Ejemplo 19
Sea X1 , . . . , Xn m.a.s. de X ∼ U [θ, θ + 1]. Ası́,
Yn
f ( x |θ) = I[θ,θ+1] (xi ) = I[máxi xi −1,mı́ni xi ] (θ).
e i=1
Ejemplo 20
Sean X n observaciones i.i.d. de una distribución uniforme en el intervalo (θ, θ+
e
1), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estadı́sticos de orden de la
muestra.
El estadı́stico Rango, definido como R = X(n) − X(1) , sigue una distribución
Beta(n − 1, 2), sea cual sea el valor de θ, por lo que R es un estadı́stico ancilar.
Esta propiedad se puede generalizar al rango de cualquier familia de locali-
zación:
Sean X observaciones i.i.d. de una familia de localización con función de distri-
e
bución F (x−θ), −∞ < θ < ∞. Sean X(1) < · · · < X(n) los estadı́sticos de orden
de la muestra. Entonces la distribución del rango, definido como R = X(n) −X(1) ,
no depende de θ por lo que es un estadı́stico ancilar.
. .
Ejemplo 21
Sean X1 y X2 observaciones independientes de una distribución discreta tal que:
1
Pθ (X = θ) = Pθ (X = θ + 1) = Pθ (X = θ + 2) =
3
donde θ, el parámetro desconocido, es un entero cualquiera.
Sean X(1) ≤ X(2) los estadı́sticos de orden de la muestra. Puede demostrarse
que (R, M ), con R = X(2) − X(1) y M = (X(1) + X(2) )/2, es un estadı́stico
minimal suficiente. Dado que es una familia de localización R es ancilar.
Sea un punto muestral (r, m), con m entero. Si consideramos sólo m, para
que el punto tenga probabilidad positiva es preciso que θ tome uno de tres
valores posibles: θ = m, θ = m − 1 o θ = m − 2. Si sólo sé que M = m, los 3
valores de θ son posibles. Supóngase que sabemos además que R = 2. Entonces
forzosamente X(1) = m − 1 y X(2) = m + 1 y, por lo tanto, θ = m − 1.
El saber el valor del estadı́stico ancilar ha aumentado nuestro conocimiento
sobre θ, a pesar de que sólo con el valor de R no habrı́amos tenido ninguna
36 CAPÍTULO 2. PRINCIPIOS PARA REDUCIR LOS DATOS
información sobre θ.
. .
Ejemplo 22
La familia de distribuciones binomiales con n fijo es completa. Sea T ∼ B(n, p),
0 < p < 1. Sea g una función tal que E(g(T )) = 0 para todo p ∈ (0, 1). Entonces,
n
X µ ¶ Xn µ ¶µ ¶t
n t n−t n n p
0 = E(g(T )) = g(t) p (1 − p) = (1 − p) g(t) .
t=0
t t=0
t 1−p
Ejemplo 23
2
Sean X ∼ N (µ, σX ) e Y ∼ N (µ, σY2 ) variables aleatorias independientes. Del
2
teorema 11 se sigue que el estadı́stico (X, Y , SX , SY2 ) es suficiente minimal para
2 2 + +
θ = (µ, σX , σY ) ∈ IR × IR × IR . Sin embargo no es completo, porque
Eθ (X − Y ) = 0 para todo θ
y sin embargo Pθ (X = Y ) = 0, para cualquier θ.
. .
L(·| x ) : Θ −→ IR+
e
θ −→ L(θ| x ) = f ( x |θ)
e e
La función de verosimilitud ası́ definida puede entenderse como un estadı́stico,
es decir, como una función L de la muestra que no depende del parámetro:
a cada posible muestra observada x , la función de verosimilitud le asocia un
e
elemento del conjunto (IR+ )Θ de todas las funciones de Θ en IR+ , precisamente
L(·| x ), la función de verosimilitud de esa muestra:
e
L: X −→ (IR+ )Θ
x −→ L(·| x )
e e
Ası́, L( X ) es una función aleatoria de Θ en IR. Por lo tanto, la función de vero-
e
similitud es una forma más de resumir la información que la muestra contiene
acerca del parámetro. La razón de escribir resumir en cursiva es que pasar de X
e
(de dimensión n) a L( X ) (de dimensión igual al cardinal de Θ, normalmente
e
infinito) no siempre se puede entender como un resumen de la información.
En esta sección se desarrollan argumentos que prueban lo siguiente: si se
acepta el principio de suficiencia, entonces la inferencia se debe basar en la fun-
ción de verosimilitud. Esta última afirmación (la inferencia sobre el parámetro
se debe basar única y exclusivamente en la función de verosimilitud) se expre-
sa formalmente en el principio de verosimilitud, que especifica cómo debe
usarse la verosimilitud en la reducción de la información muestral.
Principio de verosimilitud:
Si x e y son dos puntos muestrales tales que
e e
L(θ| x ) = C( x , y )L(θ| y ), para todo θ,
e e e e
donde C( x , y ) es una función que puede depender de x e y pero no de θ,
e e e e
entonces la inferencia que se haga sobre θ será la misma tanto si se observa x
e
como si se observa y .
e
2.2. PRINCIPIO DE VEROSIMILITUD 39
L(θ1 | x )
e
L(θ2 | x )
e
indica cuantas veces más probable es observar x bajo θ1 que bajo θ2 . En el
e
caso continuo esto es aproximadamente válido, si hablamos de la probabilidad
de observar valores en un entorno de x en lugar de la probabilidad de observar
e
x:
e
Pθ1 ( X ∈ B( x , ε)) VolumenB( x , ε)f ( x |θ1 ) f ( x |θ1 )
e e ≈ e e = e .
Pθ2 ( X ∈ B( x , ε)) VolumenB( x , ε)f ( x |θ2 ) f ( x |θ2 )
e e e e e
Si, por ejemplo, f ( x |θ1 )/f ( x |θ2 ) = 2 podemos decir que θ1 es mucho más
e e
plausible (mucho más verosimil) que θ2 . Ası́, la verosimilitud indica cómo de
plausible es un valor del parámetro θ1 en términos relativos (comparada esa
plausibilidad con la de otro valor de θ2 ).
En este sentido el enunciado del principio de verosimilitud es esencialmente
equivalente a decir que la inferencia sobre el parámetro se debe basar única
y exclusivamente en la función de verosimilitud: si dos valores muestrales dan
lugar a verosimilitudes proporcionales (aunque quizás no exactamente iguales),
los cocientes de verosimilitudes serán iguales si se observa una u otra,
Suficiencia
1. (Casella-Berger, 6.1) Sea X una observación de una N (0, σ 2 ). ¿Es |X| un
estadı́stico suficiente?
Yi = α + βxi + εi , i = 1, . . . , n,
Completitud
8. (Casella-Berger, 6.10) Sea X1 , . . . , Xn m.a.s. de una U [θ, θ+1]. En el ejem-
plo 19 se establece que el estadı́stico T ( X ) = (X(1) , X(n) ) es estadı́stico
e
minimal suficiente para θ. Prueba ahora que no es completo.
(Nota: 00 = 1, 0! = 1.)
Esta familia es una familia de distribuciones de Poisson con λ res-
tringido a ser 0 o 1. Probar que la familia P no es completa.
d ) Indicar si la siguiente afirmación es cierta o falsa y decir por qué:
Si la familia de distribuciones P1 = {f (x; θ) : θ ∈ Θ1 } es completa
y Θ2 ⊂ Θ1 , entonces la familia de distribuciones P2 = {f (x; θ) : θ ∈
Θ2 } es completa.
P (X = 0) P (X = 1) P (X = 2)
Distribución 1 p 3p 1 − 4p 0 < p < 1/4
Distribución 2 p p2 1 − p − p2 0 < p < 1/2
2.3. LISTA DE PROBLEMAS 43
Estimación puntual 1:
Construcción de
estimadores
que a cada número real x le asigna la proporción de valores observados que son
menores o iguales que x.
Es inmediato comprobar que la función Fn ası́ definida es una función de
distribución:
45
46CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
3. Fn es no decreciente.
4. lı́mx−→−∞ Fn (x) = 0.
5. lı́mx−→∞ Fn (x) = 1.
xi x1 x2 ··· xn
pi = P(Xe = xi ) 1/n 1/n ··· 1/n
donde
½
1, si Xi ≤ x
I(−∞,x] (Xi ) =
0, si Xi > x
y, por lo tanto, cada término I(−∞,x] (Xi ) es una variable aleatoria de Bernoulli
con probabilidad de éxito
De ahı́ se deduce que Fn es una variable aleatoria y que nFn (x) tiene distribución
binomial con parámetros n y p = F (x).
j
¡n¢ j n−j
(a) P(Fn (x) = n) = j F (x) (1 − F (x)) , j = 0, . . . , n.
(b) E(Fn (x)) = F (x), Var (Fn (x)) = (1/n)F (x)(1 − F (x)).
(d) √
n(F (x) − F (x))
p n −→D Z,
F (x)(1 − F (x))
donde Z es una variable aleatoria con distribución normal estándar y la
convergencia es convergencia en distribución.
Demostración: Los apartados (a) y (b) son consecuencia inmediata del hecho
de que nFn (x) ∼ B(n, p = F (x)). Por otro lado, si definimos Yi = I(−∞,x] (Xi ),
se tiene que Fn (x) = Ȳn , la media aritmética de las variables aleatorias Y1 , . . . , Yn .
Ası́, el apartado (c) es una aplicación inmediata de la ley fuerte de los grandes
números y el apartado (d) es consecuencia del teorema central de lı́mite. 2
El siguiente teorema refuerza el resultado (c) anterior, puesto que afirma que
la convergencia de Fn (x) a F (x) se da uniformemente.
1
Fn (x) − F (x) ≤ Fn (x− − −
(j+1)k ) − F (xjk ) ≤ Fn (x(j+1)k ) − F (x(j+1)k ) + k
y
1
Fn (x) − F (x) ≥ Fn (xjk ) − F (x−
(j+1)k ) ≥ Fn (xjk ) − F (xjk ) − k
(k)
con lo cual, si δn es la mayor entre todas las diferencias |Fn (xjk ) − F (xjk )| y
|Fn (x− −
jk ) − F (xjk )| (para n y k fijos), se tiene que
1 1
Fn (x) − F (x) ≤ δn(k) + y Fn (x) − F (x) ≥ −δn(k) −
k k
Ası́, para cualquier k ∈ IN,
1
sup |Fn (x) − F (x)| ≤ δn(k) + .
x∈IR
k
Obsérvese que según el apartado (c) del teorema 16, las distribuciones empı́ri-
cas asociadas a muestras de tamaño n convergen débilmente a la distribución de
probabilidad teórica identificada por F , para casi todas las muestras de tamaño
infinito que se extraigan de F . Ésta es una de las consecuencias más importantes
del citado teorema:
Ejemplo 24
En la figura siguiente se muestra la función de distribución de una variable
aleatoria N (0, 1) y la función de distribución empı́rica de dos muestras de esa
variable aleatoria una de tamaño n = 10 (la más alejada de la teórica) y la
otra de tamaño n = 100. Se aprecia que cuando n crece la proximidad entre la
función de distribución empı́rica y la teórica es cada vez mayor.
50CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
−3 −2 −1 0 1 2
. .
Para fijar ideas podemos pensar que nos interesa conocer cantidades numé-
ricas (parámetros) que dependen únicamente de la función de distribución des-
conocida F :
θ = ψ(F ).
3.1. LA FUNCIÓN DE DISTRIBUCIÓN EMPÍRICA Y EL MÉTODO DE LOS MOMENTOS51
Ejemplo 25
Sea X ∼ U (0, θ). Se toma una m.a.s. de X de tamaño n para estimar θ. Un
estimador razonable de θ es el máximo de las observaciones, que es estadı́stico
minimal suficiente para θ:
θ̂2 = máx Xi .
i
y
θ̂2 = máx Xi = sup{x ∈ IR : Fn (x) < 1}.
i
. .
σij = µi+j − µi µj .
θ = h(µ1 , . . . , µk ).
θ θ̂M
E(X) = =⇒ m1,n = =⇒ θ̂M = 2m1,n = 2X.
2 2
. .
Ejemplo 26
Otros esimadores basados en el método de los momentos son los siguientes:
3. Si X ∼ B(n, p) entonces p̂ = X y Vd
(X) = p̂(1 − p̂).
(n − 1)Sn2
λ̂2 = m2,n − m21,n =
n
es también un estimador basado en momentos. Es preferible λ1 porque en
su definición sólo interviene el momento de orden 1.
. .
Ejemplo 27
. .
Ejemplo 28
Nos regalan una bolsa de lacasitos. Nos dicen que la proporción de caramelos
de cada color es la misma pero no nos dicen de cuántos colores distintos pueden
ser los caramelos. Se trata de estimar por máxima verosimilitud k, el número
de colores, a partir de la observación de n caramelos.
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 55
k 2 3 4 ···
1 2 3
(k − 1)/k 2 = 0,25 = 0,2222 = 0,1875 (decrece en k)
4 9 16
k̂(V BV ) = 2.
k 3 4 5 6 7
2 3 12 5 30
L(k|x2 ) = ,0741 = ,0938 = ,096 = ,0926 = ,0875
27 32 125 54 343
global, puede haber varios máximos locales, el óptimo puede estar en la frontera
del espacio paramétrico, podemos tener una función objetivo (la verosimilitud)
que sea prácticamente plana cerca del máximo y esto dificulta la búsqueda por
métodos numéricos.
Como norma general, si la dimensión del espacio paramétrico es 1 o 2, es
conveniente hacer un gráfico de la función de verosimilitud frente a los diferentes
valores de los parámetros. Esto puede ayudar a detectar algunos de los problemas
que mencionamos antes.
Ejemplo 29
X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ∈ IR:
1
Pn 2
L(µ| x ) = (2π)−n/2 e− 2 i=1 (xi −µ)
e
Calculamos la primera derivada de L respecto a µ:
Xn
d
L(µ| x ) = − (xi − µ)L(µ| x );
dµ e i=1
e
luego
X n
d
L(µ| x ) = 0 =⇒ (xi − µ) = 0 =⇒ µ̂ = x.
dµ e i=1
Ası́ pues, µ̂ = x es un candidato a ser el estimador máximo verosı́mil. Tenemos
que comprobar que es un máximo global de L(µ| x ).
e
En primer lugar, constatamos que x es el único punto crı́tico del interior del
espacio paramétrico Θ = IR. En segundo lugar, calculamos la derivada segunda:
"Ã n
! #
d2 X
2
L(µ| x )|µ=x = −n + ( (xi − µ)) L(µ| x ) = −nL(x| x ) < 0.
dµ2 e i=1
e e
µ=x
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 57
Ası́ pues, x es un máximo y es el único extremo del interior del espacio pa-
ramétrico.
Por último, analizamos el comportamiento de L(µ| x ) en la frontera: en este
e
caso ±∞. Vemos que
lı́m L(µ| x ) = 0.
x−→±∞ e
Concluimos entonces que µ̂ = x es el estimador máximo verosı́mil. La última
comprobación (comportamiento de L(µ| x ) en ±∞) no es estrictamente necesa-
e
ria, porque si en +∞ o −∞ hubiese un máximo, forzosamente tendrı́a que haber
un mı́nimo relativo en el interior de Θ = IR (dado que x es máximo relativo) y
eso no ocurre.
. .
Ejemplo 30
X1 , . . . , X n muestra aleatoria simple de X ∼ Bern(p), p ∈ Θ = [0, 1].
e
Pn Pn
L(p| x ) = p i=1 xi (1 − p)n− i=1 xi =⇒
e
X n Xn
l (p| x ) = ( xi ) log p + (n − xi ) log(1 − p) =⇒
e i=1 i=1
Pn Pn
d i=1 xi n − i=1 xi
l (p| x ) = − .
dp e p 1−p
Pn
Distinguiremos tres casos, según sea el valor de i=1 xi . Si suponemos que
Pn
0 < i=1 xi < n
Xn Xn Pn
d xi
l (p| x ) = 0 =⇒ (1 − p)( xi ) = (n − xi )p =⇒ p̂ = i=1 = x ∈ (0, 1).
dp e i=1 i=1
n
Pn
xi
p̂ = i=1
n = x es el único extremo en el interior de Θ, es decir, en (0, 1). Con
la segunda derivada comprobamos que se trata de un máximo:
· Pn Pn ¸
d2 i=1 xi n − i=1 xi
l (p| x )| p=p̂ = − − =
dp2 e p2 (1 − p)2 p=p̂
L(p| x ) = (1 − p)n ,
e
función decreciente en p, luego el estimador máximo verosı́mil de p es 0 = x = p̂.
Pn
Por último, si i=1 xi = n,
L(p| x ) = pn ,
e
función creciente en p, luego el estimador máximo verosı́mil de p es 1 = x = p̂.
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 59
. .
Ejemplo 31
X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ≥ 0.
Ya hemos visto en el ejemplo 29 que si Θ = IR entonces el estimador máximo
verosı́mil de µ es µ̂ = x. Por lo tanto éste también será el estimador máximo
verosı́mil en el presente problema si x ≥ 0. En el caso de que x < 0 es inmediato
probar que L(µ| x ) es función decreciente en µ si µ > x. Por lo tanto, en este
e
caso el estimador máximo verosı́mil de µ es 0. Resumiendo, el estimador máximo
verosı́mil de µ cuando θ = [0, ∞) es
½
0 si x<0
µ̂ =
x si x≥0
. .
Ejemplo 32
X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), µ ∈ IN. Como el estimador máximo ve-
rosı́mil de µ ∈ IR es x y L(µ| x ) es creciente en (−∞, x) y decreciente en (x, ∞),
e
se deduce que los únicos puntos que pueden ser estimador máximo verosı́mil de
µ ∈ IN son [x] y [x] + 1, donde [a] es la parte entera de a, para cualquier a ∈ IR.
. .
60CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
Ejemplo 33
Lanzamos una moneda equilibrada (p = 0,5) unas cuantas veces y obtenemos
4 caras; ¿cuántas veces la hemos lanzado?
En este caso se tiene X1 , . . . , Xn , una m.a.s. de X ∼ B(k, p), con p conocido
y k desconocido. La verosimilitud es
Yn µ ¶ Yn
k xi k!
L(k| x ) = p (1 − p)k−xi = pnx (1 − p)n(k−x) .
e i=1
x i x
i=1 i
!(k − xi )!
El hecho, por un lado, de que el parámetro k sea natural y, por otro, la presencia
de k! y (k − xi )! en la función de verosimilitud, hace difı́cil la maximización de
L.
Si ordenamos los datos x(1) ≤ x(2) ≤ . . . ≤ x(n) , es obvio que k ≥ x(n) porque
los valores de xi oscilan entre 0 y k. Además, el estimador máximo verosı́mil es
un número natural k que satisface
L(k| x ) L(k + 1| x )
e ≥1y e <1
L(k − 1| x ) L(k| x )
e e
Desarrollando,
Qn k!
L(k| x ) (1 − p)nk i=1 (k−x i )!
e = Qn (k−1)!
L(k − 1| x ) (1 − p)n(k−1) i=1 (k−1−x i )!
e
à n !
Y k (k(1 − p))n
n
= (1 − p) = Qn ≥ 1,
i=1
k − xi i=1 (k − xi )
y
L(k + 1| x ) ((k + 1)(1 − p))n
e = Qn < 1.
L(k| x ) i=1 (k + 1 − xi )
e
Ası́, las condiciones anteriores sobre los cocientes de verosimilitudes equivalen a
pedir
n
Y n
Y
(k(1 − p))n ≥ (k − xi ) y ((k + 1)(1 − p))n < (k + 1 − xi ).
i=1 i=1
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 61
tiene solución única ẑ. Este valor ẑ no tiene por qué ser el inverso de un natural
k, pero sı́ nos permite calcular el estimador máximo verosı́mil k̂ de k:
k̂ = máx{k ∈ IN : k ≤ 1/ẑ}.
k 4 5 6 7 8 9 10
z = 1/k 0.25 0.2 0.1667 0.1429 0.125 0.1111 0.1
g(z) 0 0.048 0.1111 0.1749 0.2344 0.2881 0.336
Obsérvese que g(1/6) < 0,125 < g(1/7). Por lo tanto, ẑ ∈ (1/7, 1/6) y
k̂ = máx{k ∈ IN : k ≤ 1/ẑ} = 6.
. .
contrario, cambios pequeños en los datos dan lugar a grandes cambios en las
soluciones. Si éste es el caso, podemos deducir que quizás la función de verosi-
militud sea prácticamente plana en una zona alrededor del máximo y estamos
obteniendo puntos distintos de esa zona. También puede ocurrir que la fun-
ción de verosimilitud tenga múltiples máximos locales y al perturbar los datos
estemos pasando de uno a otro.
Ejemplo 34
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos: θ =
(µ, σ 2 ). Pn
1 2
L(µ, σ 2 | x ) = (2πσ 2 )−n/2 e− 2σ2 i=1 (xi −µ) =⇒
e
n
n n 1 X
l (µ, σ 2 | x ) = − log 2π − log σ 2 − 2 (xi − µ)2
e 2 2 2σ i=1
Pn ) ½
∂ 2 1
∂µ l (µ, σ | x ) = σ 2 i=1 (xi − µ) = 0
Pn
µ̂ = x
Pn
∂ e2 n 1 =⇒
∂(σ 2 ) l (µ, σ | x ) = − 2σ 2 + 2σ 4
2
i=1 (xi − µ) = 0 σ̂ 2 = n1 i=1 (xi − x)2 .
e
Podemos probar que la solución θ̂ = (x, σ̂ 2 ) es máximo global de dos formas.
Pn Pn
En primer lugar, como para cualquier µ 6= x es i=1 (xi − µ)2 > i=1 (xi −
x)2 , se tiene que
Ahora sólo hay que probar que l (x, σ 2 | x ) alcanza su máximo como función uni-
e
variante de σ 2 en σ̂ 2 . De esta forma hemos reducido el problema bidimensional
a uno unidimensional.
En segundo lugar, podemos probar que (x, σ̂ 2 ) es máximo de l mediante
el cálculo de las primeras y segundas derivadas parciales. Hay que comprobar
que el punto anula las primeras derivadas y que la matriz hessiana es definida
negativa, es decir, se ha de verificar lo siguiente:
1. ¯
∂ ¯
¯
l ((θ1 , θ2 )| x )¯ = 0, j = 1, 2.
∂θj e ¯ θ1 =x,θ2 =σ̂ 2
2. ¯
∂2 ¯
¯
l ((θ1 , θ 2 )| x ) ¯ < 0,
∂θj2 e ¯ θ1 =x,θ2 =σ̂ 2
al menos para j = 1 o j = 2.
3.
¯ ¯
¯ ∂2
l ((θ1 , θ2 )| x ) ∂2 ¯
(2) ¯ ∂θ12 ∂θ1 ∂θ2 l ((θ1 , θ2 )| x ) ¯
J =¯ ∂2
e ∂2
e ¯ >0
¯ ∂θ1 ∂θ22
l ((θ1 , θ2 )| x ) ∂θ22
l ((θ1 , θ2 )| x ) ¯
e e θ1 =x,θ2 =σ̂ 2
∂2 n
l ((µ, σ 2 )| x ) = − 2
∂µ2 e σ
n
∂2 2 n 1 X
l ((µ, σ )| x ) = − (xi − µ)2
∂(σ 2 )2 e 2σ 4 σ 6 i=1
n
∂2 1 X
l ((µ, σ 2 )| x ) = − 4 (xi − µ).
∂µ∂(σ) e σ i=1
∂2 n
l ((µ, σ 2 )| x )|x,σ̂2 = − 2 < 0
∂µ2 e σ̂
∂2 n 1 n
l ((µ, σ 2 )| x )|x,σ̂2 = − 6 nσ̂ 2 = − 4 < 0
∂(σ 2 )2 e 2σ̂ 4 σ̂ 2σ̂
∂2
l ((µ, σ 2 )| x )|x,σ̂2 = 0
∂µ∂(σ) e
64CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
Ejemplo 35
Sean X1 , . . . , Xn muestra aleatoria simple de X ∼ exp(λ). En este contexto el
estimador máximo verosı́mil de λ es λ̂ = 1/x.
Supongamos que no observamos todas las variables, sino sólo las m prime-
ras, y que de las restantes (n − m) sólo sabemos que toman valores mayores
que T : Xj > T , j = m + 1, . . . , n. Se dice entonces que esos valores han sido
censurados. En este caso, la verosimilitud es
Ym n
Y
L(λ| x ) = f (xi |λ) (1 − F (T |λ)) =
e i=1 i=m+1
m
Y n
Y Pm
λe−λxi e−λT = λm e−λ i=1
xi −λT (n−m)
e =⇒
i=1 i=,+1
Xm
l (λ| x ) = m log λ − λ xi − λT (n − m).
e i=1
Derivando e igualando a 0:
m
d m X
l (λ| x ) = − xi − T (n − m) = 0 =⇒
dλ e λ i=1
m
λ̂ = Pm .
x
i=1 i + (n − m)T
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 65
d2 m
2
l (λ| x ) = − 2 < 0 para todo λ.
dλ e λ
Concluimos que λ̂ es el estimador máximo verosı́mil de λ en el caso de datos
censurados.
La variable aleatoria exp(λ) suele modelizar tiempos de vida (o tiempos de
funcionamiento hasta fallar) de individuos o mecanismos. En ese caso λ es la
tasa de fallo, la cantidad de fallos por unidad de tiempo. Obsérvese que tanto
en el caso usual sin censura como en el caso con censura el inverso del estimador
máximo verosı́mil de λ es el cociente de la suma total de los tiempos de vida (o
en funcionamiento) entre el número de muertes (o fallos) observadas.
. .
Método de Newton-Raphson
las dos primeras derivadas. Llamemos l˜0 (θ) a esa función cuadrática. De hecho,
l˜0 (θ) es el desarrollo en serie de Taylor de orden 2 de l (θ) alrededor de θ0 .
Ejemplo 36
Si k = 1, l˜0 (θ) = a + bθ + cθ2 . Los valores de a, b y c se obtienen al resolver el
sistema ˜
l 0 (θ0 ) = l (θ0 )
l˜ 0 (θ ) = l 0 (θ0 )
˜0 00 0
l 0 (θ0 ) = l 00 (θ0 )
El resultado es el mismo si se hace directamente el desarrollo de Taylor de l :
1
l˜0 (θ) = l (θ0 ) + (θ − θ0 )l 0 (θ0 ) + (θ − θ0 )2 l 00 (θ0 ).
2
. .
θ0 −→ l˜0 (θ) −→ θ1
.
l˜1 (θ) −→ θ2
.
l˜2 (θ) −→ θ3
.
.. .. ..
. . .
.
l˜m−1 (θ) −→ θm
.
.. .. ..
. . .
↓
θ∗
1
l˜m (θ) = l (θm ) + ∇l (θm )t (θ − θm ) + (θ − θm )t Hl (θm )(θ − θm )
2
3.2. ESTIMADORES DE MÁXIMA VEROSIMILITUD 67
||θm+1 − θm || < ε,
y
∂ 2l
hij = .
∂θi ∂θj
Al vector gradiente, ∇l (θ), también se le llama vector de scores, lo cual
justifica el nombre del algoritmo.
Ejemplo 37
Veamos que en el caso de familias exponenciales parametrizadas de forma na-
tural ambos algoritmos son, de hecho, el mismo porque la matriz hessiana no
depende de la muestra observada. La verosimilitud de una muestra es
à n !
Y X k
L(θ| x ) = h(xi ) c(θ)n exp θj Tj ( x ) ,
e i=1 j=1
e
Pn
donde Tj ( x ) = i=1 tj (xi ), y su logaritmo,
e
Xk
l (θ| x ) = K + n log c(θ) + θj Tj ( x ),
e j=1
e
Método de Nelder-Mead
Es un método de búsqueda directa que no requiere ni primeras ni segundas
derivadas de la función objetivo, sólo es necesario poder evaluar la función que
queremos maximizar.
En cada iteración del algoritmo se parte de un conjunto de (k + 1) puntos
de IRk , θ1 , . . . , θk+1 , θj ∈ IRk , tales que su envoltura convexa tenga interior no
vacı́o: esos puntos forman un simplex en IRk .
El resultado de cada iteración es otro simplex. Se espera que el volumen del
simplex vaya decreciendo de iteración en iteración y que el valor de la función
objetivo crezca al pasar de los puntos de un simplex a los del siguiente. La
iteración tı́pica del algoritmo de Nelder-Mead es como sigue:
η = τ (θ) ⇐⇒ θ = τ −1 (η)
Yn
L∗ (η| x ) = f (xi |τ −1 (η)) = L(τ −1 (η)| x ) =⇒
e i=1
e
Por definición de L∗ ,
Ejemplo 38
Si X ∼ N (µ, σ 2 ), el estimador máximo verosı́mil de µ2 es x2 .
Si X ∼ B(n, p), el estimador
p máximo
p verosı́mil de p es p̂ = X/n y el estimador
máximo verosı́mil de p(1 − p) es p̂(1 − p̂).
. .
Supondremos aquı́ que existe información previa sobre θ y que ésta se expresa
mediante una distribución a priori sobre Θ, cuya función de densidad o función
de masa de probabilidad denotaremos por π(θ). Se toma una muestra aleatoria
simple X1 , . . . , Xn de X ∼ f (x|θ). El objetivo es actualizar la distribución a
priori π(θ) con la ayuda de las observaciones x y teniendo en cuenta la forma
e
de f (x|θ), que indica cómo se distribuye x, condicionada por valores de θ. Por
el momento, supondremos que tanto X|θ como θ tienen función de densidad.
Yn
f ( x |θ) = f (xi |θ).
e i=1
La densidad conjunta de X y θ es
e
f ( x , θ) = f ( x |θ)π(θ).
e e
Como consecuencia, la marginal de X es
e
Z
m( x ) = f ( x |θ)π(θ)dθ.
e θ e
3.3. ESTIMACIÓN BAYESIANA 73
f ( x |θ)π(θ)
π(θ| x ) = e , θ ∈ Θ.
e m( x )
e
En inferencia bayesiana se usa esta distribución para realizar inferencias sobre
θ. Por ejemplo, un estimador puntual de θ podrı́a ser E(θ| x ).
e
La distribución a posteriori nos informa sobre la verosimilitud relativa de
que el verdadero valor de θ esté en las distintas regiones del espacio paramétrico
Θ después de haber observado X1 , . . . , Xn .
Ejemplo 39
Sea X el tiempo de vida en horas de un nuevo modelo de lámpara fluorescente.
Se supone que X ∼ exp(λ), con µ = E(X) = 1/λ. La información histórica
acumulada sobre tiempos de vida de lámparas similares indica que µ tiene media
aproximadamente 5000 horas. De hecho, la distribución que se propone como a
priori para λ es igual a
λ ∼ γ(α0 , β0 ),
200004 3 −20000λ
π(λ) = λ e , λ > 0.
(4 − 1)!
Ası́, la verosimilitud es
P25
f (x1 , . . . , x25 |λ) = λ25 e−λ i=1
xi
,
74CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
y la densidad a posteriori de λ es
El numerador es
25
X 200004 3 −20000λ
f (x1 , . . . , x25 |λ)π(λ) = λ25 exp{−λ xi } λ e =
i=1
3!
X 25
200004 28
λ exp{−λ( xi + 20000)},
6 i=1
y el denominador
Z ∞ X 25
200004 28
m(x1 , . . . , x25 ) = λ exp{−λ( xi + 20000)}dλ.
o 6 i=1
P25
Si hacemos α = 29 y β = 1/( i=1 xi + 20000), podemos observar que esa
integral es, salvo constantes, la integral de la función de densidad de una variable
aleatoria γ(α, β). Concretamente,
Z ∞
200004 28!
m(x1 , . . . , x25 ) = P25 fγ(α,β) (λ)dλ =
6 ( i=1 xi + 20000)29 o
200004 28!
P .
6 ( 25i=1 xi + 20000)
29
Ası́, P25
200004 28 −λ( xi +20000)
6 λ e i=1
π(λ|x1 , . . . , x25 ) = 200004 P 28!
=
6 25
( xi +20000)29
i=1
P25
( i=1 xi + 20000)29 28 −λ(P25 xi +20000)
λ e i=1
28!
de donde se deduce que
X25
λ|x1 , . . . , x25 ∼ γ(29, 1/( xi + 20000)).
i=1
29 29
λ̂ = E(λ|x1 , . . . , x25 ) = P25 = ,
i=1 xi + 20000 150000 + 20000
Observaciones secuenciales
En muchos experimentos (en particular, en muchos ensayos clı́nicos) las observa-
ciones X1 , . . . , Xn se obtienen de forma secuencial. Esta secuenciación permite
actualizar progresivamente la información que se tiene sobre el parámetro θ.
En un principio la información a priori sobre θ es π(θ). Se observa X1 = x1 .
Entonces
π(θ|x1 ) ∝ f (x1 |θ)π(θ)
recoge a partir de ese instante la información acumulada sobre θ. Por lo tanto
π(θ|x1 ) actúa como distribución a priori antes de obtener la segunda observación.
Cuando se observa X2 = x2 ,
F = {f (x|θ) : θ ∈ Θ}.
σ 2 µ + nν 2 x σ2 nν 2
µ1 = 2 2
= 2 2
µ+ 2 x,
σ + nν σ + nν σ + nν 2
σ2 ν 2
ν12 = .
σ 2 + nν 2
Ejemplo 40
Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, 1) y sea π(θ) ∼ N (0, τ −2 ), para τ conocido.
Notémos que en la notación del teorema 21, tenemos µ = 0 y ν 2 = τ −2 . Calcu-
laremos la distribución a posteriori de θ y analizaremos para qué valores de τ
serı́a esta distribución menos informativa.
Del teorema 21 se desprende que
µ Pn ¶
i=1 xi 1
θ| x ∼ N , .
e n + τ2 n + τ2
Esta distribución será tanto menos informativa cuanta mayor varianza tenga,
es decir, cuanto menor sea τ . El caso lı́mite serı́a τ = 0, que corresponde a
una distribución a priori impropia (normal con varianza infinita) no informativa
78CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
θ∗ ( x ) = E(θ| x ).
e e
Demostración:
h i
E(C(θ, a)| x ) = E (θ − a)2 | x = E(θ2 | x ) + a2 − 2aE(θ| x )
e e e e
Derivando respecto a a e igualando a 0:
−2E(θ| x ) + 2a = 0 =⇒ a = E(θ| x ),
e e
que es un mı́nimo porque la segunda derivada es 2 > 0. 2
θ∗ ( x ) = mediana(θ| x ).
e e
3.3. ESTIMACIÓN BAYESIANA 81
Ejemplo 41
Sea X ∼ Bern(θ). Se observa una muestra aleatoria simple de X: X1 = x1 , . . . , Xn =
xn . Suponemos que la distribución a priori de θ es
α
θ ∼ Beta(α, β) =⇒ E(θ) = .
α+β
Tal como vimos en el teorema 19,
à n n
!
X X
θ| x ∼ Beta α + xi , β + n − xi .
e i=1 i=1
Ejemplo 42
Se ha observado una m.a.s. de X ∼ N (θ, σ 2 ): X1 = x1 , . . . , Xn = xn . Partimos
de una a priori N (µ, ν 2 ) para θ. En el teorema 21 vimos que la distribución a
posteriori es θ| x ∼ N (µ1 , ν12 ) con
e
σ 2 µ + nν 2 x 2 σ2 ν 2
µ1 = 2 2
, ν1 = 2 .
σ + nν σ + nν 2
El estimador de Bayes con pérdida cuadrática es
σ 2 µ + nν 2 x
θ̂1 ( x ) = E(θ| x ) = =
e e σ 2 + nν 2
nν 2 σ2
x + µ.
σ 2 + nν 2 σ 2 + nν 2
82CAPÍTULO 3. ESTIMACIÓN PUNTUAL 1: CONSTRUCCIÓN DE ESTIMADORES
Máxima verosimilitud
6. (Casella-Berger, 7.13) Sea X1 , . . . , Xn una m.a.s. de X ∼ f (x, µ) = (1/2)e−|x−µ| .
Hallar el estimador máximo verosı́mil de µ.
22.0, 23.9, 20.9, 23.8, 25.0, 24.0, 21.7, 23.8, 22.8, 23.1, 23.1, 23.5,
23.0, 23.0.
10. (Casella-Berger, 4.26, 7.14) Sean X e Y dos variables aleatorias indepen-
dientes con X ∼ exp(λ) (E(X) = 1/λ), Y ∼ exp(θ) (E(Y ) = 1/θ). X e
Y no son directamente observables, sino que se observan Z y W definidas
como ½
1 si Z = X
Z = mı́n{X, Y }, W = .
0 si Z = Y
Se dice entonces que las variables X e Y están censuradas.
a) Da la distribución conjunta de Z y W .
b) Prueba que Z y W son independientes.
c) Se observa una m.a.s. de tamaño n de (Z, W ). Calcula los estimadores
máximo verosı́miles de λ y θ.
11. Considera las variables aleatorias descritas en los problemas 14, 15 y 16 de
la lista 1.6. Encuentra el estimador máximo verosı́mil de θ en cada caso.
12. (Ex. parcial 2000, Casella-Berger, 7.19) Un sistema de comunicaciones
transmite secuencias de longitud n de dı́gitos binarios, 0 y 1. Se produce
un error en la transmisión cada vez que se transmite un 1, pero se recibe un
0, o viceversa. Supongamos que la probabilidad de error de transmisión en
cada dı́gito transmitido es p, y que los errores en la transmisión de dı́gitos
diferentes se producen de forma independiente.
Como medida de seguridad, cada secuencia se transmite dos veces. Lla-
maremos X a la cantidad de diferencias entre las dos cadenas de dı́gitos
leı́das por el receptor. Por ejemplo, si n es 8, el receptor puede encontrarse
con las cadenas 00110000 y 00100001, y en este caso X valdrı́a 2.
a) Calcula la probabilidad de que un dı́gito concreto sea diferente en
una y otra cadena.
b) Encuentra el estimador de máxima verosimilitud de p cuando la lon-
gitud de las cadenas es n y se observa X. ¿Es único este estimador
de máxima verosimilitud?
c) Da la estimación de p en el ejemplo anterior.
d ) ¿Cómo se interpretarı́a un valor de X más grande que n/2?
13. (Ex. parcial 2001) En la planta de maternidad de un hospital se registraron
los siguientes nacimientos durante las semanas naturales del mes de febrero
de un año no bisiesto:
Semana Número de nacimientos
1 19
2 32
3 28
4 25
5 10
3.4. LISTA DE PROBLEMAS 85
Estimadores bayesianos
14. Sean Xi ∼ Poisson(λi ), i = 1, 2, independientes. ¿Qué distribución sigue
X1 condicionada a que X1 + X2 = x?
1 1 −1/(βy)
f (y; α, β) = e I(0,∞) (y).
Γ(α)β α y α+1
17. (Ex. parcial 2000) Sea X una variable aleatoria con función de densidad
1 −x
f (x|θ) = e θ,
θ
donde θ es un parámetro que puede tomar valores en el conjunto Θ =
{1, 2, . . . , 20}. Con el objetivo de estimar θ se toma una m.a.s. X1 , . . . , Xn
de X con n = 25 y se obtiene un valor de la media muestral igual a 12.5.
C(θ, a) = I{θ6=a}
18. (Ex. parcial 2001) Supongamos que el número de minutos que una persona
tiene que esperar el autobús cada mañana tiene una distribución uniforme
en el intervalo (0, θ), donde el valor de θ es desconocido. Suponemos que
la función de densidad a priori de θ viene dada por:
½ 192
θ4 per θ ≥ 4,
ξ(θ) =
0 altrament.
Estimación puntual 2:
Evaluación de estimadores
87
88CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
Ejemplo 43
En el siguiente gráfico se muestran cuatro situaciones en las que se combinan
niveles altos y bajos de variabilidad y de sesgo. El caso (d) corresponde al menor
valor del error cuadrático medio.
D E
F G
4.1. ERROR CUADRÁTICO MEDIO 89
. .
Ejemplo 44
X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos: θ =
(µ, σ 2 ). Hemos estudiado, entre otros, los siguientes estimadores de µ y σ 2 :
n n
1X 1 X
X= Xi , S 2 = (Xi − X)2 .
n i=1 n − 1 i=1
E(X) = µ, E(S 2 ) = σ 2 .
. .
Ejemplo 45
A veces vale la pena permitir un poco de sesgo en un estimador para obtener
una reducción importante de la varianza y, por lo tanto, del error cuadrático
medio. Éste es uno de esos casos.
Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, σ 2 ), ambos parámetros desconocidos:
θ = (µ, σ 2 ). Sea
n−1 2
σ̂ 2 = S ,
n
el estimador máximo verosı́mil de σ 2 . Calculemos su error cuadrático medio:
µ ¶
2 n−1 2 1 1
E(σ̂ ) = σ = 1− σ 2 =⇒ Bθ (σ̂ 2 ) = − σ 2 ;
n n n
µ ¶2
2 n−1 2(n − 1) 4
V (σ̂ ) = V (S 2 ) = σ .
n n2
Ası́, el error cuadrático medio de σ̂ 2 es
2(n − 1) 4 1 2n − 1 4 2
E(σ̂ 2 − σ 2 ) = 2
σ + 2 σ4 = 2
σ < σ4 .
n n n n−1
90CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
Ejemplo 46
Sea X1 , . . . , Xn m.a.s. de X ∼ Bern(p). Queremos comparar el estimador máxi-
mo verosı́mil de p y el estimador bayesiano derivado de suponer pérdida cuadráti-
ca y una beta como distribución a priori de p:
Pn
Xi + α
p̂ = X, p̂B = i=1 .
α+β+n
Calculamos errores cuadráticos medios:
¡ ¢ p(1 − p)
Ep (X − p)2 = V (X) = ,
n
µ Pn ¶ µ µ Pn ¶¶2
¡ ¢ i=1 Xi + α i=1 Xi + α
Ep (p̂B − p)2 = V + Bp =
α+β+n α+β+n
µ ¶2
np(1 − p) np + α
+ − p =
(α + β + n)2 α+β+n
np(1 − p) + (α(1 − p) + βp)2
.
(α + β + n)2
Supongamos que no tenemos una información a priori suficientemente rica como
para determinar los valores de α y β y que, como consecuencia, decidimos elegir
los valores α y β tales que el error cuadrático medio de p̂B sea constante en p,
¡ ¢
si ello es posible: Ep (p̂B − p)2 = K(n). Busquemos esos valores:
α2
si p = 0 =⇒ = K(n),
(α + β + n)2
β2
si p = 1 =⇒ = K(n),
(α + β + n)2
de donde se sigue que α = β y
α2
= K(n).
(2α + n)2
4.1. ERROR CUADRÁTICO MEDIO 91
n= 4 −4 n= 400
x 10
0.07 7
0.06 6
0.05 5
0.04 4
ECM
ECM
0.03 3
0.02 2
0.01 1
0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
p p
1 1
K(4) = = 0,028, K(400) = = 0,000567
36 4(21)2
¡ ¢ 1/4 1 ¡ ¢ 1/4
Ep=1/2 (X − p)2 = = = 0,0625, Ep=1/2 (X − p)2 = = 0,000625
4 16 400
Estas figuras ilustran el comportamiento de p̂ y p̂B : si n es pequeño, el es-
timador de Bayes es preferible a no ser que haya una fuerte evidencia de que p
está en los extremos del intervalo [0, 1]. Si n es grande, es mejor el estimador
frecuentista a menos que se sospeche fundadamente que p ≈ 0,5.
. .
Ejemplo 47
T es inadmisible S es admisible
1 1
0.9 0.9
0.8 0.8
0.7 0.7
T T1
0.6 0.6
ECM
ECM
0.5 0.5
0.4 0.4
T2
0.3 0.3
0.2 S 0.2 S
0.1 0.1
T3 no existe
0 0
0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1
θ θ
. .
Ejemplo 48
Sea X1 , . . . , Xn m.a.s. de X ∼ N (µ, 1), −∞ < µ < ∞. La media X y la mediana
muestral Mn son estimadores insesgados de µ.
Para n = 21, se tiene que
Ası́, RE(θ, W1 , W2 ) > 1 si y sólo si Vθ (W2 ) > Vθ (W1 ), si y sólo si W1 usa los
datos de modo más eficiente que W2 .
Ejemplo 49
Se ha calculado la eficiencia relativa de la mediana muestral Mn respecto a
la media muestral X para estimar el parámetro de centralidad µ de cuatro
distribuciones simétricas (el parámetro de centralidad es la mediana poblacional
y coincide con la esperanza cuando ésta existe).
Se ofrecen los resultados en función del tamaño muestral n. Los valores de la
varianza de la mediana son aproximados y se han calculado mediante la fórmula
1
V (Mn ) ≈ .
4f 2 (µ)
Se concluye que la media muestral es más eficiente que la mediana en las leyes
normal y logı́stica, y lo es menos en la doble exponencial y la Cauchy.
. .
Cτ = {W : Eθ (W ) = τ (θ)},
Ejemplo 50
Sea X1 , . . . , Xn una m.a.s. de X ∼ Poisson(λ). Sabemos que E(Xi ) = V (Xi ) =
λ. Por lo tanto, X y S 2 son ambos estimadores insesgados de λ. Determinaremos
cuál de ellos es mejor, en el sentido de tener menor varianza.
La varianza de X es
V (X) λ
V (X) = = .
n n
Para determinar la varianza de S 2 los cálculos son algo más tediosos. En general,
si hacemos θ1 = E(X) y θj = E((X − θ1 )j ), para j = 2, 3, 4, se puede probar
que (ver problema 3 del Capı́tulo 1)
µ ¶
2 1 n−3 2
V (S ) = θ4 − θ .
n n−1 2
∞
X λh
λ (h + 1)2 e−λ = λE((X + 1)2 ) = λ(E(X 2 ) + 2E(X) + 1) =
h!
h=0
λ(λ + λ2 + 2λ + 1) = λ3 + 3λ2 + λ.
Ası́,
θ3 = E((X − λ)3 ) = E(X 3 − 3X 2 λ + 3Xλ2 − λ3 ) =
λ3 + 3λ2 + λ − 3λ(λ + λ2 ) + 3λ3 − λ3 = λ.
Calculemos E(X 4 ):
∞
X λk
E(X 4 ) = k 4 e−λ =
k!
k=0
∞
X λh
λ (h + 1)3 e−λ = λE((X + 1)3 ) = λ(E(X 3 ) + 3E(X 2 ) + 3E(X) + 1) =
h!
h=0
λ 2λ2 λ
+ > = V (X) si n ≥ 2.
n n−1 n
Concluimos que S 2 no puede ser el UMVUE para λ, dado que X es preferible a
S2.
. .
Eλ (Wa ) = aλ + (1 − a)λ = λ,
H2: para cualquier función h( x ) tal que Eθ |h( X )| < ∞ se tiene que
e e
Z Z Z Z · ¸
d ∂
· · · h( x )f ( x |θ)dx1 . . . dxn = · · · h( x ) f ( x |θ) dx1 . . . dxn .
dθ e e e ∂θ e
Entonces,
¡ d
¢2
·³ dθ τ (θ)
Vθ (W ( X )) ≥ ´2 ¸ .
e ∂
Eθ ∂θ log f ( X |θ)
e
A la cantidad del lado derecho de la desigualdad anterior se la denomina Cota
de Cramér-Rao.
∂
Y = log f ( X |θ),
∂θ e
y viendo que se verifican A y B:
A. µ ¶ "µ ¶2 #
∂ ∂
V log f ( X |θ) = Eθ log f ( X |θ) .
∂θ e ∂θ e
B. µ ¶
∂ d
Cov W ( X ), log f ( X |θ) = τ (θ).
e ∂θ e dθ
Z Z ∂
∂θ f ( x |θ)
··· e f ( x |θ)dx1 . . . dxn =
f ( x |θ) e
e
Z Z (H2,h( x )=1)
∂
··· f ( x |θ)dx1 . . . dxn =e
∂θ e
Z Z
d d
· · · f ( x |θ)dx1 . . . dxn = 1 = 0.
dθ e{z dθ
| }
=1
Eθ (S(θ| X )) = 0.
e
Obsérvese que para obtener el estimador máximo verosı́mil de θ lo que se hace
es resolver la ecuación
S(θ| x ) = 0,
e
4.2. MEJOR ESTIMADOR INSESGADO 99
d
Eη (t(X)) = − log c(η).
dη
entonces
d
Eη (T ( X )) = −n log c(η).
e dη
y la función score
∂ d
S(θ|x) = l (θ|x) = log c(η) + t(x).
∂η dη
Por lo tanto,
"µ Ã !2
¶2 # Xn
∂ ∂
Eθ log f ( X |θ) = Eθ log fXi (Xi |θ) =
∂θ X e ∂θ
e i=1
n
" µ ¶2 # X "µ ¶2 #
X ∂ ∂ ∂
Eθ log fXi (Xi |θ) + Eθ log fXi (Xi |θ) log fXj (Xj |θ) .
i=1
∂θ ∂θ ∂θ
i6=j
H3: para cualquier función h( x ) tal que Eθ |h( X )| < ∞ se tiene que
e e
2 Z Z Z Z · 2 ¸
∂ ∂
· · · h( x )f ( x |θ)dx1 . . . dxn = · · · h( x ) f ( x |θ) dx1 . . . dxn .
∂θ2 e e e ∂θ2 e
Entonces,
"µ ¶2 # · 2 ¸
∂ ∂
IX (θ) = Eθ log fX (X|θ) = −Eθ log fX (X|θ) .
∂θ ∂θ2
Demostración:
· ¸
∂2 ∂ 1 ∂
log fX (x|θ) = fX (x|θ) =
∂θ2 ∂θ fX (x|θ) ∂θ
µ ¶2
−1 ∂ 1 ∂2
2 (x|θ) fX (x|θ) + fX (x|θ).
fX ∂θ fX (x|θ) ∂θ2
Por otro lado,
· ¸ Z 2 Z
1 ∂2 ∂2 H3 d
Eθ fX (X|θ) = f X (x|θ)dx = = fX (x|θ)dx = 0.
fX (X|θ) ∂θ2 ∂θ2 dθ2
Ası́ pues,
· ¸ " µ ¶2 #
∂2 1 ∂
Eθ log fX (X|θ) = −Eθ 2 (X|θ) fX (X|θ) =
∂θ2 fX ∂θ
"µ ¶2 #
∂
−Eθ log fX (X|θ) = −IX (θ)
∂θ
2
Ejemplo 51
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Ası́, E(X) = λ. Consideramos τ (λ) =
λ, luego τ 0 (λ) = 1. Por lo tanto,
à !2
Y n · 2 ¸
∂ ∂
Eλ log f (Xi |λ) = −nEλ log f (X|λ) =
∂λ i=1
∂λ2
102CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
· µ ¶¸ · ¸
∂2 e−λ λX ∂2
−nEλ log = −nEλ (−λ + X log λ − log X!) =
∂λ2 X! ∂λ2
· ¸
X n
−nEλ − 2 = .
λ λ
Por lo tanto, para cualquier W , estimador insesgado de λ, se tendrá que
1 λ
Vλ (W ) ≥ = .
n/λ n
Por otra parte, sabemos que X es estimador insesgado de λ y que Vλ (X) = λ/n.
Se deduce de ahı́ que la media muestral es el mejor estimador insesgado (UM-
VUE) de λ.
. .
Ejemplo 52
No siempre es posible intercambiar los signos de la integral y de la derivada.
Veamos un ejemplo.
Sea X1 , . . . , Xn m.a.s. de X ∼ U (0, θ). Ası́, f (x|θ) = 1/θ, si 0 < x < θ, y de
ahı́, · ¸
∂ 1 ∂ 2 1
log f (x|θ) = − =⇒ Eθ ( log f (X|θ)) = 2 .
∂θ θ ∂θ θ
Si la cota de Cramér-Rao es aplicable, ésta dice que para cualquier W , estimador
insesgado de θ, se cumple que Vθ (W ) ≥ θ2 /n.
Sin embargo, es posible encontrar un estimador insesgado de θ con varian-
za menor que θ2 /n. En efecto, sea Y = máxi Xi . Su función de densidad es
fY (y|θ) = (n/θn )y n−1 , si 0 < y < θ. Entonces E(Y ) = (n/(n + 1))θ. Ası́,
W = Y (n + 1)/n es estimador insesgado de θ. Calculemos su varianza:
" µ ¶2 #
(n + 1)2 (n + 1)2 2 n
Vθ (W ) = Vθ (Y ) = Eθ (Y ) − θ =
n2 n2 n+1
" µ ¶2 #
(n + 1)2 n 2 n (n + 1)2 n 2
θ − θ2 = θ − θ2 =
n2 n+2 n+1 n2 n+2
(n + 1)2 − n(n + 2) 2 1 1
θ = θ2 < θ2 .
n(n + 2) n(n + 2) n
La contradicción proviene de que
Z θ Z θ
d ∂
h(x)f (x|θ)dx 6= h(x) f (x|θ)dx.
dθ 0 0 ∂θ
y por lo tanto el teorema de Cramér-Rao no es aplicable.
. .
4.2. MEJOR ESTIMADOR INSESGADO 103
Ejemplo 53
Sea X = (X1 , . . . , Xn ) una muestra aleatoria simple de X ∼ N (µ, σ 2 ) con
e
ambos parámetros desconocidos. Consideramos el problema de estimar σ 2 . La
distribución normal satisface las hipótesis del teorema de Cramér-Rao. Calcu-
lamos la cota de Cramér-Rao:
· ¸
∂2
IX (σ 2 ) = −E log f (x|θ) =
∂(σ 2 )2
· µ ¶¸
∂2 1 −
(x−µ)2
−E log e 2σ 2
=
∂(σ 2 )2 (2πσ 2 )1/2
· µ ¶¸
∂2 1 2 (x − µ)2
−E log K − log σ − =
∂(σ 2 )2 2 2σ 2
· µ ¶¸
∂ 1 (x − µ)2
−E − 2+ =
∂σ 2 2σ 2σ 4
· ¸
1 (x − µ)2 −1 σ2 1
−E 4
− 6
= 4
+ 6 = .
2σ σ 2σ σ 2σ 4
Cualquier W ( X ), estimador insesgado de σ 2 , por ejemplo W ( X ) = S 2 =
Pn e2 e
i=1 (Xi − X) /(n − 1), ha de verificar
1 2σ 4
V (W ( X )) ≥ = .
e nIX (σ 2 ) n
Tomando a(θ) = 2σn4 , se sigue que el estimador insesgado que alcanzarı́a la cota
de Cramér-Rao serı́a
n
1X
W(X ) = (xi − µ)2
e n i=1
que es calculable si y sólo si µ es conocido. Por lo tanto, si µ es desconocido la
cota de Cramér-Rao en la estimación de σ 2 no es alcanzable. Como ya dijimos
antes, queda abierta la cuestión de saber si S 2 es el mejor estimador insesgado
de σ 2 . A esto se dará respuesta más adelante, en la sección 4.2.3.
. .
Ejemplo 54
Sea θ̂i un estimador insesgado de θi , i ∈ {1, . . . , k}. Sea τ ( θ ) = θi . Denotaremos
e
por I ij al elemento (i, j) de (I( θ ))−1 . Según el teorema anterior, será
e
V (θ̂i ) ≥ I ii .
El teorema de Cramér-Rao univariante nos decı́a que
V (θ̂i ) ≥ Iii−1 .
Sabemos que en general se cumple que
I ii ≥ Iii−1 ,
con igualdad si y sólo si la matriz I( θ ) es diagonal. (Véase, por ejemplo, Vélez
e
y Garcı́a 1993, p. 235). Por lo tanto la versión multivariante del teorema de
Cramér-Rao mejora la cota de Cramér-Rao univariante.
Ejemplo 55
Sea (X1 , X2 , X3 ) ∼ Trinomial(n, θ1 , θ2 , θ3 ). Recordemos que X1 + X2 + X3 = n
y que θ1 + θ2 + θ3 = 1, luego hay dos parámetros efectivos, θ1 y θ2 por ejemplo,
pues θ3 = 1 − θ1 − θ2 . La función de verosimilitud es ésta:
n!
L = P (X1 = x1 , X2 = x2 , X3 = x3 |θ1 , θ2 ) = θx1 θx2 (1−θ1 −θ2 )n−x1 −x2 .
x1 !x2 !x3 ! 1 2
| {z }
K
Su logaritmo es
∂2 −xj n − x1 − x2
Hjj = log L = 2 − , j = 1, 2.
∂θj2 θj (1 − θ1 − θ2 )2
∂2 n − x1 − x2
H12 = log L = − .
∂θj (1 − θ1 − θ2 )2
Ası́, la matriz de información de Fisher es
à −X n−X1 −X2 n−X1 −X2
!
θ12
1
− (1−θ 1 −θ2 )
2 − (1−θ1 −θ2 )
2
I(θ1 , θ2 ) = −E(H) = −E n−X1 −X2 −X2 n−X1 −X2 =
− (1−θ 1 −θ2 )
2 θ22
− (1−θ 1 −θ2 )
2
à !
n n n
θ1 + 1−θ1−th2 1−θ1−th2
n n n
1−θ1−th2 θ2 + 1−θ1−th2
Ası́, Ã !
θ1 (1−θ1 ) θ1 θ2
−1 n n
I(θ1 , θ2 ) = θ1 θ2 θ2 (1−θ2 ) .
n n
Entonces,
Demostración:
Ejemplo 56
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ). Queremos estimar θ = τ (λ) = e−λ .
Pn
Sabemos que T ( X ) = i=1 Xi es estadı́stico suficiente para λ. Observemos
e
además que P (X1 = 0) = e−λ y por tanto el estimador W ( X ) = I{X1 = 0} es
e
un estimador insesgado de θ. Procedemos por Rao-Blackwell definiendo
Xn Pn
P (X1 = 0, i=1 Xi = t)
θ̂ = E(W ( X )|T ( X ) = t) = P (X1 = 0| Xi = t) = Pn =
e e i=1
P ( i=1 Xi = t)
Pn Pn
P (X1 = 0, i=2 Xi = t) P (X1 = 0)P ( i=2 Xi = t)
Pn = Pn =
P ( i=1 Xi = t) P ( i=1 Xi = t)
Pn
(recordar que i=1 Xi ∼ Poisson(nλ))
t µ ¶t
e−λ e−(n−1)λ [(n−1)λ]
t! n−1
t = .
e−nλ [nλ]
t!
n
Por lo tanto
µ ¶Pn Xi
n−1 i=1
θ̂ =
n
es un estimador insesgado de θ mejor que W ( X ) = I{X1 =0} .
e
. .
(observar que esta varianza mı́nima no tiene por qué coincidir con la cota de
Cramér-Rao). Definimos W ∗ = (W +W0 )/2, que es también estimador insesgado
de τ (θ). Calculemos su varianza:
1 1 1
V (W ∗ ) =V (W ) + V (W0 ) + Cov(W, W0 ) ≤
4 4 2
µ ¶
1 1 1p 1 1 1
V (W ) + V (W0 ) + V (W )V (W0 ) = + + V (W ) = V (W ).
4 4 2 4 4 2
La desigualdad no puede ser estricta, porque hemos supuesto que W es UMVUE.
Pero la igualdad se da si y sólo si Corr(W, W0 ) = 1, o lo que es lo mismo, si y
sólo si W0 = a(θ)W + b(θ), para algunas funciones a(θ) y b(θ). En ese caso,
de donde se sigue que a(θ) = 1 (por ser las varianzas finitas) y, por tanto, que
b(θ) = 0, luego W = W0 . 2
Intentaremos elegir a de forma que WU sea mejor que W al menos para algún
valor del parámetro. Si para θ = θ0 , Covθ0 (W, U ) < 0 podemos elegir
2Covθ0 (W, U )
0<a<− .
Vθ0 (U )
De esta manera
Vθ0 (WU ) < Vθ0 (W )
se tiene que g(T ) = 0 con probabilidad 1, de donde se sigue que WT = WT0 con
probabilidad 1.
Concluimos que existe un único estimador insesgado de τ (θ) función del
estadı́stico suficiente y completo. Veamos que este estimador es el UMVUE. Sea
W 0 un estimador insesgado de τ (θ) cualquiera. Por el teorema de Rao-Blackwell,
y WT es UMVUE.
La unicidad de WT está garantizada por el teorema 28. 2
para todo λ y cierta función a(λ). Podemos transformar esa expresión ası́:
µ ¶
∂ e−λ
log L(λ| x ) = (a(λ)λeλ ) X − e−λ
∂λ e λ
de donde se deduce que no existe ningún estimador eficiente de e−λ puesto que
−λ
de haberlo tendrı́a que ser e λ X y esa cantidad no es un estadı́stico al depender
del parámetro desconocido λ. Concluimos que θ̂ no alcanza la cota de Cramér-
Rao.
. .
Ejemplo 57
Sea X1 , . . . , Xn una m.a.s. de X ∼ B(k, θ). Se desea estimar la probabilidad de
obtener exactamente un éxito, es decir,
El estadı́stico
n
X
T = Xi ∼ B(nk, θ)
i=1
W = I{X1 =1}
Pn ¡ ¢ t−1
P (X1 = 1)P ( i=2 Xi = t − 1) kθ(1 − θ)k−1 k(n−1)
t−1 θ (1 − θ)k(n−1)−(t−1)
Pn = ¡kn¢ =
P ( i=1 Xi = t) t
t θ (1 − θ)
kn−t
µ ¶
¡k(n−1)¢ k(n − 1)
k Pn
k t−1 i=1 Xi − 1
¡kn ¢ =⇒ WT = µ ¶ .
kn
t Pn
i=1 Xi
. .
114CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
4.3.1. Consistencia
o equivalentemente, si
Por otra parte, usando la desigualdad de Chebyshev se tiene que para todo ε > 0
y todo θ ∈ Θ,
Eθ ((Wn − θ)2 )
Pθ (|Wn − θ| ≥ ε) = Pθ ((Wn − θ)2 ≥ ε2 ) ≤ =
ε2
1
(Vθ (Wn ) + Bθ2 (Wn )) −→n 0,
ε2
lo que equivale a decir que
Ejemplo 58
Sean Xj ∼ B(nj , pj ), j = 1, 2, dos variables aleatorias independientes. Se
define el odds ratio (podrı́a traducirse como tasa de ventajas, aunque no existe
una traducción unánimemente aceptada)
p2
1−p2 p2 1 − p1
ψ = ψ(p1 , p2 ) = p1 = .
1−p1 1 − p2 p1
Podemos estimar pj mediante p̂j = Xj /nj , que por la ley débil de los grandes
números es estimador consistente de pj , j = 1, 2. Usando entonces el estimador
basado en el principio de sustitución, tenemos el siguiente estimador de ψ:
X2 /n2 (1 − X1 /n1 ) X2 (n1 − X1 )
ψ̂ = ψ(p̂1 , p̂2 ) = = .
(1 − X2 /n2 )X1 /n1 (n2 − X2 )X1
Si n1 y n2 tienden simultáneamente a ∞ (es decir, si lı́m nj /(n1 + n2 ) = aj > 0,
j = 1, 2), el tercer apartado del teorema anterior garantiza la consistencia de ψ̂:
Ejemplo 59
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ), Θ = {λ : 0 < λ < ∞}. En este
4.3. COMPORTAMIENTO ASINTÓTICO 117
Ejemplo 60
En la estimación del parámetro θ de una U (0, θ), los siguientes son estima-
dores consistentes: Tn = 2X n , Wn = máxi=1...n Xi . De ellos, el primero con-
verge a θ más lentamente que el segundo: por el teorema central del lı́mite
√
Tn0 = n(Tn − θ) converge débilmente a una distribución no degenerada (con-
√
cretamente a una N (0, θ2 /3)), mientras que Wn0 = n(Wn − θ) converge en
probabilidad a la distribución degenerada en 0 (la varianza de Wn0 y su sesgo
como estimador de 0 tienden a 0, luego el teorema 31 garantiza que Wn0 es
estimador consistente de 0). Podemos decir entonces que Tn converge a θ a la
√
misma velocidad que 1/ n converge a 0, mientras que Wn converge a θ a mayor
118CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
velocidad.
. .
θ̂n ∼ AN(θ, vn )
cuando
1
√ (θ̂n − θ) −→D N (0, 1).
vn
A la cantidad vn se la llama varianza asintótica de θ̂n . El teorema central
del lı́mite es el responsable de la normalidad asintótica de muchos estimadores.
La normalidad asintótica no sólo aparece en estimadores univariantes, sino
también en estimadores multivariantes, como muestra el siguiente ejemplo.
Ejemplo 61
Sean {(Xn , Yn )t }n∈IN una sucesión de variables aleatorias bivariantes indepen-
dientes y distribuidas como la variable aleatoria bivariante (X, Y )t , la cual se
supone con momentos de segundo orden finitos. Se desea estimar (µX , µY )t =
(E(X), E(Y ))t . Utilizaremos como estimador (X n , Y n )t , el par formado por
las medias muestrales de los primeros n pares de variables aleatorias (Xi , Yi )t ,
i = 1, . . . , n.
La distribución de una variable aleatoria bivariante está caracterizada por
las distribuciones de las combinaciones lineales arbitrarias de sus componentes
4.3. COMPORTAMIENTO ASINTÓTICO 119
normal bivariante.
. .
1
f (x) ≈ f (a) + f 0 (a)(x − a) + f 00 (a)(x − a)2 ,
2
aproximación cuadrática de f (x). El siguiente teorema justifica la aproximación
de una función mediante sus desarrollos de Taylor.
El uso que haremos de este teorema será para desarrollos de primer y segundo
orden.
El siguiente resultado será útil a la hora de establecer la distribución asintóti-
ca de algunos estimadores. En particular, se usa en la demostración del método
delta.
Xn + Yn −→D X + a,
Xn Yn −→D aX,
Teorema 35 (Método delta) Sea {an }n una sucesión de números reales ta-
les que an −→n ∞ y con an 6= 0 para todo n. Sea θ̂n una sucesión de estimadores
de θ tales que
an (θ̂n − θ) −→D N (0, σθ2 )
y sea g(x) una función con primera derivada continua en un intervalo que con-
tiene a θ. Entonces
g(θ̂n ) = g(θ)+g 0 (α(θ, θ̂n ))(θ̂n −θ) =⇒ an (g(θ̂n )−g(θ)) = g 0 (α(θ, θ̂n ))an (θ̂n −θ),
122CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
donde |α(θ, θ̂n ) − θ| ≤ |θ̂n − θ|. Obsérvese que θ̂n −→P θ. En efecto,
1
θ̂n − θ = an (θ̂n − θ) −→D 0 · N (0, σθ2 ) ≡ 0 =⇒
an
. .
f ( x ) ≈ f ( a ) + ( x − a )t ∇f ( a ) + ( x − a )t Hf ( a )( x − a ),
e e e e e e e e e e
4.3. COMPORTAMIENTO ASINTÓTICO 123
y Hf ( a ) es la matriz hessiana de f en a :
e e
à 2 !
∂ f( a )
Hf ( a ) = e
e ∂xi xj
1≤i≤k, 1≤j≤k
f ( x ) ≈ f ( a ) + ( x − a )t ∇f ( a ),
e e e e e
y es útil para probar el siguiente resultado.
Ası́,
√
n(ψ̂n − ψ) −→D N (0, σ 2 ),
donde la varianza σ 2 es
µ ¶Ã p1 (1−p1 )
!Ã −p2
!
2 −p2 1 − p1 γ1 0 (1−p2 )p21
σ = , p2 (1−p2 ) 1−p1 =
(1 − p2 )p21 (1 − p2 )2 p1 0 γ2 (1−p2 )2 p1
µ ¶2 µ ¶2
−p2 p1 (1 − p1 ) 1 − p1 p2 (1 − p2 )
2 + 2
=
(1 − p2 )p1 γ1 (1 − p2 ) p1 γ2
µ ¶2 µ ¶
p2 (1 − p1 ) 1 1
+ =
(1 − p2 )p1 p1 (1 − p1 )γ1 p2 (1 − p2 )γ2
µ ¶
1 1
ψ2 + .
p1 (1 − p1 )γ1 p2 (1 − p2 )γ2
Por lo tanto, la varianza asintótica de ψ̂n es
µ ¶
σ2 2 1 1
≈ψ + .
n p1 (1 − p1 )n1 p2 (1 − p2 )n2
. .
Ejemplo 62
Sea X1 , . . . , Xn , . . . son variables aleatorias independientes e idénticamente dis-
√
tribuidas con esperanza µ y varianza 1, y sea Tn ( X ) = X n + a/ n para una
e
constante a 6= 0. Se tiene que
√ √
n(Tn ( X ) − µ) = n(X n − µ) + a −→D N (a, 1),
e
luego Tn es asintóticamente sesgado: la diferencia entre la esperanza del esti-
√
mador y el parámetro estimado, multiplicada por n, no tiende a 0. Obsérvese
que, no obstante, Tn es un estimador consistente de µ:
√
Tn ( X ) = X n + a/ n −→P µ + 0 = µ.
e
. .
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL125
C3: La cantidad · µ ¶¸
f (X|θ)
e(θ0 , θ) = Eθ0 log
f (X|θ0 )
existe para todo par θ, θ0 en Θ.
a) " Ã !#
L(θ| X n )
Eθ0 log e < 0.
L(θ0 | X n )
e
b)
lı́m Pθ0 {L(θ0 | X n ) > L(θ| X n )} = 1.
n−→∞ e e
Entonces, con probabilidad que tiende a 1 cuando n tiende a infinito, existe una
sucesión {θ̂n }n de raı́ces de la ecuación del score
∂
log L(θ| X n ) = 0
∂θ e
(la que se resuelve para hallar el estimador de máxima verosimilitud de θ) que
converge al verdadero valor del parámetro θ0 en probabilidad.
Sea {θ̂n }n una sucesión consistente de raı́ces de la ecuación del score: θ̂n −→P
θ0 , si θ0 es el verdadero valor del parámetro. Entonces
µ ¶
√ 1
n(θ̂n − θ0 ) −→D N 0, ,
I(θ0 )
donde
1
I(θ0 ) = lı́m I (θ0 ) = IX (θ0 ).
n−→∞ n Xn
e
Demostración: Hacemos el desarrollo de Taylor de segundo orden de la función
score
∂
S(θ| X n ) = log L(θ| X n )
e ∂θ e
en torno a θ0 y la evaluamos en θ̂n :
0 = S(θ̂n | X n ) = S(θ0 | X n )+
e e
∂ 1 ∂2
(θ̂n − θ0 ) S(θ0 | X n ) + (θ̂n − θ0 )2 2 S(θ∗ (θ̂n , θ0 )| X n )
∂θ e 2 ∂θ e
√
donde |θ∗ (θ̂n , θ0 ) − θ0 | ≤ |θ̂n − θ0 |. Dividiendo la expresión anterior por n se
obtiene la siguiente:
1
0 = √ S(θ0 | X n )+
n e
· 2
¸
√ 1 ∂ 1 ∂ ∗
n(θ̂n − θ0 ) S(θ0 | X n ) + S(θ (θ̂n , θ0 )| X n )(θ̂n − θ0 ) .
n ∂θ e 2n ∂θ2 e
Por otra parte, el teorema central del lı́mite implica que
n ¯
1 1 X ∂ log f (Xi |θ) ¯¯
√ S(θ0 | X n ) = √ ¯ −→D N (0, IX (θ0 )),
n e n i=1 ∂θ θ=θ0
puesto que ∂ log f (Xi |θ)/∂θ son variables aleatorias independientes e idéntica-
mente distribuidas con esperanza 0 y varianza IX (θ0 ) < ∞.
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL129
n
1X
K(Xi ) −→P E(K(X)) ≤ k,
n i=1
2
∂
de donde se sigue que n1 | ∂θ ∗
2 S(θ (θ̂n , θ0 )| X n )| está acotado en probabilidad por
e
k: para todo ε > 0, la probabilidad de que esa cantidad sea menor que k + ε
tiende a 1. En definitiva, y dado que θ̂n −→P θ0 , se tiene que
1 ∂2
S(θ∗ (θ̂n , θ0 )| X n )(θ̂n − θ0 ) −→P 0.
2n ∂θ2 e
Combinado los resultados anteriores, podemos escribir
√
n(θ̂n − θ0 ) =
−1
1 ∂ 1 ∂2 1
− S(θ | X ) − S(θ∗ (θ̂n , θ0 )| X n )(θ̂n − θ0 ) √ S(θ0 | X n )
n ∂θ 0 n 2
| {z e } |2n ∂θ {z e } |
n
{z
e
}
−→P IX (θ0 ) −→P 0 −→D N (0,IX (θ0 ))
Teorema 40 Bajo las condiciones del teorema 39 (C1 a C6, H2, H3) los es-
tadı́sticos On y En definidos como
¯
∂ 2 log L(θ| X n ) ¯¯
On = − e ¯ ,
∂θ2 ¯
θ=θ̂n
En = I
(θ̂ ),
Xn n
e
divididos por n son estimadores consistentes de IX (θ0 ). Es decir, tanto On , la
información observada evaluada en el máximo, como En , la información
esperada evaluada en el máximo, estiman consistentemente la información de
Fisher contenida en la muestra acerca del parámetro.
Demostración: ¯
1 ∂ log L(θ| X n ) ¯¯
2
On
=− e ¯ =
n n ∂θ2 ¯
θ=θ̂n
¯ ¯
2 ¯
1 ∂ log L(θ| X n ) ¯ 1 ∂ log L(θ| X n ) ¯¯
3
− e ¯ − e ¯ (θ̂n − θ0 )
n ∂θ2 ¯ n ∂θ3 ¯ ∗
θ=θ0 θ=θ (θ0 ,θ̂n )
Ejemplo 63
Estimación máximo verosı́mil de un parámetro de la distribución de
Weibull.
Sea X1 , . . . , Xn m.a.s. de X ∼ W (2, β):
2 −x2 /β
f (x, β) = xe , 0 ≤ x ≤ ∞, β > 0.
β
à n !
2n Y Pn 2
L(β| x n ) = n xi e−( i=1 Xi )/β
e β i=1
n
1X 2
l (β| x n ) = K − n log β − X
e β i=1 i
n
∂ n 1 X 2
S(β| x n ) = l (β| x n ) = − + 2 X
e ∂β e β β i=1 i
n
1X 2
S(β| X n ) = 0 =⇒ β̂n = X
e n i=1 i
à !¯
¯ n 2 Xn ¯ n
¯ 2 ¯
S 0 (β| X n )¯ = − X i ¯ =− <0
e β=β̂ n β 2 β 3 ¯ β̂n2
i=1 β=β̂n
n n3
En = I (β̂n ) = = Pn = On .
X n β̂n2 i=1 Xi2
e
Ası́ pues, en este ejemplo, tanto la información observada como la esperada valen
lo mismo al ser evaluadas en el estimador máximo verosı́mil y, por lo tanto, sólo
tenemos un estimador consistente de la información de Fisher.
132CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
Eβ(log f(X|β))
l(β|Xn,1)/n l(β|Xn,2)/n
β β β
β
. .
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL133
Ejemplo 64
En este ejemplo extendemos los resultados uniparamétricos al caso multipa-
ramétrico.
Sean Y1 , . . . , Yn variables aleatorias independientes tales que Yi ∼ Bern(pi ),
i = 1, . . . , n, que siguen el modelo de regresión logı́stico, es decir, existen cova-
riantes Z1 , . . . , Zn y parámetros desconocidos α y β tales que
µ ¶
pi
log = α + βZi , i = 1, . . . , n.
1 − pi
Es posible despejar pi :
exp(α + βZi )
pi = .
1 + exp(α + βZi )
Ello permite escribir la verosimilitud de la muestra:
Yn Yn µ ¶yi
pi
L(α, β) = pyi i (1 − pi )1−yi = (1 − pi ).
i=1 i=1
1 − pi
El logaritmo de la verosimilitud es
Xn µ µ ¶ ¶
pi
l (α, β) = yi log + log(1 − pi ) =
i=1
1 − pi
n µ
X µ ¶¶
1
yi (α + βZi ) + log
i=1
1 + exp(α + βZi )
Las ecuaciones de los scores son éstas:
n µ ¶ X n
∂ l (α, β) X exp(α + βZi )
= Yi − = (Yi − pi ),
∂α i=1
1 + exp(α + βZi ) i=1
n µ ¶ X n
∂ l (α, β) X Zi exp(α + βZi )
= Yi Zi − = Zi (Yi − pi ).
∂β i=1
1 + exp(α + βZi ) i=1
n
∂ 2 l (α, β) X
− = Zi pi (1 − pi ),
∂αβ i=1
134CAPÍTULO 4. ESTIMACIÓN PUNTUAL 2: EVALUACIÓN DE ESTIMADORES
n
∂ 2 l (α, β) X 2
− = Zi pi (1 − pi ).
∂β 2 i=1
Ası́,
√ √ √ ¡ ¢
n(log θ̂n − log θ) = n(log θ̂n + λ) = n X n n log(1 − 1/n) + λ =
√ √
[n log(1 − 1/n)] n(X n − λ) + λ n [1 + n log(1 − 1/n)] −→D N (0, λ).
4.4. TEORÍA ASINTÓTICA PARA EL ESTIMADOR MÁXIMO VEROSÍMIL135
(τ 0 (λ))2
= λe−2λ ,
I(λ)
Luego se tiene que θ̂n es asintóticamente eficiente, al igual que lo era el estimador
de máxima verosimilitud e−X n tal como se vio en el ejemplo 59, página 116.
√
Falta por comprobar que se da la convergencia n [1 + n log(1 − 1/n)] −→n
0. Para probarlo, llamemos l al lı́mite y observemos que
¡ ¢x
1 + log 1 − x1
l = lı́m √ .
x−→∞ 1/ x
Yi = βxi + εi , i = 1, . . . , n,
Eθ (T ) = θ, Vθ (T ) < ∞, Eµ (W ) = µ, Vµ (W ) < ∞.
12. (Ex. junio 2000) Sea X ∼ N (µ, 1). Queremos estimar θ = µ2 a partir de
una observación de X.
Comportamiento asintótico
13. (Casella-Berger, 7.61) Sean las v.a.i.i.d. X1 , . . . , Xn que verifican que
con b 6= 0 conocida.
4.5. LISTA DE PROBLEMAS 139
Yi = βXi + εi , i = 1, . . . , n,
17. (Casella-Berger, 7.65) Sea X ∼ B(n, p), n conocida y 0 < p < 1. Sea p̂ el
estimador máximo verosı́mil de p construido a partir de X. La varianza
de p̂ es p(1 − p)/n, que puede estimarse mediante p̂(1 − p̂)/n.
γ̂ = eX .
19. (Examen julio 2000) Sea X una variable aleatoria con función de densidad
con a ∈ R y λ > 0.
Indicaciones:
El coeficiente de apuntamiento de una v.a. Y se define como
CAp(Y ) = E[(Y − E(Y ))4 ]/V (Y )2 .
Si Y ∼ Exp(λ) entonces CAp(Y ) = 9.
Si θ4 = E[(Y − E(Y ))4 ] y θ2 = V (Y ), entonces
µ ¶
1 n−3 2
V (S 2 ) = θ4 − θ2
n n−1
4 1 6n2 + 3n + 14
E(Y ) = +
λ4 n 3 λ4
d ) Usa el método delta para dar la expresión aproximada del sesgo de
e1/(X−a) como estimador de eλ .
Capı́tulo 5
Contrastes de hipótesis
141
142 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
donde Θ0 ∪ Θ1 = Θ, Θ0 ∩ Θ1 = ∅.
DECISIÓN
Aceptar H0 Rechazar H0
H0 Decisión Error de
REALIDAD cierta correcta TIPO I
H0 Error de Decisión
falsa TIPO II correcta
sup η(θ) ≤ α.
θ∈Θ0
β = Pθ1 ( x ∈ C) ≤ β ∗ = Pθ1 ( x ∈ C ∗ ).
e e
Calculemos la diferencia β ∗ − β:
Z Z
β∗ − β = L(θ1 | x )d x − L(θ1 | x )d x =
x ∈C ∗ e e x ∈C e e
e e
Z Z
L(θ1 | x )d x + L(θ1 | x )d x −
x ∈C ∗ ∩C e e x ∈C ∗ ∩C e e
e e
5.1. DEFINICIONES BÁSICAS. CONTRASTE DE HIPÓTESIS SIMPLES145
Z Z
L(θ1 | x )d x − L(θ1 | x )d x =
x ∈C∩C ∗ e e x ∈C∩C ∗ e e
Ze Ze
L(θ1 | x )d x − L(θ1 | x )d x ≥
x ∈C ∗ ∩C e e x ∈C∩C ∗ e e
Z e Ze
A L(θ0 | x )d x − A L(θ0 | x )d x =
x ∈C ∗ ∩C e e x ∈C∩C ∗ e e
e" e
Z Z
A L(θ0 | x )d x + L(θ0 | x )d x −
x ∈C ∗ ∩C e e x ∈C ∗ ∩C e e
e e #
Z Z
L(θ0 | x )d x − L(θ0 | x )d x =
x ∈C∩C ∗ e e x ∈C∩C ∗ e e
"Z e e #
Z
A L(θ0 | x )d x − L(θ0 | x ) = A(α − α) = 0.
x ∈C ∗ e e x ∈C e
e e
2
Ejemplo 65
Test Z.
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido.
Se desea contrastar H0 : µ = µ0 frente a H1 : µ = µ1 , con µ1 > µ0 .
Nuestra intuición nos dice que se debe rechazar H0 si se observan valores
grandes de x. Veamos que la aplicación del Lema de Neyman-Pearson conduce
a esta solución.
La función de verosimilitud de una muestra es
½ ¾
1
L(µ| x ) = (2πσ 2 )−n/2 exp − 2 Σni=1 (xi − µ)2
e 2σ
y el cociente de verosimilitudes
© ª
L(µ1 | x ) (2πσ 2 )−n/2 exp − 2σ1 2 Σni=1 (xi − µ1 )2
e = © 1 n ª=
L(µ0 | x ) (2πσ 2 )−n/2 exp − 2σ2 Σi=1 (xi − µ0 )2
e
½ ¾
1 n ¡ 2 2
¢
exp Σ (xi − µ0 ) − (xi − µ1 ) =
2σ 2 i=1
½ ¾
1 ¡ 2 2 2
¢
exp n 2x(µ 1 − µ0 ) + (µ 0 − µ1 )
2σ 2
Ası́, la región crı́tica del test de Neyman-Pearson tiene la forma
X n − µ0 Xn − 5
Z= √ = √ ≥ 1,645.
σ/ n 1/ 4
Supongamos que se observa la muestra x = (5,1, 5,5, 4,9, 5,3), luego la media
e
muestral vale x = 5,2. Como
x−5
z= √ = 0,4 6≥ 1,645
1/ 4
no se rechaza H0 .
√
Este contraste se denomina test Z porque usa el estadı́stico Z = n(X n −
µ0 )/σ, que tiene distribución N (0, 1) bajo H0 .
. .
Ejemplo 66
Sean Y1 , . . . , Yn muestra aleatoria simple de Y ∼ Bern(p). Se desea contrastar
½
H0 : p = p0
H1 : p = p1
Pn
con p1 > p0 . Sea X = i=1 Yi ∼ B(n, p). La verosimilitud de la muestra es
µ ¶
n x
L(p|x) = p (1 − p)n−x .
x
5.1. DEFINICIONES BÁSICAS. CONTRASTE DE HIPÓTESIS SIMPLES147
B 0 3 7 8 9
α 1.000 0.945 0.172 0.055 0.011
β 0.000 <0.001 0.121 0.322 0.624
En los dos ejemplos anteriores hemos visto que el mejor test de tamaño
α depende de las observaciones sólo a través del valor que en ellas toma el
estadı́stico minimal suficiente del parámetro de interés. El siguiente corolario
establece esto como resultado general.
para algún A ≥ 0.
y por tanto no hay suficiente evidencia en contra de H0 como para rechazar esta
hipótesis.
. .
sup η(θ) = α
θ∈Θ0
y para cualquier otro contraste con función de potencia η ∗ que sea también de
tamaño α, es decir, que cumpla
sup η ∗ (θ) = α,
θ∈Θ0
se tiene que
η(θ) ≥ η ∗ (θ), para todo θ ∈ Θ1 .
Demostración: Sea η(θ) la función de potencia del test que tiene región crı́tica
C. Por la definición de C se tiene que este test tiene tamaño α. Sea η ∗ la función
de potencia de cualquier otro test de tamaño α.
Para cualquier θ1 ∈ Θ1 , por el Lema de Neyman-Pearson el test con región
crı́tica C es el mejor para contrastar
½
H0 : θ = θ 0
H1 : θ = θ 1
y por lo tanto, η(θ1 ) ≥ η ∗ (θ1 ). Como eso ocurre para todo θ1 ∈ Θ1 se sigue que
η(θ1 ) ≥ η ∗ (θ1 )
Ejemplo 67
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido. Se
desea contrastar ½
H0 : µ = µ 0
H1 : µ > µ 0
En el ejemplo 65 se vió que para cualquier µ1 > µ0 el mejor test para contrastar
H0 : µ = µ0 frente a H10 : µ = µ1 tiene por región crı́tica
σ
C = { x : x ≥ B}, con B = µ0 + zα √ .
e n
Por lo tanto, la región crı́tica es la misma para todos los posibles valores µ1 ∈
Θ1 = (µ0 , ∞). Se sigue que el contraste con región crı́tica C es UMP de tamaño
α para contrastar H0 frente a H1 .
La función de potencia del test UMP es
σ
η(µ) = P ( X ∈ C|µ) = P (X n ≥ µ0 + zα √ |µ) =
e n
µ ¶ µ ¶
Xn − µ µ0 − µ µ0 − µ
P √ ≥ √ + zα |µ = P Z ≥ √ + zα ,
σ/ n σ/ n σ/ n
siendo Z ∼ N (0, 1).
. .
g(t|θ1 )
si > A(θ1 ) =⇒ t ∈ C, y
g(t|θ0 )
g(t|θ1 )
si < A(θ1 ) =⇒ t ∈ C.
g(t|θ0 )
Demostración: Sea η(θ) la función de potencia del contraste que tiene región
crı́tica C y sea η ∗ (θ) la función de potencia de otro contraste que tiene tamaño
α. Se verificará pues que η ∗ (θ0 ) ≤ α.
Fijamos un θ1 ∈ Θ1 y contrastamos H00 : θ = θ0 frente a H10 : θ = θ1 . Por el
corolario al Lema de Neyman-Pearson, la región crı́tica C corresponde al mejor
test, luego η(θ1 ) ≤ η ∗ (θ1 ). Esto es válido para todo θ1 ∈ Θ1 , luego el test con
región crı́tica C es UMP. 2
3. Para cada θ1 ∈ Θ1 , existe A(θ1 ) tal que t ∈ C si y sólo si (g(t|θ1 )/g(t|θ0 )) >
A(θ1 ). Esto se verifica si definimos
g(t|θ1 )
A(θ1 ) = ı́nf ,
t∈T g(t|θ0 )
donde T = {t : t > t0 y g(t|θ1 ) > 0 o g(t|θ0 ) > 0}. Si g(t|θ1 )/g(t|θ0 ) >
A(θ1 ) entonces t > t0 , puesto que T tiene RVM. Si t > t0 entonces
g(t|θ1 )/g(t|θ0 ) > ı́nf t g(t|θ1 )/g(t|θ0 ) = A(θ1 ).
Ejemplo 68
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocido. Se
desea contrastar H0 : µ = µ0 frente a H1 : µ 6= µ0 .
154 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
C = { x : xn ≤ A1 o xn ≥ A1 },
e
donde A1 y A2 se eligen para que el test tenga tamaño α:
P (X n ≤ A1 |µ = µ0 ) + P (X n ≥ A2 |µ = µ0 ) = α.
µ0=0, σ=1
0.8
Funciones de potencia
0.6
0.4
0.2
−4 −3 −2 −1 0 1 2 3 4
µ
En los casos en los que no existen tests UMP es posible aún elegir contrastes
que tengan propiedades deseables. Una posibilidad (que será desarrollada en
la sección 5.5) es construir pruebas que sean válidas en muchas situaciones,
fácilmente aplicables y con buenas propiedades teóricas.
Es razonable pedir que un contraste sea insesgado, puesto que nos dice que la
potencia nunca es menor bajo la hipótesis alternativa que bajo la nula: siempre
es más probable rechazar la hipótesis nula si ésta es falsa que si no lo es. Es
entonces lógico restringir la clase de contrastes que se consideran a aquella que
contiene sólo contrastes insesgados. Entre éstos se buscarán los tests UMP.
L(θ0 + δ; x )
e ≥ A ⇐⇒ log L(θ0 + δ; x ) − log L(θ0 ; x ) ≥ log A.
L(θ0 ; x ) e e
e
Desarrollando por Taylor alrededor de δ = 0, se tiene que
¯
∂ log L ¯¯
log L(θ0 + δ; x ) ≈ log L(θ0 ; x ) + δ
e e ∂θ ¯θ=θ0
Ejemplo 69
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ Cauchy(θ), con función de
densidad
1
f (x|θ) = .
π(1 + (x − θ)2 )
Se desea contrastar ½
H0 : θ = θ 0
.
H1 : θ > θ 0
La verosimilitud y su logaritmo son
Yn Xn
1 ¡ ¢
L(θ; x ) = 2
, l (θ; x ) = − log π + log(1 + (xi − θ)2 ) .
e i=1
π(1 + (xi − θ) ) e i=1
La función score es
n
X 2(xi − θ)
S(θ; x ) =
e i=1
1 + (xi − θ)2
y la información de Fisher
n
Iθ = .
2
5.4. CONSISTENCIA Y EFICIENCIA PARA CONTRASTES 157
. .
Observemos que las pruebas localmente más potentes son útiles sólo para
alternativas unilaterales. Si θ es un vector, serán útiles cuando nos preocupa
una dirección especı́fica en la que el parámetro pueda alejarse de θ0 .
es decir, es el lı́mite del cociente n2 /n1 cuando ambos tamaños muestrales tien-
den a infinito conjuntamente, en el sentido de que ambos garantizan potencia η
y η tiende a 1.
Existen otros conceptos de eficiencia relativa entre contrastes que contemplan
la posibilidad de que la hipótesis alternativa tienda hacia la nula cuando n tiende
a infinito (eficiencia de Pitman; ver, por ejemplo, Bickel y Doksum 1977). Otras
definiciones se basan en la comparación de p-valores (eficiencia de Bahadur; ver,
por ejemplo, Shorack y Wellner 1986).
158 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
C = { x : λ( x ) ≤ A}
e e
para alguna constante A que se determinará para que el test tenga el tamaño α
deseado.
La idea intuitiva que sustenta este método de contraste es simple. Obsérvese
que 0 ≤ λ ≤ 1 y que cuanto más cercano a 1 sea el valor de λ, más verosı́mil
es que θ ∈ Θ0 , mientras que cuanto más se aleje λ de 1, más creı́ble será la
hipótesis alternativa θ ∈ Θ1 .
Ejemplo 70
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ), µ y σ 2 desconocidos:
el parámetro es θ = (µ, σ 2 ). Se desea contrastar
½
H0 : µ = µ0
H1 : µ 6= µ0
La verosimilitud es:
( n
)
2 −n/2 2 X
L(θ| x ) = (2πσ ) exp − 2 (xi − µ)2 .
e 2σ i=1
µ Pn 2
¶
2 −n/2
µ ¶−n/2
i=1 (x i − x) + n(x − µ0 ) t2
P n 2
= 1 + ,
i=1 (xi − x) n−1
√ H
donde t = n(x − µ0 )/S ∼0 . Por lo tanto, el estadı́stico λ es decreciente en |t|.
La prueba de razón de verosimilitudes rechaza H0 si λ < A para algún A, lo
cuál ocurrirá si y sólo si |t| > B para algún B. Por lo tanto, la prueba de razón
de verosimilitudes rechaza H0 si
|x − µ0 |
√ >B
S/ n
y B se elige para que el tamaño del test sea α. Por lo tanto, este test coincide
con el test t bilateral clásico en el muestreo de la normal.
. .
∂ 2 l (θ̃| x n )
− e (θ0 − θ̂n )2 .
∂θ2
En el teorema 39 se probó que el estimador máximo verosı́mil θ̂n es consistente.
Como además |θ̃ − θ0 | ≤ |θ̂n − θ0 | se tendrá que bajo H0
θ̃ −→P
H0 θ0 .
1 ∂ l (θ̃| x n ) ³√ ´2
2
Qn = − e n(θ̂ n − θ 0 ) −→D χ21 .
n ∂θ2
2
Ejemplo 71
P5
Modelos log-lineales. Sea θ ∈ Θ = {(p1 , p2 , p3 , p4 , p5 ) ∈ IR5 : j=1 pj =
1, y pj ≥ 0, j = 1, . . . , 5}. Sean X1 , . . . , Xn variables aleatorias discretas inde-
pendientes e idénticamente distribuidas tales que
Pθ (Xi = j) = pj = f (j|θ)
El estadı́stico λ( x ) es entonces
e
³ ´y4 +y5
y1 +y2 +y3 1−3p̂10
p̂10 2
λ( x ) = =
e pˆ1 y1 pˆ2 y2 pˆ3 y3 pˆ4 y4 pˆ5 y5
µ ¶y1 µ ¶y2 µ ¶y3 µ ¶y4 µ ¶ y5
y1 + y2 + y3 y1 + y2 + y3 y1 + y2 + y3 y4 + y5 y4 + y5
.
3y1 3y2 3y3 2y4 2y5
El estadı́stico Qn = −2 log λ( x ) es
e
X5 µ ¶
yj
Qn = −2 log λ( x ) = 2 yj log ,
e j=1
mj
∂ log L(θ; x n )
Sn (θ; x n ) = e
e ∂θ
164 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
si θ ∈ IR, o
à !t
∂ log L( θ ; x n ) ∂ log L( θ ; x n )
Sn ( θ ; x n ) = e e ,..., e e
e e ∂θ1 ∂θk
si θ = (θ1 , . . . , θk ) ∈ IRk .
e
Para contrastar H0 : θ = θ 0 frente a H1 : θ 6= θ 0 se propone el
e e e e
estadı́stico
S t −1
Tn = (Sn ( θ 0 ; x n )) (In ( θ 0 )) Sn ( θ 0 ; x n ),
e e e e e
que, bajo H0 y suponiendo que se cumplen las condiciones habituales de regu-
laridad, se distribuye asintóticamente como una χ2k dado que
Sn ( θ ; x n ) ≈ Nk (0, In ( θ 0 )).
e e e
Para el caso k = 1 se tiene que bajo H0
à !2
S −1
∂ log L(θ; x n )
Tn = (In ( θ 0 )) e ≈ χ21 .
e ∂θ
Ejemplo 72
En un experimento de Bernoulli con probabilidad de éxito p que se repite n
veces, se llama X al número de éxitos observados: X ∼ B(n, p). Se trata de
contrastar las hipótesis ½
H0 : p = p 0
H1 : p 6= p0
mediante los contrastes de la razón de verosimilitudes, del score y de Wald.
Calculamos el logaritmo de la verosimilitud,
µ ¶
n
l (p, x ) = log + x log p + (n − x) log(1 − p),
e x
∂ l (p, x ) x n−x x − np
e = − = ,
∂p p 1−p p(1 − p)
n (x − np0 )2
Wn = (p̂ − p0 )2 = .
p̂(1 − p̂) np̂(1 − p̂)
Qn = −2 log λ(x) = 2 (log L(p̂|x) − log L(p0 |x)) = 2 (l (p̂|x) − l (p0 |x)) =
Acabamos de ver dos métodos generales (el test del score y el test de Wald)
para construir contrastes cuando la hipótesis nula es simple. Hemos visto que
están relacionados con el contraste de la razón de verosimilitudes. Sin embargo
éste último test es aplicable aun cuando la hipótesis nula sea compuesta.
Veremos ahora que los tests del score y de Wald también pueden aplicarse
aunque no todos los parámetros del modelo queden fijados en la hipótesis nula.
Aquellos parámetros a los que H0 no hace referencia se denominan parámetros
secundarios o parámetros nuisance, en inglés.
Suponemos que el vector de parámetros θ puede subdividirse en dos sub-
conjuntos, θt = (αt , β t ), con dimensión de α igual a p < k, y que se desean
contrastar las hipótesis ½
H0 : α = α 0
H1 : α 6= α0
Sea (α̂n , β̂n ) el EMV de (α, β) construido a partir de una muestra de tamaño
n. Entonces se tiene que
µ ¶ µµ ¶ ¶
α̂n α −1
≈ Nk , (In (α, β)) .
β̂n β
Ejemplo 73
Modelo de regresión exponencial. Supongamos que en n individuos inde-
pendientes se mide el valor de una covariable xi y el de una variable respuesta
Yi . Supongamos que las variables aleatorias Yi son exponenciales con tasa de
fallo 1/E[Yi ] = exp(α + βxi ), donde α, β ∈ IR.
Interesa saber si la covariable está asociada con la respuesta, ası́ que se
plantea el contraste ½
H0 : β = 0
H1 : β 6= 0
Buscaremos el test de Wald, el del score y el de máxima verosimilitud. Calcula-
mos la verosimilitud:
n
Y
L(α, β|(yi , xi ), 1 ≤ i ≤ n) = exp(α + βxi ) exp(−yi exp(α + βxi )) =⇒
i=1
n
X
l (α, β|(yi , xi ), 1 ≤ i ≤ n) = {α + βxi − yi exp(α + βxi )} =
i=1
n
X n
X
nα + β xi − yi exp(α + βxi )
i=1 i=1
Calculamos las funciones score:
Xn
∂l
Sα (α, β) = =n− yi exp(α + βxi ),
∂α i=1
Xn Xn
∂l
Sβ (α, β) = = xi − yi xi exp(α + βxi ).
∂β i=1 i=1
Los componentes de la matriz de información observada vienen dados por las
derivadas de los scores:
2
X n
∂ l
− 2 = yi exp(α + βxi ),
∂α i=1
X n
∂ 2l
− = yi xi exp(α + βxi ),
∂α∂β i=1
X n
∂2l
− = yi x2i exp(α + βxi ).
∂β 2 i=1
Como E(Yi ) = 1/ exp(α + βxi ) para cada i, tomando esperanzas de las expre-
siones anteriores se obtiene la matriz de información:
µ Pn ¶
n x
In (α, β) = Pn Pni=1 2i
i=1 xi i=1 xi
Sea β0 = 0. Ahora tenemos todas los elementos necesarios para calcular los
estadı́sticos de los trest contrastes:
Test de Wald.
n
X H0
Wn = (β̂n − β0 )t Iββ|α (β̂n − β0 ) = β̂n2 (xi − x)2 ≈ χ21 .
i=1
ası́ que ³ ´
Pn yi
Sβ (α̂0 , 0) x
i=1 i 1 − y
p = pPn ≈H0 N (0, 1),
Iββ|α i=1 (xi − x)
2
luego
à n µ ¶!2 Xn
X yi H0
TnS = xi 1 − (xi − x)2 ≈ χ21 .
i=1
y i=1
−2 log λ =
" n n n
#
X X X
2 nα̂n + β̂n xi − yi exp(α̂n + β̂n xi ) − n log(n/ yi ) − n
i=1 i=1 i=1
. .
170 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
Ejemplo 74
Sea X1 , . . . , Xn m.a.s. de X ∼ N (θ, σ 2 ), con σ 2 conocida. La distribución a
priori de θ es N (µ, τ 2 ), con µ y τ 2 conocidos. Contrastamos
½
H0 : θ ≤ θ 0
H1 : θ > θ 0
P (θ ∈ Θ0 | x ) < P (θ ∈ Θ1 | x ),
e e
es equivalente a hacerlo si y sólo si
1
P (θ ≤ θ0 | x ) < ,
e 2
. .
P (H0 | x )
Q∗ = e
P (H1 | x )
e
y la conclusión del contraste se expresa diciendo que H0 es Q∗ veces más probable
que H1 , dados los datos.
x |H0 )P (H0 )
f(
e
∗
P (H0 | x ) h( x ) P (H0 ) f ( x |H0 )
Q = e = e = e = Q · B,
P (H1 | x ) f ( x |H1 )P (H1 ) P (H1 ) f ( x |H1 )
e e e
h( x )
e
donde Q = P (H0 )/P (H1 ) es la ventaja a priori de H0 y representa la
creencia del investigador sobre qué hipótesis es cierta antes de realizar el experi-
mento, y B = f ( x |H0 )/f ( x |H1 ) es el factor de Bayes, que determina cómo
e e
los datos observados han cambiado esas creencias sobre qué hipótesis es cierta.
A menudo se impone el valor Q = 1, que no favorece a priori a ninguna de las
dos hipótesis. El interés se centra entonces en el factor de Bayes, pues este valor
es el que determina cómo los datos modifican las creencias sobre qué hipótesis
es cierta.
Se trata de contrastar
½
H0 : θ = θ0
H1 : θ = θ1
Dar una distribución a priori para el parámetro consiste en fijar valores para
P (H0 ) y P (H1 ).
f ( x |θ0 )
B= e ,
f ( x |θ1 )
e
que es el cociente de verosimilitudes que sirve de estadı́stico al test derivado del
Lema de Neyman-Pearson.
5.7. CONTRASTES BAYESIANOS 173
Ejemplo 75
Sea X1 , . . . , Xn m.a.s. de X ∼ exp(θ). Ası́,
( n
)
X
n
f ( x |θ) = θ exp −θ xi
e i=1
y ( )
µ ¶n n
X
θ0
B= exp (θ1 − θ0 ) xi .
θ1 i=1
La ventaja a posteriori de H0 es
µ ¶n ( n
)
P (H0 ) θ0 X
Q∗ = exp (θ1 − θ0 ) xi .
P (H1 ) θ1 i=1
. .
Se trata de contrastar
½
H0 : θ ∈ Θ0
H1 : θ ∈ Θ1 = Θc0
Para cada hipótesis se debe determinar una distribución a priori del parámetro
θ (éstas podrı́an coincidir). Sean
π0 (θ|H0 ) y π1 (θ|H1 ),
y Z Z
f ( x |H1 ) = f (x, θ|H1 )dθ = f (x|θ)π1 (θ|H1 )dθ,
e Θ1 Θ1
Se trata de contrastar ½
H0 : θ = θ 0
H1 : θ 6= θ0
174 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
Combinando los dos casos anteriores, se tiene que el factor de Bayes es en este
caso
f (x|θ0 )
B=R .
θ6=θ0
f (x|θ)π 1 (θ|H1 )dθ
Ejemplo 76
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(θ). Se desea contrastar
½
H0 : θ = θ0
H1 : θ 6= θ0
La verosimilitud es Pn
xi
θ i=1
f ( x |θ) = e−nθ Qn .
e i=1 xi !
Se considera la distribución a priori de θ bajo H1 como la distribución conjugada,
una γ(α1 , α2 ):
1 1
π1 (θ|H1 ) = θα1 e−θ/α2 .
Γ(α1 + 1) α2α1 +1
El numerador del factor de Bayes es f ( x |θ0 ) y el denominador
e
Z
f (x|θ)π1 (θ|H1 )dθ =
θ6=θ0
Z Pn
θ i=1 xi 1 1
e−nθ Qn α1 −θ/α2
α1 +1 θ e dθ =
θ6=θ0 x
i=1 i ! Γ(α 1 + 1) α2
Pn
Γ(α1 + i=1 xi + 1)
Qn Pn ×
α1 +1 α1 + xi +1
i=1 xi !Γ(α1 + 1)α 2 (n + 1/α 2 ) i=1
Z ∞ Pn Pn
α1 + xi +1 α1 + xi (n+1/α2 )θ
(n + 1/α2 ) i=1 θ i=1 e
Pn dθ =
0 Γ(α1 + i=1 xi + 1)
Pn
Γ(α1 + i=1 xi + 1)
Qn Pn .
α2α1 +1 i=1 xi !Γ(α1 + 1)(n + 1/α2 )α1 + i=1 xi +1
Ası́, Pn
xi
i=1
−nθ0 θQ
e 0
n
xi !
B= Pn i=1 =
Γ(α1 + xi +1)
Qn
i=1 Pn
α1 +1 α1 + xi +1
α2 xi !Γ(α1 +1)(n+1/α2 ) i=1
i=1
5.7. CONTRASTES BAYESIANOS 175
Pn Pn
xi
α2α1 +1 e−nθ0 θ0 i=1 Γ(α1 + 1)(n + 1/α2 )α1 + i=1 xi +1
Pn .
Γ(α1 + i=1 xi + 1)
x1 = 3, x2 = 1, x3 = 6, x4 = 2, x5 = 5, x6 = 2,
P
de donde xi = 19, y que se quieren contrastar
½
H0 : θ = 2
H1 : θ 6= 2
con
2,6 + 1 2,6 + 1
E= = 6, V = = 10.
0,6 0,62
B = 3,16 y Q∗ = 1,58,
Distribuciones a priori
0.5
0.45
0.4
0.35
0.25
0.2
0.15
0.05
0
0 θ Media de x ,...,x 5 10 15
1 n θ
. .
π(θ| x , H1 )
B = lı́m e
θ−→θ0 π(θ|H1 )
a) X1 , . . . , Xn es m.a.s. de X ∼ Poisson(θ). H0 : θ = θ0 , H1 : θ = θ1 ,
θ1 > θ 0 .
b) X1 , . . . , Xn es m.a.s. de X ∼ exp(θ), con θ = E(X)−1 . H0 : θ = θ0 ,
H1 : θ = θ 1 , θ 1 > θ 0 .
c) X1 , . . . , Xn es m.a.s. de X ∼ N (µ, σ 2 ), Y1 , . . . , Ym es m.a.s. de Y ∼
N (θ, τ 2 ), las dos muestras son independientes y σ 2 y τ 2 son conocidas.
H0 : θ = µ, H1 : θ = µ + δ, δ > 0, µ y δ conocidos.
a) Considera las densidades de la forma λf0 (x) + (1 − λ)f1 (x), λ ∈ [0, 1],
para expresar H0 y H1 como hipótesis paramétricas.
b) Considera
1 x2 1
f0 (x) = √ e− 2 , f1 (x) = e−|x| ,
2π 2
y prueba que entonces la región crı́tica del test más potente para
contrastar H0 frente a H1 es de la forma
n
X
R = { x ∈ IRn : (|xi | − 1)2 ≥ k}
e i=1
para algún k.
c) Evalúa esa región crı́tica para n = 1 y k = 1. ¿Es el test insesgado?
d ) Evalúa esa región crı́tica para n = 1 y k = 1/4.¿Es el test insesgado?
a) Considera el contraste
½
H0 : µ = µ0
H1 : µ 6= µ0
Tiempo (minutos) de llegada de 2,65 2,98 5,61 6,61 2,50 0,65 3,74
la guardia urbana a un accidente 1,12 5,34 0,40 1,93 4,87
de tráfico urbano
Tiempo (minutos) de llegada de 6,89 3,48 4,91 5,04 9,17 2,20 1,05
los bomberos a un incendio en el 6,09
casco urbano.
180 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
11. (Examen junio 2000) Cuando las muertes a causa de una enfermedad rara,
pero no contagiosa, suceden aleatoria y uniformemente en una población,
el número de muertes en una región con población igual a P (es decir, con
un número de habitantes igual a P ) se modela con una ley de Poisson de
media µP , µ ∈ [0, 1].
Regionses Pi Muertes
Región 1 423.447 37
Región 2 175.685 11
Región 3 1.245.379 72
Región 4 413.465 40
Región 5 216.476 12
Región 6 242.810 14
Región 7 213.591 16
Región 8 166.045 9
Región 9 265.880 15
Región 10 116.371 12
β
f (x; β) = I[1,∞) (x), β > 0.
xβ+1
a) Prueba que Y = log X ∼ Exp(β) (donde β es 1/E(Y )).
b) Se observa una muestra de tamaño n de X. Contrasta a nivel α
½
H0 : β = 1
H1 : β 6= 1
Contrastes bayesianos
13. (Garthwaite, Jollife y Jones 1995, 7.8) Sea X ∼ B(n, θ), con n conocido.
Una de las dos hipótesis siguientes es cierta:
1 3
H0 : θ = o H1 : θ = .
2 4
Prueba que la probabilidad a posteriori de que H0 sea cierta es mayor que
su probabilidad a priori si y sólo si x log 3 < n log 2.
14. (Garthwaite, Jollife y Jones 1995, 7.9) Sea X1 , . . . , Xn una m.a.s. de una
distribución exponencial de esperanza 1/θ, θ > 0. Se desea contrastar
H0 : θ = 1 frente a H1 : θ 6= 1, donde estas hipótesis tienen probabilidades
182 CAPÍTULO 5. CONTRASTES DE HIPÓTESIS
P (H0 | x )
Q∗ = e = Q · B,
P (H1 | x )
e
donde Q es la ventaja a priori y B es el factor de Bayes, de dos formas
distintas: aplicando primero directamente la definición del factor de Bayes
y, después, calculando B como lı́mite de cocientes entre probabilidades a
posteriori y a priori bajo H1 .
15. (Garthwaite, Jollife y Jones 1995, 7.10) Sea X1 , . . . , Xn una m.a.s. de una
N (θ, 1). Se consideran dos hipótesis: H0 : θ = 1 y H1 , con P (H0 ) = p y
P (H1 ) = 1 − p.
Ejemplo 77
Sea X1 , X2 , X3 , X4 una muestra de tamaño 4 de X ∼ N (µ, 1). Un estimador
por intervalos de µ es [X − 1, X + 1]. Para cada muestra observada x1 , x2 , x3 , x4 ,
la estimación por intervalos de µ es [x − 1, x + 1].
. .
183
184 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
P (µ ∈ [X − 1, X + 1]) = P (X − 1 ≤ µ ≤ X + 1) = P (−1 ≤ X − µ ≤ 1) =
µ ¶
X −µ
P −2 ≤ √ ≤ 2 = 0,9544.
1/ 4
A costa de algo de precisión, el paso de un estimador puntual a uno por inter-
valos ha permitido aumentar la confianza que tenemos en que sea correcta la
afirmación hecha en la inferencia.
. .
Pθ (θ ∈ [L( X ), U ( X )]).
e e
Obsérvese que esa probabilidad de cobertura puede variar con θ.
Se llama coeficiente de confianza del intervalo [L( X ), U ( X )] como
e e
estimador del parámetro θ al ı́nfimo de las probabilidades de cobertura:
Ejemplo 78
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ conocido.
Consideramos el contraste ½
H0 : µ = µ0
.
H1 : µ 6= µ0
Para hacer el contraste a nivel α el test insesgado uniformemente de máxima
√
potencia rechaza H0 si |x − µ0 | > zα/2 σ/ n, es decir, la región del espacio
muestral X en donde se acepta H0 es el conjunto de x tales que
e
σ σ
x − zα/2 √ ≤ µ0 ≤ x + zα/2 √ .
n n
Dado que el test tiene tamaño α, se tiene que P (aceptar H0 |µ = µ0 ) = 1 − α.
Por lo tanto, para todo µ0
µ ¯ ¶
σ σ ¯
P X − zα/2 √ ≤ µ0 ≤ X + zα/2 √ ¯¯ µ = µ0 = 1 − α,
n n
de donde se sigue que
µ ¶
σ σ
Pµ X − zα/2 √ ≤ µ ≤ X + zα/2 √ =1−α
n n
√ √
para todo µ, luego [X − zα/2 σ/ n, X + zα/2 σ/ n] es un estimador por inter-
valos de confianza 1 − α para µ.
. .
186 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
A(θ0 ) = { x ∈ X : θ0 ∈ C( x )}.
e e
Entonces A(θ0 ) es la región de aceptación a nivel α de un test que contrasta
H0 : θ = θ 0 .
Pθ0 ( X ∈ A(θ0 )) ≥ 1 − α.
e
Dado que θ0 es un valor arbitrario del parámetro, podemos escribir θ en lugar
de θ0 . Como x ∈ A(θ) si y sólo si θ ∈ C( x ), se tiene que
e e
Pθ (θ ∈ C( X )) = Pθ ( X ∈ A(θ)) ≥ 1 − α,
e e
y se concluye que C( X ) es un estimador por conjuntos de confianza 1 − α.
e
Veamos la segunda parte. La probabilidad de error de tipo I del test cuya
región de aceptación es A(θ0 ) es
Ejemplo 79
Sea X ∼ B(n, p). Se desea construir un conjunto de confianza 1 − α para p a
partir de una observación x de X. Para ello se invierte el test de tamaño α que
contrasta H0 : p = p0 frente a H1 : p 6= p0 y tiene por región de aceptación los
valores x que son más probables bajo H0 hasta completar una probabilidad de
(1 − α).
Para fijar ideas supongamos que n = 3 y 1 − α = 0,442. La siguiente tabla
da las regiones de aceptación A(p) para los distintos valores de p especificados
en H0 :
p A(p)
[0, ,238] 0
(,238, ,305) 0,1
[,305, ,362] 1
(,362, ,366) 0,1
[,366, ,634] 1,2
(,634, ,638) 2,3
[,638, ,695] 2
(,695, ,762) 2,3
[,7,621] 3
x C(x)
0 [0, ,305) ∪ (,362, ,366)
1 (,238, ,634]
2 [,366, ,762)
3 (,634, ,638) ∪ (,695, 1]
Observar que no todos los conjuntos de confianza que pueden aparecer son in-
tervalos.
. .
Ejemplo 80
Sea X ∼ exp(λ), λ = E(X), y se quiere dar un intervalo de confianza para λ
e
mediante la inversión de un test de tamaño α. Se toma una muestra de tamaño
n de X. El test de la razón de verosimilitudes para contrastar
½
H0 : λ = λ 0
H1 : λ 6= λ0
µ Pn ¶n Pn
xi
i=1
en e− i=1
xi /λ0
.
nλ0
Para un valor λ0 fijo, la región de aceptación del test es
½ µ Pn ¶n Pn ¾
i=1 xi
A(λ0 ) = x : e− i=1 xi /λ0 ≥ k ∗ ,
e λ0
donde la constante k ∗ se elige para que el test tenga tamaño α, o lo que es lo
mismo, para que
Pλ0 ( X ∈ A(λ0 )) = 1 − α.
e
Obsérvese que la expresión de la región de aceptación depende de la muestra
P
y del parámetro sólo a través de v = xi /λ0 . Además, la distribución de
Pn Pn
V = i=1 Xi /λ0 no depende del parámetro λ0 : i=1 Xi ∼ γ(n, λ0 ) bajo H0 ,
luego V ∼ γ(n, 1). De esto se sigue que el valor k ∗ es el mismo para todo λ0 .
Invirtiendo la región de aceptación se obtiene el conjunto de confianza 1 − α:
½ µ Pn ¶n Pn ¾
i=1 xi − xi /λ ∗
C( x ) = λ : e i=1 ≥k .
e λ
. .
Ejemplo 81
Si X tiene distribución perteneciente a una familia de localización y escala, en-
tonces es posible definir diferentes cantidades pivotales. Entre ellas señalaremos
las siguientes:
. .
Ejemplo 82
Intervalos de confianza para la media y la varianza de la distribución
normal.
192 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
. .
Q( x , θ) = FT (T ( x ); θ).
e e
Por una parte Q( X , θ) = FT (T ( X ); θ) ∼ U (0, 1) para todo θ, luego Q es
e e
cantidad pivotal, y por otra g (θ) = Q( x , θ) es monótona en θ. Este método
x e
es útil para construir intervalose de confianza para parámetros de posición.
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 193
Veamos ahora una forma genérica de definir una cantidad pivotal que es váli-
da para cualquier distribución poblacional absolutamente continua y que siem-
pre da lugar a un intervalo de confianza si el parámetro es real. Supongamos que
X es una variable aleatoria absolutamente continua con función de distribución
F (x; θ) y que esta función es continua y monótona en θ. Sea X1 , . . . , Xn m.a.s.
de X. Entonces
Por lo tanto,
n
X n
X
Yi ∼ γ(n, 1) y 2 Yi ∼ χ22n .
i=1 i=1
P (θ ∈ A| x ) = 1 − α
e
dos alternativas parecen sensatas. En primer lugar, podemos tomar el intervalo
simétrico en probabilidad, es decir, aquél que deja a su izquierda una probabi-
lidad de α/2 y otra tanta a su derecha.
También puede buscarse el intervalo de credibilidad (1−α) que tenga mayor
densidad a posteriori. Es decir,
{λ : π(λ| x ) ≥ cα },
e
donde cα se elige de forma que
Z
π(λ| x )dλ = 1 − α.
{λ:π(λ| x )≥cα } e
e
Ejemplo 83
Sea X1 , . . . , Xn m.a.s. de X ∼ Poisson(λ), 0 < θ. Sea λ ∼ γ(α, β), α > 0,
β > 0. La ley a posteriori de λ dadas las observaciones X1 = x1 , . . . , Xn = xn
es una à !
Xn
γ α+ xi , (β −1 + n)−1 ,
i=1
Pn
Si suponemos que n = 10 y que i=1 xi = 6 y tomamos 1 − α = ,9, se obtiene
el intervalo de credibilidad 90 % para λ siguiente: [,299, 1,077].
6.2. MÉTODOS PARA CONSTRUIR INTERVALOS DE CONFIANZA 195
1.6
1.4
1.2
Densidad a posteriori de λ
0.8
0.6
cα=0.44
0.4
. .
En estimación por intervalos (o por conjuntos) hay dos cantidades que in-
dican la calidad de un estimador: la longitud (o tamaño) del intervalo y su
probabilidad de cobertura. Es deseable tener intervalos cortos (precisión) con
alta probabilidad de cobertura (confianza). Sucede que si se desea aumentar la
precisión hay que disminuir la confianza y viceversa.
C( x ) = [h(a∗ ), h(b∗ )]
e
donde a∗ y b∗ son los valores de IR que verifican
fQ (a∗ ) fQ (b∗ )
=
h0 (a∗ ) h0 (b∗ )
y
Z b∗
fQ (q)dq = 1 − α.
a∗
FQ (b(a)) − FQ (a) = 1 − α.
Si buscamos el valor de a que minimiza la longitud del intervalo, hay que mini-
mizar
h(b(a)) − h(a).
Los puntos crı́ticos a∗ de esta función son los que cumplen
fQ (a∗ ) fQ (b∗ )
h0 (b(a∗ ))b0 (a∗ ) = h0 (a∗ ) ⇐⇒ = ,
h0 (a∗ ) h0 (b∗ )
donde b∗ = b(a∗ ). Además sólo hay un punto a∗ que cumpla simultáneamente
esa condición y la de que FQ (b(a∗ )) − FQ (a)∗ = 1 − α, porque al ser fQ /h0
unimodal, cualquier otro intervalo cuyos extremos tengan igual valor de fQ /h0 o
bien está estrictamente contenido en [a∗ , b(a∗ )] o bien lo contiene estrictamente.
En cualquiera de los dos casos, la probabilidad que encierra es distinta de (1−α).
Veamos ahora que la solución única (a∗ , b(a∗ )) es un mı́nimo. Calculamos la
segunda derivada de h(b(a)) − h(a):
Las modificaciones necesarias para que este resultado sea aplicable a trans-
formaciones g decrecientes son inmediatas.
x
e
Un caso particular importante es aquél en que la transformación g (θ) =
x
e
Q( x , θ) es lineal. En este caso h es también lineal y su derivada es constante, de
e
donde se sigue que la condición para que el intervalo tenga longitud mı́nima es
que la densidad fQ tome el mismo valor en ambos extremos a y b. Si, además, la
distribución de Q es simétrica, entonces los intervalos de menor longitud serán
también simétricos en probabilidad. Esto ocurre, por ejemplo, en la estimación
por intervalos de la media poblacional de la normal.
Obsérvese que si [L( x ), U ( x )] es el intervalo de confianza (1 − α) de mı́nima
e e
longitud para θ, el intervalo [τ (L( x )), τ (U ( x ))] es un intervalo de confianza
e e
(1 − α) para τ (θ), pero éste no tiene por qué ser el de mı́nima longitud.
6.3. EVALUACIÓN DE ESTIMADORES POR INTERVALOS 199
Ejemplo 84
Sea X1 , . . . , Xn una m.a.s. de X ∼ N (µ, σ 2 ). Queremos dar el intervalo de
confianza (1 − α) de menor longitud para σ 2 , basado en la cantidad pivotal
(n − 1)S 2
Q( X , σ 2 ) = 2
∼ χ2n−1 .
e σ
En este caso la transformación g (σ 2 ) = (n − 1)S 2 /σ 2 y su inversa es
x
e
(n − 1)S 2
h(q) = .
q
La condición que deben cumplir los cuantiles a y b de la distribución χ2n−1 para
dar lugar al intervalo más corto es
fQ (a)a2 = fQ (b)b2 ,
además de cumplir que Pχ2n−1 ([a, b]) = 1 − α. Es fácil encontrar valores de n y
α para los que este intervalo no es simétrico en probabilidad.
Si se desea el intervalo más corto para σ, entonces
s
(n − 1)S 2 p 1
h(q) = =⇒ h0 (q) = − (n − 1)S 2 p .
q 2 q3
La condición que deben cumplir a y b es
fQ (a)a3/2 = fQ (b)b3/2 .
. .
200 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Teorema 49 (Pratt, 1961) Sea X una variable aleatoria real con distribución
paramétrica dada por la función de densidad (o función de masa) f ( x ; θ), θ ∈
e
Θ ⊆ IR. Sea C(x) = [L(x), U (x)] un intervalo de confianza para θ. Si L(x) y
U (x) son funciones estrictamente crecientes de x, entonces para cualquier valor
θ∗ se tiene que
Z
Eθ∗ (U (X) − L(X)) = Pθ∗ (θ ∈ C( X ))dθ.
θ6=θ ∗ e
Demostración:
Z Z ÃZ U (x)
!
∗
Eθ∗ (U (X) − L(X)) = (U (x) − L(x))f (x; θ )dx = dθ f (x; θ∗ )dx
X X L(x)
202 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
Obsérvese que
puesto que L(x) y U (x) son funciones estrictamente crecientes. Por lo tanto,
cambiando el orden de integración la integral anterior puede calcularse como
Z ÃZ −1 L (θ)
! Z
f (x; θ∗ )dx dθ = Pθ∗ (U −1 (θ) ≤ X ≤ L−1 (θ))dθ =
Θ U −1 (θ) Θ
Z Z
P (θ ∈ C(X))dθ =
θ∗ Pθ∗ (θ ∈ C(X))dθ.
Θ θ6=θ ∗
2
Vθ (T ( X n ))
T ( X n ) − EθA (T ( X n )) −→P 0, A e −→P 1.
e e Vθ (T ( X n ))
e
6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS 203
{θ : −zα/2 ≤ QEM
n
V
≤ zα/2 }.
Ejemplo 85
Sea X ∼ N (0, σ 2 ). Se desea construir un intervalo de confianza aproximada
(1 − α) para σ. El logaritmo de la verosimilitud de una muestra de tamaño n es
Pn
√ x2
log L(σ, x n ) = −n log 2π − n log σ − i=12 i .
e 2σ
La función score es
Pn
∂ log L(σ, x n ) n i=1 x2i
e =− + ,
∂σ σ σ3
por lo que el estimador máximo verosı́mil es
v
u n
u1 X
σ̂n = t X 2,
n i=1 i
y la información de Fisher es
à 2 !
∂ log L(σ, x n ) n 3n 2n
In (σ) = −Eσ 2
e = − 2 + 4 Eσ (X 2 ) = 2 .
∂σ σ σ σ
204 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
q P q P
1 n 1 n
n i=1 x2i n i=1 x2i
, .
1 + zα/2 1 − zα/2
Hay una relación estrecha entre los intervalos de confianza basado en QEM
n
V
1
r(θ; x ) ≈ − (θ − θ̂n )2 In (θ̂n ).
e 2
Sn ( X n , θ)
QSn = pe −→D Z ∼ N (0, 1),
In (θ)
v Pn v Pn
u 1 2 u 1 2
u n i=1 xi u n i=1 xi
t q ,t q .
2 2
1 + zα/2 n 1 − zα/2 n
Se define
∂
h0 (X, θ) = log f (x, θ).
∂θ
Entonces se verifica lo siguiente:
3. La cantidad ¯ µ ¶¯
¯ ¯
¯Eθ ∂ Qh ¯
¯ ∂θ ¯
se hace máxima cuando h(X, θ) = h0 (X, θ) o h(X, θ) = kh0 (X, θ) con
k 6= 0.
4. Los intervalos de confianza basados en la función score son los más cortos
asintóticamente, entre los basados en las cantidades pivotales asintóticas
Qh .
6.4. INTERVALOS DE CONFIANZA ASINTÓTICOS 207
lo cuál implica que el valor absoluto de ∂Qh (X, θ)/∂θ tiende a infinito en pro-
babilidad. Este hecho será necesario para probar el punto 4.
Por otra parte, si derivamos respecto a θ la igualdad Eθ (h(X, θ)) = 0 se
obtiene lo siguiente:
Z Z Z
∂ ∂ h(x, θ) ∂ f (x; θ)
0= h(x, θ)f (x; θ)dx = f (x; θ)dx + h(x, θ)dx,
∂θ ∂θ ∂θ
luego, h i
∂ Qh (X,θ)
Eθ ∂θ
h i = Corr(h(X, θ), h0 (X, θ)),
∂ Qh0 (X,θ)
Eθ ∂θ
y por lo tanto ¯ · ¸¯ ¯ · ¸¯
¯ ¯ ¯ ¯
¯Eθ ∂ Qh (X, θ) ¯ ≤ ¯Eθ ∂ Qh0 (X, θ) ¯ .
¯ ∂θ ¯ ¯ ∂θ ¯
cuya longitud tiende a 0 porque, según vimos más arriba, el valor absoluto de
(∂Qh (X, θ)/∂θ)|θ0 tiende a infinito en probabilidad. Ello hace que los valores θ
que están dentro del intervalo sean cada vez más próximos a θ0 , con lo que la
anterior aproximación de Qh ( X , θ) por su desarrollo de Taylor de primer orden
e
será cada vez más precisa, cuando n crece.
La longitud asintótica del intervalo es
2z
¯ µ α/2¯ ¶¯ .
¯ ¯
¯E ∂ Qh ¯¯ ¯
¯ ∂θ
θ0 ¯
Podemos dar las siguientes reglas prácticas para calcular intervalos de con-
fianza asintóticos. En primer lugar, es recomendable que éstos se basen en la
función score. Tanto en ese caso como si se usan otras cantidades pivotales, se
recomienda evitar cuanto sea posible la sustitución de cantidades que dependen
del parámetro por estimadores consistentes de éstas.
Ejemplo 86
Sea X ∼ B(n, p). Calcularemos el intervalo de confianza (1 − α) asintótico para
p que se deriva de la función score. La verosimilitud es
µ ¶
n x
L(θ; x) = p (1 − p)n−x
x
y el score,
∂ log L(θ; x) x − np
S(θ, x) = = .
∂p p(1 − p)
La información de Fisher es
· ¸
∂ 2 log L(θ; x) n
I(p) = −E = .
∂p2 p(1 − p)
El premio por este trabajo extra es que la longitud de C1 será, en general, menor
que la de C2 . Se puede comprobar que el cociente de la longitud de C1 entre la
de C2 es q
2 /4np̂(1 − p̂))
1 + (zα/2
2 /n) ,
1 + (zα/2
que para valores de p̂ cercanos a 0.5 es aproximadamente igual a
1
q < 1.
2 /n)
1 + (zα/2
Métodos de construcción
1. (Casella-Berger, 9.1) Sea X ∼ N (µ, 1). A partir de una m.a.s. X1 , . . . , Xn
de X se puede contruir un intervalo de confianza 0.95 para µ de la forma
√
x ∓ 1, 96/ n. Sea p la probabilidad de que una nueva observación Xn+1
independiente de las anteriores caiga dentro de ese intervalo. ¿Es p menor,
igual o mayor que 0.95?
1 −x/θ
f (x; θ) = e I(0,∞) (x).
θ
Pn
a) Prueba que Y = 2 i=1 Xi /θ es cantidad pivotal.
b) Construye un intervalode confianza (1 − α) para θ a partir de Y .
Xi ∼ N (θai , bi ), i = 1, . . . , n,
a) σ 2 conocida.
b) σ 2 desconocida.
14. (Casella-Berger, 9.42) Se tiene una observación de una γ(k, β) con paráme-
tro de forma k conocido. Encontrar el intervalo de confianza (1 − α) más
corto entre los que tienen la forma [x/b, x/a].
15. (Casella-Berger, 9.44) Sea X una variable aleatoria con distribución logı́sti-
ca:
ex−θ
f (x; θ) = .
(1 + ex−θ )2
Basándote en una observación de X, construye el intervalo de confianza
(1 − α) uniformemente más acurado de la forma (−∞, U (x)].
212 CAPÍTULO 6. ESTIMACIÓN POR INTERVALOS
19. (Garthwaite, Jollife y Jones 1995, 5.14) Se observa una variable aleatoria
X con distribución de Poisson(θ). Usa el hecho de que para valores grandes
de θ la distribución de X es aproximadamente N (θ, θ) para obtener una
ecuación cuadrática en θ cuyas raı́ces dan los extremos de un intervalo de
confianza aproximado para la media de X, θ.
20. (Garthwaite, Jollife y Jones 1995, 3.21, 5.8) Una empresa consmética se
plantea lanzar al mercado un nuevo producto para hombre y quiere saber
qué proporción θ de hombres de un grupo de edad comprarán ese producto.
Dado que una pregunta directa puede no obtener una respuesta sincera,
se opta por un procedimiento de respuesta aleatorizada mediante el cual
el encuestador nunca puede saber la respuesta dada por el encuestado.
6.5. LISTA DE PROBLEMAS 213
Resultado en el dado
1 2 3 4 5 6
Verdadera Sı́ C C C A B A
respuesta No C A A B A B
En una muestra de 1000 hombres las veces que aparecieron las respuestas
A, B y C fueron 440, 310 y 250, respectivamente.
Introducción a la Teorı́a de
la Decisión
215
216 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
δ : X −→ A
x −→ δ( x ) = a
e e
que, para cada posible valor x de X , indica qué acción a se ha de tomar
e
si X toma el valor x . El conjunto de reglas de decisión aceptables
e e
en un problema se denota por D.
R : Θ×D −→ IR
(θ, δ) −→ R(θ, δ) = Eθ [L(θ, δ( X ))]
e
que mide la pérdida esperada si se usa la regla δ y el verdadero estado de
la naturaleza es θ.
B : A −→ IR
δ −→ B(δ) = Eπ [R(θ, δ)]
218 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
La función de pérdida puede reflejar que es menos deseable, por ejemplo, so-
brestimar θ que subestimarlo. Ası́ lo hace esta función de pérdida:
½
(θ − a)2 si a<θ
L(θ, a) =
10(θ − a)2 si a≥θ
7.2. TEORÍA DE LA DECISIÓN E INFERENCIA ESTADÍSTICA 219
(θ − a)2
L(θ, a) = .
|θ| + 1
Obsérvese que en este contexto las reglas de decisión son los estimadores de θ.
La función de riesgo de una regla de decisión depende de la función de pérdida
definida. Por ejemplo, si la pérdida es cuadrática, la función de riesgo es el error
cuadrático medio:
Ejemplo 87
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ). Consideremos el
problema de estimar σ 2 usando la función de pérdida cuadrática
L(θ, a) = (θ − a)2 .
35
30
R(σ2,S2)
25
2 2
R(σ ,(n−1)S /n)
20
Riesgo
15
10 R(σ2,(n−1)S2/(n+1))
0
0 1 2 3 4 5 6 7 8 9 10
σ2
. .
Ejemplo 88
Sea X1 , . . . , Xn muestra aleatoria simple de X no necesariamente normal con
V (X) = σ 2 positiva y finita. Consideramos el problema de la estimación de σ 2
y la función de pérdida
a a
LS (σ 2 , a) = − 1 − log 2 ,
σ2 σ
conocida como pérdida de Stein. Obsérvese que LS (σ 2 , a) ≥ 0 y que LS (σ 2 , a) =
0 si y sólo si a = σ 2 . Además, para σ 2 fijo, se tiene que
lı́m LS (σ 2 , a) = ∞, y lı́m LS (σ 2 , a) = ∞.
a−→0 a−→∞
Ejemplo 89
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (µ, σ 2 ) con σ 2 conocida. El
contraste uniformemente más potente de nivel α para contrastar
½
H0 : µ ≥ µ0
H1 : µ < µ 0
rechaza H0 si
X − µ0
√ < −zα
σ/ n
y tiene función de potencia
µ ¶ µ ¶
µ − µ0 µ − µ0
β(µ) = Pµ Z < −zα − √ = φ −zα − √ .
σ/ n σ/ n
Para α = 0,1 y tomando cI = 8 y cII = 3 en la función de pérdida 0-1 generali-
zada, se tiene que
µ ¶
µ − µ0
R(µ, δ) = 8φ −zα − √ si µ ≥ µ0 ,
σ/ n
µ µ ¶¶
µ − µ0
R(µ, δ) = 3 1 − φ −zα − √ si µ < µ0 .
σ/ n
2.5
2
R(µ,δ)
1.5
0.5
µ<µ0 µ ≥ µ0
0
−3 −2 −1 0 1 2 3
n1/2(µ−µ0)/σ
7.2. TEORÍA DE LA DECISIÓN E INFERENCIA ESTADÍSTICA 223
. .
intervalo, Long(C), mientras que la función IC (θ) suele usarse para indicar si θ
está o no en C.
La forma en que se combinan esas dos cantidades para formar la función de
pérdida es habitualmente ésta:
Ejemplo 90
Sea X ∼ N (µ, σ 2 ), con σ 2 conocida. Consideremos las reglas de decisión
R(µ, Cc ) = 2bσc − 2P (Z ≤ c) + 1.
g(c) = 2bσc − 2P (Z ≤ c) + 1
7.3. EL PROBLEMA DE DECISIÓN BAYESIANO 225
1 c2 1
bσ = fZ (c) = √ e− 2 ⇐⇒ c2 = log .
2π 2πb2 σ 2
√
Esa ecuación tiene solución si y sólo si bσ ≤ 1/ 2π. Cuando hay solución ésta
vale r
∗ 1
c = log .
2πb2 σ 2
La segunda derivada de g en c∗ es g 00 (c∗ ) = 2b − 2fZ0 (c∗ ) > 0, porque c∗ ≥ 0
implica
√ que fZ0 (c∗ ) ≤ 0, luego c∗ es un mı́nimo de g. En el caso de que bσ >
1/ 2π, puede comprobarse que g 0 (c) > 0 para todo c ≥ 0, luego el mı́nimo
riesgo se alcanza en c = 0.
√
En resumen, si bσ ≤ 1/ 2π (lo que equivale a no dar un peso excesivo al
tamaño del intervalo en la función de riesgo)√ entonces el intervalo óptimo es
[x − c∗ σ, x + c∗ σ], mientras que si bσ > 1/ 2π (es decir, si la longitud del in-
tervalo pesa mucho en la función de riesgo) entonces el mejor intervalo para µ
es [x, x], es decir, un estimador puntual de µ.
. .
Hemos visto en la sección 7.1 que a veces se define una distribución de pro-
babilidad π(θ) sobre el espacio paramétrico Θ, que refleja el conocimiento que
el investigador tiene sobre los posibles valores del parámetro a priori, es decir,
antes de observar los datos X . En general cualquier función de pesos que pon-
e
dere de cierta forma las diferentes regiones de Θ será válida como distribución
π(θ), aunque esta distribución no refleje ningún conocimiento previo subjetivo
sobre Θ.
Es una medida del riesgo medio de acuerdo a los pesos que asigna π. Ası́, si no
se dispone de información previa que permita definir π, una forma razonable
de elegir esta distribución a priori es hacerlo de forma que los valores de θ a
los que se les asigne probabilidad a priori grande sean aquellos para los cuales
el experimentador desea tener un riesgo pequeño, y los valores de θ con peso
pequeño sean aquellos cuyo riesgo no le preocupa.
Se define la regla Bayes como aquella regla δ π que minimiza el riesgo Bayes:
Esta regla puede no existir, o bien puede haber más de una regla Bayes, aunque
en general sólo existe una regla Bayes.
Los siguientes resultados indican cómo encontrar las reglas Bayes, si éstas
existen.
δπ :
X −→ A
x −→ a( x )
e e
π π
Si δ ∈ D entonces δ es la regla Bayes respecto a π.
B(π, δ π ) ≤ B(π, δ)
Calculamos r( x , a0 ) y r( x , a1 ):
e e
r( x , a0 ) = E (L(θ, a0 )) = cII P (θ 6∈ Θ0 | x )
e π(θ| x ) e
e
r( x , a1 ) = E (L(θ, a1 )) = cI P (θ ∈ Θ0 | x ).
e π(θ| x ) e
e
Ası́, el conjunto de x ∈ X para los cuales el test de Bayes rechaza H0 son
e
aquellos para los cuales
Ejemplo 91
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ) y π(θ) ∼ N (µ, τ 2 ),
con σ 2 , µ y τ 2 conocidos. Sea
σ2
η= .
nτ 2 + σ 2
P (θ ∈ Θ0 | x ) < α0
e
donde α0 = cII /(cI + cII ), y eso ocurre si y sólo si
√
θ0 − (1 − η)x − ηµ η(µ − θ0 ) + zα0 τ η
√ > zα0 ⇐⇒ x < θ0 − .
τ η 1−η
Diremos que una regla δ es admisible si no existe otra regla δ 0 ∈ D que sea
mejor que δ. Diremos que δ es inadmisible si existe otra regla δ 0 mejor que δ.
Una regla de decisión que sea admisible tiene una propiedad deseable, ya
que no existe ninguna otra regla que la mejore uniformemente, pero no hay
garantı́as de que el comportamiento de esa regla sea uniformemente bueno en
Θ. La admisibilidad sólo garantiza que la regla no es uniformemente mala. Parece
230 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
lo garantizan (en este sentido pueden verse los problemas 10 y 11). Del teorema
se sigue que las reglas Bayes son en general admisibles y por lo tanto pertenecen
a cualquier clase completa. Es ası́ razonable considerar las reglas Bayes.
El siguiente teorema permite restringir las reglas de decisión consideradas
a aquellas que dependen de estadı́sticos suficientes, dado que hacerlo no tiene
coste en términos de las funciones de riesgo. Este resultado es una generalización
del teorema de Rao-Blackwell (teorema 27, página 108).
σ2
η= .
nτ 2 + σ 2
Ası́,
Z ∞
1 θ2
B(π, x) − B(π, δ 0 ) = [R(θ, x) − R(θ, δ 0 )] √ e− 2τ 2 dθ ≥
−∞ 2πτ
Z θ0 +ε
1 θ2
[R(θ, x) − R(θ, δ 0 )] √ e− 2τ 2 dθ >
θ0 −ε 2πτ
0 2
ν ν ν 1 −(θ )
0
P (θ0 − ε < Y < θ0 + ε) > 2εfY (θ00 ) = 2ε √ e 2τ 2
2 2 2 2πτ
donde Y ∼ N (0, τ 2 ) y θ00 es el más cercano a 0 de los dos puntos θ0 − ε y θ0 + ε.
Si llamamos K(τ ) a
0 2
ν 1 −(θ0 )
K(τ ) = 2ε √ e 2τ 2
2 2π
se tiene que
τ (B(π, x) − B(π, δ 0 )) > K(τ )
y que
ν/2
lı́m K(τ ) = √ 2ε > 0.
τ −→∞ 2π
porque R(θ, X) = Eθ [(θ − X)2 ] = σ 2 /n, para todo θ ∈ Θ. Esto además ocurre
para cualquier a priori π.
Por lo tanto,
µ ¶
σ2
τ (B(π, δ π ) − B(π, x)) = τ τ 2η − =
n
µ ¶
σ2 ³ n´ σ2 σ2 n
− τ 1 − τ 2η 2 = − τ 1 − τ2 =
n σ n nτ + σ σ 2
2 2
σ2
− τ η.
n
Finalmente,
σ2 σ2 τ σ2 τ →∞ ν/2
− τ η + K(τ ) = − 2 2
+ K(τ ) −→ √ 2ε > 0,
n n nτ + σ 2π
lo cual es una contradicción, que nace de suponer que x no es admisible.
(ii) σ 2 desconocida.
Supongamos que x es inadmisible. Entonces existe un estimador δ 0 tal que
Una regla minimax protege de la mejor forma posible (ı́nf δ∈D ) contra la situación
más adversa que podrı́a presentarse (supθ∈Θ ).
El criterio minimax para elegir una regla de decisión es muy conservador,
pues sólo tiene en cuenta para cada regla δ cuál es su comportamiento en el
peor escenario posible, sin considerar si ese escenario adverso es o no plausible.
Este criterio considera que la naturaleza (quien decide el valor de θ) es un
adversario del decisor, y lleva a éste a actuar de forma estratégica. Este supuesto
es exagerado en muchos problemas estadı́sticos.
Por otra parte, el criterio minimax se complementa bien con el de admisibili-
dad. Una regla puede ser admisible porque se comporta bien en un determinado
valor de θ, aunque tenga un riesgo altı́simo para los restantes valores. Si además
de admisible una regla es minimax se puede estar seguro de que el riesgo no
será extremadamente alto en ningún valor de θ. Ası́ pues, una regla que sea
minimax y admisible será una buena regla. De hecho, las reglas minimax están
estrechamente relacionadas con las reglas admisibles y las reglas Bayes, como
ponen de manifiesto los resultados siguientes.
Entonces δ π es minimax.
B(π, δ π ) = Eπ (R(θ, δ π ))
En efecto,
0
B(π 0 , δ π ) ≤ B(π 0 , δ π ) = Eπ0 (R(θ, δ π )) ≤ Eπ0 (B(π, δ π )) = B(π, δ π ).
Corolario 10 Sea δ una regla igualadora que es regla Bayes para alguna dis-
tribución a priori π. Entonces δ es minimax.
Este corolario es útil cuando se quiere probar que una regla igualadora es
minimax. Basta con encontrar una a priori π respecto de la cual la regla igua-
ladora sea regla Bayes. El siguiente resultado prueba que en ese caso también
basta con probar que la regla igualadora es admisible.
Ejemplo 92
Sea X1 , . . . , Xn muestra aleatoria simple de X ∼ N (θ, σ 2 ). El teorema 56 mues-
tra que la media muestral X es un estimador admisible de θ cuando se usa
pérdida cuadrática, tanto si σ 2 es conocido como si no lo es.
En el caso de σ 2 conocida, se tiene que X es una regla igualadora:
σ2
R(θ, x) = V (X) = .
n
σ2
R((θ, σ 2 ), x) = V (X) = ,
n
depende de σ 2 . De hecho cualquier estimador tiene
sup R((θ, σ 2 ), δ) = ∞,
θ,σ 2
El siguiente resultado muestra que bajo ciertas situaciones una regla mini-
max es admisible.
por lo que δ 0 no es mejor que δ. Como δ 0 podrı́a ser cualquier regla de decisión,
se sigue que no existe otra regla que sea mejor que δ, luego δ es admisible. 2
238 CAPÍTULO 7. INTRODUCCIÓN A LA TEORÍA DE LA DECISIÓN
donde b y c son constante positivas, para analizar los tres contrastes que
rechazan H0 si X < −zα + θ0 para α = ,1, ,3 y ,5, respectivamente.
b
L((µ, σ), C) = Long(C) − IC (µ).
σ
a) Prueba que la función de riesgo, R((µ, σ), C), está dada por
donde T ∼ tν y M = E(S)/σ.
√
b) Si b ≤ 1/ 2π, prueba que el valor de c que minimiza el riesgo satisface
que
µ ¶ ν+1
1 ν 2
b= √ 2
.
2π ν + c
7.6. LISTA DE PROBLEMAS 239
σ2
R(θ, δ) = a2 + (b − (1 − a)θ)2 .
n
b) Sea η = σ 2 /(nτ 2 + σ 2 ). La función de riesgo del estimador de Bayes
es
σ2
R(θ, δ π ) = (1 − η)2 + η 2 (θ − µ)2 .
n
c) El riesgo Bayes del estimador de Bayes es B(π, δ π ) = τ 2 η.
con c > 0. Es una función suave que permite ponderar de forma asimétrica
las desviaciones por exceso y por defecto. Variando el valor c se pueden
conseguir desde pérdidas muy asimétricas hasta otras casi simétricas.
cσ 2
δ B (X) = X − .
2n
(a − θ)2
L((θ, σ 2 ), a) = .
σ2
a) Prueba que X es un estimador admisible de θ.
b) Prueba que X es minimax.
243