Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Andrea Rotnitzky .
17 de julio, 2019
Lecturas recomendadas
Pθ =1/3 (X1 = 1, X2 = 0, X3 = 1, X4 = 1) =
= Pθ =1/3 (X1 = 1) Pθ =1/3 (X2 = 0) Pθ =1/3 (X3 = 1) Pθ =1/3 (X4 = 1)
= 1/3 2/3 1/3 1/3
= 2/81 = 0.0247
I Si θ fuera igual a 2/3, la probabilidad de observar justo lo que
observamos sería
Pθ =2/3 (X1 = 1, X2 = 0, X3 = 1, X4 = 1) =
= Pθ =2/3 (X1 = 1) Pθ =2/3 (X2 = 0) Pθ =2/3 (X3 = 1) Pθ =2/3 (X4 = 1)
= 2/3 1/3 2/3 2/3
= 8/81 = 0.0988
I Los datos (x1 , ..., x4 ) = (1, 0, 1, 1) observados son entonces 4 veces
probables (pues (8/81) / (2/81) = 4) cuando θ = 2/3 que cuando
θ = 1/3.
I Entonces, pareciera razonable estimar a θ con 2/3.
I Siguiendo esta linea de razonamiento, si nuestro modelo ahora planteara
la posibilidad de que θ 2 f1/3, 2/3, 3/4g , entonces
I calculariamos también la probabilidad de observar los datos
observados si θ fuera igual a 3/4:
Pθ =3/4 (X1 = 1, X2 = 0, X3 = 1, X4 = 1) =
= Pθ =3/4 (X1 = 1) Pθ =3/4 (X2 = 0) Pθ =3/4 (X3 = 1) Pθ =3/4 (X4 = 1)
= 3/4 1/4 3/4 3/4
= 27/256 = 0.10547
Pθ (X1 = 1, X2 = 0, X3 = 1, X4 = 1)
= P θ (X 1 = 1 ) P θ (X 2 = 0 ) P θ (X 3 = 1 ) P θ (X 4 = 1 )
= θ (1 θ ) θ θ
= θ 3 (1 θ )
0.15
t^3 * (1-t)
0.10
0.05
0.00
0.0 0.5 1.0
t
I Mas generalmente, para observaciones x = (x 1 , ..., x n ) cualesquiera de una
muestra de tamanho n, estimaremos θ con aquel valor en Θ que maximize la
función
P θ (X 1 = x1 , X 2 = x2 , X 3 = x3 , ..., X n = xn )
= f (x ; θ )
n
= ∏ f (x i ; θ )
i =1
n n o
= ∏ θ xi (1 θ )1 xi
i =1
n n
∑ xi ∑ (1 x i )
= θ i =1 (1 θ ) i =1
= θ nx (1 θ )n nx
arg max θ nx (1 θ )n nx
=x
θ 2[0,1 ]
I La función
θ ! L n ( θ ) = f (X ; θ )
es la función de verosimilitud, la misma que de…nimos cuando estudiamos
inferencia Bayesiana. Solo que, cuando la pensamos como parte del
procedimiento que seguimos para calcular el EMV de θ , la función Ln (θ )
es aleatoria porque depende del vector aleatorio X .
1
f (x ) fF (X x + h ) F (X x h )g
(2h )n
1
= P (xi h < Xi xi + h; i = 1, .., n )
(2h )n
L n ( θ ) = f (X ; θ )
ln (θ ) = log Ln (θ )
b
βML = β b
θ ML
Ejemplos
iid
I Ejemplo 1: Supongamos que X1 , ..., Xn N (µ, σ2 ) , con µ y σ
desconocidos y arbitrarios. Entonces θ = (µ, σ) , Θ = R R+ .
I Calcularemos el estimador de máxima verosimilitud de θ = (µ, σ ) .
I
" #
n
ln ( µ , σ ) = log ∏ f (X i ; µ, σ )
i =1
n
= ∑ log f (X i ; µ, σ )
i =1
n
1 1
= ∑ log 2 πσ
p
exp
2 σ2
(X i µ )2
i =1
n n
1 1
= ∑ log p2πσ + ∑ log exp 2σ2 (Xi µ)2
i =1 i =1
p n
1
= n log 2π n log (σ) ∑ 2 (Xi µ)2
2
i =1 σ
I Para cada σ …jo, tenemos que
= X
bML
σ = bML , σ )
arg max ln (µ
σ 2R +
" #
p n
1 2
= arg max
σ 2R +
n log 2π n log (σ) ∑ 2 σ2
Xi X
i =1
" #
n
1 2
= arg max
σ 2R +
n log (σ) ∑ 2 σ2
Xi X
i =1
I σ
b2ML no es un estimador insesgado de σ2 por lo que este ejemplo
demuestra que método de máxima verosimilitud no resulta necesariamente
en estimadores insesgados.
I El ejemplo también ilustra otro punto interesante. Supongamos que
realmente estuviésemos interesados en estimar uno de los dos parámetros
(µ o σ). Al otro parámetro -el que no nos interesa estimar - se lo llama
parámetro de ruido o molesto. ¿Qué hubiera ocurrido con nuestra
estimación de máxima verosimilitud si hubiesemos conocido el valor del
parámetro molesto, se hubiese visto alterada? El ejemplo nos ilustra que
no hay una respuesta de…nitiva para esta pregunta, el estimador puede o
no variar, dependiendo del parámetro que se quiera estimar.
i =1 i =1
n
= arg min
µ2[3,+∞)
∑ (X i µ )2
i =1
8 9
>
> >
>
>
> >
>
< n n =
∑ ∑
2 2
= arg min Xi X +2 X µ Xi X +n X µ
µ2[3,+∞) > > >
>
>
>
i =1 i =1 >
>
:| {z } | {z } ;
no depende de θ =0
2
= arg min X µ
µ2[3,+∞) | {z }
parabola con mínimo en X
X si X 3
=
3 si X < 3
I Ejemplo 3: En este ejemplo veremos que si Θ es abierto puede ocurrir
que el estimador de máxima verosimilitud no exista.
iid
I Supongamos que X1 , ..., Xn N (µ, 1) , con µ desconocida pero en el
intervalo Θ = (3, +∞). Entonces, razonando como en el ejemplo 2,
bML
µ = arg max ln (µ)
µ2(3,+∞)
2
= arg min X µ
µ2(3,+∞) | {z }
parábola con mínimo en X
2
Si X < 3, entonces la función g (µ) = X µ no tiene un mínimo en el
intervalo abierto (3, +∞), luego µ
bML no existe.
I Ejemplo 4 (Regresión lineal homoscedástica): Supongamos que
T
Xi = Yi , ZiT , i = 1, ..., n son vectores aleatorios iid cada uno satisface
Y i = αT Z i + εi
T
donde εi jZi N (0, σ2 ) . Equivalentemente, Xi = Yi , ZiT tiene
distribución f (y , z; θ ) = fY jZ (y jz; α, σ) fZ (z ) siendo
fY jZ (y jz; α, σ) = N αT z, σ2
p
I siendo k (Z ) = n log 2π n log (σ) + log [c (Z )] .
n
1
∑ 2 σ2
2
ln ( α , σ , f Z ) = Yi αT Z i + k (Z )
i =1
I Más aún,
b
αML = arg max ln (α, σ, fZ )
α
n
arg min ∑ Yi
2
= αT Z i
α
i =1
b
θ ML = arg max Ln (θ ) = Xmax = max (Xi )
θ 2(0,+∞) i 2f1,...,n g
I Ejemplo 6 (datos truncados): En este ejemplo veremos que posible que el
estimador de máxima verosimilitud exista pero no podamos calcular una fórmula
explícita para el.
I Supongamos que Y 1 , ..., Y n iid logNormal(µ, σ ) , es decir T i = log Y i
iid
Normal(µ, σ ) . Supongamos que para cada i observamos, X i = min (T i , c ) para
una c dada. ( por ejemplo, una persona informa su ingreso Y siempre y cuando
sea menor que exp (c ) , de lo contrario, sólo nos informa que su ingreso es mayor
que exp (c )). En ese caso:
I Para un θ dado, la contribución a la verosimilitud de la i esima unidad de la
muestra es
2 3 I (X i <c )
6 1 1 7 (X i µ) I (X i =c )
6 7
6 p exp (X i µ )2 7 1 Φ
4 2 πσ2 2σ 5 σ
| {z } | {z }
densidad 1-fc de dist acumulativa
I Luego, la log-verosimilitud es
1 1 (X i µ)
ln ( θ ) = ∑ log p
2 πσ2
exp
2σ
(X i µ )2 + ∑ log 1 Φ
σ
i :X i <c i :X i =c
I La ecuación de primer orden ∂ln (θ ) /∂θ = 0 no tiene una solución que pueda
expresarse con una fórmula explícita.
I Ejemplo 7 (Regresión logística): Supongamos que
T
Xi = Yi , ZiT , i = 1, ..., n son vectores aleatorios iid, donde Yi es
binaria. Supongamos que
P (Y i = 1 jZ i )
log = αT Z i
P (Y i = 0 jZ i )
T
Equivalentemente, Xi = Yi , ZiT tiene distribución
f (y , z; θ ) = fY jZ (y jz; α) fZ (z ) siendo
θ = ( α , fZ ) .
=c (Z )
n
= ∑ log fY jZ (Yi jZi ; α) + log [c (Z )]
i =1
8" #Y i " #1 Y i 9
n < exp αT Z i exp αT Z i =
= ∑ log : 1 + exp (αT Zi ) 1 T
1 + exp (α Z i ) ;
+ log [c (Z )]
i =1
" ! #
n exp αT Z i 1
= ∑ Yi log 1 + exp (αT Zi ) + (1 Yi ) log 1 + exp (αT Zi ) + log [c (Z )]
i =1
T
0 = ln0 θ k + ln00 θ k θ θk
I Desigualdad de Jensen: sea Y una variable aleatoria tal que E (Y ) existe y sea
ϕ una función convexa. Entonces
ϕ [E (Y )] E [ ϕ (Y )]
La igualdad vale solo si Y es constante o ϕ es una función lineal.
g (X ) g (X )
log E f = log [E f (Y )] E f [log (Y )] = E f log
f (X ) f (X )
I o equivalentemente
g (X ) g (X )
log E f E f log
f (X ) f (X )
I Pero
Z Z
g (X ) g (x )
log Ef = log f (x ) dx = log g (x ) dx = log (1) = 0
f (X ) f (x )
I Luego,
g (X )
Ef log = Ef [log (g (X ))] Ef [log (f (X ))] 0
f (X )
o equivalentemente
QF (θ ) = Ef [log (f (X ; θ ))]
Z
= log (f (x ; θ )) f (x ) dx
I Note que Q
b = Q b , se calcula como si la función de distribución "verdadera"
F
tuviera distribución acumulada
1 n
Fb (x ) = ∑ I( ∞,x ] (X i )
n i =1
Consistencia del EMV
P
Q Fb (θ ) ! Q F (θ )
b P
θ ML = arg max Q Fb (θ ) ! θ = arg max Q F (θ )
θ 2Θ θ 2Θ
1. para cualquier n dado es posible que existan valores de θ para los cuales la
función Q Fb (θ ) no esté cerca de Q F (θ ) .
I El siguiente Teorema, cuya demostración va mas allá del alcance de este curso,
provee condiciones su…cientes que garantizan que los puntos (1) y (2) de la
…lmina anterior no pueden ocurrir y por lo tanto, que garantizan que el EMV es
consistente.
iid
I Teorema: sean X 1 , ..., X n f (x ) 2 F = f f (x ; θ ) : θ 2 Θg y supongamos que
θ esta identi…cado. Supongamos ademas que para
P
sup Q Fb (θ ) Q F (θ ) ! 0
θ 2Θ
2 n o 3
E θ s 1 (X ; θ )2 E θ fs1 (X ; θ ) s2 (X ; θ )g E θ fs1 (X ; θ ) sr (X ; θ )g
6 7
6 . . 7
6 . . 7
6 E θ fs2 (X ; θ ) s1 (X ; θ )g . . E θ fs2 (X ; θ ) sr (X ; θ )g 7
6 7
6 . . . . 7
6 . . . . 7
4 . . . n . o 5
2
E θ fsr (X ; θ ) s1 (X ; θ )g E θ s r (X ; θ )
2 n o n o n o 3
∂ log f (X ;θ ) ∂ log f (X ;θ ) ∂ log f (X ;θ )
Eθ ∂θ 1 ∂θ 1 Eθ ∂θ 1 ∂θ 2 Eθ ∂θ 1 ∂θ r
6 n o n o 7
6 .. .. 7
6 E ∂ log f (X ;θ ) . . Eθ
∂ log f (X ;θ ) 7
6 θ ∂θ 2 ∂θ 1 ∂θ 2 ∂θ r 7
=6 7
6 .. .. .. .. 7
6 7
4 n . o . . n . o 5
∂ log f (X ;θ ) ∂ log f (X ;θ )
Eθ ∂θ r ∂θ Eθ ∂θ r ∂θ r
1
I Demostración: por el lemma 1 sabemos que
Z
∂ log f (x ; θ )
0= f (x ; θ ) d x
∂θ j
∂2 log f (x ; θ )
In (θ )kj = Eθ
∂θ k ∂θ j
∂2 log f (X ; θ )
In (θ )kj = Eθ
∂θ k ∂θ j
∂2 log f (X1 , ..., Xn ; θ )
= Eθ
∂θ k ∂θ j
∂2 log [∏ni=1 f (Xi ; θ )]
= Eθ
∂θ k ∂θ j
( )
n 2
∂ log [f (Xi ; θ )]
= Eθ ∑
i =1 ∂θ k ∂θ j
n
∂2 log [f (Xi ; θ )]
= ∑ Eθ ∂θ k ∂θ j
i =1
n
= ∑ I1 (θ )kj
i =1
= nI (θ )kj
1
donde Nr 0, I (θ ) es la distribución normal multivariada de dimension r con
media 0 y matriz de covarianza I (θ ) 1 .
Corolario. Si β ( ) : Θ ! Rp es una función diferenciable de θ en cada θ 2 Θ,
entonces b
βML = β b θ ML veri…ca
p n o L(F )
n b
θ
βML β (θ ) ! Nr (0, V (θ ))
donde
∂β (θ ) 1 ∂β (θ )
V (θ ) = I (θ )
∂θ 0 ∂θ
I La especi…cación rigurosa de las condiciones de regularidad del teorema 1
y su demostración cuando r > 1 están más allá del alcance del curso.
I En breve daremos un tratamiento riguroso del caso en el que r = 1.
I Notemos que si bθ ML es el estimador de máxima verosimilitud de θ , y si
V (θ ) es continua entonces
∂β (θ ) 1 ∂β (θ )
V bθ ML = I bθ ML
∂θ T θ =b
θ ML ∂θ θ =b
θ ML
es
p unn estimador o
consistente de la varianza de la distribución asintótica de
n b
βML β (θ ) .
I Sabiendo como construir un estimador consistente de V (θ ) podemos
construir un intervalo de con…anza para β (θ ) . Veamos un ejemplo.
I Ejemplo 1. Supongamos que X1 , X2 , ..., Xn iid N (µ, σ2 ) con µ y σ
desconocidos e irrestrictos. Vamos a calcular la varianza de la distribución
asintótica del estimador de máxima verosimilitud de
µ
β (θ ) = , siendo θ = (µ, σ)
σ
I Primero calculamos I (θ ) 1
np o 1
log f (x ; θ ) = log 2π log (σ) (x µ )2
2 σ2
∂ log f (x ; θ ) 1
= 2 (x µ)
∂µ σ
∂ log f (x ; θ ) 1 (x µ )2
= +
∂σ σ σ3
∂2 log f (x ; θ ) ∂2 log f (x ; θ ) 2 (x µ)
= =
∂µ∂σ ∂σ∂µ σ3
∂2 log f (x ; θ ) 1
=
∂µ2 σ2
∂2 log f (x ; θ ) 1 (x µ )2
= 2 3
∂σ2 σ σ4
I Por lo tanto
∂2 log f (X ; θ ) 2 (X µ)
I (θ )12 = E ( µ,σ ) = E ( µ,σ ) =0
∂µ∂σ σ3
∂2 log f (X ; θ ) 1 1
I (θ )11 = E ( µ,σ ) = E ( µ,σ ) =
∂µ2 σ2 σ2
" #
∂2 log f (X ; θ ) 1 (X µ )2
I (θ )22 = E ( µ,σ ) = E ( µ,σ ) 3
∂σ2 σ2 σ4
n o
1 E (X µ )2 1 σ2 2
= +3 = +3 = 2
σ2 σ4 σ2 σ4 σ
I Luego
2
σ 0 1 σ2 0
I (θ ) = 2 e I (θ ) =
0 2σ 0 σ 2 /2
I Por otro lado
∂β (θ ) ∂ (µ/σ) ∂ (µ/σ) 1 µ
= , = ,
∂θ T ∂µ ∂σ σ σ2
I Luego,
1
∂β (θ ) 1∂β (θ ) 1 µ σ2 0
V (θ ) = I (θ ) = σ
µ
∂θ T ∂θ σ σ2 0 σ 2 /2 σ2
1 1 µ µ
= σ2
+ σ 2 /2
σ σ σ2 σ2
2
µ
= 1+ 2
2σ
I µ2
Como V (θ ) = 1 + 2 σ2
es una función contínua entonces
2
X
V bθ ML = 1 +
2S 2
es un estimador consistente de V (θ ) .
I Luego, un intervalo de con…anza con nivel aproximado 1 α para
β (θ ) = µ/σ es
r
q
V bθ ML X
1 + 2S
2
b X 2
θ ML Φ 1
(1 α/2) p = Φ 1
(1 α/2) p
n S n
I Teorema 1 (caso r = 1). Supongamos que
X1 , ..., Xn iid f (x ) 2 F = f f (x ; θ ) : θ 2 Θ Rg
1. Θ es abierto
2. f (x ; θ ) tiene el mismo soporte cualquiera sea θ 2 Θ
3. f (x ; θ ) es tres veces diferenciable con respecto R a θ, para cada x
4. para todo θ 2 Θ, para todo θ 2 Θ, ddθ f (x ; θ ) d x θ = θ =
R d hR i
d d
d θ f (x ; θ ) θ = θ d x y d θ d θ f (x ; θ ) d x θ = θ =
R d2
2 f (x ; θ ) dx
dθ θ =θ
5. 0 < I (θ ) < ∞ para todo θ 2 Θ
6. para todo θ 0 2 Θ, existe c y M (X ) (ambos pueden depender de θ 0 )
tal que
d3
log f (x ; θ ) M (x ) para todo x y todo θ 2 (θ 0 c, θ 0 + c )
d θ3
y
Eθ 0 [M (X )] < ∞
Pθ
7. b
θ ML ! θ
I Entonces,
p n o L(F )
n bθ ML 1
θ
θ ! N 0, I (θ )
I Demostración: sea
n
∑ d k log f
(k )
ln ( θ ) = d k ln ( θ ) / d θ k = (Xi ; θ ) /d θ k , k = 1, 2, 3.
i =1
(1 ) (1 ) (2 ) (3 ) 2
ln b
θ ML = ln (θ ) + ln (θ ) b
θ ML θ + ln (θ ) bθ ML θ /2
(1 )
p p1 ln (θ )
n
n bθ ML θ =
1 (2 ) 1 (3 )
n ln (θ ) n ln (θ ) bθ ML θ /2
(1 )
p p1 ln (θ )
n
n bθ ML θ =
1 (2 ) 1 (3 )
l
n n (θ ) l
n n (θ ) bθ ML θ /2
I El numerador veri…ca
1 1 p 1 n
p ln( ) (θ ) = n ∑ d log f (Xi ; θ ) /d θ
n n i =1
( )
p 1 n
n i∑
= n s ( X i ; θ )
=1
( )
p 1 n
n i∑
= n fs (Xi ; θ ) Eθ [s (Xi ; θ )]g
=1
L(F θ )
! N (0, I (θ ))
1 (2 ) 1 n 2
n i∑
ln ( θ ) = d log f (X i ; θ ) /d θ 2
n =1
P
!θ E θ d 2 log f (X i ; θ ) /d θ 2 = I (θ )
1 (3 ) 1 n
n i∑
0 ln ( θ ) b θ ML θ /2 d 3 log f (X i ; θ ) /d θ 3 b
θ ML θ /2
n =1
( )
1 n
n i∑
M ( X i ) bθ ML θ /2
=1
P
!θ E θ [M (X i )] 0=0
p 1 1 1
n b
θ ML θ = p ln( ) (θ )
1 (2 ) 1 (3 ) n
n ln (θ ) n ln (θ ) bθ ML θ /2 | {z }
| {z } converge en distribución
converge en probabilidad a I (1θ ) a N (0,I (θ ))
!
L(F θ ) 1 1 1
! N (0, I (θ )) = N 0, I (θ ) =N 0,
I (θ ) I ( θ )2 I (θ )
Plan
1
varθ bθ
In ( θ )
I Demostración: Dado que bθ es un estimador insesgado de θ , debe
cumplirse que cualquiera sea el valor de θ
Eθ bθ = θ
I Por lo tanto,
Z Z
δ (x1 , ..., xn ) f (x1 , ..., xn ; θ ) dx1 ...dxn = θ
1
varθ bθ
varθ (s (X ; θ ))
varθ (s (X ; θ )) = Eθ s (X ; θ )2 = In (θ )
Desigualdad de Cramer-Rao para un parámetro vectorial
var bθ In ( θ ) 1
0
∂β(θ ) 1 ∂β(θ )
varθ b
β
∂θ T n
I (θ ) ∂θ 0
varθ b
β
dθ
In ( θ )
Plan
p n o L(F )
n b
θ
β β (θ ) ! N (0, W (θ )) para algun W (θ )
y
p n o
n eβ β (θ ) ! N (0, V2 (θ )) (2)
V2 (θ ) V1 (θ ) > 0
E…ciencia asintótica relativa
V2 (θ )
τ (θ ) =
V1 (θ )
V 1 ( θ ) /n1 = V 2 ( θ ) /n2
o equivalentemente
n2 /n1 = V 2 ( θ ) /V 1 ( θ )
= τ (θ )
De modo que
n2 = τ ( θ ) n1
Cuanto más grande sea τ (θ ) mas e…ciente sera b
β con respecto a e
β.
Plan
nos indica la fracción de información disponible que fue perdida por usar
el estimador ine…ciente.
p n o L(F )
n e θ2 ! N 0, 20θ 4
θ
β
2
I De manera que por usar e
β en vez del estimador e…ciente b
β = X hemos
perdido
1 1
4θ 4 20θ 4 4
1 =
4θ 4 5
p n o L(F )
n β b
θ
θ ML β (θ ) ! N r (0, V (θ ))
donde
∂β (θ ) 1 ∂β (θ )
V (θ ) = I (θ )
∂θ T ∂θ
es que nos ofrece una forma inmediata para construir intervalos y regiones de
con…anza asintóticos puntuales de nivel 1 α.
I Recordemos que si sabemos como construir un estimador consistente V
b de
V (θ ) , entonces podemos construir un intervalo asintotico de nivel 1 α para un
β (θ ) escalar como p
β bθ ML Φ 1 (1 α/2 ) n 1 V b
I Intervalos construidos con esta fórmula se llaman intervalos de Wald.
I V
b1 = V b
θ ML (llamado estimador basado en la información esperada)
T
I V
b2 = ∂β(Tθ ) n 1 θ ML s X i ; b
∑ni=1 s X i ; b θ ML
∂β(θ )
∂θ θ =b
θ ML ∂θ θ =b
θ ML
I V
b3 = ∂β(Tθ ) n 1
∑ni=1 ∂
log f (X i ; θ )
∂β(θ )
, (llamado
∂θ θ =b
θ ML ∂θ∂θ T θ =b
θ ML ∂θ θ =b
θ ML
2. más especí…camente, se aproxima más y más a una distribución normal con media
b
θ ML y varianza n 1 W , donde W = n 1 ddθ log L n (θ )jθ =bθ
ML
Y i = αT Z i + εi
donde εi jZ i N 0, σ2 .
I Es posible probar que
p 1
n (b
αML α) ! N 0, E Z 1 Z 1T σ2
b1
donde V b1 .
es la componente (k , k ) de la matriz V
kk
I Note que este intervalo no es el habitual en regresion lineal aún si se conoce la
distribución de Z i (como es el caso en experimentos controlados).
I El intervalo que se reporta habitualmente es el que usa el estimador
1
b3 = σ
V b2ML n 1
∑ni=1 Z i Z iT basado en la información observada.
Plan
donde n
1 xo
g (x ; θ ) = exp I (x > 0 )
θ θ