5 2019 Maxima Verosimiltud

Maxima verosimilitud,
Inferencia Estadistica, 2019
Andrea Rotnitzky .
17 de julio, 2019
Lecturas recomendadas
I Casella & Berger, Sec 7.2.2

I Hogg, Mackean & Craig, Sec 6.1-6.2 y 6.4
I Cameron & Trivedi, Sec 5.6
I Knight, sec 4.8, 5.4-5.6, 5.8, 6 y 7.2
I Young & Smith, sec 8.1-8.4
Plan
I De…nición del estimador de máxima verosimilitud y ejemplos.

I Método de Newton-Raphson para resolver ecuaciones de primer orden
I Consistencia del estimador de máxima verosimilitud
I Normalidad asintótica del EMV bajo condiciones de regularidad
1. De…niremos la función score y probaremos que tiene media 0

2. De…niremos la matriz de información y probaremos la igualdad de
información
3. Probaremos que bajo ciertas condiciones la distribución asintótica del
estimador de máxima verosimilitud es normal
I E…ciencia asintótica del EMV
1. Probaremos la desigualdad de Cramer-Rao para la varianza de
estimadores insesgados
2. De…niremos e…ciencia relativa
3. Usaremos la desigualdad de Cramer-Rao para dar un argumento
intuitivo de por que el estimador de máxima verosimilitud es
asintóticamente e…ciente
I Intervalos de con…anza Wald y su relación con intervalos de credibilidad
Bayesianos para muestras grandes
I Ejemplo en el que el EMV no es asintóticamente normal
Plan


informacion
intuitivo de por qué el estimador de máxima verosimilitud es
Método de máxima verosimilitud
I En estas notas estudiaremos un método general de la estadística

frecuentista para estimación en modelos paramétricos llamado el método
de máxima verosimilitud.
I existen distintas versiones del método de máxima verosimilitud para
estimación en modelos semi y no paramétricos pero las mismas van
mas allá del alcance de este curso.
I Para motivar el método consideremos el siguiente problema sencillo:

Supongamos que
I deseamos estimar la probabilidad de éxito θ en una distribución
Bernoulli basándonos en una muestra aleatoria X1 , ..., X4 de
tamanho n = 4.
I Sabemos que los únicos posibles valores de θ son 1/3 o 2/3. Es
decir, nuestro modelo es
n o
F = f (x ; θ ) = θ x (1 θ )1 x : θ 2 Θ
siendo Θ = f1/3, 2/3g .

I Supongamos que los valores observados de X1 , ..., X4 en la muestra fueron
(x1 , ..., x4 ) = (1, 0, 1, 1). Para elegir entre los dos valores posibles valores
de θ , la siguiente estrategia parece razonable:
I Si θ fuera igual a 1/3, la probabilidad de observar justo lo que
observamos sería
Pθ =1/3 (X1 = 1, X2 = 0, X3 = 1, X4 = 1) =
= Pθ =1/3 (X1 = 1) Pθ =1/3 (X2 = 0) Pθ =1/3 (X3 = 1) Pθ =1/3 (X4 = 1)
= 1/3 2/3 1/3 1/3
= 2/81 = 0.0247
I Si θ fuera igual a 2/3, la probabilidad de observar justo lo que
observamos sería
Pθ =2/3 (X1 = 1, X2 = 0, X3 = 1, X4 = 1) =
= Pθ =2/3 (X1 = 1) Pθ =2/3 (X2 = 0) Pθ =2/3 (X3 = 1) Pθ =2/3 (X4 = 1)
= 2/3 1/3 2/3 2/3
= 8/81 = 0.0988
I Los datos (x1 , ..., x4 ) = (1, 0, 1, 1) observados son entonces 4 veces
probables (pues (8/81) / (2/81) = 4) cuando θ = 2/3 que cuando
θ = 1/3.
I Entonces, pareciera razonable estimar a θ con 2/3.
I Siguiendo esta linea de razonamiento, si nuestro modelo ahora planteara
la posibilidad de que θ 2 f1/3, 2/3, 3/4g , entonces
I calculariamos también la probabilidad de observar los datos
observados si θ fuera igual a 3/4:
Pθ =3/4 (X1 = 1, X2 = 0, X3 = 1, X4 = 1) =
= Pθ =3/4 (X1 = 1) Pθ =3/4 (X2 = 0) Pθ =3/4 (X3 = 1) Pθ =3/4 (X4 = 1)
= 3/4 1/4 3/4 3/4
= 27/256 = 0.10547
I En este caso elegiriamos estimar a θ con 3/4 pues la probabilidad

de observar los datos que observamos es mas grande bajo θ = 3/4
que bajo cualquiera de los otros dos valores hipotetizados para θ .
I Mas generalmente, dado cualquier Θ, razonando como antes, planteamos
para cada valor posible de θ , la función
Pθ (X1 = 1, X2 = 0, X3 = 1, X4 = 1)
= P θ (X 1 = 1 ) P θ (X 2 = 0 ) P θ (X 3 = 1 ) P θ (X 4 = 1 )
= θ (1 θ ) θ θ
= θ 3 (1 θ )
y estimamos a θ con arg maxθ 2Θ θ 3 (1 θ) .

I Si por ejemplo, Θ = [0, 1] entonces estimamos a θ con 3/4 pues en el
intervalo [0, 1] la función θ 3 (1 θ ) se maximimza en θ = 3/4
0.15
t^3 * (1-t)
0.10
0.05
0.00
0.0 0.5 1.0
t
I Mas generalmente, para observaciones x = (x 1 , ..., x n ) cualesquiera de una
muestra de tamanho n, estimaremos θ con aquel valor en Θ que maximize la
función
P θ (X 1 = x1 , X 2 = x2 , X 3 = x3 , ..., X n = xn )
= f (x ; θ )
n
= ∏ f (x i ; θ )
i =1
n n o
= ∏ θ xi (1 θ )1 xi
i =1
n n
∑ xi ∑ (1 x i )
= θ i =1 (1 θ ) i =1
= θ nx (1 θ )n nx
I Si por ejemplo Θ = [0, 1 ] , entonces estimamos a θ con
arg max θ nx (1 θ )n nx
=x
θ 2[0,1 ]
I Siguiendo el mismo razonamiento, en un modelo paramétrico arbirtrario para la

probabilidad conjunta f de X = (X 1 , ..., X n ) donde cada X i es discreta,
F = f f (x ; θ ) : θ 2 Θ g
cuando observásemos X = x estimariamos a θ con
arg max f (x ; θ ) .
θ 2Θ
I A
b
θ ML = arg max f (X ; θ )
θ 2Θ
se lo denomina estimador de máxima verosimilitud de θ y lo abreviamos

EMV de θ .
I Note que en la de…nición de bθ ML , la función f está evaluada en el vector

aleatorio X y no en el valor observado x , porque bθ ML es un estimador de
θ , y no el valor estimado de θ .
I La función
θ ! L n ( θ ) = f (X ; θ )
es la función de verosimilitud, la misma que de…nimos cuando estudiamos
inferencia Bayesiana. Solo que, cuando la pensamos como parte del
procedimiento que seguimos para calcular el EMV de θ , la función Ln (θ )
es aleatoria porque depende del vector aleatorio X .
I Notemos también que si las X1 , ..., Xn son iid entonces

n
L n ( θ ) = ∏ f (X i ; θ )
i =1
I Veamos ahora como extender el estimador de máxima verosimilitud
cuando las Xi son variables aleatorias continuas.
I Sabemos que para h pequen eo,
1
f (x ) fF (X x + h ) F (X x h )g
(2h )n
1
= P (xi h < Xi xi + h; i = 1, .., n )
(2h )n
donde X = (X1 , .., Xn ) ,x = (x1 , .., xn ) , h = (h, ..., h ) , y f (x ) es la

densidad conjunta de X .
I Luego, bajo f ( ; θ ) la probabilidad de observar datos "casi" como los

datos observados x (es decir la probabilidad de observar datos en un cubo
de arista h con centro en x ) es aproximadamente f (x ; θ ) (2h )n .
I Luego, siguiendo el razonamiento analogo al caso de datos discretos,

habiendo observado x estimamos a θ con arg maxθ 2Θ f (x ; θ ) (2h )n o,
equivalentemente, con arg maxθ 2Θ f (x ; θ ) .
I Nuevamente, entonces de…nimos la función de verosimilitud
L n ( θ ) = f (X ; θ )
y al estimador de máxima verosimilitud como

b
θ ML = arg max Ln (θ )
θ 2Θ
I De…nimos también la log-verosimilitud
ln (θ ) = log Ln (θ )
donde log es el logaritmo natural (en base e ).
I Notemos que como el log (u ) es una función estrictamente creciente,

entonces
b
θ ML = arg max Ln (θ ) = arg max ln (θ )
θ 2Θ θ 2Θ
I De…nición: para una función β : Θ ! Rk , el estimador de máxima

verosimilitud de β (θ ) se de…ne como
b
βML = β b
θ ML
Ejemplos
iid
I Ejemplo 1: Supongamos que X1 , ..., Xn N (µ, σ2 ) , con µ y σ
desconocidos y arbitrarios. Entonces θ = (µ, σ) , Θ = R R+ .
I Calcularemos el estimador de máxima verosimilitud de θ = (µ, σ ) .
I
" #
n
ln ( µ , σ ) = log ∏ f (X i ; µ, σ )
i =1
n
= ∑ log f (X i ; µ, σ )
i =1
n
1 1
= ∑ log 2 πσ
p
exp
2 σ2
(X i µ )2
i =1
n n
1 1
= ∑ log p2πσ + ∑ log exp 2σ2 (Xi µ)2
i =1 i =1
p n
1
= n log 2π n log (σ) ∑ 2 (Xi µ)2
2
i =1 σ
I Para cada σ …jo, tenemos que
arg max ln (µ, σ) =

µ 2R
n
= arg min ∑ (Xi µ )2
µ 2R i =1
n 2
= arg min ∑ Xi X +X µ
µ 2R i =1
8 9
>
> >
>
>
> >
>
< n 2 n 2=
= arg min
µ 2R >
∑ Xi X +2 X µ ∑ Xi X +n X µ
>
>
> i =1 i =1 >
>
>
:| {z } | {z } >
;
no depende de θ =0
2
= arg min X µ
µ 2R
= X
I Luego, como el argumento máximo de ln (µ, σ) no depende de σ y es igual

a X , concluimos que
bML = X
µ
I Además,
bML
σ = bML , σ )
arg max ln (µ
σ 2R +
" #
p n
1 2
= arg max
σ 2R +
n log 2π n log (σ) ∑ 2 σ2
Xi X
i =1
" #
n
1 2
= arg max
σ 2R +
n log (σ) ∑ 2 σ2
Xi X
i =1
I Para maximizar la ultima función calculamos la condición de primer orden

" #
n
d 1 2
0 =
dσ
n log (σ) ∑ 2 σ2
Xi X
i =1
n
n 1 2
= +∑ Xi X
σ i =1 σ3
I De donde deducimos que si la función tiene un máximo, éste debe

bML que veri…ca
realizarse en σ
n
1 2
b2ML =
σ
n ∑ Xi X
i =1
I Es fácil veri…car (chequeando que la segunda derivada de la función en
σ=σ bML es negativa) que efectivamente en ese valor la función atiene su
máximo. Luego, concluimos que
s
n
1 2
bML =
σ
n ∑ Xi X
i =1
es el estimador de máxima verosimilitud de σ.

Comentarios
I σ
b2ML no es un estimador insesgado de σ2 por lo que este ejemplo
demuestra que método de máxima verosimilitud no resulta necesariamente
en estimadores insesgados.
I El ejemplo también ilustra otro punto interesante. Supongamos que
realmente estuviésemos interesados en estimar uno de los dos parámetros
(µ o σ). Al otro parámetro -el que no nos interesa estimar - se lo llama
parámetro de ruido o molesto. ¿Qué hubiera ocurrido con nuestra
estimación de máxima verosimilitud si hubiesemos conocido el valor del
parámetro molesto, se hubiese visto alterada? El ejemplo nos ilustra que
no hay una respuesta de…nitiva para esta pregunta, el estimador puede o
no variar, dependiendo del parámetro que se quiera estimar.
I Si σ fuera conocida, es decir si el único parámetro desconocido fuera

µ, entonces el estimador de máxima verosimilitud de µ sería
nuevamente igual a X .
I En cambio, si µ fuera conocida, es decir si el único parámetro

desconocido fuera σ,
q entonces el estimador de máxima verosimilitud
de σ sería igual a 1
n ∑ni=1 (Xi µ )2 .
I Ejemplo 2. En este ejemplo veremos que si Θ es cerrado, o semi-cerrado, puede
ocurrir que el estimador de máxima verosimilitud se encuentre en el borde y no
se lo obtenga mediante la resolución de condiciones de primer orden.
I Supongamos que X 1 , ..., X n iid N (µ, 1 ) , con µ desconocida pero en el intervalo
Θ = [3, +∞). Entonces
bML
µ = arg max ln ( µ )
µ2[3,+∞)
n
1 1
= arg max ∑ log
µ2[3,+∞) i =1
p
2π
exp
2
(X i µ )2
" #
n n
1 1
= arg max
µ2[3,+∞)
∑ log p
2π
+ ∑ log exp
2 σ2
(X i µ) 2
i =1 i =1
n
= arg min
µ2[3,+∞)
∑ (X i µ )2
i =1
8 9
>
> >
>
>
> >
>
< n n =
∑ ∑
2 2
= arg min Xi X +2 X µ Xi X +n X µ
µ2[3,+∞) > > >
>
>
>
i =1 i =1 >
>
:| {z } | {z } ;
no depende de θ =0
2
= arg min X µ
µ2[3,+∞) | {z }
parabola con mínimo en X
X si X 3
=
3 si X < 3
I Ejemplo 3: En este ejemplo veremos que si Θ es abierto puede ocurrir
que el estimador de máxima verosimilitud no exista.
iid
I Supongamos que X1 , ..., Xn N (µ, 1) , con µ desconocida pero en el
intervalo Θ = (3, +∞). Entonces, razonando como en el ejemplo 2,
bML
µ = arg max ln (µ)
µ2(3,+∞)
2
= arg min X µ
µ2(3,+∞) | {z }
parábola con mínimo en X
2
Si X < 3, entonces la función g (µ) = X µ no tiene un mínimo en el
intervalo abierto (3, +∞), luego µ
bML no existe.
I Ejemplo 4 (Regresión lineal homoscedástica): Supongamos que
T
Xi = Yi , ZiT , i = 1, ..., n son vectores aleatorios iid cada uno satisface
Y i = αT Z i + εi
T
donde εi jZi N (0, σ2 ) . Equivalentemente, Xi = Yi , ZiT tiene
distribución f (y , z; θ ) = fY jZ (y jz; α, σ) fZ (z ) siendo
fY jZ (y jz; α, σ) = N αT z, σ2
Supongamos que α 2 R p , σ 2 R + y fZ ( ) son desconocidas.
I En este ejemplo, θ = (α, σ, fZ ) .
I Note que el modelo es formalmente semi-parametrico porque fZ ( ) es una

función, no un vector en algún espacio euclideano.
I Supongamos que estamos interesados en calcular el EMV de α.

I Ahora,
2 3
6 n 7
6 n 7
ln ( α , σ , f Z ) = 6 ∏ Y jZ i i
log 6 f ( Y j Z ; α , σ ) ∏ Z i 77
f ( Z )
4i =1 i =1 5
| {z }
=c (Z )
n
= ∑ log fY jZ (Yi jZi ; α, σ) + log [c (Z )]
i =1
n
1 1
∑ log
2
= p exp Yi αT Z i + log [c (Z )]
i =1 2πσ 2 σ2
n
1
∑ 2 σ2
2
= Yi αT Z i ] + k (Z )
i =1
p
I siendo k (Z ) = n log 2π n log (σ) + log [c (Z )] .
n
1
∑ 2 σ2
2
ln ( α , σ , f Z ) = Yi αT Z i + k (Z )
i =1
I Luego, observamos que el valor de α donde se maximiza ln (α, σ, fZ ) no

depende de σ ni de fZ .
I Más aún,
b
αML = arg max ln (α, σ, fZ )
α
n
arg min ∑ Yi
2
= αT Z i
α
i =1
I lo que demuestra que el estimador de máxima verosimilitud de α bajo el

modelo de regresión lineal con errores normales homoscedástico es el
estimador de cuadrados mínimos.
I Ejemplo 5: En este ejemplo veremos una situación en la que la
verosimilitud no es una función continua. La maximización no puede
hacerse por lo tanto resolviendo una condición de primer orden.
iid
I Supongamos que X1 , ..., Xn U (0, θ ) con θ 2 Θ = (0, +∞).
I
1/θ si Xi θ
f (X i ; θ ) =
0 de otro modo
I Luego,
(1/θ )n si Xi θ para todo i

Ln (θ ) =
0 de otro modo
(1/θ )n si maxi 2f1,...,n g (Xi ) θ para todo i
=
0 de otro modo
I Notemos que la verosimilitud Ln (θ ) es una función discontinua y por lo

tanto no podemos emplear condiciones de primer orden para encontrar el
punto donde se maximiza.
I Sin embargo, es facil ver que Ln (θ ) se maximiza en
b
θ ML = arg max Ln (θ ) = Xmax = max (Xi )
θ 2(0,+∞) i 2f1,...,n g
I Ejemplo 6 (datos truncados): En este ejemplo veremos que posible que el
estimador de máxima verosimilitud exista pero no podamos calcular una fórmula
explícita para el.
I Supongamos que Y 1 , ..., Y n iid logNormal(µ, σ ) , es decir T i = log Y i
iid
Normal(µ, σ ) . Supongamos que para cada i observamos, X i = min (T i , c ) para
una c dada. ( por ejemplo, una persona informa su ingreso Y siempre y cuando
sea menor que exp (c ) , de lo contrario, sólo nos informa que su ingreso es mayor
que exp (c )). En ese caso:
I Para un θ dado, la contribución a la verosimilitud de la i esima unidad de la
muestra es
2 3 I (X i <c )
6 1 1 7 (X i µ) I (X i =c )
6 7
6 p exp (X i µ )2 7 1 Φ
4 2 πσ2 2σ 5 σ
| {z } | {z }
densidad 1-fc de dist acumulativa
I Luego, la log-verosimilitud es
1 1 (X i µ)
ln ( θ ) = ∑ log p
2 πσ2
exp
2σ
(X i µ )2 + ∑ log 1 Φ
σ
i :X i <c i :X i =c
I La ecuación de primer orden ∂ln (θ ) /∂θ = 0 no tiene una solución que pueda
expresarse con una fórmula explícita.
I Ejemplo 7 (Regresión logística): Supongamos que
T
Xi = Yi , ZiT , i = 1, ..., n son vectores aleatorios iid, donde Yi es
binaria. Supongamos que
P (Y i = 1 jZ i )
log = αT Z i
P (Y i = 0 jZ i )
T
Equivalentemente, Xi = Yi , ZiT tiene distribución
f (y , z; θ ) = fY jZ (y jz; α) fZ (z ) siendo
fY jZ (y jz; α) = Bernoulli expit αT z
donde expit(u ) = exp (u ) / [1 + exp (u )] .
I Supongamos que α 2 R p y fZ ( ) son desconocidas. En este ejemplo,
θ = ( α , fZ ) .
I Note que el modelo es formalmente semi-paramétrico porque fZ ( ) es una

función, no un vector en algún espacio euclideano.
I Supongamos que estamos interesados en calcular el EMV de α.

2 3
6 7
6 n n 7
6 7
ln ( α, f Z ) = log 6 ∏ fY jZ (Y i jZ i ; α) ∏ fZ (Z i )7
6i =1 =
7
4 | {z }5
i 1
=c (Z )
n
= ∑ log fY jZ (Yi jZi ; α) + log [c (Z )]
i =1
8" #Y i " #1 Y i 9
n < exp αT Z i exp αT Z i =
= ∑ log : 1 + exp (αT Zi ) 1 T
1 + exp (α Z i ) ;
+ log [c (Z )]
i =1
" ! #
n exp αT Z i 1
= ∑ Yi log 1 + exp (αT Zi ) + (1 Yi ) log 1 + exp (αT Zi ) + log [c (Z )]
i =1
= eln (α) + log [c (Z )]
I Luego, observamos que el valor de α donde se maximiza ln (α, fZ ) no depende de

fZ .
I Después de algunos calculos que aca obviaremos, se puede llegar a que
0 = ∂eln (α) /∂α

" ! !#
∂ n exp αT Zi exp αT Zi
∂α i∑
= Yi log + (1 Yi ) log 1
=1 1 + exp (αT Zi ) 1 + exp (αT Zi )
" !#
n exp αT Zi
= ∑ Zi Yi
1 + exp (αT Zi )
i =1
I Sin embargo, esta ecuación en α no tiene una solución explícita.
I De modo que este problema provee otro ejemplo en el que no es posible

encontrar una fórmula explícita para el EMV.
Plan
informacion
Método de Newton-Raphson
I Cuando no podemos encontrar analíticamente arg max ln (θ ) , debemos recurrir a

métodos numéricos iterativos que, en realidad, no dan la solución exacta sino
que la aproximan tanto como se desee.
I Un tal método numérico es el llamado método de Newton-Raphson. El método
en realidad encuentra una solución de la ecuación de primer orden ln0 (θ ) = 0,
siendo ln0 (θ ) = ∂ln (θ ) /∂θ ,
I Partiendo de un valor inicial cualquiera, digamos θ 0 , en el paso el paso k + 1, se
calcula el valor de θ que resuelve la ecuación
T
0 = ln0 θ k + ln00 θ k θ θk
siendo ln00 (θ ) = ∂2 ln (θ ) /∂θ∂θ T la matriz de segunda derivadas de ln (θ ) . La

fórmula en la parte derecha es la fórmula del plano (o recta si θ es escalar)
tangente al grá…co de la función ln (θ ) en el punto θ k . El valor de θ que resuelve
la ecuación es n o 1
θ k +1 = θ k ln00 θ k ln0 θ k
El algoritmo se detiene cuando se alcanza alguna condición pre-establecida de

convergencia, por ejemplo θ k +1 θ k < ε para un ε dado.
Plan


informacion
Consistencia del EMV
I Ahora argumentaremos que, cuando se cumplen ciertas condiciones generales, el
estimador de máxima verosimilitud basado en n v.a. iid es consistente. Si bien la
demostración precisa de la consistencia del EMV está más allá del alcance del
curso, el núcleo central del argumento que lleva a deducir la consistencia, es
intuitivo y se basa en el siguiente resultado de la teoría de probabilidad.
I Desigualdad de Jensen: sea Y una variable aleatoria tal que E (Y ) existe y sea
ϕ una función convexa. Entonces
ϕ [E (Y )] E [ ϕ (Y )]
La igualdad vale solo si Y es constante o ϕ es una función lineal.
I Ahora supongamos que F y G son dos distribuciones cualesquiera con

densidades f y g respectivamente. Supongamos que X F . De…namos
g (X )
Y = y ϕ (y ) = log (y )
f (X )
I Entonces por la desigualdad de Jensen tenemos que
g (X ) g (X )
log E f = log [E f (Y )] E f [log (Y )] = E f log
f (X ) f (X )
I o equivalentemente
g (X ) g (X )
log E f E f log
f (X ) f (X )
I Pero
Z Z
g (X ) g (x )
log Ef = log f (x ) dx = log g (x ) dx = log (1) = 0
f (X ) f (x )
I Luego,
g (X )
Ef log = Ef [log (g (X ))] Ef [log (f (X ))] 0
f (X )
o equivalentemente
Ef [log (f (X ))] Ef [log (g (X ))]

iid
I Consideremos un modelo que asume X1 , ..., Xn f (x ) 2
F = f f (x ; θ ) : θ 2 Θ g .
I El resultado anterior implica que la función
QF (θ ) = Ef [log (f (X ; θ ))]
Z
= log (f (x ; θ )) f (x ) dx
se maximiza en aquel valor θ tal que f (x ; θ ) = f (x ) .
I Además, si dentro de la colección F no existe ningún otro θ tal que

f (x ; θ ) = f (x ) , entonces θ es el único máximo de la función QF (θ ) .
I De…nición: para el parámetro θ que indexa la familia F

= f f (x ; θ ) : θ 2 Θg , el valor θ está indenti…cado si no existe otro θ
tal que f (x ; θ ) = f (x ; θ ) .
I De ahora en mas asumiremos que θ está indenti…cado.

I En vista del desarrollo de la …lmina anterior, si el oráculo nos soplara al oido la

función Q F (θ ) sería muy sencillo encontrar el valor de θ . Simplemente
deberíamos encontrar el valor que maximiza la función Q F (θ ) .
I Por supuesto, esta estrategia no es factible porque la función Q F (θ ) es

desconocida, justamente porque depende de la distribución F que generó los
datos.
I En el método de máxima verosimilitud uno esencialmente primero estima la

función Q F (θ ) reemplazando a la esperanza E f por la media muestral,
obteniendo así el estimador de la función Q F (θ ) ,
n
b (θ ) = Q b (θ ) = 1 ∑ log f (X i ; θ )
Q F n i =1
I Seguidamente, uno calcula
b
θ ML = arg max Q Fb (θ )
θ 2Θ
I Note que Q
b = Q b , se calcula como si la función de distribución "verdadera"
F
tuviera distribución acumulada
1 n
Fb (x ) = ∑ I( ∞,x ] (X i )
n i =1
I Por la Ley de los Grandes Numeros, para cada θ …jo:
P
Q Fb (θ ) ! Q F (θ )
I Pareciera razonable entonces pensar que debiera también ocurrir que
b P
θ ML = arg max Q Fb (θ ) ! θ = arg max Q F (θ )
θ 2Θ θ 2Θ
I Sin embargo, la convergencia de Q b (θ ) en cada θ no alcanza para garantizar la

F
convergencia de arg max θ 2Θ Q Fb (θ ) a arg max θ 2Θ Q F (θ ) , por dos motivos:
1. para cualquier n dado es posible que existan valores de θ para los cuales la
función Q Fb (θ ) no esté cerca de Q F (θ ) .
2. es posible que si Θ es abierto, a medida que θ se acerca a la frontera del espacio

Θ, la curva Q F (θ ) se acerque (aunque nunca llegue) hacia el máximo de Q F (θ ) .
I El siguiente Teorema, cuya demostración va mas allá del alcance de este curso,
provee condiciones su…cientes que garantizan que los puntos (1) y (2) de la
…lmina anterior no pueden ocurrir y por lo tanto, que garantizan que el EMV es
consistente.
iid
I Teorema: sean X 1 , ..., X n f (x ) 2 F = f f (x ; θ ) : θ 2 Θg y supongamos que
θ esta identi…cado. Supongamos ademas que para
P
sup Q Fb (θ ) Q F (θ ) ! 0
θ 2Θ
sup Q F (θ ) < Q (θ ) para todo ε > 0

θ:jjθ θ jj>ε
Entonces cuando f (x ) = f (x ; θ ) , el estimador de máxima verosimilitud de θ
bajo el modelo F satisface

b P
θ ML ! θ
Plan


informacion
La función escore
I Sea X = (X1 , ..., Xn ) , el vector compuesto por todas las observaciones de

la muestra.
I De…nición: La función score de θ que escribiremos como s (X ; θ ) es igual
a 0 ∂ log f (X ,...,X ;θ ) 1
0 1 1 n
s1 (X ; θ ) B ∂ log f (X∂θ1 ,...,X ;θ ) C
1
B s2 (X ; θ ) C B n C
B C B ∂θ 2 C
s (X ; θ ) = B .. C = B . C
@ . A B . C
@ . A
sr (X ; θ ) ∂ log f (X 1 ,...,X n ;θ )
∂θ r
I Lemma 1: Supongamos que

1. Θ es abierto
2. f (x ; θ ) tiene el mismo soporte cualquiera sea θ 2 Θ, es decir el
conjunto fx : f (x ; θ ) > 0g es el mismo para todo θ 2 Θ
3. f (x ; θ ) es diferenciable con respecto a θ, para cada x
R R ∂
4. para todo θ 2 Θ, ∂θ∂ j f (x ; θ ) d x θ = θ = ∂θ j f (x ; θ ) dx
θ =θ
entonces para todo θ 2 Θ
Eθ [s (X ; θ )] = 0
I Demostración:
Z
∂ log f (x ; θ )
Eθ fsj (X ; θ )g = f (x ; θ ) d x
∂θ j
8 9
Z < ∂f (x ;θ ) =
∂θ j
= f (x ; θ ) d x
: f (x ; θ ) ;
Z
∂f (x ; θ )
= dx
∂θ j
Z
∂
= f (x ; θ ) d x
∂θ j
∂
= f1 g = 0
∂θ j
I Grá…cos de la función n 1 ln (θ ) bajo repetidas muestras en cuatro modelos
distintos. La linea vertical azul esta sobre el valor verdadero de θ , y las
lineas verticales rojas están ubicadas sobre los estimadores de máxima
verosimiltud bajo las distintas muestras.
Plan


2. De…niremos la matriz de información y probaremos la igualdad
de informacion
I Lemma 2: Supongamos que
1. Θ es abierto
2. f (x ; θ ) tiene el mismo soporte cualquiera sea θ 2 Θ
3. f (x ; θ ) es dos veces diferenciable con respecto a θ, para cada x
R R ∂
4. para todo θ 2 Θ, ∂θ∂ j f (x ; θ ) d x θ = θ = ∂θ j f (x ; θ ) θ =θ d x y
hR i R 2
∂ ∂
∂θ j ∂θ k f (x ; θ ) d x = ∂θ∂j ∂θ k f (x ; θ ) dx
θ =θ θ =θ
entonces para todo θ 2 Θ
h i h i
∂2
E θ s (X ; θ ) s (X ; θ ) 0 = Eθ ∂θ∂θ 0
log f (X ; θ )
I Cuando θ es un escalar, la identidad se reduce a

n o n o
∂2 log f (X ;θ )
E θ s (X ; θ )2 = Eθ ∂θ 2
I Nota:
h i ∂2
E θ s (X ; θ ) s (X ; θ )T = Eθ log f (X ; θ )
∂θ∂θ T
signi…ca que
2 n o 3
E θ s 1 (X ; θ )2 E θ fs1 (X ; θ ) s2 (X ; θ )g E θ fs1 (X ; θ ) sr (X ; θ )g
6 7
6 . . 7
6 . . 7
6 E θ fs2 (X ; θ ) s1 (X ; θ )g . . E θ fs2 (X ; θ ) sr (X ; θ )g 7
6 7
6 . . . . 7
6 . . . . 7
4 . . . n . o 5
2
E θ fsr (X ; θ ) s1 (X ; θ )g E θ s r (X ; θ )
2 n o n o n o 3
∂ log f (X ;θ ) ∂ log f (X ;θ ) ∂ log f (X ;θ )
Eθ ∂θ 1 ∂θ 1 Eθ ∂θ 1 ∂θ 2 Eθ ∂θ 1 ∂θ r
6 n o n o 7
6 .. .. 7
6 E ∂ log f (X ;θ ) . . Eθ
∂ log f (X ;θ ) 7
6 θ ∂θ 2 ∂θ 1 ∂θ 2 ∂θ r 7
=6 7
6 .. .. .. .. 7
6 7
4 n . o . . n . o 5
∂ log f (X ;θ ) ∂ log f (X ;θ )
Eθ ∂θ r ∂θ Eθ ∂θ r ∂θ r
1
I Demostración: por el lemma 1 sabemos que
Z
∂ log f (x ; θ )
0= f (x ; θ ) d x
∂θ j
I Luego, debido a la suposición (4),

Z
∂ ∂ log f (x ; θ )
0 = f (x ; θ ) d x
∂θ k ∂θ j
Z
∂ ∂ log f (x ; θ )
= f (x ; θ ) d x
∂θ k ∂θ j
I Ahora, utilizando la regla para la derivación del producto de dos funciones de θ
obtenemos
Z
∂ ∂ log f (x ; θ )
0 = f (x ; θ ) d x
∂θ k ∂θ j
Z
∂ ∂ log f (x ; θ )
= f (x ; θ ) d x +
∂θ k ∂θ j
Z
∂ log f (x ; θ ) ∂
ff (x ; θ )g d x
∂θ j ∂θ k
Z
∂ ∂ log f (x ; θ )
= f (x ; θ ) d x +
∂θ k ∂θ j
Z
" ∂ #
∂ log f (x ; θ ) ∂θ k ff (x ; θ )g
f (x ; θ ) d x
∂θ j f (x ; θ )
Z
∂2 log f (x ; θ )
= f (x ; θ ) d x +
∂θ k ∂θ j
Z
∂ log f (x ; θ ) ∂ log f (x ; θ )
f (x ; θ ) d x
∂θ j ∂θ k
∂2 log f (X ; θ )
= Eθ + E θ fsj (X ; θ ) sk (X ; θ )g
∂θ k ∂θ j
I De…nición: La matriz In (θ ) (o el escalar In (θ ) si θ es un escalar) cuya
componente (i , j ) es
∂2 log f (x ; θ )
In (θ )kj = Eθ
∂θ k ∂θ j
se llama la matriz de información esperada sobre θ basada en n

observaciones.
I A menudo la llamamos simplemente matriz de información sobre θ basada
en toda la muestra.
I A I1 (θ ) la escribimos simplemente como I (θ ) y la llamamos la
información sobre θ por unidad de la muestra.
I Notemos que cuando X1 , ..., Xn son iid obtenemos que
∂2 log f (X ; θ )
In (θ )kj = Eθ
∂θ k ∂θ j
∂2 log f (X1 , ..., Xn ; θ )
= Eθ
∂θ k ∂θ j
∂2 log [∏ni=1 f (Xi ; θ )]
= Eθ
∂θ k ∂θ j
( )
n 2
∂ log [f (Xi ; θ )]
= Eθ ∑
i =1 ∂θ k ∂θ j
n
∂2 log [f (Xi ; θ )]
= ∑ Eθ ∂θ k ∂θ j
i =1
n
= ∑ I1 (θ )kj
i =1
= nI (θ )kj
I De manera que concluimos que cuando las observaciones de la muestra

son iid, la información basada en n observaciones es igual a n veces la
información por unidad.
Plan


informacion
3. Probaremos que bajo ciertas condiciones la distribución
asintótica del estimador de máxima verosimilitud es normal
Distribución asintótica del estimador de máxima verosimilitud.
Teorema 1. Supongamos que X1 , ..., Xn iid f (x )

2 F = f f (x ; θ ) : θ 2 Θ Rr g . Bajo condiciones de regularidad sobre las
distribuciones en la familia F se veri…ca que
p n o L(F )
n bθ ML 1
θ
θ ! Nr 0, I (θ )
1
donde Nr 0, I (θ ) es la distribución normal multivariada de dimension r con
media 0 y matriz de covarianza I (θ ) 1 .
Corolario. Si β ( ) : Θ ! Rp es una función diferenciable de θ en cada θ 2 Θ,
entonces b
βML = β b θ ML veri…ca
p n o L(F )
n b
θ
βML β (θ ) ! Nr (0, V (θ ))
donde
∂β (θ ) 1 ∂β (θ )
V (θ ) = I (θ )
∂θ 0 ∂θ
I La especi…cación rigurosa de las condiciones de regularidad del teorema 1
y su demostración cuando r > 1 están más allá del alcance del curso.
I En breve daremos un tratamiento riguroso del caso en el que r = 1.
I Notemos que si bθ ML es el estimador de máxima verosimilitud de θ , y si
V (θ ) es continua entonces
∂β (θ ) 1 ∂β (θ )
V bθ ML = I bθ ML
∂θ T θ =b
θ ML ∂θ θ =b
θ ML
es
p unn estimador o
consistente de la varianza de la distribución asintótica de
n b
βML β (θ ) .
I Sabiendo como construir un estimador consistente de V (θ ) podemos
construir un intervalo de con…anza para β (θ ) . Veamos un ejemplo.
I Ejemplo 1. Supongamos que X1 , X2 , ..., Xn iid N (µ, σ2 ) con µ y σ
desconocidos e irrestrictos. Vamos a calcular la varianza de la distribución
asintótica del estimador de máxima verosimilitud de
µ
β (θ ) = , siendo θ = (µ, σ)
σ
I Primero calculamos I (θ ) 1
np o 1
log f (x ; θ ) = log 2π log (σ) (x µ )2
2 σ2
∂ log f (x ; θ ) 1
= 2 (x µ)
∂µ σ
∂ log f (x ; θ ) 1 (x µ )2
= +
∂σ σ σ3
∂2 log f (x ; θ ) ∂2 log f (x ; θ ) 2 (x µ)
= =
∂µ∂σ ∂σ∂µ σ3
∂2 log f (x ; θ ) 1
=
∂µ2 σ2
∂2 log f (x ; θ ) 1 (x µ )2
= 2 3
∂σ2 σ σ4
I Por lo tanto
∂2 log f (X ; θ ) 2 (X µ)
I (θ )12 = E ( µ,σ ) = E ( µ,σ ) =0
∂µ∂σ σ3
∂2 log f (X ; θ ) 1 1
I (θ )11 = E ( µ,σ ) = E ( µ,σ ) =
∂µ2 σ2 σ2
" #
∂2 log f (X ; θ ) 1 (X µ )2
I (θ )22 = E ( µ,σ ) = E ( µ,σ ) 3
∂σ2 σ2 σ4
n o
1 E (X µ )2 1 σ2 2
= +3 = +3 = 2
σ2 σ4 σ2 σ4 σ
I Luego
2
σ 0 1 σ2 0
I (θ ) = 2 e I (θ ) =
0 2σ 0 σ 2 /2
I Por otro lado
∂β (θ ) ∂ (µ/σ) ∂ (µ/σ) 1 µ
= , = ,
∂θ T ∂µ ∂σ σ σ2
I Luego,
1
∂β (θ ) 1∂β (θ ) 1 µ σ2 0
V (θ ) = I (θ ) = σ
µ
∂θ T ∂θ σ σ2 0 σ 2 /2 σ2
1 1 µ µ
= σ2
+ σ 2 /2
σ σ σ2 σ2
2
µ
= 1+ 2
2σ
I µ2
Como V (θ ) = 1 + 2 σ2
es una función contínua entonces
2
X
V bθ ML = 1 +
2S 2
es un estimador consistente de V (θ ) .
I Luego, un intervalo de con…anza con nivel aproximado 1 α para
β (θ ) = µ/σ es
r
q
V bθ ML X
1 + 2S
2
b X 2
θ ML Φ 1
(1 α/2) p = Φ 1
(1 α/2) p
n S n
I Teorema 1 (caso r = 1). Supongamos que
X1 , ..., Xn iid f (x ) 2 F = f f (x ; θ ) : θ 2 Θ Rg
1. Θ es abierto
2. f (x ; θ ) tiene el mismo soporte cualquiera sea θ 2 Θ
3. f (x ; θ ) es tres veces diferenciable con respecto R a θ, para cada x
4. para todo θ 2 Θ, para todo θ 2 Θ, ddθ f (x ; θ ) d x θ = θ =
R d hR i
d d
d θ f (x ; θ ) θ = θ d x y d θ d θ f (x ; θ ) d x θ = θ =
R d2
2 f (x ; θ ) dx
dθ θ =θ
5. 0 < I (θ ) < ∞ para todo θ 2 Θ
6. para todo θ 0 2 Θ, existe c y M (X ) (ambos pueden depender de θ 0 )
tal que
d3
log f (x ; θ ) M (x ) para todo x y todo θ 2 (θ 0 c, θ 0 + c )
d θ3
y
Eθ 0 [M (X )] < ∞
Pθ
7. b
θ ML ! θ
I Entonces,
p n o L(F )
n bθ ML 1
θ
θ ! N 0, I (θ )
I Demostración: sea
n
∑ d k log f
(k )
ln ( θ ) = d k ln ( θ ) / d θ k = (Xi ; θ ) /d θ k , k = 1, 2, 3.
i =1
I Por la expansión de Taylor, tenemos que
(1 ) (1 ) (2 ) (3 ) 2
ln b
θ ML = ln (θ ) + ln (θ ) b
θ ML θ + ln (θ ) bθ ML θ /2
donde θ esta entre bθ ML y θ .

I Bajo nuestras suposiciones, el valor bθ ML que maximiza ln (θ ) veri…ca
(1 )
ln bθ ML = 0. Luego, despejando bθ ML θ en la expresión de arriba y
p
multiplicando por n, obtenemos
(1 )
p p1 ln (θ )
n
n bθ ML θ =
1 (2 ) 1 (3 )
n ln (θ ) n ln (θ ) bθ ML θ /2
(1 )
p p1 ln (θ )
n
n bθ ML θ =
1 (2 ) 1 (3 )
l
n n (θ ) l
n n (θ ) bθ ML θ /2
I El numerador veri…ca
1 1 p 1 n
p ln( ) (θ ) = n ∑ d log f (Xi ; θ ) /d θ
n n i =1
( )
p 1 n
n i∑
= n s ( X i ; θ )
=1
( )
p 1 n
n i∑
= n fs (Xi ; θ ) Eθ [s (Xi ; θ )]g
=1
L(F θ )
! N (0, I (θ ))
donde la convergencia se deduce invocando el Teorema Central del Limite.

(Notar que aca usamos que Eθ [s (Xi ; θ )] = 0 )
(1 )
p p1 ln (θ )
n
n b
θ ML θ =
1 (2 ) 1 (3 )
n ln (θ ) n ln (θ ) bθ ML θ /2
I Para el denominador, analizamos cada uno de los terminos separadamente

I Primero,
1 (2 ) 1 n 2
n i∑
ln ( θ ) = d log f (X i ; θ ) /d θ 2
n =1
P
!θ E θ d 2 log f (X i ; θ ) /d θ 2 = I (θ )
donde la convergencia se deduce invocando la Ley de los grandes numeros.

I Segundo,
1 (3 ) 1 n
n i∑
0 ln ( θ ) b θ ML θ /2 d 3 log f (X i ; θ ) /d θ 3 b
θ ML θ /2
n =1
( )
1 n
n i∑
M ( X i ) bθ ML θ /2
=1
P
!θ E θ [M (X i )] 0=0
Luego, concluimos que

1 (2 ) 1 (3 ) P
ln ( θ ) ln ( θ ) b
θ ML θ /2 !θ I (θ ) + 0 = I (θ )
n n
I Finalmente, por el Teorema de Slutzky arribamos a que
p 1 1 1
n b
θ ML θ = p ln( ) (θ )
1 (2 ) 1 (3 ) n
n ln (θ ) n ln (θ ) bθ ML θ /2 | {z }
| {z } converge en distribución
converge en probabilidad a I (1θ ) a N (0,I (θ ))
!
L(F θ ) 1 1 1
! N (0, I (θ )) = N 0, I (θ ) =N 0,
I (θ ) I ( θ )2 I (θ )
Plan


informacion
Desigualdad de Cramer-Rao
I Supongamos que X1 , ..., Xn tiene una distribución conjunta dada por

f (x1 , ..., xn ; θ ) .
I Supongamos que bθ es un estimador insesgado de θ . Cuan pequen ea puede
ser su varianza?.
I La respuesta (parcial) a esta pregunta la da la desigualdad de
Cramer-Rao. Esta desigualdad establece una cota inferior para la varianza
de cualquier estimador insesgado de θ .
I Teorema 2. (Desigualdad de Cramer-Rao para un parámetro escalar).

Supongamos que se veri…can las condiciones del Lemma 1 con r = 1. Sea
b
θ = δ (X1 , ..., Xn ) un estimador insesgado de θ basado Ren las observaciones
R
de X1 , ..., Xn . Supongamos que ddθ δ (x ) f (x ; θ ) d x = δ (x ) ddθ f (x ; θ ) d x .
Sea In (θ ) la información de θ basada en las n observaciones. Entonces
1
varθ bθ
In ( θ )
I Demostración: Dado que bθ es un estimador insesgado de θ , debe
cumplirse que cualquiera sea el valor de θ
Eθ bθ = θ
I Por lo tanto,
Z Z
δ (x1 , ..., xn ) f (x1 , ..., xn ; θ ) dx1 ...dxn = θ
I Tomando derivadas con respecto a θ en ambos miembros obtenemos que

Z
d d
δ (x ) f (x ; θ ) d x = fθ g
dθ dθ
Z
d
δ (x )
f (x ; θ ) d x = 1
dθ
Z
( )
d
f (x ; θ )
δ (x ) d θ f (x ; θ ) d x = 1
f (x ; θ )
Z
δ (x ) s (x ; θ ) f (x ; θ ) d x = 1
n o
Eθ bθ s (X ; θ ) = 1
I Ahora, como s (X ; θ ) tiene media 0 bajo f (x ; θ ), tenemos que
n o
1 = Eθ bθ s (X ; θ ) = covθ bθ , s (X ; θ )
I Ahora utilizando el hecho de que la correlación es siempre un numero

menor o igual que 1, deducimos que
r q
1 = covθ b
θ , s (X ; θ ) varθ bθ varθ (s (X ; θ ))
I Por lo que …nalmente obtenemos

r
1
p varθ bθ
varθ (s (X ; θ ))
o equivalentemente, elevando al cuadrado ambos miembros
1
varθ bθ
varθ (s (X ; θ ))
I Finalmente, la demostración concluye recordando que
varθ (s (X ; θ )) = Eθ s (X ; θ )2 = In (θ )
Desigualdad de Cramer-Rao para un parámetro vectorial
I Para el caso en el que θ es un vector en Rr , se puede probar que
var bθ In ( θ ) 1
0
I Notemos que var bθ In ( θ ) 1

es una matriz.
I Si A es una matriz cuadrada cualquiera, la notación A 0 signi…ca que A
es una matriz semide…nida positiva, es decir que para cualquier vector
columna v , v T Av es un numero escalar mayor o igual que 0.
Desigualdad de Cramer-Rao para una función de un parámetro (función y
parámetro vectorial o escalar)
I Supongamos ahora que β (θ ) es una función (posiblemente vectorial) del

parámetro θ y que b β es un estimador insesgado de β (θ ) basado en las
observaciones de X1 , ..., Xn .
I Sea s (X ; θ ) la función score de θ y sea In (θ ) la información de θ basada
en n observaciones. Entonces, se puede probar que
∂β(θ ) 1 ∂β(θ )
varθ b
β
∂θ T n
I (θ ) ∂θ 0
I En particular si β (θ ) es una función escalar y θ es un escalar obtenemos

que
n o2
d β(θ )
varθ b
β
dθ
In ( θ )
Plan


informacion
E…ciencia asintótica
I De…nición: bβ se dice que es un estimador asintóticamente normal de un

parámetro β (θ ) si satisface
p n o L(F )
n b
θ
β β (θ ) ! N (0, W (θ )) para algun W (θ )
I Con muestras grandes claramente, entre todos los estimadores

asintóticamente normales, preferiremos a aquel estimador que tenga el
menor W (θ ).
I De…nición: Supongamos que dos estimadores e
βyb
β son tales que
p n o
n bβ β (θ ) ! N (0, V1 (θ )) (1)
y
p n o
n eβ β (θ ) ! N (0, V2 (θ )) (2)
Entonces diremos que b

β es mas e…ciente que e
β si
V2 (θ ) V1 (θ ) > 0
E…ciencia asintótica relativa
I Dados dos estimadores b βye β de un parámetro escalar β (θ ) , que

satisfacen (1) y (2) respectivamente, la cantidad
V2 (θ )
τ (θ ) =
V1 (θ )
se denomina la e…ciencia asintótica relativa de b

β con respecto a eβ (note
e
que en el numerador va la varianza de β ).
I Interpretamos a τ (θ ) como un indicador de cuanto mas grande o mas
pequeña debe ser la muestra que deberemos tener cuando usamos e β para
obtener la misma precisión que si hubiésemos usado b β. Por ejemplo, si
τ (θ ) = 2, entonces deberemos usar una muestra el doble de grande si
usamos e β que si usamos bβ para obtener la misma precisión en la
estimación.
I Esto se ve de la siguiente manera. Si n1 es el tamaño de la muestra con la
que calcularemos b β y n2 es el tamaño de la muestra con la que
calcularemos e β, entonces la varianza de b
β será aproximadamente
V1 (θ ) /n1 y la de e
β será aproximadamente V2 (θ ) /n2 . Si queremos tener la
misma precisión deberemos obtener tamaños muestrales de tal forma que
V 1 ( θ ) /n1 = V 2 ( θ ) /n2
o equivalentemente
n2 /n1 = V 2 ( θ ) /V 1 ( θ )
= τ (θ )
De modo que
n2 = τ ( θ ) n1
Cuanto más grande sea τ (θ ) mas e…ciente sera b
β con respecto a e
β.
Plan


informacion
E…ciencia del estimador de máxima verosimilitud
I De…nición: b β es un estimador asintóticamente e…ciente si es

asintóticamente normal y tan o más e…ciente que cualquier otro estimador
asintóticamente normal.
I Es posible probar que en una clase muy grande de modelos estadísticos y
para una clase muy grande de parámetros que abarca una gran cantidad
de problemas que aparecen en el modelado de cuestiones econométricas (y
en otras disciplinas), el estimador de máxima verosimilitud es
asintóticamente e…ciente.
I La e…ciencia asintótica es una de las razones fundamentales por las cuales
el estimador de máxima verosimilitud es uno de los procedimientos de
estimación preferidos.
I ¿Cual es la raiz de la razon por la cual el EMV es e…ciente??? El
argumento heuristico es el siguiente:
I Suponga que b β es asintóticamente normal. Entonces existe
W (nθ ) > 0 tal o
que cualquiera sea θ, que bajo f (x ; θ ) ,
p b
n β β (θ ) N (0, W (θ )) cuando n es grande.
Equivalentemente,
b
β N ( β (θ ) , W (θ ) /n )
cualquiera sea θ cuando n es grande.
I Luego bβ es un estimador aproximadamente insesgado de β (θ ) . Por
lo tanto, por la desigualdad de Cramer-Rao, uno esperaría que
∂β (θ ) 1 ∂β (θ )
W (θ ) /n T
In ( θ ) .
∂θ ∂θ
I Cuando las X1 , ..., Xn son iid , In (θ ) = nI (θ ) . Luego, cancelando el
factor 1/n en ambos miembros de la última desigualdad se arriba a
∂β (θ ) ∂β (θ )
W (θ ) I (θ ) 1
∂θ T ∂θ
I Como el estimador de máxima verosimilitud de β (θ ) es
asintóticamente normal (bajo condiciones de regularidad) y la
∂β(θ ) ∂β(θ )
varianza de su distribución límite es precisamente I (θ ) 1 ∂θ ,
∂θ T
entonces la última desigualdad implica que es asintóticamente
e…ciente.
E…ciencia del estimador de máxima verosimilitud: comentario
I Un punto interesante es que si bien es posible (y hasta habitual) que dado

un modelo F y un parámetro β (θ ), o bien
1. no exista ningún estimador insesgado de β (θ ) o,
2. existan estimadores insesgados de β (θ ) pero ninguno tenga varianza
igual a la Cota de Cramer Rao,
la normalidad asintótica y la e…ciencia del estimador de máxima
verosimilitud bajo una gran cantidad de modelos F , implica que bajo esos
modelos F con muestras grandes es posible obtener un estimador "casi
insesgado" de β (θ ) cuya varianza es "casi" igual a la cota de Cramer Rao.
Este estimador es precisamente el estimador de máxima verosimilitud.
Información
I La e…ciencia asintótica del EMV de β (θ ) puede interpretarse como

indicando que este estimador es el que, con muestras grandes, extrae toda
la información disponible en los datos sobre el parámetro de interes β (θ ) .
I A raíz de esto, es que a la inversa de la varianza de la distribución
asintótica del EMV de β (θ ) , es decir, a la matriz (o a el escalar, si β (θ )
es escalar)
∂β (θ ) ∂β (θ ) 1
I β (θ ) = T
I (θ ) 1
∂θ ∂θ
se la denomina información acerca de β (θ ) bajo el modelo F en θ .
I En particular, si β (θ ) = θ , la información Iθ (θ ) acerca de θ bajo el modelo
F en θ coincide precisamente con I (θ ) .
Pérdida de información por usar estimadores ine…cientes
I Cuando usamos un estimador asintóticamente normal de β (θ ) pero

ine…ciente con varianza de su distribución asintótica, digamos igual a
W (θ ) , es posible hacer el cálculo de cuanto hemos perdido en
información por no haber usado en vez el estimador de máxima
verosimilitud. La cantidad
1
I β (θ ) W (θ )
I β (θ )
nos indica la fracción de información disponible que fue perdida por usar
el estimador ine…ciente.
I Veamos un ejemplo sobre este punto.

I Ejemplo 2. Supongamos que X1 , ..., Xn son i.i.d. f (x ; θ ) donde
f (x ; θ ) = θ 1 exp ( x /θ ) para θ > 0. Supongamos que β (θ ) = θ 2 . El
estimador de máxima verosimilitud de θ es bθ = X y por lo tanto el
2
estimador de máxima verosimilitud de β (θ ) es b β = X . Calculemos ahora
la cota de Cramer-Rao.
∂ log f (x ; θ ) 1
= + x /θ 2
∂θ θ
2
∂ log f (x ; θ ) 1
= 2 2x /θ 3
∂θ 2 θ
I Luego,
∂2 log f (X ; θ ) 1 2Eθ (X )
I (θ ) = E = +
∂θ 2 θ2 θ3
1 2θ 1
= + 3 = 2
θ2 θ θ
I Por otro lado, para β (θ ) = θ 2 , tenemos que
∂β (θ )
= 2θ
∂θ
I Luego
1
∂β (θ ) 1 ∂β (θ ) 1
I (θ ) = (2 θ ) 2 (2 θ ) = 4 θ 4
∂θ ∂θ θ
1
I Por lo tanto, la información para estimar a β (θ ) = θ 2 es 4θ 4 .
I Supongamos ahora que para estimar β (θ ) = θ 2 utilizamos
n
1 2
e
β=
n ∑ Xi X
i =1
I Hemos visto en uno de los problemas de la práctica que
p n o L(F )
n e θ2 ! N 0, 20θ 4
θ
β
2
I De manera que por usar e
β en vez del estimador e…ciente b
β = X hemos
perdido
1 1
4θ 4 20θ 4 4
1 =
4θ 4 5
de la información disponible en la muestra para estimar a θ 2 .

Plan


informacion
I Intervalos de con…anza Wald y su relación con intervalos de
credibilidad Bayesianos para muestras grandes
Intervalos Wald basados en el EMV
I Una consecuencia practica muy importante del resultado
p n o L(F )
n β b
θ
θ ML β (θ ) ! N r (0, V (θ ))
donde
∂β (θ ) 1 ∂β (θ )
V (θ ) = I (θ )
∂θ T ∂θ
es que nos ofrece una forma inmediata para construir intervalos y regiones de
con…anza asintóticos puntuales de nivel 1 α.
I Recordemos que si sabemos como construir un estimador consistente V
b de
V (θ ) , entonces podemos construir un intervalo asintotico de nivel 1 α para un
β (θ ) escalar como p
β bθ ML Φ 1 (1 α/2 ) n 1 V b
I Intervalos construidos con esta fórmula se llaman intervalos de Wald.
I Tres estimadores de V (θ ) surgen naturalmente:
I V
b1 = V b
θ ML (llamado estimador basado en la información esperada)
T
I V
b2 = ∂β(Tθ ) n 1 θ ML s X i ; b
∑ni=1 s X i ; b θ ML
∂β(θ )
∂θ θ =b
θ ML ∂θ θ =b
θ ML
I V
b3 = ∂β(Tθ ) n 1
∑ni=1 ∂
log f (X i ; θ )
∂β(θ )
, (llamado
∂θ θ =b
θ ML ∂θ∂θ T θ =b
θ ML ∂θ θ =b
θ ML
estimador basado en la información observada)

I Cuando β (θ ) tiene derivada primera continua en θ,
Pθ
bj !
V V (θ )
I vale para j = 1 cuando I (θ ) es continua, vale para j = 2 cuando ∂ log f (X ; θ )
∂θ
∂
es continua en θ y vale para j = 3 cuando log f (X ; θ ) es continua en θ.
∂θ∂θ T
Luego, bajo esas condiciones, pueden usarse en reemplazo de V b para construir
intervalos de con…anza para θ.
Comportamiento de la distribución a posteriori para n grande y v.a.
intercambiables.
I En las notas sobre inferencia Bayesiana notamos el siguiente resultado

I Resultado: a medida que el tamaño de la muestra n crece, la distribución a
posteriori:
1. se concentra más y más alrededor de b

θ ML = arg max θ L n (θ ) .
2. más especí…camente, se aproxima más y más a una distribución normal con media
b
θ ML y varianza n 1 W , donde W = n 1 ddθ log L n (θ )jθ =bθ
ML
I Una consecuencia de este resultado es que si θ es un parámetro escalar, entonces

con muestras grandes, el intervalo
p
b
θ ML Φ 1
(1 α/2 ) n 1W
es un intervalo Bayesiano de credibilidad aproximadamente 1 α.
I Notar que si β (θ ) = θ , W coincide con el estimador V

b3 de V (θ ) de la …lmina
anterior.
I De modo que con muestras grandes, un frecuentista que use un intervalo de

Wald con varianza estimada usando la información observada hará inferencias
muy parecidas a las de un Bayesiano.
Ejemplo
I Ejemplo 4 (Regresión lineal homoscedástica, continuación): Supongamos que
T
X i = Y i , Z iT , i = 1, ..., n son vectores aleatorios iid cada uno satisface
Y i = αT Z i + εi
donde εi jZ i N 0, σ2 .
I Es posible probar que
p 1
n (b
αML α) ! N 0, E Z 1 Z 1T σ2
I Supongamos que la distribución fZ (z ) de Z i fuera conocida. En ese caso, la

1
matriz M = E Z 1 Z 1T sería conocida y el estimador de la varianza basado en
b1 = σ
la información observada es V b2ML M . El intervalo de Wald de nivel 1 τ de
la k esima componente del vector α que resulta de usar este estimador de la
varianza es r
b
αk ,ML Φ 1
(1 τ/2 ) n 1 b1
V
kk
b1
donde V b1 .
es la componente (k , k ) de la matriz V
kk
I Note que este intervalo no es el habitual en regresion lineal aún si se conoce la
distribución de Z i (como es el caso en experimentos controlados).
I El intervalo que se reporta habitualmente es el que usa el estimador
1
b3 = σ
V b2ML n 1
∑ni=1 Z i Z iT basado en la información observada.
Plan


informacion
Ejemplo en el que el EMV no es asintóticamente normal
I Ejemplo 5 (continuación): Supongamos que X 1 , ..., X n son iidU (0, θ ) donde

θ > 0 es desconocido. Antes vimos que el estimador de máxima verosimilitud de
θ es
b
θ = max fX 1 , ..., X n g
I En las notas 3 vimos que la velocidad de convergencia de b

θ es n 1 y su
distribución asintótica G θ es una exponencial con parámetro θ . Es decir,
L (F θ )
n θ b
θ ! g (x ; θ )
donde n
1 xo
g (x ; θ ) = exp I (x > 0 )
θ θ
I Recordemos que cuando estudiamos la distribución asintótica del estimador de

máxima verosimilitud una de las condiciones que requerimos en el Teorema que
estableció la convergencia hacia una distribución normal a velocidad n 1 /2 fue
que todas las distribuciones del modelo tuvieran el mismo soporte.
I Este ejemplo demuestra que cuando esta condición no es cierta el estimador de

máxima verosimilitud no es necesariamente asintóticamente normal.

5 2019 Maxima Verosimiltud

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

5 2019 Maxima Verosimiltud

Cargado por

Copyright:

Formatos disponibles

Maxima verosimilitud,

Inferencia Estadistica, 2019

I Casella & Berger, Sec 7.2.2

I De…nición del estimador de máxima verosimilitud y ejemplos.

1. De…niremos la función score y probaremos que tiene media 0

I De…nición del estimador de máxima verosimilitud y ejemplos.

1. De…niremos la función score y probaremos que tiene media 0

I En estas notas estudiaremos un método general de la estadística

I Para motivar el método consideremos el siguiente problema sencillo:

siendo Θ = f1/3, 2/3g .

I En este caso elegiriamos estimar a θ con 3/4 pues la probabilidad

y estimamos a θ con arg maxθ 2Θ θ 3 (1 θ) .

I Si por ejemplo Θ = [0, 1 ] , entonces estimamos a θ con

I Siguiendo el mismo razonamiento, en un modelo paramétrico arbirtrario para la

se lo denomina estimador de máxima verosimilitud de θ y lo abreviamos

I Note que en la de…nición de bθ ML , la función f está evaluada en el vector

I Notemos también que si las X1 , ..., Xn son iid entonces

donde X = (X1 , .., Xn ) ,x = (x1 , .., xn ) , h = (h, ..., h ) , y f (x ) es la

I Luego, bajo f ( ; θ ) la probabilidad de observar datos "casi" como los

I Luego, siguiendo el razonamiento analogo al caso de datos discretos,

y al estimador de máxima verosimilitud como

I De…nimos también la log-verosimilitud

donde log es el logaritmo natural (en base e ).

I Notemos que como el log (u ) es una función estrictamente creciente,

I De…nición: para una función β : Θ ! Rk , el estimador de máxima

arg max ln (µ, σ) =

I Luego, como el argumento máximo de ln (µ, σ) no depende de σ y es igual

I Para maximizar la ultima función calculamos la condición de primer orden

I De donde deducimos que si la función tiene un máximo, éste debe

es el estimador de máxima verosimilitud de σ.

I Si σ fuera conocida, es decir si el único parámetro desconocido fuera

I En cambio, si µ fuera conocida, es decir si el único parámetro

Supongamos que α 2 R p , σ 2 R + y fZ ( ) son desconocidas.

I En este ejemplo, θ = (α, σ, fZ ) .

I Note que el modelo es formalmente semi-parametrico porque fZ ( ) es una

I Supongamos que estamos interesados en calcular el EMV de α.

I Luego, observamos que el valor de α donde se maximiza ln (α, σ, fZ ) no

I lo que demuestra que el estimador de máxima verosimilitud de α bajo el

(1/θ )n si Xi θ para todo i

I Notemos que la verosimilitud Ln (θ ) es una función discontinua y por lo

I Sin embargo, es facil ver que Ln (θ ) se maximiza en

fY jZ (y jz; α) = Bernoulli expit αT z

donde expit(u ) = exp (u ) / [1 + exp (u )] .

I Supongamos que α 2 R p y fZ ( ) son desconocidas. En este ejemplo,

I Note que el modelo es formalmente semi-paramétrico porque fZ ( ) es una

I Supongamos que estamos interesados en calcular el EMV de α.

= eln (α) + log [c (Z )]

I Luego, observamos que el valor de α donde se maximiza ln (α, fZ ) no depende de

0 = ∂eln (α) /∂α

I Sin embargo, esta ecuación en α no tiene una solución explícita.

I De modo que este problema provee otro ejemplo en el que no es posible

I Cuando no podemos encontrar analíticamente arg max ln (θ ) , debemos recurrir a

siendo ln00 (θ ) = ∂2 ln (θ ) /∂θ∂θ T la matriz de segunda derivadas de ln (θ ) . La

El algoritmo se detiene cuando se alcanza alguna condición pre-establecida de

I De…nición del estimador de máxima verosimilitud y ejemplos.

1. De…niremos la función score y probaremos que tiene media 0

I Ahora supongamos que F y G son dos distribuciones cualesquiera con

Ef [log (f (X ))] Ef [log (g (X ))]

I El resultado anterior implica que la función

se maximiza en aquel valor θ tal que f (x ; θ ) = f (x ) .

I Además, si dentro de la colección F no existe ningún otro θ tal que

I De…nición: para el parámetro θ que indexa la familia F

I De ahora en mas asumiremos que θ está indenti…cado.