Está en la página 1de 84

Maxima verosimilitud,

Inferencia Estadistica, 2019

Andrea Rotnitzky .

17 de julio, 2019
Lecturas recomendadas

I Casella & Berger, Sec 7.2.2


I Hogg, Mackean & Craig, Sec 6.1-6.2 y 6.4
I Cameron & Trivedi, Sec 5.6
I Knight, sec 4.8, 5.4-5.6, 5.8, 6 y 7.2
I Young & Smith, sec 8.1-8.4
Plan

I De…nición del estimador de máxima verosimilitud y ejemplos.


I Método de Newton-Raphson para resolver ecuaciones de primer orden
I Consistencia del estimador de máxima verosimilitud
I Normalidad asintótica del EMV bajo condiciones de regularidad

1. De…niremos la función score y probaremos que tiene media 0


2. De…niremos la matriz de información y probaremos la igualdad de
información
3. Probaremos que bajo ciertas condiciones la distribución asintótica del
estimador de máxima verosimilitud es normal
I E…ciencia asintótica del EMV
1. Probaremos la desigualdad de Cramer-Rao para la varianza de
estimadores insesgados
2. De…niremos e…ciencia relativa
3. Usaremos la desigualdad de Cramer-Rao para dar un argumento
intuitivo de por que el estimador de máxima verosimilitud es
asintóticamente e…ciente
I Intervalos de con…anza Wald y su relación con intervalos de credibilidad
Bayesianos para muestras grandes
I Ejemplo en el que el EMV no es asintóticamente normal
Plan

I De…nición del estimador de máxima verosimilitud y ejemplos.


I Método de Newton-Raphson para resolver ecuaciones de primer orden
I Consistencia del estimador de máxima verosimilitud
I Normalidad asintótica del EMV bajo condiciones de regularidad

1. De…niremos la función score y probaremos que tiene media 0


2. De…niremos la matriz de información y probaremos la igualdad de
informacion
3. Probaremos que bajo ciertas condiciones la distribución asintótica del
estimador de máxima verosimilitud es normal
I E…ciencia asintótica del EMV
1. Probaremos la desigualdad de Cramer-Rao para la varianza de
estimadores insesgados
2. De…niremos e…ciencia relativa
3. Usaremos la desigualdad de Cramer-Rao para dar un argumento
intuitivo de por qué el estimador de máxima verosimilitud es
asintóticamente e…ciente
I Intervalos de con…anza Wald y su relación con intervalos de credibilidad
Bayesianos para muestras grandes
I Ejemplo en el que el EMV no es asintóticamente normal
Método de máxima verosimilitud

I En estas notas estudiaremos un método general de la estadística


frecuentista para estimación en modelos paramétricos llamado el método
de máxima verosimilitud.
I existen distintas versiones del método de máxima verosimilitud para
estimación en modelos semi y no paramétricos pero las mismas van
mas allá del alcance de este curso.

I Para motivar el método consideremos el siguiente problema sencillo:


Supongamos que
I deseamos estimar la probabilidad de éxito θ en una distribución
Bernoulli basándonos en una muestra aleatoria X1 , ..., X4 de
tamanho n = 4.
I Sabemos que los únicos posibles valores de θ son 1/3 o 2/3. Es
decir, nuestro modelo es
n o
F = f (x ; θ ) = θ x (1 θ )1 x : θ 2 Θ

siendo Θ = f1/3, 2/3g .


I Supongamos que los valores observados de X1 , ..., X4 en la muestra fueron
(x1 , ..., x4 ) = (1, 0, 1, 1). Para elegir entre los dos valores posibles valores
de θ , la siguiente estrategia parece razonable:
I Si θ fuera igual a 1/3, la probabilidad de observar justo lo que
observamos sería

Pθ =1/3 (X1 = 1, X2 = 0, X3 = 1, X4 = 1) =
= Pθ =1/3 (X1 = 1) Pθ =1/3 (X2 = 0) Pθ =1/3 (X3 = 1) Pθ =1/3 (X4 = 1)
= 1/3 2/3 1/3 1/3
= 2/81 = 0.0247
I Si θ fuera igual a 2/3, la probabilidad de observar justo lo que
observamos sería

Pθ =2/3 (X1 = 1, X2 = 0, X3 = 1, X4 = 1) =
= Pθ =2/3 (X1 = 1) Pθ =2/3 (X2 = 0) Pθ =2/3 (X3 = 1) Pθ =2/3 (X4 = 1)
= 2/3 1/3 2/3 2/3
= 8/81 = 0.0988
I Los datos (x1 , ..., x4 ) = (1, 0, 1, 1) observados son entonces 4 veces
probables (pues (8/81) / (2/81) = 4) cuando θ = 2/3 que cuando
θ = 1/3.
I Entonces, pareciera razonable estimar a θ con 2/3.
I Siguiendo esta linea de razonamiento, si nuestro modelo ahora planteara
la posibilidad de que θ 2 f1/3, 2/3, 3/4g , entonces
I calculariamos también la probabilidad de observar los datos
observados si θ fuera igual a 3/4:

Pθ =3/4 (X1 = 1, X2 = 0, X3 = 1, X4 = 1) =
= Pθ =3/4 (X1 = 1) Pθ =3/4 (X2 = 0) Pθ =3/4 (X3 = 1) Pθ =3/4 (X4 = 1)
= 3/4 1/4 3/4 3/4
= 27/256 = 0.10547

I En este caso elegiriamos estimar a θ con 3/4 pues la probabilidad


de observar los datos que observamos es mas grande bajo θ = 3/4
que bajo cualquiera de los otros dos valores hipotetizados para θ .
I Mas generalmente, dado cualquier Θ, razonando como antes, planteamos
para cada valor posible de θ , la función

Pθ (X1 = 1, X2 = 0, X3 = 1, X4 = 1)
= P θ (X 1 = 1 ) P θ (X 2 = 0 ) P θ (X 3 = 1 ) P θ (X 4 = 1 )
= θ (1 θ ) θ θ
= θ 3 (1 θ )

y estimamos a θ con arg maxθ 2Θ θ 3 (1 θ) .


I Si por ejemplo, Θ = [0, 1] entonces estimamos a θ con 3/4 pues en el
intervalo [0, 1] la función θ 3 (1 θ ) se maximimza en θ = 3/4

0.15
t^3 * (1-t)
0.10

0.05

0.00
0.0 0.5 1.0
t
I Mas generalmente, para observaciones x = (x 1 , ..., x n ) cualesquiera de una
muestra de tamanho n, estimaremos θ con aquel valor en Θ que maximize la
función
P θ (X 1 = x1 , X 2 = x2 , X 3 = x3 , ..., X n = xn )
= f (x ; θ )
n
= ∏ f (x i ; θ )
i =1
n n o
= ∏ θ xi (1 θ )1 xi
i =1
n n
∑ xi ∑ (1 x i )
= θ i =1 (1 θ ) i =1
= θ nx (1 θ )n nx

I Si por ejemplo Θ = [0, 1 ] , entonces estimamos a θ con

arg max θ nx (1 θ )n nx
=x
θ 2[0,1 ]

I Siguiendo el mismo razonamiento, en un modelo paramétrico arbirtrario para la


probabilidad conjunta f de X = (X 1 , ..., X n ) donde cada X i es discreta,
F = f f (x ; θ ) : θ 2 Θ g
cuando observásemos X = x estimariamos a θ con
arg max f (x ; θ ) .
θ 2Θ
I A
b
θ ML = arg max f (X ; θ )
θ 2Θ

se lo denomina estimador de máxima verosimilitud de θ y lo abreviamos


EMV de θ .

I Note que en la de…nición de bθ ML , la función f está evaluada en el vector


aleatorio X y no en el valor observado x , porque bθ ML es un estimador de
θ , y no el valor estimado de θ .

I La función
θ ! L n ( θ ) = f (X ; θ )
es la función de verosimilitud, la misma que de…nimos cuando estudiamos
inferencia Bayesiana. Solo que, cuando la pensamos como parte del
procedimiento que seguimos para calcular el EMV de θ , la función Ln (θ )
es aleatoria porque depende del vector aleatorio X .

I Notemos también que si las X1 , ..., Xn son iid entonces


n
L n ( θ ) = ∏ f (X i ; θ )
i =1
I Veamos ahora como extender el estimador de máxima verosimilitud
cuando las Xi son variables aleatorias continuas.
I Sabemos que para h pequen eo,

1
f (x ) fF (X x + h ) F (X x h )g
(2h )n
1
= P (xi h < Xi xi + h; i = 1, .., n )
(2h )n

donde X = (X1 , .., Xn ) ,x = (x1 , .., xn ) , h = (h, ..., h ) , y f (x ) es la


densidad conjunta de X .

I Luego, bajo f ( ; θ ) la probabilidad de observar datos "casi" como los


datos observados x (es decir la probabilidad de observar datos en un cubo
de arista h con centro en x ) es aproximadamente f (x ; θ ) (2h )n .

I Luego, siguiendo el razonamiento analogo al caso de datos discretos,


habiendo observado x estimamos a θ con arg maxθ 2Θ f (x ; θ ) (2h )n o,
equivalentemente, con arg maxθ 2Θ f (x ; θ ) .
I Nuevamente, entonces de…nimos la función de verosimilitud

L n ( θ ) = f (X ; θ )

y al estimador de máxima verosimilitud como


b
θ ML = arg max Ln (θ )
θ 2Θ

I De…nimos también la log-verosimilitud

ln (θ ) = log Ln (θ )

donde log es el logaritmo natural (en base e ).

I Notemos que como el log (u ) es una función estrictamente creciente,


entonces
b
θ ML = arg max Ln (θ ) = arg max ln (θ )
θ 2Θ θ 2Θ

I De…nición: para una función β : Θ ! Rk , el estimador de máxima


verosimilitud de β (θ ) se de…ne como

b
βML = β b
θ ML
Ejemplos
iid
I Ejemplo 1: Supongamos que X1 , ..., Xn N (µ, σ2 ) , con µ y σ
desconocidos y arbitrarios. Entonces θ = (µ, σ) , Θ = R R+ .
I Calcularemos el estimador de máxima verosimilitud de θ = (µ, σ ) .
I
" #
n
ln ( µ , σ ) = log ∏ f (X i ; µ, σ )
i =1
n
= ∑ log f (X i ; µ, σ )
i =1
n
1 1
= ∑ log 2 πσ
p
exp
2 σ2
(X i µ )2
i =1
n n
1 1
= ∑ log p2πσ + ∑ log exp 2σ2 (Xi µ)2
i =1 i =1
p n
1
= n log 2π n log (σ) ∑ 2 (Xi µ)2
2
i =1 σ
I Para cada σ …jo, tenemos que

arg max ln (µ, σ) =


µ 2R
n
= arg min ∑ (Xi µ )2
µ 2R i =1
n 2
= arg min ∑ Xi X +X µ
µ 2R i =1
8 9
>
> >
>
>
> >
>
< n 2 n 2=
= arg min
µ 2R >
∑ Xi X +2 X µ ∑ Xi X +n X µ
>
>
> i =1 i =1 >
>
>
:| {z } | {z } >
;
no depende de θ =0
2
= arg min X µ
µ 2R

= X

I Luego, como el argumento máximo de ln (µ, σ) no depende de σ y es igual


a X , concluimos que
bML = X
µ
I Además,

bML
σ = bML , σ )
arg max ln (µ
σ 2R +
" #
p n
1 2
= arg max
σ 2R +
n log 2π n log (σ) ∑ 2 σ2
Xi X
i =1
" #
n
1 2
= arg max
σ 2R +
n log (σ) ∑ 2 σ2
Xi X
i =1

I Para maximizar la ultima función calculamos la condición de primer orden


" #
n
d 1 2
0 =

n log (σ) ∑ 2 σ2
Xi X
i =1
n
n 1 2
= +∑ Xi X
σ i =1 σ3

I De donde deducimos que si la función tiene un máximo, éste debe


bML que veri…ca
realizarse en σ
n
1 2
b2ML =
σ
n ∑ Xi X
i =1
I Es fácil veri…car (chequeando que la segunda derivada de la función en
σ=σ bML es negativa) que efectivamente en ese valor la función atiene su
máximo. Luego, concluimos que
s
n
1 2
bML =
σ
n ∑ Xi X
i =1

es el estimador de máxima verosimilitud de σ.


Comentarios

I σ
b2ML no es un estimador insesgado de σ2 por lo que este ejemplo
demuestra que método de máxima verosimilitud no resulta necesariamente
en estimadores insesgados.
I El ejemplo también ilustra otro punto interesante. Supongamos que
realmente estuviésemos interesados en estimar uno de los dos parámetros
(µ o σ). Al otro parámetro -el que no nos interesa estimar - se lo llama
parámetro de ruido o molesto. ¿Qué hubiera ocurrido con nuestra
estimación de máxima verosimilitud si hubiesemos conocido el valor del
parámetro molesto, se hubiese visto alterada? El ejemplo nos ilustra que
no hay una respuesta de…nitiva para esta pregunta, el estimador puede o
no variar, dependiendo del parámetro que se quiera estimar.

I Si σ fuera conocida, es decir si el único parámetro desconocido fuera


µ, entonces el estimador de máxima verosimilitud de µ sería
nuevamente igual a X .

I En cambio, si µ fuera conocida, es decir si el único parámetro


desconocido fuera σ,
q entonces el estimador de máxima verosimilitud
de σ sería igual a 1
n ∑ni=1 (Xi µ )2 .
I Ejemplo 2. En este ejemplo veremos que si Θ es cerrado, o semi-cerrado, puede
ocurrir que el estimador de máxima verosimilitud se encuentre en el borde y no
se lo obtenga mediante la resolución de condiciones de primer orden.
I Supongamos que X 1 , ..., X n iid N (µ, 1 ) , con µ desconocida pero en el intervalo
Θ = [3, +∞). Entonces
bML
µ = arg max ln ( µ )
µ2[3,+∞)
n
1 1
= arg max ∑ log
µ2[3,+∞) i =1
p

exp
2
(X i µ )2
" #
n n
1 1
= arg max
µ2[3,+∞)
∑ log p

+ ∑ log exp
2 σ2
(X i µ) 2

i =1 i =1
n
= arg min
µ2[3,+∞)
∑ (X i µ )2
i =1
8 9
>
> >
>
>
> >
>
< n n =
∑ ∑
2 2
= arg min Xi X +2 X µ Xi X +n X µ
µ2[3,+∞) > > >
>
>
>
i =1 i =1 >
>
:| {z } | {z } ;
no depende de θ =0
2
= arg min X µ
µ2[3,+∞) | {z }
parabola con mínimo en X

X si X 3
=
3 si X < 3
I Ejemplo 3: En este ejemplo veremos que si Θ es abierto puede ocurrir
que el estimador de máxima verosimilitud no exista.
iid
I Supongamos que X1 , ..., Xn N (µ, 1) , con µ desconocida pero en el
intervalo Θ = (3, +∞). Entonces, razonando como en el ejemplo 2,

bML
µ = arg max ln (µ)
µ2(3,+∞)
2
= arg min X µ
µ2(3,+∞) | {z }
parábola con mínimo en X

2
Si X < 3, entonces la función g (µ) = X µ no tiene un mínimo en el
intervalo abierto (3, +∞), luego µ
bML no existe.
I Ejemplo 4 (Regresión lineal homoscedástica): Supongamos que
T
Xi = Yi , ZiT , i = 1, ..., n son vectores aleatorios iid cada uno satisface

Y i = αT Z i + εi
T
donde εi jZi N (0, σ2 ) . Equivalentemente, Xi = Yi , ZiT tiene
distribución f (y , z; θ ) = fY jZ (y jz; α, σ) fZ (z ) siendo

fY jZ (y jz; α, σ) = N αT z, σ2

Supongamos que α 2 R p , σ 2 R + y fZ ( ) son desconocidas.

I En este ejemplo, θ = (α, σ, fZ ) .

I Note que el modelo es formalmente semi-parametrico porque fZ ( ) es una


función, no un vector en algún espacio euclideano.

I Supongamos que estamos interesados en calcular el EMV de α.


I Ahora,
2 3
6 n 7
6 n 7
ln ( α , σ , f Z ) = 6 ∏ Y jZ i i
log 6 f ( Y j Z ; α , σ ) ∏ Z i 77
f ( Z )
4i =1 i =1 5
| {z }
=c (Z )
n
= ∑ log fY jZ (Yi jZi ; α, σ) + log [c (Z )]
i =1
n
1 1
∑ log
2
= p exp Yi αT Z i + log [c (Z )]
i =1 2πσ 2 σ2
n
1
∑ 2 σ2
2
= Yi αT Z i ] + k (Z )
i =1

p
I siendo k (Z ) = n log 2π n log (σ) + log [c (Z )] .
n
1
∑ 2 σ2
2
ln ( α , σ , f Z ) = Yi αT Z i + k (Z )
i =1

I Luego, observamos que el valor de α donde se maximiza ln (α, σ, fZ ) no


depende de σ ni de fZ .

I Más aún,

b
αML = arg max ln (α, σ, fZ )
α
n
arg min ∑ Yi
2
= αT Z i
α
i =1

I lo que demuestra que el estimador de máxima verosimilitud de α bajo el


modelo de regresión lineal con errores normales homoscedástico es el
estimador de cuadrados mínimos.
I Ejemplo 5: En este ejemplo veremos una situación en la que la
verosimilitud no es una función continua. La maximización no puede
hacerse por lo tanto resolviendo una condición de primer orden.
iid
I Supongamos que X1 , ..., Xn U (0, θ ) con θ 2 Θ = (0, +∞).
I
1/θ si Xi θ
f (X i ; θ ) =
0 de otro modo
I Luego,

(1/θ )n si Xi θ para todo i


Ln (θ ) =
0 de otro modo
(1/θ )n si maxi 2f1,...,n g (Xi ) θ para todo i
=
0 de otro modo

I Notemos que la verosimilitud Ln (θ ) es una función discontinua y por lo


tanto no podemos emplear condiciones de primer orden para encontrar el
punto donde se maximiza.

I Sin embargo, es facil ver que Ln (θ ) se maximiza en

b
θ ML = arg max Ln (θ ) = Xmax = max (Xi )
θ 2(0,+∞) i 2f1,...,n g
I Ejemplo 6 (datos truncados): En este ejemplo veremos que posible que el
estimador de máxima verosimilitud exista pero no podamos calcular una fórmula
explícita para el.
I Supongamos que Y 1 , ..., Y n iid logNormal(µ, σ ) , es decir T i = log Y i
iid
Normal(µ, σ ) . Supongamos que para cada i observamos, X i = min (T i , c ) para
una c dada. ( por ejemplo, una persona informa su ingreso Y siempre y cuando
sea menor que exp (c ) , de lo contrario, sólo nos informa que su ingreso es mayor
que exp (c )). En ese caso:
I Para un θ dado, la contribución a la verosimilitud de la i esima unidad de la
muestra es
2 3 I (X i <c )
6 1 1 7 (X i µ) I (X i =c )
6 7
6 p exp (X i µ )2 7 1 Φ
4 2 πσ2 2σ 5 σ
| {z } | {z }
densidad 1-fc de dist acumulativa

I Luego, la log-verosimilitud es

1 1 (X i µ)
ln ( θ ) = ∑ log p
2 πσ2
exp

(X i µ )2 + ∑ log 1 Φ
σ
i :X i <c i :X i =c

I La ecuación de primer orden ∂ln (θ ) /∂θ = 0 no tiene una solución que pueda
expresarse con una fórmula explícita.
I Ejemplo 7 (Regresión logística): Supongamos que
T
Xi = Yi , ZiT , i = 1, ..., n son vectores aleatorios iid, donde Yi es
binaria. Supongamos que

P (Y i = 1 jZ i )
log = αT Z i
P (Y i = 0 jZ i )
T
Equivalentemente, Xi = Yi , ZiT tiene distribución
f (y , z; θ ) = fY jZ (y jz; α) fZ (z ) siendo

fY jZ (y jz; α) = Bernoulli expit αT z

donde expit(u ) = exp (u ) / [1 + exp (u )] .

I Supongamos que α 2 R p y fZ ( ) son desconocidas. En este ejemplo,

θ = ( α , fZ ) .

I Note que el modelo es formalmente semi-paramétrico porque fZ ( ) es una


función, no un vector en algún espacio euclideano.

I Supongamos que estamos interesados en calcular el EMV de α.


2 3
6 7
6 n n 7
6 7
ln ( α, f Z ) = log 6 ∏ fY jZ (Y i jZ i ; α) ∏ fZ (Z i )7
6i =1 =
7
4 | {z }5
i 1

=c (Z )
n
= ∑ log fY jZ (Yi jZi ; α) + log [c (Z )]
i =1
8" #Y i " #1 Y i 9
n < exp αT Z i exp αT Z i =
= ∑ log : 1 + exp (αT Zi ) 1 T
1 + exp (α Z i ) ;
+ log [c (Z )]
i =1
" ! #
n exp αT Z i 1
= ∑ Yi log 1 + exp (αT Zi ) + (1 Yi ) log 1 + exp (αT Zi ) + log [c (Z )]
i =1

= eln (α) + log [c (Z )]

I Luego, observamos que el valor de α donde se maximiza ln (α, fZ ) no depende de


fZ .
I Después de algunos calculos que aca obviaremos, se puede llegar a que

0 = ∂eln (α) /∂α


" ! !#
∂ n exp αT Zi exp αT Zi
∂α i∑
= Yi log + (1 Yi ) log 1
=1 1 + exp (αT Zi ) 1 + exp (αT Zi )
" !#
n exp αT Zi
= ∑ Zi Yi
1 + exp (αT Zi )
i =1

I Sin embargo, esta ecuación en α no tiene una solución explícita.

I De modo que este problema provee otro ejemplo en el que no es posible


encontrar una fórmula explícita para el EMV.
Plan
I De…nición del estimador de máxima verosimilitud y ejemplos.
I Método de Newton-Raphson para resolver ecuaciones de primer orden
I Consistencia del estimador de máxima verosimilitud
I Normalidad asintótica del EMV bajo condiciones de regularidad
1. De…niremos la función score y probaremos que tiene media 0
2. De…niremos la matriz de información y probaremos la igualdad de
informacion
3. Probaremos que bajo ciertas condiciones la distribución asintótica del
estimador de máxima verosimilitud es normal
I E…ciencia asintótica del EMV
1. Probaremos la desigualdad de Cramer-Rao para la varianza de
estimadores insesgados
2. De…niremos e…ciencia relativa
3. Usaremos la desigualdad de Cramer-Rao para dar un argumento
intuitivo de por que el estimador de máxima verosimilitud es
asintóticamente e…ciente
I Intervalos de con…anza Wald y su relación con intervalos de credibilidad
Bayesianos para muestras grandes
I Intervalos de con…anza Wald y su relación con intervalos de credibilidad
Bayesianos para muestras grandes
I Ejemplo en el que el EMV no es asintóticamente normal
Método de Newton-Raphson

I Cuando no podemos encontrar analíticamente arg max ln (θ ) , debemos recurrir a


métodos numéricos iterativos que, en realidad, no dan la solución exacta sino
que la aproximan tanto como se desee.
I Un tal método numérico es el llamado método de Newton-Raphson. El método
en realidad encuentra una solución de la ecuación de primer orden ln0 (θ ) = 0,
siendo ln0 (θ ) = ∂ln (θ ) /∂θ ,
I Partiendo de un valor inicial cualquiera, digamos θ 0 , en el paso el paso k + 1, se
calcula el valor de θ que resuelve la ecuación

T
0 = ln0 θ k + ln00 θ k θ θk

siendo ln00 (θ ) = ∂2 ln (θ ) /∂θ∂θ T la matriz de segunda derivadas de ln (θ ) . La


fórmula en la parte derecha es la fórmula del plano (o recta si θ es escalar)
tangente al grá…co de la función ln (θ ) en el punto θ k . El valor de θ que resuelve
la ecuación es n o 1
θ k +1 = θ k ln00 θ k ln0 θ k

El algoritmo se detiene cuando se alcanza alguna condición pre-establecida de


convergencia, por ejemplo θ k +1 θ k < ε para un ε dado.
Plan

I De…nición del estimador de máxima verosimilitud y ejemplos.


I Método de Newton-Raphson para resolver ecuaciones de primer orden
I Consistencia del estimador de máxima verosimilitud
I Normalidad asintótica del EMV bajo condiciones de regularidad

1. De…niremos la función score y probaremos que tiene media 0


2. De…niremos la matriz de información y probaremos la igualdad de
informacion
3. Probaremos que bajo ciertas condiciones la distribución asintótica del
estimador de máxima verosimilitud es normal
I E…ciencia asintótica del EMV
1. Probaremos la desigualdad de Cramer-Rao para la varianza de
estimadores insesgados
2. De…niremos e…ciencia relativa
3. Usaremos la desigualdad de Cramer-Rao para dar un argumento
intuitivo de por que el estimador de máxima verosimilitud es
asintóticamente e…ciente
I Intervalos de con…anza Wald y su relación con intervalos de credibilidad
Bayesianos para muestras grandes
I Ejemplo en el que el EMV no es asintóticamente normal
Consistencia del EMV
I Ahora argumentaremos que, cuando se cumplen ciertas condiciones generales, el
estimador de máxima verosimilitud basado en n v.a. iid es consistente. Si bien la
demostración precisa de la consistencia del EMV está más allá del alcance del
curso, el núcleo central del argumento que lleva a deducir la consistencia, es
intuitivo y se basa en el siguiente resultado de la teoría de probabilidad.

I Desigualdad de Jensen: sea Y una variable aleatoria tal que E (Y ) existe y sea
ϕ una función convexa. Entonces
ϕ [E (Y )] E [ ϕ (Y )]
La igualdad vale solo si Y es constante o ϕ es una función lineal.

I Ahora supongamos que F y G son dos distribuciones cualesquiera con


densidades f y g respectivamente. Supongamos que X F . De…namos
g (X )
Y = y ϕ (y ) = log (y )
f (X )
I Entonces por la desigualdad de Jensen tenemos que

g (X ) g (X )
log E f = log [E f (Y )] E f [log (Y )] = E f log
f (X ) f (X )
I o equivalentemente

g (X ) g (X )
log E f E f log
f (X ) f (X )
I Pero
Z Z
g (X ) g (x )
log Ef = log f (x ) dx = log g (x ) dx = log (1) = 0
f (X ) f (x )

I Luego,

g (X )
Ef log = Ef [log (g (X ))] Ef [log (f (X ))] 0
f (X )

o equivalentemente

Ef [log (f (X ))] Ef [log (g (X ))]


iid
I Consideremos un modelo que asume X1 , ..., Xn f (x ) 2
F = f f (x ; θ ) : θ 2 Θ g .

I El resultado anterior implica que la función

QF (θ ) = Ef [log (f (X ; θ ))]
Z
= log (f (x ; θ )) f (x ) dx

se maximiza en aquel valor θ tal que f (x ; θ ) = f (x ) .

I Además, si dentro de la colección F no existe ningún otro θ tal que


f (x ; θ ) = f (x ) , entonces θ es el único máximo de la función QF (θ ) .

I De…nición: para el parámetro θ que indexa la familia F


= f f (x ; θ ) : θ 2 Θg , el valor θ está indenti…cado si no existe otro θ
tal que f (x ; θ ) = f (x ; θ ) .

I De ahora en mas asumiremos que θ está indenti…cado.


Consistencia del EMV

I En vista del desarrollo de la …lmina anterior, si el oráculo nos soplara al oido la


función Q F (θ ) sería muy sencillo encontrar el valor de θ . Simplemente
deberíamos encontrar el valor que maximiza la función Q F (θ ) .

I Por supuesto, esta estrategia no es factible porque la función Q F (θ ) es


desconocida, justamente porque depende de la distribución F que generó los
datos.

I En el método de máxima verosimilitud uno esencialmente primero estima la


función Q F (θ ) reemplazando a la esperanza E f por la media muestral,
obteniendo así el estimador de la función Q F (θ ) ,
n
b (θ ) = Q b (θ ) = 1 ∑ log f (X i ; θ )
Q F n i =1
I Seguidamente, uno calcula
b
θ ML = arg max Q Fb (θ )
θ 2Θ

I Note que Q
b = Q b , se calcula como si la función de distribución "verdadera"
F
tuviera distribución acumulada
1 n
Fb (x ) = ∑ I( ∞,x ] (X i )
n i =1
Consistencia del EMV

I Por la Ley de los Grandes Numeros, para cada θ …jo:

P
Q Fb (θ ) ! Q F (θ )

I Pareciera razonable entonces pensar que debiera también ocurrir que

b P
θ ML = arg max Q Fb (θ ) ! θ = arg max Q F (θ )
θ 2Θ θ 2Θ

I Sin embargo, la convergencia de Q b (θ ) en cada θ no alcanza para garantizar la


F
convergencia de arg max θ 2Θ Q Fb (θ ) a arg max θ 2Θ Q F (θ ) , por dos motivos:

1. para cualquier n dado es posible que existan valores de θ para los cuales la
función Q Fb (θ ) no esté cerca de Q F (θ ) .

2. es posible que si Θ es abierto, a medida que θ se acerca a la frontera del espacio


Θ, la curva Q F (θ ) se acerque (aunque nunca llegue) hacia el máximo de Q F (θ ) .
Consistencia del EMV

I El siguiente Teorema, cuya demostración va mas allá del alcance de este curso,
provee condiciones su…cientes que garantizan que los puntos (1) y (2) de la
…lmina anterior no pueden ocurrir y por lo tanto, que garantizan que el EMV es
consistente.

iid
I Teorema: sean X 1 , ..., X n f (x ) 2 F = f f (x ; θ ) : θ 2 Θg y supongamos que
θ esta identi…cado. Supongamos ademas que para

P
sup Q Fb (θ ) Q F (θ ) ! 0
θ 2Θ

sup Q F (θ ) < Q (θ ) para todo ε > 0


θ:jjθ θ jj>ε

Entonces cuando f (x ) = f (x ; θ ) , el estimador de máxima verosimilitud de θ

bajo el modelo F satisface


b P
θ ML ! θ
Plan

I De…nición del estimador de máxima verosimilitud y ejemplos.


I Método de Newton-Raphson para resolver ecuaciones de primer orden
I Consistencia del estimador de máxima verosimilitud
I Normalidad asintótica del EMV bajo condiciones de regularidad

1. De…niremos la función score y probaremos que tiene media 0


2. De…niremos la matriz de información y probaremos la igualdad de
informacion
3. Probaremos que bajo ciertas condiciones la distribución asintótica del
estimador de máxima verosimilitud es normal
I E…ciencia asintótica del EMV
1. Probaremos la desigualdad de Cramer-Rao para la varianza de
estimadores insesgados
2. De…niremos e…ciencia relativa
3. Usaremos la desigualdad de Cramer-Rao para dar un argumento
intuitivo de por que el estimador de máxima verosimilitud es
asintóticamente e…ciente
I Intervalos de con…anza Wald y su relación con intervalos de credibilidad
Bayesianos para muestras grandes
I Ejemplo en el que el EMV no es asintóticamente normal
La función escore

I Sea X = (X1 , ..., Xn ) , el vector compuesto por todas las observaciones de


la muestra.
I De…nición: La función score de θ que escribiremos como s (X ; θ ) es igual
a 0 ∂ log f (X ,...,X ;θ ) 1
0 1 1 n
s1 (X ; θ ) B ∂ log f (X∂θ1 ,...,X ;θ ) C
1
B s2 (X ; θ ) C B n C
B C B ∂θ 2 C
s (X ; θ ) = B .. C = B . C
@ . A B . C
@ . A
sr (X ; θ ) ∂ log f (X 1 ,...,X n ;θ )
∂θ r

I Lemma 1: Supongamos que


1. Θ es abierto
2. f (x ; θ ) tiene el mismo soporte cualquiera sea θ 2 Θ, es decir el
conjunto fx : f (x ; θ ) > 0g es el mismo para todo θ 2 Θ
3. f (x ; θ ) es diferenciable con respecto a θ, para cada x
R R ∂
4. para todo θ 2 Θ, ∂θ∂ j f (x ; θ ) d x θ = θ = ∂θ j f (x ; θ ) dx
θ =θ
entonces para todo θ 2 Θ
Eθ [s (X ; θ )] = 0
I Demostración:
Z
∂ log f (x ; θ )
Eθ fsj (X ; θ )g = f (x ; θ ) d x
∂θ j
8 9
Z < ∂f (x ;θ ) =
∂θ j
= f (x ; θ ) d x
: f (x ; θ ) ;
Z
∂f (x ; θ )
= dx
∂θ j
Z

= f (x ; θ ) d x
∂θ j

= f1 g = 0
∂θ j
I Grá…cos de la función n 1 ln (θ ) bajo repetidas muestras en cuatro modelos
distintos. La linea vertical azul esta sobre el valor verdadero de θ , y las
lineas verticales rojas están ubicadas sobre los estimadores de máxima
verosimiltud bajo las distintas muestras.
Plan

I De…nición del estimador de máxima verosimilitud y ejemplos.


I Método de Newton-Raphson para resolver ecuaciones de primer orden
I Consistencia del estimador de máxima verosimilitud
I Normalidad asintótica del EMV bajo condiciones de regularidad

1. De…niremos la función score y probaremos que tiene media 0


2. De…niremos la matriz de información y probaremos la igualdad
de informacion
3. Probaremos que bajo ciertas condiciones la distribución asintótica del
estimador de máxima verosimilitud es normal
I E…ciencia asintótica del EMV
1. Probaremos la desigualdad de Cramer-Rao para la varianza de
estimadores insesgados
2. De…niremos e…ciencia relativa
3. Usaremos la desigualdad de Cramer-Rao para dar un argumento
intuitivo de por que el estimador de máxima verosimilitud es
asintóticamente e…ciente
I Intervalos de con…anza Wald y su relación con intervalos de credibilidad
Bayesianos para muestras grandes
I Ejemplo en el que el EMV no es asintóticamente normal
I Lemma 2: Supongamos que
1. Θ es abierto
2. f (x ; θ ) tiene el mismo soporte cualquiera sea θ 2 Θ
3. f (x ; θ ) es dos veces diferenciable con respecto a θ, para cada x
R R ∂
4. para todo θ 2 Θ, ∂θ∂ j f (x ; θ ) d x θ = θ = ∂θ j f (x ; θ ) θ =θ d x y
hR i R 2
∂ ∂
∂θ j ∂θ k f (x ; θ ) d x = ∂θ∂j ∂θ k f (x ; θ ) dx
θ =θ θ =θ
entonces para todo θ 2 Θ
h i h i
∂2
E θ s (X ; θ ) s (X ; θ ) 0 = Eθ ∂θ∂θ 0
log f (X ; θ )

I Cuando θ es un escalar, la identidad se reduce a


n o n o
∂2 log f (X ;θ )
E θ s (X ; θ )2 = Eθ ∂θ 2
I Nota:
h i ∂2
E θ s (X ; θ ) s (X ; θ )T = Eθ log f (X ; θ )
∂θ∂θ T
signi…ca que

2 n o 3
E θ s 1 (X ; θ )2 E θ fs1 (X ; θ ) s2 (X ; θ )g E θ fs1 (X ; θ ) sr (X ; θ )g
6 7
6 . . 7
6 . . 7
6 E θ fs2 (X ; θ ) s1 (X ; θ )g . . E θ fs2 (X ; θ ) sr (X ; θ )g 7
6 7
6 . . . . 7
6 . . . . 7
4 . . . n . o 5
2
E θ fsr (X ; θ ) s1 (X ; θ )g E θ s r (X ; θ )
2 n o n o n o 3
∂ log f (X ;θ ) ∂ log f (X ;θ ) ∂ log f (X ;θ )
Eθ ∂θ 1 ∂θ 1 Eθ ∂θ 1 ∂θ 2 Eθ ∂θ 1 ∂θ r
6 n o n o 7
6 .. .. 7
6 E ∂ log f (X ;θ ) . . Eθ
∂ log f (X ;θ ) 7
6 θ ∂θ 2 ∂θ 1 ∂θ 2 ∂θ r 7
=6 7
6 .. .. .. .. 7
6 7
4 n . o . . n . o 5
∂ log f (X ;θ ) ∂ log f (X ;θ )
Eθ ∂θ r ∂θ Eθ ∂θ r ∂θ r
1
I Demostración: por el lemma 1 sabemos que
Z
∂ log f (x ; θ )
0= f (x ; θ ) d x
∂θ j

I Luego, debido a la suposición (4),


Z
∂ ∂ log f (x ; θ )
0 = f (x ; θ ) d x
∂θ k ∂θ j
Z
∂ ∂ log f (x ; θ )
= f (x ; θ ) d x
∂θ k ∂θ j
I Ahora, utilizando la regla para la derivación del producto de dos funciones de θ
obtenemos
Z
∂ ∂ log f (x ; θ )
0 = f (x ; θ ) d x
∂θ k ∂θ j
Z
∂ ∂ log f (x ; θ )
= f (x ; θ ) d x +
∂θ k ∂θ j
Z
∂ log f (x ; θ ) ∂
ff (x ; θ )g d x
∂θ j ∂θ k
Z
∂ ∂ log f (x ; θ )
= f (x ; θ ) d x +
∂θ k ∂θ j
Z
" ∂ #
∂ log f (x ; θ ) ∂θ k ff (x ; θ )g
f (x ; θ ) d x
∂θ j f (x ; θ )
Z
∂2 log f (x ; θ )
= f (x ; θ ) d x +
∂θ k ∂θ j
Z
∂ log f (x ; θ ) ∂ log f (x ; θ )
f (x ; θ ) d x
∂θ j ∂θ k
∂2 log f (X ; θ )
= Eθ + E θ fsj (X ; θ ) sk (X ; θ )g
∂θ k ∂θ j
I De…nición: La matriz In (θ ) (o el escalar In (θ ) si θ es un escalar) cuya
componente (i , j ) es

∂2 log f (x ; θ )
In (θ )kj = Eθ
∂θ k ∂θ j

se llama la matriz de información esperada sobre θ basada en n


observaciones.
I A menudo la llamamos simplemente matriz de información sobre θ basada
en toda la muestra.
I A I1 (θ ) la escribimos simplemente como I (θ ) y la llamamos la
información sobre θ por unidad de la muestra.
I Notemos que cuando X1 , ..., Xn son iid obtenemos que

∂2 log f (X ; θ )
In (θ )kj = Eθ
∂θ k ∂θ j
∂2 log f (X1 , ..., Xn ; θ )
= Eθ
∂θ k ∂θ j
∂2 log [∏ni=1 f (Xi ; θ )]
= Eθ
∂θ k ∂θ j
( )
n 2
∂ log [f (Xi ; θ )]
= Eθ ∑
i =1 ∂θ k ∂θ j
n
∂2 log [f (Xi ; θ )]
= ∑ Eθ ∂θ k ∂θ j
i =1
n
= ∑ I1 (θ )kj
i =1
= nI (θ )kj

I De manera que concluimos que cuando las observaciones de la muestra


son iid, la información basada en n observaciones es igual a n veces la
información por unidad.
Plan

I De…nición del estimador de máxima verosimilitud y ejemplos.


I Método de Newton-Raphson para resolver ecuaciones de primer orden
I Consistencia del estimador de máxima verosimilitud
I Normalidad asintótica del EMV bajo condiciones de regularidad

1. De…niremos la función score y probaremos que tiene media 0


2. De…niremos la matriz de información y probaremos la igualdad de
informacion
3. Probaremos que bajo ciertas condiciones la distribución
asintótica del estimador de máxima verosimilitud es normal
I E…ciencia asintótica del EMV
1. Probaremos la desigualdad de Cramer-Rao para la varianza de
estimadores insesgados
2. De…niremos e…ciencia relativa
3. Usaremos la desigualdad de Cramer-Rao para dar un argumento
intuitivo de por que el estimador de máxima verosimilitud es
asintóticamente e…ciente
I Intervalos de con…anza Wald y su relación con intervalos de credibilidad
Bayesianos para muestras grandes
I Ejemplo en el que el EMV no es asintóticamente normal
Distribución asintótica del estimador de máxima verosimilitud.

Teorema 1. Supongamos que X1 , ..., Xn iid f (x )


2 F = f f (x ; θ ) : θ 2 Θ Rr g . Bajo condiciones de regularidad sobre las
distribuciones en la familia F se veri…ca que
p n o L(F )
n bθ ML 1
θ
θ ! Nr 0, I (θ )

1
donde Nr 0, I (θ ) es la distribución normal multivariada de dimension r con
media 0 y matriz de covarianza I (θ ) 1 .
Corolario. Si β ( ) : Θ ! Rp es una función diferenciable de θ en cada θ 2 Θ,
entonces b
βML = β b θ ML veri…ca

p n o L(F )
n b
θ
βML β (θ ) ! Nr (0, V (θ ))

donde
∂β (θ ) 1 ∂β (θ )
V (θ ) = I (θ )
∂θ 0 ∂θ
I La especi…cación rigurosa de las condiciones de regularidad del teorema 1
y su demostración cuando r > 1 están más allá del alcance del curso.
I En breve daremos un tratamiento riguroso del caso en el que r = 1.
I Notemos que si bθ ML es el estimador de máxima verosimilitud de θ , y si
V (θ ) es continua entonces

∂β (θ ) 1 ∂β (θ )
V bθ ML = I bθ ML
∂θ T θ =b
θ ML ∂θ θ =b
θ ML

es
p unn estimador o
consistente de la varianza de la distribución asintótica de
n b
βML β (θ ) .
I Sabiendo como construir un estimador consistente de V (θ ) podemos
construir un intervalo de con…anza para β (θ ) . Veamos un ejemplo.
I Ejemplo 1. Supongamos que X1 , X2 , ..., Xn iid N (µ, σ2 ) con µ y σ
desconocidos e irrestrictos. Vamos a calcular la varianza de la distribución
asintótica del estimador de máxima verosimilitud de
µ
β (θ ) = , siendo θ = (µ, σ)
σ

I Primero calculamos I (θ ) 1

np o 1
log f (x ; θ ) = log 2π log (σ) (x µ )2
2 σ2
∂ log f (x ; θ ) 1
= 2 (x µ)
∂µ σ

∂ log f (x ; θ ) 1 (x µ )2
= +
∂σ σ σ3
∂2 log f (x ; θ ) ∂2 log f (x ; θ ) 2 (x µ)
= =
∂µ∂σ ∂σ∂µ σ3
∂2 log f (x ; θ ) 1
=
∂µ2 σ2

∂2 log f (x ; θ ) 1 (x µ )2
= 2 3
∂σ2 σ σ4
I Por lo tanto

∂2 log f (X ; θ ) 2 (X µ)
I (θ )12 = E ( µ,σ ) = E ( µ,σ ) =0
∂µ∂σ σ3

∂2 log f (X ; θ ) 1 1
I (θ )11 = E ( µ,σ ) = E ( µ,σ ) =
∂µ2 σ2 σ2

" #
∂2 log f (X ; θ ) 1 (X µ )2
I (θ )22 = E ( µ,σ ) = E ( µ,σ ) 3
∂σ2 σ2 σ4
n o
1 E (X µ )2 1 σ2 2
= +3 = +3 = 2
σ2 σ4 σ2 σ4 σ
I Luego

2
σ 0 1 σ2 0
I (θ ) = 2 e I (θ ) =
0 2σ 0 σ 2 /2
I Por otro lado
∂β (θ ) ∂ (µ/σ) ∂ (µ/σ) 1 µ
= , = ,
∂θ T ∂µ ∂σ σ σ2

I Luego,
1
∂β (θ ) 1∂β (θ ) 1 µ σ2 0
V (θ ) = I (θ ) = σ
µ
∂θ T ∂θ σ σ2 0 σ 2 /2 σ2
1 1 µ µ
= σ2
+ σ 2 /2
σ σ σ2 σ2
2
µ
= 1+ 2

I µ2
Como V (θ ) = 1 + 2 σ2
es una función contínua entonces

2
X
V bθ ML = 1 +
2S 2
es un estimador consistente de V (θ ) .
I Luego, un intervalo de con…anza con nivel aproximado 1 α para
β (θ ) = µ/σ es
r
q
V bθ ML X
1 + 2S
2

b X 2
θ ML Φ 1
(1 α/2) p = Φ 1
(1 α/2) p
n S n
I Teorema 1 (caso r = 1). Supongamos que
X1 , ..., Xn iid f (x ) 2 F = f f (x ; θ ) : θ 2 Θ Rg
1. Θ es abierto
2. f (x ; θ ) tiene el mismo soporte cualquiera sea θ 2 Θ
3. f (x ; θ ) es tres veces diferenciable con respecto R a θ, para cada x
4. para todo θ 2 Θ, para todo θ 2 Θ, ddθ f (x ; θ ) d x θ = θ =
R d hR i
d d
d θ f (x ; θ ) θ = θ d x y d θ d θ f (x ; θ ) d x θ = θ =
R d2
2 f (x ; θ ) dx
dθ θ =θ
5. 0 < I (θ ) < ∞ para todo θ 2 Θ
6. para todo θ 0 2 Θ, existe c y M (X ) (ambos pueden depender de θ 0 )
tal que

d3
log f (x ; θ ) M (x ) para todo x y todo θ 2 (θ 0 c, θ 0 + c )
d θ3
y
Eθ 0 [M (X )] < ∞

7. b
θ ML ! θ
I Entonces,
p n o L(F )
n bθ ML 1
θ
θ ! N 0, I (θ )
I Demostración: sea
n
∑ d k log f
(k )
ln ( θ ) = d k ln ( θ ) / d θ k = (Xi ; θ ) /d θ k , k = 1, 2, 3.
i =1

I Por la expansión de Taylor, tenemos que

(1 ) (1 ) (2 ) (3 ) 2
ln b
θ ML = ln (θ ) + ln (θ ) b
θ ML θ + ln (θ ) bθ ML θ /2

donde θ esta entre bθ ML y θ .


I Bajo nuestras suposiciones, el valor bθ ML que maximiza ln (θ ) veri…ca
(1 )
ln bθ ML = 0. Luego, despejando bθ ML θ en la expresión de arriba y
p
multiplicando por n, obtenemos

(1 )
p p1 ln (θ )
n
n bθ ML θ =
1 (2 ) 1 (3 )
n ln (θ ) n ln (θ ) bθ ML θ /2
(1 )
p p1 ln (θ )
n
n bθ ML θ =
1 (2 ) 1 (3 )
l
n n (θ ) l
n n (θ ) bθ ML θ /2

I El numerador veri…ca
1 1 p 1 n
p ln( ) (θ ) = n ∑ d log f (Xi ; θ ) /d θ
n n i =1
( )
p 1 n
n i∑
= n s ( X i ; θ )
=1
( )
p 1 n
n i∑
= n fs (Xi ; θ ) Eθ [s (Xi ; θ )]g
=1
L(F θ )
! N (0, I (θ ))

donde la convergencia se deduce invocando el Teorema Central del Limite.


(Notar que aca usamos que Eθ [s (Xi ; θ )] = 0 )
(1 )
p p1 ln (θ )
n
n b
θ ML θ =
1 (2 ) 1 (3 )
n ln (θ ) n ln (θ ) bθ ML θ /2

I Para el denominador, analizamos cada uno de los terminos separadamente


I Primero,

1 (2 ) 1 n 2
n i∑
ln ( θ ) = d log f (X i ; θ ) /d θ 2
n =1
P
!θ E θ d 2 log f (X i ; θ ) /d θ 2 = I (θ )

donde la convergencia se deduce invocando la Ley de los grandes numeros.


I Segundo,

1 (3 ) 1 n
n i∑
0 ln ( θ ) b θ ML θ /2 d 3 log f (X i ; θ ) /d θ 3 b
θ ML θ /2
n =1
( )
1 n
n i∑
M ( X i ) bθ ML θ /2
=1
P
!θ E θ [M (X i )] 0=0

Luego, concluimos que


1 (2 ) 1 (3 ) P
ln ( θ ) ln ( θ ) b
θ ML θ /2 !θ I (θ ) + 0 = I (θ )
n n
I Finalmente, por el Teorema de Slutzky arribamos a que

p 1 1 1
n b
θ ML θ = p ln( ) (θ )
1 (2 ) 1 (3 ) n
n ln (θ ) n ln (θ ) bθ ML θ /2 | {z }
| {z } converge en distribución
converge en probabilidad a I (1θ ) a N (0,I (θ ))
!
L(F θ ) 1 1 1
! N (0, I (θ )) = N 0, I (θ ) =N 0,
I (θ ) I ( θ )2 I (θ )
Plan

I De…nición del estimador de máxima verosimilitud y ejemplos.


I Método de Newton-Raphson para resolver ecuaciones de primer orden
I Consistencia del estimador de máxima verosimilitud
I Normalidad asintótica del EMV bajo condiciones de regularidad

1. De…niremos la función score y probaremos que tiene media 0


2. De…niremos la matriz de información y probaremos la igualdad de
informacion
3. Probaremos que bajo ciertas condiciones la distribución asintótica del
estimador de máxima verosimilitud es normal
I E…ciencia asintótica del EMV
1. Probaremos la desigualdad de Cramer-Rao para la varianza de
estimadores insesgados
2. De…niremos e…ciencia relativa
3. Usaremos la desigualdad de Cramer-Rao para dar un argumento
intuitivo de por que el estimador de máxima verosimilitud es
asintóticamente e…ciente
I Intervalos de con…anza Wald y su relación con intervalos de credibilidad
Bayesianos para muestras grandes
I Ejemplo en el que el EMV no es asintóticamente normal
Desigualdad de Cramer-Rao

I Supongamos que X1 , ..., Xn tiene una distribución conjunta dada por


f (x1 , ..., xn ; θ ) .
I Supongamos que bθ es un estimador insesgado de θ . Cuan pequen ea puede
ser su varianza?.
I La respuesta (parcial) a esta pregunta la da la desigualdad de
Cramer-Rao. Esta desigualdad establece una cota inferior para la varianza
de cualquier estimador insesgado de θ .

I Teorema 2. (Desigualdad de Cramer-Rao para un parámetro escalar).


Supongamos que se veri…can las condiciones del Lemma 1 con r = 1. Sea
b
θ = δ (X1 , ..., Xn ) un estimador insesgado de θ basado Ren las observaciones
R
de X1 , ..., Xn . Supongamos que ddθ δ (x ) f (x ; θ ) d x = δ (x ) ddθ f (x ; θ ) d x .
Sea In (θ ) la información de θ basada en las n observaciones. Entonces

1
varθ bθ
In ( θ )
I Demostración: Dado que bθ es un estimador insesgado de θ , debe
cumplirse que cualquiera sea el valor de θ

Eθ bθ = θ

I Por lo tanto,
Z Z
δ (x1 , ..., xn ) f (x1 , ..., xn ; θ ) dx1 ...dxn = θ

I Tomando derivadas con respecto a θ en ambos miembros obtenemos que


Z
d d
δ (x ) f (x ; θ ) d x = fθ g
dθ dθ
Z
d
δ (x )
f (x ; θ ) d x = 1

Z
( )
d
f (x ; θ )
δ (x ) d θ f (x ; θ ) d x = 1
f (x ; θ )
Z
δ (x ) s (x ; θ ) f (x ; θ ) d x = 1
n o
Eθ bθ s (X ; θ ) = 1
I Ahora, como s (X ; θ ) tiene media 0 bajo f (x ; θ ), tenemos que
n o
1 = Eθ bθ s (X ; θ ) = covθ bθ , s (X ; θ )

I Ahora utilizando el hecho de que la correlación es siempre un numero


menor o igual que 1, deducimos que
r q
1 = covθ b
θ , s (X ; θ ) varθ bθ varθ (s (X ; θ ))

I Por lo que …nalmente obtenemos


r
1
p varθ bθ
varθ (s (X ; θ ))

o equivalentemente, elevando al cuadrado ambos miembros

1
varθ bθ
varθ (s (X ; θ ))

I Finalmente, la demostración concluye recordando que

varθ (s (X ; θ )) = Eθ s (X ; θ )2 = In (θ )
Desigualdad de Cramer-Rao para un parámetro vectorial

I Para el caso en el que θ es un vector en Rr , se puede probar que

var bθ In ( θ ) 1
0

I Notemos que var bθ In ( θ ) 1


es una matriz.
I Si A es una matriz cuadrada cualquiera, la notación A 0 signi…ca que A
es una matriz semide…nida positiva, es decir que para cualquier vector
columna v , v T Av es un numero escalar mayor o igual que 0.
Desigualdad de Cramer-Rao para una función de un parámetro (función y
parámetro vectorial o escalar)

I Supongamos ahora que β (θ ) es una función (posiblemente vectorial) del


parámetro θ y que b β es un estimador insesgado de β (θ ) basado en las
observaciones de X1 , ..., Xn .
I Sea s (X ; θ ) la función score de θ y sea In (θ ) la información de θ basada
en n observaciones. Entonces, se puede probar que

∂β(θ ) 1 ∂β(θ )
varθ b
β
∂θ T n
I (θ ) ∂θ 0

I En particular si β (θ ) es una función escalar y θ es un escalar obtenemos


que
n o2
d β(θ )

varθ b
β

In ( θ )
Plan

I De…nición del estimador de máxima verosimilitud y ejemplos.


I Método de Newton-Raphson para resolver ecuaciones de primer orden
I Consistencia del estimador de máxima verosimilitud
I Normalidad asintótica del EMV bajo condiciones de regularidad

1. De…niremos la función score y probaremos que tiene media 0


2. De…niremos la matriz de información y probaremos la igualdad de
informacion
3. Probaremos que bajo ciertas condiciones la distribución asintótica del
estimador de máxima verosimilitud es normal
I E…ciencia asintótica del EMV
1. Probaremos la desigualdad de Cramer-Rao para la varianza de
estimadores insesgados
2. De…niremos e…ciencia relativa
3. Usaremos la desigualdad de Cramer-Rao para dar un argumento
intuitivo de por que el estimador de máxima verosimilitud es
asintóticamente e…ciente
I Intervalos de con…anza Wald y su relación con intervalos de credibilidad
Bayesianos para muestras grandes
I Ejemplo en el que el EMV no es asintóticamente normal
E…ciencia asintótica

I De…nición: bβ se dice que es un estimador asintóticamente normal de un


parámetro β (θ ) si satisface

p n o L(F )
n b
θ
β β (θ ) ! N (0, W (θ )) para algun W (θ )

I Con muestras grandes claramente, entre todos los estimadores


asintóticamente normales, preferiremos a aquel estimador que tenga el
menor W (θ ).
I De…nición: Supongamos que dos estimadores e
βyb
β son tales que
p n o
n bβ β (θ ) ! N (0, V1 (θ )) (1)

y
p n o
n eβ β (θ ) ! N (0, V2 (θ )) (2)

Entonces diremos que b


β es mas e…ciente que e
β si

V2 (θ ) V1 (θ ) > 0
E…ciencia asintótica relativa

I Dados dos estimadores b βye β de un parámetro escalar β (θ ) , que


satisfacen (1) y (2) respectivamente, la cantidad

V2 (θ )
τ (θ ) =
V1 (θ )

se denomina la e…ciencia asintótica relativa de b


β con respecto a eβ (note
e
que en el numerador va la varianza de β ).
I Interpretamos a τ (θ ) como un indicador de cuanto mas grande o mas
pequeña debe ser la muestra que deberemos tener cuando usamos e β para
obtener la misma precisión que si hubiésemos usado b β. Por ejemplo, si
τ (θ ) = 2, entonces deberemos usar una muestra el doble de grande si
usamos e β que si usamos bβ para obtener la misma precisión en la
estimación.
I Esto se ve de la siguiente manera. Si n1 es el tamaño de la muestra con la
que calcularemos b β y n2 es el tamaño de la muestra con la que
calcularemos e β, entonces la varianza de b
β será aproximadamente
V1 (θ ) /n1 y la de e
β será aproximadamente V2 (θ ) /n2 . Si queremos tener la
misma precisión deberemos obtener tamaños muestrales de tal forma que

V 1 ( θ ) /n1 = V 2 ( θ ) /n2

o equivalentemente

n2 /n1 = V 2 ( θ ) /V 1 ( θ )
= τ (θ )

De modo que
n2 = τ ( θ ) n1
Cuanto más grande sea τ (θ ) mas e…ciente sera b
β con respecto a e
β.
Plan

I De…nición del estimador de máxima verosimilitud y ejemplos.


I Método de Newton-Raphson para resolver ecuaciones de primer orden
I Consistencia del estimador de máxima verosimilitud
I Normalidad asintótica del EMV bajo condiciones de regularidad

1. De…niremos la función score y probaremos que tiene media 0


2. De…niremos la matriz de información y probaremos la igualdad de
informacion
3. Probaremos que bajo ciertas condiciones la distribución asintótica del
estimador de máxima verosimilitud es normal
I E…ciencia asintótica del EMV
1. Probaremos la desigualdad de Cramer-Rao para la varianza de
estimadores insesgados
2. De…niremos e…ciencia relativa
3. Usaremos la desigualdad de Cramer-Rao para dar un argumento
intuitivo de por que el estimador de máxima verosimilitud es
asintóticamente e…ciente
I Ejemplo en el que el EMV no es asintóticamente normal
E…ciencia del estimador de máxima verosimilitud

I De…nición: b β es un estimador asintóticamente e…ciente si es


asintóticamente normal y tan o más e…ciente que cualquier otro estimador
asintóticamente normal.
I Es posible probar que en una clase muy grande de modelos estadísticos y
para una clase muy grande de parámetros que abarca una gran cantidad
de problemas que aparecen en el modelado de cuestiones econométricas (y
en otras disciplinas), el estimador de máxima verosimilitud es
asintóticamente e…ciente.
I La e…ciencia asintótica es una de las razones fundamentales por las cuales
el estimador de máxima verosimilitud es uno de los procedimientos de
estimación preferidos.
I ¿Cual es la raiz de la razon por la cual el EMV es e…ciente??? El
argumento heuristico es el siguiente:
I Suponga que b β es asintóticamente normal. Entonces existe
W (nθ ) > 0 tal o
que cualquiera sea θ, que bajo f (x ; θ ) ,
p b
n β β (θ ) N (0, W (θ )) cuando n es grande.
Equivalentemente,
b
β N ( β (θ ) , W (θ ) /n )
cualquiera sea θ cuando n es grande.
I Luego bβ es un estimador aproximadamente insesgado de β (θ ) . Por
lo tanto, por la desigualdad de Cramer-Rao, uno esperaría que
∂β (θ ) 1 ∂β (θ )
W (θ ) /n T
In ( θ ) .
∂θ ∂θ
I Cuando las X1 , ..., Xn son iid , In (θ ) = nI (θ ) . Luego, cancelando el
factor 1/n en ambos miembros de la última desigualdad se arriba a
∂β (θ ) ∂β (θ )
W (θ ) I (θ ) 1
∂θ T ∂θ
I Como el estimador de máxima verosimilitud de β (θ ) es
asintóticamente normal (bajo condiciones de regularidad) y la
∂β(θ ) ∂β(θ )
varianza de su distribución límite es precisamente I (θ ) 1 ∂θ ,
∂θ T
entonces la última desigualdad implica que es asintóticamente
e…ciente.
E…ciencia del estimador de máxima verosimilitud: comentario

I Un punto interesante es que si bien es posible (y hasta habitual) que dado


un modelo F y un parámetro β (θ ), o bien
1. no exista ningún estimador insesgado de β (θ ) o,
2. existan estimadores insesgados de β (θ ) pero ninguno tenga varianza
igual a la Cota de Cramer Rao,
la normalidad asintótica y la e…ciencia del estimador de máxima
verosimilitud bajo una gran cantidad de modelos F , implica que bajo esos
modelos F con muestras grandes es posible obtener un estimador "casi
insesgado" de β (θ ) cuya varianza es "casi" igual a la cota de Cramer Rao.
Este estimador es precisamente el estimador de máxima verosimilitud.
Información

I La e…ciencia asintótica del EMV de β (θ ) puede interpretarse como


indicando que este estimador es el que, con muestras grandes, extrae toda
la información disponible en los datos sobre el parámetro de interes β (θ ) .
I A raíz de esto, es que a la inversa de la varianza de la distribución
asintótica del EMV de β (θ ) , es decir, a la matriz (o a el escalar, si β (θ )
es escalar)
∂β (θ ) ∂β (θ ) 1
I β (θ ) = T
I (θ ) 1
∂θ ∂θ
se la denomina información acerca de β (θ ) bajo el modelo F en θ .
I En particular, si β (θ ) = θ , la información Iθ (θ ) acerca de θ bajo el modelo
F en θ coincide precisamente con I (θ ) .
Pérdida de información por usar estimadores ine…cientes

I Cuando usamos un estimador asintóticamente normal de β (θ ) pero


ine…ciente con varianza de su distribución asintótica, digamos igual a
W (θ ) , es posible hacer el cálculo de cuanto hemos perdido en
información por no haber usado en vez el estimador de máxima
verosimilitud. La cantidad
1
I β (θ ) W (θ )
I β (θ )

nos indica la fracción de información disponible que fue perdida por usar
el estimador ine…ciente.

I Veamos un ejemplo sobre este punto.


I Ejemplo 2. Supongamos que X1 , ..., Xn son i.i.d. f (x ; θ ) donde
f (x ; θ ) = θ 1 exp ( x /θ ) para θ > 0. Supongamos que β (θ ) = θ 2 . El
estimador de máxima verosimilitud de θ es bθ = X y por lo tanto el
2
estimador de máxima verosimilitud de β (θ ) es b β = X . Calculemos ahora
la cota de Cramer-Rao.
∂ log f (x ; θ ) 1
= + x /θ 2
∂θ θ
2
∂ log f (x ; θ ) 1
= 2 2x /θ 3
∂θ 2 θ
I Luego,
∂2 log f (X ; θ ) 1 2Eθ (X )
I (θ ) = E = +
∂θ 2 θ2 θ3
1 2θ 1
= + 3 = 2
θ2 θ θ
I Por otro lado, para β (θ ) = θ 2 , tenemos que
∂β (θ )
= 2θ
∂θ
I Luego
1
∂β (θ ) 1 ∂β (θ ) 1
I (θ ) = (2 θ ) 2 (2 θ ) = 4 θ 4
∂θ ∂θ θ
1
I Por lo tanto, la información para estimar a β (θ ) = θ 2 es 4θ 4 .
I Supongamos ahora que para estimar β (θ ) = θ 2 utilizamos
n
1 2
e
β=
n ∑ Xi X
i =1

I Hemos visto en uno de los problemas de la práctica que

p n o L(F )
n e θ2 ! N 0, 20θ 4
θ
β

2
I De manera que por usar e
β en vez del estimador e…ciente b
β = X hemos
perdido
1 1
4θ 4 20θ 4 4
1 =
4θ 4 5

de la información disponible en la muestra para estimar a θ 2 .


Plan

I De…nición del estimador de máxima verosimilitud y ejemplos.


I Método de Newton-Raphson para resolver ecuaciones de primer orden
I Consistencia del estimador de máxima verosimilitud
I Normalidad asintótica del EMV bajo condiciones de regularidad

1. De…niremos la función score y probaremos que tiene media 0


2. De…niremos la matriz de información y probaremos la igualdad de
informacion
3. Probaremos que bajo ciertas condiciones la distribución asintótica del
estimador de máxima verosimilitud es normal
I E…ciencia asintótica del EMV
1. Probaremos la desigualdad de Cramer-Rao para la varianza de
estimadores insesgados
2. De…niremos e…ciencia relativa
3. Usaremos la desigualdad de Cramer-Rao para dar un argumento
intuitivo de por que el estimador de máxima verosimilitud es
asintóticamente e…ciente
I Intervalos de con…anza Wald y su relación con intervalos de
credibilidad Bayesianos para muestras grandes
I Ejemplo en el que el EMV no es asintóticamente normal
Intervalos Wald basados en el EMV

I Una consecuencia practica muy importante del resultado

p n o L(F )
n β b
θ
θ ML β (θ ) ! N r (0, V (θ ))

donde

∂β (θ ) 1 ∂β (θ )
V (θ ) = I (θ )
∂θ T ∂θ
es que nos ofrece una forma inmediata para construir intervalos y regiones de
con…anza asintóticos puntuales de nivel 1 α.
I Recordemos que si sabemos como construir un estimador consistente V
b de
V (θ ) , entonces podemos construir un intervalo asintotico de nivel 1 α para un
β (θ ) escalar como p
β bθ ML Φ 1 (1 α/2 ) n 1 V b
I Intervalos construidos con esta fórmula se llaman intervalos de Wald.

I Tres estimadores de V (θ ) surgen naturalmente:

I V
b1 = V b
θ ML (llamado estimador basado en la información esperada)

T
I V
b2 = ∂β(Tθ ) n 1 θ ML s X i ; b
∑ni=1 s X i ; b θ ML
∂β(θ )
∂θ θ =b
θ ML ∂θ θ =b
θ ML

I V
b3 = ∂β(Tθ ) n 1
∑ni=1 ∂
log f (X i ; θ )
∂β(θ )
, (llamado
∂θ θ =b
θ ML ∂θ∂θ T θ =b
θ ML ∂θ θ =b
θ ML

estimador basado en la información observada)


I Cuando β (θ ) tiene derivada primera continua en θ,

bj !
V V (θ )
I vale para j = 1 cuando I (θ ) es continua, vale para j = 2 cuando ∂ log f (X ; θ )
∂θ

es continua en θ y vale para j = 3 cuando log f (X ; θ ) es continua en θ.
∂θ∂θ T
Luego, bajo esas condiciones, pueden usarse en reemplazo de V b para construir
intervalos de con…anza para θ.
Comportamiento de la distribución a posteriori para n grande y v.a.
intercambiables.

I En las notas sobre inferencia Bayesiana notamos el siguiente resultado


I Resultado: a medida que el tamaño de la muestra n crece, la distribución a
posteriori:

1. se concentra más y más alrededor de b


θ ML = arg max θ L n (θ ) .

2. más especí…camente, se aproxima más y más a una distribución normal con media
b
θ ML y varianza n 1 W , donde W = n 1 ddθ log L n (θ )jθ =bθ
ML

I Una consecuencia de este resultado es que si θ es un parámetro escalar, entonces


con muestras grandes, el intervalo
p
b
θ ML Φ 1
(1 α/2 ) n 1W

es un intervalo Bayesiano de credibilidad aproximadamente 1 α.

I Notar que si β (θ ) = θ , W coincide con el estimador V


b3 de V (θ ) de la …lmina
anterior.

I De modo que con muestras grandes, un frecuentista que use un intervalo de


Wald con varianza estimada usando la información observada hará inferencias
muy parecidas a las de un Bayesiano.
Ejemplo
I Ejemplo 4 (Regresión lineal homoscedástica, continuación): Supongamos que
T
X i = Y i , Z iT , i = 1, ..., n son vectores aleatorios iid cada uno satisface

Y i = αT Z i + εi

donde εi jZ i N 0, σ2 .
I Es posible probar que

p 1
n (b
αML α) ! N 0, E Z 1 Z 1T σ2

I Supongamos que la distribución fZ (z ) de Z i fuera conocida. En ese caso, la


1
matriz M = E Z 1 Z 1T sería conocida y el estimador de la varianza basado en
b1 = σ
la información observada es V b2ML M . El intervalo de Wald de nivel 1 τ de
la k esima componente del vector α que resulta de usar este estimador de la
varianza es r
b
αk ,ML Φ 1
(1 τ/2 ) n 1 b1
V
kk

b1
donde V b1 .
es la componente (k , k ) de la matriz V
kk
I Note que este intervalo no es el habitual en regresion lineal aún si se conoce la
distribución de Z i (como es el caso en experimentos controlados).
I El intervalo que se reporta habitualmente es el que usa el estimador
1
b3 = σ
V b2ML n 1
∑ni=1 Z i Z iT basado en la información observada.
Plan

I De…nición del estimador de máxima verosimilitud y ejemplos.


I Método de Newton-Raphson para resolver ecuaciones de primer orden
I Consistencia del estimador de máxima verosimilitud
I Normalidad asintótica del EMV bajo condiciones de regularidad

1. De…niremos la función score y probaremos que tiene media 0


2. De…niremos la matriz de información y probaremos la igualdad de
informacion
3. Probaremos que bajo ciertas condiciones la distribución asintótica del
estimador de máxima verosimilitud es normal
I E…ciencia asintótica del EMV
1. Probaremos la desigualdad de Cramer-Rao para la varianza de
estimadores insesgados
2. De…niremos e…ciencia relativa
3. Usaremos la desigualdad de Cramer-Rao para dar un argumento
intuitivo de por que el estimador de máxima verosimilitud es
asintóticamente e…ciente
I Intervalos de con…anza Wald y su relación con intervalos de credibilidad
Bayesianos para muestras grandes
I Ejemplo en el que el EMV no es asintóticamente normal
Ejemplo en el que el EMV no es asintóticamente normal

I Ejemplo 5 (continuación): Supongamos que X 1 , ..., X n son iidU (0, θ ) donde


θ > 0 es desconocido. Antes vimos que el estimador de máxima verosimilitud de
θ es
b
θ = max fX 1 , ..., X n g

I En las notas 3 vimos que la velocidad de convergencia de b


θ es n 1 y su
distribución asintótica G θ es una exponencial con parámetro θ . Es decir,
L (F θ )
n θ b
θ ! g (x ; θ )

donde n
1 xo
g (x ; θ ) = exp I (x > 0 )
θ θ

I Recordemos que cuando estudiamos la distribución asintótica del estimador de


máxima verosimilitud una de las condiciones que requerimos en el Teorema que
estableció la convergencia hacia una distribución normal a velocidad n 1 /2 fue
que todas las distribuciones del modelo tuvieran el mismo soporte.

I Este ejemplo demuestra que cuando esta condición no es cierta el estimador de


máxima verosimilitud no es necesariamente asintóticamente normal.

También podría gustarte