Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estimación Por Máxima Verosimilitud
Estimación Por Máxima Verosimilitud
𝑑𝑙𝑛 𝐿 ∑𝑛
𝑖=1 𝑌𝑖
3 = − 𝑛=0
𝑑λ λ
∑𝑛
𝑖=1 𝑌𝑖
4 ̂𝑀𝑉 = 𝑛
λ
𝑛
∑ 𝑌
λ̂𝑀𝑉 = 𝑖=1 𝑖
𝑛
λ̂𝑀𝑉 = 𝑌̅
Ejemplo 2:
Sea 𝑌1 ; 𝑌2 ;….;𝑌𝑛 observaciones muestrales independientes, provenientes de una
distribución exponencial con parámetro β. Encuentre el estimador de MV de β.
Desarrollo:
1 L = f (β; 𝑌1 ; 𝑌2 ;…;𝑌𝑛 ) = f (β; 𝑌1) * f (β; 𝑌2 ) *…. * f (β; 𝑌𝑛 )
𝑌 𝑌 𝑌
1 − 1 1 − 2 1 − 𝑛
= 𝑒 𝛽 * 𝑒 𝛽 *.…* 𝑒 𝛽
𝛽 𝛽 𝛽
1
1 − ∑𝑛 𝑌
= 𝑒 𝛽 𝑖=1 𝑖
β𝑛
1
2 ln L = − n lnβ − ∑𝑛 𝑌
𝛽 𝑖=1 𝑖
𝑑𝑙𝑛 𝐿 𝑛 ∑ 𝑌𝑖
3 =− + =0
𝑑β 𝛽 𝛽2
1 ∑ 𝑌𝑖
4 − (𝑛 − )=0
𝛽 𝛽
∑𝑌
𝛽̂𝑀𝑉 = 𝑖 = 𝑌̅
𝑛
Ejemplo 3:
Sean 𝑌1 ; 𝑌2 ;….;𝑌𝑛 observaciones muestrales independientes obtenidas de la siguiente
función de densidad.
𝑦
1
f (y) 𝑦 𝑒 −𝜃 , Y>0
𝜃2
0, c.o.v
Encuentre el estimador de MV de θ.
𝑌1 𝑌2 𝑌𝑛
1 1 1
1 𝐿= 𝑌1 𝑒 − 𝜃 ∗ 𝑌2 𝑒 − 𝜃 ∗ … .∗ 𝑌𝑛 𝑒 − 𝜃
𝜃2 𝜃2 𝜃2
1
1 − ∑𝑛 𝑌
= ∏𝑛𝑖=1 𝑌𝑖 𝑒 𝜃 𝑖=1 𝑖
𝜃2𝑛
1
2 ln L = −2n ln θ + ∑ni=1 ln Yi − ∑ni=1 Yi
θ
dln L −2n ∑n
i=1 Yi
3 = + =0
dθ θ θ2
∑n
i=1 Yi
4 ̂ = 2n
θMV
∑ n
Y
θ̂MV = i=1 i
2n
Donde:
𝚺 = 𝜎2 𝐈
|𝚺| = |𝜎 2 𝐈| = 𝜎 2𝑛
1
𝚺−1 = (𝜎 2 𝐈)−1 = 𝐈
𝜎2
1 [(𝒀−𝝁)′ (𝒀−𝝁)]
1
f (𝑌1 ; 𝑌2 ;….;𝑌𝑛 ) = 𝑛 𝑛 𝑒𝑥𝑝−2
(2𝜋) 2 (𝜎 2 ) 2 𝜎2
1 𝟐
1 − [Ʃ(𝑌𝑖 −𝜇 ) ]
f (𝑌1 ; 𝑌2 ;….;𝑌𝑛 ) = 𝑛 𝑛 𝑒𝑥𝑝 2
(2𝜋) 2 (𝜎 2 ) 2 𝜎2
Nótese que:
1 [(𝑌1 − 𝜇)𝟐 ] 1 [(𝑌2 − 𝜇)𝟐 ]
1 1
f (𝜇; 𝜎 2 ; 𝑌1 ; 𝑌2 ;….;𝑌𝑛 ) = 1 1 𝑒𝑥𝑝−2 ∗ 1 1 𝑒𝑥𝑝−2 ∗
𝜎2 𝜎2
(2𝜋)2 (𝜎2 )2 (2𝜋)2 (𝜎2 )2
1
1 [(𝑌𝑛 − 𝜇)𝟐 ]
… . .∗ 1 1 𝑒𝑥𝑝−2 𝜎2
(2𝜋)2 (𝜎2 )2
1 [Ʃ(𝑌𝑖 − 𝜇)𝟐 ]
1
f (𝜇; 𝜎 2 ; 𝑌1 ; 𝑌2 ;….;𝑌𝑛 ) = 𝑛 𝑛 𝑒𝑥𝑝−2
(2𝜋) 2 (𝜎 2 ) 2 𝜎2
1 [𝒖′ 𝒖]
1
= 𝑛 𝑛 𝑒𝑥𝑝−2
(2𝜋) 2 (𝜎 2 ) 2 𝜎2
𝑛 𝑛 1
2 ln 𝐿 = − 2 ln 2𝜋 − 2 ln 𝜎 2 − [(𝒀 − 𝑿𝜷)′ (𝒀 − 𝑿𝜷)]
2𝜎2
𝜕𝑙𝑛𝐿 1
3 = − [−2𝑿′ 𝒀 + 2𝑿′𝑿𝜷] = 0
𝜕𝜷 2𝜎 2
̂ 𝑴𝑽
𝑿′ 𝒀 = 𝑿′𝑿𝜷
̂ 𝑴𝑽 = 𝜷
𝜷 ̂ 𝑴𝑪𝑶
𝜕𝑙𝑛𝐿 𝑛 𝒖′ 𝒖
= − 2+ 4=0
𝜕𝜎 2 2𝜎 2𝜎
̂′𝒖
𝒖 ̂
̂ 2 𝑀𝑉
=𝑛
𝜎
̂′𝒖
𝒖 ̂
𝜎̂ 2 𝑀𝑉 =
𝑛
𝜎̂ 2 𝑀𝑉 ≠ 𝜎̂ 2 𝑀𝐶𝑂
̂′𝒖
𝒖 ̂ ̂′𝒖
𝒖 ̂
≠ Insesgado asintóticamente
𝑛 𝑛−𝑘
COTA DE CRAMER-RAO
Si la función de densidad de un estimador insesgado cumple ciertas condiciones de
regularidad, entonces la varianza de dicho estimador es al menos igual a:
−1
𝑑 2 𝑙𝑛𝐿
[𝐈(𝜃)]−1 = (−𝐸 [ ])
𝑑𝜃 𝟐
Donde 𝐈(𝜃) se conoce como el número informacional de Fisher. Si el estimador cumple con
la cota de Cramer-Rao entonces es un estimador eficiente.
En muestras finitas:
Si un estimador en muestras finitas cumple con la cota de Cramer-Rao, éste es el
estimador de MV.
Propiedades Asintóticas:
̂ 𝑀𝑉 = 𝜽
Consistencia: 𝑝𝑙𝑖𝑚 𝜽
Asintóticamente eficiente
Ejemplo:
Encuentre la cota de Cramer-Rao para el estimador de MV correspondiente a una
exponencial.
Sabemos que,
1
ln L = − n lnβ − 𝛽 ∑𝑛𝑖=1 𝑌𝑖 . Por lo tanto la derivada del logaritmo de la función de
verosimilitud es:
𝑑𝑙𝑛 𝐿 𝑛 ∑ 𝑌𝑖
=− +
𝑑β 𝛽 𝛽2
𝑛 2𝑛
=( ) − 𝐸(𝛽̂𝑀𝑉 )
𝛽2 𝛽3
𝑛 2𝑛
= ( 2) − 3 𝛽
𝛽 𝛽
𝑛 2𝑛
=( ) −
𝛽2 𝛽2
𝑛
=− 2
𝛽
−1
𝑑2 ln 𝐿 𝛽2
(−𝐸 [ ]) =
𝑑𝜃 2 𝑛
̂ 𝛽2
𝑉𝑎𝑟 (𝛽 𝑀𝑉 ) = 𝑛
CASO MULTIVARIANTE
−1
𝜕 2 ln 𝐿
[𝐈(𝜽)]−1 = (−𝐸 [ ])
𝜕𝜽 𝜕𝜽′
𝜕 2 ln 𝐿 𝜕 2 ln 𝐿 𝜕 2 ln 𝐿
⋯
[𝐈(𝜃)] = −𝐸 𝜕𝜃2 𝜕𝜃1 𝜕𝜃2 2 𝜕𝜃2 𝜕𝜃𝑘
⋮ ⋮ ⋱ ⋮
2 2 2
𝜕 ln 𝐿 𝜕 ln 𝐿 𝜕 ln 𝐿
⋯
𝜕𝜃𝑘 𝜕𝜃1 𝜕𝜃𝑘 𝜕𝜃2 𝜕𝜃𝑘 2
[ ]𝑘∗𝑘
𝜕𝑙𝑛 𝐿 𝑛 𝒖′𝒖
2
= − 2+
𝜕𝜎 2𝜎 2𝜎 4
𝜕 2 ln 𝐿 𝑿´𝑿
= −
𝜕𝜷𝜕𝜷′ 𝜎2
𝜕 2 ln 𝐿 𝑛 𝒖′𝒖
= −
𝜕(𝜎 2 )2 2𝜎 4 𝜎 6
∂2 ln L 𝑿´𝒖
= −
𝜕𝜷 𝜕𝜎 2 𝜎4
𝑛 𝒖′𝒖 1 𝑛
−𝐸 [ − ]= 𝐸(𝒖′ 𝒖) −
2𝜎 4 𝜎6 𝜎6 2𝜎 4
1 𝑛
= 𝑛 𝜎2 −
𝜎6 2𝜎 4
𝑛 𝑛 2𝑛−𝑛 𝑛
= − = =
𝜎4 2𝜎 4 2𝜎 4 2𝜎 4
𝑿´𝒖 1
−𝐸 [− ]= 𝐸(𝑿′ 𝒖) = 0
𝜎4 𝜎4
Finalmente:
−1
𝑿′𝑿 𝜎 2 (𝑿′ 𝑿)−1 0
2
0
[𝐈(𝜃)]−1 = [𝜎 𝑛 ] =[ 2𝜎 4 ]
0 0
2𝜎 4 𝑛
en el modelo generalizado ∑ = 𝜎 2 𝛀
1
2) 1 −
𝐿(𝜷; 𝜎 = 𝑛 𝑛 1 𝑒𝑥𝑝 2𝜎2 [(𝒀 − 𝑿𝜷)′ 𝛀−𝟏 (𝒀 − 𝑿𝜷)]
(2𝜋) 2 (𝜎 2 ) 2 |𝛀|2
Obteniendo el logaritmo:
𝑛 𝑛 1 1
ln 𝐿 = − ln(2𝜋) − ln 𝜎 2 − ln|𝛀| − 2 [(𝒀 − 𝑿𝜷)′ 𝛀−𝟏 (𝒀 − 𝑿𝜷)]
2 2 2 2𝜎
𝜕 ln 𝐿 1 𝜕[(𝒀 − 𝑿𝜷)′ 𝛀−𝟏 (𝒀 − 𝑿𝜷)]
= − 2 =0
𝜕𝜷 2𝜎 𝜕𝜷
𝜕 ln 𝐿 𝜕𝒖′𝛀−𝟏 𝒖
= = 0, pero 𝛀−𝟏 = 𝑻′𝑻
𝜕𝜷 𝜕𝜷
𝜕 ln 𝐿 𝜕𝒖′𝑻′𝑻𝒖
= = 0, sin embargo 𝒗 = 𝑻𝒖
𝜕𝜷 𝜕𝜷
𝜕 ln 𝐿 𝜕𝒗′𝒗
= = 0,
𝜕𝜷 𝜕𝜷
Lo que nos indica que el estimador de MV no es mas que un estimador de MCO del modelo
transformado, con perturbaciones 𝒗.
Conclusión: Si se conoce 𝛀, entonces el estimador de MV del modelo generalizado es
simplemente el estimador de MCG. Si no se conoce Ω entonces no necesariamente se
cumple que el estimador de MV sea igual al estimador de MCGF (Exposición No 3:
Estimación de Máxima Verosimilitud en el modelo con Heterocedasticidad y en el Modelo
con un esquema AR (1)).
TEST ASINTÓTICOS
La llamada tríada de test asintóticos está conformada por los siguientes test:
Test de la Razón de Verosimilitud
Test de Wald
Test del Multiplicador de Lagrange
En este documento, solamente revisaremos los dos primeros
ln L
∂ln L/∂θ
𝑙𝑛L̂NR
RV ∂ lnL ln L
𝑙𝑛L̂R
c(θ) Restricción
Wald
𝑀𝑉
θ̂R θ̂NR
Este test nos permite testear hipótesis tanto lineales como no lineales. Sin embargo su
aplicación se justifica únicamente en muestras grandes.
−2[lnL̂R − lnL̂NR ]
n n 𝐮
̂ ´𝐮
̂ 𝐮
̂ ´𝐮
̂∗n
ln L̂ = − ln(2π) − ln [ ]−
2 2 n 2𝐮̂ ´𝐮
̂
n n n n
ln L̂ = − ln(2π) − ln[𝐮 ̂ ] + ln n −
̂ ´𝐮
2 2 2 2
n n n n
ln L̂ = − ln(2π) + ln n − − ln(𝐮
̂ ´𝐮
̂)
⏟2 2 2 2
A
n
ln L̂ = A − ln(𝐮
̂ ´𝐮
̂)
2
Por lo tanto:
n n
−2 [A − 2 ln(𝐮
̂ ´𝐮
̂ )R − A + ln(𝐮
̂ ´𝐮
̂ )NR ]
2
RV = [n ln(𝐮 ̂ )R − n ln(𝐮
̂ ´𝐮 ̂ )NR ]
̂ ´𝐮
2. TEST DE WALD (W)
Sigue una distribución 𝜒 2 con “q” grados de libertad (Igual al número de restricciones o
hipótesis). Bajo el supuesto de normalidad 𝑊 converge en distribución a una 𝜒 2 con “q”
grados de libertad. Pero aun sin el supuesto de normalidad se puede demostrar que 𝑊 se
distribuye asintóticamente como una 𝜒 2 con “q” grados de libertad.
̂ ) − 𝐫]?
¿A qué es igual 𝑨𝒔𝒚 𝑽𝒂𝒓[𝐜(𝛃
∂𝐜(𝛃)
Donde 𝑪 =
∂𝛃´
Ejemplo:
Suponga el siguiente modelo lineal
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝛽4 𝑋4𝑖 + 𝑢𝑖
𝛽2
𝐻𝑜 : =2
𝛽3
1
(𝛽3 + 𝛽4 )2 = 5
𝛽4 = 1
Construya 𝐂
1 𝛽2
0 − 0
𝛽3 𝛽3 2
𝑪= 1 1 1 1
0 0 (𝛽3 + 𝛽4 )−2 (𝛽3 + 𝛽4 )−2
2 2
[0 0 0 1 ]
̂
̂ , por lo que usamos los 𝛃
En la práctica se trabaja con 𝑪
¿A qué se reduce el estadístico W si testeamos hipótesis lineales en una regresión lineal?
Ejemplo:
𝐻𝑜 : 𝛽2 + 𝛽3 = 2
𝛽3 = 4
𝛽4 = 0
̂ ) − 𝐫) es (𝐑𝛃
En ese caso nótese que (𝐜(𝛃 ̂ − 𝐫) y 𝐂 = 𝐑, de tal manera que
𝛽̂1
0 1 1 0 𝛽̂ 𝛽̂2 + 𝛽̂3 2 𝛽̂2 + 𝛽̂3 − 2 0
2
[0 0 1 0] ̂ = [ 𝛽̂3 ] − [4] = [ 𝛽̂3 − 4 ] = [0]
⏟0 0 0 1 𝛽3 ⏟ 𝛽̂4 ⏟
0 ⏟ 𝛽̂4 − 0 0
𝑹 [⏟̂
𝛽4 ] 𝒓
̂
𝑹𝜷 ̂ −𝒓)
(𝑹𝜷
̂
𝜷
En este caso:
𝑑
̂ − 𝐫]′ [𝐑 𝐴𝑠𝑦 𝑉𝑎𝑟(𝛃
𝑊 = [𝐑𝛃 ̂ ) 𝐑′]−1 [𝐑𝛃
̂ − 𝐫] → 𝜒 2
1
𝐹= ̂ − 𝐫]′ [𝐑 𝜎 2 𝐐−𝟏
[𝐑𝛃 ′ −1 ̂
𝐱𝐱 𝐑 ] [𝐑𝛃 − 𝐫]
𝑞
Es decir que cuando 𝑛 → ∞ el test F se puede expresar como:
1
𝐹= ̂ − 𝐫]′ [𝐑 𝐴𝑠𝑦 𝑉𝑎𝑟 (𝜷
[𝐑𝛃
⏟ ̂ )𝐑′ ]−1 [𝐑𝛃
̂ − 𝐫]
𝑞
𝑊
Con lo que finalmente, la relación entre el test F y el test de Wald está dada por:
𝑑
𝑞𝐹 → 𝜒 2 con “q” grados de libertad