Estimación Por Máxima Verosimilitud

ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
I. MÉTODO DE MÁXIMA VEROSIMILITUD
El método de Máxima Verosimilitud, popularizado por Fisher (1912), es un método potente

que genera estimadores con muy buenas propiedades asintóticas. En otras palabras, se
puede demostrar que, bajo ciertas condiciones generales, los estimadores de máxima
verosimilitud (MV) poseen propiedades interesantes, tales como, consistencia,
insesgamiento asintótico y la eficiencia asintótica (mínima varianza).
El método consiste en obtener aquellos estimadores de los parámetros que maximizan la

verosimilitud (probabilidad) de observar los datos obtenidos de la muestra. Su mayor
limitación es que requiere el conocimiento de la distribución poblacional.
Definimos a la función
L = f (𝜽; 𝑌1 ; 𝑌2 ;….; 𝑌𝑛 )
Como la función de Verosimilitud (FV)
Donde:
𝑌1 ; 𝑌2 ;.…; 𝑌𝑛 son las observaciones muestrales, que se asume son
independientes.
𝜽 Representa un vector de parámetros desconocidos.
f Representa una función de densidad conjunta para
𝑌1 ; 𝑌2 ;….; 𝑌𝑛 que se asume conocida.
Dado que se asume observaciones independientes, entonces:
𝐿 = 𝑓 (𝜃; 𝑌1 ; 𝑌2 ;….; 𝑌𝑛 ) = 𝑓 (θ; 𝑌1 ) ∗ 𝑓 (θ; 𝑌2 ) ∗ … .∗ 𝑓 (θ; 𝑌𝑛 )
PROCEDIMIENTO PARA ENCONTRAR LOS ESTIMADORES DE MV

1 Plantear la función de verosimilitud (L)
2 Obtener el logaritmo de la función de verosimilitud (ln L)
3 Derivamos (ln L) con respecto a θ e igualamos dichas derivadas a cero
4 Se resuelve el sistema de ecuaciones resultante y se obtiene 𝜃̂𝑀𝑉 .
Ejemplo 1:
Sean 𝑌1 ; 𝑌2 ;….;𝑌𝑛 observaciones muestrales independientes, provenientes de una
distribución de Poisson con parámetro λ. Encuentre el estimador de MV de λ.
Desarrollo:
1 L = f (λ; 𝑌1 ; 𝑌2 ;…;𝑌𝑛 ) = f (λ; 𝑌1 ) * f (λ; 𝑌2 ) * …. * f (λ; 𝑌𝑛 )

λ𝑌1 𝑒 −λ λ𝑌2 𝑒 −λ λ𝑌𝑛 𝑒 −λ
= * *.…*
𝑌1 ! 𝑌2 ! 𝑌𝑛 !
𝑛
λ∑𝑖=1 𝑌𝑖 𝑒 −𝑛λ
= ∏𝑛
𝑖=1 𝑌𝑖 !
2 ln L = (∑𝑛𝑖=1 𝑌𝑖 ) lnλ – nλ – ln(∏𝑛𝑖=1 𝑌𝑖 !)
𝑑𝑙𝑛 𝐿 ∑𝑛
𝑖=1 𝑌𝑖
3 = − 𝑛=0
𝑑λ λ
∑𝑛
𝑖=1 𝑌𝑖
4 ̂𝑀𝑉 = 𝑛
λ
𝑛
∑ 𝑌
λ̂𝑀𝑉 = 𝑖=1 𝑖
𝑛
λ̂𝑀𝑉 = 𝑌̅
Ejemplo 2:
Sea 𝑌1 ; 𝑌2 ;….;𝑌𝑛 observaciones muestrales independientes, provenientes de una
distribución exponencial con parámetro β. Encuentre el estimador de MV de β.
Desarrollo:
1 L = f (β; 𝑌1 ; 𝑌2 ;…;𝑌𝑛 ) = f (β; 𝑌1) * f (β; 𝑌2 ) *…. * f (β; 𝑌𝑛 )
𝑌 𝑌 𝑌
1 − 1 1 − 2 1 − 𝑛
= 𝑒 𝛽 * 𝑒 𝛽 *.…* 𝑒 𝛽
𝛽 𝛽 𝛽
1
1 − ∑𝑛 𝑌
= 𝑒 𝛽 𝑖=1 𝑖
β𝑛
1
2 ln L = − n lnβ − ∑𝑛 𝑌
𝛽 𝑖=1 𝑖
𝑑𝑙𝑛 𝐿 𝑛 ∑ 𝑌𝑖
3 =− + =0
𝑑β 𝛽 𝛽2
1 ∑ 𝑌𝑖
4 − (𝑛 − )=0
𝛽 𝛽
∑𝑌
𝛽̂𝑀𝑉 = 𝑖 = 𝑌̅
𝑛
Ejemplo 3:
Sean 𝑌1 ; 𝑌2 ;….;𝑌𝑛 observaciones muestrales independientes obtenidas de la siguiente
función de densidad.
𝑦
1
f (y) 𝑦 𝑒 −𝜃 , Y>0
𝜃2
0, c.o.v
Encuentre el estimador de MV de θ.
𝑌1 𝑌2 𝑌𝑛
1 1 1
1 𝐿= 𝑌1 𝑒 − 𝜃 ∗ 𝑌2 𝑒 − 𝜃 ∗ … .∗ 𝑌𝑛 𝑒 − 𝜃
𝜃2 𝜃2 𝜃2
1
1 − ∑𝑛 𝑌
= ∏𝑛𝑖=1 𝑌𝑖 𝑒 𝜃 𝑖=1 𝑖
𝜃2𝑛
1
2 ln L = −2n ln θ + ∑ni=1 ln Yi − ∑ni=1 Yi
θ
dln L −2n ∑n
i=1 Yi
3 = + =0
dθ θ θ2
∑n
i=1 Yi
4 ̂ = 2n
θMV
∑ n
Y
θ̂MV = i=1 i
2n
LA DISTRIBUCIÓN NORMAL MULTIVARIANTE

La función de densidad conjunta normal para 𝑌1 ; 𝑌2 ;….;𝑌𝑛 está dada por:
1
1
f (𝑌1 ; 𝑌2 ;….;𝑌𝑛 ) = 𝑛 1 𝑒𝑥𝑝−2 [(𝒀 − 𝝁)′ 𝚺−𝟏 (𝒀 − 𝝁)]
(2𝜋) 2 |𝚺|2
Donde:
𝚺 Representa la matriz varianzas-covarianzas.

𝝁 Representa el vector de medias.
Si 𝑌1 ; 𝑌2 ;….;𝑌𝑛 son variables aleatorias independientes y si tienen media y varianza común
(varianza homocedástica), entonces:
𝚺 = 𝜎2 𝐈
|𝚺| = |𝜎 2 𝐈| = 𝜎 2𝑛
1
𝚺−1 = (𝜎 2 𝐈)−1 = 𝐈
𝜎2
1 [(𝒀−𝝁)′ (𝒀−𝝁)]
1
f (𝑌1 ; 𝑌2 ;….;𝑌𝑛 ) = 𝑛 𝑛 𝑒𝑥𝑝−2
(2𝜋) 2 (𝜎 2 ) 2 𝜎2
1 𝟐
1 − [Ʃ(𝑌𝑖 −𝜇 ) ]
f (𝑌1 ; 𝑌2 ;….;𝑌𝑛 ) = 𝑛 𝑛 𝑒𝑥𝑝 2
(2𝜋) 2 (𝜎 2 ) 2 𝜎2
Nótese que:
1 [(𝑌1 − 𝜇)𝟐 ] 1 [(𝑌2 − 𝜇)𝟐 ]
1 1
f (𝜇; 𝜎 2 ; 𝑌1 ; 𝑌2 ;….;𝑌𝑛 ) = 1 1 𝑒𝑥𝑝−2 ∗ 1 1 𝑒𝑥𝑝−2 ∗
𝜎2 𝜎2
(2𝜋)2 (𝜎2 )2 (2𝜋)2 (𝜎2 )2
1
1 [(𝑌𝑛 − 𝜇)𝟐 ]
… . .∗ 1 1 𝑒𝑥𝑝−2 𝜎2
(2𝜋)2 (𝜎2 )2
1 [Ʃ(𝑌𝑖 − 𝜇)𝟐 ]
1
f (𝜇; 𝜎 2 ; 𝑌1 ; 𝑌2 ;….;𝑌𝑛 ) = 𝑛 𝑛 𝑒𝑥𝑝−2
(2𝜋) 2 (𝜎 2 ) 2 𝜎2
ESTIMACIÓN EN EL MODELO CLÁSICO DE MV

𝒀 = 𝑿𝜷 + 𝒖, considerando que 𝑢𝑖 se distribuye normalmente y asumiendo
homocedasticidad y no autocorrelación, la función de densidad conjunta esta dada por:
1 [𝒖′ 𝒖]
1
f (𝑢1 ; 𝑢2 ;….;𝑢𝑛 ) = 𝑛 𝑛 𝑒𝑥𝑝−2
(2𝜋) 2 (𝜎 2 ) 2 𝜎2
Luego, es fácilmente demostrable que 𝑓(𝑢1 ; 𝑢2 ; … ; 𝑢𝑛 ) = 𝑓(𝑌1 ; 𝑌2 ;….;𝑌𝑛 ) Por lo tanto:

1 𝐿 = 𝑓(𝜷; 𝜎 2 ; 𝑌1 ; 𝑌2 ; … ; 𝑌𝑛 )
1 [𝒖′ 𝒖]
1
= 𝑛 𝑛 𝑒𝑥𝑝−2
(2𝜋) 2 (𝜎 2 ) 2 𝜎2
𝑛 𝑛 1
2 ln 𝐿 = − 2 ln 2𝜋 − 2 ln 𝜎 2 − [(𝒀 − 𝑿𝜷)′ (𝒀 − 𝑿𝜷)]
2𝜎2
𝜕𝑙𝑛𝐿 1
3 = − [−2𝑿′ 𝒀 + 2𝑿′𝑿𝜷] = 0
𝜕𝜷 2𝜎 2
̂ 𝑴𝑽
𝑿′ 𝒀 = 𝑿′𝑿𝜷
̂ 𝑴𝑽 = (𝑿′ 𝑿)−𝟏 𝑿′𝒀

𝜷
̂ 𝑴𝑽 = 𝜷
𝜷 ̂ 𝑴𝑪𝑶
𝜕𝑙𝑛𝐿 𝑛 𝒖′ 𝒖
= − 2+ 4=0
𝜕𝜎 2 2𝜎 2𝜎
Simplificando, y remplazando 𝒖′ 𝒖 por 𝒖

̂′𝒖
̂
̂′𝒖
𝒖 ̂
̂ 2 𝑀𝑉
=𝑛
𝜎
̂′𝒖
𝒖 ̂
𝜎̂ 2 𝑀𝑉 =
𝑛
𝜎̂ 2 𝑀𝑉 ≠ 𝜎̂ 2 𝑀𝐶𝑂
̂′𝒖
𝒖 ̂ ̂′𝒖
𝒖 ̂
≠ Insesgado asintóticamente
𝑛 𝑛−𝑘
COTA DE CRAMER-RAO
Si la función de densidad de un estimador insesgado cumple ciertas condiciones de
regularidad, entonces la varianza de dicho estimador es al menos igual a:
−1
𝑑 2 𝑙𝑛𝐿
[𝐈(𝜃)]−1 = (−𝐸 [ ])
𝑑𝜃 𝟐
Donde 𝐈(𝜃) se conoce como el número informacional de Fisher. Si el estimador cumple con
la cota de Cramer-Rao entonces es un estimador eficiente.
PROPIEDADES DE LOS ESTIMADORES DE MV
 En muestras finitas:
Si un estimador en muestras finitas cumple con la cota de Cramer-Rao, éste es el
estimador de MV.
 Propiedades Asintóticas:
Invarianza: El estimador de máxima verosimilitud (MV) de una función de 𝜽, g (𝜽),

̂ 𝑀𝑉 .
es simplemente la función evaluada en el estimador de MV de , 𝜽
̂ )] = 𝑔(𝜽
[𝑔(𝜽 ̂ 𝑀𝑉 )
𝑀𝑉
̂ 𝑀𝑉 = 𝜽
Consistencia: 𝑝𝑙𝑖𝑚 𝜽
El estimador de MV se distribuye asintóticamente como una normal.

𝑎
̂ 𝑀𝑉 → 𝑁 [𝜽; [𝐈(𝜽)]−1 ]
𝜽
Asintóticamente insesgado
Asintóticamente eficiente
Ejemplo:
Encuentre la cota de Cramer-Rao para el estimador de MV correspondiente a una
exponencial.
Sabemos que,
1
ln L = − n lnβ − 𝛽 ∑𝑛𝑖=1 𝑌𝑖 . Por lo tanto la derivada del logaritmo de la función de
verosimilitud es:
𝑑𝑙𝑛 𝐿 𝑛 ∑ 𝑌𝑖
=− +
𝑑β 𝛽 𝛽2
y su segunda derivada está dada por

𝑑 2 𝑙𝑛 𝐿 𝑛 2 ∑ 𝑌𝑖
= −
𝑑β2 𝛽2 𝛽3
𝑑2 ln 𝐿 𝑛 2𝑛 ∑ 𝑌𝑖
𝐸[ 2
] = 𝐸 ( 2) − 3 𝐸 [ ]
𝑑𝛽 𝛽 𝛽 𝑛
𝑛 2𝑛
=( ) − 𝐸(𝛽̂𝑀𝑉 )
𝛽2 𝛽3
𝑛 2𝑛
= ( 2) − 3 𝛽
𝛽 𝛽
𝑛 2𝑛
=( ) −
𝛽2 𝛽2
𝑛
=− 2
𝛽
−1
𝑑2 ln 𝐿 𝛽2
(−𝐸 [ ]) =
𝑑𝜃 2 𝑛
̂ 𝛽2
𝑉𝑎𝑟 (𝛽 𝑀𝑉 ) = 𝑛
CASO MULTIVARIANTE
−1
𝜕 2 ln 𝐿
[𝐈(𝜽)]−1 = (−𝐸 [ ])
𝜕𝜽 𝜕𝜽′
Suponiendo “k” parámetros podemos representarlo así:

𝜕 2 ln 𝐿 𝜕 2 ln 𝐿 𝜕 2 ln 𝐿
⋯
𝜕𝜃1 2 𝜕𝜃1 𝜕𝜃2 𝜕𝜃1 𝜕𝜃𝑘
𝜕 2 ln 𝐿 𝜕 2 ln 𝐿 𝜕 2 ln 𝐿
⋯
[𝐈(𝜃)] = −𝐸 𝜕𝜃2 𝜕𝜃1 𝜕𝜃2 2 𝜕𝜃2 𝜕𝜃𝑘
⋮ ⋮ ⋱ ⋮
2 2 2
𝜕 ln 𝐿 𝜕 ln 𝐿 𝜕 ln 𝐿
⋯
𝜕𝜃𝑘 𝜕𝜃1 𝜕𝜃𝑘 𝜕𝜃2 𝜕𝜃𝑘 2
[ ]𝑘∗𝑘
Matriz 𝑆𝑖𝑚é𝑡𝑟𝑖𝑐𝑎 → 𝑇𝑒𝑜𝑟𝑒𝑚𝑎 𝑑𝑒 𝑌𝑜𝑢𝑛𝑔
Obtención de la Cota de Cramer-Rao en el Modelo Clásico

𝑛 𝑛 1
ln 𝐿 = − ln(2𝜋) − ln 𝜎 2 {− [(𝒀 − 𝑿𝜷)′ (𝒀 − 𝑿𝜷)]}
2 2 2𝜎 2
𝜕𝑙𝑛 𝐿 1 ′ ′
𝑿′ [𝒀 − 𝑿𝜷] 𝑿′ 𝒖
=− [−𝟐𝑿 𝒀 + 𝟐𝑿 𝑿𝜷] = =
𝜕𝜷 2𝜎 2 𝜎2 𝜎2
𝜕𝑙𝑛 𝐿 𝑛 𝒖′𝒖
2
= − 2+
𝜕𝜎 2𝜎 2𝜎 4
𝜕 2 ln 𝐿 𝑿´𝑿
= −
𝜕𝜷𝜕𝜷′ 𝜎2
𝜕 2 ln 𝐿 𝑛 𝒖′𝒖
= −
𝜕(𝜎 2 )2 2𝜎 4 𝜎 6
∂2 ln L 𝑿´𝒖
= −
𝜕𝜷 𝜕𝜎 2 𝜎4
Obteniendo las esperanzas con signo cambiado:

𝑿′ 𝑿 𝑿′ 𝑿
 −𝐸 [– 2
]=
𝜎 𝜎2
𝑛 𝒖′𝒖 1 𝑛
 −𝐸 [ − ]= 𝐸(𝒖′ 𝒖) −
2𝜎 4 𝜎6 𝜎6 2𝜎 4
1 𝑛
= 𝑛 𝜎2 −
𝜎6 2𝜎 4
𝑛 𝑛 2𝑛−𝑛 𝑛
= − = =
𝜎4 2𝜎 4 2𝜎 4 2𝜎 4
𝑿´𝒖 1
 −𝐸 [− ]= 𝐸(𝑿′ 𝒖) = 0
𝜎4 𝜎4
Finalmente:
−1
𝑿′𝑿 𝜎 2 (𝑿′ 𝑿)−1 0
2
0
[𝐈(𝜃)]−1 = [𝜎 𝑛 ] =[ 2𝜎 4 ]
0 0
2𝜎 4 𝑛
ESTIMACIÓN DE MV EN EL MODELO GENERALIZADO

Partimos de que
1
1
𝐿(𝜷; 𝜎 2 ) = 𝑛 1 𝑒𝑥𝑝−2 [(𝒀 − 𝑿𝜷)′ 𝚺 −𝟏 (𝒀 − 𝑿𝜷)]
(2𝜋) 2 |𝚺|2
en el modelo generalizado ∑ = 𝜎 2 𝛀
1
2) 1 −
𝐿(𝜷; 𝜎 = 𝑛 𝑛 1 𝑒𝑥𝑝 2𝜎2 [(𝒀 − 𝑿𝜷)′ 𝛀−𝟏 (𝒀 − 𝑿𝜷)]
(2𝜋) 2 (𝜎 2 ) 2 |𝛀|2
Obteniendo el logaritmo:
𝑛 𝑛 1 1
ln 𝐿 = − ln(2𝜋) − ln 𝜎 2 − ln|𝛀| − 2 [(𝒀 − 𝑿𝜷)′ 𝛀−𝟏 (𝒀 − 𝑿𝜷)]
2 2 2 2𝜎
𝜕 ln 𝐿 1 𝜕[(𝒀 − 𝑿𝜷)′ 𝛀−𝟏 (𝒀 − 𝑿𝜷)]
= − 2 =0
𝜕𝜷 2𝜎 𝜕𝜷
𝜕 ln 𝐿 𝜕𝒖′𝛀−𝟏 𝒖
= = 0, pero 𝛀−𝟏 = 𝑻′𝑻
𝜕𝜷 𝜕𝜷
𝜕 ln 𝐿 𝜕𝒖′𝑻′𝑻𝒖
= = 0, sin embargo 𝒗 = 𝑻𝒖
𝜕𝜷 𝜕𝜷
𝜕 ln 𝐿 𝜕𝒗′𝒗
= = 0,
𝜕𝜷 𝜕𝜷
Lo que nos indica que el estimador de MV no es mas que un estimador de MCO del modelo
transformado, con perturbaciones 𝒗.
Conclusión: Si se conoce 𝛀, entonces el estimador de MV del modelo generalizado es
simplemente el estimador de MCG. Si no se conoce Ω entonces no necesariamente se
cumple que el estimador de MV sea igual al estimador de MCGF (Exposición No 3:
Estimación de Máxima Verosimilitud en el modelo con Heterocedasticidad y en el Modelo
con un esquema AR (1)).
TEST ASINTÓTICOS
La llamada tríada de test asintóticos está conformada por los siguientes test:
 Test de la Razón de Verosimilitud
 Test de Wald
 Test del Multiplicador de Lagrange
En este documento, solamente revisaremos los dos primeros
ln L
∂ln L/∂θ
𝑙𝑛L̂NR
RV ∂ lnL ln L
𝑙𝑛L̂R
c(θ) Restricción
Wald
𝑀𝑉
θ̂R θ̂NR
1. TEST DE LA RAZÓN DE VEROSIMILITUD (RV)
Este test nos permite testear hipótesis tanto lineales como no lineales. Sin embargo su
aplicación se justifica únicamente en muestras grandes.
Supondremos el modelo no restringido (NR) y el modelo restringido (R). Sean 𝛃̂ NR y 𝛃̂R

los estimadores de MV, del modelo no restringido y restringido, respectivamente, y sean
L̂NR y L̂R las funciones de verosimilitud no restringida y restringida.
̂
L
Sea λ=̂R A este coeficiente se lo conoce como la “RAZÓN DE VEROSIMILITUD”;
LNR
Nótese que siempre se cumplirá que 0 < 𝜆 ≤ 1 , ya que L̂R ≤ L̂NR
Si 𝜆 es cercano a 1, existe evidencia de que las restricciones son válidas; mientras que lo
contrario sucede a medida que 𝜆 se aleja de 1. Por lo tanto un valor de 𝜆 cercano a uno
constituye evidencia para no rechazar la hipótesis nula.
El estadístico −𝟐 𝐥𝐧 𝝀 sigue una distribución 𝜒 2 con “q” grados de libertad, donde q es el
número de restricciones.
También podemos escribir:
−2[lnL̂R − lnL̂NR ]
¿Qué sucede si suponemos densidades normales?

Por ejemplo el MCRL con perturbaciones normales.
𝑛 𝑛 1
ln L̂ = − ln(2𝜋) − lnσ
̂2 − ̂2
𝐮
̂ ′𝐮
̂ , sabemos que
2 2 2𝜎
𝐮
̂ ´𝐮
̂
̂2MV =
σ , por lo tanto
n
n n 𝐮
̂ ´𝐮
̂ 𝐮
̂ ´𝐮
̂∗n
ln L̂ = − ln(2π) − ln [ ]−
2 2 n 2𝐮̂ ´𝐮
̂
n n n n
ln L̂ = − ln(2π) − ln[𝐮 ̂ ] + ln n −
̂ ´𝐮
2 2 2 2
n n n n
ln L̂ = − ln(2π) + ln n − − ln(𝐮
̂ ´𝐮
̂)
⏟2 2 2 2
A
n
ln L̂ = A − ln(𝐮
̂ ´𝐮
̂)
2
Por lo tanto:
n n
−2 [A − 2 ln(𝐮
̂ ´𝐮
̂ )R − A + ln(𝐮
̂ ´𝐮
̂ )NR ]
2
RV = [n ln(𝐮 ̂ )R − n ln(𝐮
̂ ´𝐮 ̂ )NR ]
̂ ´𝐮
2. TEST DE WALD (W)
Suponga que 𝛃 ̂ NR el vector de estimadores del modelo no restringido. Dado un conjunto

de restricciones (hipótesis), estas se pueden escribir como:
𝐻0 : 𝐜(𝛃) − 𝐫 = 𝟎
Es importante recalcar que las hipótesis que pueden ser lineales y no lineales. El test de
Wald se basa en la idea de que si las restricciones son válidas, entonces 𝛃 ̂ NR debería
satisfacer al menos aproximadamente dichas restricciones, es decir que 𝑐(𝛃 ̂ ) − 𝐫 sea
cercano a cero.
El estadístico
̂ ) − 𝐫]′ [𝐴𝑠𝑦 𝑉𝑎𝑟 (𝐜(𝛃

𝑊 = [𝐜(𝛃 ̂ ) − 𝐫)]−1 [𝐜(𝛃
̂ ) − 𝐫]
Sigue una distribución 𝜒 2 con “q” grados de libertad (Igual al número de restricciones o
hipótesis). Bajo el supuesto de normalidad 𝑊 converge en distribución a una 𝜒 2 con “q”
grados de libertad. Pero aun sin el supuesto de normalidad se puede demostrar que 𝑊 se
distribuye asintóticamente como una 𝜒 2 con “q” grados de libertad.
̂ ) − 𝐫]?
¿A qué es igual 𝑨𝒔𝒚 𝑽𝒂𝒓[𝐜(𝛃
Utilizando series de Taylor se puede demostrar que:

̂ ) − 𝐫] = 𝑪[𝐴𝑠𝑦 𝑉𝑎𝑟(𝛃
𝐴𝑠𝑦 𝑉𝑎𝑟[𝐜(𝛃 ̂ )]𝐂′
∂𝐜(𝛃)
Donde 𝑪 =
∂𝛃´
Reemplazando este resultado, obtenemos:
̂ ) − 𝐫]′ [𝐂 𝐴𝑠𝑦 𝑉𝑎𝑟(𝛃

𝑊 = [𝐜(𝛃 ̂ ) 𝐂′]−1 [𝐜(𝛃
̂ ) − 𝐫]
Ejemplo:
Suponga el siguiente modelo lineal
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝛽4 𝑋4𝑖 + 𝑢𝑖
𝛽2
𝐻𝑜 : =2
𝛽3
1
(𝛽3 + 𝛽4 )2 = 5
𝛽4 = 1
Construya 𝐂
1 𝛽2
0 − 0
𝛽3 𝛽3 2
𝑪= 1 1 1 1
0 0 (𝛽3 + 𝛽4 )−2 (𝛽3 + 𝛽4 )−2
2 2
[0 0 0 1 ]
̂
̂ , por lo que usamos los 𝛃
En la práctica se trabaja con 𝑪
¿A qué se reduce el estadístico W si testeamos hipótesis lineales en una regresión lineal?
Ejemplo:
𝐻𝑜 : 𝛽2 + 𝛽3 = 2
𝛽3 = 4
𝛽4 = 0
̂ ) − 𝐫) es (𝐑𝛃
En ese caso nótese que (𝐜(𝛃 ̂ − 𝐫) y 𝐂 = 𝐑, de tal manera que
𝛽̂1
0 1 1 0 𝛽̂ 𝛽̂2 + 𝛽̂3 2 𝛽̂2 + 𝛽̂3 − 2 0
2
[0 0 1 0] ̂ = [ 𝛽̂3 ] − [4] = [ 𝛽̂3 − 4 ] = [0]
⏟0 0 0 1 𝛽3 ⏟ 𝛽̂4 ⏟
0 ⏟ 𝛽̂4 − 0 0
𝑹 [⏟̂
𝛽4 ] 𝒓
̂
𝑹𝜷 ̂ −𝒓)
(𝑹𝜷
̂
𝜷
En este caso:
𝑑
̂ − 𝐫]′ [𝐑 𝐴𝑠𝑦 𝑉𝑎𝑟(𝛃
𝑊 = [𝐑𝛃 ̂ ) 𝐑′]−1 [𝐑𝛃
̂ − 𝐫] → 𝜒 2
Con “q” grados de libertad para hipótesis lineales.

Nótese que 𝑊 ≠ 𝐹 ya que el test Rβ utiliza una distribución F de Fisher y supone
normalidad. Por otro lado, el test 𝑊 sólo es válido para n grandes
¿Cómo se relaciona 𝝌𝟐 con la F?

Recuérdese que:
̂ − 𝐫]′ [𝐑 𝜎̂ 2 (𝐗´𝐗)−𝟏 𝐑′]−1[𝐑𝛃
[𝐑𝛃 ̂ − 𝐫]
F=
𝐪
1
Reordenando términos y multiplicando el numerador y denominador por 𝜎2 obtenemos
̂ − 𝐫]′ [𝐑 𝜎 2 (𝐗´𝐗)−𝟏 𝐑′ ]−1 [𝐑𝛃
[𝐑𝛃 ̂ − 𝐫]
F=
𝜎̂ 2
( 2) 𝐪
𝜎
¿Qué sucede si 𝑛 → ∞ con el test F?
𝜎̂ 2 𝑝𝑙𝑖𝑚 𝜎̂ 2 𝜎2
𝑝𝑙𝑖𝑚 ( 2 ) = = =1
𝜎 𝜎2 𝜎2
𝑝𝑙𝑖𝑚 𝜎 2 (X′X)−1 = 𝜎 2 𝐐−𝟏

𝐱𝐱
1
𝐹= ̂ − 𝐫]′ [𝐑 𝜎 2 𝐐−𝟏
[𝐑𝛃 ′ −1 ̂
𝐱𝐱 𝐑 ] [𝐑𝛃 − 𝐫]
𝑞
Es decir que cuando 𝑛 → ∞ el test F se puede expresar como:
1
𝐹= ̂ − 𝐫]′ [𝐑 𝐴𝑠𝑦 𝑉𝑎𝑟 (𝜷
[𝐑𝛃
⏟ ̂ )𝐑′ ]−1 [𝐑𝛃
̂ − 𝐫]
𝑞
𝑊
Con lo que finalmente, la relación entre el test F y el test de Wald está dada por:
𝑑
𝑞𝐹 → 𝜒 2 con “q” grados de libertad

Estimación Por Máxima Verosimilitud

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estimación Por Máxima Verosimilitud

Cargado por

Copyright:

Formatos disponibles

ESTIMACIÓN POR MÁXIMA VEROSIMILITUD

I. MÉTODO DE MÁXIMA VEROSIMILITUD

El método de Máxima Verosimilitud, popularizado por Fisher (1912), es un método potente

El método consiste en obtener aquellos estimadores de los parámetros que maximizan la

PROCEDIMIENTO PARA ENCONTRAR LOS ESTIMADORES DE MV

1 L = f (λ; 𝑌1 ; 𝑌2 ;…;𝑌𝑛 ) = f (λ; 𝑌1 ) * f (λ; 𝑌2 ) * …. * f (λ; 𝑌𝑛 )

2 ln L = (∑𝑛𝑖=1 𝑌𝑖 ) lnλ – nλ – ln(∏𝑛𝑖=1 𝑌𝑖 !)

LA DISTRIBUCIÓN NORMAL MULTIVARIANTE

𝚺 Representa la matriz varianzas-covarianzas.

ESTIMACIÓN EN EL MODELO CLÁSICO DE MV

Luego, es fácilmente demostrable que 𝑓(𝑢1 ; 𝑢2 ; … ; 𝑢𝑛 ) = 𝑓(𝑌1 ; 𝑌2 ;….;𝑌𝑛 ) Por lo tanto:

̂ 𝑴𝑽 = (𝑿′ 𝑿)−𝟏 𝑿′𝒀

Simplificando, y remplazando 𝒖′ 𝒖 por 𝒖

PROPIEDADES DE LOS ESTIMADORES DE MV

Invarianza: El estimador de máxima verosimilitud (MV) de una función de 𝜽, g (𝜽),

El estimador de MV se distribuye asintóticamente como una normal.

y su segunda derivada está dada por

Suponiendo “k” parámetros podemos representarlo así:

Matriz 𝑆𝑖𝑚é𝑡𝑟𝑖𝑐𝑎 → 𝑇𝑒𝑜𝑟𝑒𝑚𝑎 𝑑𝑒 𝑌𝑜𝑢𝑛𝑔

Obtención de la Cota de Cramer-Rao en el Modelo Clásico

Obteniendo las esperanzas con signo cambiado:

ESTIMACIÓN DE MV EN EL MODELO GENERALIZADO

1. TEST DE LA RAZÓN DE VEROSIMILITUD (RV)

Supondremos el modelo no restringido (NR) y el modelo restringido (R). Sean 𝛃̂ NR y 𝛃̂R

¿Qué sucede si suponemos densidades normales?

Suponga que 𝛃 ̂ NR el vector de estimadores del modelo no restringido. Dado un conjunto

̂ ) − 𝐫]′ [𝐴𝑠𝑦 𝑉𝑎𝑟 (𝐜(𝛃

Utilizando series de Taylor se puede demostrar que:

Reemplazando este resultado, obtenemos:

̂ ) − 𝐫]′ [𝐂 𝐴𝑠𝑦 𝑉𝑎𝑟(𝛃

Con “q” grados de libertad para hipótesis lineales.

¿Cómo se relaciona 𝝌𝟐 con la F?

𝑝𝑙𝑖𝑚 𝜎 2 (X′X)−1 = 𝜎 2 𝐐−𝟏

También podría gustarte