Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Maxima Verosimilitud
Maxima Verosimilitud
ECONOMÍA
ECONOMETRÍA 2
TEMA
Índice
1. Introducción 5
8. Optimización Numérica 75
8.1. Método Grid Search (Búsqueda en Malla) . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.1.1. Características de los Algoritmos de Maximización Numérica . . . . . . . . . . . 84
8.2. Método Steepest Ascent (Ascenso Empinado) . . . . . . . . . . . . . . . . . . . . . . . 85
8.3. Método Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
1. Introducción
Modelo Econométrico
Sea un ARMA(p, q)
Yt = c + φYt−1 + · · · + φp Yt−p + t + θ1 t−1 + · · · + θq t−q
donde:
• t es un ruido blanco
E [t ] = 0
(
σ2 para t = τ
cov [t , τ ] = E [t τ ] =
0 en otro caso
Dada una muestra de Yt de tamaño T , (y1 , y2 , . . . , yT ), se desea obtener una estimación del vector
θ por el método de Estimación por Máxima Verosimilitud (MLE1 , por sus siglas en inglés).
1
Maximum Likelihood Estimation
yt
y4
yT
y2
y1 y3
1 2 3 4 t T
Yt = c + φYt−1 + t
2
con t ∼ iid N 0, σ
Variable aleatoria: Y1
Y1 ∼ N µ1 , σ12
y1
1 2 3 4 t T
Y1
N (µ1 , σ12 )
c
Media : µ1 ≡ E [Y1 ] =
1−φ
1
2
Varianaza : σ1 ≡ var [Y1 ] = σ2
1 − φ2
Por lo tanto, la densidad de Y1 (no condicionada) es
2 !
1 1 y1 − µ1
fY1 (y1 ; θ) = √ exp −
σ1 2π 2 σ1
reemplazando
2
c
s
1 1− φ2 y1 − 1−φ
fY1 (y1 ; θ) = √ exp − (2)
σ2
2π 1 2
2 1−φ2 σ
y2
y1
1 2 3 4 t T
Y1 Y2 |Y1
N (µ1 , σ12 ) N (µ2 , σ22 )
reemplazando
2 !
1 1 y2 − c − φy1
fY2 |Y1 (y2 |y1 ; θ) = √ exp −
σ 2π 2 σ
y2
y1 y3
1 2 3 4 t T
Y1 Y2 |Y1 Y3 |Y2 , Y1
N (µ1 , σ12 ) N (µ2 , σ22 ) N (µ3 , σ32 )
reemplazando
2 !
1 1 y3 − c − φy2
fY3 |Y2 ,Y1 (y3 |y2 , y1 ; θ) = √ exp − = fY3 |Y2 (y3 |y2 ; θ)
σ 2π 2 σ
y4
y2
y1 y3
1 2 3 4 t T
Y1 Y2 |Y1 Y3 |Y2 , Y1 Y4 |Y3 , Y2 , Y1
N (µ1 , σ12 ) N (µ2 , σ22 ) N (µ3 , σ32 ) N (µ4 , σ42 )
reemplazando
2 !
1 1 y4 − c − φy3
fY4 |Y3 ,Y2 ,Y1 (y4 |y3 , y2 , y1 ; θ) = √ exp − = fY4 |Y3 (y4 |y3 ; θ)
σ 2π 2 σ
yt
y4
y2
y1 y3
1 2 3 4 t T
Y1 Y2 |Y1 Y3 |Y2 , Y1 Y4 |Y3 , Y2 , Y1 Yt |Yt−1 , Yt−2 , . . . , Y1
N (µ1 , σ12 ) N (µ2 , σ22 ) N (µ3 , σ32 ) N (µ4 , σ42 ) N (µt , σt2 )
yt
y4
yT
y2
y1 y3
1 2 3 4 t T
Y1 Y2 |Y1 Y3 |Y2 , Y1 Y4 |Y3 , Y2 , Y1 Yt |Yt−1 , Yt−2 , . . . , Y1 YT |YT −1 , YT −2 , . . . , Y1
N (µ1 , σ12 ) N (µ2 , σ22 ) N (µ3 , σ32 ) N (µ4 , σ42 ) N (µt , σt2 ) N (µT , σT2 )
2 !
1 1 yT − c − φyT −1
fYT |YT −1 ,YT −2 ,...,Y1 (yT |yT −1 , yT −2 , . . . , y1 ; θ) = √ exp − = fYT |YT −1 (yT |yT −1 ; θ)
σ 2π 2 σ
Función de Verosimilitud
La función de verosimilitud de la muestra completa (densidad conjunta de las T observaciones)
es la función de densidad conjunta de haber observado la muestra (y1 , y2 , . . . , yT )
fYT ,YT −1 ,...,Y2 ,Y1 (yT , yT −1 , . . . , y2 , y1 ; θ)
Función de Log-Verosimilitud
La función log-verosimilitud, denotado como L(θ), se define como
Para nuestro ejemplo, Como el proceso que sigue {Yt } es un AR(1), entonces
Yt |Yt−1 , . . . , Y1 ≡ Yt |Yt−1
por lo tanto:
Desarrollando el término de la sumatoria del segundo término del lado derecho en (3)
(yt − c − φyt−1 )2
!!
1
log fYt |Yt−1 (yt |yt−1 ; θ) = log √ √ exp −
σ 2 · 2π 2σ 2
1 1 (yt − c − φyt−1 )2
= − log σ 2 − log (2π) −
2 2 2σ 2
Por lo tanto, el segundo término del lado derecho en (3) se reduce a
T T
(yt − c − φyt−1 )2
" #
X X 1 1
log fYt |Yt−1 (yt |yt−1 ; θ) = − log σ 2 − log (2π) −
t=2 t=2
2 2 2σ 2
T
(yt − c − φyt−1 )2
" #
1 1
X
= − log σ 2 − log (2π) (T − 1) −
2 2 t=2
2σ 2
Reemplazando
2
c
y1 −
!
1 1 σ2 1−φ
L(θ) = − log (2π) − log −
2 2 1 − φ2 2 1
σ2
1−φ2
T
T −1 T −1 1 X
− log σ 2 − log (2π) − 2 (yt − c − φyt−1 )2
2 2 2σ t=2
simplificando
T T 1
L(θ) = − log (2π) − log σ 2 + log 1 − φ2
2 2 2
2 T
1 c 1 X
− 2 1 − φ2 y1 − − 2 (yt − c − φyt−1 )2 . (4)
2σ 1−φ 2σ t=2
1
LT (θ) = L(θ)
T
Resumen
1. Datos
{yt }Tt=1 = {y1 , y2 , . . . , yT }
3. Funciones de densidad
Para t = 1, la función de densidad no condicionada de Y1 es
2 ! (
1 1 y1 − µ1 µ1 = c/ (1 − φ)
fY1 (y1 ; θ) = √ exp − con :
σ1 2π 2 σ1 σ12 = σ 2 / 1 − φ2
4. Función de Verosimilitud
Definición:
T
Y
fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) = fY1 (y1 ; θ) · fYt |Yt−1 ,...,Y1 (yt |yt−1 , . . . , y1 ; θ)
t=2
5. Función de Log-Verosimilitud
La Función de Log-Verosimilitud por definición es
Definición:
1
LT (θ) = L(θ)
T
Aplicando a la definición de Función de Log-Verosimilitud
T
" #
1 X
LT (θ) = log fY1 (y1 ; θ) + log fYt |Yt−1 ,...,Y1 (yt |yt−1 , . . . , y1 ; θ)
T t=2
donde
Prueba
(Y1 − µ)
0
(Y2 − µ)
Ω = var [Y] = E (Y − µ) (Y − µ) = E (Y1 − µ) (Y2 − µ) · · · (YT − µ)
..
T ×T .
(YT − µ)
2
(Y1 − µ) (Y1 − µ) (Y2 − µ) ··· (Y1 − µ) (YT − µ)
2
(Y2 − µ) (Y1 − µ) (Y2 − µ) ··· (Y2 − µ) (YT − µ)
=E
.. .. .. ..
. . . .
2
(YT − µ) (Y1 − µ) (YT − µ) (Y2 − µ) · · · (YT − µ)
h i
2
E (Y1 − µ) E [(Y1 − µ) (Y2 − µ)] ··· E [(Y1 − µ) (YT − µ)]
h i
2
E [(Y2 − µ) (Y1 − µ)] E (Y2 − µ) ··· E [(Y2 − µ) (YT − µ)]
= .. .. ..
..
. . . .
h i
2
E [(YT − µ) (Y1 − µ)] E [(YT − µ) (Y2 − µ)] ··· E (YT − µ)
γ0 γ1 ··· γT −1
γ1 γ0 ··· γT −2
=
.. .. .. ..
. . . .
γT −1 γT −2 ··· γ0
Sea una muestra observada (conjunto de T observaciones) o realización del vector aleatorio Gaus-
siano Y
T ×1
y ≡ (y1 , y2 , . . . , yT )0
T ×1
T 1 1
L (θ) = − log (2π) + log Ω−1 − (y − µ)0 Ω−1 (y − µ) (5)
2 2 2
2
La función de densidad para una distribución normal multivariada del vector aleatorio x = (x1 , . . . , xN )0 es
1 1
0
f (x) = p exp − (x − µ) Σ−1 (x − µ)
N
(2π) |Σ| 2
Sea
Ω = σ2V
y consideremos que la inversa de la matriz V puede ser factorizada como
V−1 = L0 L
entonces,
Ω−1 = σ −2 L0 L
T 1 1
L (θ) = − log (2π) + log σ −2 L0 L − (y − µ)0 σ −2 L0 L (y − µ)
2 2 2
definiciendo y
e
e = L (y − µ)
y
simplificamos L (θ)
T 1 1 0
T
−2 2
L (θ) = − log (2π) + log σ |L| − 2 y eye
2 2 2σ
obteniendo la siguiente expresión final
T T 1 0
L (θ) = − log (2π) − log σ 2 + log |L| − 2 y
eye (6)
2 2 2σ
c
p
p
1 − φ2 0 0 ··· 0 0 y1 − 1−φ 2 1 − φ2 y1 − 1−φc
2
−φ 1 0 ··· 0 0 y2 − c 2
y2 − c − φy1
1−φ
c
0 −φ 1 ··· 0 0 y3 − 1−φ
e = L (y − µ) =
y 2 =
y3 − c − φy2
.. .. .. .. ..
.. ..
. . . . . .
.
0 0 0 · · · −φ 1 c
yT − 1−φ2 yT − c − φyT −1
observándose que:
2 T
c
e0y (yt − c − φyt−1 )2
X
y e = 1 − φ2 y1 − +
1 − φ2 t=2
Reemplazando en (6)
T T 1 0
L (θ) = − log (2π) − log σ 2 + log |L| − 2 y
eye
2 2 2σ
tenemos
T T 1
L (θ) = − log (2π) − log σ 2 + log 1 − φ2 2
2 2
T
2 X !
1
2
c 2
− 2 1−φ y1 − + (yt − c − φyt−1 )
2σ 1 − φ2 t=2
2.3. Estimación por Máxima Verosimilitud Exacta para el Proceso Gaussiano AR(1)
El estimador θ
b obtenido por Máxima Verosimilitud (MLE θ)
b es el valor para el cual se maximiza
L(θ).
b = argmax L(θ)
θ θ
θ
b
∂L(θ)
g (θ) ≡ = 0
∂θ n×1
gi (θ) = 0 i = 1, 2, . . . , n
En la práctica:
la cual es conseguida mediante una regresión por mínimos cuadrados ordinaria (OLS) de yt sobre
una constante y sus propio valor rezagado.
Por lo tanto, el estimador de máxima verosimilitud condicional de c y φ esta dado por
" # " #" #
cb T − 1 Σyt−1 Σyt
= 2
φb Σyt−1 Σyt−1 Σyt−1 yt
donde Σ denota la sumatoria sobre t = 2, 3, . . . , T .
b 2 , es encon-
El estimador por máxima verosimilitud condicional de la varianza de la innovación, σ
2
trado diferenciando (7) con respecto a σ e igualando el resultado a cero
T
(yt − c − φyt−1 )2
" #
T −1 X
− + =0
2σ 2 t=2
2σ 4
o 2
T
X y t − b − φy
c b t−1
b2 =
σ
T −1
t=2
En contraste con los estimadores por máxima verosimilitud exacta, los estimadores por máxima
verosimilitud condicionada son triviales de calcular. Mas aún, si el tamaño de la muestra T es lo su-
ficientemente grande, la primera observación hace una contribución insignificante a la verosimilitud
total.
Cuando |φ| < 1, el MLE exacto y el MLE condicional resultan tener la misma distribución en
grandes muestras.
Cuando |φ| > 1, el MLE condicional continua proporcionando estimadores consistentes, donde la
maximización de
T T 1
L(θ) = − log (2π) − log σ 2 + log 1 − φ2
2 2 2
2 T
1 c 1 X
− 2 1 − φ2 y1 − − 2 (yt − c − φyt−1 )2 .
2σ 1−φ 2σ t=2
Por estas razones, en la mayoría de aplicaciones los parámetros de una autoregresión son es-
timados por OLS (maxima verosimilitud condicional) en vez que con máxima verosimilitud
exacta.
con
t ∼ i.i.d.N (0, σ 2 )
θ = (c, φ1 , φ2 , . . . , φp , σ 2 )0
Por ejemplo:
1
• Para una autoregresión de primer orden (p = 1), Vp es el escalar .
1 − φ2
• Para una general autoregresión de orden p
γ0 γ1 γ2 · · · γp−1
γ1 γ0 γ1 · · · γp−2
2 γ2 γ1 γ0 · · · γp−3
σ Vp =
.. .. .. ..
. . . .
γp−1 γp−2 γp−3 · · · γ0
donde la autocovarianza j-ésima para un proceso AR(p), γj , puede ser calculada usando los
métodos ya estudiados.
La densidad de las primeras p observaciones en la muestra
(y1 , y2 , . . . , yp )
son entonces la de una variable N (µp , σ 2 Vp ):
fYp ,Yp−1 ,...,Y1 (yp , yp−1 , . . . , y1 ; θ)
1
−p/2 −2
= (2π) |σ Vp−1 |1/2 exp
− 2 (yp − µp )0 Vp−1 (yp − µp )
2σ
1
−p/2 −2 p/2 −1 1/2 0 −1
= (2π) (σ ) |Vp | exp − 2 (yp − µp ) Vp (yp − µp ) (12)
2σ
donde se ha utilizado el resultado [A.4.8].
(yp+1 , yp+2 , . . . , yT )
Así, condicionado a las t − 1 primeras observaciones, la obsevación t-ésima es Gausiana con media
y varianza σ 2 .
donde φ0 ≡ −1.
• Los valores v ij (p) para i > j pueden ser inferidos a partir del hecho de que Vp−1 es simétrica
(v ij (p) = v ji (p)).
• Por ejemplo, para p = 1, Vp−1 es una escalar cuyo valor es encontrado tomando i = j = p = 1
" 0 1
#
V1−1
X X
= φk φk − φk φk = φ20 − φ21 = 1 − φ2
k=0 k=1
así
σ2
σ 2 V1 =
1 − φ2
que reproduce la fórmula para la varianza de un proceso AR(l).
Así, las estimaciones de la máxima verosimilitud condicional de estos parámetros pueden obtenerse
a partir de una regresión OLS de yt sobre una constante y p de sus propios valores rezagados.
por lo tanto, incluso si el proceso no es Gaussiano, asi erróneamente formemos una función de
log verosimilitud Gausiana y la maximizamos, las estimaciones resultantes (cb, φb1 , φb2 , . . . , φbp
) proporcionarán estimaciones consistentes de los parámetros poblacionales en (9).
Una estimación que maximiza una función de verosimilitud mal especificada (por ejemplo, una
MLE calculada bajo el supuesto de un proceso gaussiano cuando los datos verdaderos no son
gaussianos) se conoce como una estimación de quasi-máxima verosimilitud.
• A veces, como resulta ser el caso aquí, la estimación de quasi-máxima verosimilitud propor-
ciona estimaciones consistentes de los parámetros de población de interés. Sin embargo, los
errores estándar para los coeficientes estimados que se calculan bajo la hipótesis de Gausia-
niedad no necesitan ser correctos si los datos verdaderos no son gaussianos3 .
• Alternativamente, si los datos brutos (raw data) no son gaussianos, a veces una simple trans-
formación, como tomar logaritmos, producirá una serie de tiempo gaussiana. Para una variable
aleatoria positiva Yt , Box y Cox (1964) propusieron la clase general de transformaciones
λ
Yt − 1
Yt
(λ)
= para λ 6= 0
λ
log Yt para λ = 0
3
Estos puntos fueron planteados por primera vez por White (1982) y se analizan más adelante.
Del mismo modo, el cálculo de la función de verosimilitud para un proceso de media móvil es más
sencillo si condicionamos los valores iniciales de los ’s.
Yt = µ + t + θt−1 (19)
Yt |t−1 ∼ N (µ + θt−1 , σ 2 )
o " #
1 (yt − µ − t−1 )2
fYt |t−1 (yt |t−1 ; θ) = √ exp − (20)
2πσ 2 2σ 2
Y1 |0 = 0 ∼ N (µ, σ 2 )
1 = y1 − µ
Para un valor numérico particular de θ, calculamos la secuencia de ’s implicada por los datos de
[21].
La log verosimilitud condicional [23] es entonces una función de la suma de cuadrados de estos
’s.
Aunque es sencillo programar esta iteración por computadora, la log verosimilitud es una función
no lineal bastante complicada de µ y θ, de modo que una expresión analítica para las estimaciones
de máxima verosimilitud de µ y θ no se calcula fácilmente. Por lo tanto, incluso las estimacio-
nes de máxima verosimilitud condicional para un proceso MA (1) deben ser encontradas por
optimización numérica.
La iteración sobre (21) a partir de una valor de partida arbitrario de 0 dará como resultado
Ω = E (Y − µ)(Y − µ)0
(1 + θ2 )
θ 0 ··· 0
θ (1 + θ2 ) θ ··· 0
2 0 θ (1 + θ2 ) ··· 0
Ω=σ
.. .. .. .. ..
. . . . .
0 0 0 · · · (1 + θ2 )
1
−T /2 0 −1/2 −1 −1 −1
exp − (y − µ)0 A0
fy (y; θ) = (2π) ADA D A (y − µ) (26)
2
Como A es una matriz triangular inferior con 1s a lo largo de su diagonal princila, tenemos que
|A| = 1 y por lo tanto
ADA0 = |A| · |D| · A0 = |D|
Definiendo
e ≡ A−1 (y − µ)
y (27)
la verosimilitud (26) puede ser escrita como
1 0 −1
−T /2 −1/2
fy (y; θ) = (2π) |D| exp − yeD y e (28)
2
e =y−µ
Ay
ye1 = y1 − µ
El vector y
e puede ser calculado iterando sobre (29) para t = 2, 3, . . . , T , comenzando a partir de
ye1 = y1 − µ-
La variable yet se interpreta como el residuo de una proyección lineal de yt sobre una constante
y yt−1 , yt−2 , . . ., y1 ; mientras que el elemento diagonal t−ésimo de D brinda el MSE de la
proyección lineal
h i 1 + θ2 + θ4 + · · · + θ2t
dtt = E Yet2 = σ 2 (30)
1 + θ2 + θ4 + · · · + θ2(t−1)
Como D es diagonal, su determinante es el producto de los términos a lo largo de la diagonal
principal
T
Y
|D| = dtt (31)
t=1
mientras que la inversa de D es obtenida tomando los recíprocos de los términos a lo largo de la
diagonal principal, así
T
yet2
e 0 D−1 y
X
y e= (32)
d
t=1 tt
Dados los valores numéricos para µ, θ y σ 2 , la secuencia yet se calcula iterando sobre (29) comen-
zando con ye1 = y1 − µ, mientras que dtt es hallado usando (30).
En contraste con la función de log verosimilitud (23), la expresión (34) será válida independien-
temente de si θ está asociada a una representación MA(1) invertible. El valor de (34) en θ = θ,e
2
σ =σ 2 −1 2
e será idéntico a su valor en θ = θe , σ = θe σ2 2
e . Ver Ejercicio 5.1 del texto base.
Una aproximación a la función de verosimilitud para un procesos M A(q) estará condicionada por
los ’s.
Una simple método para esta aproximación es condicionar en supuesto de que los primeros q
valores de ’s son todos cero
0 = −1 = · · · = −q+1 = 0 (36)
para t = 1, 2, . . . , T .
siempre que todos las raíces de Θ(z) caigan fuera del círculo unitario.
donde
yet = (yt − µ) − at,t−1 yet−1 − at,t−2 yet−2 − · · · − at,t−q yet−q
donde los aij provienen de la factorización triangular de Ω
1 0 0 ··· 0 0
a21 1 0 ··· 0 0
a31 a32 1 ··· 0 0
.. .. .. .. ..
. . . ··· . .
A=
a
q+1,1 aq+1,2 aq+1,3 ···0 0
0 aq+2,2 aq+2,3 ···0 0
.. .. .. .. ..
. . . ··· . .
0 0 0 · · · aT,T −1 1
Yt = c + φ1 Yt−1 + · · · + φp Yt−p
+ t + θ1 t−1 + · · · + θq t−q (39)
Una aproximación a la función de verosimilitud para un procesos ARM A(p, q) estará condicionada
por los y’s y los ’s.
la secuencia
{1 , 2 , . . . , T }
puede ser calculada a partir de
{y1 , y2 , . . . , yT }
mediante la iteración
t = yt − c − φ1 Yt−1 − · · · − φp Yt−p
+ − θ1 t−1 − · · · − θq t−q (40)
para t = 1, 2, . . . , T .
Una opción es establecer inicialmente los y’s y ’s igual a sus valores esperados. Esto es
c
ys = para s = 0, −1, . . . , −p + 1
1 − φ1 − · · · − φp
s = 0 para s = 0, −1, . . . , −q + 1
t = yt − c − φ1 Yt−1 − · · · − φp Yt−p
+ − θ1 t−1 − · · · − θq t−q
para t = 1, 2, . . . , T .
Alternativamente, Box y Jenkins (1976, p.221) recomiendan fijar los ’s a cero pero los y’s a
sus valores actuales. Así, la iteración (40) es iniciada en el periodo t = p + 1 con y1 , y2 , . . . , yp
establecidos a los valores observados y
p = p−1 = · · · = p−q+1 = 0
siempre que todos las raíces de Θ(z) caigan fuera del círculo unitario.
Para más detalles sobre la estimación exacta y aproximada de la máxima verosimilitud de modelos
ARMA, véase Galbraith y Galbraith (1974), Box y Jenkins (1976, Capítulo 6), Hannan y Rissanen
(1982), y Koreisha y Pukkila (1989)
La derivación de expresiones analíticas para las distribuciones de muestra finita del estimador
ML es generalmente complicada y requiere del uso de métodos computacionalmente intensivos
basados en simulaciones de Monte Carlo o expansiones de series para examinar algunas de estas
propiedades.
Sean
Las siguientes condiciones de regularidad se aplican a los procesos iid, estacionario, mds (seccuencia
martingala en diferencia) y ruido blanco.
Por simplicidad, se presentan muchas de las condiciones de regularidad para el caso iid.
R1: Existencia
La esperanza Z ∞
E [log f (yt ; θ)] = log f (yt ; θ) f (yt ; θ 0 ) dyt
−∞
existe.
R2: Convergencia
uniformemente en θ.
R3: Continuidad
R4: Diferenciabilidad
log LT (θ) es al menos dos veces continuamente diferenciable en un intervalo abierto alrededor
de θ 0 .
R4 surge naturalmente debido a que las dos primeras derivadas se usan para derivar el es-
timador ML y establecer que se alcanza un máximo. Incluso cuando la verosimilitud no es
diferenciable en todas partes, el estimador ML puede obtenerse en algunos casos, .
R5: Intercambiabilidad
Esta propiedad representa el análogo poblacional del principio de máxima verosimilitud en el que
θ 0 maximiza E[logf (yt ; θ)].
∂ log f (yt ; θ)
gt (θ) =
∂θ
en donde
J (θ 0 ) = −H (θ 0 ) (43)
La matriz J (θ 0 ) se conoce como el producto externo de las matrices gradiente. En el caso más
general en el cual yt es dependiente y gt es una mds, J (θ 0 ) y H (θ 0 ) en la ecuación (43) se
vuelven, respectivamente
T
1X h i
J (θ 0 ) = lim E gt (θ 0 ) gt (θ 0 )0 (44)
T →∞ T
t=1
T
1X
H (θ 0 ) = lim E [ht (θ 0 )] (45)
T →∞ T
t=1
I (θ 0 ) = J (θ 0 )
I (θ 0 ) = J (θ 0 ) = −H (θ 0 ) (46)
Para las funciones de log-verosimilitud que son relativamente planas, la información en la muestra
se dispersa proporcionando información imprecisa sobre la ubicación de θ 0 .
Para las muestras que son menos difusas, la función de log-verosimilitud es más concentrada y
proporciona información más precisa sobre la ubicación de θ 0 .
La interpretación de la información de esta manera se deduce de la expresión de la matriz de
información en la ecuación (46) donde la cantidad de información en la muestra se mide por la
curvatura de la función de log-verosimilitud, dada por −H (θ 0 ).
Para funciones de verosimilitud logarítmica relativamente planas, la curvatura de log L (θ) significa
que −H (θ 0 ) es relativamente pequeña alrededor de θ 0 .
Para las funciones de verosimilitud logarítmica que presentan una curvatura más fuerte, la segunda
derivada es correspondientemente más grande.
Si −ht (θ) representa la información disponible a partir de los datos en el instante t, se deduce de
(45) que la información total disponible de una muestra de tamaño T es
T
X
T · I (θ 0 ) = − E [ht ]
t=1
7.3.2. Normalidad
La teoría de distribución asintótica arroja que
√
d
T θb − θ0 → N 0, H−1 (θ 0 ) J (θ 0 ) H−1 (θ 0 )
• El estimador ML tiene una distribución normal asintótica con una media igual al parámetro
de población, θ 0 , y una matriz de covarianza normalizada T −1 Ω (θ 0 ).
• Las varianzas asintóticas de θ
b se obtienen a partir de los elementos diagonales de la matriz
de covarianza normalizada T −1 Ω (θ 0 ).
7.3.3. Eficiencia
La eficiencia asintótica se refiere al valor límite de la varianza de cualquier estimador, digamos θ,
e
alrededor de θ 0 a medida que aumenta el tamaño de la muestra.
Ω ≥ I−1 (θ 0 )
Hay varios métodos disponibles para aproximar la distribución de muestra finita, incluida la simu-
lación de la distribución de muestreo por métodos de Monte Carlo o el uso de una expansión de
Edgeworth.
7.4.1. Insesgadez
No todos los estimadores ML son imparciales.
Incluso en muestras conocidas por estar normalmente distribuidas pero con una media desconocida,
la desviación estándar de la muestra es un ejemplo de un estimador sesgado desde E [σ b ] 6= σ0 .
Este resultado se deriva del hecho de que el teorema de Slutsky no se aplica al operador de
expectativas. Por consiguiente h i h i
E τ θ b 6= τ E θ b
Este resultado contrasta con la propiedad de consistencia que usa límites de probabilidad, porque
el teorema de Slutsky sí se aplica a los plims.
7.4.2. Suficiencia
Sea {y1 , y2 , . . . , yT } realizaciones iid de la pdf conjunta
f (y1 , y2 , . . . , yT ; θ)
en el que θ
e representa un estadístico suficiente para θ.
Si existe un estadístico suficiente, el estimador ML es una función de él. A partir de (47) reescri-
bimos la función log-verosimilitud como
1
e θ + 1 log d (y1 , . . . , yT )
log LT (θ) = log c θ;
T T
diferenciando con respecto a θ
∂ log LT (θ) 1 log c θ; θ
e
=
∂θ T ∂θ
4
Preferiblemente, los estadísticos deben resumir los datos de tal manera que no se pierda la información contenida en
la muestra completa.
el estimador ML, θ,
b se da como la solución de
log c θ;
e θ
=0
∂θ
7.4.3. Invarianza
Si θb es el estimador ML de θ 0 , entonces para cualquier función arbitraria no lineal, τ (·), el
estimador ML τ (θ 0 ) viene dado por τ θ
b .
Esta propiedad es útil en situaciones donde una expresión analítica para el estimador ML no está
disponible
7.4.4. No Unicidad
El estimador ML de θ se obtiene resolviendo
gT θ
b =0 (48)
Los problemas considerados hasta ahora tienen única solución y en la mayoría de los casos de
forma cerrada.
Sin embargo, hay ejemplos donde hay varias soluciones a la ecuación (48).
8. Optimización Numérica
Dados:
• Datos observados
{yt }Tt=1 = {y1 , y2 , . . . , yT }
Los métodos numéricos que realizan esta tarea se conocen como algoritmos de maximización
numérica.
Yt = c + φYt−1 + t
con
t ∼ iid N 0, σ 2
Datos: considere que la muestra observada está compuesta por las siguientes T = 5 observaciones
h i0
y= 0,8 0,2 −1,2 −0,4 0,0
Restricciones: Analizaremos dos casos en los que el proceso tiene media cero (c = 0 ):
CASO 1: Varianza de las innovaciones unitaria (por lo tanto no se estima)
θ = (0, φ, 1)0
Función de log-verosimilitud
T
T 1 1 1X
L(θ) ≡ L(φ) = − log (2π) + log 1 − φ2 − 1 − φ2 y12 − (yt − φyt−1 )2 (49)
2 2 2 2 t=2
Tabulación de L(θ)
En cada punto θ (m) de la malla (m = 1, 2, . . . , 19) se evalúa L(θ).
MLE 3 (Grid Search)
-5.6
-5.8
-6
-6.2
-6.4
L( 3 )
-6.6
-6.8
-7
-7.2
-7.4
-7.6
-0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
?
Elección de de θ
b
Se elige aquel θ para el cual L(θ) resulte ser la mas grande posible
b = argmax L(θ)
θ θ
θ
b
En nuestro caso, según la tabulación realizada:
b = (0 , 0.2 , 1)0 → L(θ)
θ b = −5.7079
Refinamiento de la malla
0
CASO 2: θ = 0, φ, σ 2
Varían: φ y σ 2
Función de log-verosimilitud
T T 1
L(θ) = L(φ, σ 2 ) = − log (2π) − log σ 2 + log 1 − φ2
2 2 2
T
1 1
(yt − φyt−1 )2
X
− 2 1 − φ2 y12 − 2
2σ 2σ t=2
Tabulación de L(θ)
En cada punto θ (m) de la malla (m = 1, 2, . . . , 19) se evalúa L(θ).
Elección de de θ
b
Según la tabulación realizada, el valor de θ para el cual L(θ) resulta ser lo mas grande posible es
Refinamiento de la malla
• Refinamos el intervalo de búsqueda para φ y σ 2 .
Por ejemplo, reducimos el paso de cada uno de 0.1 a 0.01.
• El resultado final tras el refinamiento de la malla es:
b = (0 , 0.19 , 0.44)0 → L(θ)
θ b = −5.0461
Curvas de Nivel de la Función de Log Verosimilitud Curvas de Nivel de la Función de Log Verosimilitud
(vista 3D) (vista 2D)
2.1
1.9
1.8
1.7
-5
1.6
-5.2
1.5
-5.4
1.4
-5.6
1.3
-5.8
1.2
-6 1.1
L( 3 )
<2
-6.2 1
0.9
-6.4
0.8
-6.6
0.7
-6.8
0.6
-7
0.5
2.1
2
1.9
1.8 0.4
1.7
1.6 1.1
1.5 1 0.3
1.4 0.9
1.3 0.8
0.7
1.2 0.6
1.1 0.5
1 0.4 0.2
0.3
0.9 0.2
0.8 0.1
0.7 0
-0.1 0.1
0.6 -0.2
0.5 -0.3
0.4 -0.4
-0.5
<2 0.3 -0.6 0
0.2 -0.7 ? -1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1
0.1 -0.8
0 -0.9
-1 ?
• Por ejemplo, suponga que buscamos un estimado θ b que difiera de su verdadero valor MLE
en no mas de ±0,0001. En este caso, podriamos continar refinando la malla hasta que los
incrementos sean en pasos de 0.0001, y el mejor estimador entre los elementos de dicha malla
sería el MLE numérico de θ.
• Para el AR(1) del ejemplo visto, la función de log verosimilitud, L(θ), es unimodal (un solo
∂L(θ)
máximo), esto es, hay un único valor de θ para el cual = 0.
∂θ 0
El método grid search trabaja bien con verosimilitudes unimodales (un sólo máximo); sin embargo,
cuando existen múltiples máximos locales, la malla deberá ser los suficientemente fina para
revelar a todas las "montañas locales" (máximos locales) sobre la superficie de la verosimilitud.
Dados:
• Datos observados
{yt }Tt=1 = {y1 , y2 , . . . , yT }
Se desea elegir un valor óptimo de θ (1) de tal manera que la distancia al cuadrado respecto a θ (0)
sea un número fijo k: 0
θ (1) − θ (0) θ (1) − θ (0) = k
En otras palabras, el vector gradiente g θ (0) otorga la dirección en la que L(θ) se incrementa mas pronunciadamente
5
a partir de θ (0)
b = (0, 0)0
θ
∂L(θ)
∂θ " #
∂L(θ) 1 −3θ1
g(θ) ≡ = =
∂θ
∂L(θ) −4θ2
∂θ2
Interpretación: Para incrementar L(θ) lo mas que se pueda, necesitamos incrementar θ1 y reducir
θ2 relativo al valor θ, debido a que el valor absoluto de un cambio unitario en θ2 tiene mayor efecto
sobre L(θ) que el valor absoluto de un cambio unitario en θ1 .
por lo tanto el paso óptimo θ (1) − θ (0) será proporcional a (3, −4)0 .
θ (1) − θ (0) = s · g θ (0)
• Con k = 1
0
θ (1) − θ (0) θ (1) − θ (0) = 1
(3s)2 + (−4s)2 = 1
tenemos que
1
s=
5
NOTA:
En ocasiones la obtención del vector gradiente de L(θ) es muy dificil de realizar analíticamente.
En estos casos se puede obtener una aproximación numérica del gradiente observando como
L(θ) cambia ante pequeños cambios en cada uno de los elementos de θ.
• El i−ésimo elemento de g θ (0) puede aproximarse mediante
1 n o
gi θ (0) ∼
(0) (0)
= L . . . , θi + ∆, . . . − L . . . , θi , . . .
∆
donde ∆ representa cualquier escalar pequeño elegido tal como ∆ = 10−6 .
• A través del cálculo numérico de L (θ) en θ (0) y en n diferentes valores de θ correspon-
dientes a pequeños cambios en los elementos
individuales de θ (0) , se puede descrubrir una
(0)
estimación del vector completo g θ
1 n (0) o
g1 θ (0) ∼
(0) (0) (0)
= L θ1 + ∆ , θ2 , . . . , θn(0) − L θ1 , θ2 , . . . , θn(0)
∆
1 n (0) (0) o
g2 θ (0) ∼
(0) (0)
= L θ1 , θ2 + ∆ , . . . , θn(0) − L θ1 , θ2 , . . . , θn(0)
∆
..
.
1 n (0) (0) o
gn θ (0) ∼
(0) (0)
= L θ1 , θ2 , . . . , θn(0) + ∆ − L θ1 , θ2 , . . . , θn(0)
∆
.
El resultado (52) sugiere que podemos cambiar el valor de θ en la dirección del gradiente eligiendo
θ (1) − θ (0) = s · g θ (0)
para algún valor escalar positivo s.
Una adecuada elección de s debería ser encontrada mediante una adaptación del método grid
search.
n o
Por ejemplo, podemos calcular el valor de L θ (0) + s · g θ (0) para el cual L (θ) es el mas
grande. Valores muy pequeños o muy grandes de s pueden también ser explorados si el máximo
parece estar en algunno de los extremos. Si ninguno de los valores de s mejora la verosimilitud,
entonces se debe intentar con un valor muy pequeño para s, como el valor ∆ = 10−6 usado para
aproximar la derivada.
Repetimos el proceso tomando como valor inicial
θ (1) = θ (0) + s · g θ (0)
luego, evaluamos el gradiente en la nueva ubicación,g θ (1) , y generamos una nueva estimación
θ (2)
θ (2) = θ (1) + s · g θ (1)
Criterios de Convergencia
Que el vector gradiente g θ (m) este dentro de alguna tolerancia especificada del cero
g θ (m)
< 1
Que la distancia entre θ (m+1) y θ (m) sea menor que algún umbral especificado
(m+1)
θ − θ (m)
< 2
Que el cambio entre L θ (m+1) y L θ (m) sea menor que alguna cantidad deseada.
L θ (m+1) − L θ (m) < 3
Yt = c + φYt−1 + t
con
t ∼ iid N 0, σ 2
cuyo vector de parámetros vendría dado por
0
θ = c, φ, σ 2
Obtenga el estimador θ
b MLE utilizando el algoritmo steepests ascend. Considere además que:
c = 0.
La muestra observada está compuesta por las siguientes T = 5 observaciones
h i0
y= 0,8 0,2 −1,2 −0,4 0,0
Proceso Iterativo:
θ (0) =( 0 −0,6000 0,8000 )0
↓
g θ (0) =( 0 2,668087972779176 −0,507149877648772 )0
↓
)0 L θ (1) =
θ (1) =( 0 −0,573319120272208 0,794928501223512 → −6,281841875350741
↓
g θ (1) =( 0 2,540190280342358 −0,552446977053478 )0
↓
)0 L θ (2) =
θ (2) =( 0 −0,547917217468785 0,789404031452978 → −6,215602313367949
↓
g θ (2) =( 0 2,428279799460142 −0,589750470680883 )0
↓
)0 L θ (3) =
θ (3) =( 0 −0,523634419474183 0,783506526746169 → −6,154278781123775
↓
.. .. .. .. ..
. . . . .
↓
)0 L θ (173) =
θ (173) =( 0 0,190807419548401 0,437418923725818 → −5,046039355509656
↓
g θ (173) =( 0 0,001776356839400 0 )0
↓
)0 L θ (174) =
θ (174) =( 0 0,190825183116795 0,437418923725818 → −5,046039337613884
↓
g θ (174) =( 0 0 0 )0
↓
)0 L θ (175) =
θ (175) =( 0 0,190825183116795 0,437418923725818 → −5,046039337613884
-5
-5.2
-5.4
-5.6
-5.8
-6
L( 3 )
-6.2
-6.4
-6.6
-6.8
-7
2
1.9
1.8
1.7
1.6 1.1
1.5 1
1.4 0.9
1.3 0.8
0.7
1.2 0.6
1.1 0.5
1 0.4
0.3
0.9 0.2
0.8 0.1
0.7 0
0.6 -0.1
-0.2
0.5 -0.3
0.4 -0.4
-0.5
<2 0.3 -0.6
0.2 -0.7 ?
0.1 -0.8
0 -0.9
-1
1.9
1.8
1.7
1.6
1.5
1.4
1.3
1.2
1.1
<2
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1
?
0.8
0.75 3bSA
(k)
3SA
0.7
0.65
0.6
<2
0.55
0.5
0.45
0.4
0.2
0 -0.05
-0.1
-0.2
-0.15
-0.4
-0.2
?
-0.6 -0.25 c
" X T
#
∂L(θ) 1 c
= 2 (1 + φ) y1 − + (yt − c − φyt−1 )
∂c σ 1−φ t=2
" 2 X T
#
∂L(θ) φ 1 c 1+φ c
=− − 2 −φ y1 − −c y1 − − (yt − c − φyt−1 ) yt−1
∂φ 1 − φ2 σ 1−φ 1−φ 1−φ t=2
" 2 X T
#
∂L(θ) T 1 2 c 2
=− 2 + (1 − φ ) y1 − + (yt − c − φyt−1 )
∂σ 2 2σ 2(σ 2 )2 1−φ t=2
0.8
0.75
3bSA
(k)
0.7 3SA
0.65
0.6
<2
0.55
0.5
0.45
0.4
0.2
0 -0.05
-0.1
-0.2
-0.15
-0.4
-0.2
?
-0.6 -0.25 c
Considere la aproximación L (θ) con una serie de Taylor de segundo orden alrededor de θ (0) :
h i0 h i 1h i0 h i
L (θ) ∼
= L θ (0) + g θ (0) θ − θ (0) − θ − θ (0) H θ (0) θ − θ (0) (53)
2
La idea del método de Newton-Raphson es elegir θ de tal manera que se maximice (53).
Sea θ (0) un valor inicial de θ en donde se puede calcular (ya sea de forma analítica o numérica):
• g θ (0) : la derivada de L (θ)
• H θ (0) : el negativo de la matriz de segundas derivadas de L (θ)
La expresión (54) sugiere que a partir de la estimación θ (0) , una nueva mejor estimación de θ
(denotado por θ (1) ) debe satisfacer
h i−1
θ (1) = θ (0) + H θ (0) g θ (0) (55)
luego, calculamos el gradiente y el Hessiano en θ (1) para encontrar una nueva estimación θ (2) y
continuar iterando de esta manera.
Como (53) es usualmente solo una aproximación a la verdadera función L (θ) , la iteración sobre
(56) es usualmente modificada como sigue.
• La expresión (56) es tomada para sugerir la dirección de búsqueda.
• Se calcula el valor de L (θ) en diversos puntos en tal dirección, y el mejor valor determina
la longitud del paso. Esta estrategia exige reemplazar (56) por
h i−1
θ (m) = θ (m−1) + s H θ (m−1) g θ (m−1) (57)
donde s es un escalar que controla la longitud del paso.
• Se calcula θ (m) y el valor asociado para la log verosimilitud L θ (m) para varios valores de
s en (57) y elige como estimación θ (m) al que produce el valor mas grande de L (θ).
Yt = c + φYt−1 + t
0
θ = c, φ, σ 2
Obtenga el estimador θ
b MLE utilizando el algoritmo de Newton-Raphson. Considere además que:
La muestra será simulada por un DGP donde los verdaderos valores de los parámetros son
" T
#
∂ ∂L(θ) 1 c c(1 + φ) X
h1,2 =− =− 2 y1 − − − yt−1
∂φ ∂c σ 1−φ (1 − φ)2 t=2
" X T
#
∂ ∂L(θ) 1 c
h1,3 =− = 2 2 (1 + φ) y1 − + (yt − c − φyt−1 )
∂σ ∂c (σ ) 1−φ t=2
" T
#
∂ ∂L(θ) 1 2φ c 1+φ 2c
h X i
h2,1 =− = 2 y1 − − y1 − + yt−1
∂c ∂φ σ 1−φ 1−φ 1−φ 1−φ
t=2
" T
#
2 2
∂ ∂L(θ) 1 + φ2 1 c c c c 1+φ
X
2
h2,2 =− =− − 2 − y1 − − 2 y1 − + + yt−1
∂φ ∂φ (1 − φ2 )2 σ 1−φ 1−φ 1−φ 1−φ 1−φ
t=2
" T
#
2
∂ ∂L(θ) 1 c 1+φ c
X
h2,3 =− 2 =− 2 2 −φ y1 − −c y1 − − (yt − c − φyt−1 ) yt−1
∂σ ∂φ (σ ) 1−φ 1−φ 1−φ
t=2
" T
#
∂ ∂L(θ) 1 c
X
h3,1 =− =− 2 2 −(1 + φ) y1 − − (yt − c − φyt−1 )
∂c ∂σ 2 (σ ) 1−φ
t=2
" T
#
2
∂ ∂L(θ) 1 c (1 − φ2 ) c
X
h3,2 =− =− 2 2 −φ y1 − −c y1 − − (yt − c − φyt−1 )yt−1
∂φ ∂σ 2 (σ ) 1−φ (1 − φ)2 1−φ
t=2
" T
#
2
∂ ∂L(θ) T 1 c
X
2 2
h3,3 =− 2 =− + 2 3 (1 − φ ) y1 − + (yt − c − φyt−1 )
∂σ ∂σ 2 2(σ 2 )2 (σ ) 1−φ
t=2
La estimación final es
3bNR
0.95 (k)
3NR
0.9
<2
0.85
0.8
0.75
0.65
0.6
0.2
0.55 0.1
0.5 0
-0.1
0.45
-0.2
?
0.4 -0.3 c
6
El solver fminunc permite el uso una variante del método de Newton-Rapshon que reemplaza el hessiano exacto H(θ)
con una aproximación. Esta variante es conocida como el Método Quasi-Newton y se utiliza siempre que el Hessiano no
esté disponible o sea demasiado costos calcular en cada iteración.
i0 −1
" T #
0 Xh i h
E b − θ0
θ b − θ0
θ ∼
= h θ,
b Yt · h θ,
b Yt
t=1
Analíticamente tenemos
• Primera derivada
∂L(θ)
∂θ " #
∂L(θ) 1 −3θ1
= =
∂θ
∂L(θ) −4θ2
∂θ2
• Segunda derivada
∂L(θ) ∂ ∂L(θ)
∂ 2 L(θ) ∂
∂θ1 ∂θ 0
∂θ1
0 =
0
=
∂θ ∂θ ∂θ ∂L(θ) ∂ ∂L(θ)
∂θ2 ∂θ 0 ∂θ2
∂L(θ) ∂L(θ)
∂θ2 ∂θ1 ∂θ2 " #
1 −3 0
= =
0 −4
∂L(θ) ∂ L(θ)
2
#−1
∼ − ∂ L (θ)
"
0 2
E b − θ0
θ b − θ0
θ =
∂θ ∂θ 0 θ=bθ
1
entonces la varianza de θb2 MLE puede ser aproximada por .
4
Como en el ejemplo anterior el θb2 MLE fue estimado en 0, entonces un intervalo de confianza para
θ2 al 95 % está dado por r
1
0±2 = ±1
4
La expresión
b ≈ N θ 0 , T −1 J −1
θ
b yJ
es solo una aproximación a la verdadera distribución de θ, c2D y J
cOP
−1 ∂ 2 L (θ)
J
c2D = −T
∂θ ∂θ 0 θ=bθ
T h i h i0
cOP = T −1
X
J h θ,
b Yt · h θ,
b Yt
t=1
La teoría que justifica estas aproximaciones no brinda una clara orientación sobre cual es mejor
usar, y típicamente los investigadores confían en cualquier estimador de la matriz de información
que sea fácil de calcular.
Si los dos estimadores difieren mucho, esto puede significar que el modelo está mal especificado.
White (1982) desarrolló una prueba general de especificación de un modelo basado en esta idea.
Una opción para construir errores estándar cuando difieren los dos estimadores significativamente
es usar los errores estándar de cuasi-máxima verosimilitud que se discutirán posteriormente.
Suponga una hipótesis nula conformada por un conjunto de m diferentes restricciones sobre el
valor del vector (n × 1) de parámetros θ.
estimador ML irrestricto : θ
b
estimador ML restricto : θ
e
Claramente L θ
b >L θ
e ; y esto a menudo se prueba mediante
h i
2 L θ
b −L θ
e ≈ χ2 (m) (62)
EJEMPLO:
Suponga que n = 2 y que estamos interesados en probar la hipótesis que θ2 = θ1 + 1. Bajo esta
hipótesis nula, el vector (θ1 , θ2 )0 puede ser escrito como (λ, λ + 1)0 , donde λ = θ1 . Suponga que
la log verosimilitud está dada por la expresión
L(θ) = −1,5θ12 − 2θ22
entonces, se puede encontrar el MLE restricto reemplazando θ2 por θ1 +1 y maximizar la expresión
resultante con respecto a θ1 :
L(θ1 ) = −1,5θ12 − 2 (θ1 + 1)2
La condición de primer orden para la maximización de L(θ1 ) es
∂L(θ1 )
=0
∂θ1
−3θ1 − 4 (θ1 + 1) = 0
de donde
4
θ1 = −
7
El MLE restricto es entonces
4 3 0
θ
e= − ,
7 7
y el valor máximo asociado para la log verosimilitud que satisface la restricción es
e = −6
L θ
7
b = 0, en el cual L θ
El MLE irrestricto es θ b = 0. Por lo tanto, (62) será
6 12
h i
2 L θ
b −L θ
e = 2 (0) − − = = 1,71
7 7
La prueba aquí involucra una restricción singular, tal que m = 1. Considerando que la probabilidad
de que una variable χ2 (1) exceda 3,84 es 0,05, y como
h i
2 L θ
b −L θ
e = 1,71 < 3,84
Con el fin de usar la prueba LR (62), es necesario encontrar tanto el θb MLE irrestricto y el θe MLE
restricto. Esta prueba es útil cuando es mas fácil calcular el estimador restricto θ
e que el estimador
irrestricto.
La prueba del multiplicador de Lagrange de la hipótesis nula de que las restricciones son
verdaderas está dada por el siguiente estadístico
0
" T # " T #
−1 −1
X X
T h θ,
e Yt J h θ,
e Yt
t=1 t=1
Sin embargo la estimación por máxima verosimilitud puede aún ser un razonable forma de estimar
parámetros incluso si los datos no fuesen generados por la densidad asumida.
Por ejemplo:
• Vimos que el MLE condicional para un proceso Gaussiano AR(1) es obtenido a partir de una
regresión OLS de yt sobre yt−1 .
• Esta regresión OLS es a menudo una forma muy sensible de estimar los parámetros de un
proceso AR(1) incluso si las verdaderas innovaciones no son i.i.d. Gausianas.
• A pesar de que la máxima verosimilitud puede estar arrojando un estimador razonable de θ,
cuando las innovaciones no son i.i.d. Gausianas, los errores estándar propuestos en (59) o
(61) puedan ya no ser válidos.
Una matriz de varianzas y covarianzas aproximada para θ b que es a menudo valida incluso si la
densidad de probabilidad está mal especificada está dada por
0 n o−1
b − θ0 b − θ0 ∼
= T −1 J 2D J −1
E θ θ OP J 2D
Esta matriz de varianzas y covarianzas fue propuesta por White (1982), quien describió este
enfoque como la estimación de cuasi máxima verosimilitud.
y
0
A(m) ∆g(m+1) A(m)
(m+1) (m)
A =A − 0
∆g(m+1) A(m) ∆g(m+1)
0
∆θ (m+1) ∆θ (m+1)
− 0 (64)
∆g(m+1) ∆g(m+1)
A(0) = 10−4 Ia
1. Entrada: Valores de
y1 , y2 , . . . , yT
y
λ
2. Procedimiento: Se establece
θ = g(λ)
y se calcula
L (θ)
Por ejemplo:
• El objetivo es encontrar el valor de λ que produce el mayor valor para la log verosimilitud.
• Comenzamos con una valor inicial tal como
λ=3
λ
b
φb =
1 + |λ|
b
Esta técnica de reparametrización de la función de verosimilitud para que las estimaciones siempre
satisfagan las restricciones necesarias es a menudo muy fácil de implementar.
Nota de precaución:
Una manera obvia de lograr esto es parametrizar la verosimilitud en términos de λ que representa
±1 veces la desviación estándar.
El procedimiento para evaluar la log verosimilitud comienza por elevar al cuadrado este parámetro
λ:
σ 2 = λ2
y si la desviación estándar σ es a si misma invocada, ésta se calcula como
√
σ = λ2
n (n + 1)
El mejor enfoque es parametrizar Ω en términos de los elementos distintos de la des-
2
composición de Cholesky de Ω :
Ω = PP0 (66)
donde
λ11 0 0 ··· 0
λ21 λ22 0 ··· 0
λ31 λ32 λ33 ··· 0
P=
.. .. .. .. ..
. . . . .
λn1 λn2 λn3 · · · λnn
p1 , p2 , . . . , pK
0 ≤ pi ≤ 1 para i = 1, 2, . . . , K
p1 + p2 + · · · + pK = 1
λ1 , λ2 , . . . , λK−1
donde
λ2i
pi = para i = 1, 2, . . . , K − 1
1 + λ21 + λ22 + · · · + λ2K−1
1
pK =
1 + λ1 + λ2 + · · · + λ2K−1
2 2
A veces, tal aproximación permitirá que un MLE satisfaga las condiciones especificadas para se
encontrado con simples procedimientos numéricos de búsqueda.
Si estas medidas resultan inadecuadas, los algoritmos más complicados están disponibles. Judge,
Griffiths, Hill y Lee (1980, pp. 747-49) describen algunos de los posibles enfoques.
Referencias
Hamilton, J. D. (1994), Time Series Analysis, Princeton University Press.
Martin, V., Hurn, S., y Harris, D. (2012). Econometric Modelling with Time Series: Specification,
Estimation and Testing (Themes in Modern Econometrics). Cambridge: Cambridge University Press.