Maxima Verosimilitud

DEPARTAMENTO DE
ECONOMÍA
ECONOMETRÍA 2
TEMA
Estimación por Máxima Verosimilitud
Miguel Ataurima Arellano

miguel.ataurima@pucp.edu.pe
PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA
Índice
1. Introducción 5
2. La Función de Verosimilitud para un proceso AR(1) Gaussiano 8

2.1. Formación de la función de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2. Forma vectorial de obtención de la función de verosimilitud . . . . . . . . . . . . . . . . 23
2.3. Estimación por Máxima Verosimilitud Exacta para el Proceso Gaussiano AR(1) . . . . . 29
2.4. Estimación por Máxima Verosimilitud Condicional . . . . . . . . . . . . . . . . . . . . . 30
3. La Función de Verosimilitud para un Proceso AR(p) Gausiano 33

3.1. Evaluación de la Función de Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2. Estimaciones de Máxima Verosimilitud Condicional . . . . . . . . . . . . . . . . . . . . 40
3.3. Estimación de la Máxima Verosimilitud para Series de Tiempo No Gausianas . . . . . . 42
4. La Función de Verosimillitud para un Proceso MA(1) Gausiano 44

4.1. Función de Verosimilitud Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2. Función de Verosimilitud Exacta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5. La Función de Verosimilitud para un Proceso MA(q) Gausiano 52

5.1. La Función de Verosimilitud Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2. La Función de Verosimilitud Exacta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6. La Función de Verosimilitud para un Proceso ARMA(p,q) Gausiano 55

6.1. La Función de Verosimilitud Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.2. Algoritmos Alternativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Miguel Ataurima Arellano 2 miguel.ataurima@pucp.edu.pe

7. Propiedades de los estimadores ML 59

7.1. Condiciones de Regularidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.2. Propiedades de la Función de Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . 63
7.2.1. La función de Verosimilitud Poblacional . . . . . . . . . . . . . . . . . . . . . . 63
7.2.2. Momentos del Gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
7.2.3. La Matriz de Información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
7.3. Propiedades Asintóticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.3.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.3.2. Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7.3.3. Eficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.4. Propiedades en Muestras Finitas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.4.1. Insesgadez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.4.2. Suficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.4.3. Invarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.4.4. No Unicidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
8. Optimización Numérica 75
8.1. Método Grid Search (Búsqueda en Malla) . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.1.1. Características de los Algoritmos de Maximización Numérica . . . . . . . . . . . 84
8.2. Método Steepest Ascent (Ascenso Empinado) . . . . . . . . . . . . . . . . . . . . . . . 85
8.3. Método Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
9. Inferencia estadística con MLE 112

9.1. Errores Estándar Asintóticos para el MLE . . . . . . . . . . . . . . . . . . . . . . . . . 112
9.2. Prueba del Ratio de Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

9.3. Prueba del Multiplicador de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

9.4. Errores Estándar de Cuasi-Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . 122
10.Restricciones de Desigualdad 123

10.1. Una trampa típica en la maximización numérica . . . . . . . . . . . . . . . . . . . . . . 123
10.2. Solución del Problema mediante la Reparametrización de la Función de Verosimilitud . . 125
10.3. Parametrizaciones para una matriz de Varianzas y Covarianzas . . . . . . . . . . . . . . 128
10.4. Parametrizaciones para las Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . 130
10.5. Más restricciones generales de desigualdad . . . . . . . . . . . . . . . . . . . . . . . . . 131

1. Introducción
Modelo Econométrico
Sea un ARMA(p, q)
Yt = c + φYt−1 + · · · + φp Yt−p + t + θ1 t−1 + · · · + θq t−q
donde:
• t es un ruido blanco
E [t ] = 0
(
σ2 para t = τ
cov [t , τ ] = E [t τ ] =
0 en otro caso
• Los parámetros poblacionales son

Parámetros Poblacionales
Término constante c
Coeficientes AR φ1 , . . . , φ p
Coeficientes MA θ1 , . . . , θ q
Varianza del ruido blanco σ2
Por comodidad, dispondremos estos parámetros en un vector θ al cual llamaremos vector
de parámetros poblacional.
0
θ = c, φ1 , . . . , φp , θ1 , . . . , θq , σ 2

¿Qué se desea realizar?
Dada una muestra de Yt de tamaño T , (y1 , y2 , . . . , yT ), se desea obtener una estimación del vector
θ por el método de Estimación por Máxima Verosimilitud (MLE1 , por sus siglas en inglés).
Función de Verosimilitud (Likelihood Function)
La probabilidad de haber observado la muestra (y1 , y2 , . . . , yT ) está caracterizada por la función

de verosimilitud (función de densidad conjunta poblacional)
fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) (1)
Objetivo del método MLE
Encontrar el valor de θ que maximiza (1).

Intuición: Encontrar el vector θ para el cual sea más probable que una determinada muestra
(y1 , y2 , . . . , yT ) haya sido obsevada.
Requisito del método MLE
Se requiere especificar una distribución particular para el ruido blanco t .

Típicamente asumiremos que
t ∼ iid N 0, σ 2
1
Maximum Likelihood Estimation

Resumen del método MLE
Los pasos para del método MLE son:
1. Obtener una forma funcional de la función de verosimilitud.

2. Encontrar el valor de θ que maximiza la función de verosimilitud.

2. La Función de Verosimilitud para un proceso AR(1) Gaussiano

2.1. Formación de la función de verosimilitud
Datos: Muestra aleatoria de talla T de la variable aleatoria Y (valores observados)
{yt }Tt=1 = {y1 , y2 , . . . , yT }
yt
y4
yT
y2
y1 y3
1 2 3 4 t T
Supuesto: El proceso generador de datos de {Yt } es un proceso AR(1)
Yt = c + φYt−1 + t
2

con t ∼ iid N 0, σ
Vector de parámetros poblacionales:

0
θ = c, φ, σ 2

Variable aleatoria: Y1
Y1 ∼ N µ1 , σ12
y1
1 2 3 4 t T
Y1
N (µ1 , σ12 )
c
Media : µ1 ≡ E [Y1 ] =
1−φ
1

2
Varianaza : σ1 ≡ var [Y1 ] = σ2
1 − φ2
Por lo tanto, la densidad de Y1 (no condicionada) es
2 !
1 1 y1 − µ1

fY1 (y1 ; θ) = √ exp −
σ1 2π 2 σ1
reemplazando
 2 
c
s
1 1− φ2 y1 − 1−φ
fY1 (y1 ; θ) = √ exp − (2)
 
σ2

2π 1 2
2 1−φ2 σ

Variable aleatoria: Y2 |Y1

Y2 |Y1 ∼ N µ2 , σ22
y2
y1
1 2 3 4 t T
Y1 Y2 |Y1
N (µ1 , σ12 ) N (µ2 , σ22 )
Media : µ2 ≡ E [Y2 |Y1 ] = E [c + φy1 + 2 ] = c + φy1

Varianaza : σ22 ≡ var [Y2 |Y1 ] = var [c + φy1 + 2 ] = σ 2
Por lo tanto, la densidad Y2 |Y1 es
2 !
1 1 y2 − µ2

fY2 |Y1 (y2 |y1 ; θ) = √ exp −
σ2 2π 2 σ2
reemplazando
2 !
1 1 y2 − c − φy1

fY2 |Y1 (y2 |y1 ; θ) = √ exp −
σ 2π 2 σ

Variable aleatoria: Y3 |Y2 , Y1

Y3 |Y2 , Y1 ∼ N µ3 , σ32
y2
y1 y3
1 2 3 4 t T
Y1 Y2 |Y1 Y3 |Y2 , Y1
N (µ1 , σ12 ) N (µ2 , σ22 ) N (µ3 , σ32 )
Media : µ3 ≡ E [Y3 |Y2 , Y1 ] = E [c + φy2 + 3 ] = c + φy2

Varianaza : σ32 ≡ var [Y3 |Y2 , Y1 ] = var [c + φy2 + 3 ] = σ 2
Por lo tanto, la densidad Y3 |Y2 , Y1 es
2 !
1 1 y3 − µ3

fY3 |Y2 ,Y1 (y3 |y2 , y1 ; θ) = √ exp −
σ3 2π 2 σ3
reemplazando
2 !
1 1 y3 − c − φy2

fY3 |Y2 ,Y1 (y3 |y2 , y1 ; θ) = √ exp − = fY3 |Y2 (y3 |y2 ; θ)
σ 2π 2 σ

Variable aleatoria: Y4 |Y3 , Y2 , Y1

Y4 |Y3 , Y2 , Y1 ∼ N µ4 , σ42
y4
y2
y1 y3
1 2 3 4 t T
Y1 Y2 |Y1 Y3 |Y2 , Y1 Y4 |Y3 , Y2 , Y1
N (µ1 , σ12 ) N (µ2 , σ22 ) N (µ3 , σ32 ) N (µ4 , σ42 )
Media : µ4 ≡ E [Y4 |Y3 , Y2 , Y1 ] = E [c + φy3 + 4 ] = c + φy3

Varianaza : σ42 ≡ var [Y4 |Y3 , Y2 , Y1 ] = var [c + φy3 + 4 ] = σ 2
Por lo tanto, la densidad Y3 |Y2 , Y1 es
2 !
1 1 y4 − µ4

fY4 |Y3 ,Y2 ,Y1 (y4 |y3 , y2 , y1 ; θ) = √ exp −
σ4 2π 2 σ4
reemplazando
2 !
1 1 y4 − c − φy3

fY4 |Y3 ,Y2 ,Y1 (y4 |y3 , y2 , y1 ; θ) = √ exp − = fY4 |Y3 (y4 |y3 ; θ)
σ 2π 2 σ

Variable aleatoria: Yt |Yt−1 , Yt−2 , . . . , Y1

Yt |Yt−1 , Yt−2 , . . . , Y1 ∼ N µt , σt2
yt
y4
y2
y1 y3
1 2 3 4 t T
Y1 Y2 |Y1 Y3 |Y2 , Y1 Y4 |Y3 , Y2 , Y1 Yt |Yt−1 , Yt−2 , . . . , Y1
N (µ1 , σ12 ) N (µ2 , σ22 ) N (µ3 , σ32 ) N (µ4 , σ42 ) N (µt , σt2 )
Media : µt ≡ E [Yt |Yt−1 , Yt−2 , . . . , Y1 ] = E [c + φyt−1 + t ] = c + φyt−1

Varianaza : σt2 ≡ var [Yt |Yt−1 , Yt−2 , . . . , Y1 ] = var [c + φyt−1 + t ] = σ 2
Por lo tanto, la densidad Yt |Yt−1 , Yt−2 , . . . , Y1 es
2 !
1 1 yt − µt

fYt |Yt−1 ,Yt−2 ,...,Y1 (yt |yt−1 , yt−2 , . . . , y1 ; θ) = √ exp −
σt 2π 2 σt
reemplazando
2 !
1 1 yt − c − φyt−1

fYt |Yt−1 ,Yt−2 ,...,Y1 (yt |yt−1 , yt−2 , . . . , y1 ; θ) = √ exp − = fYt |Yt−1 (yt |yt−1 ; θ)
σ 2π 2 σ

Variable aleatoria: YT |YT −1 , YT −2 , . . . , Y1

YT |YT −1 , YT −2 , . . . , Y1 ∼ N µT , σT2
yt
y4
yT
y2
y1 y3
1 2 3 4 t T
Y1 Y2 |Y1 Y3 |Y2 , Y1 Y4 |Y3 , Y2 , Y1 Yt |Yt−1 , Yt−2 , . . . , Y1 YT |YT −1 , YT −2 , . . . , Y1
N (µ1 , σ12 ) N (µ2 , σ22 ) N (µ3 , σ32 ) N (µ4 , σ42 ) N (µt , σt2 ) N (µT , σT2 )
Media : µT ≡ E [YT |YT −1 , YT −2 , . . . , Y1 ] = E [c + φyT −1 + t ] = c + φyT −1

Varianaza : σT2 ≡ var [YT |YT −1 , YT −2 , . . . , Y1 ] = var [c + φyT −1 + t ] = σ 2
Por lo tanto, la densidad YT |YT −1 , YT −2 , . . . , Y1 es
2 !
1 1 yT − µT

fYT |YT −1 ,YT −2 ,...,Y1 (yT |yT −1 , yT −2 , . . . , y1 ; θ) = √ exp −
σT 2π 2 σT
reemplazando
2 !
1 1 yT − c − φyT −1
fYT |YT −1 ,YT −2 ,...,Y1 (yT |yT −1 , yT −2 , . . . , y1 ; θ) = √ exp − = fYT |YT −1 (yT |yT −1 ; θ)
σ 2π 2 σ

Función de Verosimilitud
La función de verosimilitud de la muestra completa (densidad conjunta de las T observaciones)
es la función de densidad conjunta de haber observado la muestra (y1 , y2 , . . . , yT )
fYT ,YT −1 ,...,Y2 ,Y1 (yT , yT −1 , . . . , y2 , y1 ; θ)
Aplicando la propiedad de densidades condicionales iteradas

fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y2 , y1 ; θ) = fYT |YT −1 ,...,Y2 ,Y1 (yT |yT −1 , . . . , y2 , y1 ; θ)
× fYT −1 |YT −2 ,...,Y2 ,Y1 (yT −1 |yT −2 , . . . , y2 , y1 ; θ)
..
.
× fY2 |Y1 (y2 |y1 ; θ)
× fY1 (y1 ; θ)
esto es
T
Y
fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) = fY1 (y1 ; θ) · fYt |Yt−1 ,...,Y1 (yt |yt−1 , . . . , y1 ; θ)
t=2
Función de Log-Verosimilitud
La función log-verosimilitud, denotado como L(θ), se define como
L(θ) = log fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ)

Para nuestro ejemplo, Como el proceso que sigue {Yt } es un AR(1), entonces
Yt |Yt−1 , . . . , Y1 ≡ Yt |Yt−1
por lo tanto:
• La función de verosimilitud asociada será

T
Y
fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) = fY1 (y1 ; θ) · fYt |Yt−1 (yt |yt−1 ; θ)
t=2
• La función log-verosimilitud será

T
L(θ) = log fY1 (y1 ; θ) +
X
log fYt |Yt−1 (yt |yt−1 ; θ) (3)
t=2

Desarrollando el primer término del lado derecho en (3)

  2  
c
s
 1 1− φ2 y1 − 1−φ
log fY1 (y1 ; θ) = log  √ exp −
 
σ2

2π 1
2 1−φ2 σ 2

!− 1
 2 
c
− 12 σ2 2 y1 − 1−φ
= log (2π) exp −
  
1 − φ2

1 2
2 1−φ2 σ
2
c
y1 −
!
1 1 σ2 1−φ
= − log (2π) − log −
2 2 1 − φ2 2 1
σ2
1−φ2
Desarrollando el término de la sumatoria del segundo término del lado derecho en (3)
(yt − c − φyt−1 )2
!!
1
log fYt |Yt−1 (yt |yt−1 ; θ) = log √ √ exp −
σ 2 · 2π 2σ 2
1 1 (yt − c − φyt−1 )2
= − log σ 2 − log (2π) −
2 2 2σ 2
Por lo tanto, el segundo término del lado derecho en (3) se reduce a
T T
(yt − c − φyt−1 )2
" #
X X 1 1
log fYt |Yt−1 (yt |yt−1 ; θ) = − log σ 2 − log (2π) −
t=2 t=2
2 2 2σ 2
T
(yt − c − φyt−1 )2
" #
1 1
X
= − log σ 2 − log (2π) (T − 1) −
2 2 t=2
2σ 2

Reemplazando
2
c
y1 −
!
1 1 σ2 1−φ
L(θ) = − log (2π) − log −
2 2 1 − φ2 2 1
σ2
1−φ2
T
T −1 T −1 1 X

− log σ 2 − log (2π) − 2 (yt − c − φyt−1 )2
2 2 2σ t=2
simplificando
T T 1
L(θ) = − log (2π) − log σ 2 + log 1 − φ2
2 2 2
2 T
1 c 1 X

− 2 1 − φ2 y1 − − 2 (yt − c − φyt−1 )2 . (4)
2σ 1−φ 2σ t=2

Función de Log-Verosimilitud Promedio
La función log-verosimilitud promedio se define como
1
LT (θ) = L(θ)
T

Resumen
1. Datos
{yt }Tt=1 = {y1 , y2 , . . . , yT }
2. Proceso Generador de Datos (DGP)

Yt ∼ AR(1)
esto es:
Yt = c + φYt−1 + t

t ∼ iid N 0, σ 2
3. Funciones de densidad
Para t = 1, la función de densidad no condicionada de Y1 es
2 ! (
1 1 y1 − µ1 µ1 = c/ (1 − φ)

fY1 (y1 ; θ) = √ exp − con :
σ1 2π 2 σ1 σ12 = σ 2 / 1 − φ2
Para t = 2, 3, . . . , T , y considerando que el proceso {Yt } siguen un AR(1)

Yt |Yt−1 , . . . , Y1 ≡ Yt |Yt−1
la función densidad de Yt condicionada a sus realizaciones pasadas Yt−1 , . . . , Y1 será
2 ! (
1 1 yt − µ t

µt = c + φyt−1
fYt |Yt−1 (yt |yt−1 ; θ) = √ exp − con :
σt 2π 2 σt σt2 = σ 2

4. Función de Verosimilitud
Definición:
T
Y
fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) = fY1 (y1 ; θ) · fYt |Yt−1 ,...,Y1 (yt |yt−1 , . . . , y1 ; θ)
t=2
Considerando que el proceso {Yt } siguen un AR(1)

T
Y
fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) = fY1 (y1 ; θ) · fYt |Yt−1 (yt |yt−1 ; θ)
t=2
5. Función de Log-Verosimilitud
La Función de Log-Verosimilitud por definición es
Aplicando a la definición de Función de Verosimilitud

T
L(θ) = log fY1 (y1 ; θ) +
X
log fYt |Yt−1 ,...,Y1 (yt |yt−1 , . . . , y1 ; θ)
t=2
Aplicando a la Función de Verosimilitud del AR(1) en estudio

2 T
T T 1 1 c 1 X 2
L(θ) = − log (2π)− log σ 2 + log 1 − φ2 − 2 1 − φ2 y1 −

− 2 (yt − c − φyt−1 )
2 2 2 2σ 1−φ 2σ t=2

6. Función de Log-Verosimilitud Promedio
Definición:
1
LT (θ) = L(θ)
T
Aplicando a la definición de Función de Log-Verosimilitud
T
" #
1 X
LT (θ) = log fY1 (y1 ; θ) + log fYt |Yt−1 ,...,Y1 (yt |yt−1 , . . . , y1 ; θ)
T t=2
Aplicando a la Función de Log-Verosimilitud del AR(1) en estudio

2 T
1 1 1 1 c 1 X 2
LT (θ) = − log (2π)− log σ 2 + log 1 − φ2 − 2 1 − φ2 y1 −

− 2 (yt − c − φyt−1 )
2 2 2T 2σ T 1−φ 2σ T t=2

2.2. Forma vectorial de obtención de la función de verosimilitud

Sea Y ≡ (Y1 , Y2 , . . . , YT )0 un vector aleatorio Gaussiano que recolecta las T variables aleatorias
T ×1
de una serie de tiempo de talla T
Y ∼ N (µ, Ω)
T ×1
donde
• µ es el vector media definido como

 
µ

 µ 

µ = E [Y] =  .. 
.
 
T ×1  
µ
• Ω es la matriz de autocovarianzas definida como

 
γ0 γ1 · · · γT −1
h
0
i 
 γ1 γ0 · · · γT −2 

Ω = var [Y] = E (Y − µ) (Y − µ) = .. .. .. .. 
T ×T 
 . . . .


γT −1 γT −2 · · · γ0

Prueba
  
(Y1 − µ)
0
 (Y2 − µ)  
Ω = var [Y] = E (Y − µ) (Y − µ) = E    (Y1 − µ) (Y2 − µ) · · · (YT − µ) 
  
..
T ×T  .  
(YT − µ)
 2 
(Y1 − µ) (Y1 − µ) (Y2 − µ) ··· (Y1 − µ) (YT − µ)
2
 (Y2 − µ) (Y1 − µ) (Y2 − µ) ··· (Y2 − µ) (YT − µ) 
=E
 
.. .. .. .. 
 . . . . 
2
(YT − µ) (Y1 − µ) (YT − µ) (Y2 − µ) · · · (YT − µ)
 h i 
2
E (Y1 − µ) E [(Y1 − µ) (Y2 − µ)] ··· E [(Y1 − µ) (YT − µ)]
 h i 
2
 E [(Y2 − µ) (Y1 − µ)] E (Y2 − µ) ··· E [(Y2 − µ) (YT − µ)]
 

= .. .. ..

 .. 

 . . . . 

h i
2
E [(YT − µ) (Y1 − µ)] E [(YT − µ) (Y2 − µ)] ··· E (YT − µ)
 
γ0 γ1 ··· γT −1
 γ1 γ0 ··· γT −2 
=
 
.. .. .. .. 
 . . . . 
γT −1 γT −2 ··· γ0


Sea una muestra observada (conjunto de T observaciones) o realización del vector aleatorio Gaus-
siano Y
T ×1
y ≡ (y1 , y2 , . . . , yT )0
T ×1
La función de verosimilitud (densidad Gaussiana multivariada2 ) puede ser escrita como

1
1

− T2

−1 2 0 −1
fY (y; θ) = (2π) Ω exp − (y − µ) Ω (y − µ)
2
La función de log-verosimilitud será
T 1 1
L (θ) = − log (2π) + log Ω−1 − (y − µ)0 Ω−1 (y − µ) (5)

2 2 2
2
La función de densidad para una distribución normal multivariada del vector aleatorio x = (x1 , . . . , xN )0 es
1 1
0

f (x) = p exp − (x − µ) Σ−1 (x − µ)
N
(2π) |Σ| 2
donde Σ es la matriz de covarianzas de x (matriz simétrica).

Sea
Ω = σ2V
y consideremos que la inversa de la matriz V puede ser factorizada como
V−1 = L0 L
entonces,
Ω−1 = σ −2 L0 L
Reemplazando éste último valor en (5)
T 1 1
L (θ) = − log (2π) + log σ −2 L0 L − (y − µ)0 σ −2 L0 L (y − µ)

2 2 2
definiciendo y
e
e = L (y − µ)
y
simplificamos L (θ)
T 1 1 0
T
−2 2
L (θ) = − log (2π) + log σ |L| − 2 y eye
2 2 2σ
obteniendo la siguiente expresión final
T T 1 0
L (θ) = − log (2π) − log σ 2 + log |L| − 2 y
eye (6)
2 2 2σ

Para el proceso Gaussiano AR(1)

Yt = c + φYt−1 + t
tenemos que  p 
1 − φ2 0 0 ··· 0 0

 −φ 1 0 ··· 0 0 

c 
0 −φ 1 ··· 0 0

µ= , L= 
1 − φ2 
 .. .. .. .. .. 

 . . . . . 
0 0 0 · · · −φ 1
y por lo tanto:
1
|L| = 1 − φ2 2
 c
  p 
 p
1 − φ2 0 0 ··· 0 0 y1 − 1−φ 2 1 − φ2 y1 − 1−φc
2
−φ 1 0 ··· 0 0   y2 − c 2
   
y2 − c − φy1

  1−φ   
c
  
0 −φ 1 ··· 0 0   y3 − 1−φ
 
e = L (y − µ) = 
y 2 =
 
y3 − c − φy2 


 .. .. .. .. .. 
 ..   .. 
 . . . . .  .
 
  .


0 0 0 · · · −φ 1 c
yT − 1−φ2 yT − c − φyT −1
observándose que:
2 T
c
e0y (yt − c − φyt−1 )2
X
y e = 1 − φ2 y1 − +
1 − φ2 t=2

Reemplazando en (6)
T T 1 0
L (θ) = − log (2π) − log σ 2 + log |L| − 2 y
eye
2 2 2σ
tenemos
T T 1
L (θ) = − log (2π) − log σ 2 + log 1 − φ2 2
2 2
T
2 X !
1
2
c 2
− 2 1−φ y1 − + (yt − c − φyt−1 )
2σ 1 − φ2 t=2
simplificando obtenemos la misma expresión hallada sin el uso de la forma vectorial

T T 1
L(θ) = − log (2π) − log σ 2 + log 1 − φ2
2 2 2
2 T
1 c 1 X

− 2 1 − φ 2 y1 − − 2 (yt − c − φyt−1 )2
2σ 1−φ 2σ t=2

2.3. Estimación por Máxima Verosimilitud Exacta para el Proceso Gaussiano AR(1)
El estimador θ
b obtenido por Máxima Verosimilitud (MLE θ)
b es el valor para el cual se maximiza
L(θ).
b = argmax L(θ)
θ θ
θ
b
Condición de Primer Orden
En un principio esto requiere la diferenciación de L(θ) e igualar el resultado a cero.
∂L(θ)
g (θ) ≡ = 0
∂θ n×1
formándose un sistema de n ecuaciones no lineales en θ y {y1 , y2 , . . . , yT }
gi (θ) = 0 i = 1, 2, . . . , n
En la práctica:
• No hay una solución única para θ en términos de {y1 , y2 , . . . , yT }.

• Se requiere procedimientos itérativos o algoritmos numéricos que se describirán mas adelante.

2.4. Estimación por Máxima Verosimilitud Condicional

Una alternativa a la maximización numérica de la función de verosimilitud exacta es considerar
el valor de y1 como determinístico y maximizar la verosimilitud condicionada sobre la primera
observación
T
Y
fYT ,YT −1 ,...,Y2 |Y1 (yT , yT −1 , . . . , y2 |y1 ; θ) = fYt |Yt−1 (yt |yt−1 ; θ)
t=2
el objetivo es entonces maximizar
logfYT ,YT −1 ,...,Y2 |Y1 (yT , yT −1 , . . . , y2 |y1 ; θ)
T
(yt − c − φyt−1 )2
" #
T −1 T −1 X
=− log (2π) − log σ 2 − (7)
2 2 t=2
2σ 2
La maximización de (7) con respecto a c y φ es equivalente a la minimización de

T
(yt − c − φyt−1 )2
X
(8)
t=2
la cual es conseguida mediante una regresión por mínimos cuadrados ordinaria (OLS) de yt sobre
una constante y sus propio valor rezagado.
Por lo tanto, el estimador de máxima verosimilitud condicional de c y φ esta dado por
" # " #" #
cb T − 1 Σyt−1 Σyt
= 2
φb Σyt−1 Σyt−1 Σyt−1 yt
donde Σ denota la sumatoria sobre t = 2, 3, . . . , T .

b 2 , es encon-
El estimador por máxima verosimilitud condicional de la varianza de la innovación, σ
2
trado diferenciando (7) con respecto a σ e igualando el resultado a cero
T
(yt − c − φyt−1 )2
" #
T −1 X
− + =0
2σ 2 t=2
2σ 4
o  2 
T
X y t − b − φy
c b t−1
b2 =
σ
 
T −1
 
t=2
En otras palabras, la MLE condicional es el promedio de los residuos al cuadrado prove-

nientes de la regresión OLS (8).
En contraste con los estimadores por máxima verosimilitud exacta, los estimadores por máxima
verosimilitud condicionada son triviales de calcular. Mas aún, si el tamaño de la muestra T es lo su-
ficientemente grande, la primera observación hace una contribución insignificante a la verosimilitud
total.

Cuando |φ| < 1, el MLE exacto y el MLE condicional resultan tener la misma distribución en
grandes muestras.
Cuando |φ| > 1, el MLE condicional continua proporcionando estimadores consistentes, donde la
maximización de
T T 1
L(θ) = − log (2π) − log σ 2 + log 1 − φ2
2 2 2
2 T
1 c 1 X

− 2 1 − φ2 y1 − − 2 (yt − c − φyt−1 )2 .
2σ 1−φ 2σ t=2
no lo hace. Esto es porque esta ecuación es derivada a partir de

 2 
c
s
1 1− φ2 y1 − 1−φ
fY1 (y1 ; θ) = √ exp −
 
σ2

2π 1 2
2 1−φ2 σ
la cual no describe con precisión la densidad de Y1 cuando |φ| > 1.
Por estas razones, en la mayoría de aplicaciones los parámetros de una autoregresión son es-
timados por OLS (maxima verosimilitud condicional) en vez que con máxima verosimilitud
exacta.

3. La Función de Verosimilitud para un Proceso AR(p) Gausiano

Aquí discutiremos sobre el procesos Gausiano AR(p)
Yt = c + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + t (9)
con
t ∼ i.i.d.N (0, σ 2 )
En este caso, el vector de parámetros poblacional por estimar es
θ = (c, φ1 , φ2 , . . . , φp , σ 2 )0

3.1. Evaluación de la Función de Verosimilitud

Se utiliza una combinación de los dos métodos descritos para el caso AR(1), en el calculo de la
función de verosimilitud para una muestra de tamaño T de un proceso AR (p).
Las primeras p observaciones en la muestra (y1 , y2 , . . . , yp ) se recogen en un vector (p × 1): yp ,

que se considera como la realización de una variable gaussiana p-dimensional.
La media de este el vector yp es el vector (p × 1) µp cuyos elementos está dados por

c
µ= (10)
1 − φ1 − φ2 − · · · − φp
Sea σ 2 Vp una matriz de varianzas-covarianzas (p × p) de (Y1 , Y2 , . . . , Yp ):

 
E (Y1 − µ)2

E [(Y1 − µ)(Y2 − µ)] · · · E [(Y1 − µ)(Yp − µ)]

E [(Y2 − µ)(Y1 − µ)] E (Y2 − µ)2 · · · E [(Y2 − µ)(Yp − µ)] 
σ 2 Vp = 
 
.. .. .. ..  (11)

 . . . .


E (Yp − µ)2

E [(Yp − µ)(Y1 − µ)] E [(Yp − µ)(Y2 − µ)]

Por ejemplo:
1
• Para una autoregresión de primer orden (p = 1), Vp es el escalar .
1 − φ2
• Para una general autoregresión de orden p
 
γ0 γ1 γ2 · · · γp−1

 γ1 γ0 γ1 · · · γp−2 

2 γ2 γ1 γ0 · · · γp−3
 
σ Vp =  

.. .. .. ..

. . . .
 
 
γp−1 γp−2 γp−3 · · · γ0
donde la autocovarianza j-ésima para un proceso AR(p), γj , puede ser calculada usando los
métodos ya estudiados.
La densidad de las primeras p observaciones en la muestra
(y1 , y2 , . . . , yp )
son entonces la de una variable N (µp , σ 2 Vp ):
fYp ,Yp−1 ,...,Y1 (yp , yp−1 , . . . , y1 ; θ)
1

−p/2 −2
= (2π) |σ Vp−1 |1/2 exp
− 2 (yp − µp )0 Vp−1 (yp − µp )
2σ
1

−p/2 −2 p/2 −1 1/2 0 −1
= (2π) (σ ) |Vp | exp − 2 (yp − µp ) Vp (yp − µp ) (12)
2σ
donde se ha utilizado el resultado [A.4.8].

La densidad de las restantes observaciones en la muestra
(yp+1 , yp+2 , . . . , yT )
puede utilizarse la descomposición predicción-error.
Así, condicionado a las t − 1 primeras observaciones, la obsevación t-ésima es Gausiana con media
c + φ1 yt−1 + φ2 yt−2 + · · · + φp yt−p
y varianza σ 2 .
Solo las p observaciones mas recientes importan para esta distribución.

Por lo tanto, para t > p
fYt |Yt−1 ,...,Y1 (yt |yt−1 , . . . , y1 ; θ)

= fYt |Yt−1 ,...,Yt−p (yt |yt−1 , . . . , yt−p ; θ)
" #
1 (yt − c − φ1 yt−1 − φ2 yt−2 − · · · − φp yt−p )2
=√ exp −
2πσ 2 2σ 2

La función de verosimilitud para la muestra completa es entonces
fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ)

= fYp ,Yp−1 ,...,Y1 (yp , yp−1 , . . . , y1 ; θ)
T
Y
× fYt |Yt−1 ,Yt−2 ,...,Yt−p (yt |yt−1 , yt−2 , . . . , yt−p ; θ) (13)
t=p+1
y la log verosimilitud es por lo tanto

p p 1
= − log(2π) − log(σ 2 ) + log |Vp−1 |
2 2 2
1
− 2 (yp − µp )0 Vp−1 (yp − µp )
2σ
T −p T −p
− log(2π) − log(σ 2 )
2 2
T
X (yt − c − φyt−1 − φ2 yt−2 − · · · − φp yt−p )2
− (14)
t=p+1
2σ 2
T T 1
=− log(2π) − log(σ 2 ) + log |Vp−1 |
2 2 2
1
− 2 (yp − µp )0 Vp−1 (yp − µp )
2σ
T
X (yt − c − φyt−1 − φ2 yt−2 − · · · − φp yt−p )2
−
t=p+1
2σ 2

La evaluación de (14) requiere invertir la matriz (p × p ) Vp .
• Denotemos al elemento de la fila i, columna j de Vp−1 mediante v ij (p).

• Galbraith and Galbraith (1974, ecuación 16, p.70) muestran que
 
i−1
X p+i−j
X
v ij (p) =  φk φk+j−i − φk φk+j−i  para 1 ≤ i ≤ j ≤ p (15)
k=0 k=p+1−j
donde φ0 ≡ −1.
• Los valores v ij (p) para i > j pueden ser inferidos a partir del hecho de que Vp−1 es simétrica
(v ij (p) = v ji (p)).
• Por ejemplo, para p = 1, Vp−1 es una escalar cuyo valor es encontrado tomando i = j = p = 1
" 0 1
#
V1−1
X X
= φk φk − φk φk = φ20 − φ21 = 1 − φ2
k=0 k=1
así
σ2
σ 2 V1 =
1 − φ2
que reproduce la fórmula para la varianza de un proceso AR(l).

• Por ejemplo, para p = 2, la ecuación [15] implica

" #
1 − φ22 −(φ1 + φ1 φ2 )
V2−1 =
−(φ1 + φ1 φ2 ) 1 − φ22
obteniéndose rápidamente
" #
(1 − φ2 ) −φ1
|V2−1 | = (1 + φ2 ) = (1 + φ2 )2 [(1 − φ2 )2 − φ21 ]

−φ1 (1 − φ2 )
y
1
(yp − µp )0 Vp−1 (yp − µp )
2σ 2 " #" #
(1 − φ2 ) −φ1 (y1 − µ)
= [ (y1 − µ) (y2 − µ) ](1 + φ2 )
−φ1 (1 − φ2 ) (y2 − µ)
= (1 + φ2 ) × { (1 − φ2 )(y1 − µ)2 − 2φ1 (y1 − µ)(y2 − µ) + (1 − φ2 )(y2 − µ)2 }
La log verosimilitud exacta para un proceso Gausiano AR(2) está así dado por
T T 1
L(θ) = − log(2π) − log(σ 2 ) + log{(1 + φ2 )2 [(1 − φ2 )2 − φ21 ]}
2 2 2
1 + φ2

− × { (1 − φ2 )(y1 − µ)2 − 2φ1 (y1 − µ)(y2 − µ) + (1 − φ2 )(y2 − µ)2 }
2σ 2
T
X (yt − c − φ1 yt−1 − φ2 yt−2 )2
−
t=3
2σ 2
c
donde µ = .
1 − φ1 − φ2

3.2. Estimaciones de Máxima Verosimilitud Condicional

La maximización de la log verosimilitud exacta para un proceso AR(p), ecuación (14), se debe
obtener numéricamente.
Sin embargo, el logaritmo de la verosimilitud condicionado a las primeras p observaciones asume

la forma simple
logfYT ,YT −1 ,...,Yp+1 |Yp ,...,Y1 (yT , yT −1 , . . . , yp+1 |yp , . . . , y1 ; θ)

T −p T −p
=− log(2π) − log(σ 2 )
2 2
T
X (yt − c − φ1 yt−1 − φ2 yt−2 − · · · − φp yt−p )2
− (16)
t=p+1
2σ 2
Los valores de c, φ1 , φ2 , . . . , φp que maximizan (16) son aquelos que minimizan

T
X
(yt − c − φ1 yt−1 − φ2 yt−2 − · · · − φp yt−p )2 (17)
t=p+1
Así, las estimaciones de la máxima verosimilitud condicional de estos parámetros pueden obtenerse
a partir de una regresión OLS de yt sobre una constante y p de sus propios valores rezagados.

La estimación de máxima verosimilitud condicional de σ 2 resulta ser el promedio de los residuos

al cuadrado de esta regresión:
T
1 X
b2 =
σ (yt − c − φb1 yt−1 − φb2 yt−2 − · · · − φbp yt−p )2
T − p t=p+1
La estimación de la máxima verosimilitud exacta y la estimación de la máxima verosimilitud

condicional vuelven a tener la misma distribución de grandes muestras.

3.3. Estimación de la Máxima Verosimilitud para Series de Tiempo No Gausianas

En el capítulo anterior observamos que una regresión OLS de una variable sobre una constante y
p de sus rezagos :
• Daría una estimación consistente de los coeficientes de la proyección lineal,

b t |Yt−1 , Yt−2 , . . . , Yt−p )
E(Y
siempre que el proceso sea ergódico para los segundos momentos.

• Maximiza la verosimilitud condicional Gausiana (16) :
logfYT ,YT −1 ,...,Yp+1 |Yp ,...,Y1 (yT , yT −1 , . . . , yp+1 |yp , . . . , y1 ; θ)

T −p T −p
=− log(2π) − log(σ 2 )
2 2
T
X (yt − c − φ1 yt−1 − φ2 yt−2 − · · · − φp yt−p )2
− (18)
t=p+1
2σ 2
por lo tanto, incluso si el proceso no es Gaussiano, asi erróneamente formemos una función de
log verosimilitud Gausiana y la maximizamos, las estimaciones resultantes (cb, φb1 , φb2 , . . . , φbp
) proporcionarán estimaciones consistentes de los parámetros poblacionales en (9).

Una estimación que maximiza una función de verosimilitud mal especificada (por ejemplo, una
MLE calculada bajo el supuesto de un proceso gaussiano cuando los datos verdaderos no son
gaussianos) se conoce como una estimación de quasi-máxima verosimilitud.
• A veces, como resulta ser el caso aquí, la estimación de quasi-máxima verosimilitud propor-
ciona estimaciones consistentes de los parámetros de población de interés. Sin embargo, los
errores estándar para los coeficientes estimados que se calculan bajo la hipótesis de Gausia-
niedad no necesitan ser correctos si los datos verdaderos no son gaussianos3 .
• Alternativamente, si los datos brutos (raw data) no son gaussianos, a veces una simple trans-
formación, como tomar logaritmos, producirá una serie de tiempo gaussiana. Para una variable
aleatoria positiva Yt , Box y Cox (1964) propusieron la clase general de transformaciones
 λ
 Yt − 1
Yt
(λ)
= para λ 6= 0
λ
log Yt para λ = 0

Un enfoque consiste en elegir un valor particular de λ y maximizar la función de verosimilitud

(λ) (λ)
para Yt , bajo la suposición de que Yt es un proceso de ARMA Gaussiano. El valor de λ
que está asociado con el valor más alto de la verosimilitud maximizada se toma como la mejor
transformación. Sin embargo, Nelson y Granger (1979) informaron resultados desalentadores
de este método en la práctica.
• Li y McLeod (1988) y Janacek y Swift (1990) describieron enfoques para la estimación de la
máxima verosimilitud para algunos modelos ARMA no Gaussianos. Martin (1981) discutió la
estimación robusta de series de tiempo para datos contaminados.
3
Estos puntos fueron planteados por primera vez por White (1982) y se analizan más adelante.

4. La Función de Verosimillitud para un Proceso MA(1) Gausiano

4.1. Función de Verosimilitud Condicional
El cálculo de la función de verosimilitud para una autorregresión resultó ser mucho más sencillo si
condicionabamos los valores iniciales de los Y ’s.
Del mismo modo, el cálculo de la función de verosimilitud para un proceso de media móvil es más
sencillo si condicionamos los valores iniciales de los ’s.

EJEMPLO: Para el proceso MA(1) Gaussiano
Yt = µ + t + θt−1 (19)
con t ∼ i.i.d.N (0, σ 2 ).
Sea θ = (µ, θ, σ 2 )0 los parámetros poblacionales a ser estimados.
Si el valor de t−1 fuera conocido con certidumbre, entonces
Yt |t−1 ∼ N (µ + θt−1 , σ 2 )
o " #
1 (yt − µ − t−1 )2
fYt |t−1 (yt |t−1 ; θ) = √ exp − (20)
2πσ 2 2σ 2
Supongamos que conocemos con certeza que 0 = 0, entonces
Y1 |0 = 0 ∼ N (µ, σ 2 )
Además, dada la observación de y1 , el valor de 1 también se conoce con certeza:
1 = y1 − µ
permitiendo la aplicación de (20) nuevamente:

" #
1 (y2 − µ − 1 )2
fY2 |Y1 ,0 =0 (y2 |y1 , 0 = 0; θ) = √ exp −
2πσ 2 2σ 2

Como 1 es conocido con certidumbre, 2 puede ser calculado a partir de

2 = y2 − µ − θ1
procediendo de esta manera, está claro que bajo el conocimiento que 0 = 0, la secuencia completa
{1 , 2 , . . . , T } puede ser calculada a partir de {y1 , y2 , . . . , yT } mediante la iteración
t = yt − µ − θt−1 (21)
para t = 1, 2, . . . , T , comenzando desde 0 = 0.
La densidad condicionada de la observación r-ésima puede ser calculada a partir de (20) como
fYt |Yt−1 ,Yt−2 ,...,Y1 ,0 =0 (yt |yt−1 , yt−2 , . . . , y1 , 0 = 0; θ) = fYt |t−1 (yt |t−1 ; θ)
" #
1 2
=√ exp − t 2 (22)
2πσ 2 2σ
La verosimilitud muestral sería entonces el producto de estas densidades individuales:

fYT ,YT −1 ,...,Y1 |0 =0 (yT , yT −1 , . . . , y1 |0 = 0; θ)
T
Y
= fYt |0 (yt |0 = 0; θ) fYt |Yt−1 ,Yt−2 ,...,Y1 ,0 =0 (yt |yt−1 , yt−2 , . . . , y1 , 0 = 0; θ)
t=2
La log verosimilitud será:

L(θ) = log fYT ,YT −1 ,...,Y1 |0 =0 (yT , yT −1 , . . . , y1 |0 = 0; θ)
T
T T X 2t
=− log(2π) − log(σ 2 ) − (23)
2 2 t=1
2σ 2

Para un valor numérico particular de θ, calculamos la secuencia de ’s implicada por los datos de
[21].
La log verosimilitud condicional [23] es entonces una función de la suma de cuadrados de estos
’s.
Aunque es sencillo programar esta iteración por computadora, la log verosimilitud es una función
no lineal bastante complicada de µ y θ, de modo que una expresión analítica para las estimaciones
de máxima verosimilitud de µ y θ no se calcula fácilmente. Por lo tanto, incluso las estimacio-
nes de máxima verosimilitud condicional para un proceso MA (1) deben ser encontradas por
optimización numérica.
La iteración sobre (21) a partir de una valor de partida arbitrario de 0 dará como resultado
t =(yt − µ) − θ(yt−1 − µ) + θ2 (yt−2 − µ) − · · ·

+ (−1)t−1 θt−1 (y1 − µ) + (−1)t θt 0
• Si |θ| es sustancialmente menor que la unidad, el efecto de imponer 0 = 0 desaparecerá

rápidamente y la verosimilitud condicional [22] dará una buena aproximación a la verosimilitud
no condicionada de una muestra razonablemente grande.
• Si |θ| > 1, las consecuencias de imponer 0 = 0 se acumulan con el tiempo. El enfoque
condicional no es razonable en tal caso. Si la optimización numérica de [23] resulta en un
valor de θ que excede de 1 en valor absoluto, los resultados deben ser descartados. La
optimización numérica debe ser intentada de nuevo con el recíproco de θb utilizado como
valor inicial para el procedimiento de búsqueda numérica.

4.2. Función de Verosimilitud Exacta

Dos algoritmos convenientes están disponibles para calcular la función de verosimilitud exacta para
un proceso Gaussian MA (1).
• Un enfoque es usar el filtro de Kalman.

• Un segundo enfoque utiliza la factorización triangular de la matriz de varianza-covarianza.
A continuación describimos el segundo enfoque.
Las observaciones sobre y pueden ser recolectadas en un vector (T × 1) y ≡ (y1 , y2 , . . . , yT )0 con

media µ ≡ (µ, µ, . . . , µ)0 y la matriz (T × T ) de varianzas-covarianzas
Ω = E (Y − µ)(Y − µ)0

La matriz de varianzas-covarianzas para T continuas realizaciones de un proceso MA(1) es
(1 + θ2 )
 
θ 0 ··· 0

 θ (1 + θ2 ) θ ··· 0 

2 0 θ (1 + θ2 ) ··· 0
 
Ω=σ  
.. .. .. .. .. 
. . . . .
 
 
0 0 0 · · · (1 + θ2 )
La función de verosimilitud es entonces

1

fY (y; θ) = (2π)−T /2 |Ω|−1/2 exp − (y − µ)0 Ω−1 (y − µ) (24)
2

Una descomposición predicción-error de la verosimilitud es obtenida a partir de la factorización

triangular de Ω
Ω = ADA0 (25)
donde A es una matriz triangular inferior y D es una matriz diagonal.
Sustituyendo (25) en (24) se obtiene
1

−T /2 0 −1/2 −1 −1 −1
exp − (y − µ)0 A0

fy (y; θ) = (2π) ADA D A (y − µ) (26)
2
Como A es una matriz triangular inferior con 1s a lo largo de su diagonal princila, tenemos que
|A| = 1 y por lo tanto
ADA0 = |A| · |D| · A0 = |D|

Definiendo
e ≡ A−1 (y − µ)
y (27)
la verosimilitud (26) puede ser escrita como
1 0 −1

−T /2 −1/2
fy (y; θ) = (2π) |D| exp − yeD y e (28)
2
NOTA: Observe que (27) implica que
e =y−µ
Ay

La primera fila de este sistema establece que
ye1 = y1 − µ
mientras que la t-ésima fila implica que

h i
θ 1 + θ2 + θ4 + · · · + θ2(t−2)
yet = yt − µ − yet−1 (29)
1 + θ2 + θ4 + · · · + θ2(t−1)
El vector y
e puede ser calculado iterando sobre (29) para t = 2, 3, . . . , T , comenzando a partir de
ye1 = y1 − µ-
La variable yet se interpreta como el residuo de una proyección lineal de yt sobre una constante
y yt−1 , yt−2 , . . ., y1 ; mientras que el elemento diagonal t−ésimo de D brinda el MSE de la
proyección lineal
h i 1 + θ2 + θ4 + · · · + θ2t
dtt = E Yet2 = σ 2 (30)
1 + θ2 + θ4 + · · · + θ2(t−1)
Como D es diagonal, su determinante es el producto de los términos a lo largo de la diagonal
principal
T
Y
|D| = dtt (31)
t=1
mientras que la inversa de D es obtenida tomando los recíprocos de los términos a lo largo de la
diagonal principal, así
T
yet2
e 0 D−1 y
X
y e= (32)
d
t=1 tt

Sustituyendo (31) y (32) en (28), la función de verosimilitud es

"T #−1/2 T
!
−T /2
Y 1X yet2
fy (y; θ) = (2π) dtt exp − (33)
t=1
2 t=1 dtt
La log verosimilitud exacta para un proceso MA(1) Gausiano es por lo tanto

T T
T 1X 1X yet2
L(θ) = log fy (y; θ) = − log(2π) − log(dtt ) − (34)
2 2 t=1 2 t=1 dtt
Dados los valores numéricos para µ, θ y σ 2 , la secuencia yet se calcula iterando sobre (29) comen-
zando con ye1 = y1 − µ, mientras que dtt es hallado usando (30).
En contraste con la función de log verosimilitud (23), la expresión (34) será válida independien-
temente de si θ está asociada a una representación MA(1) invertible. El valor de (34) en θ = θ,e
2
σ =σ 2 −1 2
e será idéntico a su valor en θ = θe , σ = θe σ2 2
e . Ver Ejercicio 5.1 del texto base.

5. La Función de Verosimilitud para un Proceso MA(q) Gausiano

5.1. La Función de Verosimilitud Condicional
Un proceso causal M A(q) toma la forma
Yt = µ + t + θ1 t−1 + · · · + θq t−q (35)
donde t ∼ i.i.d. N (0, σ 2 ).
La meta es estimar el vector de parámetros poblacionales

0
θ = µ, θ1 , . . . , θq , σ 2
Una aproximación a la función de verosimilitud para un procesos M A(q) estará condicionada por
los ’s.
Una simple método para esta aproximación es condicionar en supuesto de que los primeros q
valores de ’s son todos cero
0 = −1 = · · · = −q+1 = 0 (36)
A partir de estos valores podemos iterar sobre
t = yt − µ − θ1 t−1 − · · · − θq t−q (37)
para t = 1, 2, . . . , T .

Sea 0 el vector (q × 1) como dados
0 ≡ (0 , −1 , . . . , −q+1 )0
la log verosimilitud condicionada es entonces
L (θ) = logfYT ,YT −1 ,...,Y1 |0 =0 (yT , yT −1 , . . . , y1 |0 = 0; θ)

T
T T X 2t
=− log (2π) − log σ 2 − (38)
2 2 t=1
2σ 2
siempre que todos las raíces de Θ(z) caigan fuera del círculo unitario.

5.2. La Función de Verosimilitud Exacta

Queda como ejercicio para el problem set demostrar que la Función de Verosimilitud Exacta para
un proceso M A(q) está dada por
T T
T 1X 1X yet2
L(θ) = log fy (y; θ) = − log(2π) − log(dtt ) −
2 2 t=1 2 t=1 dtt
donde
yet = (yt − µ) − at,t−1 yet−1 − at,t−2 yet−2 − · · · − at,t−q yet−q
donde los aij provienen de la factorización triangular de Ω
 
1 0 0 ··· 0 0

 a21 1 0 ··· 0 0 

a31 a32 1 ··· 0 0
 
 
.. .. .. .. ..
 
 
 . . . ··· . . 
A= 
 a
 q+1,1 aq+1,2 aq+1,3 ···0 0 


 0 aq+2,2 aq+2,3 ···0 0 

 .. .. .. .. .. 
. . . ··· . .
 
 
0 0 0 · · · aT,T −1 1

6. La Función de Verosimilitud para un Proceso ARMA(p,q) Gausiano

6.1. La Función de Verosimilitud Condicional
Un proceso causal ARM A(p, q) toma la forma
Yt = c + φ1 Yt−1 + · · · + φp Yt−p
+ t + θ1 t−1 + · · · + θq t−q (39)
donde t ∼ i.i.d. N (0, σ 2 ).
La meta es estimar el vector de parámetros poblacionales

0
θ = c, φ1 , . . . , φp , θ1 , . . . , θq , σ 2
Una aproximación a la función de verosimilitud para un procesos ARM A(p, q) estará condicionada
por los y’s y los ’s.

Tomando los valores iniciales y0 y 0 como dados
y0 ≡ (y0 , y−1 , . . . , y−p+1 )0

0 ≡ (0 , −1 , . . . , −q+1 )0
la secuencia
{1 , 2 , . . . , T }
puede ser calculada a partir de
{y1 , y2 , . . . , yT }
mediante la iteración
t = yt − c − φ1 Yt−1 − · · · − φp Yt−p
+ − θ1 t−1 − · · · − θq t−q (40)
para t = 1, 2, . . . , T .
La log verosimilitud condicionada es entonces
L (θ) = logfYT ,YT −1 ,...,Y1 |Y0 ,0 (yT , yT −1 , . . . , y1 |y0 , 0 ; θ)

T
T T X 2t
=− log (2π) − log σ 2 − (41)
2 2 t=1
2σ 2

Una opción es establecer inicialmente los y’s y ’s igual a sus valores esperados. Esto es
c
ys = para s = 0, −1, . . . , −p + 1
1 − φ1 − · · · − φp
s = 0 para s = 0, −1, . . . , −q + 1
y luego proceder con la iteración en (40)
t = yt − c − φ1 Yt−1 − · · · − φp Yt−p
+ − θ1 t−1 − · · · − θq t−q
para t = 1, 2, . . . , T .
Alternativamente, Box y Jenkins (1976, p.221) recomiendan fijar los ’s a cero pero los y’s a
sus valores actuales. Así, la iteración (40) es iniciada en el periodo t = p + 1 con y1 , y2 , . . . , yp
establecidos a los valores observados y
p = p−1 = · · · = p−q+1 = 0
Entonces la verosimilitud condicionada es calculada como
logf (yT , yT −1 , . . . , y1 |yp , . . . , y1 , p = 0, . . . , p−q+1 = 0; θ)

T
T −p T −p X 2t
=− log (2π) − log σ 2 −
2 2 t=p+1
2σ 2
siempre que todos las raíces de Θ(z) caigan fuera del círculo unitario.

6.2. Algoritmos Alternativos

El método más sencillo para calcular la función de verosimilitud exacta para un proceso ARMA
gaussiano es utilizar el filtro de Kalman.
Para más detalles sobre la estimación exacta y aproximada de la máxima verosimilitud de modelos
ARMA, véase Galbraith y Galbraith (1974), Box y Jenkins (1976, Capítulo 6), Hannan y Rissanen
(1982), y Koreisha y Pukkila (1989)

7. Propiedades de los estimadores ML

En muestras grandes, el estimador ML es consistente, eficiente y normalmente distribuido.
En muestras pequeñas, satisface una propiedad de invarianza, es una función de estadísticos

suficientes y en algunos casos es insesgada y única.
La derivación de expresiones analíticas para las distribuciones de muestra finita del estimador
ML es generalmente complicada y requiere del uso de métodos computacionalmente intensivos
basados en simulaciones de Monte Carlo o expansiones de series para examinar algunas de estas
propiedades.
El estimador ML abarca muchos otros estimadores usados a menudo en econometría:
• OLS y variables instrumentales,

• Mínimos cuadrados no lineales,
• El método Cochrane-Orcutt para el modelo de regresión autocorrelacionado, ponderado la
estimación de cuadrados de los modelos de regresión heteroscástico y el procedimiento de
Johansen para los modelos de series de tiempo no estacionarios cointegrados.

7.1. Condiciones de Regularidad

Las condiciones de regularidad son supuestos que se utilizan en la derivación de las propiedades
del estimador ML.
Sean
• θ 0 el verdadero valor del vector de parámetros poblacionales, y

• f (y; θ) una distribución especificada correctamente.
Las siguientes condiciones de regularidad se aplican a los procesos iid, estacionario, mds (seccuencia
martingala en diferencia) y ruido blanco.
Por simplicidad, se presentan muchas de las condiciones de regularidad para el caso iid.

R1: Existencia
La esperanza Z ∞
E [log f (yt ; θ)] = log f (yt ; θ) f (yt ; θ 0 ) dyt
−∞
existe.
R1 es una declaración de la existencia de la función de verosimilitud logarítmica de la pobla-

ción.
R2: Convergencia
La función de log-verosimilitud, log LT (θ), converge en probabilidad a su valor esperado

T
1X p
log LT (θ) = log f (yt ; θ) → E [log f (yt ; θ)]
T t=1
uniformemente en θ.
R2 es una declaración de cómo la función de log-verosimilitud muestral converge al valor

poblacional en virtud de la WLLN, siempre que exista la expectativa dada por la condición
de existencia R1.

R3: Continuidad
log LT (θ) es continua en θ.
R3 es una condición necesaria para la condición de diferenciabilidad R4
R4: Diferenciabilidad
log LT (θ) es al menos dos veces continuamente diferenciable en un intervalo abierto alrededor
de θ 0 .
R4 surge naturalmente debido a que las dos primeras derivadas se usan para derivar el es-
timador ML y establecer que se alcanza un máximo. Incluso cuando la verosimilitud no es
diferenciable en todas partes, el estimador ML puede obtenerse en algunos casos, .
R5: Intercambiabilidad
El orden de diferenciación e integración de log LT (θ) es intercambiable
R5 se usa en la derivación de muchas de las propiedades del estimador ML.

7.2. Propiedades de la Función de Verosimilitud

Esta sección establece varias características de la función de log-verosimilitud utilizada en la deri-
vación de las propiedades del estimador ML.
7.2.1. La función de Verosimilitud Poblacional

Dado que se cumple la condición de existencia (R1), una propiedad importante de esta expectativa
es
θ 0 = arg maxE [log f (yt ; θ)] (42)
θ
El principio de máxima verosimilitud requiere que el estimador de máxima verosimilitud (estimador

ML), θ,b maximice la función de log-verosimilitud muestral al reemplazar la expectativa en la
ecuación (42) por el promedio muestral.
Esta propiedad representa el análogo poblacional del principio de máxima verosimilitud en el que
θ 0 maximiza E[logf (yt ; θ)].

7.2.2. Momentos del Gradiente

La función gradiente en la observación t se define como
∂ log f (yt ; θ)
gt (θ) =
∂θ
Esta función tiene 2 propiedades fundamentales para la estimación ML.
1. Media del Gradiente

E [gt (θ 0 )] = 0
2. Varianza del Gradiente

h i
cov [gt (θ 0 )] = E gt (θ 0 ) gt (θ 0 )0 = −E [ht (θ 0 )]
Esta expresión vincula la primera y la segunda derivadas de la función de verosimilitud y

establece que la expectativa del cuadrado del gradiente es igual al negativo de la expectativa
del hessiano.
La relación entre el gradiente y el Hessiano se presenta de forma más compacta al definir

h i
J (θ 0 ) = E gt (θ 0 ) gt (θ 0 )0
H (θ 0 ) = E [ht (θ 0 )]
en donde
J (θ 0 ) = −H (θ 0 ) (43)

La matriz J (θ 0 ) se conoce como el producto externo de las matrices gradiente. En el caso más
general en el cual yt es dependiente y gt es una mds, J (θ 0 ) y H (θ 0 ) en la ecuación (43) se
vuelven, respectivamente
T
1X h i
J (θ 0 ) = lim E gt (θ 0 ) gt (θ 0 )0 (44)
T →∞ T
t=1
T
1X
H (θ 0 ) = lim E [ht (θ 0 )] (45)
T →∞ T
t=1

7.2.3. La Matriz de Información

La definición del producto externo de la matriz de gradientes en la ecuación (43) se conoce
comúnmente como la matriz de información.
I (θ 0 ) = J (θ 0 )
Dada la relación entre J (θ 0 ) y H (θ 0 ) en la ecuación (43) se deduce de inmediato que
I (θ 0 ) = J (θ 0 ) = −H (θ 0 ) (46)
La ecuación (46) representa la bien conocida igualdad de información.

Un supuesto importante que subyace a este resultado es que la distribución utilizada para construir
la función log-likelihood está correctamente especificada.
La matriz de información representa una medida de la calidad de la información en la muestra

para ubicar el parámetro de población θ 0 .
Para las funciones de log-verosimilitud que son relativamente planas, la información en la muestra
se dispersa proporcionando información imprecisa sobre la ubicación de θ 0 .
Para las muestras que son menos difusas, la función de log-verosimilitud es más concentrada y
proporciona información más precisa sobre la ubicación de θ 0 .
La interpretación de la información de esta manera se deduce de la expresión de la matriz de
información en la ecuación (46) donde la cantidad de información en la muestra se mide por la
curvatura de la función de log-verosimilitud, dada por −H (θ 0 ).

Para funciones de verosimilitud logarítmica relativamente planas, la curvatura de log L (θ) significa
que −H (θ 0 ) es relativamente pequeña alrededor de θ 0 .
Para las funciones de verosimilitud logarítmica que presentan una curvatura más fuerte, la segunda
derivada es correspondientemente más grande.
Si −ht (θ) representa la información disponible a partir de los datos en el instante t, se deduce de
(45) que la información total disponible de una muestra de tamaño T es
T
X
T · I (θ 0 ) = − E [ht ]
t=1

7.3. Propiedades Asintóticas

7.3.1. Consistencia
Una propiedad deseable de un estimador θ b es que la información adicional obtenida al aumentar
el tamaño de muestra, T , arroje estimaciones más confiables del parámetro poblacional, θ 0 .
Formalmente, este resultado se establece como

plim θ
b = θ0
Un estimador que satisfaga esta propiedad es un estimador consistente.

7.3.2. Normalidad
La teoría de distribución asintótica arroja que
√
d

T θb − θ0 → N 0, H−1 (θ 0 ) J (θ 0 ) H−1 (θ 0 )
usando la matriz de información la igualdad en la ecuación (46) simplifica la distribución asintótica

a √
d
T θb − θ0 → N (0, Ω (θ 0 )) , Ω (θ 0 ) = I−1 (θ 0 )
o
1

a
b ∼ N θ0 ,
θ Ω (θ 0 )
T
Este resultado establece que:
• El estimador ML tiene una distribución normal asintótica con una media igual al parámetro
de población, θ 0 , y una matriz de covarianza normalizada T −1 Ω (θ 0 ).
• Las varianzas asintóticas de θ
b se obtienen a partir de los elementos diagonales de la matriz
de covarianza normalizada T −1 Ω (θ 0 ).

7.3.3. Eficiencia
La eficiencia asintótica se refiere al valor límite de la varianza de cualquier estimador, digamos θ,
e
alrededor de θ 0 a medida que aumenta el tamaño de la muestra.
Suponga que θ 0 es un parámetro único y θ

e es cualquier estimador consistente de θ 0 con distribución
asintótica de la forma √
b − θ0 → d
T θ N (0, Ω)
La desigualdad de Cramér-Rao proporciona un límite inferior en la eficiencia del estimador θ.

e
Ω ≥ I−1 (θ 0 )

7.4. Propiedades en Muestras Finitas

Las propiedades del estimador ML establecidas en la sección anterior son propiedades asintóticas.
Una aplicación importante de la distribución asintótica es aproximar la distribución de muestra

finita del estimador ML, θ.
b
Hay varios métodos disponibles para aproximar la distribución de muestra finita, incluida la simu-
lación de la distribución de muestreo por métodos de Monte Carlo o el uso de una expansión de
Edgeworth.

7.4.1. Insesgadez
No todos los estimadores ML son imparciales.
Ejemplos de estimadores ML insesgados son la media de una muestra normal y Poisson.
Incluso en muestras conocidas por estar normalmente distribuidas pero con una media desconocida,
la desviación estándar de la muestra es un ejemplo de un estimador sesgado desde E [σ b ] 6= σ0 .
Este resultado se deriva del hecho de que el teorema de Slutsky no se aplica al operador de
expectativas. Por consiguiente h i h i
E τ θ b 6= τ E θ b
en el que τ (·) es una función monotónica.
Este resultado contrasta con la propiedad de consistencia que usa límites de probabilidad, porque
el teorema de Slutsky sí se aplica a los plims.

7.4.2. Suficiencia
Sea {y1 , y2 , . . . , yT } realizaciones iid de la pdf conjunta
f (y1 , y2 , . . . , yT ; θ)
Cualquier estadístico calculado utilizando la muestra observada, como la media o la varianza de

la muestra, es una forma de resumir los datos.4
Un estadístico suficiente para el parámetro de población, θ 0 , es aquel que utiliza toda la
información en la muestra.
Formalmente, esto significa que la pdf conjunta se puede factorizar en dos componentes

e θ · d (y1 , . . . , yT )
f (y1 , y2 , . . . , yT ; θ) = c θ; (47)
en el que θ
e representa un estadístico suficiente para θ.
Si existe un estadístico suficiente, el estimador ML es una función de él. A partir de (47) reescri-
bimos la función log-verosimilitud como
1
e θ + 1 log d (y1 , . . . , yT )

log LT (θ) = log c θ;
T T
diferenciando con respecto a θ

∂ log LT (θ) 1 log c θ; θ
e
=
∂θ T ∂θ
4
Preferiblemente, los estadísticos deben resumir los datos de tal manera que no se pierda la información contenida en
la muestra completa.

el estimador ML, θ,
b se da como la solución de

log c θ;
e θ
=0
∂θ
la reorganización muestra que θ

b es una función del estadístico suficiente θ
e .
7.4.3. Invarianza
Si θb es el estimador ML de θ 0 , entonces para cualquier función arbitraria no lineal, τ (·), el

estimador ML τ (θ 0 ) viene dado por τ θ
b .
Esta propiedad es útil en situaciones donde una expresión analítica para el estimador ML no está
disponible
7.4.4. No Unicidad
El estimador ML de θ se obtiene resolviendo

gT θ
b =0 (48)
Los problemas considerados hasta ahora tienen única solución y en la mayoría de los casos de
forma cerrada.
Sin embargo, hay ejemplos donde hay varias soluciones a la ecuación (48).

8. Optimización Numérica
Dados:
• Datos observados
{yt }Tt=1 = {y1 , y2 , . . . , yT }
• Un valor inicial de θ (starting value) :

0
(0) (0)
θ (0) = θ1 , θ2 , . . . , θn(0)
Se genera una secuencia de diferentes valores de θ (m) (aproximaciones) y se tabula L(θ) en

cada caso:
θ (0) → θ (1) → θ (2) → θ (3) → ···
↓ ↓ ↓
L(θ (1) ) L(θ (2) ) L(θ (3) ) ···
Con estos valores tabulados de L(θ) se infiere el valor de θ

b para el cual L(θ) sea lo mas grande
posible.
b = argmax L(θ)
θ θ
θ
b

Los métodos numéricos que realizan esta tarea se conocen como algoritmos de maximización
numérica.
1. Método Grid Search (Búsqueda en Malla)

2. Método Steepest Ascent (Ascenso Empinado)
3. Método Newton-Raphson

8.1. Método Grid Search (Búsqueda en Malla)

DGP: Sea el proceso generador de datos de {Yt } un proceso AR(1)
Yt = c + φYt−1 + t
con
t ∼ iid N 0, σ 2
Vector de parámetros poblacionales:

0
θ = c, φ, σ 2
Datos: considere que la muestra observada está compuesta por las siguientes T = 5 observaciones
h i0
y= 0,8 0,2 −1,2 −0,4 0,0
Restricciones: Analizaremos dos casos en los que el proceso tiene media cero (c = 0 ):
CASO 1: Varianza de las innovaciones unitaria (por lo tanto no se estima)
θ = (0, φ, 1)0
CASO 2: Varianza de las innovaciones libre (se estima).

0
θ = 0, φ, σ 2

CASO 1: θ = (0, φ, 1)0
Función de log-verosimilitud
T
T 1 1 1X
L(θ) ≡ L(φ) = − log (2π) + log 1 − φ2 − 1 − φ2 y12 − (yt − φyt−1 )2 (49)
2 2 2 2 t=2
Intervalo de búsqueda de θ (malla o grid )

Sea el intervalo de búsqueda para φ
φ ∈ [ −0.9 ; 0.9 ] con paso 0.1
La malla estará dada por 19 estimaciones de θ
θ (1) = ( 0 , −0.9 , 1)0

θ (2) = ( 0 , −0.8 , 1)0
..
.
θ (18) = ( 0 , +0.8 , 1)0
θ (19) = ( 0 , +0.9 , 1)0

Tabulación de L(θ)
En cada punto θ (m) de la malla (m = 1, 2, . . . , 19) se evalúa L(θ).
MLE 3 (Grid Search)
-5.6
-5.8
-6
-6.2
-6.4
L( 3 )
-6.6
-6.8
-7
-7.2
-7.4
-7.6
-0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
?
Elección de de θ
b
Se elige aquel θ para el cual L(θ) resulte ser la mas grande posible
b = argmax L(θ)
θ θ
θ
b
En nuestro caso, según la tabulación realizada:
b = (0 , 0.2 , 1)0 → L(θ)
θ b = −5.7079

Refinamiento de la malla
• Refinamos el intervalo de búsqueda para φ.

Por ejemplo, reducimos el paso de 0.1 a 0.01.
• La malla (refinada) estará ahora dada por 181 estimaciones de θ
θ (1) = ( 0 , −0.90 , 1)0

θ (2) = ( 0 , −0.89 , 1)0
..
.
θ (180) = ( 0 , +0.89 , 1)0
θ (181) = ( 0 , +0.90 , 1)0
• El resultado final tras el refinamiento de la malla es:

b = (0 , 0.16 , 1)0 → L(θ)
θ b = −5.7045

0
CASO 2: θ = 0, φ, σ 2
Varían: φ y σ 2
Función de log-verosimilitud
T T 1
L(θ) = L(φ, σ 2 ) = − log (2π) − log σ 2 + log 1 − φ2
2 2 2
T
1 1
(yt − φyt−1 )2
X
− 2 1 − φ2 y12 − 2
2σ 2σ t=2
Intervalo de búsqueda de θ (malla o grid )

Sea los intervalos de búsqueda de la dupla (φ, σ 2 ), que maximiza L(θ):
φ ∈ [ −0.9 ; 0.9 ] con paso 0.1

σ 2 ∈ [ +0.1 ; 1.6 ] con paso 0.1
La malla estará dada por 304 estimaciones de θ
φ = −0.9 φ = −0.8 ··· φ = −0.9

σ2 = 0.1 θ (1) θ (2) ··· θ (19)
σ2 = 0.2 θ (20) θ (21) ··· θ (38)
.. .. .. ..
. . . .
σ 2 = 1.6 θ (286) θ (287) ··· θ (304)

Tabulación de L(θ)
En cada punto θ (m) de la malla (m = 1, 2, . . . , 19) se evalúa L(θ).
Elección de de θ
b
Según la tabulación realizada, el valor de θ para el cual L(θ) resulta ser lo mas grande posible es
b = (0 , 0.2 , 0.4)0 → L(θ)

θ b = −5.0564

Refinamiento de la malla
• Refinamos el intervalo de búsqueda para φ y σ 2 .
Por ejemplo, reducimos el paso de cada uno de 0.1 a 0.01.
• El resultado final tras el refinamiento de la malla es:
b = (0 , 0.19 , 0.44)0 → L(θ)
θ b = −5.0461
Curvas de Nivel de la Función de Log Verosimilitud Curvas de Nivel de la Función de Log Verosimilitud
(vista 3D) (vista 2D)
2.1
1.9
1.8
1.7
-5
1.6
-5.2
1.5
-5.4
1.4
-5.6
1.3
-5.8
1.2
-6 1.1
L( 3 )
<2
-6.2 1
0.9
-6.4
0.8
-6.6
0.7
-6.8
0.6
-7
0.5
2.1
2
1.9
1.8 0.4
1.7
1.6 1.1
1.5 1 0.3
1.4 0.9
1.3 0.8
0.7
1.2 0.6
1.1 0.5
1 0.4 0.2
0.3
0.9 0.2
0.8 0.1
0.7 0
-0.1 0.1
0.6 -0.2
0.5 -0.3
0.4 -0.4
-0.5
<2 0.3 -0.6 0
0.2 -0.7 ? -1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1
0.1 -0.8
0 -0.9
-1 ?

8.1.1. Características de los Algoritmos de Maximización Numérica

Los algoritmos de maximización numérica no encuentran el θ
b MLE exacto, en vez de ello, se
aproximan a él con cierta precisión deseada.
Los algoritmos de maximización numérica requieren la especificación de un criterio de convergencia,

o formas de decidir cuando se está lo suficientemente cerca del verdadero máximo.
• Por ejemplo, suponga que buscamos un estimado θ b que difiera de su verdadero valor MLE
en no mas de ±0,0001. En este caso, podriamos continar refinando la malla hasta que los
incrementos sean en pasos de 0.0001, y el mejor estimador entre los elementos de dicha malla
sería el MLE numérico de θ.
• Para el AR(1) del ejemplo visto, la función de log verosimilitud, L(θ), es unimodal (un solo
∂L(θ)
máximo), esto es, hay un único valor de θ para el cual = 0.
∂θ 0
El método grid search trabaja bien con verosimilitudes unimodales (un sólo máximo); sin embargo,
cuando existen múltiples máximos locales, la malla deberá ser los suficientemente fina para
revelar a todas las "montañas locales" (máximos locales) sobre la superficie de la verosimilitud.

8.2. Método Steepest Ascent (Ascenso Empinado)

Es un método para maximizar funciones continuamente diferenciables que dependen de un gran
número de parámetros.
Dados:
• Datos observados
{yt }Tt=1 = {y1 , y2 , . . . , yT }
• Un valor inicial de θ (starting value) :

0
(0) (0)
θ (0) = θ1 , θ2 , . . . , θn(0)
n×1
Se desea elegir un valor óptimo de θ (1) de tal manera que la distancia al cuadrado respecto a θ (0)
sea un número fijo k: 0
θ (1) − θ (0) θ (1) − θ (0) = k

Problema de Maximización (obtención de θ (1) )

El valor óptimo para de θ (1) será la solución del siguiente problema de maximización con restricción

max L θ (1)
θ (1) 0
sujeto a: θ (1) − θ (0) θ (1) − θ (0) = k
Formamos el Lagrangiano, donde λ denota el multiplicador de Lagrange.

0
J θ (1)
=L θ (1)
+λ k− θ (1)
−θ (0)
θ (1)
−θ (0)
Diferenciando con respecto a θ (1) y estableciendo el resultado igual a cero obtenemos

J θ (1)
(1)0
= g(θ)|θ=θ(1) − (2λ) θ (1) − θ (0) = 0
(50)
∂θ
donde g(θ) es el vector gradiente de la función de log verosimilitud (también conocido como
vector score)
∂L(θ)
g(θ) ≡
∂θ 0
Como θ tiene n elementos, entonces g(θ) será un vector de n×1 cuyo elemento i−ésimo representa
la derivada de la log verosimilitud con respecto al i−ésimo elemento de θ.
∂L(θ)
gi (θ) =
∂θi
para i = 1, 2, . . . , n

La expresión (50) puede ser escrita como

1
θ (1) − θ (0) = · g θ (1) (51)
2λ
• Si estamos permitiendo cambios de θ en una cantidad fija, el más grande incremento de
1

L(θ) será alcanzado si el cambio θ (1) − θ (0) es una proporción del vector gradiente
2λ
g θ (1) .
• Si estamos contemplando un paso muy pequeño (esto es, k cercano a cero), entonces

g θ (1) ≈ g θ (0)
y por lo tanto (51) puede escribirse como5 .

θ (1) − θ (0) = s · g θ (0) (52)
En otras palabras, el vector gradiente g θ (0) otorga la dirección en la que L(θ) se incrementa mas pronunciadamente
5

a partir de θ (0)

EJEMPLO: Sea la log-verosimilitud
L(θ) = −1,5θ12 − 2θ22
La solución analítica del θ

b MLE está dado por
b = (0, 0)0
θ
La solución numérica la desarrollaremos utilizaremos el algoritmo steepest ascend.
El vector gradiente g(θ) es calculado analíticamente como
∂L(θ)
 
 ∂θ  " #
∂L(θ)   1  −3θ1
g(θ) ≡ = =
∂θ 
 ∂L(θ)  −4θ2
∂θ2
Interpretación: Para incrementar L(θ) lo mas que se pueda, necesitamos incrementar θ1 y reducir
θ2 relativo al valor θ, debido a que el valor absoluto de un cambio unitario en θ2 tiene mayor efecto
sobre L(θ) que el valor absoluto de un cambio unitario en θ1 .

Suponga el valor inicial

θ (0) = (−1, 1)0
entonces " #

(0)
∂L(θ) 3
g θ = =
∂θ θ=θ(0) −4
por lo tanto el paso óptimo θ (1) − θ (0) será proporcional a (3, −4)0 .

θ (1) − θ (0) = s · g θ (0)
• Con k = 1
0
θ (1) − θ (0) θ (1) − θ (0) = 1
(3s)2 + (−4s)2 = 1
tenemos que
1
s=
5
Por lo tanto, θ (1) será

0
2 1

θ (1) = − ,
5 5

NOTA:
En ocasiones la obtención del vector gradiente de L(θ) es muy dificil de realizar analíticamente.
En estos casos se puede obtener una aproximación numérica del gradiente observando como
L(θ) cambia ante pequeños cambios en cada uno de los elementos de θ.

• El i−ésimo elemento de g θ (0) puede aproximarse mediante
1 n o
gi θ (0) ∼
(0) (0)
= L . . . , θi + ∆, . . . − L . . . , θi , . . .
∆
donde ∆ representa cualquier escalar pequeño elegido tal como ∆ = 10−6 .
• A través del cálculo numérico de L (θ) en θ (0) y en n diferentes valores de θ correspon-
dientes a pequeños cambios en los elementos
individuales de θ (0) , se puede descrubrir una
(0)
estimación del vector completo g θ
1 n (0) o
g1 θ (0) ∼
(0) (0) (0)
= L θ1 + ∆ , θ2 , . . . , θn(0) − L θ1 , θ2 , . . . , θn(0)
∆
1 n (0) (0) o
g2 θ (0) ∼
(0) (0)
= L θ1 , θ2 + ∆ , . . . , θn(0) − L θ1 , θ2 , . . . , θn(0)
∆
..
.
1 n (0) (0) o
gn θ (0) ∼
(0) (0)
= L θ1 , θ2 , . . . , θn(0) + ∆ − L θ1 , θ2 , . . . , θn(0)
∆
.

El resultado (52) sugiere que podemos cambiar el valor de θ en la dirección del gradiente eligiendo

θ (1) − θ (0) = s · g θ (0)
para algún valor escalar positivo s.
Una adecuada elección de s debería ser encontrada mediante una adaptación del método grid
search.
n o
Por ejemplo, podemos calcular el valor de L θ (0) + s · g θ (0) para el cual L (θ) es el mas
grande. Valores muy pequeños o muy grandes de s pueden también ser explorados si el máximo
parece estar en algunno de los extremos. Si ninguno de los valores de s mejora la verosimilitud,
entonces se debe intentar con un valor muy pequeño para s, como el valor ∆ = 10−6 usado para
aproximar la derivada.
Repetimos el proceso tomando como valor inicial

θ (1) = θ (0) + s · g θ (0)

luego, evaluamos el gradiente en la nueva ubicación,g θ (1) , y generamos una nueva estimación
θ (2)
θ (2) = θ (1) + s · g θ (1)
El proceso es iterado calculando

θ (m) = θ (m−1) + s · g θ (m−1)
para m = 1, 2, . . . , hasta que se satisfaga algún criterio de convergencia,

Criterios de Convergencia

Que el vector gradiente g θ (m) este dentro de alguna tolerancia especificada del cero

g θ (m) < 1

Que la distancia entre θ (m+1) y θ (m) sea menor que algún umbral especificado

(m+1)
θ − θ (m) < 2

Que el cambio entre L θ (m+1) y L θ (m) sea menor que alguna cantidad deseada.

L θ (m+1) − L θ (m) < 3


EJEMPLO: Consideremos el caso del Proceso Gaussiano AR(1)
Yt = c + φYt−1 + t
con
t ∼ iid N 0, σ 2
cuyo vector de parámetros vendría dado por
0
θ = c, φ, σ 2
Obtenga el estimador θ
b MLE utilizando el algoritmo steepests ascend. Considere además que:
c = 0.
La muestra observada está compuesta por las siguientes T = 5 observaciones
h i0
y= 0,8 0,2 −1,2 −0,4 0,0
Valor inicial del vector de parámetros poblacionales
θ (0) = (0, −0,6, 0,8)0
Factor de proporcionalidad s = 0,01 del vector gradiente.

Paso para obtener el gradiente numérico: ∆ = 10−12
Utilice Nmax = 350 iteraciones y una tolerancia = 10−6 .

Proceso Iterativo:
θ (0) =( 0 −0,6000 0,8000 )0
↓
g θ (0) =( 0 2,668087972779176 −0,507149877648772 )0
↓
)0 L θ (1) =

θ (1) =( 0 −0,573319120272208 0,794928501223512 → −6,281841875350741
↓
g θ (1) =( 0 2,540190280342358 −0,552446977053478 )0
↓
)0 L θ (2) =

θ (2) =( 0 −0,547917217468785 0,789404031452978 → −6,215602313367949
↓
g θ (2) =( 0 2,428279799460142 −0,589750470680883 )0
↓
)0 L θ (3) =

θ (3) =( 0 −0,523634419474183 0,783506526746169 → −6,154278781123775
↓
.. .. .. .. ..
. . . . .
↓
)0 L θ (173) =

θ (173) =( 0 0,190807419548401 0,437418923725818 → −5,046039355509656
↓
g θ (173) =( 0 0,001776356839400 0 )0
↓
)0 L θ (174) =

θ (174) =( 0 0,190825183116795 0,437418923725818 → −5,046039337613884
↓
g θ (174) =( 0 0 0 )0
↓
)0 L θ (175) =

θ (175) =( 0 0,190825183116795 0,437418923725818 → −5,046039337613884

Función de Log Verosimilitud

Curvas de Nivel de la Función de Log Verosimilitud
-5
-5.2
-5.4
-5.6
-5.8
-6
L( 3 )
-6.2
-6.4
-6.6
-6.8
-7
2
1.9
1.8
1.7
1.6 1.1
1.5 1
1.4 0.9
1.3 0.8
0.7
1.2 0.6
1.1 0.5
1 0.4
0.3
0.9 0.2
0.8 0.1
0.7 0
0.6 -0.1
-0.2
0.5 -0.3
0.4 -0.4
-0.5
<2 0.3 -0.6
0.2 -0.7 ?
0.1 -0.8
0 -0.9
-1

Curvas de Nivel de la Función de Log Verosimilitud

(vista 2D)
1.9
1.8
1.7
1.6
1.5
1.4
1.3
1.2
1.1
<2
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1
?

Dejando de imponer que c = 0 y considerando el valor de partida
θ (0) = (−0.1, −0.6, 0.8)0
las iteraciones son:

θ (0) =( −0,100000000000000 −0,600000000000000 0,800000000000000 )0
↓
g θ (0)
=( −1,269206961751479 2,486899575160351 −0,698996416303999 )0
↓
θ (1) =( 0,112692069617515 −0,575131004248396 0,794928501223512 )0 → L θ (1) = −6,119908956557529
↓
g θ (1)
=( −1,165290086646564 2,347455563267431 −0,751398943066306 )0
↓
θ (2) =( 0,124344970483980 −0,551656448615722 0,789404031452978 )0 → L θ (2) = −6,047427433413697
↓
g θ (2)
=( −1,067590460479551 2,223998762929114 −0,795807864051312 )0
↓
θ (3) =( 0,135020875088776 −0,529416460986431 0,783506526746169 )0 → L θ (3) = −5,981794784326680
↓
. . . . .
. . . . .
. . . . .
↓
θ (249) =( −0,076969533577176 0,136468663831147 0,433990555025775 )0 → L θ (249) = −5,921971717208841
↓
g θ (249)
=( 0 0 −0,000888178419700 )0
↓
θ (250) =( −0,076969533577176 0,136468663831147 0,433981673241578 )0 → L θ (250) = −5,017211237060007
↓
g θ (250)
=( 0 0 0 )0
↓
θ (251) =( −0,076969533577176 0,136468663831147 0,433981673241578 )0 → L θ (251) = −5,0172112370600075

Trayectoria de las aproximaciones del método Steepest Ascent

(usando Gradiente Aproximado)
0.8
0.75 3bSA
(k)
3SA
0.7
0.65
0.6
<2
0.55
0.5
0.45
0.4
0.2
0 -0.05
-0.1
-0.2
-0.15
-0.4
-0.2
?
-0.6 -0.25 c

EJEMPLO: Repetir el ejemplo anterior utilizando el gradiente exacto.

Sabemos que
2 T
T T 1 1 c 1 X
L(θ) = − log(2π)− log(σ 2 )+ log(1−φ2 )− 2 (1−φ2 ) y1 − − 2 (yt −c−φyt−1 )2
2 2 2 2σ 1−φ 2σ t=2
por lo tanto, los componentes del vector gradiente

0
∂L(θ) ∂L(θ) ∂L(θ)

g(θ) =
∂c ∂φ ∂σ 2
serán:
" X T
#
∂L(θ) 1 c
= 2 (1 + φ) y1 − + (yt − c − φyt−1 )
∂c σ 1−φ t=2
" 2 X T
#
∂L(θ) φ 1 c 1+φ c
=− − 2 −φ y1 − −c y1 − − (yt − c − φyt−1 ) yt−1
∂φ 1 − φ2 σ 1−φ 1−φ 1−φ t=2
" 2 X T
#
∂L(θ) T 1 2 c 2
=− 2 + (1 − φ ) y1 − + (yt − c − φyt−1 )
∂σ 2 2σ 2(σ 2 )2 1−φ t=2

Considerando el valor de partida
θ (0) = (−0.1, −0.6, 0.8)0
las iteraciones son:

θ (0) =( −0,100000000000000 −0,600000000000000 0,800000000000000 )0
↓
g θ (0)
=( −1,268750000000000 2,487617187500000 −0,699296875000000 )0
↓
θ (1) =( −0,112687500000000 −0,575123828125000 0,793007031250000 )0 → L θ (1) = −6,119895175603742
↓
g θ (1)
=( −1,165219013549041 2,347791541868444 −0,751319094764410 )0
↓
θ (2) =( −0,124339690135490 −0,551645912706315 0,785493840302356 )0 → L θ (2) = −6,047407884197516
↓
g θ (2)
=( −1,068139608312413 2,224155973572656 −0,795812724920858 )0
↓
θ (3) =( −0,135021086218615 −0,529404352970589 0,777535713053147 )0 → L θ (3) = −5,981767107526433
↓
. . . . .
. . . . .
. . . . .
↓
θ (310) =( −0,076898479711193 0,136570014368535 0,433979679302195 )0 → L θ (310) = −5,921947730939863
↓
g θ (310)
=( 0 0 0 )0
↓
θ (311) =( −0,076898094574415 0,136570942286368 0,433979649340258 )0 → L θ (311) = −5,017211195525883
↓
g θ (311)
=( 0 0 0 )0
↓
θ (312) =( −0,076897722272500 0,136571839281856 0,433979620377578 )0 → L θ (312) = −5,017211195433052

Trayectoria de las aproximaciones del método Steepest Ascent

(usando Gradiente Exacto)
0.8
0.75
3bSA
(k)
0.7 3SA
0.65
0.6
<2
0.55
0.5
0.45
0.4
0.2
0 -0.05
-0.1
-0.2
-0.15
-0.4
-0.2
?
-0.6 -0.25 c

8.3. Método Newton-Raphson

Un inconveniente del método steepest ascent es que puede requerir un numero muy grande
de iteraciones para acercarse al máximo local.
Un conocido método alternativo es Newton-Raphson a menudo converge mas rápidamente siem-
pre que:
1. Las segundas derivadas de la función L (θ) existan.
2. La función L (θ) sea cóncava, significando que -1 veces la matriz de segundas derivadas es
en todo momento definida positiva.
Sea θ el vector (n × 1) de parámetros poblaionales a estimar.
θ = (θ1 , θ2 , . . . , θn )0
n×1

Sea g θ (0) el vector gradiente de la función de log verosimilitud en θ (0) :

(0)
∂L(θ)
g θ =
∂θ θ=θ(0)
n×1

Sea H θ (0) como -1 veces la matriz de segundas derivadas de la función L(θ)

∂ 2 L(θ)
!

(0)
H θ =−
∂θ ∂θ 0 θ=θ(0)

n×n
| {z }
Matriz Hessiana
(matriz de segundas derivadas)

Aproximación en Serie de Taylor
Considere la aproximación L (θ) con una serie de Taylor de segundo orden alrededor de θ (0) :
h i0 h i 1h i0 h i
L (θ) ∼
= L θ (0) + g θ (0) θ − θ (0) − θ − θ (0) H θ (0) θ − θ (0) (53)
2
La idea del método de Newton-Raphson es elegir θ de tal manera que se maximice (53).
Tomando la derivada de (53) con respecto a θ e igualando a cero obtenemos

h i
g θ (0) − H θ (0) θ − θ (0) = 0 (54)
Sea θ (0) un valor inicial de θ en donde se puede calcular (ya sea de forma analítica o numérica):

• g θ (0) : la derivada de L (θ)

• H θ (0) : el negativo de la matriz de segundas derivadas de L (θ)
La expresión (54) sugiere que a partir de la estimación θ (0) , una nueva mejor estimación de θ
(denotado por θ (1) ) debe satisfacer
h i−1
θ (1) = θ (0) + H θ (0) g θ (0) (55)
luego, calculamos el gradiente y el Hessiano en θ (1) para encontrar una nueva estimación θ (2) y
continuar iterando de esta manera.

La iteración m−ésima actualiza la estimación de θ a través de la fórmula

h i−1
θ (m) = θ (m−1) + H θ (m−1) g θ (m−1) (56)
• Si L (θ) resulta ser una función cuadrática perfecta:

◦ (53) se mantiene exactamente y (55) generará el MLE exacto en un simple paso θ(1) = θbM LE
◦ Si la aproximación cuadrática es razonablemente buena NR debe converger al máximo local más
rapidamente que el método SA.
• Si L (θ) no es cóncava:
◦ NR se comporta bastante mal.
◦ SA es a menudo mas lento en converger pero a veces resulta ser mas robusto comparado con
Newton-Raphson.
Como (53) es usualmente solo una aproximación a la verdadera función L (θ) , la iteración sobre
(56) es usualmente modificada como sigue.
• La expresión (56) es tomada para sugerir la dirección de búsqueda.
• Se calcula el valor de L (θ) en diversos puntos en tal dirección, y el mejor valor determina
la longitud del paso. Esta estrategia exige reemplazar (56) por
h i−1
θ (m) = θ (m−1) + s H θ (m−1) g θ (m−1) (57)
donde s es un escalar que controla la longitud del paso.

• Se calcula θ (m) y el valor asociado para la log verosimilitud L θ (m) para varios valores de
s en (57) y elige como estimación θ (m) al que produce el valor mas grande de L (θ).

EJEMPLO: Consideremos el caso del Proceso Gaussiano AR(1)
Yt = c + φYt−1 + t
con t ∼ iid N 0, σ 2 cuyo vector de parámetros vendría dado por

0
θ = c, φ, σ 2
Obtenga el estimador θ
b MLE utilizando el algoritmo de Newton-Raphson. Considere además que:
La muestra será simulada por un DGP donde los verdaderos valores de los parámetros son
θ True = (0,1 , 0,6 , 0,72 )
Valor inicial del vector de parámetros
θ (0) = (−0,3, 0,4, 0,8)0
Utilice Nmax = 350 iteraciones y una tolerancia = 10−6 .

Debemos construir la matriz hessiana H(θ)

 
∂ ∂L(θ) ∂ ∂L(θ) ∂ ∂L(θ)
 ∂c
 ∂c ∂φ ∂c ∂σ 2 ∂c 

   
h11 h12 h13
∂ 2 L(θ)
 
 ∂ ∂L(θ) ∂ ∂L(θ) ∂ ∂L(θ) 
H(θ) = − = −
  =  h21 h22 h23 
| {z } ∂θ 0 ∂θ  ∂c ∂φ ∂φ ∂φ ∂σ 2 ∂φ 
 h31 h32 h33
(3×3)  
 
 ∂ ∂L(θ) ∂ ∂L(θ) ∂ ∂L(θ) 
∂c ∂σ 2 ∂φ ∂σ 2 ∂σ 2 ∂σ 2
Tomando las derivadas respectivas, obtenemos:

∂ ∂L(θ) 1 1+φ
h1,1 =− =− 2 − − (T − 2)
∂c ∂c σ 1−φ
" T
#
∂ ∂L(θ) 1 c c(1 + φ) X
h1,2 =− =− 2 y1 − − − yt−1
∂φ ∂c σ 1−φ (1 − φ)2 t=2
" X T
#
∂ ∂L(θ) 1 c
h1,3 =− = 2 2 (1 + φ) y1 − + (yt − c − φyt−1 )
∂σ ∂c (σ ) 1−φ t=2

" T
#
∂ ∂L(θ) 1 2φ c 1+φ 2c
h X i
h2,1 =− = 2 y1 − − y1 − + yt−1
∂c ∂φ σ 1−φ 1−φ 1−φ 1−φ
t=2
" T
#
2 2
∂ ∂L(θ) 1 + φ2 1 c c c c 1+φ
X
2
h2,2 =− =− − 2 − y1 − − 2 y1 − + + yt−1
∂φ ∂φ (1 − φ2 )2 σ 1−φ 1−φ 1−φ 1−φ 1−φ
t=2
" T
#
2
∂ ∂L(θ) 1 c 1+φ c
X
h2,3 =− 2 =− 2 2 −φ y1 − −c y1 − − (yt − c − φyt−1 ) yt−1
∂σ ∂φ (σ ) 1−φ 1−φ 1−φ
t=2
" T
#
∂ ∂L(θ) 1 c
X
h3,1 =− =− 2 2 −(1 + φ) y1 − − (yt − c − φyt−1 )
∂c ∂σ 2 (σ ) 1−φ
t=2
" T
#
2
∂ ∂L(θ) 1 c (1 − φ2 ) c
X
h3,2 =− =− 2 2 −φ y1 − −c y1 − − (yt − c − φyt−1 )yt−1
∂φ ∂σ 2 (σ ) 1−φ (1 − φ)2 1−φ
t=2
" T
#
2
∂ ∂L(θ) T 1 c
X
2 2
h3,3 =− 2 =− + 2 3 (1 − φ ) y1 − + (yt − c − φyt−1 )
∂σ ∂σ 2 2(σ 2 )2 (σ ) 1−φ
t=2

Las iteraciones Newton-Raphson son:
θ (0) = ( −0,3 , 0,4 , 0,8 )

↓
g θ (0) , H θ (0)
↓
θ (1) =⇒ L θ (1)
↓
(1)
g θ , H θ (1)
↓
θ (2) =⇒ L θ (2)
↓
(2)
g θ , H θ (2)
↓
θ (3) =⇒ L θ (3)
↓
.. ..
. .
La estimación final es
θ (33) = ( 0,092906425398373 , 0,588220498129324 , 0,989703323922961 )

L θ (33) = −141,588677170304270

Trayectoria de las aproximaciones del método Newton-Raphson

(usando Gradiente y Hessiano Exactos)
3bNR
0.95 (k)
3NR
0.9
<2
0.85
0.8
0.75
0.65
0.6
0.2
0.55 0.1
0.5 0
-0.1
0.45
-0.2
?
0.4 -0.3 c

EJEMPLO: Obtenga la estimación utilizando MATLAB
Utilizando el solver fminunc del Optimization Toolbox de MATLAB6 tenemos
θ (33) = ( 0,092906327029625 , 0,588220622949475 , 0,998673790258665 )

L θ (33) = −141,588677170305800
6
El solver fminunc permite el uso una variante del método de Newton-Rapshon que reemplaza el hessiano exacto H(θ)
con una aproximación. Esta variante es conocida como el Método Quasi-Newton y se utiliza siempre que el Hessiano no
esté disponible o sea demasiado costos calcular en cada iteración.

9. Inferencia estadística con MLE

9.1. Errores Estándar Asintóticos para el MLE
Si la muestra de talla T es suficientemente grande, a menudo resulta que la distribución θ
b MLE
puede ser bien aproximada por la siguiente distribución

b ≈ N θ 0 , T −1 J −1
θ (58)
donde θ 0 denota el verdadero vector de parámetros. La matriz J es conocida como la matriz de
información y puede ser estimada en dos formas.
• Un primer estimador de J es

c2D = −T −1 ∂ 2 L (θ)
J (59)
∂θ ∂θ 0 θ=bθ

donde L (θ) denota a la log verosimilitud

T
L (θ) =
X
log fYt |Yt (yt |Y t−1 ; θ)
t=1
y Y t−1 denota la historia de las observaciones sobre y obtenida através del periodo t. La
matriz de segundas derivadas de la log verosimilkitud es a menudo calculada numéricamente.
Sustituyendo (59) en (58), los términos que implican el tamaño de la muestra T se cancelan
de tal manera que la matriz de varianzas y covarianzas de θ b puede ser aproximada mediante
#−1
∼ − ∂ L (θ)
"
0 2
E b − θ0
θ b − θ0
θ = (60)

• Un segundo estimador de J en (58) es llamado el estimador producto externo (outer

product)
T h i h i0
cOP = T −1
X
J h θ,
b Yt · h θ,
b Yt (61)
t=1
h i
donde h θ, b Yt denota al vector (n × 1) de derivadas del logaritmo de la densidad con-
dicional de la t−ésima observación con respecto a los n elementos del vector de parámetros
θ, con esta derivada evaluada en el θ
b MLE
∂ log f (yt |yt−1 , yt−2 , . . . ; θ)

h θ,
b Yt =
∂θ
θ=b
θ
En este caso, la matriz de varianzas y covarianzas de θ

b es aproximada por
i0 −1
" T #
0 Xh i h
E b − θ0
θ b − θ0
θ ∼
= h θ,
b Yt · h θ,
b Yt
t=1

EJEMPLO: Sea la log verosimilitud
L(θ) = −1,5θ12 − 2θ22
Analíticamente tenemos
• Primera derivada
∂L(θ)
 
 ∂θ  " #
∂L(θ)   1  −3θ1
= =
∂θ 
 ∂L(θ)  −4θ2
∂θ2
• Segunda derivada
∂L(θ) ∂ ∂L(θ)
   
∂ 2 L(θ) ∂ 
 ∂θ1   ∂θ 0
  ∂θ1 

0 = 
0 
= 
∂θ ∂θ ∂θ  ∂L(θ)   ∂ ∂L(θ)
  

∂θ2 ∂θ 0 ∂θ2
 
∂L(θ) ∂L(θ)
 ∂θ2 ∂θ1 ∂θ2  " #
 1  −3 0
= =
 
0 −4
 ∂L(θ) ∂ L(θ) 
2
 
∂θ2 ∂θ1 ∂θ22

cuyo negativo invertido es

1
 
#−1 #−1
∂ 2 L(θ) 0 
" " " #
3 0 1 4 0  3
− 0 = = = 1 
∂θ ∂θ 0 4 12 0 3 0
4
Según (60), la matriz de varianzas y covarianzas del θ

b MLE puede aproximarse mediante
#−1
∼ − ∂ L (θ)
"
0 2
E b − θ0
θ b − θ0
θ =
1
entonces la varianza de θb2 MLE puede ser aproximada por .
4
Como en el ejemplo anterior el θb2 MLE fue estimado en 0, entonces un intervalo de confianza para
θ2 al 95 % está dado por r
1
0±2 = ±1
4
Observe que a menos que los elementos fuera de la diagonal de J

c sean cero, en general se necesita
calcular todos los elementos de la matriz J e invertir la matriz completa para obtener el error
c
estándar de cada parámetro.

En la práctica, ¿Cuál estimador de la matriz de información, J

c2D o J
cOP es mejor?.
La expresión
b ≈ N θ 0 , T −1 J −1
θ
b yJ
es solo una aproximación a la verdadera distribución de θ, c2D y J
cOP

−1 ∂ 2 L (θ)
J
c2D = −T

T h i h i0
cOP = T −1
X
J h θ,
b Yt · h θ,
b Yt
t=1
son a su vez solo aproximaciones al verdadero valor de J .
La teoría que justifica estas aproximaciones no brinda una clara orientación sobre cual es mejor
usar, y típicamente los investigadores confían en cualquier estimador de la matriz de información
que sea fácil de calcular.
Si los dos estimadores difieren mucho, esto puede significar que el modelo está mal especificado.
White (1982) desarrolló una prueba general de especificación de un modelo basado en esta idea.
Una opción para construir errores estándar cuando difieren los dos estimadores significativamente
es usar los errores estándar de cuasi-máxima verosimilitud que se discutirán posteriormente.

9.2. Prueba del Ratio de Verosimilitud

Es una prueba de hipótesis sobre los parámetros estimados por ML.
Suponga una hipótesis nula conformada por un conjunto de m diferentes restricciones sobre el
valor del vector (n × 1) de parámetros θ.
1. Maximizamos L (θ) ignorando estas restricciones para obtener un
estimador ML irrestricto : θ
b
2. Maximizamos L (θ) considerando todas las restricciones para obtener un7
estimador ML restricto : θ
e

Claramente L θ
b >L θ
e ; y esto a menudo se prueba mediante
h i
2 L θ
b −L θ
e ≈ χ2 (m) (62)
a) En la práctica, este es usualmente logrado definiendo un nuevo vector λ de (a − m) × 1 elementos en términos de

todos aquellos elementos de θ que pueden ser expresados cuando las restricciones son satisfechas.
b) Por ejemplo, si la restricción es que los últimos m elementos de θ sean cero, entonces λ consistirá de los primeros
n − m elementos de θ.

EJEMPLO:
Suponga que n = 2 y que estamos interesados en probar la hipótesis que θ2 = θ1 + 1. Bajo esta
hipótesis nula, el vector (θ1 , θ2 )0 puede ser escrito como (λ, λ + 1)0 , donde λ = θ1 . Suponga que
la log verosimilitud está dada por la expresión
L(θ) = −1,5θ12 − 2θ22
entonces, se puede encontrar el MLE restricto reemplazando θ2 por θ1 +1 y maximizar la expresión
resultante con respecto a θ1 :
L(θ1 ) = −1,5θ12 − 2 (θ1 + 1)2
La condición de primer orden para la maximización de L(θ1 ) es
∂L(θ1 )
=0
∂θ1
−3θ1 − 4 (θ1 + 1) = 0
de donde
4
θ1 = −
7
El MLE restricto es entonces
4 3 0

θ
e= − ,
7 7
y el valor máximo asociado para la log verosimilitud que satisface la restricción es
e = −6

L θ
7


b = 0, en el cual L θ
El MLE irrestricto es θ b = 0. Por lo tanto, (62) será
6 12
h i
2 L θ
b −L θ
e = 2 (0) − − = = 1,71
7 7
La prueba aquí involucra una restricción singular, tal que m = 1. Considerando que la probabilidad
de que una variable χ2 (1) exceda 3,84 es 0,05, y como
h i
2 L θ
b −L θ
e = 1,71 < 3,84
entonces aceptamos la hipótesis nula de que θ2 = θ1 + 1 al 5 % del nivel de significancia.

9.3. Prueba del Multiplicador de Lagrange

Para probar una hipótesis acerca de θ usando los errores estándar a partir de (59) o (61) necesi-
tamos encontrar el θ
b MLE irrestricto.
Con el fin de usar la prueba LR (62), es necesario encontrar tanto el θb MLE irrestricto y el θe MLE
restricto. Esta prueba es útil cuando es mas fácil calcular el estimador restricto θ
e que el estimador
irrestricto.
• Sea θ un vector de parámetros (n × 1).

• Sea θ e un estimador de θ que maximiza la log verosimilitud sujeto a un conjunto de m
restricciones sobre θ.
• Sea f (yt |yt−1 , yt−2 , . . . ; θ) la densidad condicional de la observación t−ésima.

• Sea h θ,
e Yt un vector (n × 1) de derivadas del logaritmo de su densidad condicional
evaluada en algún estimador restricto θ:
e
∂ log f (yt |yt−1 , yt−2 , . . . ; θ)

h θ,
e Yt =
∂θ
θ=e
θ

La prueba del multiplicador de Lagrange de la hipótesis nula de que las restricciones son
verdaderas está dada por el siguiente estadístico
0
" T # " T #

−1 −1
X X
T h θ,
e Yt J h θ,
e Yt
t=1 t=1
• Si la hipótesis nula es verdadera, entonces para T grande el estadístico podría aproximada-

mente seguir una distribución χ2 (m).
• La matriz de información J puede de nuevo ser estimada como en (59) o (61) con θreemplazado
b
por θ.
e

9.4. Errores Estándar de Cuasi-Máxima Verosimilitud

Si los datos fueron realmente generados a partir de la densidad asumida y el tamaño de la muestra
es lo suficientemente grande, el estimador de la segunda derivada J
c2D y el estimador de producto
externo J OP de la matriz de información deberían estar razonablemente uno cerca del otro.
c
Sin embargo la estimación por máxima verosimilitud puede aún ser un razonable forma de estimar
parámetros incluso si los datos no fuesen generados por la densidad asumida.
Por ejemplo:
• Vimos que el MLE condicional para un proceso Gaussiano AR(1) es obtenido a partir de una
regresión OLS de yt sobre yt−1 .
• Esta regresión OLS es a menudo una forma muy sensible de estimar los parámetros de un
proceso AR(1) incluso si las verdaderas innovaciones no son i.i.d. Gausianas.
• A pesar de que la máxima verosimilitud puede estar arrojando un estimador razonable de θ,
cuando las innovaciones no son i.i.d. Gausianas, los errores estándar propuestos en (59) o
(61) puedan ya no ser válidos.
Una matriz de varianzas y covarianzas aproximada para θ b que es a menudo valida incluso si la
densidad de probabilidad está mal especificada está dada por
0 n o−1
b − θ0 b − θ0 ∼
= T −1 J 2D J −1
E θ θ OP J 2D
Esta matriz de varianzas y covarianzas fue propuesta por White (1982), quien describió este
enfoque como la estimación de cuasi máxima verosimilitud.

10. Restricciones de Desigualdad

10.1. Una trampa típica en la maximización numérica
Supongamos que aplicamos uno de los métodos que hemos discutido, como el ascenso pronunciado
para la verosimilitud de un AR(1), ecuación (5.7.2)
T
T 1 1 1X
L(θ) = − log (2π) + log 1 − φ2 − 1 − φ2 y12 − (yt − φyt−1 )2
2 2 2 2 t=2
Comenzamos con valor inicial arbitrario, digamos φ = 0.1.

Calculamos el gradiente en este punto, y encontramos que es positivo.
La computadora es entonces programada para tratar de mejorar esta estimación mediante la
evaluación de la log verosimilitud en los puntos descritos por
φ(1) = φ(0) + s · g(φ(0) )
para varios valores de s, observando cual es el que mejor funciona.
Sin embargo, si la computadora intenta un valor para s tal que
φ(1) = φ(0) + s · g(φ(0) ) = 1.1
el cálculo de L(θ) sería
L(θ) = log(−0.21)
ocasionando un error de ejecución fatal al intentar calcular el logaritmo de un número negativo,
haciendo que el procedimiento de búsqueda se bloquee.

A menudo tales problemas se pueden evitar usando procedimientos de Newton-Raphson modifica-

dos, siempre que la estimación inicial θ (0) se elija sabiamente y siempre que el área de búsqueda
inicial sea bastante pequeña.
Esto último podría lograrse poniendo la matriz de ponderación inicial A(0) en

θ (m+1) = θ (m) + sA(m) g θ (m) (63)
y
0
A(m) ∆g(m+1) A(m)
(m+1) (m)
A =A − 0
∆g(m+1) A(m) ∆g(m+1)
0
∆θ (m+1) ∆θ (m+1)
− 0 (64)
∆g(m+1) ∆g(m+1)
igual a un pequeño múltiplo de la matriz de identidad, tal como
A(0) = 10−4 Ia
En las posteriores iteraciones, el algoritmo debe usar la forma de la función de verosimilitud en la

vecindad del máximo para mantener la búsqueda conservada. Sin embargo, si el verdadero MLE
está cerca de uno de los límites (por ejemplo, si φbM LE = 0.998 en el ejemplo de AR(1)), éste
será prácticamente imposible de mantener un algoritmo numérico capaz de explorar lo que ocurre
cuando φ es mayor que la unidad, lo que induciría un bloqueo fatal.

10.2. Solución del Problema mediante la Reparametrización de la Función de Vero-

similitud
Una manera simple de asegurar que una búsqueda numérica permanezca siempre dentro de ciertos
límites especificados es reparametrizar la función de verosimilitud en términos de un vector λ de
(a × 1) para el cual
θ = g(λ)
donde la función g : Ra → Ra incorpora las restricciones deseadas.
El esquema es entonces como sigue
1. Entrada: Valores de
y1 , y2 , . . . , yT
y
λ
2. Procedimiento: Se establece
θ = g(λ)
y se calcula
L (θ)
3. Salida: Valor tabulado de

L (g(λ))

Por ejemplo:
• Para garantizar que φ está siempre entre ±1, podemos tomar

λ
φ = g (λ) = (65)
1 + |λ|
• El objetivo es encontrar el valor de λ que produce el mayor valor para la log verosimilitud.
• Comenzamos con una valor inicial tal como
λ=3
• El procedimiento para evaluar la función de log verosimilitud, calcula primero

3
φ= = 0.75
1+3
y luego encuentra el valor de la log verosimilitud asociado con este valor de φ a partir de
(49).
• No importa qué valor calcule la computadora para λ, el valor de φ en (65) será siempre
menor que 1 en valor absoluto y la función de verosimilitud estará bien definida.
• Una vez que hemos encontrado el valor de λ que maximiza la función de verosimilitud, la
estimación de máxima verosimilitud de φ es dada entonces por
λ
b
φb =
1 + |λ|
b

Esta técnica de reparametrización de la función de verosimilitud para que las estimaciones siempre
satisfagan las restricciones necesarias es a menudo muy fácil de implementar.
Nota de precaución:
• Si se calcula un error estándar a partir de la matriz de segundas derivadas de la log verosi-

militud como en (60),
#−1
∼ − ∂ L (θ)
"
0 2
E b − θ0
θ b − θ0
θ = 0
∂θ ∂θ θ=bθ
éste representará el error estándar de λ,

b mas no el error estándar de φ.
b
• Para obtener un error estándar para φ:

b
◦ El mejor enfoque es primero parametrizar la función de verosimilitud en términos de λ

para encontrar la MLE, y luego reparameterizar en términos de φ para calcular la matriz
de segundas derivadas evaluadas en φb para obtener el error estándar final para φ.
b
◦ Alternativamente, se puede calcular una aproximación al error estándar para φb del error
estándar para λ,
b basado en la fórmula para una prueba de Wald de una hipótesis no
lineal.

10.3. Parametrizaciones para una matriz de Varianzas y Covarianzas

Otra restricción común que se necesita imponer es que un parámetro varianza σ 2 sea positivo.
Una manera obvia de lograr esto es parametrizar la verosimilitud en términos de λ que representa
±1 veces la desviación estándar.
El procedimiento para evaluar la log verosimilitud comienza por elevar al cuadrado este parámetro
λ:
σ 2 = λ2
y si la desviación estándar σ es a si misma invocada, ésta se calcula como
√
σ = λ2
De manera más general, sea Ω una matriz de varianzas y covarianzas (n × n):

 
σ11 σ12 · · · σ1n

 σ21 σ22 · · · σ2n 

Ω= .. .. .. .. 

 . . . .


σn1 σn2 · · · σnn
Aquí es necesario imponer la condición de que Ω es positivo definido y simétrico.

n (n + 1)
El mejor enfoque es parametrizar Ω en términos de los elementos distintos de la des-
2
composición de Cholesky de Ω :
Ω = PP0 (66)
donde  
λ11 0 0 ··· 0

 λ21 λ22 0 ··· 0 

λ31 λ32 λ33 ··· 0
 
P= 

.. .. .. .. .. 
. . . . .
 
 
λn1 λn2 λn3 · · · λnn
Independientemente de los valores que la computadora arroje para
λ11 , λ21 , . . . , λnn
la matriz Ω calculada a partir de (66) será simétrica y semidefinita positiva.

10.4. Parametrizaciones para las Probabilidades

A veces algunos de los parámetros desconocidos son probabilidades
p1 , p2 , . . . , pK
que deben satisfacer las restricciones
0 ≤ pi ≤ 1 para i = 1, 2, . . . , K
p1 + p2 + · · · + pK = 1
En este caso, una aproximación es parametrizar las probabilidades en términos de
λ1 , λ2 , . . . , λK−1
donde
λ2i
pi = para i = 1, 2, . . . , K − 1
1 + λ21 + λ22 + · · · + λ2K−1
1
pK =
1 + λ1 + λ2 + · · · + λ2K−1
2 2

10.5. Más restricciones generales de desigualdad

Para restricciones de desigualdad más complicadas que no admiten una simple reparametrización,
un enfoque que a veces funciona es poner una sentencia de ramificación en el procedimiento que
evalúa la función de log verosimilitud.
El procedimiento primero comprueba si se cumple la restricción:
• Si se cumple, entonces la función de verosimilitud se evalúa de la manera habitual.

• Si no se cumple, el procedimiento devuelve un número negativo grande en lugar del valor de
la función de log verosimilitud.
A veces, tal aproximación permitirá que un MLE satisfaga las condiciones especificadas para se
encontrado con simples procedimientos numéricos de búsqueda.
Si estas medidas resultan inadecuadas, los algoritmos más complicados están disponibles. Judge,
Griffiths, Hill y Lee (1980, pp. 747-49) describen algunos de los posibles enfoques.

Referencias
Hamilton, J. D. (1994), Time Series Analysis, Princeton University Press.
Martin, V., Hurn, S., y Harris, D. (2012). Econometric Modelling with Time Series: Specification,
Estimation and Testing (Themes in Modern Econometrics). Cambridge: Cambridge University Press.

Maxima Verosimilitud

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Maxima Verosimilitud

Cargado por

Copyright:

Formatos disponibles

DEPARTAMENTO DE

Estimación por Máxima Verosimilitud

Miguel Ataurima Arellano

2. La Función de Verosimilitud para un proceso AR(1) Gaussiano 8

3. La Función de Verosimilitud para un Proceso AR(p) Gausiano 33

4. La Función de Verosimillitud para un Proceso MA(1) Gausiano 44

5. La Función de Verosimilitud para un Proceso MA(q) Gausiano 52

6. La Función de Verosimilitud para un Proceso ARMA(p,q) Gausiano 55

Miguel Ataurima Arellano 2 miguel.ataurima@pucp.edu.pe

7. Propiedades de los estimadores ML 59

9. Inferencia estadística con MLE 112

Miguel Ataurima Arellano 3 miguel.ataurima@pucp.edu.pe

9.3. Prueba del Multiplicador de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

10.Restricciones de Desigualdad 123

Miguel Ataurima Arellano 4 miguel.ataurima@pucp.edu.pe

• Los parámetros poblacionales son

Miguel Ataurima Arellano 5 miguel.ataurima@pucp.edu.pe

¿Qué se desea realizar?

Función de Verosimilitud (Likelihood Function)

La probabilidad de haber observado la muestra (y1 , y2 , . . . , yT ) está caracterizada por la función

fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) (1)

Objetivo del método MLE

Encontrar el valor de θ que maximiza (1).

Requisito del método MLE

Se requiere especificar una distribución particular para el ruido blanco t .

Miguel Ataurima Arellano 6 miguel.ataurima@pucp.edu.pe

Resumen del método MLE

Los pasos para del método MLE son:

1. Obtener una forma funcional de la función de verosimilitud.

Miguel Ataurima Arellano 7 miguel.ataurima@pucp.edu.pe

2. La Función de Verosimilitud para un proceso AR(1) Gaussiano

{yt }Tt=1 = {y1 , y2 , . . . , yT }

Supuesto: El proceso generador de datos de {Yt } es un proceso AR(1)

Vector de parámetros poblacionales:

Miguel Ataurima Arellano 8 miguel.ataurima@pucp.edu.pe

Miguel Ataurima Arellano 9 miguel.ataurima@pucp.edu.pe

Variable aleatoria: Y2 |Y1  

Media : µ2 ≡ E [Y2 |Y1 ] = E [c + φy1 + 2 ] = c + φy1

Miguel Ataurima Arellano 10 miguel.ataurima@pucp.edu.pe

Variable aleatoria: Y3 |Y2 , Y1  

Media : µ3 ≡ E [Y3 |Y2 , Y1 ] = E [c + φy2 + 3 ] = c + φy2

Miguel Ataurima Arellano 11 miguel.ataurima@pucp.edu.pe

Variable aleatoria: Y4 |Y3 , Y2 , Y1  

Media : µ4 ≡ E [Y4 |Y3 , Y2 , Y1 ] = E [c + φy3 + 4 ] = c + φy3

Miguel Ataurima Arellano 12 miguel.ataurima@pucp.edu.pe

Variable aleatoria: Yt |Yt−1 , Yt−2 , . . . , Y1

Media : µt ≡ E [Yt |Yt−1 , Yt−2 , . . . , Y1 ] = E [c + φyt−1 + t ] = c + φyt−1

Miguel Ataurima Arellano 13 miguel.ataurima@pucp.edu.pe

Variable aleatoria: YT |YT −1 , YT −2 , . . . , Y1

Media : µT ≡ E [YT |YT −1 , YT −2 , . . . , Y1 ] = E [c + φyT −1 + t ] = c + φyT −1

Miguel Ataurima Arellano 14 miguel.ataurima@pucp.edu.pe

Aplicando la propiedad de densidades condicionales iteradas

L(θ) = log fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ)

Miguel Ataurima Arellano 15 miguel.ataurima@pucp.edu.pe

• La función de verosimilitud asociada será

• La función log-verosimilitud será

Miguel Ataurima Arellano 16 miguel.ataurima@pucp.edu.pe

Desarrollando el primer término del lado derecho en (3)

Miguel Ataurima Arellano 17 miguel.ataurima@pucp.edu.pe

Miguel Ataurima Arellano 18 miguel.ataurima@pucp.edu.pe

Función de Log-Verosimilitud Promedio

La función log-verosimilitud promedio se define como

Miguel Ataurima Arellano 19 miguel.ataurima@pucp.edu.pe

Se requiere especificar una distribución particular para el ruido blanco t .

Variable aleatoria: Y2 |Y1

Media : µ2 ≡ E [Y2 |Y1 ] = E [c + φy1 + 2 ] = c + φy1

Variable aleatoria: Y3 |Y2 , Y1

Media : µ3 ≡ E [Y3 |Y2 , Y1 ] = E [c + φy2 + 3 ] = c + φy2

Variable aleatoria: Y4 |Y3 , Y2 , Y1

Media : µ4 ≡ E [Y4 |Y3 , Y2 , Y1 ] = E [c + φy3 + 4 ] = c + φy3

Media : µt ≡ E [Yt |Yt−1 , Yt−2 , . . . , Y1 ] = E [c + φyt−1 + t ] = c + φyt−1

Media : µT ≡ E [YT |YT −1 , YT −2 , . . . , Y1 ] = E [c + φyT −1 + t ] = c + φyT −1

Yt = c + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + t (9)