Está en la página 1de 132

DEPARTAMENTO DE

ECONOMÍA

ECONOMETRÍA 2

TEMA

Estimación por Máxima Verosimilitud

Miguel Ataurima Arellano


miguel.ataurima@pucp.edu.pe
PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Índice
1. Introducción 5

2. La Función de Verosimilitud para un proceso AR(1) Gaussiano 8


2.1. Formación de la función de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2. Forma vectorial de obtención de la función de verosimilitud . . . . . . . . . . . . . . . . 23
2.3. Estimación por Máxima Verosimilitud Exacta para el Proceso Gaussiano AR(1) . . . . . 29
2.4. Estimación por Máxima Verosimilitud Condicional . . . . . . . . . . . . . . . . . . . . . 30

3. La Función de Verosimilitud para un Proceso AR(p) Gausiano 33


3.1. Evaluación de la Función de Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2. Estimaciones de Máxima Verosimilitud Condicional . . . . . . . . . . . . . . . . . . . . 40
3.3. Estimación de la Máxima Verosimilitud para Series de Tiempo No Gausianas . . . . . . 42

4. La Función de Verosimillitud para un Proceso MA(1) Gausiano 44


4.1. Función de Verosimilitud Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2. Función de Verosimilitud Exacta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5. La Función de Verosimilitud para un Proceso MA(q) Gausiano 52


5.1. La Función de Verosimilitud Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2. La Función de Verosimilitud Exacta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

6. La Función de Verosimilitud para un Proceso ARMA(p,q) Gausiano 55


6.1. La Función de Verosimilitud Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.2. Algoritmos Alternativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

Miguel Ataurima Arellano 2 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

7. Propiedades de los estimadores ML 59


7.1. Condiciones de Regularidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.2. Propiedades de la Función de Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . 63
7.2.1. La función de Verosimilitud Poblacional . . . . . . . . . . . . . . . . . . . . . . 63
7.2.2. Momentos del Gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
7.2.3. La Matriz de Información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
7.3. Propiedades Asintóticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.3.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.3.2. Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7.3.3. Eficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.4. Propiedades en Muestras Finitas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.4.1. Insesgadez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
7.4.2. Suficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.4.3. Invarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.4.4. No Unicidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

8. Optimización Numérica 75
8.1. Método Grid Search (Búsqueda en Malla) . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.1.1. Características de los Algoritmos de Maximización Numérica . . . . . . . . . . . 84
8.2. Método Steepest Ascent (Ascenso Empinado) . . . . . . . . . . . . . . . . . . . . . . . 85
8.3. Método Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

9. Inferencia estadística con MLE 112


9.1. Errores Estándar Asintóticos para el MLE . . . . . . . . . . . . . . . . . . . . . . . . . 112
9.2. Prueba del Ratio de Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

Miguel Ataurima Arellano 3 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

9.3. Prueba del Multiplicador de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . 120


9.4. Errores Estándar de Cuasi-Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . 122

10.Restricciones de Desigualdad 123


10.1. Una trampa típica en la maximización numérica . . . . . . . . . . . . . . . . . . . . . . 123
10.2. Solución del Problema mediante la Reparametrización de la Función de Verosimilitud . . 125
10.3. Parametrizaciones para una matriz de Varianzas y Covarianzas . . . . . . . . . . . . . . 128
10.4. Parametrizaciones para las Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . 130
10.5. Más restricciones generales de desigualdad . . . . . . . . . . . . . . . . . . . . . . . . . 131

Miguel Ataurima Arellano 4 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

1. Introducción
Modelo Econométrico
Sea un ARMA(p, q)
Yt = c + φYt−1 + · · · + φp Yt−p + t + θ1 t−1 + · · · + θq t−q
donde:
• t es un ruido blanco
E [t ] = 0
(
σ2 para t = τ
cov [t , τ ] = E [t τ ] =
0 en otro caso

• Los parámetros poblacionales son


Parámetros Poblacionales
Término constante c
Coeficientes AR φ1 , . . . , φ p
Coeficientes MA θ1 , . . . , θ q
Varianza del ruido blanco σ2
Por comodidad, dispondremos estos parámetros en un vector θ al cual llamaremos vector
de parámetros poblacional.
 0
θ = c, φ1 , . . . , φp , θ1 , . . . , θq , σ 2

Miguel Ataurima Arellano 5 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

¿Qué se desea realizar?

Dada una muestra de Yt de tamaño T , (y1 , y2 , . . . , yT ), se desea obtener una estimación del vector
θ por el método de Estimación por Máxima Verosimilitud (MLE1 , por sus siglas en inglés).

Función de Verosimilitud (Likelihood Function)

La probabilidad de haber observado la muestra (y1 , y2 , . . . , yT ) está caracterizada por la función


de verosimilitud (función de densidad conjunta poblacional)

fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) (1)

Objetivo del método MLE

Encontrar el valor de θ que maximiza (1).


Intuición: Encontrar el vector θ para el cual sea más probable que una determinada muestra
(y1 , y2 , . . . , yT ) haya sido obsevada.

Requisito del método MLE

Se requiere especificar una distribución particular para el ruido blanco t .


Típicamente asumiremos que  
t ∼ iid N 0, σ 2

1
Maximum Likelihood Estimation

Miguel Ataurima Arellano 6 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Resumen del método MLE

Los pasos para del método MLE son:

1. Obtener una forma funcional de la función de verosimilitud.


2. Encontrar el valor de θ que maximiza la función de verosimilitud.

Miguel Ataurima Arellano 7 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

2. La Función de Verosimilitud para un proceso AR(1) Gaussiano


2.1. Formación de la función de verosimilitud
Datos: Muestra aleatoria de talla T de la variable aleatoria Y (valores observados)

{yt }Tt=1 = {y1 , y2 , . . . , yT }

yt
y4
yT
y2

y1 y3

1 2 3 4 t T

Supuesto: El proceso generador de datos de {Yt } es un proceso AR(1)

Yt = c + φYt−1 + t
2

con t ∼ iid N 0, σ

Vector de parámetros poblacionales:


 0
θ = c, φ, σ 2

Miguel Ataurima Arellano 8 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Variable aleatoria: Y1  
Y1 ∼ N µ1 , σ12

y1

1 2 3 4 t T
Y1
N (µ1 , σ12 )
c
Media : µ1 ≡ E [Y1 ] =
1−φ 
1

2
Varianaza : σ1 ≡ var [Y1 ] = σ2
1 − φ2
Por lo tanto, la densidad de Y1 (no condicionada) es
2 !
1 1 y1 − µ1

fY1 (y1 ; θ) = √ exp −
σ1 2π 2 σ1
reemplazando
  2 
c
s
1 1− φ2 y1 − 1−φ
fY1 (y1 ; θ) = √ exp −  (2)
  
σ2

2π 1 2
2 1−φ2 σ

Miguel Ataurima Arellano 9 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Variable aleatoria: Y2 |Y1  


Y2 |Y1 ∼ N µ2 , σ22

y2

y1

1 2 3 4 t T
Y1 Y2 |Y1
N (µ1 , σ12 ) N (µ2 , σ22 )

Media : µ2 ≡ E [Y2 |Y1 ] = E [c + φy1 + 2 ] = c + φy1


Varianaza : σ22 ≡ var [Y2 |Y1 ] = var [c + φy1 + 2 ] = σ 2
Por lo tanto, la densidad Y2 |Y1 es
2 !
1 1 y2 − µ2

fY2 |Y1 (y2 |y1 ; θ) = √ exp −
σ2 2π 2 σ2

reemplazando
2 !
1 1 y2 − c − φy1

fY2 |Y1 (y2 |y1 ; θ) = √ exp −
σ 2π 2 σ

Miguel Ataurima Arellano 10 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Variable aleatoria: Y3 |Y2 , Y1  


Y3 |Y2 , Y1 ∼ N µ3 , σ32

y2

y1 y3

1 2 3 4 t T
Y1 Y2 |Y1 Y3 |Y2 , Y1
N (µ1 , σ12 ) N (µ2 , σ22 ) N (µ3 , σ32 )

Media : µ3 ≡ E [Y3 |Y2 , Y1 ] = E [c + φy2 + 3 ] = c + φy2


Varianaza : σ32 ≡ var [Y3 |Y2 , Y1 ] = var [c + φy2 + 3 ] = σ 2
Por lo tanto, la densidad Y3 |Y2 , Y1 es
2 !
1 1 y3 − µ3

fY3 |Y2 ,Y1 (y3 |y2 , y1 ; θ) = √ exp −
σ3 2π 2 σ3

reemplazando
2 !
1 1 y3 − c − φy2

fY3 |Y2 ,Y1 (y3 |y2 , y1 ; θ) = √ exp − = fY3 |Y2 (y3 |y2 ; θ)
σ 2π 2 σ

Miguel Ataurima Arellano 11 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Variable aleatoria: Y4 |Y3 , Y2 , Y1  


Y4 |Y3 , Y2 , Y1 ∼ N µ4 , σ42

y4
y2

y1 y3

1 2 3 4 t T
Y1 Y2 |Y1 Y3 |Y2 , Y1 Y4 |Y3 , Y2 , Y1
N (µ1 , σ12 ) N (µ2 , σ22 ) N (µ3 , σ32 ) N (µ4 , σ42 )

Media : µ4 ≡ E [Y4 |Y3 , Y2 , Y1 ] = E [c + φy3 + 4 ] = c + φy3


Varianaza : σ42 ≡ var [Y4 |Y3 , Y2 , Y1 ] = var [c + φy3 + 4 ] = σ 2
Por lo tanto, la densidad Y3 |Y2 , Y1 es
2 !
1 1 y4 − µ4

fY4 |Y3 ,Y2 ,Y1 (y4 |y3 , y2 , y1 ; θ) = √ exp −
σ4 2π 2 σ4

reemplazando
2 !
1 1 y4 − c − φy3

fY4 |Y3 ,Y2 ,Y1 (y4 |y3 , y2 , y1 ; θ) = √ exp − = fY4 |Y3 (y4 |y3 ; θ)
σ 2π 2 σ

Miguel Ataurima Arellano 12 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Variable aleatoria: Yt |Yt−1 , Yt−2 , . . . , Y1


 
Yt |Yt−1 , Yt−2 , . . . , Y1 ∼ N µt , σt2

yt
y4
y2

y1 y3

1 2 3 4 t T
Y1 Y2 |Y1 Y3 |Y2 , Y1 Y4 |Y3 , Y2 , Y1 Yt |Yt−1 , Yt−2 , . . . , Y1
N (µ1 , σ12 ) N (µ2 , σ22 ) N (µ3 , σ32 ) N (µ4 , σ42 ) N (µt , σt2 )

Media : µt ≡ E [Yt |Yt−1 , Yt−2 , . . . , Y1 ] = E [c + φyt−1 + t ] = c + φyt−1


Varianaza : σt2 ≡ var [Yt |Yt−1 , Yt−2 , . . . , Y1 ] = var [c + φyt−1 + t ] = σ 2
Por lo tanto, la densidad Yt |Yt−1 , Yt−2 , . . . , Y1 es
2 !
1 1 yt − µt

fYt |Yt−1 ,Yt−2 ,...,Y1 (yt |yt−1 , yt−2 , . . . , y1 ; θ) = √ exp −
σt 2π 2 σt
reemplazando
2 !
1 1 yt − c − φyt−1

fYt |Yt−1 ,Yt−2 ,...,Y1 (yt |yt−1 , yt−2 , . . . , y1 ; θ) = √ exp − = fYt |Yt−1 (yt |yt−1 ; θ)
σ 2π 2 σ

Miguel Ataurima Arellano 13 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Variable aleatoria: YT |YT −1 , YT −2 , . . . , Y1


 
YT |YT −1 , YT −2 , . . . , Y1 ∼ N µT , σT2

yt
y4
yT
y2

y1 y3

1 2 3 4 t T
Y1 Y2 |Y1 Y3 |Y2 , Y1 Y4 |Y3 , Y2 , Y1 Yt |Yt−1 , Yt−2 , . . . , Y1 YT |YT −1 , YT −2 , . . . , Y1
N (µ1 , σ12 ) N (µ2 , σ22 ) N (µ3 , σ32 ) N (µ4 , σ42 ) N (µt , σt2 ) N (µT , σT2 )

Media : µT ≡ E [YT |YT −1 , YT −2 , . . . , Y1 ] = E [c + φyT −1 + t ] = c + φyT −1


Varianaza : σT2 ≡ var [YT |YT −1 , YT −2 , . . . , Y1 ] = var [c + φyT −1 + t ] = σ 2
Por lo tanto, la densidad YT |YT −1 , YT −2 , . . . , Y1 es
2 !
1 1 yT − µT

fYT |YT −1 ,YT −2 ,...,Y1 (yT |yT −1 , yT −2 , . . . , y1 ; θ) = √ exp −
σT 2π 2 σT
reemplazando

 2 !
1 1 yT − c − φyT −1
fYT |YT −1 ,YT −2 ,...,Y1 (yT |yT −1 , yT −2 , . . . , y1 ; θ) = √ exp − = fYT |YT −1 (yT |yT −1 ; θ)
σ 2π 2 σ

Miguel Ataurima Arellano 14 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Función de Verosimilitud
La función de verosimilitud de la muestra completa (densidad conjunta de las T observaciones)
es la función de densidad conjunta de haber observado la muestra (y1 , y2 , . . . , yT )
fYT ,YT −1 ,...,Y2 ,Y1 (yT , yT −1 , . . . , y2 , y1 ; θ)

Aplicando la propiedad de densidades condicionales iteradas


fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y2 , y1 ; θ) = fYT |YT −1 ,...,Y2 ,Y1 (yT |yT −1 , . . . , y2 , y1 ; θ)
× fYT −1 |YT −2 ,...,Y2 ,Y1 (yT −1 |yT −2 , . . . , y2 , y1 ; θ)
..
.
× fY2 |Y1 (y2 |y1 ; θ)
× fY1 (y1 ; θ)
esto es
T
Y
fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) = fY1 (y1 ; θ) · fYt |Yt−1 ,...,Y1 (yt |yt−1 , . . . , y1 ; θ)
t=2

Función de Log-Verosimilitud
La función log-verosimilitud, denotado como L(θ), se define como

L(θ) = log fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ)

Miguel Ataurima Arellano 15 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Para nuestro ejemplo, Como el proceso que sigue {Yt } es un AR(1), entonces

Yt |Yt−1 , . . . , Y1 ≡ Yt |Yt−1

por lo tanto:

• La función de verosimilitud asociada será


T
Y
fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) = fY1 (y1 ; θ) · fYt |Yt−1 (yt |yt−1 ; θ)
t=2

• La función log-verosimilitud será


T
L(θ) = log fY1 (y1 ; θ) +
X
log fYt |Yt−1 (yt |yt−1 ; θ) (3)
t=2

Miguel Ataurima Arellano 16 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Desarrollando el primer término del lado derecho en (3)


   2  
c
s
 1 1− φ2 y1 − 1−φ
log fY1 (y1 ; θ) = log  √ exp − 
  
σ2

2π 1
2 1−φ2 σ 2

!− 1
  2 
c
− 12 σ2 2 y1 − 1−φ
= log (2π) exp − 
   
1 − φ2

1 2
2 1−φ2 σ
 2
c
y1 −
!
1 1 σ2 1−φ
= − log (2π) − log −  
2 2 1 − φ2 2 1
σ2
1−φ2

Desarrollando el término de la sumatoria del segundo término del lado derecho en (3)
(yt − c − φyt−1 )2
!!
1
log fYt |Yt−1 (yt |yt−1 ; θ) = log √ √ exp −
σ 2 · 2π 2σ 2
1   1 (yt − c − φyt−1 )2
= − log σ 2 − log (2π) −
2 2 2σ 2
Por lo tanto, el segundo término del lado derecho en (3) se reduce a
T T
(yt − c − φyt−1 )2
" #
X X 1   1
log fYt |Yt−1 (yt |yt−1 ; θ) = − log σ 2 − log (2π) −
t=2 t=2
2 2 2σ 2
T
(yt − c − φyt−1 )2
" #
1   1
 X 
= − log σ 2 − log (2π) (T − 1) −
2 2 t=2
2σ 2

Miguel Ataurima Arellano 17 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Reemplazando
 2
c
y1 −
!
1 1 σ2 1−φ
L(θ) = − log (2π) − log −  
2 2 1 − φ2 2 1
σ2
1−φ2
T
T −1 T −1 1 X
     
− log σ 2 − log (2π) − 2 (yt − c − φyt−1 )2
2 2 2σ t=2

simplificando
T T   1  
L(θ) = − log (2π) − log σ 2 + log 1 − φ2
2 2 2
2 T
1 c 1 X
  
− 2 1 − φ2 y1 − − 2 (yt − c − φyt−1 )2 . (4)
2σ 1−φ 2σ t=2

Miguel Ataurima Arellano 18 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Función de Log-Verosimilitud Promedio

La función log-verosimilitud promedio se define como

1
LT (θ) = L(θ)
T

Miguel Ataurima Arellano 19 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Resumen
1. Datos
{yt }Tt=1 = {y1 , y2 , . . . , yT }

2. Proceso Generador de Datos (DGP)


Yt ∼ AR(1)
esto es:
Yt = c + φYt−1 + t
 
t ∼ iid N 0, σ 2

3. Funciones de densidad
Para t = 1, la función de densidad no condicionada de Y1 es
2 ! (
1 1 y1 − µ1 µ1 = c/ (1 − φ) 

fY1 (y1 ; θ) = √ exp − con :
σ1 2π 2 σ1 σ12 = σ 2 / 1 − φ2

Para t = 2, 3, . . . , T , y considerando que el proceso {Yt } siguen un AR(1)


Yt |Yt−1 , . . . , Y1 ≡ Yt |Yt−1
la función densidad de Yt condicionada a sus realizaciones pasadas Yt−1 , . . . , Y1 será
2 ! (
1 1 yt − µ t

µt = c + φyt−1
fYt |Yt−1 (yt |yt−1 ; θ) = √ exp − con :
σt 2π 2 σt σt2 = σ 2

Miguel Ataurima Arellano 20 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

4. Función de Verosimilitud
Definición:
T
Y
fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) = fY1 (y1 ; θ) · fYt |Yt−1 ,...,Y1 (yt |yt−1 , . . . , y1 ; θ)
t=2

Considerando que el proceso {Yt } siguen un AR(1)


T
Y
fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) = fY1 (y1 ; θ) · fYt |Yt−1 (yt |yt−1 ; θ)
t=2

5. Función de Log-Verosimilitud
La Función de Log-Verosimilitud por definición es

L(θ) = log fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ)

Aplicando a la definición de Función de Verosimilitud


T
L(θ) = log fY1 (y1 ; θ) +
X
log fYt |Yt−1 ,...,Y1 (yt |yt−1 , . . . , y1 ; θ)
t=2

Aplicando a la Función de Verosimilitud del AR(1) en estudio


 2 T
T T  1  1 c 1 X 2
L(θ) = − log (2π)− log σ 2 + log 1 − φ2 − 2 1 − φ2 y1 −

− 2 (yt − c − φyt−1 )
2 2 2 2σ 1−φ 2σ t=2

Miguel Ataurima Arellano 21 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

6. Función de Log-Verosimilitud Promedio

Definición:
1
LT (θ) = L(θ)
T
Aplicando a la definición de Función de Log-Verosimilitud
T
" #
1 X
LT (θ) = log fY1 (y1 ; θ) + log fYt |Yt−1 ,...,Y1 (yt |yt−1 , . . . , y1 ; θ)
T t=2

Aplicando a la Función de Log-Verosimilitud del AR(1) en estudio


 2 T
1 1  1 1 c 1 X 2
LT (θ) = − log (2π)− log σ 2 + log 1 − φ2 − 2 1 − φ2 y1 −
 
− 2 (yt − c − φyt−1 )
2 2 2T 2σ T 1−φ 2σ T t=2

Miguel Ataurima Arellano 22 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

2.2. Forma vectorial de obtención de la función de verosimilitud


Sea Y ≡ (Y1 , Y2 , . . . , YT )0 un vector aleatorio Gaussiano que recolecta las T variables aleatorias
T ×1
de una serie de tiempo de talla T
Y ∼ N (µ, Ω)
T ×1

donde

• µ es el vector media definido como


 
µ

 µ 

µ = E [Y] =  .. 
.
 
T ×1  
µ

• Ω es la matriz de autocovarianzas definida como


 
γ0 γ1 · · · γT −1
h
0
i 
 γ1 γ0 · · · γT −2 

Ω = var [Y] = E (Y − µ) (Y − µ) = .. .. .. .. 
T ×T 
 . . . .


γT −1 γT −2 · · · γ0

Miguel Ataurima Arellano 23 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Prueba
  
(Y1 − µ)
 0
 (Y2 − µ)  
Ω = var [Y] = E (Y − µ) (Y − µ) = E    (Y1 − µ) (Y2 − µ) · · · (YT − µ) 
  
..
T ×T  .  
(YT − µ)

 2 
(Y1 − µ) (Y1 − µ) (Y2 − µ) ··· (Y1 − µ) (YT − µ)
2
 (Y2 − µ) (Y1 − µ) (Y2 − µ) ··· (Y2 − µ) (YT − µ) 
=E
 
.. .. .. .. 
 . . . . 
2
(YT − µ) (Y1 − µ) (YT − µ) (Y2 − µ) · · · (YT − µ)

 h i 
2
E (Y1 − µ) E [(Y1 − µ) (Y2 − µ)] ··· E [(Y1 − µ) (YT − µ)]
 h i 
2
 E [(Y2 − µ) (Y1 − µ)] E (Y2 − µ) ··· E [(Y2 − µ) (YT − µ)]
 

= .. .. ..

 .. 

 . . . . 

h i
2
E [(YT − µ) (Y1 − µ)] E [(YT − µ) (Y2 − µ)] ··· E (YT − µ)

 
γ0 γ1 ··· γT −1
 γ1 γ0 ··· γT −2 
=
 
.. .. .. .. 
 . . . . 
γT −1 γT −2 ··· γ0


Miguel Ataurima Arellano 24 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Sea una muestra observada (conjunto de T observaciones) o realización del vector aleatorio Gaus-
siano Y
T ×1
y ≡ (y1 , y2 , . . . , yT )0
T ×1

La función de verosimilitud (densidad Gaussiana multivariada2 ) puede ser escrita como


1 
1

− T2

−1 2 0 −1
fY (y; θ) = (2π) Ω exp − (y − µ) Ω (y − µ)
2

La función de log-verosimilitud será

T 1 1
L (θ) = − log (2π) + log Ω−1 − (y − µ)0 Ω−1 (y − µ) (5)

2 2 2

2
La función de densidad para una distribución normal multivariada del vector aleatorio x = (x1 , . . . , xN )0 es
1 1
 0

f (x) = p exp − (x − µ) Σ−1 (x − µ)
N
(2π) |Σ| 2

donde Σ es la matriz de covarianzas de x (matriz simétrica).

Miguel Ataurima Arellano 25 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Sea
Ω = σ2V
y consideremos que la inversa de la matriz V puede ser factorizada como

V−1 = L0 L

entonces,
Ω−1 = σ −2 L0 L

Reemplazando éste último valor en (5)

T 1 1
L (θ) = − log (2π) + log σ −2 L0 L − (y − µ)0 σ −2 L0 L (y − µ)

2 2 2
definiciendo y
e
e = L (y − µ)
y
simplificamos L (θ)

T 1 1 0
 T 
−2 2
L (θ) = − log (2π) + log σ |L| − 2 y eye
2 2 2σ
obteniendo la siguiente expresión final

T T   1 0
L (θ) = − log (2π) − log σ 2 + log |L| − 2 y
eye (6)
2 2 2σ

Miguel Ataurima Arellano 26 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Para el proceso Gaussiano AR(1)


Yt = c + φYt−1 + t
tenemos que  p 
1 − φ2 0 0 ··· 0 0

 −φ 1 0 ··· 0 0 

c 
0 −φ 1 ··· 0 0

µ= , L= 
1 − φ2 
 .. .. .. .. .. 

 . . . . . 
0 0 0 · · · −φ 1
y por lo tanto:
 1
|L| = 1 − φ2 2

 c
  p   
 p
1 − φ2 0 0 ··· 0 0 y1 − 1−φ 2 1 − φ2 y1 − 1−φc
2

−φ 1 0 ··· 0 0   y2 − c 2
   
y2 − c − φy1

  1−φ   
c
  
0 −φ 1 ··· 0 0   y3 − 1−φ
 
e = L (y − µ) = 
y 2 =
 
y3 − c − φy2 


 .. .. .. .. .. 
 ..   .. 
 . . . . .  .
 
  .


0 0 0 · · · −φ 1 c
yT − 1−φ2 yT − c − φyT −1

observándose que:
2 T
  c
e0y (yt − c − φyt−1 )2
X
y e = 1 − φ2 y1 − +
1 − φ2 t=2

Miguel Ataurima Arellano 27 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Reemplazando en (6)

T T   1 0
L (θ) = − log (2π) − log σ 2 + log |L| − 2 y
eye
2 2 2σ
tenemos
T T    1
L (θ) = − log (2π) − log σ 2 + log 1 − φ2 2
2 2
T
2 X !
1 
2
 c 2
− 2 1−φ y1 − + (yt − c − φyt−1 )
2σ 1 − φ2 t=2

simplificando obtenemos la misma expresión hallada sin el uso de la forma vectorial


T T   1  
L(θ) = − log (2π) − log σ 2 + log 1 − φ2
2 2 2
2 T
1 c 1 X
  
− 2 1 − φ 2 y1 − − 2 (yt − c − φyt−1 )2
2σ 1−φ 2σ t=2

Miguel Ataurima Arellano 28 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

2.3. Estimación por Máxima Verosimilitud Exacta para el Proceso Gaussiano AR(1)
El estimador θ
b obtenido por Máxima Verosimilitud (MLE θ)
b es el valor para el cual se maximiza
L(θ).
b = argmax L(θ)
θ θ
θ
b

Condición de Primer Orden

En un principio esto requiere la diferenciación de L(θ) e igualar el resultado a cero.

∂L(θ)
g (θ) ≡ = 0
∂θ n×1

formándose un sistema de n ecuaciones no lineales en θ y {y1 , y2 , . . . , yT }

gi (θ) = 0 i = 1, 2, . . . , n

En la práctica:

• No hay una solución única para θ en términos de {y1 , y2 , . . . , yT }.


• Se requiere procedimientos itérativos o algoritmos numéricos que se describirán mas adelante.

Miguel Ataurima Arellano 29 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

2.4. Estimación por Máxima Verosimilitud Condicional


Una alternativa a la maximización numérica de la función de verosimilitud exacta es considerar
el valor de y1 como determinístico y maximizar la verosimilitud condicionada sobre la primera
observación
T
Y
fYT ,YT −1 ,...,Y2 |Y1 (yT , yT −1 , . . . , y2 |y1 ; θ) = fYt |Yt−1 (yt |yt−1 ; θ)
t=2
el objetivo es entonces maximizar
logfYT ,YT −1 ,...,Y2 |Y1 (yT , yT −1 , . . . , y2 |y1 ; θ)
T
(yt − c − φyt−1 )2
" #
T −1 T −1   X
=− log (2π) − log σ 2 − (7)
2 2 t=2
2σ 2

La maximización de (7) con respecto a c y φ es equivalente a la minimización de


T
(yt − c − φyt−1 )2
X
(8)
t=2

la cual es conseguida mediante una regresión por mínimos cuadrados ordinaria (OLS) de yt sobre
una constante y sus propio valor rezagado.
Por lo tanto, el estimador de máxima verosimilitud condicional de c y φ esta dado por
" # " #" #
cb T − 1 Σyt−1 Σyt
= 2
φb Σyt−1 Σyt−1 Σyt−1 yt
donde Σ denota la sumatoria sobre t = 2, 3, . . . , T .

Miguel Ataurima Arellano 30 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

b 2 , es encon-
El estimador por máxima verosimilitud condicional de la varianza de la innovación, σ
2
trado diferenciando (7) con respecto a σ e igualando el resultado a cero
T
(yt − c − φyt−1 )2
" #
T −1 X
− + =0
2σ 2 t=2
2σ 4

o  2 
T
X y t − b − φy
c b t−1
b2 =
σ
 
T −1
 
t=2

En otras palabras, la MLE condicional es el promedio de los residuos al cuadrado prove-


nientes de la regresión OLS (8).

En contraste con los estimadores por máxima verosimilitud exacta, los estimadores por máxima
verosimilitud condicionada son triviales de calcular. Mas aún, si el tamaño de la muestra T es lo su-
ficientemente grande, la primera observación hace una contribución insignificante a la verosimilitud
total.

Miguel Ataurima Arellano 31 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Cuando |φ| < 1, el MLE exacto y el MLE condicional resultan tener la misma distribución en
grandes muestras.

Cuando |φ| > 1, el MLE condicional continua proporcionando estimadores consistentes, donde la
maximización de
T T   1  
L(θ) = − log (2π) − log σ 2 + log 1 − φ2
2 2 2
2 T
1 c 1 X
  
− 2 1 − φ2 y1 − − 2 (yt − c − φyt−1 )2 .
2σ 1−φ 2σ t=2

no lo hace. Esto es porque esta ecuación es derivada a partir de


  2 
c
s
1 1− φ2 y1 − 1−φ
fY1 (y1 ; θ) = √ exp − 
  
σ2

2π 1 2
2 1−φ2 σ

la cual no describe con precisión la densidad de Y1 cuando |φ| > 1.

Por estas razones, en la mayoría de aplicaciones los parámetros de una autoregresión son es-
timados por OLS (maxima verosimilitud condicional) en vez que con máxima verosimilitud
exacta.

Miguel Ataurima Arellano 32 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

3. La Función de Verosimilitud para un Proceso AR(p) Gausiano


Aquí discutiremos sobre el procesos Gausiano AR(p)

Yt = c + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + t (9)

con
t ∼ i.i.d.N (0, σ 2 )

En este caso, el vector de parámetros poblacional por estimar es

θ = (c, φ1 , φ2 , . . . , φp , σ 2 )0

Miguel Ataurima Arellano 33 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

3.1. Evaluación de la Función de Verosimilitud


Se utiliza una combinación de los dos métodos descritos para el caso AR(1), en el calculo de la
función de verosimilitud para una muestra de tamaño T de un proceso AR (p).

Las primeras p observaciones en la muestra (y1 , y2 , . . . , yp ) se recogen en un vector (p × 1): yp ,


que se considera como la realización de una variable gaussiana p-dimensional.

La media de este el vector yp es el vector (p × 1) µp cuyos elementos está dados por


c
µ= (10)
1 − φ1 − φ2 − · · · − φp

Sea σ 2 Vp una matriz de varianzas-covarianzas (p × p) de (Y1 , Y2 , . . . , Yp ):


 
E (Y1 − µ)2
 
E [(Y1 − µ)(Y2 − µ)] · · · E [(Y1 − µ)(Yp − µ)]

E [(Y2 − µ)(Y1 − µ)] E (Y2 − µ)2 · · · E [(Y2 − µ)(Yp − µ)] 
σ 2 Vp = 
 
.. .. .. ..  (11)

 . . . .


E (Yp − µ)2
 
E [(Yp − µ)(Y1 − µ)] E [(Yp − µ)(Y2 − µ)]

Miguel Ataurima Arellano 34 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Por ejemplo:
1
• Para una autoregresión de primer orden (p = 1), Vp es el escalar .
1 − φ2
• Para una general autoregresión de orden p
 
γ0 γ1 γ2 · · · γp−1

 γ1 γ0 γ1 · · · γp−2 

2 γ2 γ1 γ0 · · · γp−3
 
σ Vp =  

.. .. .. ..

. . . .
 
 
γp−1 γp−2 γp−3 · · · γ0
donde la autocovarianza j-ésima para un proceso AR(p), γj , puede ser calculada usando los
métodos ya estudiados.
La densidad de las primeras p observaciones en la muestra
(y1 , y2 , . . . , yp )
son entonces la de una variable N (µp , σ 2 Vp ):
fYp ,Yp−1 ,...,Y1 (yp , yp−1 , . . . , y1 ; θ)
1
 
−p/2 −2
= (2π) |σ Vp−1 |1/2 exp
− 2 (yp − µp )0 Vp−1 (yp − µp )

1
 
−p/2 −2 p/2 −1 1/2 0 −1
= (2π) (σ ) |Vp | exp − 2 (yp − µp ) Vp (yp − µp ) (12)

donde se ha utilizado el resultado [A.4.8].

Miguel Ataurima Arellano 35 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

La densidad de las restantes observaciones en la muestra

(yp+1 , yp+2 , . . . , yT )

puede utilizarse la descomposición predicción-error.

Así, condicionado a las t − 1 primeras observaciones, la obsevación t-ésima es Gausiana con media

c + φ1 yt−1 + φ2 yt−2 + · · · + φp yt−p

y varianza σ 2 .

Solo las p observaciones mas recientes importan para esta distribución.


Por lo tanto, para t > p

fYt |Yt−1 ,...,Y1 (yt |yt−1 , . . . , y1 ; θ)


= fYt |Yt−1 ,...,Yt−p (yt |yt−1 , . . . , yt−p ; θ)
" #
1 (yt − c − φ1 yt−1 − φ2 yt−2 − · · · − φp yt−p )2
=√ exp −
2πσ 2 2σ 2

Miguel Ataurima Arellano 36 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

La función de verosimilitud para la muestra completa es entonces

fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ)


= fYp ,Yp−1 ,...,Y1 (yp , yp−1 , . . . , y1 ; θ)
T
Y
× fYt |Yt−1 ,Yt−2 ,...,Yt−p (yt |yt−1 , yt−2 , . . . , yt−p ; θ) (13)
t=p+1

y la log verosimilitud es por lo tanto

L(θ) = log fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ)


p p 1
= − log(2π) − log(σ 2 ) + log |Vp−1 |
2 2 2
1
− 2 (yp − µp )0 Vp−1 (yp − µp )

T −p T −p
− log(2π) − log(σ 2 )
2 2
T
X (yt − c − φyt−1 − φ2 yt−2 − · · · − φp yt−p )2
− (14)
t=p+1
2σ 2
T T 1
=− log(2π) − log(σ 2 ) + log |Vp−1 |
2 2 2
1
− 2 (yp − µp )0 Vp−1 (yp − µp )

T
X (yt − c − φyt−1 − φ2 yt−2 − · · · − φp yt−p )2

t=p+1
2σ 2

Miguel Ataurima Arellano 37 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

La evaluación de (14) requiere invertir la matriz (p × p ) Vp .

• Denotemos al elemento de la fila i, columna j de Vp−1 mediante v ij (p).


• Galbraith and Galbraith (1974, ecuación 16, p.70) muestran que
 
i−1
X p+i−j
X
v ij (p) =  φk φk+j−i − φk φk+j−i  para 1 ≤ i ≤ j ≤ p (15)
k=0 k=p+1−j

donde φ0 ≡ −1.
• Los valores v ij (p) para i > j pueden ser inferidos a partir del hecho de que Vp−1 es simétrica
(v ij (p) = v ji (p)).
• Por ejemplo, para p = 1, Vp−1 es una escalar cuyo valor es encontrado tomando i = j = p = 1
" 0 1
#
V1−1
X X
= φk φk − φk φk = φ20 − φ21 = 1 − φ2
k=0 k=1

así
σ2
σ 2 V1 =
1 − φ2
que reproduce la fórmula para la varianza de un proceso AR(l).

Miguel Ataurima Arellano 38 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

• Por ejemplo, para p = 2, la ecuación [15] implica


" #
1 − φ22 −(φ1 + φ1 φ2 )
V2−1 =
−(φ1 + φ1 φ2 ) 1 − φ22
obteniéndose rápidamente
" #
(1 − φ2 ) −φ1
|V2−1 | = (1 + φ2 ) = (1 + φ2 )2 [(1 − φ2 )2 − φ21 ]

−φ1 (1 − φ2 )
y
1
(yp − µp )0 Vp−1 (yp − µp )
2σ 2 " #" #
(1 − φ2 ) −φ1 (y1 − µ)
= [ (y1 − µ) (y2 − µ) ](1 + φ2 )
−φ1 (1 − φ2 ) (y2 − µ)
= (1 + φ2 ) × { (1 − φ2 )(y1 − µ)2 − 2φ1 (y1 − µ)(y2 − µ) + (1 − φ2 )(y2 − µ)2 }
La log verosimilitud exacta para un proceso Gausiano AR(2) está así dado por
T T 1
L(θ) = − log(2π) − log(σ 2 ) + log{(1 + φ2 )2 [(1 − φ2 )2 − φ21 ]}
2 2 2
1 + φ2
 
− × { (1 − φ2 )(y1 − µ)2 − 2φ1 (y1 − µ)(y2 − µ) + (1 − φ2 )(y2 − µ)2 }
2σ 2
T
X (yt − c − φ1 yt−1 − φ2 yt−2 )2

t=3
2σ 2
c
donde µ = .
1 − φ1 − φ2

Miguel Ataurima Arellano 39 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

3.2. Estimaciones de Máxima Verosimilitud Condicional


La maximización de la log verosimilitud exacta para un proceso AR(p), ecuación (14), se debe
obtener numéricamente.

Sin embargo, el logaritmo de la verosimilitud condicionado a las primeras p observaciones asume


la forma simple

logfYT ,YT −1 ,...,Yp+1 |Yp ,...,Y1 (yT , yT −1 , . . . , yp+1 |yp , . . . , y1 ; θ)


T −p T −p
=− log(2π) − log(σ 2 )
2 2
T
X (yt − c − φ1 yt−1 − φ2 yt−2 − · · · − φp yt−p )2
− (16)
t=p+1
2σ 2

Los valores de c, φ1 , φ2 , . . . , φp que maximizan (16) son aquelos que minimizan


T
X
(yt − c − φ1 yt−1 − φ2 yt−2 − · · · − φp yt−p )2 (17)
t=p+1

Así, las estimaciones de la máxima verosimilitud condicional de estos parámetros pueden obtenerse
a partir de una regresión OLS de yt sobre una constante y p de sus propios valores rezagados.

Miguel Ataurima Arellano 40 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

La estimación de máxima verosimilitud condicional de σ 2 resulta ser el promedio de los residuos


al cuadrado de esta regresión:
T
1 X
b2 =
σ (yt − c − φb1 yt−1 − φb2 yt−2 − · · · − φbp yt−p )2
T − p t=p+1

La estimación de la máxima verosimilitud exacta y la estimación de la máxima verosimilitud


condicional vuelven a tener la misma distribución de grandes muestras.

Miguel Ataurima Arellano 41 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

3.3. Estimación de la Máxima Verosimilitud para Series de Tiempo No Gausianas


En el capítulo anterior observamos que una regresión OLS de una variable sobre una constante y
p de sus rezagos :

• Daría una estimación consistente de los coeficientes de la proyección lineal,


b t |Yt−1 , Yt−2 , . . . , Yt−p )
E(Y

siempre que el proceso sea ergódico para los segundos momentos.


• Maximiza la verosimilitud condicional Gausiana (16) :

logfYT ,YT −1 ,...,Yp+1 |Yp ,...,Y1 (yT , yT −1 , . . . , yp+1 |yp , . . . , y1 ; θ)


T −p T −p
=− log(2π) − log(σ 2 )
2 2
T
X (yt − c − φ1 yt−1 − φ2 yt−2 − · · · − φp yt−p )2
− (18)
t=p+1
2σ 2

por lo tanto, incluso si el proceso no es Gaussiano, asi erróneamente formemos una función de
log verosimilitud Gausiana y la maximizamos, las estimaciones resultantes (cb, φb1 , φb2 , . . . , φbp
) proporcionarán estimaciones consistentes de los parámetros poblacionales en (9).

Miguel Ataurima Arellano 42 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Una estimación que maximiza una función de verosimilitud mal especificada (por ejemplo, una
MLE calculada bajo el supuesto de un proceso gaussiano cuando los datos verdaderos no son
gaussianos) se conoce como una estimación de quasi-máxima verosimilitud.
• A veces, como resulta ser el caso aquí, la estimación de quasi-máxima verosimilitud propor-
ciona estimaciones consistentes de los parámetros de población de interés. Sin embargo, los
errores estándar para los coeficientes estimados que se calculan bajo la hipótesis de Gausia-
niedad no necesitan ser correctos si los datos verdaderos no son gaussianos3 .
• Alternativamente, si los datos brutos (raw data) no son gaussianos, a veces una simple trans-
formación, como tomar logaritmos, producirá una serie de tiempo gaussiana. Para una variable
aleatoria positiva Yt , Box y Cox (1964) propusieron la clase general de transformaciones
 λ
 Yt − 1
Yt
(λ)
= para λ 6= 0
λ
log Yt para λ = 0

Un enfoque consiste en elegir un valor particular de λ y maximizar la función de verosimilitud


(λ) (λ)
para Yt , bajo la suposición de que Yt es un proceso de ARMA Gaussiano. El valor de λ
que está asociado con el valor más alto de la verosimilitud maximizada se toma como la mejor
transformación. Sin embargo, Nelson y Granger (1979) informaron resultados desalentadores
de este método en la práctica.
• Li y McLeod (1988) y Janacek y Swift (1990) describieron enfoques para la estimación de la
máxima verosimilitud para algunos modelos ARMA no Gaussianos. Martin (1981) discutió la
estimación robusta de series de tiempo para datos contaminados.

3
Estos puntos fueron planteados por primera vez por White (1982) y se analizan más adelante.

Miguel Ataurima Arellano 43 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

4. La Función de Verosimillitud para un Proceso MA(1) Gausiano


4.1. Función de Verosimilitud Condicional
El cálculo de la función de verosimilitud para una autorregresión resultó ser mucho más sencillo si
condicionabamos los valores iniciales de los Y ’s.

Del mismo modo, el cálculo de la función de verosimilitud para un proceso de media móvil es más
sencillo si condicionamos los valores iniciales de los ’s.

Miguel Ataurima Arellano 44 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

EJEMPLO: Para el proceso MA(1) Gaussiano

Yt = µ + t + θt−1 (19)

con t ∼ i.i.d.N (0, σ 2 ).

Sea θ = (µ, θ, σ 2 )0 los parámetros poblacionales a ser estimados.

Si el valor de t−1 fuera conocido con certidumbre, entonces

Yt |t−1 ∼ N (µ + θt−1 , σ 2 )

o " #
1 (yt − µ − t−1 )2
fYt |t−1 (yt |t−1 ; θ) = √ exp − (20)
2πσ 2 2σ 2

Supongamos que conocemos con certeza que 0 = 0, entonces

Y1 |0 = 0 ∼ N (µ, σ 2 )

Además, dada la observación de y1 , el valor de 1 también se conoce con certeza:

1 = y1 − µ

permitiendo la aplicación de (20) nuevamente:


" #
1 (y2 − µ − 1 )2
fY2 |Y1 ,0 =0 (y2 |y1 , 0 = 0; θ) = √ exp −
2πσ 2 2σ 2

Miguel Ataurima Arellano 45 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Como 1 es conocido con certidumbre, 2 puede ser calculado a partir de


2 = y2 − µ − θ1
procediendo de esta manera, está claro que bajo el conocimiento que 0 = 0, la secuencia completa
{1 , 2 , . . . , T } puede ser calculada a partir de {y1 , y2 , . . . , yT } mediante la iteración
t = yt − µ − θt−1 (21)
para t = 1, 2, . . . , T , comenzando desde 0 = 0.
La densidad condicionada de la observación r-ésima puede ser calculada a partir de (20) como
fYt |Yt−1 ,Yt−2 ,...,Y1 ,0 =0 (yt |yt−1 , yt−2 , . . . , y1 , 0 = 0; θ) = fYt |t−1 (yt |t−1 ; θ)
" #
1 2
=√ exp − t 2 (22)
2πσ 2 2σ

La verosimilitud muestral sería entonces el producto de estas densidades individuales:


fYT ,YT −1 ,...,Y1 |0 =0 (yT , yT −1 , . . . , y1 |0 = 0; θ)
T
Y
= fYt |0 (yt |0 = 0; θ) fYt |Yt−1 ,Yt−2 ,...,Y1 ,0 =0 (yt |yt−1 , yt−2 , . . . , y1 , 0 = 0; θ)
t=2

La log verosimilitud será:


L(θ) = log fYT ,YT −1 ,...,Y1 |0 =0 (yT , yT −1 , . . . , y1 |0 = 0; θ)
T
T T X 2t
=− log(2π) − log(σ 2 ) − (23)
2 2 t=1
2σ 2

Miguel Ataurima Arellano 46 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Para un valor numérico particular de θ, calculamos la secuencia de ’s implicada por los datos de
[21].

La log verosimilitud condicional [23] es entonces una función de la suma de cuadrados de estos
’s.

Aunque es sencillo programar esta iteración por computadora, la log verosimilitud es una función
no lineal bastante complicada de µ y θ, de modo que una expresión analítica para las estimaciones
de máxima verosimilitud de µ y θ no se calcula fácilmente. Por lo tanto, incluso las estimacio-
nes de máxima verosimilitud condicional para un proceso MA (1) deben ser encontradas por
optimización numérica.

La iteración sobre (21) a partir de una valor de partida arbitrario de 0 dará como resultado

t =(yt − µ) − θ(yt−1 − µ) + θ2 (yt−2 − µ) − · · ·


+ (−1)t−1 θt−1 (y1 − µ) + (−1)t θt 0

• Si |θ| es sustancialmente menor que la unidad, el efecto de imponer 0 = 0 desaparecerá


rápidamente y la verosimilitud condicional [22] dará una buena aproximación a la verosimilitud
no condicionada de una muestra razonablemente grande.
• Si |θ| > 1, las consecuencias de imponer 0 = 0 se acumulan con el tiempo. El enfoque
condicional no es razonable en tal caso. Si la optimización numérica de [23] resulta en un
valor de θ que excede de 1 en valor absoluto, los resultados deben ser descartados. La
optimización numérica debe ser intentada de nuevo con el recíproco de θb utilizado como
valor inicial para el procedimiento de búsqueda numérica.

Miguel Ataurima Arellano 47 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

4.2. Función de Verosimilitud Exacta


Dos algoritmos convenientes están disponibles para calcular la función de verosimilitud exacta para
un proceso Gaussian MA (1).

• Un enfoque es usar el filtro de Kalman.


• Un segundo enfoque utiliza la factorización triangular de la matriz de varianza-covarianza.

A continuación describimos el segundo enfoque.

Las observaciones sobre y pueden ser recolectadas en un vector (T × 1) y ≡ (y1 , y2 , . . . , yT )0 con


media µ ≡ (µ, µ, . . . , µ)0 y la matriz (T × T ) de varianzas-covarianzas

Ω = E (Y − µ)(Y − µ)0
 

La matriz de varianzas-covarianzas para T continuas realizaciones de un proceso MA(1) es

(1 + θ2 )
 
θ 0 ··· 0

 θ (1 + θ2 ) θ ··· 0 

2 0 θ (1 + θ2 ) ··· 0
 
Ω=σ  
.. .. .. .. .. 
. . . . .
 
 
0 0 0 · · · (1 + θ2 )

La función de verosimilitud es entonces


1
 
fY (y; θ) = (2π)−T /2 |Ω|−1/2 exp − (y − µ)0 Ω−1 (y − µ) (24)
2

Miguel Ataurima Arellano 48 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Una descomposición predicción-error de la verosimilitud es obtenida a partir de la factorización


triangular de Ω
Ω = ADA0 (25)
donde A es una matriz triangular inferior y D es una matriz diagonal.

Sustituyendo (25) en (24) se obtiene

1
 
−T /2 0 −1/2  −1 −1 −1
exp − (y − µ)0 A0

fy (y; θ) = (2π) ADA D A (y − µ) (26)
2

Como A es una matriz triangular inferior con 1s a lo largo de su diagonal princila, tenemos que
|A| = 1 y por lo tanto
ADA0 = |A| · |D| · A0 = |D|

Definiendo
e ≡ A−1 (y − µ)
y (27)
la verosimilitud (26) puede ser escrita como

1 0 −1
 
−T /2 −1/2
fy (y; θ) = (2π) |D| exp − yeD y e (28)
2

NOTA: Observe que (27) implica que

e =y−µ
Ay

Miguel Ataurima Arellano 49 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

La primera fila de este sistema establece que

ye1 = y1 − µ

mientras que la t-ésima fila implica que


h i
θ 1 + θ2 + θ4 + · · · + θ2(t−2)
yet = yt − µ − yet−1 (29)
1 + θ2 + θ4 + · · · + θ2(t−1)

El vector y
e puede ser calculado iterando sobre (29) para t = 2, 3, . . . , T , comenzando a partir de
ye1 = y1 − µ-

La variable yet se interpreta como el residuo de una proyección lineal de yt sobre una constante
y yt−1 , yt−2 , . . ., y1 ; mientras que el elemento diagonal t−ésimo de D brinda el MSE de la
proyección lineal
h i 1 + θ2 + θ4 + · · · + θ2t
dtt = E Yet2 = σ 2 (30)
1 + θ2 + θ4 + · · · + θ2(t−1)
Como D es diagonal, su determinante es el producto de los términos a lo largo de la diagonal
principal
T
Y
|D| = dtt (31)
t=1
mientras que la inversa de D es obtenida tomando los recíprocos de los términos a lo largo de la
diagonal principal, así
T
yet2
e 0 D−1 y
X
y e= (32)
d
t=1 tt

Miguel Ataurima Arellano 50 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Sustituyendo (31) y (32) en (28), la función de verosimilitud es


"T #−1/2 T
!
−T /2
Y 1X yet2
fy (y; θ) = (2π) dtt exp − (33)
t=1
2 t=1 dtt

La log verosimilitud exacta para un proceso MA(1) Gausiano es por lo tanto


T T
T 1X 1X yet2
L(θ) = log fy (y; θ) = − log(2π) − log(dtt ) − (34)
2 2 t=1 2 t=1 dtt

Dados los valores numéricos para µ, θ y σ 2 , la secuencia yet se calcula iterando sobre (29) comen-
zando con ye1 = y1 − µ, mientras que dtt es hallado usando (30).

En contraste con la función de log verosimilitud (23), la expresión (34) será válida independien-
temente de si θ está asociada a una representación MA(1) invertible. El valor de (34) en θ = θ,e
2
σ =σ 2 −1 2
e será idéntico a su valor en θ = θe , σ = θe σ2 2
e . Ver Ejercicio 5.1 del texto base.

Miguel Ataurima Arellano 51 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

5. La Función de Verosimilitud para un Proceso MA(q) Gausiano


5.1. La Función de Verosimilitud Condicional
Un proceso causal M A(q) toma la forma

Yt = µ + t + θ1 t−1 + · · · + θq t−q (35)

donde t ∼ i.i.d. N (0, σ 2 ).

La meta es estimar el vector de parámetros poblacionales


 0
θ = µ, θ1 , . . . , θq , σ 2

Una aproximación a la función de verosimilitud para un procesos M A(q) estará condicionada por
los ’s.

Una simple método para esta aproximación es condicionar en supuesto de que los primeros q
valores de ’s son todos cero
0 = −1 = · · · = −q+1 = 0 (36)

A partir de estos valores podemos iterar sobre

t = yt − µ − θ1 t−1 − · · · − θq t−q (37)

para t = 1, 2, . . . , T .

Miguel Ataurima Arellano 52 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Sea 0 el vector (q × 1) como dados

0 ≡ (0 , −1 , . . . , −q+1 )0

la log verosimilitud condicionada es entonces

L (θ) = logfYT ,YT −1 ,...,Y1 |0 =0 (yT , yT −1 , . . . , y1 |0 = 0; θ)


T
T T X 2t
=− log (2π) − log σ 2 − (38)
2 2 t=1
2σ 2

siempre que todos las raíces de Θ(z) caigan fuera del círculo unitario.

Miguel Ataurima Arellano 53 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

5.2. La Función de Verosimilitud Exacta


Queda como ejercicio para el problem set demostrar que la Función de Verosimilitud Exacta para
un proceso M A(q) está dada por
T T
T 1X 1X yet2
L(θ) = log fy (y; θ) = − log(2π) − log(dtt ) −
2 2 t=1 2 t=1 dtt

donde
yet = (yt − µ) − at,t−1 yet−1 − at,t−2 yet−2 − · · · − at,t−q yet−q
donde los aij provienen de la factorización triangular de Ω
 
1 0 0 ··· 0 0

 a21 1 0 ··· 0 0 

a31 a32 1 ··· 0 0
 
 
.. .. .. .. ..
 
 
 . . . ··· . . 
A= 
 a
 q+1,1 aq+1,2 aq+1,3 ···0 0 


 0 aq+2,2 aq+2,3 ···0 0 

 .. .. .. .. .. 
. . . ··· . .
 
 
0 0 0 · · · aT,T −1 1

Miguel Ataurima Arellano 54 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

6. La Función de Verosimilitud para un Proceso ARMA(p,q) Gausiano


6.1. La Función de Verosimilitud Condicional
Un proceso causal ARM A(p, q) toma la forma

Yt = c + φ1 Yt−1 + · · · + φp Yt−p
+ t + θ1 t−1 + · · · + θq t−q (39)

donde t ∼ i.i.d. N (0, σ 2 ).

La meta es estimar el vector de parámetros poblacionales


 0
θ = c, φ1 , . . . , φp , θ1 , . . . , θq , σ 2

Una aproximación a la función de verosimilitud para un procesos ARM A(p, q) estará condicionada
por los y’s y los ’s.

Miguel Ataurima Arellano 55 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Tomando los valores iniciales y0 y 0 como dados

y0 ≡ (y0 , y−1 , . . . , y−p+1 )0


0 ≡ (0 , −1 , . . . , −q+1 )0

la secuencia
{1 , 2 , . . . , T }
puede ser calculada a partir de
{y1 , y2 , . . . , yT }
mediante la iteración

t = yt − c − φ1 Yt−1 − · · · − φp Yt−p
+ − θ1 t−1 − · · · − θq t−q (40)

para t = 1, 2, . . . , T .

La log verosimilitud condicionada es entonces

L (θ) = logfYT ,YT −1 ,...,Y1 |Y0 ,0 (yT , yT −1 , . . . , y1 |y0 , 0 ; θ)


T
T T X 2t
=− log (2π) − log σ 2 − (41)
2 2 t=1
2σ 2

Miguel Ataurima Arellano 56 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Una opción es establecer inicialmente los y’s y ’s igual a sus valores esperados. Esto es
c
ys = para s = 0, −1, . . . , −p + 1
1 − φ1 − · · · − φp
s = 0 para s = 0, −1, . . . , −q + 1

y luego proceder con la iteración en (40)

t = yt − c − φ1 Yt−1 − · · · − φp Yt−p
+ − θ1 t−1 − · · · − θq t−q

para t = 1, 2, . . . , T .

Alternativamente, Box y Jenkins (1976, p.221) recomiendan fijar los ’s a cero pero los y’s a
sus valores actuales. Así, la iteración (40) es iniciada en el periodo t = p + 1 con y1 , y2 , . . . , yp
establecidos a los valores observados y

p = p−1 = · · · = p−q+1 = 0

Entonces la verosimilitud condicionada es calculada como

logf (yT , yT −1 , . . . , y1 |yp , . . . , y1 , p = 0, . . . , p−q+1 = 0; θ)


T
T −p T −p X 2t
=− log (2π) − log σ 2 −
2 2 t=p+1
2σ 2

siempre que todos las raíces de Θ(z) caigan fuera del círculo unitario.

Miguel Ataurima Arellano 57 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

6.2. Algoritmos Alternativos


El método más sencillo para calcular la función de verosimilitud exacta para un proceso ARMA
gaussiano es utilizar el filtro de Kalman.

Para más detalles sobre la estimación exacta y aproximada de la máxima verosimilitud de modelos
ARMA, véase Galbraith y Galbraith (1974), Box y Jenkins (1976, Capítulo 6), Hannan y Rissanen
(1982), y Koreisha y Pukkila (1989)

Miguel Ataurima Arellano 58 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

7. Propiedades de los estimadores ML


En muestras grandes, el estimador ML es consistente, eficiente y normalmente distribuido.

En muestras pequeñas, satisface una propiedad de invarianza, es una función de estadísticos


suficientes y en algunos casos es insesgada y única.

La derivación de expresiones analíticas para las distribuciones de muestra finita del estimador
ML es generalmente complicada y requiere del uso de métodos computacionalmente intensivos
basados en simulaciones de Monte Carlo o expansiones de series para examinar algunas de estas
propiedades.

El estimador ML abarca muchos otros estimadores usados a menudo en econometría:

• OLS y variables instrumentales,


• Mínimos cuadrados no lineales,
• El método Cochrane-Orcutt para el modelo de regresión autocorrelacionado, ponderado la
estimación de cuadrados de los modelos de regresión heteroscástico y el procedimiento de
Johansen para los modelos de series de tiempo no estacionarios cointegrados.

Miguel Ataurima Arellano 59 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

7.1. Condiciones de Regularidad


Las condiciones de regularidad son supuestos que se utilizan en la derivación de las propiedades
del estimador ML.

Sean

• θ 0 el verdadero valor del vector de parámetros poblacionales, y


• f (y; θ) una distribución especificada correctamente.

Las siguientes condiciones de regularidad se aplican a los procesos iid, estacionario, mds (seccuencia
martingala en diferencia) y ruido blanco.

Por simplicidad, se presentan muchas de las condiciones de regularidad para el caso iid.

Miguel Ataurima Arellano 60 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

R1: Existencia

La esperanza Z ∞
E [log f (yt ; θ)] = log f (yt ; θ) f (yt ; θ 0 ) dyt
−∞
existe.

R1 es una declaración de la existencia de la función de verosimilitud logarítmica de la pobla-


ción.

R2: Convergencia

La función de log-verosimilitud, log LT (θ), converge en probabilidad a su valor esperado


T
1X p
log LT (θ) = log f (yt ; θ) → E [log f (yt ; θ)]
T t=1

uniformemente en θ.

R2 es una declaración de cómo la función de log-verosimilitud muestral converge al valor


poblacional en virtud de la WLLN, siempre que exista la expectativa dada por la condición
de existencia R1.

Miguel Ataurima Arellano 61 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

R3: Continuidad

log LT (θ) es continua en θ.

R3 es una condición necesaria para la condición de diferenciabilidad R4

R4: Diferenciabilidad

log LT (θ) es al menos dos veces continuamente diferenciable en un intervalo abierto alrededor
de θ 0 .

R4 surge naturalmente debido a que las dos primeras derivadas se usan para derivar el es-
timador ML y establecer que se alcanza un máximo. Incluso cuando la verosimilitud no es
diferenciable en todas partes, el estimador ML puede obtenerse en algunos casos, .

R5: Intercambiabilidad

El orden de diferenciación e integración de log LT (θ) es intercambiable

R5 se usa en la derivación de muchas de las propiedades del estimador ML.

Miguel Ataurima Arellano 62 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

7.2. Propiedades de la Función de Verosimilitud


Esta sección establece varias características de la función de log-verosimilitud utilizada en la deri-
vación de las propiedades del estimador ML.

7.2.1. La función de Verosimilitud Poblacional


Dado que se cumple la condición de existencia (R1), una propiedad importante de esta expectativa
es
θ 0 = arg maxE [log f (yt ; θ)] (42)
θ

El principio de máxima verosimilitud requiere que el estimador de máxima verosimilitud (estimador


ML), θ,b maximice la función de log-verosimilitud muestral al reemplazar la expectativa en la
ecuación (42) por el promedio muestral.

Esta propiedad representa el análogo poblacional del principio de máxima verosimilitud en el que
θ 0 maximiza E[logf (yt ; θ)].

Miguel Ataurima Arellano 63 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

7.2.2. Momentos del Gradiente


La función gradiente en la observación t se define como

∂ log f (yt ; θ)
gt (θ) =
∂θ

Esta función tiene 2 propiedades fundamentales para la estimación ML.

1. Media del Gradiente


E [gt (θ 0 )] = 0

2. Varianza del Gradiente


h i
cov [gt (θ 0 )] = E gt (θ 0 ) gt (θ 0 )0 = −E [ht (θ 0 )]

Esta expresión vincula la primera y la segunda derivadas de la función de verosimilitud y


establece que la expectativa del cuadrado del gradiente es igual al negativo de la expectativa
del hessiano.

La relación entre el gradiente y el Hessiano se presenta de forma más compacta al definir


h i
J (θ 0 ) = E gt (θ 0 ) gt (θ 0 )0
H (θ 0 ) = E [ht (θ 0 )]

en donde
J (θ 0 ) = −H (θ 0 ) (43)

Miguel Ataurima Arellano 64 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

La matriz J (θ 0 ) se conoce como el producto externo de las matrices gradiente. En el caso más
general en el cual yt es dependiente y gt es una mds, J (θ 0 ) y H (θ 0 ) en la ecuación (43) se
vuelven, respectivamente
T
1X h i
J (θ 0 ) = lim E gt (θ 0 ) gt (θ 0 )0 (44)
T →∞ T
t=1
T
1X
H (θ 0 ) = lim E [ht (θ 0 )] (45)
T →∞ T
t=1

Miguel Ataurima Arellano 65 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

7.2.3. La Matriz de Información


La definición del producto externo de la matriz de gradientes en la ecuación (43) se conoce
comúnmente como la matriz de información.

I (θ 0 ) = J (θ 0 )

Dada la relación entre J (θ 0 ) y H (θ 0 ) en la ecuación (43) se deduce de inmediato que

I (θ 0 ) = J (θ 0 ) = −H (θ 0 ) (46)

La ecuación (46) representa la bien conocida igualdad de información.


Un supuesto importante que subyace a este resultado es que la distribución utilizada para construir
la función log-likelihood está correctamente especificada.

La matriz de información representa una medida de la calidad de la información en la muestra


para ubicar el parámetro de población θ 0 .

Para las funciones de log-verosimilitud que son relativamente planas, la información en la muestra
se dispersa proporcionando información imprecisa sobre la ubicación de θ 0 .

Para las muestras que son menos difusas, la función de log-verosimilitud es más concentrada y
proporciona información más precisa sobre la ubicación de θ 0 .
La interpretación de la información de esta manera se deduce de la expresión de la matriz de
información en la ecuación (46) donde la cantidad de información en la muestra se mide por la
curvatura de la función de log-verosimilitud, dada por −H (θ 0 ).

Miguel Ataurima Arellano 66 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Para funciones de verosimilitud logarítmica relativamente planas, la curvatura de log L (θ) significa
que −H (θ 0 ) es relativamente pequeña alrededor de θ 0 .

Para las funciones de verosimilitud logarítmica que presentan una curvatura más fuerte, la segunda
derivada es correspondientemente más grande.

Si −ht (θ) representa la información disponible a partir de los datos en el instante t, se deduce de
(45) que la información total disponible de una muestra de tamaño T es
T
X
T · I (θ 0 ) = − E [ht ]
t=1

Miguel Ataurima Arellano 67 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

7.3. Propiedades Asintóticas


7.3.1. Consistencia
Una propiedad deseable de un estimador θ b es que la información adicional obtenida al aumentar
el tamaño de muestra, T , arroje estimaciones más confiables del parámetro poblacional, θ 0 .

Formalmente, este resultado se establece como


 
plim θ
b = θ0

Un estimador que satisfaga esta propiedad es un estimador consistente.

Miguel Ataurima Arellano 68 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

7.3.2. Normalidad
La teoría de distribución asintótica arroja que
√  
d
 
T θb − θ0 → N 0, H−1 (θ 0 ) J (θ 0 ) H−1 (θ 0 )

usando la matriz de información la igualdad en la ecuación (46) simplifica la distribución asintótica


a √  
d
T θb − θ0 → N (0, Ω (θ 0 )) , Ω (θ 0 ) = I−1 (θ 0 )
o
1
 
a
b ∼ N θ0 ,
θ Ω (θ 0 )
T
Este resultado establece que:

• El estimador ML tiene una distribución normal asintótica con una media igual al parámetro
de población, θ 0 , y una matriz de covarianza normalizada T −1 Ω (θ 0 ).
• Las varianzas asintóticas de θ
b se obtienen a partir de los elementos diagonales de la matriz
de covarianza normalizada T −1 Ω (θ 0 ).

Miguel Ataurima Arellano 69 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

7.3.3. Eficiencia
La eficiencia asintótica se refiere al valor límite de la varianza de cualquier estimador, digamos θ,
e
alrededor de θ 0 a medida que aumenta el tamaño de la muestra.

Suponga que θ 0 es un parámetro único y θ


e es cualquier estimador consistente de θ 0 con distribución
asintótica de la forma √  
b − θ0 → d
T θ N (0, Ω)

La desigualdad de Cramér-Rao proporciona un límite inferior en la eficiencia del estimador θ.


e

Ω ≥ I−1 (θ 0 )

Miguel Ataurima Arellano 70 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

7.4. Propiedades en Muestras Finitas


Las propiedades del estimador ML establecidas en la sección anterior son propiedades asintóticas.

Una aplicación importante de la distribución asintótica es aproximar la distribución de muestra


finita del estimador ML, θ.
b

Hay varios métodos disponibles para aproximar la distribución de muestra finita, incluida la simu-
lación de la distribución de muestreo por métodos de Monte Carlo o el uso de una expansión de
Edgeworth.

Miguel Ataurima Arellano 71 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

7.4.1. Insesgadez
No todos los estimadores ML son imparciales.

Ejemplos de estimadores ML insesgados son la media de una muestra normal y Poisson.

Incluso en muestras conocidas por estar normalmente distribuidas pero con una media desconocida,
la desviación estándar de la muestra es un ejemplo de un estimador sesgado desde E [σ b ] 6= σ0 .

Este resultado se deriva del hecho de que el teorema de Slutsky no se aplica al operador de
expectativas. Por consiguiente h  i  h i
E τ θ b 6= τ E θ b

en el que τ (·) es una función monotónica.

Este resultado contrasta con la propiedad de consistencia que usa límites de probabilidad, porque
el teorema de Slutsky sí se aplica a los plims.

Miguel Ataurima Arellano 72 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

7.4.2. Suficiencia
Sea {y1 , y2 , . . . , yT } realizaciones iid de la pdf conjunta
f (y1 , y2 , . . . , yT ; θ)

Cualquier estadístico calculado utilizando la muestra observada, como la media o la varianza de


la muestra, es una forma de resumir los datos.4
Un estadístico suficiente para el parámetro de población, θ 0 , es aquel que utiliza toda la
información en la muestra.
Formalmente, esto significa que la pdf conjunta se puede factorizar en dos componentes
 
e θ · d (y1 , . . . , yT )
f (y1 , y2 , . . . , yT ; θ) = c θ; (47)

en el que θ
e representa un estadístico suficiente para θ.

Si existe un estadístico suficiente, el estimador ML es una función de él. A partir de (47) reescri-
bimos la función log-verosimilitud como
1 
e θ + 1 log d (y1 , . . . , yT )

log LT (θ) = log c θ;
T T
diferenciando con respecto a θ
 
∂ log LT (θ) 1 log c θ; θ
e
=
∂θ T ∂θ
4
Preferiblemente, los estadísticos deben resumir los datos de tal manera que no se pierda la información contenida en
la muestra completa.

Miguel Ataurima Arellano 73 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

el estimador ML, θ,
b se da como la solución de
 
log c θ;
e θ
=0
∂θ

la reorganización muestra que θ


b es una función del estadístico suficiente θ
e .

7.4.3. Invarianza
Si θb es el estimador ML de θ 0 , entonces para cualquier función arbitraria no lineal, τ (·), el
 
estimador ML τ (θ 0 ) viene dado por τ θ
b .

Esta propiedad es útil en situaciones donde una expresión analítica para el estimador ML no está
disponible

7.4.4. No Unicidad
El estimador ML de θ se obtiene resolviendo
 
gT θ
b =0 (48)

Los problemas considerados hasta ahora tienen única solución y en la mayoría de los casos de
forma cerrada.
Sin embargo, hay ejemplos donde hay varias soluciones a la ecuación (48).

Miguel Ataurima Arellano 74 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

8. Optimización Numérica
Dados:

• Datos observados
{yt }Tt=1 = {y1 , y2 , . . . , yT }

• Un valor inicial de θ (starting value) :


 0
(0) (0)
θ (0) = θ1 , θ2 , . . . , θn(0)

Se genera una secuencia de diferentes valores de θ (m) (aproximaciones) y se tabula L(θ) en


cada caso:
θ (0) → θ (1) → θ (2) → θ (3) → ···
↓ ↓ ↓
L(θ (1) ) L(θ (2) ) L(θ (3) ) ···

Con estos valores tabulados de L(θ) se infiere el valor de θ


b para el cual L(θ) sea lo mas grande
posible.
b = argmax L(θ)
θ θ
θ
b

Miguel Ataurima Arellano 75 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Los métodos numéricos que realizan esta tarea se conocen como algoritmos de maximización
numérica.

1. Método Grid Search (Búsqueda en Malla)


2. Método Steepest Ascent (Ascenso Empinado)
3. Método Newton-Raphson

Miguel Ataurima Arellano 76 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

8.1. Método Grid Search (Búsqueda en Malla)


DGP: Sea el proceso generador de datos de {Yt } un proceso AR(1)

Yt = c + φYt−1 + t

con  
t ∼ iid N 0, σ 2

Vector de parámetros poblacionales:


 0
θ = c, φ, σ 2

Datos: considere que la muestra observada está compuesta por las siguientes T = 5 observaciones
h i0
y= 0,8 0,2 −1,2 −0,4 0,0

Restricciones: Analizaremos dos casos en los que el proceso tiene media cero (c = 0 ):
CASO 1: Varianza de las innovaciones unitaria (por lo tanto no se estima)

θ = (0, φ, 1)0

CASO 2: Varianza de las innovaciones libre (se estima).


 0
θ = 0, φ, σ 2

Miguel Ataurima Arellano 77 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

CASO 1: θ = (0, φ, 1)0

Función de log-verosimilitud
T
T 1   1  1X
L(θ) ≡ L(φ) = − log (2π) + log 1 − φ2 − 1 − φ2 y12 − (yt − φyt−1 )2 (49)
2 2 2 2 t=2

Intervalo de búsqueda de θ (malla o grid )


Sea el intervalo de búsqueda para φ

φ ∈ [ −0.9 ; 0.9 ] con paso 0.1

La malla estará dada por 19 estimaciones de θ

θ (1) = ( 0 , −0.9 , 1)0


θ (2) = ( 0 , −0.8 , 1)0
..
.
θ (18) = ( 0 , +0.8 , 1)0
θ (19) = ( 0 , +0.9 , 1)0

Miguel Ataurima Arellano 78 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Tabulación de L(θ)
En cada punto θ (m) de la malla (m = 1, 2, . . . , 19) se evalúa L(θ).
MLE 3 (Grid Search)
-5.6

-5.8

-6

-6.2

-6.4
L( 3 )

-6.6

-6.8

-7

-7.2

-7.4

-7.6
-0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
?

Elección de de θ
b

Se elige aquel θ para el cual L(θ) resulte ser la mas grande posible
b = argmax L(θ)
θ θ
θ
b
En nuestro caso, según la tabulación realizada:
b = (0 , 0.2 , 1)0 → L(θ)
θ b = −5.7079

Miguel Ataurima Arellano 79 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Refinamiento de la malla

• Refinamos el intervalo de búsqueda para φ.


Por ejemplo, reducimos el paso de 0.1 a 0.01.
• La malla (refinada) estará ahora dada por 181 estimaciones de θ

θ (1) = ( 0 , −0.90 , 1)0


θ (2) = ( 0 , −0.89 , 1)0
..
.
θ (180) = ( 0 , +0.89 , 1)0
θ (181) = ( 0 , +0.90 , 1)0

• El resultado final tras el refinamiento de la malla es:


b = (0 , 0.16 , 1)0 → L(θ)
θ b = −5.7045

Miguel Ataurima Arellano 80 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

0
CASO 2: θ = 0, φ, σ 2
Varían: φ y σ 2

Función de log-verosimilitud
T T   1  
L(θ) = L(φ, σ 2 ) = − log (2π) − log σ 2 + log 1 − φ2
2 2 2
T
1   1
(yt − φyt−1 )2
X
− 2 1 − φ2 y12 − 2
2σ 2σ t=2

Intervalo de búsqueda de θ (malla o grid )


Sea los intervalos de búsqueda de la dupla (φ, σ 2 ), que maximiza L(θ):

φ ∈ [ −0.9 ; 0.9 ] con paso 0.1


σ 2 ∈ [ +0.1 ; 1.6 ] con paso 0.1

La malla estará dada por 304 estimaciones de θ

φ = −0.9 φ = −0.8 ··· φ = −0.9


σ2 = 0.1 θ (1) θ (2) ··· θ (19)
σ2 = 0.2 θ (20) θ (21) ··· θ (38)
.. .. .. ..
. . . .
σ 2 = 1.6 θ (286) θ (287) ··· θ (304)

Miguel Ataurima Arellano 81 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Tabulación de L(θ)
En cada punto θ (m) de la malla (m = 1, 2, . . . , 19) se evalúa L(θ).

Elección de de θ
b

Según la tabulación realizada, el valor de θ para el cual L(θ) resulta ser lo mas grande posible es

b = (0 , 0.2 , 0.4)0 → L(θ)


θ b = −5.0564

Miguel Ataurima Arellano 82 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Refinamiento de la malla
• Refinamos el intervalo de búsqueda para φ y σ 2 .
Por ejemplo, reducimos el paso de cada uno de 0.1 a 0.01.
• El resultado final tras el refinamiento de la malla es:
b = (0 , 0.19 , 0.44)0 → L(θ)
θ b = −5.0461

Curvas de Nivel de la Función de Log Verosimilitud Curvas de Nivel de la Función de Log Verosimilitud
(vista 3D) (vista 2D)
2.1

1.9

1.8

1.7
-5

1.6
-5.2
1.5
-5.4
1.4

-5.6
1.3

-5.8
1.2

-6 1.1
L( 3 )

<2
-6.2 1

0.9
-6.4

0.8
-6.6

0.7
-6.8
0.6
-7
0.5
2.1
2
1.9
1.8 0.4
1.7
1.6 1.1
1.5 1 0.3
1.4 0.9
1.3 0.8
0.7
1.2 0.6
1.1 0.5
1 0.4 0.2
0.3
0.9 0.2
0.8 0.1
0.7 0
-0.1 0.1
0.6 -0.2
0.5 -0.3
0.4 -0.4
-0.5
<2 0.3 -0.6 0
0.2 -0.7 ? -1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1
0.1 -0.8
0 -0.9
-1 ?

Miguel Ataurima Arellano 83 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

8.1.1. Características de los Algoritmos de Maximización Numérica


Los algoritmos de maximización numérica no encuentran el θ
b MLE exacto, en vez de ello, se
aproximan a él con cierta precisión deseada.

Los algoritmos de maximización numérica requieren la especificación de un criterio de convergencia,


o formas de decidir cuando se está lo suficientemente cerca del verdadero máximo.

• Por ejemplo, suponga que buscamos un estimado θ b que difiera de su verdadero valor MLE
en no mas de ±0,0001. En este caso, podriamos continar refinando la malla hasta que los
incrementos sean en pasos de 0.0001, y el mejor estimador entre los elementos de dicha malla
sería el MLE numérico de θ.
• Para el AR(1) del ejemplo visto, la función de log verosimilitud, L(θ), es unimodal (un solo
∂L(θ)
máximo), esto es, hay un único valor de θ para el cual = 0.
∂θ 0
El método grid search trabaja bien con verosimilitudes unimodales (un sólo máximo); sin embargo,
cuando existen múltiples máximos locales, la malla deberá ser los suficientemente fina para
revelar a todas las "montañas locales" (máximos locales) sobre la superficie de la verosimilitud.

Miguel Ataurima Arellano 84 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

8.2. Método Steepest Ascent (Ascenso Empinado)


Es un método para maximizar funciones continuamente diferenciables que dependen de un gran
número de parámetros.

Dados:

• Datos observados
{yt }Tt=1 = {y1 , y2 , . . . , yT }

• Un valor inicial de θ (starting value) :


 0
(0) (0)
θ (0) = θ1 , θ2 , . . . , θn(0)
n×1

Se desea elegir un valor óptimo de θ (1) de tal manera que la distancia al cuadrado respecto a θ (0)
sea un número fijo k:  0  
θ (1) − θ (0) θ (1) − θ (0) = k

Miguel Ataurima Arellano 85 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Problema de Maximización (obtención de θ (1) )


El valor óptimo para de θ (1) será la solución del siguiente problema de maximización con restricción
 
max L θ (1)
θ (1)  0  
sujeto a: θ (1) − θ (0) θ (1) − θ (0) = k

Formamos el Lagrangiano, donde λ denota el multiplicador de Lagrange.


      0  
J θ (1)
=L θ (1)
+λ k− θ (1)
−θ (0)
θ (1)
−θ (0)

Diferenciando con respecto a θ (1) y estableciendo el resultado igual a cero obtenemos


 
J θ (1)  
(1)0
= g(θ)|θ=θ(1) − (2λ) θ (1) − θ (0) = 0
(50)
∂θ
donde g(θ) es el vector gradiente de la función de log verosimilitud (también conocido como
vector score)
∂L(θ)
g(θ) ≡
∂θ 0
Como θ tiene n elementos, entonces g(θ) será un vector de n×1 cuyo elemento i−ésimo representa
la derivada de la log verosimilitud con respecto al i−ésimo elemento de θ.
∂L(θ)
gi (θ) =
∂θi
para i = 1, 2, . . . , n

Miguel Ataurima Arellano 86 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

La expresión (50) puede ser escrita como


1  
θ (1) − θ (0) = · g θ (1) (51)

• Si estamos permitiendo cambios de θ en una cantidad fija, el más  grande incremento de
1
  
L(θ) será alcanzado si el cambio θ (1) − θ (0) es una proporción del vector gradiente
  2λ
g θ (1) .
• Si estamos contemplando un paso muy pequeño (esto es, k cercano a cero), entonces
   
g θ (1) ≈ g θ (0)

y por lo tanto (51) puede escribirse como5 .


 
θ (1) − θ (0) = s · g θ (0) (52)

En otras palabras, el vector gradiente g θ (0) otorga la dirección en la que L(θ) se incrementa mas pronunciadamente
5


a partir de θ (0)

Miguel Ataurima Arellano 87 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

EJEMPLO: Sea la log-verosimilitud

L(θ) = −1,5θ12 − 2θ22

La solución analítica del θ


b MLE está dado por

b = (0, 0)0
θ

La solución numérica la desarrollaremos utilizaremos el algoritmo steepest ascend.

El vector gradiente g(θ) es calculado analíticamente como

∂L(θ)
 
 ∂θ  " #
∂L(θ)   1  −3θ1
g(θ) ≡ = =
∂θ 
 ∂L(θ)  −4θ2
∂θ2
Interpretación: Para incrementar L(θ) lo mas que se pueda, necesitamos incrementar θ1 y reducir
θ2 relativo al valor θ, debido a que el valor absoluto de un cambio unitario en θ2 tiene mayor efecto
sobre L(θ) que el valor absoluto de un cambio unitario en θ1 .

Miguel Ataurima Arellano 88 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Suponga el valor inicial


θ (0) = (−1, 1)0
entonces " #

(0)
 ∂L(θ) 3
g θ = =
∂θ θ=θ(0) −4

por lo tanto el paso óptimo θ (1) − θ (0) será proporcional a (3, −4)0 .
 
θ (1) − θ (0) = s · g θ (0)

• Con k = 1
 0  
θ (1) − θ (0) θ (1) − θ (0) = 1
(3s)2 + (−4s)2 = 1

tenemos que
1
s=
5

Por lo tanto, θ (1) será


0
2 1

θ (1) = − ,
5 5

Miguel Ataurima Arellano 89 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

NOTA:

En ocasiones la obtención del vector gradiente de L(θ) es muy dificil de realizar analíticamente.

En estos casos se puede obtener una aproximación numérica del gradiente observando como
L(θ) cambia ante pequeños cambios en cada uno de los elementos de θ.
 
• El i−ésimo elemento de g θ (0) puede aproximarse mediante
  1 n    o
gi θ (0) ∼
(0) (0)
= L . . . , θi + ∆, . . . − L . . . , θi , . . .

donde ∆ representa cualquier escalar pequeño elegido tal como ∆ = 10−6 .
• A través del cálculo numérico de L (θ) en θ (0) y en n diferentes valores de θ correspon-
dientes a pequeños cambios en los elementos
 individuales de θ (0) , se puede descrubrir una
(0)
estimación del vector completo g θ
  1 n  (0)   o
g1 θ (0) ∼
(0) (0) (0)
= L θ1 + ∆ , θ2 , . . . , θn(0) − L θ1 , θ2 , . . . , θn(0)

  1 n  (0) (0)   o
g2 θ (0) ∼
(0) (0)
= L θ1 , θ2 + ∆ , . . . , θn(0) − L θ1 , θ2 , . . . , θn(0)

..
.
  1 n  (0) (0)   o
gn θ (0) ∼
(0) (0)
= L θ1 , θ2 , . . . , θn(0) + ∆ − L θ1 , θ2 , . . . , θn(0)

.

Miguel Ataurima Arellano 90 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

El resultado (52) sugiere que podemos cambiar el valor de θ en la dirección del gradiente eligiendo
 
θ (1) − θ (0) = s · g θ (0)
para algún valor escalar positivo s.
Una adecuada elección de s debería ser encontrada mediante una adaptación del método grid
search.
n  o
Por ejemplo, podemos calcular el valor de L θ (0) + s · g θ (0) para el cual L (θ) es el mas
grande. Valores muy pequeños o muy grandes de s pueden también ser explorados si el máximo
parece estar en algunno de los extremos. Si ninguno de los valores de s mejora la verosimilitud,
entonces se debe intentar con un valor muy pequeño para s, como el valor ∆ = 10−6 usado para
aproximar la derivada.
Repetimos el proceso tomando como valor inicial
 
θ (1) = θ (0) + s · g θ (0)
 
luego, evaluamos el gradiente en la nueva ubicación,g θ (1) , y generamos una nueva estimación
θ (2)  
θ (2) = θ (1) + s · g θ (1)

El proceso es iterado calculando


 
θ (m) = θ (m−1) + s · g θ (m−1)

para m = 1, 2, . . . , hasta que se satisfaga algún criterio de convergencia,

Miguel Ataurima Arellano 91 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Criterios de Convergencia
 
Que el vector gradiente g θ (m) este dentro de alguna tolerancia especificada del cero
 
g θ (m) < 1

Que la distancia entre θ (m+1) y θ (m) sea menor que algún umbral especificado

(m+1)
θ − θ (m) < 2

   
Que el cambio entre L θ (m+1) y L θ (m) sea menor que alguna cantidad deseada.
   
L θ (m+1) − L θ (m) < 3

Miguel Ataurima Arellano 92 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

EJEMPLO: Consideremos el caso del Proceso Gaussiano AR(1)

Yt = c + φYt−1 + t

con  
t ∼ iid N 0, σ 2
cuyo vector de parámetros vendría dado por
 0
θ = c, φ, σ 2

Obtenga el estimador θ
b MLE utilizando el algoritmo steepests ascend. Considere además que:

c = 0.
La muestra observada está compuesta por las siguientes T = 5 observaciones
h i0
y= 0,8 0,2 −1,2 −0,4 0,0

Valor inicial del vector de parámetros poblacionales

θ (0) = (0, −0,6, 0,8)0

Factor de proporcionalidad s = 0,01 del vector gradiente.


Paso para obtener el gradiente numérico: ∆ = 10−12
Utilice Nmax = 350 iteraciones y una tolerancia  = 10−6 .

Miguel Ataurima Arellano 93 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Proceso Iterativo:
θ (0) =( 0 −0,6000 0,8000 )0
↓ 
g θ (0) =( 0 2,668087972779176 −0,507149877648772 )0

)0 L θ (1) =

θ (1) =( 0 −0,573319120272208 0,794928501223512 → −6,281841875350741
↓ 
g θ (1) =( 0 2,540190280342358 −0,552446977053478 )0

)0 L θ (2) =

θ (2) =( 0 −0,547917217468785 0,789404031452978 → −6,215602313367949
↓ 
g θ (2) =( 0 2,428279799460142 −0,589750470680883 )0

)0 L θ (3) =

θ (3) =( 0 −0,523634419474183 0,783506526746169 → −6,154278781123775

.. .. .. .. ..
. . . . .

)0 L θ (173) =

θ (173) =( 0 0,190807419548401 0,437418923725818 → −5,046039355509656
↓ 
g θ (173) =( 0 0,001776356839400 0 )0

)0 L θ (174) =

θ (174) =( 0 0,190825183116795 0,437418923725818 → −5,046039337613884
↓ 
g θ (174) =( 0 0 0 )0

)0 L θ (175) =

θ (175) =( 0 0,190825183116795 0,437418923725818 → −5,046039337613884

Miguel Ataurima Arellano 94 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Función de Log Verosimilitud

Miguel Ataurima Arellano 95 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Curvas de Nivel de la Función de Log Verosimilitud

-5

-5.2

-5.4

-5.6

-5.8

-6
L( 3 )

-6.2

-6.4

-6.6

-6.8

-7

2
1.9
1.8
1.7
1.6 1.1
1.5 1
1.4 0.9
1.3 0.8
0.7
1.2 0.6
1.1 0.5
1 0.4
0.3
0.9 0.2
0.8 0.1
0.7 0
0.6 -0.1
-0.2
0.5 -0.3
0.4 -0.4
-0.5
<2 0.3 -0.6
0.2 -0.7 ?
0.1 -0.8
0 -0.9
-1

Miguel Ataurima Arellano 96 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Curvas de Nivel de la Función de Log Verosimilitud


(vista 2D)

1.9

1.8

1.7

1.6

1.5

1.4

1.3

1.2

1.1
<2

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0
-1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1
?

Miguel Ataurima Arellano 97 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Dejando de imponer que c = 0 y considerando el valor de partida

θ (0) = (−0.1, −0.6, 0.8)0

las iteraciones son:


θ (0) =( −0,100000000000000 −0,600000000000000 0,800000000000000 )0
↓ 
g θ (0)
=( −1,269206961751479 2,486899575160351 −0,698996416303999 )0
↓ 
θ (1) =( 0,112692069617515 −0,575131004248396 0,794928501223512 )0 → L θ (1) = −6,119908956557529
↓ 
g θ (1)
=( −1,165290086646564 2,347455563267431 −0,751398943066306 )0
↓ 
θ (2) =( 0,124344970483980 −0,551656448615722 0,789404031452978 )0 → L θ (2) = −6,047427433413697
↓ 
g θ (2)
=( −1,067590460479551 2,223998762929114 −0,795807864051312 )0
↓ 
θ (3) =( 0,135020875088776 −0,529416460986431 0,783506526746169 )0 → L θ (3) = −5,981794784326680

. . . . .
. . . . .
. . . . .
↓ 
θ (249) =( −0,076969533577176 0,136468663831147 0,433990555025775 )0 → L θ (249) = −5,921971717208841
↓ 
g θ (249)
=( 0 0 −0,000888178419700 )0
↓ 
θ (250) =( −0,076969533577176 0,136468663831147 0,433981673241578 )0 → L θ (250) = −5,017211237060007
↓ 
g θ (250)
=( 0 0 0 )0
↓ 
θ (251) =( −0,076969533577176 0,136468663831147 0,433981673241578 )0 → L θ (251) = −5,0172112370600075

Miguel Ataurima Arellano 98 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Trayectoria de las aproximaciones del método Steepest Ascent


(usando Gradiente Aproximado)

0.8

0.75 3bSA
(k)
3SA
0.7

0.65

0.6
<2

0.55

0.5

0.45

0.4
0.2

0 -0.05
-0.1
-0.2
-0.15
-0.4
-0.2
?
-0.6 -0.25 c

Miguel Ataurima Arellano 99 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

EJEMPLO: Repetir el ejemplo anterior utilizando el gradiente exacto.


Sabemos que
 2 T
T T 1 1 c 1 X
L(θ) = − log(2π)− log(σ 2 )+ log(1−φ2 )− 2 (1−φ2 ) y1 − − 2 (yt −c−φyt−1 )2
2 2 2 2σ 1−φ 2σ t=2

por lo tanto, los componentes del vector gradiente


0
∂L(θ) ∂L(θ) ∂L(θ)

g(θ) =
∂c ∂φ ∂σ 2
serán:

"   X T
#
∂L(θ) 1 c
= 2 (1 + φ) y1 − + (yt − c − φyt−1 )
∂c σ 1−φ t=2

"  2    X T
#
∂L(θ) φ 1 c 1+φ c
=− − 2 −φ y1 − −c y1 − − (yt − c − φyt−1 ) yt−1
∂φ 1 − φ2 σ 1−φ 1−φ 1−φ t=2

"  2 X T
#
∂L(θ) T 1 2 c 2
=− 2 + (1 − φ ) y1 − + (yt − c − φyt−1 )
∂σ 2 2σ 2(σ 2 )2 1−φ t=2

Miguel Ataurima Arellano 100 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Considerando el valor de partida

θ (0) = (−0.1, −0.6, 0.8)0

las iteraciones son:


θ (0) =( −0,100000000000000 −0,600000000000000 0,800000000000000 )0
↓ 
g θ (0)
=( −1,268750000000000 2,487617187500000 −0,699296875000000 )0
↓ 
θ (1) =( −0,112687500000000 −0,575123828125000 0,793007031250000 )0 → L θ (1) = −6,119895175603742
↓ 
g θ (1)
=( −1,165219013549041 2,347791541868444 −0,751319094764410 )0
↓ 
θ (2) =( −0,124339690135490 −0,551645912706315 0,785493840302356 )0 → L θ (2) = −6,047407884197516
↓ 
g θ (2)
=( −1,068139608312413 2,224155973572656 −0,795812724920858 )0
↓ 
θ (3) =( −0,135021086218615 −0,529404352970589 0,777535713053147 )0 → L θ (3) = −5,981767107526433

. . . . .
. . . . .
. . . . .
↓ 
θ (310) =( −0,076898479711193 0,136570014368535 0,433979679302195 )0 → L θ (310) = −5,921947730939863
↓ 
g θ (310)
=( 0 0 0 )0
↓ 
θ (311) =( −0,076898094574415 0,136570942286368 0,433979649340258 )0 → L θ (311) = −5,017211195525883
↓ 
g θ (311)
=( 0 0 0 )0
↓ 
θ (312) =( −0,076897722272500 0,136571839281856 0,433979620377578 )0 → L θ (312) = −5,017211195433052

Miguel Ataurima Arellano 101 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Trayectoria de las aproximaciones del método Steepest Ascent


(usando Gradiente Exacto)

0.8

0.75
3bSA
(k)
0.7 3SA

0.65

0.6
<2

0.55

0.5

0.45

0.4
0.2

0 -0.05
-0.1
-0.2
-0.15
-0.4
-0.2
?
-0.6 -0.25 c

Miguel Ataurima Arellano 102 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

8.3. Método Newton-Raphson


Un inconveniente del método steepest ascent es que puede requerir un numero muy grande
de iteraciones para acercarse al máximo local.
Un conocido método alternativo es Newton-Raphson a menudo converge mas rápidamente siem-
pre que:
1. Las segundas derivadas de la función L (θ) existan.
2. La función L (θ) sea cóncava, significando que -1 veces la matriz de segundas derivadas es
en todo momento definida positiva.
Sea θ el vector (n × 1) de parámetros poblaionales a estimar.
θ = (θ1 , θ2 , . . . , θn )0
n×1
 
Sea g θ (0) el vector gradiente de la función de log verosimilitud en θ (0) :


(0)
 ∂L(θ)
g θ =
∂θ θ=θ(0)
n×1
 
Sea H θ (0) como -1 veces la matriz de segundas derivadas de la función L(θ)

∂ 2 L(θ)
!
 
(0)
H θ =−
∂θ ∂θ 0 θ=θ(0)

n×n
| {z }
Matriz Hessiana
(matriz de segundas derivadas)

Miguel Ataurima Arellano 103 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Aproximación en Serie de Taylor

Considere la aproximación L (θ) con una serie de Taylor de segundo orden alrededor de θ (0) :
  h  i0 h i 1h i0  h i
L (θ) ∼
= L θ (0) + g θ (0) θ − θ (0) − θ − θ (0) H θ (0) θ − θ (0) (53)
2

La idea del método de Newton-Raphson es elegir θ de tal manera que se maximice (53).

Tomando la derivada de (53) con respecto a θ e igualando a cero obtenemos


   h i
g θ (0) − H θ (0) θ − θ (0) = 0 (54)

Sea θ (0) un valor inicial de θ en donde se puede calcular (ya sea de forma analítica o numérica):
 
• g θ (0) : la derivada de L (θ)
 
• H θ (0) : el negativo de la matriz de segundas derivadas de L (θ)

La expresión (54) sugiere que a partir de la estimación θ (0) , una nueva mejor estimación de θ
(denotado por θ (1) ) debe satisfacer
h  i−1  
θ (1) = θ (0) + H θ (0) g θ (0) (55)

luego, calculamos el gradiente y el Hessiano en θ (1) para encontrar una nueva estimación θ (2) y
continuar iterando de esta manera.

Miguel Ataurima Arellano 104 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

La iteración m−ésima actualiza la estimación de θ a través de la fórmula


h  i−1  
θ (m) = θ (m−1) + H θ (m−1) g θ (m−1) (56)

• Si L (θ) resulta ser una función cuadrática perfecta:


◦ (53) se mantiene exactamente y (55) generará el MLE exacto en un simple paso θ(1) = θbM LE
◦ Si la aproximación cuadrática es razonablemente buena NR debe converger al máximo local más
rapidamente que el método SA.
• Si L (θ) no es cóncava:
◦ NR se comporta bastante mal.
◦ SA es a menudo mas lento en converger pero a veces resulta ser mas robusto comparado con
Newton-Raphson.

Como (53) es usualmente solo una aproximación a la verdadera función L (θ) , la iteración sobre
(56) es usualmente modificada como sigue.
• La expresión (56) es tomada para sugerir la dirección de búsqueda.
• Se calcula el valor de L (θ) en diversos puntos en tal dirección, y el mejor valor determina
la longitud del paso. Esta estrategia exige reemplazar (56) por
h  i−1  
θ (m) = θ (m−1) + s H θ (m−1) g θ (m−1) (57)
donde s es un escalar que controla la longitud del paso.
 
• Se calcula θ (m) y el valor asociado para la log verosimilitud L θ (m) para varios valores de
s en (57) y elige como estimación θ (m) al que produce el valor mas grande de L (θ).

Miguel Ataurima Arellano 105 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

EJEMPLO: Consideremos el caso del Proceso Gaussiano AR(1)

Yt = c + φYt−1 + t

con t ∼ iid N 0, σ 2 cuyo vector de parámetros vendría dado por




 0
θ = c, φ, σ 2

Obtenga el estimador θ
b MLE utilizando el algoritmo de Newton-Raphson. Considere además que:

La muestra será simulada por un DGP donde los verdaderos valores de los parámetros son

θ True = (0,1 , 0,6 , 0,72 )

Valor inicial del vector de parámetros

θ (0) = (−0,3, 0,4, 0,8)0

Utilice Nmax = 350 iteraciones y una tolerancia  = 10−6 .

Miguel Ataurima Arellano 106 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Debemos construir la matriz hessiana H(θ)


      
∂ ∂L(θ) ∂ ∂L(θ) ∂ ∂L(θ)
 ∂c
 ∂c ∂φ ∂c ∂σ 2 ∂c 

   
h11 h12 h13
∂ 2 L(θ)
       
 ∂ ∂L(θ) ∂ ∂L(θ) ∂ ∂L(θ) 
H(θ) = − = −
  =  h21 h22 h23 
| {z } ∂θ 0 ∂θ  ∂c ∂φ ∂φ ∂φ ∂σ 2 ∂φ 
 h31 h32 h33
(3×3)  
       
 ∂ ∂L(θ) ∂ ∂L(θ) ∂ ∂L(θ) 
∂c ∂σ 2 ∂φ ∂σ 2 ∂σ 2 ∂σ 2

Tomando las derivadas respectivas, obtenemos:


   
∂ ∂L(θ) 1 1+φ
h1,1 =− =− 2 − − (T − 2)
∂c ∂c σ 1−φ

  "  T
#
∂ ∂L(θ) 1 c c(1 + φ) X
h1,2 =− =− 2 y1 − − − yt−1
∂φ ∂c σ 1−φ (1 − φ)2 t=2

  "   X T
#
∂ ∂L(θ) 1 c
h1,3 =− = 2 2 (1 + φ) y1 − + (yt − c − φyt−1 )
∂σ ∂c (σ ) 1−φ t=2

Miguel Ataurima Arellano 107 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

" T
#
∂ ∂L(θ) 1 2φ c 1+φ 2c
     h X i
h2,1 =− = 2 y1 − − y1 − + yt−1
∂c ∂φ σ 1−φ 1−φ 1−φ 1−φ
t=2

" T
#
2 2 
∂ ∂L(θ) 1 + φ2 1 c c c c 1+φ
        X
2
h2,2 =− =− − 2 − y1 − − 2 y1 − + + yt−1
∂φ ∂φ (1 − φ2 )2 σ 1−φ 1−φ 1−φ 1−φ 1−φ
t=2

" T
#
2
∂ ∂L(θ) 1 c 1+φ c
      X
h2,3 =− 2 =− 2 2 −φ y1 − −c y1 − − (yt − c − φyt−1 ) yt−1
∂σ ∂φ (σ ) 1−φ 1−φ 1−φ
t=2

" T
#
∂ ∂L(θ) 1 c
    X
h3,1 =− =− 2 2 −(1 + φ) y1 − − (yt − c − φyt−1 )
∂c ∂σ 2 (σ ) 1−φ
t=2

" T
#
2
∂ ∂L(θ) 1 c (1 − φ2 ) c
     X
h3,2 =− =− 2 2 −φ y1 − −c y1 − − (yt − c − φyt−1 )yt−1
∂φ ∂σ 2 (σ ) 1−φ (1 − φ)2 1−φ
t=2

" T
#
2
∂ ∂L(θ) T 1 c
   X
2 2
h3,3 =− 2 =− + 2 3 (1 − φ ) y1 − + (yt − c − φyt−1 )
∂σ ∂σ 2 2(σ 2 )2 (σ ) 1−φ
t=2

Miguel Ataurima Arellano 108 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Las iteraciones Newton-Raphson son:

θ (0) = ( −0,3 , 0,4 , 0,8 )


  ↓  
g θ (0) , H θ (0)
↓  
θ (1) =⇒ L θ (1)
 ↓  
(1)
g θ , H θ (1)
↓  
θ (2) =⇒ L θ (2)
 ↓  
(2)
g θ , H θ (2)
↓  
θ (3) =⇒ L θ (3)

.. ..
. .

La estimación final es

θ (33) = ( 0,092906425398373 , 0,588220498129324 , 0,989703323922961 )


 
L θ (33) = −141,588677170304270

Miguel Ataurima Arellano 109 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Trayectoria de las aproximaciones del método Newton-Raphson


(usando Gradiente y Hessiano Exactos)

3bNR
0.95 (k)
3NR

0.9
<2

0.85

0.8

0.75
0.65
0.6
0.2
0.55 0.1
0.5 0
-0.1
0.45
-0.2
?
0.4 -0.3 c

Miguel Ataurima Arellano 110 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

EJEMPLO: Obtenga la estimación utilizando MATLAB

Utilizando el solver fminunc del Optimization Toolbox de MATLAB6 tenemos

θ (33) = ( 0,092906327029625 , 0,588220622949475 , 0,998673790258665 )


 
L θ (33) = −141,588677170305800

6
El solver fminunc permite el uso una variante del método de Newton-Rapshon que reemplaza el hessiano exacto H(θ)
con una aproximación. Esta variante es conocida como el Método Quasi-Newton y se utiliza siempre que el Hessiano no
esté disponible o sea demasiado costos calcular en cada iteración.

Miguel Ataurima Arellano 111 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

9. Inferencia estadística con MLE


9.1. Errores Estándar Asintóticos para el MLE
Si la muestra de talla T es suficientemente grande, a menudo resulta que la distribución θ
b MLE
puede ser bien aproximada por la siguiente distribución
 
b ≈ N θ 0 , T −1 J −1
θ (58)
donde θ 0 denota el verdadero vector de parámetros. La matriz J es conocida como la matriz de
información y puede ser estimada en dos formas.
• Un primer estimador de J es

c2D = −T −1 ∂ 2 L (θ)
J (59)
∂θ ∂θ 0 θ=bθ

donde L (θ) denota a la log verosimilitud


T
L (θ) =
X
log fYt |Yt (yt |Y t−1 ; θ)
t=1
y Y t−1 denota la historia de las observaciones sobre y obtenida através del periodo t. La
matriz de segundas derivadas de la log verosimilkitud es a menudo calculada numéricamente.
Sustituyendo (59) en (58), los términos que implican el tamaño de la muestra T se cancelan
de tal manera que la matriz de varianzas y covarianzas de θ b puede ser aproximada mediante
#−1
∼ − ∂ L (θ)
"
  0  2
E b − θ0
θ b − θ0
θ = (60)
∂θ ∂θ 0 θ=bθ

Miguel Ataurima Arellano 112 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

• Un segundo estimador de J en (58) es llamado el estimador producto externo (outer


product)
T h  i h  i0
cOP = T −1
X
J h θ,
b Yt · h θ,
b Yt (61)
t=1
h  i
donde h θ, b Yt denota al vector (n × 1) de derivadas del logaritmo de la densidad con-
dicional de la t−ésima observación con respecto a los n elementos del vector de parámetros
θ, con esta derivada evaluada en el θ
b MLE

∂ log f (yt |yt−1 , yt−2 , . . . ; θ)


 
h θ,
b Yt =
∂θ
θ=b
θ

En este caso, la matriz de varianzas y covarianzas de θ


b es aproximada por

i0 −1
 " T #
 0  Xh  i h 
E b − θ0
θ b − θ0
θ ∼
= h θ,
b Yt · h θ,
b Yt
t=1

Miguel Ataurima Arellano 113 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

EJEMPLO: Sea la log verosimilitud

L(θ) = −1,5θ12 − 2θ22

Analíticamente tenemos

• Primera derivada
∂L(θ)
 
 ∂θ  " #
∂L(θ)   1  −3θ1
= =
∂θ 
 ∂L(θ)  −4θ2
∂θ2
• Segunda derivada

∂L(θ) ∂ ∂L(θ)
     

∂ 2 L(θ) ∂ 
 ∂θ1   ∂θ 0
  ∂θ1 

0 = 
0 
= 
∂θ ∂θ ∂θ  ∂L(θ)   ∂  ∂L(θ) 
  

∂θ2 ∂θ 0 ∂θ2

 
∂L(θ) ∂L(θ)
 ∂θ2 ∂θ1 ∂θ2  " #
 1  −3 0
= =
 
0 −4
 ∂L(θ) ∂ L(θ) 
2
 

∂θ2 ∂θ1 ∂θ22

Miguel Ataurima Arellano 114 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

cuyo negativo invertido es


1
 
#−1 #−1
∂ 2 L(θ) 0 
" " " #
3 0 1 4 0  3
− 0 = = = 1 
∂θ ∂θ 0 4 12 0 3 0
4

Según (60), la matriz de varianzas y covarianzas del θ


b MLE puede aproximarse mediante

#−1
∼ − ∂ L (θ)
"
  0  2
E b − θ0
θ b − θ0
θ =
∂θ ∂θ 0 θ=bθ

1
entonces la varianza de θb2 MLE puede ser aproximada por .
4
Como en el ejemplo anterior el θb2 MLE fue estimado en 0, entonces un intervalo de confianza para
θ2 al 95 % está dado por r
1
0±2 = ±1
4

Observe que a menos que los elementos fuera de la diagonal de J


c sean cero, en general se necesita
calcular todos los elementos de la matriz J e invertir la matriz completa para obtener el error
c
estándar de cada parámetro.

Miguel Ataurima Arellano 115 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

En la práctica, ¿Cuál estimador de la matriz de información, J


c2D o J
cOP es mejor?.

La expresión  
b ≈ N θ 0 , T −1 J −1
θ
b yJ
es solo una aproximación a la verdadera distribución de θ, c2D y J
cOP

−1 ∂ 2 L (θ)
J
c2D = −T
∂θ ∂θ 0 θ=bθ

T h  i h  i0
cOP = T −1
X
J h θ,
b Yt · h θ,
b Yt
t=1

son a su vez solo aproximaciones al verdadero valor de J .

La teoría que justifica estas aproximaciones no brinda una clara orientación sobre cual es mejor
usar, y típicamente los investigadores confían en cualquier estimador de la matriz de información
que sea fácil de calcular.

Si los dos estimadores difieren mucho, esto puede significar que el modelo está mal especificado.
White (1982) desarrolló una prueba general de especificación de un modelo basado en esta idea.
Una opción para construir errores estándar cuando difieren los dos estimadores significativamente
es usar los errores estándar de cuasi-máxima verosimilitud que se discutirán posteriormente.

Miguel Ataurima Arellano 116 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

9.2. Prueba del Ratio de Verosimilitud


Es una prueba de hipótesis sobre los parámetros estimados por ML.

Suponga una hipótesis nula conformada por un conjunto de m diferentes restricciones sobre el
valor del vector (n × 1) de parámetros θ.

1. Maximizamos L (θ) ignorando estas restricciones para obtener un

estimador ML irrestricto : θ
b

2. Maximizamos L (θ) considerando todas las restricciones para obtener un7

estimador ML restricto : θ
e
   
Claramente L θ
b >L θ
e ; y esto a menudo se prueba mediante

h    i
2 L θ
b −L θ
e ≈ χ2 (m) (62)

a) En la práctica, este es usualmente logrado definiendo un nuevo vector λ de (a − m) × 1 elementos en términos de


todos aquellos elementos de θ que pueden ser expresados cuando las restricciones son satisfechas.
b) Por ejemplo, si la restricción es que los últimos m elementos de θ sean cero, entonces λ consistirá de los primeros
n − m elementos de θ.

Miguel Ataurima Arellano 117 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

EJEMPLO:
Suponga que n = 2 y que estamos interesados en probar la hipótesis que θ2 = θ1 + 1. Bajo esta
hipótesis nula, el vector (θ1 , θ2 )0 puede ser escrito como (λ, λ + 1)0 , donde λ = θ1 . Suponga que
la log verosimilitud está dada por la expresión
L(θ) = −1,5θ12 − 2θ22
entonces, se puede encontrar el MLE restricto reemplazando θ2 por θ1 +1 y maximizar la expresión
resultante con respecto a θ1 :
L(θ1 ) = −1,5θ12 − 2 (θ1 + 1)2
La condición de primer orden para la maximización de L(θ1 ) es
∂L(θ1 )
=0
∂θ1
−3θ1 − 4 (θ1 + 1) = 0
de donde
4
θ1 = −
7
El MLE restricto es entonces
4 3 0
 
θ
e= − ,
7 7
y el valor máximo asociado para la log verosimilitud que satisface la restricción es

e = −6
 
L θ
7

Miguel Ataurima Arellano 118 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

 
b = 0, en el cual L θ
El MLE irrestricto es θ b = 0. Por lo tanto, (62) será

6 12
h    i   
2 L θ
b −L θ
e = 2 (0) − − = = 1,71
7 7
La prueba aquí involucra una restricción singular, tal que m = 1. Considerando que la probabilidad
de que una variable χ2 (1) exceda 3,84 es 0,05, y como
h    i
2 L θ
b −L θ
e = 1,71 < 3,84

entonces aceptamos la hipótesis nula de que θ2 = θ1 + 1 al 5 % del nivel de significancia.

Miguel Ataurima Arellano 119 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

9.3. Prueba del Multiplicador de Lagrange


Para probar una hipótesis acerca de θ usando los errores estándar a partir de (59) o (61) necesi-
tamos encontrar el θ
b MLE irrestricto.

Con el fin de usar la prueba LR (62), es necesario encontrar tanto el θb MLE irrestricto y el θe MLE
restricto. Esta prueba es útil cuando es mas fácil calcular el estimador restricto θ
e que el estimador
irrestricto.

• Sea θ un vector de parámetros (n × 1).


• Sea θ e un estimador de θ que maximiza la log verosimilitud sujeto a un conjunto de m
restricciones sobre θ.
• Sea f (yt |yt−1 , yt−2 , . . . ; θ) la densidad condicional de la observación t−ésima.
 
• Sea h θ,
e Yt un vector (n × 1) de derivadas del logaritmo de su densidad condicional
evaluada en algún estimador restricto θ:
e

∂ log f (yt |yt−1 , yt−2 , . . . ; θ)


 
h θ,
e Yt =
∂θ
θ=e
θ

Miguel Ataurima Arellano 120 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

La prueba del multiplicador de Lagrange de la hipótesis nula de que las restricciones son
verdaderas está dada por el siguiente estadístico

 0
" T # " T #
  
−1 −1
X X
T h θ,
e Yt J h θ,
e Yt
t=1 t=1

• Si la hipótesis nula es verdadera, entonces para T grande el estadístico podría aproximada-


mente seguir una distribución χ2 (m).
• La matriz de información J puede de nuevo ser estimada como en (59) o (61) con θreemplazado
b
por θ.
e

Miguel Ataurima Arellano 121 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

9.4. Errores Estándar de Cuasi-Máxima Verosimilitud


Si los datos fueron realmente generados a partir de la densidad asumida y el tamaño de la muestra
es lo suficientemente grande, el estimador de la segunda derivada J
c2D y el estimador de producto
externo J OP de la matriz de información deberían estar razonablemente uno cerca del otro.
c

Sin embargo la estimación por máxima verosimilitud puede aún ser un razonable forma de estimar
parámetros incluso si los datos no fuesen generados por la densidad asumida.
Por ejemplo:
• Vimos que el MLE condicional para un proceso Gaussiano AR(1) es obtenido a partir de una
regresión OLS de yt sobre yt−1 .
• Esta regresión OLS es a menudo una forma muy sensible de estimar los parámetros de un
proceso AR(1) incluso si las verdaderas innovaciones no son i.i.d. Gausianas.
• A pesar de que la máxima verosimilitud puede estar arrojando un estimador razonable de θ,
cuando las innovaciones no son i.i.d. Gausianas, los errores estándar propuestos en (59) o
(61) puedan ya no ser válidos.
Una matriz de varianzas y covarianzas aproximada para θ b que es a menudo valida incluso si la
densidad de probabilidad está mal especificada está dada por
  0  n o−1
b − θ0 b − θ0 ∼
= T −1 J 2D J −1
E θ θ OP J 2D

Esta matriz de varianzas y covarianzas fue propuesta por White (1982), quien describió este
enfoque como la estimación de cuasi máxima verosimilitud.

Miguel Ataurima Arellano 122 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

10. Restricciones de Desigualdad


10.1. Una trampa típica en la maximización numérica
Supongamos que aplicamos uno de los métodos que hemos discutido, como el ascenso pronunciado
para la verosimilitud de un AR(1), ecuación (5.7.2)
T
T 1   1  1X
L(θ) = − log (2π) + log 1 − φ2 − 1 − φ2 y12 − (yt − φyt−1 )2
2 2 2 2 t=2

Comenzamos con valor inicial arbitrario, digamos φ = 0.1.


Calculamos el gradiente en este punto, y encontramos que es positivo.
La computadora es entonces programada para tratar de mejorar esta estimación mediante la
evaluación de la log verosimilitud en los puntos descritos por
φ(1) = φ(0) + s · g(φ(0) )
para varios valores de s, observando cual es el que mejor funciona.
Sin embargo, si la computadora intenta un valor para s tal que
φ(1) = φ(0) + s · g(φ(0) ) = 1.1
el cálculo de L(θ) sería
L(θ) = log(−0.21)
ocasionando un error de ejecución fatal al intentar calcular el logaritmo de un número negativo,
haciendo que el procedimiento de búsqueda se bloquee.

Miguel Ataurima Arellano 123 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

A menudo tales problemas se pueden evitar usando procedimientos de Newton-Raphson modifica-


dos, siempre que la estimación inicial θ (0) se elija sabiamente y siempre que el área de búsqueda
inicial sea bastante pequeña.

Esto último podría lograrse poniendo la matriz de ponderación inicial A(0) en


 
θ (m+1) = θ (m) + sA(m) g θ (m) (63)

y
 0
A(m) ∆g(m+1) A(m)
(m+1) (m)
A =A − 0 
∆g(m+1) A(m) ∆g(m+1)
  0
∆θ (m+1) ∆θ (m+1)
− 0  (64)
∆g(m+1) ∆g(m+1)

igual a un pequeño múltiplo de la matriz de identidad, tal como

A(0) = 10−4 Ia

En las posteriores iteraciones, el algoritmo debe usar la forma de la función de verosimilitud en la


vecindad del máximo para mantener la búsqueda conservada. Sin embargo, si el verdadero MLE
está cerca de uno de los límites (por ejemplo, si φbM LE = 0.998 en el ejemplo de AR(1)), éste
será prácticamente imposible de mantener un algoritmo numérico capaz de explorar lo que ocurre
cuando φ es mayor que la unidad, lo que induciría un bloqueo fatal.

Miguel Ataurima Arellano 124 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

10.2. Solución del Problema mediante la Reparametrización de la Función de Vero-


similitud
Una manera simple de asegurar que una búsqueda numérica permanezca siempre dentro de ciertos
límites especificados es reparametrizar la función de verosimilitud en términos de un vector λ de
(a × 1) para el cual
θ = g(λ)
donde la función g : Ra → Ra incorpora las restricciones deseadas.

El esquema es entonces como sigue

1. Entrada: Valores de
y1 , y2 , . . . , yT
y
λ

2. Procedimiento: Se establece
θ = g(λ)
y se calcula
L (θ)

3. Salida: Valor tabulado de


L (g(λ))

Miguel Ataurima Arellano 125 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Por ejemplo:

• Para garantizar que φ está siempre entre ±1, podemos tomar


λ
φ = g (λ) = (65)
1 + |λ|

• El objetivo es encontrar el valor de λ que produce el mayor valor para la log verosimilitud.
• Comenzamos con una valor inicial tal como

λ=3

• El procedimiento para evaluar la función de log verosimilitud, calcula primero


3
φ= = 0.75
1+3
y luego encuentra el valor de la log verosimilitud asociado con este valor de φ a partir de
(49).
• No importa qué valor calcule la computadora para λ, el valor de φ en (65) será siempre
menor que 1 en valor absoluto y la función de verosimilitud estará bien definida.
• Una vez que hemos encontrado el valor de λ que maximiza la función de verosimilitud, la
estimación de máxima verosimilitud de φ es dada entonces por

λ
b
φb =
1 + |λ|
b

Miguel Ataurima Arellano 126 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Esta técnica de reparametrización de la función de verosimilitud para que las estimaciones siempre
satisfagan las restricciones necesarias es a menudo muy fácil de implementar.

Nota de precaución:

• Si se calcula un error estándar a partir de la matriz de segundas derivadas de la log verosi-


militud como en (60),
#−1
∼ − ∂ L (θ)
"
  0  2
E b − θ0
θ b − θ0
θ = 0
∂θ ∂θ θ=bθ

éste representará el error estándar de λ,


b mas no el error estándar de φ.
b

• Para obtener un error estándar para φ:


b

◦ El mejor enfoque es primero parametrizar la función de verosimilitud en términos de λ


para encontrar la MLE, y luego reparameterizar en términos de φ para calcular la matriz
de segundas derivadas evaluadas en φb para obtener el error estándar final para φ.
b
◦ Alternativamente, se puede calcular una aproximación al error estándar para φb del error
estándar para λ,
b basado en la fórmula para una prueba de Wald de una hipótesis no
lineal.

Miguel Ataurima Arellano 127 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

10.3. Parametrizaciones para una matriz de Varianzas y Covarianzas


Otra restricción común que se necesita imponer es que un parámetro varianza σ 2 sea positivo.

Una manera obvia de lograr esto es parametrizar la verosimilitud en términos de λ que representa
±1 veces la desviación estándar.

El procedimiento para evaluar la log verosimilitud comienza por elevar al cuadrado este parámetro
λ:
σ 2 = λ2
y si la desviación estándar σ es a si misma invocada, ésta se calcula como

σ = λ2

De manera más general, sea Ω una matriz de varianzas y covarianzas (n × n):


 
σ11 σ12 · · · σ1n

 σ21 σ22 · · · σ2n 

Ω= .. .. .. .. 

 . . . .


σn1 σn2 · · · σnn

Aquí es necesario imponer la condición de que Ω es positivo definido y simétrico.

Miguel Ataurima Arellano 128 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

n (n + 1)
El mejor enfoque es parametrizar Ω en términos de los elementos distintos de la des-
2
composición de Cholesky de Ω :
Ω = PP0 (66)
donde  
λ11 0 0 ··· 0

 λ21 λ22 0 ··· 0 

λ31 λ32 λ33 ··· 0
 
P= 

.. .. .. .. .. 
. . . . .
 
 
λn1 λn2 λn3 · · · λnn

Independientemente de los valores que la computadora arroje para

λ11 , λ21 , . . . , λnn

la matriz Ω calculada a partir de (66) será simétrica y semidefinita positiva.

Miguel Ataurima Arellano 129 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

10.4. Parametrizaciones para las Probabilidades


A veces algunos de los parámetros desconocidos son probabilidades

p1 , p2 , . . . , pK

que deben satisfacer las restricciones

0 ≤ pi ≤ 1 para i = 1, 2, . . . , K

p1 + p2 + · · · + pK = 1

En este caso, una aproximación es parametrizar las probabilidades en términos de

λ1 , λ2 , . . . , λK−1

donde
λ2i
pi = para i = 1, 2, . . . , K − 1
1 + λ21 + λ22 + · · · + λ2K−1
1
pK =
1 + λ1 + λ2 + · · · + λ2K−1
2 2

Miguel Ataurima Arellano 130 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

10.5. Más restricciones generales de desigualdad


Para restricciones de desigualdad más complicadas que no admiten una simple reparametrización,
un enfoque que a veces funciona es poner una sentencia de ramificación en el procedimiento que
evalúa la función de log verosimilitud.

El procedimiento primero comprueba si se cumple la restricción:

• Si se cumple, entonces la función de verosimilitud se evalúa de la manera habitual.


• Si no se cumple, el procedimiento devuelve un número negativo grande en lugar del valor de
la función de log verosimilitud.

A veces, tal aproximación permitirá que un MLE satisfaga las condiciones especificadas para se
encontrado con simples procedimientos numéricos de búsqueda.

Si estas medidas resultan inadecuadas, los algoritmos más complicados están disponibles. Judge,
Griffiths, Hill y Lee (1980, pp. 747-49) describen algunos de los posibles enfoques.

Miguel Ataurima Arellano 131 miguel.ataurima@pucp.edu.pe


PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ ECONOMETRÍA 2
DEPARTAMENTO DE ECONOMÍA INDICE Procesos Estacionarios ARMA

Referencias
Hamilton, J. D. (1994), Time Series Analysis, Princeton University Press.
Martin, V., Hurn, S., y Harris, D. (2012). Econometric Modelling with Time Series: Specification,
Estimation and Testing (Themes in Modern Econometrics). Cambridge: Cambridge University Press.

Miguel Ataurima Arellano 132 miguel.ataurima@pucp.edu.pe

También podría gustarte