Cap5 MV

UNIVERSIDAD NACIONAL DE INGENIERÍA
Escuela Profesional de Ingeniería Económica

LIBRO DE SERIES DE TIEMPO APLICADO A LAS FINANZAS1
Rafael Caparó
Richard Pérez Palma
31 de mayo de 2015
1
Esta versión es para ser mejorada por los alumnos de análisis de series de tiempo de la FIEECS, no
se recomienda reproducir, éxitos!
2
Para asimilar el conocimiento es necesario desarrollar estrategias que estimulen a los estu-
diantes, este libro es parte de un proyecto que incluye a muchos de mis estudiantes durante las
clases impartidas en la UNI, en especial a los jefes de prácticas que usan el libro durante sus
clases de apoyo y trasmiten con tallares lo que realizan en sus centros laborales. Esta es una ver-
sión BETA elaborada y revisada por los estudiantes de los ciclos 2013-I,2013-II, 2014-I y 2014-II
de la FIEECS, lo ideal es mandar algunos aportes y sugerencias a los correos personales de
Richard Perez Palma (rperezpalma19@gmail.com), o Rafael Caparó (rafael.caparo@gmail,com),
no se recomienda reproducir el libro mientras esté en versión BETA. Queria agradecer a Manuel
Tapia por el apoyo incondicional, a Kevin Flores por sus solucionarios en versión beta, a todos
los alumnos que han aportado directa e indirectamente : Octavio, Miguel, Anderson, Karina,
Richard, Oliver, Henry, faltaría espacio para nombrar a todos, por eso, siempre pueden enviarme
sus datos para tenerlos presente en la última versión, pues sin ellos no se lograría completar este
proyecto, éxitos profesionales a todos!
Índice general
1. Estimación de Máxima Verosimilitud 5

1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. La función de Máxima Verosimilitud para un Proceso Gaussiano AR(1) . . . . . 6
1.2.1. Evaluando la función de Verosimilitud . . . . . . . . . . . . . . . . . . . . 6
1.2.2. Una expresión alternativa para la función de Verosimilitud . . . . . . . . 8
1.2.3. Estimación de Máxima Verosimilitud Exacta para el Proceso Gaussiano
AR(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.4. Estimación de Máxima Verosimilitud Condicional . . . . . . . . . . . . . . 11
1.3. La función de Máxima Verosimilitud para un Proceso Gaussiano AR(p) . . . . . 12
1.3.1. Evaluando la función de Verosimilitud . . . . . . . . . . . . . . . . . . . . 12
1.3.2. Estimación de Máxima Verosimilitud Condicional . . . . . . . . . . . . . . 15
1.3.3. Estimación de Máxima Verosimilitud para Series de Tiempo No Gaussianas 15
1.4. La función de Verosimilitud para un Proceso Gaussiano MA(1) . . . . . . . . . . 16
1.4.1. Función de Verosimilitud Condicional . . . . . . . . . . . . . . . . . . . . 16
1.4.2. Función de Verosimilitud Exacta . . . . . . . . . . . . . . . . . . . . . . . 18
1.5. La función de Verosimilitud para un Proceso Gaussiano MA(q) . . . . . . . . . . 20
1.5.2. Función de Verosimilitud Exacta . . . . . . . . . . . . . . . . . . . . . . . 20
1.6. La Funcion de Maxima Verosimilitud para un Proceso Gaussiano ARMA(p,q) . . 22
1.6.2. Algoritmos alternativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.7. Optimización numérica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.7.1. Red de Búsqueda (Grid Search) . . . . . . . . . . . . . . . . . . . . . . . . 24
1.7.2. Ascenso paso a paso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.7.3. Newton Raphson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.7.4. Davidon-Fletcher-Powell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.7.5. Otros métodos numéricos de Optimización . . . . . . . . . . . . . . . . . . 34
1.8. Inferencia Estadística con estimación de Máxima Verosimilitud . . . . . . . . . . 35
1.8.1. Errores asintóticos estándares para la estimación de Máxima Verosimilitud 35
1.8.2. Prueba del ratio de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . 36
1.8.3. Prueba del multiplicador de Lagrange . . . . . . . . . . . . . . . . . . . . 37
1.8.4. Errores estándares de cuasi Máxima Verosimilitud . . . . . . . . . . . . . 38
3
4 ÍNDICE GENERAL
1.9. Restricciones de Desigualdad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

1.9.1. Un error común en Maximización Numérica . . . . . . . . . . . . . . . . . 39
1.9.2. Resolviendo el problema de reparametrización de la función de Verosimilitud 39
1.9.3. Parametrización para una matriz de varianzas y covarianza . . . . . . . . 40
1.9.4. Parametrización de probabilidades . . . . . . . . . . . . . . . . . . . . . . 41
1.9.5. Restricciones de desigualdad más generales . . . . . . . . . . . . . . . . . 41
.
Capítulo 1
Estimación de Máxima Verosimilitud
1.1. Introducción
Consideremos un modelo ARMA de la siguiente forma
Yt = c + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + εt + θ1 εt−1

+ θ2 εt−2 + · · · + θq εt−q (1.1.1)
considerando εt un ruido blanco:
E (t ) =0 (1.1.2)

 σ2 para t = τ
E (εt ετ ) = (1.1.3)
 0 en otro caso.
En los capítulos anteriores asumimos que los parámetros c, φ1 , . . . , φp , θ1 , . . . , θq , σ 2 eran co-

nocidos y mostrados como momentos de población como E (Yt Yt−j ) y proyecciones lineales
Ê (Yt+s |Yt , Yt−1 , . . .) que podían ser calculados como funciones de esos parámetros de pobla-
ción. Este capítulo explora como estimar los valores de c, φ1 , . . . , φp , θ1 , . . . , θq , σ 2 sobre la base

de observaciones en Y .
El principio fundamental en que se basa la estimación es el de máxima verosimilitud. Sea θ ≡
0
c, φ1 , . . . , φp , θ1 , . . . , θq , σ 2 denotado como el vector de parámetros de población. Supongamos
que tenemos una muestra observada de tamaño T (y1 , y2 , . . . , yT ). El enfoque será calcular la
función de probabilidad de densidad.
fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) (1.1.4)
la cual puede ser vista como la probabilidad de haber observado esta particular muestra. La
estimación de máxima verosimilitud (MLE) de θ es el valor para cada muestra que sea mas
probable de haber sido observado, estos es, el valor de θ que maximiza [1.1.4].
Este enfoque requiere especificar una distribución particular para el proceso de ruido blanco
εt . Típicamente nosotros asumiremos que εt es un ruido blanco gaussiano:

εt ∼ i.i.d.N 0, σ 2 (1.1.5)
5
6 CAPÍTULO 1. ESTIMACIÓN DE MÁXIMA VEROSIMILITUD
Aunque esta suposición es fuerte, la estimación de θ que se deriva de ella a menudo resulta ser
sensible a los procesos no gaussianos.
La búsqueda de la estimación de máxima verosimilitud conceptualmente tiene 2 pasos. Pri-
mero, la función de verosimilitud [1.1.4] debe ser calculado. Segundo, los valores de θ deben
ser encontrados maximizando esta función. Este capítulo es organizado alrededor de estos dos
pasos. Las secciones 5.2 a través del 5.6 muestran cómo calcular la función de probabilidad para
diferentes especificaciones ARMA gaussianas, mientras que la secciones posteriores revisan de
manera general las técnicas para la optimización numérica.
1.2. La función de Máxima Verosimilitud para un Proceso Gaus-

siano AR(1)
1.2.1. Evaluando la función de Verosimilitud
Un proceso gaussiano AR(1) toma la forma:
Yt = c + φYt−1 + εt , (1.2.1)
con εt ∼ i.i.d.N 0, σ 2 . Para este caso, el vector de parámetros poblacionales a ser estimado

0
consiste en θ ≡ c, φ, σ 2 .
Considerar la distribución de probabilidad de Y1 , la primera observación en la muestra, de
las ecuaciones [3.4.3] y [3.4.4] esto es una variable aleatoria con media
c
E (Y1 ) = µ =
1−φ
y con varianza
σ2
E (Y1 − µ)2 =
1 − φ2
Dado que {εt }∞
t=−∞ es Gaussiano, Y1 también es Gaussiano. Por lo tanto, la densidad de la
primera observación toma la forma

fY1 (y1 ;θ) = fY1 y1 ; c, φ, σ 2
− {y1 − [c/ (1 − φ)]}2
" #
1
= √ exp (1.2.2)
2σ 2 / (1 − φ2 )
p
2π σ 2 / (1 − φ2 )
Luego, considere la distribución de la segunda observación Y2 condicional a la observación Y1 =

y1 , A partir de [1.2.1]
Y2 = c + φY1 + 2 (1.2.3)
Condicionado sobre Y1 = y1 significa que el tratamiento de la variable aleatoria Y1 es como

si fuera la constante deterministica y1 . Para este caso, [1.2.3] arroja a Y2 como la constante
(c + φy1 ) mas la N 0, σ 2 variable 2 . Por lo tanto,

Y2 |Y1 = y1 ∼ N (c + φy1 ) , σ 2 ,
1.2. LA FUNCIÓN DE MÁXIMA VEROSIMILITUD PARA UN PROCESO GAUSSIANO AR(1)7
lo cual significa que
− (y2 − c − φy1 )2
" #
1
fY2 |Y1 (y2 |y1 ; θ) = √ exp . (1.2.4)
2πσ 2 2σ 2
La densidad conjunta de las observaciones 1 y 2 es entonces sólo el producto de [1.2.4] y [1.2.2]
fY2 ,Y1 (y2 , y1 ; θ) = fY2 |Y1 (y2 |y1 ; θ) · fY1 (y1 ; θ) .
Similarmente, la distribución de la tercera observación condicional a las dos primeras es
− (y3 − c − φy2 )2
" #
1
fY3 |Y2 ,Y1 (y3 |y2 , y1 ; θ) = √ exp .
2πσ 2 2σ 2
a partir de la cual
fY3 ,Y2 ,Y1 (y3 , y2 , y1 ; θ) = fY3 |Y2 ,Y1 (y3 |y2 , y1 ; θ) · fY2 ,Y1 (y2 , y1 ; θ) .
En general, los valores de Y1 , Y2 , . . . , Yt−1 repercuten en Yt solo a través del valor de Yt−1 , y
la densidad de la observación t condicional a las precedentes t − 1 observaciones está dado por
fYt |Yt−1 ,Yt−2 ,...,Y1 (yt |yt−1 , yt−2 , . . . , y1 ; θ) = fYt |Yt−1 (yt |yt−1 ; θ)
− (yt − c − φyt−1 )2
" #
1
=√ exp (1.2.5)
2πσ 2 2σ 2
La densidad conjunta de las primeras t observaciones es entonces
fYt ,Yt−1 ,...,Y1 (yt , yt−1 , . . . , y1 ; θ) = fYt |Yt−1 (yt |yt−1 ; θ) · fYt−1 ,Yt−2 ,...,Y1 (yt−1 , yt−2 , . . . , y1 ; θ)
(1.2.6)
La verosimilitud de la muestra completa puede ser calculada como
T
Y
fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) = fY1 (y1 ; θ) · fYt |Yt−1 (yt |yt−1 ; θ) (1.2.7)
t=2
La función de log verosimilitud (denotada como L (θ)) puede ser obtenida tomando logaritmos
a [1.2.7]:
T
X
L (θ) = log fY1 (y1 ; θ) + log fYt |Yt−1 (yt |yt−1 ; θ) . (1.2.8)
t=2
Claramente, el valor de θ que maximiza [1.2.8] es idéntico al valor que maximiza [1.2.7]. Sin
embargo, la Sección 5.8 presenta un número de resultados útiles que se pueden calcular como un
producto de maximización si uno siempre plantea el problema como maximización de la función
logaritmo de verosimilitud [1.2.8] en lugar de la función de verosimilitud [1.2.7].
Sustituyendo [1.2.2] y [1.2.5] en [1.2.8] el logaritmo de verosimilitud para una muestra de
tamaño T de un proceso gaussiano AR(1) se expresa como
1 1 h i
L (θ) = − log (2π) − log σ 2 / 1 − φ2
2 2
{y1 − [c/ (1 − φ)]}2 T − 1
− − log (2π)
2σ 2 / (1 − φ2 ) 2
T
(yt − c − φyt−1 )2
" #
T −1 X
− log σ 2 − (1.2.9)
2 t=2
2σ 2
1.2.2. Una expresión alternativa para la función de Verosimilitud
Una descripción diferente de la función de verosimilitud para una muestra de tamaño T de

un Proceso Gaussiano AR(1) a veces es útil. Recoge todo el conjunto de observaciones de un
vector (T × 1).
y P (y1 , y2 , . . . , yT )0 .
(T ×1)
Este vector podría ser visto como una sola realización de una distribución gaussiana T-dimensional.
La media de este vector (T × 1) es
   
E (Y1 ) µ
   
 E (Y2 )   µ 
   
  ..  ,
= (1.2.10)
..
 


 .   . 
  
E (YT ) µ
donde, como antes, µ = c/ (1 − φ) . En forma de vector, [1.2.10] podría ser escrito
E (Y) = µ,
donde µ denota el vector (T ×1) en el lado derecho de [1.2.10]. La matriz de varianza y covarianza
de Y es dada por
h i
E (Y − µ) (Y − µ)0 = Ω, (1.2.11)
donde
 
E (Y1 − µ)2 E (Y1 − µ) (Y2 − µ) · · · E (Y1 − µ) (YT − µ)
 
 E (Y2 − µ) (Y1 − µ)

E (Y2 − µ)2 · · · E (Y2 − µ) (YT − µ) 

Ω= .. .. .. ..
 (1.2.12)
.
 

 . . . 

E (YT − µ) (Y1 − µ) E (YT − µ) (Y2 − µ) · · · E (YT − µ)2
Los elementos de esta matriz corresponden a las autocovarianzas de Y. Recordar que la j-esima
autocovarianza para un proceso AR(1) es dada por

E (Yt − µ) (Yt−j − µ) = σ 2 φj / 1 − φ2 (1.2.13)
por lo tanto, [1.2.12] puede ser escrita como
Ω = σ 2 V, (1.2.14)
donde
· · · φT −1
 
1 φ φ2
· · · φT −2 
 

 φ 1 φ 
1 
φ2 · · · φT −3

V=  φ 1 . (1.2.15)
1 − φ2 
 .. .. .. .. ..



 . . . . . 

φT −1 φT −2 φT −3 · · · 1
Viendo la muestra observada y como único esbozo de una distribución N (µ, Ω), la vero-
similitud muestra podría ser escrito inmediatamente a partir de la fórmula para la densidad
Gaussiana multivariada.
1
1/2
−T /2 −1 0 −1
fY (y; θ) = (2π) Ω exp − (y − µ) Ω (y − µ) , (1.2.16)
2
con la verosimilitud logarítmica
T 1 1
L (θ) = − log (2π) + log Ω−1 − (y − µ)0 Ω−1 (y − µ) . (1.2.17)

2 2 2
Evidentemente, [1.2.17] y [1.2.9] debe representar la función de (y1 , y2 , . . . , yT ). Para verificar

que este sea el caso, se define
 p 
1 − φ2 0 0 ··· 0 0
 

 −φ 1 0 ··· 0 0 

−φ 1 · · ·
 
L ≡ 0 0 0 . (1.2.18)
(T ×T )
 
 .. .. .. . . .. .. 

 . . . . . . 

0 0 0 · · · −φ 1
Es fácil demostrar que1
L0 L = V−1 , (1.2.19)
esto implica a partir de [1.2.14] que
Ω−1 = σ −2 L0 L (1.2.20)
Substituyendo [1.2.20] en [1.2.17] se obtiene
T 1 1
L (θ) = − log (2π) + log σ −2 L0 L − (y − µ)0 σ −2 L0 L (y − µ) . (1.2.21)

2 2 2
1
Mediante multiplicación directa, uno calcula
 p p p p 
1 − φ2 φ 1 − φ2 φ2 1 − φ2 ··· φT −1 1 − φ2
2
T −2
p

 0 1−φ φ 1 − φ2 ··· φ 1 − φ2 

1  2
T −3
p
−φ 1−φ ··· 1 − φ2  ,

LV =  0 φ
1 − φ2 
 .. .. .. .. ..


 . . . . . 
2

0 0 0 ··· 1−φ
y pre multiplicando por L0 produce la matriz identidad (T × T ). Así, L0 LV = I, confirmándose [1.2.19]

Definiendo el vector ỹ de orden (T × 1)
ỹ ≡ L (y − µ)
 p  
1 − φ2 0 0 ··· 0 0 y1 − µ
  

 −φ 1 0 ··· 0 0   y2 − µ
 

−φ 1 · · ·   y3 − µ
  
=
 0 0 0   

 .. .. .. . . .. ..   .. 

 . . . . . . 

 . 

0 0 0 · · · −φ 1 yT − µ
 p 
1 − φ2 (y1 − µ)
 

 (y2 − µ) − φ (y1 − µ) 

(y3 − µ) − φ (y2 − µ)
 
=


 (1.2.22)
 .. 

 . 

(yT − µ) − φ (yT −1 − µ)
Sustituyendo µ = c/ (1 − φ), esto se convierte en

 p 
1 − φ2 (y1 − c/ (1 − φ))
 

 y2 − c − φy1 

y3 − c − φy2
 
ỹ =  ,
 
 .. 

 . 

yT − c − φyT −1
El último término en [1.2.21] puede ser escrito
1 1
− (y − µ)0 σ −2 L0 L (y − µ) = 2 ỹ0 ỹ
2 2σ
1
= 2 1 − φ2 [y1 − c/ (1 − φ)]2
2σ
T
1 X
+ 2 (yt − c − φyt−1 )2 (1.2.23)
2σ t=2
El término medio en [1.2.21] es similarmente
1 1 n o
log σ −2 L0 L = log σ −2T L0 L

2 2
1 1
= − log σ 2T + log L0 L

2 2
T 2
= − log σ + log |L| , (1.2.24)
2
donde se ha hecho uso de las ecuaciones [A.4.8], [A.4.9] y [A.4.11] en la Revisión Matemática
(Apéndice A) al final de este libro. Además, dado que L es una matriz triangular inferior, su
determinante está dada por el producto de los términos a lo largo de la diagonal principal:
p
|L| = 1 − φ2 . Así, la ecuación [1.2.24] establece que
1 T 1
log σ −2 L0 L = − log σ 2 + log 1 − φ2 . (1.2.25)

2 2 2
Substituyendo [1.2.23] y [1.2.25] en [1.2.21] resulta [1.2.9]. Así, las ecuaciones [1.2.17] y [1.2.9]
son solo dos expresiones diferentes para la misma magnitud, como se corrobora. Cualquiera de
estas expresiones describen con precisión la función de log verosimilitud.
La expresión [1.2.17] requiere invertir una matriz de orden (T ×T ), mientras que la expresión
[1.2.9] no. Así, la expresión [1.2.9] debe ser preferible para realizar los cálculos. Se debe evitar
una matriz (T × T ) para escribir Yt como la suma de una predicción (c + φYt−1 ) y un error de
predicción (εt ). El error de predicción es independiente de las observaciones previas construidas,
por lo que el logaritmo de su densidad es simplemente añadido a la log verosimilitud de las
observaciones precedentes. Este enfoque es conocido como una descomposición predicción-error
de la función de verosimilitud.
1.2.3. Estimación de Máxima Verosimilitud Exacta para el Proceso Gaus-

siano AR(1)
El MLE θ̂ es el valor para el cual [1.2.9] es maximizado. En principio, esto requiere diferenciar
[1.2.9] y establecer el resultado igual a cero. En la práctica, cuando se realiza un intento de llevar
esto a cabo, el resultado es un sistema de ecuaciones no lineales en θ y (y1 , y2 , . . . , yT ), para
el cual no existe una solución simple θ en términos de (y1 , y2 , . . . , yT ). Así la maximización de
[1.2.9] requiere procedimientos iterativos o numéricos descritos en la Sección 5.7.
1.2.4. Estimación de Máxima Verosimilitud Condicional
Una alternativa a la maximización numérica de la función de verosimilitud exacta es consi-

derar el valor de y1 como determinística y maximizar la probabilidad condicionada en la primera
observación,
T
Y
fYT ,YT −1 ,...,Y2 |Y1 (yT , yT −1 , . . . , y2 |y1 ; θ) = fYt |Yt−1 (yt |yt−1 ; θ) , (1.2.26)
t=2
el objetivo será entonces maximizar

T −1 T −1
log fYT ,YT −1 ,...,Y2 |Y1 (yT , yT −1 , . . . , y2 |y1 ; θ) = − log (2π) − log σ 2
2 2
T 2
" #
X (yt − c − φyt−1 )
− (1.2.27)
t=2
2σ 2
La maximización de [1.2.27] con respecto a c y φ es equivalente a la minimización de

T
(yt − c − φyt−1 )2
X
(1.2.28)
t=2
la cual se consigue por el método de Mínimos Cuadrados Ordinarios (MCO) en la regresión

de yt , sobre una constante y su propio valor rezagado. La estimación de máxima verosimilitud
condicional de c y φ están por lo tanto dadas por
   −1  
ĉ T − 1 Σyt−1 Σyt
 =   ,
φ̂ Σyt−1 2
Σyt−1 Σyt−1 yt
donde Σ denota la suma sobre t = 2, 3, . . . , T .

La estimación de máxima verosimilitud condicional de la varianza de la innovación es encon-
trada por diferenciación de [1.2.27] con respecto a σ 2 e igualando el resultado a cero:
T
(yt − c − φyt−1 )2
" #
− (T − 1) X
+ = 0,
2σ 2 t=2
2σ 4
o
 2 
 yt − ĉ − φ̂yt−1
T
X
σ̂ 2 = .

T −1

t=2
En otras palabras, la estimación de máxima verosimilitud condicional, es el residuo promedio al

cuadrado de la regresión de mínimos cuadrados ordinarios de [1.2.28].
En contraste con las estimaciones por máxima verosimilitud exacta, las estimaciones por
máxima verosimilitud condicional son por lo tanto triviales para calcular. Por otra parte, si el
tamaño de la muestra T es lo suficientemente grande, la primera observación hace una contribu-
ción insignificante a la verosimilitud total. La EMV exacta y la EMV condicional llegan a tener
la misma distribución en muestras grandes, a condición de que |φ| < 1. Y cuando |φ| > 1, la
MLE condicional provee una estimación consistente, mientras que la maximización de [1.2.9] no.
Esto es porque [1.2.9] es derivada a partir de [1.2.2], la cual no describe con precisión la densidad
de Y1 cuando |φ| > 1. Por estas razones, en la mayoría de aplicaciones los parámetros de una
autoregresión son estimados mediante máxima verosimilitud condicional en vez de la máxima
verosimilitud exacta.
1.3. La función de Máxima Verosimilitud para un Proceso Gaus-

siano AR(p)
En esta sección se discutirá un proceso gaussiano AR(p) de la forma:
Yt = c + φ1 Yt−1 + φ2 Yt−2 + ... + φp Yt−p + εt (1.3.1)
1.3.1. Evaluando la función de Verosimilitud
Una combinación de los dos métodos descritos para el caso de un proceso AR(1) es usado
para calcular la función de verosimilitud para una muestra de tamaño T para un proceso AR(p).
Las primeras p observaciones en la muestra (y1 , y2 , ..., yp ) son recolectadas en un vector yp de
(p × 1), el cual es visto como la realización de una variable gaussiana p-dimensional. La media
de este vector es µp , el cual denota un vector (p × 1) cuyos elementos esta dado por:
c
µ= (1.3.2)
1 − φ1 − φ2 − · · · − φp
1.3. LA FUNCIÓN DE MÁXIMA VEROSIMILITUD PARA UN PROCESO GAUSSIANO AR(P)13
Denotemos a σ 2 V como la matriz (p × p) de varianzas y covarianzas de (Y1 , Y2 , . . . , Yp ) :

 
E (Y1 − µ)2 E (Y1 − µ) (Y2 − µ) · · · E (Y1 − µ) (Yp − µ)
 
2
 E (Y2 − µ) (Y1 − µ)

E (Y2 − µ)2 · · · E (Y2 − µ) (Yp − µ) 

σ Vp =  .. .. .. ..
,
.
 

 . . . 

E (Yp − µ) (Y1 − µ) E (Yp − µ) (Y2 − µ) · · · E (Yp − µ)2
Por ejemplo, para la auto regresión de primer orden (p = 1), Vp el escalar 1/ 1 − φ2 . Para una

auto regresión general de orden p,
 
γ0 γ1 γ2 · · · γp−1
 

 γ1 γ0 γ1 · · · γp−2 

2 · · · γp−3
 
σ Vp = 
 γ2 γ1 γ0 ,

 .. .. .. .. .. 

 . . . . . 

γp−1 γp−2 γp−3 γ0
donde γj , es la j−ésima autocovarianza para un proceso AR(p), puede ser calculado usando
los métodos del Capítulo 3. La densidad de las primeras p observaciones es entonces la de una

variable N µp , σ 2 Vp :
1
1/2 0
−p/2 −2
fYt ,Yt−1 ,...,Y1 (yt , yt−1 , . . . , y1 ; θ) = (2π) σ Vp−1 −1
exp − 2 yp − µp Vp yp − µp

2σ
1
p/2 1/2 0
−p/2 −2 −1 −1
= (2π) σ Vp exp − 2 yp − µp Vp yp − µp ,
2σ
(1.3.3)
donde se ha hecho uso del resultado [A.4.8].

Para las observaciones restantes en la muestra, (yp+1 , yp+2 , . . . , yT ), la descomposición error-
predicción puede puede ser usada. Condicional en las primeras t−1 observaciones, la observación
i−ésima es Gaussiana con media
c + φ1 yt−1 + φ2 yt−2 + · · · + φp yt−p
y con varianza σ 2 .Sólo las p observaciones más recientes importan para esta distribución. Así,
para t > p,
fYt |Yt−1 ,Yt−2 ,...,Y1 (yt |yt−1 , yt−2 , . . . , y1 ; θ) = fYt |Yt−1 ,Yt−2 ,...,Yt−p (yt |yt−1 , yt−2 , . . . , yt−p ; θ)
− (yt − c − φ1 yt−1 − φ2 yt−2 − · · · − φp yt−p )2
" #
1
=√ exp .
2πσ 2 2σ 2
La función de verosimilitud para la muestra completa es entonces
fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) = fYp ,Yp−1 ,...,Y1 (yp , yp−1 , . . . , y1 ; θ)

T
Y
× fYt |Yt−1 ,Yt−2 ,...,Yt−p (yt |yt−1 , yt−2 , . . . , yt−p ; θ) (1.3.4)
t=p+1
y la log verosimilitud es por lo tanto
L (θ) = log fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ)

p p 1
= − log (2π) − log σ 2 + log Vp−1

2 2 2
1 0
−1

− 2 yp − µp Vp yp − µp
2σ
T −p T −p
− log (2π) − log σ 2
2 2
T
X (yt − c − φ1 yt−1 − φ2 yt−2 − · · · − φp yt−p )2
− (1.3.5)
t=p+1
2σ 2
T T 1
=− log (2π) − log σ 2 + log Vp−1

2 2 2
1 0
−1

− 2 yp − µp Vp yp − µp
2σ
T
−
t=p+1
2σ 2
La evaluación de [1.3.5] requiere invertir la matriz Vp de orden (p × p). Denote al elemento

de la fila i, columna j, de la matriz Vp−1 por v ij (p). Galbraith y Galbraith (1974, ecuación 16,
p. 70) muestran que
 
i−1
X p+i−j
X
v ij (p) =  φk φk+j−i − φk φk+j−i  para 1 ≤ i ≤ j ≤ p, (1.3.6)
k=0 k=p+1−j
donde φ0 = −1. Los valores de v ij (p) para i > j pueden ser inferido del hecho de que Vp−1
es simétrica (v ij (p) = v ji (p)). Por ejemplo, para un proceso AR(1), Vp−1 es un escalar cuyos
valores son encontrados tomando i = j = p = 1:
" 0 1
#

V1−1 =
X X
φk φk − φk φk = φ20 − φ21 = 1 − φ2 .
k=0 k=1
Así σ 2 V1 = σ 2 / 1 − φ , el cual reproduce la fórmula de varianza para un proceso AR(1). Para

2

p = 2, la ecuación [1.3.6] implica

 
1 − φ22

− (φ1 + φ1 φ2 )
V2−1 = ,
1 − φ22

− (φ1 + φ1 φ2 )
a partir de la cual se calcula

 
(1 − φ ) −φ
h i
−1 2 1  = (1 + φ2 )2 (1 − φ2 )2 − φ2

V2 = (1 + φ2 )  1
−φ1 (1 − φ2 )

y
  
h i (1 − φ2 ) −φ1 (y1 − µ)
(y2 − µ2 )0 V2−1 (y2 − µ2 ) = (y1 − µ) (y2 − µ) (1 + φ2 )   
−φ1 (1 − φ2 ) (y2 − µ)
= (1 + φ2 ) ×
n o
(1 − φ2 ) (y1 − µ)2 − 2φ1 (y1 − µ) (y2 − µ) + (1 − φ2 ) (y2 − µ)2 .
1.3. LA FUNCIÓN DE MÁXIMA VEROSIMILITUD PARA UN PROCESO GAUSSIANO AR(P)15
La verosimilitud logarítmica exacta para un proceso Gaussiano AR(2) es dada por
T T 1 n h io
L (θ) = − log (2π) − log σ 2 + log (1 + φ2 )2 (1 − φ2 )2 − φ21
2 2 2
1 + φ2

− ×
2σ 2
n o
(1 − φ2 ) (y1 − µ)2 − 2φ1 (y1 − µ) (y2 − µ) + (1 − φ2 ) (y2 − µ)2
T
X (yt − c − φ1 yt−1 − φ2 yt−2 )2
− (1.3.7)
t=3
2σ 2
donde µ = c/ (1 − φ1 − φ2 ).
1.3.2. Estimación de Máxima Verosimilitud Condicional
La maximización de la función de verosimilitud logarítmica exacta para un proceso AR(p)

[1.3.5] debe llevarse a cabo numéricamente. En contraste, el logaritmo de la función de verosi-
militud condicional en las p primeras observaciones asume la forma simple
log fYT ,YT −1 ,...,Yp+1 |Yp ,...,Y1 (yT , yT −1 , . . . , yp+1 |yp , . . . , y1 ; θ)

T −p T −p
=− log (2π) − log σ 2
2 2
T
− (1.3.8)
t=p+1
2σ 2
Los valores de c, φ1 , φ2 , . . . , φp que maximizan [1.3.8] son similares a los que minimizan
T
(yt − c − φ1 yt−1 − φ2 yt−2 − · · · − φp yt−p )2
X
(1.3.9)
t=p+1
Así, la estimación de máxima verosimilitud condicional de estos parámetros puede ser obtenido
de la regresión de yt mediante OLS, en una constante y p de sus propios valores de rezagos. La
estimación de máxima verosimilitud condicional de σ 2 resulta ser el promedio cuadrado residual
de esta regresión:
T
1 2
σˆ2 =
X
yt − ĉ − φ̂1 yt−1 − φ̂2 yt−2 − · · · − φ̂p yt−p .
T − p t=p+1
La estimación de máxima verosimilitud exacta y la estimación de máxima verosimilitud condi-

cional de nuevo tienen la misma distribución en muestra grande.
1.3.3. Estimación de Máxima Verosimilitud para Series de Tiempo No Gaus-

sianas
Hemos observado en el Capítulo 4 que una regresión OLS de un variable sobre una constante
y p de sus rezagos pueden arrojar un estimador consistente de los coeficientes de la proyección
lineal
Ê (Yt |Yt−1 , Yt−2 , . . . , Yt−p ) ,
siempre que el proceso sea ergódico para el segundo momento. Esta regresión OLS también
maximiza la verosimilitud logarítmica condicional gaussiana [1.3.8]. Así, incluso si el proceso es
no gaussiano, si erróneamente formamos una función de verosimilitud logarítmica gaussiana y

la maximizamos, el resultado estimado ĉ, φ̂1 , φ̂2 , . . . , φ̂p proveerá un estimador consistente de
los parámetros poblacionales en [1.3.9].
Una estimación que maximiza una función de verosimilitud mal especificada (por ejemplo,
un MLE calculado bajo el supuesto de un proceso gaussiano cuando la verdadera data es no
gaussiana) es conocida como una cuasi-máxima estimación de verosimilitud. A veces, como re-
sulta ser este caso, la cuasi-máxima estimación de verosimilitud provee estimadores consistentes
de parámetros poblacionales de interés. Sin embargo, los errores estándar para los coeficientes
estimados que son calculados bajo el supuesto de Gaussianidad no necesitan ser correctos si la
verdadera data es no gaussiana.2
Alternativamente, si la data en bruto es no gaussiana, a veces una simple transformación tal
como tomar logaritmos producirá una serie de tiempo Gaussiana. Para una variable aleatoria
positiva Yt , Box y Cox (1964) propusieron la clase general de transformaciones

λ
 Yt −1

para λ 6= 0
(λ) λ
Yt =
log Yt

para λ = 0.
Un método consiste en elegir una valor particular de λ y maximizar la función de verosimilitud

(λ) (λ)
para Yt bajo el supuesto de que Yt es un proceso ARMA Gaussiano. El valor de λ que
está asociado con el más alto valor de la verosimilitud maximizada es tomada como la mejor
transformación. Sin embargo, Nelson y Granger (1979) reportaron resultados desalentadores de
este método en la práctica.
Li y McLeod (1988) y Janacek y Swift (1990) describieron alcances para la estimación por
máxima verosimilitud para varios modelos ARMA no Gaussianos. Martin (1981) discutió la
estimación de series de tiempo robustas para datos contaminados.
1.4. La función de Verosimilitud para un Proceso Gaussiano

MA(1)
1.4.1. Función de Verosimilitud Condicional
El cálculo de la función de probabilidad para una auto regresión resultó ser mucho más
simple si condicionamos en los valores iniciales para Y ’s. Similarmente, el cálculo de la función
de verosimilitud para un proceso de Medias Móviles es más simple si nuestra condición en valores
iniciales para ε’s.
Considere el proceso gaussiano M A(1)
Yt = µ + εt + θεt−1 (1.4.1)
2
Este punto fue llevado a cabo primeramente por White (1982) y son discutidos mas adelante en las Secciones
5.8 y 14.4.
1.4. LA FUNCIÓN DE VEROSIMILITUD PARA UN PROCESO GAUSSIANO MA(1) 17
0
con εt ∼ i.i.d.N 0, σ 2 . Denotemos a θ = µ, θ, σ 2

como los parámetros poblacionales a ser
estimados. Si el valor de εt−1 fuese conocido, entonces

Yt |εt−1 ∼ N (µ + θεt−1 ) , σ 2
o
− (yt − µ − θεt−1 )2
" #
1
fYt |εt−1 (yt |εt−1 ; θ) = √ exp . (1.4.2)
2πσ 2 2σ 2
Supongamos que conocíamos con certeza que ε0 = 0. Entonces

(Yt |ε0 = 0) ∼ N µ, σ 2 .
Por otro lado, teniendo la observación de y1 , el valor de 1 es entonces conocido con certeza
como sigue:
ε1 = y1 − µ.
lo que permite la aplicación de [1.4.2] de nuevo:
− (y2 − µ − θε1 )2
" #
1
fY2 |Y1 ,ε0 =0 (y2 |y1 , ε0 = 0; θ) = √ exp .
2πσ 2 2σ 2
Desde que ε1 es conocido con certeza, ε2 puede ser calculado a partir de
ε2 = y2 − µ − θε1 .
Procediendo de esta manera, es evidente dado que ε0 = 0, la secuencia completa {ε1 , ε2 , . . . , εT }

puede ser calculada a partir de {y1 , y2 , . . . , yT }iterando sobre
εt = yt − µ − θεt−1 (1.4.3)
para t = 1, 2, . . . , T , iniciando con ε0 = 0. La densidad condicional de la t−ésima observación

puede ser entonces calculada de [1.4.2] conforme
fYt |Yt−1 ,Yt−2 ,...,Y1 ,ε0 =0 (yt |yt−1 , yt−2 , . . . , y1 , ε0 = 0; θ) = fYt |εt−1 (yt |εt−1 ; θ)
" #
1 −ε2t
=√ exp (1.4.4)
2πσ 2 2σ 2
La función de verosimilitud de la muestra puede entonces ser el producto de densidades

individuales:
fYT |YT −1 ,YT −2 ,...,Y1 ,ε0 =0 (yT |yT −1 , yT −2 , . . . , y1 , ε0 = 0; θ)

T
Y
= fY1 |ε0 =0 (y1 |ε0 ; θ) fYt |Yt−1 ,Yt−2 ,...,Y1 ,ε0 =0 (yt |yt−1 , yt−2 , . . . , y1 , ε0 = 0; θ) .
t=2
La función de verosimilitud logarítmica condicional es
L (θ) = log fYT |YT −1 ,YT −2 ,...,Y1 ,ε0 =0 (yT |yT −1 , yT −2 , . . . , y1 , ε0 = 0; θ)

T
T T X ε2t
=− log (2π) − log σ 2 − , (1.4.5)
2 2 t=1
2σ 2
Para un valor numérico particular de θ, calculamos la secuencia de ε’s implicada para la

data de [1.4.3]. La función logaritmo condicional de verosimilitud de [1.4.5] es entonces una
función de la suma de cuadrados de aquellos ε’s. Por lo tanto, incluso la estimación de máxima
verosimilitud condicional para un M A(1) debe ser encontrada por optimización numérica.
Iterando sobre [1.4.3] a partir de un valor inicial arbitrario de ε0 resultará en
εt = (yt − µ) − θ (yt−1 − µ) + θ2 (yt−2 − µ) − · · ·

+ (−1)t−1 θt−1 (y1 − µ) + (−1)t θt ε0 .
Si el |θ| es sustancialmente menor a la unidad, el efecto de imponer ε0 = 0 va a ser rápidamente

descartado y la verosimilitud condicional [1.4.4] va a dar una buena aproximación de la verosi-
militud incondicional para un tamaño de muestra razonablemente grande. Para contrastar, si el
|θ| > 1, las consecuencias de imponer ε0 = 0 se acumularán en el tiempo. El enfoque tradicional
no es razonable en tal caso. Si la optimización numérica de [1.4.5] resulta en una valor de θ que
excede a 1 en valor absoluto, el resultado debe ser descartado. La optimización numérica debe
ser intentada de nuevo con el recíproco de θ̂ usado como un valor inicial para el procedimiento
de búsqueda numérico.
1.4.2. Función de Verosimilitud Exacta
Dos algoritmos convenientes están disponibles para el cálculo de la función de verosimilitud

exacta de para un proceso gaussino M A(1). Por un lado se puede usar el filtro de Kalman
discutido en el Capítulo 13, y por otro lado podemos usar la factorización triangular de la
matriz de varianza y covarianzas. El segundo método será descrito a continuación.
Como en la Sección 5.2, las observaciones en y pueden ser recolectadas en un vector y ≡
(y1 , y2 , . . . , yT )0 de orden (T × 1) con media µ ≡ (µ, µ, . . . , µ)0 y la matriz (T × T ) de varianzas
y covarianzas
Ω = E (Y − µ) (Y − µ)0 .
La matriz de varianzas y covarianzas para T observaciones consecutivas de un proceso M A(1)

es  
1 + θ2

θ 0 ··· 0
1 + θ2
 

 θ θ ··· 0 

2 1 + θ2

···
 
Ω=σ  0 θ 0 .

 .. .. .. .. .. 

 . . . . . 

1 + θ2

0 0 0 ···
La función de verosimilitud es entonces
1

−T /2 −1/2
fY (y; θ) = (2π) |Ω| exp − (y − µ)0 Ω−1 (y − µ) . (1.4.6)
2
Una descomposición error-predicción de la función de verosimilitud es provista de la factori-

zación triangular de Ω
Ω = ADA0 (1.4.7)
1.4. LA FUNCIÓN DE VEROSIMILITUD PARA UN PROCESO GAUSSIANO MA(1) 19
donde A es la matriz triangular inferior dada en [4.5.18] y D es la matriz diagonal en [4.5.19].

Substituyendo [1.4.7] en [1.4.6] da
−1/2
fY (y; θ) = (2π)−T /2 ADA0

1

× exp − (y − µ)0 D−1 A−1 (y − µ) . (1.4.8)
2
Pero A es una matriz triangular inferior con 1s a lo largo de la diagonal principal. Por lo tanto,
|A| = 1 y

ADA0 = |A| · |D| · A0 = D

Definiendo con más precisión

ȳ ≡ A−1 (y − µ) , (1.4.9)
la verosimilitud [1.4.8] puede ser escrita como

1

−T /2 −1/2
fY (y; θ) = (2π) |D| exp − ȳ0 D−1 ȳ . (1.4.10)
2
Nótese que [1.4.9] implica
Aȳ = y − µ,
La primera fila de este sistema de estados ȳ1 = y1 − µ, mientras que la t − ésima fila implica que
h i
θ 1 + θ2 + θ4 + · · · + θ2(t−2)
ȳt = yt − µ − ȳt−1 . (1.4.11)
1 + θ2 + θ4 + · · · + θ2(t−1)
El vector ȳ puede así ser calculado por iteraciones en [1.4.11] para t = 2, 3, . . . , T empezando de
ȳ1 = y1 − µ. La variable ȳt se interpreta como el residuo de una proyección lineal de yt sobre una
constante y yt−1 , yt−2 , . . . , y1 , mientras que el t−ésimo elemento de la diagonal de D brinda el
MSE de la proyección lineal:
1 + θ2 + θ4 + · · · + θ2t
dtt = E Ȳt2 = σ 2 . (1.4.12)
1 + θ2 + θ4 + · · · + θ2(t−1)
Como D es diagonal, su determinante es el producto de los términos de su diagonal principal,
T
Y
|D| = dtt (1.4.13)
t=1
mientras que la inversa de D es obtenida tomando los recíprocos de los términos a lo largo de
la diagonal principal. Por lo tanto,
T
ȳ 2
ȳ0 D−1 ȳ = t
X
. (1.4.14)
d
t=1 tt
Substituyendo [1.4.13] y [1.4.14] en [1.4.10], la función de verosimilitud es

"T #−1/2 "T
#
−T /2
Y 1X ȳt2
fY (y; θ) = (2π) dtt exp − . (1.4.15)
t=1
2 t=1 dtt
La función de verosimilitud exacta para un proceso gaussiano M A(1) es por lo tanto

T T
T 1X 1X ȳt2
L (θ) = log fY (y; θ) = − log (2π) − log (dtt ) − (1.4.16)
2 2 t=1 2 t=1 dtt
Dando valores numéricos para µ, θ, y σ 2 , la secuencia ȳt es calculado iterando sobre [1.4.11]
empezando con ȳ1 = y1 − µ, mientras dtt está dado por [1.4.12].
En contraste con la función de verosimilitud logarítmica condicional [1.4.5], la expresión
[1.4.16] será valida independientemente de si θ está asociado con una representación M A(1)
invertible. El valor de [1.4.16] en θ = θ̄, σ 2 = σ̄ 2 será idéntico al valor en θ = θ̄−1 , σ 2 = θ̄2 σ̄ 2 ;
ver el Ejercicio 5.1.
1.5. La función de Verosimilitud para un Proceso Gaussiano

MA(q)
Para el proceso M A(q)
Yt = µ + εt + θ1 εt−1 + θ2 εt−2 + · · · + θq εt−q , (1.5.1)
una manera sencilla es asumir la condición de que los primeros q valores para ε serán todos cero:
ε0 = ε−1 = · · · = ε−q+1 = 0 (1.5.2)
A partir de estos valores iniciales podemos iterar sobre
εt = yt − µ − εt − θ1 εt−1 − θ2 εt−2 − · · · − θq εt−q (1.5.3)
para t = 1, 2, . . . , T . Denotemos como ε0 al vector (ε0 , ε−1 , · · · , ε−q+1 )0 de orden (q × 1). La

función logarítmica de verosimilitud condicional es entonces
L (θ) = log fYT ,YT −1 ,...,Y1 |ε0 =0 (yT , yT −1 , . . . , y1 |ε0 = 0; θ)

T
T T X ε2t
=− log (2π) − log σ 2 − , (1.5.4)
2 2 t=1
2σ 2
donde θ = µ, θ1 , θ2 , . . . , θq , σ 2 . De nuevo, la expresión [1.5.4] es suficiente solo si todos los

valores de z para el cual

1 + θ1 z + θ2 z 2 + · · · + θq z q = 0
caen fuera del círculo unitario.
1.5.2. Función de Verosimilitud Exacta
La función de verosimilitud exacto está dada por
1

−T /2 −1/2
fY (y; θ) = (2π) |Ω| exp − (y − µ)0 Ω−1 (y − µ) . (1.5.5)
2
donde antes y ≡ (y1 , y2 , . . . , yT )0 y µ ≡ (µ, µ, . . . , µ)0 . Aquí Ω representa la matriz de varianzas

y covarianzas de T consecutivas realizaciones de un proceso M A(q):
1.5. LA FUNCIÓN DE VEROSIMILITUD PARA UN PROCESO GAUSSIANO MA(Q) 21
0
q
1
0
1
q
0
(1.5.6)
El elemento de la fila i, columna j de Ω está dado por γ|i−j| , donde γk es la k−ésima

autocovarianza de un proceso M A(q):

σ 2 (θk + θk+1 θ1 + θk+2 θ2 + · · · + θq θq−k )

para k = 0, 1, · · · , q
γk = (1.5.7)
0

para k > q,
donde θ0 ≡ 1. De nuevo, la función de verosimilitud exacta [1.5.5] puede ser evaluada usando o
bien el filtro de Kalman del Capítulo 13 o la factorización triangular Ω
Ω = ADA0 , (1.5.8)
donde A es la matriz triangular inferior dada por [4.4.11] y D es la matriz diagonal dada por
[4.4.7]. Nótese que la estructura de la banda de Ωen [1.5.6] hace a A y D simples de calcular.
Luego de las primeas (q + 1) filas, todas las sub secuencias en la primera columna de Ω son cero,
entonces una no múltiplo de la primera fila necesita ser añadida para hacer a ésos cero. Por lo
tanto, ai1 = 0 para i > q + 1. Similarmente, más allá de las primeras (q + 2) filas de la segunda
columna, un no múltiplo de la segunda fila necesita ser añadido para hacer a estas entradas cero,
significando que ai2 = 0 para i > q + 2. Así A es una matriz triangular inferior con aij = 0 para
i > q + j:
 
1 0 0 ··· 0 0
 
 a21
 1 0 ··· 0 0 

···
 
 a31 a32 1 0 0 
 
 .. .. .. .. .. 
 . . . ··· . . 
A= .
 
 aq+1,1
 aq+1,2 aq+1,3 · · · 0 0 

 

 0 aq+2,2 aq+2,3 · · · 0 0 

 .. .. .. .. .. 

 . . . ··· . . 

0 0 0 · · · aT,T −1 1
Una computadora puede ser programada para calcular estas matrices rápidamente para un valor
numérico dado de θ.
Substituyendo [1.5.8] en [1.5.5] la función de verosimilitud exacta para un proceso Gaussiano

M A(q) puede ser escrito como en [1.4.10]
1

fY (y; θ) = (2π)−T /2 |D|−1/2 exp − ȳ0 D−1 ȳ
2
donde
Aȳ = y − µ. (1.5.9)
Los elementos de ȳ pueden ser calculados recursivamente trabajando hacia atrás las filas de de
[1.5.9]:
ȳ1 =y1 − µ
ȳ2 = (y2 − µ) − a21 ȳ1
ȳ3 = (y3 − µ) − a32 ȳ2 − a31 ȳ1
..
.
ȳt = (yt − µ) − at,t−1 ȳt−1 − at,t−2 ȳt−2 − · · · − −at,t−q ȳt−q .
La función logaritmo de verosimilitud exacta puede entonces ser calculada como en [1.4.16]
T T
T 1X 1X ȳt2
L (θ) = log fY (y; θ) = − log (2π) − log (dtt ) − (1.5.10)
2 2 t=1 2 t=1 dtt
1.6. La Funcion de Maxima Verosimilitud para un Proceso Gaus-

siano ARMA(p,q)
Un proceso Gaussiano ARM A(p, q) toma la forma siguiente
Yt = c + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + εt

+ θ1 εt−1 + θ2 εt−2 + · · · + θq εt−q , (1.6.1)
donde εt ∼ i.i.d.N 0, σ 2 . El objetivo es estimar el vector de parámetros poblacionales θ =

0
c, φ1 , φ2 , . . . , φp , θ1 , θ2 , . . . , θq , σ 2 .
La aproximación de la función de verosimilitud para una auto regresión condicionada sobre
los valores iniciales de los y’s. La aproximación de la función de verosimilitud para un proceso
de media móvil condicionado a valores iniciales de los ε’s. Una aproximación común a la función
de verosimilitud para las condiciones de un proceso ARM A(p, q) con condiciones tanto en los
y’s y ε’s.
Tomando valores iniciales para y0 ≡ (y0 , y1 , . . . , y−p+1 )0 y ε0 ≡ (ε0 , ε−1 , . . . , ε−q+1 )0 como
dados, la secuencia {ε1 , ε2 , . . . , εT } puede ser calculado a partir de {y1 , y2 , . . . , yT } mediante la
iteración sobre
εt =yt − c − φ1 yt−1 − φ2 yt−2 − · · · − φp yt−p

− θ1 εt−1 − θ2 εt−2 − · · · − θq εt−q (1.6.2)
1.7. OPTIMIZACIÓN NUMÉRICA 23
por para t = 1, 2, . . . , T . La verosimilitud logarítmica condicional es entonces
L (θ) = log fYT ,YT −1 ,...,Y1 |Y0 ,ε0 (yT , yT −1 , . . . , y1 |y0 , ε0 ; θ)

T
T T X ε2t
=− log (2π) − log σ 2 − 2
. (1.6.3)
2 2 t=1
2σ
Una opción es dar valores iniciales a y’s y ε’s igual a sus valores esperados. Esto es, ys =
f / (1 − φ1 − φ2 − · · · − φp ) para s = 0, −1, . . . , −p + 1 y establecer εs = 0 para s = 0, −1, . . . ,
−q + 1, y luego procedemos con la iteración en [1.6.2] para t = 1,2, . . . , T . Alternativamente,
Box y Jenkins (1976, p. 211) recomiendan establecer ε’s igual a 0 con los y’s igual a sus valores
actuales. Así, la iteración basada en [1.6.2] es iniciada en el periodo t = p + 1 con y1 , y2 , . . . , yp
establecidos con los valores observados y
εp = εp−1 = · · · = εp−q+1 = 0.
Entonces la verosimilitud condicional calculada es
log f (yT , . . . , yp+1 |yp , . . . , y1 , εp = 0, . . . , εp−q+1 = 0)

T
T −p T −p
2
X ε2t
=− log (2π) − log σ − .
2 2 t=p+1
2σ 2
Así como en el caso de los procesos de media móvil, estas aproximaciones deben ser usadas
solo si todos los valores de z satisfacen
1 + θ1 z + θ2 z 2 + · · · + θq z q = 0
que se hallen fuera del círculo unitario.
1.6.2. Algoritmos alternativos
El método más sencillo enfoque para el cálculo de la función de verosimilitud exacta para
un proceso ARMA Gaussiano es usar el filtro de Kalman descrito en el Capítulo 13. Para
mas detalles sobre la estimación de máxima verosimilitud exacta y aproximada de modelos
ARMA, consulte Galbraith y Galbraith (1974), Box y Jenkins (1976, Capítulo 6), Hannan y
Raissanen(1982), y Koreisha y Pukkila (1989).
1.7. Optimización numérica

En las secciones previas de este capítulo hemos mostrado como calcular la función de vero-
similitud logarítmica
L (θ) = log(fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 |θ) (1.7.1)
para varias especificaciones del proceso pensando en que se tienen generados los datos observado
y1 , y2 , . . . , yT . Dadas los datos observados, las fórmulas dadas pueden ser usadas para calcular
el valor de L (θ) para cualquier valor numérico de θ.
Esta sección discute como encontrar el valor de θ̂ que maximiza L (θ) sin tener mas co-
nocimiento que la capacidad de calcular el valor de L (θ) para cualquier valor particular de
θ. El enfoque general es escribir un procedimiento que permita a la computadora calcular el
valor numérico de L (θ) para cualquier valor numérico particular de θ y los datos observados
y1 , y2 , . . . , yT . Podemos pensar este procedimiento como una “caja negra” que nos permite ob-
tener valores dados deθ y observar que el valor resultante de L (θ) podría ser:
Entrada Procedimiento Salida
valores de
y1, y2 , , yT establecer valor de
L( ) L( )
y .
La idea es hacer crear una serie de diferentes valores dados para θ , y comparar el valor de
L (θ) para cada valor dado, e intentar inferir a partir de esos valores para L (θ) el valor de θ̂
para el cual L (θ) sea lo mas grande posible. Tales métodos son descritos como la maximización
numérica.
1.7.1. Red de Búsqueda (Grid Search)
El método más sencillo para la maximización numérica es conocido como el método de

búsqueda de la red. Para ilustrar este método, suponga que tenemos datos generados por un
proceso AR(1), para el cual la función de verosimilitud logarítmica está dada por [1.2.9]. Para
mantener muy sencillo el ejemplo, se asume como conocido que la media del proceso es cero
(c = 0) y que la innovación tiene varianza unitaria (σ 2 = 1). Así el único parámetro desconocido
es el coeficiente auto-regresivo φ y [1.2.9] se simplifica a
T 1
L (θ) = − log (2π) + log 1 − φ2
2 2
T
1 1X
− 1 − φ2 y12 − (yt − φyt−1 )2 . (1.7.2)
2 2 t=2
Suponga que la muestra observada consiste de las siguientes T = 5 observaciones:
y1 = 0,8 y2 = 0,2 y3 = −1,2 y4 = −0,4 y5 = 0,0.
Si hacemos una suposición arbitraria del valor de φ, digamos, φ = 0,0, y colocamos este valor
dentro de la expresión [1.7.2], calculamos que L (φ) = −5,73 en φ = 0,0 . Intentando otra valor
dado (φ = 0,1), calculamos L (φ) = −5,71 en φ = 0,1 - la función verosimilitud logarítmica es
más alta en φ = 0,1 que en φ = 0,0. Continuando en esto método, podemos calcular el valor de
L (φ) para cada uno de los valores de φ entre −0,9 y +0,9 en incrementos de 0,1. Los resultados
son reportados en la Figura 5.1
−5
−5.5
−6
L(φ)
−6.5
−7
−7.5
−8
−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1
φ
FIGURA 5.2. Verosimilitud logarítmica de un proceso AR(1) para diversos valores dados de φ
Parece que a partir de estos cálculos la función de verosimilitud logarítmica L (φ) está bien
comportada con un único máximo en algún valor de φ entre 0.1 y 0.3. Podemos entonces con-
centrarnos en esta subregión del espacio de parámetros y evaluar L (φ) en una cuadricula mas
fina, calculando el valor de L (φ) para todos los valores de φ entre 0.1 y 0.3 en incrementos de
0.02. Procediendo de esta manera, debe ser posible obtener arbitrariamente el valor de φ que
maximice L (φ) haciendo la cuadrícula cada vez mas fina.
Nótese que este procedimiento no encuentra el valor exacto de φ̂ EMV, a cambio se llega
a aproximar a él con cualquier precisión deseada. En general, este será el caso con cualquier
algoritmo de maximización numérica. Para usar estos algoritmos tendremos por lo tanto que
especificar un criterio de convergencia, o alguna forma de decidir cuando nos encontramos lo
suficientemente cerca del verdadero máximo. Por ejemplo, suponga que queremos un estimador φ̂
que difiera de el verdadero EMV en no mas de ±0,0001, y el mejor estimador entre los elementos
de aquella cuadrícula seria el EMV numérico de φ.
Para el simple ejemplo AR (1) en la Figura 5.1, la función de verosimilitud logarítmica es

unimodal- hay un único valor de θ para el cual ∂L (θ) /∂θ = 0. Para un problema general de
maximización numérica, éste no sera el caso. Por ejemplo, suponga que estamos interesados en
estimar un parámetro escalara θ para el cual la función de verosimilitud logarítmica es como la
mostrada en la Figura 5.2.
−5
−5.5
−6
L(φ)
−6.5
−7
−7.5
−8
−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1
φ
FIGURA 5.2. Función de verosimilitud logarítmica bimodal.
El valor θ = −0,6 es un máximo local, significando que la función de verosimilitud es más

alta ahí que en cualquier otro θ en una vecindad alrededor de θ = −0,6. Sin embargo, el máximo
global ocurre alrededor de θ = 0,2. El método de búsqueda por cuadricula debería funcionar bien
para una verosimilitud unimodal siempre que L (φ) sea continua. Cuando hay múltiples máximos
locales, la cuadrícula deber ser lo suficientemente fina para revelar todos los “máximos” locales
sobre la superficie de verosimilitud.
1.7.2. Ascenso paso a paso
La búsqueda en la red puede ser un método muy bueno cuando hay un único parámetro des-
conocido a estimar. Sin embargo, rápidamente se hace intratable cuando el número de elementos
de θ se hace grande. Un método numérico alternativo que usualmente logra la maximización de
una función diferenciable continua de un gran número de parámetros se conoce como ascenso
paso a paso.
Para comprender este método, hagamos caso omiso temporalmente a la “caja negra” natu-
ral de la investigación y en su lugar examinemos cómo procederíamos analíticamente con un
problema de maximización particular. Suponga que tenemos una primera estimación del vector
de parámetros, denotado como θ (0) , y se desea llegar a una mejor estimación θ (1) . Imagine que
estamos restringidos a elegir θ (1) de tal manera que la distancia al cuadrado entre θ (0) y θ (1) es
un algún número fijo k:
n on o
θ (1) − θ (0) θ (1) − θ (0) = k
El valor óptimo para elegir θ (1) puede ser entonces la solución del siguiente problema de maxi-
mización con restricción:
n on o
máxL θ (1) sujeto a θ (1) − θ (0) θ (1) − θ (0) = k.
θ (1)
Para caracterizar la solución de este problema,3 formamos el Lagrangiano,

h n on oi
J θ (1) = L θ (1) + λ k − θ (1) − θ (0) θ (1) − θ (0) , (1.7.3)
donde λ denota al multiplicador de Lagrange. Diferenciando [1.7.3] con respecto a θ (1) y esta-
bleciendo el resultado igual a cero obtenemos

∂L (θ) n
(1) (0)
o
− (2λ) θ − θ = 0. (1.7.4)
∂θ θ=θ(1)
Sea g (θ) el vector gradiente de la función de verosimilitud logarítmica:
∂L (θ)
g (θ) ≡ .
∂θ
Si hay a elementos de θ, entonces g (θ) es un vector (a × 1) cuyo i−ésimo elemento representa
la derivada de la verosimilitud logarítmica con respecto al i−ésimo elemento de θ.
Usando esta notación, la expresión [1.7.4] puede ser escrita como

θ (1) − θ (0) = [1/ (2λ)] · g θ (1) . (1.7.5)
La expresión [1.7.5] verifica que si cambiamos θ por solo una cantidad fija, el incremento
mas grande en la función de verosimilitud logarítmica se logrará si el cambio en θ (la magnitud

θ (1) − θ (0) ) es elegido ser una constante 1/ (2λ) veces el vector gradiente g θ (1) . Si estamos
contemplando un paso muy pequeño ( de tal manera que k está cerca de cero), el valor de

g θ (1) se acercará a g θ (0) . En otras palabras, el vector gradiente g θ (0) da la dirección
en la cual la función de verosimilitud logarítmica se incrementa mas abrupta mente a partir de
θ (0) .
A manera de ilustración, suponga que a = 2 y sea la función de verosimilitud logarítmica

L θ (1) = −1,5θ12 − 2θ22 . (1.7.6)
Podemos fácilmente observar para este ejemplo que el EMV está dado por θ̂ = (0, 0)0 . Sin
embargo, usaremos este ejemplo para ilustrar como trabaja el método de ascenso paso a paso.
Los elementos del vector gradiente son
∂L (θ) ∂L (θ)
= −3θ1 = −4θ2 . (1.7.7)
∂θ1 ∂θ2
Suponga que el valor dado inicial es θ (0) = (−1, 1)0 . Entonces

∂L (θ) ∂L (θ)
=3 = −4.
∂θ1 θ=θ(1)
∂θ2 θ=θ(1)
3
Ver Chiang (1974) para una introducción al uso de los multiplicadores de Lagrange para la resolución de un
problema de optimización con restricción.
Un incremento en θ1 podría incrementar la verosimilitud, mientras que un incremento en θ2

podría decrementar la verosimilitud. El vector gradiente evaluado en θ (0) es
 
3
g θ (0) =  ,
−4
Así que el paso óptimo θ (1) − θ (0) deberá ser proporcional a (3, −4)0 . Por ejemplo, con k = 1
podemos elegir
(1) (0) 3
θ1 − θ 1 =
5
(1) (0) 4
θ2 − θ 2 = −
5
(1) (1)
esto es, al nuevo valor dado será θ1 = −0,4 y θ2 = 0,2. Para incrementar la verosimilitud
mediante el mejor incremento, buscamos incrementar θ1 y decrementar θ2 relativo a sus valores
en el valor dado inicial θ (0) . Dado que un cambio unitario en θ2 tiene un mayor efecto sobre
L (θ) que puede un cambio unitario en θ1 , el cambio en θ2 es mas grande en valor absoluto que
el cambio en θ1 .
Retornemos a la perspectiva de la caja negra, donde la única capacidad que tenemos es
calcular el valor de L (θ) para un valor numérico específico de θ. Deberemos iniciar con un valor
dado inicial arbitrario de θ, denotado θ (0) . Suponga que hemos entonces calculado el valor del
vector gradiente en θ (0) :

(0)
∂L (θ)
g θ = (1.7.8)
∂θ θ=θ(0)
Este gradiente podría en principio ser calculado analíticamente, mediante diferenciación de la
expresión general para L (θ) con respecto a θ y escribiendo un procedimiento de computadora
para calcular cada elemento de g (θ) dados los datos y un valor numérico para θ. Por ejemplo,
la expresión [1.7.7] puede ser usada para calcular g (θ) para cualquier valor particular de θ.
Alternativamente, si esto es demasiado difícil diferenciar L (θ) analíticamente, podemos siem-
pre obtener una aproximación numérica del gradiente observando como L (θ) cambia para un

pequeño cambio en cada elemento de θ. En particular, el i−ésimo elemento de g θ (0) puede
ser aproximado mediante
1 n (0) (0)
gi θ (0) ∼
(0) (0) (0) (0)
= L θ1 , θ2 , . . . , θi−1 , θi + ∆, θi+1 , θi+1 , . . . , θa(0)
∆ o
(0) (0) (0) (0) (0) (0)
−L θ1 , θ2 , . . . , θi−1 , θi , θi+1 , θi+1 , . . . , θa(0) (1.7.9)
donde ∆ representa algún escalar pequeño elegido arbitrariamente así como ∆ = 10−6 . Mediante
el cálculo numérico del valor de L (θ) en θ (0) y a valores diferentes de θ correspondientes a

cambios pequeños en cada elemento individual de θ (0) , un estimado del vector completo g θ (0)
puede ser descubierto.
El resultado [1.7.5] sugiere que debemos cambiar el valor de θ en la dirección del gradiente,
eligiendo

θ (1) − θ (0) = s · g θ (0)
para cualquier escalar positivo s. Una aceptable elección de s debe ser encontrada mediante una
adaptación del método de búsqueda por cuadrícula. Por ejemplo, podemos calcular el valor de
n o
L θ (0) + s · g θ (0) ˙ y elegir conforme el nuevo estimado θ (1)
para s = 1 , 1 , 1 , 1 ,1,2,4,8, y 16
16 8 4 2

el valor de θ (0) + s · g θ (0) para el cual L (θ) es mayor. Valores pequeños o grandes de s pueden
también ser explorados si el máximo parece estar en alguno de los extremos. Si ninguno de los
valores de s mejora la verosimilitud, entonces un valor muy pequeño para s, así como el valor
∆ = 10−6 usado para la aproximación de la derivada, deberá ser intentado.

Podemos repetir el proceso, tomando θ (1) = θ (0) + s · g θ (0) como punto inicial, evaluando

el gradiente en la nueva posición g θ (1) , y generando un nuevo estimador θ (2) conforme a

θ (2) = θ (1) + s · g θ (1)
para la mejor elección de s. El proceso es iterado, calculando

θ (m+1) = θ (m) + s · g θ (m)
para m = 0, 1, 2, . . . hasta que algún criterio de convergencia es satisfecho, tal como que el vector

gradiente g θ (m) este dentro de alguna tolerancia específica de cero, la distancia entre θ (m+1)

y θ (m) es menor que algún umbral especificado, o el cambio entre L θ (m+1) y L θ (m) es
menor que cualquier cantidad deseada.
La Figura 5.3 también muestra una generalización multi variada del problema con un máximo
local múltiple, el cual en este caso es diferente a partir del máximo global θ ∗ . En la Figura 5.3,
∗
se observa que si θ (0) fuese usado para iniciar las iteraciones en lugar de θ (0) , el procedimiento
podría converger al verdadero máximo global θ ∗ . En la práctica, la única manera de asegurar que
un máximo global ha sido encontrado es empezando la iteración desde un número de diferentes
valores de inicio para θ (0) y continuar con la secuencia a partir de cada valor iniciar hasta que
lo más alto de la montaña asociado con aquel valor inicial sea descubierta.
(0)
*
* g( (0) )
g( (1) )
(2)
(1)
(0)
1
FIGURA 5.3. Contornos de verosimilitud y maximización por el ascenso paso a paso
1.7.3. Newton Raphson
Una desventaja del método de paso por paso ascendente es que puede requerir un gran número
de iteraciones para estar cerca del máximo local. Un método alternativo conocido como Newton-
Raphson converge más rápidamente que (1) las segundas derivadas de la existente función de
verosimilitud logarítmica L (θ) y (2) la función L (θ) es cóncava, significando que -1 veces la
matriz de segundas derivadas es definida positiva.
Suponga que θ es un vector (a × 1) de parámetros a ser estimados de orden. Denotemos a

g θ (0) como el vector gradiente de la función verosimilitud logarítmica en θ (0) :

(0)
∂L (θ)
g θ = ;
∂θ θ=θ(0)
(a×1)

y H θ (0) denota −1 veces la matriz de segundas derivadas de la función de verosimilitud
logarítmica:

(0)
∂ 2 L (θ)
H θ = .
∂θ∂θ 0 θ=θ(0)

(a×a)
Considere la aproximación L (θ) con una serie de Taylor de segundo orden alrededor de θ (0) :
h i0 h i 1h i0 h i
L (θ) ∼
= L θ (0) + g θ (0) θ − θ (0) − θ − θ (0) H θ (0) θ − θ (0) . (1.7.10)
2
La idea detrás del método de Newton-Raphson es elegir θ de tal manera que maximice [1.7.10].
Estableciendo la derivada de [1.7.10] con respecto a θ igual a cero
h i
g θ (0) − H θ (0) θ − θ (0) = 0. (1.7.11)
Denotemos por θ (0) al valor dado inicial como el valor de θ. Uno puede calcular la derivada

de verosimilitud logarítmica en el valor dado inicial g θ (0) analíticamente como en [1.7.7] o
numéricamente como en [1.7.9]. Uno puede también usar métodos analíticos o numéricos para

calcular el negativo de la matriz de segundas derivadas del valor dado inicial H θ (0) . La
(1)
expresión [1.7.11] sugiere que un mejoramiento del estimador de θ (denotado como θ ) satisface
h i
g θ (0) = H θ (0) θ (1) − θ (0)
o
h i−1
θ (1) − θ (0) = H θ (0) g θ (0) . (1.7.12)
Uno podría luego calcular el gradiente y la Hessiana en θ (1) y usar esto para encontrar un nuevo
estimador θ (2) y continuar iterando en esta manera. El paso m−ésimo en la iteración actualiza
el estimador de θ mediante el uso de la fórmula
h i−1
θ (m+1) − θ (m) = H θ (m) g θ (m) . (1.7.13)
Si la función de verosimilitud logarítmica aparece como una función cuadrática perfecta,

entonces [1.7.10] se mantiene exactamente y [1.7.12] generará el EM V exacto en un solo paso:
θ (1) = θ̂ EM V .
Si la aproximación cuadrática es razonablemente buena, Newton-Raphson debe converger al

máximo local más rápidamente que el método de paso ascendente. Sin embargo, si la función
de verosimilitud no es cóncava, Newton-Raphson se comporta bastante mal. Así, el método
ascendente por pasos es a menudo mas lento para converger pero a veces permite ser mas
robusto comparado con Newton-Raphson.
A partir de [1.7.10] es usual que solo una aproximación a la verdadera función de verosimilitud
logarítmica, la iteración sobre [1.7.13] es a menudo como sigue. La expresión [1.7.13] se toma
para sugerir la dirección de búsqueda. El valor de la función de verosimilitud logarítmica en los
diversos puntos en que la dirección es entonces calculada, y el mejor valor determina la longitud
del paso. Esta estrategia invoca reemplazar [1.7.13] por
h i−1
θ (m+1) = θ (m) + s H θ (m) g θ (m) , (1.7.14)
donde s es un escalar que controla la longitud del paso. Uno calcula θ (m+1) y el valor asociado

para la verosimilitud logarítmica L θ (m+1) para varios valores de s en [1.7.14] y elige como
estimador θ (m+1) al valor que produce el más alto valor para la verosimilitud logarítmica.
1.7.4. Davidon-Fletcher-Powell
Si θ contiene a parámetros desconocidos, entonces la matriz simétrica H (θ) tiene a (a + 1) /2

elementos separados. Calcular todos estos elementos puede consumir tiempo extremadamente
si a es grande. Un alternativo enfoque razonable se sigue. La matriz de segundas derivadas
(−H (θ)) corresponde a la primera derivada del vector gradiente (g (θ)), el cual nos dice como
g (θ) cambia conforme θ cambia. Obtenemos alguna información independiente acerca de esto

mediante la comparación de g θ (1) − g θ (0) con θ (1) − θ (0) . Esta no es suficiente información
por si misma para estimar H (θ), pero esta es información que puede ser usada para actualizar
un valor dado inicial acerca del valor de H (θ). Así, en vez de evaluar H (θ) directamente en
cada iteración, la idea sera iniciar con un valor dado inicial acerca de H (θ) y actualizar el valor
dado únicamente sobre la base de cuanto cambia g (θ) entre las iteraciones, dada la magnitud
del cambio en θ. Tales métodos son a menudo descritos como Newton-Raphson modificado.
Uno de los populares métodos de Newton-Raphson modificado fue propuesto por Davidon
(1959) y Fletcher y Powell (1963). Puesto que es H−1 quien esta en vez de H en la fórmula de
actualización [1.7.14], el algoritmo Davidon-Fletcher-Powell actualiza un estimador de H−1 en
cada paso sobre la base del tamaño del cambio en g (θ) relativo al cambio en θ. Específicamente,
sea θ (m) un estimador de θ que ha sido calculado en la iteración m−ésima, y sea A(m) un estimado
h i−1
de H θ (m) . El nuevo estimador θ (m+1) está dado por

θ (m+1) = θ (m) + sA(m) g θ (m) (1.7.15)
n o
para el escalar positivo s que maximiza L θ (m) + s · A(m) g θ (m) . Una vez que θ (m+1) y el
gradiente en θ (m+1) ha sido calculado, un nuevo estimador A(m+1) es encontrado a partir de
0
A(m) ∆g(m+1) ∆g(m+1) A(m)
A(m+1) =A(m) − 0
∆g(m+1) A(m) ∆g(m+1)
0
∆θ (m+1) ∆θ (m+1)
− 0 (1.7.16)
∆g(m+1) ∆g(m+1)
donde
∆θ (m+1) ≡ θ (m+1) − θ (m)

∆g(m+1) ≡ g θ (m+1) − g θ (m) .
¿En qué sentido debe A(m+1) tal como se calculó a partir de [1.7.16] ser considerado como
h i
un estimador de la inversa de H θ (m) ? Considere primero el caso cuando θ es un escalar
(a = 1). Entonces [1.7.16] se simplifica a
2 2 2
A(m) ∆g (m+1) ∆θ(m+1)
A(m+1) =A(m) − 2 −
∆g (m+1) A(m) ∆g (m+1) ∆θ(m+1)
∆θ(m+1)
=A(m) − A(m) − ,
∆g (m+1)
∆θ(m+1)
=− .
∆g (m+1)
En este caso,
h i−1 ∆g (m+1)
A(m+1) =− ,
∆θ(m+1)
es la aproximación discreta natural a

∂ 2 L

(m+1)
∂g
H θ = − 2 =−
∂θ θ=θ(m+1) ∂θ θ=θ(m+1)
Con mayor generalidad (para a > 1), un estimador de la derivada de g (·) debe estar rela-
cionado al cambio observado en g (·) conforme a

(m+1)

∼
∂g h i
g θ = g θ (m) + θ (m+1)
− θ (m)
∂θ 0 θ=θ(m+1)
Esto es,
h i
g θ (m+1) ∼
= g θ (m) + H θ (m+1) θ (m+1) − θ (m)
o
h i−1
∆θ (m+1) ∼
= − H θ (m+1) ∆g(m+1) .
h i−1
Por lo tanto, un estimador A(m+1) de H θ (m+1) deberá satisfacer
A(m+1) ∆g(m+1) = −∆θ (m+1) . (1.7.17)

La multiplicación siguiente de [1.7.16] por ∆g(m+1) confirma que [1.7.17] es satisfecha por el
estimador Davidon-Fletcher-Powell A(m+1) :
A(m+1) ∆g(m+1) =A(m) ∆g(m+1)

0
A(m) ∆g(m+1) ∆g(m+1) A(m) ∆g(m+1)
− 0
∆g(m+1) A(m) ∆g(m+1)
0
∆θ (m+1) ∆θ (m+1) ∆g(m+1)
− 0
∆g(m+1) ∆θ (m+1)
=A(m) ∆g(m+1) − A(m) ∆g(m+1) − ∆θ (m+1)

= − ∆θ (m+1)
h i−1
Así, el cálculo de [1.7.16] produce un estimador de H θ (m+1) que es consistente con la

(m+1) (m)
magnitud del cambio observado entre g θ yg θ dado el tamaño del cambio entre
θ (m+1) y θ (m) .
La siguiente proposición (probada en el Apéndice 5.A al final del capítulo) establece algunas
propiedades más útiles de la fórmula de actualización [1.7.16]
Proposición 1.7.1. (Fletcher y Powell (1963)). Considere L (θ), donde L : Ra → R1 tiene

primeras derivadas continuas denotadas como

(m)
∂L (θ)
g θ = .
∂θ θ=θ(m)
(a×1)

Suponga que algún elemento de g θ (m) es diferente de cero, y sea A(m) una matriz de (a × a)
simétrica definida positiva. Entonces lo siguiente se mantiene.

(a) Existe un escalar s > 0 tal que L θ (m+1) > L θ (m) para

θ (m+1) = θ (m) + sA(m) g θ (m) . (1.7.18)

(b) Si s en [1.7.18] es elegido de tal manera que maximiza L θ (m+1) , entonces las condi-
ciones de primer orden para un máximo interior implican que
h i0 h i
g θ (m+1) θ (m+1) − θ (m) = 0. (1.7.19)

(c) Siempre que [1.7.19] se cumpla y que algún elemento de g θ (m+1) − g θ (m) sea dife-
rente de cero, entonces A(m+1) descrito por [1.7.16] es una matriz simétrica definida positiva.

El resultado (a) establece que siempre que no estemos en el óptimo g θ (m) 6= 0 , existe
un paso en la dirección sugerida por el algoritmo que incrementará la verosimilitud más allá,
siempre que A(m) sea una matriz definida positiva. El resultado (c) establece que siempre que
la iteración es iniciada con una matriz definida positiva A(0) , entonces la secuencia de matrices
n oN
A(m) deberán ser todas definidas positivas, significando que cada paso de la iteración
m=1
deberá incrementar la función de verosimilitud. Un procedimiento estándar es iniciar la iteración
con A(0) = Ia , la matriz identidad (a × a).
Si la función L (θ) es exactamente cuadrada, de tal manera que

h i 1h i0 h i
L (θ) = L θ (0) + g0 θ − θ (0) − θ − θ (0) H θ − θ (0) ,
2
con H definida positiva, entonces Fletcher y Powell (1963) muestran que la iteración sobre
[1.7.15] y [1.7.16] convergerá al verdadero máximo global en a pasos:
θ (a) = θ̂ M LE = θ (0) + H−1 g;
y la matriz ponderadora será convergente a la inversa de −1 veces la matriz de segundas deri-

vadas.
A(a) = H−1 .
Mas generalmente, si L (θ) está bien aproximada por una función cuadrática, entonces el pro-
cedimiento de búsqueda Davidon-Fletcher-Powell deberá aproximarse al máximo global más
rápidamente que con el método de paso ascendente,
θ (N ) ∼
= θ̂ M LE
para N grande, mientras A(m) deberá converger al negativo de la matriz de segundas derivadas
de la función de verosimilitud logarítmica:
 −1
2
∼ −  − ∂ L (θ)

A(N ) = 0
 . (1.7.20)
∂θ∂θ θ=θ̂
M LE
En la práctica, sin embargo, la aproximación en [1.7.20] puede ser pobre, y es mejor evaluar la
matriz de segundas derivadas numéricamente para propósitos del calculo de los errores estándar,
tal como se discutió en la Sección 5.8.
Si la función L (θ) no es cóncava global o si el valor de partida θ (0) está muy lejos del
máximo valor, el procedimiento Davidon-Fletcher-Powell pude operar muy mal. Si el problema
es encontrado, ayudará mucho intentar un diferente valor de partida θ (0) , para re-escalar los
datos o parámetros de tal manera que los elementos de θ están en unidades comparables, o para
re-escalar la matriz inicial A(0) - por ejemplo, estableciendo

A(0) = 1 × 10−4 Ia .
1.7.5. Otros métodos numéricos de Optimización
Una variedad de otros métodos de Newton-Raphson modificado están disponibles, los cuales

usan técnicas alternativas para la actualización de H θ (m) o de su inversa. Dos de los métodos
más populares son los de Broyden (1965, 1967) y Berndt, Hall, Hall, y Hausman (1974). Estudios
de éstos y una variedad de otros métodos son proporcionados por Judge, Griffiths, Hill y Lee
(1980, pp. 719-72) y Quandt (1983).
Obviamente, estos mismos métodos pueden ser usados para minimizar la función Q (θ) con
respecto a θ. Simplemente multiplicamos la función objetivo por −1 y luego maximizamos la
función −Q (θ).
1.8. INFERENCIA ESTADÍSTICA CON ESTIMACIÓN DE MÁXIMA VEROSIMILITUD35
1.8. Inferencia Estadística con estimación de Máxima Verosimi-

litud
En la sección anterior se discutieron las formas para encontrar el estimador de máxima
verosimilitud θ̂ dado solo la habilidad numérica para evaluar la función de verosimilitud L (θ).
Esta sección resume los métodos generales que pueden ser usados para verificar una hipótesis
acerca de θ. Esta sección simplemente resume un número de resultados útiles sin proveer prueba
alguna. Regresaremos a estas cuestiones en mayor profundidad en el Capítulo 14, donde el
fundamento estadístico detrás de muchas de estas exposiciones serán desarrollado.
Antes de detallar estos resultados, sin embargo, vale la pena prestar atención a dos de los
supuestos claves detrás de las fórmulas presentadas en esta sección. Primero, se sume que los
datos observados son estrictamente estacionarios. Segundo, se asume que ni el estimador θ̂ ni el
verdadero valor θ 0 caen dentro de la frontera del espacio de parámetros permitibles. Por ejemplo,
suponga que el primer elemento de θ es un parámetro correspondiente a la probabilidad de un
evento en particular, el cual debe estar entre 0 y 1. Si el evento no ocurre en la muestra, el
estimador de máxima verosimilitud de la probabilidad podría ser cero. Este es un ejemplo donde
el estimador θ̂ cae en la frontera del espacio de parámetros permitibles, en cuyo caso las fórmulas
presentadas en esta sección no serán válidas.
1.8.1. Errores asintóticos estándares para la estimación de Máxima Verosi-

militud
Si la muestra de tamaño T es suficientemente grande, resulta a menudo que la distribución

del estimador de máxima verosimilitud θ̂ puede ser bien aproximado mediante la siguiente
distribución:

θ̂ ≈ N θ 0 , T −1 J −1 , (1.8.1)
donde θ 0 denota el vector de verdaderos parámetros. La matriz J es conocida como la matriz
de información y puede ser estimada en cualquiera de las dos formas.
El estimador de la segunda derivada de la matriz de información es

∂ 2 L (θ)
Jˆ2D = −T −1 . (1.8.2)
∂θ∂θ 0 θ=θ̂

donde L (θ) denota la verosimilitud logarítmica:

T
X
L (θ) = log fYt |Yt−1 (yt |Yt−1 ; θ) ;
t=1
y Yt denota la historia de las observaciones sobre y obtenido a través del periodo t. La matriz
de segundas derivadas de la verosimilitud logarítmica es a menudo calculada numéricamente.
Sustituyendo [1.8.2] en [1.8.1], los términos implican que el tamaño de la muestra T suprime de
tal manera que la matriz de varianzas y covarianzas de θ̂ puede ser aproximada mediante
" #−1
0
∼ ∂ 2 L (θ)
E θ̂ − θ 0 θ̂ − θ 0 = (1.8.3)
∂θ∂θ 0 θ=θ̂

Un segundo estimador de la matriz de información J en [1.8.1] es llamado el estimador

producto exterior:
T h i h i0
JÔP = T −1
X
h θ̂, Yt · h θ̂, Yt . (1.8.4)
t=1

Aquí h θ̂, Yt denota el vector (a × 1) de derivadas del logaritmo de la densidad condicional
de la t−ésima observación con respecto a los a elementos del vector de parámetros θ, con esta
derivada evaluada en el estimador de máxima verosimilitud θ̂:
∂ log f (yt |yt−1 , yt−2 , . . . ; θ)

h θ̂, Yt = .
∂θ
θ=θ̂
En este caso, la matriz de varianzas y covarianzas de θ̂ es aproximada mediante

i0 −1
" T #
0 Xh i h
E θ̂ − θ 0 θ̂ − θ 0 ∼
= h θ̂, Yt · h θ̂, Yt
t=1
Como una ilustración de como tales aproximaciones son utilizadas, suponga que la verosimi-
litud logarítmica está dada por la expresión [1.7.6]. Para este caso, uno pude ser analíticamente
que  
∂ 2 L (θ)  −3 0
0 =

∂θ∂θ 0 −4
y el resultado [1.8.3] sugiere que la varianza del estimador de máxima verosimilitud θ̂2 puede
ser aproximado por 14 . El MLE 4 para este ejemplo fue θ̂2 = 0. Así, un intervalo de confianza del
95 % aproximado está dado por r
1
= ±10±2
4
Observe que a menos que los elementos fuera de la diagonal de Jˆ son cero, en general uno
necesita para calcular todos los elementos de la matriz Jˆ e invertir esta matriz completa a fin
de obtener un error estándar para cualquier parámetro dado.
¿Cuál estimador de la matriz de información, Jˆ2D o JÔP , es mejor usar en la práctica?. La
expresión [1.8.1] es solo una aproximación a la verdadera distribución de θ̂, y Jˆ2D y JÔP son
en turno solo aproximaciones al verdadero valor de J . La teoría que justifica que estas aproxi-
maciones no dan una guía clara para el es mejor usar, y típicamente, los investigadores confían
en que la estimación de la matriz de información es fácil de calcular. Si los dos estimadores
difieren mucho, esto puede significar que el modelo está mal especificado. White (1982) desa-
rrolló una prueba general de especificación de modelo basado en esta idea. Una opción para la
construcción de errores estándar cuando los dos estimadores difieren significativamente es usar
los errores estándar de “cuasi-máxima verosimilitud” discutidos al final de esta sección.
1.8.2. Prueba del ratio de verosimilitud
Otro popular desarrollo para la verificación de hipótesis acerca de los parámetros que son
estimados por Máxima verosimilitud es la prueba del ratio de verosimilitud. Suponga una hipó-
tesis nula que implica a un conjunto de m diferentes restricciones sobre el valor de un vector
4
MLE:Estimación por Máxima Verosimilitud
1.8. INFERENCIA ESTADÍSTICA CON ESTIMACIÓN DE MÁXIMA VEROSIMILITUD37
(a × 1) de parámetros θ. Primero, maximizamos la función de verosimilitud ignorando estas res-

tricciones para obtener el estimador de máxima verosimilitud irrestricto θ̂. Luego, encontramos
una estimación θ̃ que hace la verosimilitud tan grande como sea posible mientras son satisfe-
chas todas las restricciones. En la práctica, esto es usualmente alcanzado definiendo un nuevo
vector λ de dimensión [(a − m) × 1] en términos de todos los elementos de θ los cuales pueden
ser expresados cuando la restricciones son satisfechas. Por ejemplo, si la restricción es que los
últimos m elementos de θ son cero, entonces λ consiste de los primeros a − m elementos de θ.

Sea L θ̂ el valor de la función de verosimilitud logarítmica en el estimador irrestricto, y sea

L θ̃ el valor de la función de verosimilitud logarítmica en el estimador restricto. Claramente

L θ̂ > L θ̃ , y ésto a menudo resulta ser el caso de que
h i
2 L θ̂ − L θ̃ ≈ χ2 (m) . (1.8.5)
Por ejemplo, suponga a = 2 y que estamos interesados en verificar la hipótesis de que

θ2 = θ1 + 1. Bajo esta hipótesis nula, el vector (θ1 , θ2 )0 puede ser escrito como (λ, λ + 1)0 , donde
λ = θ1 . Suponga que la verosimilitud logarítmica está dada por la expresión [1.7.6]. Uno puede
encontrar el MLE restricto reemplazando θ2 por θ1 + 1 y maximizando la expresión resultante
con respecto a θ1 :
L̃ (θ1 ) = −1,5θ12 − 2 (θ1 + 1)2 .
La condición de primer orden para la maximización de L̃ (θ1 ) es
−3θ1 − 4 (θ1 + 1) = 0,
0
o θ1 = − 47 . El MLE restricto es asi θ̃ = − 47 , 73 , y el valor máximo alcanzado por la verosimi-
litud logarítmica mientras se satisface la restricción es
2 2
3 4 4 3

L θ̃ = − − −
2 7 2 7
= − {(3 · 4) / (2 · 7 · 7)} {4 + 3}
6
=−
7

El MLE irrestricto es θ̂ = 0, en donde L θ̂ = 0. Por lo tanto, [1.8.5] sería
h i 12
2 L θ̂ − L θ̃ = = 1,71.
7
La prueba aquí involucra una simple restricción, de tal manera que m = 1. A partir de la Tabla
B.2 en el Apéndice B, la probabilidad de que una variable χ2 (1) exceda 3.84 es 0.05. Como
1,71 < 3,84 , aceptamos la hipótesis nula que θ2 = θ1 + 1 con un nivel de 5 % de significancia.
1.8.3. Prueba del multiplicador de Lagrange
Con el fin de utilizar los errores estándar a partir de [1.8.2] o [1.8.4] para probar una hipótesis
sobre θ, solo necesitamos encontrar el MLE irrestricto θ̂. Con el fin de utilizar la prueba de ratio
de verosimilitud [1.8.5], es necesario encontrar el MLE irrestricto θ̂ y el MLE restricto θ̃ . La
prueba del multiplicador de Lagrange provee un tercer principio con el cual se puede probar una
hipótesis nula que requiere solo MLE restricto θ̃. Esta prueba útil cuando es sencillo calcular el
estimador restricto θ̃ que el estimador irrestricto θ̂.
Sea θ un vector (a × 1) de parámetros, y sea θ̃ un estimador de θ que maximiza la verosimi-
litud logarítmica sujeta a un conjunto de m restricciones sobre θ. Sea f (yt |yt−1 , yt−1 , . . . ; θ) la

densidad condicional de la r−ésima observación, y sea h θ̃; Yt un vector (a × 1) de derivadas
de los logarítmos de esta densidad condicional evaluada en el estimador restricto θ̃:
∂ log f (yt |yt−1 , yt−2 , . . . ; θ)

h θ̃; Yt = .
∂θ
θ=θ̃
La prueba del multiplicador de Lagrange de la hipótesis nula de que las restricciones son todas
verdaderas está dado por el siguiente estadístico:
0
" T # " T #

−1 −1
X X
T h θ̃, Yt J h θ̃, Yt . (1.8.6)
t=1 t=1
Si la hipótesis nula es verdadera, entonces para T grande esta debería aproximadamente tener
una distribución χ2 (m). La matriz de información J puede de nuevo ser estimada como en
[1.8.2] o [1.8.4] con θ̂ reemplazado por θ̃.
1.8.4. Errores estándares de cuasi Máxima Verosimilitud
Como se mencionó anteriormente en esta sección si los datos son realmente generados a partir
de una densidad asumida y la talla de la muestra es lo suficientemente grande, el estimador de
la segundas derivadas Jˆ2D y el estimador del producto externo JÔP de la matriz de información
pueden estar razonablemente una muy cercada de la otra. Sin embargo, la estimación por má-
xima verosimilitud puede aún ser un medio razonable para estimar los parámetros incluso si los
datos no son generados mediante la densidad asumida. Por ejemplo, notamos en la Sección 5.2
que la MLE condicional para un proceso Gaussiano AR(1) es obtenido a partir de una regresión
OLS de yt sobre yt−1 . Esta regresión OLS5 es un medio muy sensible para estimar parámetros
de un proceso AR(1) incluso si las verdaderas innovaciones εt no son Gaussianas i.i.d. Aunque
la máxima verosimilitud puede estar arrojando un estimador razonable de θ, cuando las innova-
ciones no son Gaussianas i.i.d, los errores estándar propuestos en [1.8.2] o [1.8.4] ya no pueden
ser válidos. Una matriz de varianzas y covarianzas aproximada para θ̂ que es a menudo válida
aun si la densidad de probabilidad está mal especificada, esta dada por
0 n o−1
E θ̂ − θ 0 θ̂ − θ 0 ∼ −1
= T −1 J2D JOP J2D (1.8.7)
Esta matriz de varianzas y covarianzas fue propuesta por White (1982), quien describió este
método como la estimación de cuasi máxima verosimilitud.
5
OLS:Mínimos Cuadrados Ordinarios
1.9. RESTRICCIONES DE DESIGUALDAD 39
1.9. Restricciones de Desigualdad
1.9.1. Un error común en Maximización Numérica
Supongamos que hemos aplicado uno de los métodos discutidos en la Sección 5.7, tal como
el ascenso paso a paso para un proceso AR(1) en la verosimilitud [5.7.2]. Comenzamos con una
estimación inicial arbitraria, digamos, φ = 0,1. Nosotros calculamos la gradiente en este punto, y
encontramos que es positivo. La computadora es entonces programada para intentar mejorar esta

estimación evaluando la verosimilitud logarítmica en puntos descritos por φ(1) = φ(0) +s·g φ(0)
para varios valores de s, observando cual trabajaría mejor. Pero si la computadora intentara dar

un valor para s tal que φ(1) = φ(0) + s · g φ(0) = 1,1, el cálculo de [5.7.2] implicaría encontrar el
logaritmo de 1 − 1,12 = −0,21. Intentar calcular el logaritmo de un número negativo puede ser

típicamente ser un error de ejecución fatal, ocasionando que falle el procedimiento de búsqueda.
A menudo estos tipos de problemas se pueden evitar mediante el uso de procedimientos mo-
dificados de Newton-Raphson, siempre que la estimación inicial θ (0) sea elegida prudentemente y
siempre que el área de búsqueda inicial se mantenga relativamente pequeña. Este último podría
llevarse a cabo mediante el establecimiento de la matriz de ponderación inicial A(0) en [5.7.15] e
[5.7.16] igual a un multiplicador pequeño de la matriz identidad, tal que A(0) = 1 × 10−4 ·Ia .

En iteraciones posteriores, el algoritmo debe utilizar la forma de la función de verosimilitud en

la vecindad de la máxima para mantener la búsqueda conservadora. Sin embargo, si el verdadero
MLE es cercano a una de las fronteras (por ejemplo, si φ̂M LE = 0,998 en el ejemplo AR(1)), esto
sería virtualmente imposible mantener un algoritmo numérico de exploración de lo que sucede
cuando φ es mayor que la unidad, lo cual induce a un colapso fatal.
1.9.2. Resolviendo el problema de reparametrización de la función de Vero-

similitud
Una forma simple para garantizar que una búsqueda numérica siempre esté dentro de una
frontera especificada es reparametrizar la función de verosimilitud en términos de una vector
λ de (a × 1) para el cual θ = g (λ), donde la función g : Ra → Ra incorpora las restricciones
deseadas. El esquema es entonces como sigue:
Entrada Procedimiento Salida
valores de
y1, y2 , , yT establecer g( ) ; valor de
calcular L( ) . L(g( ))
y .
Por ejemplo, para garantizar que φ está siempre entre ±1, podemos tomar
λ
φ = g (λ) = . (1.9.1)
1 + |λ|
La meta es encontrar el valor de λ que produce el mas grande valor para el logaritmo de
verosimilitud. Iniciamos con un valor inicial tal como λ = 3. El procedimiento para evaluar la
función de verosimilitud logarítmica primero calcula
φ = 3/ (1 + 3) = 0,75
y luego encuentra el valor para la verosimilitud logarítmica asociada con éste valor de φ a partir
de [5.7.2]. No importa que el valor de λ la computadora suponga, el valor de φ en [1.9.1] será
siempre menor a 1 en valor absoluto y la función de verosimilitud estará bien definida. Una vez
que hallamos encontrado el valor λ̂ que maximiza la función de verosimilitud, el estimador de
máxima verosimilitud de φ está entonces dado por
λ̂
φ̂ = .
1 + λ̂

Esta técnica de reparametrización de la función de verosimilitud tal que estima siempre

de forma satisfactoria cualquier restricción necesaria es a menudo fácil de implementar. Sin
embargo, una nota de precaución debe ser mencionada. Si el error estándar es calculado a partir
de la matriz de las segundas derivadas de la verosimilitud logarítmica como en [5.8.3], éste
representa el error estándar de λ̂, no al error estándar de φ̂. Para obtener el error estándar para
φ̂, la mejor forma es primero parametrizar la función de verosimilitud en términos de λ para
encontrar el MLE, y luego reparametrizar en términos de φ para calcular la matriz de segundas
derivadas evaluada en φ̂ para obtener el error estándar final para φ̂. Alternativamente, uno puede
calcular una aproximación al error estándar para φ̂ a partir del error estándar para λ̂, basado
en la fórmula para un test de Wald de una hipótesis no lineal descrita en el Capítulo 14.
1.9.3. Parametrización para una matriz de varianzas y covarianza
Otra restricción común que uno necesita imponer es que un parámetro varianza σ 2 sea
positivo.
Una manera obvia de lograr esto es con la parametrizacion del estimador de verosimilitud en
términos de λ el cual representa ±1 veces la desviación estándar. El procedimiento para evaluar
la verosimilitud logarítmica empieza elevando al cuadrado este parámetro λ
σ 2 = λ2 ;
y si la desviación estándar σ es llamado asi mismo, ese es calculado como

√
σ= λ2 .
En general, denotemos Ω a una matriz (n × n) de varianzas y covarianzas

 
σ11 σ12 · · · σ1n
 
 σ21

σ22 · · · σ2n 

Ω=
 .. .. .. ..

.

 . . . 
 
σn1 σn2 · · · σnn
Aquí se requiere imponer la condición de que Ω es definida positiva y simétrica. El mejor

enfoque es parametrizar Ω en términos de n (n + 1) /2 elementos distintos de la descomposición
de Cholesky de Ω:
Ω = PP0 (1.9.2)
donde  
λ11 0 0 ··· 0
 
 λ21

λ22 0 ··· 0 

P= .
 .. .. .. ..
···

 . . . . 
 
λn1 λn2 λn3 · · · λnn
No importa los valores que toma para λ11 , λ21 , . . . , λnn , la matriz Ω calculada a partir de [1.9.2]
será simétrica y semidefinida positiva.
1.9.4. Parametrización de probabilidades
A veces algunos parámetros desconocidos son probabilidades p1 , p2 , . . . , pK los cuales deben

satisfacer las restricciones
0 ≤pi ≤ 1 para i = 1, 2, . . . , K
p1 + p2 + · · · + pK = 1
En este caso, un alcance es parametrizar las probabilidades en términos de λ1 , λ2 , . . . , λK−1 ,

donde

pi =λ2i / 1 + λ21 + λ22 + · · · + λ2K−1 para i = 1, 2, . . . , K

pK =1/ 1 + λ21 + λ22 + · · · + λ2K−1
1.9.5. Restricciones de desigualdad más generales
Para las más complicadas restricciones de desigualdad que no admiten una sencilla para-
metrización, un enfoque que a veces funciona es poner una declaración de ramificación en el
procedimiento para evaluar la probabilidad de la función de verosimilitud logarítmica. El proce-
dimiento comprueba primero si la restricción es satisfecha. Si es así, a continuación, se evalúa la
función de verosimilitud de la forma habitual. Si no lo es, a continuación, el procedimiento de-
vuelve un gran número negativo en lugar del valor de la función de verosimilitud logarítmica. A
veces este enfoque permitirá que un MLE cumpla las condiciones especificadas para encontrarse
con simples procedimientos numéricos de búsqueda.
Si estas medidas no resultan adecuadas, están disponibles algoritmos más complicados. Jud-
ge, Griffiths, Hill, y Lee (1980, pp. 747 – 749) describen algunos de los posibles alcances.
Apéndice 5.A
Prueba de la Proposición 5.1
(a) Por el Teorema de Taylor,

h i0 h i
L θ (m+1) = L θ (m) + g θ (m) θ (m+1) − θ (m) + R1 θ (m) , θ (m+1) . (1.9.3)
sustituyendo [5.7.18] en [5.A.1],

h i0
L θ (m+1) − L θ (m) = g θ (m) sA(m) g θ (m) + R1 θ (m) , θ (m+1) . (1.9.4)

A partir de que A(m) es definida positiva y que g θ (m) 6= 0, la expresión [1.9.4] establece que:

L θ (m+1) − L θ (m) = sκ θ (m) + R1 θ (m) , θ (m+1) ,

donde κ θ (m) > 0. Mas aún, s−1 R1 θ (m) , θ (m+1) → 0 conforme s → 0. Por lo tanto, existe

un s tal que L θ (m+1) − L θ (m) > 0, como se exigía.
(b) Una diferenciación directa revela que

∂L θ (m+1) ∂L ∂θ1 ∂L ∂θ2 ∂L ∂θa
= + + ··· +
∂s ∂θ1 ∂s ∂θ2 ∂s ∂θa ∂s
h i0 ∂θ (m+1)
= g θ (m+1)
∂s
h i0
= g θ (m+1) A(m) g θ (m) , (1.9.5)
con la última linea que sigue de [5.7.18]. Las condiciones de primer orden establecen que [1.9.5]
es igual a cero, lo cual implica:
h i0 h i0 h i
0 = g θ (m+1) sA(m) g θ (m) = g θ (m+1) θ (m+1) − θ (m) ,
con la última linea de nuevo que sigue de nuevo de [5.7.18]. Ésto establece lo reclamado en
[5.7.19].
(c) Sea y un vector (a × 1) distinto de cero. La tarea es mostrar que y0 sA(m) y>0. Observe
que a partir de [5.7.16]:
0
y0 A(m) ∆g(m+1) ∆g(m+1) A(m) y
0 (m+1) 0 (m)
yA y=yA y− 0
∆g(m+1) A(m) ∆g(m+1)
0
y0 ∆θ (m+1) ∆θ (m+1) y
− 0 . (1.9.6)
∆g(m+1) ∆θ (m+1)
Dado que A(m) es definida positiva, existe una matriz no singular P tal que
A(m) = PP0
Definimos
y ∗ ≡ P0 y
x∗ ≡ P0 ∆g(m+1) .
Entonces [1.9.6] puede ser escrito como

0
y0 PP0 ∆g(m+1) ∆g(m+1) PP0 y
0 (m+1) 0 0
yA y = y PP y − 0
∆g(m+1) PP0 ∆g(m+1)

0
y0 ∆θ (m+1) ∆θ (m+1) y
− 0
∆g(m+1) ∆θ (m+1)
0
y∗ 0 x ∗ x ∗ 0 y∗

y0 ∆θ (m+1) ∆θ (m+1) y
∗0 ∗
=y y − − . (1.9.7)
x∗ 0 x∗ 0
∆g(m+1) ∆θ (m+1)
Llamamos de nuevo a la ecuación [4.A.6], los primeros dos términos en la ultima línea de [1.9.7]
representa la suma del cuadrado de los residuos de una regresión OLS de y∗ sobre x∗ . Este no
puede ser negativo,
y∗ 0 x ∗ x ∗ 0 y∗

∗0 ∗
y y − > 0; (1.9.8)
x∗ 0 x∗
Esto será igual a cero si la regresión OLS tiene un ajuste perfecto, o si y∗ = βx∗ o P0 y =
βP0 ∆g(m+1) sobre algún β. A partir de que P es no singular, la expresión [1.9.8] puede solo ser
cero si y = β∆g(m+1) para algún β. Considere dos casos:
Caso 1. No hay β tal que y = β∆g(m+1) . En este caso, la desigualdad [1.9.8] es estricta y
[1.9.7] implica
h i2
y0 ∆θ (m+1)
y0 A(m+1) y > − 0 ,
∆g(m+1) ∆θ (m+1)
h i2
A partir de que y0 ∆θ (m+1) > 0, se sigue que y0 A(m+1) y > 0, con tal que
0
∆g(m+1) ∆θ (m+1) < 0. (1.9.9)
Pero, a partir de [5.7.19],

0 h i0
∆g(m+1) ∆θ (m+1) = g θ (m+1) − g θ (m) ∆θ (m+1)
0
= −g θ (m) ∆θ (m+1)
0
= −g θ (m) sA(m) g θ (m) , (1.9.10)
con la última línae seguida a partir de [5.7.18]. Pero el término final en [1.9.10] puede ser

negativo, en virtud de que A(m) es definida positiva, s > 0, y g θ (m) 6= 0. Por lo tanto [1.9.9]
se mantiene, significando que A(m+1) es definida positiva para este caso.
Caso 2. Existe un β tal que y = β∆g(m+1) . En este caso, [1.9.8] es cero, de tal manera que
[1.9.7] se convierte en
0
y0 ∆θ (m+1) ∆θ (m+1) y
y0 A(m+1) y = − 0
∆g(m+1) ∆θ (m+1)
0 0
β ∆g(m+1) ∆θ (m+1) ∆θ (m+1) β ∆g(m+1)
=− 0
∆g(m+1) ∆θ (m+1)
0 0
= −β 2 ∆g(m+1) ∆θ (m+1) = β 2 g θ (m) sA(m) g θ (m) > 0,
como en [1.9.10].
Ejercicios
1. Muestre que el valor de [1.4.16] en θ = θ̄, σ 2 = σ̄ 2 es idéntico al valor en θ = θ̄−1 , σ 2 = θ̄2 σ̄ 2 .
2. Verificar que la expresión [5.7.12] calcula el máximo de [5.7.6] en un simple paso a partir
de la estimación inicial θ (0) = (−1, 1)0 .
3. Sea (y1 , y2 , . . . , yT ) una muestra de tamaño T realizada a partir de una distribución

N µ, σ 2 .

a) Muestre que los estimadores por máxima verosimilitud estan dados por
T
µ̂ = T −1
X
yt
t=1
T
σ̂ 2 = T −1 (yt − µ̂)2 .
X
t=1
b) Muestre que el máximo J2D en [5.8.2] es

 
1/σ̂ 2 0
Jˆ2D =  .
0 1/ 2σ̂ 4
c) Muestre que para este ejemplo el resultado [5.8.1] sugiere

     
µ̂ µ σ̂ 2 /T 0
  ≈ N  ,  .
σ̂ 2 σ2 0 2σ̂ 4 /T
Referencias
Anderson, Brian D. 0., and John B. Moore. 1979. Optimal Filtering. Englewood Cliffs, N.J.:
Prentice-Hall.
Berndt, E. K., B. H. Hall, R. E. Hall, and J. A. Hausman. 1974. "Estimation and Inference in
Nonlinear Structural Models." Annals of Economic and Social Measurement 3:653-65.
Box, George E. P., and D. R. Cox. 1964. "An Analysis of Transformations." Journal of the Royal
Statistical Society Series B, 26:211-52. —and Gwilym M. Jenkins. 1976. Time Series Analysis:
Forecasting and Control, rev. ed. San Francisco: Holden-Day.
Broyden, C. G. 1965. "A Class of Methods for Solving Nonlinear Simultaneous Equations." Mat-
hematics of Computation 19:577-93. —. 1967. "Quasi-Newton Methods and Their Application
to Function Minimization." Mathematics of Computation 21:368-81.
Chiang, Alpha C. 1974. Fundamental Methods of Mathematical Economics, 2d ed. New York:
McGraw-Hill.
Davidon, W. C. 1959. "Variable Metric Method of Minimization." A.E.C. Research and Deve-
lopment Report ANL-5990 (rev.).
Fletcher, R., and M. J. D. Powell. 1963. "A Rapidly Convergent Descent Method for Minimiza-
tion." Computer Journal 6:163-68.
Galbraith, R. F., and J. I. Galbraith. 1974. "On the Inverses of Some Patterned Matrices Arising
in the Theory of Stationary Time Series." Journal of Applied Probability 11:63-71.
Hannan, E., and J. Rissanen. 1982. "Recursive Estimation of Mixed Autoregressive-Moving
Average Order." Biometrika 69:81-94.
Janacek, G. J., and A. L. Swift. 1990. ”A Class of Models for Non-Normal Time Series." Journal
of Time Series Analysis 11:19-31.
Judge, George G., William E. Griffiths, R. Carter Hill, and Tsoung-Chao Lee. 1980. The Theory
and Practice of Econometrics. New York: Wiley.
Koreisha, Sergio, and Tarmo Pukkila. 1989. "Fast Linear Estimation Methods for Vector Auto-
regressive Moving-Average Models." Journal of Time Series Analysis 10:325-39.
Li, W. K., and A. I. McLeod. 1988. "ARMA Modelling with Non-Gaussian Innovations." Journal
of Time Series Analysis 9:155-68.
Martin, R. D. 1981. "Robust Methods for Time Series," in D. F. Findley, ed., Applied Time
Series, Vol. ll. New York: Academic Press.
Nelson, Harold L. , and C. W. J. Granger. 1979. "Experience with Using the Box~Cox Trans-
formation When Forecasting Economic Time Series." Journal of Econometrics 10:57- 69.
Quandt, Richard E. 1983. "Computational Problems and Methods," in Zvi Griliches and Michael
D. Intriligator, eds., Handbook of Econometrics, Vol. 1. Amsterdam: North-Holland.
White, Halbert. 1982. "Maximum Likelihood Estimation of Misspecified Models." Econometrica
50:1-25.

Cap5 MV

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cap5 MV

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL DE INGENIERÍA

Escuela Profesional de Ingeniería Económica

1. Estimación de Máxima Verosimilitud 5

1.9. Restricciones de Desigualdad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Estimación de Máxima Verosimilitud

Yt = c + φ1 Yt−1 + φ2 Yt−2 + · · · + φp Yt−p + εt + θ1 εt−1

considerando εt un ruido blanco:

En los capítulos anteriores asumimos que los parámetros c, φ1 , . . . , φp , θ1 , . . . , θq , σ 2 eran co-

fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) (1.1.4)

1.2. La función de Máxima Verosimilitud para un Proceso Gaus-

1.2.1. Evaluando la función de Verosimilitud

Un proceso gaussiano AR(1) toma la forma:

Luego, considere la distribución de la segunda observación Y2 condicional a la observación Y1 =

Condicionado sobre Y1 = y1 significa que el tratamiento de la variable aleatoria Y1 es como

lo cual significa que

La densidad conjunta de las observaciones 1 y 2 es entonces sólo el producto de [1.2.4] y [1.2.2]

fY2 ,Y1 (y2 , y1 ; θ) = fY2 |Y1 (y2 |y1 ; θ) · fY1 (y1 ; θ) .

Similarmente, la distribución de la tercera observación condicional a las dos primeras es

1.2.2. Una expresión alternativa para la función de Verosimilitud

Una descripción diferente de la función de verosimilitud para una muestra de tamaño T de

donde, como antes, µ = c/ (1 − φ) . En forma de vector, [1.2.10] podría ser escrito

por lo tanto, [1.2.12] puede ser escrita como

con la verosimilitud logarítmica

Evidentemente, [1.2.17] y [1.2.9] debe representar la función de (y1 , y2 , . . . , yT ). Para verificar

Es fácil demostrar que1

esto implica a partir de [1.2.14] que

Substituyendo [1.2.20] en [1.2.17] se obtiene

y pre multiplicando por L0 produce la matriz identidad (T × T ). Así, L0 LV = I, confirmándose [1.2.19]

Definiendo el vector ỹ de orden (T × 1)

Sustituyendo µ = c/ (1 − φ), esto se convierte en

El último término en [1.2.21] puede ser escrito

El término medio en [1.2.21] es similarmente

1.2.3. Estimación de Máxima Verosimilitud Exacta para el Proceso Gaus-

1.2.4. Estimación de Máxima Verosimilitud Condicional

Una alternativa a la maximización numérica de la función de verosimilitud exacta es consi-

el objetivo será entonces maximizar

La maximización de [1.2.27] con respecto a c y φ es equivalente a la minimización de

la cual se consigue por el método de Mínimos Cuadrados Ordinarios (MCO) en la regresión

donde Σ denota la suma sobre t = 2, 3, . . . , T .

En otras palabras, la estimación de máxima verosimilitud condicional, es el residuo promedio al

1.3. La función de Máxima Verosimilitud para un Proceso Gaus-

En esta sección se discutirá un proceso gaussiano AR(p) de la forma:

Yt = c + φ1 Yt−1 + φ2 Yt−2 + ... + φp Yt−p + εt (1.3.1)

1.3.1. Evaluando la función de Verosimilitud

Denotemos a σ 2 V como la matriz (p × p) de varianzas y covarianzas de (Y1 , Y2 , . . . , Yp ) :

auto regresión general de orden p,

donde se ha hecho uso del resultado [A.4.8].

c + φ1 yt−1 + φ2 yt−2 + · · · + φp yt−p

La función de verosimilitud para la muestra completa es entonces

fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ) = fYp ,Yp−1 ,...,Y1 (yp , yp−1 , . . . , y1 ; θ)

y la log verosimilitud es por lo tanto

L (θ) = log fYT ,YT −1 ,...,Y1 (yT , yT −1 , . . . , y1 ; θ)

La evaluación de [1.3.5] requiere invertir la matriz Vp de orden (p × p). Denote al elemento

Así σ 2 V1 = σ 2 / 1 − φ , el cual reproduce la fórmula de varianza para un proceso AR(1). Para

p = 2, la ecuación [1.3.6] implica

a partir de la cual se calcula

La verosimilitud logarítmica exacta para un proceso Gaussiano AR(2) es dada por

1.3.2. Estimación de Máxima Verosimilitud Condicional

La maximización de la función de verosimilitud logarítmica exacta para un proceso AR(p)

log fYT ,YT −1 ,...,Yp+1 |Yp ,...,Y1 (yT , yT −1 , . . . , yp+1 |yp , . . . , y1 ; θ)

La estimación de máxima verosimilitud exacta y la estimación de máxima verosimilitud condi-

1.3.3. Estimación de Máxima Verosimilitud para Series de Tiempo No Gaus-

Un método consiste en elegir una valor particular de λ y maximizar la función de verosimilitud