Está en la página 1de 38

Estimacin de modelos no lineales y modelos

dinmicos
Alfonso Novales Departamento de Economa Cuantitativa
Universidad Complutense
Septiembre 2009
Contents
1 Estimacin de modelos no lineales 2
2 Minimos Cuadrados no Lineales 2
3 Aproximacin del modelo 3
3.1 Estimacin de modelos MA(q) . . . . . . . . . . . . . . . . . . . 4
3.2 Modelo exponencial con constante. Aproximacin lineal . . . . . 5
4 Minimizacin de una funcin 6
4.1 Estimacin por Mnimos Cuadrados . . . . . . . . . . . . . . . . 7
4.1.1 Algoritmo de Newton-Raphson . . . . . . . . . . . . . . . 8
4.1.2 Algoritmo de Gauss-Newton . . . . . . . . . . . . . . . . . 9
4.1.3 Condiciones iniciales . . . . . . . . . . . . . . . . . . . . . 10
4.2 Estimador de Mxima Verosimilitud . . . . . . . . . . . . . . . . 11
4.3 Modelo exponencial sin constante. Aproximacin lineal . . . . . . 13
4.3.1 Algoritmo de Newton-Raphson . . . . . . . . . . . . . . . 14
4.4 Un modelo no identicado . . . . . . . . . . . . . . . . . . . . . . 15
4.5 Estimacin de un modelo potencial . . . . . . . . . . . . . . . . . 15
4.6 Criterios de convergencia . . . . . . . . . . . . . . . . . . . . . . 16
4.7 Dicultades prcticas en el algoritmo iterativo de estimacin . . 18
4.8 Estimacin condicionada . . . . . . . . . . . . . . . . . . . . . . . 19
5 Estimacin del modelo AR(1), sin autocorrelacin 21
6 Modelo constante, con autocorrelacin 25
6.1 Ejercicio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
7 Estimacin de Mxima Verosimilitud del modelo AR(1) con
perturbaciones AR(1) 29
8 Sesgo asinttico en el modelo AR(1) con autocorrelacin 34
1
1 Estimacin de modelos no lineales
Es bien conocido que el estimador de Mnimos Cuadrados Ordinarios de un
modelo de relacin lineal,
j
|
= r
0
|
, +n
|
, t = 1, 2, ..., T (1)
viene dado por la expresin matricial,
^
, = (A
0
A)
1
A1
siendo A la matriz Tr/ que tiene por columnas las T observaciones de cada
una de las / variables explicativas contenidas en el vector r
|
, e 1 el vector
columna, de dimensin T, formado por las observaciones de j
|
. Este estimador,
que es lineal (funcin lineal del vector 1 ), es insesgado. Es el de menor varianza
entre los estimadores lineales si la matriz de covarianzas de los trminos de error
tiene una estructura escalar,
\ ar(n) = o
2
u
1
T
Si, adems de tener dicha estructura de covarianzas, el trmino de error
tiene una distribucin Normal, entonces el estimador de Mnimos Cuadrados
coincide con el estimador de Mxima Verosimilitud, siendo entonces eciente:
estimador de menor varianza, entre todos los estimadores insesgados, sea cual
sea su dependencia respecto del vector de 1 .
Supongamos que se pretende estimar la relacin,
j
|
= )(r
|
, ,) +n
|
, (2)
donde )(r
|
, ,) es una funcin no lineal de los componentes del vector /r1, ,.
Si )(r
|
, ,) es no lineal nicamente en las variables explicativas r
|
, un cambio de
variable permite transformar el modelo anterior en un modelo lineal. Excluimos,
sin embargo, inicialmente, la estimacin de relaciones implcitas, representables
a partir de un modelo general del tipo,
q(j
|
, r
|
, ,) +n
|
,
2 Minimos Cuadrados no Lineales
El procedimiento de Mnimos Cuadrados no Lineales en este modelo consiste en
resolver el problema de optimizacin:
min
0
o1(
^
0) = min
0
T

|=1
^ n
|
_
^
0
_
= min
0
T

|=1
[j
|
)(r
|
, ,)]
2
resolver el sistema de ecuaciones,
2
_
0)(r
|
, ,)
0,
_
0
j =
_
0)(r
|
, ,)
0,
_
0
)(A, ,)
donde el vector gradiente es Tr/, y )(A, ,) es Tr1. Este sistema puede
no tener solucin, o tener mltiples soluciones. A diferencia del estimador de
Mnimos Cuadrados aplicado a un modelo lineal, el estimador no es insesgado.
La matriz de covarianzas del estimador resultante es:
\ ar(
^
0) = o
2
u
_
_
0)(r
|
, ,)
0,
_
0
_
0)(r
|
, ,)
0,
_
_
1
que se reduce a la de la seccin anterior en el caso de un modelo lineal.
Si quisiramos aplicar Mnimos Cuadrados directamente, en el modelo ex-
ponencial,
j
|
= )(r
|
, 0) +n
|
= c +,
1
c
o
2
rt
+n
|
con 0 = (c, ,
1
, ,
2
) , tendramos que resolver el problema,
min
0
o1(
^
0) = min
0
T

|=1
_
^ n
|
_
^
0
__
2
= min
0
T

|=1
_
j
|
(c +,
1
c
o
2
rt
)

2
que conduce a las condiciones de optimalidad,

j
|
= cT +,
1

c
o
2
rt

j
|
c
o
2
rt
= c

c
o
2
rt
+,
1

c
2o
2
rt

j
|
r
|
c
o
2
rt
= c

r
|
c
2o
2
rt
+,
1

r
|
c
2o
2
rt
que carece de solucin explcita, por lo que debe resolverse por procedimien-
tos numricos.
3 Aproximacin del modelo
Un primer enfoque consiste en estimar la aproximacin lineal del modelo (2) ,
alrededor de una estimacin inicial,
j
|
= )(r
|
,
^
,) +
_
0)(r
|
, ,)
0,
_
o=
^
o
_
,
^
,
_
+n
|
,
que consiste en estimar, por el procedimiento habitual de Mnimos Cuadra-
dos, la relacin lineal,
j

|

_
0)(r
|
, ,)
0,
_
o=
^
o
, +n
|
,
3
donde la variable j

|
se genera numricamente mediante su denicin. j

|
=
j
|
)(r
|
,
^
,) +
_
J}(rt,o)
Jo
_
o=
^
o
^
,, y hay que generar asimismo datos para cada
una de las / variables denidas por el gradiente
_
J}(rt,o)
Jo
_
o=
^
o
.
La estimacin es,
~
, =
_
_
0)(r
|
, ,)
0,
_
0
o=
^
o
_
0)(r
|
, ,)
0,
_
o=
^
o
_
1 _
0)(r
|
, ,)
0,
_
0
o=
^
o
j

donde el vector gradiente es una matriz de pseudo-datos, de dimensin Tr/,


e j

es un vector Tr1.
El estimador puede escribirse tambin,
~
, =
^
, +
_
_
0)(r
|
, ,)
0,
_
0
o=
^
o
_
0)(r
|
, ,)
0,
_
o=
^
o
_
1 _
0)(r
|
, ,)
0,
_
0
o=
^
o
^ n.
Este resultado es muy interesante, pues permite poner en prctica un pro-
cedimiento iterativo, en el que, en cada etapa, los errores calculados a partir de
la estimacin
^
, se utilizan para calcular la correccin que hay que introducir en
el vector de estimaciones en dicha etapa.
El estimador resultante tras la convergencia del procedimiento tiene una
distribucin asinttica Normal, con esperanza matemtica igual al verdadero
vector de parmetros ,, y su matriz de covarianzas puede estimarse por,
^ o
2
u
_
_
0)(r
|
, ,)
0,
_
0
o=
~
o
_
0)(r
|
, ,)
0,
_
o=
~
o
_
1
(3)
con ^ o
2
u
=
1
T|

T
|=1
~ n
2
|
,siendo el residuo ~ n
|
= j
|
)(r
|
,
~
,).
3.1 Estimacin de modelos MA(q)
Una aplicacin interesante de este procedimiento consiste en la estimacin de
estructuras de medias mviles en modelos lineales de series temporales. Como
ejemplo, consideremos un modelo MA(2),
j
|
= -
|
0
1
-
|1
0
2
-
|2
que puede aproximarse linealmente por,
-
|
-
0
|
+
_
0
1
0
0
1
_
_
0-
|
00
1
_
0=00
+
_
0
2
0
0
2
_
_
0-
|
00
2
_
0=00
siendo 0
0
=
_
0
0
1
, 0
0
2
_
una estimacin inicial de los parmetros del modelo.
En este modelo se tiene,
4
0-
|
00
1
= -
|1
;
0-
|
00
2
= -
|2
por lo que podemos escribir la aproximacin anterior como,
-
0
|
0
0
1
_
0-
|
00
1
_
0=00
0
0
2
_
0-
|
00
2
_
0=00
= 0
1
_
0-
|
00
1
_
0=00
0
2
_
0-
|
00
2
_
0=00
+-
|
es decir,
-
0
|
0
0
1
-
0
|1
0
0
2
-
0
|2
= 0
1
-
0
|1
0
2
-
0
|2
+-
|
que conduce a estimar el modelo lineal de regresin,
n
|
= 0
1
r
1|
+0
2
r
2|
+-
|
donde,
n
|
= -
0
|
0
0
1
-
0
|1
0
0
2
-
0
|2
r
1|
= -
0
|1
r
2|
= -
0
|2
Para obtener los errores en este caso, se jan los 2 primeros igual a su
esperanza matemtica, cero, y se utiliza la propia expresin del modelo '(2),
escrito en la forma,
-
|
= j
|
+0
0
1
-
|1
+0
0
2
-
|2
para generar la serie temporal -
0
|
, t = 1, 2, ....T.
3.2 Modelo exponencial con constante. Aproximacin lin-
eal
Consideremos nuevamente la estimacin del modelo exponencial:
j
|
= c +,
1
c
o
2
rt
+n
|
= )(r
|
, 0) +n
|
con 0 = (c, ,
1
, ,
2
) . El gradiente de la funcin ) que dene la relacin entre
variable dependiente e independiente, es,
0)(r
|
, 0)
00
=
_
1, c
o
2
rt
, ,
1
r
|
c
o
2
rt
_
0
por lo que la aproximacin lineal al modelo original es,
j
|
)(r
|
,
^
0) +
_
0)(r
|
, 0)
00
_
0
0=
^
0
_
0
^
0
_
+n
|
, t = 1, 2, ..., T,
5
que deniendo variables:
j

|
= j
|
)(r
|
,
^
0) +
_
0)(r
|
, 0)
00
_
0
0=
^
0
^
0 = j
|
+
^
,
1
^
,
2
c
^
o
2
rt
.
1|
= c
^
o
2
rt
.
2|
=
^
,
1
r
|
c
^
o
2
rt
conduce a estimar el modelo,
j

|
= c +,
1
.
1|
+,
2
.
2|
+n
|
, t = 1, 2, ..., T (4)
A partir de unas estimaciones iniciales denotadas por el vector
^
0 =
_
^ c,
^
,
1
,
^
,
2
_
,
generamos observaciones numcas para la variable j

|
, as como para las varaibles
.
1|
, .
2|
, y procedemos a estimar el modelo (4) , obteniendo las nuevas estima-
ciones numricas de los tres parmetros. Con ellos, podramos volver a obtener
observaciones numricas de j

|
, .
1|
, .
2|
, e iterar el procedimiento.
Como hemos visto antes, este procedimiento puede tambin ponerse en prc-
tica estimando la regresin de los residuos sobre el vector gradiente:
^ n
|
= c
0
+c
1
.
1|
+c
2
.
2|
Tanto el clculo del vectror de residuos como la generacin de datos para
el vector gradiente dependern de la estimacin concreta disponible en ese mo-
mento, y procederemos a la actualizacin de valores numricos de los parmet-
ros, mediante:
^ c
n
= ^ c
n1
+
^
c
0
;
^
,
1,n
=
^
,
1,n1
+
^
c
1
;
^
,
2,n
=
^
,
2,n1
+
^
c
2
siendo ^ n
|
= j
|
)(r
|
,
^
0
n1
).
4 Minimizacin de una funcin
Supongamos que queremos hallar el valor del vector de parmetros 0 que min-
imiza una funcin 1 (0) . A partir de una estimacin inicial del valor de dicho
vector,
^
0
n1
, aproximamos la funcin 1 (.) .
1 (0) 1
_
^
0
n
_
+
_
\1
_
^
0
n
__
0
_
0
^
0
n
_
+
1
2
_
0
^
0
n
_
0
_
\
2
1
_
^
0
n
__ _
0
^
0
n
_
= ' (0)
Si quisiramos minimizar la funcin ' (0) ,resolveramos el sistema de ecua-
ciones,
' (0) =
_
\1
_
^
0
n
__
+
_
\
2
1
_
^
0
n
__ _
0
^
0
n
_
= 0
que conduce a,
6
0 =
^
0
n

_
\
2
1
_
^
0
n
__
1
_
\1
_
^
0
n
__
valor numrico que puede tomarse como la nueva estimacin,
^
0
n+1
. Por
supuesto, convendr comprobar que el Hessiano \
2
1
_
^
0
n
_
es denido positivo.
Este es un algoritmo iterativo, conocido como algoritmo de Newton-Raphson.
Converge en una sla etapa al mnimo local cuando la funcin 1 (0) es cuadrtica.
En los dems casos, no hay ninguna seguridad de que el algoritmo vaya a con-
verger. Incluso si lo hace, no hay seguridad de que converja al mnimo global,
frente a hacerlo a un mnimo local. Adems, no es posible saber si el lmite
alcanzado es o no un mnimo de naturaleza local. Por eso, conviene repetir
el ejercicio partiendo de condiciones iniciales muy distintas para, si converje,
certicar que lo hace a un mnimo local peor que el alcanzado previamente.
Las iteraciones continan hasta que se satisfacen las condiciones de conver-
gencia que hallamos disedo. Estas pueden ser una combinacin de condiciones
de diverso tipo,
_
^
0
n

^
0
n1
_
0
_
^
0
n

^
0
n1
_
< -
1
_
\1
_
^
0
n
__
0
_
\1
_
^
0
n
__
< -
2
1
_
^
0
n
_
1
_
^
0
n1
_
< -
3
En este tipo de algoritmos puede utilizarse un parmetro ` de longitud de
paso, para tratar de controlar la velocidad de convergencia y, con ello, posibilitar
que nos aproximemos al mnimo global, o que no abandonemos demsiado pronto
una determinada regin del espacio paramtrico:
0 =
^
0
n
`
_
\
2
1
_
^
0
n
__
1
_
\1
_
^
0
n
__
4.1 Estimacin por Mnimos Cuadrados
En este caso tenemos,
1 (0) =
T

|=1
(j
|
)(r
|
, ,))
2
= o1(,)
y la regla iterativa,
^
,
n
=
^
,
n1

_
\
2
1
_
^
,
n1
__
1
_
\1
_
^
,
n1
__
es fcil ver que,
7
\1
_
^
,
n1
_
=
0o1(,)
0,
= 2
T

|=1
0)(r
|
, ,)
0,
n
|
\
2
1
_
^
,
n1
_
=
0
2
o1(,)
0,0,
0
= 2
T

|=1
_
0)(r
|
, ,)
0,
__
0)(r
|
, ,)
0,
_
0

|=1
0
2
)(r
|
, ,)
0,0,
0
n
|
en este caso, el algoritmo de Newton-Raphson consiste en:
^
,
n
=
^
,
n1
+
_
T

|=1
_
0)(r
|
, ,)
0,
__
0)(r
|
, ,)
0,
_
0

0
2
)(r
|
, ,)
0,0,
n
|
_
1
_
T

|=1
0)(r
|
, ,)
0,
n
|
_
El estimador resultante es asintticamente insesgado, con matriz de covari-
anzas,
o
2
u
_
\
2
1
_
^
0
n
__
1
estimndose el parmetro o
2
u
del modo antes referido, mediante el cociente
de la Suma de Cuadrados de los errores de ajuste y el nmero de grados de
libertad del modelo.
El algoritmo de Gauss-Newton consiste en ignorar la presencia de la segunda
derivada en la matriz inversa anterior, y considerar el esquema iterativo,
^
,
n
=
^
,
n1
+
_
T

|=1
_
0)(r
|
, ,)
0,
__
0)(r
|
, ,)
0,
_
0
_
1
_
T

|=1
0)(r
|
, ,)
0,
n
|
_
Al despreciar la segunda derivada, este algoritmo entra en dicultades cuando
la supercie a optimizar no tiene suciente curvatura que, como veremos ms
adelante, son las situaciones que en trminos estadsticos, corresponden a iden-
ticacin imperfecta de los parmetros del modelo.
El inters de este segundo algoritmo estriba en que la expresin matricial
que aparece en el segundo sumando corresponde con las estimaciones de mn-
imos cuadrados del vector de errores, calculado con las estiamciones actuales,
sobre las variables denidas por el vector gradiente
J}(rt,o)
Jo
, que son /. Las
estimaciones resultantes son las correcciones a introducir sobre las actuales es-
timaciones del vector , para tener la siguiente. La matriz de covarianzas del
estimador resultante responde de nuevo a la expresin (3) .
4.1.1 Algoritmo de Newton-Raphson
Consideremos de nuevo la estimacin del modelo exponencial. Si denotamos
por 1 (0) la funcin Suma de Cuadrados de Residuos, tenemos el gradiente y
matriz hessiana,
8
\1 (0) = 2

0) (r
|
, 0)
00
^ n
|
= 2

0)
|
00
^ n
|
= 2

_
1, c
o
2
rt
, ,
1
r
|
c
o
2
rt
_
^ n
|
\
2
1 (0) = 2

_
0)
|
00
__
0)
|
00
_
0
2

0
2
)
|
00
2
^ n
|
=
= 2
T

|=1
_
_
1 c
o
2
rt
,
1
r
|
c
o
2
rt
c
o
2
rt
c
2o
2
rt
,
1
r
|
c
2o
2
rt
,
1
r
|
c
o
2
rt
,
1
r
|
c
2o
2
rt
,
2
1
r
2
|
c
2o
2
rt
_
_
2
T

|=1
_
_
0 0 0
0 0 r
|
c
o
2
rt
0 r
|
c
o
2
rt
,
1
r
2
|
c
o
2
rt
_
_
^ n
|
=
= 2
T

|=1
_
_
1 c
o
2
rt
,
1
r
|
c
o
2
rt
c
o
2
rt
c
2o
2
rt
r
|
c
o
2
rt
^ n
|
+,
1
r
|
c
2o
2
rt
,
1
r
|
c
o
2
rt
r
|
c
o
2
rt
_
,
1
c
o
2
rt
^ n
|
_
,
1
r
2
|
c
o
2
rt
_
,
1
c
o
2
rt
^ n
|
_
_
_
y el algoritmo de Newton-Raphson consiste en actualizar los valores numri-
cos de los parmetros mediante el esquema,
^
0
n
=
^
0
n1

_
\
2
1
_
^
0
n1
__
1
\1
_
^
0
n1
_
4.1.2 Algoritmo de Gauss-Newton
Este algoritmo es una versin simplicada del anterior, sustituyendo la matriz
hessiana por el producto,
T

|=1
_
0)
|
00
_
0=
^
0
_
0)
|
00
_
0
0=
^
0
teniendo as el esquema de actualizacin,
^
0
n
=
^
0
n1
+
_
T

|=1
_
0)
|
00
_
0=
^
0n1
_
0)
|
00
_
0
0=
^
0n1
_
1
_
T

|=1
0)(r
|
, ,)
0,
^ n
|
_
por lo que en este modelo, tenemos el esquema iterativo,
^
0
n
=
^
0
n1
+
_
_
T

|=1
_
_
1 c
o
2
rt
,
1
r
|
c
o
2
rt
c
o
2
rt
c
2o
2
rt
,
1
r
|
c
2o
2
rt
,
1
r
|
c
o
2
rt
,
1
r
|
c
2o
2
rt
,
2
1
r
2
|
c
2o
2
rt
_
_
_
_
1
_
_
T

|=1
_
_
^ n
|
c
o
2
rt
^ n
|
,
1
r
|
c
o
2
rt
^ n
|
_
_
_
_
Pero lo veraderamente interesante del algoritmo de Gauss-Newton es que
la actualizacin en el estimador puede llevarse a cabo mediante una regresin
de los errores de ajuste, calculados con el estimador actualmente disponible,
sobre el vector gradiente de la funcin ) . Los coecientes estimados en esta
regresin auxiliar se aaden a los actuales valores numricos de los parmetros
para obtener el nuevo estimador, y se contina de modo iterativo hasta lograr
a convergencia del algoritmo.
9
4.1.3 Condiciones iniciales
En algunos casos, puede comenzarse de estimaciones iniciales sencialles, pero no
demasiado. La estructura de este modelo sugiere comenzar de ,
2
= 0, con lo que
desaparecera el trmino exponencial, y c = 0, con lo que tendramos ,
1
= j, y
residuos: ^ n
|
= j
|
j. Sin embargo, en este caso, las matrices a invertir en los
algoritmos de Newton- Raphson y Gauss-Newton resultan, respectivamente:
2
T

|=1
_
_
1 1 jr
|
1 1 r
|
^ n
|
+ jr
|
jr
|
r
|
^ n
|
+ jr
|
r
2
|
j^ n
|
+ j
2
r
2
|
_
_
= 2
T

|=1
_
_
1 1 jr
|
1 1 r
|
j
|
+ 2 jr
|
jr
|
r
|
j
|
+ 2 jr
|
r
2
|
jj
|
+ 2 j
2
r
2
|
_
_
;
T

|=1
_
_
1 1 jr
|
1 1 jr
|
jr
|
jr
|
j
2
r
2
|
_
_
siendo la segunda de ellas singular.
Afortunadamente, las condiciones de optimalidad del procedimiento de Mn-
imos Cuadrados no Lineales nos sugiere cmo obtener estimaciones iniciales ra-
zonables, que garanticen un buen comportamiento de los algoritmos iterativos.
Para ello, notemos que la primera condicin puede escribirse,
c = :(j) ,
1
:(c
o
2
rt
)
que, sustituida en la segunda, nos proporciona,
:(j
|
c
o
2
rt
) = :(c
o
2
rt
):(j) ,
1
_
:(c
o
2
rt
)

2
+,
1
:(c
2o
2
rt
)
Dado un valor numrico de ,
2
, tenemos,
,
1
=
:(j
|
c
o
2
rt
) :(c
o
2
rt
):(j)
:(c
2o
2
rt
) [:(c
o
2
rt
)]
2
que, como es habitual, tiene la forma de cociente entre una covarianza y una
varianza muestrales.
La ltima condicin de optimalidad nos dice,
:
_
j
|
r
|
c
o
2
rt
_
= c:
_
r
|
c
2o
2
rt
_
+,
1
:
_
r
|
c
2o
2
rt
_
que proporcionara otra eleccin de ,
1
,
,
1
=
:(j
|
r
|
c
o
2
rt
) :(r
|
c
2o
2
rt
):(j)
:(r
|
c
2o
2
rt
) [:(r
|
c
2o
2
rt
)]
2
Podramos optar por escoger el valor numrico de ,
1
con cualquiera de ellas,
o aqul valor numrico comn a ambas expresiones, si existe. Se tratara entonces
de caracterizar la interseccin, si existe, de las dos curvas como funcin del
parmetro ,
1
, para la eleccin hecha del parmetro ,
2
.
10
4.2 Estimador de Mxima Verosimilitud
Otra estrategia de estimacin consiste en utilizar un procedimiento de Mxima
Verosimilitud, lo que requiere establecer un determinado supuesto acerca del
tipo de distribucin que sigue el trmino de error (innovacin) del modelo. El
estimador resultante es eciente supuesto que la hiptesis acerca del tipo de
distribucin sea correcta. En el caso de que supongamos que n
|
~ (0, o
2
u
), la
funcin de verosimiltud es,
1(,, o
2
u
) =
_
1
2o
2
u
_
T/2
exp
_

1
2o
2
u
T

|=1
(j
|
)(r
|
, ,))
2
_
y su logaritmo,
ln1(,, o
2
u
) =
T
2
ln2
T
2
lno
2
u

1
2o
2
u
T

|=1
(j
|
)(r
|
, ,))
2
cuyo gradiente, de dimensin / + 1 hay que igualar a 0
|+1
para obtener la
estimacin de Mxima Verosimilitud. Su matriz de covarianzas es la inversa de
la matriz de informacin,
\ ar
_
^
,
1\
_
=
_
1(,, o
2
u
)

1
=
_
1
0
2
ln1(0)
0
2
0
_
1
=
_
T

|=1
1
0
2
ln|
|
(0)
0
2
0
_
1
donde 0 =
_
,, o
2
u
_
y ln|
|
(0) denota el logaritmo de la funcin de densidad
correspondiente a un perodo de tiempo.
Es fcil probar que esta matriz es diagonal a bloques, en , y o
2
u
, por lo que
la estimacin del vector , y del parmetro o
2
u
son independientes, siendo por
tanto, estadsticamente eciente llevarlas a cabo por separado.
En el aso del modelo exponencial:
ln1(j
|
, r
|
, 0, o
2
u
) =
T
2
ln2
T
2
lno
2
u

1
2o
2
u
T

|=1
_
j
|
(c +,
1
c
o
2
rt
)
_
2
tendremos el conocido resultado de que la eleccin de valores numricos
para los componentes de 0 que maximiza la funcin de verosimilitud resultante
coinciden con los valores numricos que minimizan la suma de cuadrados de los
errores de estimacin.
En este procedimiento, sin embargo, a diferencia de la estimacin por Mni-
mos Cuadrados, consideramos la estimacin de la varianza del trmino de error,
o
2
u
, simultneamente con la de los parmetros que componen el vector 0. La
ecuacin de optimalidad correspondiente nos dir, como tambin es habitual,
que la estimacin de mxima verosimilitud de dicho parmetro se obtiene divi-
diendo por T la suma de cuadrados de los residuos que resultan al utilizar las
estimaciones de mxima verosimilitud de los parmetros que entran en 0.
11
Si queremos maximizar el logaritmo de la funcin de verosimilitud, ten-
dremos 1 (0) = ln1(,, o
2
u
) y el algoritmo Newton-Raphson es,
^
0
n
=
^
0
n1

_
0
2
ln1(0)
0000
0
_
1
0=
^
0n1
.
_
0 ln1(0)
00
_
0=
^
0n1
y el estimador resultante es asintticamente insesgado, con distribucin Nor-
mal y matriz de covarianzas,
\ ar
_
^
0
n
_
=
_
0
2
ln1(0)
0000
0
_
1
0=
^
0n
El algoritmo conocido como quadratic hill-climbing consiste en sustituir en
cada iteracin la matriz hessiana por,
\
2
1
_
^
0
n1
_
+j1
|
de modo que sea siempre denida positiva. Cuando esta correccin se intro-
duce en el algoritmo de Gauss-Newton, se tiene el algoritmo de Marquardt.
El algoritmo de scoring consiste en sustituir la matriz hessiana del logaritmo
de la verosimilitud, por su esperanza matemtica, la matriz de informacin
cambiada de signo, lo que simplica mucho su expresin analtica y, por tanto,
los clculos a efectuar en cada etapa del algoritmo,
^
0
n
=
^
0
n1
+
_
1(
^
0
n1
)
_
1
0=
^
0n1
.
_
T

|=1
0 ln|
|
(0)
00
_
0=
^
0n1
y la matriz de covarianzas del estimador resultante es, por supuesto, la in-
versa de la matriz de informacin.
El algoritmo de Gauss-Newton, aplicado a la estimacin por mxima verosimil-
itud, es,
^
0
n
=
^
0
n1
+
_
T

|=1
_
0 ln|
|
(0)
00
__
0 ln|
|
(0)
00
_
0
_
1
0=
^
0n1
.
_
T

|=1
0 ln|
|
(0)
00
_
0=
^
0n1
En este caso, el algoritmo Gauss-Newton est justicado por la conocida
propiedad terica de la funcin de verosimilitud,
1
_
_
0 ln1(0)
00
__
0 ln1(0)
00
_
0
_
=
_
1
0
2
ln1(0)
0
2
0
_
1
En el caso del modelo exponencial, el gradiente de la funcin logaritmo de
la verosimilitud es,
12
\ln1(j
|
, r
|
, 0, o
2
u
) =
1
o
2
u
_
_
_
_
_

T
|=1
^ n
|

T
|=1
c
o
2
rt
^ n
|

T
|=1
,
1
r
|
c
o
2
rt
^ n
|

T
2c
2
u
+
1
2(c
2
u
)
2

^ n
2
|
_
_
_
_
_
y la matriz hessiana es,
H =
1
o
2
u
T

|=1
_
_
_
_
_
_
1 c
o
2
rt
,
1
r
|
c
o
2
rt

1
c
2
u

T
|=1
^ n
|
c
o
2
rt
c
2o
2
rt
,
1
r
|
c
2o
2
rt

1
c
2
u

T
|=1
c
o
2
rt
^ n
|
,
1
r
|
c
o
2
rt
,
1
r
|
c
2o
2
rt
,
2
1
r
2
|
c
2o
2
rt

1
c
2
u

T
|=1
,
1
r
|
c
o
2
rt
^ n
|

1
c
2
u

T
|=1
^ n
|

1
c
2
u

T
|=1
c
o
2
rt
^ n
|

1
c
2
u

T
|=1
,
1
r
|
c
o
2
rt
^ n
|
T
2(c
2
u
)
2

1
(c
2
u
)
3

^ n
2
|
_
_
_
_
_
_
Al tomar esperanza matemtica en los elementos de la matriz hessiana y
cambiar su signo, obtenemos la matriz de informacin, que tendr ceros en la
ltima la y columna, correspondientes a la estimacin de o
2
u
, excepto en su
elemento diagonal.
1
_
0, o
2
u
_
=
1
o
2
u
T

|=1
_
_
_
_
1 c
o
2
rt
,
1
r
|
c
o
2
rt
0
c
o
2
rt
c
2o
2
rt
,
1
r
|
c
2o
2
rt
0
,
1
r
|
c
o
2
rt
,
1
r
|
c
2o
2
rt
,
2
1
r
2
|
c
2o
2
rt
0
0 0 0
T
2(c
2
u
)
2
_
_
_
_
que demuestra que el estimador de mxima verosimilitud de dicho modelo es
estadsticamente independiente de los estimadores de los restantes parmetros,
lo que no sucede con los estimadores de mxima verosimilitud de estos entre s,
que tienen covarianzas no nulas.
4.3 Modelo exponencial sin constante. Aproximacin lin-
eal
Consideremos ahora la estimacin del modelo,
j
|
= cc
ort
+n
|
= )(r
|
, 0) +n
|
con 0 = (c, ,) . El gradiente de la funcin ) que dene la relacin entre
variable dependiente e independiente, es,
0)(r
|
, 0)
00
=
_
c
ort
, cr
|
c
ort
_
0
por lo que la aproximacin lineal al modelo original es,
j
|
)(r
|
,
^
0) +
_
0)(r
|
, 0)
00
_
0
0=
^
0
_
0
^
0
_
+n
|
, t = 1, 2, ..., T,
13
que, deniendo las variables j

|
= j
|
)(r
|
,
^
0) +
_
J}(rt,0)
J0
_
0
0=
^
0
.
^
0, .
1|
=
c
^
ort
, .
2|
= ^ cr
|
c
^
ort
, puede escribirse:
j

|
= c.
1|
+,.
2|
+n
|
, t = 1, 2, ..., T, (5)
A partir de unas estimaciones iniciales denotadas por el vector
^
0 =
_
^ c,
^
,
_
,
generamos observaciones numricas para la variable j

|
, as como para las vari-
ables .
1|
, .
2|
, y procedemos a estimar el modelo (5) , obteniendo las nuevas
estimaciones numricas de c y ,. Con ellos, podramos volver a obtener series
temporales para las variables j

|
, .
1|
, .
2|
, e iterar el procedimiento.
Como es sabido, este procedimiento puede tambin ponerse en prctica es-
timando la regresin,
^ n
|
= c
1
.
1|
+c
2
.
2|
y procediendo a la actualizacin de valores numricos de los parmetros,
^ c
n
= ^ c
n1
+
^
c
1
;
^
,
n
=
^
,
n1
+
^
c
2
siendo ^ n
|
= j
|
)(r
|
,
^
0
n1
).
4.3.1 Algoritmo de Newton-Raphson
Si denotamos por 1 (0) la funcin Suma de Cuadrados de Residuos, tenemos el
gradiente y matriz hessiana,
\1 (0) = 2

0) (r
|
, 0)
00
^ n
|
= 2

0)
|
00
^ n
|
= 2

_
c
ort
, cr
|
c
ort
_
^ n
|
\
2
1 (0) = 2
T

|=1
_
c
2ort
cr
|
c
2ort
r
|
cc
2ort
c
2
r
2
|
c
2ort
_
2
T

|=1
_
0 r
|
c
ort
r
|
c
ort
r
2
|
cc
ort
_
^ n
|
= 2
T

|=1
_
c
2ort
r
|
c
ort
_
cc
ort
^ n
|
_
r
|
c
ort
_
cc
ort
^ n
|
_
r
2
|
cc
ort
_
cc
ort
^ n
|
_
_
mientras que el algoritmo de Gauss-Newton sera,
^
0
n
=
^
0
n1

_
T

|=1
_
c
2ort
cr
|
c
2ort
cr
|
c
2ort
c
2
r
2
|
c
2ort
_
_
1
_
T

|=1
_
c
ort
cr
|
c
ort
_
^ n
|
_
mientras que las condiciones de optimalidad de la Minimizacin de la Suma
de Cuadrados de los residuos seran,
14
min
0
o1(
^
0) = min
0
T

|=1
^ n
|
_
^
0
_
= min
0
T

|=1
_
j
|
cc
ort
_
2
que conduce a las condiciones de optimalidad,

j
|
c
ort
= c

c
2ort

j
|
r
|
c
ort
= c

r
|
c
2ort
donde la primera condicin sugiere tomar como estimacin inicial,
^ c =
:(j)
:(c
or
)
mientras que de la segunda condicin tenemos:
^ c =
:(jrc
or
)
:(rc
2or
)
4.4 Un modelo no identicado
Supongamos, por ltimo, que pretendemos estimar el modelo,
j
|
= c +,
1
,
2
r
|
+n
|
en el que la aplicacin del algoritmo de Newton-Raphson resulta en,
_
_
1 ,
2
r
|
,
1
r
|
,
2
r
|
,
2
2
r
2
|
,
1
,
2
r
2
|
,
1
r
|
,
1
,
2
r
2
|
,
2
1
r
|
2
_
_

_
_
0 0 0
0 0 r
|
0 r
|
0
_
_
n
|
mientras que el algoritmo de Gauss-Newton consistira en,
_
_
1 ,
2
r
|
,
1
r
|
,
2
r
|
,
2
2
r
2
|
,
1
,
2
r
2
|
,
1
r
|
,
1
,
2
r
2
|
,
2
1
r
|
2
_
_
4.5 Estimacin de un modelo potencial
Las condiciones de optimalidad correspondientes a la estimacin por mnimos
cuadrados del modelo potencial,
C
|
= ,
1
+,
2
1
~
|
+n
|
son,
15
T

|=1
(C
|
,
1
,
2
1
~
|
) = 0
T

|=1
(C
|
,
1
,
2
1
~
|
) 1
~
|
= 0
,
2
T

|=1
(C
|
,
1
,
2
1
~
|
) 1
~
|
ln1
|
= 0
que constituyen las ecuaciones normales del problema de estimacin. De las
dos primeras ecuaciones, obtenemos,
T

|=1
C
|
= T,
1
+,
2
T

|=1
1
~
|
=T:(C) = T,
1
+,
2
T:(1
~
) =,
1
= :(C) ,
2
:(1
~
)
T

|=1
C
|
1
~
|
= ,
1
T

|=1
1
~
|
+,
2
T

|=1
1
2~
|
=T:(C1
~
) = T:(C):(1
~
) ,
2
T:(1
~
)
2
+,
2
T:(1
2~
) =
= ,
2
=
:(C1
~
) :(C):(1
~
)
:(1
2~
) :(1
~
)
2
El primer resultado sugiere que la estimacin del trmino independiente se
obtenga, una vez estimados ,
2
y , de modo similar a como se recupera el
trmino independiente en la estimacin de un modelo lineal.
Lo ms interesante es observar que la segunda ecuacin sugiere estimar el
parmetro ,
2
en funcin de momentos muestrales de algunas funciones del
consumo y la renta. Para calcular dichos momentos precisamos conocer el
parmetro , pero tambin podemos poner en marcha una bsqueda de red
puesto que, por las caractersticas de la funcin de consumo, dicho parmetro
ha de ser positivo y no muy elevado. Por tanto, una red que cubra el inter-
valo (1.5, 2.0) puede ser suciente. De hecho, para valor numrico admisible
de podemos utilizar la expresin anterior para estimar ,
2
,sin necesidad de
optimizar, y despus utilizar la primera condicin de optimalidad para estimar
,
1
.
4.6 Criterios de convergencia
Antes de ello, vamos a establecer criterios de convergencia: decimos que el algo-
ritmo iterativo anterior ha convergido, y detenemos el procedimeitno numrico
de estimacin, cuando se cumple alguna de las siguientes condiciones:
el valor numrico de la funcin objetivo vara menos que un cierto umbral
previamente establecido al pasar de una estimacin
^
0
n1
, a la siguiente,
^
0
n
,
16
el gradiente de la funcin objetivo, evaluado en la nueva estimacin, \1
_
^
0
n
_
,
es pequeo, en el sentido de tener una norma reducida. Para comprobar el
cumplimiento de esta condicin, puede utilizarse la norma eucldea: raiz
cuadrada de la suma de los cuadrados de los valores numricos de cada
componente del gradiente, o puede utilizarse el valor numrico de cualquier
forma cuadrtica calculada con el vector gradiente y una matriz denida
positiva.
la variacin en el vector de estimaciones es inferior a un umbral pre-
viamente establecido. Para comprobar esta condicin utilizaramos una
norma del vector diferencia
^
0
n

^
0
n1
,
se ha alcanzado el mximo nmero de iteraciones establecido en el pro-
grama de clculo numrico que lleva a cabo la actualizacin de estima-
ciones descrita en (??) . Esto se hace con el objeto de que el programa
de estimacin no contine iterando durante un largo perodo de tiempo,
especialmente, si no est mejorando signicativamente la situacin de es-
timacin.
El programa de estimacin puede disearse para que se detenga cuando se
cumple uno cualquiera de estos criterios, o todos ellos. Es importante puntu-
alizar, por tanto, que al estimar mediante un algoritmo numrico, el investigador
puede controlar: i ) las estimaciones iniciales, ii ) el mximo nmero de itera-
ciones a efectuar, y iii ) el tamao del gradiente, iv) la variacin en el vector
de parmetros y v) el cambio en el valor numrico de la funcin objetivo por
debajo de los cuales se detiene la estimacin. Cuando se utiliza una rutina
proporcionada por una librera en un determinado lenguaje, dicha rutina incor-
pora valores numricos para todos los criterios sealados, que pueden no ser
los que el investigador preferira, por lo que es muy conveniente poder variar
dichos parmetros en la rutina utilizada. Alternativamente, lo que es mucho
ms conveniente, el investigador puede optar por escribir su propio programa
de estimacin numrica.
Estos aspectos afectan asimismo a la presentacin de los resultados obtenidos
a partir de un esquema de estimacin numrica: como generalmente no sabemos
si hemos alcanzado un ptimo local o global, esto debe examinarse volviendo
a repetir el ejercicio de estimacin a partir de condiciones inniciales sustan-
cialmente diferentes de las utilizadas en primer lugar, con objeto de ver si se
produce la convergencia, y cual es el valor de la funcin objetivo en dicho punto.
Conviene repetir esta prueba varias veces. Asimismo, cuando se presentan es-
timaciones, deberan acompaarse de la norma del graidnet en dicho punto, as
como de los umbrales utilizados para detener el proceso de estimacin, tanto
en trminos del vector gradiente, como de los cambios en el vector de estima-
ciones, o en el valor numrico de la funcin objetivo, como hemos explicado en
el prrafo anterior.
17
4.7 Dicultades prcticas en el algoritmo iterativo de es-
timacin
Cuando se utilizan algoritmos numricos para la maximizacin de la fun-
cin de verosimilitud es frecuente encontrar situaciones en las que el al-
goritmo numrico encuentra dicultades para encontrar una solucin al
problema de optimizacin. Es muy importante que, en todos los casos en
que la rutina de estimacin o de optimizacin se detenga, examinemos cul
es el criterio de parada que ha actuado. Cuando el programa se ha escrito
de modo que se detenga cuando se cumple alguno de los criterios antes
sealados, conviene incluir en el programa un mensjae que haga explcito
cul de los criterios ha conducido a su parada, de modo que reduzcamos
el umbral asociado a dicho criterio.
Si la razn es que se ha excedido el mximo nmero de iteraciones prop-
uesto en el programa, siempre se debe volver a ejecutar dicho programa.
En la mayora de los casos, es razonable elevar el nmero mximo de it-
eraciones y, posiblemente, comenzar a partir del vector de parmetros en
el que se haya detenido.
En ocasiones la rutina numrica itera un nmero reducido de veces y,
sin exceder del mximo nmero de iteraciones, se detiene en un punto
muy prximo al que hemos utilizado como condiciones iniciales. Esto
puede deberse a que los umbrales de parada que hemos seleccionado, o
que estn escritos como valores por defecto en la rutina que implemente el
algoritmo numrico son demasiado grandes. As, en los primeros clculos,
los cambios en las estimaciones o en el valor de la funcin objetivo son
inferiores a dichos umbrales, y el algoritmo se detiene. Deben reducirse
dichos umbrales y volver a estimar.
Si el programa se detiene sin exceder el mximo nmero de iteraciones,
es importante comparar los valores paramtricos en los que se detiene,
con los que se utilizaron como condiciones iniciales. Esta comparacin
que, lamentablemente, no suele efectuarse, muestra frecuentemente que
en alguno de los parmetros el algoritmo no se ha movido de la condicin
inicial. Salvo que tengamos razones slidas para creer que dicha condicin
inicial era ya buena, esto signica que, o bien el algoritmo est teniendo
dicultades para encontrar en que sentido mover en la direccin de di-
cho parmetro para mejorar el valor numrico de la funcin objetivo, o
no ha tenido suciente posibilidad de iterar en esa direccin, dadas las
dicultades que encuentra en otras direcciones (o parmetros). En estos
casos quiz conviene ampliar el nmero mximo de iteraciones, y quiz
tambin reducir la tolerancia del algoritmo (la variacin en 0 o en 1 que
se ha programado como criterio de parada), para evitar que el algoritmo
se detenga demasiado pronto.
Todo esto no es sino reejo, en general, de un exceso de parametrizacin,
que conduce a que la supercie que representa la funcin objetivo, como
18
funcin de los parmetros, sea plana en algunas direcciones (o parmet-
ros). Esto hace que sea dicil identicar los valores numricos de cada
uno de los parmetros del modelo por separado de los dems, por lo que el
algoritmo encuentra dicultades en hallar una direccin de bsqueda en la
que mejore el valor numrico de la funcin objetivo. Una variacin, incluso
si es de magnitud apreciable, en la direccin de casi cualquier parametro,
apenas vara el valor numrico de la funcin objetivo. Por eso, el algoritmo
no encuentra un modo de variar los valores paramtricos de modo que la
funcin objetivo cambie por encima de la tolerancia que hemos jado, y
se detiene. En estos casos, el gradiente va a ser tambin muy pequeo,
que puede ser otro motivo por el que el algoritmo se detenga. De hecho,
la funcin objetivo vara de modo similar (poco, en todo caso) tanto si
el algoritmo vara uno como si cambia varios parmetros, que es lo que
genera el problema de identicacin, similar al que se obtiene en el mod-
elo lineal general cuando existe colinealidad entre alguna de las variables
explicativas. Las dicultades en la convergencia del algoritmo producidas
por una excesiva sobreparametrizacin del modelo se reejan en unas ele-
vadas correlaciones de los parmetros estimados. Como en cualquier otro
problema de estimacin, conviene examinar no slo las varianzas de los
parmetros estimados, sino tambin las correlaciones entre ellos.
Otra dicultad puede presentarse en la forma de cambios muy bruscos
en el estimador. Ello se corrige introduciendo en el algoritmo (??) un
parmetro ` que se conoce como longitud de salto,
0 =
^
0
0
`
_
\
2
1
_
^
0
0
__
1
\1
_
^
0
0
_
(6)
Hay que tener en cuenta que posiblemente est incorporado en el programa
una determinada magnitud para `, que el investigador puede alterar cuando
observe cambios bruscos en el vector de parmetros.
4.8 Estimacin condicionada
Para tratar estas situaciones, cuando se identican uno o dos parmetros al-
tamente correlacionados con los dems, puede llevarse a cabo una estimacin
condicionada, jando valores alternativos de dichos parmetros a lo largo de
una red, maximizando la verosimilitud respecto de los dems, y comparando
resultados para alcanzar el mximo absoluto. En otras ocasiones, sin necesidad
de incurrir en dicultades numricas, se aprecia que imponer un valor unmrico
para uno o dos parmetros simplica enormemente la estructura del modelo a
estimar, por ejemplo, hacindola linear. Si este es el caso, puede establecerse
una red de bsqueda en dichos parmetros y, para cada uno de ellos, estimar
el modelo lineal resultante. Se resuelve as un conjunto de muchos problemas
simples, frente a la alternativa de resolver un nico problema complicado que
es, en ocasiones, mucho ms difcil.
19
Una limitacin de esta estrategia de estimacin, que tantas veces simplica
el problema computacional, es que no nos proporciona una estimacin de la var-
ianza para el parmetro o los parmetros sobre los que se ha hecho la estimacin
condicional. Segn cul sea el grado de simplicacin alcanzado, podramos no
tener varianzas para ninguno de los parmetros. Esto sugiere una cuestin an
ms profunda, acerca del signicado real de las varianzas proporcionadas por
el problema de estimacin. En realidad, lo que el investigador quiere tener es
una medida del grado de precisin obtenido en su estimacin, y ello bien puede
depender del objetivo nal de la estimacin del modelo. Por ejemplo, consid-
eremos el habitual problema de calcular la volatilidad implcita de una opcin.
Obtener las sensibilidades de la respuesta a dicha pregunta a variaciones en el
valor de alguno de los parmetros que se ja equivale a determinar un rango de
conanza para el parmetro que se estima.
Consideremos que el subyacente de una opcin call cotiza a 100, que el precio
de ejercicio de la misma es 95, el tipo de inters, supuesto constante hasta el
vencimiento, es 7,5%, el plazo residual es 3 meses, y el preico de la opcin es de
10. La inversin de la frmula de Black Scholes (BS) proporciona una volatilidad
de 31,3%. Este no es un problema estadstico, y no se ha llevado a cabo ningn
proceso de muestreo. Sin embargo, el usuario que conoce la limitacin del
modelo BS por los supuestos que incorpora, puede estar dispuesto a aceptar un
rango de valores de volatilidad que no generen un precio terico que se separe
en ms de 0,25 del precio observado en el mercado. Ello le llevar a considerar
un rango de volatilidades entre 29,8% y 32,7%.
La misma idea puede aplicarse en un problema de estimacin para evaluar
la precisin con que se ha estimado un determinado parmetro. En funcin de
la utilidad que se vaya a dar al modelo, el usuario puede determinar que est
dispuesto a aceptar variaciones de hasta un 1% alrededor del valor de la funcin
objetivo que ha obtenido en su estimacin. Se trata entonces de perturbar el
valor numrico del parmetro cuya precisin se quiere medir, y estimar condi-
cionando en dicho valor mientras que el valor resultante para la funcin objetivo
satisfaga la condicin prejada. Se obtiene as numericamente, un intervalo de
conanza alrededor de la estimacin inicialmente obtenida. En principio, esta
regin no tiene por qu coincidir con la tradicional regin de conanza. Puede
resultar extrao hablar de regiones de conanza paramtricas en el caso del
clculo de la volatilidad implcita pues, como hemos dicho, no es realmente un
problema estadstico. Existe un razonamiento distinto del anterior, con ms
base estadstica que conduce asimismo a una regin de conanza paramtrica.
Para ello, consideremos que el usuario de la expresin BS, consciente de que
el tipo de inters relevante no va a permanecer constante hasta vencimiento,
y desconociendo su evolucin establece un conjunto de posibles escenarios de
evolucin de los tipos, cada uno acompaado de una probabilidad que recoge
la mayoor o menor verosimilitud asignada a dicho escenario, e identica cada
escenario con distintos niveles constantes del tipo de inters. Calculando la
volatilidad implcita para cada nivel de tipos de inters considerado, mientras
se mantienen constantes los restantes parmetros, generaramos una distribu-
cin de probabilidad para la volatilidad implcita. Por supuesto, este argumento
20
se puede generalizar el caso en que la incertidumbre a priori se recoge en la forma
de una distribucin de probabilidad multivariante para el vector de parmetros
sobre los que se condiciona en el proceso de stimacin.
5 Estimacin del modelo AR(1), sin autocor-
relacin
Encuentre las expresiones analticas del estimador de Mxima Verosimilitud y
de su matriz de varianzas y covarianzas, en el modelo AR(1):
j
|
= c +cj
|1
+-
|
, t = 1, 2, ...
1-
|
= 0, 1(-
|
-
|s
) = 0 \: ,= 0, 1(-
2
|
) = o
2

La distribucin de probabilidad de j
|
condicional en su propio pasado es

_
c +cj
|1
, o
2

_
. Es decir, una vez observado el valor numrico de j
|
, el
valor esperado de j
|+1
es c + cj
|
, y la varianza de los posibles valores de j
|+1
alrededor de c +cj
|
es o
2

. Como puede apreciarse, la esperanza condicional es


una variable aleatoria, tomando valores numricos cambiantes en el tiempo. La
varianza condicional de j
|
es igual a la varianza de la innovacin, o
2

, reejando
el hecho de que es sta la nica fuente de error en la prediccin del valor de j
|
un perodo hacia adelante.
Esto es vlido para todo t _ 2. Son embargo, para t = 1 no podemos
condicionar j
1
en ningn valor previo, por lo que no podemos hablar de su
distribucin condicional. La distribucin marginal, absoluta o incondicional
de j
1
es
_
o
1
,
c
2

1
2
_
; es decir, que si no contamos con ninguna observacin
previa, el valor esperado de j
1
es
o
1
, y la dispersin esperada alrededor de dicho
valor es de
c
2

1
2
, mayor de la que tendramos si dispusisemos de la observacin
del perodo anterior. Ntese que: 1 (1
|1
j
|
) = 1(c + cj
|1
) = c + c1j
|1
,
pero 1j
|1
=
o
1
, por lo que: 1 (1
|1
j
|
) = c + c
o
1
=
o
1
= 1j
|
, lo cual
no hace sino comprobar que se cumple en este ejemplo concreto, la conocida
propiedad: 1j
|
= 1 (1
|1
j
|
) .
La funcin de verosimilitud muestral puede escribirse:
1(j
1
, j
2
, ..., j
T
) = 1(j
1
)1(j
2
,j
1
)1(j
3
,j
2
)...1(j
T
,j
T1
)
de modo que,
21
ln1 = ln(j
1
) +
T

2
ln1(j
|
,j
|1
) =
=
_

1
2
ln2
1
2
ln
o
2
:
1 c
2

1 c
2
2o
2
:
_
j
1

c
1 c
_
2
_

T 1
2
ln2

T 1
2
lno
2
:

1
2o
2
:
T

2
(j
|
c cj
|1
)
2
El problema de maximizacin de esta funcin se simplica si ignoramos los
primeros trminos, que proceden de la distribucin marginal de j
1
, 1(j
1
), y
consideramos:
ln1

=
T 1
2
ln2
T 1
2
lno
2
:

1
2o
2
:
T

2
(j
|
c cj
|1
)
2
(7)
que es la funcin de verosimilitud condicionada en el valor numrico de j
1
,
frente a la anterior, que era la funcin de verosimilitud exacta. Las condiciones
de maximizacin de esta funcin de verosimilitud condicionada, que resultan de
igualar a cero su gradiente, son,
0 ln1

0c
=
1
o
2
:
T

2
(j
|
c cj
|1
) = 0 =
T

2
^ n
|
= 0
0 ln1

0c
=
1
o
2
:
T

2
(j
|
c cj
|1
)j
|1
= 0 =
T

2
^ n
|
j
|1
= 0
0 ln1

0o
2
:
=
T 1
2
1
o
2
:
+
1
2 (o
2
:
)
2
T

2
(j
|
c cj
|1
)
2
=
T 1
2
1
o
2
:
+
1
2 (o
2
:
)
2
T

2
^ n
|
2
=
1
2 (o
2
:
)
2
T

2
_
o
2
:
^ n
|
2
_
= 0
donde hemos utilizado el hecho de que, para estimaciones numricas de c
y c, la diferencia j
|
c cj
|1
es igual al residuo, ^ n
|
. Vemos, por tanto, que
las estimaciones de mxima verosimilitud condicionada de c y c son aquellos
valores numricos que generan unos residuos de suma cero, a la vez que estn
incorrelacionados con j
|1
. Ello signica que son residuos con correlacin nula
con las dos variables explicativas del modelo, (1, j
|1
) y coincide, en consecuen-
cia, con el estimador de mnimos cuadrados ordinarios del modelo AR(1), que
utilizara datos desde t = 2 hasta T.
Por otra parte, la tercera ecuacin nos proporciona el estimador de mxima
verosimilitud condicionada de o
2
:
:
22
^ o
2
:
=

T
2
^ n
|
2
T 1
ligeramente diferente del estimador de mnimos cuadrados del model AR(1),
que habra sido: ^ o
2
:
=
P
T
2
^ ut
2
T2
.
Si sustituimos la expresin de ^ o
2
:
en (7) , tenemos:
ln1

=
T 1
2
ln2
T 1
2
ln
T

2
^ n
|
2
+
T 1
2
ln(T 1)
T 1
2

T
2
^ n
|
2
T

2
^ n
|
2
=
=
_

T 1
2
ln2 +
T 1
2
ln(T 1)
T 1
2
_

T 1
2
ln
T

2
^ n
|
2
que se conoce como funcin de verosimilitud condicional concentrada, y que
muestra que maximizar ln1

equivale, claramente, a minimizar la suma de


cuadrados de residuos,

T
2
^ n
|
2
.
La matriz de informacin del estimador de mxima verosimilitud es la in-
versa de la matriz de informacin, para lo que hemos de obtener las derivadas
segundas,
0
2
ln1

0c
2
=
1
o
2
:
T

2
(1) =
T 1
o
2
:
0
2
ln1

0c
2
=
1
o
2
:
T

2
j
2
|1
=1
_
0
2
ln1

0c
2
_
=
T 1
o
2
:
_
o
2
:
1 c
2
+
c
2
(1 c)
2
_
0
2
ln1

0 (o
2
:
)
2
=
T 1
2
1
(o
2
:
)
2

1
(o
2
:
)
3
T

2
^ n
|
2
=1
_
0
2
ln1

0 (o
2
:
)
2
_
=
T 1
(o
2
:
)
2
0
2
ln1

0c0c
=
1
o
2
:
T

2
j
|1
=1
_
0
2
ln1

0c0c
_
=
T 1
o
2
:
c
1 c
0
2
ln1

0c0o
2
:
=
1
(o
2
:
)
2
T

2
^ n
|
=1
_
0
2
ln1

0c0o
2
:
_
= 0
0
2
ln1

0c0o
2
:
=
1
(o
2
:
)
2
T

2
^ n
|
j
|1
=1
_
0
2
ln1

0c0o
2
:
_
= 0
donde, para obtener la esperanza matemtica en la ltima lnea, hemos
utilizado:
23
1
_
0
2
ln1

0c0o
2
:
_
= 1
_
1
|1
_
0
2
ln1

0c0o
2
:
__
=
1
(o
2
:
)
2
1
_
1
|1
_
T

2
^ n
|
j
|1
__
=
=
1
(o
2
:
)
2
1
_
T

2
j
|1
(1
|1
^ n
|
)
_
= 0
por lo que,
_
_
^ c
^
c
^ o
2
:
_
_
~
_
_
_
_
c
c
o
2
:
,
o
2
:
T 1
_
_
_
1
o
1
0
o
1
c
2
"
1
2
+
o
2
(1)
2
0
0 0
1
2c
2
"
_
_
_
1
_
_
_
_
donde la matriz de varianzas y covarianzas debera evaluarse en los estima-
ciones de mxima verosimilitud obtenidas para los tres parmetros del modelo.
Para estimar este modelo mediante el algoritmo de Newton-Raphson, habra
que iterar mediante,
^
0
n
=
^
0
n1
+
_
_
_
T 1

T
2
j
|1

T
2
^ n
|

T
2
j
|1

T
2
j
2
|1

T
2
^ n
|
j
|1

T
2
^ n
|

T
2
^ n
|
j
|1
1
(c
2
"
)
3

T
2
_
o
2
:
^ n
|
2
_
_
_
_
1
_
_
_

T
2
^ n
|

T
2
^ n
|
j
|1

1
2c
2
"

T
2
_
o
2
:
^ n
2
|
_
_
_
_
donde 0 denota el vector de parmetros, 0 =
_
c, c, o
2
:
_
, mientras que el
algoritmo de scoring, ms sencillo, aproxima el hessiano del logaritmo de la
funcin de verosimilitud por la matriz de informacin,
^
0
n
=
^
0
n1
+
1
T 1
_
_
_
1
o
1
0
o
1
c
2
"
1
2
+
o
2
(1)
2
0
0 0
1
2c
2
"
_
_
_
1 _
_
_

T
2
^ n
|

T
2
^ n
|
j
|1

1
2c
2
"

T
2
_
o
2
:
^ n
2
|
_
_
_
_
y el algoritmo de Gauss-Newton, que no requiere calcular segundas derivadas,
pero incurre en un mayor error de aproximacin numrico, consistira en:
^
0
n
=
^
0
n1
+o
2
:
_
_
_

T
2
^ n
2
|

T
2
^ n
2
|
j
|1

1
2c
2
"

T
2
^ n
|
_
o
2
:
^ n
2
|
_

T
2
^ n
2
|
j
|1

T
2
^ n
2
|
j
2
|1

1
2c
2
"

T
2
^ n
|
j
|1
_
o
2
:
^ n
2
|
_

1
2c
2
"

T
2
^ n
|
_
o
2
:
^ n
2
|
_

1
2c
2
"

T
2
^ n
|
j
|1
_
o
2
:
^ n
2
|
_
1
4c
2
"

T
2
_
o
2
:
^ n
2
|
_
2
_
_
_
1
.
.
_
_
_

T
2
^ n
|

T
2
^ n
|
j
|1

1
2c
2
"

T
2
_
o
2
:
^ n
2
|
_
_
_
_
24
6 Modelo constante, con autocorrelacin
Encuentre las expresiones analticas del estimador de Mxima Verosimilitud y
de su matriz de varianzas y covarianzas, en el modelo constante con autocor-
relacin:
j
|
= c +n
|
, t = 1, 2, ...,
n
|
= jn
|1
+-
|
= 0 1-
|
= 0, 1 (-
|
-
s
) = 0, \: ,= 0, 1(-
2
|
) = o
2
:
El modelo puede escribirse en funcin de la innovacin del mismo,
j
|
= c(1 j) +jj
|1
+-
|
que muestra que, dado j
|1
, la distribucin de probabilidad de j
|
condicional
en su propio pasado es
_
c(1 j) +jj
|1
, o
2
:
_
. Es decir, una vez observado
el valor numrico de j
|
, el valor esperado de j
|+1
es c(1 j) + jj
|1
, y la
varianza de los posibles valores de j
|+1
alrededor de dicho valor esperado es o
2
:
.
La esperanza condicional es una variable aleatoria, tomando valores numricos
cambiantes en el tiempo. La varianza condicional de j
|
es igual a la varianza de
la innovacin, o
2
:
, reejando el hecho de que es sta la nica fuente de error en
la prediccin del valor de j
|
un perodo hacia adelante.
Esto es vlido para todo t _ 2. Son embargo, para t = 1 no podemos
condicionar j
1
en ningn valor previo, por lo que no podemos hablar de su
distribucin condicional. La distribucin marginal, absoluta o incondicional de
j
1
es
_
c,
c
2
"
1
2
_
; es decir, que si no contamos con ninguna observacin previa,
el valor esperado de j
1
es
o
1
, y la dispersin esperada alrededor de dicho valor
es de
c
2
"
1
2
, mayor de la que tendramos si dispusisemos de la observacin del
perodo anterior.
La funcin de verosimilitud muestral puede escribirse:
1(j
1
, j
2
, ..., j
T
) = 1(j
1
)1(j
2
,j
1
)1(j
3
,j
2
)...1(j
T
,j
T1
)
de modo que,
ln1 = ln(j
1
) +
T

2
ln1(j
|
,j
|1
) =
=
1
2
ln2
1
2
lno
2
u

1
2o
2
u
j
2
1

T 1
2
ln2
T 1
2
lno
2
:

1
2o
2
:
T

2
(j
|
c(1 j) jj
|1
)
2
=
=
T
2
ln2
T
2
lno
2
:

1
2
ln(1 j
2
)
1 j
2
2o
2
:
(j
1
c)
2

1
2o
2
:
T

2
(j
|
c(1 j) jj
|1
)
2
donde hemos utilizado el hecho de que la distribucin incondicional de j
1
es
(0, o
2
u
).
25
Esta funcin de verosimilitud es similar, pero no idntica, a la que llegaramos
estableciendo la hiptesis de Normalidad directamente sobre la innovacin del
modelo, -
|
. En efecto, si -
|
i.,i.d., (0, o
2
:
), tendramos:
ln1 =
T
2
ln2
T
2
lno
2
:

1
2o
2
:
T

1
-
2
|
=
=
T
2
ln2
T
2
lno
2
:

1
2o
2
:
[j
1
c(1 j) jj
0
]
2

1
2o
2
:
T

2
(j
|
c(1 j) jj
|1
)
2
en la que j
0
, no observable, sera un parmetro ms a estimar. Utilizando
la representacin de la innovacin del modelo: -
|
= j
|
c(1 j) + jj
|1
, las
condiciones de optimalidad seran,
0 ln1
0c
=
1 j
o
2
:
_
(j
1
c(1 j) +jj
0
) +
T

2
-
|
_
= 0
0 ln1
0j
=
1
o
2
:
_
(j
1
c(1 j) jj
0
) (j
0
c) +
T

2
-
|
(j
|1
c)
_
= 0
0 ln1
0o
2
:
=
T
2
1
o
2
:
+
1
2 (o
2
:
)
2
T

2
(j
|
c(1 j) +jj
|1
)
2
= 0
Una vez ms, calcularemos el estimador de Mxima Verosimilitud condi-
cional en la primera observacin, que tomaremos como dada.
ln1

=
T 1
2
ln2
T 1
2
lno
2
:

1
2o
2
:
T

2
-
2
|
=
=
T 1
2
ln2
T 1
2
lno
2
:

1
2o
2
:
T

2
(j
|
c(1 j) jj
|1
)
2
con condiciones de optimalidad:
0 ln1

0c
=
1 j
o
2
:
T

2
(j
|
c(1 j) jj
|1
) = 0 =
T

2
-
|
= 0
0 ln1

0j
=
1
o
2
:
T

2
(j
|
c(1 j) jj
|1
) (j
|1
c) = 0 =
T

2
-
|
(j
|1
c) = 0
0 ln1

0o
2
:
=
T 1
2
1
o
2
:
+
1
2 (o
2
:
)
2
T

2
(j
|
c(1 j) jj
|1
)
2
=
=
1
2 (o
2
:
)
2
T

2
(o
2
:
-
2
|
) = 0 =o
2
:
=

T
2
-
2
|
T 1
26
Las dos primeras condiciones muestran que el estimador de MV condi-
cionada puede obtenerse estimando por Mnimos Cuadrados Ordinarios el mod-
elo: j
|
= ,
0
+ ,
1
j
|1
+ -
|
, pues las estimaciones numricas resultantes gener-
aran residuos ^-
|
con suma cero, e incorrelacionados con la variable explicativa
de dicha regresin, j
|1
, satisfaciendo as las dos primeras de las condiciones
de optimalidad anteriores. Posteriormente, la estimacin de o
2
:
se obtendra
a partir de la tercera condicin. Una vez estimado el modelo, los parmetros
del modelo original se obtendran mediante las condiciones de identicacin:
^ j =
^
,
1
, ^ c =
^
o
0
1
^
o
1
. Como sabemos, la estimacin de mnimos cuadrados puede
efectuarse, excepto para el trmino constante, estimando el modelo en desvia-
ciones respecto de la media: ~ j
|
= ,
1
~ j
|1
+ -
|
, en el que una vez estimado
^
,
1
,
que resultara numricamente igual a la estimacin en el modelo que incluye
un trmino constante, tendramos:
^
,
0
= j
^
,
1
j. Finalmente, recuperaramos
^ j y ^ c a partir de las expresiones previas. Como 1j = c, esperararmos que
j c, por lo que la expresin ^ c =
^
o
0
1
^
o
1
debe proporcionar un buen estimador
del trmino independiente.
La matriz de informacin del estimador de mxima verosimilitud es la in-
versa de la matriz de informacin, para cuyo calculo hemos de obtener la es-
perana matemtica de los elementos del hessiano de la funcin logaritmo de la
verosimilitud condicionada,
0
2
ln1

0c
2
=
T 1
o
2
:
(1 j)
2
0
2
ln1

0j
2
=
1
o
2
:
T

2
(j
|1
c)
2
=1
_
0
2
ln1

0j
2
_
=
T 1
o
2
:
o
2
u
0
2
ln1

0 (o
2
:
)
2
=
T 1
2
1
o
4
:

1
o
6
:
T

2
-
|
2
=1
_
0
2
ln1

0 (o
2
:
)
2
_
=
T 1
2o
4
:
0
2
ln1

0c0j
=
1
o
2
:
T

2
[(j
|1
c) (1 j) +-
|
] =1
_
0
2
ln1

0c0c
_
= 0
0
2
ln1

0c0o
2
:
=
1 j
o
4
:
T

2
-
|
=1
_
0
2
ln1

0c0o
2
:
_
= 0
0
2
ln1

0c0o
2
:
=
1
o
4
:
T

2
-
|
(j
|1
c) =1
_
0
2
ln1

0c0o
2
:
_
= 0
1
_
0
2
ln1

0c0o
2
:
_
= 1
_
1
|1
_
0
2
ln1

0c0o
2
:
__
= 1
_
1
|1
_
T

2
-
|
n
|1
__
= 0
donde en la ltima igualdad hemos utilizado el hecho de que n
|1
depende
de -
|1
, -
|2
, -
|3
, ..., pero no de -
|
ni de sus valores futuros.
Por tanto,
27
_
_
^ c
j
^ o
2
:
_
_
~
_
_
_
_
c
j
o
2
:
,
o
2
:
T 1
_
_
_
(1 j)
2
0 0
0
c
2
"
1
2
0
0 0
1
c
2
"
_
_
_
1
_
_
_
_
donde la matriz de varianzas y covarianzas debera evaluarse en los estima-
ciones de mxima verosimilitud obtenidas para los tres parmetros del modelo.
La estructura diagonal de la matriz de informacin muestra que los estimadores
de los tres parmetros son independientes entre s. Ello hace que en, este mod-
elo, una estimacin condicional que generase estimaciones numricas de unos
parmetros condicionales en estimaciones de los otros, sera tan eciente como
la estimacin simultnea de todos ellos.
Para estimar este modelo mediante el algoritmo de Newton-Raphson, habra
que iterar mediante,
^
0
n
=
^
0
n1
+o
2
:
_
_
_
(T 1) (1 j)
2

T
2
[n
|1
(1 j) +-
|
] (1 j)

T
2
-
|

T
2
[n
|1
(1 j) +-
|
]

T
2
n
2
|1

T
2
-
|
n
|1
(1 j)

T
2
-
|

T
2
-
|
n
|1
1
c
2
"

T
2
_
1
2
o
2
:
-
|
2
_
_
_
_
1
.
.
_
_
_
(1 j)

T
2
-
|

T
2
-
|
n
|1

1
2c
2
"

T
2
(o
2
:
-
2
|
)
_
_
_
El algoritmo de scoring, ms sencillo, aproxima el hessiano del logaritmo de
la funcin de verosimilitud por la matriz de informacin,
^
0
n
=
^
0
n1
+
1
T 1
_
_
(1 j)
2
0 0
0 o
2
u
0
0 0
1
2c
2
"
_
_
1
_
_
_
(1 j)

T
2
-
|

T
2
-
|
n
|1

1
2c
2
"

T
2
(o
2
:
-
2
|
)
_
_
_ =
=
^
0
n1
+
1
T 1
_
_
_
1
1+

T
2
-
|
1
c
2
u

T
2
-
|
n
|1

T
2
(o
2
:
-
2
|
)
_
_
_
y el algoritmo de Gauss-Newton, con mayor error de aproximacin numrico,
consistira en:
^
0
n
=
^
0
n1
+
_
_
_
(1 j)
2

T
2
-
2
|
(1 j)

T
2
-
2
|
n
|1

1
2c
2
"

T
2
-
|
(o
2
:
-
2
|
)
(1 j)

T
2
-
2
|
n
|1

T
2
(-
|
n
|1
)
2

1
2c
2
"

T
2
-
|
n
|1
(o
2
:
-
2
|
)

1
2c
2
"

T
2
-
|
(o
2
:
-
2
|
)
1
2c
2
"

T
2
-
|
n
|1
(o
2
:
-
2
|
)
1
4c
4
"

T
2
(o
2
:
-
2
|
)
2
_
_
_
1
.
.
_
_
_
(1 j)

T
2
-
|

T
2
-
|
n
|1

1
2c
2
"

T
2
(o
2
:
-
2
|
)
_
_
_
28
6.1 Ejercicio
1. Obtener la estimaciones, por el Mtodo Generalizado de Momentos, de los
parmetros c, j, o
2
:
del modelo de regresin constante con errores AR(1).
Solucin: Utilizaramos el hecho de que, bajo el supuesto de que el modelo
est correctamente especicado, se tienen las propiedades: 1j
|
= c, \ ar(j
|
) =
o
2
u
, j =
cou(t,t1)
\ o:(t)
, o
2
:
= o
2
u
_
1 j
2
_
, por lo que, sustituyendo momentos
poblacionales por muestrales en las igualdades anteriores, tendramos,
^ c =
1
T
T

1
j
|
; ^ j =

T
1
(j
|
j) (j
|1
j)

T
1
(j
|
j)
2
^ o
2
u
=
1
T
T

1
(j
|
j)
2
; ^ o
2
:
= ^ o
2
u
_
1 ^ j
2
_
=
_
1
T
T

1
(j
|
j)
2
_
_
_
1
_

T
1
(j
|
j) (j
|1
j)

T
1
(j
|
j)
2
_
2
_
_
La estimacin de j coincide con la estimacin de mnimos cuadrados que
hemos propuesto ms arriba. No as la de o
2
:
ni la de o
2
u
. Tampoco ser exacta-
mente coincidente la estimacin del trmino independiente c si bien, el argumeo
efectuado al presentar el estimador de Mxima Verosimilitud garantiza que la
diferencia entre los valores numricos de ambos estimadores no ser muy elevada
en muestras grandes.
7 Estimacin de Mxima Verosimilitud del mod-
elo AR(1) con perturbaciones AR(1)
Consideramos en esta seccin la estimacin de Mxima Verosimilitud y de su ma-
triz de varianzas y covarianzas, del modelo AR(1) con trmino de error AR(1):
j
|
= cj
|1
+n
|
, t = 1, 2, ... (8)
n
|
= jn
|1
+-
|
= 0 1-
|
= 0, 1(-
|
-
|s
) = 0 \: ,= 0, 1(-
2
|
) = o
2
:
donde como se ve, hemos supuesto, por simplicidad, que no hay trmino
independiente. Bajo el supuesto de que 1-
|
= 0, se tiene: 1j
|
= 1n
|
= 0. El
clculo de la varianza de j
|
es bastante ms complejo. Para ello, representamos
Para t _ 2, el modelo puede escribirse:
j
|
= (c +j) j
|1
cjj
|2
+-
|
(9)
que es un modelo cuyo trmino de error no presenta autocorrelacin. En con-
secuencia, la presencia de los retardos de la variable dependiente como variables
explicativas no deteriora las propiedades estadsticas del estimador de mnimos
cuadrados de los parmetros del modelo:
j
|
= ,
1
j
|1
+,
2
j
|2
+-
|
29
donde tendramos nicamente el problema de identicar o recuperar los
parmetros c, j del modelo original a partir de estimaciones de ,
1
, ,
2
. Esto
se debe a que los parmetros c, j entran de forma totalmente simtrica en el
modelo transformado (9) de modo que un vez que hubiramos obtenido una
solucin
^
c, ^ j del sistema:
c +j =
^
,
1
cj =
^
,
2
podramos intercambiar los valores numricos de ambos parmetros y ten-
dramos otra solucin. Por tanto, existensiempre dos soluciones, y el modelo se
dice que est subidenticado.
Para obtener la expresin analtica de la varianza del proceso (8), utilizamos
el hecho de que la varianza de un proceso 1(2) es
(1o
2
)c
2
"
(1+o
2
)[(1o
2
)
2
o
1
]
. Como en
nuestro caso, ,
1
= c +j, ,
2
= cj, tenemos:
\ ar (j
|
) =
(1 +cj)
(1 cj)
_
(1 +cj)
2
(c +j)
2
_o
2
:
Si dispusiramos de algn tipo de informacin adicional acerca de alguna
caracterstica de la distribucin de probabilidad de j
|
, quiz podramos iden-
ticar los dos parmetros por separado. Este no es el caso, sin embargo de
que conociramos, al menos aproximadamente, la relacin existente entre las
volatilidades de j
|
y -
|
pues, como puede verse en la expresin anterior, dicha
relacin debe ser igual al valor numrico de la fraccin que en ella aparce, pero
ambos parmetros entran de forma simtrica, por lo que intercambiarlos no al-
tera el valor numrico de la volatilidad relativa de ambas variables. Algo similar
ocurrira para cualquier informacin relativa al valor numrico de cualquier es-
tadstico de j
|
, cuya expresin analtica depende de ,
1
y ,
2
, por lo que c y j
entran siempre de modo simtrico.
Cuestin distinta sera si dispusiramos de alguna informacin acerca de la
volatilidad relativa de j
|
y n
|
puesto que, como \ ar(n
|
) =
c
2
"
1
2
, tendramos:
\ ar (j
|
)
\ ar(n
|
)
=
(1 +cj)
_
1 j
2
_
(1 cj)
_
(1 +cj)
2
(c +j)
2
_
que es distinto para las combinaciones de valores numricos
_
^
c, ^ j
_
y
_
^ j,
^
c
_
.
Por ejemplo, si c = 0, 6; j = 0, 9, tendramos: \ ar (j
|
) = 5, 23\ ar(n
|
), mientras
que si c = 0, 9; j = 0, 6, tendramos: \ ar (j
|
) = 17, 62\ ar(n
|
).
La funcin de verosimilitud muestral del proceso (8) puede escribirse:
1(j
1
, j
2
, ..., j
T
) = 1(j
1
, j
2
)1(j
3
,j
2
, j
1
)1(j
4
,j
3
, j
2
)...1(j
T
,j
T1
, j
T2
)
30
donde la necesidad de condicionar ahora la funcin de densidad de cada
observacin en los valores numricos tomados por las dos observaciones previas
es bastante evidente.
Ignorando el primer factor, tenemos la funcin de verosimilitud condicional
en (j
1
, j
2
), cuyo logaritmo es,
ln1 = ln(j
1
) +
T

2
ln1(j
|
,j
|1
) =
=
1
2
ln2
1
2
ln
o
2
:
1 c
2

T 1
2
ln2
1
2
lno
2
:

1 c
2
2o
2
:
j
2
1

1
2o
2
:
T

2
(j
|
c cj
|1
)
2
=
=
T
2
ln2
T
2
lno
2
:
+
1
2
ln
_
1 c
2
_

1 c
2
2o
2
:
j
2
1

1
2o
2
:
T

2
(j
|
c cj
|1
)
2
El problema de maximizacin de esta funcin se simplica si ignoramos los
trminos tercero y cuarto, que proceden de la distribucin marginal de j
1
, 1(j
1
),
y consideramos:
ln1

=
T

3
ln1(j
|
,j
|1
, j
|2
) =
T 2
2
ln2
T 2
2
lno
2
:

1
2o
2
:
T

2
(j
|
(j +c) j
|1
+jcj
|2
)
2
cuyas condiciones de optimalidad son,
0 ln1

0c
=
1
o
2
:
T

3
[(j
|
(j +c) j
|1
+jcj
|2
) (j
|1
jj
|2
)] =
1
o
2
:
T

3
(j
|1
jj
|2
) -
|
= 0
0 ln1

0j
=
1
o
2
:
T

3
(j
|1
cj
|2
) -
|
= 0
0 ln1

0o
2
:
=
T 2
2o
2
:
+
1
2 (o
2
:
)
2
T

2
(j
|
(j +c) j
|1
+jcj
|2
)
2
=
T 2
2o
2
:
+
1
2 (o
2
:
)
2
T

2
-
|
2
= 0
Por tanto, las estimaciones de Mxima Verosimilitud Condicionada de j y
c son aquellos valores numricos que generan unos residuos incorrelacionados
simultneamente con j
|1
cj
|2
y j
|1
jj
|2
, lo que vuelve a mostrar la
simetra existente entre estos parmetros. Escribiendo el modelo (9) en la forma,
j
|
jj
|1
= c(j
|1
jj
|2
) +-
|
vemos que la primera condicin sugiere estimar por Mnimos Cuadrados Or-
dinarios esta ecuacin en variables cuasidiferenciadas para obtener la estimacin
MVC del parmetro c. Por otra parte, la segunda ecuacin sugiere obtener el
estimador MVC del parmetro j estimando por MCO la ecuacin:
31
j
|
cj
|1
= j(j
|1
jj
|2
) +-
|
que tambin equivale a (9) . Por ltimo, la tercera ecuacin nos proporciona
el estimador de Mxima Verosimilitud Condicionada de o
2
:
:
^ o
2
:
=

T
3
^-
|
2
T 2
Esta interpretacin sugiere que el estimador MVC puede obtenerse esti-
mando la regresin en variables transformadas ~ j
|
= j
|
jj
|1
, para un de-
terminado valor numrico de j, para obtener la estimacin de c, y utilizar sta
para llevar a cabo la transformacin: j
|
= j
|

^
cj
|1
para estimar j como
el coeciente en un modelo AR(1) en esta variable. Esta ltima transformada
puede interpretarse como el residuo del modelo AR(1) original, dada la esti-
macin
^
c. Ha de notarse, sin embargo, que tal esquema precisara de un valor
inicial para uno de los dos parmetros, c o j, para comenzar a partir de l
estimando, sucesiva y recursivamente, cada uno de ellos. Tal procedimiento it-
erativo aproximara el estimador MVC. Sin embargo, ste requiere la estimacin
simultnea de ambos parmetros, como sugiere la solucin del sistema de ecua-
ciones de optimalidad anterior. El esquema iterativo puede conducir o no a la
misma solucin que la solucin simultnea que requiere, en todo caso, de un
algoritmo numrico. Ambas soluciones coincidirn si el modelo propuesto es la
especicacin correcta, pero no en caso contrario, y el investigador nunca puede
estar seguro de este aspecto en su trabajo emprico. Tambin coincidirn si los
estimadores MVC de ambos parmetros fuesen independientes.
La matriz de informacin del estimador de mxima verosimilitud es la in-
versa de la matriz de informacin, para lo que hemos de obtener las derivadas
segundas,
0
2
ln1

0j
2
=
1
o
2
:
T

3
n
2
|1
=1
_
0
2
ln1

0j
2
_
=
T 2
o
2
:
o
2
:
1 j
2
=
T 2
1 j
2
0
2
ln1

0c
2
=
1
o
2
:
T

3
(j
|1
jj
|2
)
2
=1
_
0
2
ln1

0c
2
_
=
T 2
o
2
:
o
2
:
1 c
2
0
2
ln1

0 (o
2
:
)
2
=
T 2
2
1
(o
2
:
)
2

1
(o
2
:
)
3
T

3
-
|
2
=1
_
0
2
ln1

0 (o
2
:
)
2
_
=
T 2
(o
2
:
)
2
0
2
ln1

0j0c
=
1
o
2
:
T

3
[-
|
j
|2
+ (j
|1
cj
|2
) (j
|1
jj
|2
)]
0
2
ln1

0j0o
2
:
=
1
(o
2
:
)
2
T

3
-
|
(j
|1
jj
|2
) =1
_
0
2
ln1

0j0o
2
:
_
= 1
_
1
|1
_
0
2
ln1

0j0o
2
:
__
= 0
0
2
ln1

0c0o
2
:
=
1
(o
2
:
)
2
T

3
-
|
(j
|1
cj
|2
) =1
_
0
2
ln1

0c0o
2
:
_
= 1
_
1
|1
_
0
2
ln1

0c0o
2
:
__
= 0
32
donde hemos utilizado la propiedad:
1 [-
|
(j
|1
jj
|2
)] = 1 (1
|1
[-
|
(j
|1
jj
|2
)]) = 1 [(j
|1
jj
|2
) 1
|1
-
|
] = 0
as como la propiedad anloga cuando la transformacin de variables utiliza
el parmetro c. Asimismo:
1
_
(j
|1
jj
|2
)
2
_
= 1
_
1

s=0
c
s
-
|s1
_
2
=
o
2
:
1 c
2
1 [-
|
(j
|1
jj
|2
)] = 1
_
-
|
1

s=0
c
s
-
|s1
_
= 1 (-
|
-
|1
+c-
|
-
|2
+...) = 0
1 (-
|
j
|2
) = 1
_
-
|
1

s=0
c
s
n
|s2
_
= 0
1 [(j
|1
cj
|2
) (j
|1
jj
|2
)] = 1
_
n
|1
1

s=0
c
s
-
|s1
_
= 1
__
1

I=0
j
I
-
|I
__
1

s=0
c
s
-
|s
__
=
=
o
2
:
1 cj
Por tanto,
_
_
^ c
^
c
^ o
2
:
_
_
~
_
_
_
_
c
c
o
2
:
,
o
2
:
T 2
_
_
_
c
2
"
1
2
1
1
0
1
1
1
1
2
0
0 0
1
2c
2
"
_
_
_
1
_
_
_
_
donde la matriz de varianzas y covarianzas debera evaluarse en los estima-
ciones de mxima verosimilitud obtenidas para los tres parmetros del modelo.
ELa estructura de esta matriz de informacin prueba que, si bien los estimadores
de MVC de los parmetros c y j son independientes del estimador MVC de o
2
:
,
sin embargo los dos primeros no son independientes entre s.
Para estimar este modelo mediante el algoritmo de Newton-Raphson, habra
que iterar mediante,
^
0
n
=
^
0
n1
+
_
_
_

T
3
(j
|1
jj
|2
)
2

T
3
[-
|
j
|2
+n
|1
(j
|1
jj
|2
)]

T
3
-
|
n
|1

21

T
3
n
2
|1

T
3
-
|
(j
|1
jj
|2
)

T
3
-
|
n
|1

T
3
-
|
(j
|1
jj
|2
)
1
c
4

T
3
_
1
2
o
2
:
-
|
2
_
_
_
_
1
.
.
_
_
_

T
3
(j
|1
jj
|2
) -
|

T
3
n
|1
-
|

1
2c
2

T
2
_
o
2
:
-
|
2
_
_
_
_
33
mientras que el algoritmo de scoring, ms sencillo, aproxima el hessiano del
logaritmo de la funcin de verosimilitud por la matriz de informacin,
^
0
n
=
^
0
n1
+
1
T 1
_
_
_
1
o
1
0
o
1
c
2
"
1
2
+
o
2
(1)
2
0
0 0
1
2c
2
"
_
_
_
1 _
_
_

T
3
(j
|1
jj
|2
) -
|

T
3
n
|1
-
|

1
2c
2

T
2
_
o
2
:
-
|
2
_
_
_
_
y el algoritmo de Gauss-Newton, an ms simple, pero con mayor error de
aproximacin numrico, consistira en:
^
0
n
=
^
0
n1
+
_
_
a
11
a
21
a
31
a
21
a
22
a
32
a
31
a
32
a
33
_
_
1
.
_
_
_

T
3
(j
|1
jj
|2
) -
|

T
3
n
|1
-
|

1
2c
4

T
2
_
o
2
:
-
|
2
_
_
_
_
with:
a
11
=
T

3
n
2
|1
-
2
|
; a
21
=
T

3
(j
|1
jj
|2
) -
2
|
n
|1
;
a
22
=
T

3
n
2
|1
-
2
|
; a
31
=
1
2o
4
T

2
_
o
2
:
-
|
2
_
(j
|1
jj
|2
) -
|
;
a
32
=
1
2o
4
T

2
_
o
2
:
-
|
2
_
n
|1
-
|
; a
33
=
1
4o
8
T

2
_
o
2
:
-
|
2
_
2
;
8 Sesgo asinttico en el modelo AR(1) con au-
tocorrelacin
Consideramos otra vez la estimacin del modelo AR(1) con residuos autocor-
relacionados, asimismo mediante una estructura AR(1):
j
|
= c +,j
|1
+n
|
, t = 1, 2, ..., [ , [< 1
n
|
= jn
|1
+-
|
= 0 [ j [< 1, 1-
|
= 0, 1(-
|
-
|s
) = 0 \: ,= 0, 1(-
2
|
) = o
2
:
Comencemos notando que, dados los lmites que hemos supuesto mpara los
valores numricos de los parmetros , y j, j
|
y n
|
admiten las representaciones:
j
|
=
1

s=0
,
s
n
|s
; n
|
=
1

I=0
j
I
-
|I
;
Ahora bien, tambin tenhemos una representacin de j
|
en funcin de la
innovacin del modelo:
34
j
|
= (, +j) j
|1
,jj
|2
+-
|
(10)
Si multiplicamos esta expresin por j
|1
, sumamos de 3 a T y divimos por

T
2
j
2
|1
, tenemos,
^
,
1cO
=
1
T

T
3
j
|
j
|1
1
T

T
3
j
2
|1
= (, +j) ,j
1
T

T
3
j
|1
j
|2
1
T

T
3
j
2
|1
+
1
T

T
3
-
|
j
|1
1
T

T
3
j
2
|1
Ahora, tomando lmites en probabilidad y notando que:
j lim
1
T
T

3
j
|
j
|1
= 1 (j
|
j
|1
) = j lim
1
T
T

3
j
|1
j
|2
tenemos:
j lim
^
,
1cO
= (, +j) (,j) j lim
^
,
1cO
+
j lim
1
T

T
3
-
|
j
|1
j lim
1
T

T
3
j
2
|1
La ltima fraccin es igual a cero, yan que el numerador converge a 1 (-
|
j
|1
)
y ya hemos visto que j
|1
es combinacin lineal de -
|1
, -
|2
, ..., pero no de -
|
.
As, tenemos,
j lim
^
,
1cO
=
, +j
1 +,j
= , +
j
_
1 ,
2
_
1 +,j
que, como puede comprobarse, est entre 1 y 1.
Por tanto,
oc:qo a sint otico
_
^
,
1cO
_
= j lim
^
,
1cO
, =
j
_
1 ,
2
_
1 +,j
de modo que si j 0, el estimador
^
,
1cO
sobreestima a ,, subestimando el
verdadero valor del parmetro cuando j < 0.
Consideremos ahora el estimador de j :
^ j
1cO
=
1
T

T
3
^ n
|
^ n
|1
1
T

T
3
^ n
2
|1
siendo ^ n
|
= j
|

^
,
1cO
.j
|1
.
Para obtener el lmite en probabilidad del estimador ^ j
1cO
notemos, en
primer lugar, que:
^ n
2
|1
=
_
j
|1

^
,j
|2
_
2
= j
2
|1
2
^
,j
|1
j
|2
+
^
,
2
j
2
|2
=
= j
2
|1
2
^
,
_
^
,j
|2
+ ^ n
|1
_
j
|2
+
^
,
2
j
2
|2
35
Dividimos por T, sumamos y tomamos lmites en probabilidad, obteniendo:
j lim
1
T
T

3
^ n
2
|1
= j lim
1
T
T

3
j
2
|1
2j lim
_
^
,
2
_
j lim
_
1
T
T

3
j
2
|2
_

2j lim
_
^
,
_
j lim
_
1
T
T

3
^ n
|1
j
|2
_
+j lim
_
^
,
2
_
j lim
_
1
T
T

3
j
2
|2
_
es decir,
j lim
1
T
T

3
^ n
2
|1
=
_
1
_
j lim
^
,
_
2
_
j lim
1
T
T

3
j
2
|1
2j lim
_
^
,
_
j lim
_
1
T
T

3
^ n
|1
j
|2
_
pero el ltimo trmino es igual a 1 (^ n
|1
j
|2
) , que es igual a cero por ser
j
|2
una variable explicativa en la regresin en la que se gener el residuo de
mnimos cuadrados ^ n
|1
.
En segundo lugar:
^ n
|
^ n
|1
=
_
j
|

^
,
1cO
.j
|1
__
j
|1

^
,
1cO
.j
|2
_
=
= j
|
j
|1

^
,j
2
|1

^
,j
|
j
|2
+
^
,
2
j
|1
j
|2
de modo que:
j lim
1
T
T

3
^ n
|
^ n
|1
=
_
1 +j lim
^
,
2
_
j lim
1
T
T

3
j
|1
j
|2

_
j lim
^
,
_
j lim
1
T
T

3
j
2
|1
(11)

_
j lim
^
,
_
j lim
1
T
T

3
j
|
j
|2
Pero, utilizando la representacin (10) , tenemos:
j lim
1
T
T

3
j
|
j
|2
= j lim
1
T
T

3
(, +j) j
|1
j
|2
,jj lim
1
T
T

3
j
2
|2
+j lim
1
T
T

3
-
|
j
|2
(12)
donde el ltimo trmino converge a 1 (-
|
j
|2
) , que es igual a cero porque
j
|2
depende de -
|2
y anteriores, pero no de -
|
.
Sustituyendo (12)en (11) tenemos:
j lim
1
T
T

3
^ n
|
^ n
|1
=
_
1 +
_
j lim
^
,
_
2

_
j lim
^
,
_
(, +j)
_
j lim
1
T
T

3
j
|
j
|1

36
j lim
^
,
_
j lim
1
T
T

3
j
2
|1
_
+,j
_
j lim
^
,
_
j lim
1
T
T

3
j
2
|2
=
=
_
1 +
_
j lim
^
,
_
2

_
j lim
^
,
_
(, +j)
_
_
j lim
^
,
_
j lim
1
T
T

3
j
2
|1

j lim
^
,
_
j lim
1
T
T

3
j
2
|1
_
+,j
_
j lim
^
,
_
j lim
1
T
T

3
j
2
|2
=
=
_
_
j lim
^
,
_
3

_
j lim
^
,
_
2
(, +j) +,j
_
j lim
^
,
_
_
j lim
1
T
T

3
j
2
de modo que:
j lim(^ j
1cO
) =
_
j lim
^
,
_
3

_
j lim
^
,
_
2
(, +j) +,j
_
j lim
^
,
_
1
_
j lim
^
,
_
2
Proposition 1 j lim(^ j
1cO
) = ,j
o+
1+o
Demostracin:
j lim(^ j
1cO
) =
1
1
_
o+
1+o
_
2
, +j
1 +,j
_
_
, +j
1 +,j
_
2

(, +j)
2
1 +,j
+,j
_
=
=
1
1
_
o+
1+o
_
2
, +j
1 +,j
_
_
, +j
1 +,j
_
2
1
_
(,j) = ,j
, +j
1 +,j
Corollary 2 En consecuencia, tenemos: oc:qo a sint otico (^ j
1cO
) = j lim^ j
1cO

j = j
1o
2
1+o
Corollary 3 plim
_
^
,
1cO
+ ^ j
1cO
_
= , +j
Como muestra el ltimo corolario, la suma de ambos parmetros se estima
consistentemente, a pesar del sesgo asinttico en que se incurreal estimar por
MCO cada uno de ellos. Una vez ms, hay que observar que, aunque el prob-
lema de correlacin no nual entre variables explicativas y trmino de error se
37
produce tan slo en la primera ecuacin del modelo, que tiene a j
|
por variable
dependiente, ambos parametros se estiman inconsistentemente.
Hay que notar tambin que la estimacin ^ j
1cO
puede subestimar de modo
apreciable la autocorrelacin existente en n
|
.Adems, no es posible evaluar dicha
autocorrelacin nicamente a partir de ^ j
1cO
pues dicha estimacin numrica
puede estar muy sesgada hacia cero. Como consecuencia, el estadstico Durbin-
Watson est sesgado asintticamente a la baja cuando j 0.
Proposition 4 oc:qo a sint otico (^ c
1cO
) = j lim ^ c
1cO
c = cj
1+o
1+o
Demostracin:
oc:qo a sint otico (^ c
1cO
) = j lim ^ c
1cO
c = j lim
__
1
^
,
1cO
_
j
_
c =
=
_
1 j lim
^
,
1cO
_
1j c =
_
1 , j
1 ,
2
1 +,j
_
c
1 ,
c =
=
_
1 j
1 +,
1 +,j
1
_
c = jc
1 +,
1 +,j
38

También podría gustarte