Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Alfonso Novales
Departamento de Economía Cuantitativa
Universidad Complutense
Septiembre 2013
Versión preliminar
No citar sinpermiso del autor
@Copyright 2013
Contents
1 Estimación de modelos no lineales 2
1.1 Minimos Cuadrados en modelos no lineales . . . . . . . . . . . . 2
1.1.1 Aproximación lineal del modelo no lineal . . . . . . . . . . 3
1.1.2 Ejemplo 1: Modelo exponencial con constante. Aproxi-
mación lineal . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3 Ejemplo 2: Modelo potencial. Aproximación lineal . . . . 6
1.2 Minimización de una función . . . . . . . . . . . . . . . . . . . . 6
1.3 Estimación por Mínimos Cuadrados . . . . . . . . . . . . . . . . 7
1.4 Algoritmos numéricos: Gauss-Newton y Newton-Raphson . . . . 9
1.4.1 Condiciones iniciales . . . . . . . . . . . . . . . . . . . . . 10
1.4.2 Ejemplo 4: Modelo potencial . . . . . . . . . . . . . . . . 11
1.4.3 Ejemplo 5: Una función de consumo . . . . . . . . . . . . 12
1.4.4 Ejemplo 6: Modelo exponencial sin constante. . . . . . . . 13
1.4.5 Ejemplo 7: Otra función exponencial . . . . . . . . . . . . 16
1.4.6 Ejemplo 8: Un modelo no identi…cado . . . . . . . . . . . 17
1.5 Estimador de Máxima Verosimilitud . . . . . . . . . . . . . . . . 17
1.6 Criterios de convergencia . . . . . . . . . . . . . . . . . . . . . . 20
1.7 Di…cultades prácticas en el algoritmo iterativo de estimación . . 21
1.8 Estimación condicionada y precisión en la estimación . . . . . . . 23
1.9 Algunos modelos típicos . . . . . . . . . . . . . . . . . . . . . . . 24
1.9.1 Estimación de modelos MA(q) . . . . . . . . . . . . . . . 24
1.10 Estimación por Máxima Verosimilitud de modelos dinámicos . . 26
1.10.1 Modelo AR(1), sin autocorrelación . . . . . . . . . . . . . 26
1.10.2 Modelo constante, con autocorrelación . . . . . . . . . . . 30
1.10.3 Estimación de Máxima Verosimilitud del modelo AR(1)
con perturbaciones AR(1) . . . . . . . . . . . . . . . . . . 34
1
1 Estimación de modelos no lineales
Es bien conocido que el estimador de Mínimos Cuadrados Ordinarios de un
modelo de relación lineal,
^ = (X 0 X) 1
XY
siendo X la matriz T xk que tiene por columnas las T observaciones de cada
una de las k variables explicativas contenidas en el vector xt ; e Y el vector
columna, de dimensión T , formado por las observaciones de yt : Este estimador,
que es lineal (función lineal del vector Y ), es insesgado. Es el de menor varianza
entre los estimadores lineales si la matriz de covarianzas de los términos de error
tiene una estructura escalar,
2
V ar(u) = u IT
yt = f (xt ; ) + ut ; (2)
donde f (xt ; ) es una función no lineal de los componentes del vector kx1; :
Si f (xt ; ) es no lineal únicamente en las variables explicativas xt ; un cambio de
variable permite transformar el modelo anterior en un modelo lineal. Excluimos,
sin embargo, inicialmente, la estimación de relaciones implícitas, representables
a partir de un modelo general del tipo,
g(yt ; xt ; ) + ut ;
2
donde el vector gradiente es T xk, y f (X; ) es T x1. Este sistema puede
no tener solución, o tener múltiples soluciones. A diferencia del estimador de
Mínimos Cuadrados aplicado a un modelo lineal, el estimador no es insesgado.
La matriz de covarianzas del estimador resultante es:
" # 1
0
@f (xt ; ) @f (xt ; )
V ar(^) = 2
u
@ @
que se reduce a la matriz de covarianzas 2u (X 0 X) 1 en el caso de un modelo
lineal.
Si quisiéramos aplicar Mínimos Cuadrados directamente, en el modelo ex-
ponencial,
yt = f (xt ; ) + ut = + 2 xt
1e + ut
con =( ; 1; 2) ; tendríamos que resolver el problema,
T h
X i2 T
X 2
min SR(^) = min ^t ^
u = min yt ( + 1e
2 xt )
t=1 t=1
X X
yt = T+ e 2 xt
1
X X X
yt e 2 xt = e 2 xt + e2 2 xt
1
X X X
yt xt e 2 xt = xt e2 2 xt + 1 xt e2 2 xt
que carece de solución explícita, por lo que debe resolverse por procedimien-
tos numéricos.
@f (xt ; )
yt = f (xt ; ^ ) + ^ + ut ;
@ =^
@f (xt ; )
Haciendo el cambio de variable: yt = yt f (xt ; ^ ) + @
^; y
=^
generando asimismo ”datos” para cada una de las k variables de…nidas por el
gradiente @f (x
@
t; )
;podemos estimar el modelo lineal
=^
@f (xt ; )
yt ' + ut ;
@ =^
3
por el procedimiento habitual de Mínimos Cuadrados.
Podemos pensar que en realidad estamos estimando un modelo distinto del
que pretendíamos, y que de poco nos servirá, si el modelo que estimamos tiene
una variable dependiente y unas variables explicativas diferentes de las que
aparecían en el modelo original. Lo que sucede es que una vez más (como
también sucede al estimar por MCG un modelo de regresión inicial en el que el
término de error tiene heterocedasticidad o autotocorrelación), lo que hacemos
es transformar las variables del modelo para obtener otro modelo diferente, que
comparte con el primero los mismos coe…cientes, y en el que la estimación de
mínimos cuadrados tiene buenas propiedades. Además, veremos pronto que esta
estrategia de estimación se puede interpretar como el resultado de un verdadero
problema de minimización de la suma de cuadrados de residuos (ver algoritmo
de Gauss Newton, más adelante).
La estimación resultante es,
" # 1
0 0
~= @f (xt ; ) @f (xt ; ) @f (xt ; )
y
@ =^ @ =^ @ =^
" # 1
0 0
~=^+ @f (xt ; ) @f (xt ; ) @f (xt ; )
u
^:
@ =^ @ =^ @ =^
4
1.1.2 Ejemplo 1: Modelo exponencial con constante. Aproximación
lineal
Consideremos la estimación del modelo exponencial:
yt = + 2 xt
1e + ut = f (xt ; ) + ut
con = ( ; 1 ; 2 ) : El gradiente de la función f que de…ne la relación entre
variable dependiente e independiente es,
@f (xt ; ) 0
= 1; e 2 xt ; 1 xt e 2 xt
@
por lo que la aproximación lineal al modelo original es,
0
@f (xt ; )
yt ' f (xt ; ^) + ^ + ut ; t = 1; 2; :::; T;
@ =^
que de…niendo variables:
0
@f (xt ; ) ^ = yt + ^ ^ e ^ 2 xt
yt = yt f (xt ; ^) + 1 2
@ =^
^
z1t = e 2 xt
^
z2t = ^ 1 xt e 2 xt
u
^t = 0 + 1 z1t + 2 z2t
siendo u
^ t = yt f (xt ; ^n 1 ):
5
1.1.3 Ejemplo 2: Modelo potencial. Aproximación lineal
Supongamos que queremos estimar el modelo potencial:
yt = + xt + ut ; t = 1; 2; :::; T
la función f (xt ; ) es: f (xt ; ) = + xt ; de modo que el vector gradiente es:
u
^ t = yt ^ ^ x ^ ; t = 1; 2; :::; T
t
y estimamos una regresión con u ^t como variable dependiente, y las tres variables
del vector @f @(xt ; ) como variables explicativas. El vector de estimaciones se
añade, con el signo que haya tenido (es decir, se suma si es positivo, y se resta si
es negativo), de las estimaciones iniciales, para tener una nueva estimación. el
algoritmo continua hasta que alcance la convergencia, y el punto al que converge
se toma como estimación del vector :
En este modelo, una estimación inicial razonable consistiría en partir de =
1;que simpli…ca el modelo haciéndolo lineal. Si estimamos una regresión lineal
por mínimos cuadrados: yt = + xt + ut ; t = 1; 2; :::; T; el vector ^ ; ^ ; 1 ;
donde ^ y ^ denotan las estimaciones de mínimos cuadrados del modelo lineal,
servirían como estimaciones iniciale para comenzar el procedimiento iterativo.
h i0 0 h i
F ( ) ' F ^n + rF ^n ^n + 1 ^n r2 F ^n ^n M( )
2
Si quisiéramos minimizar la función M ( ) ;resolveríamos el sistema de ecua-
ciones,
h i h i
M ( ) = rF ^n + r2 F ^n ^n = 0
6
que conduce a,
h i 1 h i
= ^n r2 F ^n rF ^n
valor numérico que puede tomarse como la nueva estimación, ^n+1 : Por
supuesto, convendrá comprobar que el Hessiano r2 F ^n es de…nido positivo.
El algoritmo se basa en condiciones de primer orden por lo que, cuando el
algoritmo converja, no sabremos si hemos alcanzado un máximo o un mínimo,
y necesitaremos hacer alguna exploración adicional. Si aplicamos la expresión
anterior a la minimización de una función cuadrática: F ( ) = a 2 + b + c;
obtenemos: ^n = b=2a; llegando a este punto crítico de la función sin necesidad
de hacer ninguna iteración.
Este es un algoritmo iterativo, conocido como algoritmo de Newton-Raphson.
Converge en una sóla etapa al mínimo local cuando la función F ( ) es cuadrática.
En los demás casos, no hay ninguna seguridad de que el algoritmo vaya a con-
verger. Incluso si lo hace, no hay seguridad de que converja al mínimo global,
frente a hacerlo a un mínimo local. Además, no es posible saber si el límite
alcanzado es o no un mínimo de naturaleza local. Por eso, conviene repetir
el ejercicio partiendo de condiciones iniciales muy distintas para, si converge,
certi…car que lo hace a un mínimo local peor que el alcanzado previamente.
Las iteraciones continúan hasta que se satisfacen las condiciones de conver-
gencia que hallamos diseñdo. Estas pueden ser una combinación de condiciones
de diverso tipo,
0
^n ^n 1
^n ^n 1 < "1
h i0 h i
rF ^n rF ^n < "2
F ^n F ^n 1 < "3
7
y la regla iterativa anterior se convierte en,
h i 1 h i
^ =^ r2 F ^ n rF ^ n
n n 1 1 1
XT
@SR( ) @f (xt ; )
rF ^ n 1 = = 2 ut
@ t=1
@
XT 0 XT
@ 2 SR( ) @f (xt ; ) @f (xt ; ) @ 2 f (xt ; )
r2 F ^ n 1 = 0 =2 2 ut
@ @ t=1
@ @ t=1
@ @ 0
" T
# 1 " T
#
X @f (xt ; ) @f (xt ; )
0
@ 2 f (xt ; ) X @f (xt ; )
^ =^
n n 1+ ut ut
t=1
@ @ @ @ t=1
@
" T
# 1 " T
#
X @f (xt ; ) @f (xt ; )
0 X @f (xt ; )
^ =^ + ut
n n 1
t=1
@ @ t=1
@
8
1.4 Algoritmos numéricos: Gauss-Newton y Newton-Raphson
Consideremos de nuevo la estimación del modelo exponencial,
yt = + 2 xt
1e + ut = f (xt ; ) + ut
X @f (xt ; ) X @ft X
rF ( ) = 2 u
^t = 2 u
^t = 2 1; e 2 xt ; 2 xt
1 xt e u
^t
@ @
@ftX @ft
0 X @ 2 ft
r2 F ( ) = 2 2 2 u
^t =
@ @ @
0 1 0 1
XT 1 e 2 xt 1 xt e
2 xt T
X 0 0 0
= 2 @ e 2 xt e2 2 xt 1 xt e
2 2 xt A 2 @ 0 0 xt e 2 xt Au^t =
2 xt 2 2 xt
2 2 2 2 xt 2 xt 2 2 xt
t=1 1 xt e 1 xt e 1 xt e t=1 0 xt e 1 xt e
0 1
XT 1 e 2 xt 1 xt e
2 xt
= 2 @ e 2 xt e2 2 xt xt e 2 xt u
^t + 1 xt e
2 2 xt A
2 xt xt e 2 xt 2 xt 2 2 xt 2 xt
t=1 1 xt e 1e u
^t 1 xt e 1e u
^t
" T
# 1 " T
#
X @ft @ft
0 X @f (xt ; )
^n = ^n 1 + u
^t
t=1
@ =^n 1
@ =^n 1 t=1
@
9
que, como puede verse, coincide con la estimación de la aproximación lineal
al modelo no lineal que antes analizamos.
En el modelo exponencial tendríamos,
2 0 13 1 2 0 13
XT 1 e 2 xt 1 xt e
2 xt
X T u
^t
^n = ^n 1+
4 @ e 2 xt e2 2 xt 1 xt e
2 2 xt A5 4 @ e 2 xt u^t A5
2 xt 2 2 xt
2 2 2 2 xt x
1 xt e 1 xt e 1 xt e 1 xt e u
^t
t=1 t=1 2 t
0 1 0 1
T
X 1 1 yxt T
X 1 1 yxt
2 @ 1 1 xt u^t + yxt A = 2 @ 1 1 xt yt + 2yxt A;
2 2 2 2 2 2
t=1 yxt xt u
^t + yxt xt y u
^t + y xt t=1 yxt xt yt + 2yxt xt yyt + 2y xt
0 1
XT 1 1 yxt
@ 1 1 yxt A
t=1 yxt yxt y 2 x2t
= m(y) 2 xt
1 m(e )
que, sustituida en la segunda, nos proporciona,
2
m(yt e 2 xt ) = m(e 2 xt )m(y) m(e 2 xt ) + 2 2 xt
1 1 m(e )
Dado un valor numérico de 2; tenemos,
10
que, como es habitual, tiene la forma de cociente entre una covarianza y una
varianza muestrales.
La última condición de optimalidad nos dice,
m yt xt e 2 xt = m xt e2 2 xt + xt e2 2 xt
1m
Rt = 1 + 2 rt + ut
son,
T
X
(Rt 1 2 rt ) = 0
t=1
T
X
(Rt 1 2 rt ) rt = 0
t=1
T
X
2 (Rt 1 2 rt ) rt ln rt = 0
t=1
T
X T
X
Rt = T 1+ 2 rt ) T m(R) = T 1 + 2 T m(r )) 1 = m(R) 2 m(r )
t=1 t=1
T
X T
X T
X
R t rt = 1 rt + 2 rt2 ) T m(Rr ) = T m(R)m(r ) 2 T m(r )2 + 2 T m(r
2
))
t=1 t=1 t=1
m(Rr ) m(R)m(r )
) 2 =
m(r2 ) m(r )2
El primer resultado sugiere que la estimación del término independiente se
obtenga, una vez estimados 2 y ; de modo similar a como se recupera el
término independiente en la estimación de un modelo lineal.
11
Lo más interesante es observar que la segunda ecuación sugiere estimar el
parámetro 2 en función de momentos muestrales de algunas funciones de los
tipos a largo y a corto plazo. Para calcular dichos momentos precisamos conocer
el parámetro , pero también podemos poner en marcha una búsqueda de red
puesto que, por las características de la función de consumo, dicho parámetro
ha de ser positivo y no muy elevado. Por tanto, una red que cubra el inter-
valo (0:5; 2:0) puede ser su…ciente. De hecho, para cada valor numérico posible
de podemos utilizar la expresión anterior para estimar 2 ;sin necesidad de
optimizar, y después utilizar la primera condición de optimalidad para estimar
1:
Ct = 1 + 2 Yt + ut
en el que la función f (X; ) tiene gradiente:
@f (xt ; )
= (1; Yt ; 2 Yt ln Yt )
@
que son,
T
X
(Ct 1 2 Yt ) = 0
t=1
T
X
(Ct 1 2 Yt ) Yt = 0
t=1
T
X
2 (Ct 1 2 Yt ) Yt ln Yt = 0
t=1
T
X T
X
Ct = T 1+ 2 Yt ) T m(C) = T 1 + 2 T m(Y )) 1 = m(C) 2 m(Y )
t=1 t=1
T
X T
X T
X
Ct Yt = 1 Yt + 2 Yt2 ) T m(CY ) = T m(C)m(Y ) 2 T m(Y )2 + 2 T m(Y
2
))
t=1 t=1 t=1
m(CY ) m(C)m(Y )
) 2 =
m(Y 2 ) m(Y )2
Este procedimiento funciona muy bien desde el punto de vista numérico,
como puede verse en el archivo Ajuste_consumo.xls. La única limitación del
12
método es que no proporciona la estructura de varianzas y covarianzas que per-
mitiría llevar a cabo el análisis de inferencia estadística al modo habitual. Puede
analizarse, sin embargo, la región paramétrica consistente con una variación de
la suma de cuadrados de residuos inferior a un cierto umbral de, por ejemplo, un
5%. Esto sería como construir una región de con…anza del 95% para el vector
de parámetros.
@f (xt ; ) 0
= e xt ; xt e xt
@
Es importante apreciar la expresión analítica de las derivadas parciales de
esta función,
@y @2y 2 xt
= e xt ; = e ;
@x @x2
Como la función exponencial es positiva con independencia del signo de
y de xt ; tenemos que la primera derivada tendrá el signo del producto ,
mientras que la segunda derivada tendrá el signo del parámetro : Esto nos
puede dar pautas para la elección de condiciones iniciales. Por ejemplo, si la
nube de puntos de yt sobre xt tiene un per…l decreciente y convexo, tendríamos
un valor positivo de ; debido a la convexidad, junto con un valor negativo de
:
13
yt = z1t + z2t + ut ; t = 1; 2; :::; T; (5)
u
^t = 1 z1t + 2 z2t
^n = ^n 1 + ^1 ; ^ n = ^ n 1 + ^2
siendo u
^ t = yt f (xt ; ^n 1 ):
T
X T
X T
X
2 xt 2
min SR(^) = min ^t ^ = min
u (yt f (xt ; ) = min yt e
t=1 t=1 t=1
X X
xt
yt e = e2 xt
X X
xt
yt xt e = xt e2 xt
m(ye x )
^=
m(e2 x )
mientras que de la segunda condición tenemos:
m(yxe x )
^=
m(xe2 x )
14
Ejercicio práctico con rutina Matlab Considerando nuevamente la fun-
ción Suma de Cuadrados de Residuos,
T
X T
X T
X
2 xt 2
min SR(^) = min ^t ^ = min
u (yt f (xt ; ) = min yt e
t=1 t=1 t=1
T
X
xt xt
2 yt e e = 0
t=1
T
X
xt xt
2 yt e xt e = 0
t=1
X @f (xt ; ) X @ft X
xt xt
rF ( ) = 2 u
^t = 2 u
^t = 2 e ; xt e u
^t (6)
@ @
T
X T
X
e2 xt xt e2 xt 0 xt e xt
r2 F ( ) = 2 2 (7)
u
^t
xt e2 xt 2 2 2 xt
xt e xt e xt
x2t e xt
t=1 t=1
T
X e2 xt xt e xt e xt u
^t
= 2
xt e xt e xt
u
^t x2t e xt e xt u^t
t=1
15
por lo que el algoritmo de Newton-Raphson sería,
" T
# 1 " T
#
X e2 xt xt e xt e xt u
^t X e xt
^n = ^n 1 u
^t
xt e xt e xt
u
^t x2t e xt e xt u^t xt e xt
t=1 t=1
(8)
mientras que el algoritmo de Gauss-Newton sería,
" T
# 1 " T
#
X e2 xt xt e2 xt X e xt
^n = ^n 1 u
^t (9)
xt e2 xt 2 2 2 xt
xt e xt e xt
t=1 t=1
@2f f (x1 ; ::; xi + "; ::; xj + "; ::; xn ) f (x1 ; ::; xi + "; ::; xj "; ::; xn ) f (x1 ; ::; xi "; ::; xj + "; ::; xn )
= lim
@xi @xj "!0 4"2
@f (xt ; ) xt xt
= (1; e ; xt e )
@
y las ecuaciones normales,
T
X T
X T
X
yt e xt
= 0) yt = T + e xt
)^=y ^m e xt
16
La primera ecuación sugiere estimar la constante mediante la regla habitual
en el procedimiento de mínimos cuadrados de igualar las medias muestrasles de
ambos miembros del modelo econométrico. La segunda ecuación conduce a,
xt xt
m yt e m(yt )m e
= 2
m (e2 xt ) [m (e xt )]
yt = + 1 2 xt + ut
en el que la aplicación del algoritmo de Newton-Raphson resulta en,
0 1 0 1
1 2 xt 1 xt 0 0 0
@ 2 xt 2 2
2 xt
2 A
1 2 xt
@ 0 0 xt A ut
2 2 2
1 xt 1 2 xt 1 xt 0 xt 0
mientras que el algoritmo de Gauss-Newton consistiría en,
0 1
1 2 xt 1 xt
@ 2 xt 2 2
2 xt
2 A
1 2 xt
2 2 2
1 xt 1 2 xt 1 xt
17
cuyo gradiente, de dimensión k + 1 hay que igualar a 0k+1 para obtener la
estimación de Máxima Verosimilitud. Su matriz de covarianzas es la inversa de
la matriz de información,
1
" T
# 1
1 @ 2 ln L( ) X @ 2 ln lt ( )
V ar ^ M V = I( ; 2
u) = E = E
@2 t=1
@2
T
2 T T 2 1 X 2 xt
2
ln L(yt ; xt ; ; u) = ln 2 ln u 2
yt ( + 1e )
2 2 2 u t=1
r2 F ^n 1 + Ik
18
de modo que sea siempre de…nida positiva. Cuando esta corrección se intro-
duce en el algoritmo de Gauss-Newton, se tiene el algoritmo de Marquardt.
El algoritmo de scoring consiste en sustituir la matriz hessiana del logaritmo
de la verosimilitud, por su esperanza matemática, la matriz de información
cambiada de signo, lo que simpli…ca mucho su expresión analítica y, por tanto,
los cálculos a efectuar en cada etapa del algoritmo,
!
h i 1 XT
@ ln lt ( )
^n = ^n 1 + I(^n 1 ) :
=^n 1
t=1
@ ^ = n 1
" T
# 1 T
!
X @ ln lt ( ) @ ln lt ( )
0 X @ ln lt ( )
^n = ^n 1 + :
@ @ @
t=1 =^n 1
t=1 =^n 1
0 1
PT 1
1 e 2 xt 2 xt
1 xt e 2 u^t
T B
u Pt=1
T C
1 XB
1
e 2 xt e2 2 xt
1 xt e
2 2 xt
2 e 2 xt u^t C
H= B u Pt=1 C
2 B 2 xt 2 2 xt 2 2 2 2 xt 1 T 2 xt u C
u t=1 @ 1 xt e 1 xt e 1 xt e 2 t=1 1 t x e ^t A
1
PT 1
PT 1
PT T
u
1
P 2
u
^t e 2 xt u
^t 2 xt
2
u t=1 2
u t=1 2
u t=1 1 xt e u
^t 2( 2u )2 ( 2u )3
u
^t
19
0 1
1 e 2 xt 1 xt e
2 xt 0
T
2 1 XB B
e 2 xt e2 2 xt 1 xt e
2 2 xt 0 C
C
I ; u = 2 @ 1 xt e 2 xt 2 2 xt
2 2 2 2 xt A
u t=1 1 xt e 1 xt e 0
T
0 0 0 2( 2 )2
u
20
debajo de los cuales se detiene la estimación. Cuando se utiliza una rutina
proporcionada por una librería en un determinado lenguaje, dicha rutina incor-
pora valores numéricos para todos los criterios señalados, que pueden no ser
los que el investigador preferiría, por lo que es muy conveniente poder variar
dichos parámetros en la rutina utilizada. Alternativamente, lo que es mucho
más conveniente, el investigador puede optar por escribir su propio programa
de estimación numérica.
Estos aspectos afectan asimismo a la presentación de los resultados obtenidos
a partir de un esquema de estimación numérica: como generalmente no sabemos
si hemos alcanzado un óptimo local o global, esto debe examinarse volviendo
a repetir el ejercicio de estimación a partir de condiciones inniciales sustan-
cialmente diferentes de las utilizadas en primer lugar, con objeto de ver si se
produce la convergencia, y cual es el valor de la función objetivo en dicho punto.
Conviene repetir esta prueba varias veces. Asimismo, cuando se presentan es-
timaciones, deberían acompañarse de la norma del graidnet en dicho punto, así
como de los umbrales utilizados para detener el proceso de estimación, tanto
en términos del vector gradiente, como de los cambios en el vector de estima-
ciones, o en el valor numérico de la función objetivo, como hemos explicado en
el párrafo anterior.
21
los cambios en las estimaciones o en el valor de la función objetivo son
inferiores a dichos umbrales, y el algoritmo se detiene. Deben reducirse
dichos umbrales y volver a estimar.
Si el programa se detiene sin exceder el máximo número de iteraciones,
es importante comparar los valores paramétricos en los que se detiene,
con los que se utilizaron como condiciones iniciales. Esta comparación
que, lamentablemente, no suele efectuarse, muestra frecuentemente que
en alguno de los parámetros el algoritmo no se ha movido de la condición
inicial. Salvo que tengamos razones sólidas para creer que dicha condición
inicial era ya buena, esto signi…ca que, o bien el algoritmo está teniendo
di…cultades para encontrar en que sentido mover en la dirección de di-
cho parámetro para mejorar el valor numérico de la función objetivo, o
no ha tenido su…ciente posibilidad de iterar en esa dirección, dadas las
di…cultades que encuentra en otras direcciones (o parámetros). En estos
casos quizá conviene ampliar el número máximo de iteraciones, y quizá
también reducir la tolerancia del algoritmo (la variación en o en F que
se ha programado como criterio de parada), para evitar que el algoritmo
se detenga demasiado pronto.
Todo esto no es sino re‡ejo, en general, de un exceso de parametrización,
que conduce a que la super…cie que representa la función objetivo, como
función de los parámetros, sea plana en algunas direcciones (o parámet-
ros). Esto hace que sea di…cil identi…car los valores numéricos de cada
uno de los parámetros del modelo por separado de los demás, por lo que el
algoritmo encuentra di…cultades en hallar una dirección de búsqueda en la
que mejore el valor numérico de la función objetivo. Una variación, incluso
si es de magnitud apreciable, en la dirección de casi cualquier parametro,
apenas varía el valor numérico de la función objetivo. Por eso, el algoritmo
no encuentra un modo de variar los valores paramétricos de modo que la
función objetivo cambie por encima de la tolerancia que hemos …jado, y
se detiene. En estos casos, el gradiente va a ser también muy pequeño,
que puede ser otro motivo por el que el algoritmo se detenga. De hecho,
la función objetivo varía de modo similar (poco, en todo caso) tanto si
el algoritmo varía uno como si cambia varios parámetros, que es lo que
genera el problema de identi…cación, similar al que se obtiene en el mod-
elo lineal general cuando existe colinealidad entre alguna de las variables
explicativas. Las di…cultades en la convergencia del algoritmo producidas
por una excesiva sobreparametrización del modelo se re‡ejan en unas ele-
vadas correlaciones de los parámetros estimados. Como en cualquier otro
problema de estimación, conviene examinar no sólo las varianzas de los
parámetros estimados, sino también las correlaciones entre ellos.
Otra di…cultad puede presentarse en la forma de cambios muy bruscos
en el estimador. Ello se corrige introduciendo en el algoritmo (??) un
parámetro que se conoce como longitud de salto,
22
h i 1
= ^0 r2 F ^0 rF ^0 (10)
23
la utilidad que se vaya a dar al modelo, el usuario puede determinar que está
dispuesto a aceptar variaciones de hasta un 1% alrededor del valor de la función
objetivo que ha obtenido en su estimación. Se trata entonces de perturbar el
valor numérico del parámetro cuya precisión se quiere medir, y estimar condi-
cionando en dicho valor mientras que el valor resultante para la función objetivo
satisfaga la condición pre…jada. Se obtiene así numericamente, un intervalo de
con…anza alrededor de la estimación inicialmente obtenida. En principio, esta
región no tiene por qué coincidir con la tradicional región de con…anza. Puede
resultar extraño hablar de regiones de con…anza paramétricas en el caso del
cálculo de la volatilidad implícita pues, como hemos dicho, no es realmente un
problema estadístico. Existe un razonamiento distinto del anterior, con más
base estadística que conduce asimismo a una región de con…anza paramétrica.
Para ello, consideremos que el usuario de la expresión BS, consciente de que
el tipo de interés relevante no va a permanecer constante hasta vencimiento,
y desconociendo su evolución establece un conjunto de posibles escenarios de
evolución de los tipos, cada uno acompañado de una probabilidad que recoge
la mayor o menor verosimilitud asignada a dicho escenario, e identi…ca cada
escenario con distintos niveles constantes del tipo de interés. Calculando la
volatilidad implícita para cada nivel de tipos de interés considerado, mientras
se mantienen constantes los restantes parámetros, generaríamos una distribu-
ción de probabilidad para la volatilidad implícita. Por supuesto, este argumento
se puede generalizar el caso en que la incertidumbre a priori se recoge en la forma
de una distribución de probabilidad multivariante para el vector de parámetros
sobre los que se condiciona en el proceso de estimación.
yt = " t "t 1
24
0 @f (xt ; ) 0 0 0 0 0
yt f (xt ; )+ = yt + "t 1 "t 1 = yt = "0t "t 1
@ = 0
@f (xt ; )
+ "t = "0t 1 + "t ;
@ = 0
wt = x1t + "t
donde,
0 0
wt = "0t "t 1
x1t = "0t 1
"01 = 0;
0 0
"02 = y2 + "1 = y2 ;
0 0 0
"03 = y3 + "2 = y3 + y2
0 0 0 0 2
"04 = y4 + "3 = y4 + y3 + y2
25
0 @"t 0 @"t
"t ' "0t + 1 1 + 2 2
@ 1 = 0
@ 2 = 0
0 0 0
siendo = 1; 2
una estimación inicial de los parámetros del modelo.
En este modelo se tiene,
@"t @"t
= "t 1; = "t 2
@ 1 @ 2
por lo que podemos escribir la aproximación anterior como,
es decir,
0 0 0 0
"0t 1 "t 1 2 "t 2 = 0
1 "t 1
0
2 "t 2 + "t
que conduce a estimar el modelo lineal de regresión,
0 0 0 0
wt = "0t 1 "t 1 2 "t 2
x1t = "0t 1
x2t = "0t 2
Para obtener los errores en este caso, se …jan los 2 primeros igual a su
esperanza matemática, cero, y se utiliza la propia expresión del modelo M A(2),
escrito en la forma,
0 0
"t = yt + 1 "t 1 + 2 "t 2
yt = + yt 1 + "t ; t = 1; 2; :::
E"t = 0; E("t "t s ) = 0 8s 6= 0; E("2t ) = 2
26
La distribución de probabilidad de yt condicional en su propio pasado es
N + yt 1 ; 2 : Es decir, una vez observado el valor numérico de yt ; el
valor esperado de yt+1 es + yt ; y la varianza de los posibles valores de yt+1
alrededor de + yt es 2 : Como puede apreciarse, la esperanza condicional es
una variable aleatoria, tomando valores numéricos cambiantes en el tiempo. La
varianza condicional de yt es igual a la varianza de la innovación, 2 ; re‡ejando
el hecho de que es ésta la única fuente de error en la predicción del valor de yt
un período hacia adelante.
Esto es válido para todo t 2: Son embargo, para t = 1 no podemos
condicionar y1 en ningún valor previo, por lo que no podemos hablar de su
distribución condicional. La distribución marginal, absoluta o incondicional
2
de y1 es N 1 ; 1 2 ; es decir, que si no contamos con ninguna observación
previa, el valor esperado de y1 es 1 ; y la dispersión esperada alrededor de dicho
2
valor es de 1 2 ; mayor de la que tendríamos si dispusiésemos de la observación
del período anterior. Nótese que: E (Et 1 yt ) = E( + yt 1 ) = + Eyt 1 ;
pero Eyt 1 = 1 ; por lo que: E (Et 1 yt ) = + 1 = 1 = Eyt , lo cual
no hace sino comprobar que se cumple en este ejemplo concreto, la conocida
propiedad: Eyt = E (Et 1 yt ) :
La función de verosimilitud muestral puede escribirse:
de modo que,
T
X
ln L = ln(y1 ) + ln L(yt =yt 1) =
2
!
2 2 2
1 1 " 1 T 1
= ln 2 ln 2 2
y1 ln 2
2 2 1 2 " 1 2
T
T 1 2 1 X 2
ln " 2
(yt yt 1)
2 2 " 2
T
T 1 T 1 2 1 X 2
ln L = ln 2 ln " 2
(yt yt 1) (11)
2 2 2 " 2
27
T T
@ ln L 1 X X
= 2
(yt yt 1) = 0 ) u
^t = 0
@ " 2 2
T T
@ ln L 1 X X
= 2
(yt yt 1 )yt 1 =0) u
^ t yt 1 =0
@ " 2 2
T
X T
X
@ ln L T 1 1 1 2 T 1 1 1
= + (yt yt 1) = + ^t 2
u
@ 2" 2 2
2( 2 )2 2 2
2( 2 )2
" " 2 " " 2
T
X
1 2
= " ^t 2 = 0
u
2( 2 )2
" 2
T
X T
T 1 T 1 T 1 T 1 X 2
ln L = ln 2 ln ^t 2 +
u ln(T 1) PT 2 u
^t =
2 2 2
2 2 2u
^t 2
T
X
T 1 T 1 T 1 T 1
= ln 2 + ln(T 1) ln ^t 2
u
2 2 2 2 2
28
T
@ 2 ln L 1 X T 1
= ( 1) =
@ 2 2
" 2
2
"
T
!
@ 2 ln L 1 X @ 2 ln L T 1 2 2
"
= yt2 1 )E = +
@ 2 2
" 2
@ 2 2
" 1 2
(1
2
)
T
!
@ 2 ln L T 1 1 1 X @ 2 ln L T 1
= ^t 2 ) E
u =
@( 2 )2 2 ( 2 )2 ( 2 )3 @( 2 )2 ( 2 )2
" " " 2 " "
T
X
@ 2 ln L 1 @ 2 ln L T 1
= 2
yt 1 )E = 2
@ @ " 2
@ @ " 1
T
X
@ 2 ln L 1 @ 2 ln L
= u
^t ) E =0
@ @ 2" ( 2 )2 @ @ 2"
" 2
T
X
@ 2 ln L 1 @ 2 ln L
= u
^ t yt 1 )E =0
@ @ 2" ( 2 )2 @ @ 2"
" 2
" T
!#
@ 2 ln L @ 2 ln L 1 X
E = E Et 1 = 2 E Et 1 u
^ t yt 1 =
@ @ 2" @ @ 2" ( 2" ) 2
" T #
1 X
= 2E yt 1 (Et 1 u
^t ) = 0
( 2" ) 2
por lo que,
0 0 1 1
0 1 1 0
1
^ B 2 1
C
B 2 2 C
@ ^ A NB
@ ; "
@ 1 1
"
2 + (1 )2
0 A C
A
2 T 1
^ 2" " 0 0 2
1
2
"
0 PT PT 1 1 0 PT 1
T 1 y u
^ 2 u^t
B PT y PT2 t2 1 P2T t C B PT C
^n = ^n y 2 ^P
u t yt
1 +@ PT2 t 1
PT2 t 1 1 A @ 2 ^tP
u yt 1 A
1 T 2 T
2 u
^t 2 u
^ t yt 1 ( 2 )3 2 " ^t 2
u 1
2 2 2
2
" ^2t
u
" "
29
donde denota el vector de parámetros, = ; ; 2" ; mientras que el
algoritmo de scoring, más sencillo, aproxima el hessiano del logaritmo de la
función de verosimilitud por la matriz de información,
0 1 1 0 PT 1
1 0
1 2 u^t
^n = ^n 1 B 2 2 C B PT C
1+ @ + 0 A @ 2 ^tP
u yt 1 A
"
2
T 1 1 1 (1 )2
1 T 2
0 0 2
1
2 2 2 2 " ^2t
u
" "
0 PT 2 PT 1
PT 1 1
u
^t ^2t yt 1
u ^t 2" u
2 u
2 ^2t
2B
P2T 2 P2T 2 2 2
P T
"
C
^n = ^n 1+ "@ 2 u^ t yt 1 2 u^ t yt 1 1
^t yt 1 2"
2 u ^2t
u A :
2 2"
1
PT 2 1
PT 1
P T 2
2 2 2 u
^t " ^2t
u 2 2" 2 u
^ t yt 1 2
" ^2t
u 4 2" 2
2
" ^2t
u
"
0 PT 1
2 u^t
B PT C
:@ 2 ^tP
u yt 1 A
1 T 2
2 2 2 " ^2t
u
"
yt = + ut ; t = 1; 2; :::;
ut = ut 1 + "t = 0 E"t = 0; E ("t "s ) = 0; 8s 6= 0; E("2t ) = 2
"
yt = (1 ) + yt 1 + "t
que muestra que, dado yt 1 ; la distribución de probabilidad de yt condicional
en su propio pasado es N (1 ) + yt 1 ; 2" : Es decir, una vez observado
el valor numérico de yt ; el valor esperado de yt+1 es (1 ) + yt 1 ; y la
varianza de los posibles valores de yt+1 alrededor de dicho valor esperado es 2" :
La esperanza condicional es una variable aleatoria, tomando valores numéricos
cambiantes en el tiempo. La varianza condicional de yt es igual a la varianza de
la innovación, 2" ; re‡ejando el hecho de que es ésta la única fuente de error en
la predicción del valor de yt un período hacia adelante.
Esto es válido para todo t 2: Son embargo, para t = 1 no podemos
condicionar y1 en ningún valor previo, por lo que no podemos hablar de su
distribución condicional. La distribución marginal, absoluta o incondicional de
2
y1 es N ; 1 " 2 ; es decir, que si no contamos con ninguna observación previa,
30
el valor esperado de y1 es 1 ; y la dispersión esperada alrededor de dicho valor
2
es de 1 2 ; mayor de la que tendríamos si dispusiésemos de la observación del
"
período anterior.
La función de verosimilitud muestral puede escribirse:
de modo que,
T
X
ln L = ln(y1 ) + ln L(yt =yt 1) =
2
T
1 1 2 1 T 1 T 1 1 X
= ln 2 ln u y2
2 1
ln 2 ln 2
" 2
(yt (1 ) yt 1)
2
=
2 2 2 u 2 2 2 " 2
T
T T 2 1 2 1 2
2 1 X 2
= ln 2 ln " ln(1 ) 2
(y1 ) 2
(yt (1 ) yt 1)
2 2 2 2 " 2 " 2
T
T T 2 1 X
ln L = ln 2 ln " 2
"2t =
2 2 2 " 1
T
T T 2 1 2 1 X 2
= ln 2 ln " 2
[y1 (1 ) y0 ] 2
(yt (1 ) yt 1)
2 2 2 " 2 " 2
" T
#
@ ln L 1 X
= 2
(y1 (1 ) + y0 ) + "t = 0
@ " 2
" T
#
@ ln L 1 X
= 2
(y1 (1 ) y0 ) (y0 )+ "t (yt 1 ) =0
@ " 2
T
X
@ ln L T 1 1 2
= + 2 (yt (1 ) + yt 1) =0
@ 2" 2 2" 2 ( 2" ) 2
Una vez más, calcularemos el estimador de Máxima Verosimilitud condi-
cional en la primera observación, que tomaremos como dada.
31
T
T 1 T 1 2 1 X
ln L = ln 2 ln " 2
"2t =
2 2 2 " 2
T
X
T 1 T 1 2 1 2
= ln 2 ln " 2
(yt (1 ) yt 1)
2 2 2 " 2
T
X T
X
@ ln L 1
= 2
(yt (1 ) yt 1) =0) "t = 0
@ " 2 2
T T
@ ln L 1 X X
= 2
(yt (1 ) yt 1 ) (yt 1 )=0) "t (yt 1 )=0
@ " 2 2
T
X
@ ln L T 1 1 1 2
= + (yt (1 ) yt 1) =
@ 2" 2 2
2( 2 )2
" " 2
T
X PT
1 2 "2t
= ( " "2t ) = 0 ) 2
" = 2
2( 2 )2 T 1
" 2
32
@ 2 ln L T 1
= (1 )2
@ 2 2
"
T
@ 2 ln L 1 X 2 @ 2 ln L T 1 2
= (yt 1 ) )E = u
@ 2 2
" 2
@ 2 2
"
T
!
@ 2 ln L T 1 1 1 X 2 @ 2 ln L T 1
= "t ) E =
@( 2 )2 2 4 6
@( 2 )2 2 4
" " " 2 " "
2 T
X
@ ln L 1 @ 2 ln L
= 2
[(yt 1 ) (1 ) + "t ] ) E =0
@ @ " 2
@ @
T
X
@ 2 ln L 1 @ 2 ln L
= "t ) E =0
@ @ 2" 4
" 2
@ @ 2"
T
@ 2 ln L 1 X @ 2 ln L
= "t (yt 1 ))E =0
@ @ 2" 4
" 2
@ @ 2"
" T
!#
@ 2 ln L @ 2 ln L X
E = E Et 1 = E Et 1 "t u t 1 =0
@ @ 2" @ @ 2" 2
33
0 PT PT 1 1
(T 1) (1 )2 [u (1 ) + "t ] (1 ) 2 "t
B P T P2T 2t 1 PT C
^n = ^n 1 + 2" @ [u t 1 (1 ) + " t ] u "t ut 1 A :
2 PT PT2 t 1 1
2P
T 1 2 2
(1 ) 2 "t 2 "t u t 1 2 2 2 " "t
"
0 PT 1
(1 ) 2 "t
B PT C
:@ 2 "tP ut 1 A
1 T 2 2
2 2 2 ( " " t )
"
0 1 1
0 PT 1 0 1
PT 1
(1 )2 0 0 (1 ) 2 "t 1+ 2 "t
^n = ^n 1 @
0 2
0 A B PT C ^ 1 B 1
PT C
1+ u @ 2 "tP ut 1 A= n 1+ @ 2
uP 2
"t ut 1 A
T 1 0 0 1 1 T 2 T 1
2( " "2t ) T 2
"2t )
2( "
2 2 2
" 2 "
0 PT 2
2 PT 1 PT 1 1
(1 ) 2 "t (1 ) 2 "2t ut 1 2 2" 2 "t ( "
2
"2t )
B P T PT 2 PT C
^n = ^n 1 + @ (1 ) 2 "2t ut 1 2
"2t ) A
1 2 ("t ut 1 ) 2 2" "t ut 1 ( " :
1 PT 2 1
P T 1
PT 2 2
2 2" 2 "t ( " "2t ) 2 2"
2
2 "t ut 1 ( " "2t ) 4 4" 2( " "2t )2
0 PT 1
(1 ) 2 "t
B P T C
:@ 2 "tP
ut 1 A
1 T 2
2 2 2( " "2t )
"
yt = yt 1 + ut ; t = 1; 2; ::: (12)
2 2
ut = ut 1 + "t = 0 E"t = 0; E("t "t s ) = 0 8s 6= 0; E("t ) = "
donde como se ve, hemos supuesto, por simplicidad, que no hay término
independiente. Bajo el supuesto de que E"t = 0; se tiene: Eyt = Eut = 0: El
cálculo de la varianza de yt es bastante más complejo. Para ello, representamos
Para t 2; el modelo puede escribirse:
yt = ( + ) y t 1 yt 2 + "t (13)
34
que es un modelo cuyo término de error no presenta autocorrelación. En con-
secuencia, la presencia de los retardos de la variable dependiente como variables
explicativas no deteriora las propiedades estadísticas del estimador de mínimos
cuadrados de los parámetros del modelo:
yt = 1 yt 1 + 2 yt 2 + "t
donde tendríamos únicamente el problema de identi…car o recuperar los
parámetros ; del modelo original a partir de estimaciones de 1 ; 2 : Esto
se debe a que los parámetros ; entran de forma totalmente simétrica en el
modelo transformado (13) de modo que un vez que hubiéramos obtenido una
solución ^ ; ^ del sistema:
+ = ^
1
= ^
2
(1 + ) 2
V ar (yt ) = h i "
2 2
(1 ) (1 + ) ( + )
35
que es distinto para las combinaciones de valores numéricos ^ ; ^ y ^; ^ :
Por ejemplo, si = 0; 6; = 0; 9; tendríamos: V ar (yt ) = 5; 23V ar(ut ); mientras
que si = 0; 9; = 0; 6; tendríamos: V ar (yt ) = 17; 62V ar(ut ):
La función de verosimilitud muestral del proceso (12) puede escribirse:
T
X
ln L = ln(y1 ) + ln L(yt =yt 1) =
2
T
1 1 2
" T 1 1 2 1 2
1 X
= ln 2 ln 2 ln 2 ln " 2
y12 2
(yt yt 1)
2
=
2 2 1 2 2 2 " 2 " 2
T
T T 2 1 2 1 2
1 X
= ln 2 ln " + ln 1 2
y12 2
(yt yt 1)
2
2 2 2 2 " 2 " 2
T
X T
T 2 T 2 2 1 X 2
ln L = ln L(yt =yt 1 ; yt 2 ) = ln 2 ln " 2
(yt ( + ) yt 1+ yt 2)
3
2 2 2 " 2
T T
@ ln L 1 X 1 X
= 2
[(yt ( + ) yt 1 + yt 2 ) (yt 1 yt 2 )] = 2
(yt 1 yt 2 ) "t =0
@ " 3 " 3
T
@ ln L 1 X
= 2
(yt 1 yt 2 ) "t =0
@ " 3
T
X T
X
@ ln L T 2 1 2 T 2 1
= + (yt ( + ) yt 1 + yt 2) = + "t 2 = 0
@ 2" 2 2
2( 2 )2 2 2
2( 2 )2
" " 2 " " 2
36
simultáneamente con yt 1 yt 2 y y t 1 yt 2 ; lo que vuelve a mostrar la
simetría existente entre estos parámetros. Escribiendo el modelo (13) en la
forma,
yt yt 1 = (yt 1 yt 2) + "t
vemos que la primera condición sugiere estimar por Mínimos Cuadrados Or-
dinarios esta ecuación en variables cuasidiferenciadas para obtener la estimación
MVC del parámetro : Por otra parte, la segunda ecuación sugiere obtener el
estimador MVC del parámetro estimando por MCO la ecuación:
yt yt 1 = (yt 1 yt 2) + "t
que también equivale a (13) : Por último, la tercera ecuación nos proporciona
el estimador de Máxima Verosimilitud Condicionada de 2" :
PT
^"t 2
^ 2" = 3
T 2
Esta interpretación sugiere que el estimador MVC puede obtenerse esti-
mando la regresión en variables transformadas y~t = yt yt 1 ; para un de-
terminado valor numérico de ; para obtener la estimación de ; y utilizar ésta
para llevar a cabo la transformación: ~yt = yt ^ yt 1 para estimar como
el coe…ciente en un modelo AR(1) en esta variable. Esta última transformada
puede interpretarse como el residuo del modelo AR(1) original, dada la esti-
mación ^ : Ha de notarse, sin embargo, que tal esquema precisaría de un valor
inicial para uno de los dos parámetros, o ; para comenzar a partir de él
estimando, sucesiva y recursivamente, cada uno de ellos. Tal procedimiento it-
erativo aproximaría el estimador MVC. Sin embargo, éste requiere la estimación
simultánea de ambos parámetros, como sugiere la solución del sistema de ecua-
ciones de optimalidad anterior. El esquema iterativo puede conducir o no a la
misma solución que la solución simultánea que requiere, en todo caso, de un
algoritmo numérico. Ambas soluciones coincidirán si el modelo propuesto es la
especi…cación correcta, pero no en caso contrario, y el investigador nunca puede
estar seguro de este aspecto en su trabajo empírico. También coincidirán si los
estimadores MVC de ambos parámetros fuesen independientes.
La matriz de información del estimador de máxima verosimilitud es la in-
versa de la matriz de información, para lo que hemos de obtener las derivadas
segundas,
37
T
@ 2 ln L 1 X @ 2 ln L T 2 2
" T 2
= u2t 1 )E = =
@ 2 2
" 3
@ 2 2
" 1 2 1 2
T
@ 2 ln L 1 X 2 @ 2 ln L T 2 2
"
= (yt 1 yt 2) )E =
@ 2 2
" 3
@ 2 2
" 1 2
T
!
@ 2 ln L T 2 1 1 X @ 2 ln L T 2
2
= "t ) E =
@( 2 )2 2 ( 2 )2 ( 2 )3 @( 2 )2 ( 2 )2
" " " 3 " "
T
@ 2 ln L 1 X
= 2
["t yt 2 + (yt 1 yt 2 ) (yt 1 yt 2 )]
@ @ " 3
T
X
@ 2 ln L 1 @ 2 ln L @ 2 ln L
= "t (yt 1 yt 2) )E = E Et 1 =0
@ @ 2" ( 2 )2 @ @ 2" @ @ 2"
" 3
T
X
@ 2 ln L 1 @ 2 ln L @ 2 ln L
= "t (yt 1 yt 2) )E = E Et 1 =0
@ @ 2" ( 2 )2 @ @ 2" @ @ 2"
" 3
!2
h i 1
X 2
2 s "
E (yt 1 yt 2) = E "t s 1 = 2
s=0
1
" 1
#
X
s
E ["t (yt 1 yt 2 )] = E "t "t s 1 = E ("t "t 1 + "t " t 2 + :::) = 0
s=0
1
!
X
s
E ("t yt 2) = E "t ut s 2 =0
s=0
1
! " 1
! 1
!#
X X X
s i s
E [(yt 1 yt 2 ) (yt 1 yt 2 )] = E ut 1 "t s 1 =E "t i "t s =
s=0 i=0 s=0
2
"
=
1
Por tanto,
0 0 1 1
0 1 2
1
1
^ B 2 1
"
2 1 0 C
B C
@ ^ A NB
@ ; "
@ 1
1
1
1
2 0 A C
A
2 T 2
^ 2" " 0 0 2
1
2
"
38
donde la matriz de varianzas y covarianzas debería evaluarse en los estima-
ciones de máxima verosimilitud obtenidas para los tres parámetros del modelo.
ELa estructura de esta matriz de información prueba que, si bien los estimadores
de MVC de los parámetros y son independientes del estimador MVC de 2" ;
sin embargo los dos primeros no son independientes entre sí.
Para estimar este modelo mediante el algoritmo de Newton-Raphson, habría
que iterar mediante,
0 P PT PT 1 1
T 2
3 (yt 1 yt 2 ) [" y
PT3 2t t 2 + ut 1 (yt 1 yt 2 )] "u
PT3 t t 1
^n B C
= ^n 1 + @ A21 u 3Pt (yt 1
" yt 2 ) A :
PT P3T t 1 1 T 1 2
3 "t ut 1 3 "t (yt 1 yt 2) 4 3 2 " "t 2
0 P 1
T
3 (yt 1 yt 2 ) " t
B PT C
:@ 3 utP1 "t A
1 T 2 2
2 2 2 " " t
0 1 1 0 P 1
1 1 0 T
(yt 1 yt 2 ) "t
^n = ^n 1 B 2 2 C B P3T C
1+ @ 1 1
"
2 + (1 )2
0 A @ 3 utP1 "t A
T 1 1 1 T 2
0 0 2 2 2 2 2 " "t 2
"
^n = ^n 1 +
0 PT 2 2 PT PT
2 1 2
(yt 1 yt 2 ) "t (y yt 2 ) "t u t 1 "t 2 (yt 1
B PT3 2
PT3 2t 1 2 2
1
4
P2T "
2
+@ 3 (yt 1 yt 2 ) "t ut 1 3 t 1 "t
u 4
2 P 2 " "t 2 ut 1 "t
1
PT 2 1
PT 1 T 2
2 4 2 " "t 2 (yt 1 yt 2 ) "t 2 4 2
2
" "t 2 u t 1 "t 4 8 2
2
" "t 2
0 PT 1
(y yt 2 ) "t
B PT3 t 1 C
:@ 3 tP1 "t
u A
1 T 2
2 4 2 " "t 2
39