Está en la página 1de 806

1

Ecuaciones Diferenciales

1.1. Ecuaciones de Diferencia de Primer Orden


Este libro se ocupa de las consecuencias dinámicas de los acontecimientos en el tiempo. Digamos
que estamos estudiando una variable cuyo valor en la fecha t está denotado * Supongamos que se
nos da una ecuación dinámica que relaciona que el valor toma en la fecha con otra variable y
con el valor y asumido en el período anterior:

[1.1.1]

La ecuación [1.1.1] es una ecuación lineal de diferencias de primer orden. Una ecuación de
diferencia es una expresión que relaciona una variable con sus valores anteriores. Es una
ecuación de diferencia de primer orden porque sólo aparece el primer retardo de la variable
en la ecuación. Obsérvese que expresa como una función lineal de y .

Un ejemplo de [1.1.1] es la función estimada de demanda de dinero de Goldfeld (1973) para los
Estados Unidos. El modelo de Goldfeld relacionó el registro de las tenencias de dinero real del
público con el logaritmo del ingreso real agregado ( ), el logaritmo del tipo de interés de las
cuentas bancarias ( ), y el logaritmo de la tasa de interés en papel comercial ( ):

0.27 0.72 0.19 0.045 0.019 [1.1.2]

Éste es un caso especial de [1.1.1] con , 0.72, y

0.27 0.19 0.045 0.019


A efectos de analizar la dinámica de dicho sistema, esto simplifica un poco el álgebra para resumir
los efectos de todas las variables de entrada (It, rbty rct) en términos de escalar wt como aquí.

En el Capítulo 3 la variable de entrada wt será considerada como una variable aleatoria, y las
implicaciones de [1.1.1] para las propiedades estadísticas de la serie de resultados yt serán
exploradas. En preparación para esta discusión, es necesario primero entender la mecánica de las
ecuaciones de las diferencias. Para la discusión en los capítulos 1 y 2, los valores para la variable de
entrada {w1, w2, …} simplemente se considerarán como una secuencia de números deterministas.
Nuestro objetivo es responder a la siguiente pregunta: Si un sistema dinámico es descrito por
[1.1.1], ¿cuáles son los efectos sobre y de los cambios en el valor de w?

Solución de una Ecuación de Diferencia por Sustitución Recursiva


La presunción es que la ecuación dinámica [1.1.1] gobierna el comportamiento de para
todas las fechas de . Por lo tanto, para cada fecha tenemos una ecuación que relaciona el valor de

1.1  Ecuaciones de Diferencia de Primer Orden      1 
para esa fecha al valor anterior y el valor actual de .

Fechas Ecuación
0 [1.1.3]

1 [1.1.4]

2 [1.1.5]

⋮ ⋮
t [1.1.6]

Si se conoce el valor inicial de y para la fecha 1 y el valor si w se ajusta a las fechas


0,1,2, . .. entonces es posible simular este sistema dinámico para encontrar el valor de para
cualquier fecha. Por ejemplo, si conocemos el valor de para 1 y el valor de para 0,
podemos calcular el valor de para 0 directamente de [1.1.3]. Dado este valor de el valor de
para 1, podemos calcular el valor de para 1 de [1.1.4]:

,
O

Dado este valor de y y el valor de w para 2, podemos calcular el valor de y para 2 de


[1.1.5]

,
O

Continuando recursivamente en la moda, el valor que y toma en la fecha t puede describirse como
una función de su valor inicial yy la historia de w entre la fecha 0 y la fecha t:

⋯ [1.1.7]

Este procedimiento se conoce como resolver la ecuación de diferencia [1.1.1] por sustitución recursiva.

Multiplicadores dinámicos
Notar que [1.1.7] expresa como una función lineal del valor inicial los valores
históricos de . Esto hace que sea muy fácil calcular el efecto de en . Si cambiaba con y
, ,…, ... tomado como no afectado, el efecto en sería dado por

∅ [1.1.8]
Tenga en cuenta que los cálculos serían exactamente los mismos si la simulación dinámica se
iniciara en la fecha t (tomando y dado); Entonces y podría describirse como una función de yt-1 y wt,
wt+1, …, wt+j:

2 Capítulo 1 | Ecuaciones Diferenciales
[1.1.9]

El efecto de wt en yt+j está dado por



∅ . [1.1.10]

Así, el multiplicador dinámico [1.1.10] sólo depende de j, el tiempo que separa la perturbación de la
entrada (wt) y el valor observado de la salida (yt+j). El multiplicador no depende de t; esto es, no
depende de las fechas de la observación, esto es cierto para cualquier ecuación de diferencia lineal.
Como ejemplo de cálculo de un multiplicador dinámico, considere nuevamente las
especificaciones de demanda de dinero de Goldfeld [1.1.2]. Supongamos que queremos saber qué
pasará con la demanda de dinero dos trimestres a partir de ahora si los ingresos actuales It fueran a
aumentar en una unidad hoy con los ingresos futuros It + 1yIt + 2no afectados:

∅ .
De [1.1.2], un aumento de una unidad en It, aumentará wt en 0.19 unidades, lo que significa que
/ 0.19 Desde ∅ = 0.72, calculamos
0.72 0.19 0.098.
Debido a que es el registro de ingresos, un aumento en de 0.01 unidades corresponde a un
aumento del 1% en los ingresos. Un aumento en de (0.01) (0.098) ≅ 0.001 corresponde a un
aumento del 0.1% en las tenencias de dinero. Por lo tanto, se espera que el público aumente sus
tenencias de dinero por un poco menos de 0.1% dos trimestres después de un aumento del 1% en
los ingresos.

Diferentes valores de ∅ en [1.1.1] pueden producir una variedad de respuestas dinámicas de y a w.


Si 0 <∅<1, el multiplicador / en [1.1.10] se desintegra geométricamente hacia cero. El
panel (a) de la figura 1.1 representa ∅ como función de j para ∅ = 0.8. Si -1 < ∅ <0, el
multiplicador / alternará en signo como en el panel (b). En este caso, un aumento de wt
hará que ytsea mayor, yt+1 sea menor, yt+2 sea mayor, y así sucesivamente. Nuevamente el valor
absoluto del efecto se desintegra geométricamente hacia cero. Si ∅ >1, el multiplicador dinámico
aumenta exponencialmente con el tiempo como en el panel (c). Un aumento dado en wt tiene un
efecto más grande cuanto más lejos en el futuro uno va. Para ∅<-1, el sistema [1.1.1] presenta una
oscilación explosiva como en el panel (d).

Así, si |∅|<1, el sistema es estable; las consecuencias de un cambio dado en wt


eventualmente desaparecerán. Si |∅|> 1, el sistema es explosivo. Una posibilidad interesante es el
caso del límite o borde, ∅ = 1. En este caso, la solución [1.1.9] se convierte en

⋯ [1.1.11]

Aquí la variable de salida y es la suma de las entradas históricas . Un aumento de una unidad en
causará un aumento permanente de un minuto en :

También podríamos estar interesados en el efecto de w sobre el valor presente de la corriente de


realizaciones futuras de . Para una corriente dada de valores futuros , , ,…

1.1  Ecuaciones de Diferencia de Primer Orden      3 
(a) Ø = 0.8 (b) Ø = - 0.8

(c) Ø = 1.1 (d) Ø = - 1.1


FIGURA 1.1 Multiplicador dinámico para la ecuación de diferencias de primer orden para
diferentes valores de Ø (trazado de (  ) como función del retardo lag j).

Y una tasa de interés constante1 r> 0, el valor actual de la corriente en el tiempo t viene dado por

+ + + +…. [1.1.12]

Sea "β" el factor de descuento:

β ≡ 1/(1 + r).
Note que 0 <β< 1. Luego el valor presente [1.1.12] puede escribirse como

Considere lo que sucedería si hubiera un aumento de una unidad en w_t con w_ (t + 1), w_
(t + 2), ... inalterado. Las consecuencias de este cambio para el valor presente de y se encuentran
diferenciando [1.1.13] con respecto a w_t y luego usando [1.1.10] para evaluar cada derivada:

                                                            
1 La tasa de interés se mide aquí como una fracción de 1; r = 0.1 corresponde a un tipo de interés del 10%.

4 Capítulo 1 | Ecuaciones Diferenciales
Ø 1/ 1 Ø ,

[1.1.14]
Siempre que βØ< 1.

Al calcular los multiplicadores dinámicos [1.1.10] o [1.1.14], preguntamos qué pasaría si


aumentara en una unidad con , ,…, inafectado. Estamos encontrando así el efecto
de un cambio puramente transitorio . El panel (a) de la figura 1.2 muestra la trayectoria temporal
de Asociado con esta pregunta, y el panel (b) muestra el camino implícito para y. Debido a que
el multiplicador dinámico [1.1.10] calcula la respuesta de y a un solo impulso en , también se
conoce como la función impulso-respuesta.

(
TIEMPO

(a) Valor de

TIEMPO

(b) Valor de
FIGURA 1.2 Caminos de la variable de entrada ( ) Y variable de salida ( ) Para los cálculos
del multiplicador dinámico y del valor presente.

A veces podríamos estar interesados en las consecuencias de un cambio permanente . Un


cambio permanente en significa que en , , … ,y aumentarían en una unidad, como
en la figura 1.3. de la fórmula [1.1.10], el efecto sobre de un cambio permanente in
comenzando en el período está dado por

⋯ ∅ ∅ ∅ ⋯ ∅ 1

1.1  Ecuaciones de Diferencia de Primer Orden      5 
CuandoØ< 1, El límite de esta expresión como va al infinito se describe a veces como el efecto
de "largo plazo" de en :

lim ⋯ 1 ∅ ∅ ⋯

1
1 ∅
[1.1.15]

TIEMPO
(a) Valor de

TIEMPO

(a) Valor de
FIGURA 1.3 Caminos de variables de entrada ( ) y variable de salida ( ) para los cálculos del
efecto a largo plazo.

Por ejemplo, la elasticidad del ingreso a largo plazo de la demanda de dinero en el sistema [1.1.2]
está dada por
0.19
0.68.
1 0.72
Un aumento permanente del 1% en los ingresos llevará eventualmente a un aumento de 0,68% en
la demanda de dinero.

Otra cuestión relacionada se refiere a las consecuencias acumuladas para y de un


cambio . Aquí consideramos una perturbación transitoria como en el panel (a) de la Figura 1.2,
Pero desean calcular la suma de las consecuencias para todos los valores futuros de y. Otra manera
de pensar en esto es como el efecto sobre el valor presente dey [1.1.13] Con la tasa de descuentoβ =
1. Sejuntandoβ = 1 in [1.1.14] muestra que este efecto acumulativo es igual a [1.1.16]

6 Capítulo 1 | Ecuaciones Diferenciales
1/ 1 Ø

[1.1.16]
Dado que Ø< 1. Obsérvese que el efecto acumulativo sobre y de un cambio transitorio en
(expresión [1.1.16]) es el mismo que el efecto a largo plazo sobre y de un cambio permanente
en (expresión [1.1.15]).

1.2. Ecuaciones diferenciales de orden p


Ahora generalizamos el sistema dinámico [1.1.1] permitiendo que el valor de y en la fecha t dependa
de p de sus propios retornos junto con el valor actual de la variable de entrada :

∅ ∅ ⋯ ∅ [1.2.1]
Ecuación [1.2.1] es una ecuación lineal de diferencia de orden p.

A menudo es conveniente reescribir la ecuación de diferencia de orden p [1.2.1] en el


escalar como una ecuación de diferencia de primer orden en un vector t . Definir el vector (p x
1)t por

. [1.2.2]
.
.

Es decir, el primer elemento del vector En la fecha t es el valor y tomó en la fecha t. El segundo
elemento de t Es el valor y tomó en la fecha t - 1, y así sucesivamente. Defina la matriz (p x p) F
por

∅ ∅ ∅ ...∅ ∅
1 1 1 ... 0 0
0. 0. 0. ... 0 0
. . [1.2.3]
...
. . . . .
...
. . . . .
...
0 0 0 1 0
Por ejemplo, para p = 4, F se refiere a la siguiente matriz 4 x 4:

∅ ∅ ∅ ∅
1 0 0 0
0 1 0 0
0 0 1 0
Para p = 1 (la ecuación de diferencia de primer orden [1.1.1]), F es sólo el escalar Ø. Finalmente,
defina el vector (p x 1) vt por

1.2 Ecuaciones diferenciales de Orden p        7
0
0
. [1.2.4]
.
.
0
Considere la siguiente ecuación de diferencia vectorial de primer orden:

t t - 1 vt [1.2.5]

∅ ∅ ∅ ...∅ ∅
1 0 0 ... 0 0 0
0 1 0 ... 0 0 0
. . . . ... . . . .
. . . . ... . . . .
. . . . ... . . . .
0 0 0 ... 1 0 0
Este es un sistema de p ecuaciones. La primera ecuación en este sistema es idéntica a la ecuación
[1.2.1]. La segunda ecuación es simplemente la identidad

= ,

Debido al hecho de que el segundo elemento de t es el mismo que el primer elemento de t --1 . La
tercera ecuación en [1.2.5] establece que = ; La ecuación pth indica que =
.

Por lo tanto, el sistema vectorial de primer orden [1.2.5] es simplemente una representación
alternativa del sistema escalar de orden p. [1.2.5] es que los sistemas de primer orden suelen ser más
fáciles de trabajar que los sistemas de orden p.

Un multiplicador dinámico para [1.2.5] se puede encontrar exactamente de la misma


manera que se hizo para el sistema escalar de primer orden de la sección 1.1. si supiéramos el valor
del vector  para la fecha t = - 1 y de v para la fecha t = 0, podríamos encontrar el valor de para
la fecha 0 de
 = Ft --1 + v0 .
El valor de  para fecha 1 es
t 0 -1 -1

Proceder recursivamente de esta manera produce una generalización de [1.1.7]:

t -1 ⋯ [1.2.6]

Escribir esto en términos de las definiciones de y v,

8 Capítulo 1 | Ecuaciones Diferenciales
0 0
0 0
. . . . ⋯
. . . .
. . . .
0 0

0 0
0 0
. . [1.2.7]
. .
. .
0 0

Considera la primera ecuación del sistema, la cual caracteriza el valor de . Sea denotar que (1,
1) como elemento de , el (1, 2) elemento de , y así. Entonces la primera ecuación de [1.2.7]
afirma que:

⋯ [1.2.8]
Esto describe el valor de y en fecha t como una función linear de p valores iniciales dey ( , ,
…, )y la historia de la variable de entrada desde 0 ( , , … , ). Tenga en cuenta que
mientras que sólo un valor inicial para y (el valor ) En el caso de una ecuación de diferencias de
primer orden, p valores iniciales para y (los valores , ,…, ) Son necesarios en el caso de
una ecuación de diferencias de orden p.

La generalización obvia de [1.1.9] es

t+j t-1 ⋯ [1.2.9]

A partir del cual

⋯ [1.2.10]
Así, para una ecuación de diferencias de orden p, el multiplicador dinámico viene dado por

[1.2.11]

Donde denota que (1, 1) elemento de . Para j = 1, esto es simplemente el elemento (1, 1)
de F, o el parámetro Ø1 . Por lo tanto, para cualquier sistema de orden, el efecto en de un
aumento de una unidad en Está dada por el coeficiente to en la ecuación [1.2.1]:

Ø .

1.2  Ecuaciones diferenciales de orden p      9 
La multiplicación directa de [1.2.3] revela que el (1, 1) elemento de es (Ø + Ø ), entonces

Ø Ø

en un sistema de orden p.

Para valores mayores de j, y la manera fácil de obtener un valor numérico para el


multiplicador dinámico ⁄ es simular el sistema. Esto se hace de la siguiente manera.
Establece = =…= = 0, = 1, Y establece el valor de w para todas las otras
fechas a 0.A continuación, utilice [1.2.1] para calcular el valor de for t = 0 (llámese, = 1).
Sustituir este valor junto con , ,…, de regreso en [1.2.1] para calcular ,Y
continuar recursivamente de esta manera. El valor de y en el paso t da el efecto de un cambio de
una unidad en en .

Aunque la simulación numérica puede ser adecuada para muchas circunstancias, también es
útil tener una caracterización analítica simple de ⁄ , que, sabemos de [1.2.11], está dada
por el (1, 1) elemento de . Esto es bastante fácil de obtener en términos de los valores propios
de la matriz F. Recordemos que los valores propios de una matriz F Son los números λ para los
cuales

|F - λI | = 0. [1.2.12]
Por ejemplo, para p = 2 los valores propios son las soluciones a

∅1 ∅2 λ 0
- 0
1 0 0 λ
O
∅ λ ∅
∅ ∅ [1.2.13]
1 λ
Los dos valores propios de F para una ecuación de diferencia de segundo orden están dados por

∅ ∅ ∅
[1.2.14]

∅ ∅ ∅
[1.2.15]

Para un sistema de orden p-general, el determinante en [1.2.12] es un polinomio de orden p en λ


cuyas soluciones p caracterizan los p valores propios de F. Este polinomio resulta tomar una forma
muy similar a [1.2.13] . El siguiente resultado se demuestra en el Apéndice 1.A al final de este
capítulo.

Proposición 1.1: Los valores propios de la matriz F definida en la ecuación [1.2.3] son los valores de λ que
satisfacen

∅ ∅ ⋯ ∅ ∅ [1.2.16]

Una vez que conocemos los autovalores, es fácil caracterizar el comportamiento dinámico
del sistema. Primero consideramos el caso cuando los autovalores de F son distintos; Por ejemplo,
requerimos que y en [1.2.14] y [1.2.15] Ser números diferentes.

10 Capítulo 1 | Ecuaciones Diferenciales
Solución general de una ecuación de diferencia de orden p con valores
propios distintos
Recordar2que Si los valores propios de una matriz (p x p) F son distintos, existe un no
singular (p x p) matriz T tal que

F = TΛ [1.2.17]

Donde Λ es una matriz (p x p) con los valores propios de F a lo largo de la diagonal principal y
ceros en otra parte:

1 0 0... 0
0 20
... 0
. . . ... . [1.2.18]
. . . ... .
. . . ... .
0 0 0...

Esto nos permite caracterizar el multiplicador dinámico (el (1, 1) elemento de iN


[1.2.11]) muy fácilmente. Por ejemplo, a partir de [1.2.17] podemos escribir como

La estructura diagonal de Λ implica que Es también una matriz diagonal cuyos elementos son
cuadrados de los valores propios de F:
2
1
0 0... 0
2 ... 0
0 20
. . . ... .
. . . ... .
. . . ... .2
0 0 0...

En términos más generales, podemos caracterizar En términos de los valores propios de


F como

j términos

Que simplifica

=T [1.2.19]

                                                            
2 Ver la ecuación [A.4.24] en la Revisión Matemática (Apéndice A) al final del libro.

1.2  Ecuaciones diferenciales de orden p      11 
Donde

1
0 0... 0
... 0
0 20
. . . ... .
. . . ... .
. . . ... .
0 0 0...

Dejar denotar la fila i, columna j elemento de T y dejan Denotan la fila i, columna j elemento
de . La ecuación [1.2.19] escrita se convierte explícitamente en

... t 0 0... 0 ...


...t 0 0... 0 ...
. . ... . . . . ... . . . ... .
. . ... . . . . ... . . . ... .
. . ... . . . . ... . . . ... .
...t 0 0 0... ...


... t ...
...t ...
. . ... . . . ... .
. . ... . . . ... .
. . ... . . . ... .
... ...
t

Del cual (1, 1) elemento de está dado por


O

⋯ [1.2.20]
donde

=[ ]. [1.2.21]
Tenga en cuenta que la suma de los Términos tiene la siguiente interpretación:

⋯ ⋯ , [1.2.22]

Que es el elemento (1, 1) de T. . Dado que T. Es sólo la matriz de identidad (p x p), [1.2.22]
implica que el Términos suma a unidad:

+ +…+ = 1. [1.2.23]
Sustituyendo [1.2.20] en [1.2.11] se obtiene la forma del multiplicador dinámico para una
ecuación de diferencia de orden p:

⋯ [1.2.24]

12 Capítulo 1 | Ecuaciones Diferenciales
La ecuación [1.2.24] caracteriza el multiplicador dinámico como una media ponderada de cada uno
de los p valores propios elevados a la potencia j.

El siguiente resultado proporciona una expresión de forma cerrada para las constantes
( , , …, ).

Proposición 1.2: Si Los valores propios , ,…, de la matriz F en [1.2.3] son distintos, entonces
se puede escribir la magnitud c_i en [1.2.21].


[1.2.25]

En resumen, la ecuación de diferencia de orden p [1.2.1] implica que

⋯ [1.2.26]
Ψ Ψ ⋯ Ψ Ψ

El multiplicador dinámico

[1.2.27]

Está dada por el (1, 1) elemento de :

. [1.2.28]

Una expresión de forma cerrada para se puede obtener mediante la búsqueda de los valores
propios de F, o los valores de λ satisfacer [1.2.16]. Denotando estos valores p por ( , , … , ) y
suponiendo que son distintos, el multiplicador dinámico viene dado por

ψ λ λ ⋯ λ [1.2.29]

Donde ( , , …, ) es un conjunto de constantes que suman a la unidad dada por la expresión


[1.2.25].

Para un sistema de primer orden (p = 1), esta regla nos obligaría a resolver [1.2.16],

λ + Ø = 0,
Que tiene la solución única

λ =Ø . [1.2.30]

Según [1.2.29], el multiplicador dinámico está dado por

1 λ1 . [1.2.31]

De [1.2.23], c_1 = 1. Sustituyendo este y [1.2.30] en [1.2.31] da

Ø1 ,
O el mismo resultado encontrado en la Sección 1.1.

1.2  Ecuaciones diferenciales de orden p      13 
Para sistemas de orden superior, [1.2.29] permite una variedad de dinámicas más
complicadas. Supongamos primero que todos los valores propios de F (o soluciones a [1.2.16]) son
reales. Este sería el caso, por ejemplo, si p = 2 y 4 0 en las soluciones [1.2.14] y [1.2.15]
para el sistema de segundo orden. Si, además, todos los valores propios son menores que 1 en valor
absoluto, entonces el sistema es estable y su dinámica se representa como un promedio ponderado
de exponenciales decrecientes o exponenciales decrecientes oscilando en signo. Por ejemplo,
considere la siguiente ecuación de diferencia de segundo orden:

0.6 0.2

A partir de las ecuaciones [1.2.14] y [1.2.15], los valores propios de este sistema están dados por

0.6 0.6 4 0.2


0.84
2

0.6 0.6 4 0.2


0.24
2
De [1.2.25], tenemos

/ 0.778

/ 0.222

El multiplicador dinámico para este sistema,

= λ + λ ,

Se representa como una función de j en el panel (a) de la figura 1.43. Tenga en cuenta que a medida
que j se hace más grande, el patrón está dominado por el valor propio más grande ( ),
aproximándose a un decaimiento geométrico simple a una tasa .

Si los valores propios (las soluciones a [1.2.16]) son reales, pero al menos uno es mayor que
la unidad en valor absoluto, el sistema es explosivo. Si Denota el autovalor que es mayor en valor
absoluto, el multiplicador dinámico es eventualmente dominado por una función exponencial de
ese valor propio:

1
lim .
→ λ

Otras posibilidades interesantes surgen si algunos de los valores propios son complejos.
Cuando este es el caso, aparecen como conjugados complejos. Por ejemplo, si p = 2 y 4
0, entonces las soluciones y Son conjugados complejos, escritos como

λ = a + bi [1.2.32]
λ = a – bi [1.2.33]

Para el caso p = 2 de [1.2.14] y [1.2.15], habría

∅ ⁄2 [1.2.34]

                                                            
3
 Una vez más, si el propósito de uno solo es generar un gráfico numérico como en la Figura 1.4, el enfoque más fácil es la simulación
numérica del sistema. 

14 Capítulo 1 | Ecuaciones Diferenciales
∅ 4∅ [1.2.35]
Nuestro objetivo es caracterizar la contribución al multiplicador dinámico cuando
es un número complejo como en [1.2.32]. Recordemos que para elevar un número complejo a una
potencia, reescribimos [1.2.32] en forma de coordenadas polares:

λ . cos . sin [1.2.36]

Donde θ y R se definen en términos de ayb mediante las siguientes ecuaciones:

cos ⁄

sin ⁄

Obsérvese que R es igual al módulo del número complejo .

El autovalor en [1.2.36] puede escribirse como4

λ = R[eiθ],

Y así

λ cos . sin [1.2.37]

Análogamente, si es el complejo conjugado de , entonces

λ cos . sin ,
Que puede escribirse5

Por lo tanto

λ cos . sin [1.2.38]

(a) Ø = 0.6, Ø = 0.2

                                                            
4 Ver la ecuación [A.3.25] en la Revisión Matemática (Apéndice A) al final del libro.
5 Véase la ecuación [A.3.26].

1.2  Ecuaciones diferenciales de orden p      15 
(b) Ø = 0.5, Ø = -0.8

FIGURA 1.4 Multiplicador dinámico para la ecuación de diferencias de segundo orden para
diferentes valores deØ y Ø (trazado de ⁄ como una función del retardo ).

La sustitución de [1.2.37] y [1.2.38] en [1.2.29] da la contribución de los conjugados complejos al


multiplicador dinámico ⁄ :

λ λ cos . sin cos . sin


. . cos . . sin [1.2.39]

La aparición del número imaginario i en [1.2.39] puede parecer un poco preocupante.


Después de todo, este cálculo pretendía dar el efecto de un cambio en la variable de valor real en
la variable de valor real Como predijo el sistema de valores reales [1.2.1], y sería extraño, de
hecho, si la respuesta correcta implicaba el número imaginario i! Afortunadamente, de [1.2.25]
resulta que si y Son conjugados complejos, entonces y son conjugados complejos; Es decir,
pueden escribirse como
= α + βi
= α – βi

Para algunos números reales α y β. Sustituyendo estas expresiones en rendimientos [1.2.39]

λ λ ∙ cos ∙ ∙ sin

2 ∙ cos ∙ 2 ∙ sin

2 cos 2 sin
Que es estrictamente real.

Así, cuando algunos de los valores propios son complejos, aportan términos
proporcionales a Rj cos(Ø ) y Rj sen(Ø ) al multiplicador dinámico . Obsérvese que si R = 1 -
es decir, si los autovalores complejos tienen módulo unitario - los multiplicadores son funciones
seno y coseno periódicas de j. Un aumento dado en aumenta para algunos rangos de j y
disminuye sobre otros rangos, con el impulso nunca muriendo como j → ∞. Si los valores
propios complejos son menores que 1 en módulo (R <1), el impulso sigue de nuevo un patrón
sinusoidal aunque su amplitud decae a la velocidad R j. Si los autovalores complejos son mayores
que 1 en módulo (R> 1), la amplitud de los sinusoides explota a la velocidad R j.
Para un ejemplo de comportamiento dinámico caracterizado por sinusoides en
descomposición, considere el sistema de segundo orden

0.5 0.8 .
Los valores propios para este sistema se dan de [1.2.14] y [1.2.15]:

16 Capítulo 1 | Ecuaciones Diferenciales
0.5 0.5 4 0.8
0.25 0.86
2

0.5 0.5 4 0.8


0.25 0.86
2
Con modulo
0.25 0.86 0.9.
Puesto que R <1, el multiplicador dinámico sigue un patrón de oscilación amortiguada trazada en el
panel (b) de la Figura 1.4. La frecuencia 6 De estas oscilaciones está dada por el parámetro θ en
[1.2.39], que fue definido implícitamente por
cos ⁄ 0.25 ⁄ 0.9 0.28 o
θ = 1.29.
Los ciclos asociados con la función multiplicadora dinámica [1.2.39] tienen así un período de
2π 2 3.14159
4.9;
θ 1.29
Es decir, los picos en el patrón en el panel (b) de la Figura 1.4 aparecen aproximadamente cinco
períodos separados.

Solución de una ecuación de diferencia de segundo orden con valores


propios distintos
La ecuación de diferencias de segundo orden (p = 2) aparece con suficiente frecuencia
como para resumir las propiedades de la solución como una función general de Ø y Ø ,), que
ahora hacemos.7
Los valores propios λ y λ ) en [1.2.15] son complejos cuando
Ø + 4Ø < 0,

O cuando (Ø , Ø ) esté por debajo de la parábola indicada en la figura 1.5. Para el caso de
autovalores complejos, el módulo R satisface
R2 = a2 + b2,

O, a partir de [1.2.34] y [1.2.35],

⁄2 4 ⁄4 .

Así, un sistema con autovalores complejos es explosivo siempre que Ø < -1. Además, cuando los
valores propios son complejos, la frecuencia de oscilaciones viene dada por
cos ⁄ cos ⁄2 ,

Donde cos ” denota la inversa de la función coseno, o la medida de radian de un ángulo cuyo
coseno es x.

                                                            
6 Vea la Sección A.1 de la Revisión Matemática (Apéndice A) al final del libro para una discusión de la frecuencia y el período de una
función sinusoidal.
7 Esta discusión sigue de cerca Sargent (1987, pp. 188-89).

1.2  Ecuaciones diferenciales de orden p      17 
FIGURA 1.5 Resumen de la dinámica para una ecuación de diferencia de segundo orden.

Para el caso de los valores propios reales, el valor propio aritméticamente mayor ( ) será mayor
que la unidad siempre que

4
1
2
o
4 2 .
Suponiendo que λ es real, el lado izquierdo de esta expresión es un número positivo y la
desigualdad sería satisfecha para cualquier valor de (Ø > 2). Si, por otro lado, Ø < 2 podemos
cuadrar a ambos lados para concluir que excederá la unidad siempre que
4 4 4
o
Ø >1-Ø .
Así, en la región real, λ será mayor que la unidad si (Ø > 2) o si ((Ø , Ø )) se encuentra al noreste
de la línea (Ø = 1 – Ø ) en la Figura 1.5. Del mismo modo, con valores propios reales, el valor
propio aritméticamente más pequeño (λ ) será menor que -1 siempre que
4
1
2
4 2

2 .
Una vez más, si (Ø < – 2), esto debe ser satisfecho, y en el caso cuando (Ø > – 2), podemos
cuadrar ambos lados:
4 4 4
1 .
Así, en la región real, (λ ) será menor que -1 si Ø < – 2 o (Ø , Ø )se encuentra al noroeste de la
línea (Ø = 1 + Ø ) en la Figura 1.5.
El sistema es así estable siempre que (Ø , Ø ) se encuentra dentro de la región triangular de
la figura 1.5.

Solución general de una ecuación de diferencia de orden p con valores


propios repetidos

18 Capítulo 1 | Ecuaciones Diferenciales
En el caso más general de una ecuación de diferencias para la cual F tiene valores propios
repetidos y s <p vectores propios linealmente independientes, el resultado [1.2.17] se generaliza
utilizando la descomposición de Jordan,

F = MJM-1 [1.2.40]

Donde M es una matriz (p x p) y J toma la forma

0 … 0
0 … 0
⋮ ⋮ … ⋮
0 0 …
con
1 0 … 0 0
0 1 … 0 0
0 0 … 0 0
… ⋮
⋮ ⋮ ⋮ ⋮
… 1
0 0 0

0 0 0 0
[1.2.41]
Para (λ ) un autovalor de F. Si [1.2.17] es reemplazado por [1.2.40], entonces la ecuación [1.2.19] se
generaliza a

Fj = MJjM-1 [1.2.42]
donde
0 … 0
0 … 0
⋮ ⋮ … ⋮
0 0 …

Además, a partir de [1.2.41], si es de dimensión ( x ), entonces 8



1 2 1
0 …
1 2
⋮ ⋮ ⋮ … ⋮

0 0 0 …
Donde
1 2 ⋯ 1

1 ⋯ 3.2.1

0
La ecuación [1.2.43] puede ser verificada por inducción multiplicando [1.2.41] por [1.2.43] y
1
notando que ( ) + ( )=( ).). Por ejemplo, considere de nuevo la ecuación de diferencia
1
de segundo orden, esta vez con raíces repetidas. Entonces

0
De modo que el multiplicador dinámico tome la forma

                                                            
8 Esta expresión se toma de Chiang (1980, p.444)

1.2  Ecuaciones diferenciales de orden p      19 
.

Cálculos de largo plazo y valor actual


Si los valores propios son todos menos de 1 en módulo, entonces (Fj) en [1.2.9] pasa a cero
cuando j se hace grande. Si todos los valores de w y y se toman como limitados, podemos pensar en
una "solución" de ( ) en términos de la historia infinita de w,

⋯, [1.2.44]

Donde ( ) viene dado por el elemento (1, 1) de (Fj) y toma la forma particular de [1.2.29] en el
caso de valores propios distintos.
También es sencillo calcular el efecto sobre el valor actual de y de un aumento transitorio
en w. Esto es más sencillo de encontrar si consideramos primero el problema ligeramente más
general de las consecuencias hipotéticas de un cambio en cualquier elemento del vector (t +j ) sobre
cualquier elemento de ( ) en un sistema general de la forma de [1.2.5] . La respuesta a este
problema más general puede deducirse inmediatamente de [1.2.9]:
. [1.2.45]

El verdadero multiplicador dinámico de interés, (  ) es sólo el (1, 1) elemento de la matriz


(p x p) en [1.2.45]. El efecto sobre el valor presente de de un cambio en v viene dado por

,

[1.2.46]

Siempre que los valores propios de F sean todos menos que (β-1) en módulo. El efecto sobre el
valor presente de y de un cambio en w,


,

Es así el elemento (1, 1) de la matriz (p x p) en [1.2.46]. Este valor viene dado por la siguiente
proposición.

Proposición 1.3: Si los valores propios de la matriz (pxp) F definida en [1.2.3] son todos menores que
en módulo, entonces existe la matriz ,y el efecto de w sobre el valor presente de y viene dado por
su 1, 1) elemento:

1⁄ 1 ϕ β ϕ β ⋯ ϕ β ϕ β

Tenga en cuenta que la Proposición 1.3 incluye el resultado anterior para un sistema de primer
orden (ecuación [1.1.14]) como un caso especial.
El efecto acumulativo de un cambio único en + , …) puede considerarse un caso
especial de la Preposición 1.3 sin descuento. El ajuste (β = 1) en la Preposición 1.3 muestra que,
siempre que los valores propios de F sean todos menos de 1 en módulo, el efecto acumulativo de
un cambio de una vez en w en y viene dado por

∑ 1⁄ 1 ⋯ . [1.2.47]

20 Capítulo 1 | Ecuaciones Diferenciales
Observe nuevamente que [1.2.47] puede interpretarse alternativamente como dando el eventual
efecto a largo plazo sobre y de un cambio permanente en w:

lim ⋯ 1⁄ 1 ⋯ . 
→ ð

APÉNDICE 1.A. Pruebas de las Proposiciones del Capítulo 1


Prueba de Proposición d 1.1. Los autovalores de F satisfacen

|F - λ | = 0 [1.A.1]

Para la matriz F definida en la ecuación [1.2.3], este determinante sería


⋯ 0 0 ⋯ 0 0
1 0 0 ⋯ 0 0 0 0 ⋯ 0 0
0 1 0 ⋯ 0 0 0 0 ⋯ 0 0
⋮ ⋮ ⋮ ⋯ ⋮ ⋮ ⋮ ⋮ ⋯ ⋯ ⋮ ⋮
0 0 0 ⋯ 1 0 0 0 ⋯ ⋯ 0

1 0 ⋯ 0 0
0 1 ⋯ 0 0 . [1.A.2]
⋮ ⋮ ⋮ ⋯ ⋮ ⋮
0 0 0 ⋯ 1
Recordemos que si multiplicamos una columna de una matriz por una constante y añadimos el
resultado a otra columna, el determinante de la matriz no cambia. Si multiplicamos la p-ésima
columna de la matriz en [1.A.2] por 1⁄ y añadimos el resultado a la (p - 1) th columna, el
resultado es una matriz con el mismo determinante que en [1. A.2]:
⋯ ⁄
1 0 ⋯ 0 0 0
| | 0 1 0 0 0 0 .
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
0 0 0 1 1 0
0 0 0 0 0 0
A continuación, multiplique la columna (p - 1) por (1/λ) y añada el resultado a la columna (p - 2):
|F - λ |
⋯ ⁄ ⁄ ⁄
1 0 ⋯ 0 0 0
0 1 ⋯ 0 0 0
⋮ ⋮ ⋮ ⋯
⋯ ⋮ ⋮ ⋮
0 0 0 0 0
0 0 0 ⋯ 0 0
Continuar de esta manera muestra [1.A.1] que es equivalente al determinante de la siguiente matriz
triangular superior:
|F - λ |
⋯ ⁄ ⁄ ⁄
1 0 ⋯ 0 0 0
0 1 ⋯ 0 0 0
⋮ ⋮ ⋮ ⋯
⋯ ⋮ ⋮ ⋮
0 0 0 0 0
0 0 0 ⋯ 0 0

APÉNDICE 1.A. Pruebas de las Proposiciones del Capítulo 1      21 
Pero el determinante de una matriz triangular superior es simplemente el producto de los términos
a lo largo de la diagonal principal:

| | ⁄ ⁄ … ⁄ .

1 . ⋯ .
[1.A.3]
Los valores propios de F son, por lo tanto, los valores de λpara los cuales [1.A.3] es cero, o para los
cuales
⋯ 0,
Como se afirma en la Proposición 1.1.

 Prueba de Proposición 1.2. Suponiendo que los valores propios (λ , λ , … , λ )) son


distintos, la matriz T en la ecuación [1.2.17] puede construirse a partir de los vectores
propios de F. Sea ( ) el siguiente vector (p x 1)

[1.A.4]

1
Donde denota el i-ésimo valor propio de F. Aviso


1 0 0 ⋯ 0 0
0 1 0 ⋯ 0 0
⋮ ⋮ ⋮ ⋯ ⋮ ⋮ ⋮
0 0 0 ⋯ 1 0
1
[1.A.5]

Since (λ ) is an eigenvalue of F, it satisfies [1.2.16]:


⋯ 0
[1.A.6]
Sustituyendo [1.A.6] en [1.A.5] se revela

⋮ ⋮

1
.
o

22 Capítulo 1 | Ecuaciones Diferenciales
F =λ . [1.A.7]

Así ( ) es un vector propio de F asociado con el valor propio (λ ).

Podemos calcular la matriz T combinando los vectores propios ( , ,…, ) en una matriz (p x
p)

T=[ … ]. [1.A.8]

Para calcular los valores particulares de en la ecuación [1.2.21], recuerde que se caracteriza
por

T T-1 = , [1.A.9]

Donde T está dado por [1.A.4] y [1.A.8]. Escribiendo explícitamente la primera columna de la
matriz sistema de ecuaciones [1.A.9], tenemos


1
⋯ 0
0
⋯ ⋮ ⋮
⋮ ⋮ ⋯ ⋮
⋯ . 0
⋯ 0
1 1 1
Esto da un sistema de p ecuaciones lineales en las p incógnitas (t 11, t 21,…, t p1). Siempre que el ( )
son todos distintos, la solución se puede demostrar que es9

1

1


1

Sustituyendo estos valores en [1.2.21] se obtiene la ecuación [1.2.25].

 Prueba de Proposición 1.3. La primera afirmación de esta proposición es que si los


valores propios de F son menores que (β -1) en módulo, entonces existe la inversa de ( –
βF). Supongamos que la inversa de ( – βF) no existe. Entonces el determinante | –
βF| tendría que ser cero. Pero

| | | . | | |,

De modo que |F – β -1 | tendría que ser cero cuando la inversa de (( – βF)) no existiera. Pero
esto significaría que (β -1) es un autovalor de F, que se descarta por la suposición de que todos los
valores propios de F son estrictamente menores que (β -1) en módulo. Por lo tanto, la matriz ( –
βF) debe ser no singular.

Dado que existe, satisface la ecuación

[1.A.10]
                                                            
9 Véase Lemma 2 de Chiang (1980, p.144).

APÉNDICE 1.A. Pruebas de las Proposiciones del Capítulo 1      23 
Sea ( ) la fila i, columna j elemento de ([ – βF]-1), y escriba [1.A.10] como
⋯ 1 ⋯
⋯ 1 ⋯ 0 0 [1.A.11]
⋮ ⋮ ⋯ ⋮ ⋮ ⋮ ⋯ ⋮ ⋮
⋯ 0 0 ⋯ 1 1
1 0 ⋯ 0
0 1 ⋯ 0
⋮ ⋮ ⋯ ⋮
0 0 ⋯ 1
La tarea consiste entonces en encontrar el elemento (1, 1) de ([ – βF]-1), es decir, encontrar el
valor de ( .). Para hacer esto solo necesitamos considerar la primera fila de ecuaciones en
[1.A.11]:

1 …
… 1 …
… 0 0
⋮ ⋮ ⋮ ⋮

0 0 1
1 0 … 0 0 [1.A.12]

Consideremos la posibilidad de multiplicar este sistema de ecuaciones por una matriz con 1s a lo
largo de la diagonal principal, β en la fila p, columna p - 1 y 0s en otra parte:

1 0 ⋯ 0 0
0 1 ⋯ 0 0
⋮ ⋮ ⋯ ⋮ ⋮
0 0 ⋯ 1
El efecto de esta operación es multiplicar la p° columna de una matriz por β y agregar el resultado a
la 1 columna:

1 …
… 1 …
… 0 0
⋮ ⋮ ⋮ ⋮

0 0 0 1
1 0 … 0 0

Luego, multiplique la 1 ª columna por β y añada el resultado a la 2 ª columna.


Procediendo de esta manera, llegamos a
… [1.A.13]
1 ⋯ ⋯ …
0 1 …
… 0 0
⋮ ⋮ ⋮ ⋮

0 0 0 1

La primera ecuación en [1.A.13] establece que

x11 · (1 ̶ βø1 – β2ø2 ̶ ··· ̶ βƿ-1øƿ-1 ̶ βƿøƿ) = 1

x11 = 1/(1 ̶ βø1 – β2ø2 ̶ ··· ̶ βƿøƿ),

Como se afirma en la Proposición 1.3.

24 Capítulo 1 | Ecuaciones Diferenciales
Capítulo 1 Referencias
Chiang, Chin Long. 1980. An introduction to Stochastic Processes and Their Applications.
Huntington, N.Y.: Krieger.
Goldfeld, Stephen M. 1973. “The Demand for Money Revisited,” Brookings Papers on Economic
Activity 3:577-638.
Sargent, Thomas J. 1987. Macroeconomic Theory, 2da ed. Boston: Academic Press.
 

Capítulo 1 Referencias      25 
2

Operadores de retardo

2.1. Introducción
El capítulo anterior analizó la dinámica de las ecuaciones de diferencia lineal usando álgebra
matricial. Este capítulo desarrolla algunos de los mismos resultados usando operadores de series de
tiempo. Empezaremos con algunas observaciones introductorias sobre algunos operadores de series
temporales útiles.

Una serie cronológica es una colección de observaciones indexadas por la fecha de cada
observación. Por lo general, hemos recogido datos que comienzan en una fecha determinada
(digamos, t = 1) y terminamos en otra (digamos t = T):

(y1, y2,……, yT).

A menudo imaginamos que podríamos haber obtenido observaciones anteriores ( , , , …)


o observaciones posteriores ( , , …) si se hubiera observado el proceso durante más
tiempo. La muestra observada ( , , … , ) podría entonces ser vista como un segmento finito
de una secuencia doblemente infinita, denotada = -∞:

{yt}tx= ~ x = { …., y-1, y0, y1, y2, …, yT, yT+1, yT+2 …}.

Muestra observada
Normalmente, una serie de tiempo = -∞ se identifica describiendo el elemento t-
ésimo. Por ejemplo, una tendencia temporal es una serie cuyo valor en la fecha es simplemente la
fecha de la observación:

= t.

También podríamos considerar una serie temporal en la que cada elemento es igual a una constante
independientemente de la fecha de la observación :

= c.

Otra serie de tiempo importante es un proceso de ruido blanco gaussiano, denotado

=ε ,

Donde = -∞ es una secuencia de variables aleatorias independientes, cada una de las cuales
tiene una distribución N(0, ).

Estamos acostumbrados a pensar en una función tal (y = ) o (y = , ) como una


operación que acepta como entrada un número (x) o un grupo de números (x, w) y produce la

26 Capítulo 2 І Operadores de retraso
salida (y). Un operador de series temporales transforma una serie temporal o un grupo de series
temporales en una nueva serie temporal. Acepta como entrada una secuencia tal como ( = -∞)
o un grupo de secuencias como ( = -∞, = -∞) y tiene como salida una nueva secuencia
( = -∞). Una vez más, el operador se resume describiendo el valor de un elemento típico de
( = -∞) en términos de los elementos correspondientes de ( = -∞).

Un ejemplo de un operador de series de tiempo es el operador de multiplicación, representado


como

= . [2.1.1]

Aunque se escribe exactamente de la misma manera que la simple multiplicación escalar, la ecuación
[2.1.1] es en realidad una abreviatura para una secuencia infinita de multiplicaciones, una para cada
fecha t. El operador multiplica el valor x toma en cualquier fecha t por alguna constante β para
generar el valor de y para esa fecha.

Otro ejemplo de un operador de series temporales es el operador de suma:

= + .

Aquí el valor de y en cualquier fecha t es la suma de los valores que x y w adoptan para esa fecha.

Puesto que los operadores de multiplicación o adición equivalen a la multiplicación o adición


elemento por elemento, obedecen todas las reglas estándar del álgebra. Por ejemplo, si
multiplicamos cada observación de ( = -∞) por β y cada observación de ( = -∞) por β y
añadimos los resultados,

β +β ,

El resultado es el mismo que si hubiéramos añadido ( )a( ) y luego multiplicado cada


elemento de la serie resultante por β:

β( + ).

Un operador muy útil es el operador de retraso. Supongamos que comenzamos con una secuencia
( = -∞) y generamos una nueva secuencia ( = -∞), donde el valor de y para la fecha t es
igual al valor x tomado en la fecha t - 1:

= , [2.1.2]

Esto se describe cómo aplicar el operador de retraso a ( = -∞). La operación se representa


con el símbolo L:

= [2.1.3]

Considere el resultado de aplicar el operador lag dos veces a una serie:

L(Lxt) = L(xt ̶ 1) = xt ̶ 2.

Esta doble aplicación del operador de retardo se indica mediante “L2”:

L2xt = xt ̶ 2.

En general, para cualquier número entero k,

Lkxt = xt ̶ k. [2.1.4]

Observe que si primero aplicamos el operador de multiplicación y después el operador de


retraso, como en

2.1 Introducción  27 
xt → βxt → βxt ̶ 1,

El resultado será exactamente el mismo que si hubiéramos aplicado primero el operador de retraso
y luego el operador de multiplicación:

xt → xt ̶ 1 → βxt ̶ 1.

Así, el operador lag y el operador de multiplicación son conmutativos:

L(βxt) = β· Lxt.

De manera similar, si primero añadimos dos series y luego aplicamos el operador de retraso al
resultado,

(xt, wt) → xt + wt → xt ̶ 1 + wt ̶ 1,

El resultado es el mismo que si hubiéramos aplicado el operador lag antes de añadir:

(xt, wt) → (xt ̶ 1, wt ̶ 1) → xt ̶ 1 + wt ̶ 1 .

Por lo tanto, el operador de retraso es distributivo sobre el operador de adición:

L(xt + wt) = Lxt + Lwt.

Así vemos que el operador de retraso sigue exactamente las mismas reglas algebraicas que
el operador de multiplicación. Por esta razón, es tentador usar la expresión "multiplicar ( ) por L"
en lugar de "operar en ( = -∞) por L." Aunque la última expresión es técnicamente más
correcta, este texto utilizará a menudo la expresión taquigráfica anterior para Facilitar la exposición.

Cara con una serie temporal definida en términos de operadores compuestos, somos libres de usar
las leyes algebraicas conmutativas, asociativas y distributivas estándar para la multiplicación y la
adición para expresar el operador compuesto en una forma alternativa. Por ejemplo, el proceso
definido por

Yt =(a + bL)Lxt

Es exactamente lo mismo que

Yt = ( aL +bL2)xt = axt ̶ 1 + bxt ̶ 2.

Para tomar otro ejemplo,

(1 – λ1L)(1 – λ2L)xt = (1 ̶ λ1L ̶ λ2L + λ1 λ2L2)xt

= (1 ̶ [λ1 + λ2]L + λ1 λ2L2)xt


[2.1.5]

= xt – (λ1 + λ2) xt ̶ 1 + ( λ1 λ2)xt ̶ 2

28 Capítulo 2 І Operadores de retraso
Una expresión como (aL + bL2) se denomina polinomio en el operador de retardo. Es
algebraicamente similar a un polinomio simple (az + bz2) donde z es un escalar. La diferencia es que
el polinomio simple (az + bz2) se refiere a un operador que se aplicaría a una serie temporal
( = -∞) para producir una nueva serie temporal ( = -∞).

Observe que ( = -∞) es sólo una serie de constantes,

=c Para todo t,

Entonces el operador de retraso aplicado a ( ) produce la misma serie de constantes:

Lxt = xt ̶ 1 = c.

Así, por ejemplo,

( αL+ βL2+ γL3)c = (α + β + γ) · c. [2.1.6]

2.2. Ecuaciones Diferenciales de Primer Orden


Volvamos ahora a la ecuación de diferencias de primer orden analizado en la Sección 1.1:

Yt = øyt ̶ 1 + wt. [2.2.1]

La ecuación [2.2.1] se puede volver a escribir usando el operador de retardo [2.1.3] como

Yt = øLyt + wt.

Esta ecuación, a su vez, puede ser reordenada usando álgebra estándar,

Yt ̶ øLyt = wt,

(1 ̶ øL)yt = wt. [2.2.2]

A continuación, considere la posibilidad de "multiplicar" ambos lados de [2.2.2] por el siguiente


operador:

(1 + øL+ ø2L2 + ø3L3 + ··· + øtLt ). [2.2.3]

El resultado sería

(1 + øL+ ø2L2 + ø3L3 + ··· + øtLt )(1 – øL )yt [2.2.4]

= (1+ øL + ø2L2 + ø3L3 + ··· + øtLt )wt.

Expandir el operador compuesto en el lado izquierdo de [2.2.4] da como resultado

(1 + øL+ ø2L2 + ø3L3 + ··· + øtLt )(1 – øL )

= (1 + øL+ ø2L2 + ø3L3 + ··· + øtLt )

̶ (1 + øL+ ø2L2 + ø3L3 + ··· + øtLt )øL [2.2.5]

= (1 + øL+ ø2L2 + ø3L3 + ··· + øtLt )

̶ (øL+ ø2L2 + ø3L3 + ··· + øtLt+ øt+1Lt+1)

= (1 ̶ øt+1Lt+1).

2.2. Ecuaciones Diferenciales de Primer Orden  29
Sustituyendo [2.2.5] en rendimientos [2.2.4]

(1 ̶ øt+1Lt+1)yt = (1 + øL+ ø2L2 + ø3L3 + ··· + øtLt )wt. [2.2.6]

Escribir [2.2.6] explícitamente utilizando [2.1.4] produce

Yt ̶ øt+1yt ̶ (t+1) = wt + øwt ̶ 1 + ø2wt ̶ 2 + ø 3 wt ̶ 3 + ··· + øtwt ̶ t

Yt = øt+1y ̶ 1 + wt + øwt ̶ 1 + ø 2 wt ̶ 2 + ø3wt ̶ 3 + ··· + øtw0. [2.2.7]

Observe que la ecuación [2.2.7] es idéntica a la ecuación [1.1.7]. La aplicación del operador [2.2.3]
está realizando exactamente el mismo conjunto de sustituciones recursivas que se emplearon en el
capítulo anterior para llegar a [1.1.7].

Es interesante reflexionar sobre la naturaleza del operador [2.2.3] a medida que t se hace grande.
Vimos en [2.2.5] que

(1 + øL+ ø2L2 + ø3L3 + ··· + øtLt )(1 – øL )yt = yt ̶ øt+1y ̶ 1.

Es decir, difiere de ( ) por el término (∅ ). Si (|Ø|< 1) y si ( ) es un número finito, este


residuo (∅ ) llegará a ser insignificante a medida que t sea grande:

∅ ∅ ∅ ⋯ ∅ ∅ ≅ .

Se dice que una secuencia = -∞) está limitada si existe un número finito ( ) tal que

| | .

Así, cuando (|Ø|< 1 y cuando estamos considerando aplicar un operador a una secuencia acotada,
podemos pensar en:

∅ ∅ ∅ ⋯ ∅

Como aproximando el inverso del operador (1 – ØL), con esta aproximación hecha arbitrariamente
exacta eligiendo j suficientemente grande:

∅ ∅ ∅ ∅ ⋯ ∅ . 2.2.8

Este operador (1 – ØL)-1 tiene la propiedad

∅ ∅ ,
Donde "1" denota el operador de identidad:

1 = .

30 Capítulo 2 І Operadores de retraso
El siguiente capítulo discute las secuencias estocásticas en lugar de las secuencias
determinísticas, aunque el significado práctico de [2.2.8] será poco cambiado.

Siempre que (Φ<1) y nos limitamos a secuencias acotadas o estocástico estacionario procesado,
ambos lados de [2.2.2] pueden ser "divididos" por 1 ΦL para obtener:


O

∅ ∅ ∅ ⋯. 2.2.9

Debe enfatizarse que si no estuviéramos restringidos a considerar secuencias acotadas o procesos


estocásticos estacionarios ( = -∞) y ( = -∞), entonces la expresión [2.2.9] no sería una
implicación necesaria de [2.2.1]. La ecuación [2.2.9] es consistente con [2.2.1], pero añadiendo un
término (a0øt),

∅ ∅ ∅ ∅ ⋯, 2.2.10

Produce otra serie consistente con [2.2.1] para cualquier constante (a0). Para verificar que [2.2.10] es
consistente con [2.2.1], multiplique [2.2.10] por ( ∅ ):

∅ ∅ ∅ ∅ ∅

∅ ∅∙ ∅

,
De modo que [2.2.10] es consistente con [2.2.1] para cualquier constante (a0).

Aunque cualquier proceso de la forma de [2.2.10] es consistente con la ecuación de diferencia


[2.2.1], observe que ya que (|ø|<1),

| ∅ | → ∞ → ∞.

Así, incluso si ( = -∞) es una secuencia acotada, la solución ( = -∞) dada por [2.2.10] es
ilimitada a menos que (a0=0) en [2.2.10]. Por lo tanto, hubo una razón particular para definir el
operador [2.2.8] como el inverso de ( ∅ ) - a saber, ∅ definido en [2.2.8] es el único
operador que satisface

∅ ∅

Que mapea una secuencia acotada ( = -∞) en una secuencia acotada ( = -∞).

La naturaleza de ∅ cuando (|ø|≥ 1) se discutirá en la Sección 2.5.

2.3. Ecuaciones Diferenciales de Segundo Orden


Consideremos a continuación una ecuación de diferencia de segundo orden:

∅ ∅ . [2.3.1]

Reescribir esto en forma de operador de retraso produce

∅ ∅ , [2.3.2]

2.3. Ecuaciones Diferenciales de Segundo Orden  31
El lado izquierdo de [2.3.2] contiene un polinomio de segundo orden en el operador de retardo L.
Supongamos que tenemos en cuenta este polinomio, es decir, números de aleta ( ) y ( ) tales que

∅ ∅ ̶ ̶ ̶ . [2.3.3]

Esta es sólo la operación en [2.1.5] a la inversa. Valores dados para (∅ ) y (∅ ), buscamos los
números ( ) y ( ) con las propiedades que:

∅ .

Por ejemplo, si (∅ . ) y (∅ . ), entonces debemos elegir ( . )y( . ):

. . . . . [2.3.4]

Es muy fácil ver que estos valores de ( ) y ( ) funcionan para este ejemplo numérico, pero
¿cómo se encuentran ( ) y ( ) en general? La tarea es elegir ( ) y ( ) para asegurar que el
operador en el lado derecho de [2.3.3] es idéntico al del lado izquierdo. Esto es verdad cuando las
siguientes representan las funciones idénticas de z:

∅ ∅   . [2.3.5]

Esta ecuación simplemente sustituye al operador de retraso L en [2.3.3] por un escalar z.

¿Cuál es el punto de hacerlo? Con [2.3.5], no podemos preguntar, ¿Para qué valores de z es el lado
derecho de [2.3.5] igual a cero? La respuesta es, si z = (λ1̶ 1) o z = (λ2̶ 1), entonces el lado derecho
[2.3.5] sería cero. No habría tenido sentido hacer una pregunta análoga de [2.3.3] - L denota un
operador particular, no un número, y L = (λ1̶ 1) no es una afirmación sensata.

¿Por qué deberíamos preocuparnos de que el lado derecho de [2.3.5] sea cero si z = (λ1̶ 1) o z = (λ2̶
1)? Recordemos que el objetivo era elegir (λ ) y (λ ) de modo que los dos lados de [2.3.5]
1 2
representaran el polinomio idéntico en z. Esto significa que para un valor particular z las dos
funciones deben producir el mismo número. Si encontramos un valor de z que establece el lado
derecho a cero, ese mismo valor de z debe establecer el lado izquierdo también. Pero los valores de
z que ponen el lado izquierdo a cero,

∅ ∅ , [2.3.6]

Se dan por la fórmula cuadrática:

∅ ∅ ∅
[2.3.7]

∅ ∅ ∅
[2.3.8]

El ajuste z = ( ) o ( ) hace que el lado izquierdo de [2.3.5] sea cero, mientras que z = ( )o
( ) fija el lado derecho de [2.3.5] en cero. Así

 [2.3.9]

 [2.3.10]

Volviendo al ejemplo numérico [2.3.4] en el cual ∅ = 0.6 y ∅ = ̶ 0.08, calcularíamos

32 Capítulo 2 І Operadores de retraso
. . .
.
.

. . .
.
.
Y así

 / . .

 / . . ,
Como se encontró en [2.3.4]

Cuando (ø12 + 4ø2 < 0), los valores ( ) y ( ) son conjugados complejos, y sus inversos (λ1) y (λ2)
se pueden encontrar escribiendo primero el número complejo en forma de coordenadas polares.
Específicamente, escriba


Como

.
Entonces

En realidad, existe un método más directo para calcular los valores de (λ1) y (λ2) de (∅ ) y (∅ ).
Divide ambos lados de [2.3.5] por ( ):

  . [2.3.11]

Y define (λ) como la variable (z ̶ 1):

≅ . [2.3.12]

La sustitución de [2.3.12] en [2.3.11] produce

 ∅  ∅     . [2.3.13]

De nuevo, [2.3.13] debe mantenerse para todos los valores de (λ) para que los dos lados de [2.3.5]
representen el mismo polinomio. Los valores de (λ) que establecen el lado derecho a cero son (
 ) y (  ). Estos mismos valores también deben poner el lado izquierdo de [2.3.13] a cero:

 ∅  ∅ . [2.3.14]

Por lo tanto, para calcular los valores de ( ) y ( ) que factor el polinomio en [2.3.3], podemos
encontrar las raíces de [2.3.14] directamente de la fórmula cuadrática:

∅ ∅ ∅

[2.3.15]

2.3 Ecuaciones Diferenciales de Segundo Orden  33 
∅ ∅ ∅

[2.3.16]

Para el ejemplo de [2.3.4], calcularíamos

. . .
 .

. . .
 .

Es instructivo comparar estos resultados con los del Capítulo 1. Allí se resumió la dinámica de la
ecuación de diferencias de segundo orden [2.3.1] calculando los valores propios de la matriz F dada
por

∅ ∅
, [2.3.17]

Los valores propios de F se consideraron los dos valores de (λ) que satisfacen la ecuación [1.2.13]:

 ∅  ∅

Pero este es el mismo cálculo que en [2.3.14]. Este hallazgo se resume en la siguiente proposición.

Proposición 2.1: Factoring el polinomio ( ∅ ∅ ) como

∅ ∅   [2.3.18]

Es el mismo cálculo que encontrar los valores propios de la matriz F en [2.3.17]. Los valores
propios ( ) y ( ) de F son los mismos que los parámetros ( ) y ( ) en [2.3.18], y están dados
por las ecuaciones [2.3.15] y [2.3.16].

La correspondencia entre calcular los valores propios de una matriz y factorizar un


polinomio en el operador de retardo es muy instructiva. Sin embargo, introduce una fuente menor
de posible confusión semántica sobre la cual debemos tener cuidado. Recordemos del capítulo 1
que el sistema [2.3.1] es estable si ambos ( ) y ( ) son inferiores a 1 en módulo y explosivos si
( ) o ( ) es mayor que 1 en módulo. A veces esto se describe como el requisito de que las raíces
de

 ∅  ∅ [2.3.19]

Dentro del círculo de la unidad. La posible confusión es que a menudo es conveniente trabajar
directamente con el polinomio en la forma en que aparece en [2.3.2],

∅ ∅ , [2.3.20]

Cuyas raíces, hemos visto, son los recíprocos de los de [2.3.19]. Así, podríamos decir con igual
exactitud que "la ecuación de diferencia [2.3.1] es estable siempre que las raíces de [2.3.19] estén
dentro del círculo unitario" o que "la ecuación de diferencias [2.3.1] sea estable cuando la Las raíces
de [2.3.20] están fuera del círculo unitario ". Las dos afirmaciones significan exactamente lo mismo.
Algunos estudiosos se refieren simplemente a "las raíces de la ecuación de diferencia [2.3.1]",
aunque esto plantea la posibilidad de confusión entre [2.3.19] y [2.3.20]. Este libro seguirá la
convención de usar el término "valores propios" para referirse a las raíces de [2.3.19]. Siempre que
se utilice el término "raíces", se indicará explícitamente la ecuación cuyas raíces se describen.

34 Capítulo 2 І Operadores de retraso
A partir de aquí en esta sección, se supone que la ecuación de diferencia de segundo orden es
estable, con los valores propios ( ) y ( ) distintos y ambos dentro del círculo unitario. En este
caso, las inversas

    …

    …
Están bien definidos para secuencias acotadas. Escribir [2.3.2] en la forma factorizada:

  ⁼

Y operar en ambos lados por   :

˭   ˙ [2.3.21]

Siguiendo a Sargent (1987, p.184), cuando (  ), podemos usar el siguiente operador:

 
  .
 
[2.3.22]

Observe que esto es simplemente otra forma de escribir al operador en [2.3.21]:

 
 
 

   
 
 

 
Así, [2.3.21] puede escribirse como:

 
 
 

   ⋯
 

   ⋯
 
O

   

  …, [2.3.23]

Donde

 /   [2.3.24]

̶  /   [2.3.25]

De [2.3.23] el multiplicador dinámico se puede leer directamente como:

2.3 Ecuaciones Diferenciales de Segundo Orden  35 
  ,

El mismo resultado obtenido en las ecuaciones [1.2.24] y [1.2.25]

2.4. Ecuaciones Diferenciales de orden p


Estas técnicas generalizan de manera directa a una ecuación de diferencia de orden p de la forma

∅ ∅ ⋯ ∅ [2.4.1]

Escribir [2.4.1] en términos de operadores de retardo como



∅ ̶ ∅ ̶ ̶ ∅ . [2.4.2]

Factorice al operador en el lado izquierdo de [2.4.2] como

∅ ̶ ∅ ̶ ̶ ∅    . [2.4.3]

Esto es lo mismo que encontrar los valores de (λ1, λ2, ···, λƿ) tales que los siguientes polinomios son
los mismos para todo z:

∅ ∅ ⋯ ∅    .
̶ ƿ
Como en el sistema de segundo orden, multiplicamos ambos lados de esta ecuación por (z )y
definimos ():

 ∅  ∅  ∅  ∅

      . [2.4.4]
Claramente, el ajuste (λ = λi) para 1, 2. …, o p hace que el lado derecho de [2.4.4] sea igual a cero.
Así, los valores (λ1, λ2, ···, λƿ) deben ser los números que ponen el lado izquierdo de la expresión
[2.4.4] a cero también:

λƿ ̶ ∅  ∅  ∅  ∅ = 0. [2.4.5]

Esta expresión es idéntica a la dada en la Proposición 1.1, que caracterizó los valores propios (λ1, λ2,
···, λƿ) de la matriz F definida en la ecuación [1.2.3]. Así, la Proposición 2.1 generaliza fácilmente.

Proposición 2.2: Factorizando un polinomio de orden p en el operador de retraso,

∅ ̶ ∅ ̶ ̶ ∅    .

Es el mismo cálculo que encontrar los valores propios de la matriz F definida en [1.2.3]. Los valores propios ( λ1,
λ2, ···, λƿ ) de F son los mismos que los parámetros ( λ1, λ2, ···, λƿ ) en [2.4.3] y están dados por las soluciones a la
ecuación [2.4.5].

La ecuación de diferencia [2.4.1] es estable si los valores propios (las raíces de [2.4.5]) están dentro
del círculo unitario, o equivalentemente si las raíces de

∅ ∅ ⋯ ∅ [2.4.6]

Fuera del círculo de la unidad.

36 Capítulo 2 І Operadores de retraso
Suponiendo que los valores propios están dentro del círculo unitario y que nos estamos limitando a
considerar secuencias acotadas, las inversas 1 , 1 , … , 1 existen,
permitiendo que la ecuación de diferencias.

1 1 1

Ser escrito como

1 1 1 . [2.4.7]

A condición además de que los valores propios (λ1, λ2, ···, λƿ) sean todos distintos, el polinomio
asociado con el operador en el lado derecho de [2.4.7] puede ampliarse de nuevo con fracciones
parciales:
1
1 1 1

⋯ 2.4.8
1 1 1

Siguiendo a Sargent (1987, pp. 192-93), los valores de (c1, c2, ···, cƿ) que hacen [2.4.8] verdaderos se
pueden encontrar multiplicando ambos lados por 1 1 1 :

1 1 1 … 1

1 1 … 1 ⋯
1 1 … 1
. 2.4.9

La ecuación [2.4.9] debe mantenerse para todos los valores de z. Puesto que se trata de un
polinomio de (p - 1) orden, si (c1, c2, ···, cƿ) son elegidos para que [2.4.9] se mantenga para p
valores distintos distintos de z, entonces [2.4.9] debe mantenerse para todo z. Para asegurar que
[2.4.9] se mantenga en ( ) se requiere que

1 1 1 1


˙
[2.4.10]

Para [2.4.9] mantener , ,…, requiere



[2.4.11]
.
.
.


1 2 1
[2.4.12]

2.4 Ecuaciones Diferenciales de orden p  37 
Nótese nuevamente que éstos son idénticos a la expresión [1.2.25] en el Capítulo 1. Recuerda de la
discusión allí que ⋯ 1.

Para concluir, [2.4.7] puede escribirse


1 1 1

1 ⋯ 1 ⋯ ⋯
1 ⋯

⋯ ⋯
⋯ ⋯
⋯ 2.4.13
Donde (C1,C2,…Cp) están dadas por las ecuaciones [2.4.10] a [2.4.12]. De nuevo, el multiplicador
dinámico se puede leer directamente [2.4.13]:

= [C1λi1+C2λi2+⋯+Cpλip], [2.4.14]

Reproduciendo el resultado del Capítulo 1.

Hay una manera muy conveniente de calcular el efecto de w sobre el valor presente de y usando la
representación del operador de lag. Escribir [2.4.13] como

Yt=ѱ0wt+ ѱ1wt-1+ ѱ2wt-2+ ѱ3wt-3+… [2.4.15]

Dónde

Ѱi = [C1λi1+C2λi2+⋯+Cpλip]. [2.4.16]

Siguiente reescribir [2.4.15] en la notación de operador lag como

Yt = ѱ (L) wt, [2.4.17]

Donde ѱ (L) denota un polinomio de orden infinito en el operador de retraso:

Ѱ(L)=ѱ0+ ѱ1L+ ѱ2L2+ ѱ3L3+… .

Observe que Ѱi es el multiplicador dinámico [2.4.14]. El efecto de wt sobre el valor presente de y


viene dado por

∑ i i

[2.4.18]

=∑ Ѱi.

Pensando en Ѱ (Z) como un polinomio en un número real z,

Ѱ (Z)=ѱ0+ ѱ1Z+ ѱ2Z2+ ѱ3Z3+…,

Parece que el multiplicador [2.4.18] es simplemente este polinomio evaluado en :

38 Capítulo 2 І Operadores de retraso

Ѱ ѱ ѱ ѱ ѱ ⋯,
[2.4.19]

Pero comparando [2.4.17] con [2.4.7], es evidente que

Ѱ (L) = [(1-λ1L)(1-λ2L)…(1-λpL)]-1 ,

Y de [2.4.3] esto significa que

Ѱ (L) = [1 - Ø1L – Ø2L2 - …- ØpLp)]-1.

Concluiríamos en que

Ѱ (Z) = [1 - Ø1Z – Ø2Z2 - …- ØpZp)]-1

Para cualquier valor de z, así, en particular,

Ѱ ( ) = [1 - Ø1 – Ø2 2 - …- Øp p)]-1. [2.4.20]

La sustitución de [2.4.20] en [2.4.19] revela que


Ø – Ø … Ø
, [2.4.21]

Reproduciendo la afirmación de la Proposición 1.3. De nuevo, el multiplicador de largo plazo se


obtiene como el caso especial de [2.4.21] con =1:

1
lim ⋯ .
→ Ø – Ø … Ø

2.5. Condiciones iniciales y secuencias sin consolidar


La sección 1.2 analizó el siguiente problema. Dada una ecuación de diferencia de orden p

Yt=Ø1 t-1+ Ø2 t-2+…+ Øp t-p+ , [2.5.1]

P valores iniciales de y,

Y-1, Y-2,…, Y-p, [2.5.2]

Y una secuencia de valores para la variable de entrada w,

{W0, w1,…, wt}, [2.5.3]

Se buscó calcular la secuencia de valores para la variable de salida y:

{Y0, Y1,…, Yt}Ciertamente hay sistemas donde la pregunta se plantea precisamente en esta forma.
Podemos conocer la ecuación de movimiento para el sistema [2.5.1] y su estado actual [2.5.2] y
deseamos caracterizar los valores que {Y0, Y1,…, Yt} podría asumir para diferentes especificaciones
de {W0, w1,…, wt}.

Sin embargo, hay muchos ejemplos en economía y finanzas en los que una teoría especifica sólo la
ecuación del movimiento [2.5.1] y una secuencia de las variables de conducción [2.5.3]. Claramente,
estas dos piezas de información por sí solas son insuficientes para determinar la secuencia {Y0,
Y1,…, Yt} y se necesita alguna teoría adicional más allá de la contenida en la ecuación de diferencia

0   39 
[2.5.1] para describir completamente la dependencia de y en w. Estas restricciones adicionales
pueden ser de interés en su propio derecho y también ayudar a dar una idea de algunos de los
detalles técnicos de la manipulación de las ecuaciones de diferencia. Por estas razones, esta sección
analiza en profundidad un ejemplo del papel de las condiciones iniciales y sus implicaciones para
resolver ecuaciones de diferencias.

Sea Pt el precio de una acción y Dt su pago de dividendos. Si un inversionista compra la acción a la


fecha t y la vende a t + 1, el inversor obtendrá un rendimiento de Dt/Pt del dividendo y un
rendimiento de (Pt+1-Pt)/Pt en ganancias de capital. La rentabilidad total del inversor (r t+1) es

r t+1= (Pt+1-Pt)/Pt+Dt/Pt.

Un modelo muy simple de la bolsa postula que el inversionista de retorno gana en acciones en
constante a través de períodos de tiempo:

r = (Pt+1-Pt)/Pt+Dt/Pt r >0. [2.5.4]

La ecuación [2.5.4] puede parecer demasiado simplista para ser de mucho interés práctico;
Asume entre otras cosas que los inversores tienen una previsión perfecta sobre los precios de las
acciones y los dividendos futuros. Sin embargo, un modelo ligeramente más realista en el que los
rendimientos esperados de las acciones son constantes implica un conjunto muy similar de
cuestiones técnicas. La ventaja del modelo de perfección perfecta es que puede ser discutido usando
las herramientas que ya están en la mano para obtener alguna información adicional sobre el uso de
operadores de retraso para resolver ecuaciones de diferencia.

Multiplicar [2.5.4] por Pt para llegar a

r Pt = Pt+1-Pt +Dt

Pt+1= (1+r) Pt - Dt. [2.5.5]

La ecuación [2.5.5] se reconocerá como una ecuación de diferencia de primer orden de la forma de
[1.1.1] con Yt =Pt+1,Ø= (1+r) y wt= - Dt. De [1.1.7], sabemos que [2.5.5] implica que

Pt+1= (1+r)t+1P0 - (1+r)tD0 - (1+r)t-1D1- (1+r)t-2D2 [2.5.6]

_... _ (1+r)Dt-1 . _ Dt.

Si se dio la secuencia { D0 , D1 ,…, Dt } y el valor de P0, entonces [2.5.6] podría determinar los
valores de { P1, P2,… Pt+1}. Pero si sólo se dan los valores { D0 , D1 ,…, Dt }, entonces la ecuación
[2.5.6] no sería suficiente para fijar { P1, P2,… Pt+1}. Hay infinidad de secuencias posibles { P1, P2,…
Pt+1} consistentes con [2.5.5] y con un dado { D0 , D1 ,…, Dt }. Este número infinito de
posibilidades se indexa por el valor inicial P0.

Otra suposición simplificadora ayuda a aclarar la naturaleza de estos diferentes caminos para { P1,
P2,… Pt+1}. Supongamos que los dividendos son constantes en el tiempo:

D1=D para todo t.

Entonces [2.5.6] se convierte

Pt+1= (1+r)t+1P0 – [(1+r)t+ (1+r)t-1

+…+ (1+r)+1] D

= (1+r)
t+1P
0 – D [2.5.7]

40 Capítulo 2 І Operadores de retraso
= (1+r) [P0 –(D/r)]+(D/r)
t+1

Consideremos primero la solución en la que P0 =D/r. Si el precio inicial de la acción llegara


a tomar el valor, el [2.5.7] implica que

Pt=D/r [2.5.8]

Para todo t. En esta solución, los dividendos son constantes en D y el precio de las acciones es
constante en D/r. Sin cambios en los precios de las acciones, los inversores nunca tienen ganancias
o pérdidas de capital, y su retorno es únicamente el rendimiento de dividendos D/P=r. En un
mundo sin cambios en los dividendos, esto parece ser una expresión sensata de la teoría
representada por [2.5.4]. La ecuación [2.5.8] se describe a veces como la solución de los
"fundamentos del mercado" a [2.5.4] para el caso de los dividendos constantes.

Sin embargo, incluso con dividendos constantes, la ecuación [2.5.8] no es el único resultado
consistente con [2.5.4]. Supongamos que el precio inicial excedió D/r:

P0 >D/r.

Los inversionistas parecen estar valorando las acciones más allá del potencial de su flujo constante
de dividendos. De [2.5.7] esto podría ser consistente con la teoría de precios de activos [2.5.4]
siempre que Pt supere D/r una cantidad aún mayor. Mientras todos los inversionistas crean que los
precios seguirán aumentando con el tiempo, cada uno ganará el retorno requerido r de la ganancia
de capital realizada y [2.5.4] será satisfecho. Este escenario ha recordado muchas economías de una
burbuja especulativa en los precios de las acciones.

Si tales burbujas han de ser descartadas, se requiere un conocimiento adicional sobre el


proceso para ∞ más allá de lo contenido en la teoría de [2.5.4]. Por ejemplo, podríamos
argumentar que los recursos finitos ponen un límite superior a los precios de las acciones factibles,
como en

| |<P para todo t. [2.5.9]

Entonces la única secuencia para ∞ consistente con ambos [2.5.4] y [2.5.9] sería la
solución de los fundamentos del mercado [2.5.8].

Relajemos ahora la hipótesis de que los dividendos son constantes y lo reemplazamos con
el supuesto de que ∞ es una secuencia acotada. ¿Cuál es el camino para regresar a la
ecuación de diferencia [2.5.5.]. Llegamos a la forma [2.5.6] sustituyendo recursivamente esta
ecuación hacia atrás. Es decir, utilizamos el hecho de que [2.5.5] mantenido para las fechas t, t-1,t-
2,…,0 y recursivamente sustituido para llegar a [2.5.6] como una implicación lógica de [2.5.5]. La
ecuación [2.5.5] también podría ser resuelta recursivamente hacia delante. Para ello, la ecuación
[2.5.5] se escribe como

Pt= [Pt+1+Dt]. [2.5.10]

Una ecuación análoga debe mantenerse para la fecha t + 1:



Pt+1= [Pt+2+Dt+1]. [2.5.11]

Sustituir [2.5.11] en [2.5.10] para deducir



Pt+1= [Pt+2+Dt+1]+Dt] [2.5.12]


= .

Usando [2.5.10] para la fecha t + 2,

2.5 Condiciones iniciales y secuencias sin consolidar  41 

Pt+2= [Pt+3+Dt+2],

Y la sustitución en [2.5.12] da

.

Siguiendo con esta moda T períodos en el futuro produce

[2.5.13]


⋯ .

Si la secuencia ∞ debe satisfacer [2.5.9], entonces

lim 0.

Si ∞ es igualmente una secuencia acotada, entonces existe el siguiente límite:

lim ∑ 0.

Así, si ∞ debe ser una secuencia acotada, entonces podemos tomar el límite de [2.5.13]
como → ∞ para concluir

1
,
1
[2.5.14]
Que se conoce como la solución de los "fundamentos del mercado" de [2.5.5] para el caso general
de los dividendos que varían en el tiempo. Observe que [2.5.14] produce [2.5.8] como un caso
especial cuando para todo t.

Describir el valor de una variable en el tiempo t como una función de realizaciones futuras
de otra variable como en [2.5.14] puede parecer un artefacto de asumir un modelo de previsión
perfecta de los precios de las acciones. Sin embargo, un conjunto análogo de operaciones resulta ser
apropiado en un sistema similar [2.5.4] en el cual los retornos esperados son constantes. En tal
sistema [2.5.14] se generaliza a

1
,
1
Donde Et denota una expectativa de una cantidad futura desconocida basada en la información
disponible para los inversionistas en la fecha t.

La expresión [2.5.14] determina el valor particular para el precio inicial P0 que es


consistente con la condición limitada [2.5.9]. Ajustando t = 0 en [2.5.14] y sustituyendo en [2.5.6]
produce



⋯ ⋯

- (1+r)t-1D1- (1+r)t-2D2-…-(1+r)Dt-1-Dt

42 Capítulo 2 І Operadores de retraso

⋯.

Por lo tanto, establecer la condición inicial P0 para satisfacer [2.5.14] es suficiente para asegurar que
se cumple para todo t. La elección de P0 igual a cualquier otro valor haría que las consecuencias de
los dividendos de cada período se acumularan con el tiempo, de manera que pudiera llegar a una
violación de [2.5.9] eventualmente.

Es útil discutir estos mismos cálculos desde la perspectiva de los operadores de retraso. En
la Sección 2.2 la sustitución recursiva hacia atrás que llevó de [2.5.5] a [2.5.6] se representó
escribiendo [2.5.5] en términos de los operadores de retardo como

[1-(1+r)L ]Pt+1= - Dt [2.5.15]

Y multiplicando ambos lados de [2.5.15] por el siguiente operador:

[1+ (1+r)L+(1+r)2L2+…+(1+r)t Lt ]. [2.5.16]

Si (1 + r) fuera menor que la unidad, sería natural considerar el límite de [2.5.16] como → ∞:

[1- (1+r) L]-1=1+ (1+r) L+(1+r)2L2 +… .

En el caso de la teoría de los rendimientos de las existencias discutidos aquí, sin embargo, r>0 y
este operador no está definido. En este caso, se puede buscar una representación de operador de
retardo para la sustitución recursiva que conduce de [2.5.5] a [2.5.13]. Esto se logra utilizando el
inverso del operador de retraso,

L-1 Wt=Wt+1,

Que extiende el resultado [2.1.4] a valores negativos de k. Tenga en cuenta que L-1 es, de hecho, la
inversa del operador L:

L-1(Lwt)=L-1wt-1=wt.

En general,

L-kLj=Lj-k,

Con L0 definido como el operador de identidad:

L0 wt=wt .

Ahora considere multiplicar [2.5.15] por

[1+ (1+r)-1L-1+ (1+r)-2L-2+…+ (1+r)-(T-1) L-(T-1) ] [2.5.17]

x [-(1+r)-1L-1]

Para obtener

[1+ (1+r)-1 L-1 + (1+r)-2L-2+…+(1+r)-(T-1) L-(T-1) ]

x [1-(1+r)-1L-1] Pt+1

= [1+ (1+r)-1 L-1 + (1+r)-2L-2+…

+ (1+r)-(T-1) L-(T-1) ] x (1+r)-1Dt+1

2.5 Condiciones iniciales y secuencias sin consolidar  43 




⋯ ,

Que es idéntica a [2.5.13] con t en [2.5.13] sustituido por t + 1.

Cuando r> 0 y ∞ es una secuencia acotada, el lado izquierdo de la ecuación


precedente se aproximará Pt+1 a medida que T se hace grande. Por lo tanto, cuando r> 0 y
∞y ∞ son secuencias acotadas, el límite del operador en [2.5.17] existe y podría ser
visto como el invertido del operador en el lado izquierdo de [2.5.15]:

[1- (1+r) L]-1 = - (1+r)-1L-1

x [1+(1+r)-1L-1+(1+r)-2 L-2+… ].

Aplicar este operador limitador a [2.5.15] equivale a resolver la ecuación de diferencia hacia delante
como en [2.5.14] y seleccionar la solución de los fundamentos del mercado entre el conjunto de
trayectorias de tiempo posibles para ∞ dada una trayectoria temporal específica para los
dividendos ∞.

Así, dada una ecuación de diferencia de primer orden de la forma

(1-ØL)Yt = Wt, [2.5.18]

El consejo de Sargent (1987) era resolver la ecuación "hacia atrás" cuando│<1 multiplicando por

[1-ØL]-1= [1+ØL+Ø2L2+Ø3L3+…] [2.5.19]

Y para resolver la ecuación "adelante" cuando │Ø│<1 multiplicando por


Ø
[1-ØL]-1=
Ø

= - Ø-1L-1 [1+Ø-1L-1+Ø-2L-2+Ø-3L-3+…] . [2.5.20]

Definir la inversa de [1- ØL] de esta manera equivale a seleccionar un operador [1- ØL]-1 con las
propiedades que

[1- ØL]-1 x [1- ØL] =1(el operador de identidad)

y que, cuando se aplica a secuencia acotada ∞

[1- ØL]-1 Wt,

el resultado es otra secuencia limitada.

La conclusión de esta discusión es que al aplicar un operador como [1- ØL]-1, estamos
imponiendo implícitamente una suposición limitada que excluye a priori fenómenos como las
burbujas especulativas de la ecuación [2.5.7]. Donde esa es nuestra intención, tanto mejor, aunque
no deberíamos aplicar las reglas [2.5.19] o [2.5.20] sin alguna reflexión sobre su contenido
económico.

Capítulo 2 Referencias
Sargent, Thomas J. 1987. Macroeconomic Theory, 2ª ed. Boston: Academic Press

44 Capítulo 2 І Operadores de retraso
Whiteman, Charles H. 1983. Linear Rational Expectations Models: A User´s Guide. Minneapolis:
University of Minnesota Press.

2.5 Condiciones iniciales y secuencias sin consolidar  45 
3

Procesos estacionarios ARMA


Este capítulo presenta los procesos ARMA univariados, que proporcionan una clase muy útil de
modelos para describir la dinámica de una serie temporal individual. El capítulo comienza con
definiciones de algunos de los conceptos clave utilizados en el análisis de series de tiempo. Las
secciones 3.2 a 3.5 luego investigan las propiedades de varios procesos ARMA. La sección 3.6
introduce la función generadora de autocovarianza, que es útil para analizar las consecuencias de
combinar series temporales diferentes y para comprender el espectro de la población. El capítulo
concluye con una discusión de la invertibilidad (Sección 3.7), que puede ser importante para
seleccionar la representación ARMA de una serie temporal observada que sea apropiada dada las
aplicaciones que se van a hacer del modelo.

3.1. Expectativas, Estacionariedad y Ergodicidad

Expectativas y Procesos Estocásticos


Supongamos que hemos observado una muestra de tamaño T de alguna variable aleatoria
t:

{ 1, 2,…, T}. [3.1.1]

Por ejemplo, considere una colección de variables independientes e idénticamente distribuidas


(i.i.d.) εT,

{ε1, ε2,…, εT}, [3.1.2]

con

ε ~ 0, .
Esto se conoce como una muestra de tamaño T de un proceso de ruido blanco gaussiano.

La muestra observada [3.1.1] representa T números particulares, pero este conjunto de


números T es sólo un posible resultado del proceso estocástico subyacente que generó la fecha. De
hecho, incluso si hubiéramos imaginado haber observado el proceso durante un período de tiempo
infinito, llegando a la secuencia

. . . , γ , γ , γ , γ , … , γ , γ ,γ ,..

La secuencia infinita ∞ todavía se vería como una realización única de un proceso de


series de tiempo. Por ejemplo, podríamos establecer una computadora para trabajar generando una
secuencia infinita de i.i.d. 0, , ε ∞, y una segunda computadora que genera una
secuencia separada, ε ∞ .A continuación, ver estos como dos realizaciones independientes
de un Gaussiano ruido blanco proceso.

46 Capítulo 3 | Procesos Estacionarios ARMA
Imagine una batería de I tales computadoras generando secuencias y ∞, y
∞,…, y ∞ y considere seleccionar la observación asociada con la fecha t de cada
secuencia:

{ t (1), t ,…,
( 2)
t
(I) }.

Esto se describiría como una muestra de I realizaciones del variable aleatorio t. Esta variable
aleatoria tiene cierta densidad, denotada fyt( t), que se denomina densidad incondicional de t. Por
ejemplo, para el proceso de ruido blanco gaussiano esta densidad viene dada por

exp .

La expectativa de la t-ésima observación de una serie de tiempo se refiere a la media de esta


distribución de probabilidad, siempre que exista:

E Y ≡ . [3.1.3]

Podríamos ver esto como el límite de probabilidad del promedio del conjunto:

E Y p lim 1/ ∑ . [3.1.4]

Por ejemplo, si ∞ representa la suma de una constante μ más un proceso de ruido


blanco gaussiano ε ∞,

Yt =μ+ εt [3.1.5]

Entonces su media es

E (Yt)=μ+E (εt)= μ. [3.1.6]

Si Yt es una tendencia temporal más el ruido blanco gaussiano,

Yt = t+ εt , [3.1.7]

La media es

E (Yt)= t. [3.1.8]

A veces para el énfasis la expectativa E (Yt) se llama la media incondicional de Yt. La media
incondicional es denotada μ t:

E (Yt)=μ t

Obsérvese que esta notación permite la posibilidad general de que la media pueda ser una función
de la fecha de la observación t. Para el proceso [3.1.7] que implica la tendencia temporal, la media
[3.1.8] es una función del tiempo, mientras que para el ruido blanco constante más Gaussiano, la
media [3.1.6] no es una función del tiempo.

La varianza de la variable aleatoria Yt (denotada ) es similarmente definida como

. [3.1.9]

Por ejemplo, para el proceso [3.1.7], la varianza es

ε σ .

3.1 Expectativas, Estacionariedad y Ergodicidad 47
Autovarianza
Dada una realización particular como ∞ en un proceso de series temporales,
considere construir un vector asociado con la fecha t. Este vector consta de las observaciones
más recientes [j + 1] sobre y a partir de la fecha t para esa realización:

Xt(1)≡ .

Pensamos en cada realización ∞ como generando un valor particular del vector Xt y


queremos calcular la distribución de probabilidad de este vector a través de las realizaciones i.
Esta distribución se denomina distribución conjunta de (Yt,Yt-1,…,Yt-j). A partir de esta distribución
podemos calcular la j-ésima autocovariancia de Yt (denotada Yjt):

γjt= … Yt μt Yt j μt j

ƒyt,yt-1,…,yt-j(yt,yt-1,…,yt-j)dytdyt-1…dyt-j [3.1.10]

=E(Yt-μt) (Yt-j-μt-j).

Obsérvese que [3.1.10] tiene la forma de una covarianza entre dos variables X e Y:

Cov(X,Y)=E(X-μx)(Y-μy).

Así [3.1.10] podría ser descrito como la covarianza de Yt con su propio valor retrasado; Por
lo tanto, el término "autovarianza". Observe más lejos de [3.1.10] que la autocovariancia 0 es sólo la
varianza de Yt, como anticipó la notación Y0t en [3.1.9].

La autocovariancia Yjt se puede ver como el elemento (1, j + 1) de la matriz de varianza-


covarianza del vector xt. Por esta razón, las autocovariancias se describen como los segundos
momentos del proceso para Yt.

Una vez más, puede ser útil pensar en la j-ésima autocovariancia como el límite de
probabilidad de un promedio de conjunto:

γjt= lim 1/ ∑ (Yt(i)- μt]. [Y(i)t-j- μ t-j]. [3.1.11]


Como ejemplo de cálculo de autocovariancias, tenga en cuenta que para el proceso en


[3.1.5] las autocovariancias son todas cero para j≠0:

γjt=E (Yt- μ) (Yt-j- μ)=E(εtεt-j)=0 para j≠0.

Estacionariedad
Si ni la media μ ni las autocovarianzas Yjt dependen de la fecha t, entonces se dice que el
proceso para Yt es covarianza-estacionario o débilmente estacionario:

E (Yt)=μ para toda t

E (Yt- μ) (Yt-j- μ)=γj para toda t y algunas j.

Por ejemplo, el proceso en [3.1.5] es covarianza-estacionaria:

48 Capítulo 3 | Procesos Estacionarios ARMA
E(Yt)=μ


E(Yt- μ) (Yt-j- μ)=
0
Por el contrario, el proceso de [3.1.7] no es covarianza-estacionario, porque su media, Bt, es una
función del tiempo.

Obsérvese que si un proceso es covarianza-estacionario, la covarianza entre Yt y Yt - j


depende sólo de , del tiempo que separa las observaciones, y no de t, la fecha de la observación. Se
deduce que para un proceso de covarianza-estacionario, Yj y Y-j representarían la misma magnitud.
Para ver esto, recuerde la definición

γj =E(Yt-μ) (Yt-j-μ). [3.1.12]

Si el proceso es covarianza-estacionario, entonces esta magnitud es la misma para cualquier valor de


que podríamos haber elegido; Por ejemplo, podemos reemplazar por :

γj =E (Yt+j-μ) (Y[t+j]-j-μ)- E(Yt+j-μ) (Yt-μ).= E(Yt-μ) (Yt+j-μ).

Pero refiriéndose de nuevo a la definición [3.1.12], esta última expresión es sólo la definición de γ-j.
Así, para cualquier proceso de covarianza-estacionario,

γj= γ-j [3.1.13]

Un concepto diferente es el de estricto estacionario. Se dice que un proceso es


estrictamente estacionario si, para cualquier valor de j1,j2,…,jn, la distribución conjunta de (yt,yt+j1,
yt+j1,…,yt+jn) depende solamente de los intervalos que separan las fechas (j1,j2,…,jn) y no en la fecha
misma (t). Obsérvese que si un proceso es estrictamente estacionario con segundos segundos
finitos, entonces debe ser covarianza estacionaria - si las densidades sobre las que estamos
integrando en [3.1.3] y [3.1.10] no dependen del tiempo, entonces los momentos μt y yjt no
dependerán del tiempo. Sin embargo, es posible imaginar un proceso que es covarianza:
estacionario, pero no estrictamente estacionario; La media y las autocovariancias no podían ser
funciones del tiempo, pero tal vez momentos superiores tales como E( ) son.

En este texto el término "estacionario" por sí mismo se toma para significar "covarianza-
estacionario".

Se dice que un proceso {Yt} es Gaussiano si la densidad de unión

ƒyt.yt+j1,…,yt+jn(yt,yt+j1,…,yt+jn)

Es Gaussiano para cualquier j1,j2,…,jn. Dado que la media y la varianza son todo lo que se necesita
para parametrizar una distribución Gaussiana multivariable completamente un proceso Gaussiano
estacionario de covarianza es estrictamente estacionario.

Ergodicidad
Hemos visto las expectativas de una serie de tiempo en términos de promedios de conjunto
como [3.1.4] y [3.1.11]. Estas definiciones pueden parecer un poco artificiales, ya que por lo general
todo lo que uno tiene disponible es una realización única del tamaño T del proceso, que antes
denotamos { , ,…, }. A partir de estas observaciones se calcula la media muestral ȳ.
Esto, por supuesto, no es un promedio de conjunto, sino un promedio de tiempo:

ȳ 1/ .

[3.1.14]

3.1 Expectativas, Estacionariedad y Ergodicidad 49
Si los promedios de tiempo como [3.1.14] eventualmente convergen al concepto de conjunto E(Yt)
para un proceso estacionario tiene que ver con la ergodicidad. Se dice que un proceso covarianza-
estacionario es ergódico para la media si [3.1.14] converge en probabilidad a E(Yt) como → ∞.
Un proceso será ergódico para la media siempre que la autocovariancia vaya a cero lo
suficientemente rápido como j se hace grande. En el capítulo 7 veremos que si la autocovariancia
para un proceso de covarianza-estacionario satisface

[3.1.15]
Entonces { } es ergódico para la media.

Del mismo modo, se dice que un proceso de covarianza-estacionario es ergódico para los segundos
momentos si

[1/(T-j)]∑ μ (Yt-j-μ) p→yj

Para todos j. Las condiciones suficientes para la ergodicidad de segundo momento se presentarán
en el capítulo 7. En el caso especial donde { } es un proceso estacionario Gaussiano, la condición
[3.1.15] es suficiente para asegurar la ergodicidad para todos los momentos.

Para muchas aplicaciones, la estabilidad y la ergodicidad resultan ser las mismas. Sin
embargo, con el propósito de aclarar los conceptos de estacionario y ergodicidad, puede ser útil
considerar un ejemplo de un proceso que es estacionario pero no ergódico. Supongamos que la
media μ(i) para la i-ésima realización ∞ se genera a partir de una distribución N(0, )
digamos

Y t (i)= μ(i)+εt . [3.1.16]

Aquí {εt} es un proceso de ruido blanco gaussiano con media cero y varianza que es
independiente de μ(i). Darse cuenta de

μ t=E (μ (i))+E (εt) = 0.

También,

Y(t)=E (μ(i)+εt)2 =λ2+σ 2

Yj(t)=E (μ(i)+εt)( μ(i)+εt-j)=λ2 para j≠0.

Así, el proceso de [3.1.16] es covarianza-estacionario. No satisface la condición suficiente [3.1.15]


para ergodicidad para la media, sin embargo, y de hecho, el tiempo promedio

(1/T)∑ = (1/T) ∑ εt μ i 1/T ∑ εt

Converge a μ(i) en lugar de a cero, la media de .

3.2. Ruido Blanco


El bloque básico para todos los procesos considerados en este capítulo es una secuencia ε
∞ cuyos elementos tienen cero y varianza σ2,

E(εt) = 0 [3.2.1]

50 Capítulo 3 | Procesos Estacionarios ARMA
E(ε2t) = σ2, [3.2.2]

Y para los cuales los ’s no están correlacionados a lo largo del tiempo:

E (εt, εT) = 0 para t ≠ τ. [3.2.3]

Un proceso que satisface [3.2.1] a [3.2.3] se describe como un proceso de ruido blanco.

En ocasiones queremos reemplazar [3.2.3] por la condición ligeramente más fuerte de que los ’s
son independientes a través del tiempo:

ε t , εT [3.2.4]

Obsérvese que [3.2.4] implica [3.2.3] pero [3.2.3] no implica [3.2.4]. Un proceso que satisface [3.2.1]
a [3.2.4] se denomina proceso de ruido blanco independiente.

Finalmente, si [3.2.1] a [3.2.4] se mantiene junto con


ε t ~ N(0, σ2), [3.2.5]

Entonces tenemos el proceso de ruido blanco gaussiano.

3.3. Procesos de Media Móvil

El proceso de media móvil de primer orden


Sea εt el ruido blanco como en [3.2.1] a [3.2.3], y considere el proceso

Yt= μ+εt+θεt-1 , [3.3.1]

Donde μ y θ podrían ser constantes. Esta serie temporal se denomina proceso de media móvil de
primer orden, denominado MA (1). El término "promedio móvil" proviene del hecho de que Yt se
construye a partir de una suma ponderada, similar a una media, de los dos valores más recientes de
ε.

La expectativa de Yt viene dada por

E (Yt)=E (μ+εt+θεt-1)= μ+E (εt)+θ.E (εt-1) = μ. [3.3.2]

Utilizamos el símbolo para el término constante en [3.3.1] en previsión del resultado que este
término constante resulta ser la media del proceso.

La varianza de Yt es

2 ² [3.3.3]

1 .
La primera autocovariancia es

3.3 Procesos de Media Móvil  51
 
0 0 0. [3.3.4]

Las autocovarianzas más altas son todas cero:

0 1. [3.3.5]

Dado que la media y las autocovarianzas no son funciones del tiempo, un proceso MA (1) es
covarianza-estacionario independientemente del valor de . Además, [3.1.15] está claramente
satisfecho:

1 .

Así, si es ruido blanco gaussiano, entonces el proceso MA (1) [3.3.1] es ergódico para todos los
momentos.

La j-ésima autocorrelación de un proceso covarianza-estacionario (denotado se define como su j-


ésima autocovariancia dividida por la varianza:

≡ [3.3.6]

Una vez más, la terminología surge del hecho de que es la correlación entre y :

,
,

Puesto que es una correlación, 1 para todo , por la desigualdad de Cauchy-Schwarz.


Observe también que la 0ª autocorrelación es igual a la unidad para cualquier proceso
covarianza-estacionario por definición.

A partir de [3.3.3] y [3.3.4], la primera autocorrelación para un proceso MA (1) está dada
por
²
[3.3.7]
²

Las autocorrelaciones más altas son todas cero.

La autocorrelación se puede trazar como una función de como en la figura 3.1. El panel (a)
muestra la función de autocorrelación para el ruido blanco, mientras que el panel (b) da la función
de autocorrelación para el proceso MA (1):

0.8

Para diferentes especificaciones de obtendríamos diferentes valores para la primera


autocorrelación en [3.3.7]. Los valores positivos de inducen autocorrelación positiva en la
serie. En este caso, es probable que un valor excepcionalmente grande de sea seguido por un
valor mayor que el promedio para , de la misma manera que menor que el promedio puede
ser seguido por un valor menor que el promedio . Por el contrario, los valores negativos de
implican autocorrelación negativa - un gran podría ser seguido por un pequeño valor para .

Los valores para implicados por diferentes especificaciones de representados en la


figura 3.2. Observe que el mayor valor posible para es 0.5; Esto ocurre si 1. El valor más
pequeño para es - 0.5, que ocurre si 1. Para cualquier valor de entre -0,5 y 0,5, hay dos
valores diferentes de que podrían producir esa autocorrelación. Esto se debe a que el valor de
⁄ 1 no cambia si es reemplazado por 1/ :

52 Capítulo 3 | Procesos Estacionarios ARMA
1/ . 1/
1 1 ² 1 1/ 1

Por ejemplo, los procesos

0.5

2
Tendría la misma función de autocorrelación:

2 0.5
0.4.
1 2 1 0.5
Tendremos más que decir acerca de la relación entre dos procesos MA (1) que comparten la misma
función de autocorrelación en la Sección 3.7.

(a) Ruido Blanco: (b) MA(1) : 0.8

(c) MA(4): 0.6 0.3 (d) AR(1) : 0.8


0.5 0.5

(e) AR(1): 0.8


FIGURA 3.1 Funciones de autocorrelación para diversos procesos ARMA. 

3.3 Procesos de Media Móvil 53
El Proceso de Media Móvil de Orden “q-nésima”
Donde el proceso de media móvil denotado MA(q), se caracteriza por:

⋯ ,
[3.3.8]

Satisface [3.2.1] a [3.2.3] y , ,…, podría ser cualquier número real. La media de [3.3.8] es
nuevamente dada por :

. . ⋯ .

La varianza de un proceso de MA (q) es

. . . [3.3.9]

FIGURA 3.2 La primera autocorrelación para un proceso MA (1) es posible para diferentes
valores de .

Dado que los ′ no están correlacionados, la varianza [3.3.9] es 1

⋯ 1 ⋯ . [3.3.10]

Para for j = 1,2,….q,

..

⋯ . [3.3.11]

Los términos que implican ′ en diferentes fechas han sido eliminados porque su producto tiene
una expectativa cero, y se define como unidad. Para j> q, no hay con fechas comunes en la
definición de y así la expectativa es cero.

Así,

⋯ . 1,2, … ,
[3.3.12]
0
                                                            
1 Ver la ecuación [A.5.18] en el Apéndice A al final del libro.

54 Capítulo 3 | Procesos Estacionarios ARMA
Por ejemplo, para un proceso MA (2)

1 .

⋯ 0

Para cualquier valor de , ,…, , el proceso MA (q) es, por tanto, covarianza-
estacionario. Condición [3.1.15] se satisface, por lo que para gaussiana el proceso MA (q) es
también ergódico para todos los momentos. La función de autocorrelación es cero después de
retrasos q, como en el panel (c) de la figura 3.1.

El proceso de media móvil de orden infinito


El proceso MA (q) puede escribirse

Con 1. Considere el proceso que resulta como → ∞:

∑ ⋯ [3.3.13]

Esto podría ser descrito como un proceso MA∞. Para preservar la flexibilidad de la notación
posteriormente, usaremos para los coeficientes de un proceso de media móvil de orden infinito y
′ para los coeficientes de un proceso de media móvil de orden finito.

El Apéndice 3.A de este capítulo muestra que la secuencia infinita en [3.3.13] genera un proceso
estacionario de covarianza bien definido, siempre que

∝.

[3.3.14]

A menudo es conveniente trabajar con una condición ligeramente más fuerte que [3.3.14]:

∞.

[3.3.15]
Se dice que una secuencia de números 0 que satisface [3.3.14] es sumatoria
cuadrada, mientras que una secuencia que satisface [3.3.15] se dice que es absolutamente sumatoria.
La sumabilidad absoluta implica la suma cuadrada, pero la inversa no se sostiene. Hay ejemplos de
secuencias cuadradas-sumábles que no son absolutamente sumables (véase también el Apéndice
3.A).

3.3 Procesos de Media Móvil 55
La media y las autocovariancias de un proceso MA ∞ con coeficientes absolutamente
sumables se pueden calcular a partir de una simple extrapolación de los resultados para el proceso
MA (q):2

lim ⋯ [3.3.16]

lim ⋯ ² lim ⋯ . ²
→ →
[3.3.17]

⋯ .
[3.3.18]

Además, un proceso MA ∞ con coeficientes absolutamente sumables tiene autocovariancias


absolutamente sumables:

∝.

[3.3.19]

Por lo tanto, un proceso MA ∞ que satisface [3.3.15] es ergódico para la media (véase el Apéndice
3.A). Si el ′ es Gaussiano, entonces el proceso es ergódico para todos los momentos

3.4. Procesos Autorregresivos

Proceso autorregresivo de primer orden


Una autorregresión de primer orden, denotado AR (1), satisface la siguiente ecuación de diferencia:

. [3.4.1]

De nuevo, { }es una secuencia de ruido blanco que satisface [3.2.1] a [3.2.3]. Observe que [3.4.1]
toma la forma de la ecuación de diferencia de primer orden [1.1.1] o [2.2.1] en la que la variable de
entrada está dada por . Sabemos por el análisis de las ecuaciones de diferencias de

                                                            
2 Sumabilidad absoluta y existencia del segundo momento son condiciones suficientes para permitir intercambiar el orden
de integración y suma. Específicamente, si es una secuencia de variables aleatorias tales que

∞,

Entonces

Ver Rao (1973, p. 111).

56 Capítulo 3 | Procesos Estacionarios ARMA
primer orden que if 1, las consecuencias de ′ para Y se acumulan en lugar de morir a lo
largo del tiempo. Por lo tanto, no es sorprendente que cuando no existe un proceso de
covarianza-estacionario para Y con una varianza finita que satisface [3.4.1]. En el caso en que
1, existe un proceso de covarianza-estacionario para Y que satisface [3.4.1]. Se da por la
solución estable a [3.4.1] caracterizada por [2.2.9:]

. . . ⋯

/ 1 ⋯. [3.4.2]

Esto puede ser visto como un proceso MA ∞ como en [3.3.13] con dado por Cuando
1, se satisface la condición [3.3.15]:
∝ ∝

Que es igual a 1/ 1 siempre que 1 . El resto de esta discusión de procesos


autorregresivos de primer orden asume que 1 Esto asegura que la representación MA ∞
existe y puede ser manipulada de manera obvia, y que el proceso AR (1) es ergódico para la media.

Tomando las expectativas de [3.4.2], vemos que

/ 1 0 0 ⋯,
De manera que la media de un proceso estacionario AR (1) es

/ 1 . [3.4.3]

La varianza es

⋯ [3.4.4]

1 ⋯

^2/ 1 ^2 .

Mientras que la autocovariancia j-ésima es

⋯ ⋯ [3.4.5]

⋯ .

1 ⋯ .
/ ^
.

Se deduce de [3.4.4] y [3.4.5] que la función de autocorrelación,

3.4 Procesos Autorregresivos 57
/ , [3.4.6]

Sigue un patrón de decaimiento geométrico como en el panel (d) de la figura 3.1. De


hecho, la función de autocorrelación [3.4.6] para un proceso estacionario AR (1) es idéntica al
multiplicador dinámico o la función impulso-respuesta [1.1.10]; El efecto de un incremento de una
unidad en en es igual a eh correlación entre Y y . Un valor positivo de , como un
valor positivo de para un proceso MA (1), implica una correlación positiva entre y . Un
valor negativo de implica una autocorrelación de segundo orden negativa de primer orden pero
positiva, como en el panel (e) de la figura 3.1.

La figura 3.3 muestra el efecto sobre la aparición de la serie temporal { } de la variación


del parámetro . Los paneles muestran realizaciones del parámetro autorregresivo . El panel (a)
muestra ruido blanco 0 . Una serie sin autocorrelación parece agitada y sin patrones para el
ojo; El valor de una observación no da ninguna información sobre el valor de la siguiente
observación. Para = 0,5 (panel (b)), la serie parece más suave, con observaciones por encima o
por debajo de la media que a menudo aparecen en grupos de duración modesta. Para = 0,9
(panel (c)), las desviaciones de la media pueden ser bastante prolongadas; Los choques fuertes
toman un tiempo considerable para morir.

Los momentos para un AR estacionario (1) se obtuvieron arriba al verlo como un proceso MA ∞ .
Una segunda forma de llegar a los mismos resultados es asumir que el proceso es covarianza-
estacionario y calcular los momentos directamente a partir de la ecuación de diferencia [3.4.1].
Tomando las expectativas de ambos lados de [3.4.1],

. . [3.4.7]

Asumiendo que el proceso es covarianza-estacionario,

. [3.4.8]

Sustituyendo [3.4.8] en [3.4.7],

0
o

/ 1 ,

Reproduciendo el resultado anterior [3.4.3].

Observe que la fórmula [3.4.9] claramente no está generando una declaración sensata si
| | 1. Por ejemplo, si c>0 y 1, entonces Y en [3.4.1] es igual a una constante positiva más
un número positivo multiplicado por su valor retrasado más una variable aleatoria de media-cero.
Sin embargo, [3.4.9] parece afirmar que Y sería negativo en promedio para tal proceso! La razón de
que la fórmula [3.4.9] no es válida cuando | |≥1 es lo que asumimos en [3.4.8] que Y es
covarianza-estacionaria, suposición que no es correcta cuando | |≥1.

Para encontrar los segundos momentos de Y de una manera análoga, utilice [3.4.3] para
reescribir [3.4.1.] Como

1
o

. [3.4.10]

Ahora cuadrados ambos lados de [3.4.10] y tomar las expectativas:

58 Capítulo 3 | Procesos Estacionarios ARMA
2 . [3.4.11]

(a) ∅ = 0 (ruido blanco)

(b) ∅ = 0.5

(c) ∅= 0.9
FIGURA 3.3 Realizaciones de un proceso AR (1), para valores alternativos de
.

Recordemos de [3.4.2] que es una función lineal de , , …:

3.4 Procesos Autorregresivos 59
⋯,

Pero no está correlacionada con , , … así que no debe estar correlacionada con
. Así, el término medio en el lado derecho de [3.4.11] es cero:

0 [3.4.12]

De nuevo, suponiendo covarianza-estacionaria, tenemos

. [3.4.13]

Sustituyendo [3.4.13] y [3.4.12] en [3.4.11],

0 ²

/ 1 ,
Reproduciendo [3.4.4].

Del mismo modo, podríamos multiplicar [3.4.10] por y tomar las expectativas:

. . [3.4.14]

Pero el término será una función lineal de , , .., que, para j> 0, no se
correlacionará con . Por lo tanto, para j> 0, el último término en el lado derecho en [3.4.14] es
cero. Obsérvese, además, que la expresión que aparece en el primer término en el lado derecho de
[3.4.14],

μ ,

Es la autocovariancia de las observaciones sobre Y separadas por j - 1 períodos:

Así, para j> 0, [3.4.14] se convierte en

[3.4.15]

La ecuación [3.4.15] toma la forma de una ecuación de diferencias de primer orden,

En el que la autocovariancia Y toma el lugar de la variable Y y en la que el subíndice j (que indiza el


orden de la autocovariancia) sustituye t (que indiza el tiempo). La entrada w en [3.4.15] es
idénticamente igual a cero. Es fácil ver que la ecuación de diferencia [3.4.15] tiene la solución

Que reproduce [3.4.6]. Ahora vemos por qué la función de impulso-respuesta y la función
de autocorrelación para un proceso AR (1) coinciden - ambas representan la solución a una
ecuación de diferencia de primer orden con un parámetro autorregresivo , un valor inicial de
unidad y ningún choque subsiguiente.

60 Capítulo 3 | Procesos Estacionarios ARMA
El Proceso Autorregresivo de Segundo Orden
Una autorregresión de segundo orden, denotada AR (2), satisface

, [3.4.16]

O, en la notación del operador de retraso,

1 . [3.4.17]

La ecuación de diferencia [3.4.16] es estable siempre que las raíces de

1 0 [3.4.18]

Fuera del círculo de la unidad. Cuando esta condición se cumple, el proceso AR (2) resulta ser
covarianza-estacionario, y el inverso del operador autorregresivo en [3.4.17] está dado por

1 ¯ ⋯. [3.4.19]

Recordando [1.2.44], el valor de se puede encontrar desde el elemento (1, 1) de la matriz F


elevado a la potencia j, como en la expresión [1.2.28]. Cuando las raíces de [3.4.18] son distintas,
una expresión de forma cerrada para está dada por [1.2.29] y [1.2.25]. El ejercicio 3.3 al final de
este capítulo discute algoritmos alternativos para calcular .

La multiplicación de ambos lados de [3.4.17] por (L) da

. [3.4.20]

Es fácil demostrar que

/ 1 [3.4.21]

y

∝;

[3.4.22]

Se invita al lector a probar estas afirmaciones en los ejercicios 3.4 y 3.5. Puesto que [3.4.20] es un
proceso absolutamente sumable MA∞, su media está dada por el término constante:

/ 1 [3.4.23]

Un método alternativo para calcular la media es asumir que el proceso es covarianza-estacionario y


tomar las expectativas de [3.4.16] directamente:

,
Implicando
0,
Reproduciendo [3.4.23].

Para encontrar segundos momentos, escriba [3.4.16] como

3.4 Procesos Autorregresivos 61
o

. [3.4.24]

Multiplicando ambos lados de [3.4.24] por y tomando expectativas produce

1,2, … .. [3.4.25]

Por lo tanto, la autocovariancia sigue la misma ecuación de diferencia de segundo orden que el
proceso para con la ecuación de diferencia para indexada por el retardo j. Las autocovariancias
para el mismo se comportan igual que las soluciones a la ecuación de diferencia de segundo orden
analizada en la Sección 1.2. Un proceso AR (2) si covariancia-estacionario siempre que y se
encuentren dentro de la región triangular de la Figura 1.5.

Cuando y se encuentran dentro de la región triangular pero por encima de la parábola en esa
figura, la función de autocovariancia es la suma de dos funciones exponenciales decrecientes de j.
Cuando y caen dentro de la región triangular pero debajo de la parábola, es una función
sinusoidal amortiguada.

Las autocorrelaciones se encuentran dividiendo ambos lados de [3.4.25] por :

1,2, … .. [3.4.26]

En particular, el ajuste j = 1 produce

/ 1 . [3.4.27]

Para j = 2

La variación de una autorregresión de segundo orden covarianza-estacionaria se puede encontrar


multiplicando ambos lados de [3.4.24] por y tomando las expectativas:

. [3.4.28]

El último término en [3.4.29] viene de darse cuenta de que

. .

,
La ecuación [3.4.29] puede escribirse

. [3.4.29]

Sustituyendo [3.4.27] y [3.4.28] en [3.4.30] se obtiene

.0 .0 .
o

. [3.4.30]

62 Capítulo 3 | Procesos Estacionarios ARMA
El Proceso Autoregresivo de Orden P
Una autorregresión de orden P, denotada AR (p), satisface

⋯ . [3.4.31]

Siempre que las raíces de

1 ⋯ 0 [3.4.32]

Todos se encuentran fuera del círculo unitario, es fácil verificar que la representación estacionaria
covarianza de la forma

[3.4.33]

Existe donde

1 ⋯ ¯¹

Y ∑ ∞. Suponiendo que se cumple la condición de estacionariedad, una manera de


encontrar la media es tomar las expectativas de [3.4.31]:

⋯ ,

/ 1 ⋯ . [3.4.34]

Usando [3.4.34], la ecuación [3.4.31] puede escribirse


. [3.4.35]
Las autocovariancias se encuentran multiplicando ambos lados de [3.4.35] por y
tomando las expectativas:

⋯ 1,2, . .
⋯ 0,
[3.4.36]

Usando el hecho de que , el sistema de ecuaciones en [3.4.36] para j = 0, 1, ..., p puede ser
resuelto para , , … como funciones de , , , … , . Se puede demostrar que el vector
1 , ,… está dado por los primeros p elementos de la primera columna de la
matriz ¯¹ donde F es la matriz (pxp) definida en la ecuación [1.2.3] Y x indica el
producto Kronecker.

Dividir [3.4.36] por produce las ecuaciones de Yule-Walker:

⋯ [3.4.37]

Por lo tanto, las autocovariancias y autocorrelaciones siguen la misma ecuación de diferencia de


orden p que el propio proceso [3.4.31]. Para raíces distintas, sus soluciones toman la forma

⋯ , [3.4.38]

Donde los valores propios ,…. son las soluciones a

⋯ 0

3.4 Procesos Autorregresivos 63
3.5. Procesos Mixtos de Media Móvil Autorregresiva
Un proceso de ARMA (p, q) incluye términos de media autorregresiva y móvil:

⋯ [3.5.1]

⋯ ,

O, en forma de operador de retardo,

1 ⋯

1 ⋯ . [3.5.2]

Siempre que las raíces de

1 ⋯ 0 [3.5.3]

Fuera del círculo unitario, ambos lados de [3.5.2] se pueden dividir 1 ⋯


por para obtener

donde

1 ⋯
1 ⋯

/ 1 ⋯

Así, la estacionariedad de un proceso ARMA depende enteramente de los parámetros


autorregresivos , ,…, y no de los parámetros de la media móvil , ,…, .

A menudo es conveniente escribir el proceso ARMA [3.5.1] en términos de desviaciones de la


media:

⋯ . [3.5.4]

Las autocovariancias se encuentran multiplicando ambos lados de [3.5.4] por y


tomando las expectativas. Para j> q, las ecuaciones resultantes toman la forma

⋯ [3.5.5]

Así, después de q las la función de autocovariancia (y la función de autocorrelación )


siguen la ecuación de diferencia de orden p gobernada por los parámetros autorregresivos.

Tenga en cuenta que [3.5.5] no se mantiene para for j≤q, debido a la correlación entre
y . Por lo tanto, un proceso ARMA (p, q) tendrá autocovariancias más complicadas para

64 Capítulo 3 | Procesos Estacionarios ARMA
los retornos 1 a q que el correspondiente proceso AR (p). Para j>q con raíces autorregresivas
distintas, las autocovariancias serán dadas por

⋯ [3.5.6]

Esto toma la misma forma que las autocovariancias para un proceso AR (p) [3.4.38], aunque debido
a que las condiciones iniciales , , … , difieren para los procesos ARMA y AR, los parámetros
en [3.5.6] no Ser los mismos que los parámetros en [3.4.38].

Existe la posibilidad de una parametrización redundante con procesos ARMA. Considere, por
ejemplo, un simple proceso de ruido blanco,

. [3.5.7]

Supongamos que ambos lados de [3.5.7] se multiplican por 1 :

1 1 , [3.5.8]

Claramente, si [3.5.7] es una representación válida, entonces también es [3.5.8] para cualquier valor
de p. Así, [3.5.8] podría ser descrito como un ARMA (1, 1) proceso, con y . Es
importante evitar esta parametrización. Puesto que cualquier valor de p en [3.5.8] describe los datos
igualmente bien, obviamente nos meteremos en problemas tratando de estimar el parámetro p en
[3.5.8] por máxima verosimilitud. Además, las manipulaciones teóricas basadas en una
representación tal como [3.5.8] pueden pasar por alto cancelaciones clave. Si estamos usando un
modelo ARMA (1, 1) en el que está cerca de - entonces los datos podrían ser mejor
modelados como simple ruido.

Una sobreparametrización relacionada puede surgir con un modelo ARMA (p, q). Consideremos el
factoraje de los operadores polinomiales de lag en [3.5.2] como en [2.4.3]

1 1 … 1

1 1 … 1 . [3.5.9]

Asumimos que 1 para toda i para que el proceso sea covarianza-estacionario. Si el


operador autorregresivo 1 ⋯ y el operador del promedio móvil 1
⋯ tienen raíces comunes, digamos, λ para algunos y , entonces
ambos lados de [3.5.9] pueden dividirse por 1 :

1 1

1 ⋯

1 ⋯ , [3.5.10]

donde

1 ⋯

1 1 … 1 1 … 1

1 ⋯

3.5 Procesos Mixtos de Media Móvil Autorregresiva 65
1 1 … 1 1 … 1 .

El proceso estacionario ARMA (p, q) que satisface [3.5.2] es claramente idéntico al proceso
estacionario ARMA (p - 1, q - 1) que satisface [3.5.10].

3.6. La función de generación de autocovarianza


Para cada uno de los procesos estacionarios de covarianza para considerados hasta ahora, se
calcula la secuencia de autocovariancias . Si esta secuencia es absolutamente sumatoria,
entonces una manera de resumir las autocovariancias es a través de una función escalar-valorada
llamada función autocovariante-generadora:



[3.6.1]
Esta función se construye tomando la autovarianza j-ésima y multiplicándola por un número z
elevado a la potencia j, y luego sumando sobre todos los valores posibles de j. El argumento de esta
función (z) se toma como un escalar complejo.

De particular interés como argumento para la función generadora de autocovariancia es


cualquier valor de z que se encuentra en el complejo círculo unitario,

cos sin

Donde √ 1 y w es el ángulo radiano que z hace con el eje real. Si la función de generación de
autocovariancia se evalúa en y se divide por 2 , la función resultante de ,

1 1
,
2 2

Se denomina espectro de población de Y. El espectro de población se analizará en detalle en el


Capítulo 6. Allí se demostrará que para un proceso con autocovariancias absolutamente sumables,
existe la función y puede usarse para calcular toda la función generadora de autocovariancia,
entonces los dos procesos Exhiben la secuencia idéntica de autocovariancias.

Como ejemplo de cálculo de una función generadora de autocovariancia, considere el proceso MA


(1). De las ecuaciones [3.3.3] a [3.3.5], su función generadora de autocovariancia es

1 . 1 .

Obsérvese que esta expresión podría escribirse alternativamente

1 1 [3.6.2]

La forma de expresión [3.6.2] sugiere que para el proceso MA (q)

1 ⋯ ,

La función de generación de autocovariancia podría calcularse como

1 ... [3.6.3]

1 ... .

66 Capítulo 3 | Procesos Estacionarios ARMA
Esta conjetura puede ser verificada realizando la multiplicación en [3.6.3] y recopilando términos
por potencias de z:

1 ... 1 ...

... . . . [3.6.4]

1 ...

. . . ... .

La comparación de [3.6.4] con [3.3.10] o [3.3.12] confirma que el coeficiente de en [3.6.3] es, en
efecto, el j-ésimo autocovarianza.

Este método para encontrar se extiende al caso ∞ . Si

[3.6.5]

con

. .. [3.6.6]

∞,

[3.6.7]
Entonces

[3.6.8]

Por ejemplo, el proceso estacionario AR (1) puede escribirse como

1 ∅ ,

Que está en la forma de [3.6.5] con 1/ 1 ∅ ,. Por lo tanto, la función de


generación de autocovariancia para un proceso AR (1) podría calcularse a partir

[3.6.9]
∅ ∅

Para verificar directamente esta afirmación, expanda los términos de [3.6.9]:

1 ∅ ∅ ∅ ...
1 ∅ 1 ∅

(1 ∅ ∅ ∅ . . . ,

Del cual el coeficiente de es

∅ ∅ ∅ ∅ ∅ . . . ∅ / 1 ∅ .

3.6 La función de generación de autocovarianza 67
De hecho, esto produce la autocovariancia j-ésimo, tal como se calculó anteriormente en la
ecuación [3.4.5].

La función de generación de autocovariancia para un proceso ARMA (p, q) estacionario


puede escribirse

. . . . . .
∅ ∅ . . . ∅ ∅ ∅ . . . ∅
[3.6.10]

Filtros
A veces los datos son filtrados, o tratados de una manera particular antes de ser analizados,
y nos gustaría resumir los efectos de este tratamiento en las autocovariancias. Este cálculo es
particularmente sencillo utilizando la función de generación de autocovariancia. Por ejemplo,
supongamos que los datos originales se generaron a partir de un proceso MA (1)

1 , [3.6.11]

Con función generadora de autocovariancia dada por [3.6.2]. Digamos que los datos como
realmente analizados, , representan el cambio en sobre su valor del período anterior:

1 . [3.6.12]

Sustituyendo [3.6.11] en [3.6.12], los datos observados se pueden caracterizar como el siguiente
proceso MA (2)

1 1 1 1 1 , [3.6.13]

Con ≡ 1 y ≡ . La función generadora de autocovariancia de los datos


observados se puede calcular aplicando directamente [3.6.3]:

1 1 . [3.6.14]

A menudo es instructivo, sin embargo, mantener el polinomio 1 en su forma


factorizada de la primera línea de [3.6.13],

1 1 1 ,
En cuyo caso [3.6.14] podría escribirse

1 1 1 1

1 1 . . [3.6.15]

Por supuesto, [3.6.14] y [3.6.15] representan la función idéntica de z, y la forma en que elegimos
escribirla es simplemente una cuestión de conveniencia. La aplicación del filtro (1 - L) a da como
resultado la multiplicación de su función de generación de autocovariancia por (1 - z) 1 .

Este principio fácilmente generaliza. Supongamos que la serie de datos originales satisface
[3.6.5] a [3.6.7]. Digamos que los datos se filtran según

[3.6.16]

Con

68 Capítulo 3 | Procesos Estacionarios ARMA

∞.

Sustituyendo [3.6.5] en [3.6.16], los datos observados son generados por


∗ ∗
1 ≡ ,

Donde ∗ ≡ 1 y ∗
≡ . La secuencia de coeficientes asociados con el operador

compuesto resulta ser absolutamente sumatoria, and La función de generación de
autocovariancia de puede ser calculada como
∗ ∗
. 3.6.17

Aplicando el filtro h (L) a una serie esto resulta en multiplicar su función de generación de
autocovariancia por .

3.7. Invertibilidad

Invertibilidad para el proceso MA(1)


Considere un proceso MA(1) p,

1 , [3.7.1]

Con


0
Siempre que | | 1, ambos lados de [3.7.1] se puedan multiplicar por 1 para obtener 3

Que podría ser visto como una representación AR ∞ . Si una representación de media
móvil tal como [3.7.1] puede ser reescrita como una representación AR ∞ . tal como [3.7.2]
simplemente invirtiendo el operador de media móvil 1 , entonces la representación del
promedio móvil se dice que es invertible. Para un proceso MA (1), la Invertibilidad requiere | |
1; si | | 1, entonces la secuencia infinita en [3.7.2] no estaría bien definida.

Vamos a investigar lo que significa invertibilidad en términos del primer y segundo momentos del
proceso. Recordemos que el proceso MA (1) [3.7.1] tiene una función media y generadora de
autocovariancia

1 1 . [3.7.3]

Ahora considere un proceso MA aparentemente diferente (1)

1 ̅ , [3.7.4]

                                                            
3 Nota de [2.2.8]

0  69
Con

0
Tenga en cuenta que tiene la misma media que . Su función de autocovariancia es

1 ̅ 1 ̅

̅ 1 ̅ ̅ 1 ̅ [3.7.5]

1 ̅ 1 ̅

Supongamos que los parámetros de [3.7.4], ̅, , están relacionados con los de [3.7.1] mediante
las siguientes ecuaciones:
̅ [3.7.6]
̅ [3.7.7]

Entonces las funciones generadoras de autocovariancia [3.7.3] y [3.7.5] serían las mismas, lo que
significa que y tendrían idénticos momentos primero y segundo.

Note de [3.7.6] que | | 1; entonces | | 1, En otras palabras, para cualquier


representación inversa MA (1) [3.7.4] con los mismos primeros y segundos momentos que la
representación invertible. Por el contrario, dada una representación no inversa con 1⁄ ̅ ,
existe una representación invertible con 1 que tiene los mismos momentos primero y
segundo que el no inversible.

No sólo las representaciones invertibles y no reversibles comparten los mismos momentos,


ya sea la representación [3.7.1] o [3.7.4] podría utilizarse como una descripción igualmente válida de
cualquier proceso dado MA (1)! Supongamos que una computadora generó una secuencia infinita
de ´ de acuerdo con [3.7.4] con ̅ 1. Por lo tanto, sabemos que los datos se generaron a partir
de un proceso MA (1) expresado en términos de una representación no reversible. ¿En qué sentido
podrían estos mismos datos ser asociados con una representación invertible MA (1)?

Imagínese calcular una serie definida por

⋯, [3.7.8]

Donde 1⁄ ̅ es el parámetro de la media móvil asociado a la representación inversa MA (1)


que comparte los mismos momentos que [3.7.4]. Tenga en cuenta que, dado que | | 1, esto
produce una serie convergente cuadrada media bien definida .

Además, la secuencia así generada es ruido blanco. La forma más sencilla de verificar esto es
calcular la función generadora de autocovariancia de y confirmar que el coeficiente de (la j-
ésima autocovariancia) es igual a cero para cualquier 0. De [3.7.8] y [3.6.17], la función de
generación de autocovariancia para viene dada por

1 1 . [3.79]

Sustituyendo [3.7.5] en [3.7.9],

1 1 ̅ 1 ̅ 1 ̅ [3.7.10]

70 Capítulo 3 | Procesos Estacionarios ARMA
̅ ,

Donde la última igualdad se deriva del hecho de que ̅ . Dado que la función generadora de
autocovarianza es una constante, se deduce que es un proceso de ruido blanco con
varianza ̅ .

Multiplicando ambos lados de [3.7.8] por 1 ,

Es una representación de MA (1) invertible perfectamente válida de datos que en realidad se


generaron a partir de la representación no reversible [3.7.4].

La proposición inversa es también verdadera - supongamos que los datos fueron realmente
generados a partir de [3.7.1] con | | 1, una representación invertible. Entonces existe una
representación no inversa con ̅ 1⁄ que describe estos datos con igual validez. Para caracterizar
esta representación no reversible, considere el operador propuesto en [2.5.20] como la inversa
apropiada de 1 ̅ :

1 ̅ ̅ ̅ ⋯

1 ⋯ .

Defina ̅ como la serie que resulta de aplicar este operador a ,

̅ ≡ ⋯, [3.7.11]

Observando que esta serie converge para | | 1. Otra vez esta serie es ruido blanco:

1 ⋯

1 ⋯ 1 1

El coeficiente de es cero para 0, ̅ es el ruido blanco según lo reivindicado. Además, por


construcción,

1 ̅ ̅
De modo que hemos encontrado una no reversible MA (1) representación de los datos que fueron
realmente generados por la inversible MA (1) representación [3.7.1].

O bien la representación invertible o no reversible podría caracterizar cualquier dato dado


igualmente bien, aunque hay una razón práctica para preferir la representación invertible. Para
encontrar el valor de para la fecha t asociada a la representación invertible como en [3.7.8],
necesitamos conocer los valores actuales y pasados de Y. Por contraste, para fin el valor de ̅ para la
fecha t asociada Con la representación no reversible como en [3.7.11], necesitamos usar todos los
valores futuros de Y! Si la intención es calcular el valor actual de usando datos del mundo real,
será factible trabajar con la representación invertible. Además, como se observará en los Capítulos 4
y 5, algunos algoritmos convenientes para estimar parámetros y pronósticos son válidos sólo si se
usa la representación invertible.

El valor de asociado a la representación invertible se denomina a veces innovación fundamental


para . Para el caso límite cuando| | 1 , el proceso es no reversible, pero la innovación para
tal proceso será descrita como la innovación fundamental para .

3.7 Invertibilidad 71
Invertibilidad para el proceso MA (q)
Consideremos ahora el proceso MA (q)

1 ⋯ [3.7.12]


0
Siempre que las raíces de

1 ⋯ 0 [3.7.13]

Fuera del círculo unitario, [3.7.12] se puede escribir como un ∞ simplemente invirtiendo el
operador MA,

1 ⋯ ,
Donde

1 ⋯ 1 ⋯

En este caso, la representación MA (q) [3.7.12] es invertible.

Factor el operador de media móvil como

1 ⋯ 1 1 ⋯ 1 . [3.7.14]

Si | | 1 para todos , entonces las raíces de [3.7.13] están todas fuera del círculo unitario y la
representación [3.7.12] es invertible. Si en cambio algunos de los están fuera (pero no en) el
círculo unitario, Hansen y Sargent (1981, p.102) sugirieron el siguiente procedimiento para
encontrar una representación invertible. La función de autocovariancia de puede escribirse

. 1 1 ⋯ 1 [3.7.15]

1 1 ⋯ 1

Ordene el de modo que , ,⋯, esté dentro del círculo de unidad y , ,⋯,
esté fuera del círculo de unidad. Supongamos que en [3.7.15] es reemplazado por
. . ⋯ ; Ya que el complejo aparece como pares conjugados, este es un número
real positivo. Supongamos además que , ,⋯, son reemplazados por sus inversos,
. ⋯ . La función resultante sería

. . ⋯ 1 1

1 1

1 1

72 Capítulo 3 | Procesos Estacionarios ARMA
1 1

1 1

1 1

1 1

Que es idéntica a [3.7.15].

La implicación es la siguiente. Supongamos que una representación no reversible para un proceso


MA (q) se escribe en la forma

∏ 1 ̅, [3.7.16]

Donde

| | 1 1,2, . . . ,

| | 1 1, 2, … ,


0
Entonces la representación invertible es dada por

∏ 1 ∏ 1 , [3.7.17]

Donde


0
Entonces [3.7.16] y [3.7.17] tienen la misma función de autocovariancia-generación, aunque sólo
[3.7.17] satisface la condición de invertibilidad.

De la estructura del argumento precedente, está claro que hay una serie de representaciones
alternativas de MA (q) de los datos asociadas a todos los posibles "flips" entre y . Sólo uno
de estos tiene todos los en o dentro del círculo de la unidad. Las innovaciones asociadas con
esta representación se dice que son las innovaciones fundamentales para .

3.7 Invertibilidad 73
APÉNDICE 3.A. Convergencia de Resultados para Procesos
de media móvil de orden infinito
Este apéndice demuestra las declaraciones hechas en el texto sobre la convergencia para el proceso
∞ [3.3.13].

Primero mostramos que la sumabilidad absoluta de los coeficientes de la media móvil


implica la suma cuadrada. Supongamos que 0 es absolutamente sumable. Entonces existe
un ∞ tal que 1 para todos , lo que implica para todos .
Entonces

Pero ∑ es finito, ya que N es finito, y ∑ es finito, ya que es absolutamente


sumable. Por lo tanto ∑ , estableciendo que [3.3.15] implica [3.3.14].

A continuación mostramos que la soma cuadrada no implica una summabilidad absoluta. Para un
ejemplo de una serie que es cuadrada-sumatoria pero no absolutamente sumable, considere
1⁄ para j=1,2,…. Observe que1⁄ 1⁄ para todos , lo que significa que

1⁄ 1⁄

Y así

1⁄ 1⁄ log 1 log 1 log 1 .

Que diverge a ∞ como → ∞. Por lo tanto 1 no es absolutamente sumable. Es, sin


embargo, cuadrada-sumable, ya que 1⁄ 1⁄ para todos , lo que significa

1⁄ 1⁄

Y así

1/ 1 1⁄ 1 1 2 1⁄ ,
1

Que converge a 2 como N → ∞. Por lo tanto 1 es de suma cuadrada.


A continuación mostramos que la suma cuadrada de los coeficientes de media móvil implica que la
representación ∞ en [3.3.13] genera una variable aleatoria convergente cuadrática media.
Primero recuerde lo que se entiende por convergencia de suma determinística tal como ∑
donde es sólo una secuencia de números. Un criterio para determinar si ∑ converge a
algún número finito como → ∞ es el criterio de Cauchy. El criterio de Cauchy establece
que ∑ converge si y sólo si, para cualquier 0, existe un entero N adecuadamente grande
tal que, para cualquier entero M> N,

74 Capítulo 3 | Procesos Estacionarios ARMA
.

En palabras, una vez que hemos sumado N términos, calcular la suma a un número M más grande
no cambia el total por más de un número arbitrariamente pequeño .

Para un proceso estocástico como [3.3.13], la pregunta comparable es si ∑


converge en cuadrado medio a alguna variable aleatoria como → ∞. En este caso, el criterio de
Cauchy establece que ∑ converge si y sólo si, para cualquier 0 , existe un número entero
N adecuadamente grande tal que para cualquier entero M> N

∑ ∑ [3.A.1]

En palabras una vez que se han sumado N términos, la diferencia entre esa suma y la
obtenida de la suma a M es una variable aleatoria cuya media y varianza son arbitrariamente
cercanas a cero.

Ahora, el lado izquierdo de [3.A.1] es simplemente

⋯ . [3.A.2]

Pero si ∑ converge según lo requerido por [3.3.14] entonces por el criterio de Cauchy el
lado derecho de [3.A.2] puede hacerse tan pequeño como se desee mediante la elección de un N
adecuadamente grande. Así, la serie infinita en [3.3.13] converge en cuadrado medio siempre que
[3.3.14] se cumpla.

Finalmente, se muestra que la sumabilidad absoluta de los coeficientes de media móvil


implica que el proceso es ergódico para la media. Escriba [3.3.18] como

Entonces

Una propiedad clave del operador de valor absoluto es que

| | | | | | | |
.

Por tanto

APÉNDICE 3.A. Convergencia de Resultados para Procesos de media móvil de orden infinito 75
.| | | | .

Pero existe un → ∞ tal que ∑ , y por lo tanto ∑


0,1,2, …, significando que

| |. ∞

Capítulo 3 Ejercicios
3.1 ¿Es el siguiente MA (2) proceso de covarianza-estacionario?

1 2.4 0.8
1
0
Si es así, calcule sus autocovariancias.

3.2. ¿Es el siguiente AR (2) proceso de covarianza-estacionario?

1 1.1 0.18
1

0
Si es así, calcule sus autocovariancias.

3.3 Un proceso de covarianza-estacionario AR (p)

1 ∅ ∅ ⋯∅ ,

Tiene una ∞) representación dada por

Con

1⁄ 1 ∅ ∅ ⋯∅

1 ∅ ∅ ⋯∅ ⋯ 1.

Para que esta ecuación sea verdadera, el coeficiente implícito en ° debe ser unidad y los
coeficientes en , , , … deben ser cero. Anote estas condiciones de forma explícita y muestre
que implica un algoritmo recursivo para generar los pesos ∞ , , … Muestre que esta
recursividad es algebraicamente equivalente a establecer igual al (1, 1) elemento de la matriz F
elevado a El j-ésimo poder como en la ecuación [1.2.28].

3.4. Deriva [3.4.21].

3.5. Verificar [3.4.22].

76 Capítulo 3 | Procesos Estacionarios ARMA
3.6. Sugerir un algoritmo recursivo para calcular los pesos ∞ ,

1 ⋯
Asociado a un proceso inversible MA(q),

1 ⋯ .

Dar una expresión de forma cerrada para como una función de las raíces de

1 ⋯ 0,

Suponiendo que estas raíces son todas distintas.

3.7. Repita el ejercicio 3.6 para un proceso no reversible MA (q). (SUGERENCIA: Recuerde la
ecuación [3.7.17].)

3.8. Demuestre que el proceso MA (2) en el ejercicio 3.1 no es invertible. Encuentre la


representación invertible para el proceso. Calcule las autocovariancias de la representación
invertible usando la ecuación [3.3.12] y verifique que éstas son las mismas que las obtenidas en el
ejercicio 3.1.

Capítulo 3 Referencias
Anderson, Brian D. O., y John B. Moore. 1979. Optimal Filtering. Englewood Cliffs.
N.J.: Pretince-Hall.
Hannan, E. J. 1970. Multiple Time Series. New York: Wiley
Hansen, Lars P., y Thomas J. Sargent. 1981. “Formulating and Estimating Dynamic Linear
Rational Expectations Models”. In Robert E. Lucas, Jr. and Thomas J. Sargent, eds.,
Rational Expectations and Econometric Practice, Vol I. Minneapolis: University of Minnesota
Press.

Capítulo 3 Referencias 77
4
Previsión
Este capítulo discute cómo pronosticar series temporales. La sección 4.1 revisa la teoría de la
predicción e introduce la idea de una proyección lineal, que es un pronóstico formado a partir de
una función lineal de observaciones rápidas. La sección 4.2 describe el pronóstico que se utilizaría
para los modelos ARMA si se dispone de un número infinito de observaciones pasadas. Estos
resultados son útiles en las manipulaciones teóricas y en la comprensión de las fórmulas de la
Sección 4.3 para una predicción óptima aproximada cuando sólo un número finito de
observaciones están disponibles.

La sección 4.4 describe cómo lograr una factorización triangular y la factorización de Cholesky de
una matriz de varianza-covarianza. Estos resultados se usan en esa sección para calcular el
pronóstico óptimo exacto basado en un número finito de observaciones. También se utilizarán en
el Capítulo 11 para interpretar las autorregresiones vectoriales, en el Capítulo 13 para derivar el
filtro de Kalman, y en una serie de otros cálculos teóricos y métodos numéricos que aparecen a lo
largo del texto. La factorización triangular se utiliza para derivar una fórmula para actualizar un
pronóstico en la Sección 4.5 y establecer en la Sección 4.6 que para los procesos gaussianos la
proyección lineal es mejor que cualquier pronóstico no lineal.

La sección 4.7 analiza qué tipo de proceso resulta cuando se agregan dos procesos ARMA
diferentes. La sección 4.8 indica la descomposición de Wold, que proporciona una base para usar
una representación MA () para caracterizar la regla de pronóstico lineal para cualquier proceso
covarianza-estacionario. La sección también describe un enfoque empírico popular para encontrar
una aproximación razonable a esta representación que fue desarrollada por Box y Jenkins (1976).

4.1. Principios de la Previsión

Pronóstico basado en la expectativa condicional


Supongamos que estamos interesados en predecir el valor de una variable Yt + 1 basada en un
conjunto de variables X, observadas en la fecha t. Por ejemplo, podríamos querer pronosticar Yt + 1
sobre la base de sus m valores más recientes. En este caso, X, consistiría en una constante más Yt,
Yt-1,..., y Yt-m + 1.

Sea Y*t+1|t una predicción de Yt + 1 basada en Xt. Para evaluar la utilidad de esta previsión,
necesitamos especificar una función de pérdida, o un resumen de cómo estamos preocupados si
nuestro pronóstico está desactivado por una cantidad determinada. Se obtienen resultados muy
convenientes si se asume una función de pérdida cuadrática. Una función de pérdida cuadrática
significa elegir el pronóstico Y*t+1|t para minimizar.

E (Yt + 1 - Y*t+1|t)2 [4.1.1.]

La expresión [4.1.1.] Se conoce como el error cuadrático medio asociado con el pronóstico Y*t+1|t
denotado.

MSE (Y*t+1|t) ≡ E (Yt + 1 - Y*t+1|t)2

78 Capítulo 4 | Previsión
El pronóstico con el error cuadrático medio más pequeño resulta ser la expectativa de Yt + 1
condicional en Xt;

Y*t+1|t=E(Yt+1|Xt) [4.1.2.]

Para verificar esta afirmación, considere basar Y*t+1|t en cualquier función g (Xt) que no sea la
expectativa condicional.

Y*t+1|t=g(Xt) [4.1.3.]

Para esta regla de previsión de los candidatos, la MSE sería

E [Yt + 1 – g (Xt)]2 = E [Yt + 1 – E (Yt + 1|Xt) + E (Yt + 1|Xt) - g (Xt)]2

= E [Yt + 1 - E (Yt + 1|Xt)]2 [4.1.4]

+ 2E {[Yt + 1 - E (Yt + 1|Xt)] E (Yt + 1|Xt) - g (Xt)]}

+ E {[E (Yt + 1|Xt) - g (Xt)]2}

Escriba el término medio en el lado derecho de [4.1.4.] Como

2E [nt+1] [4.1.5.]

Donde

nt+1 ≡ {[ Yt + 1 - E (Yt + 1|Xt)][ E (Yt + 1|Xt) - g (Xt)]}

Considere primero la expectativa de nt+1 condicional a Xt. Condicionados a Xt, los términos E (Yt +
1|Xt) y g (Xt) son constantes conocidas y pueden ser factorizados de esta expectativa:1

E [nt+1| Xt] = [E (Yt + 1|Xt) - g (Xt)] X E ([Yt + 1 - E (Yt + 1|Xt)]| Xt)

= [E (Yt + 1|Xt) - g (Xt)] X 0

=0

Por una aplicación directa de la ley de expectativas repetidas, la ecuación [A.5.10], se sigue que

E [nt+1] = EXt (E [nt+1| Xt]) = 0

Sustituyendo esto en [4.1.4.] Da

E [Yt + 1 – g (Xt)]2 = E [Yt + 1 - E (Yt + 1|Xt)]2 + E ([E (Yt + 1|Xt) - g (Xt)]2) [4.1.6.]

El segundo término del lado derecho de [4.1.6.] No puede ser menor que cero, y el primer término
no depende de g (Xt). La función g (Xt) que hace que el error cuadrático medio [4.1.6.] Sea lo más
pequeño posible es la función que establece el segundo término en [4.1.6.] A cero:

E (Yt + 1|Xt) = g (Xt) [4.1.7.]

Por lo que el pronóstico g (Xt) que minimiza el error cuadrático medio es la expectativa condicional
E (Yt + 1|Xt), tal como se reivindica.

                                                            
  La expectativa de predicción E (Yt + 1|Xt) representa el momento de la población condicional de
11

la variable aleatoria Yt + 1 y no es una función de la variable aleatoria Yt + 1 en sí misma. Por ejemplo,


si Yt + 1|Xt ~ N (α´ Xt, Ω) entonces, que no depende de Yt + 1.

4.1  Principios de la Previsión      79 
El MSE de esta previsión óptima es

E [Yt + 1 – g (Xt)]2 = E [Yt + 1 - E (Yt + 1|Xt)]2 [4.1.8.]

Pronóstico basado en la proyección lineal


Ahora restringimos la clase de pronóstico considerada al requerir que el pronóstico Y*t + 1|r sea una
función lineal de Xt:

Y*t + 1|r = α´ Xt [4.1.9.]

Supongamos que deberíamos encontrar un valor para α tal que el error de pronóstico (Yt + 1|r - α´
Xt) no esté correlacionado con Xt

E [(Yt + 1|r - α´ Xt) Xt´] = 0 [4.1.10]

Si [4.1.10] se mantiene, entonces el pronóstico α´ X, se denomina proyección lineal de Yt + 1 en Xt

La proyección lineal resulta producir el error cuadrático medio más pequeño entre la clase de reglas
de pronóstico lineal. La prueba de esta afirmación es paralela a la demostración de la óptima de la
expectativa condicional entre el conjunto de todas las previsiones posibles. Sea g´X, cualquier regla
de predicción lineal arbitraria. Tenga en cuenta que su MSE es

E [Yt + 1 – g´ (Xt)]2

= E [Yt + 1 - α´ Xt + α´ Xt – g´ Xt]2

= E [Yt + 1 - α´ Xt]2 + 2E {[Yt + 1 - α´ Xt] [α´ Xt - g´ Xt]} [4.1.11]

+ E [α´ Xt - g´ Xt]2

Como en el caso de [4.1.4], el término medio en el lado derecho de [4.1.11] es cero:

E ([Yt + 1 - α´ Xt] [α´ Xt - g´ Xt]) = (E [Yt + 1 - α´ Xt] X´t) [α – g] = 0 [α – g]

En virtud de [4.1.10]. Esto [4.1.11] simplifica a

E [Yt + 1 – g (Xt)]2 = E [Yt + 1 - α´ Xt]2 + E [α´ Xt – g´ Xt]2 [4.1.12]

El pronóstico lineal óptimo g´X, es el valor que establece el segundo término en [4.1.12] igual a
cero:

g´ Xt = α´ Xt

Donde α´ Xt, satisface [4.1.10]

Para α´ Xt, satisfaciendo [4.1.10], usaremos la notación

(Yt + 1|Xt) = α´ Xt

O a veces simplemente

Ŷ Yt + 1|r = α´ Xt

Para indicar la proyección lineal de Yt + 1 sobre Xt. Obsérvese que

MSE [ (Yt + 1|Xt)] ≥ MSE [E (Yt + 1|Xt),

80 Capítulo 4 | Previsión
Ya que la expectativa condicional ofrece la mejor previsión posible.

Para la mayoría de las aplicaciones se incluirá un término constante en la proyección. Utilizaremos


el símbolo Ê para indicar una proyección lineal sobre un vector de variables aleatorias Xt, junto con
un término constante:

Ê (Yt + 1|Xt) ≡ (Yt + 1|1, Xt)

Propiedades de la proyección lineal


Es fácil utilizar [4.1.10] para calcular el coeficiente de proyección α en función de los momentos de
Yt + 1 y Xt:
E (Yt+1X´t) = α´E (XtX´t)

α´=E(Yt+1X´t)[E(XtX´t)]-1 [4.1.13.]

Suponiendo que E (XtX´t) es una matriz no singular. Cuando E (XtX´t) es singular, el vector de
coeficientes α no está determinado exclusivamente por [4.1.10], aunque el producto de este vector
con las variables explicativas, α´ Xt, está determinado de forma única por [4.1.10]2

El MSE asociado con una proyección lineal está dado por

E(Yt+1-α´Xt)2=E(Yt+1)2–2E(α´XtYt+1)+E(α´XtX´tα) [4.1.14]

La sustitución de [4.1.13] en [4.1.14] produce

E (Yt + 1 - α´ Xt)2 = E (Yt + 1)2 – 2E (Yt + 1X´t) [E (XtX´t)]-1E (Xt Yt + 1)

+E(Yt+1X´t)[E(XtX´t)]-1 [4.1.15.]

E (XtX´t) [E (XtX´t)]-1 E (Xt Yt + 1)

= E (Yt + 1)2 – E (Yt + 1X´t) [E (XtX´t)]-1 E (Xt Yt + 1)

Obsérvese que si X, incluye un término constante, entonces la proyección de (a Yt + 1 + b) sobre Xt


(donde a y b son constantes deterministas) es igual a

[(a Yt + 1 + b)| Xt] = a (Yt + 1| Xt) + b

Para ver esto, observe que a (Yt + 1| Xt) + b es una función lineal de Xt. Además, el error de
pronóstico,

[a Yt + 1 + b] – [a (Yt + 1| Xt) + b] = a [Yt + 1 - (Yt + 1| Xt)]

                                                            
2
 Si E (XtX´t) es singular, existe un vector no nulo e tal que e´. E (XtX´t).e = E (e´Xt)2 = 0, de modo
que alguna combinación lineal E, es igual a cero para todas las realizaciones.
Por ejemplo, si Xt consiste en dos variables aleatorias, la segunda variable debe ser una versión
escalonada de la primera: X2t = cX1t. Podría simplemente eliminar las variables redundantes de
dicho sistema y calcular la proyección lineal de Yt+1 en X*t, donde X*t, Es un vector que consiste en
los elementos no redundantes de Xt. Esta proyección lineal *´X*t se puede calcular de forma única
a partir de [4.1.13] con X, en [4.1.13.] Reemplazada por X*t. Cualquier combinación lineal de las
variables originales ´X, [4.1.10] representa esta misma variable aleatoria; Que es ´Xt = *´X*t,
para todos los valores de  consistentes con [4.1.10]

4.1  Principios de la Previsión      81 
No está correlacionada con Xt, como se requiere de una proyección lineal

Proyección lineal y regresión de mínimos cuadrados ordinarios


La proyección lineal está estrechamente relacionada con la regresión de mínimos cuadrados
ordinarios. Esta subsección discute la relación entre los dos conceptos.

Un modelo de regresión lineal relaciona una observación sobre yt-1 con xt:

yt-1 = ´xt + ut [4.1.16.]


Dada una muestra de las observaciones T en y & x, la suma muestral de los residuos cuadrados se define
como

´

[4.1.17.]

El valor de  que minimiza [4.1.17], denota b, es la estimación de mínimos cuadrados ordinarios (MCO)
de. La fórmula de b resulta ser.

[4.1.18.]

Que equivalentemente se puede escribir

1 1
´

[4.1.19.]

Al comparar la estimación del coeficiente MCO b en la ecuación [4.1.19] con el coeficiente de


proyección lineal  en la ecuación [4.1.13.], Vemos que b se construye a partir de los momentos de
la muestra (1/T)XtX’t y (1/T)xtyt+1 mientras que  se construye a partir de los momentos de la
población E (XtX´t) y E (XtYt+1). Así, la regresión MCO es un resumen de las observaciones de las
muestras particulares (x1, x2,… xT) y (y1, y2,… yt), mientras que la proyección lineal es un resumen
de las características de la población del proceso estocástico {Xt, Yt+1} = -

Aunque la proyección lineal describe momentos de la población y los mínimos cuadrados


ordinarios describen momentos de muestreo, existe un sentido matemático formal en el que las dos
operaciones son las mismas. El Apéndice 4.A de este capítulo discute este paralelo y muestra cómo
las fórmulas para una regresión MCO pueden verse como un caso especial de las fórmulas para una
proyección lineal.

Obsérvese que si el proceso estocástico {Xt, Yt+1} es covarianza estacionaria y ergocida para los
segundos instantes, entonces los momentos muestrales convergerán a los momentos de la
población a medida que el tamaño de la muestra T pase al infinito:

1
´ → ´

82 Capítulo 4 | Previsión
1

Implicando eso

→
[4.1.20.]

Así, la regresión MCO de Y sobre X, produce un coeficiente de proyección lineal coherente.


Obsérvese que este resultado sólo requiere que el proceso sea ergódico durante segundos
momentos. Por el contrario, el análisis econométrico estructural requiere suposiciones mucho más
fuertes sobre la relación entre X e Y. La diferencia surge porque el análisis estructural busca el
efecto de X sobre Y. En el análisis estructural, los cambios en X están asociados con un evento
estructural particular como un cambio En la política de la Reserva Federal, y el objetivo es evaluar
las consecuencias para Y. Dado que es el objetivo, si es muy importante considerar la naturaleza de
la correlación entre X e Y antes de confiar en las estimaciones de MCO. En el caso de la proyección
lineal, sin embargo, la única preocupación es la predicción, para lo cual no importa si es X el que
causa Y o Y que causa X. Sus connotaciones históricas observadas (resumidas por E) son todo lo
que se necesita para Calcular un pronóstico. El resultado [4.1.20] muestra que la regresión por
mínimos cuadrados ordinarios proporciona una base sólida para la predicción bajo suposiciones
muy suaves.

No obstante, debe observarse una posible violación de estos supuestos.

El resultado [4.1.20] se obtuvo suponiendo un proceso ergonómico estacionario y de covarianza.

Sin embargo, los momentos de los datos pueden haber cambiado en el tiempo de formas
fundamentales, o el futuro ambiente puede ser diferente a la que en el pasado.

Cuando este es el caso, los mínimos cuadrados ordinarios pueden ser indeseables, y mejores
pronósticos pueden surgir de un análisis estructural cuidadoso.

Vectores de pronóstico
Los resultados anteriores pueden ser extensores para predecir un vector (nx1) Yt + 1 sobre la base de una
función lineal de un vector (m x 1) Xt:

(Yt + 1| Xt) = α´Xt ≡ Ŷt+1|r [4.1.21.]

Entonces α´ denotaría una matriz (n x m) de coeficientes de proyección que satisface

E [(Yt+1 - α´Xt) X´t] = 0 [4.1.22]

Es decir, cada uno de los n elementos de (Yt+1 - Ŷt+1|r) en no correlacionados con cada uno de los
m elementos de Xt. Por consiguiente, el j-ésimo elemento del vector Ŷt+1|r, da la predicción mínima
MSE del escalar Yj, t+1. Además, predecir cualquier combinación lineal de los elementos De Yt+1,
zt+1 = h´ Yt+1 el pronóstico mínimo de MSE de zt+1 requieres (zt+1 - žt+1|r) no está correlacionado
con Xt, claramente h´ (Yt+1 - Ŷt+1|r) también está des correlacionado con Xt. Así, cuando Ŷt+1|r
satisface [4.1.22], entonces h´ Yt+1|r, es el pronóstico mínimo de MSE de h´ Yt+1 para Cualquier
valor de h.

Forma [4.1.22], la matriz de coeficientes de proyección está dada por

α´ = [E (Yt+1X´t)] [E (XtX´t)]-1 [4.1.23]

La generalización matricial de la fórmula para el error cuadrático medio [4.1.15] es

4.1  Principios de la Previsión      83 
MSE (α´Xt) ≡ E {[Yt+1 - α´Xt] [Yt+1 - α´Xt]´}

= E (Yt+1 Y´t+1) – [E (Yt+1 X´t)] [E (X´tXt)]-1 [E (Xt Y´t+1)] [4.1.24]

4.2. Pronóstico basado en un número infinito de


observaciones

Predicción basada en retrasos ε´s


Considerar un proceso con una representación MA ()

(Yt – μ) = ψ (L) εt [4.2.1]

Con εt, ruido blanco y

ψ L ψ

ψ 1

∑ |ψ| ∞ [4.2.2]

Supongamos que tenemos un número infinito de observaciones sobre ε a través de la fecha t, {εt, εt-
1, εt-2…}, y conocemos además los valores de μ ya {ψ1, ψ 2…}. Digamos que queremos pronosticar
el valor de Yt+s, y es decir, el valor que Y tomará en s periodos a partir de ahora. Tenga en cuenta
que [4.2.1] implica.

Yt+1 = μ + εt+s + ψ1εt+s-1 + … + ψs-1εt+1 +ψsεt + ψs+1εt-1 + … [4.2.3]

El pronóstico lineal óptimo toma la forma

Ê [Yt+s| εt, εt-1, …] = μ + ψsεt + ψs+1εt-1 + ψs+2εt-2 + … [4.2.4]

Es decir, el futuro desconocido ε´s se establece en su valor esperado de cero. El error asociado con
esta previsión es

Yt+1 - Ê [Yt+s| εt, εt-1,…] = εt+s + ψ1εt+s-1 +… + ψs-1εt+1 [4.2.5]

Para que [4.2.4] sea el pronóstico lineal óptimo, la condición [4.1.10] requiere que el error de
previsión tenga una media de cero y no se correlacione con E. Se confirma fácilmente que el error
de [4.2.5] Estas propiedades, por lo que [4.2.4] debe ser la proyección lineal, como se afirma. El
error cuadrático medio asociado con esta previsión es

E (Yt+1 - Ê [Yt+s| εt, εt-1,…])2 = (1 + ψ21 + ψ22 +… + ψ2S-1) σ2 [4.2.6]

Por ejemplo, para un proceso MA (q)

ψ (L) = 1 + θ1L + θ2L2 + … + θqLq

El pronóstico lineal óptimo es

Ê [Yt+s| εt, εt-1,…] [4.2.7]

84 Capítulo 4 | Previsión
⋯ 1,2, …
1, 2, …

El MSE es

σ para s 1
1 θ θ ⋯ θ σ para s 2,3, … q
1 θ θ ⋯ θ σ para s q 1, q 2

El MSE aumenta con el horizonte de previsión s hasta s = q. Si tratamos de pronosticar un MA (q)


más allá de q períodos en el futuro, el pronóstico es simplemente la media incondicional de la serie
(E (Yt) = u) y el MSE es la varianza incondicional de la serie (Var (Yt) = (1 + θ21 + θ22+…+ θ2q) σ2).

Estas propiedades también caracterizan el caso de MA () como el horizonte de previsión s va al


infinito. Es fácil establecer a partir de [4.2.2] que como s  , la predicción en [4.2.4] converge en
cuadrado medio a μ, la media incondicional. El MSE [4.2.6] también converge a σ2j=0ψ2j, que es la
varianza incondicional del proceso MA () [4.2.1]

Una expresión compacta del operador del lag para la predicción en [4.2.4] adentro usado a veces.
Considere tomar el polinomio ψ (L) y dividir por Ls:

⋯ ⋯

El operador de aniquilación3 (indicado por [•]+), sustituye las potencias negativas de L por cero; por
ejemplo,

⋯ [4.2.8]

Comparando [4.2.8] con [4.2.4], el pronóstico óptimo podría escribirse en la notación de operador
de lag como

Ê | , ,…

O utilizando [4.2.11]

Ê | , … [4.2.16]

La ecuación [4.2.16] se conoce como la fórmula de predicción de Wiener-Kolmogorov. Siguen


varios ejemplos de uso de esta regla de pronóstico.

Previsión de un proceso AR (1)


Para el proceso de covarianza-estacionario AR (1) [4.2.14], tenemos

1 ⋯ [4.2.17]

                                                            
3 3
  La discusión de la predicción basada en el operador de aniquilación es similar a la de Sargent
(1987)

4.2  Pronóstico basado en un número infinito de observaciones      85 
Y

⋯ / 1 [4.2.18]

Si se sustituye [4.2.18] por [4.2.16], se obtiene el pronóstico lineal óptimo para un proceso AR (1)
estacionario:

Ê | , ,… 1
1

[4.2.19]

El pronóstico se desintegra geométricamente de (Yt – μ) hacia μ a medida que aumenta el horizonte


de previsión s. A partir de [4.2.17], el peso medio móvil ψj, está dado por ϕj, por lo que a partir de
[4.2.6], el error de pronóstico promedio cuadrado s-período por delante es

1 ⋯

Observe que esto crece con s y asintóticamente se aproxima a σ2/ (1 – ϕ2), la varianza incondicional
de Y.

Pronosticar un proceso AR (p)


A continuación, considere la previsión del proceso estacionario AR (p) [4.2.12]. La fórmula de
Wiener-Kolmogorov en [4.2.16] expresa esencialmente el valor de (Yt – μ) en términos de valores
iniciales {(Yt – μ), (Yt-1 – μ),…} y valores subsiguientes de {εt+1, εt+2,… εt+s} y luego deja caer los
términos que implican futuros “ε”. Una expresión de esta forma fue proporcionada por la ecuación
[1.2.26], que describió el valor de la variable sujeto a una ecuación differente de orden p en
términos de condiciones iniciales y choques posteriores:


[4.2.20]

Donde

[4.2.21]

Recordemos que f (j) 11 representa el elemento (1,1) de Fj, f (j) 12 representa el elemento (1,2) de Fj, y
así sucesivamente, donde F es la matriz siguiente (p x p):


1 0 0 … 0 0
0 1 0 … 0 0
⋮ ⋮ ⋮ … ⋮ ⋮
0 0 0 … 1 0
El pronóstico óptimo para el s-período futuro es este

Ŷ | ⋯ [4.2.22]

86 Capítulo 4 | Previsión
Obsérvese que para cualquier horizonte de pronóstico s la predicción óptima es una constante más
una función lineal de {Yt, Yt-1,… Yt-p+1}. El error de pronóstico asociado es

Ŷ | ⋯ [4.2.23]

La forma más fácil de calcular la predicción en [4.2.22] es a través de una recursión simple. Esta
recursión se puede deducir independientemente de un principio conocido como la ley de
proyecciones iteradas, que se demostrará formalmente en la Sección 4.5. Supongamos que a la fecha
t queríamos hacer un pronóstico de Yt+1. El pronóstico óptimo es claramente

Ŷ | ⋯ [4.2.24]

Considere la siguiente previsión de dos periodos por delante. Supongamos que en la fecha t + 1
deberíamos hacer una previsión de Yt+2. Si reemplazamos t con t + 1 en [4.2.24] se obtiene la
predicción óptima como

Ŷ | ⋯ [4.2.25]

La ley de proyecciones iteradas afirman que si esta fecha t + 1 pronostica de Yt+2 se proyecta en la
fecha t información, los resultados son la fecha t pronostica de Yt+2. A la fecha t se conocen los
valores Yt, Yt-1,…Yt-p+2 en [4.2.25]. Así,

Ŷ | Ŷ | ⋯ [4.2.26]

Sustituyendo [4.2.24] en [4.2.26] entonces produce el pronóstico de dos periodos por delante para
el proceso AR (p):

Ŷ | ⋯


´

La previsión de un s-proceso de AR (p) de tiempo por delante se puede obtener iterando

Ŷ | Ŷ | Ŷ | ⋯ Ŷ | [4.2.27]

Para j = 1,2,…s donde

Ŷ | Para r ≤ t

Previsión de un proceso MA (1)


A continuación, considere una representación inversa de MA (1),

1 [4.2.28]

Con |θ|<1. Reemplazando ψ (L) en la fórmla Wiener-Kolmogorov [4.2.16] con (1+θL) obtenemos

Ŷ | [4.2.29]

Para prever un proceso MA (1) un período en el futuro (s = 1)

4.2  Pronóstico basado en un número infinito de observaciones      87 
Y así

Ŷ | [4.2.30]

Es a veces útil escribir [4.2.28] como

1

1
Y ver εt, como el resultado de una recursión infinita,

ἕ ἕ [4.2.31]

El pronóstico de un período futuro [4.2.30] podría entonces ser escrito como

Ŷ | ἕ [4.2.32]

La ecuación [4.2.31] es, de hecho, una caracterización exacta de εt, deducida del simple
reordenamiento de [4.2.28]. La notación de "sombrero" (ἕt) se introduce en este punto en
anticipación de las aproximaciones a εt, que será introducido en la siguiente sección y sustituido en
[4.2.31] y [4.2.32]

Para predecir un proceso MA (1) para s = 2,3,... períodos en el futuro,

0 Para s = 2,3,…

Y así, de [4.2.29]

Ŷ | Para s = 2,3,…
[4.2.33]

Previsión de un proceso MA (q)


Para un proceso de MA (q) invertible,

1 ⋯

El pronóstico [4.2.16] se convierte en


Ŷ | [4.2.34]

Ahora

1 ⋯

, ,…

0 1, 2, …

88 Capítulo 4 | Previsión
Así, para horizontes de s = 1,2,... q, la previsión viene dada por

Ŷ | ⋯ ἕ [4.2.35]

Donde ἕt, se puede caracterizar por la recursividad

ἕ ἕ ἕ ⋯ ἕ [4.2.36]

Una predicción más allá de los períodos q en el futuro es simplemente la media incondicional μ.

Previsión de un proceso ARMA (1,1)


Para un proceso ARMA (1,1) 1 1

Que es estacionario (|ϕ|<1) e invertible (|θ|<1)

1 1
Ŷ |
1 1
[4.2.37]

Aquí

1
1

1 ⋯ 1 ⋯

⋯ ⋯
[4.2.38]

1 ⋯

Reemplazando [4.2.38] en [4.2.37] tenemos

1
Ŷ |
1 1


1
[4.2.39]

Tenga en cuenta que para s = 2,3, ... la previsión [4.2.39] obedece a la recursión

Ŷ | Ŷ |

Por lo tanto, más allá de un período, el pronóstico se desintegra geométricamente a la tasa φ hacia la
media incondicional μ. El pronóstico de un período futuro (s = 1) está dado por

4.2  Pronóstico basado en un número infinito de observaciones      89 
Ŷ | [4.2.40]

Esto se puede escribir de forma equivalente

Ŷ | ἕ [4.2.41]

Donde

1

1

ἕ ἕ Ŷ | [4.2.42]

Previsión de un proceso ARMA (p, q)


Finalmente, considere la posibilidad de pronosticar un proceso ARMA (p, q) estacionario e
invertible:

1 ⋯ 1 ⋯

Las generalizaciones naturales de [4.2.41] y [4.2.42] están

Ŷ | ⋯ ⋯ ἕ ἕ ⋯
ἕ [4.2.43]

Con {ἕt} generado recursivamente desde

ἕ Ŷ | [4.2.44]

Las s-previsiones serán [4.2.45]

Ŷ | Ŷ | ⋯ Ŷ |
ἕ ἕ ⋯ ἕ 1,2, …
Ŷ | Ŷ | ⋯ Ŷ | 1, 2, …

Donde

Ŷ |

Así, para un horizonte de previsión s mayor que el orden medio móvil q, los pronósticos siguen una
ecuación de diferenciación de orden P gobernada únicamente por los parámetros autorregresivos.

4.3. Pronósticos basados en un número finito de


observaciones

90 Capítulo 4 | Previsión
Las fórmulas de la sección anterior supusieron que teníamos un número infinito de observaciones
pasadas sobre Y, {Yt, Yt-1,…}, y conocíamos con certeza parámetros poblacionales tales como, μ, ϕ
y θ. Esta sección continúa asumiendo que los parámetros de población se conocen con certeza,
Pero desarrolla pronóstico basado en un número finito de observaciones {Yt, Yt-1,…Yt-m+1}

Para pronosticar un proceso de AR (p), un pronóstico lineal de s-período óptimo basado en un


número infinito de observaciones {Yt, Yt-1,…} de hecho hace uso de sólo los p valores más
recientes {Yt, Yt-1,…Yt-p+1}. Para un proceso MA o ARMA, sin embargo, en principio
requeriríamos todos los valores históricos de Y para implementar las fórmulas de la sección
precedente.

Aproximaciones al pronóstico óptimo


Una aproximación a la predicción basada en un número finito de observaciones es actuar como si la
pre demostración ε fuera igual a cero. La idea es usar la aproximación

Ê | , ,… ≡ Ê Ŷ | , ,… , 0, ,… [4.3.1]

Por ejemplo, considere la posibilidad de pronosticar un proceso MA (q). La recursión [4.2.36] se


puede iniciar configurando

ἕ ἕ ⋯ ἕ 0 [4.3.2]

Y luego iterar en [4.2.36] para generar E. Allí los cálculos producen ἕt-m+1, ἕt-m+2,…ἕt


ἕ ἕ
ἕ ἕ ἕ

Y así. El resultante para (ἕt, ἕt-1,…, ἕt-q+s) se sustituye entonces directamente en [4.2.35] para
producir el pronóstico [4.3.1]. Por ejemplo. Para s = q = 1, la previsión sería

Ŷ | ⋯ 1

[4.3.3]

Que se va a utilizar como una aproximación a la AR () pronóstico.

[4.3.4]

Para m grande y |θ| Pequeño, esto da claramente una aproximación excelente. Para |θ| Más cerca
de la unidad, la aproximación puede ser más pobre. Tenga en cuenta que si el operador de media
móvil no es invertible, el pronóstico [4.3.1] es inapropiado y no debe utilizarse.

Pronóstico exacto de la muestra finita

Un enfoque alternativo es calcular la proyección exacta de Yt + 1 sobre estos m valores más


recientes. Dejar

4.3  Pronósticos basados en un número finito de observaciones      91 
1

Por lo tanto, buscamos un pronóstico lineal de la forma

 ´
   ⋯ 

[4.3.5]

El coeficiente que relaciona Yt + 1 a Yt en una proyección de Yt + 1 sobre los m valores más recientes
de Y se denomina (m)1 en [4.3.5]. Esto será en general diferente del coeficiente que relaciona Yt + 1
a Yt, en una proyección de Yt + 1 sobre los m + 1 valores más recientes de Y; El último coeficiente
se denotaría (m+1)1

Si Y, es covarianza-estacionaria, entonces E (YtYt-j) = j + μ2. Estableciendo Xt = (1, Yt, Yt-1,…..Yt-


m+1) en [4.1.13] implica

 ´
≡    … 
[4.3.6]

1 ⋯
  ⋯ 
  …    ⋯ 
⋮ ⋮ ⋮ ⋯ ⋮
  ⋯ 

Cuando se incluye un término constante en Xt, es más conveniente expresar variables en


desviaciones de la media. Entonces podríamos calcular la proyección de (Yt+1 – μ) en Xt = [(Yt
– μ), (Yt-1 – μ),……, (Yt+m+1 – μ)] ´:

Ŷ |   ⋯ 
[4.3.7]

Para esta definición de X, los coeficientes pueden calcularse directamente a partir de [4.1.13] para
   ⋯  
  ⋯  
ser  ⋮ ⋮ ⋯ ⋮ ⋮ [4.3.8]

  ⋯  

En la Sección 4.5 demostraremos que los coeficientes ((m)1, (m)2,… (m)m) en las ecuaciones [4.3.8] y
[4.3.6] son idénticos. Esto es análogo a un resultado familiar para los coeficientes de regresión-
pendiente de los mínimos cuadrados ordinarios que no cambiarían si todas las variables se expresan
en desviaciones de sus medias de la muestra y el término constante es eliminado de la regresión

Para generar un pronóstico de tiempo s por delante deberíamos usar

, , ,
Ŷ |   ⋯ 

Donde

92 Capítulo 4 | Previsión
,
   ⋯  
,   ⋯  
 [4.3.9]
⋮ ⋮ ⋮ ⋯ ⋮ ⋮
,   ⋯  

El uso de expresiones como [4.3.8] requiere invertir una matriz (m x m).

Varios algoritmos pueden ser utilizados para evaluar [4.3.8] utilizando cálculos relativamente
simples. Un enfoque se basa en el filtro de Kalman discutido en el capítulo 13, que puede generar
predicciones exactas de muestras finitas para una amplia clase de procesos incluyendo cualquier
especificación ARMA. Un segundo enfoque se basa en factorización triangular de la matriz en
[4.3.8]. Este segundo enfoque se desarrolla en las dos secciones siguientes. Este enfoque resultará
útil para la cuestión inmediata del cálculo del pronóstico de las muestras finitas y también es un
dispositivo útil para establecer una serie de resultados posteriores.

4.4. La factorización triangular de una matriz simétrica


definida positiva
Cualquier matriz  positiva definida simétrica (n x n) tiene una representación única de la forma

 = ADA´ [4.4.1]

Donde A es una matriz triangular inferior con 1 a lo largo de la diagonal principal

1 0 0 ⋯ 0
1 0 ⋯ 0
1 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
⋯ 1

Y D es una matriz diagonal,

0 0 ⋯ 0
0 0 ⋯ 0
0 0 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
0 0 0 ⋯

Donde dii > 0 para todo i. Esto es conocido como la factorización triangular 

Para ver cómo se puede calcular la factorización triangular, considere

   ⋯ 
   ⋯ 
    ⋯  [4.4.2]
⋮ ⋮ ⋮ ⋯ ⋮
   ⋯ 

Suponemos que  es positivo definido, lo que significa que x´x > 0 para cualquier no nulo (n x 1)
vector x. También suponemos que  es simétrica, de modo que ij = ji.

4.4. La Factorización triangular de una matriz simétrica definida positiva        93 
La matriz  se puede transformar en una matriz con cero en la posición (2, 1) multiplicando la
primera fila de  por 2111-1 y restando la fila resultante de la segunda. Se puede poner un cero en
la posición (3,1) multiplicando la primera fila por 3111-1 y substrayendo la fila resultante de la
tercera. Procedemos en este cuadro en la primera columna.. Este conjunto de operaciones puede
resumirse como pre multiplicación  por la siguiente matriz:

1 0 0 ⋯ 0
  1 0 ⋯ 0
   1 ⋯ 0 [4.4.3]
⋮ ⋮ ⋮ ⋯ ⋮
  0 0 ⋯ 1

Esta matriz siempre existe, provee que 11  0. Esto se asegura en el caso presente, porque 11 es
igual a e´1e1, donde e´1 = [1 0 0… 0]. Como  es positivo definido, e´1e1, debe ser mayor que
cero.

Cuando  es pre multiplicado por E1 y post multiplicado por E´1 el resultado es

´ [4.4.4]

Donde

0 0 ⋯ 0
0 ⋯
0 ⋯ [4.4.5]
⋮ ⋮ ⋮ ⋯ ⋮
0 ⋯

 0 0 ⋯ 0
0         ⋯    
0         ⋯    
⋮ ⋮ ⋮ ⋯ ⋮
0         ⋯    

A continuación procedemos exactamente de la misma manera con la segunda columna de H. El


enfoque ahora será multiplicar la segunda hilera de H por h32h22-1 y restar el resultado de la tercera
fila. Similarmente multiplicamos la segunda fila de H por h42h22-1 y restamos el resultado de la
cuarta fila, y así sucesivamente a través de la segunda columna de H. Las operaciones pueden ser
representadas como pre multiplicando H por la siguiente matriz:

1 0 0 ⋯ 0
0 1 1 ⋯ 1
0 1 ⋯ 1
⋮ ⋮ ⋮ ⋯ ⋮
0 1 ⋯ 1
[4.4.6]

Esta matriz siempre existe siempre que h22  0. Pero h22 puede calcularse como h22 = e´2He2, donde
e´2 = [0 1 0…0]. Además. H = E1E´1, donde  es positivo definido y E1 dado por [4.4.3].
Puesto que E1 es triangular inferior, su determinante es el producto de términos a lo largo de la
diagonal principal, que son toda la unidad. Así, E1 es no singular, lo que significa que H = E1E´1
es positivo definido y así h22 = e´2He2 debe ser estrictamente positivo. Por lo tanto, la matriz en
[4.4.6] siempre se puede calcular.

94 Capítulo 4 | Previsión
Si H es pre multiplicado por la matriz en [4.4.6] y post multiplicado por la transposición, el
resultado es

Donde

0 0 ⋯ 0
0 0 ⋯ 0
0 0 ⋯
⋮ ⋮ ⋮ ⋯ ⋮
0 0 ⋯

De nuevo, dado que H es positivo definido y dado que E2 es no singular, K es positivo definido y
en particular k33 es positivo. Procediendo a través de cada una de las columnas con el mismo
enfoque, vemos que para cualquier matriz  simétrica definida positiva existen matrices E1,
E2,…En-1 tales que

´ ´ ´
…  … [4.4.7]

Donde

 0 0 ⋯ 0
0     0 ⋯ 0
0 0 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
0 0 0 ⋯ . . .

Con todas las entradas diagonales de D estrictamente positivas. Las matrices E1 y E2 en [4.4.7] están
dadas por [4.4.3] y [4.4.6]. En general, Ej es una matriz con valores distintos de cero en la j-ésimo
columna por debajo de la diagonal principal, 1 a lo largo de la diagonal principal, y ceros por todas
partes.

Así, cada Ej es triangular inferior con determinante unitario. Por tanto existe Ej-1, y existe la
siguiente matriz:

⋯ … [4.4.8]

Si [4.4.7] es pre multiplicado por A y post multiplicado por A´, el resultado es:

 = ADA´ [4.4.9]

Recordemos que el E1 representa la operación de multiplicar la primera fila de  por ciertos


números y restar los resultados de cada una de las filas subsiguientes. Su inversa E1-1 deshace esta
operación, lo que se lograría multiplicando la primera fila por estos números de nombre y
añadiendo los resultados a las filas subsiguientes.

Así

4.4  La factorización triangular de una matriz simétrica definida positiva      95 
1 0 0 ⋯ 0
  1 0 ⋯ 0
  0 1 ⋯ 0 [4.4.10]
⋮ ⋮ ⋮ ⋯ ⋮
  0 0 ⋯ 1

Como puede comprobarse directamente multiplicando [4.4.3] por [4.4.10] para obtener la matriz de
identidad. Similar.

1 0 0 ⋯ 0
0 1 0 ⋯ 0
0 1 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
0 0 ⋯ 1

Y así. Debido a esta estructura especial, la serie de multiplicaciones en [4.4.8] resulta ser trivial para
llevar a cabo:

1 0 0 ⋯ 0
  1 0 ⋯ 0
  0 1 ⋯ 0 [4.4.11]
⋮ ⋮ ⋮ ⋯ ⋮
  ⋯ 1

Es decir, la j-ésimo columna de A es sólo la j-ésimo columna de Ej-1.

Cabe destacar que la sencillez de realizar multiplicaciones matriciales se debe no sólo a la estructura
especial de las matrices Ej-1, sino también al orden en que se multiplican. Por ejemplo, A-1 = En-1 En-
2… Ei no se puede calcular simplemente usando la j-ésimo columna de Ej-1para la j-ésimo columna
de A-1.

Puesto que la matriz A en [4.4.11] es triangular inferior con 1 a lo largo de la diagonal principal, la
expresión [4.4.9] es la factorización triangular de 

Por ejemplo, la factorización triangular  = ADA´ de una matriz (2 x 2) es

  1 0  0 1  
    1 0     0 1
[4.4.12]Mientras que la de una matriz (3 x 3) es

  
  
  
1 0 0  0 0 1    
  1 0 0 0 0 1  [4.4.13]
  1 0 0 0 0 1

Donde h22 = (22 - 2111-112).h33 = (33 - 3211-113) y h23 = h32 = (23 - 2111-113)

Unicidad de la factorización triangular.


A continuación se establece que la factorización triangular es única. Suponer que

96 Capítulo 4 | Previsión
´ ´
 [4.4.14]

Donde A1 y A2 son ambos triangulares inferiores con 1 a lo largo de la diagonal principal y D1 y D2


son diagonales con entradas positivas a lo largo de la diagonal principal.
Entonces todas las matrices tienen inversas. Pre multiplicación [4.4.14] por D1-1A1-1 y post
multiplicación por [A2´]-1 produce
´ ´
[4.4.15]
Como A'2 es triangular superior con 1 a lo largo de la diagonal principal, [A'2]-1 también debe ser
triangular superior con 1 a lo largo de la diagonal principal. Como A'1 es también de esta forma, el
lado izquierdo de [4.4.15] es triangular superior con 1 a lo largo de la diagonal principal. Por un
razonamiento similar, el lado derecho de [4.4.15] debe ser triangular inferior. La única manera en
que una matriz triangular superior puede igualar una matriz triangular inferior es si todos los
términos fuera de la diagonal son cero. Además, puesto que las entradas diagonales en el lado
izquierdo de [4.4.15] son todas unidades, esta matriz debe ser la matriz de identidad:
´ ´

La post-multiplicación por A'2 establece que A'1 = A'2. La pre-multiplicación [4.4.14] por A-1 y la
post-multiplicación por [A']-1 produce entonces D1 = D2

La factorización Cholesky
Una factorización estrechamente relacionada de una matriz definida positiva simétrica  se obtiene
como sigue. Defina D1/2 como la matriz diagonal (n x n) cuyas entradas diagonales son las raíces
cuadradas de los elementos correspondientes de la matriz D en la factorización triangular:

0 0 ⋯ 0
0 0 ⋯ 0
/
0 0 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮
0 0 0 ⋯

Puesto que la matriz D es única y tiene entradas diagonales estrictamente positivas, la matriz D1/2
existe y es única. Entonces la factorización triangular puede ser escrita

 / / ´ / /
´

o
Ω ꞊ РР´, 4.4.16

Dónde:
/
Р≡A

1 0 0 ⋯ 0 0 0 ⋯ 0
1 0 … 0 0 0 … 0
= 1 … 0 0 0 … 0
⋮ ⁞ ⁞ … ⋮
⋮ ⁞ ⁞ … ⋮
… 1
0 0 0 ⋯

4.4  La factorización triangular de una matriz simétrica definida positiva      97 
0 0 ⋯ 0
0 … 0
= … 0
⋮ ⁞ ⁞ … ⋮

La expresión 4.4.16 es conocida como la factorización de Cholesky de Ω. Obsérvese que P,


como A, es triangular inferior, mientras que A es a lo largo de la diagonal principal, el factor de
Cholesky tiene las raíces cuadradas de los elementos de D a lo largo de la diagonal principal.

4.5. Actualización de una Proyección Lineal

Factorización Triangular de una Matriz de Segundo Momento y


Proyección Lineal

Sea Y = ( , , … , ´ de un ( x 1) vector de variables aleatorias cuya matriz de segundo


momento viene dada por
Ω ꞊ E(YY´). 4.5.1

Sea Ω ꞊ ADA´ por la factorización triangular de Ω, y defina

Ῡ≡Α 4.5.2

La matriz de segundo momento de estas variables transformadas viene dada por

E(ῩῩ´) = E( YY´[Α´ )=Α E ´ [ ´ . [4.5.3

Sustituyendo 4.5.1 en [4.5.3 , la matriz de segundo momento de Ῡ se ve que es diagonal:

E(ῩῩ´) = Ω[ ´ = ´ [ ´ D. 4.5.4
Es decir,

d
E( Ȳ Ȳ ) = 4.5.5
0 .

Así, la forma de una serie de variables aleatorias que no están correlacionadas entre sí4. Para ver la
implicación de esto, pre multiplicar 4.5.2 por :
Ȳ = Y. 4.5.6

La expresión [4.4.11] se puede utilizar para escribir [4.5.6] explícitamente como:

                                                            
4
  ⁴Utilizaremos “ y que son no estaremos correlacionado” para significar " E( ) = 0." La terminología será
correcta si y tiene cero medios o si un término constante se concluye en la proyección lineal.
 

98 Capítulo 4 | Previsión
1 0 0 ⋯ 0 Ȳ Y
1 0 … 0 Ȳ Y
1 … 0 Ȳ = Y . [4.5.7]
⋮ ⁞ ⁞ … ⋮ ⋮ ⋮
⋯ 1 Ȳ Y

La primera ecuación en [4.5.7] indica que


Ȳ , [4.5.8]
por lo que los primeros elementos de los vectores Y y Ȳ representan la misma variable aleatoria.

La segunda ecuación en [4.5.7] afirma que

Ω Ω Ȳ Ȳ Y ,

O, utilizando [4.5.8],
Ȳ Ȳ ≡
4.5.9

donde hemos definido ≡ . El hecho de que Ȳ no está correlacionado con Ȳ implica

E(Ȳ Ȳ 0 , [4.5.10]

Pero, recordando [4.1.10], el valor de que satisface [4.5.10] esta definido como el coeficiente de la
proyección lineal de en . Por lo tanto, la factorización triangular de Ω se puede utilizar para
inferir que el coeficiente de una proyección lineal de en esto se da por = , lo que
confirma el resultado anterior [4.1.13]. En general, la fila , la columna 1 es la entrada de A es
, que es el coeficiente de una proyección lineal de en .

Dado que Ȳ es la interpretación como el residuo de una proyección de Y en , de [4.5.5] da


la MSE de esta proyección:

Esto confirma la fórmula para el MSE de una proyección lineal derivada (ecuación [4.1.15] ).
La tercera ecuación en [4.5.7] indica que

Ȳ Ȳ Ȳ Y .

Sustitución de [4.5.8] y [4.5.9] y reordenamiento.


Ȳ Y Ȳ Y . [4.5.11]

Así Ȳ es el residuo de restar una combinación lineal particular de y de . A partir de [4.5.5],


este residuo no está correlacionado con Ȳ o Ȳ :
E[Y Ȳ Ȳ 0 Para j = 1 ó 2.

Así, este residuo no está correlacionado con uno o , lo que significa que Ȳ tiene la
interpretación como el residuo de una proyección lineal de Y en Y y Y . De acuerdo con [4.5.11],
la proyección lineal se da por:
Y ⎹ Y , Y Ȳ Y . [4.5.12]

El MSE de la proyección lineal es la varianza de, que de [4.5.5] se da por:

E[Y Y ⎹ Y , Y h , [4.5.13]

4.5  Actualización de una Proyección Lineal      99 
La expresión [4.5.12] da una fórmula conveniente para actualizar una proyección lineal.
Supongamos que estamos interesados en predecir el valor de Y . Sea Y una cierta información
inicial sobre la cual este pronóstico podría ser basado. Una previsión de Y sobre la base de Y solo
toma la forma

Y ⎹ Y Y

Sea Y representada sobre alguna nueva información con la cual podríamos actualizar este
pronóstico. Si se nos pidiera adivinar la magnitud de esta segunda variable sobre la base deY solo,
la respuesta sería

Y ⎹ Y Y
La ecuación [4.5.12] establece que:

Y ⎹ Y , Y Y ⎹ Y Y Y ⎹ Y . [4.5.14]

Así pues, actualizamos de manera óptima el pronóstico inicial añadiéndole un múltiplo () del
componente imprevisto de la nueva información [].
Este múltiplo () también se puede interpretar como el coeficiente sobre en una proyección lineal de
on y.
Para entender la naturaleza del multiplicador (), defina el vector (n x 1) (1) mediante:
Ȳ ≡ E Y, [4.5.15]
Donde E está la matriz dada en [4.4.13]. Observe que la matriz de segundo momento de Ȳ(1) está
dada por:

E{Ȳ(1)[ Ȳ(1)]´} = E{E YY´E´ E ΩE´ .

Pero desde [4.4.4] esto es sólo la matriz H. Así H tiene la interpretación como matriz de segundo
momento de Ȳ(1). Sustituyendo [4.4.3] en [4.5.15],

Y
Y
Ȳ(1) = Y .

Y

El primer elemento de Ȳ(1) es, por tanto, sólo él mismo, mientras que el i-ésimo elemento de Ȳ(1).
para i = 2,3, ...., n es el residuo de una proyección de on. La matriz H es, pues, la matriz de segundo
momento de los residuos de las proyecciones de cada una de las variables. En particular, es el MSE
de una proyección de en:
Y Y ⎹ Y ,
Mientras que es el producto esperado de este error con el error de una proyección de sobre:

Y Y ⎹ Y Y Y ⎹ Y

Así, la ecuación [4.5.14] establece que una proyección lineal puede actualizarse utilizando la
siguiente fórmula:

Y ⎹ Y , Y Y ⎹ Y

+ {E Y Y ⎹ Y Y Y ⎹ Y

x Y Y ⎹ Y x Y Y ⎹ Y [4.5.16]

100 Capítulo 4 | Previsión
Por ejemplo, supongamos que es un término constante, por lo que es justo, la media de, mientras
que =. La ecuación [4.5.16] afirma entonces que

Y ⎹ Y , 1 = , . Y .( Y .

El MSE asociado con esta proyección lineal actualizada también se calcula a partir de la
factorización singular. A partir de [4.5.5], el MSE a partir de una proyección lineal de en Y y
Y se puede calcular a partir de

E[Y Y ⎹ Y , 1 = E(Ȳ
=

= .

En general, para 2, el coeficiente sobre en una proyección lineal de on y es dado por el i-ésimo
elemento de la segunda columna de la matriz A. Para cualquier i> j, los coeficientes sobre una
proyección lineal de on se da Por la fila i, columna j elemento de A. La magnitud gices el MSE para
una proyección lineal de on.

Aplicación: Exacto finito - Ejemplo de pronóstico para una MA (1)


Proceso
Como ejemplo de aplicación de estos resultados, supongamos que sigue un proceso MA (1):

Donde es un proceso de ruido blanco con varianza y es irrestricto. Supongamos que


queremos pronosticar el valor de sobre la base de los 1 valores anteriores (Y , Y , Y , … , Y ).
Dejar

Y denote la matriz de varianza-covarianza de Y:

1 0 ⋯ 0
1 … 0
Ω = E ( Y Y´) = 0 1 … 0 [4.5.17]
⋮ ⁞ ⁞ … ⋮
0 0 0 ⋯ 1

El apéndice 4.B de este capítulo muestra que la factorización triangular de Ω es:

1 0 ⋯ 0
1 … 0


A= 0 1 … 0 [4.5.18]

⋮ ⁞ ⁞ … ⋮

0 0 0 ⋯ 1

4.5  Actualización de una Proyección Lineal      101 
1 0 ⋯ 0

0 … 0


D== 0 0 … 0 [4.5.19]

⋮ ⁞ ⁞ … ⋮

0 0 0 ⋯

Para utilizar la factorización triangular para calcular las predicciones exactas de las muestras finitas,
recordemos que el ith elemente de, tiene la interpretación como la frontera residual de una
proyección lineal de una constante y es valores previos:

Ȳ ⎹ , ,…, .

El sistema de ecuaciones Ȳ puede ser escrito explícitamente como

Ȳ Ȳ
1

1
Ȳ Ȳ
1

1 …
Ȳ Ȳ .
1 …

Resolviendo las últimas ecuaciones para ,


– ⎹ , ,…,

1 …
– ⎹ , ,…, .
1 …

Reticente
⎹ , ,…, [4.5.20]

1 …
– ⎹ , ,…,
1 …
.

El MSE de este principio está dado por :


MSE[ ⎹ , ,…, . [4.5.21]

Es interesante observar el comportamiento de esta predicción óptima a medida que el número de


obsevaciones (n) se hace grande. En primer lugar, supongamos que la representación del promedio
móvil es invertible (⎹ ⎹<1). En este caso, como ⟶ ∞, el coeficiente en [4.5.20] tiende a ∞:

1 …

1 …

102 Capítulo 4 | Previsión
Mientras que el MSE [4.5.21] tiende a, la varianza de la innovación fundamental. Así, el pronóstico
óptimo para un número finito de observaciones [4.5.20] eventualmente tiende a la regla de
pronóstico utilizada para un número infinito de observaciones [4.2.32].
96
Alternativamente, los cálculos que producen [4.5.20] son igualmente válidos para una
representación no reversible con > 1. En este caso, el coeficiente de [4.5.20] tiende a :

1 … 1 / 1

1 … 1 / 1



1

Por lo tanto, el coeficiente en [4.5.20] tiende a en este caso, que es el coeficiente de media
móvil con la representación invertible.
El MSE [4.5.21] tiende a :

1 / 1
⟶ ,
1 / 1

Que será reconocido a partir de [3.7.7] como la varianza de la innovación asociada con la
representación fundamental.

Esta observación explica el uso de la expresión "fundamental" en este contexto. La innovación


fundamental tiene la propiedad de
. .
Yt - ⎹ , ,…, [4.5.22]
. .
Como m → ∞ donde denota la convergencia cuadrática media. Así, cuando | | > 1, el

coeficiente en la aproximación en [4.3.3] debería ser reemplazado por . Cuando esto se hace,
la expresión [4.3.3] se acercará a la previsión correcta como m → ∞
También es instructivo considerar el límite = q. La predicción óptima de la muestra finita para un
proceso MA (1) con = 1 se ve desde [4.5.20] dada por

1
⎹ , ,…, ⎹ , ,…, ,

Que, después de la sustitución recursiva, se convierte en


⎹ , ,…,

[4.5.23]
3
… 1 .

El MSE de esta previsión viene dado por [4.5.21]

1 / →

4.5  Actualización de una Proyección Lineal      103 
Así, la varianza del error de pronóstico tiende de nuevo hacia la de. Por lo tanto la innovación es
otra vez fundamental para este caso en el sentido de [4.5.22]. Obsérvese el contraste entre el
pronóstico óptimo [4.5.23] y un pronóstico basado en una aplicación ingenua de [4.3.3],

⋯ 1 . [4.5.24]

La aproximación [4.3.3] se obtuvo bajo el supuesto de que la representación del


promedio móvil era invertible, y el caso de borde = 1 no es invertible. Para esto la razón [4.5.24]
no converge al pronóstico óptimo [4.5.23] a medida que n crece. Cuando y [4.5.24] se pueden
escribir como

⋯ 1 1 .

La diferencia entre esto y , el valor que se pronostica, es 1 , que tiene MSE 2


para todo . Así, mientras que [4.5.23] converge a la predicción óptima como → ∞, [4.5.24] no
está.

Bloque Factorización Triangular

Supongamos que tenemos observaciones sobre dos conjuntos de variables. El primer conjunto
de variables se recoge en un 1 vector y el segundo conjunto en un 1 vector . Su
matriz de segundo momento se puede escribir en forma particionada como.

E YY´ E YY´ Ω Ω
Ω ≡
E YY´ E YY´ Ω Ω

Donde Ω es una matriz ( x ), es una Ω matriz ( x ), Ω y la matriz ( x ) es la


transposición de la ( x ) matriz Ω .
Podemos poner ceros en la parte inferior izquierda ( x ) bloque de Ω por pre multiplicando Ω
por la siguiente matriz:

I 0
E
Ω Ω I
.

Si Ω es pre multiplicado por E y post multiplicado por E´ , el resultado es

I 0 Ω Ω I 0
[4.5.25]
Ω Ω I Ω Ω Ω Ω I
= .

Definiendo
I 0
A ≡ E = .
Ω Ω I

Si [4.5.25] se pre multiplicado por A y post multiplicado por A´ , el resultado es

Ω Ω I 0

Ω Ω Ω Ω I

104 Capítulo 4 | Previsión
Ω 0 I Ω Ω

0 Ω Ω Ω Ω 0 I
[4.5.26]

Esto es similar a la factorización triangular Ω = ADA´, excepto que D es una matriz diagonal de
bloques en lugar de una matriz verdaderamente diagonal:

.

Como en el caso anterior, D se puede interpretar como la matriz de segundo momento del vector

= ;

Que es Y Y y Ω Ω Y . El i-ésimo elemento de está dado por menos una


combinación lineal de los elementos de Y . El bloque - diagonalidad de D implica que el producto
de cualquier elemento de Y con cualquier elemento de Y tiene expectativa cero. Así Ω Ω se
da la matriz de coeficientes asociados con la proyección lineal del vector Y sobre el vector Y ,

Y ⎹ Y Ω Ω Y
[4.5.27]

Como se reivindica en [4.1.23]. La matriz MSE asociada con esta proyección lineal es

E{[ ⎹ ⎹ ´
= [4.5.28]
=

Como se afirma en [4.1.24].

Los cálculos para una matriz (3 x 3) se extienden de manera similar a una matriz de bloques (3 x 3)
sin complicaciones. Let Y , Y y Y por ( x 1), ( x 1), y ( x 1) vectores. Una factorización
triangular en bloques de su matriz de segundo momento se obtiene a partir de una simple
generalización de la ecuación [4.4.13]:

[4.5.29]

Dónde , y ´

Esto nos permite generalizar el resultado anterior [4.5.12] al actualizar una proyección lineal. El
pronóstico óptimo de condicional en y se puede leer en la última fila de bloque de A :

⎹ , [4.5.30]
⎹ ⎹ ,
Dónde

4.5  Actualización de una Proyección Lineal      105 
⎹ ⎹ ´
⎹ ⎹ ´.

El MSE de esta previsión es la generación matricial de [4.5.13],


⎹ , ⎹ , ´ [4.5.31]

Dónde
H E Y Y ⎹ Y Y Y ⎹ Y ´

Ley de Proyecciones Iteradas


Otro resultado útil, la ley de las proyecciones iteradas, puede deducirse inmediatamente de [4.5.30].
¿Qué sucede si la proyección se prejuzga? Esa ley de proyecciones iteradas dice que esta proyección
es igual a la simple proyección de Y en Y :
P P Y ⎹ Y Y P Y ⎹ Y H H Y Y ⎹ Y , [4.5.32]

Para verificar esta afirmación, necesitamos mostrar que la diferencia entre P Y ⎹ Y Y y


P Y ⎹ Y no está correlacionada con Y . Pero desde [4.5.30], esta diferencia está dada por
Y ⎹ Y

P Y ⎹ Y Y Y ⎹ Y H H Y Y ⎹ Y ,

Que en realidad no está correlacionada con Y por la definición de la proyección lineal Y ⎹ Y .

4.6. Pronóstico Optimo para Procesos Gaussianos

Las reglas de predicción desarrolladas en este capítulo son óptimas dentro de la clase de
funciones lineales de las variables en las que se basa la predicción. Para los procesos gaussianos,
podemos afirmar con mayor fuerza que mientras se incluya un término constante entre las variables
en las que se basa la predicción, el pronóstico no resuelto óptimo resulta tener una forma lineal y,
por lo tanto, está dado por la proyección lineal.
Para verificar esto, sea Y un vector 1 con media , y Y un vector 1 con media,
donde la matriz varianza - covarianza es dada por

´ ´
.
´ ´

Si Y y Y son Gaussianos, entonces la densidad de probabilidad conjunta es

/
, /

[4.6.1]

´ ´ .

106 Capítulo 4 | Previsión
El inverso de Ω se encuentra fácilmente invirtiendo [4.5.26]:

´
´
[4.6.2]

Del mismo modo, el determinante de se puede encontrar tomando el determinante de [4.5.26]:

|Ω| | |. | |. | ´|

Pero es una matriz triangular inferior. Por lo tanto, su determinante es dado por el producto de
términos a lo largo de la diagonal principal, todos los cuales son unidad. Por lo tanto | | 1 y:
| | | |:5


[4.6.3]
| . | |.

Sustituyendo [4.6.2] y [4.6.3] en [4.6.1], la densidad de la articulación puede escribirse

/ /
/
| | .| |

x ´ ´

| | .| |

´ ´
[4.6.4]

| | .| |

x ´
                                                            
  Escriba |
5 5
en forma Jordana como M1J1 M1 -1 donde es triangular superior con algunos valores de a lo largo de la diagonal
principal. Escribir como M2J2 M2 -1 . Entonces dónde
M= J=

Así Ω tiene el mismo determinante que J . Porque J es triangular superior, su determinante es el producto de términos a lo largo del
principal, o |J| = | | . | |. Por lo tanto | Ω| = | | . |
 

4.6  Pronóstico Optimo para Procesos Gaussianos      107 
´ – .

Donde
≡ .
[4.6.5]

La densidad condicional de Y dado Y se encuentra dividiendo la densidad de la junta [4.6.4] por la


densidad marginal:
| |-1/2 x exp{- ´ ].
El resultado de la división es

. ,
| ,

= – /
exp ( ´ – ,
Dónde

H≡ [4.6.6]

En otras palabras,

| ~ ,
~ , .
[4.6.7]

Vimos en la Sección 4.1 que el pronóstico óptimo no restringido es dado por la expectativa
condicional. Para un proceso gaussiano, el pronóstico óptimo es

E( | ( .

Por otra parte, para cualquier distribución, la proyección lineal del vector sobre un vector un
término constante está dada por
E( | ( .

Por lo tanto, para un Proceso Gaussiano, la proyección lineal da la predicción óptima sin
restricciones.

4.7. Suma de los procesos ARMA


Esta sección explora la naturaleza de las series que resultan de la adición de dos procesos ARMA
diferentes juntos, comenzando con un ejemplo instructivo

Suma de un MA (1) Proceso Plus Ruido Blanco


Supongamos que una serie sigue una media de cero MA (1) PROCESO:
, [4.7.1]

108 Capítulo 4 | Previsión
¿Dónde está el ruido blanco?:

E( para j 0
0

Las autocovarianzas de son:

1 0
E( para j 1 [4.7.2]
0 .
Indicar una serie de ruido blanco por separado:

para j 0
0
[4.7.3]

Supongamos, además, que y no están correlacionados en todas las derivaciones y rezagos:

E( 0 ,

Reticente

E( 0 , [4.7.4]

Sea una serie observada Y la suma del MA (1) y el ruido blanco del proceso:
+
= + . [4.7.5]

La pregunta que ahora se plantea es: ¿Cuáles son las propiedades de la serie temporal de Y?
Claramente, , tiene cero medio, y sus auto covarianzas se pueden deducir de [4.7.2] a
través de [4.7.4]:

E( + )( +
= +
1 0
para j 1
0 .
[4.7.6]

Así, la suma + es covarianza - estacionaria, y sus autocovariancias son cero más allá de un
retraso, al igual que las de un MA (1). Naturalmente, podríamos preguntarnos si existe una media
MA media (1) representación para Y,
, [4.7.7]

Con
E( para j 0
0
Cuyas auto covarianzas matemáticas son las que implican [4.7.6]. Las auto covarianzas de [4.7.7]
serían dadas por

4.7  Suma de los procesos ARMA      109 
1 0
E( para j 1
0 .
Con el fin de ser coherente con [4.7.6], tendría que ser el caso de que

1 1 [4.7.8]

y
. [4.7.9]

La ecuación [4.7.9] se puede resolver por ,

σ δσ / θ , [4.7.10]

Y luego sustituido en [4.7.8] para deducir

1 δσ / θ = 1

1 δ = [ 1 / ] θ

δ 1 / ] θ δ 0 [4.7.11]

Para valores dados de y, dos valores de que satisfacen [4.7.11] se pueden encontrar de la fórmula
cuadrática:

= [4.7.12]

Si, eran iguales a cero, la ecuación cuadrática en [4.7.11] sería simplemente

1 0, [4.7.13]

Cuyas soluciones son = , y el parámetro de avrage móvil de las representaciones invertible e


ininversible, respectivamente. La figura 4.1 representa la ecuación [4.7.11] y [4.7.13] como funciones
de suponer una autocorrelación positiva para (> 0). Para> 0 y> 0, la ecuación [4.7.11] es por todas
partes menor que [4.7.13] por la cantidad (), lo que implica que [4.7.11] tiene dos soluciones reales
para,
∗| | |,
0<| [4.7.14]

Y una solución no reversible caracterizada por



1 | | | |

Tomando los valores asociados a la representación invertible ( ∗ , ∗ ), consideremos si [4.7.7]


podría de hecho caracterizar los datos generados por [4.7.5]. Esto requeriría

1 1 ,
[4.7.15]

O

1 1 ,

110 Capítulo 4 | Previsión
∗ ∗ ∗
= +…)

∗ ∗ ∗
+ +…)
∗ ∗ ∗
+( +…) [4.7.16]

La serie definida en [4.7.16] es un retraso distribuido en valores pasados de y, por lo que podría
parecer que posee una estructura de autocorrelación rica. De hecho, resulta ser

FIGURA 4.1 Gráficos de las ecuaciones [4.7.13] y [4.7.11]

¡Ruido blanco! Para ver esto, tenga en cuenta desde [4.7.6] que la función de autocovariancia de Y
puede escribirse

1 1 , [4.7.17]

De manera que la función generadora de autocovariancia si


∗ ∗

[4.7.18]

Pero fueron elegidos para hacer que la función de autocovariancia de (1 + ), es decir,
∗ ∗
1 1

Idéntico al lado derecho de [4.7.17]. Así, [4.7.18] es simplemente igual a



,

una serie de ruido blanco.

En resumen, la adición de un proceso MA (1) a una serie de ruido blanco con la cual no
está correlacionada en todos los conductores y retardos produce un nuevo proceso MA (1)
caracterizado por [4.7.7].

4.7  Suma de los procesos ARMA      111 
Obsérvese que la serie en [4.7.16] no podría ser pronosticada como una función lineal
de Y rezagada o rezagada. Claramente, podría ser pronosticada, a partir de retrasado retrasado .
Las historias { y contener más información que O { . La predicción óptima de sobre la
base de { , , … . . sería
⎹ , ,… = ∗

Con errores de cuadrados medios asociados. Por el contrario, el pronóstico lineal óptimo de
sobre la base de { , ,…, , , … sería
⎹ , ,…, , ,… =

Con el error cuadrático medio asociado +. Recordando de [4.7.14] que | ∗ | <| , se desprende de
[4.7.9] que( ∗ ∗ < | ∗ | <| | , que significa desde [4.7.8] que> +. En otras palabras, los
valores pasados de Y contienen menos información que los valores pasados de .

Este ejemplo puede ser útil para pensar sobre las consecuencias de diferentes conjuntos de
información. Uno siempre puede hacer un pronóstico razonable sobre la base de lo que uno sabe,
{ , , … aunque por lo general hay otra información que podría haber ayudado más. Una
característica importante de tales ajustes es que aunque,, y, son todo el ruido blanco, hay
correlaciones complicadas entre estas series blancas del ruido.
Otro punto a destacar es que todo lo que se puede estimar sobre la base de son los dos parámetros
y, mientras que el verdadero modelo "estructural" [4.7.5] tiene tres parámetros (,, y). Por lo tanto,
los parámetros del modelo estructural no están identificados en el sentido en que los
econometristas usan este término --- existe una familia de configuraciones alternativas de, y con <1
que produciría el valor idéntico para la función de verosimilitud del observado de la data { .

Los procesos que se sumaron para este ejemplo, ambos tenían una media cero.
La adición de términos constantes a los procesos no cambiará los resultados de ninguna manera
interesante --- si es un proceso MA (1) con la media dada por . Por lo tanto, no se pierde
nada al restringir la discusión subsiguiente a sumas de procesos de significación cero.

Adición De Dos Procesos de Media Móvil


Supongamos a continuación que es un proceso MA () de media cero:

{ 1 ⋯ ≡

Con

E( para j 0
0

Sea un proceso MA ( ) de media cero:

1 ⋯ ≡

Con
E( para j 0
0

112 Capítulo 4 | Previsión
Así, X tiene autocovariancias , , ,…, , de la forma de [3.3.12] mientras que tiene
,
autocovariancias , ,…, ,de la misma estructura básica. Supongamos que X y W no están
correlacionados entre sí en todas las derivaciones y rezagos:

E( 0 para todo j;

Y supongamos que observamos

.
Defina q como el mayor de 1o 2:

q = max{q1, q2}.

Entonces, la j-ésima autocovariancia de Y viene dada por

E(

0, 1, 2, … ,
=
0
Por lo tanto, las autocovariancias son cero más allá de retrasos q, lo que sugiere que podría ser
representado como un proceso de MA (q).

¿Qué más debemos mostrar para estar completamente convencido de que es de hecho un
proceso de MA (q)? Esta pregunta puede plantearse en términos de funciones generadoras de
autocovariancia. Ya que

,
Resulta que

Pero estas son sólo las definiciones de las respectivas funciones de auto covarianza,

.
[4.7.19]

La ecuación [4.7.19] es un resultado bastante general --- si se suman dos procesos de covarianza -
estacionarios que no están correlacionados entre sí ay todos los conductores y retardos, el 106
La función generadora de auto covarianza de la suma es la suma de las funciones generadoras de
auto covarianza de la serie individual.
Si, se expresa como un proceso MA (q)

1 ⋯ ≡
Con

E( para j 0
0

Entonces, la función de generación de auto covarianza sería

4.7  Suma de los procesos ARMA      113 
.

La cuestión es, por tanto, si siempre existen valores de ( , , ,…, , ) tales que [4.7.19]
Está satisfecho:

. [4.7.20]

Resulta que sí. Por lo tanto, la conjetura resulta ser correcto que si dos procesos de media móvil que
no están correlacionados entre sí en todas las derivaciones y rezagos se suman, el resultado es un
nuevo proceso de media móvil cuyo orden es el mayor de las dos series originales:

MA( MA max{q1, q2}). [4.7.21]

Una prueba de esta afirmación, junto con un algoritmo constructivo para lograr la factorización en
[4.7.20], se proporcionará en el capítulo 13.

Adición de Dos Procesos Autorregresivos


Supongamos ahora que y son dos procesos AR (1):

(1 – [4.7.22]

(1 – [4.7.23]

Donde y son cada ruido blanco con No correlacionado con para todo .
Supongamos nuevamente que observamos

Y quieren pronosticar sobre la base de sus propios valores rezagados. Si, por casualidad, X y
W comparten el mismo parámetro autorregresivo, o

Entonces [4.7.22] podría simplemente agregarse directamente a [4.7.23] para deducir

(1 – 1 –

(1 –

Pero la suma + es ruido blanco (como un caso especial de resultado [4.7.21]), lo que significa que
tiene una representación AR (1)

En el caso más probable de que los parámetros autorregresivos y p sean diferentes, entonces
[4.7.22] se puede multiplicar por (1 – :

(1 – ) (1 – 1 – ; [4.7.24]

Y similar, [4.7.23] podría ser multiplicado por (1 – :

(1 – 1 – (1 – ; [4.7.25]

114 Capítulo 4 | Previsión
La adición de [4.7.24] a [4.7.25] produce

(1 – 1 – 1 – (1 – ; [4.7.26]

De [4.7.21], el lado derecho de [4.7.26] tiene una representación MA (1). Así, el podría escribir

1 ∅ ∅ 1 ,

Dónde

(1 - ∅ ∅ 1 – (1–

1 1 – (1 – ;

En las palabras,

AR(1) + AR(2) = ARMA(2,1).


[4.7.27]

En general, la adición de un proceso AR (p1)

Para un proceso AR (p2) con el que no está correlacionado en todos los conductores y retardos,

Produce un proceso ARMA (p1+p2, max{ p1,p2}),

∅ = )p(L)
Y

∅ = p L + ) .

4.8. Descomposición de Wold y la caja – Jenkins Filosofía de


modelado

Descomposición de Wold
Todos los procesos de covarianza - estacionarios considerados en el Capítulo 3 pueden escribirse en
la forma
∑ , [4.8.1]

¿Dónde está el error de ruido blanco que se haría en el pronóstico como una función lineal de Y
retrasado y donde <con = 1?

Uno podría pensar que fuimos capaces de escribir todos estos procesos en la forma de
[4.8.1] porque la discusión se restringió a una conveniente clase de modelos. Sin embargo, el

4.8. Descomposición de Wold y la caja – Jenkins Filosofía de modelado        115 
siguiente resultado establece que la representación [4.8.1] es de hecho fundamental para cualquier
serie temporal de covarianza – estacionaria.

Proposición 4.1: (descomposición de Wold). Cualquier proceso estacionario de covariación cero


puede representarse en la forma
∑ [4.8.2]
Donde =1 y ∑ <∞. El término, es ruido Blanco y representa el error hecho i
pronosticando sobre la base de una función lineal de Y rezagada:

| , ,… . [4.8.3]

El valor de kt no está correlacionado con para cualquier j, aunque k puede ser predicho
arbitrariamente bien a partir de una función lineal de valores pasados de Y:

| , ,…

El término kt se llama el componente linealmente determinista de, mientras que se llama el


componente linealmente infeterministic. Si, entonces el proceso se llama puramente linealmente
indeterminista.

Esta proposición fue probada por primera vez por Will (1938)6. La proposición se basa en
segundos segundos estables de Y, pero no hace uso de momentos superiores. Por lo tanto, describe
sólo el pronóstico lineal óptimo de Y.

Encontrar la representación de Wold en principio requiere el ajuste de un número infinito de


parámetros (....) A los datos. Con un número finito de observaciones sobre (…), esto nunca será
posible. Como cuestión práctica, por lo tanto, tenemos que hacer algunas suposiciones adicionales
sobre la naturaleza de (....). Una suposición típica en el capítulo 3 es que se puede expresar como la
relación de dos polinomios de orden finito:

1 1 1 ⋯

1 1 ⋯
[4.8.4]
Otro enfoque, basado en la supuesta "suavidad" del espectro poblacional, se explorará en el
capítulo 6.

La caja - Filosofía de modelado de Jenkins


Muchos pronosticadores están persuadidos de los beneficios de la parsimonia, o usando
como pocos parámetros como sea posible. Box y Jenkins (1976) han sido partidarios influyentes de
este punto de vista. Observaron que en la práctica, los analistas terminan reemplazando a los
verdaderos operadores (L) y (L) por estimaciones y (L) basadas en los datos. Los parámetros
más a estimar, más espacio hay que ir mal.

Aunque los modelos complicados pueden rastrear los datos muy bien sobre el período
histórico para el cual se calculan los parámetros, a menudo se desempeñan mal cuando se usan los
pronósticos del foro para la muestra. Por ejemplo, los años sesenta vieron el desarrollo de una serie
de grandes modelos macroeconométricos que pretendían describir la economía utilizando cientos
de variables macroeconómicas y ecuaciones. Parte de la desilusión con tales esfuerzos fue el
descubrimiento de que los modelos ARMA univariados con valores pequeños de p o q a menudo

                                                            
6
 6 Véase Sargent (1987, pp. 286-90) para un bonito dibujo de la intuición detrás de este resultado.

116 Capítulo 4 | Previsión
producían mejores pronósticos que los grandes modelos (véase, por ejemplo, Nelson, 1972).7 Como
veremos en capítulos posteriores, el gran tamaño por sí solo no era la única responsabilidad de
estos modelos macroeconómicos a gran escala. Aun así, la afirmación de que los modelos más
simples ofrecen pronósticos más sólidos tiene muchos creyentes en todas las disciplinas.El enfoque
de pronóstico propuesto por Box y Jenkins puede desglosarse en cuatro pasos:

(1) Transforme los datos, si es necesario, de manera que la asunción de covarianza - estacionariedad
sea razonable.

(2) Hacer una estimación inicial de valores pequeños para p yq para un modelo ARMA (p, q) que
podría describir la serie transformada.

(3) Estime los parámetros en (L) y (L).

(4) Realizar análisis de diagnóstico para confirmar que el modelo es de hecho coherente con las
características observadas de los datos.

El primer paso, la selección de una transformación adecuada de los datos, se discute en el capítulo
15. Por ahora simplemente observar que para las series económicas que crecen con el tiempo,
muchos investigadores utilizan el cambio en el logaritmo natural de los datos brutos. Por ejemplo,
si Xt es el nivel de PNB real en el año t, entonces

log [4.8.5]

Podría ser la variable que un modelo ARMA pretende describir.

El tercer y cuarto pasos, la estimación y las pruebas de diagnóstico, se discutirán en el


capítulo 5 y 14. El análisis de la dinámica estacional también puede ser una parte importante del
paso 2 del procedimiento; Esto se discute brevemente en la Sección 6.4. El resto de esta sección se
dedica a una exposición del segundo paso en el procedimiento Box - Jenkins sobre datos no
estacionales, a saber, la selección de valores candidatos para p y q.8

Autocorrelaciones de muestra
Una parte importante de este procedimiento de selección es formar una estimación de la
autocorrelación de la población. Recordemos que se definió como
≡ /

Dónde

Una estimación natural de la autocorrelación de la población es proporcionada por los momentos


muestrales correspondientes:
̂ ≡ / ,

Dónde

∑ 0,1,2,3, … . , 1 [4.8.6]

                                                            
7
 7 Para obtener evidencias pesimistas más recientes sobre modelos actuales a gran escala, véase Ashley (1988).
88
  Box y Jenkins se refieren a esta etapa como "identificación" del modelo apropiado. Anulamos la terminología de Box y
Jenkins, porque la "identificación" tiene un significado muy diferente para los econometristas.

4.8  Descomposición de Wold y la caja – Jenkins Filosofía de modelado      117 
1

Obsérvese que aunque sólo se usan las observaciones T - j para construir , el denominador en
[4.8.6] es T en lugar de T - j. Por lo tanto, para j grande, la expresión [4.8.6] reduce las estimaciones
hacia cero, ya que de hecho las autocovariancias de la población van a ero como j, asumiendo
covarianza - estacionariedad. Además, se utiliza la muestra completa de observaciones para
construir .
Recuerde que si los datos realmente siguen un proceso MA (q), entonces será cero para j> q. Por el
contrario, si los datos siguen un proceso AR (p), entonces se descompondrá gradualmente hacia
cero como una mezcla de exponenciales o sinusoides amortiguados. Una guía para distinguir entre
las representaciones MA y AR, entonces, sería las propiedades de desintegración de. A menudo,
estamos interesados en una evaluación rápida de si = 0 para j = q + 1, q + 2, ... Si los datos fueron
realmente generados por un proceso Gaussian MA (q), entonces la varianza de la estimación podría
ser aproximada por9

Var( ̂ ≅ 1 2∑ 1, 2, … .. 4.8.8

Por lo tanto, en particular, si sospechamos que los datos fueron generados por el ruido Gaussian
White, entonces para cualquier j 0 debería estar alrededor del 95% del tiempo.
En general, si hay autocorrelación en el proceso que generó los datos originales {}, la estimación se
correlacionará con i j.10Así, los patrones en el estimado pueden representar errores de muestreo en
lugar de patrones en el verdadero.

Autocorrelacion Parcial
Otra medida útil es la autocorrelación parcial. La m-ésima autocorrelación parcial de la
población (denotada) se define como el último coeficiente en una proyección lineal de Y en sus m
valores más recientes (ecuación [4.3.7]):
̂+ +….+ + ,
Vimos en la ecuación [4.3.8] que el vector se puede calcular a partir de



⋮ ⁞ … ⁞ ⁞ .

Recuerde que si los datos fueran realmente generados por un proceso AR (p), sólo los p valores
más recientes de Y serían útiles para la predicción. En este caso, los coeficientes de proyección en Y
más de p períodos en el pasado son igual a cero:

0 para m= p + 1, p + 2,……
Por el contrario, si los datos realmente fueron generados por un proceso MA (q) con q 1,
entonces la autocorrelación parcial se aproxima asintóticamente a cero en lugar de cortar
abruptamente.
Una estimación natural de la m-ésima autocorrelación parcial es el último coeficiente en una
regresión OLS de y sobre una constante y sus m valores más recientes:
̂+ +….+ + ,

                                                            
99
  Véase Box y Jenkins (1976, pág. 35)
10 10
  Otra vez, véase Box y Jenkins (1976, p.35).

118 Capítulo 4 | Previsión
Donde denota la regresión OLS residual. Si los datos fueron realmente generados por un proceso
AR (p), entonces la muestra estimada ( ) tendría una varianza alrededor del valor verdadero (0)
que podría ser aproximado por 11
Var ( )= 1/T para m = p + 1, p + 2, ...

Por otra parte, si los datos fueran realmente generados por un proceso AR (p), entonces y
serían asintóticamente para , .

Ejemplo 4.1
Ilustramos el enfoque de la Caja - Jenkins con datos trimestrales desestacionalizados sobre el PNB real
estadounidense de 1947 a 1988. Los datos brutos fueron convertidos para registrar cambios como en
4,8,5 . El panel (a) de la figura 4.2 representa las autocorrelaciones de la muestra de ̂
0, 1, … , 20 , mientras que el panel (b) muestra las autocorrelaciones parciales de la muestra
0, 1, … , 20 . Las bandas de confianza del noventa y cinco por ciento 2/√ se trazan
en ambos paneles; para el panel (a), estos son apropiados bajo la hipótesis nula de que los datos son
realmente ruido blanco, mientras que para el panel (b) son apropiados si los datos son realmente generados
por un proceso AR (p) para p sea menor que m.

FIGURA 4.2 Autocorrelaciones muestrales y autocorrelaciones parciales para el crecimiento real


del PIB real en los Estados Unidos, 1947: II a 1988: IV. Los intervalos de confianza del 95% se
representan como 2/√

Las dos primeras autocorrelaciones parecen no nulas, lo que sugiere que 2 sería necesario
describirlas como procedentes de un proceso de media móvil. Por otro lado, el patrón de autocorrelaciones
parece coherente con la simple descomposición geométrica de un proceso AR (1),

con ≅ 0.4. Las autocorrelaciones parciales también podrían ser vistas como moribundas después de un
retraso, también consistentes con la hipótesis AR (1). Por lo tanto, su conjetura inicial para un modelo
parsimonioso podría ser que el crecimiento del PNB sigue un proceso AR (1), con MA (2) como otra
posibilidad a considerar.

                                                            
11 11
  Box y Jenkins (1976, pág. 65).

4.8  Descomposición de Wold y la caja – Jenkins Filosofía de modelado      119 
APÉNDICE 4.A. Paralelo entre la Regresión MCO y la
Proyección Lineal
Este apéndice discute el paralelismo entre la regresión de mínimos cuadrados ordinarios y la proyección
lineal. Este paralelo se desarrolla introduciendo una variable aleatoria artificial construida específicamente
para tener momentos de población idénticos a los momentos muestrales de una muestra particular.
Digamos que en alguna muestra en particular sobre la cual pretendemos realizar MCO hemos observado
valores T particulares para el vector explicativo, denotado , , . . . , . Consideremos una variable
aleatoria artificial discreta que puede tomar sólo uno de estos valores T particulares, cada uno con
Probabilidad (1/T):
1/
1/
.
:
1/
.
Por lo tanto, es una variable aleatoria construida artificialmente cuya distribución de probabilidad de
población está dada por la función empírica de . La media de población de la variable aleatoria es
1
. .

Por lo tanto, la media de la población de es igual a la media de la muestra observada de la variable


aleatoria verdadera . El segundo momento de la población de es

1
 
4. A. 1  
que es el segundo momento de la muestra de , ,…, .
Podemos construir de manera similar una segunda variable artificial X que puede tomar uno de
los valores discretos , ,…, . Supongamos que la distribución conjunta de y viene dada por

, 1/ para t = 1,2,…, T.

(b) Autocorrelaciones parciales de muestra

Luego
Log (m)
1  
4. A. 2  

El coeficiente para una proyección lineal de en es el valor de que minimiza

1
.
4. A. 3
Esto es algebraicamente el mismo problema que elegir para minimizar 4.1.17 . Así, la regresión de
mínimos cuadrados ordinarios (elegir para minimizar 4.1.17 ) puede verse como un caso especial de
proyección lineal (elegir para minimizar 4. A. 3 ).

El valor de que minimiza 4. . 3 puede ser encontrado sustituyendo las expresiones por los
momentos de población de las variables aleatorias artificiales (las ecuaciones 4. A. 1 y 4. A. 2 en la
fórmula para una proyección lineal (ecuación 4.1.13 ):

120 Capítulo 4 | Previsión
1 1
.

Por lo tanto la fórmula MCO para la estimación en 4.1.18 se puede obtener como un caso
especial de la fórmula para el coeficiente de proyección lineal en 4.1.13 .
Debido a que las proyecciones lineales y las regresiones MCO comparten la misma estructura
matemática, las declaraciones sobre una tienen un paralelo en la otra. Esto puede ser un dispositivo útil
para recordar los resultados conforme el álgebra. Por ejemplo, la declaración sobre los momentos de la
población,

,  

tiene la muestra analógica 4. A. 4  

1 1  
4. A. 5
con

1/ .

Como segundo ejemplo, supongamos que estimamos una serie de regresiones MCO, con la
variable dependiente para la i-ésima regresión y un 1 vector de las variables explicativas comunes
a cada regresión. Sea , ,…, y escriba el modelo de regresión como

Π′

Para Π una matriz de coeficientes de regresión. Entonces, la matriz de varianza-covarianza de la


muestra de los residuos OLS se puede inferir a partir de 4.1.24

1 1 1 1 1  
̂ ̂ . 4. A. 6  

Donde ̂ ∏′ y la i-ésima fila de X está dada por

1 1
.

APÉNDICE 4.B. Factorización triangular de la matriz de


covarianza para un proceso MA (1)
Este apéndice establece que la factorización triangular de Ω en 4.5.17 está dada por 4.5.18 y
4.5.19 .

La magnitud es simplemente un término constante que terminará multiplicando cada término


en la matriz D. Reconociendo esto, podemos inicialmente resolver la factorización suponiendo que

Apéndice 4.B. Factorización triangular de la matriz de covarianza para un proceso MA (1)      
121 
1, y luego multiplicar la matriz D resultante por para obtener el resultado para el caso general.
El elemento 1,1 de D (ignorando el factor ) está dado por el elemento 1,1 de Ω: 1 .
Para poner un cero en la posición 2,1 de Ω, multiplicamos la primera fila de Ω por / 1 y
restamos el resultado del segundo; por lo tanto / 1 . Esta operación cambia el elemento
2,2 de Ω a
1 1
1 .
1 1 1
Para poner un cero en el elemento 3,2 de Ω, la segunda fila de la nueva matriz debe ser multiplicada por
/ y luego restada de la tercera fila; por lo tanto,

1
.
1
Esto cambia el elemento 3,3 a

1
1
1

En general, para la i-ésima fila


1 ⋯
.
1 ⋯
Poner un cero en la posición 1, , multiplicado por

2 4 2 1
1 ⋯
. 2 4 2
1 ⋯
Y restar de la fila 1 , produciendo

2 4 2 1
1 ⋯
. 1 2 4 2
1 ⋯

2 4 2 2 4 2
1 ⋯ 1 ⋯
2 4 2
1 ⋯
2 4 2 1
1 ⋯
2 4 2
1 ⋯

2 4 2 1
1 ⋯
2 4 2
.
1 ⋯

122 Capítulo 4 | Previsión
Capítulo 4 Ejercicios
4.1. Utilice la fórmula 4.3.6 para demostrar que para un proceso estacionario de covarianza, la
proyección de en una constante y , está dada por

‫׀‬ 1

dónde y Υ /Υ .

(a) Muestran que para el proceso AR (1), esto reproduce la ecuación 4.2.19 para 1.
(b) Muestran que para el proceso MA (1), esto reproduce la ecuación 4.5.20 para 2.
(c) Muestran que para el proceso AR (2), el pronóstico implícito es
/ 1 .

¿Es el error asociado con esta previsión correlacionada con ? ¿Está correlacionada con ?
4.2. Verificar la ecuación 4.3.3 .
4.3. Encontrar la factorización triangular de la siguiente matriz:
1 2 3
2 6 4
3 4 12
.
4.4. ¿Puede el coeficiente de a partir de una proyección lineal de en , y ser encontrado
desde el elemento 4,2 de la matriz A de la factorización triangular de Ω ?
4.5. Supongamos que sigue un proceso AR (p) y es un proceso de ruido blanco que no está
correlacionado con para todo . Muestre que la suma

Sigue un proceso ARMA ,

4.6. Generalizar el ejercicio 4.5 para deducir si se añade un proceso con un proceso y si
estos dos procesos no están correlacionados entre sí en todos los conductores y rezagos, entonces el
resultado es un proceso , .

Capítulo 4 Referencias
Ashley, Richard. 1988. “Sobre el Valor Relativo de las Recientes Previsiones Macroeconómicas”. Revista
internacional de previsión 4:363-76.
Box, George E.P., and Gwilym M. Jenkins. 1976. Análisis de series temporales: previsión y control, rev. Ed. ed. S
Francisco: Holden-Day.
Nelson Charles R. 1972. “El rendimiento de predicción del modelo F.R.B.-M.I.T.-PENN de la economía de
los EE.UU.” Revisión económica americana 62:902-17.
Sargent, Thomas J. 1987. Teoría Macroeconómica, 2d ed. Boston: Prensa académica.
Wold, Herman. 1938 (2d ed. 1954). Un estudio en el análisis de series temporales estacionarias.
Uppsala, Sweden: Almqvist y Wiksell.
 

Capítulo 4 Referencias     123 
5

Estimación de Máxima
Verosimilitud

5.1. Introducción

Considere un modelo ARMA de la forma


⋯ ⋯ [5.1.1]

Con ruido blanco:


0 [5.1.2]

[5.1.3]
0

Los capítulos anteriores supusieron que los parámetros de población , , … , , , … , ,


eran conocidos y mostraron cómo los momentos de la población como y los
pronósticos lineales
‫ ׀‬, , … podrían ser calculados como funciones de estos parámetros de población. Éste
capítulo explora cómo estimar los valores de , , … , , , … , , sobre la base de las
observaciones sobre Y.
El principio primario en el cual se basará la estimación es la máxima verosimilitud. Sea
, , … , , , … , , el vector de los parámetros de población. Supongamos que hemos
observado una muestra de tamaño , , … , . El enfoque será calcular la densidad de
probabilidad.
. ….. , ,…, ; , [5.1.4]
que se podría considerar libremente como la probabilidad de haber observado esta muestra
particular. La estimación de máxima verosimilitud (MLE) de es el valor para el cual esta muestra
es más probable que se haya observado; es decir, es el valor de que maximiza 5.1.4 .
Este enfoque requiere especificar una distribución particular para el proceso de ruido
blanco . Normalmente asumiremos que es ruido blanco gaussiano:

∼ . . . 0, . [5.1.5]
Aunque esta suposición es fuerte, las estimaciones de que resultan de ella a menudo resultarán ser
sensibles también para los procesos no gaussianos.
Encontrar estimaciones de máxima verosimilitud implica conceptualmente dos pasos. En
primer lugar, se debe calcular la función de verificación 5.1.4 . En segundo lugar, se deben
encontrar valores de que maximicen esta función. Este capítulo se organiza en torno a estos dos
pasos. Las secciones 5.2 a 5.6 muestran cómo calcular la función de verosimilitud para diferentes
especificaciones de ARMA gaussiano, mientras que las secciones subsiguientes revisan las técnicas
generales de optimización numérica.

124 Capítulo 5 | Estimación de Máxima Verosimilitud
 
5.2. La función de verosimilitud para un proceso Gaussiano
AR (1)
Evaluación de la Función de Verosimilitud
Un proceso 1 gaussiano toma la forma
, [5.2.1]
Con ∼ . . . 0, . Para este caso, el vector de parámetros de población a estimar se
compone de , ,

Consideremos la distribución de probabilidad de , la primera observación en la muestra.


A partir de las ecuaciones 3.4.3 y 3.4.4 , esta es una variable aleatoria con una media

/ 1
y varianza

/ 1

Puesto que gaussiano, es también Gaussiano. Por lo tanto, la densidad de la primera


observación toma la forma

; ; , ,

1 / 1
.
√2 / 1 2 / 1

[5.2.2]
Luego consideremos la distribución de la segunda observación condicionada a la observación de
. A partir de 5.2.1 ,


. [5.2.3]
Acondicionamiento en significa tratar la variable aleatoria como si fuera la constante
determinista . Para este caso, 5.2.3 da como la constante más la 0, la
variable . Por lo tanto,
‫׀‬ ∼ , ,

en el sentido

1
‫׀‬ ‫׀‬ ; .
√2 2
[5.2.4]

La densidad conjunta de las observaciones 1 y 2 es entonces el producto de 5.2.4 y 5.2.2 :

. ‫; ׀‬ ‫׀‬ ‫; ׀‬ . ;
.

5.2 La función de verosimilitud para un proceso Gaussiano AR (1) 125


Del mismo modo, la distribución de la tercera conservación condicional a las dos primeras es
1
‫׀‬ . ‫׀‬ , ; ,
√2 2

a partir del cual

, . , , ; ‫ ׀‬. ‫ ׀‬, ; . . ‫; ׀‬
.
En general, los valores de , , … , importan para sólo a través del valor de , y la
densidad de observación condicional a las observaciones precedentes de 1 es dada por

‫׀‬ , ,…. ‫׀‬ , ,…, ;

‫׀‬ ‫׀‬ ;
5.2.5
1
.
√2 2

La densidad conjunta de las primeras observaciones es entonces

. …., , 1, … , 1;
5.2.6
‫׀‬ ‫׀‬ ; . , …., , …., ; .

La probabilidad de que la muestra completa se pueda calcular así


. …., , ,…, ; ; .∏ ‫׀‬ ‫׀‬ ; . [5.2.7]

La función de probabilidad de log (denotada ) se puede encontrar tomando registros de


5.2.7 :

; ‫׀‬ ‫׀‬ ; .

[5.2.8]

Claramente, el valor de que maximiza 5.2.8 es idéntico al valor que maximiza 5.2.7 .
Sin embargo, la sección 5.8 presenta una serie de resultados útiles que se pueden calcular como un
subproducto de la maximización si uno siempre plantea el problema como maximización del Log
función de verosimilitud 5.2.8 en lugar de la función de verosimilitud 5.2.7 .
Al sustituir 5.2.2 y 5.2.5 en 5.2.8 , se considera que la probabilidad de log para una
muestra de tamaño T de un proceso AR (1) gaussiano
1 1 2/ 1 2
2
2 2

/ 1
1 /2 log 2
2
1
[5.2.9]
1
2 2

126 Capítulo 5 | Estimación de Máxima Verosimilitud
Una expresión alternativa para la Función de Verosimilitud

A veces es útil una descripción diferente de la función de verosimilitud para una muestra de
tamaño T de un proceso AR (1) gaussiano. Recopilar el conjunto completo de observaciones en un
vector 1 ,
≡ , ,…,
.

Este vector podría ser visto como una realización única a partir de una distribución Gaussiana T-
dimensional. La media de este vector 1 es

, [5.2.10]
⋮ ⋮

Donde, como antes, / 1 . En forma vectorial, 5.2.10 podría escribirse

Donde denota el vector 1 en el lado derecho de 5.2.10 . La matriz de varianza-covarianza


de está dada por

Ω, [5.2.11]
dónde



Ω … [5.2.12]
⋮ ⋮ ⋮

Los elementos de esta matriz corresponden a autocovariancias de . Recuerde que la j-ésima
autocovariancia para un proceso AR (1) está dada por

.
1
[5.2.13]
Por lo tanto, 5.2.12 puede escribirse como

Ω , [5.2.14]
dónde

1 …
1


V 1 [5.2.15]
⋮ ⋮
⋮ ⋮
… ⋮
1

Viendo la muestra observada como un único sorteo de una distribución , Ω , la


probabilidad de muestra podría anotarse inmediatamente de la fórmula para la densidad Gaussiana
multivariable:

5.2 La función de verosimilitud para un proceso Gaussiano AR (1) 127


/ |Ω | /
; 2 Ω , [5.2.16]

Con probabilidad de registro

/2 log 2 |Ω | Ω . [5.2.17]

Evidentemente, 5.2.17 y 5.2.9 deben representar la función idéntica de , ,…, . Para


verificar que éste es realmente el caso, defina

1 0 0 … 0 0
1 0 … 0 0
… 0
≡ 0 1 0 . [5.2.18]
… ⋮
⋮ ⋮ ⋮ ⋮

0 0 0 1

Es fácil demostrar que1

, [5.2.19]

Implicando desde 5.2.14 que


Ω [5.2.20]

Sustituyendo 5.2.20 por 5.2.17 se convierte en

⁄2 log 2 | | . [5.2.21]

Definir el 1 vector , para ser

1 0 0 … 0 0
… 0 0
1 0 …
0 1 0 0 [5.2.22]
… ⋮ ⋮
⋮ ⋮ ⋮ ⋮

0 0 0 1
1

.

Sustituyendo / 1 , se convierte en

                                                            
1
 Por multiplicación directa, se calcula 
 
1 1 1
… 1
0 1 1 …
… 1
LV 0 0 1 1 .     

⋮ ⋮ ⋮ … ⋮
0 0 0 1
 
Y pre multiplicando esto por   produce la matriz de identidad  . Por tanto,   que confirma  5.2.19  

128 Capítulo 5 | Estimación de Máxima Verosimilitud
1 / 1

El último término en 5.2.21 puede escribirse así

1
1/ 2
2

1/ 2 1 / 1 [5.2.23]

1/ 2 .

El término medio en 5.2.21 es similarmente


1 1
| | .| |
2 2

| | [5.2.24]

/2 | |

Donde se ha hecho uso de las ecuaciones A. 4.8 , A. 4.9 y A. 4.11 en la Revisión Matemática
(Apéndice A) al final del libro. Además, dado que L es triangular inferior, su determinante viene
dado por el producto de los términos a lo largo de la diagonal principal: | | 1 . Así,
5.2.24 afirma que

| | /2 1 . [5.2.25]

La sustitución de 5.2.23 y 5.2.25 en 5.2.21 reproduce 5.2.9 . Por lo tanto, las ecuaciones
5.2.17 y 5.2.9 son sólo dos expresiones diferentes para la misma magnitud, como se afirma.
Cualquier expresión describe con precisión la función de log verosimilitud.
La expresión 5.2.17 requiere invertir una matriz , mientras que 5.2.9 no lo hace.
Por lo tanto, la expresión 5.2.9 es claramente preferible para los cálculos. Evita invertir una
matriz , escribiendo como la suma de un pronóstico y un error de
pronóstico por . El error de pronóstico es independiente de las observaciones anteriores de la
construcción, de modo que el log de su densidad se añade simplemente a la probabilidad de las
observaciones precedentes. Este enfoque se conoce como una descomposición del error de predicción de la
función de verosimilitud.

Estimaciones de Máxima Verosimilitud Exacta para el Proceso


Gaussiano AR (1)

El MLE es el valor para el cual se maximiza 5.2.9 . En principio, esto requiere


diferenciar 5.2.9 y establecer el resultado igual a cero. En la práctica, cuando se intenta realizar
esto, el resultado es un sistema de ecuaciones no lineales en y , ,…, para las cuales no
existe una solución simple para en términos de , ,…, . La maximización de 5.2.9
requiere por lo tanto procedimientos iterativos o numéricos descritos en la sección 5.7.

5.2 La función de verosimilitud para un proceso Gaussiano AR (1) 129


Estimaciones de Máxima Verosimilitud Condicional
Una alternativa a la maximización numérica de la función de verosimilitud exacta es
considerar el valor de como determinista y maximizar la probabilidad condicionada por la
primera observación,

. …., ‫׀‬ , ,…, ‫; ׀‬ ; .∏ ‫׀‬ ‫׀‬ ; , [5.2.26]

el objetivo entonces es maximizar


. 1 …., 2 ‫ ׀‬1
, 1
,…, 2
‫ ׀‬1;

1 /2 2 1 /2 [5.2.27]

.
2

La maximización de 5.2.27 con respecto a c y es equivalente a la minimización de

[5.2.28]

que se logra mediante una regresión de mínimos cuadrados ordinarios (MCO) de en una
constante y su propio valor retardado. Las estimaciones máximas de verosimilitud de c y por lo
tanto, dadas por

̂ 1∑ ∑
∑ ,
∑ ∑

Donde Ʃ denota la suma sobre 2, 3, … , .


La estimación de probabilidad máxima condicional de la varianza de innovación se
encuentra diferenciando 5.2.27 con respecto a y poniendo el resultado igual a cero:

1 1
0,
2 2
o
1
.
1

En otras palabras, el MLE condicional es el cuadrado medio residual OLS de la regresión 5.2.28 .
A diferencia de las estimaciones de máxima verosimilitud exacta, las estimaciones de
máxima verosimilitud condicional son, por tanto, triviales para calcular. Además, si el tamaño de la
muestra T es suficientemente grande, la primera observación hace una contribución insignificante a
la probabilidad total. El MLE exacto y el MLE condicional resultan tener la misma distribución de
gran tamaño, siempre que | | 1. Y cuando | | 1, el MLE condicional continúa
proporcionando estimaciones consistentes, mientras que la maximización de 5.2.9 no lo hace.
Esto se debe a que 5.2.9 se deriva de 5.2.2 , que no describe con precisión la densidad de
cuando| | 1. Por estas razones, en la mayoría de las aplicaciones los parámetros de una
autoregresión son estimados por MCO (probabilidad máxima condicional) en lugar de la máxima
verosimilitud exacta.

130 Capítulo 5 | Estimación de Máxima Verosimilitud
5.3. La Función de Verosimilitud para un Proceso Gaussiano
AR (p)
En esta sección se analiza un proceso AR (p) Gaussiano,

⋯ , [5.3.1]

Con ∼ . . . 0, . En este caso, el vector de parámetros de población a ser estimado es


, , ,…, , .

Evaluación de la Función de Verosimilitud

Una combinación de los dos métodos descritos para el caso AR (1) se utiliza para calcular
la función de verosimilitud para una muestra de tamaño T para un proceso AR (p). Las primeras p
observaciones en la muestra , ,…, se recogen en un 1 vector , que se ve como la
realización de una variable Gaussiano p-dimensional. La media de este vector es , que denota un
vector 1 cada uno de cuyos elementos está dado por

/ 1 … . [5.3.2]
Sea la matriz de varianza-covarianza de , ,…, :



… [5.3.3.]
⋮ ⋮ ⋮

Por ejemplo, para una autoregresión de primer orden 1 , es el escalar 1/ 1 .


Para una autoregresión general de orden p-iésima,



⋮ ⋮ ⋮ … ⋮

dónde , la j-ésima autocovariancia para un proceso AR (p), se puede calcular usando los métodos
del capítulo 3. La densidad de las primeras p observaciones es entonces la de una variable
, :

. …., , ,…, ;

/ /
2 [5.3.4]

/ / / 1
2
2
,

dónde se ha hecho uso del resultado A. 4.8 .


Para las observaciones restantes en la muestra, , ,…, , puede usarse la
descomposición del error de predicción. Condicionada a las primeras observaciones 1, la
observación t-iésima es Gaussiana con la media

5.3 La Función de Verosimilitud para un Proceso Gaussiano AR(p) 131 

y la varianza . Sólo las p observaciones más recientes son importantes para esta distribución.
Por lo tanto, para ,

‫׀‬ . ….. ‫׀‬ , ,…, ;

‫׀‬ . ….. ‫׀‬ , ,…, ;



.

La función de verosimilitud para la muestra completa es entonces

. …., , ,…, ;

.
, 1
,…, 1
; [5.3.5]
1 …., 1

‫׀‬ 1. 2 …..
‫׀‬ 1, 2, … , ; ,

y la probabilidad de registro es por lo tanto

. …., , ,…, ;

2 [5.3.6]

1 1
2 2


2 2

1 1
2 2

.
2 2

La evaluación de 5.3.6 requiere invertir la matriz . Denota el elemento de la


fila i, columna j de por . Galbraith y Galbraith (1974, ecuación 16, p.70) mostró que

1 ,

[5.3.7]

Donde 1. Valores de para pueden deducirse del hecho que es simétrico


. Por ejemplo, para un proceso AR (1), es un escalar cuyo valor se
encuentra tomando 1:

132 Capítulo 5 | Estimación de Máxima Verosimilitud
1 .

por lo tanto, / 1 , que de hecho reproduce la fórmula para la varianza de un


proceso AR(1). Para 2, la ecuación 5.3.7 implica
1
,
1
Del que se calcula fácilmente

1
1 1 1
1
Y

1
1
1

1 1 2 1
.

La probabilidad de registro exacta para un proceso AR (2) gaussiano es así dada por
1
2 1 1
2 2 2
1 2 1 [5.3.8]

,
2
dónde / 1 .

Estimaciones Condicionales de Probabilidad Máxima


La maximización de la probabilidad de registro exacta para un proceso AR (p) de 5.3.6
debe realizarse numéricamente. En cambio, el log de la probabilidad condicional a las primeras p
observaciones asume la forma simple

log . …., ‫׀‬ ,…, , ,…, ‫׀׀‬ ,…, ;

2 [5.3.9]


.
2
Los valores de , , ,…, que maximizan 5.3.9 son los mismos que los que minimizan

5.3 La Función de Verosimilitud para un Proceso Gaussiano AR (p) 133


[5.3.10]
Así, los parámetros de las estimaciones de máxima verosimilitud condicional pueden obtenerse a
partir de una regresión OLS de sobre una constante y p de sus propios valores rezagados.
La estimación de probabilidad máxima condicional de resulta ser el promedio del cuadrado
residual de esta regresión

1
̂ ⋯ .

Las estimaciones de máxima verosimilitud exacta y las estimaciones de probabilidad máxima


condicional vuelven a tener la misma distribución de grandes muestras.

Estimación de Máxima Verosimilitud para Series Temporales No


Gaussianas

Observamos en el capítulo 4 que una regresión MCO de una variable sobre una constante y
p de sus retrasos daría una estimación consistente de los coeficientes de la proyección lineal,

‫׀‬ , ,…, ,
Siempre que el proceso sea ergódico durante los segundos momentos. Esta regresión MCO
también maximiza la probabilidad de logaritmos condicional gaussiana 5.3.9 . Por lo tanto, incluso
si el proceso es no gaussiano, si erróneamente formamos una función de verosimilitud logarítmica
gaussiana y la maximizamos, las estimaciones ̂ , , ,…, resultantes proporcionarán
estimaciones consistentes de los parámetros de población en 5.3.1 .
Una estimación que maximiza una función de verosimilitud no especificada (por ejemplo,
una MLE calculada bajo el supuesto de un proceso gaussiano cuando los datos verdaderos no son
gaussianos) se conoce como estimación de probabilidad casi máxima. A veces, como resulta ser el caso
aquí, la estimación de probabilidad casi máxima proporciona estimaciones consistentes de los
parámetros de población de interés. Sin embargo, los errores estándar para los coeficientes
estimados que se calculan bajo la hipótesis de gaussianidad no necesitan ser correctos si los datos
verdaderos no son gaussianos2.

Alternativamente, si los datos en bruto no son gaussianos, a veces una simple


transformación, como tomar registros, producirá una serie de tiempo gaussiana. Para una variable
aleatoria positiva , Box y Cox (1964) propusieron la clase general de transformaciones

1
0.
log 0

Una aproximación es escoger un valor particular de y maximizar la función de verosimilitud para


bajo la suposición de que es un proceso ARMA gaussiano. El valor de que está
asociado con el valor más alto de la probabilidad máxima se toma como la mejor transformación.

                                                            
2
 Estos puntos fueron planteados por primera vez por White (1982) y se discuten más adelante en la sección 5.8 y 14.4. 

134 Capítulo 5 | Estimación de Máxima Verosimilitud
Sin embargo, Nelson y Granger (1979) reportaron resultados desalentadores de este método en la
práctica
Li y McLeod (1988) y Janacek y Swift (1990) describieron enfoques de estimación de máxima
verosimilitud para algunos modelos no Gaussianos ARMA. Martin (1981) discutieron datos
robustos de la serie de tiempo para los datos contaminados.

5.4. La Función de Verosimilitud para un Proceso Gaussiano


MA (1)

Función de probabilidad condicional

El cálculo de la función de verosimilitud para una autoregresión resultó ser mucho más
simple si
‫׀‬ ‫׀‬ ;
5.4.4
1 2
.
2 2 2 2

La probabilidad de la muestra sería entonces el producto de estas densidades individuales:

. …. ‫׀‬ , ,…, ‫׀‬ 0 ;

‫ ׀‬0 0 1‫ ׀‬0 0 ; ‫׀‬ 1, 2, … , 1, 0 0 ; .


‫׀‬ 1. 2 …. 1 . 0 0
2

La probabilidad de log condicional es


. …., ‫׀‬ , ,…, ‫׀‬ 0; [5.4.1]

2 .
2 2 2
Para un valor numérico particular de , calculamos la secuencia de implicada por los
datos 5.4.3 . La probabilidad de log condicional 5.4.5 es entonces una función de la suma de
cuadrados de estos . Aunque es simple programar esta iteración por computadora, la probabilidad
de log es una función no lineal bastante complicada de y , de modo que no se calcula fácilmente
una expresión analítica para las estimaciones de máxima verosimilitud de y . Por lo tanto,
incluso las estimaciones de máxima verosimilitud condicional para un proceso MA (1) se deben
encontrar por optimización numérica.
La iteración en 5.4.3 a partir de un valor de inicio arbitrario de dará lugar a


1 1 .

Si | | es sustancialmente menor que la unidad, el efecto de la imposición de 0 se desprenderá


rápidamente y la probabilidad condicional 5.4.4 dará una buena aproximación a la probabilidad
incondicional de un tamaño de muestra razonablemente grande. Por el contrario, si| | 1, las
consecuencias de la imposición de 0 se acumulan con el tiempo. El enfoque condicional no
es razonable en tal caso. Si la optimización numérica de 5.4.5 resulta en un valor de que excede
1 en valor absoluto, los resultados deben ser descartados. La optimización numérica debe ser

5.4 La Función de Verosimilitud para un Proceso Gaussiano MA (1) 135 
intentada de nuevo con el recíproco de utilizado como valor inicial para el procedimiento de
búsqueda numérica.

Función de Probabilidad Exacta


Dos algoritmos convenientes están disponibles para calcular la función de verosimilitud
exacta para un proceso MA (1) Gaussiano. Un enfoque es utilizar el filtro de Kalman discutido en
el capítulo 13. Un segundo enfoque utiliza la factorización triangular de la matriz de varianza-
covarianza. El segundo enfoque se describe aquí.
Como en la sección 5.2, las observaciones sobre pueden ser recogidas en un
1 vector ≡ , ,…, con una matriz de media de ≡ , , … , y una matriz de
varianza y covarianza
Ω .
La matriz de varianza-covarianza para T dibujos consecutivos de un proceso MA (1) es
1 0 … 0
1 … 0
… 0
Ω 0 1
⋮ ⋮ ⋮ … ⋮
… 1
0 0 0

La función de verosimilitud es entonces

/ |Ω| /
; 2 Ω . [5.4.6]
Una descomposición del error de predicción de la probabilidad se proporciona a partir de
la factorización triangular de Ω.
Ω ADA . [5.4.7]

dónde A es la matriz triangular inferior dada en 4.5.18 y D es la matriz diagonal en 4.5.19 .


Sustituyendo 5.4.7 en 5.4.6 se obtiene

/ |ADA | /
; 2

A D A . [5.4.8]

Pero A es una matriz triangular inferior con 1 a lo largo de la diagonal principal. Por lo tanto, |A|
1y
|ADA | |A|. |D|. |A | |D|.

Definición adicional
≡ . [5.4.9]

La probabilidad 5.4.9 puede escribirse


/ |D| /
; 2 D . [5.4.10]
Observe que 5.4.9 implica

La primera fila de este sistema indica que , mientras que la r-ésima fila implica que

136 Capítulo 5 | Estimación de Máxima Verosimilitud
1 ⋯
.
1 ⋯
[5.4.11]

El vector puede ser calculado por iteración en 5.4.11 para 2 , 3, … , partiendo de


. La variable tiene la interpretación como el residuo de una proyección lineal de sobre
una constante y , , … , , mientras que el elemento diagonal r-iésima de D da el MSE de
esta proyección lineal:
1 ⋯
.
1 ⋯
[5.4.12]
Puesto que D es diagonal, su determinante es el producto de los términos a lo largo de la diagonal
de la principal,

| | ,

[5.4.13]

Mientras que la inversa de D se obtiene tomando términos recíprocos a lo largo de la diagonal


principal. Por lo tanto,

[5.4.14]
Sustituyendo 5.4.13 y 5.4.14 en 5.4.10 , la función de verosimilitud es
/
/
1
; 2
2
[5.4.15]

La probabilidad de registro exacta para un proceso MA (1) Gaussiano es por lo tanto

1 1
; log 2 log .
2 2 2

Dados los valores numéricos para , y , la secuencia se calcula iterando en [5.4.11]


comenzando por , mientras que está dado por 5.4.12 .

En contraste con la función de verosimilitud logarítmica condicional 5.4.5 , la expresión


5.4.16 será válida independientemente de si está asociada con una representación invertible
MA (1). El valor de 5.4.16 en ̅, será idéntico a su valor en ̅ , ̅ ;
véase el Ejercicio 5.1.

5.5. La Función de Verosimilitud para un Proceso MA (q)


Gaussiano

Función de Probabilidad Condicional


Para el proceso MA (q),

5.5 La Función de Verosimilitud para un Proceso Gaussiano MA (q) 137 
⋯ , [5.5.1]

un enfoque simple es condicionar en el supuesto de que los primeros valores de q para eran todos
cero:
⋯ 0, [5.5.2]
A partir de estos valores iniciales podemos iterar en
⋯ [5.5.3]

Para 1 , 2, … , . Sea denotado por 1 vector , ,…, . La probabilidad de


log condicional es
. …., ‫׀‬ , ,…, ‫׀‬ 0; [5.5.4]

log 2 log ,
2 2 2
Donde , , ,…, , . De nuevo, la expresión 5.5.4 sólo es útil si todos los valores
de z para los cuales

1 ⋯ 0

fuera del círculo de la unidad.


 

Función de Probabilidad Exacta

La probabilidad exacta es dada por

/ |Ω| /
; 2 Ω , [5.5.5]

dónde como antes ≡ , ,…, y , , … , . Aquí Ω representa la matriz de


varianza-covarianza de T trazos consecutivos de un proceso MA (q):

El elemento de la fila i, columna j de Ω está dado por | | , dónde es la k-ésima autocovariancia


de un proceso MA (q):
⋯ 0,1, … ,
[5.5.7]
0 ,

Donde ≡ 1. De nuevo, la función de verosimilitud exacta 5.5.5 puede evaluarse utilizando el


filtro de Kalman del Capítulo 13 o la factorización triangular de Ω,

138 Capítulo 5 | Estimación de Máxima Verosimilitud
Ω ADA . [5.5.8]

dónde A es la matriz triangular inferior dada por 4.4.11 y D es la matriz diagonal dada por
4.4.7 . Obsérvese que la estructura de bandas de Ω en 5.5.6 hace que A y D sean simples de
calcular. Después de las primeras filas 1 , todas las entradas subsiguientes en la primera
columna de Ω ya son cero, por lo que no es necesario agregar un múltiplo de la primera fila para
hacerlas cero. Por lo tanto, 0 1. De manera similar, más allá de las primeras
2 filas de la segunda columna, no es necesario añadir un múltiplo de la segunda fila para
hacer estas entradas cero, lo que significa que 0 2. Así A es una matriz de
banda triangular inferior con 0 :

1 0 0 0 0

1 0 0 0
1 …
… 0 0
⋮ ⋮ ⋮ … ⋮ ⋮
… 0
. . . 0

0 . . … 0 0
⋮ ⋮ ⋮
⋮ ⋮ …
0 0 0 . 1

Una computadora puede ser programada para calcular estas matrices rápidamente para un valor
numérico dado para .
Al sustituir 5.5.8 en 5.5.5 , la función de verosimilitud exacta para un proceso
Gaussiano de MA (q) se puede escribir como en 5.4.10 :

/ /
1
; 2 |D| D
2
dónde

[5.5.9]

Los elementos de se pueden calcular recursivamente trabajando en las filas de 5.5.9 :




. . ⋯ . .

La función de verosimilitud logarítmica exacta se puede calcular como en 5.4.16 :

[5.5.10]
1 1
log ; 2 log
2 2 2

5.6. La Función de Verosimilitud para un proceso Gaussiano


ARMA (p, q)

Función de Probabilidad Condicional


Un proceso Gaussiano ARMA (p, q) toma la forma

5.6 La Función de Verosimilitud para un Proceso Gaussiano ARMA (p,q) 139 
⋯ [5.6.1]

Dónde ~ . . . 0. . El objetivo es estimar el vector de los parámetros de población


, , ,…, , , ,…, , .
La función de aproximación a la verosimilitud para una autorregresión condicionada a los valores
iniciales de la y’s. La función de aproximación a la verosimilitud para un proceso de media móvil
condicionada a los valores iniciales de la . Una aproximación común a la función de
verosimilitud para una ARMA (p, q) las condiciones del proceso y’s y .

Tomando valores iniciales para ≡ , ,…, ′ y ≡ , ,…, ′ como se


indica, la secuencia {ε1, ε2,…, εT} puede calcularse a partir de {y1, y2, …, yT} iterando en

⋯ [5.6.2]

Para t = 1, 2, …, T. La probabilidad de log condicional es entonces

, ,…, ǀ ∗ , ,…, ǀ , ; [5.6.3]

log 2 log
2 2 2

Una opción es y’s y iguales a sus valores esperados. Es decir, conjunto / 1


⋯ para s = 0, -1, … , -p+1 y establecer εs = 0 para s = 0, -1, … , -q+1, y luego proceder con
la iteración en [5.6.2] para t = 1, 2, … ,T. Alternativamente, Box y Jenkins (1976, p. 211) ajuste
recomendado a cero pero y`s iguales a sus valores reales. Por lo tanto, iteración en [5.6.2] se
inicia en la fecha t = p+1 con y1,y2, … ,yp ajustado a los valores observados y

⋯ 0.
Entonces la probabilidad condicional calculada es
,…, ǀ , … , , 0, … , 0

log 2 log
2 2 2

Como en el caso de los procesos de media móvil. Estas aproximaciones sólo deben utilizarse si los
valores de satisfacción
1 ⋯ 0
Fuera del círculo de unidad

Algoritmos alternativos
El método más sencillo para calcular la función de verosimilitud exacta para un proceso
Gaussiano ARMA es utilizar el filtro de Kalman descrito en el Capítulo 13. Para más detalles sobre
estimación exacta y aproximada de máxima verosimilitud de modelos ARMA, ver Galbraith y
Galbraith (1974). Box y Jenkins (1976. Capítulo 6). Hannan y Rissanen (1982), y Koreisha y Pukkila
(1989).

140 Capítulo 5 | Estimación de Máxima Verosimilitud
5.7. Optimización Numérica

Las secciones anteriores del capítulo han mostrado cómo calcular la función de probabilidad de
logaritmos
, ,…, , ,…, ; [5.7.1]
Para varias especificaciones oh el proceso que ha generado los datos observados y1, y2, …, yT. Dar
los datos observados, las fórmulas dadas se podrían utilizar para calcular el valor de L (θ) para
cualquier valor numérico dado de θ.
Esta sección discute cómo encontrar el valor de que maximiza L (θ) dado que no tiene más
conocimiento que esta capacidad para calcular el valor de L (θ) para cualquier valor particular de θ.
El enfoque general es escribir un producto que pueda utilizar una computadora para calcular el
valor numérico de L (θ) para cualquier valor numérico particular para θ y los datos observados y1,
y2, …, yT. Podemos pensar en este procedimiento como una "caja negra" que nos permite adivinar
algún valor de θ y ver cuál es el valor resultante de L (θ) seria:

Entrada Procedimiento Salida


Calcula

L (θ) 

La idea será hacer una serie de suposiciones diferentes para θ, comparar los valores de L (θ) el valor
para lo cual L (θ) es el más grande. Tales métodos se describen como maximización numérica.

Búsqueda de cuadrícula
El enfoque más simple para la maximización numérica se conoce como el método de
búsqueda de cuadrícula. Para ilustrar este enfoque, supongamos que tenemos datos generados por
un proceso AR (1), para el cual se consideró que la probabilidad de logar estaba dada por [5.2.9].
Para mantener el ejemplo muy sencillo, se supone que se sabe que la media del proceso es cero
(c = 0) y que las innovaciones tienen una varianza unitaria ( 1). El único parámetro
desconocido es el coeficiente autorregresivo , y [5.2.9] simplifica a

log 2 log 1 [5.7.2]


1 1
1
2 2

Supongamos que la muestra observada consiste en lo siguiente T = 5 , observaciones:

0.8 0.2 1.2 0.4 0.0

Si hacemos una suposición arbitraria al valor de , en =0.0, y conectar esta suposición en la


expresión [5.7.2], calculamos que 5.73 a 0.0 . intentando otra suposición =0.1),
calculamos 5.71, en =0.1 - la probabilidad de log es mayor en =0.1 que en 0.0.
Continuando de esta manera, podríamos calcular el valor de para cada valor para entre -0.9
y +0.9 en incrementos de 0.1. Los resultados se presentan en la Figura 5.1. De estos cálculos se
desprende que la función de probabilidad de log se comporta bien con un máximo único en
algún valor de entre 0.1 y 0.3. Podríamos centrarnos en esta subregión del espacio de parámetros

0 141
y evaluar () en una cuadrícula más fina, calculando el valor de para todos los valores de
entre 0.1 y 0.3 en el incremento de 0.02. Procediendo de esta manera, debe ser posible acercarse
arbitrariamente al valor de que maximiza haciendo la cuadrícula más fina y más fina.

Tenga en cuenta que este procedimiento no encuentra el MLE exacta, pero en su lugar
se aproxima con cualquier precisión deseada. En general, este será el caso con cualquier algoritmo
de maximización numérica. Para utilizar estos algoritmos, por lo tanto, tenemos que especificar un
criterio de convergencia, o algunos dicen manera de decidir cuándo estamos lo suficientemente
cerca de la máxima real. Por ejemplo, supongamos que queremos una estimación que difiera de la
verdadera MLE por no más de ±0.0001. Entonces continuaríamos refinando la rejilla hasta que los
incrementos estén en pasos de 0.0001, y la mejor estimación entre los elementos de esa rejilla sería
el MLE numérico de .

Para el ejemplo AR (1) simple en la Figura 5.1, la función de probabilidad de log es


unimodal - hay un valor único θ para el cual / 0. Para un problema de maximización
numérica general, esto no tiene por qué ser el caso. Por ejemplo, supongamos que estamos
interesados en estimar un parámetro escalar θ para el cual la función de verosimilitud de log es tal
como se muestra en la Figura 5.2. El valor θ=-0.6 es un máximo local, lo que significa que la
función de verosimilitud es más alta allí que para cualquier otro θ en un vecindario alrededor de θ =
-0.6. Sin embargo, el máximo global se produce alrededor de θ = 0.2. El método de búsqueda de
cuadrícula debería funcionar bien para una probabilidad unimodal siempre y cuando sea
continua. Cuando hay múltiples máximos locales, la cuadrícula debe ser suficientemente fina para
revelar todas las "colinas" locales sobre la superficie de probabilidad.

Subida más empinada


La búsqueda de cuadrícula puede ser un método muy bueno cuando hay un solo
parámetro desconocido para estimar. Sin embargo, rápidamente se vuelve intratable cuando el
número de elementos de θ Se hace grande. Un método numérico alternativo que a menudo tiene
éxito en maximizar una función continuamente diferenciable de un gran número de parámetros se
conoce como subida más pronunciada.

FIGURA 5.1 Probabilidad de log para un proceso AR (1) para varias guías de ϕ.

142 Capítulo 5 | Estimación de Máxima Verosimilitud
FIGURA 5.2 Función de probabilidad de registro bimodal

Para entender este enfoque, vamos a desestimar temporalmente la naturaleza de la "caja negra" de la
investigación y en su lugar examinar cómo proceder analíticamente con un problema particular de
maximización. Supongamos que tenemos una estimación inicial del vector de parámetro, denotada
, y deseamos llegar a una mejor estimación . Imaginemos que estamos obligados a elegir
para que la distancia al cuadrado entre y sea un número fijo k:

El valor óptimo para elegir para sería entonces la solución al siguiente problema de
maximización restringida:

max ′sujeto a ’

Para caracterizar la solución a este problema, forma el Lagrangeano.

k ’ [5.7.3]
Donde Denota un multiplicador de Lagrange. Diferenciando [5.7.3] con respecto a Y fijar el
resultado igual a cero rendimientos

2 0
[5.7.4]

Sea g(θ) el vector gradiente de la función de verosimilitud logarítmica:

5.7 Optimización Numérica 143


Si hay elementos de θ, entonces es un vector (a x 1) cuyo elemento representa la derivada de
la probabilidad de log con respecto al elemento de θ.
Utilizando esta notación, expresión [5.7.4] se puede escribir como
1/ 2λ ∗ [5.7.5]

La expresión [5.7.5] afirma que si se nos permite cambiar sólo por una cantidad fija, se obtendrá
el mayor incremento en la función de probabilidad de log si se elige el cambio en (la magnitud
) como constante 1/(2λ) a veces el vector de gradiente . Si estamos
contemplando un paso muy pequeño (de modo que k es cercano a cero), el valor se
aproximará . En otras palabras, el vector gradiente da la dirección en la que la
función de probabilidad de log aumenta más abruptamente desde .

Por ejemplo, supongamos que (a = 2) y que la probabilidad de registro sea

1.5 2 . [5.7.6]

Podemos ver fácilmente analíticamente este ejemplo de que el MLE está dado por 0,0 ′.
Utilicemos, sin embargo, este ejemplo para ilustrar cómo funciona el método del ascenso más
empinado. Los elementos del vector de gradiente son

3 4 [5.7.7]

Supongamos que la conjetura inicial es 1,1 . Entonces

3 4
Un aumento en aumentaría la probabilidad, mientras que un aumento en disminuiría la
probabilidad. El vector de gradiente evaluado en es
3
4
De manera que el paso óptimo debería ser proporcional a (3,-4)’. Por ejemplo, con k =
1 elegiríamos
3
5
4
;
5

Es decir, las nuevas suposiciones serían 0.4 y 0.2. Para aumentar la probabilidad
en la mayor cantidad, queremos incrementar y disminuir con respecto a sus valores en la
conjetura inicial . Puesto que un cambio de una unidad en tiene un efecto mayor sobre
que un cambio de una unidad en , el cambio en es mayor en valor absoluto que el cambio en
.
Volvamos ahora a la perspectiva de la caja negra, donde la única capacidad que tenemos es calcular
el valor de para un valor numérico especificado de θ. Podríamos comenzar con una
estimación inicial arbitraria del valor de θ, denotado . Supongamos que entonces calculamos el
valor del vector de gradiente en .
[5.7.8]

Este gradiente podría, en principio, ser calculado analíticamente, diferenciando la expresión general
de con respecto a θ y escribiendo un procedimiento informático para calcular cada elemento
de dados los datos y un valor numérico para θ. Por ejemplo, expresión [5.7.7] podría utilizarse

144 Capítulo 5 | Estimación de Máxima Verosimilitud
para calcular para cualquier valor particular de θ. Alternativamente, si es demasiado difícil
diferenciar analíticamente, siempre podemos obtener una aproximación numérica al
gradiente viendo cómo cambia para un pequeño cambio en cada elemento de θ. En particular,
el i-ésimo elemento de podría ser aproximado por

≅ , ,…, , ∆, , ,…, [5.7.9]


, ,…, , , , ,…, .

Donde ∆ representan arbitrariamente escogió un pequeño escalar tal como ∆ 10 . Mediante el


cálculo numérico del valor de en y en (a) diferentes valores de θ que corresponden a
pequeños cambios en cada uno de los elementos individuales de , se puede descubrir una
estimación del vector completo .
Resultado [5.7.5] sugiere que deberíamos cambiar el valor de () en la dirección del
gradiente, eligiendo

Para algunos escalares positivos s. Una opción adecuada para s podría encontrarse por una
adaptación del método de búsqueda de graduación. Por ejemplo, podríamos calcular los valores de
∗ para s = 1/16, 1/8 , ¼, ½, 1, 2, 4, 8y 16 y elegir como nueva estimación
el valor de ∗ para el cual es mayor. Valores menores o mayores de s
también podrían ser explorados si el máximo parece estar en uno de los extremos. Si ninguno de los
valores de s mejora la probabilidad, entonces se debe probar un valor muy pequeño para s tal como
el valor ∆ 10 utilizado para aproximar la derivada.

Podemos repetir el proceso, tomando ∗ como punto de partida,


evaluando el gradiente en la nueva ubicación , y generando una nueva estimación de
acuerdo con

Para la mejor elección de s. El proceso es iterado, calculando


Para m = 0, 1, 2, … hasta que se cumpla algún criterio de convergencia, como por ejemplo que el
vector gradiente esté dentro de una tolerancia especificada de cero, la distancia entre
y sea menor que un cierto umbral especificado o el cambio entre y
sea menor que Alguna cantidad deseada.
Figure 5.3 ilustran el método del ascenso más empinado cuando θ contiene a = 2 elementos. La
figura muestra las curvas de nivel para la probabilidad de log ; A lo largo de un contorno
dado, la probabilidad de log es constante. Si la iteración se inicia en la estimación inicial ,
el gradiente describe la dirección del ascenso más pronunciado.
Encontrar el paso óptimo en esa dirección produce la nueva estimación . El gradiente en ese
punto determina entonces una nueva dirección de búsqueda en la que se basa una nueva
estimación , hasta que se alcanza la parte superior de la colina.
La figura 5.3 también ilustra una generalización multivariante del problema con múltiples máximos
locales, visto anteriormente en la Figura 5.2. El procedimiento debe converger a un máximo local,

que en este caso es diferente del máximo global θ*. En la figura 5.3, parece que si se usaron
para iniciar la iteración en lugar de , el procedimiento convergería al máximo global real θ*.
Practico la única manera de asegurar que se encuentra un máximo global es comenzar la iteración a
partir de un número de valores iniciales diferentes para y continuar la secuencia desde cada
valor inicial hasta que se descubre la parte superior de la colina asociada con ese valor inicial.

5.7 Optimización Numérica 145


FIGURA 5.3 Continuidad y maximización de la lisilla.

Newton-Raphson
Un inconveniente para el método de ascenso más pronunciado es que puede requerir un
número muy grande de iteración para cerrar en el máximo local. Un método alternativo conocido
como Newton-Raphson a menudo converge más rápidamente siempre y cuando (1) las segundas
derivadas de la función de probabilidad de log exista y (2) la función sea cóncava, lo que
significa que -1 veces la matriz de las segundas derivadas está en todas partes positivo definitivo.
Supongamos que θ es un vector (a x 1) del parámetro a estimar. Sea el vector gradiente de
la función de probabilidad de log en .

y deja denotar -1 veces la matriz de las segundas derivadas de la función log verosimilitud

.

Considere aproximar con una serie de Taylor de segundo orden alrededor de :

≅ θ θ θ . [5.7.10]

La idea detrás del método de Newton-Raphson es elegir θ para maximizar [5.7.10]. Establecer la
derivada de [5.7.10] con respecto a θ igual a cero resulta en

θ 0
[5.7.11]

Deje denotan una conjetura inicial en cuanto al valor de θ. Se puede calcular la derivada de la
probabilidad de log en esa estimación inicial ( ) ya sea analíticamente, como en [5.7.7], o
numéricamente, como en [5.7.9]. También se pueden utilizar métodos analíticos o numéricos para
calcular el negativo de la matriz de las segundas derivadas en la conjetura inicial . La
expresión [5.7.11] sugiere que una estimación mejorada de θ (denote ) satisface

146 Capítulo 5 | Estimación de Máxima Verosimilitud
o


[5.7.12]
Uno podría calcular el gradiente siguiente y Hessian en y usarlos para encontrar una nueva
estimación y continuar iterando de esta manera. El paso mth en la iteración actualiza la
estimación de θ utilizando la fórmula


[5.7.13]
Si la función de probabilidad de log pasa a ser una función cuadrática perfecta, entonces [5.7.10] se
mantiene exactamente y [5.7.12] generará el MLE exacto en un solo paso:

Si la aproximación cuadrática es razonablemente buena, Newton - Raphson debe converger


al máximo local más rápidamente que el método de ascenso más pronunciado. Sin embargo, si la
función de verosimilitud no es cóncava, Newton -Raphson se comporta bastante mal. Por lo tanto,
el ascenso más pronunciado es a menudo más lento para converger, pero a veces demuestra ser más
robusto en comparación con Newton - Raphson.
Dado que [5.7.10] normalmente es sólo una aproximación a la verdadera función de
verosimilitud, la iteración en [5.7.13] se modifica a menudo como sigue. La expresión [5.7.13] se
toma para sugerir la dirección de búsqueda. A continuación, se calcula el valor de la función de
verosimilitud de log en varios puntos en esa dirección, y el mejor valor determina la longitud del
paso. Esta estrategia requiere reemplazar [5.7.10] por

[5.7.14]
Donde s es un escalar que controla la longitud del paso. Uno calcula y el valor asociado
para la probabilidad de log para varios valores de s en [5.7.14] y elige como estimación
el valor que produce el mayor valor para la probabilidad de log.

Davidon - Fletcher - Powell


Si θ contiene parámetros desconocidos, entonces la matriz simétrica H(θ) tiene a (a + 1) / 2
elementos separados. El cálculo de todos estos elementos puede requerir mucho tiempo si a es
grande. Un enfoque alternativo razona de la siguiente manera. La matriz de las segundas derivadas
(-H(θ)) corresponde a las primeras derivadas del vector gradiente (g(θ)), que nos dicen cómo g(θ)
cambia a medida que θ cambia. Obtenemos información independiente acerca de esto comparando
con . Esto es suficiente información no y por sí mismo para estimar
H(θ), pero es información que podría utilizarse para actualizar una estimación inicial sobre el valor
de H(θ). Por lo tanto, en lugar de evaluar H(θ) directamente en cada iteración, la idea será comenzar
con una conjetura inicial sobre H(θ) y actualizar la conjetura únicamente sobre la base de cuánto θ
cambia entre iteraciones, dada la magnitud del cambio en θ. Tales métodos se describen a veces
como Newton-Raphson modificado.
Uno de los métodos Newton - Raphson modificados más populares fue propuesto por
Davidon (1959) y Fletcher y Powell (1963). Puesto que es H en lugar de H que aparece en la
fórmula de actualización [5.7.14], el algoritmo Davidon-Fletcher-Powell actualiza una estimación de
H en cada paso sobre la base del tamaño del cambio en g(θ) relativo al cambio en θ.

5.7 Optimización Numérica 147


Específicamente, denotan una estimación de θ que se ha calculado en la iteración m, y
una estimación de . La nueva estimación está dada por


[5.7.15]

Para s el escalar positivo que maximiza . Una vez y el gradiente


en se han calculado, se obtiene una nueva estimación de

∆ ∆ ′

∆ ′ ∆
[5.7.16]

∆ ∆ ′
∆ ′ ∆
donde

∆ ≡

∆ ≡

En qué sentido debe ser calculado de [5.7.16] como una estimación de la inversa de
?. Consideremos primero el caso cuando θ es un escalar (a = 1). Entonces [5.7.16]
simplifica a

∆ ∆
∆ ∆ ∆




en este caso,

Que es la aproximación natural discreta a

Más generalmente (para a> 1), una estimación de la derivada de g (·) debería estar relacionada con
el cambio observado en g (·) de acuerdo con


es decir,

148 Capítulo 5 | Estimación de Máxima Verosimilitud
o

∆ ≅ ∆

De ahí una estimación de debe satisfacer

∆ ∆
[5.7.17]
Después de la multiplicación de [5.7.16] por ∆ confirma que [5.7.17] está realmente
satisfecho por la estimación de de Davidon - Fletcher – Powell.

∆ ∆

∆ ∆ ′ ∆
∆ ′ ∆

∆ ∆ ′ ∆
∆ ′ ∆

∆ ∆ ∆


Así, el cálculo de [5.7.16] produce una estimación de que es consistente con la
magnitud del cambio observado entre y dado el tamaño del cambio entre
y .
La siguiente proposición (demostrada en el Apéndice 5. A al final del capítulo) establece algunas
otras propiedades útiles de la fórmula de actualización [5.7.16].

Proposición 5.1: (Fletcher y Powell (1963)). Considere , donde : → tiene continuas primeras
derivadas denotadas
.

Supongamos que algún elemento de es distinto de cero y de una matriz simétrica definida (a x a)
positiva. Entonces, lo siguiente.
(a) Existe un escalar s > 0 tal que > para
[5.7.18]
(b) Si s en [5.7.18] se elige para maximizar , entonces las condiciones de primer orden para un
máximo interior implican que
′ 0 [5.7.19]
(c) Siempre que [5.7.19] se mantenga y que algún elemento de sea distinto de cero,
entonces descrito por [5.7.16] es una matriz simétrica definida positiva.

El resultado (a) establece que mientras no se encuentre ya en un óptimo ( 0),


existe un paso en la dirección sugerida por el algoritmo que aumentará la probabilidad adicional,
siempre que sea una matriz definida positiva.
El resultado (c) establece que siempre que la iteración se comience con una matriz definida
positiva, entonces la secuencia de matrices debe ser definida positiva, lo que significa
que cada paso de la iteración debe aumentar la función de verosimilitud. Un procedimiento
estándar es iniciar la iteración con , la (a x a) matriz de identidad.

Si la función )es exactamente cuadrática, de modo que

5.7 Optimización Numérica 149


1
′θ θ θ .
2

Con definido positivo, entonces Fletcher y Powell (1963) mostraron que la iteración en [5.7.15] y
[5.7.16] convergerá al máximo global verdadero en a pasos
;

Y la matriz de ponderación convergerá a la inversa de -1 veces la matriz de las segundas derivadas:


De manera más general, es bien aproximado por una función cuadrática, entonces el
procedimiento de búsqueda Davidon - Fletcher - Powell debe acercarse al máximo global más
rápidamente que el método de ascenso más pronunciado,


Para el N grande, mientras que debería converger al negativo de la matriz de las segundas
derivadas de la función de verosimilitud:



[5.7.20]
En la práctica, sin embargo, la aproximación en [5.7.20] puede ser algo pobre, y es mejor evaluar la
matriz de derivadas secundarias para calcular errores estándar, como se analiza en la Sección 5.8.
Si la función no es globalmente cóncava o si el valor inicial está lejos del máximo real, el
procedimiento de Davidon - Fletcher - Powell puede hacer muy mal.
Si se encuentran problemas, a menudo ayuda a probar un valor de inicio diferente ,a
cambiar la escala de los datos o parámetros para que los elementos de θ estén en unidades
comparables, o para reescalar la matriz inicial por ejemplo estableciendo

1 10

Otros métodos de Optimización Numérica


Está disponible una variante de otros métodos de Newton - Raphson modificados que
utilizan técnicas alternativas para actualizar una estimación de o su inversa. Dos de los
métodos más populares son los de Broyden (1965, 1957) y Berndt, Hall, Hall y Hausman (1974). El
Juez, Griffiths, Hill y Lee (1980, págs. 719-72) y Quandt (1983) proporcionan una serie de
encuestas sobre éstos y una variedad de otros enfoques.
Obviamente, estos mismos métodos se pueden usar para minimizar una función Q(θ) con
respecto a θ. Simplemente multiplicamos la función objetivo por -1 y luego maximizamos la
función -Q(θ).

5.8. Inferencia Estadística con Estimación de Máxima


Verosimilitud

La sección anterior discutió maneras de encontrar la máxima probabilidad como dado sólo la
habilidad numérica para evaluar la función de probabilidad de log . Esta sección resume los
enfoques generales que pueden usarse para probar una hipótesis acerca de θ. La sección resume
simplemente una serie de resultados útiles sin proporcionar ninguna prueba. Volveremos a estos

150 Capítulo 5 | Estimación de Máxima Verosimilitud
temas con mayor profundidad en el Capítulo 14, donde se desarrollará la base estadística detrás de
muchas de estas reivindicaciones.
Sin embargo, antes de detallar estos resultados, vale la pena llamar la atención sobre dos de
los principales supuestos detrás de las fórmulas presentadas en esta sección. En primer lugar, se
supone que los datos observados son estrictamente estacionarios. En segundo lugar, se supone que
ni la estimación ni el valor verdadero caen en un límite del espacio de parámetro permisible.
Por ejemplo, supongamos que el primer elemento de θ es un parámetro que corresponde a la
probabilidad de un evento particular, que debe estar entre 0 y 1. Si el evento no ocurrió en la
muestra, la estimación de probabilidad máxima de la probabilidad podría ser Ero Este es un
ejemplo donde la estimación cae en el límite del espacio de parámetro permisible, en cuyo caso
las fórmulas presentadas en esta sección no serán válidas.

Errores Estándar Asintóticos para Máxima Verosimilitud


Si el tamaño de la muestra T es suficientemente grande, a menudo resulta que la
distribución de la estimación de máxima verosimilitud puede aproximarse bien mediante la
distribución siguiente:
, j
[5.8.1]
Donde denota el vector de parámetro verdadero. La matriz j se conoce como matriz de
información y se puede estimar de dos maneras.

La segunda estimación derivada de la matriz de información es

̂

[5.8.2]
Aquí denotan la probabilidad de registro

log | | ;

Y , denota la historia de las observaciones sobre y obtenidas hasta la fecha t. La matriz de


segundas derivadas de la probabilidad de log se calcula a menudo numéricamente. Sustituyendo
[5.8.2] en [5.8.1], los términos que implican el tamaño de la muestra T se anulan para que la matriz
de varianza-covarianza de pueda ser aproximada por

′≅

[5.8.3]

Una segunda estimación de la matriz de información j en [5.8.1] se denomina estimación del


producto exterior:

̂ , , ′

[5.8.4]
Aquí , denota el vector (a x 1) de las derivadas del log la densidad condicional de la
observación t- iésima con respecto a los elementos a del vector de parámetros θ, con esta derivada
evaluada en la estimación de máxima verosimilitud :

log | , ,…;
, |

5.8 Inferencia Estadística con Estimación de Máxima Verosimilitud 151


En este caso, la matriz de varianza - covarianza de es aproximada por

′≅ , , ′

Como una ilustración de cómo se pueden utilizar aproximaciones, supongamos que la


probabilidad de log es dada por la expresión [5.7.6]. Para este caso, se puede ver analíticamente que

3 0
,
′ 0 4

Y por tanto el resultado [5.8.3] sugiere que la varianza de la estimación de máxima verosimilitud
puede ser aproximada por 1/4. El MLE para este ejemplo fue 0. Así, una el intervalo de
confianza aproximado del 95% para está dado por

0 2 1/4 1.

Tenga en cuenta que a menos que los elementos fuera de la diagonal de ̂ sean cero, en
general uno necesita calcular todos los elementos de la matriz ̂ e invertir esta matriz completa para
obtener un error estándar para cualquier parámetro dado.
¿Qué estimación de la matriz de información, ̂ o ̂ , es mejor utilizar en la práctica? La
expresión [5.8.1] en sólo una aproximación a la distribución de , y ̂ y ̂ son a su vez sólo
aproximaciones al verdadero valor de j. La teoría que justifica estas aproximaciones no da ninguna
orientación clara a la cual es mejor usar, Y típicamente, los investigadores dependen de cuál sea la
estimación de la matriz de información más fácil de calcular. Si las dos estimaciones difieren
mucho, esto puede significar que el modelo está mal especificado. White (1982) desarrolló una
prueba general de las bases de especificación del modelo sobre esta idea. Una opción para construir
errores estándar cuando las dos estimaciones difieren significativamente es usar los errores
estándares de "casi-máxima verosimilitud" discutidos al final de esta sección.

Prueba de Razón de Verosimilitud


Otro método popular para probar hipótesis sobre parámetros que se estiman por máxima
verosimilitud es la prueba de razón de verosimilitud. Supongamos que una hipótesis nula implica un
conjunto de m diferentes restricciones sobre el valor del vector de parámetros (a x 1). Primero,
maximizamos la función de verosimilitud ignorando estas restricciones para obtener la estimación
de máxima verosimilitud sin restricciones θ. A continuación, encontramos una estimación que
hace que la probabilidad sea lo más grande posible mientras se siguen satisfaciendo todas las
restricciones. En la práctica, esto se logra generalmente definiendo un nuevo [(a – m) x 1] vector
en términos del cual todos los elementos de θ se pueden expresar cuando se cumplen las
restricciones. Por ejemplo, si la restricción es que los últimos m elementos de θ son cero, entonces λ
consiste en los primeros elementos a-m de θ. Deja denotar el valor de la función de
verosimilitud de log en la estimación no restringida, y deja ̅ denotan el valor de la función de
probabilidad de log en la estimación restringida. Claramente ̅ , y a menudo demuestra
ser el caso de que
2 ̅ [5.8.5]
Por ejemplo, supongamos que a = 2 y nos interesa probar la hipótesis de que 1. Bajo
esta hipótesis nula el vector , ′ puede ser escritas como (λ, λ+1)’, donde λ= . Suponga que
la probabilidad de log es dada por la expresión [5.7.6]. Se puede encontrar el MLE restringido
reemplazando por 1y maximizando la expresión resultante con respecto a :
̅ 1.5 2 1
La condición de primer orden para la maximización de ̅ es
3 4 1 0

152 Capítulo 5 | Estimación de Máxima Verosimilitud
o 4/7. El MLE restringido es así ̅ , ′, y el valor máximo alcanzado para la
probabilidad de log mientras que satisface la restricción es
̅ .
3∗4 / 2∗7∗7 4 3
6/7
El MLE sin restricciones es ̅ 0, atr que . Por lo tanto, [5.8.5] sería

12
2 ̅ 1.71
7
La prueba aquí implica una sola restricción, por lo que m = 1. En la Tabla B.2 del Apéndice B, la
probabilidad de que una variable (1) exceda a 3.84 es 0.05. Desde 1,71 <3,84, aceptamos la
hipótesis nula de que 1 en el nivel de significación del 5%.

Prueba multiplicadora lagrange


Con el fin de utilizar los errores estándar de [5.8.2] o [5.8.4] para probar una hipótesis sobre θ, sólo
tenemos que encontrar el MLE sin restricciones. Para utilizar la prueba de razón de verosimilitud
[5.8.5], es necesario encontrar tanto el MLE como el MLE restricto. La prueba del
multiplicador de Lagrange proporciona un tercer principio con el cual probar una hipótesis nula
que requiere solamente el MLE limitado ̅ . Esta prueba es útil cuando es más fácil calcular la
estimación restringida ̅ que la estimación no restringida .

log | , ,…;
̅, ̅

La prueba del multiplicador de Lagrange de la hipótesis nula de que las restricciones son verdaderas
viene dada por el siguiente estadístico:

̅, ′ ̅,

[5.8.6]

Si la hipótesis nula es verdadera, entonces para T grande debería tener aproximadamente una
distribución (m). La matriz de información j se puede estimar nuevamente como en [5.8.2] o
[5.8.4] con reemplazar por ̅

Errores estándar de casi máxima probabilidad


Se mencionó anteriormente en esta sección que si los datos fueron realmente generados a partir de
la densidad asumida y el tamaño de la muestra es suficientemente grande, la estimación de la
segunda derivada ̂ y la estimación del producto externo ̂ de la matriz de información deberían
ser razonablemente claras El uno al otro. Sin embargo, la estimación de máxima verosimilitud
puede ser una forma razonable de estimar parámetros incluso si los datos no fueron generados por
la densidad asumida. Por ejemplo, observamos en la sección 5.2 que el MLE condicional para un
proceso de Gaussiano AR(1) se obtiene a partir de una regresión OLS de on . Esta
regresión OLS es a menudo una manera muy sensible para estimar el parámetro de un proceso
AR(1), incluso si las innovaciones verdaderas no son i.i.d. Gaussiano Aunque la máxima
verosimilitud puede arrojar una estimación razonable de θ, cuando las innovaciones no son i.i.d.
Gaussiano, los errores estándar propuestos en [5.8.2] o [5.8.4] ya no pueden ser válidos. Una matriz
de varianza - covarianza aproximada para que a veces es válida incluso si la densidad de
probabilidad es mal especificada es dada por

5.8 Inferencia Estadística con Estimación de Máxima Verosimilitud 153


′≅ , [5.8.7]

Esta matriz de varianza - covarianza fue propuesta por White (1982), quien describió este enfoque
como la estimación de casi máxima verosimilitud.

5.9. Restricciones de desigualdad

Una trampa común con maximización numérica


Supongamos que deberíamos aplicar uno de los métodos discutidos en la Sección 5.7 como
el ascenso más pronunciado a la probabilidad AR(1) [5.7.2]. Comenzamos con una suposición
inicial arbitraria, digamos 0.1. Calculamos el gradiente en este punto, y encontramos que es
positivo. La computadora entonces se programa para intentar mejorar esta estimación evaluando la
probabilidad de log en los puntos descritos por ∗ para varios valores de
s., Viendo lo que funciona bests. Pero si el coputer intentara un valor para s tal que
∗ 1.1, el cálculo de [5.7.2] implicaría encontrar el log de (1-1.1 )=-0.21. Intentar
calcular el registro de un número negativo normalmente sería un error de ejecución fatal, causando
que el procedimiento de búsqueda se bloquee.

A menudo tales problemas se pueden evitar usando procedimientos de Newton-Raphson


modificados, siempre que la estimación inicial se elija sabiamente y siempre que el área de
búsqueda inicial se mantenga bastante pequeña. Esto último se puede lograr estableciendo la matriz
de ponderación inicial en [5.7.15] y [5.7.16] igual a un pequeño múltiplo de la matriz de
identidad, como 1 10 ∗ . En iterariones posteriores el algoritmo debe utilizar la
forma de la función de verosimilitud en la vecindad del máximo para mantener la búsqueda
conservadora. Sin embargo, si el verdadero MLE está cerca de uno de los límites (por ejemplo, si
0.998 en el ejemplo AR (1), será prácticamente imposible mantener un algoritmo
numérico para explorar lo que sucede cuando es mayor que la unidad, lo que sería inducir un
accidente fatal.

Resolviendo el Problema Reparametrizando la Función de Verosimilitud


Una manera simple de asegurar que una búsqueda numérica permanezca siempre dentro de
ciertos límites especificados es reparameterizar la función de verosimilitud en términos (a x 1)de un
vector λ para el cual , donde la función : → incorpora las restricciones deseadas.
El esquema es entonces como sigue

Ejecutar Procedimiento Salida


Θ = g(λ);

calcula (θ)  g(λ)

Por ejemplo, para asegurar que ϕ es siempre entre ±1, podríamos tomar

| |
[5.9.1]

El objetivo es encontrar el valor de λ que produce el mayor valor para la probabilidad de log.
Comenzamos con una conjetura inicial como λ=3. El procedimiento para evaluar la función de
probabilidad de log calcula primero

154 Capítulo 5 | Estimación de Máxima Verosimilitud
3/ 1 3 0.75

Y luego encuentra el valor para la probabilidad de log asociada con este valor de ϕ de [5.7.2]. No
importa qué valor para λ la computadora adivina, el valor de ϕ en [5.9.1] siempre será menor que 1
en valor absoluto y la verosimilitud función será bien definido. Una vez que hemos encontrado el
valor de que maximiza la función de verosimilitud, la estimación de máxima verosimilitud de ϕ es
entonces dada por

1
Esta técnica de reparameterizar la función de verosimilitud de forma que los estimados siempre
satisfacen las restricciones necesarias a menudo es muy fácil de implementar. Sin embargo, se debe
mencionar una nota de precaución. Si un error estándar se calcula a partir de la matriz de las
segundas derivadas de la probabilidad de log como en [5.8.3], y representa el error estándar de ,
no el error estándar de . Para obtener un error de stardard para ., el mejor enfoque es primero
reparameterizar en términos de λ para calcular la matriz de derivadas secundarias evaluadas en .
para obtener el error estándar final para . del error estándar para Sobre la fórmula para una
prueba de Wald de una hipótesis no lineal descrita en el Capítulo 14

Parametrizaciones para una matriz de Varianza - covarianza


Otra restricción común que se necesita imponer es que un parámetro de varianza sea positivo.
Una manera obvia de lograr esto es parametrizar la verosimilitud en términos de λ que representa
±1 veces la desviación estándar. El procedimiento para evaluar la probabilidad de log entonces
comienza cuando este parámetro λ:

Y si la desviación estándar se llama, se calcula como

Más generalmente, Ω denotan una matriz de varianza-covarianza (n x n):



Ω ⋮ ⋮ ⋯ ⋮

Aquí es necesario imponer la condición de que Ω es positiva definida y simétrica. El mejor enfoque
es parametrizar Ω en términos de n(n+1) /2 elementos distintos de la descomposición de Cholesky
de Ω:

Ω PP′ [5.9.2]

donde

0 0 ⋯ 0
0 ⋯ 0
⋮ ⋮ ⋮ ⋯ ⋮

5.9 Restricciones de desigualdad 155


Sin importar los valores que el ordenador adivine para , ,…, la matriz Ω calculada a
partir de [5.9.2] será simétrica y semidefinida positiva.

Parametrizaciones para probabilidades


Algunas veces el parámetro desconocido son las probabilidades , ,…, que deben satisfacer
las restricciones
0 1 para i 1, 2, … , k.

⋯ 1
En este caso, un enfoque es parametrizar las probabilidades en términos de , ,…, , donde

/ 1 ⋯ P ara i 1, 2, … , k 1

1/ 1 ⋯

Restricciones de desigualdad más generales


Para las restricciones de desigualdad más complicadas que no admiten una reparameterización
simple, un enfoque que a veces funciona es poner una declaración de ramificación en el
procedimiento para evaluar la función de probabilidad de log. El procedimiento primero
comprueba si la restricción está satisfecha. Si lo es, entonces la función de verosimilitud se evalúa
de la manera habitual. Si no es así, el procedimiento devuelve un número negativo grande en lugar
del valor de la función de verosimilitud de log. A veces, tal enfoque permitirá que un MLE que
satisface las condiciones especificadas se encuentre con simples procedimientos de búsqueda
numérica.
Si estas medidas resultan inadecuadas, algoritmos más complicados están disponibles. El juez
Griffiths, Hill y Lee (1980, pp. 747-49) describió algunos de los posibles enfoques.

APENDICE 5.A. Pruebas de las proposiciones del capítulo 5


Pruebas de proposiciones 5.1

(a) Teorema de Taylor,


≅ ,
[5.A.1]
Sustituyendo [5.7.18] dentro [5.A.1]
,
[5.A.2]

Puesto que es definida positiva y puesto que 0, la expresión [5.A.2] establece que
,

Donde 0. Además ∗ , → 0 como s → 0. Por lo tanto, existe un s tal


que 0, como se reivindica.
(b) La diferenciación directa revela

156 Capítulo 5 | Estimación de Máxima Verosimilitud
[5.A.3]

Con la última línea que sigue a [5.7.18]. Las condiciones de primer orden estabelecidas [5.A.3]
iguales a cero, lo que implica
0

Con la última línea siguiendo de nuevo desde [5.7.18]. Esto establece la reclamación en [5.7.19]

(c) Sea y cualquier vector (a x 1) distinto de cero. La tarea es mostrar que ′ 0

′ ∆ ∆ ′
′ ′
∆ ′ ∆
′ ∆ ∆ ′

∆ ′ ∆
[5.A.4]
Puesto que es definida positiva, existe una matriz no singular P tal que
PP′
Definir

≡ ′

≡ ′∆
Entonces [5.A.4] se puede escribir
′ ′ ∆ ∆ ′ ′
′ ′ ′
∆ ′ ′ ∆
′ ∆ ∆ ′

∆ ′ ∆
[5.A.5]
∗ ∗ ∗ ∗
∗ ∗
∆ ∆
∗ ∗ ∆ ∆

Recordando la ecuación [4.A.6], los dos primeros términos de la última línea de [5.A.5] representan
la suma de los cuadrados de una regresión OLS de ∗ sobre ∗ . Esto no puede ser negativo.
∗ ∗ ∗ ∗
∗ ∗
∗ ∗
0
[5.A.6]

Sería igual a cero sólo si la regresión OLS tiene un perfecto ∗ ∗


o ′ ∆ para
algunos β. Dado que P es no singular, la expresión [5.A.6] sólo sería cero si ∆ para
algunos β. Considere dos casos.
Caso 1. No hay β tal que ∆ . Si este caso, la desigualdad [5.A.6] es estricta y [5.A.5]
implica
′ ∆
′ 0
∆ ′ ∆

Desde ′ ∆ 0, se sigue que ′ 0, siempre que


∆ ∆ 0 [5.A.7]
Pero de [5.7.19],
∆ ∆ ′ ∆
′ ∆ [5.A.8]

Apéndice 5.A. Pruebas de las Proposiciones del Capítulo 5 157
Con la última línea que sigue a [5.7.18]. Pero el término final en [5.A.8] debe ser negativo, en virtud
de los hechos que es positivo definido, s> 0, amd 0. Por lo tanto, [5.A.7] tiene, lo
que significa que es positivo definido para este caso.
Caso 2. No hay β tal que ∆ . Si este caso, [5.A.6] es cero, de modo que [5.A.6] se
convierte
′ ∆ ∆ ′

∆ ′ ∆
∆ ′ ∆ ∆ ′ ∆
∆ ′ ∆
∆ ∆ ′ 0,

como en [5.A.8]

Capítulo 5 Ejercicios
5.1 Muestran que el valor de [5.4.16] en ̅, es idéntico a su valor en ̅ ,
̅

5.2 Verifique que la expresión [5.7.12] calcule el máximo de [5.7.6] en un solo paso desde la
estimación inicial 1,1 .

5.3 Dejar (y1, y2, …, yT.) ser una muestra de tamaño T dibujar a partir de un i.i.d. N ( , )
distribución

(a) Muestran que las estimaciones de máxima verosimilitud son dadas por

(b) Muestran que la matriz ̂ en [5.8.2] es

1 0
̂ 1
0 2

(c ) Muestran que para este resultado de muestra [5.8.1] sugiere

̂ 0
,
0 2

Capítulo 5 Referencias
Anderson, Brian D.O., y John B, Moore. 1979. Filtrado óptimo. Englewood Cliffs, N.J .: Prentice-
Hall.
Berndt, E.K., B. H. Hall, y J. A. Hausman. 1974. “Estimación e inferencia en modelos estructurales
no lineales”. De la medición económica y social 3:653-65.

158 Capítulo 5 | Estimación de Máxima Verosimilitud
Box, George E P y D R Cox 1964. “Un análisis de las transformaciones”. Diario de la serie real de
la sociedad estadística B, 26: 211-52
Y Gwilym M Jenkins. 1976. Análisis de series temporales: pronóstico y control, rev. Ed. San
francisco: Día de Holden
Broyden. C. G. 1965. "Una clase de métodos para resolver ecuaciones simultáneas no lineales".
Matemáticas de Computación 21: 368-81.
Chiang, Alpha C. 1974. Métodos Fundamentales de la Economía Mhematical, 2d ed. Nueva York:
McGraw-Hill.
Davidon, W.C. 1959. "Métodos Metálicos Vaeiable de Minimización". A.E.C. Informe de
investigación y desarrollo ANL-5990 (rev.).
Fletcher, R. y M. J. D. Powell. 1963. "Un Método de Descenso Rapidamente Convergergente para
la Minimización". Computer Journal 6: 163 - 68.
Galbraith, R.F., y J.I. Galbraith. 1974. "Sobre las inversiones de algunas matrices modeladas que
surgen en la teoría de series de tiempo estacionarias". Revista de Probabilidad Aplicada11: 63-71
Nelson, Harold L., y C. W. J. Granger. 1979. "Experiencia con el uso de la transformación de Box-
Cox cuando se pronostican series de tiempos económicos". Journal of Econometrics 10: 57-69.
Quandt, Richard E. 1983. "Computacional problemas y métodos", en Zvi Griliches y Michael D.
Intriligator, eds. Manual de Econometría, Vol. 1. Amsterdam: Norte de Holanda.White. Halbert.
1982. "Estimación de Máxima Verosimilitud de Modelos Perdidos". Econometrica 50: 1-25.

Capítulo 5 Referencias 159
6

Análisis Espectral
Hasta este punto en el libro, el valor de una variable 𝑌𝑡 , en compañía de t ha sido típicamente
descrito en términos de una secuencia de innovaciones {𝜀}∞
𝑡=−∞ en modelos de la forma.

𝑌𝑡 = 𝜇 + ∑ 𝜓𝑗 𝜀𝑡−𝑗
𝑗=0
El enfoque se ha centrado en las implicaciones de tal representación para la covarianza entre 𝑌𝑡 ,y
𝑌𝜏 con distintos acompañantes como t y 𝜏 . Esto es conocido como el análisis de propiedades de
{𝑌𝑡 }∞
𝑡=−∞ en el dominio temporal.
Este capítulo, en cambio describe el valor de 𝑌𝑡 , como una suma ponderada de funciones periódicas
de la forma cos(𝜔𝑡) y 𝑠𝑒𝑛(𝜔𝑡) , donde 𝜔 denota una frecuencia particular:
𝜋 𝜋
𝑌𝑡 = 𝜇 + ∫ 𝛼(𝜔). cos(𝜔𝑡) 𝑑𝜔 + ∫ 𝛿(𝜔). 𝑠𝑒𝑛(𝜔𝑡)𝑑𝜔
0 0
El objetivo será determinar cómo los ciclos importantes de frecuencias
diferentes están en explicar el comportamiento de 𝑌𝑡 . Esto es conocido como dominio de la
frecuencia o análisis espectral. Como veremos, los dos tipos de análisis no son mutuamente
exclusivos. Cualquier proceso de covarianza estacionaria tiene una representación de dominio
temporal y una de dominio frecuencial, y cualquier función de los datos que puedan ser descritos
por una representación, puede ser igualmente bien descrita por la otra representación. Para algunas
funciones, la descripción del dominio temporal puede ser más sencilla, mientras para otras
funciones la descripción del dominio frecuencial es la más sencilla.

La sección 6.1 describe las propiedades del espectro poblacional e introduce el teorema de la
representación espectral, mientras puede ser considerado como una versión del dominio
frecuencial de la teoría de Wold. La sección 6.2 presenta el modelo análogo del espectro
poblacional y utiliza un marco de regresión de Mínimos Cuadrados Ordinarios (MCO) para
provocar el teorema de la representación espectral y explicar el sentido en el cual el modelo
espectral identifica las contribuciones a la varianza de los datos observados de componentes
periódicos con ciclos diferentes. La sección 6.3 habla de estrategias para estimar el espectro
poblacional. La sección 6.4 presenta un ejemplo de la aplicación de técnicas espectrales y comenta
sobre algunas de las maneras en que pueden ser utilizadas en la práctica. Las discusiones más
detalladas sobre análisis espectral son proporcionadas por Anderson (1971), Bloomfield (1976) y
Fuller (1976).

6.1. Espectro poblacional

El espectro poblacional y sus propiedades


Sea {𝑌𝑡 }∞
𝑡=−∞ un modelo de covarianza estacionaria con significado 𝐸(𝑌𝑡 ) = 𝜇 y j-ésimo
autocovarianza.

160 Capitulo 6 | Análisis Espectral


𝐸(𝑌𝑡 − 𝜇)(𝑌𝑡−𝑗 − 𝜇) = 𝑌𝑗

Asumiendo que estas autocovarianzas son absolutamente sumatorias, la función de autocovarianza


generada es dada por:

𝑔𝛾 (𝑧) = ∑ 𝛾𝑗 𝑧 𝑗
𝑗=−∞
[6.1.1]
Donde z denota un escalar complejo. Si [6.1.1] es dividido por 2𝜋 y valorado en algún z
representado 𝑧 = ℯ −𝑖𝜔 para 𝑖 = √−1 y 𝜔 un escalar real , el resultado es llamado espectro
poblacional de Y:

1 −𝑖𝜔
1
𝑆𝛾 (𝜔) = 𝑔 (ℯ ) = ∑ 𝛾𝑗 ℯ −𝑖𝜔𝑗
2𝜋 𝛾 2𝜋
𝑗=−∞
[6.1.2]
Tomando en cuenta que el espectro es una función de 𝜔: dado cualquier valor en particular de 𝜔 y
una secuencia de autocovarianza {𝑌𝑗 }∞
𝑗=−∞ , podríamos calcular en un principio el valor de
𝑆𝛾(𝜔) .
El teorema de De Moivre nos permite escribir ℯ −𝑖𝜔𝑗 como:

ℯ −𝑖𝜔𝑗 = cos(𝜔𝑗) − 𝑖. 𝑠𝑒𝑛(𝜔𝑗) [6.1.3]


Sustituyendo [6.1.3] en [6.1.2], parece que el espectro puede ser equivalentemente escrito

1
𝑆𝛾 (𝜔) = ∑ 𝛾𝑗 [cos(𝜔𝑗) − 𝑖. 𝑠𝑒𝑛(𝜔𝑗)]
2𝜋
𝑗=−∞
[6.1.4]

Tome en cuenta que por un proceso de covarianza estacionaria, 𝛾𝑗 = 𝛾−𝑗 .Por consiguiente, [6.1.4]
implica

1 1
𝑆𝛾 (𝜔) = 𝛾 [cos(0) − 𝑖. 𝑠𝑒𝑛(0)] + {∑ 𝛾𝑗 [ cos(𝜔𝑗) + cos(−𝜔𝑗) − 𝑖. 𝑠𝑒𝑛(𝜔𝑗)
2𝜋 0 2𝜋
𝑗=1
− 𝑖. 𝑠𝑒𝑛(−𝜔𝑗)]}
[6.1.5]

A continuación, podemos hacer uso de los siguientes resultados de trigonometría: 1


cos(0) = 1
𝑠𝑒𝑛(0) = 0
𝑠𝑒𝑛(−𝜃) = −𝑠𝑒𝑛(𝜃)
cos(−𝜃) = cos(𝜃)
Usando estas relaciones, [6.1.5] simplifica a:

1
𝑆𝛾 (𝜔) = {𝛾 + 2 ∑ 𝛾𝑗 cos(𝜔𝑗)}
2𝜋 0
𝑗=1
[6.1.6]
Asumiendo que la secuencia de autocovarianza {𝑦𝑗 }∞ 𝑗=−∞ es absolutamente sumatoria, la expresión
[6.1.6] implica que el espectro poblacional persiste y que 𝑆𝛾 (𝜔) es continuo, función de valor real
de 𝜔. Es posible ir un poco más allá y demostrar que si el 𝑦𝑗 ′𝑠 representa autocovarianzas de un
modelo de covarianza estacionaria, entonces 𝑆𝛾 (𝜔)será un valor no negativo para toda 𝜔.2 Dado
cos(𝜔𝑗 ) = cos(−𝜔𝑗 ) para cualquier, 𝜔 el espectro es simétrico en torno a 𝜔 = 0. Finalmente,
dado cos[(𝜔 + 2𝜋𝑘). 𝑗] = cos(𝜔𝑗 )para cualquier número entero k y j , se deduce de [6.1.6] que

6.1 Espectro poblacional 161


𝑠𝛾 (𝜔 + 2𝜋𝑘) = 𝑠𝛾 (𝜔) para cualquier numero entero k. Por lo tanto, el espectro es una función
periódica de 𝜔 .Si conocemos el valor de 𝑆𝛾 (𝜔) para toda 𝜔 entre 0 y 𝜋, podemos inferir el valor
de 𝑆𝛾 (𝜔) para cualquier 𝜔.

1Analizados en la sección A.1 del Análisis Matemático (Apéndice A) al final del libro
2Consultar, por ejemplo, Fuller (1976, p.110)

Calculando el espectro poblacional por diversos modelos


Sea Y, cumple un proceso MA(∞):
𝑌𝑡 = 𝜇 + 𝜓(𝐿)𝜀𝑡 6.1.7]
Dónde:

𝜓(𝐿) = ∑ 𝜓𝑗 𝐿𝑗
𝑗=0

∑ |𝜓𝑗 | < ∞
𝑗=0

2
𝐸(𝜀𝑡 𝜀𝜏 ) = { 𝜎 𝑝𝑎𝑟𝑎 𝑡 = 𝜏
0 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜

Recordar de la expresión [3.6.8] que la función de autocovarianza generada para Y es dada por:
𝑔𝛾 (𝑧) = 𝜎 2 𝜓(𝑧)𝜓(𝑧 −1 )

Entonces, de [6.1.2],el espectro poblacional para un modelo MA (∞)es dado por :

𝑆𝛾 (𝜔) = (2𝜋)−1 . 𝜎 2 𝜓(ℯ −𝑖𝜔 )𝜓(ℯ 𝑖𝜔 ) [6.1.8]


Por ejemplo, para un modelo de ruido blanco, 𝜓(𝑧) = 1 y el espectro poblacional es una
constante para toda 𝜔:
𝜎2
𝑆𝛾 (𝜔) = 2𝜋 [6.1.9]
Entonces, considera un modelo MA(1) :
𝑌𝑡 = 𝜀𝑡 + 𝜃𝜀𝑡−1
Aquí, 𝜓(𝑧) = 1 + 𝜃𝑧 y el espectro poblacional es:

𝑆𝛾 (𝜔) = (2𝜋)−1 . 𝜎 2 (1 + 𝜃ℯ −𝑖𝜔 )(1 + 𝜃ℯ 𝑖𝜔 )


= (2𝜋)−1 . 𝜎 2 (1 + 𝜃ℯ −𝑖𝜔 + 𝜃ℯ 𝑖𝜔 + 𝜃 2 ) [6.1.10]
Pero tenga en cuenta que:

ℯ −𝑖𝜔 + ℯ 𝑖𝜔 = cos(𝜔) − 𝑖. 𝑠𝑒𝑛(𝜔) +cos(𝜔) + 𝑖. 𝑠𝑒𝑛(𝜔) = 2. cos(𝜔) [6.1.11]

Por lo que [6.1.10] se convierte en:

𝑆𝛾 (𝜔) = (2𝜋)−1 . 𝜎 2 [1 + 𝜃 2 + 2𝜃. cos(𝜔)] [6.1.12]

Recuerde que cos(𝜔)va de 1 a-1 como 𝜔 va de 0 a 𝜋. Por ello, cuando 𝜃 > 0 el espectro 𝑆𝛾 (𝜔) es
una función monótonamente decreciente de 𝜔 para 𝜔 en [0,𝜋], mientras que cuando 𝜃 < 0, el
espectro es monótonamente creciente.
Para un modelo AR(1):
𝑌𝑡 = 𝑐 + 𝜙𝑌𝑡−1 + 𝜀𝑡
1
Tenemos 𝜓(𝑧) = (1−𝜙𝑧) mientras que | 𝜙 |< 1 .De modo que, el espectro es:
1 𝜎2
𝑆𝛾 (𝜔) =
2𝜋 (1 − 𝜙ℯ −𝑖𝑤 )(1 − 𝜙ℯ −𝑖𝑤 )

162 Capitulo 6 | Análisis Espectral


1 𝜎2
=
2𝜋 (1 − 𝜙ℯ −𝑖𝑤 − 𝜙ℯ −𝑖𝑤 + 𝜙 2 )
1 𝜎2
=
2𝜋 [1 + 𝜙 2 − 2𝜙. cos(𝜔)]
[6.1.13]

Cuando 𝜙 > 0, el denominador es monótonamente creciente en 𝜔 sobre [0,𝜋], significa que


𝑆𝛾 (𝜔)es monótonamente decreciente. Cuando 𝜙 < 0, el espectro 𝑆𝛾 (𝜔)es una función
monótonamente creciente de 𝜔.
En general, para un modelo ARMA (p, q):
𝑌𝑡 = 𝑐 + 𝜙1 𝑌𝑡−1 + 𝜙2 𝑌𝑡−2 + ⋯ + 𝜙𝑝 𝑌𝑡−𝑝 + 𝜀𝑡 + 𝜃1 𝜀𝑡−1
+𝜃2 𝜀𝑡−2 + ⋯ + 𝜃𝑞 𝜀𝑡−𝑞

El espectro poblacional es dado por:


𝜃 2 (1 + 𝜃1 𝑒 −𝑖𝑤 + 𝜃2 𝑒 −𝑖2𝑤 + ⋯ + 𝜃𝑞 𝑒 −𝑖𝑞𝑤 )
𝑆𝛾 (𝜔) =
2𝜋 (1 − 𝜙1 ℯ −𝑖𝑤 − 𝜙2 ℯ −𝑖2𝑤 − ⋯ − 𝜙𝑝 ℯ −𝑖𝑝𝑤 )
(1 + 𝜃1 𝑒 𝑖𝑤 + 𝜃2 𝑒 𝑖2𝑤 + ⋯ + 𝜃𝑞 𝑒 𝑖𝑞𝑤 )
𝑋
(1 − 𝜙1 ℯ 𝑖𝑤 − 𝜙2 ℯ 𝑖2𝑤 − ⋯ − 𝜙𝑝 ℯ 𝑖𝑝𝑤 )

[6.1.14]
Si la media móvil y los polinomios regresivos se calculan de la siguiente manera:
1 + 𝜃1 𝑧 + 𝜃2 𝑧 2 + ⋯ + 𝜃𝑞 𝑧 𝑞 = (1 − 𝜂1 𝑧)(1 − 𝜂2 𝑧) … (1 − 𝜂𝑞 𝑧)
1 − 𝜙1 𝑧 + 𝜙2 𝑧 2 + ⋯ + 𝜙𝑝 𝑧 𝑝 = (1 − 𝜆1 𝑧)(1 − 𝜆2 𝑧) … (1 − 𝜆𝑝 𝑧)

Entonces la densidad espectral en [6.1.14] puede ser escrita


𝑞
𝜎 2 ∏𝑗=1[ 1 + 𝜂𝑗2 − 2𝜂𝑗 . cos(𝜔)]
𝑆𝛾 (𝜔) = 𝑝
2𝜋 ∏𝑗=1[1 + 𝜆𝑗2 − 2𝜆𝑗 . cos(𝜔)]

Calculando la autocovarianza del espectro poblacional


Si conocemos la secuencia de autocovarianzas{𝛾𝑗 }∞ 𝑗=−∞ , en un principio podemos calcular el
valor de 𝑆𝛾 (𝜔)para cualquier 𝜔 de [6.1.2] o [6.1.6]. Lo contrario también es verdadero: si
conocemos el valor de 𝑆𝛾 (𝜔)para toda 𝜔 en [0,𝜋], podemos calcular el valor de la kth
autocovarianza 𝛾𝑘 para cualquier k dada. Esto significa que el espectro poblacional 𝑆𝛾 (𝜔)y la
secuencia de autocovarianzas contienen exactamente la misma información – ni uno ni otro puede
decirnos nada sobre el proceso que no es posible deducir del otro.
La siguiente proposición (demostrada en el apéndice 6.A al final de este capítulo) proporciona
una fórmula para calcular cualquier autocovarianza del espectro poblacional.

Proposición 6.1: Sea {𝛾𝑗 }∞


𝑗=−∞ una secuencia absolutamente sumable de autocovarianzas, y definir
𝑆𝛾 (𝜔)como un [6.1.12] .Entonces:

𝜋
∫−𝜋 𝑆𝛾 (𝜔)𝑒 𝑖𝑤𝑘 𝑑𝜔 = 𝛾𝑘
[6.1.15]
El resultado [6.1.15] puede ser equivalentemente escrito como:
𝜋
∫−𝜋 𝑆𝛾 (𝜔)cos(𝜔𝑘)𝑑𝜔 = 𝛾𝑘
[6.1.16]

6.1 Espectro poblacional 163


Interpretando el espectro poblacional

El siguiente resultado se obtiene como un caso especial de la proposición 6.1 estableciendo k=0
𝜋
∫ 𝑆𝛾 (𝜔)𝑑𝜔 = 𝛾0
−𝜋
[6.1.17]
En otras palabras, el área bajo el espectro poblacional entre ±𝜋 da 𝛾0 , la varianza de 𝛾𝑡 .
De manera más general – dado que 𝑆𝛾 (𝜔) es no negativo - si tuviéramos que calcular:
𝜔1
∫ 𝑆𝛾 (𝜔)𝑑𝜔
−𝜔1

Para cualquier 𝜔1 entre 0 y 𝜋 , el resultado podría ser un número positivo que podríamos interpretar
como una porción de la covarianza de 𝑌𝑡 , esto es asociado con frecuencias 𝜔 que son menores que
𝜔1 en valor absoluto. Recordando que 𝑆𝛾 (𝜔)es simétrico, la afirmación es:
𝜔1
2. ∫ 𝑆𝛾 (𝜔)𝑑𝜔
0
[6.1.18]
Representa la porción de la varianza de Y que podría ser atribuida a componentes aleatoriamente
periódicos con frecuencia menor o igual a. 𝜔1
¿Qué significa atribuir cierta porción de la varianza de Y a modelos con una frecuencia menor o
igual a 𝜔1? Para explorar esta pregunta, vamos a considerar el siguiente modelo estocástico
bastante especial. Supongamos que el valor de Yen compañía de t está determinado por:
𝑀

𝑌𝑡 = ∑[𝛼𝑗 . cos(𝜔𝑗 𝑡) + 𝛿𝑗 . 𝑠𝑒𝑛(𝜔𝑗 𝑡)]


𝑗=1
[6.1.19]
Aquí 𝛼𝑗 y 𝛿𝑗 son variables aleatorias de media cero, significa que E(𝑌𝑡 )=0 para toda t. Las secuencias
{𝛼𝑗 }𝑀 𝑀
𝑗=1 y {𝛿𝑗 }𝑗=1 son no correlacionados en serie y mutuamente no correlacionados:

𝜎𝑗2 𝑝𝑎𝑟𝑎 𝑗=𝑘


E(𝛼𝑗 𝛼𝑘 ) = { 0 𝑝𝑎𝑟𝑎 𝑗≠𝑘
𝜎𝑗2 𝑝𝑎𝑟𝑎 𝑗=𝑘
E(𝛿𝑗 𝛿𝑘 ) = { 0 𝑝𝑎𝑟𝑎 𝑗≠𝑘

E(𝛼𝑗 𝛿𝑘 ) = 0 para toda j y k


La varianza de 𝑌𝑡 , es entonces:

E(𝑌𝑡2 ) = ∑𝑀 2 2 2 2
𝑗=1[𝐸(𝛼𝑗 ). 𝑐𝑜𝑠 (𝜔𝑗 𝑡) + 𝐸(𝛿𝑗 ). 𝑠𝑒𝑛 (𝜔𝑗 𝑡)
=∑𝑀 2 2 2
𝑗=1 𝜎𝑗 [ 𝑐𝑜𝑠 (𝜔𝑗 𝑡) + 𝑠𝑒𝑛 (𝜔𝑗 𝑡)
=∑𝑀𝑗=1 𝜎𝑗
2

[6.1.20]

Con la última línea denota a la ecuación [A.1.12].Por lo tanto, para este modelo la porción de la
varianza de Y que es debido a los ciclos de frecuencia 𝜔𝑗 que son dados por 𝜎𝑗2 .

Si las frecuencias son ordenadas 0<𝜔1 <𝜔2 <…<𝜔𝑀 <𝜋, la porción de la varianza de Y que es
2
debido a los ciclos de una frecuencia menor o igual a 𝜔𝑗 es dada por 𝜎12 +𝜎𝑗2 +…+𝜎𝑗2 .
La kth autocovarianza de Y es:
E(𝑌𝑡 𝑌𝑡−𝑘 ) = ∑𝑀 2
𝑗=1{𝐸(𝛼𝑗 ). 𝑐𝑜𝑠(𝜔𝑗 𝑡). cos[𝜔𝑗 (𝑡 − 𝑘)]

164 Capitulo 6 | Análisis Espectral


+𝐸(𝛿𝑗2 . 𝑠𝑒𝑛(𝜔𝑗 𝑡). sen[𝜔𝑗 (𝑡 − 𝑘)]}
𝑀

= ∑ 𝜎𝑗2 {𝑐𝑜𝑠(𝜔𝑗 𝑡). cos[𝜔𝑗 (𝑡 − 𝑘)]


𝑗=1
+𝑠𝑒𝑛(𝜔𝑗 𝑡). sen[𝜔𝑗 (𝑡 − 𝑘)]}
[6.1.21]
Recuerde la identidad trigonométrica3
Cos(A-B)= cos(A).cos(B)+sen(A).sen(B).
[6.1.22]

Para A= 𝜔𝑗 𝑡 y B= 𝜔𝑗 (𝑡 − 𝑘), tenemos A-B = 𝜔𝑗 𝑘, así que [6.1.21] se convierte en:

E(𝑌𝑡 𝑌𝑡−𝑘 ) = ∑𝑀 2
𝑗=1 𝜎𝑗 . 𝑐𝑜𝑠(𝜔𝑗 𝑘).
[6.1.23]

Ya que la media y las autocovarianzas de Y no son funciones del tiempo, el modelo descrito por
[6.1.19] es una covarianza estacionaria, aunque [6.1.23] implica que la secuencia de autocovarianzas

E{𝛾𝑘 } 𝑘=0 son absolutamente sumatorias.
Fuimos capaces de atribuir cierta porción de la varianza de 𝑌𝑡 a ciclos menores que una frecuencia
dada por el modelo en [6.1.19] porque ese es un modelo bastante especial de covarianza
estacionaria. Sin embargo, hay un resultado general conocido como el teorema de la representación
espectral que dice que cualquier modelo de covarianza estacionaria 𝑌𝑡 , puede ser expresado en
términos de una generalización de [6.1.19].Para cualquier frecuencia fija 𝜔 en [0,𝜋], definimos
variables aleatorias 𝛼(𝜔)y 𝛿(𝜔), y propone escribir un proceso estacionario con autocovarianzas
absolutamente sumatorias en la forma.
𝜋
𝑌𝑡 = 𝜇 + ∫ [ 𝛼(𝜔). cos(𝜔𝑡) + 𝛿(𝜔). 𝑠𝑒𝑛(𝜔𝑡)]𝑑𝜔
0

El proceso aleatorio representado por 𝛼(.) y 𝛿(. ) tiene media cero y las propiedades adicionales
𝜔
que para cualquiera de las frecuencias 0<𝜔1 <𝜔2 <𝜔3 <𝜔4 <𝜋, la variable ∫𝜔 2 𝛼(𝜔)𝑑𝜔 no está
1
𝜔 𝜔 𝜔
correlacionada con ∫𝜔 4 𝛼(𝜔)𝑑𝜔y la variable ∫𝜔 2 𝛿(𝜔)𝑑𝜔no es correlativa con ∫𝜔 4 𝛿(𝜔)𝑑𝜔 ,
3 1 3
𝜔
mientras para cualquier 0<𝜔1 <𝜔2 <𝜋 y 0<𝜔3 <𝜔4 <𝜋, la variable ∫𝜔 2 𝛼(𝜔)𝑑𝜔 no tiene ningún
1
𝜔
vínculo con∫𝜔 4 𝛿(𝜔)𝑑𝜔. Para tal proceso ,uno puede calcular una parte de la varianza de Y ,que
3
se debe a los ciclos con una frecuencia menor o igual a algún valor especificado 𝜔1 a través de una
generalización del procedimiento utilizado para analizar [6.1.19] .Además, esta magnitud resulta ser
dada por la expresión en [6.1.18].
No intentaremos hacer una prueba de la representación del teorema espectral aquí, por lo cual para
detalles el lector es referido a Cramer y Leadbetter (1997, pp.128-38).
En cambio, la siguiente sección proporciona una derivación formal de una versión de muestreo
preciso de estos resultados, mostrando el sentido en el cual el modelo análogo de [6.1.18] da la
porción muestreada de la varianza de series observadas que puede ser atribuidas a ciclos con
frecuencias menores o iguales a 𝜔1 .

6.2. Periodograma muestral

Para un proceso de covarianza estacionaria 𝑌𝑡 con autocovarianzas absolutamente sumatorias,


hemos definido el valor del espectro poblacional en la frecuencia 𝜔 para ser:

6.2. Periodograma muestral 165



1
𝑆𝛾(𝜔) = ∑ 𝛾𝑗 𝑒 −𝑖𝜔𝑗
2𝜋
𝑗=−∞
[6.2.1]
Donde
𝛾𝑗 ≡ 𝐸(𝑌𝑡 − 𝜇)(𝑌𝑡−𝑗 − 𝜇)


Y 𝜇 = 𝐸(𝑌𝑡 ) .Tome en cuenta que el espectro poblacional es expresado en términos de {𝛾𝑗 } 𝑗=0 , el
cual representa segundos momentos poblacionales.
Dada una muestra observada de T observaciones denotaron 𝑦1 , 𝑦2 , … , 𝑦𝑇 , que podemos calcular
hasta T-1 autocovarianzas muestrales de las formulas.
𝑇
−1
𝑇 ∑ (𝑦𝑡 − 𝑦̅) 𝑝𝑎𝑟𝑎 𝑗 = 1,2, … , 𝑇 − 1
𝛾̂ =
𝑖=𝑗+1
{𝛾̂−𝑗 𝑝𝑎𝑟𝑎 𝑗 = −1, −2, … , −𝑇 + 1

[6.2.2]
Donde 𝑦̅ es la media de la muestral
𝑇
−1
𝑦̅ = 𝑇 ∑ 𝑦𝑡
𝑖=1

[6.2.3]
Para cualquier 𝜔 dada, entonces podemos construir el modelo análogo de [6.2.1], el cual es
conocido como periodograma muestral.
1
𝑠̂𝑦 (𝜔) = ∑𝑇−1 𝛾̂ 𝑒 −𝑖𝜔𝑗
2𝜋 𝑗=−𝑇+1 𝑗
[6.2.4]

Como en [6.1.6] el ejemplo de periodograma puede ser expresado equivalentemente como:


𝑇−1
1
𝑠̂𝑦 (𝜔) = [𝛾̂ + 2 ∑ 𝛾̂𝑗 cos(𝜔𝑗)]
2𝜋 0
𝑗=1
[6.2.5]

Los mismos cálculos que comandaron a [6.1.17] pueden ser utilizados para demostrar que el área
bajo el periodograma es la muestra de la varianza de y:
𝜋
∫ 𝑠̂𝑦 (𝜔)𝑑𝜔 = 𝑦̂0
−𝜋
Como el espectro poblacional, el modelo de periodograma es simétrico en torno a 𝜔=0, de modo
que podríamos escribir equivalentemente:
𝜋
𝑦̂0 = 2 ∫ 𝑠̂𝑦 (𝜔)𝑑𝜔
0
También resulta ser un modelo análogo al teorema de representación espectral, el cual
desarrollamos ahora. En particular, veremos que dada cualquier observación de T en un proceso
(𝑦1, 𝑦2, … , 𝑦𝑇 ), existen frecuencias 𝜔1 ,𝜔2 ,…,𝜔𝑀 y coeficientes 𝜇̂ , 𝛼̂1 , 𝛼̂2 , … , 𝛼̂𝑀 , 𝛿̂1 , 𝛿̂2 , … , 𝛿̂𝑀 tales
que el valor de y en compañía de t puede ser expresado como
𝑀

𝑌𝑡 = 𝜇̂ + ∑{ 𝛼̂𝑗 . cos[𝜔𝑗 (𝑡 − 1)] + 𝛿̂𝑗 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)]}


𝑗=1

166 Capitulo 6 | Análisis Espectral


[6.2.6]

donde la variable 𝛼̂𝑗 . cos[𝜔𝑗 (𝑡 − 1)] es ortogonal en el ejemplo de 𝛼̂𝑘 . cos[𝜔𝑘 (𝑡 − 1)] para 𝑗 ≠ 𝑘,
la variable 𝛿̂𝑗 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)]es ortogonal a 𝛿̂𝑘 . 𝑠𝑒𝑛[𝜔𝑘 (𝑡 − 1)] para 𝑗 ≠ 𝑘 , y la variable
𝛼̂𝑗 . cos[𝜔𝑗 (𝑡 − 1)]es ortogonal a 𝛿̂𝑘 . 𝑠𝑒𝑛[𝜔𝑘 (𝑡 − 1)] para toda j y k.
La muestra de varianza de y es 𝑇 −1 ∑𝑇𝑡=1(𝑦𝑡 − 𝑦̅)2 ,y la porción de esta varianza que puede ser
atribuida a ciclos con frecuencia 𝜔𝑗 que puede ser inferida de la muestra de periodograma 𝑠̂𝑦 (𝜔𝑗 ).
Desarrollaremos esta afirmación para el caso, cuando el tamaño de muestra T sea un número impar.
En este caso 𝑦𝑡 , será expresado en términos de funciones periódicas M=(T-1)/2 con frecuencias
diferentes en [6.2.6].Las frecuencias 𝜔1 ,𝜔2 ,…,𝜔𝑀 son especificadas de la siguiente forma:
𝜔1 = 2𝜋/𝑇
𝜔2 = 4𝜋/𝑇
.
.
.
𝜔𝑀 = 2𝑀𝜋/𝑇

[6.2.7]

De este modo, la mayor frecuencia considerada es:

2(𝑇 − 1)𝜋
𝜔𝑀 = <𝜋
2𝑇
Considere la posibilidad de una regresión de Mínimos Cuadrados Ordinarios (MCO) del valor de 𝑦𝑡
en una constante y en los diversos términos de seno y coseno,
𝑀

𝑌𝑡 = 𝜇 + ∑{ 𝛼𝑗 . cos[𝜔𝑗 (𝑡 − 1)] + 𝛿𝑗 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)]} + 𝜇𝑡


𝑗=1

Esto puede ser visto como un modelo de regresión estándar de la forma


𝑌𝑡 = 𝛽´𝑥𝑡 + 𝜇𝑡
[6.2.8]
Donde
𝑋𝑡 = [1 cos[𝜔1 (𝑡 − 1)] 𝑠𝑒𝑛[𝜔1 (𝑡 − 1)] cos[𝜔2 (𝑡 − 1)] 𝑠𝑒𝑛[𝜔2 (𝑡 − 1)
[6.2.9]
… cos[𝜔𝑀 (𝑡 − 1)] 𝑠𝑒𝑛[𝜔𝑀 (𝑡 − 1)]]´

𝛽´ = [𝜇 𝛼1 𝛿1 𝛼2 𝛿2 … 𝛼𝑀 𝛿𝑀 ]
[6.2.10]

Tenga en cuenta que 𝑥𝑡 tiene (2M+1)=T elementos, por lo tanto hay tantas variables explicativas
como observaciones. Demostraremos que los elementos de 𝑥𝑡 son independientes de manera lineal,
lo que significa que una regresión de Mínimos Cuadrados Ordinarios (MCO) de 𝑦𝑡 en 𝑥𝑡 da un
encaje perfecto. De este modo, los valores correspondientes para esta regresión son de la forma de
[6.2.6] con ningún término de error 𝜇𝑡 . Además, los coeficientes de esta regresión tienen la
1
propiedad de que (𝛼̂𝑗2 + 𝛿̂𝑗2 ) representa la porción de la muestra de varianza de y que puede ser
2
1
atribuida a ciclos con frecuencia 𝜔𝑗 . Esta magnitud (𝛼̂𝑗2 + 𝛿̂𝑗2 ) asimismo resulta ser proporcional
2
al periodograma muestral evaluado en 𝜔𝑗 . En otras palabras, cualquiera de las series observadas
𝑦1, 𝑦2,..., 𝑦𝑇, pueden ser expresadas en términos de función periódica como en [6.2.6],y la porción de
la muestra de varianza que se debe a los ciclos con frecuencia 𝜔𝑗 pueden ser encontrados de la
muestra de periodograma. Estos puntos son establecidos formalmente en la siguiente proposición,
la cual es provista en el apéndice 6.A al final de este capítulo.

6.2 Periodograma muestral 167


2𝜋𝑗
Proposición 6.2: Que T denote un entero impar y que M=(T-1)/2. Deje que 𝜔𝑗 = 𝑇
𝑝𝑎𝑟𝑎 𝑗=
1,2, … , 𝑀 y que 𝑥𝑡 sea el vector (Tx1) en [6.2.9].Entonces:
𝑇
𝑇 0′
∑ 𝑥𝑡 𝑥𝑡′ = [ 𝑇 ]
0 ( ⁄2). 𝐼𝑡−1
𝑡=1
[6.2.11]

Además, sea {𝑦1, 𝑦2, … , 𝑦𝑇 } cualquier número de T. Entonces , las siguientes son verdaderas:
a. El valor de 𝑦𝑡 puede ser expresado como:
𝑀

𝑦𝑡 = 𝜇̂ + ∑{ 𝛼̂𝑗 . cos[𝜔𝑗 (𝑡 − 1)] + 𝛿̂𝑗 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)]}


𝑗=1

Con 𝜇̂ = 𝑦̅ (la media de la muestra de 6.2.3) y

𝛼̂𝑗 = 2⁄𝑇 ∑𝑇𝑡=1 𝑦𝑡 . cos[𝜔𝑗 (𝑡 − 1)] 𝑝𝑎𝑟𝑎 𝑗 = 1,2, … , 𝑀 [ 6.2.12]

𝛿̂𝑗 = (2⁄𝑇) ∑𝑇𝑡=1 𝑦𝑡 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)] 𝑝𝑎𝑟𝑎 𝑗 = 1,2, … , 𝑀 [ 6.2.13]

b. La muestra de la varianza de 𝑦𝑡 puede ser expresada como


𝑇 𝑀

(1⁄𝑇) ∑(𝑦𝑡 − 𝑦̅)2 = (1⁄2) ∑(𝛼̂𝑗2 + 𝛿̂𝑗2 )


𝑡=1 𝑗=1
[ 6.2.14]
y la porción de la muestra de la varianza y que puede ser atribuida a ciclos de frecuencia 𝜔𝑗 es dada por
1
2
(𝛼̂𝑗2 + 𝛿̂𝑗2 )

c. La porción de la varianza mostrada de y que puede ser atribuida a ciclos de la frecuencia 𝜔𝑗 puede ser
expresada equivalentemente como

1 2 4𝜋
(𝛼̂𝑗 + 𝛿̂𝑗2 ) = ( ) . 𝑠̂𝑦 (𝜔𝑗 )
2 𝑇
[6.2.15]

donde 𝑠̂𝑦 (𝜔𝑗 ) el periodograma muestral en la frecuencia 𝜔𝑗

El resultado 6.2.11 establece que ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ es una matriz diagonal, lo que significa que las variables
explicativas contenidas en 𝑥𝑡 son mutuamente ortogonales. La proposición afirma que cualquier
serie de tiempo observada
(𝑦1, 𝑦2, … , 𝑦𝑇 ), con T impar puede ser escrito como una constante más una suma ponderada de
funciones periódicas (T-1) con (T-1)/2 frecuencias diferentes; un resultado relacionado puede
también ser desarrollado cuando aunque T sea un entero. Por lo tanto, la proposición da una
muestra análoga finita del teorema de la representación espectral. La proposición muestra además
que el modelo de periodograma captura la porción de la muestra de varianza de y que puede ser
atribuida a ciclos de diferentes frecuencias.
Tenga en cuenta que las frecuencias 𝜔𝑗 en términos de los cuales la varianza de y es explicada en
[0, 𝜋]. ¿Por qué no se emplean frecuencias negativas en también? Suponga que la información fue
actualmente generada por un caso especial del proceso en [6.1.19],

168 Capitulo 6 | Análisis Espectral


𝑌𝑡 = 𝛼. cos(−𝜔𝑡) + 𝛿. 𝑠𝑒𝑛(−𝜔𝑡)
[6.2.16]
Donde -𝜔 < 0 representa alguna frecuencia particular negativa y donde 𝛼 y 𝛿 son media cero de
variables aleatorias. Ya que, cos(−𝜔𝑡) = cos(𝜔𝑡)y sen(−𝜔𝑡) = −sen(𝜔𝑡), el proceso [6.2.16]
puede ser escrito equivalentemente
𝑌𝑡 = 𝛼. cos(𝜔𝑡) − 𝛿. 𝑠𝑒𝑛(𝜔𝑡)
[6.2.17]
De este modo no hay manera de usar información observada en y para decidir si la información es
generada por un ciclo de frecuencia −𝜔 como en [6.2.16] o por un ciclo con frecuencia
2
1.5

cos[(p/2)t] cos[(3p/2)t]
1
.5
0

2 4 6 8 t
-.5 -1
-1.5
-2

0 2 4 6 8 10
𝜋 3𝜋x
Gráfico 6.1 Aliasing: trazos de cos[( ) 𝑡] y cos[( ) 𝑡]como funciones de t
2 2

+ 𝜔 como en [6.2.17] es simplemente una cuestión de convención que elige enfocarse solo en
frecuencias positivas
¿Por qué es 𝜔 = 𝜋 la mayor frecuencia considerada? Considere que la información fue generada de
una función periódica con frecuencia 𝜔 > 𝜋, 𝜔 = 3𝜋/2 para este ejemplo
3𝜋 3𝜋
𝑌𝑡 = 𝛼. cos[( ) 𝑡] + 𝛿. 𝑠𝑒𝑛[( ) 𝑡]
2 2
[6.2.18]

Nuevamente, las propiedades de la función del seno y coseno implican que [6.2.18] es equivalente a
𝜋 𝜋
𝑌𝑡 = 𝛼. cos[(− ) 𝑡] + 𝛿. 𝑠𝑒𝑛[(− ) 𝑡]
2 2
[6.2.19
3𝜋
De esta forma, por previo argumento, una representación con ciclos de frecuencia ( )es
2
𝜋
observacionalmente indistinguible de alguno con ciclos de frecuencia( 2 ).
Para resumir, si el proceso de información generada actualmente incluye ciclos con frecuencias
negativas o con frecuencias mayores a 𝜋, estás serán atribuidas a ciclos con frecuencias entre 0 y 𝜋.
Esto es conocido como aliasing.
Otra forma de entender sobre aliasing es lo que cumple. Recuerde que el valor de la función
2𝜋
cos(𝜔𝑡)se repite cada 𝜔 periodos, por lo tanto, una frecuencia de 𝜔 es asociada con un periodo de

6.2 Periodograma muestral 169


2𝜋 1
𝜔
. Nosotros hemos argumentado que el mayor ciclo de frecuencia que uno puede observar es
𝜔 = 𝜋. Otra forma de expresar esta conclusión es que el periodo más corto que uno puede
𝜋 3𝜋
observar es una que se repite cada 2𝜋=2 periodos. Si 𝜔 = 2 =2, el ciclo se repite cada 4/3
periodos. Pero, si la información es observada solo en datos de números enteros, la información
mostrada se exhibirá en ciclos que son repetidos cada cuatro periodos, correspondientes a la
frecuencia xxx. Esto es ilustrado en la Gráfica 6.1, la cual traza cos[(𝜋/2)𝑡] y cos[(3𝜋/2)𝑡] como
funciones de t. Cuando se muestrean a valores enteros de t, estas dos funciones parecen idénticas.
Aunque la función cos[(3𝜋/2)𝑡] se repita cada vez que xxx se incremente por 4/3, uno podría
tener que observar en cuatro datos distintos 𝑦𝑡 , 𝑦𝑡+1 , 𝑦𝑡+2 , 𝑦𝑡+3 ) antes de que uno pueda ver el
valor de cos[(3𝜋/2)𝑡] repetirse un valor entero de t.

Tenga en cuenta que en una muestra particularmente finita, la menor frecuencia utilizada para
explicar la variación en y es 𝜔1 = 2𝜋/𝑇, la cual corresponde a un periodo de T. Si un ciclo toma
más tiempo que T periodos a repetirse, no hay mucho que uno pueda inferir sobre esto si uno solo
tiene T observaciones válidas.
Como resultado (C) de la Proposición 6.2 indica que la porción de la muestra de varianza de y que
puede ser atribuida a ciclos de frecuencia 𝜔𝑗 que son proporcionales al muestreo de periodograma
evaluado en 𝜔𝑗 con 4 𝜋/𝑇 la constante de proporcionalidad. Por tanto, la proposición desarrolla el
fundamento formal de la afirmación que el muestreo de periodograma refleja de la porción de la
muestra de varianza y que puede ser atribuida a ciclos de frecuencias distintas.
¿Por qué la constante de proporcionalidad es igual a 4 𝜋/𝑇 en [6.2.15]? El espectro poblacional
𝑆𝛾 (𝜔) podría ser estimado en cualquier 𝜔 en la serie continua de puntos entre 0 y 𝜋.En este
sentido, es muy parecido a una probabilidad de densidad 𝑓𝑥 (𝑥), donde X es una variable aleatoria
continua .Aunque podríamos pensar ligeramente en el valor de 𝑓𝑥 (𝑥), como la ‘’probabilidad ‘’
𝑥
donde 𝑋 = 𝑥, es preciso decir que el cálculo integral ∫𝑥 2 𝑓𝑥 (𝑥) 𝑑𝑥 representa la probabilidad que
1
X toma como valor entre 𝑥1 y 𝑥2 .
A medida que 𝑥2 −𝑥1 se reduce, la probabilidad de que X será observada para presentarse entre
𝑥1 y 𝑥2 se reduce y la probabilidad de que X pueda tomar con exactitud el valor x es efectivamente
igual a cero. De la misma forma, aunque podamos pensar de forma general sobre el valor de
𝑠𝛾(𝜔)como la contribución que estos ciclos con frecuencia 𝜔 hacen a la varianza de Y , es más
preciso decir que el cálculo integral

𝜔1 𝜔1
∫ 𝑠𝛾 (𝜔)𝑑𝜔 = ∫ 2𝑠𝛾 (𝜔)𝑑𝜔
−𝜔𝑡 0

Representa la contribución que ciclos de frecuencia menor o igual a 𝜔1 hacen a la varianza de Y, y


𝜔
∫𝜔 2 2𝑠𝛾 (𝜔)𝑑𝜔 que representa la contribución que ciclos con frecuencias entre 𝜔1 y 𝜔2 hacen a la
1
varianza de Y .Asumiendo que 𝑠𝛾 (𝜔)es continua, la contribución que un ciclo de cualquier
frecuencia particular 𝜔 hace es técnicamente cero.
Aunque el espectro poblacional 𝑠𝛾 (𝜔)es definido en cualquier 𝜔 en [0, 𝜋] ,la representación en
[6.2.6] atribuye todas las muestras de varianza de y a las frecuencias
particulares𝜔1, 𝜔2, , … 𝜔𝑀, .Cualquier variación en Y que es en realidad debido a ciclos con
frecuencias distintas a estos valores particulares M es atribuida por [6.2.6] a uno de estas
frecuencias M .Si estamos reflexionando sobre la regresión [6.2.6] como diciéndonos algo sobre el
1
espectro poblacional ,podríamos interpretar 2 (𝛼̂𝑗2 + 𝛿̂𝑗2 )no como la porción de la varianza de Y
que se debe a ciclos con frecuencia a exactamente igual a 𝜔𝑗, ,más bien como la porción de la
varianza de Y que es debido a ciclos con frecuencia cercana a 𝜔𝑗, .De este modo [6.2.15] no es una

1 4Veala sección A.1 del análisis matemático (Apéndice A) al final del libro a través de una
discusión de este punto.

170 Capitulo 6 | Análisis Espectral


estimación de la altitud del espectro poblacional ,pero si una estimación del área bajo el espectro
poblacional .
1
Esto es ilustrado en el Grafico 6.2.Supongamos que pensamos en (𝛼̂𝑗2 + 𝛿̂𝑗2 )como una
2
estimación de la porción de la varianza de Y que es debido a los ciclos con una frecuencia entre
𝜔𝑗−1, y 𝜔𝑗, , esto es una estimación 2 veces el área bajo 𝑠𝛾(𝜔)entre 𝜔𝑗−1, y 𝜔𝑗, .Puesto que 𝜔𝑗 =
2𝜋/𝑇, la diferencia 𝜔𝑗 − 𝜔𝑗−1, y es igual a 2𝜋/𝑇. Si 𝑠̂ 𝛾(𝜔𝑗 )es una estimación de 𝑠𝛾(𝜔), entonces
el área bajo 𝑠𝛾(𝜔)entre 𝜔𝑗−1,y 𝜔𝑗 podría ser aproximadamente estimado por el área de un
rectángulo con una anchura de 2𝜋/𝑇 y 𝑠̂ 𝛾(𝜔𝑗 )de altura .El área de tal rectángulo es
2𝜋 1
( ). 𝑠̂ 𝛾(𝜔𝑗 ).Dado que , (𝛼̂𝑗2 + 𝛿̂𝑗2 )es una estimación de 2 veces el área bajo 𝑠𝛾(𝜔)entre 𝜔𝑗−1,y
𝑇 2
1 4𝜋
𝜔𝑗 ,tenemos 2 (𝛼̂𝑗2 + 𝛿̂𝑗2 ) = ( 𝑇 ). 𝑠̂ 𝛾(𝜔𝑗 ).como afirmación en la ecuación [6.2.15]
La proposición 6.2 también ofrece una formula conveniente para calcular el valor del periodograma
2𝜋
muestral en la frecuencia 𝜔𝑗 = ( 𝑇 )para j=1,2,…,(T-1)/2,

Grafico 6.2 El área bajo el periodograma muestral y la porción de la varianza de y atribuible a


ciclos de diferentes frecuencias.
Por ejemplo:
𝑇
𝑠̂𝛾 (𝜔𝑗 ) = [ ] ( 𝛼̂𝑗2 + 𝛿̂𝑗2 )
8𝜋
Donde
𝑇

𝛼̂𝑗 = 2⁄𝑇 ∑ 𝑦𝑡 . cos[𝜔𝑗 (𝑡 − 1)]


𝑡=1

𝛿̂𝑗 = (2⁄𝑇) ∑ 𝑦𝑡 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)]


𝑡=1
Que es,
1 2
𝑠̂𝛾 (𝜔𝑗 ) = {[∑𝑇𝑡=1 𝑦𝑡 . cos[𝜔𝑗 (𝑡 − 1)]] +[∑𝑇𝑡=1 𝑦𝑡 . 𝑠𝑒𝑛[𝜔𝑗 (𝑡 − 1)]]2 }
2𝜋𝑇

6.2 Periodograma muestral 171


6.3. Estimando el espectro poblacional

La sección 6.1 introdujo el espectro poblacional 𝑠𝛾 (𝜔),el cual indica la porción de la varianza
poblacional de Y que puede ser atribuida a ciclos de frecuencias 𝜔.
Esta sección aborda la siguiente pregunta: Dada una muestra de observación
{𝑦1, 𝑦2, … , 𝑦𝑇 },,¿Cómo podría ser estimado 𝑠𝛾 (𝜔)?

Propiedades de muestra amplia del periodograma muestral


Un enfoque obvio, podría ser estimar el espectro poblacional 𝑠𝛾 (𝜔)por el periodograma
muestral 𝑠̂𝛾 (𝜔). Sim embargo, este enfoque resulta tener algunas severas limitaciones.

Supongamos que

𝑌𝑡 = ∑ 𝜓𝑗 𝜀𝑡−𝑗
𝑗=0
Donde {𝜓𝑗 }∞ 𝑗=0 es absolutamente sumatorio y donde {𝜀𝑡 }∞
𝑡=−∞ es una secuencia i.i.d
(independiente e idénticamente distribuida)con 𝐸(𝜀𝑡 ) = 0 y 𝐸(𝜀𝑡 ) = 𝜎 2 . Sea 𝑠𝛾 (𝜔)el espectro
2

poblacional definido en [6.1.2],y considere a 𝑠𝛾 (𝜔) > 0para toda 𝜔. Sea también 𝑠̂𝛾 (𝜔). el
periodograma muestral definido en [6.2.4].Fuller (1976,p.280) mostro que para 𝜔 ≠ 0 y una
muestra suficientemente grande como el tamaño de T,dos veces el radio del periodograma muestral
al espectro poblacional tiene aproximadamente la siguiente distribución :

2. 𝑠̂𝛾 (𝜔)
≈ 𝑋 2 (2)
𝑠𝛾 (𝜔)
[6.3.1]
Además, si 𝜆 ≠ 𝜔, la cantidad
2. 𝑠̂𝛾 (𝜆)
𝑠𝛾 (𝜆)
[6.3.2]

También tiene una distribución aproximada 𝑋 2 (2), con la variable en [6.3.1] aproximadamente
independiente de esto en [6.3.2] .
Como la variable 𝑋 2 (2)xxx tiene una media de 2, el resultado [6.3.1] sugiere que:

2. 𝑠̂𝛾 (𝜔)
𝐸[ ]≅2
𝑠𝛾 (𝜔)

O mientras que 𝑠𝛾 (𝜔)es una magnitud poblacional en lugar de una variable aleatoria,
𝐸[𝑠̂𝛾 (𝜔)] ≅ 𝑠𝛾 (𝜔)
De este modo, si el tamaño dela muestra es suficientemente mayor, el periodograma muestral
permite una estimación aproximadamente imparcial del espectro poblacional.
Tenga en cuenta en la tabla B.2 que el 95% del tiempo, una variable 𝑋 2 (2)caerá entre 0.05 y 7.4.
Por tanto, en [6.3.1], 𝑠̂𝛾 (𝜔)es poco probable que sea pequeña como 0.025 veces en verdadero valor
de 𝑠𝛾 (𝜔), y 𝑠̂𝛾 (𝜔)cualquiera sea mayor a 3.7 veces tan grande como 𝑠𝛾 (𝜔), Dado el gran intervalo
de confianza, podríamos decir que no es una estimación totalmente satisfactoria de 𝑠𝛾 (𝜔)
Otra característica del resultado [6.3.1] es que la estimación 𝑠̂𝛾 (𝜔) no es tan exacta como el
aumento del tamaño de la muestra T. Típicamente, uno supone una econometría estimada cada vez
mejor mientras la muestra de tamaño crece .Por ejemplo, la varianza para el coeficiente de

172 Capitulo 6 | Análisis Espectral


autocorrelación de la muestra 𝜌̂𝑗 dada en [4.8.8] va de cero como 𝑇 → ∞ por lo que dada una
muestra suficientemente mayor, podríamos ser capaces de inferir el verdadero valor de 𝜌̂𝑗 con la
certeza virtual . La estimación 𝑠̂𝛾 (𝜔) definida en [6.2.4] no tiene esta propiedad porque hemos
tratado de estimar tantos parámetros (𝑦0 , 𝑦1 , … , 𝑦𝑇−1 )como observaciones que tuvimos en
(𝑦1 , 𝑦2 , … , 𝑦𝑇 ).

Estimación paramétrica del espectro poblacional

Supongamos que esta información podría ser representada con un modelo ARMA (p,q)
𝑌𝑡 = 𝜇 + 𝜙1 𝑌𝑡−1 + 𝜙2 𝑌𝑡−2 + ⋯ + 𝜙𝑝 𝑌𝑡−𝑝 + 𝜀𝑡 + 𝜃1 𝜀𝑡−1
+𝜃2 𝜀𝑡−2 + ⋯ + 𝜃𝑞 𝜀𝑡−𝑞 [6

Donde 𝜀𝑡 , es ruido blanco con varianza 𝜎 2 .Entonces un excelente enfoque para estimar el espectro
poblacional es primero estimar los parámetros 𝜇, 𝜙1 , … , 𝜙𝑝 , 𝜃1 , … , 𝜃𝑞 y 𝜎 2 por un máximo de
probabilidades como se describió en el capítulo anterior.

La máxima probabilidad de estimaciones (𝜙̂1 , … , 𝜙̂𝑝 , 𝜃̂1 , … , 𝜃̂𝑞 , 𝜎̂ 2 )podría entonces ser
introducida en una formula tal como [6.1.14] para estimar el espectro poblacional 𝑠𝛾 (𝜔)en
cualquier frecuencia 𝜔. Si el modelo es correctamente especificado, la máxima probabilidad
estimada (𝜙̂1 , … , 𝜙̂𝑝 , 𝜃̂1 , … , 𝜃̂𝑞 , 𝜎̂ 2 )se acercara más y más a los valores verdaderos mientras el
tamaño de muestra crece; por lo tanto, el resultado estimado del espectro poblacional debería tener
la esta misma propiedad.

Incluso si el modelo es especificado de manera incorrecta, si las autocovarianzas del verdadero


proceso son razonablemente cercanas a esas por una especificación ARMA (p,q),este
procedimiento debería proporcionar una estimación útil del espectro poblacional.

Estimaciones No Paramétricas del Espectro Poblacional


La suposición en [6.3.3] es que 𝑌𝑡 , puede ser razonablemente aproximada por un proceso
ARMA (p,q)con p y q reducidos .Una suposición alternativa es que 𝑠𝛾 (𝜔)estará cerca de
𝑠𝛾 (𝜆)cuando 𝜔 está cerca de 𝜆. Esta suposición forma la base para otras clases de estimación del
espectro poblacional conocido como no paramétrico o estimador kernel.
Si 𝑠𝛾 (𝜔)está cerca de 𝑠𝛾 (𝜆)cuando 𝜔 está cerca de 𝜆, esto sugiere que 𝑠𝛾 (𝜔)podría ser estimado
con un peso promedio del valor de los valores de 𝑠̂𝛾 (𝜆)para valores de 𝜆 en una vecindad en torno
de 𝜔, donde los pesos dependen de la distancia entre 𝜔 y 𝜆. Denote 𝑠̂𝛾 (𝜔)como una estimación de
𝑠𝛾 (𝜔)y sea 𝜔𝑗 = 2𝜋𝑗/𝑇 .La sugerencia es tomar

𝑠̂𝛾 (𝜔𝑗 ) = ∑ 𝑘(𝜔𝑗+𝑚 , 𝜔𝑗 ). 𝑠̂𝛾 (𝜔𝑗+𝑚 )


𝑚=−ℎ
[6.3.4]

Aquí, h es un parámetro bandwidth (ancho de banda)indicando cuantas frecuencias diferentes


{𝜔𝑗±1 , 𝜔𝑗±2 , … , 𝜔𝑗±ℎ } son vistas como útiles para estimar 𝑠𝛾 (𝜔𝑗 ).El estimador kernel
k(𝜔𝑗+𝑚 , 𝜔𝑗 ) indica cuanto es el peso que debe ser dado a cada frecuencia .Los pesos kernel suman
a la unidad :

∑ 𝑘(𝜔𝑗+𝑚 , 𝜔𝑗 ) = 1
𝑚=−ℎ

6.3 Estimando el espectro poblacional 173


Un método es tomar k(𝜔𝑗+𝑚 , 𝜔𝑗 ) para ser proporcional a ℎ + 1 − |𝑚|.Uno puede demostrar esto
5

∑ [ℎ + 1 − |𝑚|] = (ℎ + 1)2
𝑚=−ℎ
Por lo tanto, en orden de satisfacer la propiedad que los pesos suman a la unidad, la propuesta
kernel es:

ℎ+1−|𝑚|
k(𝜔𝑗+𝑚 , 𝜔𝑗 ) = (ℎ+1)2
[6.3.5]
5Tenga en cuenta que
ℎ ℎ ℎ

∑ [ℎ + 1 − |𝑚|] = ∑ [ℎ + 1] − ∑ |𝑚|
𝑚=−ℎ 𝑚=−ℎ 𝑚=−ℎ
ℎ ℎ ℎ

= (ℎ + 1) ∑ 1 − 2 ∑ 1 − 2 ∑ 𝑠
𝑚=−ℎ 𝑚=−ℎ 𝑠=0
= (2ℎ + 1)(ℎ + 1) − 2ℎ(ℎ + 1)/2
= (ℎ + 1)2

Y la estimación [6.3.4] se convierte en



ℎ + 1 − |𝑚|
𝑠̂𝛾 (𝜔𝑗 ) = ∑ [ ] 𝑠̂𝛾 (𝜔𝑗+𝑚 )
(ℎ + 1)2
𝑚=−ℎ
[6.3.6]
Por ejemplo, para h=2, esto es
1 2 3 2 1
𝑠̂𝛾 (𝜔𝑗 ) = 𝑠̂𝛾 (𝜔𝑗−2 ) + 𝑠̂𝛾 (𝜔𝑗−1 ) + 𝑠̂𝛾 (𝜔𝑗 ) + 𝑠̂𝛾 (𝜔𝑗+1 ) + 𝑠̂𝛾 (𝜔𝑗+2 )
9 9 9 9 9

Recuerde de [6.3.1] y [6.3.2] que las estimaciones 𝑠̂𝛾 (𝜔 )y 𝑠̂𝛾 ( 𝜆)son aproximadamente
independientes en muestras grandes para 𝜔 ≠ 𝜆 .Porque el estimador kernel promedia sobre
números de diferentes frecuencias, esto podría dar una mejor estimación en comparación a lo que
el periodograma hace.
Promediando 𝑠̂𝛾 (𝜔 )sobre diferentes frecuencias puede equivalentemente ser representada
como el multiplicar la jth muestra de autocovarianza 𝛾̂𝑗 para j>0 en la formula el periodograma
muestral [6.2.5] por un peso 𝑘𝑗∗ .Por ejemplo,considere una estimacion del espectro en la frecuencia
xxx que es obtenida por tomar un promedio simple del valor de 𝑠̂𝛾 ( 𝜆)para 𝜆 entre 𝜔 –v y 𝜔 +v:

𝜔+𝑣
𝑠̂𝛾 (𝜔 ) = (2𝑣)−1 ∫ 𝑠̂𝛾 ( 𝜆)𝑑𝜆
𝜔−𝑣
[6.3.7]
Sustituyendo [6.2.5] en [6.3.7], tal estimación podría ser equivalentemente expresada como:

𝜔+𝑣 𝑇−1
−1
𝑠̂𝛾 (𝜔 ) = (4𝑣𝜋) ∫ [𝛾̂0 + 2 ∑ 𝛾̂𝑗 cos(𝜆𝑗)]𝑑𝜆
𝜔−𝑣 𝑗=1
𝑇−1
1
= (4𝑣𝜋)−1 (2𝑣)𝛾̂0 + (2𝑣𝜋𝜋)−1 ∑ 𝛾̂𝑗 ( ) . [sen(λj)]𝜔+𝑣
𝜆=𝜔−𝑣
j
𝑗=1
𝑇−1
1
= (2𝜋)−1 𝛾̂0 + (2𝑣𝜋)−1 ∑ 𝛾̂𝑗 ( ) . {sen[( 𝜔 + 𝑣)𝑗] − 𝑠𝑒𝑛[(𝜔 − 𝑣)𝑗]}
j
𝑗=1
[6.3.8]

174 Capitulo 6 | Análisis Espectral


Usando la identidad trigonométrica 6
Sen(A+B)- Sen(A-B)= 2.Cos(A).Sen(B)
[6..3.9]
La expresión [6.3.8] puede ser escrita
𝑇−1
1
𝑠̂𝛾 (𝜔 ) = (2𝜋)−1 𝛾̂0 + (2𝑣𝜋) −1
∑ 𝛾̂𝑗 ( ) . [2cos(ωj). sen(vj)]
j
𝑗=1
𝑇−1
sen(vj)
= (2𝜋)−1 {𝛾̂0 + 2 ∑ [ ] 𝛾̂𝑗 cos(ωj)}
𝑣𝑗
𝑗=1
[6.3.10]
Note que la expresión [6.3.10] es de la siguiente forma:
𝑇−1

𝑠̂𝛾 (𝜔 ) = (2𝜋)−1 {𝛾̂0 + 2 ∑ 𝑘𝑗∗ 𝛾̂𝑗 cos(ωj)}


𝑗=1
[6.3.11]
Donde
sen(vj)
𝑘𝑗∗ = 𝑣𝑗
[6.3.12]
El periodograma muestral puede ser visto como un caso especial de [6.3.11] cuando 𝑘𝑗∗ = 1.La
expresión [6.3.12] no puede exceder a 1 en valor absoluto, por lo tanto la estimación [6.3.11]
esencialmente reduce 𝛾̂𝑗 en comparación al periodograma muestral

6 Vea, por ejemplo, Thomas (1972, pp.174-75)

Recuerde que 𝑠𝑒𝑛(𝜋𝑗) = 0 para cualquier entero j .Por ello, si 𝑣 = 𝜋, entonces 𝑘𝑗∗ = 0 para toda j
y [6.3.11]se convierte en
𝑠̂𝛾 (𝜔 ) = (2𝜋)−1 𝛾̂0
[6.3.13]
En este caso, todas las autocovarianzas aparte de 𝛾̂0podrían ser reducidas a cero Cuando 𝑣 = 𝜋 la
estimación [6.3.7] es un promedio no ponderado de 𝑠̂𝛾 (𝜆)sobre todos los valores de 𝜆,y el
resultado de estimación podría ser el espectro amplio y plano para un proceso de ruido blanco.
La especificación de una función kernel k(𝜔𝑗+𝑚 , 𝜔𝑗 )en [6.3.4] puede ser equivalentemente descrita
en términos de una secuencia ponderada {𝑘𝑗∗ }𝑇−1 𝑗=1 en [6.3.11].Por el hecho de que solo son 2

representaciones para la misma idea, el peso 𝑘𝑗 es a veces también llamado kernel .Valores pequeños
de 𝑘𝑗∗imponen más homogeneidad en el espectro.
Los esquemas homogéneos tampoco podrían ser elegidos porque ellos ofrecen una especificación
adecuada para k(𝜔𝑗+𝑚 , 𝜔𝑗 )o porque ellos ofrecen una especificación adecuada para 𝑘𝑗∗.
Una estimación popular del espectro emplea el modificado Bartlett kernel, el cual es dado por

𝑗
1− 𝑝𝑎𝑟𝑎 𝑗 = 1,2, … , 𝑞
𝑘𝑗∗ ={ 𝑞+1
0 𝑝𝑎𝑟𝑎 𝑗 > 𝑞
[6.3.14]
La estimación Barlett del espectro es por consiguiente
𝑞
𝑗
𝑠̂𝛾 (𝜔 ) = (2𝜋)−1 {𝛾̂0 ∑[1 − ]𝛾̂ cos(𝜔𝑗)}
𝑞+1 𝑗
𝑗=1
[6.3.15]

6.3 Estimando el espectro poblacional 175


Las autocovarianzas 𝛾̂𝑗 para j>q son tratadas como si fueran ceros, o como si Y siguió un proceso
MA(q) .Para j<q ,las autocovarianzas 𝛾̂𝑗 estimadas son reducidas a cero con la mayor reducción
cuanto mayor sea el valor de j .
¿Cómo elegir el parámetro bandwidth (ancho de banda) h en [6.3.6] o q en [6.3.15]?
El periodograma por sí mismo, es asintóticamente imparcial pero tiene una gran varianza. Si uno
construye una estimación basada en promediar el periodograma en diferentes frecuencias, esto
reduce la varianza pero introduce algunos sesgos .La severidad de los sesgos depende de la
pendiente del espectro poblacional y el tamaño del bandwidth. Una guía práctica es trazar una
estimación del espectro usando varias bandwidth diferentes y depender de un juicio subjetivo para
elegir la bandwidth que produce la estimación más viable.

6.4. Usos del Análisis Espectral

Ilustramos algunos de los usos de análisis espectral con la información en manufacturera en los
Estados Unidos .Los datos fueron trazados en la Grafica 6.3. Las series son los índices mensuales
desajustados estacionalmente del Comité Federal de la Reserva desde Enero de 1947 a Noviembre
de 1989.Las recesiones económicas en 1949,1954,1958,1960,1970,1974,1980 y 1982 aparecen como
episodios aproximadamente de un año entero de producción decreciente. También hay fuertes
modelos estacionales en estas series; por ejemplo, la producción casi siempre disminuye en Julio y
se recupera en Agosto.
El periodograma muestral para los datos básicos es trazado en la Grafica 6.4,los cuales demuestran
𝑠̂𝛾 (𝜔𝑗 )como una función de j donde 𝜔𝑗 = 2𝜋𝑗/𝑇.La contribución de la muestra de varianza de los
componentes de la menor frecuencia (j cerca de cero) es varias veces superior a las contribuciones
de recesiones económicas o los factores estacionales. Esto es debido a la clara tendencia al alza de la
serie en la Grafica 6.3
160

140

120

100

80

60

40

1 23 45 67 89 111 133 155 177 199 221 243


Grafica 6.3 El índice de producción industrial mensual desajustado estacionalmente del Comité
Federal de la Reserva por la manufactura de los Estados Unidos, mensualmente desde Enero de
1947 a Noviembre de 1989 .

176 Capitulo 6 | Análisis Espectral


30000

25000

20000

15000

10000

5000

1 23 45 67 89 111 133 155 177 199 221


Grafica 6.4 Periodograma 243 Muestral para los datos trazados en la Grafica 6.3. La gráfica traza
ŝy (ωj ) como una función de j, donde ωj = 2πj ∕ T .
Grafica 6.5 Estimación del espectro para la tasa de crecimiento mensual de la industria de
producción o espectro de 100 veces la primera diferencia del registro de la serie en el Grafico 6.3
Representa la serie trazadas en el Grafico 6.3. Si uno tratara de describir esto con una función seno
yt = δ ⋅ sin( ωt),

La suposición tendría que ser ω es tan menor que incluso en la información t = T la magnitud ωT
sería aún menor que π ∕ 2. El gráfico 6.4 que indica que la tendencia o componentes de menor
frecuencia sin duda son los determinantes más importantes de la muestra de la varianza de y.
La definición del espectro poblacional en la ecuación [6.1.2] asumió que el proceso es
covarianza estacionaria, la cual no es una buena suposición para los datos en el Grafico 6.3. En
cambio podríamos intentar analizar el crecimiento mensual de la tasa definido por
xt = 100. [log(yt ) − log(yt−1 )] [6.4.1]

El Grafico 6.5 traza la estimación del espectro poblacional de X como se describió en la e


en la ecuación [6.3.6] con h = 12 .En la interpretación un trazo tal como en el Grafico 6.5 es más
conveniente con frecuencia pensar en términos del periodo de una función cíclica en lugar de su
frecuencia. Recuerde que si la frecuencia de un ciclo es ω , el periodo del ciclo es 2πj ∕ T. Por lo
tanto, una frecuencia de ωj = 2πj ∕ T corresponde a un periodo de 2πj ⁄ωj = 𝑇 ∕ 𝑗 . El tamaño de
la muestra observada es T=513, y el primer punto más alto en el Grafico 6.5 sucede en torno de
j=18. Esto corresponde a un ciclo con un periodo de 513/18 = 28.5 meses, o en torno de 24 años.
Dado los datos de la recesión económica reconocida previamente, esto es a veces descrito como
una “Frecuencia del ciclo de negocio”, y el área bajo esta cuesta podría ser vista como diciéndonos
cuanta de la variabilidad en las tasas de crecimiento mensuales se debe a recesiones económicas.

El segundo punto más alto en el Grafico 6.5 ocurre en j=44 y corresponde al periodo de
513/44 = 11.7 meses. Esto es naturalmente visto como un ciclo de 12 meses asociados con efectos
estacionales y efectos calendarios.

6.4 Usos del Análisis Espectral 177


Ya que la manufacturación suele fallar temporalmente en julio, el crecimiento de la tasa es
negativo en julio y positivo en agosto. Esto induce una correlación en serie de primer orden
negativo a la serie en el [6.4.1]y una variedad de los patrones del calendario para x, que podrían
contar para los picos de alta frecuencia en el Grafico 6.5. Una estrategia alternativa para
detrending(eliminación de tendencias) podría usar año a año tasas de crecimiento, o el porcentaje
cambia entre yt y su valor por el mes correspondiente en el año previo:
wt = 100. [log(yt ) − log(yt−12 )] [6.4.2]
La estimación del espectro muestral para esta serie esta trazado en el Grafico 6.6. Cuando
los datos de tendencia son eliminados de esta manera, virtualmente toda la varianza que denota es
atribuida a componentes asociados con las frecuencias de ciclos de negocios.

Filtros
Aparte del parámetro escala, la tasa de crecimiento mensual xt en [6.4.1] es obtenida de
log(yt ) por aplicar el filtro
xt = (1 − L) log(yt ), [6.4.3]
Donde L es el operador de retraso. Para discutir tales transformaciones en términos generales, sea
Yt cualquier serie de covarianza estacionaria con autocovarianzas absolutamente sumatorias.

90

80

70

60

50

40

30

20

10 1 21 41 61 81 101 121 141 161 181 201 221

Grafica 6.6 Estimación del espectro para la tasa de crecimiento año a año de la producción
industrial mensual y espectro de 100 veces la diferencia estacionaria del registro de la serieen el
Grafico 6.3
Denote la función de autocovarianza generada de Y por 𝑔𝑌 (𝑧) , y denote el espectro poblacional de
Y por sy (ω) . Recuerde que
sY (ω) = (2π)−1 g Y (e−iω) [6.4.4]
Suponga que transformamos Y de acuerdo a
X t = h(L)Yt
Donde

h(L) = ∑ hj Lj
j= −∞
Y

178 Capitulo 6 | Análisis Espectral


∑ |hj | < ∞
j=−∞
Recuerde de la ecuación [3.6.17] que la función de autocovarianza generada de X puede ser
calculada de la función de autocovarianza generada de Y usando la formula
g X (z) = h(z)h(z −1 )g Y (z) [6.4.5]
El espectro poblacional de X es por lo tanto
sX (ω) = (2π)−1 g X (e−iω ) = (2π)−1 ℎ(e−iω )ℎ(eiω )g Y (e−iω ) [6.4.6]
Sustituyendo [6.4.4] en [6.4.6] rebela que el espectro poblacional X está relacionado al espectro
poblacional de Y de acuerdo a
sX (ω) = ℎ(e−iω )ℎ(eiω )sY (ω) [6.4.7]
Operando en una serie Yt con el filtro h(L) tiene el efecto de multiplicar el espectro por la función
ℎ(e−iω )ℎ(eiω ).
Para el operador diferente [6.4.3], el filtro es h(L) = 1 − L y la función ℎ(e−iω )ℎ(eiω )
podría ser
ℎ(e−iω )ℎ(eiω ) = (1 − e−iω )(1 − eiω )
= 1 − e−iω − eiω + 1 [6.4.8]
= 2 − 2 ⋅ cos(𝜔)
Donde la última línea que cumple [6.1.11].Si 𝑋𝑡 = (1 − 𝐿)𝑌𝑡 , entonces , para encontrar el valor del
espectro poblacional de 𝑋 en cualquier frecuencia ω nosotros primero encontramos el valor del
espectro poblacional de Y en ω y entonces multiplicar por 2 − 2 ⋅ cos(𝜔).Por ejemplo, el
espectro en frecuencia es multiplicado por cero , el espectro en la frecuencia ω = π ∕ 2 es
multiplicado por 2, y entonces el espectro en la frecuencia ω = π es multiplicado por 4
diferenciando la información elimina los componentes de menor frecuencia y acentúa los
componentes de frecuencia alta.
Por supuesto, este cálculo asume que el proceso original Y es una covarianza estacionaria,
por lo tanto sY (ω)existe. Si el proceso original no es estacionario, como parece ser el caso en el
Grafico 6.3, la información diferenciada (1 − L)Yt en general podría no tener un espectro
poblacional que es cero en frecuencia cero.
El filtro de diferencia estacional usado en [6.4.2] es ℎ(𝐿) = 1 − 𝐿12 , para el cual

ℎ(e−iω )ℎ(eiω ) = (1 − e−12iω )(1 − e12iω)


= 1 − e−12iω − e12iω + 1
= 2 − 2 ⋅ cos(𝜔)

Esta función es igual a cero cuando ω = 2π, 4π, 6π, 8π, 10π, 𝑜 12π es decir esto es cero en las
frecuencias de ω = 0, 2π⁄12 , 4π⁄12 , 6π⁄12 , 8π⁄12 , 10π⁄12 y π es decir,
Por lo tanto, la diferencia estacional no solo elimina los componentes (ω = 0)de menor frecuencia
de un proceso estacionario, pero más allá de eso elimina cualquier contribución de los ciclos con
periodos de 12,6,4,3,2.4, o 2 meses.

Procesos Estocásticos Compuestos


Sea 𝑋𝑡 una covarianza estacionaria con autocovarianzas absolutamente sumatorias, función
de autocovarianza generada g x (z) , y espectro poblacional sX (ω) .Sea Wt una serie de covarianza
estacionaria diferente con autocovarianza absolutamente sumatoria ,función de autocovarianza
generada g w (z) y espectro poblacional sX (ω) ,donde 𝑋𝑡 no e s correlativo con Wt ,para toda t y τ.
Supongamos que observamos la suma de estos dos procesos
Yt = 𝑋𝑡 + Wt
Recuerde de [4.7.19] que la función de autocovarianza generada de la suma es la suma de las
funciones de autocovarianza generada:
g y (z) = g x (z) + g w (z)

6.4 Usos del Análisis Espectral 179


Cumple de [6.1.2] que el espectro de la suma es la suma del espectro:
sy (ω) = sx (ω) + sw (ω) [6.4.9]
2
Por ejemplo, una serie de ruido blanco Wt con varianza σ es agregada a la serie 𝑋𝑡 y si 𝑋𝑡 no es
correlativa con Wt , para toda t y τ ,el efecto es cambiar el espectro poblacional en todas partes por
la constante σ 2⁄2π. De la manera más general ,si 𝑋 tiene un pico o punto más alto en su espectro
en la frecuencia 𝜔1 y si W tiene un punto más alto en su espectro en 𝜔2 ,entonces típicamente la
suma 𝑋 + W tendrá los puntos más altos en ambos 𝜔1 y 𝜔2 .
Como otro ejemplo, suponga que

Yt = c + ∑ hj Xt−j + εt ,
j=−∞
donde 𝑋𝑡 es covarianza estacionaria con autocovarianzas absolutamente sumatorias y el espectro

sw (ω).Suponga que la secuencia {hj } es absolutamente sumatoria y que εt es un proceso de
j=−∞
ruido blanco con varianza σ2 donde ε no es correlativo con 𝑋𝑡 en todos los adelantos y retrasos.
∞ ∞
Seguido de [6.4.7] que la variable aleatoria ∑ hj Xt−j {hj } hX tiene espectro
j=−∞ j=−∞ j t− j

ℎ(e−iω )ℎ(eiω )sx (ω), por lo tanto, de [6.4.9], el espectro de Y es sy (ω) =


ℎ(e−iω )ℎ(eiω )sX (ω) + σ 2⁄2π.

APENDICE 6.A. Prueba de las proposiciones del Capítulo 6


𝜋 ∞
π
1
∫ sy (ω)eiωk ⅆω = ∫ ∑ 𝛾𝑗 𝑒 −iωj 𝑒 −iωk ⅆω
−π 2𝜋
−𝜋 𝑗=−∞

1 𝜋
=2𝜋 ∑ 𝛾𝑗 ∫−𝜋 𝑒 𝑖𝑤(𝑘−𝑗) ⅆω
𝑗=−∞


1 𝜋
= ∑ ∫−𝜋{cos[𝑤(𝑘 − 𝑗)] + 𝑖. sin[ω(k − j)]} ⅆω
2𝜋 𝑗=−∞

[6.A.1]

Considere el cálculo integral en [6.A.1] .Para k = j, esto podría ser


𝜋 𝜋
∫ {cos[𝑤(𝑘 − 𝑗)] + 𝑖. sin[ω(k − j)]} ⅆω = ∫ {cos(0) + 𝑖. sin(0)} ⅆω
−𝜋 −𝜋
π
= ∫−π ⅆω [6.A.2]
= 2π
Para k ≠ j,el cálculo integral en [6.A.1] podría ser
𝜋
∫ {cos[𝑤(𝑘 − 𝑗)] + 𝑖. sin[ω(k − j)]} ⅆω
−𝜋
sin[ω(k−j)] π cos[ω(k−j)] π
= | − 𝑖 | [6.A.3]
k−j wm−π k−j wm−π

= (k − j)−1 {sin[π(k − j)] − sin[−π(k − j)] −i. cos[π(k − j)] + i. cos[−π(k − j)]}

Pero la diferencia entre las frecuencias π(k − j) y –π(k − j),es 2π(k − j)la cual es un entero
múltiplo de 2π. Ya que las funciones seno y coseno son periódicas, la magnitud en [6.A.3 ] es cero.
Por tanto, solo el termino para𝑗 = 𝑘 en la suma en [6.A.1] es distinto a cero, y usando [6.A.2], esta
suma es vista como
π 1 𝜋
∫ sy (ω)eiωk ⅆω = 2𝜋 𝛾𝑘 ∫−𝜋{cos(0) + 𝑖. sin(0)} ⅆω = 𝛾𝑘 ,
−π
Como afirmación en [6.1.15]
Para derivar [6.1.16], note que como sy (ω) es simétrica en torno a ω = 0,

180 Capitulo 6 | Análisis Espectral


0
π π
∫ sy (ω)eiωk ⅆω = ∫ sy (ω)eiωk ⅆω + ∫ sy (ω)eiωk ⅆω
−π 0
−π
π π
= ∫ sy (−ω)e−iωk ⅆω + ∫ sy (ω)eiωk ⅆω
0 0
π
= ∫ sy (ω)(e−iωk + eiωk ) ⅆω
0
π
= ∫ sy (ω). 2. 𝑐𝑜𝑠(ωk) ⅆω
0
Donde la última línea cumple [6.1.11].Nuevamente haciendo un llamamiento a la simetría de
sy (ω),
π π
∫ sy (ω). 2. 𝑐𝑜𝑠(ωk) ⅆω = ∫ sy (ω)𝑐𝑜𝑠(ωk) ⅆω
0 −π
,
Por lo tanto
π π
∫ sy (ω)eiωk ⅆω = ∫ sy (ω)𝑐𝑜𝑠(ωk) ⅆω,
−π −π

Como afirmación

Derivación de la Ecuación [6.2.11] en la proposición 6.2. Empezamos estableciendo el


siguiente resultado:
T
2πs T =0
∑ 𝑒𝑥𝑝 [i( )(t − 1)] = { [6.A.4]
t=1 T O = ±1, ±2, … . , ±(T − 1)
Lo que [6.A.4]sostiene para s=0 es una consecuencia inmediata del hecho que exp(0) = 1.Para ver
lo que sostiene para otros casos en [6.A.4], define
2πs
z=𝑒𝑥𝑝 [i( T
)] [6.A.5]

Luego la expresión a ser evaluada en [6.A.4] puede ser escrita


𝑇 𝑇
∑𝑡=1 exp[𝑖(2𝜋𝑠⁄𝑇)(𝑡 − 1) = ∑𝑡=1 𝑧 (𝑡−1) [6.A.6]

Ahora mostramos que para cada N,


𝑁 1−𝑧 𝑁
∑𝑡=1 𝑧 (𝑡−1) = [6.A.7]
1−𝑧

Previsto que z ≠ 1, cuando es el caso que 0 < |s| < T. Expresión [6.A.7] puede ser verificado por
inducción. Claramente esto llega a N=1, para luego
𝑁
∑𝑡=1 𝑧 (𝑡−1) = 𝑧 (0) = 1

Dado que [6.A.7] llevada para N, vemos que


𝑁+1 𝑁
∑𝑡=1 𝑧 (𝑡−1) = ∑𝑡=1 𝑧 (𝑡−1) + 𝑧 𝑁

1−𝑧 𝑁
= + 𝑧𝑁
1−𝑧

1 − 𝑧 𝑁 + 𝑧 𝑁 (1 − 𝑧)
=
1−𝑧

1 − 𝑧 𝑁+1
=
1−𝑧
Como aclaración en [6.A.7]
Tenemos N=T en [6.A.7] y sustituyendo el resultado dentro[6.A.6], vemos que

Apéndice A Pruebas de Proposiciones de capítulo 6 181


𝑇 1−𝑧 𝑇
∑𝑡=1 exp[𝑖(2𝜋𝑠⁄𝑇)(𝑡 − 1) = 1−𝑧
[6.A.8]

Para 0 < |s|< T . Pero este sigue para la definición de z en [6.A.5] dado
𝑧 𝑇 = exp[𝑖(2𝜋𝑠⁄𝑇). 𝑇]
= exp[𝑖(2𝜋𝑠)]
=𝑐𝑜𝑠(2𝜋𝑠) + 𝑖. sin(2𝜋𝑠) [6.A.9]
=1 para s=±1, ±2, … . , ±(T − 1)
Como aclaramos en [6.A.4]
Para ver como[6.A.4] puede ser usado para deducir la expresión [6.2.11], la cual tiene la
T
primera columna de ∑z=1 xt xt′ esta dada por
T
∑ 𝐶𝑂𝑆[ω1 (𝑡 − 1)]
∑ sin[ ω1 (𝑡 − 1)]
.
[6.A.10]
.
.
∑ cos[ωM (𝑡 − 1)]
[ ∑sin[ωM (𝑡 − 1)] ]
T
Donde Σ indica sumatoria acerca de t desde 1 hasta T. La primera fila de ∑t=1 xt xt′ es la
traspuesta de [6.A.10]. Para mostrar que todos los términos en [6.A.10] otros dan que el primer
elemento es cero,
Podemos mostrar que
T
∑ 𝑐𝑜𝑠[ωj (𝑡 − 1)] = 0 para j = 1,2, … . , M [6.A.11]
t=1

T
∑ 𝑠𝑖𝑛[ωj (𝑡 − 1)] = 0 para j = 1,2, … . , M [6.A.12]
t=1

Para ωj la frecuencia especificada en [6.2.7]. Pero [6.A.4] establecido que


𝑇
0 = ∑𝑡=1 exp[𝑖(2𝜋𝑗⁄𝑇)(𝑡 − 1) [6.A.13]
𝑇 𝑇

= ∑ cos[(2𝜋𝑗⁄𝑇)(𝑡 − 1)] + ∑ sin[(2𝜋𝑗⁄𝑇)(𝑡 − 1)]


𝑡=1 𝑡=1

Para j = 1, 2, …. ,M. Para [6.A.13] igualar a cero, tanto el componente real e imaginario se igualan a
cero. Desde ωj = 2𝜋𝑗⁄𝑇 , resultando [6.A.11] y [6.A.12] seguido inmediatamente de [6.A.13].
T
El resultado [6.A.4] puede ser usado para calcular los otros elementos ∑t=1 xt xt′ . Para ver como
resultado
1 𝑖𝜃 1
[𝑒 + 𝑒 −𝑖𝜃 ] = [cos(𝜃) + 𝑖. 𝑠𝑖𝑛(𝜃) + 𝑐𝑜𝑠(𝜃) − 𝑖. 𝑠𝑖𝑛(𝜃)] [6.A.14]
2 2

Y similarmente
1 1
2𝑖
[𝑒 𝑖𝜃 + 𝑒 −𝑖𝜃 ] = 2𝑖 [cos(𝜃) + 𝑖. 𝑠𝑖𝑛(𝜃) − {𝑐𝑜𝑠(𝜃) − 𝑖. 𝑠𝑖𝑛(𝜃)}] [6.A.15]

T
Por ejemplo los elementos ∑t=1 xt xt′ correspondiendo al producto de los términos de coseno que
pueden ser calculados como

182 Capitulo 6 | Análisis Espectral


𝑇

∑ cos[ωj (𝑡 − 1)]. cos[ωk (𝑡 − 1)]


𝑡=1

T
1
=4 ∑ {exp[𝑖wj (t − 1)] + exp[−𝑖wj (t − 1)]}𝑥
t=1

{exp[𝑖wk (t − 1)] + exp[−𝑖wj (t − 1)]}


T
1
= ∑{exp[𝑖(wj + wk )(t − 1)] + exp[𝑖(−wj + wk )(t − 1)]}
4
t=1
+ {exp[𝑖(wj − wk )(t − 1)] + exp[𝑖(−wj − wk )(t − 1)]}
T
1
∑{exp[𝑖(2𝜋/𝑇)(𝑗 + 𝑘)(t − 1)] + exp[𝑖(2𝜋/𝑇)(𝑘 − 𝑗)(t − 1)]}
4
t=1
+ {exp[𝑖(2𝜋/𝑇)(𝑗 − 𝑘)(t − 1)] + exp[𝑖(2𝜋/𝑇)(−𝑗 − 𝑘)(t − 1)]}

Para cada j= 1, 2, . . . , M y para cada k ≠ j, expresión [6.A.16] es cero por virtud de [6.A.4]. Para
cada k=j la primera y la ultima sumatoria en la ultimas línea de[6.A.16] son cero, entonces el total es
igual a (1 ∕ 4) ∑Tt=1(1 + 1) = T ∕ 2.
T
Del mismo modo, elementos de ∑t=1 xt xt′ correspondientes a productos cruzados de los
términos del seno pueden ser encontrados de
T
∑ 𝑠𝑖𝑛[ωj (𝑡 − 1)]. sin[ωk (𝑡 − 1)
t=1
T
= −1/4 ∑ {𝑒𝑥𝑝[𝑖ωj (𝑡 − 1)] − exp[−iωj (𝑡 − 1)]} 𝑥 {exp[𝑖ωk (𝑡 − 1)] −
t=1
{exp[−𝑖ωk (𝑡 − 1)]}
T
1 2𝜋 2𝜋
= − ∑ {exp [𝑖 ( ) (𝑗 + 𝑘)(t − 1)] − exp [𝑖 ( ) (𝑘 − 𝑗)(t − 1)]}
4 𝑇 𝑇
t=1
− {exp[𝑖(2𝜋/𝑇)(𝑗 − 𝑘)(t − 1)] + exp[𝑖(2𝜋/𝑇)(−𝑗 − 𝑘)(t − 1)]}
T⁄2 Para j = k
={
0 ⅆe otra manera
T
Finalmente, elementos de ∑t=1 xt xt′ correspondientes a productos cruzados de términos del seno
y coseno son dados por
T
∑ 𝑐𝑜𝑠[ωj (𝑡 − 1)]. sin[ωk (𝑡 − 1)
t=1
T
= 1/4𝑖 ∑ {𝑒𝑥𝑝[𝑖ωj (𝑡 − 1)] + exp[−iωj (𝑡 − 1)]} 𝑥 {exp[𝑖ωk (𝑡 − 1)] −
t=1
{exp[−𝑖ωk (𝑡 − 1)]}
T
1 2𝜋 2𝜋
= − ∑ {exp [𝑖 ( ) (𝑗 + 𝑘)(t − 1)] + exp [𝑖 ( ) (𝑘 − 𝑗)(t − 1)]}
4i 𝑇 𝑇
t=1
− {exp[𝑖(2𝜋/𝑇)(𝑗 − 𝑘)(t − 1)] − exp[𝑖(2𝜋/𝑇)(−𝑗 − 𝑘)(t − 1)]}
los cuales son iguales a cero para todas j y k. Esto completa la derivación de [6.2.11]

Apéndice A Pruebas de Proposiciones de capítulo 6 183


Prueba de la Proposición 6.2 (a). Sea b la estimación de β basada en una estimación de regresión
de Mínimos Cuadrados Ordinarios (MCO) en [6.2.8]
T T

𝑏 = {∑ xt xt′ }−1 {∑ xt yt }
t=1 t=1
−1
T 0′
=[ ] {∑Tt=1 xt yt } [6.A.17]
0 [T ∕ 2]. 𝐼𝑡−1
−1
𝑇 −1 0′
=[ ] {∑Tt=1 xt yt }
0 [2 ∕ T]. 𝐼𝑡−1
Pero la definición de xxx en [6.2.9] implica que
∑Tt=1 xt yt = [𝛴𝑦 , 𝛴𝑦 , cos[𝜔1 (𝑡 − 1)] 𝛴𝑦 , sin[𝜔1 (𝑡 − 1)] 𝛴 𝑦 , cos[𝜔2 (𝑡 −
1)] 𝛴𝑦 , sin[𝜔2 (𝑡 − 1)] . . . … .. 𝛴𝑦 , cos[𝜔𝑀 (𝑡 − 1)] 𝛴𝑦 , sin[𝜔𝑀 (𝑡 − 1)] ] [6.A.18]
Prueba de la proposición 6.2(b). Recuerde de la expresión [4.A.6] que la suma residual de
cuadrados asociados con la estimación de Mínimos Cuadrados Ordinarios (MCO) de [6.2.8] es
T T T −1
∑t=1 û2i = ∑t=1 yt2 − [∑Tt=1 yt xt′ ] [∑t=1 xt xt′ ] [∑Tt=1 xt yt ] [6.A.19]

Puesto que hay tantas variables explicativas como observaciones y ya que las variables explicativas
son linealmente explicativas, los MCO residuales ût son todos cero.Por lo tanto, , [6.A.19] implica
que
T T −1
∑t=1 yt2 = [∑Tt=1 yt xt′ ] [∑t=1 xt xt′ ] [∑Tt=1 xt yt ] [6.A.20]
Pero [6.A.17] nos permite escribir
𝑇 0′
∑Tt=1 xt yt = [ ]𝑏 [6.A.21]
0 [T ∕ 2]. 𝐼𝑡−1
Sustituyendo [6.A.21] y [6.2.11] en establece que
T −1
𝑇 0′ T 0′ 𝑇 0′
∑ yt2 = 𝑏 ′ [ ][ ] [ ]𝑏
0 [T ∕ 2]. 𝐼𝑡−1 0 [T ∕ 2]. 𝐼𝑡−1 0 [T ∕ 2]. 𝐼𝑡−1
t=1

𝑇 0′
= 𝑏′ [ ]𝑏
0 [T ∕ 2]. 𝐼𝑡−1
𝑀
𝑇
2
̂2j + δ̂2 )
= 𝑇. 𝜇̂ + ( ) ∑(α
2
𝑗=1
Por tanto
𝑇 𝑀
1 1
(𝑇) ∑ (yt2 ) = 𝜇̂ 2 + ( ) ∑
2
̂2j + δ̂2 )
(α [6.A.22]
𝑡=1 𝑗=1
Finalmente, observe de [4.A.5] y el hecho de que 𝜇̂ 2 = 𝑦̅ que
𝑇
𝑀
1 1
( ) ∑(yt2 ) − 𝜇̂ 2 = ( ) ∑(yt − y̅τ )2
𝑇 𝑇
𝑗=1
𝑡=1
Permitiendo [6.A.22] ser escrito como
𝑇
𝑀
1 1
̂2j + δ̂2 )
( ) ∑(yt − y̅τ )2 = ( ) ∑(α
𝑇 2
𝑗=1
𝑡=1
Como afirmación en [6.2.14] .Como los regresores son todos ortogonales, el termino 1/2(α ̂2j +
δ̂2 ) puede ser interpretado como la porción de la muestra de la varianza que puede ser atribuida a
los regresores [ωj (𝑡 − 1)] y sinωj (𝑡 − 1).

184 Capitulo 6 | Análisis Espectral


Prueba de la Proposición 6.2(c). Note que
̂2j + δ̂2 ) = (𝛼̂𝑗 + 𝑖. 𝛿̂𝑗 )(𝛼̂𝑗 − 𝑖. 𝛿̂𝑗 )

[6.A.23]
Pero del resultado (a) de la Proposición 6.2.
𝑇
𝑇
2 2
𝛼̂𝑗 = ( ) ∑ yt . cos[ωj (𝑡 − 1)] = ( ) ∑ (yt − y̅τ ). cos[ωj (𝑡 − 1)], [6.A.24]
𝑇 𝑇 𝑡=1
𝑡=1
Q donde la segunda igualdad cumple [6.A.11].Asimismo,
𝑇
2
𝛿̂𝑗 = (𝑇) ∑ (yt − y̅τ ). sin[ωj (𝑡 − 1)]
𝑡=1
[6.A.25]
Esto cumple [6.A.24] y [6.A.25] que
𝑇 𝑇
2
(𝛼̂𝑗 + 𝑖. 𝛿̂𝑗 ) = (𝑇) {∑ (yt − y̅τ ). cos[ωj (𝑡 − 1)] + 𝑖. ∑ (yt − y̅τ ). sin[ωj (𝑡 − 1)]}
𝑡=1 𝑡=1
𝑇
2
= (𝑇) ∑ (yt − y̅τ ). exp[iωj (𝑡 − 1)] [6.A.26]
𝑡=1

Asimismo,
𝑇
2
𝛼̂𝑗 − 𝑖. 𝛿̂𝑗 = (𝑇) ∑ (yt − y̅τ ). exp[iωj (𝑡 − 1)] [6.A.27]
𝑡=1

Sustituyendo [6.A.26] y [6.A.27] en [6.A.23] produce


𝑇 𝑇
4
̂2j
α ̂2
+ δ = ( 2 ) {∑(yt − y̅τ ). exp[iωj (𝑡 − 1)]} 𝑥 {∑(yt − y̅τ ). exp[−iωj (𝜏 − 1)]}
𝑇
𝑡=1 𝑡=1
𝑇
𝑇
4
= ( 2 ) ∑ ∑(yt − 𝑦̅) (yt − 𝑦̅). 𝑒xp[iωj (𝑡 − 𝜏)]
𝑇
𝑡=1
𝑡=1

4 𝑇 𝑇−1
= ( 2 ) {∑𝑡=1(yt − 𝑦̅)2 + ∑𝑡=1 (yt − 𝑦̅)(yt+1 − 𝑦̅).exp[iωj ]
𝑇
𝑇
+∑𝑡=2(yt − 𝑦̅)(yt−1 − 𝑦̅).exp[iωj ]
𝑇−2
+ ∑𝑡=1 (yt − 𝑦̅)(yt+2 − 𝑦̅).exp[−2iωj ]
𝑇
+ ∑𝑡=3(yt − 𝑦̅)(yt−2 − 𝑦̅).exp[2iωj ] + …. [6.A.28]
+(y1 − 𝑦̅)(y𝜏 − 𝑦̅)].exp[-(T-1) iωj ]
+(y𝜏 − 𝑦̅)(y1 − 𝑦̅)].exp[(T-1) iωj ]
4
= ( ) {𝛾̂0 + 𝛾̂1 . exp[−iωj ] + 𝛾̂−1 . exp[−iωj ]
T
+𝛾̂2 . exp[−2iωj ]+𝛾̂−2 . exp[2iωj ]+ . . .
+𝛾̂𝑡−1 . exp[−(𝑇 − 1)iωj ]+𝛾̂−𝜏+1 . exp[(𝑇 − 1)iωj ]}
4
= ( ) (2𝜋)𝑠̂𝑦 (𝑤𝑗 ),
𝑇

Capítulo 6 Ejercicios
6.1 Derivar [6.1.12] directamente de la expresión [6.1.6] y las fórmulas para las
autocovarianzas de un proceso MA(1)
6.2 Integrar [6.1.9]para confirmar independientemente que [6.1.17] sostiene para un ruido
blanco y un proceso MA (1).

Capítulo 6 Ejercicios 185


Capítulo 6 Referencias
Anderson.T.W.1971.El análisis estadístico de la serie de tiempo. Nueva York: Wiley
Bloomfield, Peter.1976. Análisis de Fourier de la serie de tiempo: Una introducción. Nueva
York :Wiley

186 Capitulo 6 | Análisis Espectral


7

Teoría de distribución asintótica


Suponga que una muestra de T observaciones (Y1 , Y2,,… , Yn ) ha sido usada para construir θ̂ , una
estimación del vector de parámetros poblacionales . Por ejemplo, el vector de parámetro θ =
(c, ϕ1 , ϕ2,…, ϕp , σ2 )´para un proceso AR(p) podría haber sido estimado de una regresión MCO de
y, por retraso y’s. Nos encantaría saber hasta qué punto esta estimación θ̂ es probablemente del
valor real θ y como probar la hipótesis sobre el verdadero valor basado en la muestra observada de
y’s.
Gran parte de la teoría de distribución utilizada para responder a estas preguntas es asintótica: es
decir, esto describe las propiedades de estimadores como el tamaño de la muestra (T) va hasta el
infinito. Este capítulo desarrolla los resultados asintóticos básicos que serán usados en capitulo
subsecuentes. La primera sección resume la herramienta clave de análisis asintótico y presenta
teorías limite por la media de la muestra de una secuencia de i.i.d. variables aleatorias. La sección 7.2
desarrolla la teoría del límite por variables en serie dependientes con distribuciones marginales
variable en el tiempo.

7.1. Revisión de la Teoría de la Distribución Asintótica

Límites de Secuencias Determinísticas


Sea {CT }∞
T=1 una secuencia de números deterministas. La secuencia dice para converger a c
si para cualquier ε > 0, aquí existe una N tal que |cT − c| < ε cuando T ≥ N ;en otras palabras, cT
estará tan cerca como T siempre y cuando sea suficientemente mayor. Esto es indicado como

𝑙𝑖𝑚 𝑐𝑡 = 𝑐
𝑇→∞
O equivalentemente,

cT → c
Por ejemplo, CT = 1 ∕ T denota la secuencia {1,1/2,1/3…} para lo cual

𝑙𝑖𝑚 𝐶𝑡 = 0
𝑇→∞

Una secuencia de matrices (m x n) deterministas {CT }∞


T=1 converge a C si cada elemento de CT
converge a los elementos correspondientes de C.

7.1. Revisión de la Teoría de la Distribución Asintótica 187


Convergencia en Probabilidad
Considerada una secuencia de variables aleatorias escalares, {XT }∞ T=1 Se dice que la
secuencia converge en probabilidad a c para cualquier ε > 0 y cualquier δ > 0 existe un valor N tal
que, para cada T ≥ N,
P{|XT – c| > δ } < Ꜫ [7.1.2]
En otras palabras, si vamos lo suficientemente lejos en la secuencia, la probabilidad que X T difiere
de c por más de δ puede ser hecha arbitrariamente pequeña para cualquier δ.
Cuando [7.1.2] es satisfecha, el numero c es llamado la propiedad limite o plim,de la secuencia {XT}.
Esto es indicado como
Plim XT = c,
O equivalentemente
P
X𝑇 → 𝑐
Recuerde que si {cT}wT-1 es una secuencia determinista que converge a c, entonces existe un N tal
que |cT – c|< δ para todo T ≥ N. Entonces P{|cT – c|< δ } = 0 para todo T ≥ N .Por tanto ,si una
secuencia determinista converge a c ,entonces podremos también decir que ct  c.
Una secuencia de matrices (m x n) de variable aleatorias {XT} converge en probabilidad a la (m x n)
matriz C si cada elemento de XT converge en probabilidad al elemento correspondiente de C.
De manera más general, si {XT} y {YT} son secuencias de (m x n) matrices, usaremos la notación
P
XT → YT
Para indicar que la diferencia entre las dos secuencias converge en probabilidad a cero:
P
XT - YT → 0
Un ejemplo de una secuencia de variables aleatorias de interés es lo siguiente. Supongamos tener
una muestra de observaciones T en unas variables aleatoria {Y1, Y2, . . . .,YT). Considere la media de la
muestra,
1
𝑌̅𝑇 = (𝑇) ∑𝑇𝑡=1 𝑌𝑡 [7.1.3]
Como un estimador de la media poblacional,
μ̂𝑡 = 𝑌̅𝑇
Añadiremos el subíndice T, a este estimador para enfatizar que esto describe la media de una
muestra de tamaño T. El objetivo primario estará en el comportamiento de este estimador cuando
T aumenta de tamaño. Entonces, estaremos interesados en las propiedades de la secuencia {μ̂ 𝑇 }∞
𝑇=1

Cuando el plim de una secuencia de estimadores (tal como {μ̂ 𝑇 }∞ 𝑇=1 ) es igual al parámetro
poblacional real (en este caso μ),se dice del estimador que es constante.Si un estimador es
constante, entonces existe una muestra suficientemente grande tal que podamos estar seguros con
una probabilidad muy alta que la estimación será en cualquier banda de tolerancia deseada en torno
al valor real.
El siguiente resultado es de mucha ayuda encontrando plims; unas pruebas de esto y algunas de las
otras proposiciones de este capítulo son ofrecidas en el Apéndice 7.A en el final de este capítulo.
Proposición 7.1 Sea{XT} una secuencia de (n x 1) vectores aleatorios con plim c, y sea g(c) una función de vector
valuado, 𝑔: 𝑅 𝑛 → 𝑅 𝑚 , donde g(.) es continua en c y no depende en T.

188 Capítulo 7 | Teoria de distribución Asintótica


Entonces
P
g(xT ) → g(c)

La idea básica detrás de esta proposición es que, ya que g(.) es continua, g(X T) estará cerca
de g(c) siempre que XT esté cerca de eligiendo un valor suficientemente mayor de T, la probabilidad
que este cerca de c (y así que g(XT) esta tan cerca de g(c)) puede ser llevado tan cerca de la unidad
como se desee.
Tenga en cuenta que g(XT) depende del valor de XT pero no puede depender del propio índice T.
Ya que, g(X T . T) = T ⋅ X 2T no es una función cubierta por la Proposición 7.1.

Ejemplo 7.1
P P P
Si X1t → C1 y Si X2t → C2, entonces Si (X1t + X2T) →(C1 + C2). Esto cumple inmediatamente, ya
que g(X1T,X2T) = (X1T,X2T) es una función continua de (X1T,X2T)

Ejemplo 7.2
P
Sea X1t una secuencia de (m x n) matrices aleatorias con X1t → C1 , una matriz no singular. Sea X2t
P P
una secuencia de (n x 1) vectores aleatorios con X2t → C2.Al final [X1T]-1X2t → [C1]-1c2 .Para ver esto
,tenga en cuenta que los elementos de la matriz [X1T]-1son funciones continuas de los elementos de
P
X1T en X1T =C1,ya que [C1]-1 existe. Por tanto, [X1T]-1→[C1]-1. Similarmente, los elementos de [X1T]-
1X2t son sumas de elementos de productos de[X1T]-1 con los de X2t. Ya que cada suma es
nuevamente una función continua de X1T y X2T,
plim[X1T]-1X2t=plim[X1T]-1plim X2T =[C1]-1c2.
La proposición 7.1 también sostiene que si alguno de los elementos de XT son
deterministas con limites convencionales como en la expresión [7.1.1]. Especialmente, sea 𝑋𝑇′ =

(𝑥1𝑇 ′ ),
, 𝑋2𝑇 donde X1T es un vector estocástico (n1 x 1) y c2t es un vector determinista (n2 x 1). Si
P
plim X1t=c1 y limt∞c2t =c2 entonces g(X1t,c2t) → g(c1,c2). (ver el ejercicio 7.1.)
Ejemplo 7.3
Considere un estimador alternativo de la media dada por 𝑌̅𝑇∗ ≡ [1 ∕ (𝑇 − 1)] x ∑𝑇𝑡=1 𝑌𝑡 Esto puede
1
ser escrito como 𝑐1𝑇 𝑌̅𝑇 donde 𝑐1𝑡 = (𝑇 ∕ (𝑇 − 1)) y 𝑌̅𝑇 = (𝑇) ∑𝑇𝑡=1 𝑌𝑡 . Bajo condiciones generales
detalladas en la Sección 7.2, la media muestral es un estimador constante de la media poblacional,
P
implicando que 𝑌̅𝑇 → u. Es también fácil de verificar que c1t1. Ya que 𝑐1𝑇 𝑌̅𝑇 es una función
P
continua de c1t y 𝑌̅𝑇 , cumple que 𝑐1𝑡 𝑌̅𝑇 → 1.u = u. Por lo tanto 𝑌̅𝑇∗ como 𝑌̅, es un estimador
constante de u.

Convergencia en Media cuadrática y desigualdad de Chebyshev


Una condición más fuerte que la convergencia en probabilidad es una convergencia de
media cuadrática. Se dice que la secuencia aleatoria {XT} converge en media cuadrática a c, indicada
m.s.
como 𝑋𝑡 → c
Si para todo ε > 0 existe un valor N tal que, para toda 𝑇 ≥ 𝑁
𝐸(𝑋𝑇 − 𝐶)2 < 𝜀 [7.1.4]
Otro resultado útil en la secuencia

7.1. Revisión de la Teoría de la Distribución Asintótica 189


Proporción 7.2. (Desigualdad generalizada de Chebyshev). Sea una variable aleatoria con 𝐸(|𝑥|𝑟 ) límite para
algún r >0. Entonces, para cualquier 𝛿 > 0 y cualquier valor de c.
E|x−C|r
P[ |x − C| > δ] ≤ δr
[7.1.5]
m.s. p
Una implicación de desigualdad Chebyshev es que si 𝑋𝑡 → c, entonces 𝑋𝑡 → c. Para ver esto,
m.s.
note que si 𝑋𝑡 → c, entonces para cualquier ε > 0 y 𝛿 > 0 existe un N tal que 𝐸(𝑋𝑇 − 𝐶)2 δ2 ε
para todo 𝑇 ≥ 𝑁. Esto podría comprobar que
E(XT − C)2

δ2
Para todo 𝑇 ≥ 𝑁. Por desigualdad Chebyshev, esto tambien implica
P{|XT − C| > δ} < ε
p
Para todo 𝑇 ≥ 𝑁, o 𝑋𝑇 → c

Ley de los grandes números para variables independientes e idénticamente


distribuidas
1
Permítanos ahora considerar el comportamiento de la media muestral 𝑌̅𝑇 = (𝑇) ∑𝑇𝑡=1 𝑌𝑡 donde {Yt}
es i.i.d con media μ y varianza σ2 . Para este caso, 𝑌̅𝑇 tiene expectativa matemática μ y varianza
T T
̅t − μ) = (1 ∕ T
E(Y 2 2 )Var
(∑ Yt ) = (1⁄T 2)
(∑ Yt ) 𝑉𝑎𝑟(Yt ) = σ2 ∕ T
t=1 t=1
m.s.
Entonces σ2 ∕ T como T → ∞, esto significa que 𝑌̅𝑇 → μ , implicando también que
p
𝑌̅𝑇 → μ .
La Grafica 7.1 traza un ejemplo de la densidad de la media muestral f̅̅̅ Y′ r (y
̅ T ) para tres valores
diferentes de T. Mientras T se vuelve más larga, la densidad se vuelve más concentrada en un pico
centrado en μ.
El resultado de que la media muestral es una estimación consistente de la media poblacional es
conocida como la ley de los grandes números1. Esto fue probado por el caso especial de variables i.i.d
con varianza finita. De hecho, resulta ser cierto también para cualquier secuencia de variables i.i.d
con media finita μ.2 La sección 7.2 explica algunas de las circunstancias bajo la cuales también son
válidas para variables dependientes en serie con distribuciones marginales de variables en el tiempo.

Convergencia en Distribución
Sea {X T }∞
T=1 una secuencia de variables aleatorias, y sea FxT (x) la función de distribución
acumulable de XT. Suponga que existe una función de distribución acumulable Fx (x) tal que
lim FxT (x) = Fx (x)
T→∞

1Esto es con frecuencia descrito como Ley débil de grandes números .Un resultado análogo conocido como la ley fuerte de grandes
números se refiere una convergencia casi segura en lugar de convergencia en probabilidad de la media muestral.
2 Esto es conocido como el teorema Khinchine .Ver, por ejemplo, Rao (1973,p.112

190 Capítulo 7 | Teoria de distribución Asintótica


T=100

T=10
T=2

Grafica 7.1 Densidad de la media muestral para una muestra de tamaño T.


En cualquier valor x en el cual 𝐹𝑥 (⋅) es continuo. Entonces se dice que X T que converge en la
distribución(o en ley) para que x denote
L
XT → X
Cuando 𝐹𝑥 (𝑥) es de la forma común, tal como la función de distribución acumulativa para
una variable N(μ, σ2 ), escribiremos equivalentemente
L
X T → N(μ, σ2 )
Las definiciones son iguales si el escalar X T es reemplazado con un vector (n x 1). Una
manera simple para verificar la convergencia en distribución de un vector es lo siguiente. 3 Si el
escalar (λ1 X1T + λ2 X2T + ⋯ + λn XnT) converge en distribución para (λ1 X1 + λ2 X2 + ⋯ +
λn Xn) para cualquier valor real de (λ1 , λ2,…, λn ), entonces el vector X T ≡
[(𝑋1𝑇 , 𝑋2𝑇 , … , 𝑋𝑛𝑇 )]´converge en distribución al vector 𝑋 ≡ [(𝑥1 , 𝑥2 , … , 𝑥𝑛 )]´.
Los siguientes son resultado del limite de una distribución determinada.4
Proposición 7.3
𝐿
(a)Sea {𝑌𝑇 } una secuencia de (𝑛 𝑥 1) vectores aleatorios con 𝑌𝑇 → 𝑌. Suponga que {𝑋𝑇 } es una secuencia
𝑝 𝐿
de(𝑛 𝑥 1) vectores aleatorios tales que(𝑋𝑇 − 𝑌𝑇 ) → 0 . Entonces 𝑋𝑇 → 𝑌 , que es 𝑋𝑇 y 𝑌𝑇 tienen la
misma distribución limitada .
𝑝
(b)Sea {𝑋𝑇 } una secuencia de (𝑛 𝑥 1) vectores aleatorios con 𝑋𝑇 → 𝑐, y sea {𝑌𝑇 } una secuencia de
𝐿
𝑛 𝑥 1 vectores aleatorios con 𝑌𝑇 → 𝑌. Entonces la secuencia construida de la suma {𝑋𝑇 + 𝑌𝑇 } converge en
distribución a c + Y y la secuencia construida del producto {𝑋𝑇′ 𝑌𝑇 } converge en distribución a c’Y.

3 Esto es conocido como el teorema Cramer-Wold ,Vea ,Rao (1973,p.123


4 Vea Rao (1973, pp.122-24)

7.1. Revisión de la Teoría de la Distribución Asintótica 191


𝐿
(c)Sea {𝑋𝑇 } una secuencia de (𝑛 𝑥 1) vectores aleatorios con con 𝑋𝑇 → 𝑋 ,y sea 𝑔(𝑋), una función continua
(no depende de T). Entonces la secuencia de variable aleatorias {𝑔(𝑋𝑇 )} converge en distribución a 𝑔(𝑋).

T=2

T=10

T=100

̅T − μ)
Grafica 7.2 Densidad de √T(Y

Ejemplo 7.4
p L
Suponga que X T → c y YT → Y, donde Y~N(μ, σ2 ). Entonces, por la Proposición 7.3 (b), la
secuencia X T YT tiene la misma ley de probabilidad limitada como la de c veces una variable
L
N(μ, σ2 ). En otras palabras, X T YT → N(cμ, c 2 σ2 ).

Ejemplo 7.5
Generalmente el resultado previo, sea {XT } una secuencia de (mxn) matrices aleatoria y {YT } una
p L
secuencia de (n x 1) vectores aleatorios con X T → c y YT → Y, con Y~N(μ, Ω) Entonces la
L
distribución limitada de X T YT es la misma que CY; esto es, X T YT → N, (Cμ , CΩC ′ ).

Ejemplo 7.6
L
Suponga que X T → N(0,1). Entonces la Proposición 7.3 (c) implica que el cuadrado de X T se
p
comporta asintóticamente como el cuadrado de una N(0,1) variable: X T2 → X 2 (1)

Teorema del límite central


Hemos visto que la media muestral Y ̅T para una secuencia i.i.d tiene una densidad de probabilidad
degenerada como T → ∞, cayendo hacia una masa del punto en μ ya que el tamaño de la muestra
crece. Para una perturbación estadística nos gustaría describir la distribución de 𝑌̅𝑇 en mayor detalle.
̅T − μ) tiene media cero y varianza dada por
Para este propósito, note que la variable aleatoria √T(Y
2
(√T) Var(Y ̅T ) = σ2 para toda T, y por lo tanto, en contraste para ̅ ̅T −
YT ,la variable aleatoria √T(Y
μ)podría esperarse convergir a una variable aleatoria no degenerada como T va al infinito.

192 Capítulo 7 | Teoria de distribución Asintótica


El teorema del límite central es el resultado que, como T aumenta, la secuencia √T(Y ̅T − μ)
converge en distribución a una variable aleatoria Gaussianas. La más familiar, aunque restrictiva, la
versión del teorema del límite central establece que si ̅ YT es i.i.d .con media μ y varianza σ2 ,
entonces 55

L
̅T − μ) → N(0, σ2 )
√T(Y [7.1.6]
El resultado [7.1.6] también sostiene bajo muchas más condiciones generales, algunas de las cuales
son exploradas en la siguiente sección.
L
̅T − μ) → para 3 diferentes valores de T.
Grafica 7.2 traza un ejemplo de la densidad de √T(Y
Valores de T. Cada una de estas densidades tiene media cero y varianza 𝜎 2 . A medida que T se hace
grande, la densidad converge a la de una variable N (0, 𝜎 2 ).
Un resultado final útil es el siguiente.

Proposición 7.4: Sea 𝑋𝑡 una secuencia de vectores aleatorios (n x 1) tales que √𝑇(𝑋𝑡 – c) 𝜇 X y tenga g: 𝑅 𝑛
→ 𝑅 𝑚 primeros derivados continuos con G denotando la matriz (m x n) de derivadas evaluadas en c:
𝜕𝑔
G≡ ⃒𝑥=𝑐
𝜕𝑥ʹ

𝐿
Entonces √𝑇 [g(𝑋𝑇 ) – g(c) → GX.

Ejemplo 7.7
Sea {𝑌1 , 𝑌2 , . . . , 𝑌𝑇 } una muestra i.i.d del tamaño T dibujado de una distribución con media 𝜇 ≠ 0
y varianza 𝜎 2 . Considere la distribución del recíproco de la media muestral, 𝑆𝑇 = 1⁄ ̅ , donde 𝑌̅𝑇
𝑌𝑇
𝐿
≡ (1⁄𝑇)∑𝑇𝑡=1 𝑌𝑡 . Conocemos del teorema del límite central que √𝑇(𝑌̅𝑇 - 𝜇) → 𝑌, donde 𝑌 ~
N(0, 𝜎 2 ). También, g(𝑦) = 1⁄𝑦 es continua en 𝑦 = 𝜇. Sea G ≡ (∂g/∂𝑦)⃒𝑦= 𝜇 = (−1⁄𝜇2 ).
𝐿 𝐿
Entonces √𝑇[𝑆𝑇 − (1⁄𝜇)] → G.Y ; en otras palabras, √𝑇[𝑆𝑇 − (1⁄𝜇)] → N(0, 𝜎 2 ⁄𝜇4 ) .

7.2. Teorema de límites para observaciones dependientes en


serie
La sección previa expresó la ley de grandes números y el teorema del límite central para variables
independientes e idénticamente aleatorias distribuidas con segundos momentos finitos. Esta sección
desarrolla resultados análogos para variables heterogéneamente distribuidas con varias formas de
dependencia en serie. Primero desarrollamos una ley de grandes números para un proceso general
de covarianza estacionaria.

Ley de grandes números para un proceso de covarianza estacionaria


Represente (𝑌1 , 𝑌2 , . . . , 𝑌𝑇 ) una muestra de tamaño T de un proceso de varianza
estacionaria con

5 5Vea, por ejemplo. White (1984, pp.108-9)

7.1. Revisión de la Teoría de la Distribución Asintótica 193


E(𝑌𝑡 ) = 𝜇 para toda t [7.2.1]

E(𝑌𝑡 − 𝜇)(𝑌𝑡−𝑗 − 𝜇) = 𝛾𝑗 para toda t [7.2.2]

∑∝
𝑗=0|𝛾𝑗 | < ∝ [7.2.3]
Considere las propiedades de la media muestral:

𝑌̅𝑇 ≡ (1⁄𝑇)∑𝑇𝑡=1 𝑌𝑡 [7.2.4]


Teniendo en cuenta las expectativas de [7.2.4] revela que la media muestral ofrece una estimación
imparcial de la media poblacional,
E(𝑌̅𝑇 ) = 𝜇,

Mientras la varianza de la media muestral es


𝐸(𝑌̅𝑇 − 𝜇)2
𝑇 2

= 𝐸 ⌊(1⁄𝑇) ∑(𝑌𝑡 − 𝜇)⌋


𝑡=1

= (1⁄𝑇 2 )𝐸{[(𝑌1 − 𝜇) + (𝑌2 − 𝜇) + ⋯ + (𝑌𝑇 − 𝜇) ] 𝑥 [(𝑌1 − 𝜇) + (𝑌2 − 𝜇) + ⋯


+ (𝑌𝑇 − 𝜇) ]}
= (1⁄𝑇 2 ) 𝐸{[(𝑌1 − 𝜇) [(𝑌1 − 𝜇) + (𝑌2 − 𝜇) + ⋯ + (𝑌𝑇 − 𝜇)]
+ (𝑌2 − 𝜇) [(𝑌1 − 𝜇) + (𝑌2 − 𝜇) + ⋯ + (𝑌𝑇 − 𝜇) ]
+ (𝑌3 − 𝜇)[(𝑌1 − 𝜇) + (𝑌2 − 𝜇) + ⋯ + (𝑌𝑇 − 𝜇) ] + ⋯
+ (𝑌𝑇 − 𝜇) [(𝑌1 − 𝜇) + (𝑌2 − 𝜇) + ⋯ + (𝑌𝑇 − 𝜇) ] ]}
= (1⁄𝑇 2 ) {[𝛾0 + 𝛾1 + 𝛾2 + 𝛾3 + ⋯ + 𝛾𝑇−1 ] + [𝛾1 + 𝛾0 + 𝛾1 + 𝛾2 + ⋯ + 𝛾𝑇−2 ]
+ [𝛾2 + 𝛾1 + 𝛾0 + 𝛾1 + ⋯ + 𝛾𝑇−3 ] + [𝛾𝑇−1 + 𝛾𝑇−2 + 𝛾𝑇−3 + ⋯ + 𝛾0 ]}

Por lo tanto,

2
𝐸((𝑌̅𝑇 − 𝜇)) = (1⁄ 2 ) {𝑇𝛾0 + 2(𝑇 − 1)𝛾1 + 2(𝑇 − 2)𝛾2 + 2(𝑇 − 3)𝛾3 + ⋯ + 2𝛾𝑇−1 }
𝑇
o
2 1 (𝑇 − 2)
𝐸((𝑌̅𝑇 − 𝜇)) = ( ) {𝑌0 + [(𝑇 − 1)/𝑇]2𝑌1 + [ ] (2𝑌2 ) + [(𝑇 − 3)/𝑇](2𝑦3 ) + ⋯
𝑇 𝑇

+ [1/𝑇](2𝑦𝑇−1 )}

[7.2.5]
Es fácil ver que la expresión va a cero mientras el tamaño de la muestra crece, es decir, que ‘’𝑦̅𝑇
𝑚.𝑆
→ 𝜇: ’’:
2 (𝑇−1) (𝑇−2) (𝑇−3) 1
T.E(𝑌𝑇 − 𝜇) = |𝑌0 + [ 𝑇
] (2𝑌1 ) + [ 𝑇
] (2𝑌2 ) + [ 𝑇
] (2𝑌3 ) + ⋯ + [𝑇] (2𝑦𝑇−1 )|
(𝑇−1) (𝑇−2) (𝑇−3) 1
≤{|𝑌0 | + [ 𝑇
] . 2|𝑌1 | + [ 𝑇
] . 2|𝑌2 | + [ 𝑇
] . 2|𝑌3 | + ⋯ + [𝑇] . 2|𝑌𝑇−1 |}

194 Capítulo 7 | Teoria de distribución Asintótica


≤{|𝑌0 | + 2|𝑌1 | + 2|𝑌2 | + 2|𝑌3 | + ⋯ }
2 2
Por consiguiente, T.E(𝑌𝑇 − 𝜇) <∝, por [7.2.3], y así E(𝑌𝑇 − 𝜇) → 0 , como afirma.
2
Es también de interés calcular el valor limitado de TE(𝑌𝑇 − 𝜇) . El resultado [7.2.5] expresa esta
varianza para T finito como una media ponderada de las primeras T-1 autocovarianzas 𝑦𝐽 . Para j
mayores, estas autocovarianzas se aproximan a cero y no afectarán la suma. Para j, menores, las
autocovarianzas son dadas a un peso que aproxime a la unidad mientras el tamaño de la muestra
crece. Por consiguiente, podríamos suponer que

2
lim 𝑇. 𝐸(𝑌 𝑇 − 𝜇) = ∑ 𝑦𝑓 = 𝑌0 + 2𝑌1 + 2𝑌2 + 2𝑌3 + ⋯
𝑇→∞
𝐽=−∞

[7.2.7]
Esta conjetura es verdaderamente correcta. Para verificar esto, tenga en cuenta que la suposición
[7.2.3] significa que para cualquier ℰ > 0 existe una q tal que:
2|𝑌𝑞+1 | + 2|𝑌𝑞+2 | + 2|𝑌𝑞+3 | + ⋯ < 𝜀/2

Ahora
∝ 2
|∑ 𝑌𝐽 − 𝑇. 𝐸(𝑌 𝑇 − 𝜇) |
𝐽=−∝

=|{𝑌0 + 2𝑌1 + 2𝑌2 + 2𝑌3 + ⋯ } − {𝑦0 + [(𝑇 − 1)/𝑇]. 2𝑦1 + [(𝑇 − 2)/𝑇]. 2𝑦2 + [(𝑇 − 3)/
1
𝑇]. 2𝑦3 + ⋯ + [𝑇] . 2𝑦𝑇−1 }|
1 2 3 𝑞
≤ ( ) . 2|𝑦1 | + ( ) . 2|𝑦2 | + ( ) . 2|𝑦3 | + ⋯ + ( ) . 2|𝑦𝑞 | + 2|𝑌𝑞+1 | + 2|𝑌𝑞+2 | + 2|𝑌𝑞+3 |
𝑇 𝑇 𝑇 𝑇
+⋯
1 2 3 𝑞
≤ ( ) . 2|𝑦1 | + ( ) . 2|𝑦2 | + ( ) . 2|𝑦3 | + ( ) . 2|𝑌𝑞 | + 𝜀/2.
𝑇 𝑇 𝑇 𝑇

Además, para esto, dado q, podemos encontrar una N tal que

1 2 3 𝑞
( ) . 2|𝑦1 | + ( ) . 2|𝑦2 | + ( ) . 2|𝑦3 | + ⋯ + ( ) . 2|𝑌𝑞 | < 𝜀/2
𝑇 𝑇 𝑇 𝑇
Para toda 𝑇 ≥ 𝑁, asegurar que


2
| ∑ 𝑌1 − 𝑇. 𝐸(𝑌 𝑇 − 𝜇) | < 𝜀
𝑗=−∞

como fue mostrado estos resultados pueden ser resumidas en lo siguiente


Proposición 7.5:
Sea Y, un proceso de covarianza estacionaria con momentos dados por [7.2.1] y [7.2.2] y con autocovarianzas
absolutamente sumables como [7.2.3]. entonces la media muestral [7.2.4] satisface
𝑚.𝑠
(a)𝑌𝑇 → 𝜇

7.2 Teorema de límites para observaciones dependientes en serie 195


2
(b) lim {𝑇. 𝐸(𝑌𝑇 − 𝜇) } = ∑∞
𝑗=−∞ 𝑌𝑗
𝑇→∞
Recuerde del capítulo tres la condición [7.2.3] si es satisfecho por cualquier proceso de
covarianza estacionaria ARMA(p,q)
(1 − ∅1 𝐿 − ∅2 𝐿2 − ⋯ − ∅𝑃 𝐿𝑃 )𝑌𝑡 = 𝜇 + (1 − 𝜃1 𝐿 − 𝜃2 𝐿2 − ⋯ 𝜃𝑞 𝐿𝑞 )𝜀𝑡
Con bases de (1 − 𝜙1 𝑧 − 𝜙2 𝑧 2 − ⋯ 𝜙𝑃 𝑧 𝑃 ) = 0 fuera del círculo de la unidad.
Expresiones alternativas para la varianza en el resultado (b) de la proposición 7.5 son utilizadas en
ocasiones. Recuerden que la función de autocovarianza generada para Y es definida como

𝑔𝑌 (𝑍) = ∑ 𝑌𝑗 𝑍𝑗
𝑗=−∞

Muestras el espectro es dado por


1
𝑆𝑌 (𝜔) = 𝑔 (𝑒 −𝑖𝜔 )
2𝜋 𝑌
Por ello, el resultado (b) podría ser equivalentemente descrito como la función de autocovarianza
generada evaluada en Z=1

∑ 𝑌𝐽 = 𝑔𝑌 (1)
𝐽=−∞

O como 2𝜋 veces el espectro en la frecuencia 𝜔 = 0


∑ 𝑌𝐽 = 2𝜋𝑆𝑌 (0)
𝐽=−∞

El último resultado viene del hecho que 𝑒 0 = 1. Por ejemplo, considera el proceso MA(∞)

𝑌1 = 𝜇 + ∑ 𝛹𝑖 𝜀𝑖−𝐽 ≡ 𝜇 + 𝜓(𝐿)𝜀𝑡
𝐽=0

Con E(𝜖𝑗 𝜀𝑡 ) = 𝜎 si t=T y cero en caso contrario y con ∑∞


2
𝑗=0|𝜓𝑗 | < ∞. Recuerde que sus
funciones de autocovarianza generada son dadas por
𝐺𝑌 (𝑍) = 𝜓(𝑍)𝜎 2 𝜓(𝑍 −1 )
Evaluando esto en Z=1,

∑ 𝑌𝐽 = 𝜓(1)𝜎 2 𝜓(1) = 𝜎 2 [1 + 𝜓1 + 𝜓2 + 𝜓3 + ⋯ ]2
𝑗=−∞

[7.2.8]

Secuencia de diferencia de Martingala


Algunos teoremas del límite muy útiles pertenecen a la secuencia de diferencia de
Martingala.

196 Capítulo 7 | Teoria de distribución Asintótica


Denote Let{𝑌𝑇 }∞𝑡=1 una secuencia de escalares aleatorios con E(𝑌1 ) = 0 para toda t. Denote Ω
6

información válida en la información t, donde esta información incluye valores actuales y retrasados
de Y.7 Por ejemplo, podríamos tener
Ω𝑡 = {𝑌𝑡 , 𝑌𝑡−1 , . . . , 𝑌1 . 𝑋𝑡 , 𝑋𝑡−1 , . . . , 𝑋1 }
Donde 𝑋𝑡 es una segunda variable aleatoria. Si

E (𝑌𝑡 ⃒ Ω𝑡−1 ) = 0 t= 2,3,…. [7.2.9]

Entonces se dice de {𝑌𝑡 } que es una secuencia de diferencia de Martingala con respecto a {Ω𝑡 }
Donde ninguna información es específica, se presume de Ω𝑡 que consiste únicamente de valores
actuales y retardados de 𝑌
Ω𝑡 = {𝑌𝑡 , 𝑌𝑡−1 , . . . , 𝑌1 }
Por tanto si una secuencia de escalares {𝑌𝑡 }∝
𝑡=1 conforme E(𝑌𝑡 ) para toda 𝑡 y

𝐸 (𝑌𝑡 ⃒ 𝑌𝑡−1 , 𝑌𝑡−2 . . . , 𝑌1 ) = 0, [7.2.10]

Para t= 2,3,…., entonces diremos simplemente que {𝑌𝑡 } es una secuencia de diferencia Martigala.
Tenga en cuenta que [7.2.10] es implicado por [7.2.9] por la ley de valores esperados iterados.

Una secuencia de (n x 1) vectores {𝑌𝑡 }∝


𝑡=1 conformando E (𝑌𝑡 ) = 0 y E (𝑌𝑡 ⃒ 𝑌𝑡−1 , 𝑌𝑡−2 . . . , 𝑌1 )= 0
se dice que forman un vector de secuencia de diferencia Martingala
Tenga en cuenta que la condición [7.2.10] es mucho más fuerte que la condición que Y es
no correlacionado en serie. Una secuencia no correlacionada en serie no se puede pronosticar
sobre las bases de una función lineal de sus valores pasados .Ninguna función de valores pasados,
lineal o no lineal, puede pronosticar una secuencia de diferencia de Martingala .Mientras más fuerte
que la falta de una correlación en serie, la condición de diferencia de Martingala es más débil que la
independencia, entonces esto no descarta la posibilidad que momentos más altos tales como
E(𝑌2𝑡 ⃒ 𝑌𝑡−1 , 𝑌𝑡−2 . . . , 𝑌1 ) puedan depender en el pasado de 𝑌ʹ𝑠.

Ejemplo 7.8
Si 𝜀𝑡 ~ i.i.d N (0, 𝜎 2 ), entonces 𝑌𝑡 = 𝜀𝑡 𝜀𝑡−1 es una secuencia de diferencia de Martingala, pero no
independiente en serie

L1-Mixingalas
Una clase más general del proceso conocido como L1-mixingalas fue introducido por
Andrews (1988). Considere una secuencia de variables aleatorias {𝑌𝑡 }∝
𝑡=1 con E(𝑌𝑡 )= 0 para t=
1,2,….. Denote Ω𝑡 información valida al tiempo t, como antes, donde Ω𝑡 , incluye valores actuales y
retrasados de Y. Supongamos que podemos encontrar secuencias de constantes deterministas no
negativas {𝐶𝑡 }∝ ∝
𝑡=1 y {𝜀𝑚 }𝑚=0 tales que lim 𝜀𝑚 = 0 y
𝑚→∝

𝐸 |𝐸 (𝑌𝑡 ⃒Ω𝑡−𝑚 )| ≤ 𝑐𝑡 𝜀𝑚

[7.2.11]

6 6Donde quiera que una expectativa sea indicada, es tomado como implícito que el integral existe, eso es, que E|𝑌 | es finito
𝑡

7 7Formalmente {Ω }∝ denota una secuencia en aumento del campo (Ω


𝑡 𝑡=1 𝑡−1 ⊂ Ω𝑡 ) con 𝑌𝑡 medible con respecto a Ω𝑡 . Vea, por
ejemplo. White (1984, p.56)

7.2 Teorema de límites para observaciones dependientes en serie 197


Para toda 𝑡 ≥ 1 y toda 𝑚 ≥ 0. Entonces se dice que {𝑌𝑡 } sigue una L1-mixingala con respecto a
{Ω𝑡 }.
Por tanto, un proceso de media cero para las cuales el pronóstico del futuro inmediato m
𝐸 (𝑌𝑡 ⃒Ω𝑡−𝑚 ) converge (en valor previsto absoluto) a la incondicional media de cero es descrita
como una L1-mixingala.
Ejemplo 7.9
Sea {𝑌𝑡 } una secuencia de diferencia de Martingala. Sea 𝑐𝑡 = 𝐸|𝑌𝑡 |, y elija 𝜀0 = 1 y 𝜀𝑚 = 0 para
𝑚 = 1,2, …. Entonces [7.2.11] es satisfecha por Ω𝑡 = {𝑌𝑡 , 𝑌𝑡−1 . . . , 𝑌1 }, entonces {𝑌𝑡 } podría ser
descrita como una secuencia L1-mixingala.

Ejemplo 7.10
Sea 𝑌𝑡 , donde ∑∞ ∞
𝐽=0 𝛹𝑖 𝜀𝑖−𝐽 y ∑𝐽=0|𝛹𝑗 | < ∞ es una secuencia de diferencia de Martingala con
𝐸|𝜀𝑡 | < 𝑀 para toda t para alguna 𝑀 <∝ . Entonces {𝑌𝑡 } es una L1-mixingala con respecto a
Ω𝑡 = {𝜀𝑡 , 𝜀𝑡−1 . .. }. Vea esto, y tenga en cuenta que

𝐸 |𝐸 (𝑌𝑡 ⃒𝜀𝑡−𝑚 , 𝜀𝑡−𝑚−1 . . . )|= 𝐸|∑∞ ∞


𝐽=𝑚 𝛹𝑖 𝜀𝑖−𝐽 | ≤ 𝐸 {∑𝐽=𝑚 ⃒𝛹𝑖 𝜀𝑖−𝐽 ⃒}

Entonces {𝛹𝑖 }∝ 𝑗=0 es absolutamente sumable y 𝐸|𝜀𝑡−𝑗 | < 𝑀, podemos intercambiar el orden de
expectativa y suma.
∝ ∝
𝐸 {∑∞
𝐽=𝑚 ⃒𝛹𝑖 𝜀𝑖−𝐽 ⃒} = ∑𝑗=𝑚|𝛹𝑖 | . 𝐸|𝜀𝑡−𝑗 | ≤ ∑𝑗=𝑚|𝛹𝑖 | . 𝑀

Además [7.2.11] es satisfecha con 𝑐𝑡 = 𝑀 y 𝜀𝑚 = ∑∝


𝑗=𝑚|𝛹𝑖 |. Por otra parte, lim 𝜀𝑚 = 0, debido a
𝑚→∝

la absoluta sumabilidad de {𝛹𝑗 }𝑗=0 .Por ende, {𝑌𝑡 } es una L1-mixingala

Ley de Grandes Numero para L1-mixingalas


Andrews (1988) aplico la siguiente ley de grandes números para L1-mixingalas8
Proposición 7.6: Sea {𝑦𝑡 } una L1-mixingala. Si (a) {𝑦𝑡 } es uniformemente integrable y en (b) existe
una elección para {𝑐𝑡 } tal que
𝑇
lim (1⁄𝑇) ∑ 𝑐𝑡 <∝
𝑇→∝ 𝑡=1
𝑃
Entonces (1⁄𝑇)∑𝑇𝑡=1 𝑌𝑡 → 0
Para aplicar este resultado, necesitamos verificar que una secuencia {𝑌𝑡 } este uniformemente
integrable si para toda 𝜀 > 0 existe un número 𝑐 > 0 tal que
𝐸(|𝑌𝑡 |. 𝛿[|𝑌𝑡 |≥𝑐] ) < 𝜀
[7.2.12]
Para toda t donde 𝛿[|𝑌𝑡 |≥𝑐] =1 si |𝑌𝑡 | ≥ 𝑐 y en caso contrario 0. La siguiente proposición da
condiciones suficientes para la integralidad uniforme.

̅̅̅̅̅𝑟→∞ (1⁄ ) ∑𝑇𝑡=1 𝑐𝑡 <∝.


8 8 Andrews sustituyo la parte de la proposición con la condición más débil 𝑙𝑖𝑚
𝑇
Vea,Royden (1968,p.36)en la relación entre lim y ̅̅̅̅̅
𝑙𝑖𝑚

198 Capítulo 7 | Teoria de distribución Asintótica


Proposición 7.7 :(a) Suponga que existe una r > 1 y una 𝑀ʹ >∝ tal que 𝐸(|𝑌𝑡 |𝑟 ) < 𝑀ʹ para toda t.
Entonces {𝑌𝑡 } es uniformemente integrable. (b) Suponga que existe una r > 1 y una 𝑀ʹ >∝ tal que
𝐸(|𝑋𝑡 |𝑟 ) < 𝑀ʹ para toda t. Si ∑∝ ∝
𝑗=−∝ ℎ𝑗 𝑋1−𝑗 con ∑𝑗=−∝ ℎ𝑗 <∝, entonces {𝑌𝑡 } es uniformemente integrable.

Condición (a) nos requiere para encontrar un momento más alto que el primero que existe.
Típicamente, podríamos usar r = 2. Sin embargo, aunque si una variable tiene varianza infinita, esto
aún puede ser uniformemente integrable siempre y cuando 𝐸|𝑌𝑡 |𝑟 exista para alguna r entre 1 y 2.

Ejemplo 7.11
Sea 𝑌̅𝑇 la media muestral de una secuencia de diferencia de Martingala, 𝑌̅𝑇 = (1⁄𝑇) ∑𝑇𝑡=1 𝑌𝑡 con
𝐸|𝑌𝑡 |𝑟 < 𝑀ʹ para alguna r > 1 y 𝑀ʹ <∝. Tenga en cuenta que esto también implica que exista una
𝑀 < ∞ tal que 𝐸|𝑌𝑡 | < 𝑀. De la proposición 7.7(a), {𝑌𝑡 } es uniformemente integrable. Por otra
parte, del ejemplo 7.9, {𝑌𝑡 } puede ser vista como una L1-mixingala con 𝑐𝑡 = 𝑀. De esta manera,
𝑃
lim (1⁄𝑇) ∑𝑇𝑡=1 𝑐𝑡 = 𝑀 <∝ y así, de la Proposición 7.6, 𝑌̅𝑇 → 0
𝑇→∝

Ejemplo 7.12
Sea 𝑌𝑡 =∑∝ ∝
𝑗=0 𝛹𝑖 𝜀𝑡−𝑗 , donde ∑𝑗=0 𝛹𝑖 <∝ y {𝜀𝑡 } es una secuencia de diferencia de Martingala con
𝐸|𝜀𝑡 |𝑟 < 𝑀ʹ <∝ para alguna r > 1 y algunas 𝑀ʹ <∝. Entonces, de la proposición 7.7(b), {𝑌𝑡 } es
uniformemente integrable. Asimismo, del ejemplo 7.10. {𝑌𝑡 } es una L1-mixingala con 𝑐𝑡 = 𝑀,
donde M representa el mayor valor de 𝐸|𝜀𝑡 | para algún t. Entonces lim (1⁄𝑇) ∑𝑇𝑡=1 𝑐𝑡 = 𝑀 <∝ ,
𝑇→∝
𝑃
establece nuevamente que 𝑌̅𝑇 → 0.

La Proposición 7.6 puede ser aplicada a la doble matriz indexada {𝑌𝑡.𝑇 }; que es cada
muestra de tamaño T pude ser asociado con una secuencia diferente {𝑌1.𝑇 , 𝑌2.𝑇 … . . 𝑌𝑇.𝑇 }. Se dice de
la matriz que es una L1-mixingala con respecto a una información contenida en Ω𝑡.𝑇 que incluye
{𝑌1.𝑇 , 𝑌2.𝑇 … . . 𝑌𝑇.𝑇 } si existen constantes no negativas 𝜀𝑚 y 𝑐𝑡.𝑇 tales que lim 𝜀𝑚 = 0 y
𝑚→∝

𝐸 |𝐸 (𝑌𝑡.𝑇 ⃒Ω𝑡−𝑚.𝑇 )| ≤ 𝑐𝑡.𝑇 𝜀𝑚

Para toda 𝑚 ≥ 0,𝑇 ≥ 1 y 𝑡 = 1,2, ….,T. Si la matriz es uniformemente integrable con


𝑃
lim (1⁄𝑇) ∑𝑇𝑡=1 𝑐𝑡 . 𝑇 < ∞, entonces (1⁄𝑇) ∑𝑇𝑡=1 𝑌𝑡.𝑇 → 0
𝑇→∝
Ejemplo 7.13
Sea {𝜀𝑡 }∝ 𝑟
𝑡=1 una secuencia de diferencia de Martingala con 𝐸|𝜀𝑡 | < 𝑀ʹ para alguna 𝑟 > 1 y 𝑀ʹ <
∞ , y definir 𝑌𝑡.𝑇 ≡ (𝑡⁄𝑇)𝜀𝑡 . Entonces la matriz {𝑌𝑡.𝑇 } es una L1-mixingala uniformemente
integrable con 𝑐𝑡.𝑇 = 𝑀, donde M denota el máximo valor para 𝐸|𝜀𝑡 |, y 𝜀0 = 1 para 𝑚 > 0. Por
𝑃
esto, (1⁄𝑇) ∑𝑇𝑡=1(𝑡⁄𝑇) 𝜀𝑡 → 0.

Estimación Coherente de Segundos Momentos


A continuación, se consideran las condiciones bajo la cual
𝑇
𝑃
(1⁄𝑇) ∑ 𝑌𝑡 𝑌𝑡−𝑘 → 𝐸(𝑌𝑡 𝑌𝑡−𝑘 )
𝑡=1

7.2 Teorema de límites para observaciones dependientes en serie 199


(por simplicidad notativa, asumimos aquí que la muestra consiste de T + 𝑘 observaciones en Y).
Suponga que 𝑌𝑡 = ∑∝ ∞
𝑗=0 𝜓𝑖 𝜀𝑡−𝑗 , donde ∑𝑗=0|ψ𝑗 | < ∞ y {𝜀𝑡 } es una secuencia i.i.d con 𝐸|𝜀𝑡 |
𝑟

para alguna r> 2. Tome en cuenta que el segundo momento poblacional puede ser escrito9
∞ ∞

𝐸(𝑌1 𝑌1−𝐾 ) = 𝐸 (∑ 𝜓𝑢 𝜀𝑡−𝑢 ) (∑ 𝜓𝑣 𝜀𝑡−𝑘−𝑣 )


𝑢=0 𝑣=0
∞ ∞

= 𝐸 (∑ ∑ 𝜓𝑢 𝜓𝑣 . 𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 )
𝑢=0 𝑣=0
[7.2.13]
∞ ∞

= ∑ ∑ 𝜓𝑢 𝜓𝑣 . 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 )
𝑢=0 𝑣=0

Defina 𝑋𝑡.𝑘 para ser la siguiente variable aleatoria


𝑋𝑡.𝑘 ≡ 𝑌𝑡 𝑌𝑡−𝑘 − 𝐸(𝑌𝑡 𝑌𝑡−𝑘 )
∞ ∞ ∞ ∞

= (∑ ∑ 𝜓𝑢 𝜓𝑣 . 𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 ) − (∑ ∑ 𝜓𝑢 𝜓𝑣 . 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 ))


𝑢=0 𝑣=0 𝑢=0 𝑣=0
∞ ∞

= ∑ ∑ 𝜓𝑢 𝜓𝑣 . [𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 − 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 )]


𝑢=0 𝑣=0

Considere un pronóstico de 𝑋𝑡.𝑘 en las bases de Ω𝑡−𝑚 ≡ {𝜀𝑡−𝑚 𝜀𝑡−𝑚−1 … . } para 𝑚 > 𝑘
∞ ∞

𝐸(𝑋𝑡.𝑘 |Ω𝑡−𝑚 ) = ∑ ∑ 𝜓𝑢 𝜓𝑣 . [𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 − 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 )]


𝑢=𝑚 𝑣=𝑚−𝑘
El valor expectativo absoluto de este pronóstico está delimitado por
∞ ∞

𝐸|𝐸(𝑋𝑡.𝑘 |Ω𝑡−𝑚 )| = 𝐸 | ∑ ∑ 𝜓𝑢 𝜓𝑣 . [𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 − 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 )]|


𝑢=𝑚 𝑣=𝑚−𝑘
∞ ∞

≤ 𝐸(∑ ∑ |𝜓𝑢 𝜓𝑣 |. |𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 − 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 )|)


𝑢=𝑚 𝑣=𝑚−𝑘
∞ ∞

≤ ∑ ∑ |𝜓𝑢 𝜓𝑣 |. 𝑀
𝑢=𝑚 𝑣=𝑚−𝑘

Para algunos M< ∞ .Define


∞ ∞ ∞ ∞

𝜉𝑚 ≡ ∑ ∑ |𝜓𝑢 𝜓𝑣 | = ∑ |𝜓𝑢 | ∑ |𝜓𝑣 |


𝑢=𝑚 𝑣=𝑚−𝑘 𝑢=𝑚 𝑣=𝑚−𝑘

Entonces {𝜓𝐽 }𝑗=0 es absolutamente sumatorio, lim ∑∞
𝑢=𝑚|𝜓| = 0 Y lim 𝜉𝑀 = 0. Esto cumple
𝑚→∞ 𝑚→∞
que 𝑋𝑡.𝑘 es una L1-mixingala con respecto a Ω ,con coeficiente 𝐶𝑡 = 𝑀.Por otra parte , 𝑋𝑡.𝑘 es

9 9Tenga en cuenta que

∞ ∞ ∞ ∞

∑ ∑|𝜓𝑢 𝜓𝑣 | = ∑|𝜓𝑢 | ∑ 𝜓𝑣 < ∞


𝑢=0 𝑣=0 𝑢=0 𝑣=0

Y 𝐸|𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 | < ∞, permitiéndonos mover el operador expectativo dentro de los signos de sumatoria en la última línea de [7.2.13]

200 Capítulo 7 | Teoria de distribución Asintótica


uniformemente integrable ,de una adaptación simple del argumento en la Proposicion 7.7(b)
(Revise el ejercicio 7.5).Por tanto
𝑇 𝑇
1 1 𝑃
( ) ∑ 𝑋𝑡.𝑘 = ( ) ∑[𝑌𝑡 𝑌𝑡−𝑘 − 𝐸(𝑌𝑡 𝑌𝑡−𝑘 )] → 0
𝑇 𝑇
𝑡=1 𝑡=1
Del cual
𝑇
1 𝑃
( ) ∑ 𝑌𝑡 𝑌𝑡−𝑘 → 𝐸(𝑌𝑡 𝑌𝑡−𝑘 )
𝑇
𝑡=1
[7.2.14]
Esto es evidente de deducir de [7.2.14] que la j-ésima autocovarianza muestral para una muestra de
tamaño T da una estimación constante de la autocovarianza poblacional
𝑇
1 𝑃
( ) ∑ (𝑌𝑡 −𝑌𝑇 ) (𝑌𝑡−𝑘 −𝑌𝑇 ) → (𝑌𝑡 − 𝜇) (𝑌𝑡−𝑘 − 𝜇)
𝑇
𝑡=𝐾+1
[7.2.15]
Donde 𝑌𝑇 = (1/𝑇) ∑𝑇𝑡=1 𝑌𝑡 ; vea el ejercicio 7.6

Teorema del límite central para una secuencia de diferencia de Martingala


A continuación consideraremos la distribución asintótica de √𝑇 veces la media muestral. La
siguiente versión del teorema del límite central puede con frecuencia ser aplicado
Proposición 7.8: (White, 1984, Collary 5.25, p.130). Sea {𝑌𝑡 }∞
𝑡=1 una secuencia escalar de diferencia de
Martingala con 𝑌𝑇 = (1/𝑇) ∑𝑇𝑡=1 𝑌𝑡 . Suponga que (𝑎)𝐸(𝑌𝑇2 ) = 𝜎𝑡2 > 0 con (1/𝑇) ∑𝑇𝑡=1 𝜎𝑡2 → 𝜎 2 >
𝑃 𝐿
0, (𝑏)𝐸|𝑌𝑡 |𝑟 < ∞ para alguna r> 2 y toda t, y (𝑐)(1/𝑇) ∑𝑇𝑡=1 𝑌12 → 𝜎 2 . Entonces √𝑇 𝑌 𝑇 → 𝑁(0, 𝜎 2 ).
Nuevamente, la proposición 7.8 puede ser extendida para formar {𝑌𝑡.𝑇 } como sigue. Sea
{𝑌𝑡.𝑇 }𝑇𝑡=1 2 )
una secuencia de diferencia de Martingala con 𝐸(𝑌𝑡.𝑇 2
= 𝜎𝑡.𝑇 > 0. Sea{𝑌𝑡.𝑇+1 }𝑇+1
𝑡=1 una
2 2
secuencia de diferencia Martingala diferente potencialmente con 𝐸(𝑌𝑡.𝑇+1 ) = 𝜎𝑡.𝑇+1 > 0. Si (a)
(1/𝑇) ∑𝑇𝑡=1 𝜎𝑡.𝑇
2
→ 𝜎 2 , (𝑏)𝐸|𝑌𝑡.𝑇 |𝑟 < ∞ para alguna r> 2 y toda t, y T y (𝑐)(1/𝑇) ∑𝑇𝑡=1 𝑌1.𝑇2
𝑃 𝐿
→ 𝜎 2 . Entonces √𝑇 𝑌 𝑇 → 𝑁(0, 𝜎 2 ).
La proposición 7.8 también generaliza fácilmente a secuencias de vectores de diferencias de
Martingala.
Proposición 7.9 :sea {𝑌𝑡 }∞
𝑡=1 una secuencia de diferencia de martingala de un vector n-dimensional con 𝑌 𝑇 =
(1/𝑇) ∑𝑇𝑡=1 𝑌𝑇 .Suponga que (a) 𝐸(𝑇𝑡 𝑌𝑡1 ) = 𝛺,una matriz de definición positiva con (1/𝑇) ∑𝑇𝑡=1 𝛺1 →
𝛺,una matriz de definición positiva ;(b) 𝐸(𝑌𝑖𝑡 𝑌𝐽𝑡 𝑌𝑙𝑡 𝑌𝑚𝑡 ) < ∞ para toda t y toda i,j,l y m (incluyendo i=j =l
𝑝 𝐿
=m),donde 𝑌𝑖𝑡 es el ith elemento del vector𝑌𝑖𝑡 ; y (c) (1/𝑇) ∑𝑇𝑡=1 𝑇𝑡 𝑌𝑡1 → 𝛺. Entonces √𝑇 𝑌 𝑇 → 𝑁(0, 𝛺)
Nuevamente, la proposición 7.9 sostiene para matrices {𝑌𝑡 }∞
𝑡=1 conformando las
condiciones establecidas.
Para aplicar la proposición 7.9, necesitaremos con frecuencia asumir que un cierto proceso
tiene momentos de cuarto orden finitos .El siguiente resultado puede ser útil para este fin.

7.2 Teorema de límites para observaciones dependientes en serie 201


Proposición 7.10: sea X, un proceso estocástico estacionario estrictamente con 𝐸(𝑋𝑡4 ) = 𝜇4 < ∞. Sea 𝑌𝑡 =
∑∞ ∞
𝑗=0 ℎ𝑗 𝑥𝑡−𝑗 , donde∑𝑗=0|ℎ𝑗 | < ∞ . Entonces Y, es un proceso estocástico estacionario estrictamente con
𝐸|𝑌𝑡 𝑌𝑠 𝑌𝑢 𝑌𝑉 | > ∞ para toda t,s,u y v.

Ejemplo 7.14
Sea Y1 =∅1 𝑌𝑡−1 + ∅2 𝑌𝑡−2 + ⋯ + ∅𝑝 𝑌𝑡−𝑝 + 𝜀𝑡𝑠 ,donde {𝜀𝑡 } es una secuencia i.i.d y donde bases de
(1 − 𝜙1 𝑧 − 𝜙1 𝑧 2 − ⋯ − 𝜙𝑝 𝑧 𝑝 ) = 0 se encuentran fuera del circulo de la unidad .Vimos en el
Capítulo 3 que Y puede ser escrita como ∑∞ ∞
𝑗=0 𝜓𝑗 𝜀𝑡−𝑗 con∑𝑗=0|𝜓𝑗 | < ∞ ,la Proposición 7.10
establece que si 𝜀𝑡 ,tiene momentos de cuarto orden finitos ,entonces 𝑌𝑡 también lo hace .

Ejemplo 7.15
Sea Yt =∑∞ ∞ 2 2 4
𝑗=0 0𝜓𝑗 𝜀𝑡−𝑗 con ∑𝑗=0|𝜓𝑗 | < ∞ y 𝜀 i.i.d,con E(𝜀𝑡 ) = 0,(𝜀𝑡 ) = 𝜎 ,y 𝐸(𝜀𝑡 ) < ∞.
Considere la variable aleatoria X, definida por 𝑋𝑡 ≡ 𝜀𝑡 𝑌𝑡−𝑘 para 𝑘 > 0. Entonces X es una
secuencia de diferencia de martingala con varianza 𝐸(𝑋𝑡2 ) = 𝜎 2 . 𝐸(𝑌𝑡2 ) y con momento de cuarto
orden 𝐸(𝜀𝑡4 ). 𝐸(𝑌𝑡4 ) < ∞, por ejemplo 7.14.Por ende, si podemos demostrar que
𝑇
𝑝
(1/𝑇) ∑ 𝑋𝑡2 → 𝐸(𝑋𝑡2 )
𝑡=1
[7.2.16]
Entonces la proposición 7.8 puede ser aplicada para deducir que
𝑇
𝐿
(1/√𝑇) ∑ 𝑋𝑡 → 𝑁(0, 𝐸(𝑋𝑡2 ))
𝑡=1
O
𝑇
𝐿
(1/√𝑇) ∑ 𝜀1 𝑌𝑡−1 → 𝑁(0, 𝜎 2 . 𝐸(𝑋𝑡2 ))
𝑡=1
[7.2.17]
Para verificar [7.2.16], tenga en cuenta que
𝑇 𝑇
2
(1/𝑇) ∑ 𝑋𝑡2 = (1/𝑇) ∑ 𝜀𝑡2 𝑌𝑡−𝑘
𝑡=1 𝑡=1

𝑇 𝑇
(1/𝑇) ∑(𝜀𝑡2 2 2
= − 𝜎 2 )𝑌𝑡−𝑘 + (1/𝑇) ∑ 𝜎 2 𝑌𝑡−𝑘
𝑡=1 𝑡=1
[7.2.18]
2
Pero (𝜀𝑡2 − 𝜎 2 )𝑌𝑡−𝑘 es una secuencia de diferencia de martingala con momento de segundo finito,
así que, del Ejemplo 7.11

𝑇
𝑝
2
(1/𝑇) ∑(𝜀𝑡2 − 𝜎 2 )𝑌𝑡−𝑘 →0
𝑡=1

202 Capítulo 7 | Teoria de distribución Asintótica


Adicionalmente sigue del resultado [7.2.14] que
𝑇
1 2
𝑝
( ) ∑ 𝜎𝑡2 𝑌𝑡−𝑘 → 𝐸(𝑌𝑡2 )
𝑇
𝑡=1
Por tanto, [7.2.18] implica
𝑇
1 𝑝
( ) ∑ 𝑋𝑡2 → 𝜎 2 𝐸(𝑌𝑡2 )
𝑇
𝑡=1
Como se afirmó en [7.2.16]

Teorema del limite central para procesos estocásticos estacionarios


Ahora presentamos un teorema de limite central para una secuencia correlacional en seria
Recuerde de la proposición 7.5 que la media muestral tiene varianza asitotica dada por
(1⁄𝑇) ∑∝ ̅
𝑗=−∝ 𝑦𝑗 . Por ello, esperaríamos que el teorema de limite central tome la forma √𝑇 (𝑌𝑇 −
𝐿
𝜇) → 𝑁 (0, ∑∝
𝑗=−∝ 𝑦𝑗 ) . La siguiente proposición da como resultado de su tipo.

Proposición 7.11 (Anderson ,1971,p.429) Sea


𝑌𝑇 − 𝜇 + ∑∝
𝑗=0 𝜓𝑗 𝜀1−𝑗 ∗

Donde {𝜀𝑡 } es una secuencia de i.i.d variables aleatorias con (𝜀𝑡∝ ) < ∞, entonces
𝐿 ∝
√𝑇(𝑌̅𝑇 − 𝜇) → 𝑁 (0, ∑ 𝑦𝑗 )
𝑗=−∝

[7.2.19]
Una versión de [7.2.19] puede también ser desarrollada por {𝜀𝑡 } una secuencia de diferencia
de martingala satisfaciendo ciertas restricciones,ver Phillips y Solo (1992)

APENDICE 7.A. Prueba de la proposiciones del capítulo 7


Prueba de la proposición 7.1 Denote 𝑔𝑗 (𝑐) el 𝑗𝑡ℎ elemento de 𝑔(𝑐). 𝑔𝑗 : 𝑅 𝑛 → 𝑅 ’ . Necesitamos
demostrar que para cualquier 𝛿 > 0 y 𝜀 > 0 existe una N tal que para toda 𝑇 ≥ 𝑁

{⃒𝑔𝑗 (𝑋𝑇 ) − 𝑔𝑗 (𝑐)⃒ > 𝛿} < 𝜀

[7.A.1]

La continuidad de 𝑔𝑗 (. ) implica que existe una ƞ tal que ⃒𝑔𝑗 (𝑋𝑇 ) − 𝑔𝑗 (𝑐)⃒ > 𝛿 solo si
[(𝑋1𝑇 − 𝑐1 )2 + (𝑋2𝑇 − 𝑐2 )2 + ⋯ + (𝑋𝑛𝑇 − 𝑐𝑛 )2 ] > ƞ2
[7.A.2]
Este seria el caso solo si (𝑋1𝑇 − 𝑐1 )2 para alguna i. Pero por el hecho que 𝑋𝑖𝑇 − 𝑐𝑖 para cualquier t
y valores especificados de 𝜀 y ƞ podemos encontrar un valor de N tal que
𝑃{|𝑋𝑖𝑇 − 𝑐𝑖 | > ƞ⁄√ƞ < 𝜀 ⁄ƞ}

Apéndice 7.A Prueba de las proposciones del capítulo 7 203


Para toda 𝑇 > 𝑁
Recuerde la norma de adicion elemental para la probabilidad de cualquier evento A y B
𝑃{𝐴 𝑜 𝐵} ≤ 𝑃{𝐴 } + 𝑃{𝐵}
De la cual sigue que
𝑃{|𝑋𝑖𝑇 − 𝑐𝑖 | > ƞ⁄√ƞ o (|𝑋2𝑇 − 𝑐2 | > ƞ⁄√ƞ) o . . . (|𝑋𝑛𝑇 − 𝑐𝑛 | > ƞ⁄√ƞ)}
Por tanto,
{[(𝑋1𝑇 − 𝑐1 )2 + (𝑋2𝑇 − 𝑐2 )2 + . . . + (𝑋𝑛𝑇 − 𝑐𝑛 )2 ] > ƞ2 } < 𝜀

Para toda 𝑇 ≥ 𝑁. Ya que [7.A.2] fue una condición necesaria para que |𝑔𝑗 (𝑋𝑇 ) − 𝑔𝑗 (𝑐)| sea
mucho más grande que 𝛿, de ello se desprende que la probabilidad que |𝑔𝑗 (𝑋𝑇 ) − 𝑔𝑗 (𝑐)| es
mucho más grande que 𝛿 es menos que 𝜀 el cual fue para ser mostrado
Prueba de la Proposición 7.2: Denote S el conjunto de toda x tal que |𝑥 − 𝑐| > 𝛿 y denote S su
complemento (toda 𝑥 tal que |𝑥 − 𝑐| < 𝛿). Entonces, para 𝑓𝑥 (𝑥) la densidad de 𝑥,

𝐸|𝑋 − 𝑐|𝑟 = ∫|𝑋 − 𝑐|𝑟 𝑓𝑥 (𝑥)𝑑𝑥

𝑙 𝑙
= ∫ |𝑋 − 𝑐|𝑟 𝑓𝑥 (𝑥)𝑑𝑥 + ∫ |𝑋 − 𝑐|𝑟 𝑓𝑥 (𝑥)𝑑𝑥
𝑆 𝑆

𝑙
≥ ∫ |𝑋 − 𝑐|𝑟 𝑓𝑥 (𝑥)𝑑𝑥
𝑆

𝑙
≥ ∫ 𝛿 𝑟 𝑓𝑥 (𝑥)𝑑𝑥
𝑆

𝛿 𝑟 𝑃{|𝑥 − 𝑐| < 𝛿}

A fin de que

𝐸|𝑋 − 𝑐|𝑟 ≥ 𝛿 𝑟 𝑃{|𝑥 − 𝑐| > 𝛿}

Prueba de la proposición 7.7: La parte (a) es establecida como en Andrews (1988,p.463) usando
la desigualdad de Holder ( ver ,por ejemplo ,White 1984,p.30), la cual establece que para r> 1,si
𝐸[|𝑌|1 ] < ∞ y 𝐸[|𝑊|𝑟𝑡(𝑟−1) ] < ∞ ,entonces
1/𝑟 (𝑟−1)/𝑡
𝐸|𝑌𝑊| ≤ {𝐸{|𝑌|𝑟 }} 𝑥{𝐸[(𝑊)𝑟𝑡(𝑟−1) ]}
Esto implica que

𝑟𝑡(𝑟−1) (𝑟−1)/𝑡
1/𝑟
𝐸 (|𝑌1 |. 𝛿||𝑌1 |≥𝑒| ) ≤ {𝐸{|𝑌1 |𝑟 } } 𝑥 {𝐸 [(𝛿||𝑌1 |≥𝑒| ) ]}
[7.A.4]

204 Capítulo 7 | Teoria de distribución Asintótica


Ya que 𝛿||𝑌1 |≥𝑒| es también 0 o 1, sucede que
𝑟𝑡(𝑟−1)
(𝛿||𝑌1 |≥𝑒| ) = 𝛿||𝑌1 |≥𝑒|
Y asi

𝑟𝑡(𝑟−1) 𝐸|𝑌1 |
𝐸 [(𝛿||𝑌1 |≥𝑒| ) ] = 𝐸 [𝛿||𝑌1 |≥𝑒| ] = ∫ 1. ∫ 𝑟𝑡 (𝑌𝑡 )𝑑𝑦 = 𝑃{|𝑌1 | ≥ 𝑒} ≤
|𝑌1 |≥𝑒 𝐶
[7.A.5]
Donde el ultimo resultado sigue desde la desigualdad de Chebyshev .Sustituyendo [7.A.5] en [7.A.4].

1/𝑟 𝐸|𝑌1 |
𝐸 (|𝑌1 |𝛿||𝑌1 |≥𝑒| ) ≤ {𝐸{|𝑌𝑡 |𝑟 }} 𝑋{ }
𝐶
[7.A.6]
Recuerde que 𝐸{|𝑌𝑡 |𝑟 } < 𝑀, para toda t, Implicando que ahí también existe una M< ∞ tal que
𝐸|𝑌1 | < 𝑀 para toda t. Así pues 𝐸 (|𝑌1 |𝛿||𝑌1 |≥𝑒| ) ≤ (𝑀𝑙)1/𝑟 𝑥(𝑀/𝐶)(𝑟−𝑡)/𝑟
Esta expresión puede ser hecha tan pequeña como sea deseada por elegir a el suficientemente
mayor c .Por ende, la condición [7.2.112] establece asegurar que {𝑌𝑡 } es uniformemente integrable
Para establecer (b), tenga en cuenta que

𝐸 (|𝑌1 |𝛿||𝑌1 |≥𝑒| ) = 𝐸 |∑∞


𝑗=−∞ ℎ𝑗 𝑋𝑡−𝑗 . 𝛿||𝑌1 |≥𝑒| | ≤

𝐸 {∑∞
𝑗=−∞|ℎ𝑗 |. |𝑋𝑡−𝑗 |. 𝛿||𝑌1 |≥𝑒| } [7.A.7]
𝑟
Ya que 𝐸[|𝑋𝑡−𝑗 | ] < 𝑀, y como𝛿||𝑌1 |≥𝑒| ≤ 1, esto demuestra que 𝐸 {|𝑋𝑡−𝑗 |. 𝛿||𝑌1 |≥𝑒| } es

delimitada. Ya que {ℎ𝑗 } es absolutamente sumatorio, podemos traer el operador de la
𝑗=−∞
expectativa dentro de la suma en la última expresión de [7.A.7] para deducir que
∞ ∞

𝐸 { ∑ |ℎ𝑗 |. |𝑋𝑡−𝑗 |. 𝛿||𝑌1 |≥𝑒| } = ∑ |ℎ𝑗 |. 𝐸 {|𝑋𝑡−𝑗 |. 𝛿||𝑌1 |≥𝑒| }


𝑗=−∞ 𝑗=−∞
∞ (𝑟−1)𝑟
𝑟 𝑡/𝑟 𝐸|𝑌𝑡 |
≤ ∑ |ℎ𝑗 |. {𝐸{|𝑋𝑡−𝑗 | } } 𝑥{ }
𝑐
𝑗=−∞

Donde la última desigualdad demuestra los mismos argumentos como en [7.A.6].Por consiguiente,
[7.A.7] se convierte en

∞ (𝑟−1)𝑟
, 𝑡/𝑟
𝐸|𝑌𝑡 |
𝐸 (|𝑌𝑡 |. 𝛿||𝑌1 |≥𝑒| ) ≤ ∑ |ℎ𝑗 |𝑥(𝑀 ) 𝑥{ }
𝑐
𝑗=−∞
[7.A.8]
Pero ciertamente, 𝐸|𝑌𝑡 | es delimitada
∞ ∞

𝐸|𝑌𝑡 | = 𝐸 | ∑ ℎ𝑗 𝑋𝑗−1 | ≤ ∑ |ℎ𝑗 |. 𝐸|𝑋𝑡−𝑗 | = 𝑘 < ∞


𝑗=−∞ 𝑗=−∞

Por este motivo, de [7.A.8]

Apéndice 7.A Prueba de las proposciones del capítulo 7 205



𝑡 𝐾 (𝑟−1)𝑟
𝐸 (|𝑌𝑡 |. 𝛿||𝑌1 |≥𝑒| ) ≤ (𝑀, )𝑟 ( ) ∑ |ℎ𝑗 |
𝑐
𝑗=−∞
[7.A.9]
Ya que∑∞ 𝑗=−∞|ℎ𝑗 | es finito, [7.A.9] puede nuevamente ser hecho tan pequeño como sea deseado
por elegir el suficientemente mayor c
Prueba de la proposición 7.9 Considere Y, ≡ 𝜆, 𝑌 para 𝜆 cualquier vector real (𝑛𝑥1). Entonces
𝑌𝑡 es una secuencia de diferencia de martingala. A continuación verificaremos que cada una de las
condiciones de la proposición..
7.8 Este satisfecha , (a) E(𝑌12 ) = 𝜆, Ω𝑡 𝜆 ≡ 𝜎𝑡2 > 0 ,por determinaciones positivas de Ω,.Del mismo
modo,
𝑇 𝑇
(1/𝑇) ∑ 𝜎𝑡2 = 𝜆 `(1/𝑇) ∑ Ω, 𝜆 → 𝜆`Ω𝜆 ≡ 𝜎 2
𝑡=1 𝑡=1

Con 𝜎 > 0 , por determinaciones positivas de Ω .(b) 𝐸(𝑌𝑡4 )es una suma finita de términos de la
2

forma 𝜆𝑖 𝜆𝑗 𝜆𝑙 𝜆𝑚 𝐸(𝑌𝑖𝑡 𝑌𝑖𝑗 𝑌𝑖𝑙 𝑌𝑖𝑚 ) y así es delimitada para toda t por condición (b) de la Proposición
7.9;por tanto ,Y, satisface la condición (b) de la Proposición 7.8 Para r=4.(c) Define
𝑆 𝑇≡(1/𝑇)𝑋 ∑𝑇𝑡=1 𝑌12 y 𝑆 𝑇≡(1/𝑇) ∑𝑇𝑡=1 𝑌1 𝑌11 ,tengiendo en cuenta que 𝑆𝑇 = 𝜆`𝑆𝑇 𝜆.Ya que , ST es una
función continua de ST, conocemos que plim ST =𝜆`Ω𝜆 ≡ 𝜎 2 ,donde Ω es dada como el plim de ST
.Por ello, Y satisface las condiciones (a) a través de (c) de la proposicion 7.8 y asi √𝑇 𝑌𝑇
𝐿 𝐿
→ 𝑁(0, 𝜎 2 ) o √𝑇𝑌𝑇 → 𝜆`𝑌,donde Y~(0, Ω).Ya que esto es verdad para cualquier 𝜆,esto confirma
𝐿
la afirmación que √𝑇 𝑌 𝑇 → 𝑁(0, 𝜎 2 )
Prueba de la Proposición 7.10: Sea Y≡ 𝑋𝑇 𝑋𝑆 y W≡ 𝑋𝑈 𝑋𝑉 . Entonces la desigualdad Holder
implica que para r> 1
(𝑟−1)/𝑟
𝐸|𝑥𝑡 𝑥𝑠 𝑥𝑢 𝑥𝑣 | ≤ {𝐸|𝑥𝑡 𝑥𝑠 |𝑟 }1/𝑟 𝑥{𝐸|𝑥𝑡 𝑥𝑠 |𝑟/(𝑟−1) }
Para r=2, esto significa
1 1
𝐸|𝑥𝑡 𝑥𝑠 𝑥𝑢 𝑥𝑣 | ≤ {𝐸(𝑥𝑡 𝑥𝑠 )2 }2 𝑥{𝐸(𝑥𝑡 𝑥𝑠 )2 }2 ≤ 𝑚𝑎𝑥{𝐸(𝑥𝑡 𝑥𝑠 )2 , 𝐸(𝑥𝑢 𝑥𝑣 )2 }
Una segunda aplicación de la desigualdad Holder con 𝑦 ≡ 𝑋 2 y 𝑦 ≡ 𝑋 2 revela que
(𝑟−1)/𝑟
𝐸(𝑥𝑡 𝑥𝑠 )2 = 𝐸( 𝑥𝑡 2 , 𝑥𝑠 2 ) ≤ {(𝐸(𝑥𝑡 2 ))𝑟 }1/𝑟 𝑥{(𝐸(𝑥𝑠 2 ))𝑟(𝑟−1) }
Nuevamente para r=2, esto implica desde el estricto estacionario de {𝑥𝑡 } que
𝐸(𝑥𝑡 𝑥𝑠 )2 ≤ 𝐸(𝑥𝑡 4 )
Por tanto, si {𝑥𝑡 } es estrictamente estacionaria con momento de cuarto orden finito ,entonces
𝐸|𝑥𝑡 𝑥𝑠 𝑥𝑢 𝑥𝑣 | ≤ 𝐸(𝑥𝑡 4 ) = 𝜇4
Para todo t,s,u y v
Observe más allá que
∞ ∞ ∞ ∞

𝐸|𝑌𝑡 𝑌𝑠 𝑌𝑢 𝑌𝑣 | = 𝐸 |∑ ℎ𝑖 𝑋𝑡−𝑖 ∑ ℎ𝑗 𝑋𝑠−𝑗 ∑ ℎ𝑙 𝑋𝑢−𝑙 ∑ ℎ𝑚 𝑋𝑣−𝑚 |


𝑖=∞ 𝑗=∞ 𝑡=∞ 𝑚=∞

∞ ∞

= 𝐸 ||∑ ∑ ∑ ∑ ℎ𝑖 ℎ𝑗 ℎ𝑙 ℎ𝑚 𝑋𝑡−𝑖 𝑋𝑠−𝑗 𝑋𝑢−𝑙 𝑋𝑣−𝑚 ||


𝑚=0
𝑙=0
𝑖=0 𝐽=0

206 Capítulo 7 | Teoria de distribución Asintótica


∞ ∞

≤ 𝐸{∑ ∑ ∑ ∑ |ℎ𝑖 ℎ𝑗 ℎ𝑙 ℎ𝑚 |. |𝑋𝑡−𝑖 𝑋𝑠−𝑗 𝑋𝑢−𝑙 𝑋𝑣−𝑚 |}


𝑚=0
𝑙=0
𝑖=0 𝐽=0

Pero
∞ ∞ ∞

∞ ∞ ∞ ∞

∑ ∑ ∑ ∑ |ℎ𝑖 ℎ𝑗 ℎ𝑡 ℎ𝑚 | = ∑ |ℎ𝑖 | ∑ |ℎ𝑗 | ∑ |ℎ𝑙 | ∑ |ℎ𝑚 | < ∞


𝑚=0 𝑗=0 𝑙=0 𝑚=0
𝑙=0
𝑖=0 𝐽=0 𝑖=0

Y
𝐸|𝑋𝑡−𝑖 𝑋𝑠−𝑗 𝑋𝑢−𝑙 𝑋𝑣−𝑚 | < 𝜇4
Para cualquier valor de cualquier de los índices, Por consiguiente,
∞ ∞

𝐸|𝑌𝑡 𝑌𝑠 𝑌𝑢 𝑌𝑣 | < ∑ ∑ ∑ ∑ |ℎ𝑖 ℎ𝑗 ℎ𝑙 ℎ𝑚 |. 𝜇4 < ∞


𝑚=0
𝑙=0
𝑖=0 𝐽=0

Capítulo 7 Ejercicios
7.1 Denote {𝑋t } una secuencia de escalares aleatorios con plim 𝑋t = 𝜉. Sea. {𝑐t } Denote una
secuencia de escalares deterministas con IimT→∞ ct = 𝑐. Sea 𝑔: ℝ2 → ℝ1 continuo en (𝜉, 𝑐) .
𝑃
Demuestre que 𝑔(𝑋t , ct ) → 𝑔(𝜉, 𝑐).

7.2 Sea Yt = 0.8Yt−1 +𝜀𝑡 con 𝐸(𝜀𝑡 𝜀𝑇 ) = 1 para 𝑡 = 𝑇 y de lo contrario cero


(a)Calcular lim 𝑇. 𝑉𝑎𝑟(𝑌̅𝑇 ).
𝑇→𝑥
(b)¿Cuán grande sería la muestra mayor que podríamos necesitar en orden de tener 95% de confían
que 𝑌̅𝑇 difiera del verdadero valor por no más de 0.1?
7.3 ¿Una secuencia de diferencia de martingala tiene que ser covarianza estacionaria?
7.4 Sea Yt =∑𝑥𝑗=0 𝜑𝑗 𝜀𝑡−𝑗 , donde ∑𝑥𝑗=0|𝜑𝑗 | < ∞ y {𝜀t } es una secuencia de diferencia de martingala
con 𝐸(𝜀𝑡2 ) = 𝜎 2 . ¿Es Yt una covarianza estacionaria?
7.5 Defina X t,k ≡ ∑𝑥𝑢=0 ∑𝑥𝑣=0 𝜑𝑢 𝜑𝑣 [𝜀𝑡−𝑢 𝜀𝑡−𝑘−1 − 𝐸(𝜀𝑡−𝑢 𝜀𝑡−𝑘−𝑣 ] ,donde 𝜀𝑡 es una secuencia
i.i.d con 𝐸|𝜀𝑡 | < 𝑀´´ para algún 𝑟 > 2 y 𝑀´´ < ∞ con ∑𝑥𝑗=0|𝜑𝑗 | < ∞.Demuestre que X t,k es
uniformemente integrable.
7.6 Derive el resultado de [7.2.15]
7.7 Sea Yt , sigue un proceso 𝐴𝑅𝑀𝐴 (𝑝. 𝑞), (1 − 𝜙1 𝐿 − 𝜙2 𝐿2 − ⋯ 𝜙𝑃 𝐿𝑃 )(Yt − 𝜇) con bases de
(1 − 𝜙1 𝑧 − 𝜙2 𝑧 2 − ⋯ 𝜙𝑃 𝑧 𝑃 ) = 0 y (1 − 𝜃1 𝑧 − 𝜃2 𝑧 2 − ⋯ 𝜃𝑞 𝑧 𝑞 ) = 0 fuera del circulo de la
unidad .Suponga que 𝜀𝑡 ,,tiene media cero y es independiente de 𝜀𝜏 ,para 𝑡 = 𝜏 con 𝐸(𝜀𝑡2 ) = 𝜎 2 y
𝐸(𝜀𝑡4 ) < ∞ para toda 𝑡.P ruebe lo siguiente
𝑇
𝑝
(a) (1⁄𝑇) ∑ 𝑌𝑡 → 𝜇
𝑡=1
𝑇
𝑝
(b)[1⁄(𝑇 − 𝑘)] ∑ 𝑌𝑡 𝑌𝑡−𝑘 → 𝐸(𝑌𝑡 𝑌𝑡−𝑘)
𝑡=𝑘+1

Capítulo 7 Referencias
Anderson,T.W.1971.El análisis estadísticos de series de tiempo.Nueva York:Willey.

Capítulo 7 Ejercicios 207


Andrews,Donald W.K.1988’’Leyes de grandes números para variables aleatorias distribuidas no
idénticamente dependientes ‘’ Teoria Econometrica 4:458-67
Hoel,Paul G,Sidney C.Port ,y Charles J Stone.1971.Introduccion a pa teoria de probabilidad
.Boston: Houghton Mifflin.
Marsden,Jerrold E . 1974.Analisis Clasico Primario .San Francisco :Hombre Libre
Phillips,Peter C.B,y Victor Solo ,1992.’’Asintoticos para procesos lineales’’. Análisis de Estadística
20:971-1001
Rao ,C Radhakrishna,1973.Inferencia estadística lineal y su saplicaciones,2ª ed.Nueva York:Wiley
Royden,H.L1968.Analisis Real,2ª ed.Nueva York:Macmillan
Theil,Henri.1971.Principos de la economía .Nueva York: Wiley
White,Halbert.1984.Teoria asintótica para econométricos.Orlando,Fla:Academia de prensa

208 Capítulo 7 | Teoria de distribución Asintótica


8
.

Modelo de Regresión Lineal

Nosotros tenemos un camino conveniente para estimar los parámetros de una autoregresión con la
regresión de mínimos cuadrados ordinarios, una técnica de estimación que que también es usada para
un gran número de modelos. Este capítulo revisa las propiedades de la regresión lineal. La sección 8.2
da resultados análogos de la estimación de los mínimos cuadrados ordinarios de más modelos generales
como las autoregresiones y regresiones en la cual los disturbios son no Gaussianos, heterocedásticos y
autocorrelacionados. Los modelos de regresión lineal también pueden ser estimados por los mínimos
cuadrados ordinarios, los cuales son descritos en la sección 8.3.

8.1. Revisión de los mínimos cuadrados ordinarios con


regresores determinísticos i.i.d y perturbaciones Gaussianas.
Suponemos que un escalar y, es relatado para un (𝑘 𝑥 1) vector 𝑥𝑡 y un término de perturbación 𝑢𝑡
acorde al modelo de regresión.

𝑦𝑡 = 𝑥𝑡′ 𝜷 + 𝑢𝑡 [8.1.1]

Esta relación puede ser usada para describir cada una de las variables aleatorias o su realización. En
modelos de regresión discutidas, esto resulta engorroso de distinguir notacionalmente entre las variables
aleatorias y su realización, en la practica estándar esta para usar las letras pequeñas para cada uno.

Esta sección revisa estimaciones e test de hipótesis de 𝜷 bajo la certeza que 𝒙𝒕 es


determinístico y 𝑢𝑡 es i.i.d Gaussiano. La siguiente sección discute algunos aspectos bajo la lógica del
modelo de regresión lineal. Primero resumimos los mecanismos de la regresión lineal y presentamos
algunas fórmulas que llevan a ser independientes del supuesto estadístico.

El Algebra de las Regresiones Lineales


Dado un ejemplo observado de (y1 y2 ,. . . , yτ ) de los Minímos cuadrados ordinarios
estimados de 𝜷 esto minimiza la suma de los residuos al cuadrado (RSS):
T
RSS = ∑t=1(yt − 𝐱𝐭′ 𝜷)2 [8.1.2]

Vimos en el apéndice 4.A el capítulo 4 que la estimación MCO es dada por


T −1 T

𝒃= [∑ xt xt′ ] [∑ xt yt ] [8.1.3]
t=1 t=1

8.1. Revisión de los mínimos cuadrados ordinarios con regresores determinísticos 209
T
Asumiendo que la (k x k) matriz [∑t=1 xt xt′ ] es no singular. La muestra residual MCO para la
observación t es

𝑢̂ = yt − xt′ 𝒃 [8.1.4]

Con frecuencia el modelo en [8.1.1] es escrito en matriz notativa como

y = 𝐗𝜷 + u, [8.1.5]

Donde
y1 x1′ u1
y2 x2′ u2
y ≡ . X ≡ . u ≡ .
(𝑡𝑥1) (𝑡𝑥1)
(𝑡𝑥1) . . .
[yT ] [xT′ ] [uT ]

Luego las estimaciones de los MCO estimada en [8.1.3] pueden ser escritas como

−1
x1′ y1
x2′ y2
𝒃 = [𝑥1 𝑥2 . . . 𝑥𝑇 ] . [𝑥1 𝑥2 . . . 𝑥𝑇 ] . [8.1.6]
. .
{ [xT′ ] } { [yT ] }

= ((𝑿′ 𝑿)−𝟏 𝑿′ 𝒚

Similarmente el vector de muestras residuales MCO [8.1.4] puede ser escrito como

̂ = y − 𝐗𝐛 = y − 𝑿(𝑿′ 𝑿)−𝟏 𝑿′ 𝑦 = [𝐈𝐓 − 𝑿(𝑿′ 𝑿)−𝟏 𝑿′ ]𝑦 = 𝑴𝐗 𝒚


𝐮 [8.1.7]

Donde 𝑴𝐗 es definida como la siguiente (T × T) matriz:

𝑴𝐗 = 𝐈𝐓 − 𝑿(𝑿′ 𝑿)−𝟏 𝑿′ [8.1.8]

Uno puede verificar fácilmente que 𝑴𝐗 es simétrica: 𝑴𝐗 = 𝐌𝐱′ ;

Idempotente: 𝑴𝐗 𝑴 𝐗 = 𝑴𝐗 ;

Y ortogonal a las columnas de X: 𝑴𝐗 𝑿 = 𝟎 [8.1.9]

Por tanto, de [8.1.7], las muestras residuales MCO son ortogonales a las variables explicativas en X:
̂ ´ 𝐗 = 𝑦 ′ 𝐌𝐱′ 𝑿 = 0′
𝐮 [8.1.10]

La muestra residual MCO (𝑢 ̂𝑡 ) xxx podría ser distinguida de la población residual ut . La muestra
̂ = yt − xt′ 𝒃) (mientras la población residual
residual es construida de la estimación de la muestra b(𝑢
es una construcción hipotética basada en el verdadero valor poblacional 𝜷(𝑢 = yt − xt′ 𝜷). La relación
entre la muestra mientras la población residual es una construcción hipotética basada en el verdadero
valor poblacional xxx. La relación entre la muestra y la población residual puede ser encontrada
sustituyendo [8.1.5] en [8.1.7]:

𝑢 = 𝑴𝒙 (𝑿𝜷 + 𝒖) = 𝑴𝒙 𝒖 [8.1.11]

210 Capítulo 8 | Modelo de Regresión Lineal


La diferencia entre la estimación MCO b y el verdadero parámetro poblacional β es encontrado
sustituyendo [8.1.5] en [8.1.6]

𝒃 = (𝑿′ 𝑿)−𝟏 𝑿′[𝑿𝜷+𝒖] = 𝜷 + (𝑿′ 𝑿)−𝟏 𝑿′𝒖 [8.1.12]


La adaptación de una regresión MCO es a veces descrita en términos de la muestra del
coeficiente de correlación múltiple, o 𝑅 2. La no centrada 𝑅 2 (denotada por 𝑅𝑢2 ) es definida como la suma
de cuadrados de los valores ajustados (𝒙′𝒕 𝒃) de la regresión como una fracción de la suma de cuadrados
de 𝑦:

∑𝑇𝑡=1( 𝒃′ 𝒙, 𝒙′ , 𝒃) 𝒃′𝑿′𝒙𝒃 𝑦′𝑿(𝑿′ 𝑿)−𝟏 𝑿′𝒚 [8.1.13]


𝑅𝑢2 = = =
∑𝑇𝑡=1 𝑦𝑡2 𝑦′𝑦 𝑦′𝑦

Si la variable explicativa en la regresión fue un término constante (𝒙𝒕 = 1), luego el valor
ajustado para cada observación podría solo ser la media muestral 𝑦̅ ya la suma de cuadrados de valores
ajustados podría ser 𝑇𝑦̅ 2 . Esta suma de cuadrados es con frecuencia comparada con la suma de
cuadrados cuando un vector de variables xxx es incluido en la regresión. La centrada 𝑅 2 (denotada por
𝑅𝑐2) es definida como

𝒚′ 𝑿(𝑿′ 𝑿)−𝟏 𝑿′ 𝒚 − 𝑇𝑦̅ 2 [8.1.14]


𝑅𝑐2 =
𝑦 ′ 𝑦 − 𝑇𝑦̅ 2

La mayoría de regresión de paquetes de software reporta la centrada 𝑅 2 en vez de la no centrada 𝑅 2. Si


la regresión incluye un término constante luego 𝑅𝑐2 debe estar entre cero y la unidad. Sin embargo, si la
regresión no incluye un término constante, entonces 𝑅𝑐2puede ser negativo

La suposición de regresión clásica


La inferencia estadística requiere suposiciones sobre las propiedades sobre las variables explicativas 𝑥𝑡 y
los residuales de la población 𝑢𝑡 . El caso más simple para analizar es el siguiente

Suposición 8.1: (a) xt es un vector de variables determinativas (por ejemplo, xt podría incluir un
término constante y funciones determinativas de t); (b) ut es i. i. d con media cero y varianza 𝜎 2 ; (c)
ut es Gaussiana.
Para resaltar el rol de cada una de estas suposiciones, primero notamos las implicaciones de la
suposición de 8.1 (a) y (b) solos, y luego el comentario sobre las implicaciones añadidas que siguen de
(c).

Propiedades del vector del coeficiente MCO estimado


bajo la suposición 8.1 (a) y (b)
En forma vectorial, la suposición 8.1 (b) podría ser escrita 𝐸(𝑢) = 0 𝑦 𝐸(𝑢𝑢′ ) = 𝜎 2 𝐼𝑇 .
Tomando expectativas de [8.1.12] y usando estas condiciones establece que xxx es imparcial,

𝐸(𝑏) = 𝜷 + (𝑿′ 𝑿)−𝟏 𝑋 ′ [𝐸(𝑢)] = 𝜷 [8.1.15]


Con matriz covarianza- varianza dado por

8.1. Revisión de los mínimos cuadrados ordinarios con regresores determinísticos 211
𝐸[(𝑏 − 𝛽)(𝑏 − 𝛽)′ ] = 𝐸[(𝑿′ 𝑿)−1 𝑋 ′ 𝑢𝑢′ 𝑿(𝑿′ 𝑿)−𝟏 ] [8.1.16]
= (𝑋 ′ 𝑋)−1 𝑋 ′ [𝐸𝑢𝑢′ )]𝑋(𝑋′𝑋)−1
= 𝜎 2 (𝑿′ 𝑿)−𝟏 𝑿′𝑿(𝑿′ 𝑿)−𝟏
= 𝜎 2 (𝑿′ 𝑿)−1

La estimación del coeficiente MCO 𝑏 es imparcial y es una función lineal de 𝑦. El teorema


de Gauss-Markov establece que la matriz covarianza-varianza de cualquier estimador alternativo de β, si
es estimador es también imparcial y una función lineal de β, difiere de la matriz covarianza-varianza de
𝑦 por una matriz semidefinida positiva.1 Esto significa que una inferencia basada en 𝑏 sobre una
combinación lineal de los elementos de β tendrá una muy menor varianza que la inferencia
correspondiente basada en cualquier estimador imparcial lineal alternativo. El teorema Gauss-Markov
así establece la óptima estimación MCO dentro de cierta clase limitada

Propiedades del coeficiente vectorial estimado bajo la suposición 8.1 (a) a


través de (c)
Cuando es Gausseana, [8.1.12] implica que b es Gaussiana. Por ende, resultados anteriores
implican
𝒃~𝑁(𝛽, 𝜎 2 (𝑿′ 𝑿)−1 [8.1.17]

Esto puede ser demostrado más allá que bajo la suposición 8.1 (a) a través de (c), ningún estimador
imparcial de β es más eficiente que el estimador MCO 𝑏.2 Por consiguiente, con residuos Gausseanos,
el estimador MCO es óptimo

Propiedades de la varianza residual estimada bajo la suposición 8.1 (a) y (b)


La estimación MCO de la varianza de las perturbaciones 𝜎 2 es

𝑅𝑆𝑆 𝑢̂′ 𝑢̂ [8.1.18]


𝑠2 = = = 𝒖′𝑴´ 𝒙 𝑴𝒙 𝒖/(𝑇 − 𝑘)
𝑇−𝑘 𝑇−𝑘

Para 𝑀𝑥 la matriz en [8.1.8]. Recuerde que 𝑴𝒙 es simétrica e idempotente, [8.1.18] se convierte en

𝑠 2 = 𝒖′𝑴𝒙 𝒖/(𝑇 − 𝑘) [8.1.19]

También, ya que, 𝑀𝑥 es simétrica, existe una xxx matriz P tal que3


𝑴𝒙 = 𝑷Ʌ𝑷′ [8.1.20]
Y
𝑷′ 𝑷 = 𝑰𝑻 [8.1.21]

Donde Ʌ es una 𝑇 𝑋 𝑇 matriz con los valores propios de 𝑀𝑥 en la diagonal principal y ceros en otros
lugares. Tenga en cuenta de [8.1.9] que 𝑴𝒙 𝒗 = 𝟎 si 𝑣 podría ser dado por una de las 𝑘 columnas de X.
Asumiendo que las columnas de X son independientemente lineales, las 𝑘 columnas de X de esta
manera representan 𝑘 diferentes valores propios de 𝑿 cada uno asociado 𝑴𝒙 con un valor propio igual
a cero. También de [8.1.8] , 𝑀𝑥 𝑣 = 𝑣 para cualquier vector 𝑣 que es ortogonal a las columnas de 𝑋

1 1 Ver, por ejemplo, Theil (1971, pp. 119-20)


2
Ver, por ejemplo, Theil (1971, pp. 390-91
3 3 Ver, por ejemplo,, Theil (1976, p.296)

212 Capítulo 8 | Modelo de Regresión Lineal


(que es ,cualquier vector 𝑋 ′ 𝑣 = 0) tal que (𝑇 − 𝑘); (𝑇 − 𝑘) tales vectores que son linealmente
independientes pueden ser encontrados, asociados con (𝑇 − 𝑘) valores propios iguales a la unidad.
De este modo, Ʌ contiene 𝑘 ceros y (𝑇 − 𝑘) en su diagonal principal. Tenga en cuenta de [8.1.20] que

𝑢′𝑀𝑥 𝑢 = 𝒖′𝑷Ʌ𝑷′𝒖 [8.1.22]


= (𝑷′ 𝒖)′Ʌ(𝑷′ 𝒖)
= 𝒘′Ʌ𝐰
= 𝑤12 𝛾1 + 𝑤22 𝛾2 + ⋯ + 𝑤𝑇2 𝛾𝑇
Donde
𝒘 = 𝑷′𝒖
Asimismo,
𝐸(𝑤𝑤′) = 𝐸(𝑃′ 𝑢𝑢′ 𝑃) = 𝑃′ 𝐸(𝑢𝑢′ )𝑃 = 𝜎 2 𝑃′ 𝑃 = 𝜎 2 𝐼𝑇

De este modo, los elementos de 𝑤 no son correlativos, con la media cero y varianza 𝜎 2 . Ya que 𝑘 de la
𝛾 son cero y el restante 𝑇 − 𝑘 son unidades, [8.1.22] se convierte en
2
𝑢′𝑀𝑥 𝑢 = 𝑤12 + 𝑤22 + ⋯ + 𝑤𝑇−𝑘 [8.1.23]
Igualmente, cada 𝑤𝑡2 2
tiene expectativa 𝜎 , para que
𝐸(𝑢′𝑀𝑥 𝑢) = (𝑇 − 𝑘)𝜎 2

Y de [8.1.19] , 𝑠 2 da una estimación imparcial de 𝜎 2


𝐸(𝑠 2 ) = 𝜎 2

Propiedades de la varianza residual estimada bajo la suposición 8.1 (a) a través


de (c)
Cuando 𝑢𝑡 es Gaussiana, 𝑤𝑡 es también Gaussiana y la expresión [8.1.23] es la suma de cuadrados de
(𝑇 − 𝑘) variables 𝑁(0, 𝜎 2 ) independientes. De este modo,

𝑅𝑆𝑆 [8.1.24]
= 𝒖′𝑴𝒙 𝒖/𝜎 2 ~𝑋 2 (𝑇 − 𝑘)
𝜎2
Nuevamente, es posible mostrar bajo la suposición 8.1(a) a través de (c) , Ningún otro estimador
imparcial de 𝜎 2 tiene mucho menor varianza como hace 𝑠 2 4
Tenga en cuenta también de [8.1.11] y [8.1.12] que 𝑏 y 𝑢̂ no son correlativas:

𝐸[𝑢̂(𝑏 − 𝛽′)] = 𝐸[𝑴𝒙 𝒖𝒖′𝑿(𝑿′𝑿)−1 = 𝜎 2 𝑴𝒙 𝑿(𝑿′ 𝑿)−𝟏 = 0


[8.1.25]
Bajo la suposición 8.1(a) a través de (c), ambos xx y xxx son Gaussinos, para que indique ausencia de la
correlación implica que 𝑏 y 𝑢̂ son independiente. Esto significa que 𝑏 y 𝑠 2 son independientes

Prueba de 𝑡 acerca de β bajo la suposición 8.1(a) a través de (c)


Suponga que deseamos probar la hipótesis nula que 𝜷𝒊 , el elemento 𝒊 de 𝜷,es igual a algún
valor en particular 𝜷𝟎𝒊 .La estadística MCO 𝑡 para probar esta hipótesis nula es dada por

4 4
See Rao (1973, p. 319)

8.1. Revisión de los mínimos cuadrados ordinarios con regresores determinísticos 213
(𝒃𝒊 −𝜷𝟎𝒊 ) (𝒃 −𝜷𝟎 ) [8.1.26]
𝑡= ̂𝑏
𝜎
= 𝑠(𝜀𝒊𝑖𝑖)1/2
𝒊
,
𝑖

Donde 𝜀 𝑖𝑖 denota la fila 𝑖, columna 𝑖 elemento de (𝑋 ′ 𝑋)−1 y 𝜎̂𝑏𝑖 es el error estándar de la estimación
MCO del 𝜎̂𝑏𝑖 ≡ √𝑠 2 𝜀 𝑖𝑖 coeficiente. La magnitud en [8.1.26] tiene una exacta 𝑡 distribución con 𝑇 − 𝑘
grados de libertad siempre y cuando 𝑥 es determinativa y 𝑢𝑡 es 𝑖. 𝑖. 𝑑. Gausseana. Para verificar esta
afirmación tenga en cuenta [8.1.17] que bajo la hipótesis nula 𝑏𝑖 ~𝑁(𝜷𝟎𝒊 , 𝜎 2 𝜀 𝑖𝑖 ), lo que significa que
(𝑏𝑖 − 𝜷𝟎𝒊 )/√𝜎 2 𝜀 𝑖𝑖 ~𝑁(0,1)
Por lo tanto, si [8.1.26] es escrito como
(𝒃𝒊 − 𝜷𝟎𝒊 )/√𝜎 2 𝜀 𝑖𝑖
𝑡=
√𝜎 2 /𝜎 2

El numerador es 𝑁(0,1) mientras de [8.1.24] es denominador es el cuadrado base de una 𝑋 2 (𝑇 − 𝑘)


variable dividida por estos grados de libertad. Recuerde [8.1.25], el enumerador y el denominador son
independientes confirmando la exacta 𝑡 distribución afirmada por [8.1.26]

Prueba de F acerca de β bajo la suposición 8.1 (a) a través (c)


De manera más general, suponga que queremos una prueba conjunta de 𝑚 restricciones
lineales diferentes acerca de β, representado por

𝐻0 : 𝑅𝛽 = 𝑟 [8.1.27]

Aquí 𝑅 es una matriz (𝑚×𝑘) conocida representando las combinaciones lineales particulares de β
sobre la cual consideramos hipótesis y r es un vector (𝑚×1) conocido de los valores que creemos que
estas combinaciones lineales toman. Por ejemplo, para representar la hipótesis simple 𝛽𝑖 = 𝜷𝟎𝒊 usada
previamente, podríamos tener 𝑚 = 1, 𝑅 𝑎(1×𝑘) vector con unidad en la 𝜷𝟎𝒊 posición y ceros en otros
lugares, y 𝑟 el escalar 𝑘 = 4. Como un segundo ejemplo, considere una regresión con variables
explicativas y la hipótesis conjunta que 𝛽1 + 𝛽2 = 1 y 𝛽3 = 𝛽4. En este caso, 𝑚 = 2 y
1 1 0 0 1 [8.1.28]
𝑅=⌈ ⌉ 𝑟=[ ]
0 0 1 −1 0

Tenga en cuenta de [8.1.17] que bajo 𝐻0 ,

𝑅𝑏~𝑁(𝑟, 𝜎 2 𝑅(𝑋 ′ 𝑋)−1 𝑅′ [8.1.29]

Una prueba Wald de 𝐻0 es basada en el siguiente resultado

Proposición 8.1: considere un (𝑛×1) vector 𝑧~𝑁(0, Ω), con Ω no singular.


Entonces 𝑧′Ω−1 𝑧~𝑋 2 (𝑛).

Para el caso escalar (𝑛 = 1), observe que si 𝑧~𝑁(0, 𝜎 2 ), entonces (𝑧/𝜎)~𝑁(0,1) y 𝑧 2 /


2 2
𝜎 ~𝑋 (1) como afirma una proposición.
Para verificar la proposición para el caso vectorial, ya que Ω es simétrico, existe una matriz P
como en [8.1.20] y [8.1.21], tal que Ω = 𝑃Ʌ𝑃′ y 𝑃′ 𝑃 = 𝐼𝑛 con Ʌ contienen los valores propios de Ω. Ya
que Ω es definitivamente positivo, los elementos diagonales de Ʌ son positivos. Entonces

𝑧′Ω−1 𝑧 = 𝑧 ′ (𝑃Ʌ𝑃′)−1 𝑧 [8.1.30]

214 Capítulo 8 | Modelo de Regresión Lineal


= 𝑧 ′ [𝑃′]−1 Ʌ−1 P−1 z
= [𝑃−1 𝑧]′Ʌ−1 P−1 z
= 𝑤′Ʌ−1 w
𝑛

= ∑ 𝑤𝑖2 /𝛾𝑖 ,
𝑖=1
Donde 𝑤 ≡ 𝑃−1 𝑧. Tenga en cuenta que 𝑤 es Gaussiana con media cero y varianza

𝐸(𝑤𝑤 ′ ) = 𝐸(𝑃−1 𝑧𝑧 ′ [𝑃′ ] = 𝑃−1 Ω[𝑃′ ]−1 = 𝑃−1 𝑃Ʌ𝑃′ [𝑃′ ]−1 = Ʌ

De este modo [8.1.30] es la suma de cuadrados de 𝑛 variables normales independientes, cada uno
divido dividido por su varianza 𝛾𝑖 . Esto por consecuencia tiene una 𝑋 2 (𝑛) distribución, como esta
afirmado.
Aplicando la Proposición 8.1 directamente a [8.1.29], bajo 𝐻0 ,

(𝑅𝑏 − 𝑟)′ [𝜎 2 𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟)~𝑋 2 (𝑚) [8.1.31]

Reemplazando 𝜎 2 con la estimación 𝑠 2 y dividiendo por el número de restricciones da la forma Wald


de la prueba MCO de una hipótesis lineal:

𝐹 = (𝑅𝑏 − 𝑟)′ [𝑠 2 𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟)/𝑚 [8.1.32]

Note que [8.1.32] puede ser escrito

(𝑅𝑏 − 𝑟)′ [𝜎 2 𝑅(𝑋 ′ 𝑋)−1 𝑅 ′ ]−1 (𝑅𝑏 − 1)/𝑚


𝐹=
[𝑅𝑆𝑆/(𝑇 − 𝑘)]/𝜎 2

El numerador es una 𝑥 2 (𝑚) variable dividida por su grado de libertad, mientras el denominador es una
𝑥 2 (𝑇 − 𝑘) variable dividida por su grado de libertad .Nuevamente, ya que 𝑏 y 𝑢̂ son independientes, el
numerador y el denominador son independientes de cada otro .Por lo tanto, [8.1.32] tiene una exacta
𝐹(𝑚, 𝑇 − 𝑘) distribución bajo 𝐻0 cuando 𝑥𝑡 no es estocástica y 𝑢𝑡 es 𝑖. 𝑖. 𝑑 Gaussiana.
Tenga en cuenta que la prueba 𝑡 de la hipótesis simple 𝛽𝑖 = 𝜷𝟎𝒊 es un caso especial de la
formula general [8.1.32], para la cual
′ −1 [8.1.33]
𝐹 = (𝛽 − 𝜷𝟎 ) [𝑠 2 𝜀 𝑖𝑖 ] (𝛽 − 𝜷𝟎 )
𝑖 𝒊 𝑖 𝒊

Este es el cuadrado de la 𝑡 estadística en [8.1.26].Ya que una 𝐹(1, 𝑇 − 𝑘) variable es solo el cuadrado
de una 𝑡(𝑇 − 𝑘) variable, la respuesta idéntica resulta de (1) calculando [8.1.26] y usando 𝑡 tablas para
encontrar la probabilidad de un valor absoluto tan grande para una 𝑡(𝑇 − 𝑘) variable ,o (2) calculando
[8.1.33] y usando 𝐹 tablas para encontrar la probabilidad de un valor tan grande para una 𝐹(1, 𝑇 − 𝑘)
variable.

Una expresión alternativa conveniente para la Prueba 𝑭


Esto es frecuentemente sencillo para estimar el modelo en [8.11] sujeto a las restricciones en
[8.1.27], Por ejemplo, para imponer una limitación 𝛽𝑖 − 𝜷𝟎𝒊 en el primer elemento de 𝛽, solo
podríamos hacer una regresión de mínimos cuadrados ordinarios de 𝑦𝑡 𝜷𝟎𝒊 = 𝒙𝟏𝒕 𝒆𝒏 𝒙𝟐𝒕 , 𝒙𝟑𝒕 , ⋯ , 𝒙𝒌𝒕 .
El resultado estima 𝑏2∗ , 𝑏3∗ , ⋯ , 𝑏𝑘∗ minimiza ∑𝑇𝑡 = 1 [(𝑦𝑡 − 𝜷𝟎𝒊 𝑥1𝑡 ) − 𝒃∗𝟐 𝑋2𝑡 − 𝒃∗𝟑 𝑋3𝑡 − ⋯ − 𝒃∗𝒌 𝑋𝑘𝑡 ]2

8.1. Revisión de los mínimos cuadrados ordinarios con regresores determinísticos 215
con respecto a 𝑏2∗ , 𝑏3∗ , ⋯ , 𝑏𝑘∗ y de este modo minimiza la suma residual de cuadrados [8.1.2] sujeto a la
distracción que 𝛽𝑖 − 𝜷𝟎𝒊 . Alternativamente, para imponer la restricción en [8.1.28] podríamos regresar
𝑦𝑡 − 𝑥2𝑡 en (𝑥1𝑡 − 𝑥2𝑡 ) y (𝑥3𝑡 − 𝑥4𝑡 ):

𝑦𝑡 − 𝑥2𝑡 = 𝛽1 (𝑥1𝑡 − 𝑥2𝑡 ) + 𝛽3 (𝑥3𝑡 − 𝑥4𝑡 ) + 𝑢𝑡

La MCO estima 𝑏1∗ y 𝑏3∗ minimiza


𝑇 [8.1.34]
∑[(𝑦𝑡 − 𝑥2𝑡 ) − 𝑏1∗ (𝑥1𝑡 − 𝑥2𝑡 ) − 𝑏3∗ (𝑥3𝑡 − 𝑥4𝑡 )]2
𝑡=1
𝑇

= ∑[𝑦𝑡 − 𝑏1∗ 𝑥1𝑡 − (1 − 𝑏1∗ )𝑥2𝑡 − 𝑏3∗ 𝑥3𝑡 − 𝑏3∗ 𝑥4𝑡 ]2


𝑡=1

Y por lo tanto minimiza [8.1.2] sujeto a [8.1.28]


Siempre que las contradicciones en [8.1.27] puedan ser impuestas a través de una regresión
MCO en variables transformadas, hay una manera fácil de calcular la estadística 𝐹 [8.1.32] solo por
calcular la suma residual de cuadrados para las regresiones limitadas y no limitadas. El siguiente
resultado es establecido en el Apéndice 8.A en el final de este capitulo

Proposición 8.2: Denote b la estimación MCO no limitada [8.1.6] y Sea RSS la suma residual de cuadrados
resultados del uso de esta estimación
𝑇 [8.1.35]
𝑅𝑆𝑆1 = ∑(𝑦𝑡 − 𝑥𝑡′ 𝑏)2
𝑡=1
Denote 𝑏 ∗ la estimación MCO delimitada y 𝑅𝑆𝑆0 la suma residual de cuadrados de estimación MCO
delimitada
𝑇 [8.1.36]
𝑅𝑆𝑆0 = ∑(𝑦𝑡 − 𝑥𝑡′ 𝑏)2
𝑡=1

Ya que la forma Wald de la prueba MCO F de una hipótesis lineal ○18.1.32] puede equivalentemente
ser calculada como
(𝑅𝑆𝑆0 − 𝑅𝑆𝑆1 )/𝑚 [8.1.37]
𝐹=
𝑅𝑆𝑆1 /(𝑇 − 𝑘)

Las expresiones [8.1.37] y [8.1.32] generaran exactamente el mismo número, independientemente de si


la hipótesis nula y el modelo son válidos o no.
Por ejemplo, suponga que la muestra de la talla es 𝑇 = 50 observaciones y la hipótesis nula es
𝛽3 = 𝛽4 = 0 en una regresión MCO con 𝐾 = 4 variables explicativas. Primer retroceso 𝑦𝑡 en
𝑥1𝑡 , 𝑥2𝑡 , 𝑥3𝑡 , 𝑥4𝑡 y llamar a la suma residual de estos cuadrados de esta regresión 𝑅𝑆𝑆1 . A
continuación, retroceso 𝑦𝑡 en solo 𝑥1𝑡 y 𝑥2𝑡 y llamar a la suma residual de cuadrados de esta regresión
restringida 𝑅𝑆𝑆0 . Si

(𝑅𝑆𝑆0 − 𝑅𝑆𝑆1 )/2


𝑅𝑆𝑆1 /(50 − 4)

Es mayor que 3.20 (el valor crítico del 5 % para una 𝐹(2,46) variable aleatoria), entonces la hipótesis
nula debería ser rechazada.

216 Capítulo 8 | Modelo de Regresión Lineal


8.2. Mínimos cuadrados ordinarios bajo condiciones más
generales

La sección previa analizo el modelo de regresión

𝑦𝑡 = 𝑥𝑡′ 𝛽 + 𝑢𝑡
Bajo la suposición sostenida 8.1 (𝑥 es determinativa y 𝑢𝑡 es 𝑖. 𝑖. 𝑑 Gaussiana)
Nos referiremos a continuación a esta suposición como ‘’caso 1 ‘’ .Esta sección generaliza esta
suposición para describir especificaciones probable que surjan en el análisis de series de tiempo.
Algunos de los resultados claves son resumidos en la Tabla 8.1

Caso 2. Termino de error 𝑖. 𝑖. 𝑑 Gaussiano e Independiente de Variables


Explicatorias
Considere el caso en el cual X es estocástica pero completamente independiente de u.

Suposición 𝟖. 𝟐:𝟓 5 (a) 𝑥𝑡 estocástico e independiente de 𝑢𝑠 para toda 𝑡, 𝑠 ;(b) 𝑢𝑡 𝑖. 𝑖. 𝑑 𝑁(0, 𝜎 2 .

Esto podría ser reemplazado con la suposición 𝑢 𝑋~𝑁(0, 𝜎 2 𝐼𝑇 ) con todos los resultados para seguir
sin cambios

Muchos de los resultados para represores determinativos continúan aplicando para este caso. Por
ejemplo, tomando expectativas de [8.1.12] y explotando la suposición independiente,

𝐸(𝑏) = 𝛽 + {𝐸[(𝑋 ′ 𝑋)−1 𝑋′]}{𝐸(𝑢)} = 𝛽 [8.2.1]

Para que el coeficiente MCO permanezca imparcial.

La distribución de las pruebas estadísticas para este caso puede ser encontrada por un procedimiento de
2 pasos .El primer paso evalúa la distribución condicional la distribución condicional en X; es decir,
esto trata a X como deterministas ,justo como el análisis más temprano .El segundo paso multiplica
por la densidad de X y se integra a lo largo de X para encontrar la verdadera distribución incondicional.
Por ejemplo , [8.1.17] implica que

𝑏𝑋 = ~𝑁(𝛽, 𝜎 2 (𝑋 ′ 𝑋)−1 ) [8.2.2]

Si la densidad es multiplicada por la densidad de X e integrada a lo largo de X, el resultado ya no es una


distribución Gaussiana; por lo tanto, b no es Gaussiana bajo la suposición 8.2.Por otro lado, [8.1.24]
implica que
𝑅𝑆𝑆 𝑋~𝜎 2 𝑥 2 (𝑇 − 𝑘)

Pero esta densidad es la misma para toda X. Por ello, cuando multiplicamos la densidad de RSS/X por
la densidad de X y se integran, obtendremos exactamente la misma densidad. Por tanto,[8.1.24]
continua dando la distribución incondicional correcta para la suposición 8.2.

55
This could be replace with the assumption with all the results to follow unchanged.

8.2 Mínimos cuadrados ordinarios bajo condiciones más generales 217


Lo mismo es verdadero para las estadísticas 𝑡 y 𝐹 en [8.1.26] y [8.1.32].La condicional en 𝑋, (𝑏𝑖 −
1/2
𝛽𝑖0 / [𝜎(𝜀 𝑖𝑖 ) ] ~𝑁(0,1) y 𝑠/𝜎 es la raíz cuadrada de una variable [1/(𝑇 − 𝑘)] ∙ 𝑥 2 (𝑇 − 𝑘)
independiente .Por ende, condicional en X, la estadística en [8.1.26] tiene una 𝑡(𝑇 − 𝑘)
distribución .Ya que es cierto para cualquier X, cuando multiplicamos por la densidad de X y se integra
en X obtenemos la misma distribución.

Caso 3. Termino de error no Gaussiano e independiente de variables


explicativas
A continuación, considere la siguiente especificación

Suposición 8.3: (a) 𝑥𝑡 estocástica e independiente de 𝑢𝑠 para toda 𝑡, 𝑠;(b) 𝑢𝑡 no gaussiana pero 𝑖. 𝑖. 𝑑 con media
cero, varianza 𝜎 2 y 𝐸(𝑢𝑡4 ) = 𝜇4 < ∞; (𝑐)𝐸(𝑥, 𝑥𝑡′ ) = 𝑄, una matriz definida positiva con (1/𝑇) ∑𝑇𝑡=1 𝑄𝑡 →
𝑝
𝑄, una matriz definida positiva ;(d) 𝐸(𝑥𝑖𝑡 𝑥𝑗𝑡 𝑥𝑙𝑡 𝑥𝑚𝑡 ) < ∞ para toda 𝑖, 𝑗, 𝑙, 𝑚 y 𝑡;(e) (1/𝑇) ∑𝑇𝑡=1(𝑥𝑡 𝑥𝑡′ ) → 𝑄.

Ya que el resultado [8.2.1] requirió solo la suposición independiente, b continúa siendo


imparcial en este caso. Sin embargo, para pruebas de hipótesis, la distribución de pequeñas muestras de
𝑠 2 y la 𝑡 y 𝐹 estadísticas ya no son las mismas que cuando los residuos poblacionales son Gaussianos.
Para justificar las reglas de inferencia MCO habituales, tendremos que apelar a resultados asintótico,
para los cual es el propósito de la Suposición 8.3 incluye condiciones (c) a través de (e). Para entender
estas condiciones, tenga en cuenta que si 𝑥 es covarianza estacionaria, entonces 𝐸(𝑥𝑡 𝑥𝑡′ ) no depende de
𝑡. Entonces 𝑄𝑡 = 𝑄 para toda 𝑡 y condición (e) simplemente requiere que 𝑥 sea ergodica para segundos
momentos. La Suposición 8.3 también permite procesos más generales en los que 𝐸(𝑥𝑡 𝑥𝑡′ ) podría ser
diferente para diferentes t, mientras puede ser consistentemente estimado por (1/𝑇) ∑𝑇𝑡=1(𝑥𝑡 𝑥𝑡′ )

218 Capítulo 8 | Modelo de Regresión Lineal


Tabla 8.1
Propiedades estimadas de MCO y Prueba de Suposiciones diversas bajo estadísticas

Coeficiente 𝒃 Varianza 𝒔𝟐 𝒕 estadística 𝑭 estadística

Caso 1 Imparcial Imparcial Exacta Exacta


𝑏~𝑁(𝛽, 𝜎 2 (𝑋 ′ 𝑋)−1 ) (𝑇 − 𝑘)𝑠 2 /𝜎 2 ~𝑥 2 (𝑇 − 𝑘) 𝑡(𝑇 − 𝑘) 𝐹(𝑚, 𝑇 − 𝑘)

Caso 2 Imparcial Imparcial Exacta Exacta


No Gaussiana (𝑇 − 𝑘)𝑠 2 /𝜎 2 ~𝑥 2 (𝑇 − 𝑘) 𝑡(𝑇 − 𝑘) 𝐹(𝑚, 𝑇 − 𝑘)

Caso 3 Imparcial Imparcial 𝐿 𝐿


𝐿 𝐿 𝑡𝑇 → 𝑁(0,1) 𝑚𝐹𝑇 → 𝑥 2 (𝑚)
√𝑇(𝑏𝑇 − 𝛽) → 𝑁(0, 𝜎 2 𝑄 −1 ) √𝑇(𝑠𝑇2 − 𝜎 2 ) → 𝑁(0, 𝜇4 − 𝜎 4 )

Caso 4 Parcial Parcial 𝐿 𝐿


𝐿 𝐿 𝑡𝑇 → 𝑁(0,1) 𝑚𝐹𝑇 → 𝑥 2 (𝑚)
√𝑇(𝑏𝑇 − 𝛽) → 𝑁(0, 𝜎 2 𝑄 −1 ) √𝑇(𝑠𝑇2 − 𝜎 2 ) → 𝑁(0, 𝜇4 − 𝜎 4

El modelo de regresión es 𝑦 = 𝑥𝛽 + 𝑢, 𝑏 es dado por [8.1.6], 𝑥 2 por [8.1.18], estadística 𝑡 por [81.26], y estadística 𝐹 por [8.1.32]; 𝜇4 denota 𝐸(𝑢𝑡4 ).
Caso 1: X no estocástico, 𝑢~𝑁(0, 𝜎 2 𝐼𝑇 )
Caso 2: X estocástico, 𝑢~𝑁(0, 𝜎 2 𝐼𝑇 ),X independiente de 𝑢.
𝐿
Caso 3: X estocástico, 𝑢~ No Gasussiana (0, 𝜎 2 𝐼𝑇 ), X independiente de 𝑢, 𝑇 −1 ∑ 𝑥𝑡 𝑥𝑡′ → 𝑄.
Caso 4: autoregresion estacionaria con errores independientes, Dado 𝑄 por [8.2.27]

8.2. Mínimos cuadrados ordinarios bajo condiciones más generales 219


Para describir los resultados asintóticos, denotamos el estimador MCO [8.1.3] por 𝑏𝑇 para enfatizar
que está basado en una muestra de la talla 𝑇. Nuestro interés está en el comportamiento de 𝑏𝑇
mientras 𝑇 se hace grande .Primero establecemos que el coeficiente estimador MCO es constante
𝐿
bajo la Suposición 8.3, es decir, que 𝑏𝑇 → 𝛽.
Tenga en cuenta que [8.1.12] implica
𝑏𝑇 − 𝛽 𝑇 −1 [8.2.3]
𝑇

= [∑ 𝑥𝑡 𝑥𝑡 ] [∑ 𝑥𝑡 𝑢𝑡 ]
𝑡=1
𝑡=1
𝑇 −1 𝑇

= [(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] [(1/𝑇) ∑ 𝑥𝑡 𝑢𝑡 ]


𝑡=1 𝑡=1

Considere el primer término en [8.2.3]. La Suposición 8.3 (e) y la Suposición 7.1 implican que
𝑇 −1 [8.2.4]
𝑝
[(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] →𝑄 −1

𝑡=1

Considerando después, el segundo término en [8.2.3], note que 𝑥, 𝑢 es una secuencia de diferencia
de martingala con matriz varianza-covarianza dada por
𝐸(𝑥𝑡 𝑢𝑡 𝑥𝑡′ 𝑢𝑡 ) = {𝐸(𝑥𝑡 𝑥𝑡′ )} ∙ 𝜎 2 ,
La cual es finita.Por eso, del Ejemplo 7.11,
𝑇 [8.2.5]
𝑝
[(1/𝑇) ∑ 𝑥𝑡 𝑢𝑡 ] → 0 .
𝑡=1

Aplicando el ejemplo 7.2 a [8.2.3] a través de [8.2.5],


𝑝
𝑏𝑇 − 𝛽 → 𝑄 −1. 0 = 0,

Verificando que el estimador MCO es constante


A continuación, nos dirigimos a la distribución asintótica de b. Observe de [8.2.3] que
𝑇 −1 𝑇 [8.2.6]
√𝑇(𝑏𝑇 − 𝛽) = [(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] [(1/√𝑇) ∑ 𝑥𝑡 𝑢𝑡 ]
𝑡=1 𝑡=1

Vimos en [8.2.4] que el primer término converge en probabilidad a 𝑄 −1.. El segundo término es √𝑇
veces la media muestral de 𝑥𝑡 𝑢𝑡 ,donde 𝑥𝑡 𝑢𝑡 es una secuencia de diferencia de martingala con
varianza 𝜎 2 𝑄𝑡 y (1/𝑇) ∑𝑇𝑡=1 𝜎 2 𝑄𝑡 → 𝜎 2 𝑄. Observe que bajo la Suposición 8.3 podemos aplicar la
Proposición 7.9:

𝑇 [8.2.7]
1 𝐿
2
[( ) ∑ 𝑥𝑡 𝑢𝑡 ] → 𝑁(0, 𝜎 𝑄).
√𝑇 𝑡=1
Combinando [8.2.6],[8.2.4], y [8.2.7], vemos como en el Ejemplo 7.5 que
𝐿 [8.2.8]
√𝑇(𝑏𝑇 − 𝛽) → 𝑁(0, [𝑄 −1. (𝜎 2 𝑄) ∙ 𝑄 −1 = 𝑁(0, 𝜎 2 𝑄 −1 ).

En otras palabras, podemos actuar como si

𝑏𝑇 ≈ 𝑁(𝛽, 𝜎 2 𝑄 −1 /𝑇) [8.2.9]

Donde el símbolo ≈ significa “es aproximadamente distribuida’’. Recuerde de la Suposición 8.3


(e) , en muestras grandes Q debería estar cerca a (1/𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ . Por lo tanto 𝑄 −1 /𝑇 debería

220 Capítulo 8 | Modelo de Regresión Lineal


estar cerca de [∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ ] = (𝑋𝑇′ 𝑋𝑇 )−1 para 𝑥𝑡 la misma (𝑇×𝑘) matriz que fue representada en
[8.1.5] simplemente por 𝑋 (nuevamente ,el subíndice 𝑇 es añadido en este punto para enfatizar que
las dimensiones de la matriz dependen de 𝑇).
De esta manera, [8.2.9] pue estar aproximado por
𝑏𝑇 ≈ 𝑁(𝛽, 𝜎 2 (𝑋𝑇′ 𝑋𝑇 )−1

Esto, por supuesto, es el mismo resultado obtenido en [8.1.17],el cual asumió perturbaciones
Gaussianas .Con perturbaciones no Gaussianas la distribución no es exacta, pero ofrece una
aproximación cada vez más buena mientras la muestra del tamaño crece .
A continuación, considere consistencia de la varianza estimada 𝑠𝑇2 .Tenga en cuenta que el residuo
poblacional suma cuadrados que pueden ser escritos:

(𝑦𝑇 − 𝑋𝑇 𝛽)′ (𝑦𝑇 − 𝑋𝑇 𝛽)


= (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 + 𝑋𝑇 𝑏𝑇 − 𝑋𝑇 𝛽)′ (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 + 𝑋𝑇 𝑏𝑇 − 𝑋𝑇 𝛽) [8.2.10]
= (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′(𝑦𝑇 − 𝑋𝑇 𝑏𝑇 ) + (𝑋𝑇 𝑏𝑇 − 𝑋𝑇 𝛽)′ (𝑋𝑇 𝑏𝑇 − 𝑋𝑇 𝛽)

Donde términos de producto cruzado han desaparecido, ya que

(𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′𝑋𝑇 (𝑏𝑇− 𝛽) = 0,

Por la condición de ortogonalidad MCO [8.1.10] Dividiendo [8.2.10] por 𝑇,

(1/𝑇)(𝑦𝑇 − 𝑋𝑇 𝛽)′(𝑦𝑇 − 𝑋𝑇 𝛽)
1 1 1 ′
= ( ) (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′ (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 ) + ( ) ( ) (𝑏𝑇 − 𝛽)′𝑋𝑇 𝑋𝑇 (𝑏𝑇 − 𝛽),
𝑇 𝑇 𝑇
O
1
( ) (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′ (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )
𝑇
1 [8.2.11]
= ( ) (𝑢′𝑇 𝑢 𝑇 ) − (𝑏𝑇− 𝛽)′(𝑋𝑇′ 𝑋𝑇 /𝑇)(𝑏𝑇− 𝛽).
𝑇
1 1
Ahora ( ) (𝑢′𝑇 𝑢 𝑇 ) = ( ) ∑𝑇𝑡=1 𝑢𝑡2 , donde {𝑢𝑡2 } es una secuencia 𝑖. 𝑖. 𝑑 con media 𝜎 2 .De este
𝑇 𝑇
modo, por la ley de grandes números
1 𝑃
( ) (𝑢′𝑇 𝑢 𝑇 ) → 𝜎 2 .
𝑇
𝑝 𝑝
Para el segundo término en [8.2.11],tenemos (𝑋𝑇′ 𝑋𝑇 /𝑇) → 𝑄 y (𝑏𝑇− 𝛽) → 0, por lo tanto, de la
Proposición 7.1,

𝑋𝑇′ 𝑋𝑇 𝑝
(𝑏𝑇− 𝛽)′ ( ) (𝑏𝑇− 𝛽) → 0′ 𝑄0 = 0.
𝑇
Sustituyendo estos resultados en [8.2.11],
1 𝑝 [8.2.12]
= ( ) (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′(𝑦𝑇 − 𝑋𝑇 𝑏𝑇 ) → 𝜎 2 .
𝑇

Ahora, [8.2.12] describe una estimación de la varianza, la cual denotamos 𝜎̂𝑇2 :

𝜎̂𝑇2 ≡ (𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′(𝑦𝑇 − 𝑋𝑇 𝑏𝑇 ) [8.2.13]

El estimado MCO dado en [8.1.18],

𝑠𝑇2 = [1/(𝑇 − 𝑘)](𝑦𝑇 − 𝑋𝑇 𝑏𝑇 )′(𝑦𝑇 − 𝑋𝑇 𝑏𝑇 ), [8.2.14]

Difiere de 𝜎̂𝑇2 por un término que desaparece como 𝑇 → ∞,

8.2. Mínimos cuadrados ordinarios bajo condiciones más generales 221


𝑠𝑇2 = 𝑎𝑇 ∙ 𝜎̂𝑇2 ,

Donde 𝑎𝑇 = [𝑇/(𝑇 − 𝑘)] con 𝑙𝑖𝑚𝑇→∞ 𝑎𝑇 = 1. Por lo tanto, de la Proposición 7.1


𝑝𝑙𝑖𝑚𝑠𝑇2 = 1 ∙ 𝜎 2
2
Estableciendo consistencia de 𝑠𝑇 .

Para encontrar la distribución asintótica de 𝑠𝑇2 , considere primero √𝑇(𝜎̂𝑇2 − 𝜎 2 ). De [8.2.11], esto
equivale a

1 [8.2.15]
√𝑇(𝜎̂𝑇2 − 𝜎 2 ) = ( ) (𝑢′𝑇 𝑢 𝑇 )√𝑇𝜎 2 − √𝑇(𝑏𝑇 − 𝛽)′(𝑋𝑇′ 𝑋𝑇 /𝑇)(𝑏𝑇
√𝑇
− 𝛽).
Pero
1 1 𝑇
( ) (𝑢′𝑇 𝑢 𝑇 ) − √𝑇𝜎 2 = ( ) ∑ 𝑢𝑡2 − 𝜎 2 ),
√𝑇 √𝑇 𝑡=1

Donde {𝑢𝑡2 − 𝜎 2 } es una secuencia de variables 𝑖. 𝑖. 𝑑 con media cero y varianza 𝐸(𝑢𝑡2 − 𝜎 2 )2 =
𝐸(𝑢𝑡4 ) − 2𝜎 2 𝐸(𝑢𝑡2 ) + 𝜎 4 = 𝜇4 − 𝜎 4 . Así pues, por el teorema de límite central,

1 𝐿 [8.2.16]
( ) (𝑢′𝑇 𝑢 𝑇 ) − √𝑇𝜎 2 → 𝑁(0, (𝜇4 − 𝜎 4 ))
√𝑇
𝐿 𝑋′ 𝑋 𝑝
Para el ultimo termino en [8.2.15], tenemos √𝑇(𝑏𝑇 − 𝛽) → 𝑁(0, 𝜎 2 𝑄 −1 ), ( 𝑇𝑇 𝑇 ) → 𝑄, y (𝑏𝑇 −
𝑝
𝛽) → 0. Por consiguiente,
𝑝 [8.2.17]
√𝑇(𝑏𝑇 − 𝛽)′(𝑋𝑇′ 𝑋𝑇 /𝑇)(𝑏𝑇 − 𝛽) → 0

Poniendo [8.2.16] y [8.2.17] en [8.2.15] concluimos


𝐿 [8.2.18]
√𝑇(𝜎̂𝑇2 − 𝜎 2 ) → 𝑁(0, (𝜇4 − 𝜎 4 )

Para ver que 𝑠𝑇2 , tiene esta mismadistribucion limitada, tenga en cuenta que

√𝑇(𝑠𝑇2 − 𝜎 2 ) − √𝑇(𝜎̂𝑇2 − 𝜎 2 ) = √𝑇{[𝑇/(𝑇 − 𝑘)]𝜎̂𝑇2 − 𝜎̂𝑇2 }


= [(𝑘√𝑇)/(𝑇 − 𝑘)]𝜎̂𝑇2

Pero 𝑙𝑖𝑚𝑇 → ∞[(𝑘√𝑇)/(𝑇 − 𝑘)] = 0 , estableciendo que


𝑃
√𝑇(𝑠𝑇2 − 𝜎 2 ) − √𝑇(𝜎̂𝑇2 − 𝜎 2 ) → 0 ∙ 𝜎 2 = 0

Y por ello,de la Proposicion 7.3 (a),


𝐿 [8.2.19]
√𝑇(𝑠𝑇2 − 𝜎 2 ) → 𝑁(0, (𝜇4 − 𝜎 4 )
Observe que si nos estamos basando en justificaciones asintóticas para pruebas estadísticas, la teoría
no nos ofrece ninguna orientación para elegir entre 𝑠 2 y 𝜎̂ 2 como estimaciones de 𝜎 2 , ya que ellos
tienen la misma distribución limitada.
Luego considere la distribución asintótica de la prueba MCO t de la hipótesis nula 𝛽𝑖 = 𝛽𝑖0 ,

(𝑏𝑖𝑇 − 𝛽𝑖0 ) √𝑇(𝑏𝑖𝑇 − 𝛽𝑖0 ) [8.2.20]


𝑡𝑇 = = ,
𝑆𝑇 √𝜀𝑇𝑖𝑖 𝑆𝑇 √𝜀𝑇𝑖𝑖

222 Capítulo 8 | Modelo de Regresión Lineal


Donde 𝜀𝑇𝑖𝑖 denota la fila 𝑖, columna 𝑖 elemento de (𝑋𝑇′ 𝑋𝑇 )−1 .Hemos visto que √𝑇(𝑏𝑖𝑇 −
𝐿
𝛽𝑖0 ) → 𝑁(0 ∙ 𝜎 2 𝑞𝑖𝑖 ), donde 𝑞 𝑖𝑖 denota la fila 𝑖, columna 𝑖 elemento de 𝑄 −1 .Similarmente, 𝑇𝜀𝑇𝑖𝑖 es la
𝐿
fila 𝑖, columna 𝑖 elemento de (𝑋𝑇′ 𝑋𝑇 )−1 y converge en probabilidad a 𝑞 𝑖𝑖 . También, 𝑆𝑇 → 𝜎. Por
ende, la 𝑡 estadística [8.2.20] tiene una distribución limitada que es la misma mientras una variable
𝑁(0 ∙ 𝜎 2 𝑞𝑖𝑖 ) dividida por √𝜎 2 𝑞𝑖𝑖 ; eso es ,
𝐿 [8.2.21]
𝑡𝑇 → 𝑁(0,1).
Ahora, bajo las condiciones más restringidas de la Suposición 8.2, vimos que 𝑡𝑇 tendría una 𝑡
distribución con (𝑇 − 𝑘) grado de libertad. Recuerde que una 𝑡 variable con 𝑁 grados de
libertad tiene la distribución de la relación de una variable 𝑁(0,1) a la raíz cuadrada de 𝑁(0,1)
veces una variable xxx independiente. Pero una 𝑋 2 (𝑁) variable a su vez es la suma de 𝑁 cuadrados
de variables 𝑁(0,1) independientes.

Por tanto, imponiendo 𝑍 denota una 𝑁(0,1) variable, una variable 𝑡 con 𝑁 grados de libertad tiene
la misma distribución como
𝑍
𝑡𝑁 =
{(𝑍1 + 𝑍2 + ⋯ + 𝑍𝑁2 )/𝑁}1/2
2 2

Por la ley de grandes números


𝑃
(𝑍12 + 𝑍22 + ⋯ + 𝑍𝑁2 )/𝑁 → 𝐸(𝑍12 ) = 1,
𝐿
y así 𝑡𝑁 → 𝑁(0,1). Por consiguiente, el valor crítico para una variable 𝑡 con 𝑁 grados de libertad
estará arbitrariamente cerca de esto para una 𝑁(0,1) variable mientras 𝑁 se hace grande.
A pesar de que la estadística calculada en [8.2.20] no tiene una distribución 𝑡(𝑇 − 𝑘) exacta bajo la
Suposición 8.3, si nosotros la trataramos como si lo hiciera, entonces no estaremos tan equivocados
si nuestra muestra es lo suficientemente grande.
Lo mismo es cierto de [8.1.32], la prueba 𝐹 de 𝑚 restricciones diferentes:

𝐹𝑇 = (𝑅𝑏𝑇 − 𝑟)′ [𝑠𝑇2 𝑅(𝑋𝑇′ 𝑋𝑇 )−1 𝑅′ ]−1 (𝑅𝑏𝑇 − 𝑟)/𝑚 [8.2.22]

= √𝑇(𝑅𝑏𝑇 − 𝑟)′ [𝑠𝑇2 𝑅(𝑋𝑇′ 𝑋𝑇 )−1 𝑅′ ]−1 √𝑇(𝑅𝑏𝑇 − 𝑟)/𝑚.


𝐿 𝑃
Aquí, (𝑠𝑇2 → 𝜎 2 , 𝑋𝑇′ 𝑋𝑇 /𝑇) → 𝑄, bajo la hipótesis nula
√𝑇(𝑅𝑏𝑇 − 𝑟) = [𝑅√𝑇(𝑏𝑇 − 𝛽)]
𝐿
→ 𝑁(0, 𝜎 2 𝑅𝑄 −1 𝑅′ )

Esta es una función cuadrática de un vector Normal del tipo descrito por la Proposición 8.1,de la
cual
𝐿
(𝑚𝐹𝑇 → 𝑥 2 (𝑚))
Por tanto, una inferencia asintótica puede estar basada en la aproximación

(𝑅𝑏𝑇 − 𝑟)′ [𝑠𝑇2 𝑅(𝑋𝑇′ 𝑋𝑇 )−1 𝑅′ ]−1 √𝑇(𝑅𝑏𝑇 − 𝑟) = 𝑥 2 (𝑚) [8.2.23]

Esto es conocido como la forma Wald de la prueba MCO 𝑋 2


Como en el caso de la 𝑡 y distribuciones normales limitadas, viendo [8.2.23] como 𝑋 2 (𝑚) y viendo
[8.2.22] como 𝐹(𝑚, 𝑇 − 𝑘) aumenta asintóticamente a la prueba de muestra. Recuerde que una
𝑋 2 (𝑚) variable es una relación una 𝐹(𝑚, 𝑁) variable a una 𝑋 2 (𝑁) independiente, cada uno
dividido por sus grados de libertad. Por ello, si 𝑍1 denota una 𝑁(0,1) variable y 𝑋 una 𝑋 2 (𝑚)
variable,

8.2. Mínimos cuadrados ordinarios bajo condiciones más generales 223


𝑋/𝑚
𝐹𝑚,𝑁 =
(𝑍12 + 𝑍22 + ⋯ + 𝑍𝑁2 )/𝑁)

Para el denominador
𝑃
(𝑍12 + 𝑍22 + ⋯ + 𝑍𝑁2 )/𝑁 → 𝐸(𝑍𝑡2 ) = 1,
Implicando
𝐿

𝐹𝑚,𝑁 𝑋/𝑚.
𝑁→∞
Por lo tanto, comparando [8.2.23] con un valor critico o comparando [8.2.22] con un valor
𝐹(𝑚, 𝑇 − 𝑘) critico resultara en la prueba idéntica suficientemente grande para 𝑇 (vea el ejercicio
8.2)

Para una muestra de tamaño 𝑇 dada, la distribución de muestras pequeñas (la distribución 𝑡 o 𝐹)
implica intervalos de confianza más amplia que la distribución de muestra grande (Normal o
distribución 𝑋 2 ). Aun cuando la justificación para usar la distribución 𝑡 o 𝐹 es solo asintótica,
muchos investigadores prefieren usar las tablas 𝑡 o 𝐹 en lugar de la normal o tablas 𝑋 2 con los
fundamentos que los más antiguos eran más conservadores y puede representar una mejor
representación de la distribución de muestra pequeña.

Si nos basamos solo en la distribución asintótica, la prueba estadística Wald [8.2.23] puede ser
generalizada para permitir una prueba de un conjunto de restricciones no lineales en 𝛽.
Considere una hipótesis nula que consta de m restricciones no lineales separadas de la forma
𝑔(𝛽) = 0 donde 𝑔: ℝ𝑘 → ℝ𝑚 y 𝑔(∙) tiene derivados primeros continuos, El resultado de [8.2.8] y
la Proposición 7.4 implica que
𝐿 𝜕𝑔
√𝑇[𝑔(𝑏𝑇 ) − 𝑔(𝛽0 )] → [(𝜕𝛽 ′ | 𝛽−𝛽0 )] 𝑧,
Donde 𝑧~𝑁(0, 𝜎 2 𝑄 −1 ) y
𝜕𝑔
( ′ | 𝛽=𝛽0 )
𝜕𝛽

Denota la matriz (𝑚×𝑘) de derivadas de 𝑔(∙) con respecto a 𝛽, evaluada en el valor real 𝛽0 .Bajo
la hipótesis nula que 𝑔(𝛽0 ) = 0. Esto sigue de la Proposición 8.1 que
−1
𝜕𝑔 𝜕𝑔 𝐿
{√𝑇 ∙ 𝑔(𝑏𝑇 )}′ {(𝜕𝛽 ′ | 𝛽=𝛽0 ) 𝜎 2 𝑄 −1 (𝜕𝛽 ′ | 𝛽=𝛽0 ) ′} {√𝑇 ∙ 𝑔(𝑏𝑇 )} → 𝑥 2 (𝑚)

1 𝜕𝑔 𝐿
Recuerde que 𝑄 es el plim de ( )(𝑋𝑇′ 𝑋𝑇 ). Ya que es continua y ya que 𝑏𝑇 → 𝛽0 , sigue de la
𝑇 𝜕𝛽 ′
proposición 7.1 que

𝜕𝑔 𝐿 𝜕𝑔
( ′ | 𝛽=𝑏𝑇 ) → ( ′ | 𝛽=𝛽0 )
𝜕𝛽 𝜕𝛽
Por esto un conjunto de 𝑚 restricciones no lineales sobre 𝛽 de la forma 𝑔(𝛽) = 0 puede ser
probada con la estadística
−1
𝜕𝑔 −1 𝜕𝑔 𝐿
′{( ′ | 𝛽=𝑏 )𝑆𝑇2 (𝑋𝑇′ 𝑋𝑇 ) ( ′ | 𝛽=𝑏 )′} {𝑔(𝑏𝑇 )}→𝑥 2
{𝑔(𝑏 )} 𝜕𝛽 𝑇 𝜕𝛽 𝑇
(𝑚).
𝑇

Vea que la prueba Wald para restricciones lineales [8.2.23] puede ser obtenida como un caso
especial de esta forma más general estableciendo 𝑔(𝛽) = 𝑅𝛽 − 𝑟.
Una desventaja de la prueba Wald para restricciones no lineales, es que la repuesta que uno tiene
puede ser dependiente de como las restricciones 𝑔(𝛽) = 0 son parametradas. Por ejemplo, las
𝛽
hipótesis 𝛽1 = 𝛽2 y 𝛽1 = 1 son equivalentes, y asintóticamente una prueba Wald basada también en
2

224 Capítulo 8 | Modelo de Regresión Lineal


parametrización debería dar la misma respuesta. Sin embargo, en una muestra particular finita las
respuestas pueden ser completamente diferentes. En efecto, la prueba Wald no lineal aproxima la
restricción 𝑔(𝑏𝑇 ) = 0 por la restricción lineal

𝜕𝑔
𝑔(𝛽0 ) ( ′ | 𝛽=𝑏𝑇 ) (𝑏𝑇 − 𝛽0 ) = 0.
𝜕𝛽

Debe tenerse cuidado para asegurar que la linealizacion es razonable en el rango de valores factibles
para 𝛽. Ver a Gregory y Veall (1985). Lafontaine y White (1986), y Phillips y park (1988) para una
discusión más detallada

Caso 4. Estimando parámetros para una autoregresión


Considere ahora estimación de los parámetros de un orden de autoregresion 𝑝 por MCO.

Suposición 8.4: El modelo de regresión es


𝑦𝑡 = 𝑐 + 𝜑1 𝑦𝑡−1 + 𝜑2 𝑦𝑡−2 + ⋯ + 𝜑𝑝 𝑦𝑡−𝑝 + 𝜀𝑡 [8.2.24]

Con bases de (1 − 𝜑1 𝑧 − 𝜑2 𝑧 2 − ⋯ − 𝜑𝑝 𝑧 𝑝 ) = 0 fuera del circulo de la unidad y con {𝜀𝑡 }una


secuencia 𝑖. 𝑖. 𝑑 con media cero, varianza 𝜎 2 , y momento de cuarto orden finito 𝜇4 .

Una autoregresion tiene la forma del modelo de regresión estándar 𝑦𝑡 = 𝑋𝑡′ 𝛽 + 𝜇𝑡 con 𝑋𝑡′ =
(1. 𝑦𝑡−1 , 𝑦𝑡−2 , ⋯ , 𝑦𝑡−𝑝 ) y 𝜇𝑡 .Tenga en cuenta, sin embargo, que una autoregresion no puede
satisfacer la condición (a) de la Suposición 8.2 o 8.3. Aunque 𝜇𝑡 .es independiente de 𝑥 bajo la
suposición 8.4, este no será el caso que 𝜇𝑡 . sea independiente de 𝑥𝑡+1 . Sin esta independencia,
ninguno de los resultados de muestra pequeña aplica para el caso 1. Especificamente, aun si 𝜀𝑡 , es
gaussina, el coeficiente MCo 𝑏 da una estimación parcial de 𝛽 por una autoregresion, y las
estadísticas estándar 𝑡 y 𝐹 pueden solo estar justrificadas asintóticamente.

Sin embargo,los resultados asinoticos para el caso 4 son los mismos como para el caso 3 y son
derivados en la misma manera esencialmente. Para adaptar la notación temprana, suponga que la
muestra consiste de 𝑇 + 𝑝 observaciones en 𝑦𝑡 enomeradas (𝑦−𝑝+1 , 𝑦−𝑝+2 , ⋯ 𝑦0 , 𝑦1 ⋯ , 𝑦𝑇 );la
estimación CO por lo tanto usara observaciones 1 a través de 𝑇. Entonces como en [8.2.6]

𝑇 −1 𝑇 [8.2.25]
√𝑇(𝑏𝑇 − 𝛽) = [(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] [(1/𝑇) ∑ 𝑥𝑡 𝑢𝑡 ]
𝑡=1 𝑡=1

El primer término en [8.2.25] es

𝑇 −1 −1
1 𝑇 −1 ∑ 𝑦𝑡−1 𝑇 −1 ∑ 𝑦𝑡−2 ⋯ 𝑇 −1 ∑ 𝑦𝑡−𝑝
[(/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ]
2
𝑡=1 𝑇 −1 ∑ 𝑦𝑡−1 𝑇 −1 ∑ 𝑦𝑡−1 𝑇 −1 ∑ 𝑦𝑡−1 𝑦𝑡−2 ⋯ 𝑇 −1 ∑ 𝑦𝑡−1 𝑦𝑡−𝑝
= 2
𝑇 −1 ∑ 𝑦𝑡−2 𝑇 −1 ∑ 𝑦𝑡−2 𝑦𝑡−1 𝑇 −1 ∑ 𝑦𝑡−2 ⋯ 𝑇 −1 ∑ 𝑦𝑡−2 𝑦𝑡−𝑝
⋮ ⋮ ⋮ ⋯ ⋮
−1 −1 −1 −1 2
[𝑇 ∑ 𝑦𝑡−𝑝 𝑇 ∑ 𝑦𝑡−𝑝 𝑦𝑡−1 𝑇 ∑ 𝑦𝑡−𝑝 𝑦𝑡−2 ⋯ 𝑇 ∑ 𝑦𝑡−𝑝 ]

8.2. Mínimos cuadrados ordinarios bajo condiciones más generales 225


Donde ∑ denota sumatoria en 𝑡 = 1 a 𝑇.Los elementos en la primera fila o columna son la
forma 𝑇 −1 ∑ 𝑦𝑡−𝑖 y convergen en probabilidad a 𝜇 = 𝐸(𝑦𝑡 ), por la porposicion 7.5 .Otro
selementos son de la forma 𝑇 −1 ∑ 𝑦𝑡−𝑖 𝑦𝑡−𝑗 ,los cuales ,de [7.2.14],converge en probabilidad a

𝐸(𝑦𝑡−𝑖 − 𝑦𝑡−𝑗 ) = 𝛾|𝑖−𝑗| + 𝜇2


Por tanto

𝑇 −1 [8.2.26]
𝑃
[(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] → 𝑄 −1
𝑡−1

Donde
1 𝜇 𝜇 ⋯ 𝜇 [8.2.27]
𝜇 𝛾0 + 𝜇2 𝛾1 + 𝜇2 ⋯ 𝛾𝑝−1 + 𝜇2
𝑄≡ 𝜇 𝛾1 + 𝜇2 𝛾0 + 𝜇2 ⋯ 𝛾𝑝−2 + 𝜇2
⋮ ⋮ ⋮ ⋯ ⋮
[𝜇 𝛾𝑝−1 + 𝜇2 𝛾𝑝−2 + 𝜇2 ⋯ 𝛾0 + 𝜇2 ]

Para el segundo término en [8.2.25], observe que 𝑥𝑡 𝑢𝑡 es una secuencia de diferencia de martingala
con matriz de varianza-covarianza definida positiva dada por
𝐸(𝑥𝑡 𝑢𝑡 𝑢𝑡 𝑥𝑡′ ) = 𝐸(𝑢𝑡2 ) ∙ 𝐸(𝑥𝑡 𝑥𝑡′ ) = 𝜎 2 𝑄

Usando un argumento similar a este en el ejemplo 7.15, puede ser demostrado que

1 𝑇 𝐿 [8.2.28]
[( ) ∑ 𝑥𝑡 𝑢𝑡 ] → 𝑁(0, 𝜎 2 𝑄)
𝑇 𝑡−1

(ver el ejercicio 8.3).Sustituyendo [8.2.26] y [8.2.28] en [8.2.25]


𝐿 [8.2.29]
√𝑇(𝑏𝑇 − 𝛽) → 𝑁(0, 𝜎 2 𝑄 −1 )

Es sencilla de verificar más allá de que 𝑏𝑇 y 𝑠𝑇2 son constantes para este caso .De [8.2.26],la matriz
varianza-autocovarianza asintótica de √𝑇(𝑏𝑇 − 𝛽) puede ser estimada constantemente por
𝑠𝑇2 (𝑋𝑇′ 𝑋𝑇 /𝑇)−1 , lo que significa que estadísticas estándar 𝑡 y 𝐹 que trata 𝑏𝑇 como si fuera
𝑁(𝛽, 𝑠𝑇2 (𝑋𝑇′ 𝑋𝑇 )−1 producirá asintóticamente pruebas validas de hipótesis sobre los coeficientes de
una autoregresion
Como un caso especial de [8.2.29], considere la estimación MCO de autoregresion de primer
orden,

𝑦𝑡 = 𝜑𝑦𝑡−1 + 𝜀𝑡

2 )
Con 𝜑 < 1. Entonces 𝑄 es el excalar 𝐸(𝑦𝑡−1 = 𝑦0 , la varianza de un proceso AR(1).Vimos en
2 2
el capítulo 3 que esto es dado por 𝜎 /(1 − 𝜑 ). Por ello, para 𝜑 el coeficiente MCO,

∑𝑇𝑡−1 𝑦𝑡−1 𝑦𝑡
𝜑̂𝑇 =
∑𝑇𝑡−1 𝑦𝑡−1
2

El resutado de [8.2.29] implica que


−1 [8.2.30]
𝐿 𝜎2
2∙
√𝑇(𝜑̂𝑇 − 𝜑) → 𝑁 (0, 𝜎 [ ] ) = 𝑁(0,1 − 𝜑2 )
1 − 𝜑2

226 Capítulo 8 | Modelo de Regresión Lineal


Si resultados más precisos que la aproximación asintótica en la ecuación [8.2.29] son deseados, la
distribución exacta de muestra pequeña de 𝜑̂𝑇 puede ser calculada también en dos maneras.Si los
errores en la autoregresion [8.2.24] son 𝑁(0, 𝜎 2 ),entonces para cualquier valor numérico
especificado para 𝜑1 , 𝜑2 ⋯ 𝜑𝑝 , y 𝑐 la distribución exacta de muestra pequeña puede ser calculada
usando rutinas numéricas desarrolladas por Imhof (1961);para ilustraciones de este método,vea
Evans y SAvin (1981) y Flavin (1983).Una alternativa es aproximar la distribución de muestra
pequeña por métodos de Monte Carlo .Aquí la idea de usas una computadora genera variables
pseudo-aleatorias 𝜀1 , ⋯ , 𝜀𝑇 , cada xxx distribuida por algoritmos numéricos tales como esta descrito
en Kinderman y Ramage (1976).Para fijar valores iniciales 𝑁(0, 𝜎 2 ), los valores para 𝑦−𝑝+1 , ⋯ 𝑦1 ,
pueden entonces ser calculados por iteración en [8.2.24].

Para entonces se estima parámetros de [8.2.24] con una regresión MCO en esta muestra
artificial .Una nueva muestra es generada por la cual una nueva regresión es estimada. Mediante la
realización, suponga, 10.000 tales regresiones, una estimación de la distribución exacta de muestra
pequeña de las estimaciones MCO pueden ser obtenidas.

Para el caso de la autoregresion de primer orden, es conocido como cálculos que 𝜙̂𝑡 es imparcial
hacia abajo en muestras pequeñas, con las tendencias convirtiéndose cada vez más severas como 𝜙
se acerca a la unidad .Por ejemplo, para una muestra de tamaño T=25 generada por [8.2.24](con un
término constante incluido ) será menos que el valor real de 1 en el 95% de las muestras , y aun
caerán bajo 0.6 en 10% de las muestras.

Caso 5. Errores Gaussianos con matriz Varianza-Covarianza conocida


A continuación considere el siguiente caso

Suposición 8.5 (a) Xt estocástica ;(b) condicional en la matriz completa X vector u es 𝑁(0, 𝜎 2 𝑉), ; (c) es una
matriz definida positiva conocida .

Cuando los errores para diferentes informaciones tienen diferentes varianzas pero no
son correlativas con cada una (Eso es V diagonal) ,se dice que los errores son autocorrelativos.
Escribiendo la matriz varianza-covarianza como el producto de algún escalar xxx y una matriz V es
una convención que ayudara a simplificar el álgebra y la interpretación para algunos ejemplos de
heteroscedasticidad y autocorrelacion .Tenga en cuenta nuevamente que la suposición 8.5(b) no
podría mantener una autoregresion ,entonces una condicional en xt+1=(1, yt, yt-1, ……., yt-p+1)’ y xt ,el
valor de ut es conocido con certeza.

Recuerde de [8.1.12] que



(b - 𝛽) = (𝑋 ´ 𝑋)−1 𝑋 ′ 𝑢
Tomando expectativas condicionales en X,

𝐸[(𝑏 − 𝛽)/𝑋] = (𝑋 ′ 𝑋)−1 𝑋 ′ . 𝐸(𝑢) = 0

Y por la ley de expectativas iteradas

𝐸[(𝑏 − 𝛽)] = [𝐸𝑋 𝐸[(𝑏 − 𝛽)/𝑋]] = 0

Por tanto, la estimación del coeficiente MCO es imparcial


La varianza de b condicional en X es
[8.2.31]
𝐸{(𝑏 − 𝛽)(𝑏 − 𝛽)}/𝑋 = 𝐸{[(𝑋 ′ 𝑋)−1 𝑋 ′ 𝑢𝑢′ 𝑥(𝑋 ′ 𝑋)−1 ]𝑋}

De este modo, condicional en X

8.2. Mínimos cuadrados ordinarios bajo condiciones más generales 227


𝑏/𝑋 𝑁(𝛽, 𝜎 2 (𝑋 ′ 𝑋)−1 𝑋 ′ 𝑉𝑋(𝑋 ′ 𝑋)−1

Alternativamente, uno puede generar el valor inicial para y con un dibujo de la distribución
incondicional apropiada. Específicamente, genera un (px1) vector v ¬ 𝑁(0. 𝐼𝑃 ) y establece ( Y-P+1,
……,Y0)´= 𝜇. 1 + 𝑃. 𝑣, uno denota un 𝜇 = 𝑐/(1 − ∅1 − ⋯ … . −∅𝑝 ) vector de (Px1), y P es el
factor CHolesky tal que P.P= r .r para la ( p x p)matriz de quien sus columnas apiladas en un (𝑝2 x
1 )vector incluye la primera columna de la matriz , donde F es la , 𝜎 2 [𝐼𝑃2− (𝐹 𝑋 𝐹)] -1matriz
definida en la ecuación [1.2.3] capítulo 1.
*estos valores pueden ser inferidos de la Tabla B.5

A menos que 𝑉 = 𝑰 𝑇 , esta no es la misma matriz de varianza como en [8.1.17], para que la
estadística MCO 𝑡 [8.1.26] no tengan la interpretación como una variable Gaussiana dividida por
una estimación de su propia derivación estándar. Por lo tanto [8.1.26] no tendrán una
t (𝑇 − 𝑘) distribución en muestras pequeñas, ni siquiera será asintóticamente 𝑁(0, 1). Una prueba
válida de la hipótesis que 𝛽𝑖 = 𝛽𝑖0 para el caso 5 no sería basado en [8.1.26] pero mas bien

(𝑏𝑖 − 𝛽𝑖0 )
𝑡∗ = [8.2.32]
s √𝑑𝑖𝑖

Donde 𝑑𝑖𝑖 indica la fila 𝑖, columna 𝑖 elemento de (𝑿′ 𝑿)−𝟏 𝑿′𝑽𝑿(𝑿′ 𝑿)−𝟏 . Esta estadística será
asintóticamente 𝑁(0, 1).

Aunque uno podría formar una inferencia basada en [8.2.32], en este caso el cual 𝑽 es conocida, un
estimador superior y un proceso de prueba son descritos en la sección 8.3.
Primero, sin embargo, consideramos un caso más general en el cual 𝑽 es de forma desconocida.

Caso 6. Errores no correlativos en serie pero con heteroscedasticidad


general
Podría ser posible posible diseñar asintóticamente pruebas válidas aun en el proceso de
heteroscedasticidad de una forma completamente desconocida. Este punto fue primero observado
por Eicker(1967) y White (1980) y se extendió el tiempo de regresiones en serie por Hansen (1982)
y Nicholls y Pagan (1983).

Suposicion 8.6: (𝑎) 𝑥𝑡 estocástico, incluyendo valores tal vez retrasados de 𝑦; (𝑏) 𝑥𝑡 𝑢𝑡 es una secuencia de
diferencia de Martingala ; (𝑐) 𝐸(𝑢𝑡2 𝑥𝑡 𝑥𝑡′ ) = Ω𝑡 , una matriz definida positiva, con (1/
𝑝
𝑇) ∑𝑇𝑡=1 Ω𝑡 convergiendo a la matriz definida positiva Ω y (1/𝑇) ∑𝑇𝑡=1 𝑢𝑡2 𝑥𝑡 𝑥𝑡′ → Ω ;
(𝑑) 𝐸(𝑢𝑡 𝑥𝑖𝑡 𝑥𝑗𝑡 𝑥𝑙𝑡 𝑥𝑚𝑡 < ∞ para toda 𝑖, 𝑗, 𝑙, 𝑚 y 𝑡; (𝑒) plims de (1/𝑇) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑖𝑡 𝑥𝑡 𝑥𝑡′ y (1/
4
𝑝
𝑇) ∑𝑇𝑡=1 𝑥𝑖𝑡 𝑥𝑗𝑡 𝑥𝑡 𝑥𝑡′ existen y son finitas para toda 𝑖 y 𝑗 y (1/𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ → 𝑸 , una matriz no
singular.

La Suposición 8.6(𝑏) requiere 𝑢𝑡 para no ser correlativa con su propio valor de retraso y su
valor actual y de retraso de 𝑥. Aunque los errores son presumido de ser seriamente no correlativos,
la suposición 8.6(𝑐) permite una amplia clase de heteroscedasticidad condicional para los errores
.Como un ejemplo de tal heteroscedasticidad, considere una regresión con una variable singular
explicativa i.i.d 𝑥 con 𝐸(𝑥𝑡2 ) = 𝜇2 y 𝐸(𝑥𝑡4 ) = 𝜇4 .Suponga que la varianza residual de la
información 𝑡 es dada por 𝐸(𝑢𝑡2 ⁄𝑥𝑡 ) = 𝑎 + 𝑏𝑥𝑡2 . Entonces 𝐸( 𝑢𝑡2 𝑥𝑡2 ) = 𝐸𝑥 [𝐸(𝑢𝑡2 ⁄𝑥𝑡 ). 𝑥𝑡2 ] =
𝐸𝑥 [(𝑎 + 𝑏𝑥𝑡2 ). 𝑥𝑡2 ] = 𝑎𝜇2 + 𝑏𝜇4 . Por tanto, Ω𝑡 = 𝑎𝜇2 + 𝑏𝜇4 = Ω para toda 𝑡. Por la ley de
números grandes, (1/𝑇) ∑𝑇𝑡=1 𝑢𝑡2 𝑥𝑡2 convergirá al momento poblacional Ω. La suposición 8.6(𝑐)
permite heteroscedasticidad condicional más general en esta 𝐸( 𝑢𝑡2 𝑥𝑡2 ) podría ser una función de 𝑡

228 Capítulo 8 | Modelo de Regresión Lineal


siempre que el tiempo promedio de (𝑢𝑡2 𝑥𝑡2 ) converja .La suposición 8.6(𝑑) y (𝑒) impone límites
en momentos altos de 𝑥 y 𝑢.
La constante de 𝑏 es establecida usando el mismo argumento como en el caso 3 .La varianza
asintótica es encontrada del escribir.

𝑇 −1 𝑇

√𝑇 (𝑏𝑇 − 𝛽) = [(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] [(1/√𝑇) ∑ 𝑥𝑡 𝑢𝑡 ]


𝑡=1 𝑡=1

La suposición 8.6 (e) asegura que

𝑇 −1
𝑝
[(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡′ ] → 𝑸−𝟏
𝑡=1

Para algunas matrices 𝑄 no singulares .Asimismo, 𝑥𝑡 𝑢𝑡 satisface las condiciones de la Proposición


7.9,de la cual
𝑇
𝐿
[(1/√𝑇) ∑ 𝑥𝑡 𝑢𝑡 ] → 𝑁(0, Ω)
𝑡=1

La distribución asintótica de la estimación MCO es asi dada por


𝐿
√𝑇 (𝑏𝑇 − 𝛽) → 𝑁(0, 𝑄 −1 Ω𝑄 −1 ) [8.2.33]

El propósito de White fue estimar la matriz de la varianza asintótica sistemáticamente por


sustitución 𝑄̂𝑇 = (1/𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ y Ω̂𝑇 = (1/𝑇) ∑𝑇𝑡=1 ̂ 𝑢𝑡2 𝑥𝑡 𝑥𝑡′ en [8.2.33], donde 𝑢
̂𝑡
denota el residual MCO en [8.1.4]. El siguiente resultado es determinado en el Apéndice 8.A de
este capitulo

Proposición 8.3: Con heteroscedasticidad de forma desconocida satisfaciendo la Proposición 8.6, la matriz
varianza-covarianza asintótica del coeficiente vectorial MCO puede ser sistemáticamente estimada por

−1 𝑃
𝑄̂𝑇 Ω ̂𝑇 𝑄̂𝑇 −1 → ( 𝑄 −1 Ω𝑄 −1 ) [8.2.34]

Recuerde [8.2.33], La estimación MCO 𝑏𝑇 puede ser tratada como si

̂𝑇 ⁄𝑇)
𝑏𝑇 ≈ 𝑁(𝛽, 𝑉

Donde
̂𝑇 = 𝑄̂𝑇 −1 Ω
𝑉 ̂𝑇 𝑄̂𝑇 −1

= (𝑋𝑇′ 𝑋𝑇 ⁄𝑇)−1 [(1/𝑇) ∑𝑇𝑡=1 ̂


𝑢𝑡2 𝑥𝑡 𝑥𝑡′ ](𝑋𝑇′ 𝑋𝑇 ⁄𝑇)−1 [8.2.35]
𝑇

= 𝑇. (𝑋𝑇′ 𝑋𝑇 )−1 [∑ ̂
𝑢𝑡2 𝑥𝑡 𝑥𝑡′ ] (𝑋𝑇′ 𝑋𝑡 )−1
𝑡=1

̂𝑇 ⁄𝑇 es conocida como un error estándar de


La raíz cuadrada de la fila 𝑖, columna 𝑖 elemento de 𝑉
heteroscedasticidad constante para la estimación MCO 𝑏𝑖 . Podemos, por supuesto, también usar
̂𝑇 ⁄𝑇) para probar una hipótesis conjunta de la forma 𝑅𝛽 = 𝑟 ,donde 𝑅 es una (𝑚 ×𝑘) matriz
(𝑉
resumiendo 𝑚 hipótesis separadas sobre 𝛽 .Específicamente,

8.2. Mínimos cuadrados ordinarios bajo condiciones más generales 229


̂𝑇 ⁄𝑇)𝑅 ′ ]−1 (𝑅𝑏𝑇 − 𝑟)
(𝑅𝑏𝑇 − 𝑟)′ [𝑅( 𝑉 [8.2.36]

Tiene la misma distribución asintótica como



[√𝑇 (𝑅𝑏𝑇 − 𝑟)] (𝑅𝑄−1 Ω𝑄 −1 𝑅′ )−1 [√𝑇 (𝑅𝑏𝑇 − 𝑟)] ,

La cual, de [8.2.33], es una forma cuadrática de un vector (𝑚 ×1) asintóticamente normal


√𝑇 (𝑅𝑏𝑇 − 𝑟) con matriz de ponderación la inversa de su matriz varianza-
covarianza, (𝑅𝑄 −1 Ω𝑄 −1 𝑅′ ) .Por lo tanto, [8.2.36] tiene una distribución asintótica 𝑥 2 con
𝑚 grados de libertad.
ES posible desarrollar una estimación de la matriz varianza-covarianza de 𝑏𝑇 que es sólida con
respecto a ambas heteroscedasticidades y autocorrelación:

̂𝑇 ⁄𝑇)
(𝑉

= (𝑋𝑇′ 𝑋𝑇 )−1 [∑ ̂
𝑢𝑡2 𝑥𝑡 𝑥𝑡′
𝑡=1
𝑞 𝑇
𝑣
+ ∑ [1 − ] ∑(𝑥𝑡 𝑢̂𝑡 𝑢̂ ′
𝑡−𝑣 𝑥𝑡−𝑣 + 𝑥𝑡−𝑣 𝑢
̂ ̂𝑡 𝑥𝑡′ ] (𝑋𝑇′ 𝑋𝑇 )−1
𝑡−𝑣 𝑢
𝑞+1
𝑣=1 𝑡=1

Aquí 𝑞 es un parámetro representando el número de autocorrelaciones utilizadas para aproximar las


dinámicas para 𝑢𝑡 .La raíz cuadrada la fila 𝑖,columna 𝑖 ,elemento de ( 𝑉̂𝑇 ⁄𝑇) es conocida como el
error estándar de heteroscedasticidad y autocorrelación constante Newey West (1987) para el
estimador MCO. La base para esta expresión y maneras alternativas para calcular errores estándar
de heteroscedasticidad y autocorrelación constantes serán discutidas en el Capitulo 10.

8.3. Mínimos Cuadrados Generalizados


La sección previa evaluó la estimación MCO bajo una variedad e suposiciones, incluyendo
𝐸(𝑢𝑢′ ) ≠ 𝜎 2 𝐼𝑇 . Aunque el MCO puede ser usado en este último caso , la mínima cuadrática
generalizada (MCG) es usualmente preferida .

MCG con matriz de covarianza conocida


Permitanos reconsiderar información generada de acuerdo a la Suposicion 8.5,bajo la cual
𝑢|𝑋 ~ 𝑁(0, 𝜎 2 𝑉) con 𝑉 una matriz (𝑇 × 𝑇) conocida.Ya que 𝑉 es simétrica y definida positiva
,existe una matriz (𝑇 × 𝑇) no singular 𝐿 de tal manera que6

𝑉 −1 = 𝐿′ 𝐿. [8.3.1]
Imagine el transformar los residuos de la población 𝑢 por 𝐿:
𝑢̂ ≡ 𝐿𝑢
(𝑇 ×1)

6
Conocemos que existe una matriz no singular 𝑃 tal que 𝑉 = 𝑃𝑃 ′ y asi 𝑉 −1 = [𝑃 ′ ]−1 𝑃 −1
Tome 𝐿 = 𝑃 −1 para deducir [8.3.1]

230 Capítulo 8 | Modelo de Regresión Lineal


Esto generaría un nuevo conjunto de residuos o residuales 𝑢̂ con media 0 y varianza condicional en
𝑋 dada por
𝐸(𝑢̂𝑢̂′ |𝑋) = 𝐿. 𝐸(𝑢𝑢′ |𝑋)𝐿′ = 𝐿𝜎 2 𝑉𝐿′
−1 −1
Pero 𝑉 = [𝑉 −1 ] = [𝐿′ 𝐿] , es decir

−1
𝐸(𝑢̂𝑢̂′ |𝑋) = 𝜎 2 𝐿[𝐿′ 𝐿] 𝐿′ = 𝜎 2 𝐼𝑇 [8.3.2]

Podemos por lo tanto tomar la ecuación matriz que caracteriza el modelo de regresión básica,
𝑦 = 𝑋𝛽 + 𝑢,
Y premultiplicada ambos lados por 𝐿:
𝐿𝑦 = 𝐿𝑋𝛽 + 𝐿𝑢

Para producir un nuevo modelo de regresión

𝑦̂ = 𝑋̂𝛽 + 𝑢̂ [8.3.3]

donde

𝑦̂ ≡ 𝐿𝑦 𝑋̂ ≡ 𝐿𝑋 𝑢̂ ≡ 𝐿𝑢 [8.3.4]

Con 𝑢̂|𝑋 ~𝑁(0, 𝜎 2 𝐼𝑇 ). Por eso ,el modelo transformado [8.3.3] satisface la Suposición 8.2,es decir
que los resultados para este caso aplicado a [8.3.3].Específicamente ,el estimador
−1
𝑏̂ = (𝑋̂ ′ 𝑋̂ ) 𝑋̂ ′ 𝑦̂ = (𝑋 ′ 𝐿′ 𝐿𝑋)−1 𝑋 ′ 𝐿′ 𝐿𝑦 = (𝑋 ′ 𝑉 −1 𝑋)−1 𝑋 ′ 𝑉 −1 𝑦 [8.3.5]
−1
Es Gaussiano con media 𝛽 y varianza 𝜎 2 (𝑋̂ ′ 𝑋̂ ) = 𝜎 2 (𝑋 ′ 𝑉 −1 𝑋)−1 condicional en 𝑋 y es el
estimador condicional imparcial de varianza mínima en 𝑋.El estimador [8.3.5] es conocido como el
estimador mÍnimo cuadrático generalizado (MCG).Igualmente,

𝑠̂2 = [1⁄(𝑇 − 𝑘)] ∑𝑇𝑡=1(𝑦̂ ̂𝑡′ 𝑏̂)2


𝑡 − 𝑥 [8.3.6]

Tiene una distribución exacta [𝜎 2 ⁄(𝑇 − 𝑘)]. 𝑥 2 (𝑇 − 𝑘) bajo la Suposicion 8.5, mientras
′ −1
(𝑅𝑏̂ − 𝑟) [ 𝑠̂
2 𝑅(𝑋 ′ 𝑉 −1 𝑋)−1 𝑅 ′ ] (𝑅𝑏̂ − 𝑟)⁄𝑚

Tiene una distribución 𝐹(𝑚, 𝑇 − 𝑘) exacta bajo la hipótesis nula 𝑅𝛽 = 𝑟

Ahora discutimos varios ejemplos para hacer estas ideas concretas.

Heteroscedasticidad
Un caso simple para analizar es uno para el cual la varianza de 𝑢𝑡 es presumida para ser
2
proporcional al cuadrado de una de las variables explicativas para esta ecuación, dice 𝑥1𝑡 :
2
𝑥11 0⋯ 0
𝐸(𝑢𝑢′ |𝑋) = 𝜎 2 [ ⋮ ⋱ ⋮ ] = 𝜎2𝑉
2
0 0⋯ 𝑥1𝑇

Luego esto es fácil de ver que

1⁄|𝑥11 | 0 ⋯ 0
𝐿=[ ⋮ ⋱ ⋮ ]
0 0 ⋯ 1⁄|𝑥1𝑇 |

8.3. Mínimos cuadrados generalizados 231


Condiciones satisfactorias de [8.3.1] y [8.3.2]. Por lo tanto, si regresamos 𝑦𝑡 ⁄|𝑥1𝑡 | en 𝑥𝑡 ⁄|𝑥1𝑡 |,toda
la producción estándar estándar MCO de la regresión será válida.

Autocorrelacion
Como un segundo ejemplo, considere

𝑢𝑡 = 𝜌𝑢𝑡−1 + 𝜀𝑡
[8.3.7]

Donde |𝜌| < 1 y 𝜀, es un ruido blanco Gaussiano con varianza 𝜎 2 . Entonces

𝜎2 1 𝜌 𝜌2 ⋯ 𝜌𝑇−1
′ |𝑋)
𝐸(𝑢𝑢 = [ ⋮ ⋱ ⋮ ] = 𝜎2𝑉
1 − 𝜌2 𝑇−1 𝑇−2 𝑇−3
𝜌 𝜌 𝜌 ⋯ 1
[8.3.8]

Tenga en cuenta de la expresión [5.2.18] que la matriz

√1 − 𝜌2 0 0 ⋯0 0
𝐿= [ ⋮ ⋱ ⋮]
0 0 0 ⋯−𝜌 1
[8.3.9]

Satisface [8.3.19]. Las estimaciones MCG son encontradas de una regresión MCO de 𝑦̂ = 𝐿𝑦 en
𝑋̂ = 𝐿𝑋 ; eso es retroceso 𝑦1 √1 − 𝜌2 en 𝑥1 √1 − 𝜌2 y 𝑦𝑡 − 𝜌𝑦𝑡−1 en 𝑥𝑡 − 𝜌𝑥𝑡−1 para 𝑡 =
2,3, … . . , 𝑇.

MCG y estimación de probabilidad máxima


La suposición 8.5 afirma que 𝑦|𝑋 ~𝑁(𝑋𝛽, 𝜎 2 𝑉. Por ello, el registro de la probabilidad de 𝑦
condicionada en 𝑋 es dada por

(− 𝑇⁄2) log(2𝜋) − (1⁄2) log|𝜎 2 𝑉| − (1⁄2)(𝑦 − 𝑋𝛽)′ ( 𝜎 2 𝑉)−1 (𝑦 − 𝑋𝛽)


[8.3.10]

Tenga en cuenta que [8.3.1] puede ser usada para escribir el ultimo termino en [8.3.10] como
− (1⁄2)(𝑦 − 𝑋𝛽)′ ( 𝜎 2 𝑉)−1 (𝑦 − 𝑋𝛽)

= −[1⁄(2𝜎 2 )](𝑦 − 𝑋𝛽)′ (𝐿′ 𝐿)(𝑦 − 𝑋𝛽)


= −[1⁄(2𝜎 2 )](𝐿𝑦 − 𝐿𝑋𝛽)′ (𝐿𝑦 − 𝐿𝑋𝛽)
[8.3.11]

= −[1 (𝑦̂ − 𝑋̂ 𝛽) (𝑦̂ − 𝑋̂𝛽)
⁄(2𝜎 2 )]

Igualmente, el término medio en [8.3.10] puede ser escrito como en [5.2.24]:

−(1⁄2) log|𝜎 2 𝑉| = −(𝑇⁄2) log( 𝜎 2 ) + log|det(𝐿)| , [8.3.12]

Donde |det(𝐿)| denota el valor absoluto de la determinante de 𝐿. Sustituyendo [8.3.11] y [8.3.12]


en [8.3.10],la probabilidad de registro condicional puede ser escrita como

(− 𝑇⁄2) log(2𝜋) − (𝑇⁄2) log(𝜎 2 ) + log|det(𝐿)| − [1⁄(2𝜎 2 )](𝑦̂ − 𝑋̂𝛽) (𝑦̂ − 𝑋̂𝛽) [8.3.13]

232 Capítulo 8 | Modelo de Regresión Lineal


De este modo ,la probabilidad de registro es maximizada con respecto a 𝛽 por una regresión MCO
de 𝑦̂ en 𝑋̂,9 es decir que la estimación MCG [8.3.5] es también la máxima probabilidad estimada
bajo la suposición 8.5.
La estimación MCG 𝑏̂ es todavía probable ser razonable aunque los residuales 𝑢 no son
Gaussianos .Específicamente ,los residuales de la regresión [8.3.3] tiene media 0 y varianza 𝜎 2 𝐼𝑇 , y
asi esta regresión satisface las condiciones del teorema de Gauss Markov-incluso si los residuales no
son Gaussianos, 𝑏̂ tendrá varianza mínima (condicional en 𝑋) entre la clase de todos los
estimadores imparciales que son funciones lineales de 𝑦.Por lo tanto , la maximización de [8.3.13] o
estimación de probabilidad casi máxima ,podría ofrecer un principio de estimación útil incluso para
no gaussiano 𝑢.

MCG cuando la matriz de varianza de residuales debe ser estimada de la


información
Hasta este punto hemos estado asumiendo que los elementos de 𝑉 son conocidos a
priori .Comúnmente, 𝑉 es propuesta a ser de una forma particular de 𝑉(𝜃) ,donde 𝜃 es un vector
de parámetros que debe ser estimado de la información. Por ejemplo, con la correlación en serie de
primer orden de residuales como en [8.3.7], 𝑉 es la matriz en [8.3.8] y 𝜃 es el escalar 𝜌.Como un
segundo ejemplo, podríamos suponer que la varianza de observación 𝑡 depende de las variable
explicativas de acuerdo a
2 2 ).
𝐸(𝑢𝑡2 |𝑥𝑡 ) = 𝜎 2 (1 + 𝛼1 𝑥1𝑡 + 𝛼2 𝑥2𝑡

En cuyo caso 𝜃 = (𝛼1 , 𝛼2 )′


Nuestra labor es entonces el estimar 𝜃 y 𝛽 conjuntamente de la información .Un enfoque es usar
como estimadores los valores de 𝜃 y 𝛽 que maximizan [8.3.13].Entonces uno puede siempre formar
[8.3.13] y maximizar esto numéricamente , este enfoque tiene la apelación de ofrecer una sola regla
de seguir siempre que 𝐸(𝑢𝑢′ |𝑋) no sea de la forma simple 𝜎 2 𝐼𝑇 .
Esto con frecuencia resulta ser el caso que

−1 −1 −1
√𝑇 (𝑋𝑇′ [𝑉𝑇 (𝜃̂𝑇 )] 𝑋𝑇 ) (𝑋𝑇′ [𝑉𝑇 (𝜃̂𝑇 )] 𝑦𝑇 )

𝑝 −1 −1 −1
→ √𝑇 (𝑋𝑇′ [𝑉𝑇 (𝜃̂𝑇 )] 𝑋𝑇 ) (𝑋𝑇′ [𝑉𝑇 (𝜃̂𝑇 )] 𝑦𝑇 ),

Donde 𝑉𝑇 (𝜃0 ) denota la varianza verdadera de errores y 𝜃̂𝑇 es cualquier estimación constante
de 𝜃.Ademas ,una estimación constante de 𝜃 puede con frecuencia ser obtenida de un análisis
simple de residuos MCO.Por tanto,una estimación viene de unas MCO simples y regresiones
MCG que pueden tener la misma distribución asintótica como el estimador de probabilidad
máxima .Entonces las regresiones son mucho más fáciles de implementar que una maximización
numérica, las estimaciones más simples son utilizadas con frecuencia.

Estimación con auto correlación de primer orden de residuos de la


regresión y variables endógenas no retrasadas

Ilustramos estos temas considerando una regresión cuyos residuales siguen el proceso
AR(1) [8.3.7].Por ahora mantenemos la suposición que 𝑢|𝑋 tiene media cero y varianza
𝜎 2 𝑉(𝜌),observando que esto descarta variables endógenas retrasadas ;es decir, asumimos que 𝑥𝑡 no
es correlativa con 𝑢𝑡−𝑠 .Los siguientes comentarios de subsección en la importancia de esta
suposición .Recuerde que el determinante de una matriz triangular inferior es solo el producto de

8.3. Mínimos cuadrados generalizados 233


los términos en la diagonal principal, vemos de [8.3.9] que det(𝐿) = √1 − 𝜌2 . Por tanto, la
probabilidad de registro [8.3.13] para este caso es

(− 𝑇⁄2) log(2𝜋) − (𝑇⁄2) log(𝜎 2 ) + (1⁄2) log(1 − 𝜌2 )

−[(1 − 𝜌2 )⁄(2𝜎 2 )](𝑦1 − 𝑥1′ 𝛽)2


𝑇

−[1⁄(2𝜎 )] ∑[(𝑦𝑡 − 𝑥𝑡′ 𝛽) − 𝜌(𝑦𝑡−1 − 𝑥𝑡−1
2
𝛽)]2 .
𝑡=2
[8.3.14]
Un enfoque ,entonces, es maximizar [8.3.14] numéricamente con respecto a 𝛽, 𝜌 y 𝜎 2 . El lector
podría reconocer [8.3.14] como la función de probabilidad de registro exacto para un proceso
𝐴𝑅(1) ( ecuación [5.2.9]) con (𝑦𝑡 − µ) sustituido por (𝑦𝑡 − 𝑥1′ 𝛽)
Solo como en el caso 𝐴𝑅(1), estimaciones mas simples ( con la misma distribución asintótica ) son
obtenidas si condicionamos en la primera observación ,buscando maximizar
−[(𝑇 − 1)/2] log(2𝜋) − [(𝑇 − 1)⁄2)]𝑙𝑜𝑔(𝜎 2 )

−[1⁄(2𝜎 2 )] ∑𝑇𝑡=2[(𝑦𝑡 − 𝑥𝑡′ 𝛽) − 𝜌(𝑦𝑡−1 − 𝑥𝑡−1



𝛽)]2 . [8.3.15]

Si conocimos el valor de 𝜌 ,entonces el valor de 𝛽 que maximiza [8.3.15] podría ser encontrado por
una regresión MCO de (𝑦𝑡 − 𝜌𝑦𝑡−1 ) en (𝑥𝑡 − 𝜌𝑥𝑡−1 ) para 𝑡 = 2,3, … 𝑇
(llame a esta regresión A). En cambio, si conocimos el valor de 𝛽 ,entonces el valor de 𝜌 que
maximiza [8.3.15] seria encontrado por una regresión MCO de (𝑦1 − 𝑥1′ 𝛽) en (𝑦𝑡−1 − 𝑥𝑡−1 ′
𝛽)
para 𝑡 = 2,3, … 𝑇 (llame a esta regresión B).Podemos por lo tanto empezar una estimación inicial
para 𝜌 (con frecuencia 𝜌 = 0), y presentar la regresión A para obtener una estimación inicial de
𝛽 .Para 𝜌 = 0, esta estimación inicial de 𝛽 solo sería la estimación MCO 𝑏. Esta estimación de 𝛽
puede ser utilizada en la regresión B para obtener una estimación de 𝜌, por ejemplo, regresando el
residuo MCO 𝑢 ̂𝑡 = 𝑦𝑡 − 𝑥𝑡′ 𝑏 en su propio valor de retraso. Esta nueva estimación de 𝜌 puede ser
utilizada para repetir las dos regresiones .
Zigzagueando hacia adelante y hacia atrás entre A y B es conocido como el método iterado
Cochrane Orcutt y convergirá a un máximo local de [8.3.15]
Alternativamente, considere la estimación de 𝜌 que resulta de la primera iteración sola,

(1⁄𝑇) ∑𝑇 ̂𝑡−1 𝑢
𝑡=1 𝑢 ̂𝑡
𝜌̂ = (1⁄𝑇) ∑𝑇 2
̂𝑡−1
, [8.3.16]
𝑡=1 𝑢

Donde 𝑢̂𝑡 = 𝑦𝑡 − 𝑥𝑡′ 𝑏 y 𝑏 es la estimación MCO de 𝛽. Para simplificar expresiones, hemos


renormalizado el número de observaciones en la muestra original a 𝑇 + 1, denotado
𝑦0 , 𝑦1 , … , 𝑦𝑇 , a fin de que observaciones 𝑇 sean utilizadas en la estimacion de probabilidad
máxima condicional, tenga en cuenta que

̂𝑡 = (𝑦𝑡 − 𝛽 ′ 𝑥𝑡 + 𝛽 ′ 𝑥𝑡 − 𝑏 ′ 𝑥𝑡 ) = 𝑢𝑡 +( 𝛽 − 𝑏)′ 𝑥𝑡 ,
𝑢
Permitiendo que el numerador de [8.3.16] sea escrito
𝑇

(1⁄𝑇) ∑ 𝑢̂𝑡 𝑢̂𝑡−1


𝑡=1

= (1⁄𝑇) ∑𝑇𝑡=1[𝑢𝑡 +( 𝛽 − 𝑏)′ 𝑥𝑡 ] [𝑢𝑡−1 +( 𝛽 − 𝑏)′ 𝑥𝑡−1 ] [8.3.17]

= (1⁄𝑇) ∑𝑇𝑡=1(𝑢𝑡 𝑢𝑡−1 ) + ( 𝛽 − 𝑏)′ (1⁄𝑇) ∑𝑇𝑡=1(𝑢𝑡 𝑥𝑡−1 + 𝑢𝑡−1 𝑥𝑡 )

234 Capítulo 8 | Modelo de Regresión Lineal


𝑇
′ ′
+ ( 𝛽 − 𝑏) [(1⁄𝑇) ∑ 𝑥𝑡 𝑥𝑡−1 ] ( 𝛽 − 𝑏).
𝑡=1

Siempre y cuando 𝑏 sea una estimación constante de 𝛽 y condiciones limitadas aseguren que plims
de (1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑡−1 , (1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑡 , y (1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡−1

existen ,entonces
𝜌
(1⁄𝑇) ∑𝑇𝑡=1 𝑢̂𝑡 𝑢̂𝑡−1 → (1⁄𝑇) ∑𝑇𝑡=1(𝑢𝑡 𝑢𝑡−1 )

= (1⁄𝑇) ∑𝑇𝑡=1(𝜀𝑡 + 𝜌𝑢𝑡−1 )𝑢𝑡−1 [8.3.18]


𝜌
→ 𝜌𝑉𝑎𝑟(𝑢).

Un análisis similar establece que el denominador de [8.3.16] converge en probabilidad a 𝑉𝑎𝑟(𝑢),


𝜌
para que 𝜌̂ → 𝜌.

Si 𝑢 no es correlativa con 𝑥𝑠 para 𝑠 = 𝑡 − 1, 𝑡,y 𝑡 + 1 puede hacer la afirmación más fuerte que
una estimación de 𝜌 basada en una auto regresión de residuales MCO 𝑢̂𝑡 (expresión [8.3.16])que
tiene la misma distribución asintótica como una estimación de 𝜌 basada en los residuos
poblacionales verdaderos 𝑢𝑡 . Específicamente ,si el plim[(1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑡−1 ] =
𝑝lim[(1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡−1 𝑥𝑡 ] = 0, entonces multiplicando [8.3.17] por √𝑇, encontramos
𝑇

(1⁄√𝑇) ∑ 𝑢̂𝑡 𝑢̂𝑡−1


𝑡=1

= (1⁄√𝑇) ∑𝑇𝑡=1(𝑢𝑡 𝑢𝑡−1 ) + √𝑇( 𝛽 − 𝑏)′ (1⁄𝑇) ∑𝑇𝑡=1(𝑢𝑡 𝑥𝑡−1 + 𝑢𝑡−1 𝑥𝑡 )

+√𝑇( 𝛽 − 𝑏)′ [(1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡−1


′ ](
𝛽 − 𝑏) [8.3.19]
𝜌
→ (1⁄√𝑇) ∑𝑇𝑡=1(𝑢𝑡 𝑢𝑡−1 ) + √𝑇( 𝛽 − 𝑏)′ 0

+ √𝑇( 𝛽 − 𝑏)′ 𝑝 lim[(1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡−1


′ ]0

= (1⁄√𝑇) ∑(𝑢𝑡 𝑢𝑡−1 ).


𝑡=1

Por lo tanto
(1⁄𝑇) ∑𝑇𝑡=1 𝑢̂𝑡−1 𝑢̂𝑡 𝜌 (1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡−1 𝑢𝑡
√𝑇 [ ] → √𝑇 [ ] [8.3.20]
(1⁄𝑇) ∑𝑇𝑡=1 𝑢̂𝑡−1
2
(1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡−1
2

La estimación MCO de 𝜌 basada en los residuales poblacionales tendría una distribución asintótica
dada por [8.2.30]:

(1⁄𝑇) ∑𝑇 ̂𝑡−1 𝑢
̂𝑡 𝐿
𝑡=1 𝑢
√𝑇 [ (1⁄𝑇) ∑𝑇 2
̂𝑡−1
− 𝜌] → 𝑁(0, (1 − 𝜌2 )). [8.3.21]
𝑡=1 𝑢

El resultado [8.3.20] implica que una estimación de 𝜌 tiene la misma distribución asintótica cuando
se basa en cualquier estimación constante de 𝛽. Si las iteraciones Cochrane-orcutt son detenidas
después de una sola evaluación de 𝜌̂,la estimacion resultada de 𝜌 tiene la misma distribución
asintótica como la estimacion de 𝜌 emergiendo de cualquier paso subsecuente de la iteración.
Lo mismo también resulta ser cierto de la estimación MCG 𝑏̂.

8.3. Mínimos cuadrados generalizados 235


Proposición 8.4: Asuma que la suposición 8.5 (a) y (b) cuenta con 𝑉 dada por [8.3.8] y |𝜌| < 1. En adicion
𝜌
suponga que (1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑢𝑠 → 0 para toda 𝑠 y que (1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ y (1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡−1 ′
tienen
̂
plims finitos .Entonces la estimación MCG 𝑏 construida de 𝑉(𝜌̂) para 𝜌̂ dada por [8.3.16] tine la misma
distribución como 𝑏̂ construida de 𝑉(𝜌) para el verdadero valor de 𝜌.

Correlación en serie con Variables endógenas retardadas

Una variable endógena es una variable que es correlacionada con el termino de error de la regresión
𝑢𝑡 .Muchos de los resultados precedentes sobre errores correlacionados en serie ya no sostienen si la
regresión contiene variables endógenas retardadas. Por ejemplo, considere una estimación de
𝑦𝑡 = 𝛽 𝑦𝑡−1 + 𝛾𝑥𝑡 + 𝑢𝑡 , [8.3.22]

Donde 𝑢𝑡 sigue un proceso 𝐴𝑅(1) como en [8.3.7].Entonces (1) 𝑢𝑡 es correlativa con 𝑢𝑡−1 y (2)
𝑢𝑡−1 es correlativa con 𝑦𝑡−1 , esto cumple que 𝑢𝑡 es correlativa con la variable explicatoria 𝑦𝑡−1 . En
consecuencia ,este no es el caso que 𝑝 lim[(1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑡 𝑢𝑡 ] = 0. La condición clave requerida
para la consistencia del estimador MCO 𝑏. Por tanto, 𝜌̂ en [8.3.16] no es una estimación constante
de 𝜌.
Si uno a pesar de ello itera en el procedimiento Cochrane-Orcuttt, entonces el algoritmo convergirá
a un máximo local de [8.3.15].Sin embargo, la estimación MCG resultante 𝑏̂ no tiene que ser una
estimación constante de 𝛽.No obstante ,el máximo global de [8.3.15] debería ofrecer una
estimación constante de 𝛽. Por medio de la experimentación con valores de inicio para Cochrane –
Orcutt iterado además de 𝜌 = 0, uno podría encontrar este máximo global.10
Una estimacion simple de 𝜌 que es constante en la presencia de variables endógenas retardadas fue
propuesta por Durbin (1960).Multiplicando [8.3.22] por (1 − 𝜌𝐿) da

𝑦𝑡 = ( 𝜌 + 𝛽) 𝑦𝑡−1 − 𝜌𝛽𝑦𝑡−2 + 𝛾𝑥𝑡 − 𝜌𝛾𝑥𝑡−1 + 𝜀𝑡 [8.3.23]

Esto es una versión restringida del modelo de regresión

𝑦𝑡 = 𝛼1 𝑦𝑡−1 + 𝛼2 𝑦𝑡−2 + 𝛼3 𝑥𝑡 + 𝛼4 𝑥𝑡−1 + 𝜀𝑡 , [8.3.24]

Donde los cuatro coeficientes de regresión (𝛼1 , 𝛼2 , 𝛼3 , 𝛼4 ) son restringidos para no se funciones
lineales de tres parámetros subyacentes (𝜌, 𝛽, 𝛾).Reduccion de la suma de 𝜀 ′ s cuadrada en [8.3.23]
es equivalente a un acondicionamiento de la estimacion de probabilidad máxima en las primeras
dos observaciones. Además ,el termino de error en la ecuación [8.3.24] no es correlativa con las
variables explicativas, por lo tanto la 𝛼 ′ s puede ser estimada sistemáticamente por la estimación
MCO de [8.3.24] . Entonces − 𝛼 ̂4 ⁄𝛼
̂3 ofrece una estimación constante de 𝜌 a pesar de la presencia
de variables endógenas retardadas en [8.3.24]
Aun si estimaciones sistematizadas de 𝜌 y 𝛽son obtenidas ,Durbin (1970) enfatiza que con
variables endógenas retardadas esto aun no será el caso que una estimacion de 𝜌 basada en (𝑦𝑡 −
𝑥𝑡′ 𝛽̂) tiene la misma distribución asintótica como una estimación basada en (𝑦𝑡 − 𝑥𝑡′ 𝛽̂ ). Para ver
esto, tenga en cuenta que si 𝑥 contiene variables endógenas retardadas, entonces [8.3.19] no seria
valida .Si 𝑥 incluye 𝑦𝑡−1 por ejemplo, entonces 𝑥 y 𝑢𝑡−1 serán correlativas y
𝑝 lim[(1⁄𝑇) ∑𝑇𝑡=1 𝑢𝑡−1 𝑥𝑡 ] ≠ 0, incluye variables endógenas retardadas.
Nuevamente , un proceso de uso múltiple que trabajara como es maximizar la función de
probabilidad de registro [8.3.15] numéricamente.

Correlación en serie de orden superior11

236 Capítulo 8 | Modelo de Regresión Lineal


A continuación considere el caso cuando la distribución de 𝑢|𝑋 puede ser descrita por una
regresión de 𝜌 orden
𝑢𝑡 = 𝜌1 𝑢𝑡−1 + 𝜌2 𝑢𝑡−2 + ⋯ + 𝜌𝑝 𝑢𝑡−𝑝 + 𝜀𝑡

La condicional de probabilidad de registro en 𝑋 para este caso llega a ser


(− 𝑇⁄2) log(2𝜋) − (𝑇⁄2) log(𝜎 2 ) − (1⁄2) log |𝑉𝜌 |

−[1⁄(2𝜎 2 )](𝑦𝑝 − 𝑋𝑝 𝛽) 𝑉𝜌−1 (𝑦𝑝 − 𝑋𝑝 𝛽)

−[1⁄(2𝜎 2 )] ∑𝑇𝑡=𝜌+1 [(𝑦𝑡 − 𝑥𝑡′ 𝛽) − 𝜌1 (𝑦𝑡−1 − 𝑥𝑡−1



𝛽) [8.3.25]

′ ′
−𝜌2 (𝑦𝑡−2 − 𝑥𝑡−2 𝛽) − ⋯ − 𝜌𝑝 (𝑦𝑡−𝑝 − 𝑥𝑡−𝑝 𝛽)] ,

Donde el (𝜌×1) vector 𝑦𝜌 denota la primera 𝜌 observación en 𝑦, 𝑋𝑝 es la matriz (𝜌×𝑘) de las


variables explicatorias asociadas con estas primeras 𝜌 observaciones, y 𝜎 2 𝑉𝑝 es la (𝜌×𝜌) matriz
varianza-covarianza de (𝑦𝑝 |𝑋𝑝 ).La fila 𝑖 ,la columna 𝑗 elmento de 𝜎 2 𝑉𝑝 es dado por 𝛾|𝑖−𝑗| ,la 𝛾𝑘
autocovarianza de un proceso 𝐴𝑅(𝜌) con parámetros autoregresivos 𝜌1, 𝜌2, … , 𝜌𝜌 y varianza
innovación 𝜎 2 . Dejando que 𝐿𝑝 denote una (𝜌×𝜌) matriz tal que 𝐿𝑝 ′ 𝐿𝑝 = 𝑉𝑝 −1,MCG pueda ser
obtenida por regresión 𝑦̂𝜌 = 𝐿𝑝 𝑦𝑝 en 𝑋̂𝜌 = 𝐿𝑝 𝑋𝑝 y 𝑦̂𝑡 = 𝑦𝑡 − 𝜌1 𝑦𝑡−1 − 𝜌2 𝑦𝑡−2 − ⋯ − 𝜌𝑝 𝑦𝑡−𝑝
en 𝑥̂𝑡 = 𝑥𝑡 − 𝜌1 𝑥𝑡−1 − 𝜌2 𝑥𝑡−2 − ⋯ − 𝜌𝑝 𝑥𝑡−𝑝 para 𝑡 = 𝜌 + 1, 𝜌 + 2, … , 𝑇. En la ecuación
[8.3.14] es un caso especial de [8.3.25] con 𝜌 = 1, 𝑉𝑝 = 1⁄(1 − 𝜌2 ), y 𝐿𝑝 = √1 − 𝜌2 .
Si estamos dispuestos a condicionas en la primera 𝜌 observación, la función es elegir 𝛽 y 𝜌1, 𝜌2, …
, 𝜌𝜌

con el fin de minimizar


𝑇
′ ′
∑ [(𝑦𝑡 − 𝑥𝑡′ 𝛽) − 𝜌1 (𝑦𝑡−1 − 𝑥𝑡−1 𝛽) − 𝜌2 (𝑦𝑡−2 − 𝑥𝑡−2 𝛽)
𝑡=𝜌+1
′ 2
− … − 𝜌𝑝 (𝑦𝑡−𝑝 − 𝑥𝑡−𝑝 𝛽)]

Nuevamente, en la ausencia de variables endógenas retardadas podemos iterar como en Cochrane-


Orcutt, primero tomando la 𝜌𝑖 ‘s tal como se indica y regresión 𝑦̂𝑡 en 𝑥̂𝑡 y luego tomar 𝛽 como se
indica y regesion 𝑢̂𝑡 en 𝑢̂𝑡−1, 𝑢̂𝑡−2 , … , 𝑢̂𝑡−𝑝 .
Cualquier proceso de covarianza estacionaria para los errores siempre puede estar aproximada por
una autoregresion finita, siempre que el orden de la aproximación de la regresión (𝜌) es
suficientemente mayor. Amemiya (1973) demostró que dejando a 𝜌 ir al infinito en una taza más
lenta que el tamaño de la muestra 𝑇, esta estimación MCG iterada tendrá la misma distribución
asintótica como lo haría la estimacion MCG para el caso cuando 𝑉 es conocida.Alternativamente,si
la teoría implica una estructura 𝐴𝑅𝑀𝐴 (𝑝, 𝑞) para los errores con 𝜌 y 𝑞 conocidos ,uno puede
encontrar estimaciones de probabilidad máxima aproximadas o exactas adaptando los métodos en
el capítulo 5, reemplazando 𝜇 en las expresiones del capítulo 5 con 𝑥𝑡′ 𝛽.

Comentarios adicionales en heteroscedasticidad


La heteroscedasticidad puede surgir de una variedad de recursos y la solución depende de la
naturaleza del problema identificado .Usando registros en vez de niveles de variables, permitiendo a
las variables explicatorias entrar no linealmente en la ecuación de regresión, o añadiendo variables
explicatorias omitidas previamente a la regresión podría ser todo útil. Judge,Griffiths,Hill y Lee
(1980) discutieron una variedad de soluciones cuando la heteroscedasticidad se cree que es
relacionada a las variables explicatorias .
En regresiones en serie de tiempo, las variables explicatorias exhiben a sí mismas un
comportamiento dinámico , y tales especficaciones entonces implican una estructura dinámica para

8.3. Mínimos cuadrados generalizados 237


la varianza condiciona. Un ejemplo de tal modelo es la especificación de heteroscedasticidad
condicional autoregresiva de Engle (1982). Modelos dinámicos de heteroscedasticidad serán
discutidos en el Capítulo 21.

Apéndice 8.A Pruebas de las Proposiciones del Capítulo 8


Prueba de la Proposición 8.2: La estimación restringida 𝑏 ∗ que minimiza[8.1.2] sujeta a [8.1.27]
puede ser calculada usando el método Lagrangiano :
𝑇

𝐽 = (1⁄2) ∑ (𝑦𝑡 − 𝑥𝑡′ 𝛽)2 + 𝜆′ (𝑅𝛽 − 𝑟).


𝑡=1
[8.A.1]

Aquí 𝜆 denota un (𝑚×1) vector de multiplicadores Lagrangianos; 𝜆𝑖 , es asociado con la restricción


1
representada por la fila de 𝑅𝛽 = 𝑟. El termino es una contante de normalización para simplificar
2
las expresiones que continúan. La restricción minima es encontrada por permitirla derivativa de
[8.A.1] con respecto a 𝛽 igual a cero:12
𝑇
𝜕𝐽 ′
𝜕(𝑦𝑡 − 𝑥𝑡′ 𝛽) ′
= (1 ⁄ 2) ∑ 2(𝑦𝑡 − 𝑥𝑡 𝛽) +𝜆 𝑅
𝜕𝛽 ′ 𝜕𝛽 ′
𝑡=1

= − ∑ (𝑦𝑡 − 𝛽 ′ 𝑥𝑡 )𝑥𝑡′ + 𝜆′ 𝑅 = 0′ ,
𝑡=1

O
𝑇 𝑇

𝑏 ′∑ 𝑥𝑡 𝑥𝑡′ = ∑ 𝑦𝑡 𝑥𝑡′ − 𝜆′ 𝑅.
𝑡=1 𝑡=1

Tomando transposiciones,

𝑇 𝑇

[∑ 𝑥𝑡 𝑥𝑡′ ] 𝑏 = ∑ 𝑥𝑡 𝑦𝑡 − 𝑅 ′ 𝜆

𝑡=1 𝑡=1

𝑏 ∗ = [∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ ]−1 [∑𝑇𝑡=1 𝑥𝑡 𝑦𝑡 ] − [∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡′ ]−1 𝑅′ 𝜆 [8.A.2]

= 𝑏 −(𝑋 ′ 𝑋)−1 𝑅′ 𝜆 ,

Donde 𝑏 denota la estimacion MCO no restringida. Premultiplicando [8.A.2] por 𝑅 (y recordando


que 𝑏 ∗ satisface 𝑅𝑏 ∗ = 𝑟),

𝑅𝑏 − 𝑟 = 𝑅(𝑋 ′ 𝑋)−1 𝑅′ 𝜆
O
𝜆 = [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟).
[8.A.3]

Sustituyendo [8.A.3] en [8.A.2],

𝑏 − 𝑏 ∗ = (𝑋 ′ 𝑋)−1 𝑅′ [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟) [8.A.4]

238 Capítulo 8 | Modelo de Regresión Lineal


Note de [8.A.4] que

(𝑏 − 𝑏 ∗ )′ (𝑋 ′ 𝑋)(𝑏 − 𝑏 ∗ ) = {(𝑅𝑏 − 𝑟)′ [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 𝑅(𝑋 ′ 𝑋)−1 }(𝑋 ′ 𝑋)

×{(𝑋 ′ 𝑋)−1 𝑅 ′ [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟)}

= (𝑅𝑏 − 𝑟)′ [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]


[8.A.5]

×[𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟)

= (𝑅𝑏 − 𝑟)′ [𝑅(𝑋 ′ 𝑋)−1 𝑅′ ]−1 (𝑅𝑏 − 𝑟).

Por tanto, la magnitud en [8.1.32] es numéricamente idéntica a

(𝑏 − 𝑏 ∗ ) ′ 𝑋′𝑋(𝑏 − 𝑏 ∗ )/𝑚 (𝑏 − 𝑏 ∗ ) ′ 𝑋′𝑋(𝑏 − 𝑏 ∗ )/𝑚


F = =
𝑆2 𝑅𝑆𝑆1 /(𝑇 − 𝑘)

Comparando esto con [8.1.37], Habremos completado la demostración de la equivalencia de


[8.1.32] con [8.1.37] si esto es el caso que

𝑅𝑆𝑆𝑆0 − 𝑅𝑆𝑆1 = (𝑏 − 𝑏 ∗ ) ′(𝑋′𝑋)(𝑏 − 𝑏 ∗ )


[8.A.6]

Ahora, tenga en cuenta que

𝑅𝑆𝑆𝑆0 = (𝑦 − 𝑋𝑏 ∗ ) ′ (𝑦 − 𝑋𝑏 ∗ )

= ( 𝑦 – 𝑋𝑏 + 𝑋𝑏 − 𝑋𝑏 ∗ ) ′ ( 𝑦 – 𝑋𝑏 + 𝑋𝑏 − 𝑋𝑏 ∗ )
[8.A.7]

= (𝑦 – 𝑋𝑏) ′ ( 𝑦 – 𝑋𝑏) + (𝑏 − 𝑏 ∗ )′𝑋′𝑋 (𝑏 − 𝑏 ∗ )

Donde el termino de producto cruzado o vectorial ha desaparecido, ya que ( 𝑦 – 𝑋𝑏) ′𝑋 = 0 por


la ultima propiedad de minimos cuadrados [8.1.10], La ecuación [8.A.7] establece que

𝑅𝑆𝑆𝑆0 = 𝑅𝑆𝑆1 + (𝑏 − 𝑏 ∗ ) ′𝑋′𝑋(𝑏 − 𝑏 ∗ )


[8.A.8]

Confirmando [8.A.6] ∎
𝑃
∎ Prueba de la proposición 8.3: Suposición 8.6 (e) garantiza que 𝑄̂𝑇 → 𝑄 asi que el asunto es si
̂ ̂
Ω𝑇 da una estimación constante de Ω. Defina Ω𝑇 ≡ (1/T)∑𝑡=1 𝑢𝑡 𝑥𝑡 𝑥𝑡′ , observe que Ω∗𝑇 converge
∗ 𝑇 2
𝑃
̂𝑇 − Ω∗𝑇 → 𝟎,
en probabilidad a Ω por la suposición 8.6(c ).Por tanto ,si podemos mostrar que Ω
𝑃
̂𝑇 → Ω . Ahora
entonces Ω

̂𝑇 − Ω∗𝑇 = (1/T)∑𝑇𝑡=1(ȗ2𝑡 𝑢𝑡2 )𝑥𝑡 𝑥𝑡′


Ω [8.A.9]

Pero
(ȗ2𝑡 − 𝑢𝑡2 ) = (𝑢̂𝑡 + 𝑢𝑡 )(𝑢̂𝑡 + 𝑢𝑡 )

Apéndice 8.A. Pruebas de las Proposiciones del Capítulo 8 239


= [(𝑦𝑡 − 𝑏𝑇′ 𝑥𝑡 ) + (𝑦𝑡 − 𝛽 ′ 𝑥𝑡 )][(𝑦𝑡 − 𝑏𝑇′ 𝑥𝑡 ) − (𝑦𝑡 − 𝛽 ′ 𝑥𝑡 )]
= [2(𝑦𝑡 − 𝛽 ′ 𝑥𝑡 ) − (𝑏𝑇 − 𝛽)′ 𝑥𝑡 ][−(𝑏𝑇 − 𝛽)′ 𝑥𝑡 ]
= −2𝑢𝑡 (𝑏𝑇 − 𝛽)′ 𝑥𝑡 + [(𝑏𝑇 − 𝛽)′ 𝑥𝑡 ]2 ,

Dando [8.A.9] para ser escrita como

𝑇 𝑇
̂𝑇 −
Ω Ω∗𝑇 = (− 2/𝑇) ∑ 𝑢𝑡 (𝑏𝑇 − 𝛽) ′
𝑥𝑡 (𝑥𝑡 𝑥𝑡′ ) + (1/T) ∑[(𝑏𝑇 − 𝛽)′ ]2 (𝑥𝑡 𝑥𝑡′ ).
𝑡=1 𝑡=1
[8.A.10]

El primer término en [8.A.10] puede ser escrito

(− 2/𝑇) ∑𝑇𝑡=1 𝑢𝑡 (𝑏𝑇 − 𝛽)′ 𝑥𝑡 (𝑥𝑡 𝑥𝑡′ ) = −2 ∑𝑘𝑖=1(𝑏𝑖𝑇 − 𝛽𝑖 )[(1/T) ∑𝑇𝑡=1 𝑢𝑡 𝑥𝑖𝑡 (𝑥𝑡 𝑥𝑡′ )] [8.A.11]
𝑝
El segundo término en [8.A.11] tiene un 𝑝𝑙𝑖𝑚 finito por la suposición 8.6 (e),y (𝑏𝑖𝑇 − 𝛽𝑖 ) → 0 para
cada 𝑖. Por tanto, la probabilidad limita de [8.A.11] es cero.
Pasando al siguiente termino en [8.A.10]

(1/𝑇) ∑𝑇𝑡=1[(𝑏𝑇 − 𝛽)′ 𝑥𝑡 ] 2 (𝑥𝑡 𝑥𝑡′ ) = ∑𝑘𝑖=1 ∑𝑘𝑖=1(𝑏𝑖𝑇 − 𝛽𝑖 )(𝑏𝑖𝑇 − 𝛽𝑖 )[(1⁄𝑇) ∑𝑇𝑡=1 𝑥𝑖𝑡 𝑥𝑗𝑡 (𝑥𝑡 𝑥𝑡′ )] .

El cual nuevamente tiene plim cero.Por tanto de [8.A.10],


𝑃
̂𝑇 − Ω∗𝑇 → 0. ∎

∎Prueba de la Proposicion 8.4. Recuerde de [8.2.6] que

𝑇 −1 𝑇

√𝑻 (𝑏̂𝑇 − 𝛽) = [(1⁄𝑇) ∑ 𝑥̂𝑡 𝑥̂𝑡′ ] [(1⁄√𝑇) ∑ 𝑥̂𝑡 𝑢̂𝑡 ]


𝑡=1 𝑡=1

= [(1⁄𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )′ ]−1 [8.A.12]

×[(1⁄√𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )(𝑢𝑡 − 𝜌̂𝑢𝑡−1 )′ ].

Ahora mostraremos que [(1⁄𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )′ ] tiene el mismo 𝑝𝑙𝑖𝑚 como
[(1⁄𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌𝑥𝑡−1 )(𝑥𝑡 − 𝜌𝑥𝑡−1 )′ ] y que [(1⁄√𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )(𝑢𝑡 − 𝜌̂𝑢𝑡−1 )] tiene
la misma distribución asintótica como [(1⁄√𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌𝑥𝑡−1 )(𝑢𝑡 − 𝜌𝑢𝑡−1 )].

Considere el primer término en [8.A.12]


𝑇
(1/T) ∑(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )´
𝑡=1
𝑇

= (1/T) ∑[𝑥𝑡 − 𝜌𝑥𝑡−1 + (𝜌 − 𝜌̂)𝑥𝑡−1 ][𝑥𝑡 − 𝜌𝑥𝑡−1 + (𝜌 − 𝜌̂)𝑥𝑡−1 ]´


𝑡=1

=(1/T) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌𝑥𝑡−1 )(𝑥𝑡 − 𝜌𝑥𝑡−1 )´

+(𝜌 − 𝜌̂). (1/T) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌𝑥𝑡−1 )𝑥𝑡−1


´

+(𝜌 − 𝜌̂). (1/T) ∑𝑇𝑡=1 𝑥𝑡−1 (𝑥𝑡 − 𝜌𝑥𝑡−1 )´

240 Capítulo 8 | Modelo de Regresión Lineal


[8.A.13]
+(𝜌 − 𝑝̂ )2 . (1/T) ∑𝑇𝑡=1 𝑥𝑡−1 𝑥𝑡−1
´

𝜌
Pero (𝜌 − 𝑝̂ ) → 0 y los plims de (1/T) ∑𝑇𝑡=1 𝑥𝑡−1 𝑥𝑡−1 ´
y (1/T) ∑𝑇𝑡=1 𝑥𝑡 𝑥𝑡−1
´
son tomados como
existentes .Por ello [8.A.13] tiene el plim de muestra como
𝑇
(1/T) ∑(𝑥𝑡 − 𝜌𝑥𝑡−1 )(𝑥𝑡 − 𝜌𝑥𝑡−1 )´
𝑡=1
A continuacion considere el segundo término en [8.A.12]
𝑇

(1/√𝑇) ∑(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )(𝑢𝑡 − 𝜌̂𝑢𝑡−1 )


𝑡=1
𝑇

= (1/√𝑇) ∑[𝑥𝑡 − 𝜌𝑥𝑡−1 + (𝜌 − 𝜌̂)𝑥𝑡−1 ][𝑢𝑡 − 𝜌𝑢𝑡−1 + (𝜌 − 𝜌̂)𝑢𝑡−1 ]


𝑡=1
= (1/√𝑇) ∑𝑇𝑡=1(𝑥𝑡 − 𝜌𝑥𝑡−1 )( 𝑢𝑡 − 𝜌𝑢𝑡−1 )

+√𝑇(𝜌 − 𝜌̂). [(1/T) ∑𝑇𝑡=1 𝑥𝑡−1 (𝑢𝑡 − 𝜌𝑢𝑡−1 )]


[8.A.14]
𝑇

+ √𝑇(𝜌 − 𝜌̂). [(1/T) ∑(𝑥𝑡 − 𝜌𝑥𝑡−1 )𝑢𝑡−1 ]


𝑡=1
𝑇
2
+ √𝑇(𝜌 − 𝜌̂) . [(1/T) ∑ 𝑥𝑡−1 𝑢𝑡−1 ]
𝑡=1

Pero [8.3.21] establecio que √𝑇(𝜌 − 𝜌̂) converge en distribución a una variable aleatoria
estable.Entonces, 𝑝𝑙𝑖𝑚(1/T) ∑𝑇𝑡=1 𝑥𝑡 𝑢𝑡 = 0los tres últimos términos en [8.A.14] desaparecen
asintóticamente
Por lo tanto,
𝑇 𝑇
𝜌
(1/√𝑇) ∑(𝑥𝑡 − 𝜌̂𝑥𝑡−1 )( 𝑢𝑡 − 𝜌̂𝑢𝑡−1 ) → (1/√𝑇) ∑(𝑥𝑡 − 𝜌𝑥𝑡−1 )( 𝑢𝑡 − 𝜌𝑢𝑡−1 )
𝑡=1 𝑡=1

El cual fue mostrado.

Capítulo 8 Ejercicios
8.1 Indique que la 𝑅𝑢2 [8.1.13]puede estar escrita equivalentemente como
𝑇 𝑇

𝑅𝑢2 =1− [(∑ 𝑢̂𝑡2 ) + (∑ 𝑦𝑡2 )]


𝑡=1 𝑡=1

Para 𝑢̂ la muestra residual MCO [8.1.4]. Muestra que el 𝑅𝑡2 centrado puede ser escrito como
𝑇 𝑇

𝑅𝑡2 =1− [(∑ 𝑢̂𝑡2 ) + (∑(𝑦𝑡 − 𝑦̂)2 )]


𝑡=1 𝑡=1

8.2 Considere una hipótesis nula 𝐻0 involucrando 𝑚 = 2 restricciones lineales en 𝛽 . ¿Cuán grande
es necesario un tamaño de muestra T antes del 5% del valor critico basado en la forma Wald de la
prueba MCO F de 𝐻0 dentro del 1% del valor critico de la forma Wald de la prueba MCO 𝑥 2 de
𝐻0 ?

Apéndice 8.A. Pruebas de las Proposiciones del Capítulo 8 241


8.3Derive el resultado [8.2.28]
8.4Considere un proceso de covarianza estacionaria dado por
𝑇

𝑦𝑡 = 𝜇 + ∑ 𝜑𝑗 𝜀𝑡−1
𝑡=1
Donde {𝜀𝑡 } es una secuencia i.i.d con media cero, varianza 𝜎 2 , y momento de cuarto orden finito y
donde ∑𝑥𝑗→0|𝜑| < ∞.Considere el estimar una autoregresion de 𝑝𝑡ℎ orden por MCO:
𝑦𝑡 = 𝑐 + ∅1 𝑦𝑡−1 + ∅2 𝑦𝑡−2 + ⋯ + ∅𝑝 𝑦𝑡−𝑝 + 𝑢𝑡

Indique que los coeficientes MCO dan estimaciones constantes de los parámetros poblacionales
que caracterizan la proyección lineal de 𝑦, en una constante y 𝑝 de su retraso –es decir, los
coeficientes dan estimaciones constantes de los parámetros 𝑐, ∅1 , … … , ∅𝑝 definidos por
𝐸̇ (𝑦𝑡 |𝑦𝑡−1 , 𝑦𝑡−2 , … … . , 𝑦𝑡−𝑝 ) = 𝑐 + ∅1 𝑦𝑡−1 + ∅2 𝑦𝑡−2 + ⋯ + ∅𝑝 𝑦𝑡−𝑝

(Indicación: recuerde que 𝑐, ∅1 , … … , ∅𝑝 son caracterizadas por la ecuación [4.3.6])

Capitulo 8 Referencias
Amemiya ,Takeshi.1973 ‘’Minimos cuadrados generalizados con una matriz de autocovarianza
estimada’’Econometrica 41:729-32
Anderson ,T.W.1971.El análisis estadístico de series de tiempo .Nueva York : Wiley.
Betancourt,Roger,y Harry Kelejian.1981.Variables endógenas retardadas y el procedimiento
Cochrane-Occurt’’Econometrica 49:1073-78
Brillinger,David R.1981 .Series de Tiempo :Datos de Analisis y Teoria ,expandida ed.San
Franciso:Dia-Holden
Durbin,James,1960.’’Estimacion de parámetros en modelos de regresión en series de tiempo
‘’.Diario Series de la sociedad estadística del Royal B,22:139-53
1970 ‘’Prueba para correlacion en serie en Regresión de minimos cuadrados cuando algunos de
los regresores son variables dependientes retardadas’’ .Econometria 38:410-21.
Eicker,F,1967,’’Teoremas limitados para regresiones con errores dependientes y desiguales’’
Procedimiento del Simposio Berkeleey en quinto orden en estadísticas matemáticas y probabilidad.
Vol1.pp59-62.Berkeley:Universidad de la prensa de california
Engle,Robert F.1982’’Condicional de heteroscedasticidad autoregresiva con estimaciones de la
varianza de la inflacio de Reino Unido.’’Econometria 50:981-1007
Evans.G.B.A y N.E Savin.1981.’’Prueba para Raices de la unidad’’:1.Econometris 49:753-79
Flavin,Marjorie A.1983’’Volativilidad excesica en los mercados finacieros:Un ultimo estudio de la
evidencia empririca’’Diario de economía política 91:929-56
Gregory,Allan W.y Michael R.Veall 1985’’Formulando pruebas de Wald de restricciones no
lineales’’ Econometrica 53:1465-68
Hansen.Lars P,1982.’’ Propiedades de muestra mayor de método generalizado de momentos
estimadores’’ Econometrica 50:1929-54
Harvey,A.C,1981.’’El análisis Economico de series de tiepo ‘’.Nueva York:Wiley Hausman,Jerry A,y
William E.Taylor ,1983.’’Identificacion en modelos de ecuaciones simultaneas lineares Covarianza
Restrictiva :Una interpretación de variables instrumentales ‘’.Econometrica 51:1527-49
Imhof,J.p.1961’’Computando la distribución de fromas cuadráticas en varables normales’’
.Biometrika 48:419-26
Juge,Gerorge G,Willian E. Griffiths,R Carter Hill, y Tsoung –Chao Lee,1980.La teoria y praticas
econometricas,Nueva York:Wiley.
Kinderman,A.J y J.G.Ramage.1976. ‘’Generación de la Computadora de variables aleatorias
Normales’’.Diario de la asociación estadística Americana. 71:893-96
Lafontaine,Fancine and Kenneth J,White.19886.’’Obteniendo cualquier estadística Wald que
quieras’’ Letras de Economia 21:35-40

242 Capítulo 8 | Modelo de Regresión Lineal


9
Sistemas lineales de ecuaciones
simultáneas
El capítulo anterior describe un número de posibles salidas del modelo de regresión ideal,
derivando de errores que no son gaussiano, heterocedasticidad o auto correlación. Nosotros
sabemos que mientras los factores puedan hacer una diferencia en la pequeña validez de la muestra
de T y F muestras, bajo cualquiera de los supuestos 8.1 a 8.6. El estimador OLS bt es también
imparcial o coherente. Esto es porque en todos los casos retuvieron el verdadero supuesto u t , el
término de error para la observación T no está correlacionado con xt las variables explicativas para
esa observación desafortunadamente este supuesto crítico es improbable que se satisfagan en
muchas aplicaciones importantes.

La Sección 9.1 Discute porque esta suposición a menudo no se cumple, examinando un concreto
ejemplo de sesgo de ecuaciones simultáneas. Las secciones siguientes discuten una variedad de
técnicas para tratar un problema. Estos resultados se utilizarán en la interpretación estructural de las
autoregresiones vectoriales en el capítulo 11 y para la comprensión del método generalizado de
estimación de momentos en el capítulo 14.

9.1. Sesgo de ecuaciones simultáneas


Para ilustrar las dificultades con los regresores endógenos, considerar una investigación de la
demanda del público para las naranjas, deja que Pt denote el logaritmo del precio de las naranjas en
un año determinado qtd el logaritmo de la cantidad que el público está dispuesto a comprar. Para
mantener el ejemplo muy simple, se supone que el procedimiento y la cantidad son covariaciones
estacionarias y cada uno de ellos se mide como desviaciones de su media de población. Se presume
que la curva de demanda adopta la forma.

𝑞1𝑑 =𝛽𝑝1 + 𝜀1𝑑 [9.1.1]

Con B<0; Un precio más alto reduce la cantidad que el público está dispuesto a comprar. Aquí Etd
representan el factor la influencia de la demanda aparte del precio. Se asume que son
independientes e idénticamente distribuidos con media cero y varianza o2d .

El precio también influye en el suministro de naranjas traídas al mercado.

𝑞1𝑠 =𝛾𝑝1 + 𝜀1𝑠 [9.1.2]

Donde y>0 y Ets y representan factores que influyen en la oferta distinta del precio. Se supone que
estos factores omitidos son i.i.d con significancia cero y varianza o2s , Con la perturbación de la
oferta est sin correlación con la perturbación de la demanda etd.

La ecuación (9.1.1) describe el comportamiento de compradores de naranjas y la ecuación (9.1.2)


describe el comportamiento de vendedores. El equilibrio del mercado requiere 𝑞𝑡𝑑 =𝑞𝑡𝑠 ; o

𝛽𝑝1 + 𝜀𝑡𝑑 = 𝛾𝑝𝑡 + 𝜀𝑡𝑠

9.1 Sesgo de ecuaciones simultáneas 243


Reorganizando,

𝜀1𝑑 −𝜀1𝑠
𝑝1 = 𝛾−𝛽
[9.1.3]

Sustituyendo esto en (9.1.2)

𝜀𝑑1 −𝜀𝑠1
+ 𝜀𝑠1 𝜀𝑑1 = 𝜀𝑠1
𝛾 𝛽
𝑞1 = 𝛾 𝛾−𝛽
= 𝛾−𝛽 𝛾−𝛽
[9.1.4]

Considere las consecuencias de intentar estimar (9.1.1) por OLS. Una regresión de la cantidad sobre
el precio producirá la estimación.
1
( ) ∑𝑇
𝑡=1 𝑝1 𝑞1
𝑇
𝑏𝑟 = 1
[9.1.5]
(( )) ∑𝑇 2
𝑡=1 𝑝1
𝑇

Sustituyendo (9.1.3) y (9.1.4) en el numerador en (9.1.5) resulta en


𝑇 𝑇
1 1 1 1 𝛾 𝛽
∑ 𝑝1 𝑞1 = ∑ [ 𝜀1𝑑 = 𝜀1𝑠 ] [ 𝜀1𝑑 = 𝜀 𝑠]
𝑇 𝑇 𝛾−𝛽 𝛾−𝛽 𝛾−𝛽 𝛾−𝛽 1
𝑡=1 𝑡=1

𝑇
1 𝛾 𝛽 𝛾+𝛽
= ∑[ (𝜀1𝑑 )2 + (𝜀1𝑠 )2 − 𝜀 𝑑 𝜀 𝑠]
𝑇 (𝛾 − 𝛽)2 (𝛾 − 𝛽)2 (𝛾 − 𝛽)2 1 1
1=1

𝑝 𝛾𝜎𝑑2 + 𝛽𝜎𝑠2

(𝛾 − 𝛽)2
𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑚𝑒𝑛𝑡𝑒 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑑𝑒𝑛𝑜𝑚𝑖𝑛𝑎𝑑𝑜𝑟,
2
1
𝑇
1
𝑇
1 1 2 𝛾𝜎2𝑑 + 𝛽𝜎𝑠
∑ 𝑝21 = ∑[ 𝜀𝑑1 − 𝜀𝑠1] 𝑃
𝑇
1=1
𝑇
1=1
𝛾−𝛽 𝛾−𝛽 𝜎2𝑑 + 𝜎2𝑠
[9.1.6]

OLS La regresión no da la elasticidad de la demanda β, sino más bien una media de β, y la


elasticidad supone ϒ, con pesos que dependen de los tamaños de las varianzas σd2 y σs2 si el error de
la curva de demanda es depreciable (σ2 → 0), si el término de error en la curva de oferta tiene una
varianza suficientemente varianza (σ2 → ∞), luego en (9.1.6) indica una estimación consistente de
la elasticidad de la demanda β.

Por otro lado, si σd2 → ∞ o (σ2 → 0), los OLS dan una estimación consistente de la elasticidad de
la oferta ϒ, en los casos entre, un economista podría creer que la regresión eliminaba la curva de
demanda (9.1.1) and un segundo economista podría realizar la misma regresión llamando a la curva
de oferta (9.1.2).La actual OLS estima que representaría una mezcla de ambas. Este fenómeno es
conocido como sesgo de ecuaciones simultáneas.

Figura 9.1 representa el problema gráficamente. 1en cualquier fecha de la muestra, hay alguna curva
de demanda (determinada por el valor de εdt ) y una curva de oferta(determinada por εts ), con la
observación en (pt ,qt) dada por la intersección de esas dos curvas. Por ejemplo, fecha 1 puede
haber sido asociado con un pequeño choque a la demanda, produciendo la curva D1, y un largo
choque positivo para la oferta, produciendo S1. La observación de la fecha 1 será entonces (p1,q1).
La fecha 2 podría

244 Capítulo 9 | Sistemas lineales de ecuaciones simultáneas


qt
S1
Oferta promedio

S2
S3

O (p1, q1)

Demanda promedio

(p3, q3)

(p2, q2)

D3
D1 1
D2 1

O Pt
Figura 9.1Observaciones en precio y cantidad implícita por Perturbaciones tanto de las funciones
de oferta como de las funciones de demanda

Haber visto un choque negativo mayor para la demanda y un choque negativo para la oferta,
mientras la fecha 3 como se muestra refleja un modesto choque positivo para la demanda y un largo
choque negativo para la oferta. OLS intenta encajar una línea a través de la dispersión de puntos {pt
, qt }tt=1.

Si se sabe que los choques son conocidos debido a la curva de oferta y ||no a la curva de la
demanda, cuando la dispersión de puntos traza la curva de demanda, como en la figura 9.2.Si se
sabe que los choques son conocidos debido a la curva de demanda en lugar que curva de oferta, la
dispersión trazara la curva de oferta, como en la figura 9.3.

El problema de sesgo de ecuaciones simultáneas es extremadamente extendido en las ciencias


sociales. Es la tasa de la relación que nos gustaría estimar, es la única razón posible por la que
podría haber una correlación entre un grupo de variables.

Estimación consistente de la elasticidad


El análisis anterior sugiere que se podrían obtener estimaciones consistentes de la elasticidad de la
demanda si pudiéramos encontrar una variable que cambie la curva de oferta, pero no la curva de
demanda. Por ejemplo, supongamos que 𝑤1 representa el número de días de temperaturas bajo
cero en Florida durante el año t. Recordando que la perturbación de la oferta 𝜀𝑡𝑠 se definió como
factores que influyen en la oferta que no sea el precio w_1, parece ser un componente importante
de 𝜀𝑡𝑠 . Defina h como el coeficiente de una proyección lineal de 𝜀𝑡𝑠 en 𝑤1 y escriba

𝜀𝑡𝑠 = ℎ𝑤1 + 𝑢𝑡𝑠 [9.1.7]

Así, 𝑢𝑡𝑠 no está correlacionado con 𝑤1 por la definición de h. Aunque es probable que el clima de
la Florida influya en el suministro de naranjas, es natural asumir que el clima.

9.1 Sesgo de ecuaciones simultáneas 245


qt

S1

S2
S3

O (p1, q1)

(p2, q2)

(p3, q3)

Pt
O

FIGURA 9.2 Observations on price and quantity implied by disturbances to supply function only.

qt

O (p3, q3)

(p1, q1)

(p2, q2) D3
1
D1
1
D2
O

Pt
FIGURA 9.3 Observaciones sobre el precio y la cantidad implicadas por perturbaciones a la función de
la demanda solamente

Los asuntos para la demanda pública para las naranjas sólo a través de su efecto sobre el precio.
Bajo este supuesto. Tanto 𝑤1 como 𝑢𝑡𝑠 no están correlacionados con 𝜀1𝑑 .Los cambios en el precio
que se pueden atribuir al tiempo representan desplazamientos de oferta y no cambios de demanda.
Define 𝑝1 .a la proyección lineal de 𝑝1 en 𝑤1 . Sustituyendo [9.1.7] intro [9.1.3]

𝜀1𝑑 −ℎ𝑤1 − 𝑢𝑡𝑠


𝑝1 = 𝛾−𝛽
[9.1.8]

Y por lo tanto,

246 Capítulo 9 | Sistemas lineales de ecuaciones simultáneas


−ℎ
𝑝1 = 𝑤
𝛾−𝛽 1
[9.1.9]

Puesto que 𝜀1𝑑 y 𝑢𝑡𝑠 no están correlacionados con 𝑤1 .La ecuación [9.1.8] puede escribirse así

𝜀1𝑑 − ℎ𝑤1 − 𝑢𝑡𝑠


𝑝1 =
𝛾−𝛽
Y sustituyendo esta información [9.1.1]

𝜀1𝑑 − 𝑢𝑡𝑠
𝑞1 = 𝛽 {𝑝1 + 𝛾−𝛽
}+ 𝜀𝑡𝑑 = 𝛽𝑝𝑡 + 𝑣𝑡 [9.1.10]

Donde,

−𝛽 𝑢𝑡𝑠 𝛾𝜀1𝑑
𝑣𝑡 = 𝛾−𝛽
+ = 𝛾−𝛽

Dado que 𝑢𝑡𝑠 y 𝜀𝑡𝑑 están ambos no correlacionados con𝑤1 , se sigue que 𝑣1 no está correlacionada
con 𝑝𝑡 .Por lo tanto, si (9.1.10] fueron estimados por mínimos cuadrados ordinarios, el resultado
sería una estimación consistente de β:

(1/𝑇) ∑𝑇1=1 𝑝1 𝑞1
𝛽𝑇
(1/𝑇) ∑𝑇1=1[𝑝𝑡 ]2

(1/𝑇) ∑𝑇1=1 𝑝1 (𝛽𝑝𝑡 + 𝑣𝑡 )


=
(1/𝑇) ∑𝑇1=1( 𝑃𝑇 )2
[9.1.11]
(1/𝑇) ∑𝑇1=1 𝑝1 𝑉𝑇
=
(1/𝑇) ∑𝑇1=1( 𝑃𝑇 )2
𝑝
→ 𝛽.
La sugerencia es, pues, regir la cantidad sobre ese componente de precio que es inducido por el clima, es
decir, regresionar la cantidad en la proyección lineal de precio sobre el tiempo.En la práctica, no se
conocerán los valores de los parámetros de población h, y, y β necesarios para construir 𝑝𝑡 en (9.1.9),
sin embargo, la proyección lineal 𝑝𝑡 puede ser estimada consistentemente por el valor ajustado para la
observación t de un OLS Regresión de p sobre w,

𝑝𝑡 = 𝛿𝑇 𝑤𝑡 [9.1.12]
Donde,

(1/𝑇) ∑𝑇𝑡=1 𝑤𝑡 𝑝𝑡
𝛿𝑟 =
(1/𝑇) ∑𝑇𝑡=1 𝑤𝑡2

El estimador (9.1.11) con 𝑝𝑡 sustituido por 𝑝̆, se conoce como el estimador de coeficientes de mínimos
cuadrados de dos etapas (2SLS):

(1/𝑇) ∑𝑇 ̂𝑇 𝑄𝑡
𝑡=1 𝑃
𝛽̂2𝑆𝐿𝑆 = 𝑇
(1/𝑇) ∑𝑡=1(𝑃̂𝑡 )2
[9.1.13]

̂ ∗𝑻 ,el estimador 2SLS es consistente, como se mostrará en la sección siguiente.


Como 𝜷

9.1 Sesgo de ecuaciones simultáneas 247


9.2 Variables instrumentales y mínimos cuadrados de dos
etapas
Descripción general de los mínimos cuadrados de dos etapas.
Una generalización del ejemplo anterior es la siguiente, supongamos que el objetivo es estimar
el vector en el modelo de regresión

𝛾1 = 𝜷𝟏 𝒛𝟏 + 𝑢𝑡 [9.2.1]

Donde 𝑧𝑡 es un vector (k x 1) de variables explicativas. Se considera que el algún subconjunto 𝑛 ≤


𝑘 de las variables en 𝑧𝑡 es endógeno, es decir, correlacionado con 𝑢𝑡 , se dice que las variables k - n
restantes en 𝑧𝑡 son predeterminadas, lo que significa que no están correlacionadas con 𝑢𝑡 . La
estimación de β requiere variables conocidas Como instrumentos. Para ser un instrumento válido,
una variable debe ser correlacionada con una variable explicativa endógena en 𝑧𝑡 , pero no
correlacionada con la perturbación de regresión 𝑢𝑡 . En el ejemplo de oferta y demanda, la variable
meteorológica 𝑤𝑡 sirvió como un instrumento para el precio. Al menos un instrumento válido debe
ser encontrado para cada variable explicativa endógena.

Recoger las variables explicativas predeterminadas junto con los instrumentos en un vector (r X 1)
x_t. Por ejemplo, para estimar la curva de demanda, no había variables explicativas predeterminadas
en la ecuación [9.1.1] y sólo un solo instrumento; Por lo tanto, r = 1, y 𝑥𝑡 sería el escalar 𝑤𝑡 . Como
segundo ejemplo, supongamos que la ecuación a estimar es.

𝛾𝑡 = 𝛽1 + 𝛽2 𝑧2𝑡 + 𝛽3 𝑧3𝑡 + 𝛽4 𝑧4𝑡 + 𝛽5 𝑧5𝑡 + 𝑢𝑡


En este ejemplo, 𝑧4𝑡 y 𝑧5𝑡 son endógenos (lo que significa que están correlacionados con 𝑢𝑡 ,
𝑧2𝑡 son predeterminados (no correlacionados con 𝑢𝑡 ), 𝑧2𝑡 y 𝑧3𝑡 son predeterminados (no
correlacionados con 𝑢𝑡 ), y 𝜉1𝑡 , 𝜉2𝑡 , y 𝜉3𝑡 son Los instrumentos válidos (correlacionados con 𝑧4𝑡
y 𝑧5𝑡 pero no correlacionados con 𝑢𝑡 Entonces, r = 6 y 𝑥𝑡1 = (1, 𝑧2𝑡 , 𝑧3𝑡 , 𝜉1𝑡 , 𝜉2𝑡 , 𝜉3𝑡 .El
requisito de que haya al menos tantos instrumentos como endógenos explicativos Variables implica
que 𝑟 = ≥ 𝑘.
Considere una regresión OLS de 𝑧2𝑡 (la i-ésima variable explicativa en ⌈9.2.1⌉ en 𝑥𝑡 ∶
𝑧2𝑡 = 𝛿𝑖1 𝑥𝑡 + 𝑒𝑖𝑡 [9.2.2]

Los valores ajustados para la regresión están dados por:

𝑧̂𝑖𝑡 = 𝛿̂𝑡𝑖 𝑥𝑡 [9.2.3]

Donde,

𝑇 −1 𝑇

𝛿̂𝑖 = [∑ 𝑥𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑧𝑖𝑡 ]


𝑡=1 𝑡=1

Si 𝑧𝑖𝑡 es una de las variables predeterminadas, 𝑧𝑖𝑡 es uno de los elementos de 𝑥𝑡 y la ecuación [9.2.3]
se simplifica a.

𝑧̂𝑖𝑡 = 𝑧𝑖𝑡

248 Capítulo 9 | Sistemas lineales de ecuaciones simultáneas


Esto se debe a que cuando la variable dependiente 𝑧𝑖𝑡 se incluye en los regresores 𝑣𝑡 . Un coeficiente
unitario sobre los coeficientes 𝑧𝑖𝑡 y cero sobre las otras variables produce un ajuste perfecto y
minimiza así la suma residual de cuadrados.

Recopile las ecuaciones en [9.2.3] para i = 1,2 ..., k en una ecuación vectorial (k + 1)

𝑧̂𝑡 = 𝛿̂ 1 𝑥𝑡 [9.2.4]

Donde la matriz (k - r) matriz 𝛿̂ 1 está dada por:

𝛿̂1𝑡
𝛿̂2𝑡
𝛿̂ 1 = . = [∑𝑇𝑡=1 𝑧̂𝑡 𝑥1𝑡 ][∑𝑇𝑡=1 𝑥𝑡 𝑥1𝑡 ]−1 [9.2.5]
.
.
[𝛿̂4𝑡 ]
El estímulo de mínimos cuadrados de dos etapas (2SLS) de β se encuentra en una regresión de OLS
de 𝑦𝑡 en 𝑧̂𝑖 :
𝑇 −1 𝑇

𝛽̂2𝑠𝑙𝑠 = [∑ 𝑧̂𝑡 𝑧̂𝑡1 ] [∑ 𝑧̂𝑡 𝛾𝑡 ]


𝑡=1 𝑡=1
[9.2.6]

Una forma alternativa de escribir [9.2.6] es a veces útil, dejar 𝑒̂𝑖𝑡 denotar la muestra residual de la
estimación OLS de [9.2.2] es decir, dejar.

𝑧𝑖𝑡 = 𝛿̂𝑡𝑖 𝑥𝑡 + 𝑒̂𝑖𝑡 = 𝑧̂𝑖𝑡 + 𝑒̂𝑖𝑡 [9.2.7]

OLS hace que este residuo sea ortogonal a 𝑥𝑡 :


𝑇

∑ 𝑥𝑡 𝑒̂𝑖𝑡 = 0,
𝑡=1

Lo que significa que el residuo es ortogonal a 𝑧̂𝑗𝑡 :


𝑇 𝑇

∑ 𝑧̂𝑗𝑡 𝑒̂𝑖𝑡 = 𝛿̂𝑗𝑖 ∑ 𝑥𝑡 𝑒̂𝑖𝑡 = 0


𝑡=1 𝑡=1

Por lo tanto, si [9.2.7] es multiplicado por 𝑧̂𝑗𝑡 y sumado sobre t, el resultado es:
𝑇 𝑇 𝑇

∑ 𝑧̂𝑗𝑡 𝑧𝑖𝑡 = ∑ 𝑧̂𝑗𝑡 (𝑧̂𝑖𝑡 + 𝑒̂𝑖𝑡 ) = ∑ 𝑧̂𝑗𝑡 𝑧̂𝑖𝑡


𝑡=1 𝑡=1 𝑡=1
Para todo I y j. esto significa que
𝑇 𝑇

∑ 𝑧̂𝑡 𝑧𝑡1 = ∑ 𝑧̂𝑡 𝑧̂𝑡1


𝑡=1 𝑡=1
Para que el estimador 2SLS [9.2.6] pueda ser escrito de manera equivalente como
𝑇 −1 𝑇

𝛽̂2𝑆𝐿𝑆 = [∑ 𝑧̂𝑡 𝑧𝑡1 ] [∑ 𝑧̂𝑡 𝛾𝑡 ]


𝑡=1 𝑡=1
[9.2.8]

9.2 Variables instrumentales y mínimos cuadrados de dos etapas 249


Consistencia estimada de 2 SLS
Sustituyendo [9.2.1] en [9.2.8]
𝑇 −1 𝑇

𝛽̂2𝑆𝐿𝑆 = [∑ 𝑧̂𝑡 𝑧𝑡1 ] [∑ 𝑧̂𝑡 (𝑧𝑡1 𝛽 + 𝑢𝑡 )]


𝑡=1 𝑡=1
[9.2.9]
𝑇 −1 𝑇

= 𝛽+ [∑ 𝑧̂𝑡 𝑧𝑡1 ] [∑ 𝑧̂𝑡 𝑢𝑡 ]


𝑡=1 𝑡=1
Donde se ha añadido el subíndice T para mantener un seguimiento explícito del tamaño de muestra
T en el que se basa la estimación. Se deduce de [9.2.9] que.
𝑇 −1 𝑇

𝛽̂2𝑆𝐿𝑆 − 𝛽 = [(1/𝑇) ∑ 𝑧̂𝑡 𝑧𝑡1 ] [(1/𝑇) ∑ 𝑍𝑡 𝑢𝑡 ]


𝑡=1 𝑡=1
[9.2.10]
La consistencia del estimador 2SLS puede entonces mostrarse como sigue. Primera nota de [9.2.4] y
[9.2.5] que
𝑇 𝑇
(1/𝑇) ∑ 𝑧̂𝑡 𝑧𝑡1 = 𝛿̂𝑡𝑖 (1/𝑇) ∑ 𝑋𝑡 𝑧𝑡1
𝑡=1 𝑡=1
[9.2.11]
𝑇 𝑇 −1 𝑇

= [(1/𝑇) ∑ 𝑍𝑡 𝑥𝑡1 ] [(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡1 ] [(1/𝑇) ∑ 𝑥𝑡 𝑧𝑡1 ]


𝑡=1 𝑡=1 𝑡=1
Suponiendo que el proceso (Z1, X1) es covarianza-estacionario y ergódico para los segundos
momentos,
𝑇
𝑝
(1/𝑇) ∑ 𝑧̂ 𝑡 𝑧𝑡1 → 𝑄
𝑡=1
[9.2.12]
Donde,
𝑄 = [𝐸(𝑧𝑡 𝑥𝑡1 )][𝐸(𝑥𝑡 𝑥𝑡1 )]−1 [𝐸(𝑥𝑡 𝑧𝑡1 )] [9.2.13]

Pasando ahora al segundo término en [9.2.10],


𝑇 𝑇

[(1/𝑇) ∑ 𝑧̂𝑡 𝑢𝑡 ] = 𝛿𝑡1 (1/𝑇) ∑ 𝑥𝑡 𝑢𝑡


𝑡=1 𝑡=1
De nuevo, la ergodicidad para los segundos momentos implica de (9.2.5) que
𝑝
𝛿𝑡1 → [𝐸(𝑧𝑡 𝑥𝑡1 )][𝐸(𝑥𝑡 𝑥𝑡1 )]−1 [9.2.14]
Mientras que la ley de grandes números normalmente asegurará que
𝑇
𝑝
(1/𝑇) ∑ 𝑥𝑡 𝑢𝑡 → 𝐸(𝑥𝑡 𝑢𝑡 )= 0
𝑡=1
Bajo la supuesta ausencia de correlación entre 𝑥𝑡 y 𝑢𝑡 . Por lo tanto:
𝑝
[(1/𝑇) ∑𝑇𝑡=1 𝑧̂ 𝑡 𝑢𝑡 ] → 0 [9.2.15]

Sustituyendo [9.2.12] y [9.2.15] en [9.2.10], se sigue que


𝑝
𝛽̂2𝑆𝐿𝑆.𝑇 − 𝛽 → 𝑄 −1 . 0 = 0
Por lo tanto. El estimador 2SLS es coherente siempre y cuando la matriz Q en (9.2.13) sea no
singular

250 Capítulo 9 | Sistemas lineales de ecuaciones simultáneas


Obsérvese que si ninguna de las variables predeterminadas está correlacionada con 𝑧𝑖𝑡 entonces la
i-ésima fila de 𝐸(𝑥𝑡 𝑥𝑡1 ) contiene todos los ceros y la fila correspondiente de Q en (9.2.13) contiene
todos los ceros, en cuyo caso 2SLS no es consistente Si 𝑧𝑖𝑡 , se correlaciona con 𝑥𝑡 sólo a través de,
por ejemplo, el primer elemento 𝑥𝑡 y 𝑧𝑗𝑟 , también se correlaciona con x, sólo a través de 𝑥1𝑟 ,
entonces restando sorne mu! Tiple de la i-ésima fila de Q de la fila produce una fila De ceros y Q de
nuevo no es invertible En general, la consistencia del estimador de 2SLS requiere que las filas de
𝐸(𝑧𝑡 𝑥𝑡1 ) sean linealmente independientes, lo cual equivale esencialmente a la necesidad de que
haya una forma de asignar instrumentos a endógenos Variables tales que cada variable endógena
tiene un instrumento asociado con ella, sin ningún instrumento contado dos veces para este
propósito.

Distribución Asintótica del Estimador 2SLS


La ecuación [9.2.10] implica que

√𝑇(𝛽̂2𝑆𝐿𝑆.𝑇 − 𝛽) = [(1/𝑇) ∑𝑇𝑡=1 𝑧̂𝑡 𝑧𝑡1 ]−1 [(1/√𝑇)(1/𝑇) ∑𝑇𝑡=1 𝑧̂𝑡 𝑢𝑡 ] [9.2.16]

Donde,
𝑇 𝑇

[(1/√𝑇) ∑ 𝑧̂𝑡 𝑢𝑡 ] = 𝛿̂𝑇𝑖 (1/√𝑇) ∑ 𝑥𝑡 𝑢𝑡


𝑡=1 𝑡=1

Por lo tanto, de [9.2.12] y [9.2.14],


𝑇
𝑝
√𝑇(𝛽̂2𝑆𝐿𝑆.𝑇 − 𝛽) → 𝑄 −1 [𝐸(𝑧𝑡 𝑥𝑡1 )][𝐸(𝑥𝑡 𝑥𝑡1 )]−1 [(1/√𝑇) ∑ 𝑥𝑡 𝑢𝑡 ]
𝑡=1
[9.2.17]

Supongamos que 𝑥𝑡 es covarianza - estacionaria y que {𝑢𝑡 } es a i.i.d. Secuencia con media cero y
varianza 𝜎 2 con 𝑢𝑡 independiente de 𝑥𝑠 para todo s ≤ t. Entonces {𝑥𝑡 𝑢𝑡 } es una secuencia de
diferencia de martingala con matriz de varianza-covarianza dada por 𝜎 2 𝐸(𝑥𝑡 𝑥𝑡1 ) si 𝑢𝑡 y 𝑥𝑡 tienen
finitos cuartos momentos, entonces podemos esperar de la proposición 7.9 que.
𝑇
𝐿
(1/√𝑇 ∑ 𝑥𝑡 𝑢𝑡 ) → 𝑁(𝜎 2 . 𝐸(𝑥𝑡 𝑥𝑡1 ))
𝑡=1
[9.2.18]

Así [9.2.17] implica que


𝐿
√𝑇(𝛽̂2𝑆𝐿𝑆.𝑇 − 𝛽) → 𝑁(𝑂, 𝑉) [9.2.19]
Donde,

𝑉 = 𝑄 −1 [𝐸(𝑧𝑡 𝑥𝑡1 )]𝐸(𝑥𝑡 𝑥𝑡1 )−1 [𝜎 2 . 𝐸(𝑥𝑡 𝑥𝑡1 )][(𝑥𝑡 𝑥𝑡1 )]−1 [𝐸(𝑥𝑡 𝑧𝑡1 )]𝑄 −1 [9.2.20]

= 𝜎 2 𝑄 −1 . 𝑄. 𝑄 −1

= 𝜎 2 𝑄 −1
Para Q dado en [9.2.13]. Por lo tanto

𝛽̂2𝑆𝐿𝑆.𝑇 ≈ 𝑁(𝛽, (1/𝑇) = 𝜎 2 𝑄 −1 ) [9.2.21]

Puesto que 𝛽̂2𝑆𝐿𝑆.𝑇 es una estimación consistente de β, claramente una estimación consistente de la
población residual para la observación t es proporcionada por

9.2 Variables instrumentales y mínimos cuadrados de dos etapas 251


𝑝
𝑢̂𝑡 ≡ 𝑦1 − 𝑧𝑡1 𝛽̂2𝑆𝐿𝑆.𝑇 → 𝑢𝑡 [9.2.22]
Similarmente, es sencillo mostrar que 𝜎 2 puede ser estimado consistentemente por
𝑇
2
𝜎̂𝑇2 = (1/𝑇) ∑(𝑦𝑡 − 𝑧𝑡1 𝛽̂2𝑆𝐿𝑆.𝑇 )
𝑡=1
[9.2.23]
(Véase el ejercicio 9.1). Tenga en cuenta que aunque 𝛽̂2𝑆𝐿𝑆.𝑇 puede calcularse a partir de una
regresión OLS de 𝑦1 en 𝑧̂𝑡 las estimaciones 𝑢𝑡 , y 𝜎 2 en [9.2.22] y [9.2.23] no se basan en la
Residuos de esta regresión
𝑢̂𝑡 ≠ 𝑦𝑡 − 𝑧̂𝑡1 𝛽̂2𝑆𝐿𝑆.𝑇
𝑇
2
𝜎 ≠ (1/𝑇) ∑(𝑦𝑡 − 𝑧𝑡1 𝛽̂2𝑆𝐿𝑆.𝑇 )
2

𝑡=1
Las estimaciones correctas [9.2.22] y [9.2.23] utilizan las variables explicativas reales 𝑧𝑡 , en lugar de
los valores ajustados 𝑧𝑡 .
Una estimación consistente de Q viene dada por [9.2.11]:
𝑇

𝑄̂𝑡 = (1/𝑇) ∑ 𝑧̂𝑡 𝑧̂𝑡1


𝑡=1
𝑇 𝑇 −1 𝑇

= [(1/𝑇) ∑ 𝑧𝑡 𝑥𝑡1 ] [(1/𝑇) ∑ 𝑥𝑡 𝑥𝑡1 ] [(1/𝑇) ∑ 𝑥𝑡 𝑧𝑡1 ]


𝑡=1 𝑡=1 𝑡=1
[9.2.24]

Sustituyendo [9.2.23] y [9.2.24] en [9.2.21], la matriz de varianza-covarianza estimada del estimador


2SLS es

𝑇 −1

𝑉̂𝑡 /𝑇 = 𝜎̂𝑡2 (1/𝑇) [(1/𝑇) ∑ 𝑧̂𝑡 𝑧̂𝑡1 ]


𝑡=1
[9.2.25]
−1 −1
𝑇 𝑇 𝑇

= 𝜎̂𝑡2 {[∑ 𝑧𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑧𝑡1 ]}


𝑡=1 𝑡=1 𝑡=1

Una prueba de la hipótesis nula Rβ = r puede basarse así en


1 −1
(𝑅𝛽̂2𝑆𝐿𝑆.𝑇 − 𝑟) [𝑅(𝑉̂𝑇 /𝑇)𝑅1 ] (𝑅𝛽̂2𝑆𝐿𝑆.𝑇 − 𝑟) [9.2.26]
Que, bajo la hipótesis nula. Tiene una distribución asintótica que es x2 con grados de libertad dada
por m, donde m representa el número de restricciones o el número de filas de R.
En el capítulo 14 se discutirán errores estándar consistentes con heterocedasticidad y
autocorrelación para la estimación de 2SLS

Estimación de la variable instrumental


Sustituyendo [9.2.4] y [9.2.5] en [9.2.8], el estimador 2SLS puede escribirse como

𝑇 −1 𝑇
𝛽̂ ̂𝑡 1
2𝑆𝐿𝑆.𝑇 = [∑ 𝛿 𝑥𝑡 𝑧𝑡 ] [∑ 𝛿̂ 𝑡 𝑥𝑡 𝑦𝑡 ]
𝑡=1 𝑡=1
[9.2.27]

252 Capítulo 9 | Sistemas lineales de ecuaciones simultáneas


−1 −1 −1
𝑇 𝑇 𝑇 𝑇 𝑇 𝑇

= {[∑ 𝑧𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑧𝑡1 ]} {[∑ 𝑧𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑦𝑡 ]}


𝑡=1 𝑡=1 𝑡=1 𝑡=1 𝑡=1 𝑡=1

Consideremos el caso especial en el que el número de instrumentos es exactamente igual al número


de variables explicativas endógenas, de modo que r = k, como fue el caso de la estimación de la
curva de demanda en la Sección 9.1. Entonces ∑𝑇𝑡=1 𝑧𝑡 𝑥𝑡1 es un (k x k)
Matriz y[9.2.27]se convierte en
𝑇 −1 𝑇 𝑇 −1

𝛽̂𝐼𝑉 {[∑ 𝑥𝑡 𝑧𝑡1 ] [∑ 𝑥𝑡 𝑥𝑡1 ] [∑ 𝑧𝑡 𝑥𝑡1 ] }


𝑡=1 𝑡=1 𝑡=1
[9.2.28]
𝑇 𝑇 −1 𝑇

𝑥 {[∑ 𝑧𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑥𝑡1 ] [∑ 𝑥𝑡 𝑦𝑡 ]}


𝑡=1 𝑡=1 𝑡=1
𝑇 −1 𝑇

= [∑ 𝑥𝑡 𝑧𝑡1 ] [∑ 𝑥𝑡 𝑦𝑡 ]
𝑡=1 𝑡=1
La expresión [9.2.28] se conoce como el estimador de la variable instrumental (IV). Una propiedad
clave del estimador IV se puede ver prenultiplicando ambos lados de [9.2.28] por ∑𝑇𝑡=1 𝑥𝑡 𝑧𝑡1
𝑇 𝑇

∑ 𝑥𝑡 𝑧𝑡1 𝛽̂𝐼𝑉 = 𝛽̂𝐼𝑉 ∑ 𝑥𝑡 𝑦𝑡


𝑡=1 𝑡=1
Implicando eso
𝑇

∑ 𝑥𝑡 (𝑦𝑡 − 𝑧𝑡1 𝛽̂𝐼𝑉 ) = 0


𝑡=1
[9.2.29]
Así. El residuo cuarta muestra (𝑦𝑡 − 𝑧𝑡1 𝛽̂𝐼𝑉 ) tiene la propiedad de que es ortogonal a los
instrumentos 𝑥𝑡 en contraste con la muestra OLS residual 𝑦𝑡 − 𝑧𝑡1 𝑏,, que es ortogonal a las
variables explicativas 𝑧𝑡 El IV Estirnator se prefiere a OLS beca utilizar la población residual de la
ecuación que estamos tratando de estima te (𝑢𝑡 ) se correlaciona con 𝑧𝑡 pero no correlacionado con
𝑥𝑡 .

Dado que el estimador IV es un caso especial de 2SLS, comparte la propiedad de coherencia del
estimador 2SLS. Su varianza estimada con i.i.d. Los residuos se pueden calcular a partir de [9.2.25]:

−1 −1
𝑇 𝑇 𝑇

𝜎̂𝑡2 [∑ 𝑥𝑡 𝑧𝑡1 ] [∑ 𝑥𝑡 𝑥𝑡1 ] [∑ 𝑧𝑡 𝑥𝑡1 ]


𝑡=1 𝑡=1 𝑡=1
[9.2.30]

9.3 Identificación
Observamos en el ejemplo de oferta y demanda en la Sección 9.1 que la elasticidad de la
demanda β no podía ser estimada consistentemente por una regresión OLS de la cantidad sobre el
precio. De hecho, en la ausencia de un instrumento válido como es 𝑤𝑡 , como la elasticidad de la
demanda no se puede estimar por cualquier método! Para ver esto, recuerde que el sistema como
está escrito en [9.1.1] y [9.1.2] implicaba las expresiones [9.1.4] y [9.1.3]:
𝛾 𝛽
𝑞𝑡 = 𝜀𝑡𝑑 − 𝜀𝑠
𝛾−𝛽 𝛾−𝛽 𝑡

0 253
𝜀𝑡𝑑 − 𝜀𝑡𝑠
𝑝𝑡 =
𝛾−𝛽

Si 𝜀𝑡𝑑 y 𝜀𝑡𝑠 son i.i.d. Gaussiana, entonces estas ecuaciones implican que el vector (𝑞𝑡 , 𝑝𝑡 ) es
Gaussiano con media cero y varianza - matriz de covarianza

𝛾 2 𝜎𝑑2 + 𝛽 2 𝜎𝑠2 𝛾𝜎𝑑2 + 𝛽𝜎𝑠2


Ω ≡ [1/(𝛾 − 𝛽)2 ] [ ]
𝛾𝜎𝑑2 + 𝛽𝜎𝑠2 𝜎𝑑2 + 𝜎𝑠2

Esta matriz se describe completamente por tres magnitudes, siendo estas las varianzas de q y p
junto con su covarianza. Dada una muestra suficientemente grande, los valores de estas tres
magnitudes pueden inferirse con considerable confianza, pero eso es todo lo que se puede inferir,
porque estas magnitudes pueden especificar completamente el proceso que generó los datos bajo la
suposición mantenida de media cero i.i.d. Observaciones gaussianas. No hay manera de descubrir
los cuatro parámetros del modelo estructural (𝛽, 𝛾, 𝜎𝑑2 , 𝜎𝑠2 ) De estas tres magnitudes. Por ejemplo,
los valores (𝛽, 𝛾, 𝜎𝑑2 , 𝜎𝑠2 ) = (1, 2, 3, 4) Implican exactamente las mismas propiedades observables
para los datos que (𝛽, 𝛾, 𝜎𝑑2 , 𝜎𝑠2 ) = (2, 1, 4, 3) .

Si dos valores diferentes para un vector de parámetros 6 implican la misma distribución de


probabilidad para los datos observados, entonces se dice que el vector 6 no está identificado.

Cuando se agrega una tercera variable gaussiana de ruido blanco w, al conjunto de observaciones, se
dispone de tres magnitudes adicionales para caracterizar el proceso de observables. Siendo esta la
varianza de w, la covarianza entre w y p. Y la covarianza entre w y q. Si la nueva variable w
introduce tanto la ecuación de demanda como la de oferta, se requerirían tres nuevos parámetros
para estimar el modelo estructural: el parámetro que resume el efecto de w a la demanda, el
parámetro que resume su efecto sobre la oferta y la varianza De w. Con tres magnitudes más
estimables pero tres parámetros más para estimar estaríamos atascados con el mismo problema, no
teniendo base para la estimación de β.

La estimación consistente de la elasticidad de la demanda se logró mediante el uso de mínimos


cuadrados de dos etapas, ya que se asumió que w apareció en la ecuación de la oferta pero fue
excluido de la ecuación de demanda. Esto se conoce como lograr la identificación mediante
restricciones de exclusión.

En la sección 9.2 se mostró que los parámetros de una ecuación podían ser estimados (y por lo
tanto deben ser identificados) si (1) el número de instrumentos para esa ecuación es al menos tan
grande como el número de variables explicativas endógenas para esa ecuación y (2 ) Las filas
de 𝐸(𝑧𝑡 𝑥𝑡1 ) Son linealmente independientes. La primera condición se conoce como condición de
orden para la identificación, y la segunda se conoce como la condición de rango.

La condición de rango para la identificación puede resumirse más explícitamente especificando un


sistema completo de ecuaciones para todas las variables endógenas. Sea y, denote un vector (n x 1)
que contiene todas las variables endógenas en el sistema, y x, denote un vector (m x 1) que contiene
todas las variables predeterminadas. Supongamos que el sistema consiste en n ecuaciones escritas
como
𝐵𝑦1 + 𝑟𝑥1 = 𝑢𝑡 [9.3.1]

Donde B y r son (n x n) y (n x m) matrices de coeficientes, respectivamente, y u, es un vector (n x


1) de perturbaciones. La afirmación de que 𝑥𝑡 está predeterminada se toma para significar que
(𝑥𝑡 𝑢𝑡1 )= O Por ejemplo, las ecuaciones de demanda y oferta consideradas en la Sección 9.1
fueron

𝑞𝑡 = 𝛽𝑝𝑡+ 𝑢𝑡𝑑 (𝑑𝑒𝑚𝑎𝑛𝑑𝑎) [9.3.2]

𝑞𝑡 = 𝛾𝑝𝑡+ ℎ𝑤1 + 𝑢𝑡𝑑 (𝑜𝑓𝑒𝑟𝑡𝑎) [9.3.3]

254 Capítulo 9 | Sistemas lineales de ecuaciones simultáneas


Para este sistema, hay 𝑛 = 2 variables endógenas, con 𝑦𝑡 = (𝑞𝑡 𝑝𝑡 )𝑡 y 𝑚 = 1 variables
predeterminadas. Entonces tenemos que xt, = 𝑤𝑡 . Este sistema puede ser escrito en la forma [9.3.1]
como

1 −𝛽 𝑞𝑡 0 𝑢𝑑
[ ] [𝑝 ] + [ ] 𝑤𝑡 = [ 𝑡𝑠 ] [9.3.4]
1 −𝛾 𝑡 −ℎ 𝑢𝑡

Supongamos que estamos interesados en la ecuación representada por la primera fila del sistema
vectorial de ecuaciones en [9.3.1.]. Sea 𝑦𝑜𝑡 la variable dependiente en la primera ecuación, y sea 𝑦1𝑡
, denotada por un vector (𝑛1 𝑥 1) que consiste en esas variables endógenas que aparecen en la
primera ecuación como variables explicativas. Similarmente, sea 𝑥1𝑡 denotada por un vector
(𝑚1 𝑥 1) que consiste en esas variables predeterminadas que aparecen en la primera ecuación
como variables explicativas. Luego, la primera ecuación en el sistema es

𝑦𝑜𝑡 + 𝐵𝑜𝑡 𝑦1𝑡 + 𝑟𝑜1 𝑥1𝑡 = 𝑢𝑜𝑡

Aquí 𝐵𝑜1 es un vector (1 𝑥 𝑛1 ) y 𝑟𝑜1 es un vector (1 x 𝑚1 ) .Sea 𝑦2𝑡 denotada por un vector
(𝑛2 x 1) que consiste en esas variables endógenas que no aparecen en la primera ecuación; así,
𝑦𝑡1 = (𝑦𝑜𝑡 , 𝑦𝑡1 , 𝑦𝑡2 ) y 1 + 𝑛1 + 𝑛2 = 𝑛. Similarmente, sea 𝑥2𝑡 denotada por un vector (𝑚2 𝑥 1)
que consiste en esas variables predeterminadas que no aparecen en la primera ecuación. De modo
que 𝑥𝑡1 = 𝑥𝑡1 , 𝑥𝑡2 y 𝑚1 + 𝑚2 = 𝑚.
Luego el sistema [9.3.1] puede ser escrito en forma dividida como
1 𝐵01 01 𝑦𝑜𝑡 𝑟01 01 𝑥 𝑢𝑜𝑡
1𝑡
[𝐵10 𝐵12 𝐵12 ] [ 1𝑡 ] + [𝑟11 𝑟12 ] [𝑥 ] = [𝑢1𝑡 ]
𝑦 [9.3.5]
2𝑡
𝐵20 𝐵21 𝐵22 𝑦2𝑡 𝑟21 𝑟22 𝑢2𝑡

Aquí, por ejemplo,. 𝐵12 es una matriz (𝑛1 𝑥 𝑛2 ) que consiste en filas a través de (𝑛1 + 1) y
columnas (𝑛1 + 2) a n de la matriz B.
Una representación útil alternativa del sistema se obtiene moviendo rx, al lado derecho de [9.3.1] y
pre multiplicando ambos lados por 𝐵−1
𝑦1 = −𝐵−1 𝑟𝑥1 + 𝐵− 𝑢𝑡 = ∏𝑥𝑡 + 𝑣𝑡 [9.3.6]

∏´ = −𝐵− 𝑢𝑡 [9.3.7]

𝑣1 = −𝐵−1 𝑢1 [9.3.8]

La expresión [9.3.6] es conocida como la representación de la forma reducida del sistema estructural
[9.3.1]. En la representación de la forma reducida, cada variable endógena es expresada solamente
como una función de las variables predeterminadas. Por el ejemplo de [9.3.4], la forma reducida es

𝑞𝑡 1 −𝛽 −1 0 1 −𝛽 −1 𝑢𝑡𝑑
[𝑝 ] = [ ] [ ] 𝑤𝑡 + [ ] [ 𝑠]
𝑡 1 −𝛾 −ℎ 1 −𝛾 𝑢𝑡
−𝛾 𝛽 0
= [1/(𝛽 − 𝛾)] [ ][ ]𝑤
−1 1 ℎ 𝑡
−𝛾 𝛽 𝑢𝑡𝑑
+ [1/(𝛽 − 𝛾)] [ ][ ] [9.3.9]
−1 1 𝑢𝑡𝑠

𝐵ℎ −𝑦𝑢𝑡𝑑 + 𝛽𝑢𝑡𝑠
= [1/(𝛽 − 𝛾)] [ ] 𝑤𝑡 + [1/(𝛽 − 𝛾)] [ ]
ℎ −𝑢𝑡𝑑 + 𝑢𝑡𝑠
La forma reducida por un sistema general puede ser escrita de forma dividida como

9.3 Identificación 255


𝑦𝑜𝑡 ∏01 ∏02 𝑣𝑜𝑡
𝑥1𝑡
[𝑦1𝑡 ] = [∏11 ∏12 ] [𝑥 ] + [𝑣1𝑡 ] [9.3.10]
2𝑡
𝑦2𝑡 ∏21 ∏22 𝑣2𝑡

Donde, por ejemplo ∏12 denota una matriz (𝑛1 𝑥 𝑚2 ) que consiste de 2 filas mediante (𝑛1 + 1)
1
y 2 columnas (𝑚1 + 1) mediante m de la matriz ∏'.

Para aplicar la condición de rango por identificación de la primera ecuación indicad anteriormente,
formaríamos la matriz de productos cruzados entre las variables explicativas en la primera ecuación
(𝑥1𝑡 y 𝑦1𝑡 ) y las variables predeterminadas por todo el sistema (𝑥1𝑡 y 𝑥2𝑡 )
1 ) 1 )
𝐸(𝑥1𝑡 𝑥1𝑡 𝐸(𝑥1𝑡 𝑥2𝑡
𝑀= [ 1 ) 1 )] [9.3.11]
𝐸(𝑦1𝑡 𝑥1𝑡 𝐸(𝑦1𝑡 𝑥2𝑡

En la notación anterior, las variables explicativas por la primera ecuación consiste de 𝑧𝑡 = 𝑥1𝑡 𝑦𝑡1
1
mientras las variables predeterminadas por el sistema en su conjunto consisten en 𝑥1= 𝑥1𝑡 𝑥2𝑡 . Así,
1
la condición de rango, que requiere que las filas de 𝐸𝑧𝑡 𝑥𝑡 sean linealmente independientes,
significa que las filas de [(𝑚1 + 𝑛1 )𝑥 𝑚] de la matriz M en (9.3.11] [9.3.11] sean linealmente
independientes. La condición de rango puede ser equivalentemente fijados en términos de la matriz
estructural de parámetros B y Γ o la matriz de parámetros de forma reducida ∏ . La siguiente
proposición es adaptada por Fisher y es demostrada en el Apéndice 9.A al final de este capítulo.

Proposición 9.1: Si la matriz B en [9.3.1] en [9.3.1] y la matriz de segundos momentos de las variables
predeterminadas E(𝑥1 𝑥𝑡1 ) son no singulares, luego las siguientes condiciones son equivalentes:

(a) Las filas de la matriz M [(𝑚1 + 𝑛1 )𝑥 𝑚] en [9.3.11] son linealmente independientes.

(b) Las filas de la matriz [(𝑛1 + 𝑛2 )𝑥 (𝑚2 + 𝑛2 )]


𝑟12 𝐵12
[ ] [9.3.12]
𝑟22 𝐵22
Son linealmente independientes.

(c) Las filas de la matriz∏12 (𝑛1 𝑥 𝑚2 ) son linealmente independientes.

Por ejemplo, para el sistema en [9.3.4], las variables no endógenas son excluidas de la primera
ecuación, y así 𝑦𝑜𝑡 = 𝑞𝑡 𝑦1𝑡 = 𝑝𝑡 y 𝑦2𝑡 no contienen elementos. Las variables no
predeterminadas parecen en la primera ecuación, y así 𝑥1 no contiene elementos y 𝑥2= 𝑤1 . La
matriz en [9.3.12] es luego solo dada por parámetros 𝑟12. Esta representación de coeficientes en 𝑥2𝑡
en la ecuación describe 𝑦1𝑡 y es igual al parámetro escalar -h. Resulta (b) de la proposición 9.1 así
afirma que la primera ecuación es identificada siempre que ℎ ≠ 𝑂. El valor de ∏12 se puede leer
directamente del coeficiente en 𝑤𝑡 en la segunda fila de [9.3.9] y esta dado por ℎ/(𝛽 − 𝛾). Ya que
B se asume es no singular, (𝛽 − 𝛾) () no es cero, y entonces Γ12 es cero si y solo si ∏12 es cero.

Lograr La Identificación Mediante Las Restricciones De Covarianza


Otra forma en que los parámetros pueden ser identificados es mediante restricciones en las
covarianzas de los errores de las ecuaciones estructurales. Por ejemplo, considerar otra vez el
modelo de oferta y demanda., [9.3.2] y [9.3.3]. Decimos que la elasticidad de la demanda β fue
identificada por la exclusión de 𝑤1 de la ecuación de la demanda. Considere ahora la estimación de
la elasticidad de la oferta 𝛾.
Suponiendo primero que sabemos de algún modo el valor de la elasticidad de la demanda β with
certainty. con certeza. Luego, el error en la ecuación de la demanda puede ser construída como
𝑢𝑡𝑑 = 𝑞1− 𝛽𝑝𝑡

256 Capítulo 9 | Sistemas lineales de ecuaciones simultáneas


Observado que 𝑢𝑡𝑑 sería un instrumento valido de la ecuación de la oferta [9.3.3], ya que 𝑢𝑡𝑑 es
correlacionado con las variables endógenas explicativas para esa ecuación (𝑝𝑡 ) pero 𝑢𝑡𝑑 es no
correlacionada con el error para esa ecuación (𝑢𝑡𝑑 ). Ya que 𝑤𝑡 tampoco es correlacionada con el
error 𝑢𝑡𝑠 :, deduce que los parámetros de la ecuación de la oferta podría ser estimado
consecuentemente por las variables de estimación instrumental con 𝑥𝑡= (𝑢𝑡𝑑 , 𝑤𝑡 )1:
−1
𝛾̂𝑡∗ Σ𝑢̂𝑑 𝑝 Σ𝑢𝑡𝑑 𝑤𝑡 Σ𝑢𝑑 𝑞 𝑝 Υ
[̂ ] = [ 𝑡 𝑡 ] [ 𝑡 𝑡] → [ ] [9.3.13]
ℎ𝑡 Σ𝑤𝑡 𝑝𝑡 Σ𝑤𝑡2 Σ𝑤𝑡 𝑞𝑡 ℎ

Donde Σ indica la sumatoria de 𝑡 = 1,2 … … . , 𝑇


Ya que en la práctica no sabemos el verdadero valor de β, eso puede ser estimado
consecuentemente por 𝐼𝑉 estimación de [9.3.2] con 𝑤𝑡 , como un instrumento:
𝛽̂ = (Σ𝑤𝑡 𝑝𝑡 )−1 (Σ𝑤𝑡 𝑞𝑡 )

Luego el residuo 𝑢𝑡𝑑 puede ser estimado con 𝑢̂𝑡𝑑 = 𝑞𝑡− 𝛽̂ 𝑝𝑡 considere, por lo tanto, el estimador
[9.3.13] con la población residual 𝑢𝑡𝑑 reemplazado por la IV muestra residual:
−1
𝛾̂𝑇 Σ𝑢̂𝑑 𝑝 Σ𝑢𝑡𝑑 𝑤𝑡 Σ𝑢̂𝑡𝑑 𝑞𝑡
[̂ ] = [ 𝑡 𝑡 ] [ ] [9.3.14]
ℎ𝑡 Σ𝑤𝑡 𝑝𝑡 Σ𝑤𝑡2 Σ𝑤𝑡 𝑞𝑡
𝑝
Es sencillo utilizar el hecho que 𝛽̂ =→ 𝛽 deduce que la diferencia entre los estimadores en [9.3.14]
y [9.3.13] convergen en probabilidad a cero. Por consiguiente, el estimador [9.3.14