Documentos de Académico
Documentos de Profesional
Documentos de Cultura
𝐶𝑡 = 𝛼 + 𝛽𝑌𝑡 + 𝜀𝑡 , (16.1.1)
𝑌𝑡 ≡ 𝐶𝑡 + 𝐺𝑡 . (16.1.2)
donde, 𝜈𝑡 = 𝜀𝑡 /(1 − 𝛽), de tal forma que, 𝝂~𝑁(𝟎, [𝜎𝜀2 /(1 − 𝛽)2 ]𝑰). En términos de
desviaciones, las relaciones anteriores quedan como sigue,
𝑐𝑡 = [𝛽/(1 − 𝛽)]𝑔𝑡 + 𝜈𝑡 − 𝜈̅ ,
𝑦𝑡 = [1/(1 − 𝛽)]𝑔𝑡 + 𝜈𝑡 − 𝜈̅ ,
1
Una forma reducida de un modelo, se obtiene cuando cada variable endógena corriente (a tiempo
contemporáneo) es expresada en términos de variables exógenas (corrientes y/o rezagadas) y de variables
endógenas rezagadas.
Σ𝑐𝑦 𝑚
𝛽̂𝑀𝐶𝑂 = 2 = 𝐶𝑌 ,
Σ𝑦 𝑚𝑌𝑌
𝛽𝑚̅ +𝜎 2
(1−𝛽)𝜎𝜀 /𝑚
̅ 𝐺𝐺 2
𝑝𝑙𝑖𝑚 𝛽̂𝑀𝐶𝑂 = 𝑚̅ 𝐺𝐺+𝜎2𝜀 = 𝛽 + 1+𝜎2 /𝑚 ,
𝐺𝐺 𝜀 𝜀 𝐺𝐺
Para obtener estimadores consistentes de los parámetros, tal como veremos más
adelante en este capítulo, existen varias alternativas, como lo son los métodos de
variables instrumentales (VI), mínimos cuadrados indirectos (MCI) y mínimos
cuadrados en dos etapas (MC2E), entre otros métodos2. Brevemente, en VI, necesitamos
de una variable Z que sea independiente de 𝜀 y que a la vez esté correlacionada con Y.
Observando la relación (16.1.4), vemos que una elección natural para este instrumento
es la variable G. Aplicando el algoritmo de VI a este modelo obtenemos,
y,
Para chequear que 𝛼̂𝑉𝐼 y 𝛽̂𝑉𝐼 efectivamente son consistentes, notamos a partir de la
forma reducida del modelo que,
𝛽
∑ 𝑐𝑔 = ∑ 𝑔2 + ∑ 𝑔𝜈,
1−𝛽
1
∑ 𝑦𝑔 = ∑ 𝑔2 + ∑ 𝑧𝑔 .
1−𝛽
Para obtener los estimadores por el método de MCI, nos damos cuenta que la forma
reducida del modelo satisface todos los supuestos que aseguran que MCO produce
estimadores consistentes, de tal manera que:
2
Otro de tales métodos, es el de la razón de varianza mínima.
∑ 𝑐𝑔 𝛽 ∑ 𝑦𝑔 1
∑ 𝑔2
es consistente para , y que, ∑ es consistente para , lo que sugiere que,
1−𝛽 𝑔2 1−𝛽
tomando el cuociente,
∑ 𝑐𝑔 ∑ 𝑦𝑔
𝛽̂𝑀𝐶𝐼 = ∑ 𝑔2 ÷ ∑ 𝑔2
, obtendríamos un estimador consistente para 𝛽. Efectivamente, en
∑ 𝑐𝑔
este caso, se cumple que, 𝛽̂𝑀𝐶𝐼 = ∑ 𝑦𝑔 = 𝛽̂𝑉𝐼 .
𝑦𝑡 = 𝛿𝑔𝑡 + (𝜈𝑡 − 𝜈̅ ) ,
∑ 𝑔𝜈
𝑦̂𝑡 = (𝛿 + ∑ 𝑔2 )𝑔𝑡 ,
por lo que,
∑ 𝑔𝜈
∑ 𝑦̂𝜀 = 𝛿 ∑ 𝑔𝜀 + 2 ∙ ∑ 𝑔𝜀 .
∑𝑔
∑ 𝑐𝑦̂ ̂
𝛿 ∑ 𝑐𝑔 ∑ 𝑐𝑔 ∑ 𝑔 2∑ 𝑐𝑔
𝛽̂𝑀𝐶2𝐸 = ∑ 𝑦̂ 2 = 𝛿̂ 2 ∑ 𝑔̂2 = ∑ 𝑔2 ∙ ∑ 𝑦𝑔 = ∑ 𝑦𝑔 .
Por lo tanto, en este caso, los tres algoritmos de estimación entregan el mismo
estimador que es consistente.
Aquí, p denota el precio del producto y q la cantidad. Para que el modelo (16.1.7) sea
efectivamente un modelo de oferta y demanda, debemos imponer las restricciones
adicionales, 𝛽12 > 0 y 𝛽21 < 0, con el fin de que la curva de demanda tenga una
pendiente negativa y la de oferta una pendiente positiva. También querríamos imponer
que 𝛾11 < 0 para que la función de demanda tenga un intercepto positivo. Si ocurriese
que, en un determinado período t, se tiene que, 𝜀1𝑡 = 𝜀2𝑡 = 0, entonces el sistema
lograría su equilibrio en 𝑝∗ , 𝑞 ∗ . En una situación más realista, si los términos de error
son diferentes de cero, entonces las curvas de demanda y de oferta se desplazarán hacia
arriba o hacia abajo, según sean los signos de los errores. Por lo tanto, se generará una
nube de puntos de equilibrio alrededor de 𝑝∗ , 𝑞 ∗ .
3
De ahora en adelante, las variables denotadas con letras minúsculas denotarán los valores reales de
dichas variables y no desviaciones con respecto a su media como aparecía en los capítulos anteriores. En
este caso, la relación (i) denota la curva de demanda, mientras que (ii) la de oferta.
4
En este caso, la única variable exógena es la variable dummy correspondiente al intercepto.
1
𝑞𝑡 = [(𝛽21 𝛾11 − 𝛾21 ) + (−𝛽21 𝜀1𝑡 + 𝜀2𝑡 )] , (16.1.8)
∆
𝑝𝑡 = 𝜇1 + 𝜈1𝑡 ,
𝑞𝑡 = 𝜇2 + 𝜈2𝑡 , (16.1.9)
donde,
𝐸(𝜺𝑡 ) = 𝐸 (𝜀𝜀1𝑡) = 𝟎 ,
2𝑡
𝜎11 𝜎12
𝐸(𝜺𝑡 𝜺′𝑡 ) = ∑ = (𝜎 𝜎22 ),
12
tendremos entonces,
𝐸(𝝂𝑡 ) = 𝟎 ,
2) 2
𝑉𝑎𝑟(𝜈1 ) = 𝐸(𝜈1𝑡 = (𝜎11 + 𝛽12 𝜎22 − 2𝛽12 𝜎12 )/∆2 ,
2 ) 2
𝑉𝑎𝑟(𝜈2 ) = 𝐸(𝜈2𝑡 = (𝛽21 𝜎11 + 𝜎22 − 2𝛽21 𝜎12 )/∆2 ,
𝐶𝑜𝑣(𝜈1 , 𝜈2 ) = 𝐸(𝜈1𝑡 , 𝜈2𝑡 ) = (−𝛽21 𝜎11 − 𝛽12 𝜎22 + 𝜎12 [1 + 𝛽12 𝛽21 ])/∆2 .
𝐸(𝑝) = 𝜇1 ,
𝐸(𝑞) = 𝜇2 ,
𝑉𝑎𝑟(𝑝) = 𝑉𝑎𝑟(𝜈1 ) ,
𝑉𝑎𝑟(𝑞) = 𝑉𝑎𝑟(𝜈2 ) ,
Lo medular de los desarrollos anteriores es que, información muestral sobre p,q sólo nos
puede brindar estimadores de los cinco parámetros que aparecen en (16.1.11). Estos
cinco parámetros, a su vez, están expresados como funciones de los siete parámetros
estructurales del modelo, vale decir, 𝛽12 , 𝛽21 , 𝛾11 , 𝛾21 , 𝜎11 , 𝜎22 , 𝜎12 . Bajo los supuestos
presentados en el modelo inicial, ninguno de los siete parámetros estructurales del
modelo están identificados.
Resulta esclarecedor saber qué tipo de información adicional permitiría identificar alguna
de las dos ecuaciones o incluso ambas. Básicamente, hay tres posibilidades, a saber, (i)
restricciones sobre los parámetros del tipo 𝛽 o 𝛾, (ii) restricciones sobre la matriz Σ, y
(iii) reespecificaciones del modelo con el fin de incorporar variables adicionales. Para
ilustrar el primer tipo de restricciones, supondremos que a priori se sabe que,
𝛾21 = 0 .
Esta restricción permite reducir el número de parámetros estructurales a seis, sin embargo,
el número de parámetros reducidos sigue siendo igual a cinco, así es que no es claro si
alguno de los parámetros estructurales pueda estar identificado. Haciendo el reemplazo
de 𝛾21 = 0 en la relación (16.1.10) obtenemos,
𝜇1 = −𝛾11 /∆ ,
𝜇2 = 𝛽21 𝛾11 /∆ ,
con lo que,
lo que nos muestra que se puede determinar 𝛽21 a partir de los parámetros reducidos a
nivel poblacional. Lo anterior nos sugiere el estimador, 𝛽̂21 = − 𝑞̅ ⁄𝑝̅ . Esta restricción
nos permite identificar la función de oferta pero no la de demanda. Volvamos ahora a
las ecuaciones (16.1.7) e impongamos la restricción,
𝑉𝑎𝑟(𝜀1 ) = 𝜎11 = 0 .
Esta restricción también implica que, 𝜎12 = 0 . Observando las ecuaciones (16.1.11),
notamos que,
2
𝑉𝑎𝑟(𝑝) = 𝛽12 𝜎22 /∆2 ,
lo que por ende, nos está diciendo que la pendiente de la curva de demanda está
identificada. Finalmente, consideremos una reespecificación del modelo (16.1.7),
donde mantenemos los supuestos, 𝛽12 > 0 y 𝛽21 < 0. La variable x puede ser una
variable dummy que da cuenta del intercepto, la variable z puede representar el ingreso,
que se supone afecta la demanda, y las variables w,y pueden representar variables que
afectan a la oferta. La forma reducida para este modelo es,
donde, ∆= 1 − 𝛽12 𝛽21, y los errores 𝜈 están dados por (16.1.10). Si denotamos los
coeficientes reducidos por 𝜋𝑖𝑗 (𝑖 = 1,2; 𝑗 = 1, … ,4), es claro que podemos recuperar
los parámetros estructurales a partir de los coeficientes reducidos, por ejemplo,
𝜋
𝛽21 = − 𝜋22 ,
12
𝜋13 𝜋14
𝛽12 = − =− .
𝜋23 𝜋24
Una vez encontrados los parámetros 𝛽, los coeficientes 𝛾 pueden obtenerse a partir de
𝜋11 y 𝜋21 . Obviando los parámetros que aparecen en los términos de errores, existen
ocho coeficientes reducidos y sólo siete coeficientes estructurales. La diferencia en estos
números, se explica por las dos formas alternativas y equivalentes a nivel poblacional
que tiene el parámetro 𝛽12. Lo anterior es una señal de alerta frente al método de MCI,
ya que a nivel muestral, los coeficientes reducidos estimados, no cumplirán, en general,
con la igualdad, (𝜋13 /𝜋23 ) = (𝜋14 /𝜋24 ) , que sólo se satisface a nivel poblacional.
𝛽𝑖1 𝑦1𝑡 + ⋯ + 𝛽𝑖𝐺 𝑦𝐺𝑡 + 𝛾𝑖1 𝑥1𝑡 ⋯ + 𝛾𝑖𝐾 𝑥𝐾𝑡 = 𝜀𝑖𝑡 . (16.2.1)
𝑖 = 1, … , 𝐺 ; 𝑡 = 1, … , 𝑇
Este modelo puede considerarse como una teoría que, determina conjuntamente las
variables 𝑦𝑖𝑡 (𝑖 = 1, … 𝐺; 𝑡 = 1, … , 𝑇) en términos de las variables predeterminadas
𝑥𝑖𝑡 (𝑖 = 1, … , 𝐾; 𝑡 = 1, … , 𝑇) y de los errores 𝜀𝑖𝑡 (𝑖 = 1, … 𝐺; 𝑡 = 1, … , 𝑇). La teoría
subyacente, especificará, típicamente que, algunos de los coeficientes 𝜷, 𝜸 son nulos. Si
no fuera así, la estimación del modelo sería imposible ya que todas las relaciones se
parecerían al modelo (16.1.7) y ninguna ecuación estaría identificada. El modelo puede
expresarse en forma matricial de la siguiente forma,
donde𝐁es una matriz de𝐺 × 𝐺 con los coeficientes de las variables endógenas
corrientes, 𝚪es una matriz de 𝐺 × 𝐾 con los coeficientes de las variables
predeterminadas;𝒚𝑡 , 𝒙𝑡 y 𝜺𝑡 son los vectores columna con G,K,G elementos
respectivamente:
Definiendo,
𝐘𝐁 ′ + 𝐗𝚪 ′ = 𝚬. (16.2.3)
Con esta notación, podemos individualizar una observación (por ejemplo, la t-ésima,
donde 𝑡 = 1, … , 𝑇) en todas las G ecuaciones haciendo,
𝐘𝑡• 𝐁 ′ + 𝐗 𝑡• 𝚪 ′ = 𝐄𝑡• ,
5
Cuando queramos calcular la verosimilitud de una muestra, supondremos, 𝜺𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(𝟎, 𝚺) .
simplicidad supondremos, casi siempre, igual a la primera ecuación del sistema de
ecuaciones (𝑖 = 1), la denotaremos por,
𝒚 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆,
𝐘 = [𝐲 𝐘1 𝐘2 ]y𝐗 = [𝐗1 𝐗 2 ].
Por otra parte, como estamos suponiendo que,𝐁es invertible, la forma reducida del
modelo se escribe como,
𝒚𝑡 = 𝚷𝒙𝑡 + 𝝂𝑡 , (16.2.4a)
𝐘 = 𝐗𝚷′ + 𝐕, (16.2.4b)
𝚷 = −𝐁 −1 𝚪;(16.2.5a)
y,
𝝂𝑡 = 𝐁 −1 𝜺𝑡 ; 𝐕 = 𝐄(𝐁 ′ )−1.(16.2.5b)
Además,
6
Claramente, dicha partición, puede realizarse para cada una de las G ecuaciones.
π11 π12
𝚷 = [π21 π22 ].
π31 π32
De ahora en adelante, se usará la convención usual para denotar las filas y columnas
particionadas de 𝚷; por ejemplo,
π11
𝚷•1 = [π21 ] , y , 𝚷1• = [π11 π12 ].
π31
Las relaciones (16.2.4a) y (16.2.4b), muestran explícitamente que, cada una de las
variables endógenas del sistema, puede, en general, estar influenciada por cada uno de
los errores aleatorios del modelo. A manera de ejemplo, de (16.2.4a) podemos escribir
la relación,
𝑦2𝑡 = π2 𝒙𝑡 + 𝜈2𝑡 ,
en que la función 𝑓2 está determinada por la segunda fila de 𝐁 −1. Por lo tanto, si 𝑦2𝑡
aparece como variable explicativa en la primera ecuación del sistema, contoda
seguridad estará correlacionado con el término de error 𝜀1𝑡 de esa ecuación. Es
justamente esta correlación entre las variables explicativas y los errores estocásticos, la
que es responsable para que los estimadores MCO sean inconsistentes.
7
Los subíndices, 1,2,3 de la matriz 𝚷, se refieren a los elementos, 𝐘 = [𝐲 𝐘1 𝐘2 ], respectivamente.
en que |𝜕𝜺𝑡 /𝜕𝒚𝑡 | denota el valor absoluto del determinante del jacobiano de la
transformación:
𝜕𝜀1𝑡 𝜕𝜀1𝑡
⋯
𝜕𝑦1𝑡 𝜕𝑦𝐺𝑡
⋮ ⋱ ⋮ . (16.2.7)
𝜕𝜀𝐺𝑡 𝜕𝜀𝐺𝑡
⋯ 𝜕𝑦
[𝜕𝑦1𝑡 𝐺𝑡 ]
donde hay que señalar que |det𝐁| denota el valor absoluto del determinante.
Suponiendo que no existe correlación serial entre los errores tenemos,
y por ende, la verosimilitud conjunta, aludida anteriormente, para todo tiempo t estará
dada por,
Debido a que, 𝐁𝒚𝑡 + 𝚪𝒙𝑡 = 𝜺𝑡 ,𝐿, es función de los elementos de 𝐁y de 𝚪, por lo que la
maximización de L se realiza con respecto a estos parámetros.
Supongamos por un momento que multiplicamos el sistema (16.2.2) por una matriz
invertible Fde 𝐺 × 𝐺. La nueva estructura queda como sigue,
vale decir,
𝒚𝑡 + 𝐁 −1 𝚪𝒙𝑡 = 𝐁 −1 𝜺𝑡 ,
que es igual a la forma reducida de la estructura original (16.2.2). Por lo tanto, se colige
que, todas las estructuras que se obtengan premultiplicando la estructura original por
una matriz no-singular F de rango G, son observacionalmente equivalentes en cuanto a
que se obtiene la misma función de verosimilitud.
𝐿 = ∏𝑇𝑡=1 𝑙(𝝂𝑡 ) .
1 1
𝑝𝑙𝑖𝑚 ( 𝐗 ′ 𝐘) 𝐁 ′ + 𝑝𝑙𝑖𝑚 ( 𝐗 ′ 𝐗) 𝚪 ′ = 𝟎
𝑇 𝑇
De la relación anterior, obtenemos trivialmente que,
Si estimamos cada una de las ecuaciones del sistema reducido por MCO, habremos
estimado 𝚷′, y por ende, tendremos una estimación de la matriz de coeficientes
reducidos dados por, (𝐗′𝐗)−1 𝐗 ′ 𝐘. Esto nos viene a mostrar que los parámetros
reducidos están identificados y pueden ser estimados consistentemente por MCO.
(a) Suponiendo que los elementos de 𝚷son conocidos, ¿podemos a partir de este
conocimiento, determinar los elementos de 𝐁y de 𝚪en forma unívoca?
(b) Si se considera una matriz de transformación F, ¿son suficientes las restricciones
a priori de 𝐁y de 𝚪, para implicar que las restricciones que afectan los elementos
de F,aseguren que los coeficientes de las estructuras original y transformada
sean idénticas y por ende estén identificados?
𝐁𝚷 + 𝚪 = 𝟎.
𝐀𝐖 = 𝟎, (16.3.1)
donde,
𝜶1 𝐖 = 𝟎, (16.3.3)
9
Usando terminología de álgebra lineal, esto se puede plantear también diciendo que, si 𝐀es una matriz
de 𝑚 × 𝑛, entonces se cumple que, 𝑟(𝐀) + 𝑛(𝐀) = 𝑛, donde 𝑟(𝐀) es el rango de 𝐀,y 𝑛(𝐀) es la
dimensión del espacio nulo de 𝐀(nulidad). El espacio nulo de 𝐀se define como, 𝑁(𝐀) =
{𝑥 ∈ ℝ𝑛 |𝐀𝐱 = 𝟎}. Para que haya una solución única a este sistema de ecuaciones, requerimos que,
𝑛(𝐀) = 1. De aquí la condición de rango es, 𝑟(𝐀) = 𝑛 − 1.
Las restricciones a priori pueden ser de varios tipos: (i) Restricciones de exclusión
(algunos de los elementos de 𝜶1 son nulos pues las variables respectivas no aparecen en
dicha ecuación), (ii) Restricciones lineales homogéneas involucrando dos o más
elementos de 𝜶1 , (iii) Restricciones que toman la forma de relaciones entre coeficientes
estructurales y reducidos; (iv) Restricciones en la forma de identidades entre variables
económicas, (v) Restricciones lineales inhomogéneas; (vi) Restricciones lineales que
involucran parámetros de diferentes ecuaciones; (vii) Restricciones en la matriz de
varianzas-covarianzas; (viii) Restricciones no lineales entre parámetros10.
𝜶1 𝛗 = 𝟎,(16.3.4)
1 0 ⋯ ⋯ ⋯ 0
𝛗′ = [ ].
0 1 −1 0 ⋯ 0
𝜶1 [𝐖 𝛗 ] = 𝟎. (16.3.5)
La condición de rango,
𝑟𝑎𝑛𝑔𝑜[𝐖 𝛗 ] = 𝐺 + 𝐾 − 1 , (16.3.6)
10
En este capítulo no consideraremos esta última categoría de restricciones. El lector
interesadopodráconsultar, Fisher, F. M. (1966).The Identification Problem, McGraw-Hill, New York.
𝑅 ≥𝐺−1.
Por lo tanto, el número de restricciones a priori debe ser mayor o igual al número de
ecuaciones menos uno. Cuando las restricciones son sólo de exclusión, la condición
necesaria, puede frasearse como diciendo que, el número de variables excluidas de la
ecuación debe ser por lo menos igual o mayor al número de ecuaciones menos uno. Si
definimos, g como el número de variables endógenas corrientes incluidas en la
ecuación, y k como el número de variables predeterminadas incluidas en la ecuación,
entonces, el número de variables excluidas es igual a,
𝑅 = (𝐺 − 𝑔) + (𝐾 − 𝑘) ,
𝐾−𝑘 ≥𝑔−1.
Teorema
𝐁′ 𝚷 𝐈 𝚷 𝐁′ 𝟎
[𝐀′ 𝐖] = [ 𝚪 ′ ]=[ 𝐺′ ][ ].
𝐈𝐾 −𝚷 𝐈𝐾 𝟎 𝐈𝐾
𝐈𝐺 𝚷 𝐱𝐺
[𝐱 𝐺′ ′
𝐱𝐾 ][ ] [ ] = 𝐱 𝐺′ 𝐈𝐺 𝐱 𝐺 + 𝐱 𝐺′ 𝚷𝐱 𝐾 − 𝐱 𝐾
′ ′
𝚷′ 𝐱𝐺 + 𝐱𝐾 𝐈𝐾 𝐱 𝐾 = 𝐱 ′ 𝐱 > 0.
−𝚷′ 𝐈𝐾 𝐱 𝐾
De aquí se desprende que [𝐀′ 𝐖] es una matriz no-singular de orden (𝐺 + 𝐾), donde
cada columna de 𝛗es un vector de(𝐺 + 𝐾) componentes, y por lo tanto, puede ser
expresado como combinación lineal de las columnas de [𝐀′ 𝐖]. Así,
𝛝
𝛗 = [𝐀′ 𝐖] [ ] = 𝐀′ 𝛝 + 𝐖𝛕 ,
𝛕
en que,𝛝es de orden 𝐺 × 𝑅 y 𝛕es de 𝐾 × 𝑅. Tenemos por lo tanto que, 𝐀𝛗 = 𝐀𝐀′ 𝛝, ya
que, 𝐀𝐖 = 𝟎. Como A es de orden 𝐺 × (𝐺 + 𝐾) de rango G, 𝐀𝐀′ es 𝐺 × 𝐺 y a la vez
de rango G, por lo que es no-singular. De tal manera que, 𝑟𝑎𝑛𝑔𝑜(𝐀𝛗) = 𝑟𝑎𝑛𝑔𝑜(𝛝)
Ahora bien, 𝑟𝑎𝑛𝑔𝑜[𝐖 𝛗 ] > 𝑟𝑎𝑛𝑔𝑜(𝐖), sólo por el número de columnas linealmente
independientes que tiene 𝛗que a su vez son linealmente independientes de las columnas
de W. Por ende tenemos que,
𝑟𝑎𝑛𝑔𝑜[𝐖 𝛗 ] = 𝑟𝑎𝑛𝑔𝑜(𝐖) + 𝑟𝑎𝑛𝑔𝑜(𝐀′ 𝛝).
𝛝
𝐀′ 𝛝 = [𝐀′ 𝐖] [ ] .
𝟎
Por lo tanto,
𝛝
𝑟𝑎𝑛𝑔𝑜(𝐀′ 𝛝) = 𝑟𝑎𝑛𝑔𝑜 [ ] = 𝑟𝑎𝑛𝑔𝑜(𝛝) = 𝑟𝑎𝑛𝑔𝑜(𝐀𝛗) ,
𝟎
de lo que se desprende que,
𝑟𝑎𝑛𝑔𝑜[𝐖 𝛗 ] = 𝐾 + 𝑟𝑎𝑛𝑔𝑜(𝐀𝛗) ,
y finalmente,
Existe un enfoque alternativo que permite demostrar este teorema y que será de utilidad
más adelante, por lo que resulta interesante explorar además esta nueva vía. La relación
(16.2.2), también puede expresarse como,
𝐀𝒛𝑡 = 𝛆𝑡 , (16.3.8)
donde, 𝐀 = [𝐁 𝚪]y 𝒛′𝑡 = [𝒚′𝑡 𝒙′𝑡 ]. Si ahora premultiplicamos la relación (16.3.8), por
una matriz F, no-singular de 𝐺 × 𝐺, la estructura final queda como sigue,
𝜶1 𝛗 = 𝟎,
o equivalentemente como,
𝒆1 (𝐀𝛗) = 𝟎 , (16.3.10)
donde, 𝒆1 es un vector fila, que tiene un 1 en la primera posición y ceros en las demás.
Así, tenemos que, 𝒆1 𝐀 = 𝜶1 . La primera fila de coeficientes en la estructura
transformada, está dada por 𝐟1 𝐀, en que𝐟1 corresponde a la primera fila de F. Para que F
sea admisible, deberá forzosamente satisfacer las mismas restricciones, vale decir,
𝐟1 (𝐀𝛗) = 𝟎. (16.3.11)
Si queremos que la primera ecuación de nuestro sistema de ecuaciones esté identificada
(para poder estimarla), los coeficientes correspondientes a la primera ecuación
transformada, deberán ser idénticos, salvo quizás por un factor escalar, a los
coeficientes originales de la primera ecuación. Es decir, 𝐟1 = 𝝀𝒆1, todo lo cual, es
equivalente a decir, 𝑟𝑎𝑛𝑔𝑜(𝐀𝛗) = G − 1.
Ejemplo:
Tal como está el sistema, ninguna de las dos ecuaciones está identificada, ya que no hay
restricciones a priori para ninguna de las dos relaciones. Por lo tanto en este ejemplo,
postularemos que, las restricciones a priori (que en este caso son restricciones de
exclusión) son:
𝛾12 = 𝛾21 = 0 .
𝛗′ = [0 0 0 1] ,
y,
𝛾12 0
𝐀𝛗 = [𝛾 ] = [ ],
22 𝛾22
𝛗′ = [0 0 1 0] , y , (𝐀𝛗)′ = [𝛾11 0] ,
𝜶1 [𝐖 𝛗 ] = 𝟎.
𝜋11 𝜋12 0
[𝛽11 𝛽12 𝛾11 𝛾12 ] [𝜋21 𝜋22 0
] = [0 0 0] ,
1 0 0
0 1 1
es decir,
𝛾12 = 0 .
A veces, las restricciones que impone la teoría económica son de carácter inhomogéneo,
como por ejemplo,
𝛽12 + 𝛾11 = 1 .
Hasta el momento no hemos hecho supuestos respecto de los errores en las diferentes
ecuaciones estructurales. Sea entonces,
donde, 𝚺es una matriz de𝐺 × 𝐺, en que los términos de la diagonal principal
corresponden a las varianzas de los errores en las G ecuaciones, y los términos fuera de
la diagonal a las covarianzas entre los errores.
Examinemos primero las restricciones sobre las covarianzas. Consideremos para ello el
modelo,
Resulta fácil establecer que la primera ecuación está identificada, mientras que la
segunda no lo está. Examinaremos la identificabilidad del sistema, sin embargo,
considerando las transformaciones lineales que son admisibles para este caso. Sea, la
transformación,
f f12
𝐅 = [ 11 ].
f21 f22
La primera ecuación del sistema transformada por F queda como sigue,
(f11 + f12 𝛽21 )𝑦1𝑡 + f12 𝑦2𝑡 + (f11 𝛾11 + f12 𝛾21 )𝑥1𝑡 = f11 𝜀1𝑡 + f12 𝜀2𝑡 .
f12 = 0,
1 0
𝐅=[ ],
f21 f22
lo que corrobora el hecho que la primera ecuación está identificada y la segunda no.
Supongamos ahora que postulamos que la matriz 𝚺es del tipo,
σ11 0
𝚺=[ ].
0 σ22
El vector transformado de errores está dado por, 𝐅𝜺𝑡 , y por lo tanto, la matriz de
varianzas y covarianzas de los errores para la estructura transformada, está dada por,
que sabemos debe satisfacer la restricción σ12 = 0, es decir,𝐟1 𝚺𝐟2′ = 0, lo que a su vez,
implica que, f21 σ11 = 0, por lo que, f21 = 0. El valor de f22 se resuelve a través de la
condición de normalización, que en este caso, dice que el coeficiente que acompaña a
𝑦2𝑡 en la segunda ecuación, debe ser igual a 1. Los coeficientes de la estructura
transformada, entonces, están dados por,
1 0 1 0 𝛾11
𝐅𝐀 = [ ][ ],
f21 f22 𝛽21 1 𝛾21
todo lo cual resulta en que el coeficiente de 𝑦2𝑡 en la segunda ecuación sea igual a f22 .
Por lo tanto, f22 = 1, con lo que las matrices admisibles de transformación toman la
forma de,
1 0
𝐅=[ ],
0 1
y por ende, ambas ecuaciones estarían ahora identificadas.
Hasta el momento, sólo hemos considerado el caso en que los términos fuera de la
diagonal principal de 𝚺son nulos. Otra posibilidad es que tengamos situaciones como el
caso, σ11 = 0, lo que hace que la primera ecuación sea una identidad exacta en vez de
ser una relación estocástica. Para estudiar la identificabilidad de dicha ecuación, será
conveniente examinar dos condiciones. Primero, la transformación de la misma deberá
satisfacer las restricciones a priori que cumplen los parámetros de la ecuación original,
es decir,
𝐟1 𝐀𝛗 = 𝟎.
𝐟1 𝚺𝐟1′ = 0.
Como 𝚺es positivo semidefinido, esta condición sólo se satisface si y sólo si, 𝐟1 𝚺 = 𝟎.
Uniendo estas dos condiciones, podemos escribir,
𝐟1 [𝐀𝛗 𝚺] = 𝟎. (16.3.14)
Si la ecuación está identificada, entonces los vectores 𝐟1 que satisfacen (16.3.14) deben
ser múltiplos escalares unos de otros. Por lo tanto, la condición necesaria y suficiente
para la identificabilidad de la primera ecuación bajo la restricción adicional de σ11 = 0,
es,
𝑟𝑎𝑛𝑔𝑜[𝐀𝛗 𝚺] = 𝐺 − 1. (16.3.15)
Notamos que si los demás errores son no-nulos, entonces 𝑟𝑎𝑛𝑔𝑜(𝚺) = 𝐺 − 1, entonces
la condición de rango dada por (16.3.15), se cumplirá incluso si no hay restricciones a
priori en los parámetros 𝛽 y 𝛾. Un ejemplo de este caso lo tenemos en el sistema,
𝑦1 + 𝛾11 𝑥1 = 𝜀1 ,
𝛽21 𝑦1 + 𝑦2 + 𝛾21 𝑥1 = 𝜀2 .
𝛽21 𝑦1 + 𝑦2 + 𝛾21 𝑥1 = 0,
σ11 0
𝚺=[ ],
0 0
y para la segunda ecuación se tiene que,
σ 0
[𝐀𝛗 𝚺] = [ 11 ],
0 0
que tiene rango igual a, 𝐺 − 1 = 1, con lo que la ecuación ahora sí está identificada.
16.3.4 Identidades
𝑞 𝐷 = 𝛼0 + 𝛼1 𝑝 + 𝜀1 ,
𝑞 𝑂 = 𝛽0 + 𝛽1 𝑝 + 𝛽2 𝑤 + 𝜀2 ,
𝑞𝐷 = 𝑞𝑂 ,
𝑞𝐷
1 0 −𝛼1 0 −𝛼0 𝑞 𝑂 𝜀1
[0 1 −𝛽1 −𝛽2 −𝛽0 ] 𝑝 = [𝜀2 ] .
1 −1 0 0 0 𝑤 0
[𝑧]
0 0
𝐀𝛗 = [ 1 −𝛽2 ],
−1 0
con lo que, 𝑟𝑎𝑛𝑔𝑜[𝐀𝛗] = 2 = 𝐺 − 1, por lo que la ecuación estaría identificada.
Cuando tenemos restricciones de exclusión, la matriz 𝐀𝛗puede escribirse directamente
tomando las columnas de 𝐀que contienen los ceros de la fila correspondiente a la
ecuación que tiene las restricciones. Para la segunda ecuación tenemos,
1
𝐀𝛗 = [0],
1
cuyo rango es igual a uno, por lo que esta ecuación no estaría identificada.
Ahora bien, existe un enfoque alternativo para resolver este problema, que consiste en
eliminar una de las tres variables endógenas haciendo uso explícitamente de la
identidad:
𝑞 = 𝛼0 + 𝛼1 𝑝 + 𝜀1 ,
𝑞 = 𝛽0 + 𝛽1 𝑝 + 𝛽2 𝑤 + 𝜀2 ,
donde ahora 𝐺 = 2. La primera ecuación sigue estando identificada ya que tiene una
restricción entre sus parámetros, mientras que la segunda no lo está ya que en este caso
no hay restricciones.
Existe un enfoque alternativo para examinar las condiciones bajo las cuales los
parámetros de un sistema de ecuaciones econométricas están identificados. La
metodología presentada hasta ahora, se debe al trabajo conjunto realizado por los
investigadores de la Comisión Cowles,Koopmanset al (1950)11. Posteriormente, Wegge
(1965) y Rothenberg (1971), presentan un novedoso enfoque que distingue entre
identificación global y local de parámetros12. Seguiremos, básicamente, el tratamiento
de Rothenberg, que considera el conjunto de 𝐺ecuaciones,
𝐁𝒚𝑡 + 𝚪𝒙𝑡 = 𝜺𝑡 ,
𝜓𝑖 (𝐁, 𝚪, 𝚺) = 0 , (16.3.16)
𝒚𝑡 = 𝚷𝒙𝑡 + 𝝂𝑡 ,
𝐸[(𝐗 ′ 𝐗)−1 𝐗 ′ 𝐘] = 𝚷′ ,
Por los resultados vistos en los acápites anteriores, tanto 𝚷como𝛀están identificados.
Consideremos a (𝐁, 𝚪, 𝚺) como el parámetro estructural 𝛂, genéricamente, y
(𝚷, 𝛀)como el parámetro reducido 𝜽.
11
Koopmans, T. C., H. Rubin, y R. B. Leipnik (1950). “Measuring the Equation Systems of Dynamic
Economics,” en Statistical Inference in Dynamic Economic Models (ed. T. C. Koopmans). Cowles
Commission Monograph 10, New York, Joh Wiley.
12
Wegge, L. (1965). “Identifiability Criteria for a System of Equations as a Whole,” Australian Journal of
Statistics, Vol. 7.
Rothenberg, T. J. (1971). “Identification in Parametric Models,” Econometrica, Vol. 39, pág.: 577-591.
Sea (𝐁 0 , 𝚪 0 , 𝚺 0 ) alguna estructura del sistema de ecuaciones que satisface las
restricciones (16.3.16), y sea (𝚷0 , 𝛀0 ) la forma reducida correspondiente. La
identificabilidad de los parámetros del sistema de ecuaciones depende de la unicidad de
las soluciones de:
𝐁𝚷0 + 𝚪 = 𝟎, (16.3.18a)
𝐁𝛀0 𝐁 ′ − 𝚺 = 𝟎,(16.3.18b)
𝝏𝜓 𝝏𝜓 𝝏𝜓
𝛙𝛃 =[𝝏𝛽 𝒊 ] , 𝛙𝛄 =[ 𝝏γ 𝒊 ], 𝛙𝛔 =[𝝏σ 𝒊 ],
𝑗 𝑗 𝑗
(𝐈G ⊗ 𝚷0 )′ 𝐈GK 0
𝐖=[ ∆ 𝟎 −𝐈GG ], (16.3.19)
𝛙𝛃 𝛙𝛄 𝛙𝛔
𝟎 𝐈GK 𝟎 (𝐈G ⊗ 𝐁 −1 )′ 𝟎 𝟎
0)
𝐖(𝛂 = [ 𝟎 𝟎 −𝐈GG ] [ (𝐈G ⊗ 𝚷)′ 𝐈GK 𝟎 ], (16.3.20)
𝐖∗ 𝛙𝛄 𝛙𝛔 −∆ 𝟎 𝐈GG
Si se desea, por una parte, ya sea estimar una única ecuación dentro de un sistema de
ecuaciones, o por el contrario, se desea estimar el sistema completo de ecuaciones en
forma simultánea, estamos frente a una situación donde el método de mínimos
cuadrados ordinarios (MCO) y sus variantes, en general, no entregan soluciones
satisfactorias desde un punto de vista econométrico. Si se llegara a emplear MCO en
una ecuación particular del modelo, en general, habrá en ésta más de una variable
endógena corriente, por lo que, independientemente de qué variable se elija como
variable “dependiente”, las demás variables endógenas estarán correlacionadas con el
término de error, lo que hará que las estimaciones de los parámetros sean no sólo
insesgadas sino que además inconsistentes. Solamente en el caso de modelos recursivos,
el método MCO será una metodología óptima.
Desde el punto de vista de las ecuaciones simultáneas, los sistemas recursivos son los
más sencillos de estimar. Éstos están caracterizados por una matriz B que es triangular,
y una matriz 𝚺que es diagonal. Si escribimos las ecuaciones estructurales para todos los
períodos muestrales, como en (16.2.11), obtenemos:
𝐘𝐁 ′ + 𝐗𝚪 ′ = 𝚬 , (16.4.1)
𝐘 = 𝐗𝚷′ + 𝚼, (16.4.2)
donde,
𝑝𝑙𝑖𝑚{(1/𝑇)𝐄′ 𝐘} = 𝑝𝑙𝑖𝑚{(1/𝑇)𝐄′ 𝚼} ,
𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀1𝑡 𝑦1𝑡 } 𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀1𝑡 𝑦2𝑡 } 𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀1𝑡 𝑦3𝑡 }
𝑡 𝑡 𝑡
𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀2𝑡 𝑦1𝑡 } 𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀2𝑡 𝑦2𝑡 } 𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀2𝑡 𝑦3𝑡 }
𝑡 𝑡 𝑡
𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀3𝑡 𝑦1𝑡 } 𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀3𝑡 𝑦2𝑡 } 𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀3𝑡 𝑦3𝑡 }
[ 𝑡 𝑡 𝑡 ]
donde,
1 𝛽 21 𝛽 31
(𝐁 ′ )−1 = [0 1 𝛽 32 ].
0 0 1
𝑦1 + 𝛾11 𝑥 = 𝜀1
𝛽21 𝑦1 + 𝑦2 + 𝛾21 𝑥 = 𝜀2
bajo el supuesto que los T errores 𝛆 son independientes entre sí. Como estamos
suponiendo que, cada 𝛆𝑡 sigue una distribución normal multivariada, 𝑁(𝟎, 𝚺), entonces
el logaritmo de la verosimilitud conjunta está dada por,
𝑇 1
𝐿∗ = 𝑙𝑜𝑔𝐿 = 𝐶𝑡𝑒 + 𝑇𝑙𝑜𝑔|𝑑𝑒𝑡𝐁| − 𝑙𝑜𝑔(𝑑𝑒𝑡𝚺) − ∑𝑇𝑡=1 𝛆′𝑡 𝚺 −1 𝛆𝑡 .
2 2
𝑆 = ∑𝑇𝑡=1 𝛆′𝑡 𝚺 −1 𝛆𝑡 .
ε2 ε2 ε2
𝑆 = ∑𝑇𝑡=1(𝜎1𝑡 + 𝜎2𝑡 + 𝜎3𝑡 ) .
11 22 33
ε21𝑡
∑𝑇𝑡=1 .
𝜎11
Igualando estas derivadas a cero, obtenemos las ecuaciones normales de MCO para la
primera ecuación, y así, sucesivamente, para las demás ecuaciones.
𝐘𝐁 ′ + 𝐗𝚪 ′ = 𝐄, (16.4.6)
𝐘 = 𝐗𝚷′ + 𝚼, (16.4.7)
̂ ′ = (𝐗′𝐗)−1 𝐗′𝐘.
𝚷 (16.4.8)
𝒚 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆 , (16.4.9)
en que,
1
[𝒚 𝐘1 𝐗1 ] [−𝛃] = 𝛆 ,
−𝛄
o más precisamente,
1
−𝛃
[𝒚 𝐘1 𝐘2 𝐗1 𝐗 2 ] 𝟎 = 𝛆,
−𝛄
[ 0 ]
Las relaciones entre parámetros estructurales y reducidos están dadas por (16.2.4), que,
a su vez, se puede reescribir como,
𝚷′ 𝐁 ′ = −𝚪 ′ .
1
′ 𝛄
𝚷 [−𝛃] = [ ]. (16.4.10)
𝟎
𝟎
Reemplazando esta última expresión en (16.4.8), obtenemos, finalmente, los
̂ y 𝛄̂, resolviendo el sistema de
coeficientes MCI, en la forma de los vectores 𝛃
ecuaciones,
1
(𝐗′𝐗)−1 𝐗 ′ 𝐘 [−𝛃̂ ] = [𝛄̂]. (16.4.11)
𝟎
𝟎
̂ y 𝛄̂. Reescribiendo
El aspecto crucial es si acaso existe una única solución para 𝛃
(16.4.11) como
1
−1 ′ [𝒚
(𝐗′𝐗) 𝐗 𝐘1 𝐘2 ] [−𝛃̂ ] = [𝛄̂] ,
𝟎
𝟎
obtenemos,
̂ = [𝛄̂].
(𝐗′𝐗)−1 𝐗 ′ 𝒚 − (𝐗′𝐗)−1 𝐗 ′ 𝐘1 𝛃 (16.4.12)
𝟎
Si premultiplicamos esta última relación por (𝐗 ′ 𝐗), y particionamos X como [𝐗1 𝐗 2 ],
luego de reagrupar términos, obtenemos el sistema,
̂ + (𝐗 ′2 𝐗1 )𝛄̂ = 𝐗 ′2 𝒚.
(𝐗 ′2 𝐘1 )𝛃 (16.4.14)
Las ecuaciones anteriores también nos muestran que las estimaciones por MCI pueden
interpretarse como estimaciones por variables instrumentales (VI). Volviendo a la
ecuación estructural,
𝒚 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆,
tenemos que la inconsistencia de los estimadores MCO surge debido a las correlaciones
entre 𝐘1 y 𝛆. Sin embargo, las variables predeterminadas no están correlacionadas con el
término del error, y en el caso de identificación exacta,𝐗 2 tiene el mismo número de
columnas que 𝐘1, lo cual sugiere utilizar [𝐗 2 𝐗1 ] como instrumentos para [𝐘1 𝐗1 ].
Las estimaciones resultantes con el método de VI se obtienen resolviendo el sistema de
ecuaciones,
𝐗 ′2 𝐘1 𝐗 ′2 𝐗1 𝛃 ̂ VI 𝐗 ′2 𝒚
[ ] [ ] = [ ],
𝐗1′ 𝐘1 𝐗1′ 𝐗1 𝛄̂VI 𝐗1′ 𝒚
𝒚 = 𝐙1 𝜹 + 𝜺,
̂
̂VI = [𝛃VI ] = (𝐗 ′ 𝐙1 )−1 𝐗 ′ 𝒚,
𝜹 (16.4.15)
𝛄̂VI
Para analizar el método de MC2E, supongamos que la ecuación que se quiere estimar
está escrita de la forma siguiente,
𝐲 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆 , (16.4.16)
𝐾−𝑘 ≥𝑔−1,
ya sea para garantizar que, la ecuación esté exactamente o sobre identificada. Hemos
visto que la gran deficiencia de MCO, consiste en que las variables contenidas en 𝐘1
están correlacionadas con el término de error 𝛆, haciendo que MCO aplicado a (16.4.16)
obtenga estimaciones inconsistentes. El método de MC2E consiste justamente en
reemplazar 𝐘1 por otra matriz 𝐘 ̂1, que no tiene los problemas que sí tiene 𝐘1, y luego,
utilizar MCO de y sobre 𝐘 ̂1 y 𝐗1 , produciendo así estimadores consistentes. La matriz
̂1 se calcula regresionando cada variable contenida en 𝐘1 sobre la totalidad de las
𝐘
variables predeterminadas en el sistema completo de ecuaciones (primera etapa del
método), para luego reemplazar las variables y observadas por los valores
correspondientes obtenidos a través de las regresiones (etapa dos). Así es que tenemos,
̂1 = 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐘1 .
𝐘 (16.4.17)
̂′𝐘
𝐘 ̂ ̂1′ 𝐗1 𝛃
𝐘 ̂ ̂1′ 𝒚
𝐘
[ 1′ 1 ] [ ] = [ ], (16.4.18)
̂1
𝐗1 𝐘 𝐗1′ 𝐗1 𝛄̂ 𝐗1′ 𝒚
̂′ = [𝜷
en que, 𝜹 ̂′ 𝜸 ̂′ ] corresponde a las estimaciones MC2E de los parámetros𝜹′ =
[𝛃′ 𝛄′ ]. Concretamente, para la estimación de los coeficientes por MC2E no es
necesario calcular explícitamente 𝐘̂1.
̂1 + 𝐕1 ,
𝐘1 = 𝐘
̂1 𝐕1 = 0 ,
𝐘 y 𝐗 ′ 𝐕1 = 𝟎 .
Por lo tanto,
̂1′ 𝐘
𝐘 ̂1 = 𝐘
̂1′ (𝐘1 − 𝐕1 ) ,
̂1′ 𝐘1 ,
=𝐘
= 𝐘1′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐘1 .
Por ende, se podrán escribir las ecuaciones que determinan los estimadores por MC2E
como,
Por último, otra forma alternativa que se puede deducir trivialmente a partir de
(16.4.19), está dada por,
𝐲 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆 = 𝐙1 𝛅 + 𝛆 , (16.4.21)
donde,
𝐙1 = [𝐘1 𝐗1 ] , y , 𝛅′ = [𝛃′ 𝛄′ ] .
El método de VI se hace posible si es que podemos encontrar una matriz W, tal que,
1
(i) 𝑝𝑙𝑖𝑚 (𝑇 𝐖 ′ 𝐖) = 𝚺𝐰𝐰 , es una matriz positiva definida y simétrica,
1
(ii) 𝑝𝑙𝑖𝑚 ( 𝐖 ′ 𝐙1 ) = 𝚺𝐰𝐳1 , es una matriz finita no-singular,
𝑇
1
(iii) 𝑝𝑙𝑖𝑚 (𝑇 𝐖 ′ 𝛆) = 𝟎.
̂1′ 𝐘1
𝐘 ̂1′ 𝐗1 𝛃
𝐘 ̂ VI ̂1′ 𝒚
𝐘
[ ] [ ] = [ ]. (16.4.24)
𝐗1′ 𝐘1 𝐗1′ 𝐗1 𝛄̂VI 𝐗1′ 𝒚
Para chequear la consistencia del estimador MC2E, se requieren tres condiciones que
debe satisfacer la matriz W. Supondremos que se cumple que,
1 1
𝑝𝑙𝑖𝑚(𝑇 𝐖′𝐖)y𝑝𝑙𝑖𝑚(𝑇 𝐖′𝐙) ,
1 ′ 1
𝑝𝑙𝑖𝑚 ( 𝐘̂1 𝛆) = 𝑝𝑙𝑖𝑚( 𝐘1′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝛆)
𝑇 𝑇
1 1 −1 1
= 𝑝𝑙𝑖𝑚 ( 𝐘1′ 𝐗) ∙ 𝑝𝑙𝑖𝑚 ( 𝐗 ′ 𝐗) ∙ 𝑝𝑙𝑖𝑚 ( 𝐗 ′ 𝛆) = 𝟎.
𝑇 𝑇 𝑇
Esta última expresión se anula ya que, los dos primeros términos son finitos, y el tercero
es cero.
̂
𝛃 ̂′𝐘
𝐘 ̂ ̂1′ 𝐗1 −1
𝐘 ′ −1 ′
2 𝐘1 𝐗(𝐗′𝐗) 𝐗 𝐘1 𝐘1′ 𝐗1
−1
𝑉𝑎𝑟𝐴𝑠 [ ] = 𝑠 2 [ 1′ 1 ] = 𝑠 [ ] , (16.4.25)
𝛄̂ ̂1
𝐗1 𝐘 𝐗1′ 𝐗1 𝐗1′ 𝐘1 𝐗1′ 𝐗1
donde,
̂ − 𝐗1 𝛄̂)′ (𝒚 − 𝐘1 𝛃
𝑠 2 = (𝒚 − 𝐘1 𝛃 ̂ − 𝐗1 𝛄̂)/𝑇 , (16.4.26)
que es un estimador consistente de 𝜎𝜀2 13. Por lo tanto, los estimadores MC2E, son
consistentes y se distribuyen asintóticamente como una normal, con una matriz de
varianzas-covarianzas dada por (16.4.25).
Muchas veces en aplicaciones prácticas del método MC2E, sucede que el número de las
variables predeterminadas, especialmente en modelos macroeconómicos de gran
envergadura, es elevado en comparación con el número de observaciones disponibles.
Por ejemplo, supongamos que se da el caso en que, 𝐾 = 𝑇. En esta situación la matriz X
cuadrada, y en ausencia de relaciones lineales entre las variables predeterminadas,
además es no-singular. De la relación (16.4.17), tenemos que,
̂1 = 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐘1 = 𝐗𝐗 −1 (𝐗 ′ )−1 𝐗 ′ 𝐘1 = 𝐘1 .
𝐘
Por lo tanto, MC2E es equivalente a MCO. En este caso, los estimadores MC2E ya no
serán consistentes, ya que la matriz de variables instrumentales es ahora,
Cuando ocurre el caso más extremo aún de 𝐾 > 𝑇, tenemos que la matriz 𝐗′𝐗, que esde
orden𝐾 × 𝐾, no es de rango completo ya que su rango es igual a T. Por lo tanto, esta
matriz es singular por lo que no existe (𝐗′𝐗)−1. Este hecho ha llevado a pensar a
algunos que no existe el estimador MC2E. Sin embargo, éste no es el caso, como
señalan Fisher y Wadycki (1971)14. Ellos arguyen que, 𝐘 ̂1 será única a pesar de la
multiplicidad de soluciones para los coeficientes reducidos. Por ejemplo, consideremos
la primera variable en𝐘1, y denotemos este vector de observaciones como 𝐲1 (que es de
13
Hay algunos autores que prefieren usar como grados de libertad la cantidad de 𝑇 − 𝑔 − 𝑘 + 1. Si
usamos esta cantidad como divisor en (16.4.26), también obtenemos un estimador consistente para 𝜎𝜀2 .
14
Fisher, W. D., y W. J. Wadycki (1971). “Estimating a Structural Equation in a Large System,”
Econometrica, Vol. 39, pág.: 461-465.
𝑇 × 1). Sea p el vector de 𝐾 × 1 de coeficientes reducidos estimados por MCO
correspondiente a 𝐲1 . La relación usual entre ambos coeficientes está dada por,
Como 𝐗 ′ 𝐗es de orden𝐾 × 𝐾 con rango 𝑇 < 𝐾, la ecuación (16.4.27) tiene una infinidad
de soluciones. Sean, 𝐩1 y 𝐩2 dos soluciones posibles a (16.4.27); tendremos entonces,
(𝐩1 − 𝐩2 )′ (𝐗 ′ 𝐗)(𝐩1 − 𝐩2 ) = 0.
𝐗 ′ (𝐗𝐩 − 𝐲1 ) = 𝟎.
Si la ecuación que se quiere estimar por MC2E no contiene ninguna variable endógena
rezagada como variable explicativa, el método de estimación a emplearse es
sencillamente una generalización de los métodos que se describieron en el Capítulo VII.
Supongamos que la primera ecuación del sistema de ecuaciones simultáneas, presenta
autocorrelación del tipo AR(1),
El paso (iii) con toda seguridad, trae consigo ganancias en cuanto a eficiencia asintótica,
sin embargo, dado que la muestra es pequeña, la ganancia no resulta ser tan clara.
Debemos hacer notar aquí que, incluso si los errores se distribuyen normalmente, el
estimador final no es enteramente eficiente, y ello se debe a dos razones. Primeramente,
tal como menciona Sargan (1961), la eficiencia plena requeriría estimar la forma
reducida completa15. Y en segundo término, contrariamente al primer caso, este
15
Sargan, D. (1961). “The Maximum Likelihood Estimation of Economic Relationships with
Autoregressive Residuals,” Econometrica, Vol. 29, pág.: 414-426.
estimador requiere de un estimador eficiente para 𝜌1 . Esto podría lograrse iterando
sobre 𝜌1 en el paso (iii).
𝐲 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆 ,
Goldberger (1965) mostró que los estimadores de clase-k pueden interpretarse como
estimadores de variables instrumentales17. Como ya es usual, la ecuación que se debe
estimar es,
𝐲 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆 .
16
Theil, H. (1961). Economic Forecasts and Policy, 2da.Edición, North-Holland Publishing Company, pág.:
231-232, 334-336.
17
Goldberger, A. (1965). “An Instrumental Variable Interpretation of k-Class Estimation,” The Indian
Economic Journal, Vol. 13, pág.: 424-431.
Falta por mostrar que esta relación es equivalente a (16.4.30). Ambas expresiones sólo
difieren en los dos términos superiores de la matriz en el lado izquierdo. Comenzando
con los términos de (16.4.30), tenemos,
ya que,
𝐕1 = 𝐌𝐘1 ,
con,
Por lo tanto,
𝐘1′ 𝐗1 = 𝐘1′ 𝐗1 − 𝑘𝐘1′ 𝐌𝐗1 , pues 𝐌𝐗1 = 𝟎, con lo que, 𝐘1′ 𝐗1 = (𝐘1 − 𝑘𝐕1 )′ 𝐗1 .
Por lo tanto, las relaciones (16.4.30) y (16.4.31) son idénticas, con lo que,
efectivamente, se constata que los estimadores de clase-k son estimadores VI con
Con lo que,
𝑝𝑙𝑖𝑚𝐘1′ 𝛆/𝑇 ≠ 𝟎,
ya que, en general, el término de error 𝛆 y las variables endógenas están correlacionadas
entre sí en modelos de ecuaciones simultáneas. Por lo tanto, los estimadores de clase-k
serán consistentes, si y sólo si,𝑝𝑙𝑖𝑚(1 − 𝑘) = 0 .
Este resultado se satisface tanto para los estimadores MC2E y los EIL, pero no para los
estimadores MCO.
con,
̂ 𝑉𝐼 )′ (𝐘 − 𝐗𝛃
𝑠 2 = (𝐘 − 𝐗𝛃 ̂ 𝑉𝐼 )/(𝑇 − 𝐾) ,
al caso de los estimadores de clase-k, basta con emplear los instrumentos [𝐘1 − 𝑘𝐕1 𝐗1 ]
para [𝐘1 𝐗1 ] , reemplazando k por uno, para obtener el resultado deseado, que es igual
a lo estipulado por la relación (16.4.25) para los estimadores MC2E y también para los
EIL.
𝐲 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆 ,
𝐘∆ 𝛃∆ + 𝐗1 𝛄 + 𝛆 = 𝟎, (16.4.32)
donde19,
−1
𝐘∆ = [𝐲 𝐘1 ]y𝛃∆ = [ ]. (16.4.33)
𝛃
𝛃′∆ 𝐘∆′ 𝐌1 𝐘∆ 𝛃∆
𝑙= , (16.4.34)
𝛃′∆ 𝐘∆′ 𝐌𝐘∆ 𝛃∆
18
Relación que corresponde, igual que antes, a la primera ecuación de nuestro sistema de G ecuaciones.
19
Con esta nueva notación, la versión reducida del sistema de ecuaciones queda como,
𝐘∆ = 𝐗𝚷∆′ + 𝐕∆ , en que, 𝚷 ′ = [𝚷∆′ 𝚷2′ ] , y , 𝐘 = 𝐗𝚷 ′ + 𝐕, con, 𝐕 = [𝐕∆ 𝐕2 ].
donde, 𝐌1 = 𝐈 − 𝐗1 (𝐗1′ 𝐗1 )−1 𝐗1′y𝐌 = 𝐈 − 𝐗(𝐗 ′ 𝐗)−1 𝐗 ′ . Una vez determinado el
estimador RVM 𝛃̂ ∆ , el estimador RVM de 𝛄es entonces, 𝛄̂ = −(𝐗1′ 𝐗1 )−1 𝐗1′ 𝐘∆ 𝛃
̂∆ .
̂ ∆ es la solución de la ecuación,
Veremos a continuación que el estimador RVM,𝛃
además de minimizar el cuociente de varianzas. Para ver esto, tenemos que para
minimizar dicho cuociente, 𝑙 debe satisfacer,
𝑑𝑙 2𝐘 ′ 𝐌 𝐘 𝛃
̂ ̂ ′∆ 𝐘∆′ 𝐌1 𝐘∆ 𝛃
2𝛃 ̂∆
1 ∆ ∆
= 𝛃̂′ ∆𝐘 ′ 𝐌𝐘 ̂ ∆ = 0.
𝐘∆′ 𝐌𝐘∆ 𝛃
𝑑𝛃̂∆ ̂ −
𝛃
∆ ∆ (𝛃 ̂ ∆ )2
̂′ 𝐘 ′ 𝐌𝐘∆ 𝛃
∆ ∆ ∆ ∆
̂ ′∆ 𝐘∆′ 𝐌𝐘∆ 𝛃
Multiplicando por, 𝛃 ̂ ∆ /2, obtenemos, trivialmente, que se satisface la relación
(16.4.35), donde,
̂′ ′
𝛃 𝐘 𝐌1 𝐘∆ 𝛃∆ ̂
𝑙̂ = 𝛃̂∆′ 𝐘∆′ 𝐌𝐘 ̂ .
∆ ∆ 𝛃∆ ∆
Ahora bien, para que exista una solución 𝛃̂ ∆ , la matriz 𝐘∆′ 𝐌1 𝐘∆ − 𝑙̂𝐘∆′ 𝐌𝐘∆ ,
forzosamente debe ser singular, es decir, se debe satisfacer (16.4.36), y donde además se
requiere que el cuociente de varianzas sea mínimo, por lo que𝑙̂ debe, forzosamente,
corresponder a la raíz más pequeña20.
(𝐘1′ 𝐘1 − 𝑙̂𝐕1′ 𝐕1 )𝛃
̂ + 𝐘1′ 𝐗1 𝛄̂ = (𝐘1 − 𝑙̂𝐕1 )′ 𝐲.
20
Es claro que se deberá imponer alguna regla de normalización para que la solución a (16.4.35) sea
única. Sin embargo, qué regla se elija finalmente, no tiene ninguna importancia.
̂ ∆ + 𝐘1′ 𝐗1 𝛄̂ = 𝟎 .
[(𝐘1 − 𝑙̂𝐕1 )′ 𝐲 𝐘1′ 𝐘1 − 𝑙̂𝐕1′ 𝐕1 ]𝛃
Notando que,𝐕1′ 𝐲 = 𝐘1′ 𝐌𝐲 = 𝐘1′ 𝐌𝐌𝐲 = 𝐕1′ 𝐯1 , donde 𝐯1 = 𝐌𝐲, podemos escribir la
última igualdad como,
Sea ahora, 𝐕∆ = [𝐯1 𝐕1 ], e igual que antes, 𝐘∆ = [𝐲 𝐘1 ]. Con esta notación tenemos
que,
(𝐘1′ 𝐘∆ − 𝑙̂𝐕1′ 𝐕∆ )𝛃
̂ ∆ + 𝐘1′ 𝐗1 𝛄̂ = 𝟎. (16.4.38)
̂ + 𝐗1′ 𝐗1 𝛄̂ = 𝐗1′ 𝐲,
𝐗1′ 𝐘1 𝛃
que es equivalente a,
̂∆.
𝛄̂ = −(𝐗1′ 𝐗1 )−1 𝐗1′ 𝐘∆ 𝛃
Esta última relación corresponde al estimador RVM para 𝛄, ya que se puede mostrar
que 𝛃̂ ∆ es el estimador RVM de 𝛃∆ . Para ello, sólo se necesita reemplazar este valor de
𝛄̂ en la ecuación (16.4.38) para así obtener,
Sin embargo, 𝐕1′ 𝐕∆ ,es igual a 𝐘∆′ 𝐌𝐘∆ salvo por la primera fila, y, por otra parte, 𝐘1′ 𝐘∆ −
𝐘1′ 𝐗1 (𝐗1′ 𝐗1 )−1 𝐗1′ 𝐘∆es igual a 𝐘∆′ 𝐌1 𝐘∆ salvo por la primera fila. Por lo tanto podemos
inferir que, (𝐘∆′ 𝐌1 𝐘∆ − 𝑙̂𝐘∆′ 𝐌𝐘∆ ), sin su primera fila, y multiplicada por 𝛃 ̂ ∆ , es igual a
cero, que es justamente el estimador de clase-k con 𝑘 = 𝑙̂, ya vista en la expresión
(16.4.35).
Un resultado que es fundamental, en relación a los estimadores RVM, dice que éstos
son consistentes, es decir, se cumple que 𝑝𝑙𝑖𝑚 𝑙̂ = 1. Para demostrar dicha aseveración,
tomaremos en cuenta que el estimador RVM es un estimador de clase-k con 𝑘 = 𝑙̂. Pero,
por otra parte, 𝑙̂ se define como la raíz más pequeña de,
Por lo tanto,
Esta matriz es de dimensión, 𝑔 × 𝑔, cuyo rango no puede ser mayor que 𝑔 − 1, que es
′
el rango de𝚷∆,2• Por ende, se concluye que la matriz en cuestión es singular, probando
así el aserto.
Los estimadores RVM tienen otras propiedades que los hacen ser atractivos. Por
ejemplo, tienen la misma distribución asintótica que los estimadores MC2E22. La idea
detrás de esta aseveración, es mostrar que 𝑝𝑙𝑖𝑚 √𝑇(𝑙̂ − 1) = 0. Los detalles de esta
demostración aparecen en Schmidt (1976).
Además, resulta de interés constatar algunas propiedades de los estimadores RVM, que
aparecen, por ejemplo, cuando se está tratando de estimar una ecuación que está
exactamente identificada. Se puede demostrar que si esto ocurre, entonces 𝑙̂ = 1,
(Schmidt, 1976). Además, si la ecuación está exactamente identificada, se cumple que,
el estimador RVM es idéntico al estimador MC2E, que a su vez, también es igual al
estimador MCI.
21
Usamos la siguiente notación: Igual que antes, 𝐗 = [𝐗1 𝐗 2 ]; 𝐘∆ = 𝐗𝚷∆′ + 𝐕∆ . También, tenemos
π π21
que,𝚷∆′ = [π11 π22 ]y 𝚷∆,1• = [π11 π21 ] ; 𝚷∆,2• = [π12 π22 ] . La matriz correspondiente a
′ ′
12
todos los parámetros reducidos del sistema está dada por, 𝚷 ′ = [𝚷∆′ 𝚷2′ ] .
22
El lector interesado puede consultar, Schmidt, P. (1976). Econometrics, Marcel Dekker, New York.
donde, los 𝝂𝑡 corresponden a los errores en la versión reducida del sistema de
ecuaciones: 𝒚𝑡 = 𝚷𝒙𝑡 + 𝝂𝑡 , y además son serialmente independientes. De la forma
reducida del sistema, obtenemos la siguiente verosimilitud condicionada de las G
observaciones 𝒚𝑡 ,
(16.4.40)
∑𝑇𝑡=1 𝒛′𝑡 𝐀′ 𝛀−1 𝐀𝒛𝑡 = 𝑇𝑟(𝐙𝐀′ 𝛀−1 𝐀𝐙′ ) = 𝑇𝑟(𝛀−1 𝐀𝐙′ 𝐙𝐀′ ) ,
(16.4.41)
donde,
𝒚1′ 𝒙1′
𝐙 = [𝐘 𝐗] = [ ⋮ ⋮ ] ,
𝒚′𝑇 𝒙′𝑇
Esta última expresión nos dice que, podemos obtener el estimador máximo verosímil
(MV) de 𝚷, sencillamente, minimizando el término de la traza. La solución es,
obviamente, 𝚷̂ ′ = (𝐗′𝐗)−1 𝐗′𝐘 , que es el estimador MCO de 𝚷′ . Para probar esto,
consideremos cualquier otro estimador, por ejemplo, (𝐗′𝐗)−1 𝐗 ′ 𝐘 + 𝐃, donde D es
cualquier matriz de 𝐾 × 𝐺.Reemplazando en (16.4.41), el nuevo término de la traza
queda como,
𝐘∆ 𝛃∆ + 𝐗1 𝛄 + 𝛆 = 𝟎.
o si se quiere,
𝐘∆ = 𝐗𝚷∆′ + 𝐕∆ .
′ ′
Usando la notación,𝚷∆,1• = [π11 π21 ] y 𝚷∆,2• = [π12 π22 ], podemos escribir,
π11 π21 ′
π22 ] corresponde a𝚷∆ .
23
Recordar que en esta notación, [π
12
′ ′
𝐘∆ = 𝐗1 𝚷∆,1• + 𝐗 2 𝚷∆,2• + 𝐕∆ .
𝐘 = 𝐗𝚷′ + 𝐕,
𝑙𝑜𝑔𝐿(𝐘∆ ) = 𝐶1 + (𝑇/2)𝑙𝑜𝑔|𝛀−1 −1 ′ ′ ′
∆ | − 𝑇𝑟[𝛀∆ (𝐘∆ − 𝐗𝚷∆ ) (𝐘∆ − 𝐗𝚷∆ )]/2 .
24 ′
En estricto rigor la restricción toma la forma, 𝚷∆,2• 𝛃∆ = 0 .
25
Ver, por ejemplo, Dhrymes, P. J. (1984). “Mathematics for Econometrics”, Springer-Verlag (Second
Edition).
𝜕𝑙𝑜𝑔|𝐀|
= 𝐀−1 ,
𝜕𝐀
obtenemos,
𝜕𝑙𝑜𝑔𝐿(𝐘∆ )
= (𝑇/2)𝛀∆ − (𝐘∆ − 𝐗𝚷∆′ )′ (𝐘∆ − 𝐗𝚷∆′ )/2 = 0 ,
𝜕𝛀−1
∆
Ahora, esta expresión debe maximizarse con respecto de 𝚷∆′ sujeto a la restricción
anterior. Pero es claro que, esta maximización es equivalente a la minimización de la
varianza generalizada de los residuos, |(𝐘∆ − 𝐗𝚷∆′ )′ (𝐘∆ − 𝐗𝚷∆′ )|, sujeta a la misma
restricción, todo lo cual conduce a obtener el estimador RVGM (16.4.42). No se
presentará la demostración aquí, pues su derivación es un tanto extensa, pero se puede
mostrar que el estimador RVGM es idéntico al estimador RVM26.
Lo que sí se derivará acá es el estimador MVIL, y se verá qué sentido toma el término
limitado. Se maximizará la función de verosimilitud en términos de sus parámetros
estructurales, pasando por alto todas las restricciones a priori salvo aquellas que se
refieren a la primera ecuación del sistema. Previo a la demostración misma, se probará
el siguiente lema:
𝜎 𝟎
𝛒𝐇•1 = 𝛒•1 y𝐇 ′ 𝚺𝐇 = [ 11 ]
𝟎 𝐈𝐺−1
Demostración:
H11 𝐇12
𝐇=[ ],
𝐇21 𝐇22
26
El lector interesado podrá consultar, Schmidt, P. (1976). Econometrics, Marcel Dekker, Inc.
H11
𝐇•1 = [ ].
𝐇21
Ahora bien, elegimos la matriz H tal que, H11 = 1 y 𝐇21 = 𝟎, con lo que se cumple el
requisito, 𝛒𝐇•1 = 𝛒•1 . Ahora sean,
1 𝐇12 𝜎 𝚺12
𝐇=[ ]y𝚺 = [ 11 ].
𝟎 𝐇22 𝚺21 𝚺22
𝜎11 𝟎
𝐇 ′ 𝚺𝐇 = [ ′ ].
𝟎 𝐇22 (𝚺22 − 𝚺21 𝚺12 /𝜎11 )𝐇22
Ahora, si𝚺es positivo definido, también lo será27, 𝚺22 − 𝚺21 𝚺12 /𝜎11. Por la tanto, existe
una matriz Ano-singular tal que, 𝐀′ 𝐀 = 𝚺22 − 𝚺21 𝚺12 /𝜎11 . De aquí, sigue que, se
cumple,
𝜎 𝟎
𝐇 ′ 𝚺𝐇 = [ 11 ].
𝟎 𝐈
Finalmente, la no-singularidad de,
𝜎11 𝟎
[ ],
𝟎 𝐈
implica, a su vez, la no-singularidad de 𝐇.
𝐘𝐁 ′ + 𝐗𝚪 ′ + 𝐄̃ = 𝟎,
27
Si 𝚺es una matriz de varianza-covarianza de alguna variable de 𝑛 × 1, entonces, 𝚺22 − 𝚺21 𝚺12 /𝜎11 , es
la matriz de varianza-covarianza correspondiente a la distribución de los últimos 𝑛 − 1 elementos,
condicionados al primer elemento de la variable aleatoria.
𝐙𝛒 + 𝐄̃ = 𝟎,
′ ′
en que, 𝐙 = [𝐘 𝐗]y𝛒′ = [𝐁 𝚪]. A manera de notación, sean 𝐁•1 , 𝚪•1 y 𝛒•1 las
′ ′
primeras columnas de 𝐁 , 𝚪 y 𝛒,respectivamente, y convengamos además en que,
′ ′ ′ ′
𝐁 ′ = [𝐁•1 𝐁(1) ] , 𝚪 ′ = [𝚪•1 𝚪(1) ] , 𝛒 = [𝛒•1 𝛒(1) ]. Transformando, a
continuación, este sistema, usando una matriz Hno-singular, se obtiene,
y,
𝜎 𝟎
𝐇 ′ 𝚺𝐇 = [ 11 ].
𝟎 𝐈
Esto siempre es posible atendiendo al lema que se demostró anteriormente28.
tenemos,
𝑇 ′ 1 1
ℒ = 𝐶1 − (2) 𝑙𝑜𝑔𝜎11 + 𝑇𝑙𝑜𝑔||𝐁•1 𝐁+′ || − ( ) 𝛒′•1 𝐙′ 𝐙𝛒•1 − (2) 𝑇𝑟𝚸+′ 𝐙´𝐙𝚸+ .
2𝜎11
(16.4.43)
28
Hay que hacer notar que, esta transformación no altera los parámetros de la primera ecuación de
nuestro sistema, y además, tenemos que, la primera ecuación es independiente de las siguientes 𝐺 − 1
ecuaciones transformadas.
′ ′ ||
𝜕ℒ 𝜕𝑙𝑜𝑔||𝐁•1 𝐁+ 1 𝜕𝑇𝑟𝚸+′ 𝐙´𝐙𝚸+
=𝑇 −2 =0. (16.4.44)
𝜕𝚸+ 𝜕𝚸+ 𝜕𝚸+
Se cumple que,
′
𝜕𝑙𝑜𝑔||𝐁•1 ′ ||
𝐁+
′
𝜕𝑙𝑜𝑔||𝐁•1 ′ ||
𝐁+ ′
𝜕𝐁+
= ,
𝜕𝚸+ ′
𝜕𝑙𝑜𝑔||𝐁•1 ′ ||
𝐁+
[ 𝜕𝚪+′ ]
y, se constata que,
′
𝜕𝑙𝑜𝑔||𝐁•1 ′ ||
𝐁+ ′
𝜕𝑙𝑜𝑔||𝐁•1 ′ ||
𝐁+
=𝟎 ; =𝐉,
𝜕𝚪+′ ′
𝜕𝐁+
′
donde, la matriz 𝐉consiste de las últimas 𝐺 − 1 columnas de [𝐁•1 𝐁+′ ]′−1, es decir,
𝐁•1 −1 𝟎
𝐉=[ ] [ ]. (16.4.45)
𝐁+ 𝐈𝐺−1
𝜕𝑇𝑟𝚸+′ 𝐙´𝐙𝚸+
= 2𝐙´𝐙𝚸+ .
𝜕𝚸+
𝜕ℒ 𝐉
= 𝑇 [ ] − 𝐙´𝐙𝚸+ = 𝟎.
𝜕𝚸+ 𝟎
De lo que se desprende,
𝑇𝐉
𝐙´𝐙𝚸+ = [ ]. (16.4.46)
𝟎
Por lo tanto, gracias a la relación (16.4.45)
𝐁•1 𝐁•1 −1 𝟎
= 𝑇[𝟎 ]
𝐈 𝐁 ] [ 𝐁 ] [ ].
[
+ + 𝐈
Resulta ilustrativo constatar que esta última expresión es una constante. También
′
necesitamos el valor máximo de𝑇𝑙𝑜𝑔||𝐁•1 𝐁+′ ||. Tenemos la siguiente igualdad,
𝑇𝐉 𝐁′
[ ] = 𝐙´𝐙𝚸+ = [𝐘′𝐘 𝐘′𝐗] [ +′ ],
𝟎 𝐗′𝐘 𝐗′𝐗 𝚪+
por lo que podemos formar el siguiente sistema de ecuaciones:
𝑇𝐉 = 𝐘 ′ 𝐘𝐁+′ + 𝐘′𝐗𝚪+′
donde M es el operador de proyección, 𝐈 − 𝐗(𝐗 ′ 𝐗)−1 𝐗′. Esta relación se puede escribir
también como,
𝐉 = 𝐖𝐁+′ . (16.4.49)
en que, 𝐖 = 𝐘 ′ 𝐌𝐘/𝑇. Por otra parte, se puede verificar que la siguiente expresión
constituye, efectivamente, una identidad29:
′ ′ 2
2𝑙𝑜𝑔||𝐁•1 𝐁+′ || = 𝑙𝑜𝑔 [||𝐁•1 𝐁+′ || |𝐖|] − 𝑙𝑜𝑔|𝐖| . (16.4.50)
(16.4.51)
𝐁•1 −1 𝟎
𝐖𝐁+′ = 𝐉 = [ ] [ ],
𝐁+ 𝐈𝐺−1
𝐁 𝐁 −1 𝟎
𝐁•1 𝐖𝐁+′ = [𝐈 𝟎] [ •1 ] [ •1 ] [ ] = 𝟎,
𝐁+ 𝐁+ 𝐈
y,
𝐁 𝐁 −1 𝟎
𝐁+ 𝐖𝐁+′ = [𝟎 𝐈] [ 𝐁•1 ] [ 𝐁•1 ] [ ] = 𝐈𝐺−1 .
+ + 𝐈
o equivalentemente,
𝑇 𝑇 ′ | 1
ℒ ∗ = 𝐶2 − 𝑙𝑜𝑔𝜎11 + 𝑙𝑜𝑔|𝐁•1 𝐖𝐁•1 − 𝛒′•1 𝐙 ′ 𝐙𝛒•1 , (16.4.53)
2 2 2𝜎11
ya que |𝐖|es una constante que no depende de parámetros. En este momento, tenemos a
la función de verosimilitud expresada solamente en términos de los parámetros de la
primera ecuación del sistema, siendo la idea, maximizarla, imponiendo todas las
restricciones que pudiesen existir en la misma. Para ello, definamos30,
′ 𝛃∆ ′ 𝛄
𝐁•1 =[ ] , 𝚪•1 = [ ] , 𝐘 = [𝐘∆ 𝐘2 ], 𝐗 = [𝐗1 𝐗 2 ]. (16.4.54)
𝟎 𝟎
𝐖11 𝐖12
𝐖=[ ], (16.4.55)
𝐖21 𝐖22
de manera que,
1
𝐖11 = 𝑇 𝐘∆′ 𝐌𝐘∆. (16.4.56)
𝛃 ′ 𝛃
′
𝐁•1 𝐖𝐁•1 = [ ∆ ] 𝐖 [ ∆ ] = 𝛃′∆ 𝐖11 𝛃∆ . (16.4.57)
𝟎 𝟎
Como ocurre que, 𝐙 = [𝐘∆ 𝐘2 𝐗1 𝐗 2 ], se satisface,
(16.4.59)
30
Recordemos que 𝐘2 , 𝐗 2 corresponden a las variables endógenas y predeterminadas, respectivamente,
que no aparecen explícitamente en la primera ecuación.
Si ahora procedemos a maximizar ℒ ∗ con respecto a 𝛄, obtenemos,
𝜕ℒ ∗ 1
= − 2𝜎 (2𝐗1′ 𝐘∆′ 𝛃∆ + 2𝐗1′ 𝐗1 𝛄) = 𝟎,
𝜕𝛄 11
donde,
1 1
∗
𝐖11 = 𝑇 𝐘∆′ [𝐈 − 𝐗1 (𝐗1′ 𝐗1 )−1 𝐗1′ ]𝐘∆ = 𝑇 𝐘∆′ 𝐌1 𝐘∆. (16.4.62)
𝑇 𝛃′ 𝐖 ∗ 𝛃
ℒ ∗∗∗ = 𝐶3 − 2 𝑙𝑜𝑔 [𝛃∆′ 𝐖11 𝛃∆ ]. (16.4.64)
∆ 11 ∆
𝛃′∆ 𝐖11
∗ 𝛃
∆
,
𝛃′∆ 𝐖11 𝛃∆
𝛃′∆ 𝐘∆′ 𝐌1 𝐘∆ 𝛃∆
𝑙= ,
𝛃′∆ 𝐘∆′ 𝐌𝐘∆ 𝛃∆
por lo que, al minimizar este cuociente, con respecto de𝛃∆ estamos en realidad
obteniendo el estimador según el criterio de RVM.
Todos los estimadores que se han presentado hasta el momento, MCI, MC2E, MVIL y
RVM, son básicamente, estimadores que hacen uso de información limitada, pues
obvian la información estadística contenida en las ecuaciones estructurales que no
corresponden a la ecuación estructural que se está estimando. En principio, si el modelo
estructural del sistema completo de ecuaciones está correctamente especificado, se
podrán obtener estimadores con una mayor eficiencia asintótica, que aquellos
estimadores que sólo hacen uso de la información limitada contenida en la ecuación que
se quiere estimar. En la literatura econométrica, existen, principalmente, dos métodos
que utilizan la información completa del sistema de ecuaciones: mínimos cuadrados en
tres etapas (MC3E), y máxima verosimilitud con información completa (MVIC).
𝐲i = 𝐘i 𝛃𝒊 + 𝐗 i 𝛄i + 𝛆i , (16.5.1)
𝐲i = 𝐙i 𝛅i + 𝛆i , (16.5.2)
𝐗 ′ 𝐲i = 𝐗 ′ 𝐙i 𝛅i + 𝐗′𝛆i ,𝑖 = 1, … , 𝐺 (16.5.3)
suponiendo que se cumple, 𝐸(𝛆i 𝛆′i ) = 𝜎ii 𝐈. Usando mínimos cuadrados generalizados
(MCG) en (16.5.3), obtenemos,
31
Zellner, A. y H. Theil (1962). “Three Stage Least Squares: Simultaneous Estimation of Simultaneous
Equations,” Econometrica, Vol. 30, pág.: 54-78.
̂i = (𝐙i′ 𝐏𝐗 𝐙i )−1 𝐙i′ 𝐏𝐗 𝐲i .
𝛅 (16.5.6)
que es equivalente a,
𝐰i = 𝐖i 𝛅i + 𝐯i , (16.5.8)
donde,
𝐰i = 𝐏′𝐗 ′ 𝐲i,
𝐖i = 𝐏′𝐗 ′ 𝐙i ,
𝐯i = 𝐏′𝐗′𝛆i.
𝐰1 𝐖1 𝟎 ⋯ 𝟎 𝛅1 𝐯1
𝐰2 𝟎 𝐖2 ⋯ 𝟎 𝛅2 𝐯2
[ ⋮ ]=[⋯ ⋯ ⋯ ][ ⋮ ] + [ ⋮ ] , (16.5.11)
⋯
𝐰𝐺 𝟎 𝟎 ⋯ 𝐖𝐺 𝛅𝐺 𝐯𝐺
o en forma aún más compacta32,
𝐰 = 𝐖𝛅 + 𝐯, (16.5.12)
donde las definiciones de los símbolos en (16.5.12) son obvias. Se puede chequear
trivialmente que la matriz de varianzas-covarianzas del vector v está dada por,
𝐕 = 𝐸(𝐯𝐯 ′ ) = 𝚺 ⊗ 𝐈. (16.5.13)
̂i ,𝑖 = 1, … , 𝐺 ,
𝛆̂i = 𝐲i − 𝐙i 𝛅
donde𝛅̂i es el estimador MC2E del vector 𝛅i . Con esta especificación, los elementos de
𝚺son estimados a través de,
̂=𝚺
𝐕 ̂ ⊗ 𝐈,
32
Un enfoque enteramente equivalente se obtiene escribiendo el sistema de ecuaciones (16.5.11)
como,(𝐈 ⊗ 𝐏 ′ 𝐗 ′ )𝐲 = (𝐈 ⊗ 𝐏 ′ 𝐗 ′ )𝐙𝛅 + (𝐈 ⊗ 𝐏 ′ 𝐗 ′ )𝛆, donde: 𝐲 ′ = [𝐲1′ ⋯ 𝐲G′ ], 𝛅′ = [𝛅1′ ⋯ 𝛅′G ],𝛆′ =
[𝛆1′ ⋯ 𝛆′G ] ,y𝐙 = Diag(𝐙1 , … , 𝐙G ). Si aplicamos el teorema de Aitken (MCG) a (16.5.14), obtenemos,
̂MC3E = [𝐙′(𝚺 −1 ⊗ 𝐗(𝐗 ′ 𝐗)−1 𝐗′)𝐙]−1 [𝚺 −1 ⊗ 𝐗(𝐗 ′ 𝐗)−1 𝐗′]𝐲, que es equivalente a (16.5.14).
𝛅
33
Es decir, (𝚺)ij = 𝜎ij .
34
La temática en torno de los estimadores SUR de Zellner, aparecerá en el acápite 16.7 de este mismo
capítulo.
̂MC3E = (𝐖′𝐕
𝛅 ̂ −1 𝐖)−1 𝐖′𝐕
̂ −1 𝐰, (16.5.14)
̂MC3E ) = (𝐖′𝐕
𝐴𝑉𝑎𝑟(𝛅 ̂ −1 𝐖)−1 .
̂ −1 .
donde los elementos 𝜎̂ 𝑖𝑗 denotan los elementos (𝑖, 𝑗) de 𝚺
El estimador descrito por (16.5.15), conocido como estimador MC3E, tiene las primeras
dos etapas idénticas a las del estimador MC2E, que entregan finalmente la matriz 𝚺 ̂; la
tercera etapa consiste sencillamente en la aplicación de MCG a (16.5.12) con
𝚺reemplazado por 𝚺 ̂. La matriz inversa, inmediatamente a la derecha del signo igual en
̂MC3E , a partir de la cual
(16.5.15), corresponde a la matriz de varianzas-covarianzas de 𝛅
se pueden obtener errores estándares asintóticos de los parámetros estimados,
calculando las raíces cuadradas de los elementos en la diagonal principal de esta matriz.
Para ver las propiedades asintóticas del estimador MC3E, conviene reemplazar el
producto de matrices (𝐗′𝐗)−1 𝐗 ′ por la inversa generalizada 𝐗 + . Así, el estimador
MC2E de (16.5.5) queda como,
35
La demostración de este teorema aparece en: Theil, H. (1971). Principles of Econometrics, John Wiley
& Sons, Inc., New York.
(i) El estimador 𝛅̂MC3E es consistente, y √𝑇(𝛅̂ MC3E − 𝛅) tiene una distribución
asintótica que es normal con media nula y matriz de varianzas-covarianzas
asintótica dada por,
1 + −1
plim [ 𝐙′(𝚺 −1 ⊗ 𝐗𝐗 )𝐙] . (16.5.18)
𝑇→∞ 𝑇
−1 −1
La matriz (16.5.18) se estima consistentemente con 𝑇[𝐙′(𝚺̂ ⊗ 𝐗𝐗 + )𝐙] .
𝜎ij = 0 , ∀ 𝑖 ≠ 𝑗 ,
̂MC3E = 𝐖 −1 𝐕
𝛅 ̂(𝐖′)−1 𝐖 ′ 𝐕
̂ −1 𝐰 = 𝐖 −1 𝐰.
36
Lo cual no quiere decir que a nivel muestral lo sean, cuando 𝜎ij = 0 . La relación (16.5.15),
corresponde al estimador MC3E factible, pues 𝚺 −1 debe estimarse y ser reemplazado por 𝚺 ̂ −1 , donde lo
más probable es que esta última no se diagonal.
37
Para este caso particular, el modelo SUR asegura que los estimadores SUR son equivalentes a los
estimadores MCO.
Bajo el mismo supuesto, el estimador MC2E para la ecuación i-ésima enla relación
(16.5.10), se reduce a,
̂i = 𝐖i −1 𝐰i .
𝛅
̂1
𝛅 𝐖1 −1 𝟎 ⋯ 𝟎 𝐰1
̂ 𝐖2 −1 𝐰
̂MC2E
𝛅 = 𝛅2 = 𝟎 ⋯ 𝟎 [ 2 ] = 𝐖 −1 𝐰 = 𝛅
⋮
̂MC3E .
⋮ ⋯ ⋯ ⋯ ⋯
̂G ] [ 𝟎
[𝛅 𝟎 ⋯ 𝐖G −1 ] 𝐰𝐺
Hasta este momento, hemos supuesto que todas las ecuaciones del sistema están
identificadas. En la práctica econométrica, antes de aplicar el algoritmo de MC3E, es
necesario eliminar del sistema todas aquellas ecuaciones que no están identificadas,
además de las identidades que pudiesen existir, ya que estas últimas tienen un término
de error nulo lo que hace que la matriz 𝚺sea singular. Además, como ya se mencionó
anteriormente, un supuesto que es clave para que los estimadores MC3E sean
efectivamente eficientes, es que las ecuaciones estén correctamente especificadas. En
modelos macroeconómicos grandes, que contemplan un número grande de ecuaciones
con muchas identidades además, éste es un prerrequisito casi imposible de satisfacer. De
allí que en la práctica econométrica sea un método escasamente utilizado, prefiriéndose
el método de MC2E.
𝐁𝒚𝑡 + 𝚪𝒙𝑡 = 𝜺𝑡 , 𝑡 = 1, … , 𝑇,
con,
𝐸(𝜺𝑡 ) = 𝟎 , 𝑡 = 1, … , 𝑇 ,
𝐸(𝜺𝑡 𝜺′𝑡 ) = 𝚺.
Si suponemos que los G errores siguen una distribución normal multivariada, podremos
escribir su densidad conjunta, 𝑙(𝒚𝑡 |𝒙𝑡 ), como,
Suponiendo además que, los vectores en 𝜺no tienen correlación serial, podremos
escribir la verosimilitud conjunta para los T términos como,
𝑙(𝜺1 , 𝜺2 , … , 𝜺 𝑇 ) = ∏𝑇𝑡=1 𝑙(𝜺𝑡 ) ,
(16.6.1)
Si ahora escribimos,
𝒚𝑡
𝐁𝒚𝑡 + 𝚪𝒙𝑡 = [𝐁 𝚪] [𝒙 ] = 𝐀𝒛𝑡 ,
𝑡
donde,
𝒚1′ 𝒙1′
𝒚′ 𝒙′2
𝐙 = [𝐘 𝐗] = [ 2 ],
⋮ ⋮
𝒚′𝑇 𝒙′𝑇
con lo que el logaritmo de la verosimilitud conjunta, ℒ = log𝐿, dada por (16.6.1), queda
como,
38
Este resultado fluye de un teorema demostrado en, Rothenberg, T. J. y C. T. Leenders (1964).
“EfficientEstimation of SimultaneousEquationSystems,” Econometrica, Vol. 32, pág.: 57-76.
especialmente en los modelos macroeconómicos grandes, siendo el motivo de ello el
gran riesgo que entrañan los errores de especificación.
𝑄𝑖 = 𝑓𝑖 (𝑃1 , … , 𝑃𝑛 , 𝑀) , 𝑖 = 1, … , 𝑛
La teoría impone ciertas condiciones a estas ecuaciones de demanda, sin contar además
que la forma específica que asume la función de utilidad del agente, impone otras
restricciones a las mismas. Por ejemplo, si suponemos que la función de utilidad es del
tipo40,
𝑀
𝑢∗ = ∑𝑖 𝑎𝑖 (𝑃 )𝑏𝑖 ,
𝑖
𝑎𝑖 𝑏𝑖 𝑀𝑏𝑖 𝑃𝑖 −𝑏𝑖 −1 𝑒 𝜀𝑖
𝑄𝑖 = 𝑏 −1 −𝑏 , 𝑖 = 1, … , 𝑛 (16.7.1)
∑𝑗 𝑎𝑗 𝑏𝑗 𝑀 𝑗 𝑃𝑗 𝑗
𝑎𝑖 𝑏𝑖 𝑀𝑏𝑖 𝑃𝑖 −𝑏𝑖 𝑒 𝜀𝑖
𝑍𝑖 = 𝑏 −1 −𝑏 , 𝑖 = 1, … , 𝑛 (16.7.2)
∑𝑗 𝑎𝑗 𝑏𝑗 𝑀 𝑗 𝑃𝑗 𝑗
El gasto en la relación (16.7.2) es no-lineal en los términos a’s y b´s. Sin embargo, si
calculamos la razón 𝑍𝑖 /𝑍𝑗 y tomamos logaritmos naturales a esta expresión, obtenemos,
39
Este nombre fue acuñado por ArnoldZellner, y corresponde en realidad a un acrónimo en inglés: SUR
(seeminglyunrelatedregressions).
40
Se trata de una función de utilidad indirecta del tipo “addilog”.
41
Para una derivación de estas ecuaciones de demanda, el lector interesado podrá consultar, por
ejemplo, Phlips, L. (1974). Applied Consumption Analysis, North-Holland, Amsterdam.
𝑀 𝑀
𝑙𝑜𝑔𝑍𝑖 − 𝑙𝑜𝑔𝑍𝑗 = 𝐴𝑖𝑗 + 𝑏𝑖 log ( ) − 𝑏𝑗 log ( ) + 𝑢𝑖𝑗 , (16.7.3)
𝑃𝑖 𝑃𝑗
en que,
𝑎𝑏
𝐴𝑖𝑗 = log(𝑎 𝑖𝑏𝑖 )y𝑢𝑖𝑗 = 𝜀𝑖 − 𝜀𝑗 .
𝑗 𝑗
𝑀𝑡 𝑀𝑡
𝑙𝑜𝑔𝑍1𝑡 − 𝑙𝑜𝑔𝑍3𝑡 = 𝐴13 + 𝑏1 log ( ) − 𝑏3 log ( ) + 𝑢13𝑡 ,
𝑃1𝑡 𝑃3𝑡
⋮, (16.7.4)
𝑀 𝑀
𝑙𝑜𝑔𝑍1𝑡 − 𝑙𝑜𝑔𝑍𝑛𝑡 = 𝐴1𝑛 + 𝑏1 log (𝑃 𝑡 ) − 𝑏𝑛 log (𝑃 𝑡 ) + 𝑢1𝑛𝑡 ,
1𝑡 𝑛𝑡
𝐘1 = 𝐗1 𝛃1 + 𝐮1 ,
donde,
𝐘1 = 𝐗1 𝛃1 + 𝐮1 ,
𝐘2 = 𝐗 2 𝛃2 + 𝐮2 ,
⋮ (16.7.5)
𝐘𝑚 = 𝐗 𝑚 𝛃𝑚 + 𝐮𝑚
o también,
𝐘 = 𝐗𝛃 + 𝐮. (16.7.7)
𝑢𝑖 = 𝜀1 − 𝜀𝑖+1 , 𝑖 = 1, … , 𝑛 − 1 .
Por lo tanto, 𝑉𝑎𝑟(𝑢𝑖 ) = 𝑉𝑎𝑟(𝜀1 ) + 𝑉𝑎𝑟(𝜀𝑖+1 ) − 2𝐶𝑜𝑣(𝜀1 , 𝜀𝑖+1 ). Incluso si los términos
𝜀′s , a su vez, no tienen correlación serial, tendríamos,
con lo que, los u´s sólo serían homocedásticos si los 𝜀′s también lo son. Pero no hay
ninguna razón a priori para que esto sea así. Una segunda razón para que la aplicación
de MCO no sea óptima, es que los términos fuera de la diagonal de 𝑉𝑎𝑟(𝐮) no son
nulos,
Por lo tanto, incluso en el caso si las covarianzas de los 𝜀′s son nulas, el término
𝐸(𝑢𝑖 𝑢𝑗 ) no desaparece. Todo lo anterior hace aconsejable utilizar MCG como el
método correcto. Así es como tendríamos los supuestos adicionales,
(𝚺)𝑖𝑗 = 𝜎𝑖𝑗 ,
𝑉𝑎𝑟(𝐮) = 𝐕 = 𝚺 ⊗ 𝐈. (16.7.8)
Por ende, un conjunto de ecuaciones de demanda como las que se ha considerado, debe
ser ciertamente estimado con el estimador MCG de Aitken. Además, habrán
considerandos microeconómicos que se traducirán en restricciones entre las ecuaciones,
como por ejemplo, que el parámetro 𝑏1 en cada vector 𝛃𝑖 debe ser el mismo en las m
ecuaciones.
𝜎11 𝐈 ⋯ 𝜎1𝑚 𝐈
−1 −1
𝐕 =𝚺 ⊗𝐈=[ ⋮ ⋱ ⋮ ],
𝜎𝑚1 𝐈 ⋯ 𝑚𝑚
𝜎 𝐈
En su trabajo original, Zellner (1962) da dos condiciones que son suficientes para que el
estimador MCG 𝛃 ̂ sea igual al estimador MCO 𝐛 ̂ , donde se tiene que entender a 𝐛
̂,
como el estimador MCO que se obtiene al utilizar MCO en cada una de las ecuaciones
del sistema (16.7.5) por separado42. Estas dos condiciones son:
(i) Que la correlación 𝜎𝑖𝑗 sea nula para 𝑖 ≠ 𝑗, es decir, que no haya correlación
entre los términos de error para dos ecuaciones cualesquiera (𝜎𝑖𝑗 = 0). Esto
significa que𝚺es diagonal, lo que a su vez, implica que 𝚺 −1 también lo sea,
es decir,𝜎 𝑖𝑗 = 0 para 𝑖 ≠ 𝑗. Por otra parte, 𝜎 𝑖𝑖 = 1/𝜎𝑖𝑖 . Por lo tanto, (16.7.9)
se reduce a:
−1
𝜎11 (𝐗′1 𝐗1 ) ⋯ 𝟎 𝐗′1 𝐘1 /𝜎11 ̂1
𝐛
̂
𝛃𝑀𝐶𝐺 = [ ⋮ ⋱ ⋮ ][ ⋮ ]=[ ⋮ ]=𝐛 ̂ 𝑀𝐶𝑂
−1
𝟎 ⋯ 𝜎𝑚𝑚 (𝐗′𝑚 𝐗𝑚 )
′
𝐗𝑚 𝐘𝑚 /𝜎𝑚𝑚 ̂𝑚
𝐛
(16.7.11)
(ii) Que los regresores sean los mismos para todas las ecuaciones, i.e.𝐗 𝑖 =
𝐗𝑗 ∀ 𝑖, 𝑗 . Supongamos que, 𝐗1 = ⋯ = 𝐗 𝑚 = 𝐗 ̃ . Este supuesto implica que,
𝐾1 = ⋯ = 𝐾𝑚 = 𝐾. Por lo tanto, se cumple que, 𝐗 = 𝐈𝑚 ⊗ 𝐗 ̃.
Introduciendo esto en (16.7.9) obtenemos,
42
Zellner, A. (1962). “An Efficient Method of Estimating Seemingly Unrelated Regressions and Tests for
Aggregation Bias,” Journal of the American Statistical Association, Vol. 57, pág.: 348-368.
̂ 𝑀𝐶𝐺 = [(𝐈𝑚 ⊗ 𝐗
𝛃 ̃)]−1 [(𝐈𝑚 ⊗ 𝐗
̃′)(𝚺 −1 ⊗ 𝐈)(𝐈𝑚 ⊗ 𝐗 ̃′)(𝚺−1 ⊗ 𝐈)𝐘]
̂ 𝑀𝐶𝐺 = [𝚺 ⊗ (𝐗
𝛃 ̃)−1 ] [(𝚺 −1 ⊗ 𝐗
̃′𝐗 ̃ ′ )𝐘]
̂ 𝑀𝐶𝐺 = [𝐈𝑚 ⊗ (𝐗
𝛃 ̃)−1 𝐗
̃′𝐗 ̂ 𝑀𝐶𝑂 .
̃′] 𝐘 = 𝐛 (16.7.12)
Una condición necesaria y suficiente para que 𝛃 ̂ 𝑀𝐶𝑂 fue derivada por Dwivedi y
̂ 𝑀𝐶𝐺 = 𝐛
Srivastava (1978)43. Una derivación alternativa, basada también en otra condición
necesaria y suficiente encontrada por Milliken y Albohali (1984), para que se produjera
la equivalencia anterior, es presentada por Baltagi (1988)44.
En un capítulo anterior, se vio que para que el estimador MCG fuese equivalente al
estimador MCO, bastaba que, para todo valor de Y45,
𝐗 ′ 𝐕 −1 𝐌𝐗 = 𝟎. (16.7.13)
𝜎 𝑖𝑗 𝐗 ′𝑖 𝐌𝐗 𝑗 = 𝟎. (16.7.14)
43
Dwivedi, T. D. y V. K. Srivastava (1978). “Optimality of Least Squares in the Seemingly Unrelated
Regressions Equations Model,” Journal of Econometrics, Vol. 7, pág.: 391-395.
44
Milliken, G. A. y M. Albohali (1984). “On Necessary and Sufficient Conditions for Ordinary Least
Squares Estimators to be Best Linear Unbiased Estimators,” The American Statistician, Vol. 38, pág.: 298-
299.
Baltagi, B. H. (1988). “The Efficiency of OLS in a Seemingly Unrelated Regressions Model,” Econometric
Theory, Problem 88.3.4, Vol. 4, pág.: 536-537.
45
Aquí, 𝐌𝐗 es el operador de proyección generador de residuos.
46
Revankar, N. S. (1974). “Some Finite Sample Results in the Context of Two Seemingly UInrelated
Regression Equations,” Journal of the American Statistical Association, Vol. 71, pág.: 183-188.
16.7.2 Estimación MCG factible
El problema operacional que surge con la expresión (16.7.9), es que la matriz 𝚺es
desconocida.Zellner (1962), recomendó el siguiente procedimiento para encontrar un
estimador MCG factible que fuera consistente. Para estimar 𝜎𝑖𝑖 , y 𝜎𝑖𝑗 , sugiere,
respectivamente,
y,
(16.7.15)
Aquí, 𝑒𝑖𝑡 es el residuo obtenido de la ecuación i-ésima al estimarla por MCO. Así, 𝑠𝑖𝑖 es
el estimador 𝑠 2 usual que se obtiene al estimar por MCO la ecuación i-ésima. Se sabe
que este estimador es insesgado y consistente. Sin embargo, 𝑠𝑖𝑗 es sólo consistente pero
no insesgado para 𝜎𝑖𝑗 . En forma trivial se puede mostrar que el estimador insesgado es,
donde, 𝐁 = 𝐏𝐗 𝑖 𝐏𝐗𝑗 . El problema que puede tener el hecho de utilizar 𝑠̃𝑖𝑗 , es que el
estimador de 𝚺puede resultar en una matriz de varianzas-covarianzas que no sea
positiva-definida. Como sólo se necesita un estimador que sea consistente para 𝜎𝑖𝑗 ,
muchas veces se prefiere sencillamente,
Para ilustrar las ventajas del método SUR de Zellner en comparación al método MCO,
Kmenta (1986), considera el siguiente sistema de dos ecuaciones simultáneas48:
47
Oberhofer, W. y J. Kmenta, (1974). “A General Procedure for Obtaining Maximum Likelihood Estimates
in Generalized Regression Models,” Econometrica, Vol. 42, pág.: 579-590.
48
Kmenta, J.(1986). Elements of Econometrics, 2da.Ed., Macmillan, New York.
𝑌1𝑡 = 𝛽11 + 𝛽12 𝑋1𝑡 + 𝜀1𝑡 ,
y prueba que,
̂12,𝑆𝑈𝑅 )
𝑉𝑎𝑟(𝛽 (1−𝜌2 )
̂12,𝑀𝐶𝑂 ) = (1−𝜌2 𝑟2 ) , (16.7.18)
𝑉𝑎𝑟(𝛽
−1 −1
̂ −1 𝜎 11 𝐗1′ 𝐗1 𝜎 12 𝐗1′ 𝐗 2
𝑉𝑎𝑟 (𝛃 𝑆𝑈𝑅 ) = (𝐗′𝐕 𝐗) =[ ] = 𝐀. (16.7.19)
𝜎 21 𝐗 ′2 𝐗1 𝜎 22 𝐗 ′2 𝐗 2
en que, 𝐄 = 𝐌𝐗 2 𝐗1 50. La matriz E,tiene por columnas a los residuos obtenidos de las
regresiones por MCO de cada variable en 𝐗1 sobre los regresores𝐗 2 . Si 𝐄 = 𝟎, entonces
no hay ninguna ganancia del método SUR sobre MCO al estimar 𝛃1 51 . Se puede verificar
que (16.7.21), corresponde a la matriz de varianza-covarianza, de una regresión MCO
con la siguiente matriz de regresores:
49
Binkley, J. K. y C. H. Nelson (1988). “A Note on the Efficiency of Seemingly Unrelated Regression,” The
American Statistician, Vol. 42, pág.: 137-139.
50
Las matrices 𝐏𝐗2 y 𝐌𝐗2 son los tradicionales operadores de proyección.
51
Esta situación ocurre cuando, ya sea, 𝐗1 = 𝐗 2 , o 𝐗1 es un subconjunto de 𝐗 2 .
𝐖′ = [𝐗1′ 𝜃𝐄′],
en que,𝜃 2 = 𝜌2 /(1 − 𝜌2 ).
52
Aquí, los términos, 𝑚𝑒𝑒 = ∑𝑇𝑡=1 𝑒𝑡𝑖2 ,y, 𝑚𝑖𝑖 = ∑𝑇𝑡=1 𝑥𝑡𝑖2 .
53
Hay que notar que, 𝑅𝑖2 = 𝑅𝑖∗2 , cuando 𝜃𝐄 = 𝟎. Y esto se produce cuando ya sea, 𝜃 = 0, o 𝐄 = 𝟎. Este
último caso ocurre cuando 𝐗1 es generado por las variables en 𝐗 2 .
Ya hemos visto que si la matriz 𝚺es diagonal, entonces no hay ganancias al utilizar el
método SUR por sobre MCO. De allí que sea interesante disponer de algún test como,
H0 ∶ 𝚺 es diagonal, para dilucidar este hecho. Breusch y Pagan (1980), justamente
proveen esto a través de un estadígrafo basado en multiplicadores de Lagrange (ML)54.
El test utiliza coeficientes de correlación de residuos obtenidos por MCO:
𝑖−1 2
Λ ML = 𝑇 ∑𝑀
𝑖=2[∑𝑗=1 𝑟𝑖𝑗 ] , (16.7.25)
donde, M denota el número de ecuaciones, y 𝑟𝑖𝑗 = 𝑠̂𝑖𝑗 /(𝑠̂𝑖𝑖 𝑠̂𝑗𝑗 )1/2.Los términos 𝑠̂𝑖𝑗 se calculan
a partir de los residuos obtenidos, estimando cada ecuación por MCO, tal como aparece en
2
(16.7.16). Bajo H0 , el estadígrafo Λ 𝑀𝐿 tiene una distribución asintótica 𝜒𝑀(𝑀−1)/2 . Para
2
el caso de dos ecuaciones (𝑀 = 2), tenemos que, Λ 𝑀𝐿 = 𝑇𝑟21 , que a su vez, se
2
distribuye asintóticamente bajo H0 como una distribución 𝜒1 .
En forma alternativa, se puede recurrir a un test del tipo de razón de verosimilitud (RV).
Este test está basado en los determinantes de las matrices de varianza-covarianza
estimados por MV, tanto para el modelo restringido como para el caso sin restricciones:
Λ RV = 𝑇(∑𝑀
𝑖=1 𝑙𝑜𝑔𝑠
̂|) ,
̂𝑖𝑖 − 𝑙𝑜𝑔|𝚺 (16.7.26)
en que, 𝑠̂𝑖𝑖 es el estimador restringido por MV, de 𝜎𝑖𝑖 , obtenido a partir de los residuos de
MCO (16.7.16). La matriz 𝚺 ̂, denota la estimación sin restricciones por MV de 𝚺. Esto se
puede aproximar, adecuadamente, a partir del estimador MCG factible, 𝛃 ̂ 𝑀𝐶𝐺𝐹 55. Bajo la
2
hipótesis nula H0 , Λ RV se distribuye asintóticamente como una 𝜒𝑀(𝑀−1)/2 .
Muchas veces un analista querrá testear una hipótesis que involucra coeficientes
pertenecientes a diferentes ecuaciones, cada una de ellas conformando parte de un
sistema de ecuaciones. Supondremos que estas restricciones corresponden a relaciones
lineales del tipo 𝐫 = 𝐑𝛃 , donde r es un vector conocido de dimensión 𝑞 × 1 ; R es una
matriz conocida de rango completo por filas de 𝑞 × 𝐾, donde 𝐾 = ∑𝑀 𝑖=1 𝐾𝑖 , en que M es
el número de ecuaciones del sistema en cuestión, y 𝐾𝑖 el número de variables
predeterminadas en el lado derecho de la ecuación i-ésima. La notación que se empleará
a continuación, se remite a la notación de la relación (16.7.7),
𝐘 = 𝐗𝛃 + 𝐮 .
54
Breusch, T. S. y A. R. Pagan (1980). “The Lagrange Multiplier Test and its Applications to Model
Specification in Econometrics,” Review of Economic Studies, Vol. 47, pág.: 239-253.
55
Ver, por ejemplo, Judge, G. G., W. E. Griffiths, R. C. Hill, H. Lütkepohl y T. C. Lee (1985). The Theory and
Practice of Econometrics, 2da. Ed., John Wiley: New York.
1
(𝐫 − 𝐑𝛃)′ [𝐑(𝐗′𝐗)−𝟏 𝐑′]−1 (𝐫 − 𝐑𝛃) , (16.7.27)
𝑞𝑠2
que se distribuye como una distribución 𝐹(𝑞, 𝑇 − 𝐾) 56. Para que este resultado sea
válido, se requiere que: (i) Se satisfagan todos los supuestos del modelo de regresión
estándar, para cada una de las M ecuaciones, (ii) El término de error u debe distribuirse
como una distribución normal , y finalmente, (iii) Se debe satisfacer bajo la hipótesis
nula 𝐻0 ∶ 𝐫 = 𝐑𝛃 . La demostración de (16.7.27), se basó en que bajo las tres
2
condiciones anteriores, el estadígrafo, (𝑇 − 𝐾)𝑠 2 /𝜎 2, se distribuye como 𝜒(𝑇−𝐾) ,
−𝟏 −1
además, la forma cuadrática, con (𝐫 − 𝐑𝛃) como vector y [𝐑(𝐗′𝐗) 𝐑′] como la
matriz, se distribuyen como 𝜎 2 𝜒𝑞2 , siendo esta última forma independiente de 𝑠 2 . Aquí,
en el contexto sistémico, también se asumirá la normalidad, como asimismo la hipótesis
nula 𝐻0 . Sin embargo, el modelo de regresión estándar lineal debe ser adaptado para
abarcar este nuevo contexto sistémico. Se verá más adelante que, el término (𝑇 − 𝐾)𝑠 2 ,
debe reemplazarse por una forma cuadrática que contempla el vector residual, 𝐘 − 𝐗𝛃 ̂,
que no es, en general, una forma que sea diagonal57. Específicamente, se demostrará
que, la forma cuadrática,
′
̂ ) (𝚺 −1 ⊗ 𝐈)(𝐘 − 𝐗𝛃
(𝐘 − 𝐗𝛃 ̂) ,
2
se distribuye como, 𝜒(𝑀𝑇−𝐾) , y la forma cuadrática,
como, 𝜒𝑞2 , y donde además, ambas formas cuadráticas son independientes entre sí.
̂∗ = 𝛃
𝛃 ̂ + 𝐂𝐑′ (𝐑𝐂𝐑′ )−1 (𝐫 − 𝐑𝛃
̂) , (16.7.29)
56
En esta notación, T corresponde al número de observaciones independientes en cada ecuación.
57 ̂ corresponde al estimador por MCG, o si se quiere, es el estimador SUR de
En este caso, el estimador 𝛃
la regresión, 𝐘 = 𝐗𝛃 + 𝐮 .
̂ es
pero ahora, sencillamente, hacemos uso de las mismas relaciones, asumiendo que 𝛃
el estimador SUR del modelo base, y
𝐂 = [𝐗 ′ (𝚺 −1 ⊗ 𝐈)𝐗]−1 ,
con, 𝜎 2 = 1 .
Como cada raíz de 𝚺 ⊗ 𝐈 , es igual a una raíz de 𝚺 multiplicada por una raíz de 𝐈, todas
las raíces de este producto de Kronecker serán positivas cuando 𝚺 es no-singular58.
Denotamos por 𝚲2 , la matriz positiva definida y diagonal, que contiene estas raíces en la
diagonal principal, y definimos a 𝚲 como aquella matriz cuyos elementos son iguales a
las raíces cuadradas positivas de los elementos correspondientes de 𝚲2 . Así, siempre
existirá una matriz ortogonal F, tal que,
𝚺 ⊗ 𝐈 = 𝐅𝚲2 𝐅′ . (16.7.30)
𝐸[𝚲−1 𝐅 ′ 𝐮𝐮′ 𝐅𝚲−1 ] = 𝚲−1 𝐅 ′ 𝐕𝐅𝚲−1 = 𝚲−1 𝐅 ′ (𝚺 ⊗ 𝐈)𝐅𝚲−1 = 𝚲−1 𝐅 ′ 𝐅𝚲2 𝐅 ′ 𝐅𝚲−1 = 𝐈.
58
Se puede mostrar fácilmente que, si 𝐀, 𝐁 son matrices de 𝑚 × 𝑚 y de 𝑛 × 𝑛, respectivamente, con
valores propios, 𝜆1 , … , 𝜆𝑚 y 𝜂1 , … , 𝜂𝑛 , y, con vectores propios, respectivamente, 𝐱1 , … , 𝐱 𝑚 y 𝐲1 , … , 𝐲𝑛 ,
entonces se cumple que, (𝐀 ⊗ 𝐁)(𝐱 𝑖 ⊗ 𝐲𝑗 ) = 𝜆𝑖 𝜂𝑗 (𝐱 𝑖 ⊗ 𝐲𝑗 ). Atendiendo al resultado anterior, como
todas las raíces de la matriz identidad son iguales a uno, el producto de Kronecker tiene raíces múltiples,
de tal manera que, la matriz F de los vectores propios en la descomposición (16.7.30) no es única. Sin
embargo, esto no entraña ninguna dificultad pues, cualquier matriz ortogonal de vectores propios
puede ser usada para estos propósitos.
𝜒 2 (𝑀𝑇 − ∑𝑀
𝑖=1 𝐾𝑖 ) .
(𝚲−1 𝐅 ′ 𝐮)′ 𝐙(𝐙 ′ 𝐙)−1 𝐑′ [𝐑(𝐙′ 𝐙)−1 𝐑′ ]−1 𝐑(𝐙′ 𝐙)−1 𝐙′ (𝚲−1𝐅 ′ 𝐮) , (16.7.32)
A lo largo de este capítulo y del anterior, hemos presentado diferentes tipos de sistemas
de ecuaciones de regresiones que son frecuentes en econometría. Muchas veces la
notación difiere para estos diferentes sistemas. Habrá problemas económicos para los
cuales será conveniente utilizar un determinado formato para escribir la dinámica del
sistema, en cambio, para otros problemas, el formato adecuado será distinto. En esta
sección, trataremos de mostrar tres formatos diferentes, y cómo se puede pasar de un
esquema a otro, y veremos que uno de ellos se presta, de una forma muy sencilla, para
tratar el tema de la estimación de un sistema sujeto a restricciones lineales.
𝐘𝑡 = 𝐀𝐗 𝑡 + 𝐮𝑡 , (16.7.33)
donde, 𝑡 = 1, … , 𝑇. En este esquema, 𝐘𝑡 es un vector de n variables endógenas,
𝐘𝑡′ = (𝑌1𝑡 , 𝑌2𝑡 , … , 𝑌𝑛𝑡 ), 𝐗 𝑡 es un vector de m variables exógenas determinísticas,
𝐗 ′𝑡 = (𝑋1𝑡 , 𝑋2𝑡 , … , 𝑋𝑚𝑡 ), A es una matriz de 𝑛 × 𝑚 consistente de parámetros
desconocidos que se desean estimar, y 𝐮′𝑡 = (𝑢1𝑡 , 𝑢2𝑡 , … , 𝑢𝑛𝑡 ), es el vector
correspondiente al término de error, que satisface, 𝐸(𝐮𝑡 ) = 𝟎 y
𝐸(𝐮𝑡 𝐮′𝑠 ) = 𝛀𝑛×𝑛 , si 𝑡 = 𝑠 , y 0 en caso contrario59.
(b) Muchas veces en el sistema de ecuaciones aparecen restricciones de tipo lineal
entre los parámetros. Para estos efectos, ya vimos que la modalidad SUR
permite incorporar los mismos:
𝐘𝑚 = 𝐗 𝑚 𝛃𝑚 + 𝐮𝑚 . 𝑚 = 1, … , 𝑀 (16.7.34)
59
Este formato es el que presentan los modelos denominados VAR, como así también la forma reducida
de un sistema de ecuaciones simultáneas clásico.
de 𝑇 × 1 correspondiente al término de error en la m-ésima ecuación del
sistema. La forma (16.7.34), permite incorporar trivialmente restricciones que
atañen a los elementos de la matriz A, que aparecen producto de la exclusión de
ciertas variables exógenas en alguna ecuación. Sin embargo, esta forma no es la
más conveniente para introducir restricciones que involucran restricciones entre
diferentes ecuaciones del sistema, a menos que se haga uso de la relación
(16.7.29) que es un tanto complicada de aplicar.
(c) Finalmente, existe una modalidad que es muy conveniente para introducir
explícitamente restricciones. Nos referimos a,
𝐘𝑡 = 𝐗 ∗𝑡 𝛅 + 𝐮𝑡 , (16.7.35)
Este sistema está escrito en la forma (16.7.33). Para escribir el mismo sistema en la
forma (16.7.34), debemos definir las siguientes variables:
Ahora bien, para escribir (16.7.36) en la forma (16.7.35), tenemos que definir,
𝑋1𝑡 𝑋2𝑡 0 0
𝐗 ∗𝑡 = [ ] , 𝛅′ = [𝑎11 𝑎12 𝑎21 𝑎22 ] .
0 0 𝑋1𝑡 𝑋2𝑡
α β 𝑋 𝑋2𝑡 0
𝐀=[ ] , 𝐗 ∗𝑡 = [ 1𝑡 ] ,
β γ 0 𝑋1𝑡 𝑋2𝑡
Sin embargo, para estimar (16.7.35) sujeto a la restricción anterior, habrá que tomar en
cuenta la matriz de varianzas-covarianzas, 𝛀 del término de error u, a pesar que las
variables explicativas de ambas ecuaciones son las mismas, y esto debido que existe una
restricción entre los coeficientes. Por lo tanto, no se puede estimar dicho sistema por
MCO, sino que se debe utilizar MCG. Matricialmente, nuestro sistema, en la
representación (16.7.35) queda como,
𝑎11
𝑌1𝑡 𝑋 𝑋2𝑡 0 0 𝑎 𝑢1𝑡
[ ] = [ 1𝑡 ] [𝑎12 ] + [𝑢 ] .
𝑌2𝑡 0 0 𝑋1𝑡 𝑋2𝑡 21 2𝑡
𝑎22
𝐘𝑡 = 𝐗 ∗𝑡 𝛅 + 𝐮𝑡 .
𝐘 = 𝐗∗𝛅 + 𝐮 ,
con:
𝐗1∗
∗
𝐗 =[ ⋮ ].
𝐗 ∗𝑇
𝛀 ⋯ 𝟎
𝐕 = 𝐸(𝐮𝐮′ ) = [ ⋮ ⋱ ⋮ ] = 𝐈𝑇 ⊗ 𝛀 .
𝟎 ⋯ 𝛀
Si ahora usamos el estimador de Aitken (MCG), tenemos,
̂ = [∑𝑇𝑡=1 𝐗 ∗′
𝛅 −1 ∗ −1 ∑𝑇
𝑡 𝛀 𝐗𝑡 ]
∗′ −1
𝑡=1 𝐗 𝑡 𝛀 𝐘𝑡 .
Para hacer operativa esta relación, habrá que estimar la matriz 𝛀, y una de las formas
posibles es a través de la especificación de Zellner. Más adelante, en este mismo
acápite, se presentará otra metodología debida a Malinvaud.
𝐘𝑡 = 𝐀𝐗 𝑡 + 𝐮𝑡 ,
donde 𝑎𝑖′ es la fila i-ésima de la matriz A. Si escribimos la relación (16.7.37) para cada
una de las 𝑡 = 1, … , 𝑇 observaciones, tendremos el sistema equivalente,
𝐘𝑖 = 𝐗𝑎𝑖 + 𝐮𝑖 , (16.7.38)
𝑎1′
𝐀=[ ⋮ ] ; 𝐀′ = [𝑎1 ⋯ 𝑎𝑛 ] ,
𝑎𝑛′
̂′ = (𝐗′𝐗)−1 𝐗 ′ 𝐘 ,
𝐀 (16.7.39)
Sin embargo,
𝐗1′
′
(1/T) 𝐗 𝐗 = (1/𝑇 )[𝐗1 ⋯ 𝐗 𝑇 ] [ ⋮ ] = (1/T) ∑𝑇𝑡=1 𝐗 𝑡 𝐗 ′𝑡 = 𝐌𝐗𝐗 ,
𝐗 ′𝑇
60
Es importante que el lector no confunda esta notación de la matriz 𝐘 que es de dimensión 𝑇 × 𝑛, con
el vector 𝐘 anterior que era de dimensión 2𝑇 × 1.
𝐗1′
′
(1/T) 𝐘 𝐗 = (1/T)[𝐘1 ⋯ 𝐘𝑇 ] [ ⋮ ] = (1/T) ∑𝑇𝑡=1 𝐘𝑡 𝐗 ′𝑡 = 𝐌𝐘𝐗 .
𝐗 ′𝑇
Con lo que,
̂ = 𝐌𝐘𝐗 𝐌𝐗𝐗 −1 ,
𝐀
que es equivalente a,
𝐮 ̂ 𝐗 𝑡 = (𝐀 − 𝐀
̂ 𝑡 = 𝐘𝑡 − 𝐀 ̂ )𝐗 𝑡 + 𝐮𝑡 ,
y la matriz,
̂ 𝐮𝐮 = (1/𝑇) ∑𝑇𝑡=1 𝐮
𝐌 ̂ 𝐗 𝑡 ) (𝐘𝑡 − 𝐀
̂ ′𝑡 = (1/𝑇) ∑𝑇𝑡=1(𝐘𝑡 − 𝐀
̂𝑡 𝐮 ̂ 𝐗 𝑡 )′
̂ 𝐮𝐮 es un estimador insesgado de 𝛀 .
Se puede demostrar también que, [𝑇/(𝑇 − 𝑚)] 𝐌
Para ver esto, consideremos el residuo,
𝐮 ̂ )𝐗 𝑡 ,
̂ 𝑡 = 𝐮𝑡 + (𝐀 − 𝐀
donde se cumple,
̂ − 𝐀)𝐌𝐗𝐗 .
[1/𝑇] ∑𝑇𝑡=1 𝐮𝑡 𝐗 ′𝑡 = 𝐌𝐘𝐗 − 𝐀𝐌𝐗𝐗 = (𝐀
Por lo tanto,
Debido a que, 𝐸(𝐮𝑡 𝐮′𝑡 ) = 𝛀, el primer término a la derecha de la igualdad tiene valor
esperado igual a 𝛀. Se puede fácilmente apreciar que, el elemento (𝑖, ℎ) correspondiente
al segundo término, es igual a,
61
Malinvaud, E. (1966). Statistical Methods of Econometrics, Rand McNally & Company, Chicago.
con lo que el valor esperado de éste es,
Pero como se tiene que, 𝐸(𝑎̂𝑖𝑗 ) = 𝑎𝑖𝑗 , para todo valor de (𝑖, 𝑗), la expresión anterior es
igual a,
−1 ]
𝐶𝑜𝑣[𝑎̂𝑖𝑗 , 𝑎̂ℎ𝑘 ] = (𝜔𝑖ℎ /𝑇)[𝐌𝐗𝐗 𝑗𝑘 ,
Por ende,
̂ 𝐮𝐮 ] = (𝑇 − 𝑚)𝛀/T ,
𝐸[𝐌
62
Malinvaud, E. (1966). Statistical Methods of Econometrics, Rand McNally & Company, chicago.
63
La convención es que, 𝑔1 representa el número total de variables endógenas en la primera ecuación y
𝑘1 el número total de variables exógenas.
64
Anderson, T. W. y H. Rubin (1950). “TheAsymptoticProperties of Estimates of theParameters of a
Single Equation in a Complete System of StochasticEquations,” Annals of MathematicalStatistics, Vol. 21,
pág.: 570-582.
presentaron alternativas más sencillas para este mismo test65. Aquí se presentará una
versión simplificada debido a Baltagi; lo que se quiere testear es66:
𝐻0 ∶ 𝐲1 = 𝐙1 𝛅1 + 𝛆1 , versus 𝐻𝐴 ∶ 𝐲1 = 𝐙1 𝛅1 + 𝐖 ∗ 𝛄 + 𝛆1 , (16.8.1)
65
Davidson, R. y J. G. MacKinnon (1993). Estimation and Inference in Econometrics, Oxford
UniversityPress: Oxford, MA.
Hausman, J. A. (1983). “Specification and Estimation of SimultaneousEquationModels,” Capítulo 7 en
Griliches, Z. e Intriligator, M. D. (Eds.) Handbook of Econometrics, Vol. I, North Holland: Amsterdam.
66
Baltagi, B. H. (2008). Econometrics, Springer, 4ta. Ed.: Berlin-Heidelberg.
67
Aquí, SCESR representa la suma de cuadrados de los errores en la regresión sin restricciones, mientras
que, SCER, representa la suma de cuadrados de errores sujetos a las restricciones.
Esta expresión difiere de 𝑆𝐶𝐸𝑆𝑅 ∗ en que se usa 𝐙1 en vez de 𝐙̂1 para obtener
los residuos.
̂1 ) − 𝑉𝑎𝑟(𝛃
̂) = 𝑉𝑎𝑟(𝛃
𝑉𝑎𝑟(𝐪 ̂0) ,
68 2
En el 𝑅𝑁𝐶 , la SCT (suma de cuadrados totales) de la variable dependiente 𝑌𝑖 , no se expresa como
desviación con respecto de la media muestral 𝑌̅. Es decir, se considera como si 𝑌̅ = 0.
69
Hausman, J. A. (1978). “Specification Tests in Econometrics,” Econometrica, Vol. 46, pág.: 1251-1272.
con lo que finalmente el test queda como,
̂′ [𝑉𝑎𝑟(𝐪
𝑚=𝐪 ̂)]−1 𝐪
̂, (16.8.5)
Para mostrar que 𝑉𝑎𝑟(𝐪 ̂) es igual a la diferencia de las varianzas de los dos
estimadores, hay que demostrar primero que, 𝐶𝑜𝑣(𝛃 ̂0 , 𝐪
̂) = 0 . La demostración es vía
un procedimiento de demostración por el absurdo. Para ver esto, consideremos otro
estimador para 𝛃 definido como, 𝛃 ̃=𝛃 ̂ 0 + 𝜆𝐪̂ , donde 𝜆 es un escalar constante
̃
cualquiera. Bajo 𝐻0 se cumple que, 𝑝𝑙𝑖𝑚 𝛃 = 𝛃 para cualquier valor de 𝜆 , y además70,
̃) = 𝑉𝑎𝑟(𝛃
𝑉𝑎𝑟(𝛃 ̂ 0 ) + 𝜆2 𝑉𝑎𝑟(𝐪 ̂0, 𝐪
̂) + 2𝜆𝐶𝑜𝑣(𝛃 ̂) .
Como se sabe que bajo 𝐻0 , 𝛃̂ 0 , es eficiente, se cumple que, 𝑉𝑎𝑟(𝛃̃) ≥ 𝑉𝑎𝑟(𝛃 ̂ 0 ), lo que
a su vez, implica que, 𝜆2 𝑉𝑎𝑟(𝐪̂) + 2𝜆𝐶𝑜𝑣(𝛃 ̂0, 𝐪
̂) ≥ 0 para todo valor de 𝜆. Si ocurre
que, 𝐶𝑜𝑣(𝛃 ̂0, 𝐪
̂) > 0, entonces podemos elegir a 𝜆 igual a, 𝜆 = −𝐶𝑜𝑣(𝛃 ̂0, 𝐪
̂)/𝑉𝑎𝑟(𝐪 ̂),
lo que hace que se viole la desigualdad anterior. En forma similar, si ocurriese que,
𝐶𝑜𝑣(𝛃̂0, 𝐪
̂) < 0, escogemos nuevamente a 𝜆 como, 𝜆 = −𝐶𝑜𝑣(𝛃 ̂0, 𝐪̂)/𝑉𝑎𝑟(𝐪 ̂), y
nuevamente se viola desigualdad anterior. Por lo tanto, el argumento anterior nos lleva a
concluir que, bajo 𝐻0 , necesariamente se debe cumplir que, 𝐶𝑜𝑣(𝛃 ̂0, 𝐪̂) = 0 para que la
desigualdad se satisfaga para cualquier valor de 𝜆. Como 𝐪̂=𝛃 ̂1 − 𝛃̂ 0 se puede
̂1 = 𝐪
reescribir como, 𝛃 ̂+𝛃 ̂ 0 , entonces tendremos que,
̂1 ) = 𝑉𝑎𝑟(𝐪
𝑉𝑎𝑟(𝛃 ̂ 0 ) + 2𝐶𝑜𝑣(𝐪
̂) + 𝑉𝑎𝑟(𝛃 ̂0) .
̂, 𝛃
𝒚 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆 = 𝐙1 𝜹 + 𝛆 ,
̂ está
y usamos, para estos efectos, una matriz de instrumentos W, entonces el vector 𝐪
dado por,
̂𝑉𝐼 − 𝛅
̂=𝛅
𝐪 ̂𝑀𝐶𝑂 = (𝐙1′ 𝐏𝐖 𝐙1 )−1 [𝐙1′ 𝐏𝐖 𝐲 − (𝐙1′ 𝐏𝐖 𝐙1 )(𝐙1′ 𝐙1 )−𝟏 𝐙1′ 𝐲], (16.8.6)
70
En lo que sigue, supondremos, con el propósito de simplificar el argumento, que la dimensionalidad
del vector 𝛃 es igual a 1.
asintóticamente. Este último vector es de dimensión (𝑔1 − 1 + 𝑘1 ). Sin embargo, no
todos sus elementos tienen que ser necesariamente variables aleatorias, ya que 𝐌𝐙1
puede aniquilar algunas de las columnas correspondientes a los regresores de la segunda
etapa, 𝐙̂1 = 𝐏𝐖 𝐙1 . De hecho, todas las variables predeterminadas 𝑋 ′ 𝑠 que son parte de
W, i.e. 𝐗1 , serán aniquiladas en este proceso por 𝐌𝐙1 . Solamente, las 𝑔1 − 1 variables
aleatorias que son linealmente independientes, 𝐘 ̂1 = 𝐏𝐖 𝐘1, no serán aniquiladas por
𝐌𝐙1 .