Está en la página 1de 81

CAPÍTULO XVI

Modelos de Ecuaciones Múltiples II


16.1 Introducción

En este capítulo abordaremos el tópico de sistemas de ecuaciones simultáneas clásicas,


siguiendo el esquema elaborado por la llamada Comisión Cowles. Con el fin de ilustrar
algunos de los problemas que pueden surgir en este contexto, consideraremos, antes de
presentar el formulismo general, algunos ejemplos bastante sencillos.

Como primer ejemplo, examinaremos un modelo proveniente de la macroeconomía. El


modelo consiste de una función de consumo y de una identidad de ingreso nacional.
Sea,

𝐶𝑡 = 𝛼 + 𝛽𝑌𝑡 + 𝜀𝑡 , (16.1.1)

𝑌𝑡 ≡ 𝐶𝑡 + 𝐺𝑡 . (16.1.2)

Aquí, C corresponde a consumo agregado en la economía, Y es el ingreso nacional, G


corresponde a gastos agregados en la economía no relacionados a consumo, y que
supondremos es una variable exógena (e.g. inversiones autónomas y gastos de
gobierno), y finalmente, 𝜀 es el término de error. Supondremos para simplificar las
cosas que, 𝜺~𝑁(𝟎, 𝜎𝜀2 𝑰), y que G y 𝜀 son independientes entre sí.

La forma reducida del modelo está dada por1,

𝐶𝑡 = [𝛼/(1 − 𝛽)] + [𝛽/(1 − 𝛽)]𝐺𝑡 + 𝜈𝑡 , (16.1.3)

𝑌𝑡 = [𝛼/(1 − 𝛽)] + [1/(1 − 𝛽)]𝐺𝑡 + 𝜈𝑡 , (16.1.4)

donde, 𝜈𝑡 = 𝜀𝑡 /(1 − 𝛽), de tal forma que, 𝝂~𝑁(𝟎, [𝜎𝜀2 /(1 − 𝛽)2 ]𝑰). En términos de
desviaciones, las relaciones anteriores quedan como sigue,

𝑐𝑡 = [𝛽/(1 − 𝛽)]𝑔𝑡 + 𝜈𝑡 − 𝜈̅ ,

𝑦𝑡 = [1/(1 − 𝛽)]𝑔𝑡 + 𝜈𝑡 − 𝜈̅ ,

de tal forma que,

𝑚𝐶𝑌 = [𝛽/(1 − 𝛽)2 ]𝑚𝐺𝐺 + [(1 + 𝛽)/(1 − 𝛽)]𝑚𝐺𝜈 + 𝑚𝜈𝜈 ,

𝑚𝑌𝑌 = [1/(1 − 𝛽)2 ]𝑚𝐺𝐺 + [2/(1 − 𝛽)]𝑚𝐺𝜈 + 𝑚𝜈𝜈 .

Aplicando MCO a (16.1.1), tenemos:

1
Una forma reducida de un modelo, se obtiene cuando cada variable endógena corriente (a tiempo
contemporáneo) es expresada en términos de variables exógenas (corrientes y/o rezagadas) y de variables
endógenas rezagadas.
Σ𝑐𝑦 𝑚
𝛽̂𝑀𝐶𝑂 = 2 = 𝐶𝑌 ,
Σ𝑦 𝑚𝑌𝑌

y reemplazando las expresiones anteriores, obtenemos finalmente,


[𝛽𝑚𝐺𝐺 +(1+𝛽)𝑚𝐺𝜀 +𝑚𝜀𝜀 ]
𝛽̂𝑀𝐶𝑂 = [𝑚 .
+2𝑚 +𝑚 ]
𝐺𝐺 𝐺𝜀 𝜀𝜀

Tomando en consideración que, cuando 𝑛 → ∞, 𝑚𝐺𝜀 → 0 y 𝑚𝜀𝜀 → 𝜎𝜀2 , y además


suponiendo que 𝑚𝐺𝐺 tiende a una constante 𝑚
̅ 𝐺𝐺 , obtenemos que,

𝛽𝑚̅ +𝜎 2
(1−𝛽)𝜎𝜀 /𝑚
̅ 𝐺𝐺 2
𝑝𝑙𝑖𝑚 𝛽̂𝑀𝐶𝑂 = 𝑚̅ 𝐺𝐺+𝜎2𝜀 = 𝛽 + 1+𝜎2 /𝑚 ,
𝐺𝐺 𝜀 𝜀 𝐺𝐺

por lo tanto, MCO obtiene un estimador inconsistente.

Para obtener estimadores consistentes de los parámetros, tal como veremos más
adelante en este capítulo, existen varias alternativas, como lo son los métodos de
variables instrumentales (VI), mínimos cuadrados indirectos (MCI) y mínimos
cuadrados en dos etapas (MC2E), entre otros métodos2. Brevemente, en VI, necesitamos
de una variable Z que sea independiente de 𝜀 y que a la vez esté correlacionada con Y.
Observando la relación (16.1.4), vemos que una elección natural para este instrumento
es la variable G. Aplicando el algoritmo de VI a este modelo obtenemos,

𝛼̂𝑉𝐼 = 𝐶̅ − 𝛽̂𝑉𝐼 𝑌̅ , (16.1.5)

y,

𝛽̂𝑉𝐼 = 𝛴𝑐𝑔/𝛴𝑦𝑔 . (16.1.6)

Para chequear que 𝛼̂𝑉𝐼 y 𝛽̂𝑉𝐼 efectivamente son consistentes, notamos a partir de la
forma reducida del modelo que,
𝛽
∑ 𝑐𝑔 = ∑ 𝑔2 + ∑ 𝑔𝜈,
1−𝛽

1
∑ 𝑦𝑔 = ∑ 𝑔2 + ∑ 𝑧𝑔 .
1−𝛽

Por lo tanto, siempre que se cumpla con las siguientes condiciones:


1 1
𝑝𝑙𝑖𝑚 (𝑛 ∑ 𝑔𝜈) = 0y𝑝𝑙𝑖𝑚 (𝑛 ∑ 𝑔2 ) = 𝑚𝐺𝐺 ,

en que 𝑚𝐺𝐺 es un número finito, obtendremos, 𝑝𝑙𝑖𝑚𝛽̂𝑉𝐼 = 𝛽 y 𝑝𝑙𝑖𝑚𝛼̂𝑉𝐼 = 𝛼.

Para obtener los estimadores por el método de MCI, nos damos cuenta que la forma
reducida del modelo satisface todos los supuestos que aseguran que MCO produce
estimadores consistentes, de tal manera que:

2
Otro de tales métodos, es el de la razón de varianza mínima.
∑ 𝑐𝑔 𝛽 ∑ 𝑦𝑔 1
∑ 𝑔2
es consistente para , y que, ∑ es consistente para , lo que sugiere que,
1−𝛽 𝑔2 1−𝛽
tomando el cuociente,
∑ 𝑐𝑔 ∑ 𝑦𝑔
𝛽̂𝑀𝐶𝐼 = ∑ 𝑔2 ÷ ∑ 𝑔2
, obtendríamos un estimador consistente para 𝛽. Efectivamente, en
∑ 𝑐𝑔
este caso, se cumple que, 𝛽̂𝑀𝐶𝐼 = ∑ 𝑦𝑔 = 𝛽̂𝑉𝐼 .

Finalmente, el método de MC2E da cuenta de la correlación entre las variables Yy𝜀 en


dos etapas. En la primera se regresiona Y sobre la variable exógena del modelo, que en
este caso es G junto con la variable dummy que es la unidad. Esta regresión reducida
nos entrega una variable estimada 𝑌̂ que se espera tenga una correlación menor con 𝜀
que la que tenía Y. En términos de desviaciones, la ecuación (16.1.4) toma la forma,

𝑦𝑡 = 𝛿𝑔𝑡 + (𝜈𝑡 − 𝜈̅ ) ,

donde, 𝛿 = 1/(1 − 𝛽). El término 𝜈̅ se puede omitir pues su inclusión es irrelevante


para las derivaciones posteriores. Por MCO obtenemos,
∑ 𝑦𝑔
𝑦̂𝑡 = 𝛿̂ 𝑔𝑡 = ( ∑ 𝑔2 )𝑔𝑡 ,

∑ 𝑔𝜈
𝑦̂𝑡 = (𝛿 + ∑ 𝑔2 )𝑔𝑡 ,

por lo que,
∑ 𝑔𝜈
∑ 𝑦̂𝜀 = 𝛿 ∑ 𝑔𝜀 + 2 ∙ ∑ 𝑔𝜀 .
∑𝑔

Bajo los supuestos anteriores, se cumple que,


1 1
𝑝𝑙𝑖𝑚 (𝑛 ∑ 𝑔𝜈) = 𝑝𝑙𝑖𝑚 (𝑛 ∑ 𝑔𝜀) = 0 ,

de forma tal que, en el límite, 𝑌̂ no está correlacionado con 𝜀. En la segunda etapa de


MC2E, la variable Cseregresiona sobre 𝑌̂,

𝐶𝑡 = 𝛼 + 𝛽𝑌̂𝑡 + [𝜀𝑡 + 𝛽(𝑌𝑡 − 𝑌̂𝑡 )] .

El término de error de esta última regresión aparece entre paréntesis cuadrados. De la


regresión por MCO de Ysobre G, se desprende que 𝑌̂𝑡 no estará correlacionado con el
residuo 𝑌𝑡 − 𝑌̂𝑡 , y además, hemos mostrado recién que 𝑌̂𝑡 no está correlacionado en el
límite con 𝜀𝑡 . Por lo tanto, se colige que, en el límite, 𝑌̂𝑡 no está correlacionado con el
término [𝜀𝑡 + 𝛽(𝑌𝑡 − 𝑌̂𝑡 )], por lo que se desprende, finalmente, que los estimadores por
MC2E son consistentes. En este caso, el estimador de 𝛽 es,

∑ 𝑐𝑦̂ ̂
𝛿 ∑ 𝑐𝑔 ∑ 𝑐𝑔 ∑ 𝑔 2∑ 𝑐𝑔
𝛽̂𝑀𝐶2𝐸 = ∑ 𝑦̂ 2 = 𝛿̂ 2 ∑ 𝑔̂2 = ∑ 𝑔2 ∙ ∑ 𝑦𝑔 = ∑ 𝑦𝑔 .
Por lo tanto, en este caso, los tres algoritmos de estimación entregan el mismo
estimador que es consistente.

Como segundo ejemplo, consideraremos un modelo sencillo de oferta y demanda de un


determinado producto3:

(i)𝑝𝑡 + 𝛽12 𝑞𝑡 + 𝛾11 = 𝜀1𝑡 ,

(ii)𝛽21 𝑝𝑡 + 𝑞𝑡 + 𝛾21 = 𝜀2𝑡 , con 𝑡 = 1, … , 𝑛 . (16.1.7)

Aquí, p denota el precio del producto y q la cantidad. Para que el modelo (16.1.7) sea
efectivamente un modelo de oferta y demanda, debemos imponer las restricciones
adicionales, 𝛽12 > 0 y 𝛽21 < 0, con el fin de que la curva de demanda tenga una
pendiente negativa y la de oferta una pendiente positiva. También querríamos imponer
que 𝛾11 < 0 para que la función de demanda tenga un intercepto positivo. Si ocurriese
que, en un determinado período t, se tiene que, 𝜀1𝑡 = 𝜀2𝑡 = 0, entonces el sistema
lograría su equilibrio en 𝑝∗ , 𝑞 ∗ . En una situación más realista, si los términos de error
son diferentes de cero, entonces las curvas de demanda y de oferta se desplazarán hacia
arriba o hacia abajo, según sean los signos de los errores. Por lo tanto, se generará una
nube de puntos de equilibrio alrededor de 𝑝∗ , 𝑞 ∗ .

Dada esta nube de puntos correspondientes a precios y cantidades en equilibrio, un


analista quizás se interese por ajustar una regresión al modelo (i) con el fin de estimar la
relación de demanda. Otro investigador quizás querrá ajustar una regresión en la
función de oferta. Finalmente, un economista de la línea de “equilibrio general” querrá
estimar ambas relaciones simultáneamente y se preguntará cómo hacerlo a partir
sólamente de esta nube de puntos bidimensional. A este problema se le conoce en la
literatura econométrica con el nombre de problema de identificación, y se concierne con
la factibilidad de si acaso es posible la estimación de alguna ecuación en particular en el
sistema. No se interesa explícitamente con el método de estimación ni con el tamaño
muestral, sino si es posible obtener estimaciones razonables para los parámetros
estructurales. Bajo los supuestos actuales, el modelo (16.1.7) no está identificado, es
decir no se puede estimar ni la relación (i) ni la (ii).

Para examinar con mayor detención el problema de la identificación, conviene estudiar


la relación existente entre la forma estructural y la forma reducida del modelo. La forma
reducida del modelo es4,
1
𝑝𝑡 = [(−𝛾11 + 𝛽12 𝛾21 ) + (𝜀1𝑡 − 𝛽12 𝜀2𝑡 )] ,

3
De ahora en adelante, las variables denotadas con letras minúsculas denotarán los valores reales de
dichas variables y no desviaciones con respecto a su media como aparecía en los capítulos anteriores. En
este caso, la relación (i) denota la curva de demanda, mientras que (ii) la de oferta.

4
En este caso, la única variable exógena es la variable dummy correspondiente al intercepto.
1
𝑞𝑡 = [(𝛽21 𝛾11 − 𝛾21 ) + (−𝛽21 𝜀1𝑡 + 𝜀2𝑡 )] , (16.1.8)

donde,∆= 1 − 𝛽12 𝛽21. Así, podemos escribir el sistema reducido de ecuaciones


simplemente como,

𝑝𝑡 = 𝜇1 + 𝜈1𝑡 ,

𝑞𝑡 = 𝜇2 + 𝜈2𝑡 , (16.1.9)

donde,

𝜇1 = (−𝛾11 + 𝛽12 𝛾21 )/∆ ,

𝜇2 = (𝛽21 𝛾11 − 𝛾21 )/∆ ,

𝜈1𝑡 = (𝜀1𝑡 − 𝛽12 𝜀2𝑡 )/∆ ,

𝜈2𝑡 = (−𝛽21 𝜀1𝑡 + 𝜀2𝑡 )/∆ . (16.1.10)

Si ahora introducimos los postulados,

𝐸(𝜺𝑡 ) = 𝐸 (𝜀𝜀1𝑡) = 𝟎 ,
2𝑡

𝜎11 𝜎12
𝐸(𝜺𝑡 𝜺′𝑡 ) = ∑ = (𝜎 𝜎22 ),
12

tendremos entonces,

𝐸(𝝂𝑡 ) = 𝟎 ,
2) 2
𝑉𝑎𝑟(𝜈1 ) = 𝐸(𝜈1𝑡 = (𝜎11 + 𝛽12 𝜎22 − 2𝛽12 𝜎12 )/∆2 ,
2 ) 2
𝑉𝑎𝑟(𝜈2 ) = 𝐸(𝜈2𝑡 = (𝛽21 𝜎11 + 𝜎22 − 2𝛽21 𝜎12 )/∆2 ,

𝐶𝑜𝑣(𝜈1 , 𝜈2 ) = 𝐸(𝜈1𝑡 , 𝜈2𝑡 ) = (−𝛽21 𝜎11 − 𝛽12 𝜎22 + 𝜎12 [1 + 𝛽12 𝛽21 ])/∆2 .

De (16.1.9), se colige que,

𝐸(𝑝) = 𝜇1 ,

𝐸(𝑞) = 𝜇2 ,

𝑉𝑎𝑟(𝑝) = 𝑉𝑎𝑟(𝜈1 ) ,

𝑉𝑎𝑟(𝑞) = 𝑉𝑎𝑟(𝜈2 ) ,

𝐶𝑜𝑣(𝑝, 𝑞) = 𝐶𝑜𝑣(𝜈1 , 𝜈2 ) . (16.1.11)

Lo medular de los desarrollos anteriores es que, información muestral sobre p,q sólo nos
puede brindar estimadores de los cinco parámetros que aparecen en (16.1.11). Estos
cinco parámetros, a su vez, están expresados como funciones de los siete parámetros
estructurales del modelo, vale decir, 𝛽12 , 𝛽21 , 𝛾11 , 𝛾21 , 𝜎11 , 𝜎22 , 𝜎12 . Bajo los supuestos
presentados en el modelo inicial, ninguno de los siete parámetros estructurales del
modelo están identificados.

Resulta esclarecedor saber qué tipo de información adicional permitiría identificar alguna
de las dos ecuaciones o incluso ambas. Básicamente, hay tres posibilidades, a saber, (i)
restricciones sobre los parámetros del tipo 𝛽 o 𝛾, (ii) restricciones sobre la matriz Σ, y
(iii) reespecificaciones del modelo con el fin de incorporar variables adicionales. Para
ilustrar el primer tipo de restricciones, supondremos que a priori se sabe que,

𝛾21 = 0 .

Esta restricción permite reducir el número de parámetros estructurales a seis, sin embargo,
el número de parámetros reducidos sigue siendo igual a cinco, así es que no es claro si
alguno de los parámetros estructurales pueda estar identificado. Haciendo el reemplazo
de 𝛾21 = 0 en la relación (16.1.10) obtenemos,

𝜇1 = −𝛾11 /∆ ,

𝜇2 = 𝛽21 𝛾11 /∆ ,

con lo que,

𝛽21 = −𝜇2 /𝜇1 ,

lo que nos muestra que se puede determinar 𝛽21 a partir de los parámetros reducidos a
nivel poblacional. Lo anterior nos sugiere el estimador, 𝛽̂21 = − 𝑞̅ ⁄𝑝̅ . Esta restricción
nos permite identificar la función de oferta pero no la de demanda. Volvamos ahora a
las ecuaciones (16.1.7) e impongamos la restricción,

𝑉𝑎𝑟(𝜀1 ) = 𝜎11 = 0 .

Esta restricción también implica que, 𝜎12 = 0 . Observando las ecuaciones (16.1.11),
notamos que,
2
𝑉𝑎𝑟(𝑝) = 𝛽12 𝜎22 /∆2 ,

𝑉𝑎𝑟(𝑞) = 𝜎22 /∆2 ,

𝐶𝑜𝑣(𝑝, 𝑞) = −𝛽12 𝜎22 /∆2 ,

de tal manera que,

𝑉𝑎𝑟(𝑝) 𝐶𝑜𝑣(𝑝,𝑞) 𝑉𝑎𝑟(𝑝)


𝛽12 = √𝑉𝑎𝑟(𝑞) = − = − 𝐶𝑜𝑣(𝑝,𝑞) ,
𝑉𝑎𝑟(𝑞)

lo que por ende, nos está diciendo que la pendiente de la curva de demanda está
identificada. Finalmente, consideremos una reespecificación del modelo (16.1.7),

𝑝𝑡 + 𝛽12 𝑞𝑡 + 𝛾11 𝑥𝑡 + 𝛾12 𝑧𝑡 = 𝜀1𝑡 ,


𝛽21 𝑝𝑡 + 𝑞𝑡 + 𝛾21 𝑥𝑡 + 𝛾23 𝑤𝑡 + 𝛾24 𝑦𝑡 = 𝜀2𝑡 , (16.1.12)

donde mantenemos los supuestos, 𝛽12 > 0 y 𝛽21 < 0. La variable x puede ser una
variable dummy que da cuenta del intercepto, la variable z puede representar el ingreso,
que se supone afecta la demanda, y las variables w,y pueden representar variables que
afectan a la oferta. La forma reducida para este modelo es,

1 (−𝛾11 + 𝛽12 𝛾21 ) −𝛾12 𝛽12 𝛾23 𝛽12 𝛾24 𝑥


(𝑝𝑞)=∆ ( ) (𝑤𝑧 ) + (𝜈𝜈1 ) ,
(𝛽21 𝛾11 − 𝛾21 ) 𝛽21 𝛾12 −𝛾23 −𝛾24 2
𝑦

donde, ∆= 1 − 𝛽12 𝛽21, y los errores 𝜈 están dados por (16.1.10). Si denotamos los
coeficientes reducidos por 𝜋𝑖𝑗 (𝑖 = 1,2; 𝑗 = 1, … ,4), es claro que podemos recuperar
los parámetros estructurales a partir de los coeficientes reducidos, por ejemplo,
𝜋
𝛽21 = − 𝜋22 ,
12

𝜋13 𝜋14
𝛽12 = − =− .
𝜋23 𝜋24

Una vez encontrados los parámetros 𝛽, los coeficientes 𝛾 pueden obtenerse a partir de
𝜋11 y 𝜋21 . Obviando los parámetros que aparecen en los términos de errores, existen
ocho coeficientes reducidos y sólo siete coeficientes estructurales. La diferencia en estos
números, se explica por las dos formas alternativas y equivalentes a nivel poblacional
que tiene el parámetro 𝛽12. Lo anterior es una señal de alerta frente al método de MCI,
ya que a nivel muestral, los coeficientes reducidos estimados, no cumplirán, en general,
con la igualdad, (𝜋13 /𝜋23 ) = (𝜋14 /𝜋24 ) , que sólo se satisface a nivel poblacional.

16.2 Problema de identificación

De ahora en adelante, denotaremos a las variables endógenas con la letra y minúscula


(como ya hemos establecido previamente, esta nueva notación no denotará diferencias
con respecto a las medias muestrales de las variables); de la misma forma, las variables
x denotarán tanto a variables exógenas corrientes y/o rezagadas “puras”, como a
variables endógenas rezagadas. Al conjunto anterior, se le conoce en la literatura con el
nombre de variables predeterminadas. Los parámetros estructurales 𝜷y 𝜸 tendrán dos
subíndices; el primero, indicará la ecuación a la que corresponde dicho parámetro, y el
segundo subíndice, se referirá a la variable que acompaña al parámetro. Los coeficientes
𝜷 acompañan a las variables endógenas y los parámetros𝜸 a las variables
predeterminadas.

Consideraremos de ahora en adelante, un modelo lineal consistente de G relaciones


estructurales, donde lai-ésima relación en el tiempo t está dada por,

𝛽𝑖1 𝑦1𝑡 + ⋯ + 𝛽𝑖𝐺 𝑦𝐺𝑡 + 𝛾𝑖1 𝑥1𝑡 ⋯ + 𝛾𝑖𝐾 𝑥𝐾𝑡 = 𝜀𝑖𝑡 . (16.2.1)

𝑖 = 1, … , 𝐺 ; 𝑡 = 1, … , 𝑇
Este modelo puede considerarse como una teoría que, determina conjuntamente las
variables 𝑦𝑖𝑡 (𝑖 = 1, … 𝐺; 𝑡 = 1, … , 𝑇) en términos de las variables predeterminadas
𝑥𝑖𝑡 (𝑖 = 1, … , 𝐾; 𝑡 = 1, … , 𝑇) y de los errores 𝜀𝑖𝑡 (𝑖 = 1, … 𝐺; 𝑡 = 1, … , 𝑇). La teoría
subyacente, especificará, típicamente que, algunos de los coeficientes 𝜷, 𝜸 son nulos. Si
no fuera así, la estimación del modelo sería imposible ya que todas las relaciones se
parecerían al modelo (16.1.7) y ninguna ecuación estaría identificada. El modelo puede
expresarse en forma matricial de la siguiente forma,

𝐁𝒚𝑡 + 𝚪𝒙𝑡 = 𝜺𝑡 , (16.2.2)

donde𝐁es una matriz de𝐺 × 𝐺 con los coeficientes de las variables endógenas
corrientes, 𝚪es una matriz de 𝐺 × 𝐾 con los coeficientes de las variables
predeterminadas;𝒚𝑡 , 𝒙𝑡 y 𝜺𝑡 son los vectores columna con G,K,G elementos
respectivamente:

𝛽11 ⋯ 𝛽1𝐺 𝛾11 ⋯ 𝛾1𝐾 𝑦1𝑡 𝑥1𝑡 𝜀1𝑡


𝐁=[ ⋮ ⋱ ⋮ ], 𝚪 = [ ⋮ ⋱ ⋮ ],𝒚𝑡 = ( ⋮ ), 𝒙𝑡 = ( ⋮ ) , 𝜺𝑡 = ( ⋮ ).
𝛽𝐺1 ⋯ 𝛽𝐺𝐺 𝛾𝐺1 ⋯ 𝛾𝐺𝐾 𝑦𝐺𝑡 𝑥𝐾𝑡 𝜀𝐺𝑡

Supondremos además que5, 𝜺𝑡 ~𝑖. 𝑖. 𝑑. (𝟎, 𝚺) .

Si transponemos la relación (16.2.2) obtendremos,

𝒚′𝑡 𝐁 ′ + 𝒙′𝑡 𝚪 ′ = 𝜺′𝑡 .

Definiendo,

𝒚1′ 𝒙1′ 𝜺1′


𝐘=[ ⋮ ] , 𝐗=[ ⋮ ] , 𝚬=[ ⋮ ],
𝒚′𝑇 𝒙′𝑇 𝜺′𝑇

podemos escribir el sistema completo de G ecuaciones, para los T períodos como,

𝐘𝐁 ′ + 𝐗𝚪 ′ = 𝚬. (16.2.3)

Con esta notación, podemos individualizar una observación (por ejemplo, la t-ésima,
donde 𝑡 = 1, … , 𝑇) en todas las G ecuaciones haciendo,

𝐘𝑡• 𝐁 ′ + 𝐗 𝑡• 𝚪 ′ = 𝐄𝑡• ,

donde, 𝐘𝑡• , 𝐗 𝑡• , y 𝐄𝑡• , corresponden a la t-ésima fila de Y, X, E respectivamente. En


forma similar, podemos agrupar todas las observaciones contenidas en una única
ecuación (por ejemplo, la i-ésima, donde 𝑖 = 1, … , 𝐺), escribiendo,

𝐘𝐁•𝑖 + 𝐗𝚪•𝑖′ = 𝐄•𝑖 ,

en que, 𝐁•𝑖 , 𝚪•𝑖′ , y 𝐄•𝑖 corresponden a la i-ésima columna de 𝐁 ′ , 𝚪 ′ y 𝚬respectivamente.
Muchas veces, en desarrollos posteriores, la i-ésima ecuación, que por motivos de

5
Cuando queramos calcular la verosimilitud de una muestra, supondremos, 𝜺𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(𝟎, 𝚺) .
simplicidad supondremos, casi siempre, igual a la primera ecuación del sistema de
ecuaciones (𝑖 = 1), la denotaremos por,

𝒚 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆,

donde, 𝒚es de𝑇 × 1, y contiene las observaciones de la variable dependiente (endógena)


de esta primera ecuación, 𝐘1 es de 𝑇 × (𝑔 − 1) y contiene las observaciones de las
demás 𝑔 − 1 variables endógenas contenidas en la ecuación (hay un total de𝑔 variables
endógenas en esta ecuación), 𝐗1 es de 𝑇 × 𝑘 , donde k es el número total de variables
predeterminadas en esta ecuación, y 𝛆es de 𝑇 × 1, y corresponde a los errores de la
ecuación. Con esta notación, denotaremos por𝐘2, que en nuestro caso es de,𝑇 × (𝐺 −
𝑔),a las 𝐺 − 𝑔 variables endógenas no contenidas en la primera ecuación y que sí están
contenidas en el resto del sistema de ecuaciones; por𝐗 2 , que en este caso es de 𝑇 ×
(𝐾 − 𝑘), y que contiene a las 𝐾 − 𝑘 variables predeterminadas no contenidas en la
primera ecuación. Los vectores 𝛃y 𝛄son los vectores de parámetros correspondientes a
las variables explicativas, endógenas y predeterminadas, incluidas en la primera
ecuación. Así, tenemos que, se podrá escribir, equivalentemente,

𝐘 = [𝐲 𝐘1 𝐘2 ]y𝐗 = [𝐗1 𝐗 2 ].

Por otra parte, como estamos suponiendo que,𝐁es invertible, la forma reducida del
modelo se escribe como,

𝒚𝑡 = 𝚷𝒙𝑡 + 𝝂𝑡 , (16.2.4a)

oen forma equivalente,

𝐘 = 𝐗𝚷′ + 𝐕, (16.2.4b)

donde𝚷,quees de𝐺 × 𝐾, corresponde a la matriz de coeficientes reducidos:

𝚷 = −𝐁 −1 𝚪;(16.2.5a)

y,

𝝂𝑡 = 𝐁 −1 𝜺𝑡 ; 𝐕 = 𝐄(𝐁 ′ )−1.(16.2.5b)

Además,

𝝂𝑡 ~𝑖. 𝑖. 𝑑. (𝟎, 𝛀) , con, 𝛀 = 𝐁 −1 𝚺(𝐁 −1 )′ .(16.2.5c)

La relación (16.2.4b) puede particionarse de la siguiente forma6,


π π21 π31
[𝐲 𝐘1 𝐘2 ] = [𝐗1 𝐗 2 ] [π11 π22 π32 ] + [𝝂 𝐕1 𝐕𝟐 ],
12

en que, la matriz de coeficientes reducidos 𝚷es igual a7,

6
Claramente, dicha partición, puede realizarse para cada una de las G ecuaciones.
π11 π12
𝚷 = [π21 π22 ].
π31 π32

De ahora en adelante, se usará la convención usual para denotar las filas y columnas
particionadas de 𝚷; por ejemplo,
π11
𝚷•1 = [π21 ] , y , 𝚷1• = [π11 π12 ].
π31

Las relaciones (16.2.4a) y (16.2.4b), muestran explícitamente que, cada una de las
variables endógenas del sistema, puede, en general, estar influenciada por cada uno de
los errores aleatorios del modelo. A manera de ejemplo, de (16.2.4a) podemos escribir
la relación,

𝑦2𝑡 = π2 𝒙𝑡 + 𝜈2𝑡 ,

dondeπ2 corresponde a la segunda fila de𝚷. Además, de (16.2.5b) tenemos que,

𝜈2𝑡 = 𝑓2 (𝜀1𝑡 , … , 𝜀𝐺𝑡 ) ,

en que la función 𝑓2 está determinada por la segunda fila de 𝐁 −1. Por lo tanto, si 𝑦2𝑡
aparece como variable explicativa en la primera ecuación del sistema, contoda
seguridad estará correlacionado con el término de error 𝜀1𝑡 de esa ecuación. Es
justamente esta correlación entre las variables explicativas y los errores estocásticos, la
que es responsable para que los estimadores MCO sean inconsistentes.

Si la especificación del modelo es la correcta, basada en la teoría económica y en los


conocimientos específicos que pudiese tener el investigador, la presunción subyacente
del modelo, es que alguna estructura específica generó las observaciones que se están
estudiando, donde el desafío econométrico consiste justamente en la estimación de los
parámetros estructurales. Dada la naturaleza estocástica de los errores, resulta natural
escribir la función de verosimilitud correspondiente a las observaciones muestrales, y
así obtener estimaciones para los parámetros estructurales usando el principio de
maximización de la verosimilitud conjunta de las observaciones. De (16.2.2), podemos
escribir la verosimilitud conjunta de las variables endógenas dadas las variables
predeterminadas,
𝜕𝜺
𝑙(𝒚𝑡 |𝒙𝑡 ) = 𝑙(𝜺𝑡 |𝒙𝑡 ) |𝜕𝒚𝑡 | , (16.2.6)
𝑡

y considerando que los errores 𝜺𝑡 , son casi por definición,, independientes de 𝒙𝑡 ,


tenemos,
𝜕𝜺
𝑙(𝒚𝑡 |𝒙𝑡 ) = 𝑙(𝜺𝑡 ) |𝜕𝒚𝑡 | ,
𝑡

7
Los subíndices, 1,2,3 de la matriz 𝚷, se refieren a los elementos, 𝐘 = [𝐲 𝐘1 𝐘2 ], respectivamente.
en que |𝜕𝜺𝑡 /𝜕𝒚𝑡 | denota el valor absoluto del determinante del jacobiano de la
transformación:
𝜕𝜀1𝑡 𝜕𝜀1𝑡

𝜕𝑦1𝑡 𝜕𝑦𝐺𝑡
⋮ ⋱ ⋮ . (16.2.7)
𝜕𝜀𝐺𝑡 𝜕𝜀𝐺𝑡
⋯ 𝜕𝑦
[𝜕𝑦1𝑡 𝐺𝑡 ]

Inspeccionando la relación (16.2.1), notamos que el jacobiano anterior no es más que la


matriz de coeficientes 𝐁.Por lo tanto, tenemos que la verosimilitud conjunta de las
observaciones endógenas condicionadas a las variables predeterminadas está dada por,

𝑙(𝒚𝑡 |𝒙𝑡 ) = |det𝐁|𝑙(𝜺𝑡 ) , (16.2.8)

donde hay que señalar que |det𝐁| denota el valor absoluto del determinante.
Suponiendo que no existe correlación serial entre los errores tenemos,

𝑙(𝜺𝑡 𝜺𝑡+𝑠 ) = 𝑙(𝜺𝑡 )𝑙(𝜺𝑡+𝑠 ) , ∀𝑡, 𝑠 = ±1, ±2, … ,

y por ende, la verosimilitud conjunta, aludida anteriormente, para todo tiempo t estará
dada por,

𝐿 = |det𝐁|𝑇 ∏𝑇𝑡=1 𝑙(𝜺𝑡 ) . (16.2.9)

Debido a que, 𝐁𝒚𝑡 + 𝚪𝒙𝑡 = 𝜺𝑡 ,𝐿, es función de los elementos de 𝐁y de 𝚪, por lo que la
maximización de L se realiza con respecto a estos parámetros.

Supongamos por un momento que multiplicamos el sistema (16.2.2) por una matriz
invertible Fde 𝐺 × 𝐺. La nueva estructura queda como sigue,

𝐅𝐁𝒚𝑡 + 𝐅𝚪𝒙𝑡 = 𝐅𝜺𝑡 = 𝝎𝑡 , (16.2.10)

de tal manera que,


𝜕𝜺
𝑙(𝝎𝑡 ) = 𝑙(𝜺𝑡 ) |𝜕𝝎𝑡 | = |𝑑𝑒𝑡𝐅 −1 |𝑙(𝜺𝑡 ) . (16.2.11)
𝑡

Por lo tanto, la verosimilitud condicional de las variables endógenas correspondiente a


la nueva estructura está dada por,

𝐿 = |𝑑𝑒𝑡𝐅𝐁|𝑇 ∏𝑇𝑡=1 𝑙(𝝎𝑡 ) ,

𝐿 = |𝑑𝑒𝑡𝐅|𝑇 |𝑑𝑒𝑡𝐁|𝑇 |𝑑𝑒𝑡𝐅 −1 |𝑇 ∏𝑇𝑡=1 𝑙(𝜺𝑡 ) ,

𝐿 = |𝑑𝑒𝑡𝐁|𝑇 ∏𝑇𝑡=1 𝑙(𝜺𝑡 ) ,

que es exactamente la misma verosimilitud que aparece en (16.2.9) correspondiente a la


estructura original. De allí que se diga que ambas estructuras son observacionalmente
equivalentes desde un punto de vista econométrico. Un caso especial de (16.2.10)
ocurre cuando 𝐅 = 𝐁 −1 , por lo que la estructura transformada es,
𝒚𝑡 + 𝐁 −1 𝚪𝒙𝑡 = 𝐁 −1 𝜺𝑡 ,

que corresponde a la forma reducida de la estructura original (16.2.4). De la forma


reducida de la estructura (16.2.10) obtenemos,

(𝐅𝐁)−1 𝐅𝐁𝒚𝑡 + (𝐅𝐁)−1 𝐅𝚪𝒙𝑡 = (𝐅𝐁)−1 𝐅𝜺𝑡 ,

vale decir,

𝒚𝑡 + 𝐁 −1 𝚪𝒙𝑡 = 𝐁 −1 𝜺𝑡 ,

que es igual a la forma reducida de la estructura original (16.2.2). Por lo tanto, se colige
que, todas las estructuras que se obtengan premultiplicando la estructura original por
una matriz no-singular F de rango G, son observacionalmente equivalentes en cuanto a
que se obtiene la misma función de verosimilitud.

De la discusión anterior, se ve que resulta absolutamente imperioso imponer


restricciones a priori sobre B y 𝚪. Si la teoría económica nos entrega estas restricciones,
éstas a su vez, imponen restricciones sobre los elementos de F, ya que los elementos de
𝐅𝐁 y 𝐅𝚪 de la estructura transformada deben satisfacer las mismas restricciones, si es
que queremos que, esta última pertenezca al modelo que se ha especificado. Una
pregunta crucial es si estas restricciones sobre F son suficientes para identificar una o
más ecuaciones en el modelo.

La función de verosimilitud correspondiente a la forma reducida es,

𝐿 = ∏𝑇𝑡=1 𝑙(𝝂𝑡 ) .

Como 𝝂𝑡 = 𝒚𝑡 − 𝚷𝒙𝑡 , los parámetros de la matriz de coeficientes reducidos 𝚷se


estiman sencillamente por MV. Sin embargo, sigue existiendo la interrogante si acaso
hay un conjunto unívoco de coeficientes estructurales correspondiente a los coeficientes
reducidos. Este punto se puede abordar también desde otro ángulo.

Premultiplicando la relación (16.2.3) por (1/𝑇)𝐗′y tomando límites de probabilidad,


obtenemos8,

1 1
𝑝𝑙𝑖𝑚 ( 𝐗 ′ 𝐘) 𝐁 ′ + 𝑝𝑙𝑖𝑚 ( 𝐗 ′ 𝐗) 𝚪 ′ = 𝟎
𝑇 𝑇
De la relación anterior, obtenemos trivialmente que,

𝑝𝑙𝑖𝑚[(𝐗′𝐗)−1 𝐗 ′ 𝐘] = −𝚪 ′ (𝐁 ′ )−1 = 𝚷′ . (16.2.12)

Si estimamos cada una de las ecuaciones del sistema reducido por MCO, habremos
estimado 𝚷′, y por ende, tendremos una estimación de la matriz de coeficientes
reducidos dados por, (𝐗′𝐗)−1 𝐗 ′ 𝐘. Esto nos viene a mostrar que los parámetros
reducidos están identificados y pueden ser estimados consistentemente por MCO.

Hemos hecho uso de la relación, 𝑝𝑙𝑖𝑚([1/𝑇]𝐗 ′ 𝚬) = 𝟎 .


8
Podemos decir entonces que, el problema de identificación atañe a los parámetros
estructurales y no a los parámetros reducidos, y de aquí surgen dos preguntas
equivalentes respecto de la identificabilidad de los coeficientes:

(a) Suponiendo que los elementos de 𝚷son conocidos, ¿podemos a partir de este
conocimiento, determinar los elementos de 𝐁y de 𝚪en forma unívoca?
(b) Si se considera una matriz de transformación F, ¿son suficientes las restricciones
a priori de 𝐁y de 𝚪, para implicar que las restricciones que afectan los elementos
de F,aseguren que los coeficientes de las estructuras original y transformada
sean idénticas y por ende estén identificados?

16.3.1 Restricciones sobre los parámetros estructurales

Hemos mencionado ya que la relación entre los parámetros estructurales y reducidos


está dada por,

𝐁𝚷 + 𝚪 = 𝟎.

Ésta puede reescribirse como,

𝐀𝐖 = 𝟎, (16.3.1)

donde,

𝐀 = [𝐁 𝚪]y𝐖 ′ = [𝚷′ 𝐈𝐾 ] . (16.3.2)

Aquí 𝐀es de 𝐺 × (𝐺 + 𝐾) y contiene a todos los coeficientes estructurales del modelo.


Por otra parte, 𝐖 es una matriz de (𝐺 + 𝐾) × 𝐾 de rango igual a K. Siempre podremos
escribir la primera ecuación de (16.3.1) como,

𝜶1 𝐖 = 𝟎, (16.3.3)

en que 𝜶1 corresponde a la primera fila de A. Como siempre podemos estimar


consistentemente los elementos de 𝚷, podemos suponer conocido a 𝐖. Además, como
el rango de 𝐖esK, la relación (16.3.3) constituye un sistema de K ecuaciones
independientes con 𝐺 + 𝐾 incógnitas (los elementos de 𝜶1 ), por lo tanto no se puede
determinar el valor de 𝜶1 sin más información. Puesto de otra manera, el subespacio de
soluciones de 𝜶1 𝐖 = 𝟎, tiene dimensión G, y cualquiera de las G filas de 𝐀 satisface la
ecuación. Por ende en ausencia de restricciones a priori, ninguna de las ecuaciones del
modelo está identificada9.

9
Usando terminología de álgebra lineal, esto se puede plantear también diciendo que, si 𝐀es una matriz
de 𝑚 × 𝑛, entonces se cumple que, 𝑟(𝐀) + 𝑛(𝐀) = 𝑛, donde 𝑟(𝐀) es el rango de 𝐀,y 𝑛(𝐀) es la
dimensión del espacio nulo de 𝐀(nulidad). El espacio nulo de 𝐀se define como, 𝑁(𝐀) =
{𝑥 ∈ ℝ𝑛 |𝐀𝐱 = 𝟎}. Para que haya una solución única a este sistema de ecuaciones, requerimos que,
𝑛(𝐀) = 1. De aquí la condición de rango es, 𝑟(𝐀) = 𝑛 − 1.
Las restricciones a priori pueden ser de varios tipos: (i) Restricciones de exclusión
(algunos de los elementos de 𝜶1 son nulos pues las variables respectivas no aparecen en
dicha ecuación), (ii) Restricciones lineales homogéneas involucrando dos o más
elementos de 𝜶1 , (iii) Restricciones que toman la forma de relaciones entre coeficientes
estructurales y reducidos; (iv) Restricciones en la forma de identidades entre variables
económicas, (v) Restricciones lineales inhomogéneas; (vi) Restricciones lineales que
involucran parámetros de diferentes ecuaciones; (vii) Restricciones en la matriz de
varianzas-covarianzas; (viii) Restricciones no lineales entre parámetros10.

16.3.2 Restricciones de exclusión y restricciones lineales homogéneas

Estas restricciones pueden expresarse como,

𝜶1 𝛗 = 𝟎,(16.3.4)

donde𝛗tiene 𝐺 + 𝐾 filas y tantas columnas como restricciones de exclusión o


restricciones lineales homogéneas haya. Por ejemplo, en el caso en que las restricciones
fuesen: 𝛽11 = 0 y 𝛽12 = 𝛽13 tendríamos,

1 0 ⋯ ⋯ ⋯ 0
𝛗′ = [ ].
0 1 −1 0 ⋯ 0

Juntando las relaciones (16.3.3) y (16.3.4), podemos escribir la relación compacta,

𝜶1 [𝐖 𝛗 ] = 𝟎. (16.3.5)

Como 𝜶1 tiene𝐺 + 𝐾 elementos, la identificación de la primera ecuación requiere que el


rango de [𝐖 𝛗 ]sea igual a𝐺 + 𝐾 − 1. De esta manera todas las soluciones de (16.3.5)
se encuentran sobre una recta que pasa por el origen. Esto es suficiente para determinar
los coeficientes de la ecuación (16.2.1) en forma unívoca, ya que además hay que tomar
en cuenta la condición de normalización, que consiste en darle un valor igual a 1 a algún
coeficiente de esa ecuación. Así, esta condición determina un único punto sobre la recta
que pasa por el origen, por lo que se especifica unívocamente 𝜶1 .

La condición de rango,

𝑟𝑎𝑛𝑔𝑜[𝐖 𝛗 ] = 𝐺 + 𝐾 − 1 , (16.3.6)

no es muy conveniente para examinar la identificabilidad de una ecuación, ya que


requiere la construcción de la matriz 𝚷. Existe una condición que es enteramente
equivalente, que está planteada en términos de la matriz 𝐀que contiene a los
coeficientes estructurales. Sin embargo, de (16.3.6) podemos obtener una condición
necesaria que es bastante sencilla. Como [𝐖 𝛗 ]tiene 𝐺 + 𝐾 filas y 𝐾 + 𝑅 columnas,
donde R es el número de restricciones (igual al número de columnas de 𝛗), una
condición necesaria para que se satisfaga (16.3.6), es que,

10
En este capítulo no consideraremos esta última categoría de restricciones. El lector
interesadopodráconsultar, Fisher, F. M. (1966).The Identification Problem, McGraw-Hill, New York.
𝑅 ≥𝐺−1.

Por lo tanto, el número de restricciones a priori debe ser mayor o igual al número de
ecuaciones menos uno. Cuando las restricciones son sólo de exclusión, la condición
necesaria, puede frasearse como diciendo que, el número de variables excluidas de la
ecuación debe ser por lo menos igual o mayor al número de ecuaciones menos uno. Si
definimos, g como el número de variables endógenas corrientes incluidas en la
ecuación, y k como el número de variables predeterminadas incluidas en la ecuación,
entonces, el número de variables excluidas es igual a,

𝑅 = (𝐺 − 𝑔) + (𝐾 − 𝑘) ,

por lo que la condición necesaria sería,

𝐾−𝑘 ≥𝑔−1.

Volviendo nuevamente a la condición de rango para la identificabilidad de una


determinada ecuación dentro del sistema de ecuaciones, podemos enunciar el siguiente

Teorema

𝑟𝑎𝑛𝑔𝑜[𝐖 𝛗 ] = 𝐺 + 𝐾 − 1 , si y sólo si, 𝑟𝑎𝑛𝑔𝑜(𝐀𝛗) = 𝐺 − 1 .(16.3.7)

De las definiciones de A y de W, podemos escribir,

𝐁′ 𝚷 𝐈 𝚷 𝐁′ 𝟎
[𝐀′ 𝐖] = [ 𝚪 ′ ]=[ 𝐺′ ][ ].
𝐈𝐾 −𝚷 𝐈𝐾 𝟎 𝐈𝐾

La segunda matriz en el extremo derecho es no-singular ya que B es invertible. Para ver


que la otra matriz a la derecha también es no-singular, consideremos el vector columna
no-nulo x que particionamos según las primeras G componentes y las restantes K
componentes: 𝐱 ′ = [𝐱 𝐺′ 𝐱 𝐾 ′
]. Consideremos ahora la forma cuadrática:

𝐈𝐺 𝚷 𝐱𝐺
[𝐱 𝐺′ ′
𝐱𝐾 ][ ] [ ] = 𝐱 𝐺′ 𝐈𝐺 𝐱 𝐺 + 𝐱 𝐺′ 𝚷𝐱 𝐾 − 𝐱 𝐾
′ ′
𝚷′ 𝐱𝐺 + 𝐱𝐾 𝐈𝐾 𝐱 𝐾 = 𝐱 ′ 𝐱 > 0.
−𝚷′ 𝐈𝐾 𝐱 𝐾

De aquí se desprende que [𝐀′ 𝐖] es una matriz no-singular de orden (𝐺 + 𝐾), donde
cada columna de 𝛗es un vector de(𝐺 + 𝐾) componentes, y por lo tanto, puede ser
expresado como combinación lineal de las columnas de [𝐀′ 𝐖]. Así,

𝛝
𝛗 = [𝐀′ 𝐖] [ ] = 𝐀′ 𝛝 + 𝐖𝛕 ,
𝛕
en que,𝛝es de orden 𝐺 × 𝑅 y 𝛕es de 𝐾 × 𝑅. Tenemos por lo tanto que, 𝐀𝛗 = 𝐀𝐀′ 𝛝, ya
que, 𝐀𝐖 = 𝟎. Como A es de orden 𝐺 × (𝐺 + 𝐾) de rango G, 𝐀𝐀′ es 𝐺 × 𝐺 y a la vez
de rango G, por lo que es no-singular. De tal manera que, 𝑟𝑎𝑛𝑔𝑜(𝐀𝛗) = 𝑟𝑎𝑛𝑔𝑜(𝛝)

Ahora bien, 𝑟𝑎𝑛𝑔𝑜[𝐖 𝛗 ] > 𝑟𝑎𝑛𝑔𝑜(𝐖), sólo por el número de columnas linealmente
independientes que tiene 𝛗que a su vez son linealmente independientes de las columnas
de W. Por ende tenemos que,
𝑟𝑎𝑛𝑔𝑜[𝐖 𝛗 ] = 𝑟𝑎𝑛𝑔𝑜(𝐖) + 𝑟𝑎𝑛𝑔𝑜(𝐀′ 𝛝).

Pero, además, se cumple que,

𝛝
𝐀′ 𝛝 = [𝐀′ 𝐖] [ ] .
𝟎
Por lo tanto,

𝛝
𝑟𝑎𝑛𝑔𝑜(𝐀′ 𝛝) = 𝑟𝑎𝑛𝑔𝑜 [ ] = 𝑟𝑎𝑛𝑔𝑜(𝛝) = 𝑟𝑎𝑛𝑔𝑜(𝐀𝛗) ,
𝟎
de lo que se desprende que,

𝑟𝑎𝑛𝑔𝑜[𝐖 𝛗 ] = 𝐾 + 𝑟𝑎𝑛𝑔𝑜(𝐀𝛗) ,

y finalmente,

𝑟𝑎𝑛𝑔𝑜[𝐖 𝛗 ] = 𝐺 + 𝐾 − 1 , si y sólo si, 𝑟𝑎𝑛𝑔𝑜(𝐀𝛗) = 𝐺 − 1, con lo que queda


demostrado el teorema.

Existe un enfoque alternativo que permite demostrar este teorema y que será de utilidad
más adelante, por lo que resulta interesante explorar además esta nueva vía. La relación
(16.2.2), también puede expresarse como,

𝐀𝒛𝑡 = 𝛆𝑡 , (16.3.8)

donde, 𝐀 = [𝐁 𝚪]y 𝒛′𝑡 = [𝒚′𝑡 𝒙′𝑡 ]. Si ahora premultiplicamos la relación (16.3.8), por
una matriz F, no-singular de 𝐺 × 𝐺, la estructura final queda como sigue,

𝐅𝐀𝒛𝑡 = 𝐅𝛆𝑡 . (16.3.9)

Se dice que la transformación F es admisible, si la nueva estructura dada por (16.3.9),


satisface todas las restricciones a priori, impuestas por la teoría económica, que tiene la
estructura original (16.3.8). Sabemos que estas restricciones se pueden expresar a través
de la relación,

𝜶1 𝛗 = 𝟎,

o equivalentemente como,

𝒆1 (𝐀𝛗) = 𝟎 , (16.3.10)

donde, 𝒆1 es un vector fila, que tiene un 1 en la primera posición y ceros en las demás.
Así, tenemos que, 𝒆1 𝐀 = 𝜶1 . La primera fila de coeficientes en la estructura
transformada, está dada por 𝐟1 𝐀, en que𝐟1 corresponde a la primera fila de F. Para que F
sea admisible, deberá forzosamente satisfacer las mismas restricciones, vale decir,

𝐟1 (𝐀𝛗) = 𝟎. (16.3.11)
Si queremos que la primera ecuación de nuestro sistema de ecuaciones esté identificada
(para poder estimarla), los coeficientes correspondientes a la primera ecuación
transformada, deberán ser idénticos, salvo quizás por un factor escalar, a los
coeficientes originales de la primera ecuación. Es decir, 𝐟1 = 𝝀𝒆1, todo lo cual, es
equivalente a decir, 𝑟𝑎𝑛𝑔𝑜(𝐀𝛗) = G − 1.

Ejemplo:

Consideremos el siguiente sistema de dos ecuaciones:

𝛽11 𝑦1𝑡 + 𝛽12 𝑦2𝑡 + 𝛾11 𝑥1𝑡 + 𝛾12 𝑥2𝑡 = 𝜀1𝑡 ,

𝛽21 𝑦1𝑡 + 𝛽22 𝑦2𝑡 + 𝛾21 𝑥1𝑡 + 𝛾21 𝑥2𝑡 = 𝜀2𝑡 .

Tal como está el sistema, ninguna de las dos ecuaciones está identificada, ya que no hay
restricciones a priori para ninguna de las dos relaciones. Por lo tanto en este ejemplo,
postularemos que, las restricciones a priori (que en este caso son restricciones de
exclusión) son:

𝛾12 = 𝛾21 = 0 .

Para la primera ecuación, la matriz 𝛗está dada por,

𝛗′ = [0 0 0 1] ,

y,
𝛾12 0
𝐀𝛗 = [𝛾 ] = [ ],
22 𝛾22

por lo que, 𝑟𝑎𝑛𝑔𝑜(𝐀𝛗) = 1 = 𝐺 − 1, con lo que la primera ecuación estaría


identificada, suponiendo que, 𝛾22 ≠ 0. De la misma forma, la restricción en la segunda
ecuación implica que,

𝛗′ = [0 0 1 0] , y , (𝐀𝛗)′ = [𝛾11 0] ,

por lo que, 𝑟𝑎𝑛𝑔𝑜(𝐀𝛗) = 1 = 𝐺 − 1. Podemos también examinar la identificación de


las ecuaciones a través de la relación,

𝜶1 [𝐖 𝛗 ] = 𝟎.

Para los parámetros de la primera ecuación esta condición se traduce en,

𝜋11 𝜋12 0
[𝛽11 𝛽12 𝛾11 𝛾12 ] [𝜋21 𝜋22 0
] = [0 0 0] ,
1 0 0
0 1 1
es decir,

𝛽11 𝜋11 + 𝛽12 𝜋21 + 𝛾11 = 0 ,


𝛽11 𝜋12 + 𝛽12 𝜋22 + 𝛾12 = 0 ,

𝛾12 = 0 .

Si normalizamos haciendo que, 𝛽11 = 1, entonces tenemos que,

𝛽12 = −𝜋12 /𝜋22 , y, 𝛾11 = (𝜋12 𝜋21 − 𝜋11 𝜋22 )/𝜋22 .

Esto muestra que los parámetros de la primera ecuación pueden encontrarse


unívocamente a partir de los parámetros reducidos.

A veces, las restricciones que impone la teoría económica son de carácter inhomogéneo,
como por ejemplo,

𝛽12 + 𝛾11 = 1 .

Esta restricción puede ser reformulada antes de realizar la normalización como,

𝛽12 + 𝛾11 − 𝛽11 = 0 ,

para posteriormente imponer, 𝛽11 = 1, con lo que la restricción se vuelve a hacer


homogénea.

16.3.3 Restricciones sobre las varianzas y covarianzas

Hasta el momento no hemos hecho supuestos respecto de los errores en las diferentes
ecuaciones estructurales. Sea entonces,

𝚺 = 𝐸(𝜺𝑡 𝜺′𝑡 ) , (16.3.12)

donde, 𝚺es una matriz de𝐺 × 𝐺, en que los términos de la diagonal principal
corresponden a las varianzas de los errores en las G ecuaciones, y los términos fuera de
la diagonal a las covarianzas entre los errores.

Examinemos primero las restricciones sobre las covarianzas. Consideremos para ello el
modelo,

𝑦1𝑡 + 𝛾11 𝑥1𝑡 = 𝜀1𝑡 ,

𝛽21 𝑦1𝑡 + 𝑦2𝑡 + 𝛾21 𝑥1𝑡 = 𝜀2𝑡 .

Resulta fácil establecer que la primera ecuación está identificada, mientras que la
segunda no lo está. Examinaremos la identificabilidad del sistema, sin embargo,
considerando las transformaciones lineales que son admisibles para este caso. Sea, la
transformación,

f f12
𝐅 = [ 11 ].
f21 f22
La primera ecuación del sistema transformada por F queda como sigue,

(f11 + f12 𝛽21 )𝑦1𝑡 + f12 𝑦2𝑡 + (f11 𝛾11 + f12 𝛾21 )𝑥1𝑡 = f11 𝜀1𝑡 + f12 𝜀2𝑡 .

Si es que los coeficientes de la ecuación transformada deben satisfacer las mismas


restricciones que las que satisfacen en la versión original, entonces se deberá cumplir
que,

f11 + f12 𝛽21 = 1,

f12 = 0,

lo que resulta en, f11 = 1 y f12 = 0. La única restricción en la segunda ecuación


corresponde a la condición de normalización, por lo tanto, las matrices de
transformación que son admisibles son del tipo,

1 0
𝐅=[ ],
f21 f22

lo que corrobora el hecho que la primera ecuación está identificada y la segunda no.
Supongamos ahora que postulamos que la matriz 𝚺es del tipo,

σ11 0
𝚺=[ ].
0 σ22

El vector transformado de errores está dado por, 𝐅𝜺𝑡 , y por lo tanto, la matriz de
varianzas y covarianzas de los errores para la estructura transformada, está dada por,

𝚿 = 𝐸(𝐅𝜺𝑡 𝜺′t 𝐅 ′ ) = 𝐅𝚺𝐅 ′ , (16.3.13)

que sabemos debe satisfacer la restricción σ12 = 0, es decir,𝐟1 𝚺𝐟2′ = 0, lo que a su vez,
implica que, f21 σ11 = 0, por lo que, f21 = 0. El valor de f22 se resuelve a través de la
condición de normalización, que en este caso, dice que el coeficiente que acompaña a
𝑦2𝑡 en la segunda ecuación, debe ser igual a 1. Los coeficientes de la estructura
transformada, entonces, están dados por,

1 0 1 0 𝛾11
𝐅𝐀 = [ ][ ],
f21 f22 𝛽21 1 𝛾21

todo lo cual resulta en que el coeficiente de 𝑦2𝑡 en la segunda ecuación sea igual a f22 .
Por lo tanto, f22 = 1, con lo que las matrices admisibles de transformación toman la
forma de,

1 0
𝐅=[ ],
0 1
y por ende, ambas ecuaciones estarían ahora identificadas.

Hasta el momento, sólo hemos considerado el caso en que los términos fuera de la
diagonal principal de 𝚺son nulos. Otra posibilidad es que tengamos situaciones como el
caso, σ11 = 0, lo que hace que la primera ecuación sea una identidad exacta en vez de
ser una relación estocástica. Para estudiar la identificabilidad de dicha ecuación, será
conveniente examinar dos condiciones. Primero, la transformación de la misma deberá
satisfacer las restricciones a priori que cumplen los parámetros de la ecuación original,
es decir,

𝐟1 𝐀𝛗 = 𝟎.

En segundo término, la transformación del término correspondiente al error deberá ser


cero, es decir,

𝐟1 𝚺𝐟1′ = 0.

Como 𝚺es positivo semidefinido, esta condición sólo se satisface si y sólo si, 𝐟1 𝚺 = 𝟎.
Uniendo estas dos condiciones, podemos escribir,

𝐟1 [𝐀𝛗 𝚺] = 𝟎. (16.3.14)

Si la ecuación está identificada, entonces los vectores 𝐟1 que satisfacen (16.3.14) deben
ser múltiplos escalares unos de otros. Por lo tanto, la condición necesaria y suficiente
para la identificabilidad de la primera ecuación bajo la restricción adicional de σ11 = 0,
es,

𝑟𝑎𝑛𝑔𝑜[𝐀𝛗 𝚺] = 𝐺 − 1. (16.3.15)

Notamos que si los demás errores son no-nulos, entonces 𝑟𝑎𝑛𝑔𝑜(𝚺) = 𝐺 − 1, entonces
la condición de rango dada por (16.3.15), se cumplirá incluso si no hay restricciones a
priori en los parámetros 𝛽 y 𝛾. Un ejemplo de este caso lo tenemos en el sistema,

𝑦1 + 𝛾11 𝑥1 = 𝜀1 ,

𝛽21 𝑦1 + 𝑦2 + 𝛾21 𝑥1 = 𝜀2 .

Sin restricciones en la matriz 𝚺, la segunda ecuación no está identificada. Sin embargo,


si la segunda ecuación se convierte en,

𝛽21 𝑦1 + 𝑦2 + 𝛾21 𝑥1 = 0,

entonces tenemos que,

σ11 0
𝚺=[ ],
0 0
y para la segunda ecuación se tiene que,

σ 0
[𝐀𝛗 𝚺] = [ 11 ],
0 0
que tiene rango igual a, 𝐺 − 1 = 1, con lo que la ecuación ahora sí está identificada.
16.3.4 Identidades

Una forma especial de una ecuación no-estocástica que aparece frecuentemente en


modelos econométricos, particularmente en modelos macroeconómicos, es el de una
identidad, donde el término del error estocástico es cero. Por ejemplo, consideremos el
modelo microeconométrico de oferta y demanda,

𝑞 𝐷 = 𝛼0 + 𝛼1 𝑝 + 𝜀1 ,

𝑞 𝑂 = 𝛽0 + 𝛽1 𝑝 + 𝛽2 𝑤 + 𝜀2 ,

𝑞𝐷 = 𝑞𝑂 ,

donde, 𝑞 𝐷 es la cantidad demandada, 𝑞 𝑂 la cantidad ofertada, p es el precio del producto


y w es, por ejemplo, algún indicador climático que sólo afecta a la oferta del producto.
Este modelo, tal como está escrito, contiene tres variables endógenas: 𝑞 𝐷 ,𝑞 𝑂 , y p (𝐺 =
3), y dos variables exógenas: w y z (la variable dummy que corresponde al intercepto)
que es igual a 1. Reagrupando este modelo de la forma estandarizada, obtenemos,

𝑞𝐷
1 0 −𝛼1 0 −𝛼0 𝑞 𝑂 𝜀1
[0 1 −𝛽1 −𝛽2 −𝛽0 ] 𝑝 = [𝜀2 ] .
1 −1 0 0 0 𝑤 0
[𝑧]

Para la primera ecuación tenemos que,

0 0
𝐀𝛗 = [ 1 −𝛽2 ],
−1 0
con lo que, 𝑟𝑎𝑛𝑔𝑜[𝐀𝛗] = 2 = 𝐺 − 1, por lo que la ecuación estaría identificada.
Cuando tenemos restricciones de exclusión, la matriz 𝐀𝛗puede escribirse directamente
tomando las columnas de 𝐀que contienen los ceros de la fila correspondiente a la
ecuación que tiene las restricciones. Para la segunda ecuación tenemos,

1
𝐀𝛗 = [0],
1
cuyo rango es igual a uno, por lo que esta ecuación no estaría identificada.

Ahora bien, existe un enfoque alternativo para resolver este problema, que consiste en
eliminar una de las tres variables endógenas haciendo uso explícitamente de la
identidad:

𝑞 = 𝛼0 + 𝛼1 𝑝 + 𝜀1 ,

𝑞 = 𝛽0 + 𝛽1 𝑝 + 𝛽2 𝑤 + 𝜀2 ,
donde ahora 𝐺 = 2. La primera ecuación sigue estando identificada ya que tiene una
restricción entre sus parámetros, mientras que la segunda no lo está ya que en este caso
no hay restricciones.

16.3.5 Enfoque alternativo para condiciones de identificación

Existe un enfoque alternativo para examinar las condiciones bajo las cuales los
parámetros de un sistema de ecuaciones econométricas están identificados. La
metodología presentada hasta ahora, se debe al trabajo conjunto realizado por los
investigadores de la Comisión Cowles,Koopmanset al (1950)11. Posteriormente, Wegge
(1965) y Rothenberg (1971), presentan un novedoso enfoque que distingue entre
identificación global y local de parámetros12. Seguiremos, básicamente, el tratamiento
de Rothenberg, que considera el conjunto de 𝐺ecuaciones,

𝐁𝒚𝑡 + 𝚪𝒙𝑡 = 𝜺𝑡 ,

junto al espacio A de parámetros (aún no restringidos), que consiste de (2𝐺 + 𝐾)𝐺


elementos provenientes de (𝐁, 𝚪, 𝚺), donde B y 𝚺son no-singulares. Además, se
incorporan 𝑘restricciones entre los parámetros, del tipo,

𝜓𝑖 (𝐁, 𝚪, 𝚺) = 0 , (16.3.16)

en que, 𝑖 = 1, … , 𝑘. Las ecuaciones reducidas correspondientes son,

𝒚𝑡 = 𝚷𝒙𝑡 + 𝝂𝑡 ,

donde𝝂𝑡 es de media nula y matriz de varianzas-covarianzas,

𝛀 = 𝐁 −1 𝚺(𝐁′ )−1. (16.3.17)

Si se toma una muestra aleatoria de tamaño T, se obtiene una matriz X de 𝑇 × 𝐾,


correspondiente a observaciones sobre 𝒙𝑡 , y una matriz de observaciones Y sobre𝒚𝑡 . Si
X es de rango completo 𝐾, es fácil verificar que,

𝐸[(𝐗 ′ 𝐗)−1 𝐗 ′ 𝐘] = 𝚷′ ,

𝐸{𝐘 ′ [𝐈 − 𝐗(𝐗 ′ 𝐗)−1 𝐗 ′ ]𝐘}/(𝑇 − 𝐾) = 𝛀.

Por los resultados vistos en los acápites anteriores, tanto 𝚷como𝛀están identificados.
Consideremos a (𝐁, 𝚪, 𝚺) como el parámetro estructural 𝛂, genéricamente, y
(𝚷, 𝛀)como el parámetro reducido 𝜽.

11
Koopmans, T. C., H. Rubin, y R. B. Leipnik (1950). “Measuring the Equation Systems of Dynamic
Economics,” en Statistical Inference in Dynamic Economic Models (ed. T. C. Koopmans). Cowles
Commission Monograph 10, New York, Joh Wiley.
12
Wegge, L. (1965). “Identifiability Criteria for a System of Equations as a Whole,” Australian Journal of
Statistics, Vol. 7.
Rothenberg, T. J. (1971). “Identification in Parametric Models,” Econometrica, Vol. 39, pág.: 577-591.
Sea (𝐁 0 , 𝚪 0 , 𝚺 0 ) alguna estructura del sistema de ecuaciones que satisface las
restricciones (16.3.16), y sea (𝚷0 , 𝛀0 ) la forma reducida correspondiente. La
identificabilidad de los parámetros del sistema de ecuaciones depende de la unicidad de
las soluciones de:

𝐁𝚷0 + 𝚪 = 𝟎, (16.3.18a)

𝐁𝛀0 𝐁 ′ − 𝚺 = 𝟎,(16.3.18b)

𝜓𝑖 (𝐁, 𝚪, 𝚺) = 0,𝑖 = 1, … , 𝑘 . (16.3.18c)

Sea 𝛃 = 𝑣𝑒𝑐𝐁el vector de dimensión 𝐺 2 formado a partir de B, apilando cada fila de


ésta, en orden, una encima de otra. En forma análoga, 𝛄 = 𝑣𝑒𝑐𝚪es un vector de
dimensión 𝐺𝐾 y 𝛔 = 𝑣𝑒𝑐𝚺uno de dimensión𝐺 2 . Si se definen, 𝛂′ = (𝛃′ , 𝛄′ , 𝛔′ ), y las
matrices de derivadas parciales,

𝝏𝜓 𝝏𝜓 𝝏𝜓
𝛙𝛃 =[𝝏𝛽 𝒊 ] , 𝛙𝛄 =[ 𝝏γ 𝒊 ], 𝛙𝛔 =[𝝏σ 𝒊 ],
𝑗 𝑗 𝑗

podremos calcular la matriz jacobiana para las funciones en (16.3.18) en la forma


particionada como sigue,

(𝐈G ⊗ 𝚷0 )′ 𝐈GK 0
𝐖=[ ∆ 𝟎 −𝐈GG ], (16.3.19)
𝛙𝛃 𝛙𝛄 𝛙𝛔

donde,∆es una matriz de 𝐺 2 × 𝐺 2 con la propiedad que, 𝛙𝛔 ∆= 2𝛙𝛔 (𝐈 ⊗ 𝐁𝛀0 ). Al ser


evaluada la matriz W en 𝛂0 , que a su vez corresponde a los valores de (𝐁 0 , 𝚪 0 , 𝚺 0 ),
obtenemos,

𝟎 𝐈GK 𝟎 (𝐈G ⊗ 𝐁 −1 )′ 𝟎 𝟎
0)
𝐖(𝛂 = [ 𝟎 𝟎 −𝐈GG ] [ (𝐈G ⊗ 𝚷)′ 𝐈GK 𝟎 ], (16.3.20)
𝐖∗ 𝛙𝛄 𝛙𝛔 −∆ 𝟎 𝐈GG

donde𝐖 ∗ es una matriz de 𝑘 × 𝐺 2 dada por,

𝐖 ∗ = 𝛙𝛃 (𝐈G ⊗ 𝐁 ′ ) + 𝛙𝛄 (𝐈G ⊗ 𝚪 ′ ) + 𝛙𝛔 (𝐈G ⊗ 2𝚺). (16.3.21)

La segunda matriz particionada en (16.3.20) es no-singular para todo valor de 𝛂dentro


del espacio de parámetros sin restricciones A. Por ende, el rango de la matriz 𝐖es igual
a 𝐺(𝐺 + 𝐾) más el rango de 𝐖 ∗ . El teorema crucial de Rothenberg (1971), nos dice que
el parámetro 𝛂0 es identificable si y sólo si, 𝐖 ∗ tiene rango 𝐺 2 . De los resultados
anteriores se infiere que una condición necesaria (pero no suficiente) para que 𝛂0 sea
identificable es que, al menos existan 𝐺 2 restricciones independientes del tipo 𝜓𝑖 .

16.4 Estimación de ecuaciones simultáneas

Si se desea, por una parte, ya sea estimar una única ecuación dentro de un sistema de
ecuaciones, o por el contrario, se desea estimar el sistema completo de ecuaciones en
forma simultánea, estamos frente a una situación donde el método de mínimos
cuadrados ordinarios (MCO) y sus variantes, en general, no entregan soluciones
satisfactorias desde un punto de vista econométrico. Si se llegara a emplear MCO en
una ecuación particular del modelo, en general, habrá en ésta más de una variable
endógena corriente, por lo que, independientemente de qué variable se elija como
variable “dependiente”, las demás variables endógenas estarán correlacionadas con el
término de error, lo que hará que las estimaciones de los parámetros sean no sólo
insesgadas sino que además inconsistentes. Solamente en el caso de modelos recursivos,
el método MCO será una metodología óptima.

En modelos más generales, donde no se satisfagan los supuestos de los modelos


recursivos, existirá un método sencillo de estimación, cual es el de mínimos cuadrados
indirectos (MCI), cuando la ecuación que se quiere estimar está exactamente
identificada. Básicamente, consiste en estimar los parámetros reducidos del modelo,
usando para ello MCO en cada ecuación reducida del modelo, para luego derivar
estimaciones de los parámetros estructurales, a partir justamente de las estimaciones de
los parámetros reducidos, usando para ello la relación, 𝐁𝚷 = −𝚪, reemplazando 𝚷por
̂ . Los elementos de 𝚷
𝚷 ̂ serán MELI (estimadores con la propiedad de ser lineales e
insesgados, y además tener la varianza más pequeña en esta última categoría). Esta
propiedad no se mantiene invariante bajo la transformación anterior, por lo que los
coeficientes estructurales estimados serán sesgados, pero sí consistentes. Sin embargo,
para ecuaciones que están sobreidentificadas, el método MCI ya no es más factible, por
lo que habrá que implementar nuevos métodos, por ejemplo, el método de mínimos
cuadrados en dos etapas (MC2E), o el método de máxima verosimilitud con
información limitada (MVIL). Estas dos últimas metodologías sólo sirven en el caso de
querer estimar una determinada ecuación dentro del sistema completo de ecuaciones. Si
se deseara estimar la totalidad de las ecuaciones simultáneamente, habrá que recurrir a
métodos globales como mínimos cuadrados en tres etapas (MC3E), o a máxima
verosimilitud con información completa (MVIC).

16.4.1 Sistemas recursivos

Desde el punto de vista de las ecuaciones simultáneas, los sistemas recursivos son los
más sencillos de estimar. Éstos están caracterizados por una matriz B que es triangular,
y una matriz 𝚺que es diagonal. Si escribimos las ecuaciones estructurales para todos los
períodos muestrales, como en (16.2.11), obtenemos:

𝐘𝐁 ′ + 𝐗𝚪 ′ = 𝚬 , (16.4.1)

con una forma reducida,

𝐘 = 𝐗𝚷′ + 𝚼, (16.4.2)

donde,

𝚼 = 𝚬(𝐁 ′ )−1. (16.4.3)


Si premultiplicamos (16.4.2) por (1/𝑇)𝐄′ y tomamos límite de probabilidad,
obtenemos,

𝑝𝑙𝑖𝑚{(1/𝑇)𝐄′ 𝐘} = 𝑝𝑙𝑖𝑚{(1/𝑇)𝐄′ 𝚼} ,

ya que, por supuestos previos, 𝑝𝑙𝑖𝑚{(1/𝑇)𝐄′ 𝐗} = 𝟎. Usando ahora (16.4.3), tenemos,

𝑝𝑙𝑖𝑚{(1/𝑇)𝐄′ 𝐘} = 𝑝𝑙𝑖𝑚{(1/𝑇)𝐄′ 𝐄}(𝐁 ′ )−1 = 𝚺(𝐁 ′ )−1. (16.4.4)

Para un sistema recursivo de 3 × 3 tenemos que (16.4.4) se convierte en,

𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀1𝑡 𝑦1𝑡 } 𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀1𝑡 𝑦2𝑡 } 𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀1𝑡 𝑦3𝑡 }
𝑡 𝑡 𝑡

𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀2𝑡 𝑦1𝑡 } 𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀2𝑡 𝑦2𝑡 } 𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀2𝑡 𝑦3𝑡 }
𝑡 𝑡 𝑡

𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀3𝑡 𝑦1𝑡 } 𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀3𝑡 𝑦2𝑡 } 𝑝𝑙𝑖𝑚 {(1/𝑇) ∑ 𝜀3𝑡 𝑦3𝑡 }
[ 𝑡 𝑡 𝑡 ]

𝜎11 𝜎11 𝛽 21 𝜎11 𝛽 31


=[ 0 𝜎22 𝜎11 𝛽 32 ],
0 0 𝜎33

donde,

1 𝛽 21 𝛽 31
(𝐁 ′ )−1 = [0 1 𝛽 32 ].
0 0 1

Aquí, 𝛽 𝑖𝑗 corresponde al cofactor de 𝛽𝑖𝑗 . De los resultados aquí expuestos, se desprende


que, 𝜀2 no está correlacionado en el límite con 𝑦1 , y que 𝜀3 no lo está ni con 𝑦1 ni con
𝑦2 . Esto significa que, en un sistema de ecuaciones del tipo,

𝑦1 + 𝛾11 𝑥 = 𝜀1

𝛽21 𝑦1 + 𝑦2 + 𝛾21 𝑥 = 𝜀2

𝛽31 𝑦1 + 𝛽32 𝑦2 + 𝑦3 + 𝛾31 𝑥 = 𝜀3 ,

las ecuaciones segunda y tercera, pueden ser estimadas directamente usando el


algoritmo MCO, al igual que la primera ecuación, naturalmente.

También es fácil constatar que si los términos de error 𝜀𝑖 se distribuyen normalmente,


entonces, los estimadores MCO son equivalentes a los estimadores máximo verosímiles
(MV). La función de verosimilitud conjunta está dada por,

𝐿 = |𝑑𝑒𝑡𝐁|𝑇 𝑓(𝛆1 ) ⋯ 𝑓(𝛆𝑇 ) ,

bajo el supuesto que los T errores 𝛆 son independientes entre sí. Como estamos
suponiendo que, cada 𝛆𝑡 sigue una distribución normal multivariada, 𝑁(𝟎, 𝚺), entonces
el logaritmo de la verosimilitud conjunta está dada por,
𝑇 1
𝐿∗ = 𝑙𝑜𝑔𝐿 = 𝐶𝑡𝑒 + 𝑇𝑙𝑜𝑔|𝑑𝑒𝑡𝐁| − 𝑙𝑜𝑔(𝑑𝑒𝑡𝚺) − ∑𝑇𝑡=1 𝛆′𝑡 𝚺 −1 𝛆𝑡 .
2 2

Para sistemas de ecuaciones recursivos, se tiene que, |𝑑𝑒𝑡𝐁| = 1 y tanto 𝚺como 𝚺 −1


son diagonales. Por lo tanto, las estimaciones de B y 𝚪que maximizan a𝐿∗ , son
equivalentes a aquellas matrices que minimizan a,

𝑆 = ∑𝑇𝑡=1 𝛆′𝑡 𝚺 −1 𝛆𝑡 .

Para nuestro ejemplo de tres ecuaciones, esta última expresión es igual a,


−1
𝑇 𝜎11 0 0 ε1𝑡
𝑆=∑ [ε1𝑡 ε2𝑡 ε3𝑡 ] [ 0 −1
𝜎22 ε
0 ] [ 2𝑡 ]
𝑡=1 −1 ε3𝑡
0 0 𝜎33

ε2 ε2 ε2
𝑆 = ∑𝑇𝑡=1(𝜎1𝑡 + 𝜎2𝑡 + 𝜎3𝑡 ) .
11 22 33

Así, las derivadas parciales de 𝐿∗ con respecto a los coeficientes estructurales de la


primera ecuación, son simplemente iguales a las derivadas parciales de S con respecto a
los mismos parámetros, que son, a su vez, las derivadas parciales de,

ε21𝑡
∑𝑇𝑡=1 .
𝜎11

Igualando estas derivadas a cero, obtenemos las ecuaciones normales de MCO para la
primera ecuación, y así, sucesivamente, para las demás ecuaciones.

16.4.2 Mínimos cuadrados indirectos

Tal como se indicó en la sección correspondiente a identificación de ecuaciones en el


contexto de sistemas de ecuaciones econométricas, el método de MCI es una técnica de
estimación factible cuando la ecuación en cuestión está exactamente identificada. El
primer paso consiste en estimar los parámetros reducidos, utilizando para ello, MCO a
cada una de las ecuaciones reducidas. Este método es apropiado en esta etapa, pues en
las ecuaciones reducidas no existen variables endógenas en el lado derecho de dichas
ecuaciones, sino sólo variables predeterminadas. Luego, en la segunda etapa, los
coeficientes estructurales, se obtienen a partir de relaciones algebraicas elementales que
existen entre los parámetros reducidos y estructurales. El modelo estructural en el
período t está dado por,

𝐁𝒚𝑡 + 𝚪𝒙𝑡 = 𝜺𝑡 , 𝑡 = 1, … , 𝑇, (16.4.5)

donde, 𝒚𝑡 = (𝑦1𝑡 , … , 𝑦𝐺𝑡 )′ y 𝒙𝑡 = (𝑥1𝑡 , … , 𝑥𝐾𝑡 )′ , son respectivamente, el vector 𝐺 × 1


de observaciones sobre las variables endógenas conjuntamente dependientes en el
tiempo t, y el vector 𝐾 × 1 de observaciones sobre las variables predeterminadas en t.
Definamos las matrices, Y yXcomo,
𝑦1′ 𝑥1′
𝑦′ 𝑥′
𝐘 = [ 2] , 𝐗 = [ 2] ,
⋮ ⋮
𝑦𝑇′ 𝑥𝑇′

de tal manera que, Y es la matriz 𝑇 × 𝐺 correspondiente a las observaciones muestrales


de las variables endógenas, y X es la matriz 𝑇 × 𝐾 de observaciones muestrales sobre
las variables predeterminadas. De la relación (16.4.5), se deduce que,

𝐘𝐁 ′ + 𝐗𝚪 ′ = 𝐄, (16.4.6)

en que, E es la matriz 𝑇 × 𝐺 correspondiente a los términos de error en las ecuaciones.


La forma reducida correspondiente a (16.4.6) puede representarse como,

𝐘 = 𝐗𝚷′ + 𝚼, (16.4.7)

donde, 𝚷′ = −𝚪 ′ (𝐁 ′ )−1 y 𝚼 = 𝐄(𝐁 ′ )−1. La estimación de 𝚷′ se logra sencillamente


utilizando MCO a (16.4.7),

̂ ′ = (𝐗′𝐗)−1 𝐗′𝐘.
𝚷 (16.4.8)

Esta relación nos entrega la estimación de los coeficientes reducidos correspondiente a


la primera etapa de MCI. Supongamos que nos interesa estimar la ecuación,

𝒚 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆 , (16.4.9)

en que,

yes en vector𝑇 × 1 de observaciones de la variable dependiente,

𝐘1es una matriz 𝑇 × (𝑔 − 1), con observaciones de las demás 𝑔 − 1 variables


endógenas incluidas en la ecuación ,

𝛃es un vector(𝑔 − 1) × 1, de coeficientes estructurales correspondientes a las variables


en 𝐘1,

𝐗1 es una matriz 𝑇 × 𝑘 de observaciones de variables predeterminadas contenidas en la


ecuación,

𝛄es un vector 𝑘 × 1 de coeficientes asociados a variables predeterminadas en 𝐗1 ,

𝛆es vector de𝑇 × 1 de errores en la ecuación.

Reescribiendo (16.4.9), obtenemos,

1
[𝒚 𝐘1 𝐗1 ] [−𝛃] = 𝛆 ,
−𝛄

o más precisamente,
1
−𝛃
[𝒚 𝐘1 𝐘2 𝐗1 𝐗 2 ] 𝟎 = 𝛆,
−𝛄
[ 0 ]

donde, 𝐘2 y 𝐗 2 son las matrices correspondientes a las 𝐺 − 𝑔 variables endógenas y


𝐾 − 𝑘 variables predeterminadas, respectivamente, que están excluidas de la ecuación
en cuestión.

Las relaciones entre parámetros estructurales y reducidos están dadas por (16.2.4), que,
a su vez, se puede reescribir como,

𝚷′ 𝐁 ′ = −𝚪 ′ .

Así, para la relación (16.4.9), las restricciones entre coeficientes reducidos y


estructurales toman la forma,

1
′ 𝛄
𝚷 [−𝛃] = [ ]. (16.4.10)
𝟎
𝟎
Reemplazando esta última expresión en (16.4.8), obtenemos, finalmente, los
̂ y 𝛄̂, resolviendo el sistema de
coeficientes MCI, en la forma de los vectores 𝛃
ecuaciones,

1
(𝐗′𝐗)−1 𝐗 ′ 𝐘 [−𝛃̂ ] = [𝛄̂]. (16.4.11)
𝟎
𝟎
̂ y 𝛄̂. Reescribiendo
El aspecto crucial es si acaso existe una única solución para 𝛃
(16.4.11) como

1
−1 ′ [𝒚
(𝐗′𝐗) 𝐗 𝐘1 𝐘2 ] [−𝛃̂ ] = [𝛄̂] ,
𝟎
𝟎
obtenemos,

̂ = [𝛄̂].
(𝐗′𝐗)−1 𝐗 ′ 𝒚 − (𝐗′𝐗)−1 𝐗 ′ 𝐘1 𝛃 (16.4.12)
𝟎
Si premultiplicamos esta última relación por (𝐗 ′ 𝐗), y particionamos X como [𝐗1 𝐗 2 ],
luego de reagrupar términos, obtenemos el sistema,

̂ + (𝐗1′ 𝐗1 )𝛄̂ = 𝐗1′ 𝒚,


(𝐗1′ 𝐘1 )𝛃 (16.4.13)

̂ + (𝐗 ′2 𝐗1 )𝛄̂ = 𝐗 ′2 𝒚.
(𝐗 ′2 𝐘1 )𝛃 (16.4.14)

El sistema conformado por (16.4.13) y(16.4.14), corresponde a un sistema de K


ecuaciones con (𝑔 − 1) + 𝑘 incógnitas. Ahora bien, la condición necesaria para que
haya identificación exacta es, 𝐾 − 𝑘 = 𝑔 − 1, que es justamente la condición que se
está cumpliendo en este caso, es decir, que el número de ecuaciones sea igual al número
̂ y 𝛄̂ usando MCI cuando la
de incógnitas. Por lo tanto, hay una solución única para 𝛃
ecuación que se quiere estimar está exactamente identificada.

Las ecuaciones anteriores también nos muestran que las estimaciones por MCI pueden
interpretarse como estimaciones por variables instrumentales (VI). Volviendo a la
ecuación estructural,

𝒚 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆,

tenemos que la inconsistencia de los estimadores MCO surge debido a las correlaciones
entre 𝐘1 y 𝛆. Sin embargo, las variables predeterminadas no están correlacionadas con el
término del error, y en el caso de identificación exacta,𝐗 2 tiene el mismo número de
columnas que 𝐘1, lo cual sugiere utilizar [𝐗 2 𝐗1 ] como instrumentos para [𝐘1 𝐗1 ].
Las estimaciones resultantes con el método de VI se obtienen resolviendo el sistema de
ecuaciones,

𝐗 ′2 𝐘1 𝐗 ′2 𝐗1 𝛃 ̂ VI 𝐗 ′2 𝒚
[ ] [ ] = [ ],
𝐗1′ 𝐘1 𝐗1′ 𝐗1 𝛄̂VI 𝐗1′ 𝒚

que es idéntico al sistema conformado por (16.413) y (16.4.14). Si reescribimos la


relación (16.4.9) como,

𝒚 = 𝐙1 𝜹 + 𝜺,

donde, 𝐙1 = [𝐘1 𝐗1 ] y 𝜹′ = [𝛃′ 𝛄′ ] , el estimador por VI para 𝜹está dado por,

̂
̂VI = [𝛃VI ] = (𝐗 ′ 𝐙1 )−1 𝐗 ′ 𝒚,
𝜹 (16.4.15)
𝛄̂VI

que es idéntico al estimador MCI definido por (16.4.13) y (16.4.14).

16.4.3.1 Mínimos cuadrados en dos etapas

El método de mínimos cuadrados en dos etapas (MC2E) es el más usado para la


estimación de una única ecuación dentro de un sistema de ecuaciones econométricas. El
motivo de ello es simple, y es debido a que en la práctica, es poco frecuente encontrarse
con una relación econométrica que esté exactamente identificada, por lo que la
metodología de MCI no es de amplio uso. Como veremos, el método de MC2E se puede
utilizar, indistintamente, tanto en el caso de una ecuación exactamente identificada
como en una que esté sobreidentificada. Además, en el caso poco frecuente de una
ecuación exactamente identificada, ambos métodos, MCI y MC2E, las estimaciones
producen idénticos resultados.

El otro algoritmo que cumple con características similares a MC2E, es el llamado


método de máxima verosimilitud con información limitada (MVIL).En la próxima
sección, analizaremos métodos sistémicos, que son empleados para estimar el sistema
completo de ecuaciones. A esta categoría pertenecen los métodos de mínimos cuadrados
en tres etapas (MC3E) y el de máxima verosimilitud con información completa
(MVIC).

Para analizar el método de MC2E, supongamos que la ecuación que se quiere estimar
está escrita de la forma siguiente,

𝐲 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆 , (16.4.16)

donde se requiere además que, se satisfaga la condición de identificabilidad,

𝐾−𝑘 ≥𝑔−1,

ya sea para garantizar que, la ecuación esté exactamente o sobre identificada. Hemos
visto que la gran deficiencia de MCO, consiste en que las variables contenidas en 𝐘1
están correlacionadas con el término de error 𝛆, haciendo que MCO aplicado a (16.4.16)
obtenga estimaciones inconsistentes. El método de MC2E consiste justamente en
reemplazar 𝐘1 por otra matriz 𝐘 ̂1, que no tiene los problemas que sí tiene 𝐘1, y luego,
utilizar MCO de y sobre 𝐘 ̂1 y 𝐗1 , produciendo así estimadores consistentes. La matriz
̂1 se calcula regresionando cada variable contenida en 𝐘1 sobre la totalidad de las
𝐘
variables predeterminadas en el sistema completo de ecuaciones (primera etapa del
método), para luego reemplazar las variables y observadas por los valores
correspondientes obtenidos a través de las regresiones (etapa dos). Así es que tenemos,

̂1 = 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐘1 .
𝐘 (16.4.17)

̂1 y 𝐗1 , obteniéndose el siguiente sistema de


En la segunda etapa se regresionaysobre𝐘
ecuaciones,

̂′𝐘
𝐘 ̂ ̂1′ 𝐗1 𝛃
𝐘 ̂ ̂1′ 𝒚
𝐘
[ 1′ 1 ] [ ] = [ ], (16.4.18)
̂1
𝐗1 𝐘 𝐗1′ 𝐗1 𝛄̂ 𝐗1′ 𝒚

̂′ = [𝜷
en que, 𝜹 ̂′ 𝜸 ̂′ ] corresponde a las estimaciones MC2E de los parámetros𝜹′ =
[𝛃′ 𝛄′ ]. Concretamente, para la estimación de los coeficientes por MC2E no es
necesario calcular explícitamente 𝐘̂1.

Una forma alternativa a (16.4.18) puede encontrarse a partir de las observaciones


reales. Para ver esto, escribamos la matriz 𝐘1como,

̂1 + 𝐕1 ,
𝐘1 = 𝐘

en que 𝐕1 es la matriz de 𝑇 × (𝑔 − 1) correspondiente a los residuos por MCO. Por las


propiedades usuales de residuos de MCO tenemos que,

̂1 𝐕1 = 0 ,
𝐘 y 𝐗 ′ 𝐕1 = 𝟎 .
Por lo tanto,

̂1′ 𝐘
𝐘 ̂1 = 𝐘
̂1′ (𝐘1 − 𝐕1 ) ,

̂1′ 𝐘1 ,
=𝐘

= 𝐘1′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐘1 .

Además, tenemos que,

̂1′ 𝐗1 = (𝐘1 − 𝐕1 )′ 𝐗1 = 𝐘1′ 𝐗1 .


𝐘

Por ende, se podrán escribir las ecuaciones que determinan los estimadores por MC2E
como,

𝐘1′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐘1 𝐘1′ 𝐗1 𝛃 ̂ 𝐘1′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝒚


[ ] [ ] = [ ] .(16.4.19)
𝐗1′ 𝐘1 𝐗1′ 𝐗1 𝛄̂ 𝐗1′ 𝒚

Por último, otra forma alternativa que se puede deducir trivialmente a partir de
(16.4.19), está dada por,

𝐘1′ 𝐘1 − 𝐕1′ 𝐕1 𝐘1′ 𝐗1 𝛃 ̂ (𝐘1 − 𝐕1 )′ 𝐲


[ ] [ ] = [ ], (16.4.20)
𝐗1′ 𝐘1 𝐗1′ 𝐗1 𝛄̂ 𝐗1′ 𝐲

16.4.3.2 Interpretación de MC2E como estimador por VI

La ecuación estructural que se quiere estimar puede escribirse como,

𝐲 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆 = 𝐙1 𝛅 + 𝛆 , (16.4.21)

donde,

𝐙1 = [𝐘1 𝐗1 ] , y , 𝛅′ = [𝛃′ 𝛄′ ] .

El problema que entraña estimar (16.4.21) por MCO es que,


1
𝑝𝑙𝑖𝑚(𝑇 𝒁1′ 𝛆) ≠ 𝟎.

El método de VI se hace posible si es que podemos encontrar una matriz W, tal que,
1
(i) 𝑝𝑙𝑖𝑚 (𝑇 𝐖 ′ 𝐖) = 𝚺𝐰𝐰 , es una matriz positiva definida y simétrica,
1
(ii) 𝑝𝑙𝑖𝑚 ( 𝐖 ′ 𝐙1 ) = 𝚺𝐰𝐳1 , es una matriz finita no-singular,
𝑇
1
(iii) 𝑝𝑙𝑖𝑚 (𝑇 𝐖 ′ 𝛆) = 𝟎.

En este caso, VI indica que el estimador adecuado es,

̂VI = (𝐖′𝐙1 )−1 𝐖′𝒚,


𝛅 (16.4.22)
que es consistente, y además tendrá una matriz de varianza-covarianza asintótica dada
por,

̂VI ) = 𝑠 2 (𝐖 ′ 𝐙1 )−1 (𝐖 ′ 𝐖)(𝐙1′ 𝐖)−1 ,


𝑉𝑎𝑟𝐴𝑠(𝛅 (16.4.23)

̂VI ) (𝒚 − 𝐙1 𝛅
donde,𝑠 2 = (𝒚 − 𝐙1 𝛅 ̂VI )/𝑇 .

En el caso que nos concierne, tenemos que,𝐙 = 𝐙1 = [𝐘1 𝐗1 ],y elegimos,


𝐖 = [𝐘 ̂1 es el conjunto de instrumentos para las variables
̂1 𝐗1 ],de tal manera que, 𝐘
endógenas 𝐘1. El estimador definido en (16.4.22), entonces está determinado por las
ecuaciones,

̂1′ 𝐘1
𝐘 ̂1′ 𝐗1 𝛃
𝐘 ̂ VI ̂1′ 𝒚
𝐘
[ ] [ ] = [ ]. (16.4.24)
𝐗1′ 𝐘1 𝐗1′ 𝐗1 𝛄̂VI 𝐗1′ 𝒚

Sin embargo, ya hemos visto que, 𝐘 ̂1′ 𝐘1 = 𝐘


̂1′ 𝐘
̂1, y por otra parte, 𝐘
̂1′ 𝐗1 = 𝐘1′ 𝐗1 , por lo
que, las relaciones (16.4.18) y (16.4.24) son idénticas, con lo que se colige que el
estimador MC2E es un estimador por VI, donde 𝐘 ̂1 es el conjunto de instrumentos para
𝐘1.

Para chequear la consistencia del estimador MC2E, se requieren tres condiciones que
debe satisfacer la matriz W. Supondremos que se cumple que,
1 1
𝑝𝑙𝑖𝑚(𝑇 𝐖′𝐖)y𝑝𝑙𝑖𝑚(𝑇 𝐖′𝐙) ,

son ambos finitos; la tercera condición es que,


1
̂1′ 𝛆)
𝑝𝑙𝑖𝑚 (𝑇 𝐘
1 ′
𝑝𝑙𝑖𝑚 (𝑇 𝐖 𝛆) = [ 1
] = 𝟎.
𝑝𝑙𝑖𝑚 (𝑇 𝐗1′ 𝛆)

En lo que se refiere a las variables predeterminadas 𝐗1 , éstas, por definición, no están


correlacionadas en el límite con el término del error. Lo mismo vale si acaso en la
matriz 𝐗1 se encontrasen variables endógenas rezagadas, siempre y cuando el término
de error no presente autocorrelación. El otro término que hay que examinar es,

1 ′ 1
𝑝𝑙𝑖𝑚 ( 𝐘̂1 𝛆) = 𝑝𝑙𝑖𝑚( 𝐘1′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝛆)
𝑇 𝑇
1 1 −1 1
= 𝑝𝑙𝑖𝑚 ( 𝐘1′ 𝐗) ∙ 𝑝𝑙𝑖𝑚 ( 𝐗 ′ 𝐗) ∙ 𝑝𝑙𝑖𝑚 ( 𝐗 ′ 𝛆) = 𝟎.
𝑇 𝑇 𝑇

Esta última expresión se anula ya que, los dos primeros términos son finitos, y el tercero
es cero.

En el capítulo XI correspondiente a rezagos distribuidos, se mostró que los estimadores


por VI se distribuyen asintóticamente como una normal, con una matriz de varianzas-
covarianzas asintótica dada por (16.4.23). Si reemplazamos las matrices W y 𝐙1 y
usamos el hecho que, 𝐘̂1′ 𝐘1 = 𝐘
̂1′ 𝐘
̂1 y 𝐘
̂1′ 𝐗1 = 𝐘1′ 𝐗1 , obtenemos,

̂
𝛃 ̂′𝐘
𝐘 ̂ ̂1′ 𝐗1 −1
𝐘 ′ −1 ′
2 𝐘1 𝐗(𝐗′𝐗) 𝐗 𝐘1 𝐘1′ 𝐗1
−1
𝑉𝑎𝑟𝐴𝑠 [ ] = 𝑠 2 [ 1′ 1 ] = 𝑠 [ ] , (16.4.25)
𝛄̂ ̂1
𝐗1 𝐘 𝐗1′ 𝐗1 𝐗1′ 𝐘1 𝐗1′ 𝐗1

donde,

̂ − 𝐗1 𝛄̂)′ (𝒚 − 𝐘1 𝛃
𝑠 2 = (𝒚 − 𝐘1 𝛃 ̂ − 𝐗1 𝛄̂)/𝑇 , (16.4.26)

que es un estimador consistente de 𝜎𝜀2 13. Por lo tanto, los estimadores MC2E, son
consistentes y se distribuyen asintóticamente como una normal, con una matriz de
varianzas-covarianzas dada por (16.4.25).

Muchas veces en aplicaciones prácticas del método MC2E, sucede que el número de las
variables predeterminadas, especialmente en modelos macroeconómicos de gran
envergadura, es elevado en comparación con el número de observaciones disponibles.
Por ejemplo, supongamos que se da el caso en que, 𝐾 = 𝑇. En esta situación la matriz X
cuadrada, y en ausencia de relaciones lineales entre las variables predeterminadas,
además es no-singular. De la relación (16.4.17), tenemos que,

̂1 = 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐘1 = 𝐗𝐗 −1 (𝐗 ′ )−1 𝐗 ′ 𝐘1 = 𝐘1 .
𝐘

Por lo tanto, MC2E es equivalente a MCO. En este caso, los estimadores MC2E ya no
serán consistentes, ya que la matriz de variables instrumentales es ahora,

𝐖 = [𝐘1 𝐗1 ],con lo quese cumple que,


1
𝑝𝑙𝑖𝑚 (𝑇 𝐘1′ 𝛆) ≠ 𝟎,

de tal manera que,


1
𝑝𝑙𝑖𝑚(𝑇 𝐖′𝛆) ≠ 𝟎,

por lo que se viola la tercera condición para la consistencia de MC2E.

Cuando ocurre el caso más extremo aún de 𝐾 > 𝑇, tenemos que la matriz 𝐗′𝐗, que esde
orden𝐾 × 𝐾, no es de rango completo ya que su rango es igual a T. Por lo tanto, esta
matriz es singular por lo que no existe (𝐗′𝐗)−1. Este hecho ha llevado a pensar a
algunos que no existe el estimador MC2E. Sin embargo, éste no es el caso, como
señalan Fisher y Wadycki (1971)14. Ellos arguyen que, 𝐘 ̂1 será única a pesar de la
multiplicidad de soluciones para los coeficientes reducidos. Por ejemplo, consideremos
la primera variable en𝐘1, y denotemos este vector de observaciones como 𝐲1 (que es de
13
Hay algunos autores que prefieren usar como grados de libertad la cantidad de 𝑇 − 𝑔 − 𝑘 + 1. Si
usamos esta cantidad como divisor en (16.4.26), también obtenemos un estimador consistente para 𝜎𝜀2 .
14
Fisher, W. D., y W. J. Wadycki (1971). “Estimating a Structural Equation in a Large System,”
Econometrica, Vol. 39, pág.: 461-465.
𝑇 × 1). Sea p el vector de 𝐾 × 1 de coeficientes reducidos estimados por MCO
correspondiente a 𝐲1 . La relación usual entre ambos coeficientes está dada por,

(𝐗 ′ 𝐗)𝐩 = 𝐗′𝐲1 . (16.4.27)

Como 𝐗 ′ 𝐗es de orden𝐾 × 𝐾 con rango 𝑇 < 𝐾, la ecuación (16.4.27) tiene una infinidad
de soluciones. Sean, 𝐩1 y 𝐩2 dos soluciones posibles a (16.4.27); tendremos entonces,

(𝐗 ′ 𝐗)𝐩1 = 𝐗′𝐲1 y(𝐗 ′ 𝐗)𝐩2 = 𝐗′𝐲1 .

Por lo tanto, se cumplirá, (𝐗 ′ 𝐗)(𝐩1 − 𝐩2 ) = 𝟎.Premultiplicando esta última relación


por (𝐩1 − 𝐩2 )′ , obtenemos,

(𝐩1 − 𝐩2 )′ (𝐗 ′ 𝐗)(𝐩1 − 𝐩2 ) = 0.

Por lo tanto, 𝐗(𝐩1 − 𝐩2 ) = 𝟎, de tal forma que,

𝐲̂1 = 𝐗𝐩1 = 𝐗𝐩2 .

Además, la relación (16.4.27) puede ser reescrita como,

𝐗 ′ (𝐗𝐩 − 𝐲1 ) = 𝟎.

Como 𝐗 ′ es de rango 𝑇 < 𝐾, la única solución es, 𝐗𝐩 − 𝐲1 = 𝟎, con lo que, 𝐲̂1 = 𝐲1 .


Este mismo resultado se da para cada variable contenida en 𝐘1, así es que, una vez más,
tendremos 𝐘̂1 = 𝐘1 , con lo que MC2E sería equivalente a MCO.

16.4.3.3 MC2E en presencia de autocorrelación

Si la ecuación que se quiere estimar por MC2E no contiene ninguna variable endógena
rezagada como variable explicativa, el método de estimación a emplearse es
sencillamente una generalización de los métodos que se describieron en el Capítulo VII.
Supongamos que la primera ecuación del sistema de ecuaciones simultáneas, presenta
autocorrelación del tipo AR(1),

𝜀𝑡,1 = 𝜌1 𝜀𝑡−1,1 + 𝜂𝑡,1 .

Si no hay variables endógenas rezagadas como variables explicativas, lo que hace la


autocorrelación es afectar la eficiencia de los estimadores, junto con afectar las fórmulas
usuales que calculan los errores estándares de los estimadores de los parámetros
estimados. Los errores autocorrelacionados no afectan la consistencia de los
estimadores. Haciendo las transformaciones usuales de Cochrane- Orcutt, tenemos,

𝑦𝑡,1 − 𝜌1 𝑦𝑡−1,1 = (𝐗 ′𝑡,1 − 𝜌1 𝐗 ′𝑡−1,1 )𝛃1 + (𝐘𝑡,1


′ ′
− 𝜌1 𝐘𝑡−1,1 )𝛄1 + 𝜂𝑡,1 . (16.4.28)

Si se conociera 𝜌1 , el problema de la estimación de la ecuación simultánea seguiría los


derroteros usuales con esta versión modificada. Un estimador consistente de 𝜌1 puede
obtenerse a través de,
2
𝜌̂1 = (∑𝑡 𝜀̂𝑡,1 𝜀̂𝑡−1,1 )/ ∑𝑡 𝜀̂𝑡,1 , (16.4.29)

en que, 𝜀̂𝑡,1 es el error estimado basado en cualquier estimador consistente de 𝜹1 . La


elección obvia es el estimador por MC2E. Con 𝜌̂1 , se puede estimar (16.4.28) usando un
estimador por VI. Las propiedades asintóticas del estimador resultante, son las mismas
que se obtendrían si acaso se hubiese empleado 𝜹1 . El único aspecto pendiente que
queda por resolver es cuáles son los instrumentos adecuados. Ya que únicamente
̂1 = 𝐗𝚷
𝐘𝑡,1 está correlacionado con 𝜂𝑡,1, el estimador consistente se obtiene usando 𝐘 ̂ 1′.
Así, el modelo puede estimarse a través de tres pasos:

(i) Estimación de 𝚷′a través de(𝐗′𝐗)−1 𝐗′𝐘, computando luego𝐘 ̂1 = 𝐗𝚷


̂ 1′ .
(ii) Cálculo de𝜹̂1 usando MC2E; luego estimar 𝜌1 .
(iii) ̂𝑡,1 basado en 𝐗 𝑡 , y luego calcular los estimadores MCGF (mínimos
Usar 𝐘
cuadrados generalizados factibles) basados en (16.4.28).

Es posible también, en el paso (iii), iterar, aunque la ganancia es dudosa;


asintóticamente, ambos tratamientos son equivalentes, pues el estimador es eficiente
luego de la primera iteración.

Si la ecuación en cuestión contiene variables endógenas rezagadas, ocurre entonces que,


los pasos (i) y (ii) producen estimadores que son inconsistentes. Repitiendo la
transformación (16.4.28),vemos que en términos de errores sin correlación serial, la
forma reducida incluye variables como, 𝐗 𝑡 , 𝐗 𝑡−1 , 𝐘𝑡−1 y 𝐘𝑡−2, que es un grupo muy
elevado de variables. Con una muestra de tamaño moderado, quizá resulte imposible
calcular la forma reducida de la ecuación. Sin embargo, para el primer paso, sólo se
requiere de un estimador consistente para 𝜌1 , y no necesariamente eficiente. Una forma
sencilla de lograr esto, es tratar las variables endógenas rezagadas como si fuesen
variables endógenas corrientes, y luego incluir solamente las variables estrictamente
exógenas (tanto corrientes como rezagadas) en el grupo de variables predeterminadas en
el paso (i). De esta manera, en el paso (ii), se obtendrán estimadores consistentes pero
no eficientes. A continuación, luego de (ii), se calcularán los residuos que, a su vez,
también son consistentes, para usarlos en (16.4.29), con lo que se obtendrá un estimador
consistente para 𝜌1 . Finalmente, usando este último estimador, se calcularán los
estimadores MCGE (o si se quiere MCGF) en el paso (iii) usando para ello las
variables endógenas 𝐘 ̂𝑡,1 y,𝐘
̂𝑡−1,1 como se mencionó anteriormente.

El paso (iii) con toda seguridad, trae consigo ganancias en cuanto a eficiencia asintótica,
sin embargo, dado que la muestra es pequeña, la ganancia no resulta ser tan clara.
Debemos hacer notar aquí que, incluso si los errores se distribuyen normalmente, el
estimador final no es enteramente eficiente, y ello se debe a dos razones. Primeramente,
tal como menciona Sargan (1961), la eficiencia plena requeriría estimar la forma
reducida completa15. Y en segundo término, contrariamente al primer caso, este

15
Sargan, D. (1961). “The Maximum Likelihood Estimation of Economic Relationships with
Autoregressive Residuals,” Econometrica, Vol. 29, pág.: 414-426.
estimador requiere de un estimador eficiente para 𝜌1 . Esto podría lograrse iterando
sobre 𝜌1 en el paso (iii).

16.4.4 Estimadores de clase-k

En relación al modelo dado por (16.4.20),

𝐲 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆 ,

Theil (1961) definió una categoría de estimadores, que él denominó estimadores de


clase-k (o k-ésima), dados por,

𝐘1′ 𝐘1 − 𝑘𝐕1′ 𝐕1 𝐘1′ 𝐗1 𝛃̂𝑘 (𝐘1 − 𝑘𝐕1 )′ 𝐲


[ ][ ] = [ ], (16.4.30)
𝐗1′ 𝐘1 𝐗1′ 𝐗1 𝛄̂𝑘 𝐗1′ 𝐲

en que, como antes, 𝐕1 corresponde a la matriz de residuos al regresionar por MCO,𝐘1


sobre X,yk denota un número que puede ser estocástico o determinístico16. Este valor no
debe confundirse con K, que corresponde al número de variables predeterminadas en
nuestro modelo. Los dos ejemplos más importantes de modelos de clase-k, ocurren
cuando 𝑘 = 0 y cuando 𝑘 = 1. Para el primer caso, (16.4.29) produce los estimadores
MCO obtenidos de una regresión directa de 𝐲sobre[𝐘1 𝐗1 ]. Cuando 𝑘 = 1, los
estimadores resultantes resultan ser los estimadores MC2E, como se puede apreciar
comparando con la expresión (16.4.20). Si k es estocástico, y a la vez se cumple que
𝑝𝑙𝑖𝑚 𝑘 = 1, entonces los estimadores dados por (16.4.30), convergerán a la solución
dada por MC2E; en este caso, los estimadores de clase-k serán consistentes, y tendrán
las misma matriz de varianza-covarianza asintótica que los estimadores MC2E. Este
último resultado es importante, pues, como se verá en la próxima sección, el estimador
EIL (estimador de información limitada) es un estimador de clase-k, donde k es
reemplazado por 𝑙̂. Así, se desprende que, la familia de estimadores clase-k comprende
a los estimadores MCO, MC2E y EIL.

Goldberger (1965) mostró que los estimadores de clase-k pueden interpretarse como
estimadores de variables instrumentales17. Como ya es usual, la ecuación que se debe
estimar es,

𝐲 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆 .

Supongamos que usamos como instrumentos a la matriz [𝐘1 − 𝑘𝐕1 𝐗1 ]; entonces el


estimador por variables instrumentales está dado por,

(𝐘1 − 𝑘𝐕1 )′ 𝐘1 (𝐘1 − 𝑘𝐕1 )′ 𝐗1 𝛃 ̂ VI (𝐘1 − 𝑘𝐕1 )′ 𝐲


[ ] [ ] = [ ]. (16.4.31)
𝐗1′ 𝐘1 𝐗1′ 𝐗1 𝛄̂VI 𝐗1′ 𝐲

16
Theil, H. (1961). Economic Forecasts and Policy, 2da.Edición, North-Holland Publishing Company, pág.:
231-232, 334-336.
17
Goldberger, A. (1965). “An Instrumental Variable Interpretation of k-Class Estimation,” The Indian
Economic Journal, Vol. 13, pág.: 424-431.
Falta por mostrar que esta relación es equivalente a (16.4.30). Ambas expresiones sólo
difieren en los dos términos superiores de la matriz en el lado izquierdo. Comenzando
con los términos de (16.4.30), tenemos,

𝐘1′ 𝐘1 − 𝑘𝐕1′ 𝐕1 = 𝐘1′ 𝐘1 − 𝑘𝐘1′ 𝐌𝐘1 ,

ya que,

𝐕1 = 𝐌𝐘1 ,

con,

𝐌 = 𝐈 − 𝐗(𝐗 ′ 𝐗)−1 𝐗′.

Por lo tanto,

𝐘1′ 𝐘1 − 𝑘𝐕1′ 𝐕1 = (𝐘1 − 𝑘𝐕1 )′ 𝐘1 ,

𝐘1′ 𝐗1 = 𝐘1′ 𝐗1 − 𝑘𝐘1′ 𝐌𝐗1 , pues 𝐌𝐗1 = 𝟎, con lo que, 𝐘1′ 𝐗1 = (𝐘1 − 𝑘𝐕1 )′ 𝐗1 .

Por lo tanto, las relaciones (16.4.30) y (16.4.31) son idénticas, con lo que,
efectivamente, se constata que los estimadores de clase-k son estimadores VI con

[(𝐘1 − 𝑘𝐕1 )′ 𝐘1 𝐗1 ]usados como instrumentos.

Por ende, los estimadores de clase-k serán consistentes siempre y cuando,

𝑝𝑙𝑖𝑚(𝐘1 − 𝑘𝐕1 )′ 𝛆/𝑇 = 𝟎y𝑝𝑙𝑖𝑚𝐗1′ 𝛆/𝑇 = 𝟎.

La segunda igualdad no presenta ninguna dificultad. Con respecto a la primera, tenemos


que,

𝐘1 − 𝑘𝐕1 = 𝐘1 − 𝑘[𝐈 − 𝐗(𝐗 ′ 𝐗)−1 𝐗′ ]𝐘1 ,

𝐘1 − 𝑘𝐕1 = [(1 − 𝑘)𝐈 + 𝑘𝐗(𝐗 ′ 𝐗)−1 𝐗′ ]𝐘1 .

Con lo que,

𝑝𝑙𝑖𝑚(𝐘1 − 𝑘𝐕1 )′ 𝛆/𝑇 = 𝑝𝑙𝑖𝑚(1 − 𝑘) ∙ 𝑝𝑙𝑖𝑚𝐘1′ 𝛆/𝑇 +

𝑝𝑙𝑖𝑚 𝑘 ∙ 𝑝𝑙𝑖𝑚𝐘1′ 𝐗(𝐗 ′ 𝐗)−1 ∙ 𝑝𝑙𝑖𝑚𝐗′𝛆/𝑇 .

El segundo término del lado derecho es cero pues,𝑝𝑙𝑖𝑚𝐗 ′ 𝛆/𝑇 = 𝟎 ,y,


𝑝𝑙𝑖𝑚𝐘1′ 𝐗(𝐗 ′ 𝐗)−1es igual a una matriz constante. Sin embargo, para el primer término
de la derecha, se constata que,

𝑝𝑙𝑖𝑚𝐘1′ 𝛆/𝑇 ≠ 𝟎,
ya que, en general, el término de error 𝛆 y las variables endógenas están correlacionadas
entre sí en modelos de ecuaciones simultáneas. Por lo tanto, los estimadores de clase-k
serán consistentes, si y sólo si,𝑝𝑙𝑖𝑚(1 − 𝑘) = 0 .

Este resultado se satisface tanto para los estimadores MC2E y los EIL, pero no para los
estimadores MCO.

Al invocar el resultado correspondiente a la matriz de varianzas-covarianzas asintótica


de los estimadores por VI, se puede usar dicho resultado para encontrar esta matriz en el
caso de los estimadores de clase-k. Aplicando el resultado básico para estimadores VI,
que dice que,

̂ 𝑉𝐼 = 𝑠 2 (𝐙′ 𝐗)−1 (𝐙′𝐙)(𝐗′𝐙)−1 ,


𝑉𝑎𝑟𝐴𝑠𝛃

con,

̂ 𝑉𝐼 )′ (𝐘 − 𝐗𝛃
𝑠 2 = (𝐘 − 𝐗𝛃 ̂ 𝑉𝐼 )/(𝑇 − 𝐾) ,

al caso de los estimadores de clase-k, basta con emplear los instrumentos [𝐘1 − 𝑘𝐕1 𝐗1 ]
para [𝐘1 𝐗1 ] , reemplazando k por uno, para obtener el resultado deseado, que es igual
a lo estipulado por la relación (16.4.25) para los estimadores MC2E y también para los
EIL.

16.4.5Estimadores con información limitada

Consideremos, nuevamente, la relación (16.4.20)18,

𝐲 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆 ,

quesiempre podremos reescribir como,

𝐘∆ 𝛃∆ + 𝐗1 𝛄 + 𝛆 = 𝟎, (16.4.32)

donde19,

−1
𝐘∆ = [𝐲 𝐘1 ]y𝛃∆ = [ ]. (16.4.33)
𝛃

16.4.5.1 Estimadores de razón de varianza mínima (RVM)

̂ ∆ es de razón de varianza mínima (RVM), si acaso minimiza


Se dirá que el estimador 𝛃
el cuociente de varianzas,

𝛃′∆ 𝐘∆′ 𝐌1 𝐘∆ 𝛃∆
𝑙= , (16.4.34)
𝛃′∆ 𝐘∆′ 𝐌𝐘∆ 𝛃∆

18
Relación que corresponde, igual que antes, a la primera ecuación de nuestro sistema de G ecuaciones.
19
Con esta nueva notación, la versión reducida del sistema de ecuaciones queda como,
𝐘∆ = 𝐗𝚷∆′ + 𝐕∆ , en que, 𝚷 ′ = [𝚷∆′ 𝚷2′ ] , y , 𝐘 = 𝐗𝚷 ′ + 𝐕, con, 𝐕 = [𝐕∆ 𝐕2 ].
donde, 𝐌1 = 𝐈 − 𝐗1 (𝐗1′ 𝐗1 )−1 𝐗1′y𝐌 = 𝐈 − 𝐗(𝐗 ′ 𝐗)−1 𝐗 ′ . Una vez determinado el
estimador RVM 𝛃̂ ∆ , el estimador RVM de 𝛄es entonces, 𝛄̂ = −(𝐗1′ 𝐗1 )−1 𝐗1′ 𝐘∆ 𝛃
̂∆ .

Hay que recalcar que, el numerador de 𝑙 corresponde a la suma de los cuadrados de


errores (SCE), cuando la variable 𝐘∆ 𝛃∆ se regresiona sobre 𝐗1 , mientras que el
denominador corresponde a la SCE cuando 𝐘∆ 𝛃∆ se regresiona sobre X. Es por ello que,
𝑙 ≥ 1.

̂ ∆ es la solución de la ecuación,
Veremos a continuación que el estimador RVM,𝛃

(𝐘∆′ 𝐌1 𝐘∆ − 𝑙̂𝐘∆′ 𝐌𝐘∆ )𝛃


̂∆ = 0 , (16.4.35)

donde, 𝑙̂ corresponde a la raíz más pequeña de la ecuación,

|𝐘∆′ 𝐌1 𝐘∆ − 𝑙̂𝐘∆′ 𝐌𝐘∆ | = 0, (16.4.36)

además de minimizar el cuociente de varianzas. Para ver esto, tenemos que para
minimizar dicho cuociente, 𝑙 debe satisfacer,

𝑑𝑙 2𝐘 ′ 𝐌 𝐘 𝛃
̂ ̂ ′∆ 𝐘∆′ 𝐌1 𝐘∆ 𝛃
2𝛃 ̂∆
1 ∆ ∆
= 𝛃̂′ ∆𝐘 ′ 𝐌𝐘 ̂ ∆ = 0.
𝐘∆′ 𝐌𝐘∆ 𝛃
𝑑𝛃̂∆ ̂ −
𝛃
∆ ∆ (𝛃 ̂ ∆ )2
̂′ 𝐘 ′ 𝐌𝐘∆ 𝛃
∆ ∆ ∆ ∆

̂ ′∆ 𝐘∆′ 𝐌𝐘∆ 𝛃
Multiplicando por, 𝛃 ̂ ∆ /2, obtenemos, trivialmente, que se satisface la relación
(16.4.35), donde,
̂′ ′
𝛃 𝐘 𝐌1 𝐘∆ 𝛃∆ ̂
𝑙̂ = 𝛃̂∆′ 𝐘∆′ 𝐌𝐘 ̂ .
∆ ∆ 𝛃∆ ∆

Ahora bien, para que exista una solución 𝛃̂ ∆ , la matriz 𝐘∆′ 𝐌1 𝐘∆ − 𝑙̂𝐘∆′ 𝐌𝐘∆ ,
forzosamente debe ser singular, es decir, se debe satisfacer (16.4.36), y donde además se
requiere que el cuociente de varianzas sea mínimo, por lo que𝑙̂ debe, forzosamente,
corresponder a la raíz más pequeña20.

Es interesante destacar que el estimador RVM es un estimador de clase-k, con 𝑘 = 𝑙̂.


Para ver esto, consideremos la relación (16.4.30) con 𝑘 = 𝑙̂,

𝐘1′ 𝐘1 − 𝑙̂𝐕1′ 𝐕1 𝐘1′ 𝐗1 𝛃 ̂ (𝐘1 − 𝑙̂𝐕1 )′ 𝐲


[ ] [ ] = [ ]. (16.4.37)
𝐗1′ 𝐘1 𝐗1′ 𝐗1 𝛄̂ 𝐗1′ 𝐲

La primera fila particionada de esta ecuación es,

(𝐘1′ 𝐘1 − 𝑙̂𝐕1′ 𝐕1 )𝛃
̂ + 𝐘1′ 𝐗1 𝛄̂ = (𝐘1 − 𝑙̂𝐕1 )′ 𝐲.

̂ ∆ , podemos reescribir esta


Si introducimos nuevamente la notación correspondiente a 𝛃
última ecuación como,

20
Es claro que se deberá imponer alguna regla de normalización para que la solución a (16.4.35) sea
única. Sin embargo, qué regla se elija finalmente, no tiene ninguna importancia.
̂ ∆ + 𝐘1′ 𝐗1 𝛄̂ = 𝟎 .
[(𝐘1 − 𝑙̂𝐕1 )′ 𝐲 𝐘1′ 𝐘1 − 𝑙̂𝐕1′ 𝐕1 ]𝛃

Notando que,𝐕1′ 𝐲 = 𝐘1′ 𝐌𝐲 = 𝐘1′ 𝐌𝐌𝐲 = 𝐕1′ 𝐯1 , donde 𝐯1 = 𝐌𝐲, podemos escribir la
última igualdad como,

[𝐘1′ 𝐲 − 𝑙̂𝐕1′ 𝐯1 ̂ ∆ + 𝐘1′ 𝐗1 𝛄̂ = 𝟎.


𝐘1′ 𝐘1 − 𝑙̂𝐕1′ 𝐕1 ]𝛃

Sea ahora, 𝐕∆ = [𝐯1 𝐕1 ], e igual que antes, 𝐘∆ = [𝐲 𝐘1 ]. Con esta notación tenemos
que,

(𝐘1′ 𝐘∆ − 𝑙̂𝐕1′ 𝐕∆ )𝛃
̂ ∆ + 𝐘1′ 𝐗1 𝛄̂ = 𝟎. (16.4.38)

Por otra parte, la segunda fila particionada de (16.4.37) es,

̂ + 𝐗1′ 𝐗1 𝛄̂ = 𝐗1′ 𝐲,
𝐗1′ 𝐘1 𝛃

que es equivalente a,

̂∆.
𝛄̂ = −(𝐗1′ 𝐗1 )−1 𝐗1′ 𝐘∆ 𝛃

Esta última relación corresponde al estimador RVM para 𝛄, ya que se puede mostrar
que 𝛃̂ ∆ es el estimador RVM de 𝛃∆ . Para ello, sólo se necesita reemplazar este valor de
𝛄̂ en la ecuación (16.4.38) para así obtener,

[𝐘1′ 𝐘∆ − 𝑙̂𝐕1′ 𝐕∆ − 𝐘1′ 𝐗1 (𝐗1′ 𝐗1 )−1 𝐗1′ 𝐘∆ ]𝛃


̂ ∆ = 𝟎.

Sin embargo, 𝐕1′ 𝐕∆ ,es igual a 𝐘∆′ 𝐌𝐘∆ salvo por la primera fila, y, por otra parte, 𝐘1′ 𝐘∆ −
𝐘1′ 𝐗1 (𝐗1′ 𝐗1 )−1 𝐗1′ 𝐘∆es igual a 𝐘∆′ 𝐌1 𝐘∆ salvo por la primera fila. Por lo tanto podemos
inferir que, (𝐘∆′ 𝐌1 𝐘∆ − 𝑙̂𝐘∆′ 𝐌𝐘∆ ), sin su primera fila, y multiplicada por 𝛃 ̂ ∆ , es igual a
cero, que es justamente el estimador de clase-k con 𝑘 = 𝑙̂, ya vista en la expresión
(16.4.35).

Un resultado que es fundamental, en relación a los estimadores RVM, dice que éstos
son consistentes, es decir, se cumple que 𝑝𝑙𝑖𝑚 𝑙̂ = 1. Para demostrar dicha aseveración,
tomaremos en cuenta que el estimador RVM es un estimador de clase-k con 𝑘 = 𝑙̂. Pero,
por otra parte, 𝑙̂ se define como la raíz más pequeña de,

|𝐘∆′ 𝐌1 𝐘∆ − 𝑙̂𝐘∆′ 𝐌𝐘∆ | = 0 ,

o, equivalentemente, la raíz más pequeña de,

|[𝐘∆′ (𝐌1 −𝐌)𝐘∆ ](𝐘∆′ 𝐌𝐘∆ )−1 − (𝑙̂ − 1)𝐈| = 0 .

Por lo tanto, 𝑙̂ − 1, es el valor propio más pequeño de la matriz


[𝐘∆′ (𝐌1 −𝐌)𝐘∆ ](𝐘∆′ 𝐌𝐘∆ )−1. Además, como 𝑙̂ ≥ 1, todos los valores propios de esta
matriz deben ser no-negativos. Por ende, sólo debemos mostrar que, asintóticamente,
una raíz es igual a cero (lo que implica que, 𝑝𝑙𝑖𝑚 𝑙̂ = 1). Dicho de otra manera, el límite
de probabilidad, de la matriz anterior debe ser singular.
Consideremos entonces,

𝑝𝑙𝑖𝑚[𝑇 −1 𝐘∆′ (𝐌1 − 𝐌)𝐘∆ ](𝑇 −1 𝐘∆′ 𝐌𝐘∆ )−1.

Para demostrar que esta matriz es singular, es condición suficiente que,

𝑝𝑙𝑖𝑚[𝑇 −1 𝐘∆′ (𝐌1 − 𝐌)𝐘∆ ],

sea singular. Pero, 𝑝𝑙𝑖𝑚[𝑇 −1 𝐘∆′ 𝐌𝐘∆ ] = 𝛀∆ , que justamente es la submatriz de


𝛀,correspondiente a la matriz de varianzas-covarianzas de la forma reducida de 𝐘∆ .
Además21,

𝑝𝑙𝑖𝑚[𝑇 −1 𝐘∆′ 𝐌1 𝐘∆ ] = 𝑝𝑙𝑖𝑚[𝑇 −1 𝐕∆′ 𝐌1 𝐕∆ ] + 2𝑝𝑙𝑖𝑚[𝑇 −1 𝐕∆′ 𝐌1 𝐗𝚷∆′ ]



+𝑝𝑙𝑖𝑚[𝑇 −1 𝚷∆,2• 𝐗 ′2 𝐌1 𝐗 2 𝚷∆,2• ]

= 𝛀∆ + 𝚷∆,2• (𝑝𝑙𝑖𝑚 𝑇 −1 𝐗 ′2 𝐌1 𝐗 2 )𝚷∆,2•

Por lo tanto,

𝑝𝑙𝑖𝑚[𝑇 −1 𝐘∆′ (𝐌1 − 𝐌)𝐘∆ ] = 𝚷∆,2• (𝑝𝑙𝑖𝑚 𝑇 −1 𝐗 ′2 𝐌1 𝐗 2 )𝚷∆,2•


Esta matriz es de dimensión, 𝑔 × 𝑔, cuyo rango no puede ser mayor que 𝑔 − 1, que es

el rango de𝚷∆,2• Por ende, se concluye que la matriz en cuestión es singular, probando
así el aserto.

Los estimadores RVM tienen otras propiedades que los hacen ser atractivos. Por
ejemplo, tienen la misma distribución asintótica que los estimadores MC2E22. La idea
detrás de esta aseveración, es mostrar que 𝑝𝑙𝑖𝑚 √𝑇(𝑙̂ − 1) = 0. Los detalles de esta
demostración aparecen en Schmidt (1976).

Además, resulta de interés constatar algunas propiedades de los estimadores RVM, que
aparecen, por ejemplo, cuando se está tratando de estimar una ecuación que está
exactamente identificada. Se puede demostrar que si esto ocurre, entonces 𝑙̂ = 1,
(Schmidt, 1976). Además, si la ecuación está exactamente identificada, se cumple que,
el estimador RVM es idéntico al estimador MC2E, que a su vez, también es igual al
estimador MCI.

16.4.5.2 Estimación máximo verosímil de los parámetros reducidos

Habíamos visto previamente que,

𝝂𝑡 ~𝑖. 𝑖. 𝑑. 𝑁(𝟎, 𝛀) , con, 𝛀 = 𝐁 −1 𝚺(𝐁−1 )′,

21
Usamos la siguiente notación: Igual que antes, 𝐗 = [𝐗1 𝐗 2 ]; 𝐘∆ = 𝐗𝚷∆′ + 𝐕∆ . También, tenemos
π π21
que,𝚷∆′ = [π11 π22 ]y 𝚷∆,1• = [π11 π21 ] ; 𝚷∆,2• = [π12 π22 ] . La matriz correspondiente a
′ ′
12
todos los parámetros reducidos del sistema está dada por, 𝚷 ′ = [𝚷∆′ 𝚷2′ ] .
22
El lector interesado puede consultar, Schmidt, P. (1976). Econometrics, Marcel Dekker, New York.
donde, los 𝝂𝑡 corresponden a los errores en la versión reducida del sistema de
ecuaciones: 𝒚𝑡 = 𝚷𝒙𝑡 + 𝝂𝑡 , y además son serialmente independientes. De la forma
reducida del sistema, obtenemos la siguiente verosimilitud condicionada de las G
observaciones 𝒚𝑡 ,

𝑙(𝒚𝑡 |𝒙𝑡 ) = 𝑙(𝝂𝑡 ) = (2𝜋)−𝐺/2 |𝛀|−1/2 exp(−𝝂′𝑡 𝛀−1 𝝂𝑡 /2) .

Por lo tanto, la verosimilitud conjunta de la muestra de los 𝒚𝑡 , condicionales a los 𝒙𝑡 ,


está dada por,

𝐿 = 𝑙(𝒚1 , … , 𝒚 𝑇 |𝐗) = (2𝜋)−𝑇𝐺/2 |𝛀|−𝑇/2 exp(−[∑𝑇𝑡=1 𝝂′𝑡 𝛀−1 𝝂𝑡 ]/2) ,

𝐿 = (2𝜋)−𝑇𝐺/2 |𝛀|−𝑇/2 𝑒𝑥𝑝[−{∑𝑇𝑡=1(𝒚𝑡 − 𝚷𝒙𝑡 )′ 𝛀−1 (𝒚𝑡 − 𝚷𝒙𝑡 )}/2] . (16.4.39)

Alternativamente, se podría haber calculado la verosimilitud en función de los


parámetros estructurales (16.2.2). Así, obtenemos,
𝜕𝜺𝑡
𝑙(𝒚𝑡 |𝒙𝑡 ) = 𝑙(𝜺𝑡 ) | | = 𝑙(𝜺𝑡 )‖𝐁‖ ,
𝜕𝒚𝑡

en que ‖𝐁‖ denota el valor absoluto del determinante de B. La verosimilitud de la


muestra de los 𝒚𝑡 , condicionales a los 𝒙𝑡 , entonces, está dada por,

𝐿 = (2𝜋)−𝑇𝐺/2 ‖𝐁‖𝑇 |𝚺|−𝑇/2 exp(−[∑𝑇𝑡=1 𝜺′𝑡 𝚺 −1 𝜺𝑡 ]/2) ,

𝐿 = (2𝜋)−𝑇𝐺/2 ‖𝐁‖𝑇 |𝚺|−𝑇/2 𝑒𝑥𝑝[−{∑𝑇𝑡=1(𝐁𝒚𝑡 + 𝚪𝒙𝑡 )′ 𝚺 −1 (𝐁𝒚𝑡 + 𝚪𝒙𝑡 )}/2] .

(16.4.40)

Comparando la expresión (16.4.39) con (16.4.40), y tomando además en consideración


la ecuación (16.2.5c), podemos colegir que,

(𝒚𝑡 − 𝚷𝒙𝑡 )′ 𝛀−1 (𝒚𝑡 − 𝚷𝒙𝑡 ) = (𝐁𝒚𝑡 + 𝚪𝒙𝑡 )′ 𝚺 −1 (𝐁𝒚𝑡 + 𝚪𝒙𝑡 ) ,

y además, notar que,

|𝛀|−𝑇/2 = ‖𝐁‖𝑇 |𝚺|−𝑇/2 ,

por lo que las dos expresiones (16.4.39) y (16.4.40) son equivalentes.

Existe otra forma equivalente de escribir (16.4.39). Para ello, escribimos,


𝒚𝑡
𝒚𝑡 − 𝚷𝒙𝑡 = [𝐈 −𝚷] [𝒙 ] = 𝐀𝒛𝑡 ,
𝑡

con, 𝐀 = [𝐈 −𝚷] y 𝒛′𝑡 = [𝒚′𝑡 𝒙′𝑡 ] . Entonces, el exponente de (16.4.39), puede


escribirse como,

∑𝑇𝑡=1 𝒛′𝑡 𝐀′ 𝛀−1 𝐀𝒛𝑡 = 𝑇𝑟(𝐙𝐀′ 𝛀−1 𝐀𝐙′ ) = 𝑇𝑟(𝛀−1 𝐀𝐙′ 𝐙𝐀′ ) ,

(16.4.41)
donde,

𝒚1′ 𝒙1′
𝐙 = [𝐘 𝐗] = [ ⋮ ⋮ ] ,
𝒚′𝑇 𝒙′𝑇

es la matriz 𝑇 × (𝐺 + 𝐾) de observaciones de todas las variables endógenas y


predeterminadas. Si se define, 𝐌 = 𝐙′ 𝐙/𝑇, entonces tendremos que,

𝑇𝑟(𝛀−1 𝐀𝐙′ 𝐙𝐀′ ) = 𝑇 𝑇𝑟(𝛀−1 𝐀𝐌𝐀′ ).

Esta última expresión nos dice que, podemos obtener el estimador máximo verosímil
(MV) de 𝚷, sencillamente, minimizando el término de la traza. La solución es,
obviamente, 𝚷̂ ′ = (𝐗′𝐗)−1 𝐗′𝐘 , que es el estimador MCO de 𝚷′ . Para probar esto,
consideremos cualquier otro estimador, por ejemplo, (𝐗′𝐗)−1 𝐗 ′ 𝐘 + 𝐃, donde D es
cualquier matriz de 𝐾 × 𝐺.Reemplazando en (16.4.41), el nuevo término de la traza
queda como,

𝑇𝑟(𝛀−1 𝐀𝐙′ 𝐙𝐀′ ) = 𝑇𝑟(𝛀−1 [𝐘 ′ − 𝚷𝐗′][𝐘 − 𝐗𝚷′]) ,

= 𝑇𝑟(𝛀−1 [𝐘 ′ 𝐐 − 𝐃′𝐗′][𝐐𝐘 − 𝐗𝐃]) ,

= 𝑇𝑟(𝛀−1 𝐘 ′ 𝐐𝐘) + 𝑇𝑟((𝐗𝐃)𝛀−1(𝐗𝐃)′ ) .

Esta última igualdad se produce pues 𝐐es un operador de proyección, (𝐐 = 𝐈 −


𝐗(𝐗′𝐗)−1 𝐗′), vale decir, cumple con, 𝐐2 = 𝐐y 𝐐′ = 𝐐. Ahora bien,
𝑇𝑟((𝐗𝐃)𝛀−1 (𝐗𝐃)′ ), corresponde a la traza de una matriz positiva semidefinida, que es
siempre no-negativa, por lo que la última línea de la expresión anterior toma su menor
valor cuando 𝐃 = 𝟎. Por lo tanto, el estimador de 𝚷para el cual se maximiza (16.4.39)
̂ ′ = (𝐗′𝐗)−1 𝐗′𝐘.
está dado por 𝚷

16.4.5.3 Estimación máximo verosímil con información limitada (MVIL)

En la sección anterior, calculamos la verosimilitud conjunta de las observaciones 𝒚𝑡 sin


tomar en cuenta ninguna restricción entre los parámetros. Volvamos a la ecuación,

𝐘∆ 𝛃∆ + 𝐗1 𝛄 + 𝛆 = 𝟎.

La forma reducida asociada con 𝐘∆ está dada por23,


π π21
[𝐲 𝐘1 ] = 𝐗 [π11 π22 ] + [𝒗 𝐕1 ] ,
12

o si se quiere,

𝐘∆ = 𝐗𝚷∆′ + 𝐕∆ .
′ ′
Usando la notación,𝚷∆,1• = [π11 π21 ] y 𝚷∆,2• = [π12 π22 ], podemos escribir,

π11 π21 ′
π22 ] corresponde a𝚷∆ .
23
Recordar que en esta notación, [π
12
′ ′
𝐘∆ = 𝐗1 𝚷∆,1• + 𝐗 2 𝚷∆,2• + 𝐕∆ .

Ahora, de la relación entre los parámetros estructurales y reducidos, se tiene


′ ′
que,𝚷∆,2• 𝛃∆ = 0. Si estimamos 𝚷∆,2• por MCO, entonces el método de MCI es
̂ ∆ = 0 para el vector 𝛃
̂ ∆,2• 𝛃
equivalente a resolver, 𝚷 ′ ̂ ∆ . Si la ecuación estuviera
sobreidentificada, entonces 𝚷 ̂ ∆,2•

sería de rango 𝑔 y no existirá ninguna solución. Por

otro lado, si se estima 𝚷∆,2• sujeto a la restricción que su rango es igual a 𝑔 − 1,
entonces la ecuación, 𝚷 ̂ ∆,2•
′ ̂ ∆ = 0 tendrá solución única hasta un factor de
𝛃
normalización24. Ésta será justamente la restricción que consideraremos al maximizar la
verosimilitud conjunta delas observaciones contenidas en 𝐘∆ .Para encontrar este
máximo, se usará la relación25,
𝜕𝑇𝑟(𝐀𝐁)
= 𝐁′.
𝜕𝐀

En primera instancia, se probará que el estimador MVIL es idéntico al estimador de


razón de varianza generalizada mínima (RVGM), y luego, en segunda instancia, que
este último estimador, a su vez, es idéntico al estimador RVM. Se define el estimador
RVGM, como aquel valor del parámetro 𝛃∆ que minimiza,

|(𝐘∆ − 𝐗𝚷∆′ )′ (𝐘∆ − 𝐗𝚷∆′ )| , (16.4.42)



sujeto a la restricción,𝚷∆,2• 𝛃∆ = 0. Para probar la primera parte de la proposición,
debemos considerar la verosimilitud conjunta de la versión reducida de nuestro modelo,

𝐘 = 𝐗𝚷′ + 𝐕,

que en este caso es igual a,

𝐿(𝐘) = (2𝜋)−𝑇𝐺/2 |𝛀|−𝑇/2 𝑒𝑥𝑝[−𝑇𝑟{𝛀−1 (𝐘 − 𝐗𝚷′ )′ (𝐘 − 𝐗𝚷′ )/2}] .

Si sólo consideramos a 𝐘∆ , encontramos que,

𝑙𝑜𝑔𝐿(𝐘∆ ) = 𝐶1 + (𝑇/2)𝑙𝑜𝑔|𝛀−1 −1 ′ ′ ′
∆ | − 𝑇𝑟[𝛀∆ (𝐘∆ − 𝐗𝚷∆ ) (𝐘∆ − 𝐗𝚷∆ )]/2 .

Procedemos ahora a maximizar esta expresión, parcialmente, con respecto de 𝛀−1 ∆ .



Notamos que la restricción 𝚷∆,2• 𝛃∆ no tiene ninguna incidencia al maximizar con
respecto de 𝛀−1
∆ . Por lo tanto, si 𝜆 es el vector de multiplicadores de Lagrange,
entonces, tenemos que,

𝜕𝜆′𝚷∆,2• 𝛃∆
=0.
𝜕𝛀−1

Ahora bien, atendiendo a que,

24 ′
En estricto rigor la restricción toma la forma, 𝚷∆,2• 𝛃∆ = 0 .
25
Ver, por ejemplo, Dhrymes, P. J. (1984). “Mathematics for Econometrics”, Springer-Verlag (Second
Edition).
𝜕𝑙𝑜𝑔|𝐀|
= 𝐀−1 ,
𝜕𝐀

obtenemos,
𝜕𝑙𝑜𝑔𝐿(𝐘∆ )
= (𝑇/2)𝛀∆ − (𝐘∆ − 𝐗𝚷∆′ )′ (𝐘∆ − 𝐗𝚷∆′ )/2 = 0 ,
𝜕𝛀−1

que a su vez, implica que,

𝛀∆ = (1/𝑇)(𝐘∆ − 𝐗𝚷∆′ )′ (𝐘∆ − 𝐗𝚷∆′ ) .

Esta relación debe mantenerse siempre en el valor máximo de la verosimilitud. Al


reemplazar esta expresión de 𝛀∆ en la relación de 𝑙𝑜𝑔𝐿 , obtenemos lo que se conoce
como la función de log-verosimilitud “concentrada”:

𝑙𝑜𝑔𝐿∗ (𝐘∆ ) = 𝐶1 − (𝑇/2)𝑙𝑜𝑔|(𝐘∆ − 𝐗𝚷∆′ )′ (𝐘∆ − 𝐗𝚷∆′ )/𝑇| − (𝑇/2)𝑇𝑟𝛀−1


∆ 𝛀∆ ,

= 𝐶2 − (𝑇/2)𝑙𝑜𝑔|(𝐘∆ − 𝐗𝚷∆′ )′ (𝐘∆ − 𝐗𝚷∆′ )/𝑇| .

Ahora, esta expresión debe maximizarse con respecto de 𝚷∆′ sujeto a la restricción
anterior. Pero es claro que, esta maximización es equivalente a la minimización de la
varianza generalizada de los residuos, |(𝐘∆ − 𝐗𝚷∆′ )′ (𝐘∆ − 𝐗𝚷∆′ )|, sujeta a la misma
restricción, todo lo cual conduce a obtener el estimador RVGM (16.4.42). No se
presentará la demostración aquí, pues su derivación es un tanto extensa, pero se puede
mostrar que el estimador RVGM es idéntico al estimador RVM26.

Lo que sí se derivará acá es el estimador MVIL, y se verá qué sentido toma el término
limitado. Se maximizará la función de verosimilitud en términos de sus parámetros
estructurales, pasando por alto todas las restricciones a priori salvo aquellas que se
refieren a la primera ecuación del sistema. Previo a la demostración misma, se probará
el siguiente lema:

Sea 𝛒una matriz de 𝑛 × 𝐺y 𝚺una matriz positiva definida de 𝐺 × 𝐺. Entonces el lema


postula que, existe una matriz no-singular H, también de𝐺 × 𝐺, tal que,

𝜎 𝟎
𝛒𝐇•1 = 𝛒•1 y𝐇 ′ 𝚺𝐇 = [ 11 ]
𝟎 𝐈𝐺−1

Demostración:

Siempre se podrá particionar la matrizH como,

H11 𝐇12
𝐇=[ ],
𝐇21 𝐇22

en que, H11 es un escalar y,

26
El lector interesado podrá consultar, Schmidt, P. (1976). Econometrics, Marcel Dekker, Inc.
H11
𝐇•1 = [ ].
𝐇21

Entonces, tenemos que,

𝛒𝐇•1 = [𝛒•1 𝛒(1) ]𝐇•1 = 𝛒•1 H11 + 𝛒(1) 𝐇21.

Ahora bien, elegimos la matriz H tal que, H11 = 1 y 𝐇21 = 𝟎, con lo que se cumple el
requisito, 𝛒𝐇•1 = 𝛒•1 . Ahora sean,

1 𝐇12 𝜎 𝚺12
𝐇=[ ]y𝚺 = [ 11 ].
𝟎 𝐇22 𝚺21 𝚺22

Tenemos entonces que,

𝜎11 𝜎11 𝐇12 + 𝚺12 𝐇22


𝐇 ′ 𝚺𝐇 = [ ′ ′ ′ ′ ′ ′ ].
𝐇12 𝜎11 + 𝐇22 𝚺21 𝐇12 𝜎11 𝐇12 + 𝐇22 𝚺21 𝐇12 + 𝐇12 𝚺12 𝐇22 + 𝐇22 𝚺22 𝐇22

Si fijamos, 𝐇12 = −𝚺12 𝐇22 /𝜎11, entonces tendremos que,

𝜎11 𝟎
𝐇 ′ 𝚺𝐇 = [ ′ ].
𝟎 𝐇22 (𝚺22 − 𝚺21 𝚺12 /𝜎11 )𝐇22

Ahora, si𝚺es positivo definido, también lo será27, 𝚺22 − 𝚺21 𝚺12 /𝜎11. Por la tanto, existe
una matriz Ano-singular tal que, 𝐀′ 𝐀 = 𝚺22 − 𝚺21 𝚺12 /𝜎11 . De aquí, sigue que, se
cumple,

(𝐀−1 )′ [𝚺22 − 𝚺21 𝚺12 /𝜎11 ]𝐀−1 = 𝐈.

Eligiendo𝐇22 = 𝐀−1 , efectivamente se satisface que,

𝜎 𝟎
𝐇 ′ 𝚺𝐇 = [ 11 ].
𝟎 𝐈
Finalmente, la no-singularidad de,

𝜎11 𝟎
[ ],
𝟎 𝐈
implica, a su vez, la no-singularidad de 𝐇.

Volviendo al sistema de ecuaciones escrito ahora en la forma,

𝐘𝐁 ′ + 𝐗𝚪 ′ + 𝐄̃ = 𝟎,

donde, 𝐄̃ = −𝐄, en que, E es la matriz de 𝑇 × 𝐺 correspondiente a los términos de error


en las ecuaciones, podremos también escribir el sistema en una forma aún más sucinta
como,

27
Si 𝚺es una matriz de varianza-covarianza de alguna variable de 𝑛 × 1, entonces, 𝚺22 − 𝚺21 𝚺12 /𝜎11 , es
la matriz de varianza-covarianza correspondiente a la distribución de los últimos 𝑛 − 1 elementos,
condicionados al primer elemento de la variable aleatoria.
𝐙𝛒 + 𝐄̃ = 𝟎,
′ ′
en que, 𝐙 = [𝐘 𝐗]y𝛒′ = [𝐁 𝚪]. A manera de notación, sean 𝐁•1 , 𝚪•1 y 𝛒•1 las
′ ′
primeras columnas de 𝐁 , 𝚪 y 𝛒,respectivamente, y convengamos además en que,
′ ′ ′ ′
𝐁 ′ = [𝐁•1 𝐁(1) ] , 𝚪 ′ = [𝚪•1 𝚪(1) ] , 𝛒 = [𝛒•1 𝛒(1) ]. Transformando, a
continuación, este sistema, usando una matriz Hno-singular, se obtiene,

𝛒𝐇 = [𝛒•1 𝛒(1) ]𝐇 = [𝛒•1 𝚸+ ], con 𝚸+′ = [𝐁+ 𝚪+ ] ,

y,

𝜎 𝟎
𝐇 ′ 𝚺𝐇 = [ 11 ].
𝟎 𝐈
Esto siempre es posible atendiendo al lema que se demostró anteriormente28.

16.4.5.4 MV implica estimador MVIL

Finalmente, ahora, estamos en posición de enunciar el teorema definitivo que postula


que: si se procede a maximizar la función de verosimilitud del sistema de ecuaciones,
sujeto sólo a las restricciones que pudiese tener la primera ecuación, entonces el
estimador resultante resulta ser el estimador MVIL. Usaremos la notación siguiente para
el logaritmo de la verosimilitud del sistema, ℒ ≡ 𝑙𝑜𝑔𝐿 :

ℒ = 𝐶1 − (𝑇/2)𝑙𝑜𝑔|𝚺| + 𝑇𝑙𝑜𝑔||𝐁 ′ || − (1/2)𝑇𝑟[𝚺 −1 (𝐙𝛒)′ (𝐙𝛒)] .

Ya que la transformación del sistema a través de una matriz no-singular H no afecta el


valor de la función de verosimilitud, siempre podremos escribirla como,

ℒ = 𝐶1 − (𝑇/2)𝑙𝑜𝑔|𝐇 ′ 𝚺𝐇| + 𝑇𝑙𝑜𝑔||𝐁′ 𝐇|| − (1/2)𝑇𝑟[(𝐇 ′ 𝚺𝐇)−1 (𝐙𝛒𝐇)′ (𝐙𝛒𝐇)] .

Ahora bien, usando el hecho que,



𝐁•1 𝐁+′ ′ 𝜎11 𝟎
𝛒𝐇 = [𝛒•1 𝚸+ ] = [ ′ ′ ]y𝐇 𝚺𝐇 = [ ],
𝚪•1 𝚪+ 𝟎 𝐈

tenemos,
𝑇 ′ 1 1
ℒ = 𝐶1 − (2) 𝑙𝑜𝑔𝜎11 + 𝑇𝑙𝑜𝑔||𝐁•1 𝐁+′ || − ( ) 𝛒′•1 𝐙′ 𝐙𝛒•1 − (2) 𝑇𝑟𝚸+′ 𝐙´𝐙𝚸+ .
2𝜎11

(16.4.43)

Procedemos ahora a eliminar 𝚸+ , maximizando parcialmente la expresión anterior


respecto de esta misma matriz, sin tomar en cuenta las restricciones que pudiese tener
ésta:

28
Hay que hacer notar que, esta transformación no altera los parámetros de la primera ecuación de
nuestro sistema, y además, tenemos que, la primera ecuación es independiente de las siguientes 𝐺 − 1
ecuaciones transformadas.
′ ′ ||
𝜕ℒ 𝜕𝑙𝑜𝑔||𝐁•1 𝐁+ 1 𝜕𝑇𝑟𝚸+′ 𝐙´𝐙𝚸+
=𝑇 −2 =0. (16.4.44)
𝜕𝚸+ 𝜕𝚸+ 𝜕𝚸+

Se cumple que,

𝜕𝑙𝑜𝑔||𝐁•1 ′ ||
𝐁+

𝜕𝑙𝑜𝑔||𝐁•1 ′ ||
𝐁+ ′
𝜕𝐁+
= ,
𝜕𝚸+ ′
𝜕𝑙𝑜𝑔||𝐁•1 ′ ||
𝐁+
[ 𝜕𝚪+′ ]

y, se constata que,

𝜕𝑙𝑜𝑔||𝐁•1 ′ ||
𝐁+ ′
𝜕𝑙𝑜𝑔||𝐁•1 ′ ||
𝐁+
=𝟎 ; =𝐉,
𝜕𝚪+′ ′
𝜕𝐁+


donde, la matriz 𝐉consiste de las últimas 𝐺 − 1 columnas de [𝐁•1 𝐁+′ ]′−1, es decir,

𝐁•1 −1 𝟎
𝐉=[ ] [ ]. (16.4.45)
𝐁+ 𝐈𝐺−1

También tenemos que,

𝜕𝑇𝑟𝚸+′ 𝐙´𝐙𝚸+
= 2𝐙´𝐙𝚸+ .
𝜕𝚸+

Reemplazando en (16.4.44), obtenemos,

𝜕ℒ 𝐉
= 𝑇 [ ] − 𝐙´𝐙𝚸+ = 𝟎.
𝜕𝚸+ 𝟎
De lo que se desprende,

𝑇𝐉
𝐙´𝐙𝚸+ = [ ]. (16.4.46)
𝟎
Por lo tanto, gracias a la relación (16.4.45)

𝚸+′ 𝐙´𝐙𝚸+ = [𝐁+ 𝚪+ ] [𝑇𝐉] = 𝑇𝐁+ 𝐉,


𝟎

𝐁•1 𝐁•1 −1 𝟎
= 𝑇[𝟎 ]
𝐈 𝐁 ] [ 𝐁 ] [ ].
[
+ + 𝐈

Por ende, en el máximo tenemos que,

𝑇𝑟𝚸+′ 𝐙´𝐙𝚸+ = 𝑇𝑟(𝑇𝐈𝐺−1 ) = 𝑇(𝐺 − 1) . (16.4.47)

Resulta ilustrativo constatar que esta última expresión es una constante. También

necesitamos el valor máximo de𝑇𝑙𝑜𝑔||𝐁•1 𝐁+′ ||. Tenemos la siguiente igualdad,

𝑇𝐉 𝐁′
[ ] = 𝐙´𝐙𝚸+ = [𝐘′𝐘 𝐘′𝐗] [ +′ ],
𝟎 𝐗′𝐘 𝐗′𝐗 𝚪+
por lo que podemos formar el siguiente sistema de ecuaciones:

𝑇𝐉 = 𝐘 ′ 𝐘𝐁+′ + 𝐘′𝐗𝚪+′

𝟎 = 𝐗 ′ 𝐘𝐁+′ + 𝐗′𝐗𝚪+′ . (16.4.48)

De la segunda de estas ecuaciones, obtenemos,

𝚪+′ = −(𝐗 ′ 𝐗)−1 𝐗′𝐘𝐁+′ .

Reemplazando esta última expresión en la primera de las igualdades,

𝑇𝐉 = [𝐘 ′ 𝐘 − 𝐘′𝐗(𝐗 ′ 𝐗)−1 𝐗′𝐘]𝐁+′ = 𝐘′𝐌𝐘𝐁+′ ,

donde M es el operador de proyección, 𝐈 − 𝐗(𝐗 ′ 𝐗)−1 𝐗′. Esta relación se puede escribir
también como,

𝐉 = 𝐖𝐁+′ . (16.4.49)

en que, 𝐖 = 𝐘 ′ 𝐌𝐘/𝑇. Por otra parte, se puede verificar que la siguiente expresión
constituye, efectivamente, una identidad29:

′ ′ 2
2𝑙𝑜𝑔||𝐁•1 𝐁+′ || = 𝑙𝑜𝑔 [||𝐁•1 𝐁+′ || |𝐖|] − 𝑙𝑜𝑔|𝐖| . (16.4.50)

Además, se cumple que,



2 𝐁 𝐖𝐁•1 𝐁•1 𝐖𝐁+′

||𝐁•1 ′
𝐁+′ || |𝐖| = |(𝐁•1 ′
𝐁+′ )′ 𝐖(𝐁•1 𝐁+′ )| = | •1 ′ |.
𝐁+ 𝐖𝐁•1 𝐁+ 𝐖𝐁+′

(16.4.51)

Debido a que las relaciones (16.4.45) y (16.4.49), implican que,

𝐁•1 −1 𝟎
𝐖𝐁+′ = 𝐉 = [ ] [ ],
𝐁+ 𝐈𝐺−1

es que tenemos que,

𝐁 𝐁 −1 𝟎
𝐁•1 𝐖𝐁+′ = [𝐈 𝟎] [ •1 ] [ •1 ] [ ] = 𝟎,
𝐁+ 𝐁+ 𝐈

y,

𝐁 𝐁 −1 𝟎
𝐁+ 𝐖𝐁+′ = [𝟎 𝐈] [ 𝐁•1 ] [ 𝐁•1 ] [ ] = 𝐈𝐺−1 .
+ + 𝐈

Reemplazando en la relación (16.4.51), obtenemos,



𝐁+′ || |𝐖| = |𝐁•1 𝐖𝐁•1
′ 2 𝟎 ′ |
||𝐁•1 | = |𝐁•1 𝐖𝐁•1 .
𝟎 𝐈
29
Hay que hacer notar que, |𝐖| es una constante, en el sentido que no depende de ningún parámetro.
Finalmente, reemplazando en (16.4.50), obtenemos que en el valor máximo de la
función de verosimilitud, se satisface que,

2𝑙𝑜𝑔||𝐁•1 𝐁+′ || = 𝑙𝑜𝑔|𝐁•1 𝐖𝐁•1
′ |
− 𝑙𝑜𝑔|𝐖|. (16.4.52)

Ahora bien, si reemplazamos (16.4.47) y (16.4.52) en la función de verosimilitud


original, obtenemos lo que se conoce con el nombre de función de verosimilitud
“concentrada”:
𝑇 𝑇 ′ | 𝑇 1
ℒ ∗ = 𝐶1 − 2 𝑙𝑜𝑔𝜎11 + 2 𝑙𝑜𝑔|𝐁•1 𝐖𝐁•1 − 2 𝑙𝑜𝑔|𝐖| − 2𝜎 𝛒′•1 𝐙′ 𝐙𝛒•1 ,
11

o equivalentemente,
𝑇 𝑇 ′ | 1
ℒ ∗ = 𝐶2 − 𝑙𝑜𝑔𝜎11 + 𝑙𝑜𝑔|𝐁•1 𝐖𝐁•1 − 𝛒′•1 𝐙 ′ 𝐙𝛒•1 , (16.4.53)
2 2 2𝜎11

ya que |𝐖|es una constante que no depende de parámetros. En este momento, tenemos a
la función de verosimilitud expresada solamente en términos de los parámetros de la
primera ecuación del sistema, siendo la idea, maximizarla, imponiendo todas las
restricciones que pudiesen existir en la misma. Para ello, definamos30,

′ 𝛃∆ ′ 𝛄
𝐁•1 =[ ] , 𝚪•1 = [ ] , 𝐘 = [𝐘∆ 𝐘2 ], 𝐗 = [𝐗1 𝐗 2 ]. (16.4.54)
𝟎 𝟎

También particionaremos la matriz W de acuerdo a,

𝐖11 𝐖12
𝐖=[ ], (16.4.55)
𝐖21 𝐖22

de manera que,
1
𝐖11 = 𝑇 𝐘∆′ 𝐌𝐘∆. (16.4.56)

Con esta notación se cumple que,

𝛃 ′ 𝛃

𝐁•1 𝐖𝐁•1 = [ ∆ ] 𝐖 [ ∆ ] = 𝛃′∆ 𝐖11 𝛃∆ . (16.4.57)
𝟎 𝟎
Como ocurre que, 𝐙 = [𝐘∆ 𝐘2 𝐗1 𝐗 2 ], se satisface,

𝛒′•1 𝐙′ 𝐙𝛒•1 = 𝛃′∆ 𝐘∆′ 𝐘∆ 𝛃∆ + 2𝛄′ 𝐗1′ 𝐘∆′ 𝛃∆ + 𝛄′ 𝐗1′ 𝐗1 𝛄. (16.4.58)

Reemplazando (16.4.57) y (16.4.58) en (16.4.53), obtenemos la función de


verosimilitud concentrada,
𝑇 𝑇 1
ℒ ∗ = 𝐶2 − 2 𝑙𝑜𝑔𝜎11 + 2 𝑙𝑜𝑔(𝛃′∆ 𝐖11 𝛃∆ ) − 2𝜎 (𝛃′∆ 𝐘∆′ 𝐘∆ 𝛃∆ + 2𝛄′ 𝐗1′ 𝐘∆′ 𝛃∆ + 𝛄′ 𝐗1′ 𝐗1 𝛄 ).
11

(16.4.59)
30
Recordemos que 𝐘2 , 𝐗 2 corresponden a las variables endógenas y predeterminadas, respectivamente,
que no aparecen explícitamente en la primera ecuación.
Si ahora procedemos a maximizar ℒ ∗ con respecto a 𝛄, obtenemos,
𝜕ℒ ∗ 1
= − 2𝜎 (2𝐗1′ 𝐘∆′ 𝛃∆ + 2𝐗1′ 𝐗1 𝛄) = 𝟎,
𝜕𝛄 11

lo cual arroja el resultado usual,

𝛄 = −(𝐗1′ 𝐗1 )−1 𝐗1′ 𝐘∆′ 𝛃∆ . (16.4.60)

Ahora bien, reemplazando este último resultado en (16.4.59), obtenemos,


𝑇 𝑇 𝑇
ℒ ∗∗ = 𝐶2 − 2 𝑙𝑜𝑔𝜎11 + 2 𝑙𝑜𝑔(𝛃′∆ 𝐖11 𝛃∆ ) − 2𝜎 𝛃′∆ 𝐖11

𝛃∆ , (16.4.61)
11

donde,
1 1

𝐖11 = 𝑇 𝐘∆′ [𝐈 − 𝐗1 (𝐗1′ 𝐗1 )−1 𝐗1′ ]𝐘∆ = 𝑇 𝐘∆′ 𝐌1 𝐘∆. (16.4.62)

Finalmente, si maximizamos (16.4.61) con respecto de 𝜎11 , obtenemos,


𝜕ℒ ∗∗ 𝑇 𝑇
= − 2𝜎 + 2𝜎2 𝛃′∆ 𝐖11

𝛃∆ = 0 ,
𝜕𝜎11 11 11

de donde se desprende que,

𝜎11 = 𝛃′∆ 𝐖11



𝛃∆ . (16.4.63)

Si reemplazamos esta última expresión en (16.4.61), tenemos,


𝑇 𝑇 𝑇
ℒ ∗∗∗ = 𝐶2 + 2 𝑙𝑜𝑔(𝛃′∆ 𝐖11 𝛃∆ ) − 2 𝑙𝑜𝑔(𝛃′∆ 𝐖11

𝛃∆ ) − 2,

𝑇 𝛃′ 𝐖 ∗ 𝛃
ℒ ∗∗∗ = 𝐶3 − 2 𝑙𝑜𝑔 [𝛃∆′ 𝐖11 𝛃∆ ]. (16.4.64)
∆ 11 ∆

La expresión (16.4.64), muestra que la maximización de ℒ ∗∗∗ es equivalente a


minimizar el cuociente,

𝛃′∆ 𝐖11
∗ 𝛃

,
𝛃′∆ 𝐖11 𝛃∆

con respecto de𝛃∆ .Pero este cuociente es igual a,

𝛃′∆ 𝐘∆′ 𝐌1 𝐘∆ 𝛃∆
𝑙= ,
𝛃′∆ 𝐘∆′ 𝐌𝐘∆ 𝛃∆

por lo que, al minimizar este cuociente, con respecto de𝛃∆ estamos en realidad
obteniendo el estimador según el criterio de RVM.

16.5 Mínimos cuadrados en tres etapas

Todos los estimadores que se han presentado hasta el momento, MCI, MC2E, MVIL y
RVM, son básicamente, estimadores que hacen uso de información limitada, pues
obvian la información estadística contenida en las ecuaciones estructurales que no
corresponden a la ecuación estructural que se está estimando. En principio, si el modelo
estructural del sistema completo de ecuaciones está correctamente especificado, se
podrán obtener estimadores con una mayor eficiencia asintótica, que aquellos
estimadores que sólo hacen uso de la información limitada contenida en la ecuación que
se quiere estimar. En la literatura econométrica, existen, principalmente, dos métodos
que utilizan la información completa del sistema de ecuaciones: mínimos cuadrados en
tres etapas (MC3E), y máxima verosimilitud con información completa (MVIC).

En esta sección derivaremos los estimadores obtenidos con el algoritmo MC3E. El


desarrollo inicial de MC3E se debió a Zellner y Theil (1962)31. Consideremos
nuevamente el sistema completo de ecuaciones, consistente de G variables endógenas
conjuntamente dependientes entre sí, con K variables predeterminadas. La ecuación i-
ésima, puede escribirse como,

𝐲i = 𝐘i 𝛃𝒊 + 𝐗 i 𝛄i + 𝛆i , (16.5.1)

donde, 𝐲i es un vector de 𝑇 × 1, correspondiente a observaciones muestrales de la


variable dependiente de la i-ésima ecuación, 𝐘i es una ,matriz de 𝑇 × 𝑔𝑖 ,
correspondiente a observaciones de las demás variables endógenas contenidas en dicha
ecuación, 𝐗 i es una matriz de 𝑇 × 𝑘𝑖 , con observaciones sobre las variables
predeterminadas contenidas en la ecuación i-ésima, 𝛃𝒊 y𝛄i son los vectores de parámetros
estructurales, correspondientes a 𝐘i y 𝐗 i , respectivamente, y 𝛆i es el vector de las
perturbaciones estocásticas. Podemos reescribir (16.5.1) como,

𝐲i = 𝐙i 𝛅i + 𝛆i , (16.5.2)

donde, 𝐙i = [𝐘i 𝐗 i ] y 𝛅′i = [𝛃′i 𝛄′i ]. Si premultiplicamos la ecuación (16.5.2) por X,


que es la matriz de todas las variables predeterminadas del sistema de ecuaciones,
obtenemos,

𝐗 ′ 𝐲i = 𝐗 ′ 𝐙i 𝛅i + 𝐗′𝛆i ,𝑖 = 1, … , 𝐺 (16.5.3)

En este caso, la matriz de varianzas-covarianzas del término de error de (16.5.3) es,

𝐸(𝐗 ′ 𝛆i 𝛆′i 𝐗) = 𝜎ii 𝐗′𝐗, (16.5.4)

suponiendo que se cumple, 𝐸(𝛆i 𝛆′i ) = 𝜎ii 𝐈. Usando mínimos cuadrados generalizados
(MCG) en (16.5.3), obtenemos,

̂i = (𝐙i′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐙i )−1 𝐙i′ 𝐗(𝐗′𝐗)−1 𝐗′𝐲i.


𝛅 (16.5.5)

La relación (16.5.5) es otra forma de escribir el estimador MC2E, que se puede


chequear sustituyendo la expresión para 𝐙i . Además, si hacemos uso del operador de
proyección, 𝐏𝐗 = 𝐗(𝐗′𝐗)−1 𝐗 ′, podemos obtener otra forma equivalente de escribir el
estimador MC2E:

31
Zellner, A. y H. Theil (1962). “Three Stage Least Squares: Simultaneous Estimation of Simultaneous
Equations,” Econometrica, Vol. 30, pág.: 54-78.
̂i = (𝐙i′ 𝐏𝐗 𝐙i )−1 𝐙i′ 𝐏𝐗 𝐲i .
𝛅 (16.5.6)

La relación (16.5.5), ofrece de paso, una demostración entre la equivalencia de los


estimadores MC2E y MCI (mínimos cuadrados indirectos), en el caso cuando la
ecuación que se está estimando está exactamente identificada: la condición de orden, en
esta situación, para la i-ésima ecuación estructural es, 𝑘𝑖 + 𝑔𝑖 − 1 = 𝐾. Por lo tanto,
𝐙i es de𝑇 × 𝐾, de tal forma que 𝐗 ′ 𝐙i es de𝐾 × 𝐾, y puede suponerse no-singular. En este
caso particular, (16.5.5) es igual a,

̂i = (𝐗 ′ 𝐙i )−1 (𝐗 ′ 𝐗)(𝐙i′ 𝐗)−1 (𝐙i′ 𝐗)(𝐗 ′ 𝐗)−1 𝐗 ′ 𝐲i = (𝐗 ′ 𝐙i )−1 𝐗 ′ 𝐲i,


𝛅

expresión que se puede constatar corresponde al estimador MCI de la ecuación i-ésima.

Además, la relación (16.5.5) nos permitirá encontrar trivialmente el estimador MC3E


(mínimos cuadrados en tres etapas). Sabemos que 𝐗 ′ 𝐗es una matriz positiva definida,
por lo que su inversa también lo es, y ésta siempre podrá expresarse como,

(𝐗 ′ 𝐗)−1 = 𝐏𝐏′. (16.5.7)

De aquí, se desprende que, 𝐏 ′ 𝐗′𝐗𝐏 = 𝐈.Premultiplicando (16.5.3) por 𝐏′, obtenemos,

𝐏′𝐗 ′ 𝐲i = 𝐏′𝐗 ′ 𝐙i 𝛅i + 𝐏′𝐗′𝛆i ,

que es equivalente a,

𝐰i = 𝐖i 𝛅i + 𝐯i , (16.5.8)

donde,

𝐰i = 𝐏′𝐗 ′ 𝐲i,

𝐖i = 𝐏′𝐗 ′ 𝐙i ,

𝐯i = 𝐏′𝐗′𝛆i.

Por otra parte, la matriz de varianzas-covarianzas de 𝐯i es,

𝐸(𝐯i 𝐯i′ ) = 𝐸(𝐏 ′ 𝐗 ′ 𝛆i 𝛆′i 𝐗𝐏) = 𝜎ii 𝐏 ′ 𝐗 ′ 𝐗𝐏 = 𝜎ii 𝐈 . (16.5.9)

Ahora, aplicando MCO a (16.5.8), obtenemos,

̂i = (𝐖i′ 𝐖i )−1 𝐖i′ 𝐰i ,


𝛅 (16.5.10)

expresión que también se reduce al estimador MC2E. Si reunimos ahora las G


ecuaciones estructurales, tenemos,

𝐰1 𝐖1 𝟎 ⋯ 𝟎 𝛅1 𝐯1
𝐰2 𝟎 𝐖2 ⋯ 𝟎 𝛅2 𝐯2
[ ⋮ ]=[⋯ ⋯ ⋯ ][ ⋮ ] + [ ⋮ ] , (16.5.11)

𝐰𝐺 𝟎 𝟎 ⋯ 𝐖𝐺 𝛅𝐺 𝐯𝐺
o en forma aún más compacta32,

𝐰 = 𝐖𝛅 + 𝐯, (16.5.12)

donde las definiciones de los símbolos en (16.5.12) son obvias. Se puede chequear
trivialmente que la matriz de varianzas-covarianzas del vector v está dada por,

𝐕 = 𝐸(𝐯𝐯 ′ ) = 𝚺 ⊗ 𝐈. (16.5.13)

Los elementos de la matriz 𝚺están definidos a través de la relación33,

𝐸(𝐯i 𝐯j′ ) = 𝐸(𝐏 ′ 𝐗 ′ 𝛆i 𝛆′j 𝐗𝐏) = 𝜎ij 𝐈.

De aquí fluye que, en cada ecuación estructural el término de error es homocedástico y


carece de correlación serial, pero, sin embargo, puede estar correlacionado,
contemporáneamente, con los errores de las demás ecuaciones estructurales. Siempre y
cuando algún término del tipo 𝜎ij sea no-nulo, se aplican los argumentos de Zellner en
torno al estimador SUR (regresiones aparentemente no relacionadas), que sugieren que,
cada ecuación estructural perteneciente al sistema de ecuaciones, es estimada
eficientemente, si se considera la estimación del sistema como un todo tal como aparece
en la relación (16.5.12) junto a la especificación (16.5.13). De hecho, el estimador
MC3E es simplemente el estimador SUR de Zellner para el vector de parámetros 𝛅en
(16.5.12)34. La única dificultad para ello radica en que la matriz 𝚺es desconocida. La
sugerencia de Zellner y Theil, recomienda estimar cada ecuación estructural, que se
suponen están todas ellas identificadas, usando MC2E, resultando así los residuos,

̂i ,𝑖 = 1, … , 𝐺 ,
𝛆̂i = 𝐲i − 𝐙i 𝛅

donde𝛅̂i es el estimador MC2E del vector 𝛅i . Con esta especificación, los elementos de
𝚺son estimados a través de,

𝜎̂ij = 𝛆̂′i 𝛆̂j /𝑇,∀ 𝑖, 𝑗 .

De esta manera, la matriz V es estimada a través de,

̂=𝚺
𝐕 ̂ ⊗ 𝐈,

con lo que el estimador MC3E de 𝛅está dado por,

32
Un enfoque enteramente equivalente se obtiene escribiendo el sistema de ecuaciones (16.5.11)
como,(𝐈 ⊗ 𝐏 ′ 𝐗 ′ )𝐲 = (𝐈 ⊗ 𝐏 ′ 𝐗 ′ )𝐙𝛅 + (𝐈 ⊗ 𝐏 ′ 𝐗 ′ )𝛆, donde: 𝐲 ′ = [𝐲1′ ⋯ 𝐲G′ ], 𝛅′ = [𝛅1′ ⋯ 𝛅′G ],𝛆′ =
[𝛆1′ ⋯ 𝛆′G ] ,y𝐙 = Diag(𝐙1 , … , 𝐙G ). Si aplicamos el teorema de Aitken (MCG) a (16.5.14), obtenemos,
̂MC3E = [𝐙′(𝚺 −1 ⊗ 𝐗(𝐗 ′ 𝐗)−1 𝐗′)𝐙]−1 [𝚺 −1 ⊗ 𝐗(𝐗 ′ 𝐗)−1 𝐗′]𝐲, que es equivalente a (16.5.14).
𝛅

33
Es decir, (𝚺)ij = 𝜎ij .

34
La temática en torno de los estimadores SUR de Zellner, aparecerá en el acápite 16.7 de este mismo
capítulo.
̂MC3E = (𝐖′𝐕
𝛅 ̂ −1 𝐖)−1 𝐖′𝐕
̂ −1 𝐰, (16.5.14)

con una matriz de varianzas-covarianzas asintótica dada por,

̂MC3E ) = (𝐖′𝐕
𝐴𝑉𝑎𝑟(𝛅 ̂ −1 𝐖)−1 .

Si reemplazamos en (16.5.14) los elementos de w y W, el estimador MC3E queda como


sigue,
−1
𝜎̂ 11 𝐙1′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐙1 𝜎̂ 12 𝐙1′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐙2 ⋯ 𝜎̂ 1𝐺 𝐙1′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐙𝐺
21 ′
̂MC3E
𝛅
−1 ′
= [ 𝜎̂ 𝐙2 𝐗(𝐗′𝐗) 𝐗 𝐙1 𝜎̂ 22 𝐙2′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐙2 ⋯ 𝜎̂ 2𝐺 𝐙2′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐙𝐺 ]
⋯⋯⋯ ⋯⋯⋯ ⋯ ⋯⋯
𝜎̂ 𝐺1 𝐙𝐺′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐙1 𝜎̂ 𝐺2 𝐙𝐺′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐙2 𝐺𝐺 ′
⋯ 𝜎̂ 𝐙𝐺 𝐗(𝐗′𝐗)−1𝐗 ′ 𝐙𝐺

∑𝐺𝑗=1 𝜎̂ 1𝑗 𝐙1′ 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐲𝑗


𝐺 2𝑗 ′ −1 ′
× ∑𝑗=1 𝜎̂ 𝐙2 𝐗(𝐗′𝐗) 𝐗 𝐲𝑗 , (16.5.15)
⋯⋯⋯
𝐺 𝐺𝑗 ′

[ 𝑗=1 𝜎̂ 𝐙𝐺 𝐗(𝐗′𝐗)−1 𝐗 ′ 𝐲𝑗 ]

̂ −1 .
donde los elementos 𝜎̂ 𝑖𝑗 denotan los elementos (𝑖, 𝑗) de 𝚺

El estimador descrito por (16.5.15), conocido como estimador MC3E, tiene las primeras
dos etapas idénticas a las del estimador MC2E, que entregan finalmente la matriz 𝚺 ̂; la
tercera etapa consiste sencillamente en la aplicación de MCG a (16.5.12) con
𝚺reemplazado por 𝚺 ̂. La matriz inversa, inmediatamente a la derecha del signo igual en
̂MC3E , a partir de la cual
(16.5.15), corresponde a la matriz de varianzas-covarianzas de 𝛅
se pueden obtener errores estándares asintóticos de los parámetros estimados,
calculando las raíces cuadradas de los elementos en la diagonal principal de esta matriz.

Para ver las propiedades asintóticas del estimador MC3E, conviene reemplazar el
producto de matrices (𝐗′𝐗)−1 𝐗 ′ por la inversa generalizada 𝐗 + . Así, el estimador
MC2E de (16.5.5) queda como,

̂i = (𝐙i′ 𝐗𝐗 + 𝐙i )−1 𝐙i′ 𝐗𝐗 + 𝐲i,


𝛅 (16.5.16) y el estimador MC3E
(expresión en nota al pie de página 32 de esta misma sección),
−1
𝛅 ̂ −1 ⊗ 𝐗𝐗+ )𝐙]
̂MC3E = [𝐙′(𝚺 ̂ −1 ⊗ 𝐗𝐗+ ] 𝐲.
[𝚺 (16.5.17)

Un teorema fundamental afirma que: dadas condiciones usuales en teoría de


convergencia, además de cumplirse la condición de que todas las ecuaciones del sistema
deben estar identificadas, y que la matriz 𝚺es no-singular, se cumplen los siguientes
resultados35:

35
La demostración de este teorema aparece en: Theil, H. (1971). Principles of Econometrics, John Wiley
& Sons, Inc., New York.
(i) El estimador 𝛅̂MC3E es consistente, y √𝑇(𝛅̂ MC3E − 𝛅) tiene una distribución
asintótica que es normal con media nula y matriz de varianzas-covarianzas
asintótica dada por,
1 + −1
plim [ 𝐙′(𝚺 −1 ⊗ 𝐗𝐗 )𝐙] . (16.5.18)
𝑇→∞ 𝑇

−1 −1
La matriz (16.5.18) se estima consistentemente con 𝑇[𝐙′(𝚺̂ ⊗ 𝐗𝐗 + )𝐙] .

(ii) Para todo 𝑖 = 1, … , 𝐺 , la matriz de covarianzas de la distribución límite de


√𝑇(𝛅̂MC2E,i − 𝛅i ) es mayor que la de √𝑇(𝛅 ̂MC3E,i − 𝛅i ), en el sentido que su
diferencia es igual a una matriz positiva semi-definida.

Una pregunta relevante de hacerse, concierne a cuándo el estimador MC3E, es


asintóticamente más eficiente que el estimador MC2E. Una condición absolutamente
necesaria que debe satisfacerse, para que un estimador calculado con información
completa, o si se quiere usando el sistema completo de ecuaciones, sea más eficiente
que uno que sólo utiliza información parcial, es que el modelo correspondiente al
sistema completo de ecuaciones esté correctamente especificado. Para sistemas grandes
de ecuaciones, este requisito es colosal, y virtualmente casi imposible de satisfacerse en
la práctica. Sin embargo, suponiendo que así fuese, vale decir, en el caso que el sistema
estuviese correctamente especificado, hay dos condiciones bajo las cuales los métodos
de MC2E y MC3E arrojan los mismos estimadores puntuales y con idénticas varianzas
asintóticas muestrales. La primera condición es,

𝜎ij = 0 , ∀ 𝑖 ≠ 𝑗 ,

es decir, las correlaciones contemporáneas entre errores de diferentes ecuaciones


estructurales deben ser todas nulas a nivel poblacional36. Como veremos en la sección
16.7, este resultado fluye automáticamente del modelo SUR de Zellner cuando la matriz
𝚺es diagonal37. Esto se puede ver también reemplazando 𝜎̂ 𝑖𝑗 = 0 en (16.5.15). La otra
condición que permite la equivalencia entre los estimadores MC2E y MC3E, es que
todas las ecuaciones del sistema estén exactamente identificadas. Ya habíamos visto
que, cuando la ecuación i-ésima está exactamente identificada, la matriz 𝐗 ′ 𝐙𝑖 es de
orden𝐾 × 𝐾, que se puede suponer además que es no-singular. La matriz P también será
cuadrada de orden K y no-singular, por lo que,𝐖𝑖 = 𝐏′𝐗′𝐙𝑖 es de𝐾 × 𝐾 y no-singular.
Este resultado es válido ∀ 𝑖 = 1, … , 𝐺. Por lo tanto, la matriz W, que es diagonal en
bloques también es no-singular ya que cada submatriz lo es. Así, el estimador MC3E, se
puede escribir como,

̂MC3E = 𝐖 −1 𝐕
𝛅 ̂(𝐖′)−1 𝐖 ′ 𝐕
̂ −1 𝐰 = 𝐖 −1 𝐰.

36
Lo cual no quiere decir que a nivel muestral lo sean, cuando 𝜎ij = 0 . La relación (16.5.15),
corresponde al estimador MC3E factible, pues 𝚺 −1 debe estimarse y ser reemplazado por 𝚺 ̂ −1 , donde lo
más probable es que esta última no se diagonal.
37
Para este caso particular, el modelo SUR asegura que los estimadores SUR son equivalentes a los
estimadores MCO.
Bajo el mismo supuesto, el estimador MC2E para la ecuación i-ésima enla relación
(16.5.10), se reduce a,

̂i = 𝐖i −1 𝐰i .
𝛅

Por lo tanto, si agrupamos la totalidad de los estimadores MC2E, para el sistema


completo de ecuaciones, tendremos,

̂1
𝛅 𝐖1 −1 𝟎 ⋯ 𝟎 𝐰1
̂ 𝐖2 −1 𝐰
̂MC2E
𝛅 = 𝛅2 = 𝟎 ⋯ 𝟎 [ 2 ] = 𝐖 −1 𝐰 = 𝛅

̂MC3E .
⋮ ⋯ ⋯ ⋯ ⋯
̂G ] [ 𝟎
[𝛅 𝟎 ⋯ 𝐖G −1 ] 𝐰𝐺

Hasta este momento, hemos supuesto que todas las ecuaciones del sistema están
identificadas. En la práctica econométrica, antes de aplicar el algoritmo de MC3E, es
necesario eliminar del sistema todas aquellas ecuaciones que no están identificadas,
además de las identidades que pudiesen existir, ya que estas últimas tienen un término
de error nulo lo que hace que la matriz 𝚺sea singular. Además, como ya se mencionó
anteriormente, un supuesto que es clave para que los estimadores MC3E sean
efectivamente eficientes, es que las ecuaciones estén correctamente especificadas. En
modelos macroeconómicos grandes, que contemplan un número grande de ecuaciones
con muchas identidades además, éste es un prerrequisito casi imposible de satisfacer. De
allí que en la práctica econométrica sea un método escasamente utilizado, prefiriéndose
el método de MC2E.

16.6 Máxima verosimilitud con información completa (MVIC)

Al igual que el método de MC3E, la metodología de MVIC propone estimar el sistema


completo de ecuaciones. Computacionalmente, este último es más laborioso ya que
involucra la solución de ecuaciones no-lineales. Consideremos nuevamente el sistema
de Gecuaciones, con G variables endógenas,

𝐁𝒚𝑡 + 𝚪𝒙𝑡 = 𝜺𝑡 , 𝑡 = 1, … , 𝑇,

con,

𝐸(𝜺𝑡 ) = 𝟎 , 𝑡 = 1, … , 𝑇 ,

𝐸(𝜺𝑡 𝜺′𝑡 ) = 𝚺.

Si suponemos que los G errores siguen una distribución normal multivariada, podremos
escribir su densidad conjunta, 𝑙(𝒚𝑡 |𝒙𝑡 ), como,

𝑙(𝒚𝑡 |𝒙𝑡 ) = 𝑙(𝜺𝑡 ) = (2𝜋)−𝐺/2 |𝚺|−1/2 exp(−𝜺′𝑡 𝚺 −1 𝜺𝑡 /2) .

Suponiendo además que, los vectores en 𝜺no tienen correlación serial, podremos
escribir la verosimilitud conjunta para los T términos como,
𝑙(𝜺1 , 𝜺2 , … , 𝜺 𝑇 ) = ∏𝑇𝑡=1 𝑙(𝜺𝑡 ) ,

= (2𝜋)−𝑇𝐺/2 |𝚺|−𝑇/2 exp(−[∑𝑇𝑡=1 𝜺′𝑡 𝚺 −1 𝜺𝑡 ]/2) .

Por lo tanto, la verosimilitud conjunta para las observaciones endógenas, 𝒚1 , 𝒚2 , … , 𝒚 𝑇 ,


es,

𝐿 = (2𝜋)−𝑇𝐺/2 ‖𝐁‖𝑇 |𝚺|−𝑇/2 𝑒𝑥𝑝[−{∑𝑇𝑡=1(𝐁𝒚𝑡 + 𝚪𝒙𝑡 )′ 𝚺 −1 (𝐁𝒚𝑡 + 𝚪𝒙𝑡 )}/2] .

(16.6.1)

Si ahora escribimos,
𝒚𝑡
𝐁𝒚𝑡 + 𝚪𝒙𝑡 = [𝐁 𝚪] [𝒙 ] = 𝐀𝒛𝑡 ,
𝑡

el exponente de (16.6.1) se convierte en,


−1
∑𝑇𝑡=1 𝒛′𝑡 𝐀′ 𝚺 −1 𝑨𝒛𝑡 = 𝑇𝑟(𝐙𝐀′𝚺 𝐀𝐙′ ) = 𝑇𝑟(𝚺 −1 𝐀𝐙′𝐙𝐀′) ,

donde,

𝒚1′ 𝒙1′
𝒚′ 𝒙′2
𝐙 = [𝐘 𝐗] = [ 2 ],
⋮ ⋮
𝒚′𝑇 𝒙′𝑇

es la matriz de, 𝑇 × (𝐺 + 𝐾) consistente de todas las observaciones endógenas y


predeterminadas del sistema. Si ahora, 𝐌 = 𝐙′ 𝐙/𝑇 , entonces,

𝑇𝑟(𝚺 −1 𝐀𝐙′ 𝐙𝐀′ ) = 𝑇[𝑇𝑟(𝚺 −1 𝐀𝐌𝐀′ )] ,

con lo que el logaritmo de la verosimilitud conjunta, ℒ = log𝐿, dada por (16.6.1), queda
como,

ℒ(𝐀, 𝚺) = 𝐶𝑡𝑒. +𝑇𝑙𝑜𝑔‖𝐁‖ − (𝑇/2)𝑙𝑜𝑔|𝚺| − (𝑇/2)𝑇𝑟(𝚺 −1 𝐀𝐌𝐀′) . (16.6.2)

Finalmente, el estimador MVIC resulta de maximizar ℒ(𝐀, 𝚺) con respecto de A y de 𝚺.


Las ecuaciones resultantes son altamente no-lineales y acopladas entre sí, lo que las
hace dificultosas de obtener. Un resultado sorpresivo es que, la matriz de varianzas-
covarianzas asintótica del estimador MVIC, resulta ser idéntica con la matriz de
varianzas-covarianzas del estimador MC3E, con lo que se desprende que este último
estimador es asintóticamente eficiente38. Este hecho, unido a que los estimadores MC3E
son considerablemente más fáciles de obtener, hace que los econometristas prefieran
estos últimos estimadores a los del tipo MVIC. Sin embargo, lo que es aún más
sorprendente, es que, el algoritmo MCO siga dominando por sobre los demás métodos,

38
Este resultado fluye de un teorema demostrado en, Rothenberg, T. J. y C. T. Leenders (1964).
“EfficientEstimation of SimultaneousEquationSystems,” Econometrica, Vol. 32, pág.: 57-76.
especialmente en los modelos macroeconómicos grandes, siendo el motivo de ello el
gran riesgo que entrañan los errores de especificación.

16.7.1 Ecuaciones aparentemente no relacionadas (SUR)39

La ecuación paradigmática en econometría, 𝐘 = 𝐗𝛃 + 𝛆, en estricto rigor, corresponde a


un sistema de T ecuaciones, cada una de las cuales es una ecuación lineal con una sola
observación. Cuando tenemos más de una ecuación o modelo económico que deben ser
estimados simultáneamente, podemos decir que estamos frente a un verdadero sistema
de “sistemas de ecuaciones”. Para ejemplificar lo anterior, consideremos una situación
que aparece en microeconomía, en la teoría del consumidor, donde un agente
económico se enfrenta a la decisión de consumir diferentes productos, pertenecientes a
una determinada canasta de productos, cada uno de ellos con un determinado precio,
todo ello contando con un determinado presupuesto. Sea 𝑄𝑖 la tasa óptima de consumo
del producto i-ésimo, que tiene a su vez, un precio de mercado 𝑃𝑖 , en donde el ingreso
monetario con que cuenta el agente es igual a 𝑀. La teoría microeconómica, donde se
supone que el agente maximiza su utilidad, es conducente a la derivación de un
conjunto de ecuaciones de demanda para losn productos:

𝑄𝑖 = 𝑓𝑖 (𝑃1 , … , 𝑃𝑛 , 𝑀) , 𝑖 = 1, … , 𝑛

La teoría impone ciertas condiciones a estas ecuaciones de demanda, sin contar además
que la forma específica que asume la función de utilidad del agente, impone otras
restricciones a las mismas. Por ejemplo, si suponemos que la función de utilidad es del
tipo40,
𝑀
𝑢∗ = ∑𝑖 𝑎𝑖 (𝑃 )𝑏𝑖 ,
𝑖

entonces la i-ésima ecuación de demanda toma la forma41,

𝑎𝑖 𝑏𝑖 𝑀𝑏𝑖 𝑃𝑖 −𝑏𝑖 −1 𝑒 𝜀𝑖
𝑄𝑖 = 𝑏 −1 −𝑏 , 𝑖 = 1, … , 𝑛 (16.7.1)
∑𝑗 𝑎𝑗 𝑏𝑗 𝑀 𝑗 𝑃𝑗 𝑗

donde se ha introducido un término de error del tipo 𝑒𝑥𝑝(𝜀𝑖 ). Lo que efectivamente


gasta el agente en consumir el producto i es entonces, 𝑍𝑖 = 𝑃𝑖 𝑄𝑖 , que está dado por,

𝑎𝑖 𝑏𝑖 𝑀𝑏𝑖 𝑃𝑖 −𝑏𝑖 𝑒 𝜀𝑖
𝑍𝑖 = 𝑏 −1 −𝑏 , 𝑖 = 1, … , 𝑛 (16.7.2)
∑𝑗 𝑎𝑗 𝑏𝑗 𝑀 𝑗 𝑃𝑗 𝑗

El gasto en la relación (16.7.2) es no-lineal en los términos a’s y b´s. Sin embargo, si
calculamos la razón 𝑍𝑖 /𝑍𝑗 y tomamos logaritmos naturales a esta expresión, obtenemos,

39
Este nombre fue acuñado por ArnoldZellner, y corresponde en realidad a un acrónimo en inglés: SUR
(seeminglyunrelatedregressions).
40
Se trata de una función de utilidad indirecta del tipo “addilog”.
41
Para una derivación de estas ecuaciones de demanda, el lector interesado podrá consultar, por
ejemplo, Phlips, L. (1974). Applied Consumption Analysis, North-Holland, Amsterdam.
𝑀 𝑀
𝑙𝑜𝑔𝑍𝑖 − 𝑙𝑜𝑔𝑍𝑗 = 𝐴𝑖𝑗 + 𝑏𝑖 log ( ) − 𝑏𝑗 log ( ) + 𝑢𝑖𝑗 , (16.7.3)
𝑃𝑖 𝑃𝑗

en que,
𝑎𝑏
𝐴𝑖𝑗 = log(𝑎 𝑖𝑏𝑖 )y𝑢𝑖𝑗 = 𝜀𝑖 − 𝜀𝑗 .
𝑗 𝑗

Claramente, la relación (16.7.3) es una ecuación que puede estimarse


econométricamente. Si hay n productos, existen 𝑛(𝑛 − 1)/2 tales relaciones, de las
cuales hay muchas de ellas que son redundantes. Si tenemos tres productos: i,j,k sólo
hay dos relaciones independientes, ya que la tercera fluye por una resta de las dos
primeras. Por lo tanto, para n productos, hay 𝑛 − 1 relaciones independientes, y así
podríamos escribir el sistema:
𝑀 𝑀
𝑙𝑜𝑔𝑍1𝑡 − 𝑙𝑜𝑔𝑍2𝑡 = 𝐴12 + 𝑏1 log (𝑃 𝑡 ) − 𝑏2 log (𝑃 𝑡 ) + 𝑢12𝑡 ,
1𝑡 2𝑡

𝑀𝑡 𝑀𝑡
𝑙𝑜𝑔𝑍1𝑡 − 𝑙𝑜𝑔𝑍3𝑡 = 𝐴13 + 𝑏1 log ( ) − 𝑏3 log ( ) + 𝑢13𝑡 ,
𝑃1𝑡 𝑃3𝑡

⋮, (16.7.4)
𝑀 𝑀
𝑙𝑜𝑔𝑍1𝑡 − 𝑙𝑜𝑔𝑍𝑛𝑡 = 𝐴1𝑛 + 𝑏1 log (𝑃 𝑡 ) − 𝑏𝑛 log (𝑃 𝑡 ) + 𝑢1𝑛𝑡 ,
1𝑡 𝑛𝑡

para𝑡 = 1, … , 𝑇. Si definimos ahora: 𝑌1𝑡 = 𝑙𝑜𝑔𝑍1𝑡 − 𝑙𝑜𝑔𝑍2𝑡 , 𝐘1 = [𝑌11 ⋯ 𝑌1𝑇 ]′ ,

podemos escribir la relación (16.7.4) como,

𝐘1 = 𝐗1 𝛃1 + 𝐮1 ,

donde,

𝐴12 𝜀11 − 𝜀21


𝑀 𝑀
𝐗1 = [𝐢 log(𝑃 ) −log(𝑃 )] , 𝛃1 = [ 𝑏1 ] , 𝐮1 = [ ⋮ ].
1 2
𝑏2 𝜀1𝑇 − 𝜀2𝑇

Asimismo, podemos definir 𝐘2, 𝐘3,…,𝐘𝑚 , con 𝑚 = 𝑛 − 1, y expresiones similares para,


𝐗 𝑖 , 𝛃𝑖 , 𝐮𝑖 con lo que tendríamos el sistema:

𝐘1 = 𝐗1 𝛃1 + 𝐮1 ,

𝐘2 = 𝐗 2 𝛃2 + 𝐮2 ,

⋮ (16.7.5)

𝐘𝑚 = 𝐗 𝑚 𝛃𝑚 + 𝐮𝑚

El sistema (16.7.5), se puede escribir en forma equivalente como,


𝐘1 𝐗1 𝟎 ⋯ 𝟎 𝛃1 𝐮1
𝐘2 𝟎 𝐗2 ⋯ ⋮ 𝛃 𝐮2
[ ]=[ ][ 2]+ [ ⋮ ] , (16.7.6)
⋮ ⋮ ⋮ ⋱ 𝟎 ⋮
𝐘𝑚 𝟎 ⋯ 𝟎 𝐗 𝑚 𝛃𝑚 𝐮𝑚

o también,

𝐘 = 𝐗𝛃 + 𝐮. (16.7.7)

Debido a que la matriz X tiene en su diagonal principal matrices en bloque, la


aplicación simple de MCO a (16.7.7) es equivalente a utilizar MCO separadamente a
cada una de las m ecuaciones de (16.7.5). Sin embargo, al emplear MCO en (16.7.7),
obtenemos resultados que no son óptimos. En primer lugar, el término de error u es
heterocedástico. De la definición de los u´s, tenemos,

𝑢𝑖 = 𝜀1 − 𝜀𝑖+1 , 𝑖 = 1, … , 𝑛 − 1 .

Por lo tanto, 𝑉𝑎𝑟(𝑢𝑖 ) = 𝑉𝑎𝑟(𝜀1 ) + 𝑉𝑎𝑟(𝜀𝑖+1 ) − 2𝐶𝑜𝑣(𝜀1 , 𝜀𝑖+1 ). Incluso si los términos
𝜀′s , a su vez, no tienen correlación serial, tendríamos,

𝑉𝑎𝑟(𝑢𝑖 ) = 𝑉𝑎𝑟(𝜀1 ) + 𝑉𝑎𝑟(𝜀𝑖+1 ) , y, 𝑉𝑎𝑟(𝑢𝑗 ) = 𝑉𝑎𝑟(𝜀1 ) + 𝑉𝑎𝑟(𝜀𝑗+1 ) ,

con lo que, los u´s sólo serían homocedásticos si los 𝜀′s también lo son. Pero no hay
ninguna razón a priori para que esto sea así. Una segunda razón para que la aplicación
de MCO no sea óptima, es que los términos fuera de la diagonal de 𝑉𝑎𝑟(𝐮) no son
nulos,

𝐸(𝑢𝑖 𝑢𝑗 ) = 𝐸(𝜀12 ) − 𝐸(𝜀1 𝜀𝑖+1 ) − 𝐸(𝜀1 𝜀𝑗+1 ) + 𝐸(𝜀𝑖+1 𝜀𝑗+1 ) .

Por lo tanto, incluso en el caso si las covarianzas de los 𝜀′s son nulas, el término
𝐸(𝑢𝑖 𝑢𝑗 ) no desaparece. Todo lo anterior hace aconsejable utilizar MCG como el
método correcto. Así es como tendríamos los supuestos adicionales,

𝐸(𝐮𝑖 𝐮′𝑖 ) = 𝜎𝑖𝑖 𝐈, 𝑖 = 1, … , 𝑚 ,

y, 𝐸(𝐮𝑖 𝐮𝑗′ ) = 𝜎𝑖𝑗 𝐈, 𝑖 ≠ 𝑗 ; 𝑖, 𝑗 = 1, … , 𝑚 .

Juntando estas varianzas y covarianzas en la matriz positiva definida simétrica,

(𝚺)𝑖𝑗 = 𝜎𝑖𝑗 ,

podemos escribir la matriz de varianzas y covarianzas del vector u como,

𝑉𝑎𝑟(𝐮) = 𝐕 = 𝚺 ⊗ 𝐈. (16.7.8)

Por ende, un conjunto de ecuaciones de demanda como las que se ha considerado, debe
ser ciertamente estimado con el estimador MCG de Aitken. Además, habrán
considerandos microeconómicos que se traducirán en restricciones entre las ecuaciones,
como por ejemplo, que el parámetro 𝑏1 en cada vector 𝛃𝑖 debe ser el mismo en las m
ecuaciones.

Volviendo al sistema de ecuaciones escrito en la forma SUR, el estimador del parámetro


𝛃por MCG es,

̂ = (𝐗′𝐕 −1 𝐗)−1 𝐗′𝐕 −1 𝐘 .


𝛃

De (16.7.8), tenemos que,

𝜎11 𝐈 ⋯ 𝜎1𝑚 𝐈
−1 −1
𝐕 =𝚺 ⊗𝐈=[ ⋮ ⋱ ⋮ ],
𝜎𝑚1 𝐈 ⋯ 𝑚𝑚
𝜎 𝐈

en que 𝜎 𝑖𝑗 denota al elemento (𝑖. 𝑗) de la matriz 𝚺 −1 . Si reemplazamos 𝐕 −1 en la relación para


̂ , obtenemos,
𝛃
−1
𝜎11 𝐗′1 𝐗1 ⋯ 𝜎1𝑚 𝐗′1 𝐗𝑚 ∑𝑚 1𝑗 ′
𝑗=1 𝜎 𝐗1 𝐘𝑗
̂=
𝛃 [ ⋮ ⋱ ⋮ ] [ ⋮ ], (16.7.9)
𝑚1 ′ 𝑚𝑚 ′ 𝑚 𝑚𝑗 ′
𝜎 𝐗𝑚 𝐗1 ⋯ 𝜎 𝐗𝑚 𝐗𝑚 ∑𝑗=1 𝜎 𝐗𝑚 𝐘𝑗

con su matriz de varianzas y covarianzas respectiva,


−1
−1 𝜎 11 𝐗1′ 𝐗1 ⋯ 𝜎 1𝑚 𝐗1′ 𝐗 𝑚
̂ ) = (𝐗′𝐕 −1
𝑉𝑎𝑟 (𝛃 𝐗) =[ ⋮ ⋱ ⋮ ] . (16.7.10)
𝜎 𝑚1 𝐗 ′𝑚 𝐗1 ⋯ 𝜎 𝑚𝑚 𝐗 ′𝑚 𝐗 𝑚

En su trabajo original, Zellner (1962) da dos condiciones que son suficientes para que el
estimador MCG 𝛃 ̂ sea igual al estimador MCO 𝐛 ̂ , donde se tiene que entender a 𝐛
̂,
como el estimador MCO que se obtiene al utilizar MCO en cada una de las ecuaciones
del sistema (16.7.5) por separado42. Estas dos condiciones son:

(i) Que la correlación 𝜎𝑖𝑗 sea nula para 𝑖 ≠ 𝑗, es decir, que no haya correlación
entre los términos de error para dos ecuaciones cualesquiera (𝜎𝑖𝑗 = 0). Esto
significa que𝚺es diagonal, lo que a su vez, implica que 𝚺 −1 también lo sea,
es decir,𝜎 𝑖𝑗 = 0 para 𝑖 ≠ 𝑗. Por otra parte, 𝜎 𝑖𝑖 = 1/𝜎𝑖𝑖 . Por lo tanto, (16.7.9)
se reduce a:
−1
𝜎11 (𝐗′1 𝐗1 ) ⋯ 𝟎 𝐗′1 𝐘1 /𝜎11 ̂1
𝐛
̂
𝛃𝑀𝐶𝐺 = [ ⋮ ⋱ ⋮ ][ ⋮ ]=[ ⋮ ]=𝐛 ̂ 𝑀𝐶𝑂
−1
𝟎 ⋯ 𝜎𝑚𝑚 (𝐗′𝑚 𝐗𝑚 )

𝐗𝑚 𝐘𝑚 /𝜎𝑚𝑚 ̂𝑚
𝐛
(16.7.11)
(ii) Que los regresores sean los mismos para todas las ecuaciones, i.e.𝐗 𝑖 =
𝐗𝑗 ∀ 𝑖, 𝑗 . Supongamos que, 𝐗1 = ⋯ = 𝐗 𝑚 = 𝐗 ̃ . Este supuesto implica que,
𝐾1 = ⋯ = 𝐾𝑚 = 𝐾. Por lo tanto, se cumple que, 𝐗 = 𝐈𝑚 ⊗ 𝐗 ̃.
Introduciendo esto en (16.7.9) obtenemos,

42
Zellner, A. (1962). “An Efficient Method of Estimating Seemingly Unrelated Regressions and Tests for
Aggregation Bias,” Journal of the American Statistical Association, Vol. 57, pág.: 348-368.
̂ 𝑀𝐶𝐺 = [(𝐈𝑚 ⊗ 𝐗
𝛃 ̃)]−1 [(𝐈𝑚 ⊗ 𝐗
̃′)(𝚺 −1 ⊗ 𝐈)(𝐈𝑚 ⊗ 𝐗 ̃′)(𝚺−1 ⊗ 𝐈)𝐘]
̂ 𝑀𝐶𝐺 = [𝚺 ⊗ (𝐗
𝛃 ̃)−1 ] [(𝚺 −1 ⊗ 𝐗
̃′𝐗 ̃ ′ )𝐘]
̂ 𝑀𝐶𝐺 = [𝐈𝑚 ⊗ (𝐗
𝛃 ̃)−1 𝐗
̃′𝐗 ̂ 𝑀𝐶𝑂 .
̃′] 𝐘 = 𝐛 (16.7.12)

Una condición necesaria y suficiente para que 𝛃 ̂ 𝑀𝐶𝑂 fue derivada por Dwivedi y
̂ 𝑀𝐶𝐺 = 𝐛
Srivastava (1978)43. Una derivación alternativa, basada también en otra condición
necesaria y suficiente encontrada por Milliken y Albohali (1984), para que se produjera
la equivalencia anterior, es presentada por Baltagi (1988)44.

En un capítulo anterior, se vio que para que el estimador MCG fuese equivalente al
estimador MCO, bastaba que, para todo valor de Y45,

𝐗 ′ 𝐕 −1 𝐌𝐗 = 𝟎. (16.7.13)

En este caso, 𝐗 = 𝐷𝑖𝑎𝑔[𝐗 𝑖 ], 𝐕 −1 = 𝚺 −1 ⊗ 𝐈, y 𝐌𝐗 = 𝐷𝑖𝑎𝑔[𝐌𝐗 𝑖 ]. Así, un elemento


típico de (16.7.13) es,

𝜎 𝑖𝑗 𝐗 ′𝑖 𝐌𝐗 𝑗 = 𝟎. (16.7.14)

Esta condición se satisface trivialmente para 𝑖 = 𝑗. Para el caso de 𝑖 ≠ 𝑗, esto se cumple


ya sea, cuando 𝜎 𝑖𝑗 = 0, o cuando, 𝐗 ′𝑖 𝐌𝐗 𝑗 = 𝟎. El primer caso, corresponde al caso (i)
de Zellner (1962). Sin embargo, 𝐗 ′𝑖 𝐌𝐗 𝑗 = 𝟎,implica que el conjunto de regresores de la
i-ésima ecuación son una combinación lineal perfecta de los regresores de la j-ésima
ecuación. Como se satisface también que, 𝐗𝑗′ 𝐌𝐗 𝑖 = 𝟎,𝐗𝑗 es una combinación lineal
perfecta de los regresores𝐗 𝑖 . Así, se tiene que, tanto 𝐗 𝑖 como 𝐗𝑗 generan el mismo
espacio vectorial. Se cumple, por tanto, que, 𝐗 𝑖 y 𝐗𝑗 , son de rango completo, lo que
hace que MCO sea factible de estimarse, por lo que tienen ambos la misma dimensión
para que se satisfaga, 𝐗 ′𝑖 𝐌𝐗 𝑗 = 𝐗𝑗′ 𝐌𝐗 𝑖 = 𝟎. En este caso, 𝐗 ′𝑖 = 𝐂𝐗𝑗′ , donde C es una
matriz no-singular. Esto incluye el caso (ii) de Zellner(𝐂 = 𝐈).

Por su parte, Revankar(1974), consideró el caso de un sistema SUR de dos ecuaciones,


en que 𝐗1 era un subconjunto de 𝐗 2 , ydemostró que no había ninguna ganancia al usar
̂1,𝑆𝑈𝑅 = 𝛃
SUR para estimar 𝛃1 46. En rigor, él mostró que, 𝛃 ̂1,𝑀𝐶𝑂 .

43
Dwivedi, T. D. y V. K. Srivastava (1978). “Optimality of Least Squares in the Seemingly Unrelated
Regressions Equations Model,” Journal of Econometrics, Vol. 7, pág.: 391-395.
44
Milliken, G. A. y M. Albohali (1984). “On Necessary and Sufficient Conditions for Ordinary Least
Squares Estimators to be Best Linear Unbiased Estimators,” The American Statistician, Vol. 38, pág.: 298-
299.
Baltagi, B. H. (1988). “The Efficiency of OLS in a Seemingly Unrelated Regressions Model,” Econometric
Theory, Problem 88.3.4, Vol. 4, pág.: 536-537.
45
Aquí, 𝐌𝐗 es el operador de proyección generador de residuos.
46
Revankar, N. S. (1974). “Some Finite Sample Results in the Context of Two Seemingly UInrelated
Regression Equations,” Journal of the American Statistical Association, Vol. 71, pág.: 183-188.
16.7.2 Estimación MCG factible

El problema operacional que surge con la expresión (16.7.9), es que la matriz 𝚺es
desconocida.Zellner (1962), recomendó el siguiente procedimiento para encontrar un
estimador MCG factible que fuera consistente. Para estimar 𝜎𝑖𝑖 , y 𝜎𝑖𝑗 , sugiere,
respectivamente,

𝑠𝑖𝑖 = ∑𝑇𝑡=1 𝑒𝑖𝑡2 /(𝑇 − 𝐾𝑖 ) , para, 𝑖 = 1, … , 𝑚,

y,

𝑠𝑖𝑗 = ∑𝑇𝑡=1 𝑒𝑖𝑡 𝑒𝑗𝑡 /(𝑇 − 𝐾𝑖 )1/2 (𝑇 − 𝐾𝑗 )1/2 , para, 𝑖, 𝑗 = 1, … , 𝑚 con 𝑖 ≠ 𝑗 .

(16.7.15)

Aquí, 𝑒𝑖𝑡 es el residuo obtenido de la ecuación i-ésima al estimarla por MCO. Así, 𝑠𝑖𝑖 es
el estimador 𝑠 2 usual que se obtiene al estimar por MCO la ecuación i-ésima. Se sabe
que este estimador es insesgado y consistente. Sin embargo, 𝑠𝑖𝑗 es sólo consistente pero
no insesgado para 𝜎𝑖𝑗 . En forma trivial se puede mostrar que el estimador insesgado es,

𝑠̃𝑖𝑗 = ∑𝑇𝑡=1 𝑒𝑖𝑡 𝑒𝑗𝑡 /[𝑇 − 𝐾𝑖 − 𝐾𝑗 + 𝑇𝑟(𝐁)] , para, 𝑖, 𝑗 = 1, … , 𝑚 con 𝑖 ≠ 𝑗 ,

donde, 𝐁 = 𝐏𝐗 𝑖 𝐏𝐗𝑗 . El problema que puede tener el hecho de utilizar 𝑠̃𝑖𝑗 , es que el
estimador de 𝚺puede resultar en una matriz de varianzas-covarianzas que no sea
positiva-definida. Como sólo se necesita un estimador que sea consistente para 𝜎𝑖𝑗 ,
muchas veces se prefiere sencillamente,

𝑠̂𝑖𝑗 = ∑𝑇𝑡=1 𝑒𝑖𝑡 𝑒𝑗𝑡 /𝑇 . (16.7.16)

Usando estos estimadores consistentes para 𝜎𝑖𝑗 se obtendrá un estimador factible y


consistente para 𝚺, que a su vez, al ser reemplazado en (16.7.9), conducirá a un
estimador de 𝛃que es asintóticamente eficiente. De hecho, si es que se itera en este
procedimiento, i.e., si se calculan residuos factibles por MCG,𝑒̃𝑖𝑡 , luego de haber
utilizado la relación (16.7.9) con una matriz 𝚺̂ consistente, y a partir de estos residuos,
𝑒̃ , obtenidos por MCG, se vuelve a estimar la matriz 𝚺, digamos con un estimador 𝚺
𝑖𝑡
̂,
usando para ello las relaciones (16.7.16), y luego se continúa este procedimiento hasta
lograr convergencia de los parámetros estimados, se obtendrá un estimador máximo
verosímil (MV) para 𝛃(Oberhofer y Kmenta, 1974)47.

16.7.3.1 Eficiencia relativa de MCO versus SUR en regresión simple

Para ilustrar las ventajas del método SUR de Zellner en comparación al método MCO,
Kmenta (1986), considera el siguiente sistema de dos ecuaciones simultáneas48:

47
Oberhofer, W. y J. Kmenta, (1974). “A General Procedure for Obtaining Maximum Likelihood Estimates
in Generalized Regression Models,” Econometrica, Vol. 42, pág.: 579-590.
48
Kmenta, J.(1986). Elements of Econometrics, 2da.Ed., Macmillan, New York.
𝑌1𝑡 = 𝛽11 + 𝛽12 𝑋1𝑡 + 𝜀1𝑡 ,

𝑌2𝑡 = 𝛽21 + 𝛽22 𝑋2𝑡 + 𝜀2𝑡 ;para𝑡 = 1, … 𝑇 ; (16.7.17)

y prueba que,
̂12,𝑆𝑈𝑅 )
𝑉𝑎𝑟(𝛽 (1−𝜌2 )
̂12,𝑀𝐶𝑂 ) = (1−𝜌2 𝑟2 ) , (16.7.18)
𝑉𝑎𝑟(𝛽

donde, 𝜌 representa la correlación entre 𝜀1 y 𝜀2 , y 𝑟 es el coeficiente de correlación


muestral entre 𝑋1 y 𝑋2. Esto quiere decir que, en la medida que 𝜌 crece, la eficiencia
relativa decrece y MCO es menos eficiente que SUR. Por otro lado, si 𝑟 aumenta, la
eficiencia relativa también aumenta, y hay menos ganancia al usar SUR vis à vis MCO.

16.7.3.2 Eficiencia relativa de MCO versus SUR en regresiones múltiples

En el caso cuando hay más de un regresor en cada ecuación, es necesario modificar la


expresión (16.7.18). Esto fue hecho por Binkley y Nelson (1988) para el caso de un
sistema compuesto por ecuaciones, donde la primera tiene 𝐾1 regresores en la matriz 𝐗1
y 𝐾2 regresores en la matriz 𝐗 2 49. Sabemos que,

−1 −1
̂ −1 𝜎 11 𝐗1′ 𝐗1 𝜎 12 𝐗1′ 𝐗 2
𝑉𝑎𝑟 (𝛃 𝑆𝑈𝑅 ) = (𝐗′𝐕 𝐗) =[ ] = 𝐀. (16.7.19)
𝜎 21 𝐗 ′2 𝐗1 𝜎 22 𝐗 ′2 𝐗 2

Si examinamos las estimaciones de los parámetros de la primera ecuación, obtenemos


−1 −1
̂1,𝑆𝑈𝑅 ) = 𝐀11 = [𝜎11 𝐗′1 𝐗1 − 𝜎12 𝐗′1 𝐗2 (𝜎22 𝐗′2 𝐗2 ) 𝜎21 𝐗′2 𝐗1 ] . Si además
que, 𝑉𝑎𝑟(𝛃
tomamos en cuenta que,

1/𝜎11 −𝜌2 /𝜎12


𝚺 −1 = [1/(1 − 𝜌2 )] [ ],
−𝜌2 /𝜎21 1/𝜎22
2
donde, 𝜌2 = 𝜎12 /𝜎11 𝜎22 , entonces obtendremos la expresión,

̂1,𝑆𝑈𝑅 ) = [𝜎11 (1 − 𝜌2 )][𝐗′1 𝐗1 − 𝜌2 (𝐗′1 𝐏𝐗 𝐗1 )]−1.


𝑉𝑎𝑟(𝛃 (16.7.20)
2

Sumando y restando 𝜌2 𝐗1′ 𝐗1 al interior del segundo paréntesis cuadrado, obtenemos,

̂1,𝑆𝑈𝑅 ) = 𝜎11 [𝐗1′ 𝐗1 + {𝜌2 /(1 − 𝜌2 )}𝐄′𝐄]−1 ,


𝑉𝑎𝑟(𝛃 (16.7.21)

en que, 𝐄 = 𝐌𝐗 2 𝐗1 50. La matriz E,tiene por columnas a los residuos obtenidos de las
regresiones por MCO de cada variable en 𝐗1 sobre los regresores𝐗 2 . Si 𝐄 = 𝟎, entonces
no hay ninguna ganancia del método SUR sobre MCO al estimar 𝛃1 51 . Se puede verificar
que (16.7.21), corresponde a la matriz de varianza-covarianza, de una regresión MCO
con la siguiente matriz de regresores:

49
Binkley, J. K. y C. H. Nelson (1988). “A Note on the Efficiency of Seemingly Unrelated Regression,” The
American Statistician, Vol. 42, pág.: 137-139.
50
Las matrices 𝐏𝐗2 y 𝐌𝐗2 son los tradicionales operadores de proyección.
51
Esta situación ocurre cuando, ya sea, 𝐗1 = 𝐗 2 , o 𝐗1 es un subconjunto de 𝐗 2 .
𝐖′ = [𝐗1′ 𝜃𝐄′],

en que,𝜃 2 = 𝜌2 /(1 − 𝜌2 ).

Examinemos ahora la eficiencia relativa al estimar el coeficiente correspondiente a la


variable i-ésima, 𝑋𝑖 , contenida en 𝐗1 . En un capítulo anterior se demostró que, al
regresionar por MCO la variable Y sobre los regresores contenidos en𝐗1 , se obtiene
para la varianza del estimador del parámetro correspondiente a 𝑋𝑖 que,

𝑉𝑎𝑟(𝛽̂𝑖,𝑀𝐶𝑂 ) = 𝜎11 /[𝑚𝑖𝑖 (1 − 𝑅𝑖2 )], (16.7.22)

donde en el denominador aparece el segundo momentode la variable 𝑋𝑖 en términos de


desviaciones, y 𝑅𝑖2 , que es el tradicional 𝑅 2 de la regresión de 𝑋𝑖 sobre los (𝐾1 − 1)
regresores restantes. A partir de la relación (16.7.21) obtenemos que52,

𝑉𝑎𝑟(𝛽̂𝑖,𝑆𝑈𝑅 ) = 𝜎11 /[𝑚𝑖𝑖 + 𝜃 2 𝑚𝑒𝑒 ](1 − 𝑅𝑖∗2 ) , (16.7.23)

donde, en el denominador aparece la suma de los residuos al cuadrado, de la regresión


de [𝑋𝑖′ 𝜃𝑒𝑖′ ]′ sobre los demás (𝐾1 − 1)regresores en la matriz W, y 𝑅𝑖∗2 es el 𝑅 2 de
dicha regresión. Si sumamos y restamos,𝑚𝑖𝑖 (1 − 𝑅𝑖2 ), en el denominador de (16.7.23),
obtenemos,
𝜎11
𝑉𝑎𝑟(𝛽̂𝑖,𝑆𝑈𝑅 ) = {𝑚 2 2 ∗2 2 ∗2 . (16.7.24)
𝑖𝑖 (1−𝑅𝑖 )+𝑚𝑖𝑖 (𝑅𝑖 −𝑅𝑖 )+𝜃 𝑚𝑒𝑒 (1−𝑅𝑖 )}

La varianza en (16.7.24), difiere de 𝑉𝑎𝑟(𝛽̂𝑖,𝑀𝐶𝑂 ), por dos términos adicionales en el


denominador. Si 𝜌 = 0, entonces, 𝜃 2 = 0, con lo que, 𝐖 ′ = [𝐗1′ 𝟎]y 𝑅𝑖2 = 𝑅𝑖∗2 , y por
ende, (16.7.24) se reduce a (16.7.22). Si la variable 𝑋𝑖 también aparece en la segunda
ecuación, o en general si es generada por las variables en 𝐗 2 , entonces se cumple que
𝑒𝑡𝑖 = 0, lo que a su vez implica que, 𝑚𝑖𝑖 = 0, y por la relación (16.7.24), sólo se gana eficiencia al
usar SUR si 𝑅𝑖2 ≥ 𝑅𝑖∗2 . El término 𝑅𝑖2 , si se quiere, es una medida de la multicolinealidad
que existe entre 𝑋𝑖 y las demás (𝐾1 − 1) variables en 𝐗1 . Si 𝑅𝑖2 es elevado, entonces es
probable que se cumpla que 𝑅𝑖2 ≥ 𝑅𝑖∗2. Por lo tanto, a mayor multicolinealidad en 𝐗1 ,
hay una mayor probabilidad que SUR sea más eficiente que MCO53. Resumiendo,
cuando hay varios regresores en las ecuaciones, es necesario no sólo considerar la
correlación entre las variables dentro de una misma ecuación, sino que también las
correlaciones de las variables entre diferentes ecuaciones. Incluso en el caso cuando los
𝐗𝑗 , 𝑗 = 1, … , 𝑀, pueden estar altamente correlacionados entre sí, pueden existir
ganancias al estimar el sistema mediante SUR, cuando la multicolinealidad al interior de
las ecuaciones es alta.

16.7.4 Diagonalidad de la matriz de varianza y covarianza

52
Aquí, los términos, 𝑚𝑒𝑒 = ∑𝑇𝑡=1 𝑒𝑡𝑖2 ,y, 𝑚𝑖𝑖 = ∑𝑇𝑡=1 𝑥𝑡𝑖2 .
53
Hay que notar que, 𝑅𝑖2 = 𝑅𝑖∗2 , cuando 𝜃𝐄 = 𝟎. Y esto se produce cuando ya sea, 𝜃 = 0, o 𝐄 = 𝟎. Este
último caso ocurre cuando 𝐗1 es generado por las variables en 𝐗 2 .
Ya hemos visto que si la matriz 𝚺es diagonal, entonces no hay ganancias al utilizar el
método SUR por sobre MCO. De allí que sea interesante disponer de algún test como,
H0 ∶ 𝚺 es diagonal, para dilucidar este hecho. Breusch y Pagan (1980), justamente
proveen esto a través de un estadígrafo basado en multiplicadores de Lagrange (ML)54.
El test utiliza coeficientes de correlación de residuos obtenidos por MCO:
𝑖−1 2
Λ ML = 𝑇 ∑𝑀
𝑖=2[∑𝑗=1 𝑟𝑖𝑗 ] , (16.7.25)

donde, M denota el número de ecuaciones, y 𝑟𝑖𝑗 = 𝑠̂𝑖𝑗 /(𝑠̂𝑖𝑖 𝑠̂𝑗𝑗 )1/2.Los términos 𝑠̂𝑖𝑗 se calculan
a partir de los residuos obtenidos, estimando cada ecuación por MCO, tal como aparece en
2
(16.7.16). Bajo H0 , el estadígrafo Λ 𝑀𝐿 tiene una distribución asintótica 𝜒𝑀(𝑀−1)/2 . Para
2
el caso de dos ecuaciones (𝑀 = 2), tenemos que, Λ 𝑀𝐿 = 𝑇𝑟21 , que a su vez, se
2
distribuye asintóticamente bajo H0 como una distribución 𝜒1 .

En forma alternativa, se puede recurrir a un test del tipo de razón de verosimilitud (RV).
Este test está basado en los determinantes de las matrices de varianza-covarianza
estimados por MV, tanto para el modelo restringido como para el caso sin restricciones:

Λ RV = 𝑇(∑𝑀
𝑖=1 𝑙𝑜𝑔𝑠
̂|) ,
̂𝑖𝑖 − 𝑙𝑜𝑔|𝚺 (16.7.26)

en que, 𝑠̂𝑖𝑖 es el estimador restringido por MV, de 𝜎𝑖𝑖 , obtenido a partir de los residuos de
MCO (16.7.16). La matriz 𝚺 ̂, denota la estimación sin restricciones por MV de 𝚺. Esto se
puede aproximar, adecuadamente, a partir del estimador MCG factible, 𝛃 ̂ 𝑀𝐶𝐺𝐹 55. Bajo la
2
hipótesis nula H0 , Λ RV se distribuye asintóticamente como una 𝜒𝑀(𝑀−1)/2 .

16.7.5.1 Restricciones lineales en un contexto de ecuaciones tipo SUR

Muchas veces un analista querrá testear una hipótesis que involucra coeficientes
pertenecientes a diferentes ecuaciones, cada una de ellas conformando parte de un
sistema de ecuaciones. Supondremos que estas restricciones corresponden a relaciones
lineales del tipo 𝐫 = 𝐑𝛃 , donde r es un vector conocido de dimensión 𝑞 × 1 ; R es una
matriz conocida de rango completo por filas de 𝑞 × 𝐾, donde 𝐾 = ∑𝑀 𝑖=1 𝐾𝑖 , en que M es
el número de ecuaciones del sistema en cuestión, y 𝐾𝑖 el número de variables
predeterminadas en el lado derecho de la ecuación i-ésima. La notación que se empleará
a continuación, se remite a la notación de la relación (16.7.7),

𝐘 = 𝐗𝛃 + 𝐮 .

El procedimiento de inferencia estadística, estará basado en un estadígrafo que es válido


en un contexto de una sola regresión, y que ya fue abordado en el capítulo
correspondiente a modelos de regresión múltiple uniecuacionales:

54
Breusch, T. S. y A. R. Pagan (1980). “The Lagrange Multiplier Test and its Applications to Model
Specification in Econometrics,” Review of Economic Studies, Vol. 47, pág.: 239-253.
55
Ver, por ejemplo, Judge, G. G., W. E. Griffiths, R. C. Hill, H. Lütkepohl y T. C. Lee (1985). The Theory and
Practice of Econometrics, 2da. Ed., John Wiley: New York.
1
(𝐫 − 𝐑𝛃)′ [𝐑(𝐗′𝐗)−𝟏 𝐑′]−1 (𝐫 − 𝐑𝛃) , (16.7.27)
𝑞𝑠2

que se distribuye como una distribución 𝐹(𝑞, 𝑇 − 𝐾) 56. Para que este resultado sea
válido, se requiere que: (i) Se satisfagan todos los supuestos del modelo de regresión
estándar, para cada una de las M ecuaciones, (ii) El término de error u debe distribuirse
como una distribución normal , y finalmente, (iii) Se debe satisfacer bajo la hipótesis
nula 𝐻0 ∶ 𝐫 = 𝐑𝛃 . La demostración de (16.7.27), se basó en que bajo las tres
2
condiciones anteriores, el estadígrafo, (𝑇 − 𝐾)𝑠 2 /𝜎 2, se distribuye como 𝜒(𝑇−𝐾) ,
−𝟏 −1
además, la forma cuadrática, con (𝐫 − 𝐑𝛃) como vector y [𝐑(𝐗′𝐗) 𝐑′] como la
matriz, se distribuyen como 𝜎 2 𝜒𝑞2 , siendo esta última forma independiente de 𝑠 2 . Aquí,
en el contexto sistémico, también se asumirá la normalidad, como asimismo la hipótesis
nula 𝐻0 . Sin embargo, el modelo de regresión estándar lineal debe ser adaptado para
abarcar este nuevo contexto sistémico. Se verá más adelante que, el término (𝑇 − 𝐾)𝑠 2 ,
debe reemplazarse por una forma cuadrática que contempla el vector residual, 𝐘 − 𝐗𝛃 ̂,
que no es, en general, una forma que sea diagonal57. Específicamente, se demostrará
que, la forma cuadrática,

̂ ) (𝚺 −1 ⊗ 𝐈)(𝐘 − 𝐗𝛃
(𝐘 − 𝐗𝛃 ̂) ,

2
se distribuye como, 𝜒(𝑀𝑇−𝐾) , y la forma cuadrática,

̂ )′ [𝐑{𝐗 ′ (𝚺 −1 ⊗ 𝐈)𝐗}−1 𝐑′]−1 (𝐫 − 𝐑𝛃


(𝐫 − 𝐑𝛃 ̂) ,

como, 𝜒𝑞2 , y donde además, ambas formas cuadráticas son independientes entre sí.

Finalmente, la conclusión es que el estadígrafo (16.7.27), se modifica a:


−1
𝑀𝑇−𝐾 ̂)′ [𝐑{𝐗 ′ (𝚺−1 ⊗𝐈)𝐗}−𝟏 𝐑′]
(𝐫−𝐑𝛃 ̂)
(𝐫−𝐑𝛃
× ′
̂) (𝚺−1 ⊗𝐈)(𝐘−𝐗𝛃
̂)
, (16.7.28)
𝑞 (𝐘−𝐗𝛃

distribuyéndose como 𝐹(𝑞, 𝑀𝑇 − 𝐾), si es que se satisface la nula 𝐻0 .

Ahora bien, si se llega a aceptar la nula, 𝐫 = 𝐑𝛃 , y se quiere llegar a imponer


forzosamente esta restricción, en la estimación de 𝐘 = 𝐗𝛃 + 𝐮 , utilizamos la relación
uniecuacional equivalente, que es,

̂∗ = 𝛃
𝛃 ̂ + 𝐂𝐑′ (𝐑𝐂𝐑′ )−1 (𝐫 − 𝐑𝛃
̂) , (16.7.29)

̂ = 𝐂𝐗′𝐕 −1 𝐘 , es el estimador MCG de 𝛃 , y 𝐂 = (𝐗′𝐕 −1 𝐗)−1 , con matriz


donde, 𝛃
varianza y covarianza,

̂ ∗ ) = 𝜎 2 [𝐂 − 𝐂𝐑′ (𝐑𝐂𝐑′ )−1 𝐑𝐂] ,


𝑉𝑎𝑟 (𝛃

56
En esta notación, T corresponde al número de observaciones independientes en cada ecuación.
57 ̂ corresponde al estimador por MCG, o si se quiere, es el estimador SUR de
En este caso, el estimador 𝛃
la regresión, 𝐘 = 𝐗𝛃 + 𝐮 .
̂ es
pero ahora, sencillamente, hacemos uso de las mismas relaciones, asumiendo que 𝛃
el estimador SUR del modelo base, y

𝐂 = [𝐗 ′ (𝚺 −1 ⊗ 𝐈)𝐗]−1 ,

con, 𝜎 2 = 1 .

16.7.5.2 Digresión matemática: distribuciones 𝛘2 y su independencia

Como cada raíz de 𝚺 ⊗ 𝐈 , es igual a una raíz de 𝚺 multiplicada por una raíz de 𝐈, todas
las raíces de este producto de Kronecker serán positivas cuando 𝚺 es no-singular58.
Denotamos por 𝚲2 , la matriz positiva definida y diagonal, que contiene estas raíces en la
diagonal principal, y definimos a 𝚲 como aquella matriz cuyos elementos son iguales a
las raíces cuadradas positivas de los elementos correspondientes de 𝚲2 . Así, siempre
existirá una matriz ortogonal F, tal que,

𝚺 ⊗ 𝐈 = 𝐅𝚲2 𝐅′ . (16.7.30)

Ahora bien, si consideramos nuevamente la relación (16.7.7), donde el término de error


u tiene una matriz de varianza-covarianza dada por, 𝐕 = 𝚺 ⊗ 𝐈, y procedemos a
transformarla, multiplicándola por 𝚲−1 𝐅 ′ , el término de error transformado tiene una
matriz de varianza-covarianza igual a,

𝐸[𝚲−1 𝐅 ′ 𝐮𝐮′ 𝐅𝚲−1 ] = 𝚲−1 𝐅 ′ 𝐕𝐅𝚲−1 = 𝚲−1 𝐅 ′ (𝚺 ⊗ 𝐈)𝐅𝚲−1 = 𝚲−1 𝐅 ′ 𝐅𝚲2 𝐅 ′ 𝐅𝚲−1 = 𝐈.

De la relación anterior, se desprende que, si el término u, que es un vector de 𝑀𝑇 × 1,


tiene una distribución normal multivariante, entonces el vector 𝚲−1 𝐅 ′ 𝐮 , consiste de 𝑀𝑇
variables normales estandarizadas que son independientes entre sí. De aquí, es trivial
verificar que la forma cuadrática,

̂ ) (𝚺 −1 ⊗ 𝐈)(𝐘 − 𝐗𝛃
(𝐘 − 𝐗𝛃 ̂) ,

puede escribirse como,

(𝚲−1 𝐅 ′ 𝐮)′ [𝐈 − 𝐙(𝐙′ 𝐙)−1 𝐙′ ](𝚲−1 𝐅 ′ 𝐮) , (16.7.31)

donde, 𝐙 = 𝚲−1 𝐅 ′ 𝐗 . Se tiene que la relación (16.7.30), corresponde a una forma


cuadrática idempotente, en el vector 𝚲−1 𝐅 ′ 𝐮 , de rango, 𝑀𝑇 − ∑𝑀 𝑖=1 𝐾𝑖 . Vale decir, es
igual al orden de la matriz identidad menos el número de columnas de la matriz Z. Por
lo tanto, su distribución bajo la condición de normalidad es,

58
Se puede mostrar fácilmente que, si 𝐀, 𝐁 son matrices de 𝑚 × 𝑚 y de 𝑛 × 𝑛, respectivamente, con
valores propios, 𝜆1 , … , 𝜆𝑚 y 𝜂1 , … , 𝜂𝑛 , y, con vectores propios, respectivamente, 𝐱1 , … , 𝐱 𝑚 y 𝐲1 , … , 𝐲𝑛 ,
entonces se cumple que, (𝐀 ⊗ 𝐁)(𝐱 𝑖 ⊗ 𝐲𝑗 ) = 𝜆𝑖 𝜂𝑗 (𝐱 𝑖 ⊗ 𝐲𝑗 ). Atendiendo al resultado anterior, como
todas las raíces de la matriz identidad son iguales a uno, el producto de Kronecker tiene raíces múltiples,
de tal manera que, la matriz F de los vectores propios en la descomposición (16.7.30) no es única. Sin
embargo, esto no entraña ninguna dificultad pues, cualquier matriz ortogonal de vectores propios
puede ser usada para estos propósitos.
𝜒 2 (𝑀𝑇 − ∑𝑀
𝑖=1 𝐾𝑖 ) .

En forma enteramente análoga, se puede mostrar que la forma cuadrática,

̂ )′ [𝐑{𝐗 ′ (𝚺 −1 ⊗ 𝐈)𝐗}−1 𝐑′]−1 (𝐫 − 𝐑𝛃


(𝐫 − 𝐑𝛃 ̂) ,

puede escribirse como,

(𝚲−1 𝐅 ′ 𝐮)′ 𝐙(𝐙 ′ 𝐙)−1 𝐑′ [𝐑(𝐙′ 𝐙)−1 𝐑′ ]−1 𝐑(𝐙′ 𝐙)−1 𝐙′ (𝚲−1𝐅 ′ 𝐮) , (16.7.32)

si la nula, 𝐫 = 𝐑𝛃 se satisface. También puede mostrarse que la forma cuadrática


(16.7.31) es idempotente de rango 𝑞 en el vector 𝚲−1 𝐅 ′ 𝐮. Se puede comprobar la
independencia de ambas formas cuadráticas, computando sencillamente el producto de
ambas matrices, que resulta ser igual a la matriz nula.

16.7.5.3 Nuevo enfoque de restricciones lineales en el modelo SUR

A lo largo de este capítulo y del anterior, hemos presentado diferentes tipos de sistemas
de ecuaciones de regresiones que son frecuentes en econometría. Muchas veces la
notación difiere para estos diferentes sistemas. Habrá problemas económicos para los
cuales será conveniente utilizar un determinado formato para escribir la dinámica del
sistema, en cambio, para otros problemas, el formato adecuado será distinto. En esta
sección, trataremos de mostrar tres formatos diferentes, y cómo se puede pasar de un
esquema a otro, y veremos que uno de ellos se presta, de una forma muy sencilla, para
tratar el tema de la estimación de un sistema sujeto a restricciones lineales.

(a) La primera representación para nuestro modelo multivariante será,

𝐘𝑡 = 𝐀𝐗 𝑡 + 𝐮𝑡 , (16.7.33)
donde, 𝑡 = 1, … , 𝑇. En este esquema, 𝐘𝑡 es un vector de n variables endógenas,
𝐘𝑡′ = (𝑌1𝑡 , 𝑌2𝑡 , … , 𝑌𝑛𝑡 ), 𝐗 𝑡 es un vector de m variables exógenas determinísticas,
𝐗 ′𝑡 = (𝑋1𝑡 , 𝑋2𝑡 , … , 𝑋𝑚𝑡 ), A es una matriz de 𝑛 × 𝑚 consistente de parámetros
desconocidos que se desean estimar, y 𝐮′𝑡 = (𝑢1𝑡 , 𝑢2𝑡 , … , 𝑢𝑛𝑡 ), es el vector
correspondiente al término de error, que satisface, 𝐸(𝐮𝑡 ) = 𝟎 y
𝐸(𝐮𝑡 𝐮′𝑠 ) = 𝛀𝑛×𝑛 , si 𝑡 = 𝑠 , y 0 en caso contrario59.
(b) Muchas veces en el sistema de ecuaciones aparecen restricciones de tipo lineal
entre los parámetros. Para estos efectos, ya vimos que la modalidad SUR
permite incorporar los mismos:

𝐘𝑚 = 𝐗 𝑚 𝛃𝑚 + 𝐮𝑚 . 𝑚 = 1, … , 𝑀 (16.7.34)

En este formato, 𝐘𝑚 es un vector de T observaciones en la m-ésima variable


endógena, 𝐗 𝑚 es una matriz de 𝑇 × 𝐾𝑚 observaciones sobre 𝐾𝑚 variables
exógenas, 𝛃𝑚 es un vector con 𝐾𝑚 parámetros desconocidos, y 𝐮𝑚 es un vector

59
Este formato es el que presentan los modelos denominados VAR, como así también la forma reducida
de un sistema de ecuaciones simultáneas clásico.
de 𝑇 × 1 correspondiente al término de error en la m-ésima ecuación del
sistema. La forma (16.7.34), permite incorporar trivialmente restricciones que
atañen a los elementos de la matriz A, que aparecen producto de la exclusión de
ciertas variables exógenas en alguna ecuación. Sin embargo, esta forma no es la
más conveniente para introducir restricciones que involucran restricciones entre
diferentes ecuaciones del sistema, a menos que se haga uso de la relación
(16.7.29) que es un tanto complicada de aplicar.
(c) Finalmente, existe una modalidad que es muy conveniente para introducir
explícitamente restricciones. Nos referimos a,

𝐘𝑡 = 𝐗 ∗𝑡 𝛅 + 𝐮𝑡 , (16.7.35)

donde, 𝐘𝑡 y 𝐮𝑡 se definen igual que en (16.7.33), 𝐗 ∗𝑡 es una matriz de variables


exógenas observadas en el tiempo t, que de alguna manera incorpora las restricciones, y
𝛅 es un vector de parámetros desconocidos. Las mismas variables exógenas pueden
aparecer en diferentes posiciones de 𝐗 ∗𝑡 , pudiendo ser algunos elementos de esta matriz
iguales a cero. El hecho que los mismos elementos de 𝛅 pueden aparecer en diferentes
ecuaciones, permite, justamente, incorporar de manera expedita restricciones lineales
entre ecuaciones.

Para ilustrar estas tres representaciones, consideraremos el siguiente sistema de dos


ecuaciones:

𝑌1𝑡 𝑎11 𝑎12 𝑋1𝑡 𝑢1𝑡


[ ] = [𝑎 𝑎22 ] [𝑋2𝑡 ] + [𝑢2𝑡 ] . (16.7.36)
𝑌2𝑡 21

Este sistema está escrito en la forma (16.7.33). Para escribir el mismo sistema en la
forma (16.7.34), debemos definir las siguientes variables:

𝑌11 𝑌21 𝑎11 𝑎21


𝐘1 = [ ⋮ ] , 𝐘2 = [ ⋮ ] , 𝛃1 = [𝑎 ] , 𝛃2 = [𝑎 ]
12 22
𝑌1𝑇 𝑌2𝑇

𝑋11 𝑋21 𝑋11 𝑋21 𝑢11 𝑢21


𝐗1 = [ ⋮ ⋮ ] , 𝐗2 = [ ⋮ ⋮ ] , 𝐮1 = [ ] , 𝐮2 = [ ⋮ ] .

𝑋1𝑇 𝑋2𝑇 𝑋1𝑇 𝑋2𝑇 𝑢1𝑇 𝑢2𝑇

Ahora bien, para escribir (16.7.36) en la forma (16.7.35), tenemos que definir,

𝑋1𝑡 𝑋2𝑡 0 0
𝐗 ∗𝑡 = [ ] , 𝛅′ = [𝑎11 𝑎12 𝑎21 𝑎22 ] .
0 0 𝑋1𝑡 𝑋2𝑡

Ahora bien, como mencionáramos anteriormente, la representación (16.7.35) se presta


admirablemente para la estimación de sistema del tipo (16.7.33). Para ilustrar esto,
consideremos el siguiente ejemplo:

𝑌1𝑡 = 𝛼𝑋1𝑡 + 𝛽𝑋2𝑡 + 𝑢1𝑡 ,

𝑌2𝑡 = 𝛽𝑋1𝑡 + 𝛾𝑋2𝑡 + 𝑢2𝑡 .


Aquí la restricción es, 𝑎12 = 𝑎21 = 𝛽 ,con lo que la matriz A y 𝐗 ∗𝑡 , son iguales a,

α β 𝑋 𝑋2𝑡 0
𝐀=[ ] , 𝐗 ∗𝑡 = [ 1𝑡 ] ,
β γ 0 𝑋1𝑡 𝑋2𝑡

respectivamente, y 𝛅′ = [𝛼 𝛽 𝛾] , 𝐘𝑡′ = [𝑌1𝑡 𝑌2𝑡 ] , y 𝐮′𝑡 = [𝑢1𝑡 𝑢2𝑡 ] .

Sin embargo, para estimar (16.7.35) sujeto a la restricción anterior, habrá que tomar en
cuenta la matriz de varianzas-covarianzas, 𝛀 del término de error u, a pesar que las
variables explicativas de ambas ecuaciones son las mismas, y esto debido que existe una
restricción entre los coeficientes. Por lo tanto, no se puede estimar dicho sistema por
MCO, sino que se debe utilizar MCG. Matricialmente, nuestro sistema, en la
representación (16.7.35) queda como,
𝑎11
𝑌1𝑡 𝑋 𝑋2𝑡 0 0 𝑎 𝑢1𝑡
[ ] = [ 1𝑡 ] [𝑎12 ] + [𝑢 ] .
𝑌2𝑡 0 0 𝑋1𝑡 𝑋2𝑡 21 2𝑡
𝑎22

Por ende, para 𝑡 = 1,2, … , 𝑇 , tenemos el sistema escrito como,

𝐘𝑡 = 𝐗 ∗𝑡 𝛅 + 𝐮𝑡 .

Si ahora lo queremos escribir para el total de las T observaciones, tenemos,

𝐘 = 𝐗∗𝛅 + 𝐮 ,

con:

𝐘 ′ = [𝐘1′ ⋯ 𝐘𝑇′ ] , 𝐮′ = [𝐮1′ ⋯ 𝐮′𝑇 ] ,

𝐗1∗

𝐗 =[ ⋮ ].
𝐗 ∗𝑇

Cabe hacer notar que, en este contexto, el vector Y es de dimensión 2𝑇 × 1, y 𝐗 ∗ de


dimensión 2𝑇 × 4.

Ahora bien, la matriz de varianzas-covarianzas de u es,

𝛀 ⋯ 𝟎
𝐕 = 𝐸(𝐮𝐮′ ) = [ ⋮ ⋱ ⋮ ] = 𝐈𝑇 ⊗ 𝛀 .
𝟎 ⋯ 𝛀
Si ahora usamos el estimador de Aitken (MCG), tenemos,

̂ = [𝐗 ∗′ (𝐈𝑇 ⊗ 𝛀−1 )𝐗 ∗ ]−1 [𝐗 ∗′ (𝐈𝑇 ⊗ 𝛀−1 )𝐘] ,


𝛅

que también es equivalente a,

̂ = [∑𝑇𝑡=1 𝐗 ∗′
𝛅 −1 ∗ −1 ∑𝑇
𝑡 𝛀 𝐗𝑡 ]
∗′ −1
𝑡=1 𝐗 𝑡 𝛀 𝐘𝑡 .
Para hacer operativa esta relación, habrá que estimar la matriz 𝛀, y una de las formas
posibles es a través de la especificación de Zellner. Más adelante, en este mismo
acápite, se presentará otra metodología debida a Malinvaud.

Ahora bien, para estimar la relación (16.7.33),

𝐘𝑡 = 𝐀𝐗 𝑡 + 𝐮𝑡 ,

consideraremos primero la ecuación i-ésima de dicho sistema,

𝑌𝑖𝑡 = 𝑎𝑖′ 𝐗 𝑡 + 𝑢𝑖𝑡 = 𝐗 ′𝑡 𝑎𝑖 + 𝑢𝑖𝑡 , (16.7.37)

donde 𝑎𝑖′ es la fila i-ésima de la matriz A. Si escribimos la relación (16.7.37) para cada
una de las 𝑡 = 1, … , 𝑇 observaciones, tendremos el sistema equivalente,

𝐘𝑖 = 𝐗𝑎𝑖 + 𝐮𝑖 , (16.7.38)

𝑌𝑖1 𝑢𝑖1 𝐗1′


con: 𝐘𝑖 = [ ⋮ ] ; 𝐮𝑖 = [ ⋮ ] ; 𝐗=[ ⋮ ].
𝑌𝑖𝑇 𝑢𝑖𝑇 𝐗 ′𝑇

Si ahora estimamos (16.7.38) con MCO, obtenemos,

𝑎̂𝑖 = (𝐗′𝐗)−1 𝐗 ′ 𝐘𝑖 , 𝑖 = 1,2, … , 𝑛 .

Ahora bien, tenemos que,

𝑎1′
𝐀=[ ⋮ ] ; 𝐀′ = [𝑎1 ⋯ 𝑎𝑛 ] ,
𝑎𝑛′

por lo tanto, obtenemos la relación,

̂′ = (𝐗′𝐗)−1 𝐗 ′ 𝐘 ,
𝐀 (16.7.39)

donde, 𝐘 = [𝐘1 ⋯ 𝐘𝑛 ] es una matriz de 𝑇 × 𝑛 60. Una forma equivalente de escribir


la matriz Y es, 𝐘 ′ = [𝐘1 ⋯ 𝐘𝑇 ] , con, 𝐘𝑡′ = [𝑌1𝑡 ⋯ 𝑌𝑛𝑡 ] .Si transponemos
(16.7.39), obtenemos,

̂ = 𝐘 ′ 𝐗(𝐗′𝐗)−1 = (1/𝑇)(𝐘 ′ 𝐗)[(𝐗 ′ 𝐗)/𝑇]−1 .


𝐀

Sin embargo,

𝐗1′

(1/T) 𝐗 𝐗 = (1/𝑇 )[𝐗1 ⋯ 𝐗 𝑇 ] [ ⋮ ] = (1/T) ∑𝑇𝑡=1 𝐗 𝑡 𝐗 ′𝑡 = 𝐌𝐗𝐗 ,
𝐗 ′𝑇

60
Es importante que el lector no confunda esta notación de la matriz 𝐘 que es de dimensión 𝑇 × 𝑛, con
el vector 𝐘 anterior que era de dimensión 2𝑇 × 1.
𝐗1′

(1/T) 𝐘 𝐗 = (1/T)[𝐘1 ⋯ 𝐘𝑇 ] [ ⋮ ] = (1/T) ∑𝑇𝑡=1 𝐘𝑡 𝐗 ′𝑡 = 𝐌𝐘𝐗 .
𝐗 ′𝑇

Con lo que,

̂ = 𝐌𝐘𝐗 𝐌𝐗𝐗 −1 ,
𝐀

que es equivalente a,

̂′ = 𝐌𝐗𝐗 −1 𝐌𝐗𝐘 = (𝐗′𝐗)−1 𝐗 ′ 𝐘 .


𝐀

Como no existen restricciones entre parámetros, se puede estimar (16.7.38) en forma


eficiente, ecuación por ecuación, usando MCO (como consecuencia del resultado válido
para el método de estimación SUR cuando, 𝐗1 = ⋯ = 𝐗 𝑀 ) , a pesar que, 𝐸(𝐮𝑡 𝐮′𝑡 ) = 𝛀.

Como mencionáramos anteriormente, otra forma alternativa de estimar la matriz 𝛀 es a


través del vector de residuos 𝐮 ̂ 𝑡 , cuya autoría es de Malinvaud (1966)61. En este caso,
se tiene que, se utilizan los residuos,

𝐮 ̂ 𝐗 𝑡 = (𝐀 − 𝐀
̂ 𝑡 = 𝐘𝑡 − 𝐀 ̂ )𝐗 𝑡 + 𝐮𝑡 ,

y la matriz,

̂ 𝐮𝐮 = (1/𝑇) ∑𝑇𝑡=1 𝐮
𝐌 ̂ 𝐗 𝑡 ) (𝐘𝑡 − 𝐀
̂ ′𝑡 = (1/𝑇) ∑𝑇𝑡=1(𝐘𝑡 − 𝐀
̂𝑡 𝐮 ̂ 𝐗 𝑡 )′

= (1/𝑇) ∑𝑇𝑡=1(𝐘𝑡 − 𝐌𝐘𝐗 𝐌𝐗𝐗 −1 𝐗 𝑡 ) (𝐘𝑡 − 𝐌𝐘𝐗 𝐌𝐗𝐗 −1 𝐗 𝑡 )′

= 𝐌𝐘𝐘 − 𝐌𝐘𝐗 𝐌𝐗𝐗 −1 𝐌𝐘𝐗


′ ̂ 𝐌𝐘𝐗
= 𝐌𝐘𝐘 − 𝐀 ′
.

̂ 𝐮𝐮 es un estimador insesgado de 𝛀 .
Se puede demostrar también que, [𝑇/(𝑇 − 𝑚)] 𝐌
Para ver esto, consideremos el residuo,

𝐮 ̂ )𝐗 𝑡 ,
̂ 𝑡 = 𝐮𝑡 + (𝐀 − 𝐀

donde se cumple,

̂ − 𝐀)𝐌𝐗𝐗 .
[1/𝑇] ∑𝑇𝑡=1 𝐮𝑡 𝐗 ′𝑡 = 𝐌𝐘𝐗 − 𝐀𝐌𝐗𝐗 = (𝐀

Por lo tanto,

̂ 𝐮𝐮 = [1/𝑇] ∑𝑇𝑡=1 𝐮𝑡 𝐮′𝑡 − (𝐀 − 𝐀


𝐌 ̂ )𝐌𝐗𝐗 (𝐀 − 𝐀
̂ )′ .

Debido a que, 𝐸(𝐮𝑡 𝐮′𝑡 ) = 𝛀, el primer término a la derecha de la igualdad tiene valor
esperado igual a 𝛀. Se puede fácilmente apreciar que, el elemento (𝑖, ℎ) correspondiente
al segundo término, es igual a,

̂ − 𝐀)𝑖𝑗 [𝐌𝐗𝐗 ]𝑗𝑘 (𝐀


∑𝑗,𝑘(𝐀 ̂ − 𝐀)′𝑘ℎ ,

61
Malinvaud, E. (1966). Statistical Methods of Econometrics, Rand McNally & Company, Chicago.
con lo que el valor esperado de éste es,

∑𝑗,𝑘[𝐌𝐗𝐗 ]𝑗𝑘 𝐸[(𝑎̂𝑖𝑗 − 𝑎𝑖𝑗 )(𝑎̂ℎ𝑘 − 𝑎ℎ𝑘 )] .

Pero como se tiene que, 𝐸(𝑎̂𝑖𝑗 ) = 𝑎𝑖𝑗 , para todo valor de (𝑖, 𝑗), la expresión anterior es
igual a,

∑𝑗,𝑘[𝐌𝐗𝐗 ]𝑗𝑘 𝐶𝑜𝑣[𝑎̂𝑖𝑗 , 𝑎̂ℎ𝑘 ] .

Malinvaud, demostró que, la covarianza de 𝑎̂𝑖𝑗 y 𝑎̂ℎ𝑘 , es igual a62,

−1 ]
𝐶𝑜𝑣[𝑎̂𝑖𝑗 , 𝑎̂ℎ𝑘 ] = (𝜔𝑖ℎ /𝑇)[𝐌𝐗𝐗 𝑗𝑘 ,

donde, el elemento 𝜔𝑖ℎ es el elemento (𝑖, ℎ) de 𝛀. Reemplazando este resultado,


obtenemos,
−1 ]
(𝜔𝑖ℎ /𝑇) ∑𝑗,𝑘[𝐌𝐗𝐗 ]𝑗𝑘 [𝐌𝐗𝐗 𝑗𝑘 = 𝜔𝑖ℎ 𝑇𝑟(𝐼𝑚 )/𝑇 = 𝑚 𝜔𝑖ℎ /𝑇 .

Por ende,

̂ 𝐮𝐮 ] = (𝑇 − 𝑚)𝛀/T ,
𝐸[𝐌

que es lo que se quería demostrar.

16.8.1 Tests para restricciones de sobreidentificación

Se ha discutido anteriormente acerca de la relevancia que pueden tener los diferentes


tipos de instrumentos, sin embargo, no se ha pesquisado en la cuestión de la
exogeneidad que pudiesen tener estos instrumentos. En el caso cuando una ecuación
está exactamente identificada, no se puede testear estadísticamente la exogeneidad de
estos instrumentos. La selección de instrumentos que sean exógenos requiere de una
experticia juiciosa acerca de la evidencia empírica del problema. Sin embargo, si la
ecuación estructural en cuestión (que supondremos corresponde a la primera ecuación),
está sobreidentificada, vale decir, el número de instrumentos L, es mayor que el número
de variablesque aparecen en el lado derecho de dicha ecuación(𝑔1 − 1 + 𝑘1 )63,
entonces es posible testear estas restricciones correspondientes a la sobreidentificación.
Anderson y Rubin (1950) presentaron un test de razón de verosimilitud (RV) para la
condición de sobreidentificación. Sin embargo, esta versión requiere computar el
estimador MVIL (máxima verosimilitud con información limitada) que es un tanto
elaborada64. Posteriormente, Davidson y MacKinnon (1993) y Hausman (1983)

62
Malinvaud, E. (1966). Statistical Methods of Econometrics, Rand McNally & Company, chicago.
63
La convención es que, 𝑔1 representa el número total de variables endógenas en la primera ecuación y
𝑘1 el número total de variables exógenas.
64
Anderson, T. W. y H. Rubin (1950). “TheAsymptoticProperties of Estimates of theParameters of a
Single Equation in a Complete System of StochasticEquations,” Annals of MathematicalStatistics, Vol. 21,
pág.: 570-582.
presentaron alternativas más sencillas para este mismo test65. Aquí se presentará una
versión simplificada debido a Baltagi; lo que se quiere testear es66:

𝐻0 ∶ 𝐲1 = 𝐙1 𝛅1 + 𝛆1 , versus 𝐻𝐴 ∶ 𝐲1 = 𝐙1 𝛅1 + 𝐖 ∗ 𝛄 + 𝛆1 , (16.8.1)

donde, 𝛆1 ~𝑖𝑖𝑑(𝟎, 𝜎11 𝐈𝑇 ). Sea W la matriz de instrumentos que es de rango completo L;


por otra parte, sea, 𝐖 ∗ ⊂ 𝐖 y de dimensión (𝐿 − 𝑔1 + 1 − 𝑘1 ) y además linealmente
independiente de 𝐙̂1 = 𝐏𝐖 𝐙1. En este caso, la matriz [𝐙̂1 𝐖 ∗ ] tiene rango completo L,
y por lo tanto, abarca el mismo espacio que W. Un test para la sobreidentificación,
implica testear si acaso, 𝛄 = 𝟎. Dicho en otras palabras, la matriz 𝐖 ∗ , es incapaz de
explicar cualquier variación de 𝐲1 por sobre lo que es capaz de explicar la matriz 𝐙1 ,
usando los instrumentos que están contenidos en W.

Si la matriz 𝐖 ∗ está correlacionada con 𝛆1 o si la ecuación estructural (16.4.21) está


mal especificada, como podría darse el caso si 𝐙1 no contiene algunas de las variables
en 𝐖 ∗ , entonces tendremos que, 𝛄 ≠ 𝟎. Por lo tanto, al testear 𝐻0 , se está testeando
conjuntamente que, W es una matriz válida de instrumentos, y por otro lado, que la
ecuación (16.4.21) está correctamente especificada. El test, tal cual lo plantean
Davidson y MacKinnon (1993), está dado por el test de Wald67,
(𝑆𝐶𝐸𝑅 ∗ −𝑆𝐶𝐸𝑆𝑅 ∗ )/(𝐿−𝑔1 +1−𝑘1 )
𝐹= . (16.8.2)
𝑆𝐶𝐸𝑆𝑅/(𝑇−𝐿)

Este estadígrafo se distribuye asintóticamente como 𝐹(𝐿 − 𝑔1 + 1 − 𝑘1 ; 𝑇 − 𝐿) bajo la


hipótesis nula 𝐻0 . El modus operandi para obtener el estadígrafo en cuestión es:

(i) Usando los instrumentos en W, se regresionan las variables en 𝐙1 sobre W,


para obtener 𝐙̂1 .
(ii) Luego, se obtiene el estimador MC2E restringido 𝛅 ̃1,𝑀𝐶2𝐸 , regresionando la
variable 𝐲1 sobre 𝐙̂1 .
(iii) La suma de los cuadrados de los errores restringidos, (𝑆𝐶𝐸𝑅 ∗ ), de la
̃1,𝑀𝐶2𝐸 )′ (𝐲1 − 𝐙̂1 𝛅
segunda etapa es igual a : (𝐲1 − 𝐙̂1 𝛅 ̃1,𝑀𝐶2𝐸 ) .
(iv) Luego, se regresiona 𝐲1 sobre 𝐙̂1 y 𝐖 ∗ , para así obtener los estimadores
MC2E sin restricciones 𝛅̂1,𝑀𝐶2𝐸 y 𝛄̂𝑀𝐶2𝐸 .
(v) La suma de los cuadrados de los errores no restringidos, de la segunda etapa,
̂1,𝑀𝐶2𝐸 − 𝐖 ∗ 𝛄̂𝑀𝐶2𝐸 )′ (𝐲1 − 𝐙̂1 𝛅
𝑆𝐶𝐸𝑆𝑅 ∗ = (𝐲1 − 𝐙̂1 𝛅 ̂1,𝑀𝐶2𝐸 − 𝐖 ∗ 𝛄̂𝑀𝐶2𝐸 ) .
(vi) Finalmente, 𝑆𝐶𝐸𝑆𝑅, corresponde a la suma de los cuadrados de los errores,
de la regresión MC2E sin restricciones:
̂1,𝑀𝐶2𝐸 − 𝐖 ∗ 𝛄̂𝑀𝐶2𝐸 )′ (𝐲1 − 𝐙1 𝛅
(𝐲1 − 𝐙1 𝛅 ̂1,𝑀𝐶2𝐸 − 𝐖 ∗ 𝛄̂𝑀𝐶2𝐸 ) .

65
Davidson, R. y J. G. MacKinnon (1993). Estimation and Inference in Econometrics, Oxford
UniversityPress: Oxford, MA.
Hausman, J. A. (1983). “Specification and Estimation of SimultaneousEquationModels,” Capítulo 7 en
Griliches, Z. e Intriligator, M. D. (Eds.) Handbook of Econometrics, Vol. I, North Holland: Amsterdam.
66
Baltagi, B. H. (2008). Econometrics, Springer, 4ta. Ed.: Berlin-Heidelberg.
67
Aquí, SCESR representa la suma de cuadrados de los errores en la regresión sin restricciones, mientras
que, SCER, representa la suma de cuadrados de errores sujetos a las restricciones.
Esta expresión difiere de 𝑆𝐶𝐸𝑆𝑅 ∗ en que se usa 𝐙1 en vez de 𝐙̂1 para obtener
los residuos.

Este test no requiere la construcción de 𝐖 ∗ para su implementación, ya que bajo la


hipótesis alternativa 𝐻𝐴 , el modelo se encuentra exactamente identificado, con tantos
regresores como instrumentos. Por lo tanto,

𝑆𝐶𝐸𝑆𝑅 ∗ = 𝐲1′ 𝐌𝐖 𝐲1 = 𝐲1′ 𝐲1 − 𝐲1′ 𝐏𝐖 𝐲1 .

También es fácil mostrar que,

𝑆𝐶𝐸𝑅 ∗ = 𝐲1′ 𝐌𝐙̂1 𝐲1 = 𝐲1′ 𝐲1 − 𝐲1′ 𝐏𝐙̂1 𝐲1 ,

en que, 𝐙̂1 = 𝐏𝐖 𝐙1 . Por ende, se tiene que,

𝑆𝐶𝐸𝑅 ∗ − 𝑆𝐶𝐸𝑆𝑅 ∗ = 𝐲1′ 𝐏𝐖 𝐲1 − 𝐲1′ 𝐏𝐙̂1 𝐲1 . (16.8.3)

Por lo tanto, el test para la sobreidentificación puede basarse en 𝑆𝐶𝐸𝑅 ∗ − 𝑆𝐶𝐸𝑆𝑅 ∗ ,


dividido por un estimador consistente de 𝜎11 , que podría ser,

̃1,𝑀𝐶2𝐸 ) (𝐲1 − 𝐙1 𝛅
𝜎̃11 = (𝐲1 − 𝐙1 𝛅 ̃1,𝑀𝐶2𝐸 )/𝑇 . (16.8.4)
2
Se puede mostrar que el estadígrafo, (𝑆𝐶𝐸𝑅 ∗ − 𝑆𝐶𝐸𝑆𝑅 ∗ )/𝜎̃11, es igual a 𝑇𝑅𝑁𝐶 , donde
2 2
𝑅𝑁𝐶 corresponde a la medida de bondad de ajuste 𝑅 no-centrada, en la regresión de los
residuos MC2E, (𝐲1 − 𝐙1 𝛅̂1,𝑀𝐶2𝐸 ), sobre la matriz de todas las variables
predeterminadas del sistema W68. Este estadígrafo, se distribuye asintóticamente como
2
𝜒𝐿−𝑔 1 +1−𝑘1
.

16.8.2 Test de Hausman

En el modelo estándar de regresión múltiple, 𝐘 = 𝐗𝛃 + 𝛆, uno de los supuestos críticos


dice que el conjunto de regresores X, no debe estar correlacionado con el término de
error 𝛆. De existir una correlación no nula, existiría, como ya hemos visto, un sesgo de
simultaneidad, haciendo que los estimadores MCO sean inconsistentes. Hausman
(1978), propuso un test que testea, 𝐻0 ∶ 𝐸(𝛆|𝐗) = 𝟎 , versus, 𝐻𝐴 ∶ 𝐸(𝛆|𝐗) ≠ 𝟎 69. Para
llevar a cabo el test, se precisan dos estimadores del vector de parámetros 𝛃 . El primer
estimador, 𝛃̂ 0 , debe ser eficiente y consistente bajo 𝐻0 , sin embargo, inconsistente bajo
la hipótesis alternativa, 𝐻𝐴 . El segundo estimador, 𝛃 ̂1 , debe ser consistente tanto bajo 𝐻0
como bajo 𝐻𝐴 . El test de Hausman, está basado en la diferencia entre ambos
estimadores, 𝐪 ̂=𝛃 ̂1 − 𝛃̂ 0 . Bajo 𝐻0 , se cumple que, 𝑝𝑙𝑖𝑚 𝐪̂ = 𝟎 , mientras que bajo 𝐻𝐴 ,
se tiene que, 𝑝𝑙𝑖𝑚 𝐪 ̂ ≠ 𝟎. En su trabajo, Hausman muestra que,

̂1 ) − 𝑉𝑎𝑟(𝛃
̂) = 𝑉𝑎𝑟(𝛃
𝑉𝑎𝑟(𝐪 ̂0) ,

68 2
En el 𝑅𝑁𝐶 , la SCT (suma de cuadrados totales) de la variable dependiente 𝑌𝑖 , no se expresa como
desviación con respecto de la media muestral 𝑌̅. Es decir, se considera como si 𝑌̅ = 0.
69
Hausman, J. A. (1978). “Specification Tests in Econometrics,” Econometrica, Vol. 46, pág.: 1251-1272.
con lo que finalmente el test queda como,

̂′ [𝑉𝑎𝑟(𝐪
𝑚=𝐪 ̂)]−1 𝐪
̂, (16.8.5)

que se distribuye asintóticamente, bajo 𝐻0 , como 𝜒𝐾2 , donde K es la dimensión del


vector 𝛃 .

Para mostrar que 𝑉𝑎𝑟(𝐪 ̂) es igual a la diferencia de las varianzas de los dos
estimadores, hay que demostrar primero que, 𝐶𝑜𝑣(𝛃 ̂0 , 𝐪
̂) = 0 . La demostración es vía
un procedimiento de demostración por el absurdo. Para ver esto, consideremos otro
estimador para 𝛃 definido como, 𝛃 ̃=𝛃 ̂ 0 + 𝜆𝐪̂ , donde 𝜆 es un escalar constante
̃
cualquiera. Bajo 𝐻0 se cumple que, 𝑝𝑙𝑖𝑚 𝛃 = 𝛃 para cualquier valor de 𝜆 , y además70,

̃) = 𝑉𝑎𝑟(𝛃
𝑉𝑎𝑟(𝛃 ̂ 0 ) + 𝜆2 𝑉𝑎𝑟(𝐪 ̂0, 𝐪
̂) + 2𝜆𝐶𝑜𝑣(𝛃 ̂) .

Como se sabe que bajo 𝐻0 , 𝛃̂ 0 , es eficiente, se cumple que, 𝑉𝑎𝑟(𝛃̃) ≥ 𝑉𝑎𝑟(𝛃 ̂ 0 ), lo que
a su vez, implica que, 𝜆2 𝑉𝑎𝑟(𝐪̂) + 2𝜆𝐶𝑜𝑣(𝛃 ̂0, 𝐪
̂) ≥ 0 para todo valor de 𝜆. Si ocurre
que, 𝐶𝑜𝑣(𝛃 ̂0, 𝐪
̂) > 0, entonces podemos elegir a 𝜆 igual a, 𝜆 = −𝐶𝑜𝑣(𝛃 ̂0, 𝐪
̂)/𝑉𝑎𝑟(𝐪 ̂),
lo que hace que se viole la desigualdad anterior. En forma similar, si ocurriese que,
𝐶𝑜𝑣(𝛃̂0, 𝐪
̂) < 0, escogemos nuevamente a 𝜆 como, 𝜆 = −𝐶𝑜𝑣(𝛃 ̂0, 𝐪̂)/𝑉𝑎𝑟(𝐪 ̂), y
nuevamente se viola desigualdad anterior. Por lo tanto, el argumento anterior nos lleva a
concluir que, bajo 𝐻0 , necesariamente se debe cumplir que, 𝐶𝑜𝑣(𝛃 ̂0, 𝐪̂) = 0 para que la
desigualdad se satisfaga para cualquier valor de 𝜆. Como 𝐪̂=𝛃 ̂1 − 𝛃̂ 0 se puede
̂1 = 𝐪
reescribir como, 𝛃 ̂+𝛃 ̂ 0 , entonces tendremos que,

̂1 ) = 𝑉𝑎𝑟(𝐪
𝑉𝑎𝑟(𝛃 ̂ 0 ) + 2𝐶𝑜𝑣(𝐪
̂) + 𝑉𝑎𝑟(𝛃 ̂0) .
̂, 𝛃

Considerando el resultado anterior que, 𝐶𝑜𝑣(𝐪 ̂ 0 ) = 0, tenemos el resultado


̂, 𝛃
̂) = 𝑉𝑎𝑟(𝛃
requerido, 𝑉𝑎𝑟(𝐪 ̂1 ) − 𝑉𝑎𝑟(𝛃 ̂0) .

Si queremos realizar el test de Hausman, en su forma matricial, para una ecuación


estructural dentro de un sistema de ecuaciones, como por ejemplo,

𝒚 = 𝐘1 𝛃 + 𝐗1 𝛄 + 𝛆 = 𝐙1 𝜹 + 𝛆 ,

̂ está
y usamos, para estos efectos, una matriz de instrumentos W, entonces el vector 𝐪
dado por,

̂𝑉𝐼 − 𝛅
̂=𝛅
𝐪 ̂𝑀𝐶𝑂 = (𝐙1′ 𝐏𝐖 𝐙1 )−1 [𝐙1′ 𝐏𝐖 𝐲 − (𝐙1′ 𝐏𝐖 𝐙1 )(𝐙1′ 𝐙1 )−𝟏 𝐙1′ 𝐲], (16.8.6)

= (𝐙1′ 𝐏𝐖 𝐙1 )−1 [𝐙1′ 𝐏𝐖 𝐌𝐙1 𝐲] .

̂ = (𝐙1′ 𝐏𝐖 𝐙1 )−1 𝐙1′ 𝐏𝐖𝐌𝐙1 𝛆 . El test para,


Bajo la hipótesis nula 𝐻0 , se cumple que, 𝐪
̂ = 𝟎, puede basarse en un test que testee si 𝐙1′ 𝐏𝐖 𝐌𝐙1 𝛆 tiene media nula
𝐪

70
En lo que sigue, supondremos, con el propósito de simplificar el argumento, que la dimensionalidad
del vector 𝛃 es igual a 1.
asintóticamente. Este último vector es de dimensión (𝑔1 − 1 + 𝑘1 ). Sin embargo, no
todos sus elementos tienen que ser necesariamente variables aleatorias, ya que 𝐌𝐙1
puede aniquilar algunas de las columnas correspondientes a los regresores de la segunda
etapa, 𝐙̂1 = 𝐏𝐖 𝐙1 . De hecho, todas las variables predeterminadas 𝑋 ′ 𝑠 que son parte de
W, i.e. 𝐗1 , serán aniquiladas en este proceso por 𝐌𝐙1 . Solamente, las 𝑔1 − 1 variables
aleatorias que son linealmente independientes, 𝐘 ̂1 = 𝐏𝐖 𝐘1, no serán aniquiladas por
𝐌𝐙1 .

También podría gustarte