Está en la página 1de 44

Solucionario de problemas de Econometría I

Ec. Gonzalo Villa Cox M.Sc.


*
Sr. Freddy García Albán

Mayo 2014

1. Para estimar el modelo yi = βxi + ui se propone el estimador:

n
P
xi yi
i=1
β̂ = n
σ2
x2i
P
β2 +
i=1

a ) Pruebe que el estimador esta sesgado hacia 0.


b ) Pruebe que:
σ2
E(β̂ − β)2 = n
σ2
x2i
P
β2 +
i=1

c ) Pruebe que su varianza es inferior a la del estimador MCO.


Respuesta:

a ) El sesgo del estimador β̂ se dene como: b(β̂, β) = E(β̂) − β . Por lo tanto el problema consiste
en demostrar que E(β̂) está entre 0 y β , o lo que es lo mismo, que b(β̂, β) sea de signo contrario

Se empieza calculando
n
P
xi (βxi + ui ) !
i=1
E(β̂) = E n
σ2
x2i
P
β2 +
i=1
n
(βx2i + xi ui ) !
P
i=1
E(β̂) = E n
σ2
x2i
P
β2 +
i=1
n n
x2i +
P P
β xi ui !
i=1 i=1
E(β̂) = E n
σ2
x2i
P
β2 +
i=1
n n
1 X X
E(β̂) = n E[ βx2i + xi ui ]
σ2
x2i
P
β2 + i=1 i=1
i=1
n n
1 X X
E(β̂) = n [β x2i + E[ xi ui ]]
σ2
x2i
P
β2 + i=1 i=1
i=1
| {z }
0
* Cualquier duda o comentario escribir a gvilla@espol.edu.ec.

1
Esto último debido a que E[xi ui ] = 0.
Entonces n
x2i
P
β
i=1
E(β̂) = n
σ2
x2i
P
β2 +
i=1

Hasta aquí ya es posible observar que el valor esperado del estimador está entre 0 y β , sin
embargo se calculará el sesgo:
n n
x2i x2i
P P
β " #
i=1 i=1
b(β̂, β) = n −β =β n −1
σ2 σ2
x2i x2i
P P
β2 + β2 +
i=1 i=1

Lo que está dentro del paréntesis es negativo, por lo tanto el sesgo es de signo contrario a β ,
por lo que está sesgado hacia 0.
b)
n
P
" xi yi #2
2 i=1
E(β̂ − β) = E n −β
σ2
x2i
P
β2 +
i=1

n n
σ2
" P xi yi − x2i #2
P
β −β
i=1 i=1
E(β̂ − β)2 = E n
σ2
x2i
P
β2 +
i=1

n n n
" β P x2 + P xi ui − σ2
x2i #2
P
i β −β
2 i=1 i=1 i=1
E(β̂ − β) = E n
σ2
x2i
P
β2 +
i=1
 n
2
σ2
P
E xi ui − β
i=1
E(β̂ − β)2 =  2
n
σ2
x2i
P
β2 +
i=1
 n n

2 P 2
E [ xi ui ]2 − 2 σβ xi ui + [ σβ ]2
P
i=1 i=1
E(β̂ − β)2 =  2
n
σ2
x2i
P
β2 +
i=1

Obteniendo el valor esperado de cada término del numerador y teniendo en cuenta que E[xi ui ] =
0, E[ui uj ] = 0 la ecuación anterior se reduce a:
n 2
n
P 
σ2
σ2 x2i + [ σβ ]2 σ2 x2i +
P
β2
E(β̂ − β)2 =  i=1 2 = 
i=1
2
n n
σ 2 P 2 σ 2 P 2
β2 + xi β2 + xi
i=1 i=1

σ2
E(β̂ − β)2 = n
σ2
x2i
P
β2 +
i=1

2
c)
V ar(β̂) = E[β̂ − E(β̂)]2

n n n
" β P x2 + P xi ui β
P
x2i #2
i
i=1 i=1 i=1
V ar(β̂) = E n − n
σ2 σ2
x2i x2i
P P
β2 + β2 +
i=1 i=1

n n n
" β P x2 + P xi ui − β P x2 #2
i i
i=1 i=1 i=1
V ar(β̂) = E n
σ2
x2i
P
β2 +
i=1

n n
xi ui ]2
P P
" xi ui #2 E[
i=1 i=1
V ar(β̂) = E n =h n i2
σ2 σ2
x2i x2i
P P
β2 + β2 +
i=1 i=1

n
σ2 x2i
P
i=1
V ar(β̂) = h n i2
σ2
x2i
P
β2 +
i=1

Para probar que la varianza del estimador MCO es mayor basta con probar que la diferencia
entre la varianza del estimador MCO y la varianza del estimador propuesto es positiva.
n
σ2 x2i
P
2
σ i=1
V ar(β̂M CO ) − V ar(β̂) = P
n −h n i2
σ2
x2i x2i
P
β2 +
i=1 i=1
h n i2 n
hP i2
σ2
σ2 x2i − σ2 x2i
P
β2 +
i=1 i=1
V ar(β̂M CO ) − V ar(β̂) = h n n
i2 P
σ2
x2i x2i
P
β2 +
i=1 i=1
" #
h n i2 n
hP i2
2 σ2
x2i x2i
P
σ β2 + −
i=1 i=1
V ar(β̂M CO ) − V ar(β̂) = h n n
i2 P
σ2
x2i x2i
P
β2 +
i=1 i=1
" #
h i2 n n
hP i2 n
hP i2
σ2 2
2
2 βσ2 x2i x2i x2i
P
σ β2 + + −
i=1 i=1 i=1
V ar(β̂M CO ) − V ar(β̂) = h n n
i2 P
σ2
x2i x2i
P
β2 +
i=1 i=1
" #
h 2
i2 2
n
σ
σ2 + 2 βσ2 x2i
P
β2
i=1
V ar(β̂M CO ) − V ar(β̂) = h n n
i2 P >0
σ2
x2i x2i
P
β2 +
i=1 i=1

Como se puede apreciar en la expresión anterior, el numerador y denominador serán positivos,


por lo tanto el ratio es positivo, con lo que queda demostrado que la varianza del estimador
propuesto es menor a la varianza del estimador MCO.
2. Con objeto de estimar el modelo de regresión lineal simple Yt = α + βXt + ut se han
propuesto los siguientes estimadores de β :

3
P P
Y y
βˆ1 = Pt t βˆ4 = Pt t
t Xt t xt

βˆ2 = 1 Yt
βˆ5 = 1 yt
P P
T t Xt T i xt

P P
X Y x y
βˆ3 = Pt t 2 t βˆ6 = Pt t 2 t
t Xt t xt

donde letras minúsculas indican diferencias entre los valores representados por las
mayúsculas y sus respectivos promedios muestrales. Todas las sumas anteriores son
desde t = 1 hasta t = T , donde T es el tamaño muestral. Calcular la esperanza y la
varianza de cada estimador y sugerir cuál de ellos debería utilizarse.
Respuesta:
E(βˆ1 ):
hP Y i
t
E(βˆ1 ) = E P t
t tX
h P (α + βX + u ) i P
t ut
h Tα i
E(βˆ1 ) = E t P t t
=E P +β+ P
t Xt t Xt t Xt
P
tE(ut )
h P (α + βX + u ) i Tα
| {z }
E(βˆ1 ) = E t P t t
=P +β+ P 0
t Xt t Xt t Xt

V ar(βˆ1 ): P P
h Tα ut i t V ar(ut )
V ar(βˆ1 ) = V ar P + β + Pt = hP i2
t Xt t Xt X
t t

T σ2
V ar(βˆ1 ) = hP i2
t Xt

E(βˆ2 ):
1 hX Yt i 1 hX α ut i
E(βˆ2 ) = E = E ( +β+ )
T t
Xt T t
Xt Xt

1 h X 1 X ut i
E(βˆ2 ) = E α + Tβ +
T t
Xt t
Xt

E(ut )
| {z }
α X 1 1 X 0
E(βˆ2 ) = +β+
T t Xt T t Xt

V ar(βˆ2 ):
1 hX Y i
t
V ar(βˆ2 ) = 2 V ar
T t
Xt

1 h X 1 X ut i
V ar(βˆ2 ) = V ar α + T β +
T2 t
Xt t
Xt

1 X V ar(ut )
V ar(βˆ2 ) = 2
T t Xt2

σ2 X 1
V ar(βˆ2 ) =
T 2 t Xt2

4
E(βˆ3 ):
hP X Y i hα P X β t Xt2
P P
Xu i
E(βˆ3 ) = E t t t t t
P 2 = E P 2 + P 2 + Pt t 2 t
t Xt t Xt t Xt t Xt
P
t Xt E(ut )
P | {z }
α Xt
E(βˆ3 ) = P t 2 + β + P 20
X
t t t Xt

V ar(βˆ3 ):
hα P X β t Xt2
P P
ˆ t t Xt ut i
V ar(β3 ) = V ar P 2 + P 2 + Pt 2
t Xt t Xt t Xt

Xt2 V σ2
P
ar(ut )
V ar(βˆ3 ) = tP
2 2 = P 2
( t Xt ) t Xt

E(βˆ4 ): No se puede obtener los momentos debido a que es una indeterminación.


E(βˆ5 ):
1 hX yt i
E(βˆ5 ) = E
T t
xt

1 hX α + βXt + ut − α − β X̄ − ū i
E(βˆ5 ) = E
T t
xt

1 hX α + βXt + ut − α − β X̄ − ū i
E(βˆ5 ) = E
T t
xt

β (Xt − X̄) +ut − ū


| {z }
1 hX
xt
i
E(βˆ5 ) = E
T t
xt

E(ut − ū)
X ut − ū i | {z } i
1 h 1 h X 0
E(βˆ5 ) = E Tβ + = Tβ +
T t
xt T t
x t

E(βˆ5 ) = β

V ar(βˆ5 ):
1 h X ut − ū i
V ar(βˆ5 ) = 2 V ar T β +
T t
xt

1 hX h u − ū i XX 1 1 i
t
V ar(βˆ5 ) = (V ar ) + 2 Cov(ui − ū, u t − ū)
T2 t xt i t
xi xt | {z }
2
i<t − σT

1 hXh V ar(ut − ū) i 2σ 2 X X 1 1 i


= −
T2 t x2t T i t xi xt
i<t

1 hXh V ar(ut ) + V ar(ū) − 2Cov(ut , ū) i 2σ 2 X X 1 1 i


V ar(βˆ5 ) = 2 −
T t
x2t T i t xi xt
i<t

2 2
1 hXh σ 2 + σT − 2 σT i 2σ 2 X X 1 1 i
V ar(βˆ5 ) = −
T2 t x2t T i t xi xt
i<t

5
1 h 2 σ 2 Xh 1 i 2σ 2 X X 1 1 i
V ar(βˆ5 ) = (σ − ) −
T2 T t
x2t T i t xi xt
i<t

Los momentos de βˆ6 son conocidos, debido a que es el estimador de mínimos cuadrados ordinarios.
2
E(βˆ6 ) = β V ar(βˆ6 ) = Pσ 2
t xt

Una propiedad deseable de un estimador es que sea insesgado, así que se seleccionará entre los
estimadores insesgados. Si se comparan las varianzas de los dos estimadores insesgados βˆ6 y βˆ5 se
puede observar que la varianza de βˆ6 es menor que la de βˆ5 . Esto también se sabe gracias al teorema
de Gauss-Markov.
3. Considere los siguientes modelos:
yi = β1 + β2 xi + ui
yi∗ = α1 + α2 x∗i + ui
 
donde y ∗ y x∗ son variables estandarizadas. Demuestre que αˆ2 = βˆ2 SSxy , donde Sx y Sy
son las desviaciones estándar muestrales de x y y respectivamente.
Respuesta:
P
P ∗ ∗ (yi −ȳ)(xi −x̄)
y x Sy Sx
αˆ2 = P i∗ i2 = P
(xi −x̄)2
(xi ) 2
Sx
P
(yi − ȳ)(xi − x̄) Sx S 
x
αˆ2 = P 2
= βˆ2
(xi − x̄) Sy Sy

Este resultado muestra que a pesar de que los coecientes de pendiente son independientes de un
cambio en el origen, no lo son de un cambio de escala.
4. Sean β̂yx y β̂xy las pendientes de la regresión de y sobre x y de x sobre y , respectiva-
mente. Demuestre que:

β̂yx β̂xy = R2

donde R2 es el coeciente de determinación de la regresión de y sobre x, o el cuadrado


del coeciente de correlación muestral entre y y x.
Respuesta:
Se sabe que el R2 puede ser escrito como:

(ŷi − ȳ)2 (α̂ + β̂xi − ȳ)2


P P
2
R =P = P
(yi − ȳ)2 (yi − ȳ)2

(ȳ − β̂ x̄ + β̂xi − ȳ)2


P
2
R = P
(yi − ȳ)2

(β̂x − β̂ x̄)2 (β̂(x − x̄))2


P P
R2 = P i 2
= P i
(yi − ȳ) (yi − ȳ)2

(x − x̄)2
P
2
R = 2
β̂yx P i
(yi − ȳ)2

Haciendo algunas manipulaciones algebráicas se llega a la expresión β̂yx β̂xy :

6
(xi − x̄)2 (x − x̄)2
P P P
(yi − ȳ)(xi − x̄)
R2 = β̂yx β̂yx P 2
= β̂ yx P 2
× P i
(yi − ȳ) (xi − x̄) (yi − ȳ)2
P
(yi − ȳ)(xi − x̄)
R2 = β̂yx P = β̂yx β̂xy
(yi − ȳ)2

5. Probar que la estimación MCO del coeciente β en el modelo yi = α + βx + ui es el


inverso del estimador MCO del coeciente δ del modelo xi = γ + δyi + vi sólo si el
coeciente de determinación del primer modelo(y del segundo) es igual a 1.
Respuesta:
Utilizando el resultado del ejercicio anterior se sabe que el coeciente de determinación R2 puede
ser escrito como:

R2 = β̂ δ̂

por lo tanto si δ̂ es el inverso de β̂ , necesariamente el R2 debe ser 1.

1
R2 = β̂ δ̂ = β̂ =1
β̂
6. Considere los siguientes modelos:

ln yi∗ = α1 + α2 ln x∗i + ui

ln yi = β1 + β2 ln xi + ui

donde yi∗ = w1 yi y x∗i = w2 xi , con las w constantes.


a ) Establezca las relaciones entre los dos conjuntos de coecientes de regresión y sus
errores estándar.
b ) ¾Es diferente el R2 en los dos modelos?
Respuesta:

a ) Se dene zi y zi∗ como:

zi = ln xi

zi∗ = ln x∗i
Al simplicar la siguiente expresión zi∗ − z̄ ∗ se obtiene un resultado importante:
 P ln w 
2
zi∗ ∗
− z̄ = ln w2 + zi − + z¯i = zi − z¯i
n
Se puede hacer el mismo ejercicio para la variable dependiente y se llegará a un resultado
similar. Por lo tanto los coecientes de pendiente para ambos modelos serán los mismos y sus
errores estándar también.
El coeciente de intercepto del primer modelo será:1

αˆ1 = ln w1 + ln¯yi − (ln w2 + ln¯xi )αˆ2


1 ln¯y ≡
P
ln yi
n

7
αˆ1 = ln w1 + ln¯yi − αˆ2 ln w2 − αˆ2 ln¯xi

Como los coecientes de pendiente son los mismos, entonces:

αˆ1 = ln¯yi − βˆ2 ln¯x + ln w1 − βˆ2 ln w2


| {z }
βˆ1

Al obtener la varianza:

V ar(αˆ1 ) = V ar(βˆ1 ) + (ln w2 )2 V ar(βˆ2 ) − 2 ln w2 Cov(βˆ1 , βˆ2 )

V ar(αˆ1 ) = V ar(βˆ1 ) + (ln w2 )2 V ar(βˆ2 ) + 2ln¯x ln w2 V ar(βˆ2 )

V ar(αˆ1 ) = V ar(βˆ1 ) + ((ln w2 )2 + 2ln¯x ln w2 )V ar(βˆ2 )

Se puede observar que el estimador del coeciente de intercepto no será igual, además su
error estándar también sera distinto como se aprecia en la ecuación anterior. La varianza del
estimador αˆ1 será igual a la varianza del estimador βˆ1 mas una constante multiplicada por la
varianza de βˆ2 .
b ) El R2 en ambos modelos serán los mismos. Esto puede comprobarse mostrando que lnˆyi∗ −
ln¯yi∗ = lnˆyi − ln¯yi o simplemente usando el resultado del ejercicio 5. Dado que los estimadores
de las pendientes son iguales en ambos modelos, el R2 será el mismo.
7. Suponga que las variables explicativas de un modelo de regresión lineal y = Xβ + µ
pueden dividirse en dos sub-matrices X 1 y X 2 con la propiedad que ambas son orto-
gonales entre sí. Demuestre que los estimadores MCO para los sub-vectores β 1 y β 2
para los modelos parciales:
(
y = X1 β1 + µ1
y = X2 β2 + µ2

coinciden con los estimadores MCO para el modelo y = Xβ + µ.


Respuesta:
El estimador MCO del modelo y = X1 β1 + µ1 es β̂ 1 = (X 01 X 1 )−1 X 01 y .
Se puede escribir y como:

y = PX y + MX y = X 1 β̂ 1 + X 2 β̂ 2 + MX y (1)
donde PX es la matriz que proyecta sobre el espacio columna de X y MX es la matriz que proyecta
sobre el complemento ortogonal del espacio columna de X .
Si se multiplica (1) por X 01 se obtiene:

X 01 y = X 01 X 1 β̂ 1 + X 01 X 2 β̂ 2 + X 01 MX y

X 01 y = X 01 X 1 β̂ 1 + X 01 X 2 β̂ 2 + X 01 MX y (2)
| {z } | {z }
O O

donde O es una matriz de ceros. La primera se debe a que X 1 es ortogonal a X 2 , y la segunda


matriz O se debe a que MX X 1 = O , por lo tanto debido a la simetría de MX , se tiene que
X 01 MX = (MX X 1 )0 = (O)0 = O .
Premultiplicando (2) por (X 01 X 1 )−1 se obtiene:

8
(X 01 X 1 )−1 X10 y = β̂ 1

el cual es el estimador MCO del modelo de regresión de y 1 sobre X 1 .


Para demostrar que el estimador MCO de β̂ 2 es el mismo en ambos modelos se sigue el mismo
procedimiento.
8. Suponga el siguiente modelo de regresión: yt = α + β1 xt1 + β2 xt2 + ut , donde se tiene
   
33 0 0 132
X 0X =  0 40 20 X 0 y =  24  û0 û = 150
0 20 60 92

Se pide:

a ) El tamaño de la muestra, la media aritmética de x1 , x2 e y .


b ) Los estimadores de α, β1 y β2 .
c ) La varianza estimada del estimador β2 y plantee un estadístico de prueba para
testear la hipótesis que β2 = 0.

Respuesta:

a ) El tamaño de la muestra es 33. Las medias aritméticas de x1 y x2 son iguales a 0, mientras


que la media de y es igual a 132/33 = 4.
 P P   P 
n x1 x2 P y
X 0 X = P x1 P x21  X 0 y =  x1 y 
P P P
x
P 21 x 2 P
x2 x1 x2 x2 x2 y
b ) Usando la fórmula del estimador MCO se obtienen los resultados:

4
β̂ = (X 0 X)−1 X 0 Y = −0,2
1,6

c ) La varianza estimada del estimador β̂ es:

û0 û
V ar(β̂) = σˆ2 (X 0 X)−1 = (X 0 X)−1
n−3

Cov(α̂, βˆ1 ) Cov(α̂, βˆ2 )


 
V ar(α̂)
V ar(β̂) = Cov(α̂, βˆ1 ) V ar(βˆ1 ) Cov(βˆ1 , βˆ2 )
ˆ ˆ ˆ
Cov(α̂, β2 ) Cov(β1 , β2 ) V ar(βˆ2 )
 
0,03030303 0 0
150 
= 0 0,03 −0,01
30
0 −0,01 0,02

Para realizar el test de hipótesis es necesario calcular el estadístico t:

βˆ2 1,6
t= q = = 16
0,1
V ar(βˆ2 )

9. Suponga que β̂ es el estimador MCO para el modelo de regresión entre un vector y y


una matriz X y c es un vector conformable cualquiera. Pruebe que la diferencia entre
las sumas de cuadrados:

(y − Xc)0 (y − Xc) − (y − X β̂)0 (y − X β̂) = (c − β̂)0 X 0 X(c − β̂)

9
Respuesta:
Resolviendo el lado izquierdo de la ecuación obtenemos:

= (y 0 − c0 X 0 )(y − Xc) − (y 0 − β̂ 0 X 0 )(y − X β̂)

= y 0 y − y 0 Xc − c0 X 0 y + c0 X 0 Xc − y 0 y + y 0 X β̂ + β̂ 0 X 0 y − β̂ 0 X 0 X β̂

= −y 0 Xc − c0 X 0 y + c0 X 0 Xc + y 0 X β̂ + β̂ 0 X 0 y − β̂ 0 X 0 X β̂
Si usamos el hecho de que β̂ = (X 0 X)−1 X 0 Y entonces:

= −y 0 Xc − c0 X 0 y + c0 X 0 Xc + y 0 X β̂ + β̂ 0 X 0 y − β̂ 0 X 0 X(X 0 X)−1 X 0 y
| {z }
I

= −y 0 Xc − c0 X 0 y +c0 X 0 Xc + y 0 X β̂
|{z}
X 0 X β̂

= (c0 X 0 X − y 0 X)c − (c0 X 0 X − y 0 X)β̂

= (c0 X 0 X− y 0 X )(c − β̂)


|{z}
βˆ0 X 0 X

= (c0 − β̂ 0 )X 0 X(c − β̂)

= (c − β̂)0 X 0 X(c − β̂)


10. Para estudiar la relación entre 2 variables se han estimado los siguientes modelos:

a) yi = α + βxi + µi
b) ln yi = α + βxi + µi
c) yi = α + β ln xi + µi
d) ln yi = α + β ln xi + µi

Discutir la interpretación que tendria, en cada caso, el valor estimado para el coeciente
β̂ .
Respuesta:

a ) El coeciente β̂ es el cambio que se produce en y cuando x aumenta en una unidad.


b ) Si se multiplica el coeciente β̂ por 100, entonces 100β̂ representa el cambio porcentual en y
ocasionada por un cambio absoluto en x.
c ) Si se divide β̂ para 100, entonces 0,01β̂ representa el cambio absoluto en y debido a un cambio
relativo en x.
d ) El coeciente β̂ mide el cambio porcentual en y ante pequeños cambios porcentuales en x, es
decir mide la elasticidad de y con respecto a x.
11. Utilice la siguiente regresión simple para contestar los literales justicando su respues-
ta:

yt = β0 + β1 Xt + ut

Para el cual se conocen los siguientes resultados:


Xt2 = B Yt2 = E
P P P P P
t Xt = 0 t Yt = 0 t t t Xt Yt = F

10
a ) Las estimaciones de MCO para los parámetros β0 y β1 son (en ese orden):
1) E/F y B
2) 0 y F/B
3) E y B/F
4) F/B y 0
b ) La suma de los cuadrados de los residuos es igual a:
1) B + E 2
2) 0
3) (B 2 /E) − F
4) E − (F 2 /B)
Respuesta:

a ) ii) 0 y F/B

βˆ0 = Ȳ − X̄ βˆ1 = 0 − 0(βˆ1 ) = 0


P P
t (Xt − X̄)(Yt − Ȳ ) Xt Yt F
βˆ1 = P 2
= Pt 2 = B
t (Xt − X̄) X
t t

b ) iv) E − (F 2 /B)

Yˆt = 0 + (F/B)Xt

uˆ2t =
X X X
(Yt − (F/B)Xt )2 = (Yt2 − 2(F/B)Xt Yt + (F 2 /B 2 )Xt2 )
t t t

uˆ2t
X X X X
= Yt2 − 2(F/B) Xt Yt + (F 2 /B 2 ) Xt2
t t t t
2 2
= E − 2F /B + F /B
= E − (F 2 /B)
12. Sea el modelo y = Xβ + u. Se estima β por MCO y se obtienen los residuos de la
regresión û = y − X β̂ . Considere ahora la siguiente regresión: y = Xγ + δ û + v .

a ) Derive los estimadores MCO de γ y δ .


b ) ¾Qué valores tendrán los residuos v̂ de la regresión anterior?
c ) Calcule el R2 de la regresión.
Respuesta:

a ) Dado que los regresores X y û son ortogonales, los estimadores de γ y δ serán los mismos de
las regresiones:

y = Xγ + v1
y
y = δ û + v 2
Por lo tanto:

γ̂ = (X 0 X)−1 X 0 y
y
δ̂ = (û0 û)−1 û0 y = (û0 û)−1 (MX y)0 y
= (û0 û)−1 y 0 MX y
= (û0 û)−1 û0 û
= 1

11
b ) Los residuos serán cero porque hemos incluido en los regresores la parte de y que no es explicada
por X de la regresión original.

v̂ = y − X γ̂ − δ̂ û = y − X β̂ − û = û − û = 0

c ) Por obvias razones el R2 será 1, debido a que el modelo se ajusta perfectamente, es decir la
variabilidad de y está explicada completamente por la variabilidad de los regresores.

v̂ 0 v̂
R2 = 1 − =1−0=1
(y − ȳ)0 (y − ȳ)
13. Considere el modelo de regresión

Yi = α + βXi + ui , ∀i : ui ∼ (0, σ 2 ) y ∀i, j : cov(ui , uj ) = 0

a ) Demuestre que el estimador de MCO α̂ = i λi Yi , en donde λi = 1


P
n − wi X̄ y wi =
Pxi 2 .
i xi

xi es la variable Xi en desviaciones con respecto a su media muestral xi = Xi − X̄ .


b ) Muestre que i λi = 1 y i λi Xi = 0.
P P

c ) Pruebe
P que cualquier otro estimador P lineal para α
P(de la forma α̃(de la forma
α̃ = i bi Yi ) debe satisfacer tanto que i bi = 1 como i bi Xi = 0 para ser insesgado.
d ) Si bi = λi + fi , muestre que i fi = 0 y i fi Xi = 0.
P P

e ) Demuestre que V ar(α̃) ≥ V ar(α̂).

Respuesta:

a)
X X 1 X 1 xi
α̂ = λi Yi = ( − wi X̄)Yi = ( − P 2 X̄)Yi
i i
n i
n i xi
P
X yi xi Yi
α̂ = − X̄ Pi 2 = Ȳ − X̄ β̂
i
n i xi

b) P
X X 1 n X xi 0
λi = ( − wi X̄) = − X̄ wi = 1 − X̄ i 2 = 1 − X̄ P 2 = 1
P
i i
n n i
x
i i i xi

X X 1 X
λi Xi = ( − wi X̄)Xi = X̄ − X̄ wi Xi
i i
n i
P P 2
X xi Xi x
λi Xi = X̄ − X̄ P 2 = X̄ − X̄ Pi i2 = X̄ − X̄ = 0
i

i i xi i xi

c ) α̃ = i bi Yi
P
P P
E(α̃) = E( i bi Yi ) = E[ i bi (α + βXi + ui )]
P P P
E(α̃) = E(α i bi ) + E(β i bi Xi ) + E( i bi ui )
P P P
E(α̃) = α i bi + β i bi Xi + bi i E(ui )
| {z }
0
Para que α̃ sea insesgado se tiene
P que cumplir E(α̃) = α. Dado que β es distinto de 0, entonces
se debe cumplir i bi = 1 y i bi Xi = 0.
P

d)
P P P P
fi = i (bi − λi ) = i bi − i λi = 1 − 1 = 0
Pi P P
i fi Xi = i bi Xi − i λi Xi = 0 − 0 = 0

12
e) X X
V ar(α̃) = V ar( bi Yi ) = b2i σ 2
i i
X X X X
V ar(α̃) = σ 2 (λi + fi )2 = σ 2 [ (λi )2 + 2 λi fi + fi2 ]
i i i i
| {z }
0
X X
V ar(α̃) = σ 2 λ2i +σ 2 fi2
i i
| {z }
V ar(α̂)

El primer término es la varianza del estimador MCO y el segundo término es algún número
positivo. Por lo tanto:

V ar(α̃) ≥ V ar(α̂)

14. Dado el modelo de regresión y = Xβ + u con u ∼ (0, σ 2 I) y K regresores, pruebe que


K
X 1
E(β̂ 0 β̂) = β 0 β + σ 2
λk
k=1

donde λk es una raíz característica de X 0 X .


Respuesta:

E(β̂ 0 β̂) = E[(β + (X 0 X)−1 X 0 u)0 (β + (X 0 X)−1 X 0 u)]

E(β̂ 0 β̂) = E[β 0 β + u0 X(X 0 X)−1 β + β 0 (X 0 X)−1 X 0 u + u0 X(X 0 X)−1 (X 0 X)−1 X 0 u]

E(β̂ 0 β̂) = E[β 0 β] + E[u0 ] X(X 0 X)−1 β + β 0 (X 0 X)−1 X 0 E[u] +E[u0 X(X 0 X)−1 (X 0 X)−1 X 0 u]
| {z } | {z }
0 0

E(β̂ 0 β̂) = β 0 β + E[u0 X(X 0 X)−1 (X 0 X)−1 X 0 u]

La segunda parte del lado derecho de la ecuación anterior es una matriz de 1 × 1, por lo tanto es
igual a su traza.

E[u0 X(X 0 X)−1 (X 0 X)−1 X 0 u] = E[tr(u0 X(X 0 X)−1 (X 0 X)−1 X 0 u)]

Usando las propiedades de la traza se llega facilmente a la solución.

E[u0 X(X 0 X)−1 (X 0 X)−1 X 0 u] = E[tr(X(X 0 X)−1 (X 0 X)−1 X 0 uu0 )]

E[u0 X(X 0 X)−1 (X 0 X)−1 X 0 u] = tr(X(X 0 X)−1 (X 0 X)−1 X 0 E[uu0 ])


| {z }
σ2 I

E[u0 X(X 0 X)−1 (X 0 X)−1 X 0 u] = σ 2 tr(X(X 0 X)−1 (X 0 X)−1 X 0 )

E[u0 X(X 0 X)−1 (X 0 X)−1 X 0 u] = σ 2 tr((X 0 X)−1 (X 0 X)−1 X 0 X )


| {z }
I

13
Dado que X 0 X es una matríz simétrica, esta se puede descomponer espectralmente como CΛC 0
donde C es la matriz con los vectores característicos correspondientes a las raices características de
X 0 X y Λ es una matriz diagonal con las raíces características de X 0 X . Usando este hecho y las
propiedades de la inversa de una matriz se obtiene:

(X 0 X)−1 = (CΛC 0 )−1

(X 0 X)−1 = (C 0 )−1 Λ−1 C −1 = CΛ−1 C −1

donde
1
0 ··· 0
 
λ1
1
 0 λ2 ··· 0 
Λ−1 =  .. .. .. .. 
 
 . . . . 
1
0 0 ··· λK

Otra vez, usando las propiedades de la traza,

tr(CΛ−1 C −1 ) = tr(Λ−1 C −1 −1
| {z C}) = tr(Λ )
I

En consecuencia la traza de Λ −1
es 1
y por lo tanto:
P
k λk

K
X 1
E(β̂ 0 β̂) = β 0 β + σ 2 tr(Λ−1 ) = β 0 β + σ 2
λk
k=1

15. Conteste Verdadero o Falso y justique su respuesta.

a ) Las ecuaciones normales del modelo de regresión lineal múltiple implican que el
vector de residuos MCO es ortogonal al vector de valores estimados ŷ .
b ) Si las variables que intervienen en un modelo de regresión simple están en des-
viaciones con respecto a su propia media, entonces la línea de regresión estimada
debe pasar a través del origen.

Respuesta:

a ) Verdadero. Las ecuaciones normales del modelo de regresión lineal múltiple pueden escribirse
como:

−2X 0 y + 2X 0 X β̂ = 0

X 0 y − X 0 X β̂ = 0

X 0 (y − X β̂) = 0
| {z }

Se puede observar que las ecuaciones normales implican que la matriz de información X sea
ortogonal al vector de residuos û, y esto implica que el vector de residuos sea ortogonal al
vector de valores estomados ŷ .

(X β̂)0 û = 0

β̂ 0 X 0
| {zû} = 0
0

Esto último se da porque se asume que el vector β̂ no puede ser 0.

14
b ) Verdadero. El modelo de regresión simple con variables en desviaciones con respecto a su propia
media puede ser escrito como:

∀i : yi∗ = α + βx∗i + ui ,
donde yi∗ y x∗i son las variables en desviaciones con respecto a su media.
Teniendo en cuenta que la media muestral de x∗ y y ∗ son 0. Los estimadores MCO del modelo
son simplemente:
P ∗ ∗ P
xi yi (xi − x̄)(yi − ȳ)
β̂ = P ∗2 = i P
i
2
x
i i i (xi − x̄)

α̂ = y ∗ − x∗ β̂ = 0 − 0β̂ = 0
Como el término de intercepto estimado es 0, entonces la recta de regresión estimada debe
pasar a través del origen.
16. Suponga que un amigo que ignora sobre econometría básica le pide que estime un
modelo de regresión de la forma yi = α + βxi + ui armando que los errores no están
correlacionados y que además se distribuyen exponencialemente. Este le dice que aún
cuando los errores no siguen una distribución normal, usted puede hacer las pruebas
de hipótesis necesarias debido a que el tamaño de la muestra es 100000.

a ) ¾Qué supuesto no cumple para poder estimar el modelo por MCO?


b ) Muestre las consecuencias de estimar dicho modelo. (Compruebe si los estimadores
son insesgados)

Respuesta:

a ) No se puede estimar porque si los errores siguen una distribución exponencial, entonces los
errores están restringidos a tomar valores positivos. Si todos los errores toman valores positivos
entonces no se cumple el supuesto E(u) = 0. Formalmente, la distribución exponencial es:
1 − uλi
f (ui ) = e
λ
donde E(ui ) = λ y λ no puede ser 0. De lo contrario no sería una función de probabilidad
válida.
b ) Los estimadores MCO son:

α̂ = ȳ − x̄β̂

P
(xi − x̄)ui
β̂ = β + Pi 2
i (xi − x̄)

Tomando el valor esperado de β̂ :


P
i (xi − x̄)
E(β̂) = β + P 2
E(ui )
i (xi − x̄) | {z }
λ

Dado que i (xi − x̄) = 0, el estimador es insesgado.


P

Al tomar el valor esperado del estimador α̂:


P P
i ui i E(ui ) nλ
E(α̂) = α + E[ ]=α+ =α+
n n n

E(α̂) = α + λ
A pesar de que el estimador MCO de β es insesgado, el estimador del intercepto α es sesgado.

15
17. Para el modelo de regresión sin término constante yi = βxi + ui pruebe que el estimador

x̄ es insesgado, y demuestre que la varianza es mayor que la del estimador MCO.
Respuesta:
P
1 
 ȳ 
i βxi + ui 
E = E
x̄ x̄ n
P
i (βxi + ui ) 
 ȳ  1 
E = E
x̄ x̄ n
P 
 ȳ 
1 X xi i ui
E = [β +E ]
x̄ x̄ i
n n
| {z }

P
i E(ui )
 ȳ  | {z }
0
E =β+ =β
x̄ x̄n
La varianza del estimador es:
P 
 ȳ 
i ui 1 X
V ar = V ar = V ar( ui )
x̄ x̄n x̄2 n2 i

 ȳ  1 X σ2 n σ2
V ar = V ar( ui ) = 2 2 = 2
x̄ x̄2 n2 i
x̄ n x̄ n

La varianza del estimador MCO es:

σ2
V ar(β̂M CO ) = P 2
i xi

Al restar la varianza del estimador MCO de la varianza de ȳ


x̄ :
 ȳ  σ2 σ2 1 1
V ar − V ar(β̂M CO ) = 2
− P 2 = σ2 ( 2 − P 2 )
x̄ x̄ n x
i i x̄ n i xi

x2i − nx̄2
 ȳ  P
2 i
V ar − V ar(β̂M CO ) = σ ( )
nx̄2 i x2i
P

Se sabe que − x̄)2 = x2i − nx̄2 . En consecuencia:


P P
i (xi i

2
P
i − x̄)
i (xP
 ȳ 
2
V ar − V ar(β̂M CO ) = σ ( )
x̄ nx̄2 i x2i

La expresión dentro del paréntesis siempres erá positiva, por lo tanto la varianza del estimador ȳ

es mayor que la del estimador MCO.
18. Reproduzca un razonamiento similar usado en la demostración del teorema de Gauss-
Markov para probar el siguiente resultado:
La combinación lineal c0 β̂ , donde β̂ es el estimador del MCO del parámetro β , es el
estimador insesgado de mímima varianza para la combinación lineal c0 β .
Respuesta:
Basta con demostrar que la diferencia entre la covarianza de c0 β̃ y c0 β̂ es mayor o igual a 0, donde
β̃ es cualquier estimador lineal insesgado de β , distinto del estimador MCO.

16
V ar(c0 β̃) − V ar(c0 β̂) = c0 V ar(β̃)c − c0 V ar(β̂)c

V ar(c0 β̃) − V ar(c0 β̂) = c0 (V ar(β̃)c − V ar(β̂)c)

V ar(c0 β̃) − V ar(c0 β̂) = c0 [V ar(β̃) − V ar(β̂)]c

Por el teorema de Gauss-Markov sabemos que el estimador MCO de β̂ es el de mínima varianza


y por lo tanto la diferencia de las matrices de covarianzas es semidenida positiva. Llamemos a la
diferencia V ar(β̃) − V ar(β̂), Z . Entonces:

V ar(c0 β̃) − V ar(c0 β̂) = c0 [Z]c

Dado que Z es semidenida positiva, existe una matriz no-singular B tal que:

V ar(c0 β̃) − V ar(c0 β̂) = c0 [B 0 B]c

V ar(c0 β̃) − V ar(c0 β̂) = (Bc)0 (Bc) = w0 w = kwk2

La norma de cualquier vector es mayor o igual a 0, por lo tanto la varianza de c0 β̂ es menor o a lo


mucho igual que la varianza de c0 β̃ .
19. Demuestre que el estimador MCO del vector β es independiente del estimador MCO
del parámetro σ 2 , sabiendo que el vector de errores se distribuye N (0, σ 2 I).
Respuesta:
Podemos escribir β̂ como:

β̂ = β + (X 0 X)−1 X 0 u

y σˆ2 como:

u0 M X u
σˆ2 =
n−k

β̂ solo depende de la parte aleatoria u a través de (X 0 X)−1 X 0 u, y σˆ2 solo depende de la parte
| {z }
L
aleatoria a través de u0 MX u = (MX u)0 MX u.

Cov(Lu, MX u) = E(Luu0 MX ) = LE(uu0 )MX

Cov(Lu, MX u) = Lσ 2 IMX = σ 2 LMX


| {z }
O

El producto matricial LMX da como resultado la matriz nula debido a que la matriz MX proyecta
al complemento ortogonal del espacio columna de X . Dado que los dos vectores son independientes,
entonces se puede concluir que los dos estimadores son independientes.
20. Considere el modelo de regresión múltiple y = Xβ + u, en donde u ∼ N (0, σ 2 I) y X es
determinística.

a ) Muestre que la condición X 0 û = 0 es una condición necesaria para obtener el


estimador MCO para β .

17
b ) Dada la distribución del vector u demuestre que el estimador maximo verosímil β̃
coincide con β̂ solo si la condición X 0 û = 0 se cumple.

Respuesta:

a ) Las ecuaciones normales en forma matricial se pueden escribir como:

−2X 0 y + 2X 0 X β̂ = 0

X 0 y − X 0 X β̂ = 0

X 0 (y − X β̂) = 0
| {z }

Por lo tanto, X û = 0 es una condición necesaria para obtener el estimador MCO.


0

b ) Dado que u ∼ N (0, σ 2 I), se puede escribir la función de máxima verosimilitud en forma
matricial de la siguiente manera:
Y
L= f (ui ; β) = (2πσ 2 )(−n/2) exp(−u0 u/(2σ 2 ))
i

n 1
ln L = − ln 2πσ 2 − 2 u0 u
2 2σ

n 1 n 1
ln L = − ln 2πσ 2 − 2 (y−Xβ)0 (y−Xβ) = − ln 2πσ 2 − 2 (y 0 y−β 0 X 0 y−y 0 Xβ+β 0 X 0 Xβ)
2 2σ 2 2σ

∂ ln L X 0 y X 0 X β̃
= 2 − =0
∂β σ σ2

X 0 y − X 0 X β̃ = 0

X 0 (y − X β̃) = 0
| {z }

Por lo tanto, el estimador máximo verosimil y MCO de β solo coinciden cuando la condición
X 0 ũ se cumplen.
21. En el modelo yi = α+βxi +ui con ui ∼ N (0, σ 2 ), use las condiciones de segundo orden para
demostrar que los estimadores máximo verosímiles de α, β y σ 2 en realidad maximizan
la función de máxima verosimilitud.
Respuesta:
Las primeras derivadas de la función de máxima verosimilitud son:

∂ ln L 1 X
= 2 (yi − α − βxi )
∂α σ i

∂ ln L 1 X
= 2 (yi − α − βxi )xi
∂β σ i

∂ ln L n 1 X
= − + (yi − α − βxi )2
∂σ 2 2σ 2 2(σ 2 )2 i

Para probar la existencia de un máximo, es necesario plantear la matriz hessiana. Para esto nece-
sitamos obtener las segundas derivadas parciales:

18
∂ 2 ln L n
=− 2
∂α2 σ
P 2
∂ 2 ln L x
= − i2 i
∂β 2 σ

∂ 2 ln L n 1 X
2
= 2 2
− 2 3 (yi − α − βxi )2
∂σ 2(σ ) (σ ) i

∂ 2 ln L
P
xi
= − i2
∂α∂β σ

∂ 2 ln L 1 X
2
=− 2 2 (yi − α − βxi )xi
∂β∂σ (σ ) i

∂ 2 ln L 1 X
2
=− 2 (yi − α − βxi )
∂α∂σ σ i

Planteando la matriz hessiana y reemplazando el valor de los estimadores, se observa que el deter-
minante del primer menor es negativo, ya que el estimador de la varianza siempre será positivo..

 ∂ 2 ln L ∂ 2 ln L ∂ 2 ln L

∂α2 ∂α∂β ∂α∂σ 2
 ∂ 2 ln L ∂ 2 ln L ∂ 2 ln L 
H =  ∂β∂α ∂β 2 ∂β∂σ 2 
∂ 2 ln L ∂ 2 ln L ∂ 2 ln L
∂σ 2 ∂α ∂σ 2 ∂β ∂σ 2
P
i xi
 n 1
P 
− − − i (yi − α̂ − β̂xi )
Pσˆ2 Pσˆ2 2 σˆ2
 x x 1
P 
=  − ˆi2 i − iˆ2 i − ˆ2 2 i (yi − α̂ − β̂xi )xi 
 σ σ (σ ) 
1 1 n 1 2
P P P
− i (yi − α̂ − β̂xi ) − i (yi − α̂ − β̂xi )xi − (y i − α̂ − β̂xi )
σˆ2 (σˆ2 )2 2(σˆ2 )2 (σˆ2 )3 i

Note que una vez evaluados los estimadores en la matriz hessiana ∂ 2 ln L


∂α∂σ 2 = ∂ 2 ln L
∂β∂σ 2 = 0.
 P 
n i xi
− − 0
 Pσˆ2x Pσˆ2 2
x

H= − i i
 σˆ2 − iˆ2 i 0 
σ 
n 1 2
P
0 0 − i (ûi )
2(σˆ2 )2 (σˆ2 )3

El determinante del segundo menor es:


P
i xi

−n − n
P 2
P
x2i − [ i xi ]2
P
Pσˆ2 Pσˆ2 2 i xi 1 X 2 n i
= − [ xi ] =
− i xi x
(σˆ2 )2 ˆ (σˆ2 )2

− iˆ2 i 2
(σ )2
σˆ2 σ i
P
i xi

−n − n( i x2i − nx̄2 )
P
n i (xi − x̄)2
P
Pσˆ2 Pσˆ2 2 = =
− i xi x
(σˆ2 )2 (σˆ2 )2

− iˆ2 i
σˆ2 σ

Ya que el numerador siempre será positivo y el estimador de la varianza también, entonces el


determinante del segundo menor es positivo.
Solo falta probar que el determinante de la matriz hessiana es negativo.

" P !# " P !#
x2
P
n n 1 X i xi xi n 1 X
− i i (ûi )2 (ûi )2

H = − − + − i −
σˆ2 σˆ2 ˆ2
2(σ )2 ˆ2 3
(σ ) i ˆ
σ2 ˆ
σ 2 ˆ2
2(σ ) 2 ˆ2 3
(σ ) i

19
!" #
n2 x̄)2
P
n 1 X i (xi −
X X
(ûi )2 x2i 2

H = − n −[ xi ] ) = −
2(σˆ2 )3 (σˆ2 )4 i i i 2(σˆ2 )3

Facilmente se puede observar que este último término es negativo. Por lo tanto, la matriz hessiana
es denida negativa y en consecuencia los estimadores de α, β y σ 2 maximizan la función de
verosimilitud.
22. Probar que en el modelo de regresión yt = α + βxt + ut el contraste de hipótesis nula
Ho : β = β0 puede llevarse a cabo mediante un estadístico F.
Respuesta:
Un estadístico t con n grados de libetad, elevado al cuadrado sigue una distribución chi-cuadrado
con 1 grado de libertad en el numerador y n grados de libertad en el denominador.
" #2
β̂ − β0
t2β0 = p
ˆ
pP
2
σ / (xi − x̄)2

(β̂ − β0 )2 (xi − x̄)2 (β̂ − β0 )2 (xi − x̄)2


P P
t2β0 = =
σˆ2 [ uˆ2 ]/(n − 2)
P
i

Si se multiplica la ecuación por σ 2 /σ 2 entonces podemos observar que el numerador se distribuye


chi-cuadrado con 1 grado de libertad.

(β̂ − β0 )2 (xi − x̄)2


P
∼ χ2(1)
σ2
porque es simplemente una normal estandar elevada al cuadrado. Y

uˆ2i ]/σ 2 = (n − 2)σˆ2 /σ 2 ∼ χ2(n−2) 2


X
[

Por lo tanto se tiene en el numerador una función de variable aleatoria que se distribuye χ2(1) y en el
denominador una función de variable aleatoria que se distribuye χ2(n−2) dividida para n − 2. Dado
esto, se tiene la forma del estadístico F . Esta sobreentendido que el numerador esta dividido para
1, es decir los grados de libertad.

(β̂ − β0 )2 (xi − x̄)2


P
t2β0 = = F(1,n−2)
[ uˆ2 ]/(n − 2)
P
i

23. Conteste brevemente:

a ) Suponga el siguiente modelo de regresión

eβ1 +β2 xi
yi =
1 + eβ1 +β2 xi

¾Tal como se presenta es un modelo de regresión lineal? Si no es así, ¾Qué truco


usaría para convertirlo en un modelo de regresión lineal? Imponga restricciones
en la variable dependiente para que el modelo sea estimable.
b ) Suponga que los ingresos anuales y el consumo de alcohol están determinados por
el sistema de ecuaciones simultáneas:

log(earnings) = β0 + β1 alcohol + β2 educ + u1

2 La demostración se presentará más adelante en otro ejercicio.

20
alcohol = γ0 + γ1 log(earnings) + γ2 educ + γ3 log(price) + u2

donde price es un índice local de precios del alcohol, que incluye los impuestos
estatales y locales. Suponga que educ y price son exógenos. Si β1 , β2 , γ1 , γ2 y γ3
dieren todos de cero, ¾Qué ecuación está identicada?¾Cómo se podría estimar
la ecuación?

Respuesta:

a ) Multiplicando ambos lados de la ecuación por 1 + eβ1 +β2 xi y resolviendo se obtiene:

yi + yi eβ1 +β2 xi = eβ1 +β2 xi

yi = eβ1 +β2 xi − yi eβ1 +β2 xi

yi = eβ1 +β2 xi (1 − yi )

yi
= eβ1 +β2 xi
(1 − yi )
Aplicando logaritmo natural a ambos lados:
" #
yi
ln = β1 + β2 x i
(1 − yi )

Por lo que el modelo sería de la forma:

ln zi = β1 + β2 xi + ui
donde zi = (1−y
yi
i)
.
La variable dependiente está restringida a ciertos valores.
∀i : 0 < yi < 1

Si yi = 1, entonces zi tiende a innito. Si 1 < yi ≤ 0 entonces ln zi no está denido.


b ) La ecuación identicada es

log(earnings) = β0 + β1 alcohol + β2 educ + u1

puesto que log(price) está excluida y aparece en la otra ecuación. log(price) sirve como instru-
mento para alcohol. La ecuación se estima usando mínimos cuadrados en dos estapas. Primero
regresando alcohol sobre educ y log(price), y luego regresando log(earnings) sobre alcoholˆ y
educ.
(n−2)σˆ2
24. Demuestre que bajo los supuestos clásicos, en el modelo yi = β0 + β1 xi + ui , σ2 =
P 2
uˆi
σ2
i
∼ χ(n−2) .
Respuesta:
Se puede escribir i ûi 2 como u0 MX u, donde MX = I − PX = I − X(X 0 X)−1 X 0 . Dada la
P
idempotencia de MX ,

u0 MX u
= 0 MX  = (MX )0 (MX )
σ2
donde  = u
σ ∼ N (0, I).

21
0
Por lo tanto u Mσ2
xu
se distribuye chi-cuadrado con grados de libertad igual al rango de MX . Para
calcular el rango de la matriz MX se usa la propiedad de la traza y las propiedades de las matrices
idempotentes. El rango de una matriz simétrica e idempotente es igual a su traza.

rank(MX ) = tr(MX ) = tr(I − X(X 0 X)−1 X 0 ) = tr(I) −tr(X(X 0 X)−1 X 0 )


| {z }
n

Si se usa la propiedad de la traza entonces tr(X(X 0 X)−1 X 0 ) = tr((X 0 X)−1 X 0 X) = tr(I), donde
esta nueva matriz identidad es de tamaño k × k.

rank(MX ) = n − tr(I) = n − k

Para este caso el número de regresores es 2, por lo tanto el rango de MX es 2.


25. Escoja una respuesta para cada uno de los siguientes literales (justicando su respues-
ta):

a ) Cuál de las siguientes opciones contiene solamente condiciones necesarias para que
el estimador MCO β̂ sea un estimador insesgado para el parámetro β en el modelo
de regresión múltiple y = Xβ + u con k regresores:
1) E[u0 u] = σ 2 I y rank(X) = k
2) u ∼ N (0, σ 2 I)
3) E[u] = 0 y rank(X) = k
4) Ninguna de las anteriores.
b ) Cuál de las siguientes condiciones debe cumplir el estimador MCO β̂ en el modelo
de regresión múltiple y = Xβ + u para garantizar que sea MELI(Mejor Estimador
Linealmente Insesgado):
1) E[β̂] = β y V ar[β̂] = σ 2 (X 0 X)−1
2) Cov(β̂, û) = 0
3) β̂ debe ser consistente.
4) Ninguna de las anteriores.
Respuesta:

a ) iii. E[u] = 0 y rank(X) = k


En el momento de obtener el valor esperado de β̂ la única condición necesaria para la insesgadez
es que el valor esperado de u sea 0. La condición de rango completo asegura que solo haya un
estimador que minimice la suma de los cuadrados de los errores.

E[β̂] = β + (X 0 X)−1 X 0 E[u]


| {z }
0

b ) i. E[β̂] = β y V ar[β̂] = σ 2 (X 0 X)−1


La primera condición asegura que el estimador sea insesgado. La segunda condición asegura
que el estimador sea el de mínima varianza, como se prueba con el teorema de Gauss-Markov.
26. Conteste Verdadero o Falso y justique su respuesta.

a ) El R2 ajustado no puede disminuir si se aumenta una variable en la regresión.


b ) Para testear la presencia de un cambio estructural en el modelo lineal, la única
alternativa es recurrir al test de Chow.

Respuesta:

a ) Falso. Si el poder explicativo del modelo es muy bajo al incluir un regresor más, entonces el R2
ajustado disminuirá, incluso puede llegar a ser negativo. Precisamente por esto, se lo considera
más able que el R2 sin ajustar.

22
b ) Falso. Hay varias alternativas para testear la presencia de un cambio estructural por ejemplo
el test de Hansen. Un inconveniente del test de Chow es la arbitrariedad al escoger el punto
donde se sospecha que hubo un cambio estructural.
27. Una regresión usando datos trimestrales desde 1958 hasta 1976 inclusive, dió la si-
guiente ecuación estimada:

ŷ = 2,20 + 0,10x2 − 3,48x3 + 0,34x4

La suma explicada de los cuadrados fué 109.6, y la suma de residuos al cuadrado,


18.48. Cuando la ecuación fué reestimada con tres dummies estacionales añadidas a la
especicación, la suma explicada al cuadrado aumentó a 114.8.
Dos regresiones adicionales basadas en la especicación original se corrieron para los
subperiodos 1958:1 a 1968:4 y 1969:1 a 1976:4, dando las sumas de los residuos al
cuadrado 9.32 y 7.46, respectivamente. Se pide:

a ) Hallar el valor del estadístico de prueba para testear la presencia de estacionalidad.


b ) Hallar el valor del estadísico de prueba para testear la constancia en la relación
estimada sobre los dos subperiodos.

Respuesta:

a ) Para testear la presencia de estacionalidad es necesario plantear la siguiente prueba de hipó-


tesis:

H0 : y = β 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + u (3)

H1 : y = β1 + β2 x2 + β3 x3 + β4 x4 + β5 x5 + β6 x6 + β7 x7 + u, (4)
donde x5 , x6 y x7 representan las variables dummies estacionales.
Tal y como se vió en clases para relaizar una prueba de hipótesis sobre varias restricciones(en
este caso, 3) en los parámetros se plantea el estadístico F :

(RSSR − U SSR)/r
F = ,
U SSR/(n − k)
donde RSSR es la suma de los residuos al cuadrado del modelo restringido (3), y U SSR es la
suma de los residuos al cuadrado del modelo sin restringir (4). r es el número de restriciones
y n − k son los grados de libertad del modelo sin restringir.
La suma de los cuadrados totales es la misma en ambas ecuaciones puesto que y no ha cam-
biado. A partir de esto podemos hallar la suma de los residuos al cuadrado del modelo sin
restringir que es el dato que falta para calcular F .

RT SS = RESS + RSSR = 109,6 + 18,48 = 128,08

| T{zSS} −U ESS = 128,08 − 114,8 = 13,28


U SSR = U
RT SS

El número de restricciones es 3 y los grados de libertad son 76 − 7 = 69, por lo tanto el


estadístico F es:

(18,48 − 13,28)/3
F = = 9,006
13,28/69

23
b ) Para testear la presencia de un quiebre estructural se usa el test de Chow para lo cuál se
calcula el estadístico F como sigue:
(RSSR − SSR1 − SSR2 )/k
F = ,
(SSR1 + SSR2 )/(n − 2k)
donde RSSR es la suma de los residuos al cuadrado del modelo original, SSR1 es la suma
de los residuos al cuadrados de la regresión para el primer periodo y SSR2 es la suma de los
residuos al cuadrado de la regresión para el segundo periodo.
(18,48 − 9,32 − 7,46)/4
F = = 1,722
(9,32 + 7,46)/(76 − 8)
28. Escribiendo las sumas residuales del modelo restringido y = X1 β1 + u y sin restringir
y = X1 β1 + X2 β2 + u como y 0 M1 y y y 0 M y respectivamente, probar que y 0 (M1 − M )y =
0
(M1 −M )y/J
ûR 0 ûR − û0 û y que en consecuencia, el estadístico yy0 M y/(n−k−1)
sigue la distribución
J
Fn−k−1 .
Respuesta:

y 0 (M1 − M )y = y 0 (M1 y − M y) = y 0 M1 y − y 0 M y

y 0 (M1 − M )y = (M1 y)0 M1 y − (M y)0 M y = û0R ûR − û0 û


Se sabe que:

û0R ûR − û0 û = (D β̂ − r)0 [D(X 0 X)−1 D 0 ]−1 (D β̂ − r)


0 0
Por lo tanto si se divide para σ 2 , el estadístico ûR ûRσ2−û û se distribuye χ2J .
El estimador de la varianza del error dividido para σ 2 se distribuye χ2n−k−1 . Como consecuencia de
esto:

y 0 (M1 − M )y/J J
∼ Fn−k−1
y 0 M y/(n − k − 1)
29. Para el modelo y = Xβ + u, donde la matriz E[u0 u] = σ 2 I es conocida, derive un
estadístico de prueba para la hipótesis conjunta:

H0 : β 1 = β2 = ... = βk = 0

Respuesta:
En general, si un vector aleatorio z de tamaño n × 1 está normalmente distribuido con media 0 y
matriz de covarianzas Σ , entonces la forma cuadrática z 0 Σ −1 z se distribute χ2n .
Dados los supuestos, clásicos el vector β̂ −β ∼ N (0, σ 2 (X 0 X)−1 ) y por lo tanto la forma cuadrática
(β̂ − β)0 [σ 2 (X 0 X)−1 ]−1 (β̂ − β) = (β̂ − β)0 (X 0 X)(β̂ − β)/σ 2 ∼ χ2k

es un buen estadístico de prueba para testear H0 : β 1 = β2 = ... = βk = 0.


30. Suponga que el proceso generador de datos en un modelo de regresión es:

yt = α + βxt + ut (5)

donde el término de error cumple los supuestos clásicos y ∀t : xt es determinística. Sin


embargo se estimó por error el modelo:

yt = µ + ut (6)

24
a ) ¾Cuál es el estimador MCO de µ?
b ) ¾Es el estimador MCO de µ insesgado para α? Explique.
c ) ¾La suma de los residuos de la regresión (6) será igual a 0?
d ) Suponga que se quiere predecir yT +1 , y para esto se usa la estimación por MCO
de (6):

ŷT +1 = µ̂

¾Es esta predicción insesgada? (Es decir E(ŷT +1 − yT +1 ) = 0)


e ) ¾Es posible que la varianza de la predicción usando los estimadores MCO del
verdadero modelo (5) sea mayor que la varianza de la predicción usando el(los)
estimador(es) del modelo mal especicado (6)? (Recuerde que se asume que en
las dos situaciones el verdadero proceso generador de datos es (5))

Respuesta:

a ) Si se usa la forma general del estimador MCO β̂ = (X 0 X)−1 X 0 y , donde en este caso X es
un vector de 1s, se tiene que el estimador de µ es:
P
X
−1
X yt
µ̂ = ( 1) yt = t = ȳ
t t
n

b ) Para saber si es insesgado para α, se reemplaza yt por el verdadero proceso generador de datos.
P P
t yt (α + βxt + ut )
µ̂ = = t
n n
P P
nα + β t xt + t ut )
µ̂ = = α + β x̄ + ū
n
Al tomar el valor esperado:

E(µ̂) = E(α + β x̄ + ū) = α + β x̄ + E(ū)


| {z }
0

E(µ̂) = α + β x̄
En consecuencia el estimador µ̂ no es insesgado para α.
c ) Si. Esto siempre se cumple para cualquier regresión lineal que incluya una constante, sin
importar que el modelo este mal especicado.
X X
(yt − µ̂) = (yt − ȳ) = nȳ − nȳ = 0
t t

d ) Se sabe que µ̂ = α + β x̄ + ū. Por otro lado la realización yT +1 es igual a α + βxT +1 + uT +1 .


El error de predicción está dado por:

ŷT +1 − yT +1 = α + β x̄ + ū − (α + βxT +1 + uT +1 )

ŷT +1 − yT +1 = β(x̄ − xT +1 ) + ū − uT +1
Al tomar el valor esperado se obtiene:

E(ŷT +1 − yT +1 ) = E(β(x̄ − xT +1 ) + ū − uT +1 ) = β(x̄ − xT +1 ) + E(ū) − E(uT +1 )


| {z } | {z }
0 0

Como se puede observar, la predicción es insesgada si y solo si β = 0 o x̄ = xT +1 , pero en


general la predicción es sesgada. Note que si β = 0 entonces el modelo (6) está bien especicado.

25
e ) Suponga que primero se ajusta el modelo usando (5). La predicción de yT +1 será:

ŷT +1 = α̂ + β̂xT +1
mientras que el verdadero valor de yT +1 será:

yT +1 = α + βxT +1 + uT +1
La varianza del error de predicción es:

V ar(ŷT +1 − yT +1 ) = V ar(α̂ + β̂xT +1 − α − βxT +1 − uT +1 )

h 1 xT +1 − x̄ i
V ar(ŷT +1 − yT +1 ) = σ 2 1 + + P 2
(7)
T t (xt − x̄)

Ahora considere el caso en el que el modelo está mal especicado. Como se demostró anterior-
mente el error de predicción viene dado por:

ŷT +1 − yT +1 = β(x̄ − xT +1 ) + ū − uT +1
mientras que su varianza está dada por:

V ar[ŷT +1 − yT +1 ] = V ar[β(x̄ − xT +1 ) + ū − uT +1 ]
Dado que los errores no están correlacionados la expresión anterior se simplica a:

V ar[ŷT +1 − yT +1 ] = V ar[ū] + V ar[uT +1 ]

σ2 1
V ar[ŷT +1 − yT +1 ] = + σ 2 = σ 2 (1 + ) (8)
T T
Comparando (7) y (8) se puede ver que mientras xT +1 > x̄, la varianza de la predicción del
modelo mal especicado será menor que la del verdadero modelo.3
31. Considere la regresión por mínimos cuadrados de y sobre k variables (una constante)
X . Considere otro conjunto de regresores Z = XA, donde A es una matriz no singular.
Entonces cada columna de Z es una combinación lineal de las columnas de X . Pruebe
que el vector de residuos de la regresión de y sobre Z y y sobre X , coinciden. ¾Qué
relevancia tiene esto al momento de cambiar las unidades de medida en las variables
independientes?
Respuesta:
Se sabe que la matriz de proyección al espacio columna de X es PX = X(X 0 X)−1 X 0 . La matriz
de proyección al espacio columna de Z es:

PZ = Z(Z 0 Z)−1 Z 0 = XA(A0 X 0 XA)−1 A0 X 0

Usando las propiedades de la inversa de una matriz:

−1 0 −1 0 −1 0 0
PZ = X AA
| {z }(X X) |(A ){z A} X
I I

PZ = X(X 0 X)−1 X 0 = PX

Esto se debe a que el subespacio generado por las columnas de X es idéntico al subespacio generado
por las columnas de Z . Esto resulta bastante obvio, ya que cada columna de Z es una combinación
3 El hecho de que a veces la varianza de la predicción usando estimadores de un modelo subespecicado, sea menor que
la varianza de la predicción usando los estimadores del verdadero proceso generador de datos, se conoce en la literatura
como paradoja de Stein.

26
lineal de las columnas de X . Si PZ = PX entonces MZ = MX , así el vector de residuos MZ y
será igual a MX y .
La importancia de esto es que al cambiar la unidad de medida de las variables explicativas no se
altera la predicción ni los residuos,a pesar de que el estimador β̂ si cambia.
32. En el modelo yt = α+βxt +µt , con E(ut ) = 0, E(u2t ) = σt2 , E(µt µs ) = 0, obtener la expresión
analítica de los estimadores α̂M CG y β̂M CG , y particularizarlas a los casos:

a ) σt2 = σ 2 para todo t


b ) σt2 = kxt , k dado.

Respuesta:

X 1
2
min s =
α, β σ 2 (yt − α − xt β)
t t

Las condiciones de primer orden son:

∂s X 2
= − 2 (yt − α̂ − xt β̂) = 0
∂α t
σt

∂s X 2xt
= − 2 (yt − α̂ − xt β̂) = 0
∂β t
σt

Despejando α̂ de la primera ecuación se obtiene:


P yt P xt
t σt2 − β̂ t σt2
α̂ = P 1
t σt2

Reemplazando α̂ en la segunda ecuación y despejando β̂ se obtiene:


P 1
P xt yt P yt P xt
t σt2 t σt2 − t σt2 t σt2
β̂ = P 2
P x2t P 1 xt
t σt2 t σt2 − t σt2

a ) Si se reemplaza σt2 por σ 2 , se obtiene el estimador MCO.


n
xt yt − σ14 t yt t xt
P P P
σ4 t
β̂ = P 2
n 1
P 2
σ4 t xt − σ 4 t xt
P P
xt yt − nx̄ȳ t (x − x̄)(yt − ȳ)
β̂ = Pt 2 2
= Pt 2
x
t t − nx̄ t t − x̄)
(x

El estimador α̂ una vez que se rremplaza β̂ y σ 2 es el estimador MCO:


1 1
P P
yt −
P P
σ2 t σ 2 β̂ t xt t yt t xt
α̂ = 1 = − β̂
σ2 n
n n

α̂ = ȳ − β̂ x̄
b ) Si σt2 = kxt , entonces:
1
P 1
P xt yt 1
P yt P xt
k2 t xt t xt − k2 t xt t xt
β̂ = P 2
1
P x2t P 1 1 xt
k2 t xt t xt − k2 t xt

27
yt − n t xytt
1
P P P
t xt t
β̂ = P P 1 2
t xt t xt − n

nȳ t x1t − n t xytt


P P
β̂ =
nx̄ t x1t − n2
P

ȳ t x1t − t xytt
P P
β̂ =
x̄ t x1t − n
P

Al reemplazar β̂ en α̂, y kxt en σt2 se obtiene:


 P 1
P yt

P yt ȳ t xt − t xt
P xt
t kxt − x̄
P 1
−n t kxt
t xt
α̂ = P 1
t kxt
 P 1
P yt

P yt ȳ t xt − t xt
t xt − x̄
P 1
−n
n
t xt
α̂ = P 1
t xt
P 1
P yt P 1
P yt
(x̄ t xt −n) t xt −nȳ t xt +n t xt
1
P
x̄ t xt −n
α̂ = P 1
t xt
P 1
P yt P yt P 1
P yt
x̄ t xt t xt −n xt −nȳ +n
Pt 1
t xt t xt
x̄ t xt −n
α̂ = P 1
t xt
P 1
P yt
t xt (x̄ t xt −nȳ) P yt
x̄ t xt − nȳ
1
P
x̄ t xt −n
α̂ = P 1 = P 1
t xt x̄ t xt − n

33. ¾Cuál de los siguientes casos puede provocar sesgo en los estimadores MCO? Justique
su respuesta (Si o no, y por qué).

a ) Heteroscedasticidad.
b ) Omitir una variable relevante.
c ) Un coeciente de correlación muestral de 0.95 entre 2 variables independientes
incluidas en el modelo.

Respuesta:

a ) No.

E(β̂) = β + (X 0 X)−1 X 0 E(u)


Dado que u ∼ (0, σ 2 I), entonces β̂ es insesgado:

E(β̂) = β
b ) Si. Suponga que el verdadero proceso generador de datos es:

y = X1 β1 + x2 β2 + u
y en su lugar se estima el modelo:

y = X1 β1 + u
El valor esperado del estimador MCO será:

28
E(βˆ1 ) = E[(X10 X1 )−1 X10 y]

E(βˆ1 ) = E[(X10 X1 )−1 X10 X1 β1 ] +E[(X10 X1 )−1 X10 x2 β2 ] + E[(X10 X1 )−1 X10 u]
| {z } | {z }
β1 0

E(βˆ1 ) = β1 + (X10 X1 )−1 X10 x2 β2


Por lo tanto el estimador MCO es sesgado.
c ) No. Un coeciente de correlación muestral alto entre las variables explicativas solo eleva la
varianza del estimador MCO.
34. Sea el modelo yt = βxt + ut , con ut ∼ N ID(0, σt2 ), donde σt2 = σ 2 t, y t = 1, 2, ...., T .

a ) Demuestre que el estimador MCO es insesgado y que su varianza está dada por:
P 2
x t
V ar(β̂M CO ) = σ 2 P t 2t 2
( t xt )

b ) Obtenga el estimador de MCG.


c ) Muestre que la varianza del estimador de MCG es:

σ2
V ar(β̂M CG ) = P x2
t
t t

Respuesta:

a ) El estimador MCO cuando no hay intercepto es:

β t x2t + t ut xt
P P P P
t yt xt ut xt
β̂ = P 2 = P 2 = β + Pt 2
t xt t xt t xt

Y su valor esperado:
1 X
E(β̂) = β + P 2 xt E(ut )
t xt t
| {z }
0

En consecuencia el estimador MCO es insesgado.


Si se supone que los errores no están correlacionados entonces la varianza del estimador MCO
esta dada por:
1 X 1 X
V ar(β̂) = P 2 2 x2t V ar(ut ) = P 2 2 x2 σ 2 t
( t xt ) t ( t xt ) t t

σ2 X
V ar(β̂) = P 2 2 x2 t
( t xt ) t t

b ) Para obetener el estimador de MCG se minimiza la suma de los residuos al cuadrado, pero
esta vez ponderada por la inversa de la parte variable de la varianza de ut .
X1
min s = (yt − xt β)2
β
t
t

La condición de primer orden es:

29
∂s X yt xt X x2
t
= −2 + 2β̂ =0
∂ β̂ t
t t
t

Resolviendo se obtiene el estimador MCG de β .


X x2 X yt xt
t
β̂ =
t
t t
t
P yt xt
β̂M CG = Pt t
x2t
t t

c ) El estimador β̂M CG puede escribirse como:


P (xt β+ut )xt P x2t β+ut xt
t t t t
β̂M CG = P x2t = P x2t
t t t t
P x2t P ut xt P ut xt
β t t + t
β̂M CG = P x2t
t
= β + Pt xt2
t
t t t t

Como los errores no están correlacionados la varianza del estimador puede escribirse como:

1 X x2 σ2 X x2 t
t t
V ar(β̂M CG ) = P x2t 2 V ar(ut ) = P x2 2
t
t2 t
t
t2
t t t t

σ2
V ar(β̂M CG ) = P x2
t
t t

35. Considere el siguiente modelo de regresión simple:

y = α + βx + u

P
(y −ȳ)(zi −z̄)
y sea z una variable instrumental binaria para x. Utilizar β̂ = Pi i para de-
i (xi −x̄)(zi −z̄)
mostrar que el estimador de variables instrumentales(IV) puede escribirse como:

y¯1 − y¯0
β̂IV =
x¯1 − x¯0

donde y¯0 y x¯0 son las medias muestrales de yi y xi para aquellas observaciones con zi = 0,
y donde y¯1 y x¯1 son las medias muestrales de yi y xi para aquellas observaciones con
zi = 1. Este estimador, conocido como estimador de grupo fue propuesto por primera
vez por Wald(1940).
Respuesta:
Suponga que existen k observaciones con zi = 1, por lo tanto el número de observaciones
P conPzi = 0
es n − k. La medias muestrales para
P
las observaciones P
con zi = 1 son y
¯1 = i yi zi
k y x
¯ 1 = ik i i ,
x z

mientras que para zi = 0 son y¯0 = i n−k


yi (1−z i )
y x¯0 = i n−k
x i (1−z i )
. Entonces el estimador por grupos
sugerido por Wald es:
P P
yi zi yi (1−zi )
k
i
− i
n−k
β̂IV = P P
i xi zi i xi (1−zi )
k − n−k
P P
(n−k) yi zi −k i yi (1−zi )
i
k(n−k)
β̂IV = P P
(n−k) i xi zi −k i xi (1−zi )
k(n−k)

30
P P
(n − k) i yi zi − k i yi (1 − zi )
β̂IV = P P
(n − k) i xi zi − k i xi (1 − zi )
P P P P
n i yi zi − k i yi zi − k i yi + k i yi zi
β̂IV = P P P P
n i xi zi − k i xi zi − k i xi + k i xi zi
P P
n yi zi − k i yi
β̂IV = P i P
n i xi zi − k i xi
Multiplicando por n
n se obtiene:
P P P
i yi zi − k ȳ i yi zi − ȳ i zi
β̂IV = P =P P
i xi zi − kx̄ i xi zi − x̄ i zi
P P
(yi − ȳ)zi (yi − ȳ)(zi − z̄)
β̂IV = P i = Pi
(x
i i − x̄)zi i i − x̄)(zi − z̄)
(x
36. Dado el modelo de regresión yt = µ + t , donde E(t ) = 0, V ar(t ) = σ 2 xt , con xt > 0:
a ) ¾Cuál es el estimador lineal más eciente del parámetro µ? ¾Cuál es su varianza?
b ) ¾Cuál es el estimador MCO de µ y cuál es su varianza?
Respuesta:

a ) El estimador lineal más eciente es el estimador de mínimos cuadrados generalizados MCG:


X 1
min s = (yt − µ)2
µ
t
x t

Al derivar y obtener la condición d eprimer orden se tiene que:


∂s X yt X 1
= −2 + 2µ̂ =0
∂ µ̂ t
xt t
xt
Despejando µ̂ se obtiene:
X 1 X yt
µ̂ =
t
xt t
xt
P yt
t xt
µ̂ = P 1
t xt

La varianza del estimador MCG de µ es:


P µ+t P µ P t
t t xt + t
V ar(µ̂) = V ar( P x1t ) = V ar( P 1 xt
)
t xt t xt
µ t t
µ t x1t
P P P P
t t xt t xt
V ar(µ̂) = V ar( P x1t + P 1 ) = V ar( P 1 + P 1 )
t xt t xt t xt t xt
P t
t 1 X t
V ar(µ̂) = V ar(µ + P x1t ) = P 1 2 V ar( )
t xt [ t xt ] t
xt
Bajo el supuesto de independencia de los errores, las covarianza entre los errores de todas las
observaciones son 0.

1 X t 1 X σ 2 xt
V ar(µ̂) = P 1 2 V ar[ ] = P 1 2
[ t xt ] t xt [ t xt ] t x2t

σ 2 t x1t
P
σ2
V ar(µ̂) = P 1 2 = P 1
[ t xt ] t xt

31
b ) Tal y como se ha visto en clase, el estimador MCO de µ es:
P
yt
µ̂ = ȳ = t
n
P P P P
tµ+ t t tµ t
µ̂ = = + t
n n n
P
t
µ̂ = µ + t
n
Y su varianza es:

1 X σ2 X
V ar(µ̂) = V ar( t ) = xt
n2 t n2 t

37. Dado el modelo lineal sin término constante y un solo regresor:

yi = βxi + ui

Donde E(ui ) = 0, E(u2i ) = σi2 suponiendo que las varianzas cambian con el esquema
σi2 2
= σ zi donde zi es una variable conocida.
a ) Obtenga la expresión analítica para el estimador MCG, así como su varianza.
b ) Utilice la desigualdad de Cauchy-Scwarthz para comparar la varianza del estima-
dor obtenido en el literal anterior con el estimador MCO.
c ) ¾Qué ocurriría si a pesar de la heteroscedasticidad se utilizase σ 2 (X 0 X)−1 como
matriz de varianza-covarianza para el estimador MCO.

Nota: La desigualdad de Cauchy-Schwarz garantiza que para dos variables cualquiera


se cumple la expresión: [ i vi wi ]2 ≤ [ i vi2 ][ i wi2 ].
P P P

Respuesta:

a ) Si la matriz de varianzas-covarianzas de u es Ω, entonces el estimador MCG de β expresado


en forma matricial es:

β̂M CG = (x0 Ω−1 x)−1 x0 Ω−1 y


y su varianza:

V ar(β̂M CG ) = σ 2 (x0 Ω−1 x)−1


Teniendo en cuenta que  
z1 0 0 ··· 0
0 z2 0 ··· 0
..
 
.
 
0
Ω= 0 ··· 0
. .. .. .. 

 .. . . zn−1 .
0 0 0 0 zn
el estimador MCG es:
P xi yi
i zi
β̂M CG = P x2i
i zi

y su varianza:

σ2
V ar(β̂M CG ) = P x2
i
i zi

32
b ) Usando la desigualdad de Cauchy-Schwarz [ i vi wi ]2 ≤ [ i vi2 ][ i wi2 ], donde vi = xi
y
P P P

zi

wi = xi zi .

X xi √ X x2 X
i
[ √ xi zi ]2 ≤ [ ][ x2i zi ]
i
zi i
zi i

X X x2 X
i
[ x2i ]2 ≤ [ ][ x2i zi ]
i i
zi i

Al manipular la desigualdad se obtiene:


P 2
1 x zi
x2i
≤ Pi i2 2
P [ i xi ]
i zi

Si se multiplica ambos lados de la inecuación por σ 2 entonces:

σ2 σ 2 i x2i zi
P
P x2i ≤ [P x2 ]2
i zi i i

var(β̂M CG ) ≤ V ar(β̂M CO )

38. Considere un modelo simple para estimar el efecto de tener un computador personal
(PC) sobre el promedio de calicaciones de los estudiantes de una universidad pública:

GP A = β0 + β1 P C + u

Responda lo siguiente:

a ) ¾Por qué debería estar correlacionada P C con el error u?


b ) Explicar por qué P C debe de estar correlacionada con el nivel de renta de los
padres. ¾Es suciente esto para concluir que el nivel de renta de los padres es una
buena variable instrumental para P C ? Justique su respuesta.
c ) Supongamos que hace 4 años, la universidad concedió becas para comprar compu-
tadoras a aproximadamente la mitad de sus estudiantes que recién ingresan y
que, además los alumnos que las recibieron fueron elegidos al azar. Explique como
podría utilizar esta información para construir una variable instraumental para
P C.
Respuesta:

a ) Porque hay otros factores en el error que posiblemente inuyan sobre el promedio de calica-
ciones y esten correlacionados con P C . Un ejemplo es el gasto en educación de los estudiantes
que realizan sus padres. Esta variable está claramente correlacionada con P C .
b ) P C está correlacionada con el nivel de renta de los padres porque es más probable que los
estudiantes con padres de mayores ingresos tengan computadoras y los de menos ingresos no.
Esto no es suciente para concluir que el nivel de renta de los padres es una buena variable
instrumental ya que el nivel de ingresos de los padres puede estar correlacionado con el error.
Por ejemplo está correlacionado con el gasto en educación.
c ) Se puede usar una variable dummy que indique 1 si el estudiante recibió beca y 0 en caso
contrario. Esta variable está claramente correlacionada con P C y dado que los estudiantes que
recibieron las becas fueron escogidos al azar(la variable es exógena en el modelo), entonces no
está correlacionada con el error.

33
39. Supongamos que queremos contrastar si las chicas que asisten a institutos femeninos
de educación secundaria son mejores en matemáticas que las chicas que van a institutos
mixtos. Se dispone de una muestra aleatoria de adolescentes femeninas que estudian los
últimos años de la secundaria en un estado de Estados Unidos, y score es la calicación
en un determinado examen de matemáticas. Sea girlhs una variable cticia que indica
si una estudiante asiste a instituto femenino, conteste:

a ) ¾Qué otras variables se podrían incluir en la ecuación? (Debe ser posible recopilar
datos sobre estas variables.)
b ) Escribir una ecuación que relacione score con girlhs y las otras variables indicadas
en el apartado (a).
c ) Supongamos que el apoyo y la motivación que ofrecen los padres son factores
no observables que se encuentran en el término de error del apartado (b). ¾Es
probable que éstos estén correlacionados con girlhs? Explicar por qué.
d ) Discutir los supuestos necesarios para que el número de institutos femeninos en un
radio de veinte millas de la casa de las estudiantes sea una variable instrumental
válida para girlhs.

Respuesta:

a ) Se puede incluir el ingreso familiar, ya que se esperaría que quienes tienen padres con me-
jores ingresos rindan mejor en los estudios. Se puede incluir una variable proxy del nivel de
inteligencia como el IQ. Otra variable importante que se debería incluir son las horas que la
estudiante dedica a estudiar matemáticas.
b)
score = α + β1 girlhs + β2 ing + β3 IQ + β4 time + u
donde:
girlhs =variable cticia que indica si una estudiante asiste a instituto femenino.
ing =ingreso familiar.
IQ =nivel de IQ.
time =tiempo que la estudiante dedica a estudiar matemáticas medido en horas promedio
semanales.
score =calicación en el examen de matemáticas.
c ) Si es probable que esté correlacionado porque los padres que ofrecen menos apoyo y motivación
tienden a enviar a sus hijas a instututos femeninos. Note que también se puede argumentar
lo contrario. Más alla de la justicación lo que se busca es encontrar un sustento teórico que
permita hacer suspuestos sobre un modelo de regresión, en especial aquellos supuestos que no
se pueden testear.
d ) Para que sea una variable instrumental válida debe estar correlacionada con la variable girlhs.
Obviamente las dos variables están correlacionadas. Mientras haya más institutos femeninos
en un radio de veinte millas de la casa, es más probable que los padres decidas que sus hijas
deben estudiar en institutos femeninos.
La otra condición necesaria es que esta variable no debe estar correlacionada con el error. En el
error se encuentran factores no observables como el apoyo y motivación que los padres ofrecen
a sus hijas. Estos factores no tienen relación alguna con el número de institutos femeninos que
hay cerca de la casa. En resumen, dicha variable cumple con las dos condiciones que hacen que
sea una variable instrumemntal válida.
Sea num el número de institutos femeninos en un radio de veinte millas de las casas de los
estudiantes. Entonces:

Cov(num, girhs) 6= 0

Cov(num, u) = 0

34
40. Comente las siguientes armaciones:

a ) Si los errores en una regresión simple no se distribuyen de forma normal, los


estimadores MCO dejan de ser los Mejores Estimadores Lineales (MELI), pero
siguen siendo insesgados.
b ) Se desea realizar un estudio que tenga como variable dependiente al ahorro agre-
gado para explicarlo por medio de las tasas de interés, en una economía. Un
investigador aún no dene los años de análisis para el estudio. Para procurar que
las estimaciones de mínimos cuadrados ordinarias sean más precisas, ¾el investiga-
dor debe escoger un periodo en el cual las tasas de interés hayan uctuado mucho
o es preferible poca uctuación?
c ) Un investigador plantea una regresión con datos anuales, desde 1981 hasta 1999,
sobre los niveles de consumo agregados explicados por los ingresos, en cierta eco-
nomía. Analiza la siguiente relación:

consumo = α + βingreso + ut

Adicionalmente conoce que el coeciente de correlación entre las variables consumo


e ingreso es igual a 0,7. Al 95 % de conanza es signicativo el coeciente de la
pendiente que se estima?

Respuesta:

a ) Falso. Aún cuando los errores no se distribuyan normal, los estimadores MCO siguen siendo
los mejores estimadores linealmente insesgados. El teorema de Gauss-Markov solo requiere que
E(ui |xi ) = 0 , V ar(ui ) = σ 2 y Cov(ui , uj ) = 0.
b ) El investigador debe escoger un período en el que las tasas de interés hayan uctuado poco.
Si utiliza el resto de períodos es probable que el modelo presente heterocedasticidad.
c ) Falso. Hace falta más información para concluir algo así. Una correlación lineal fuerte entre
dos variables no necesariamente implica que los coecientes de la regresión entre los dos sean
signicativos.
41. Considere el modelo microeconómico de demanda y oferta:

Demanda: Q = α1 P + β1 Z1 + u1

Oferta: Q = α2 P + β2 Z2 + u2

donde Q(= cantidad demandada u of ertada) y P (= precio). Las variables exógenas, Z1 (=


ingreso) y Z2 (= precio de las materias primas), son independientes de las perturbaciones
estructurales u1 y u2 . Estas perturbaciones tienen esperanza 0. En lo siguiente, respecto
a la estimación, supondremos que disponemos de una muestra de observaciones de Q,
P , Z1 y Z2 .
a ) Muestre que si α1 6= 0 o α2 6= 0, existe al menos una forma reducida para Q.
b ) Si α1 6= 0 y α2 = 0, obtener la forma reducida de P .
c ) Si α1 6= 0, α2 6= 0 y α1 6= α2 , encuentre las formas reducidas para P y Q.
Respuesta:

a ) Despejando P de la ecuación de oferta:

Q β2 u2
P = − Z2 − (9)
α2 α2 α2
Como se puede apreciar hasta ahora, es necesario que α2 6= 0 para poder despejar P , y por
lo tanto que la forma reducida de Q exista. Reemplazando (9) en la ecuación de demanda se
obtiene:

35
Q β2 u2
Q = α1 ( − Z2 − ) + β1 Z1 + u1
α2 α2 α2

α1 α1 β2 α1 u2
Q(1 − ) = β1 Z 1 − Z2 − + u1
α2 α2 α2

β1 α1 β2 α1 u2 u1
Q= α1 Z1 − α1 Z2 + − α1 + α1
(1 − α ) (1 − α2 )α2 (1 − α2 )α2 (1 − α )
| {z 2 } | {z } | {z 2
}
π1 π2 v1

Si al principio se despeja P de la ecuación de demanda, entonces la condición α1 6= 0 será


necesaria.
b ) Como α2 = 0 al momento de igualar las dos ecuaciones se obtiene:

α1 P + β1 Z1 + u1 = β2 Z2 + u2

β2 β1 u2 u1
P = Z2 − Z1 + −
α1 α1 α1 α1
|{z} |{z} | {z }
π3 π4 v2

c ) La forma reducida para Q es la misma que la del literal (a). La forma reducida para P
será distinta. La condición α1 6= α2 garantiza que la forma reducida exista como se verá a
continuación. Se pueden escribir las dos ecuaciones en forma matricial.
       
1 −α1 Q β 0 Z1 u
= 1 + 1 (10)
1 −α2 P 0 β2 Z2 u2
| {z }
B

Para que la forma reducida exista, la inversa de la matriz B tiene que existir. Si α1 = α2 ,
entonces el determinante de la matriz es 0 y por lo tanto no tiene inversa. Usando la condición
del ejercicio la matriz inversa existe y es igual a:
 
1 −α2 α1
B −1 =
α1 − α2 −1 1

Premultiplicando (10) por B −1 se obtiene la forma reducida:


  " α2 β1 α1 β2
#  
α1 u2 α2 u1 
Q − α1 −α2 α1 −α2 Z1 α1 −α2 − α1 −α2
= + u2 u1
P − β1 β2
Z2 α1 −α2 − α1 −α2
|{z} | α1 −α2{z α1 −α2
} | {z } | {z }
y π z v

42. Construya el estimador VI y su varianza para el vector de parámetros β a partir del


modelo:

y = Xβ + u

X = Zγ + 

Respuesta:
Primero se regresa X sobre Z para obtener el mejor instrumento para X . Luego en la primera
ecuación se sustituye X por la predicción de la segunda. Es decir:

y = PZ Xβ + u

36
Se obtiene el estimador de β de la forma común:

β̂V I = (X 0 PZ X)−1 X 0 PZ y

La varianza del estimador es

V ar(β̂) = V ar((X 0 PZ X)−1 X 0 PZ u)

V ar(β̂) = (X 0 PZ X)−1 X 0 PZ V ar(u) PZ X(X 0 PZ X)−1


| {z }
σ2 I

V ar(β̂) = σ 2 (X 0 PZ X)−1 X 0 PZ X(X 0 PZ X)−1 = σ 2 (X 0 PZ X)−1


| {z }
I

43. Suponga que se quiere determinar la relación entre la cantidad que contribuye un
empleado a su plan de pensiones en función de la generosidad del plan. Para ello se
plantea el siguiente modelo:

yi,e = β0 + β1 xi,e,1 + β2 xi,e,2 + β3 xi,3 + ui,e

donde yi,e es la contribución anual del empleado e que trabaja en la empresa i, xi,e,1 es
el ingreso anual de esta persona y xi,e,2 es su edad. xi,3 es la cantidad que la empresa
aporta a la cuenta de un empleado por cada dólar con que éste contribuye.
Suponga que para este modelo se cumplen los supuestos de Gauss-Markov. Sin embargo
usted no cuenta con datos para cada empleado, pero en su lugar cuenta con datos
promedio por empresa, asi como con el número de empleados por empresa. Se plantea
el siguiente modelo para las empresas usando datos promedio:

y¯i = α0 + α1 x̄i,1 + α2 x̄i,2 + α3 xi,k + ūi (11)

−1 Pmi
donde ūi = mi e ui,e es el error promedio de todos los empleados de la empresa i.
Si para todo e, V ar(ui,e ) = σ 2 y los errores no están correlacionados entre empleados,
conteste:

a ) Calcular V ar(ūi ) . ¾Es correcto usar el estimador MCO? ¾Por qué?


b ) ¾Qué ponderador de la suma residual, usaría para estimar el modelo por mínimos
cuadrados ponderados y por qué? (No solo de una explicación matemática, sino
también una breve explicación intuitiva).

Respuesta:

a)
mi
X
V ar(ūi ) = V ar(m−1
i ui,e )
e

mi mi
1 X 1 X
V ar(ūi ) = V ar(ui,e ) = σ2
m2i e m2i e

mi 2 σ2
V ar(ūi ) = σ =
m2i mi
No es correcto usar MCO debido a que la varianza del error será más pequeña a medida que el
número de empleados aumente y por lo tanto el supuesto de homocedasticidad no se cumple.

37
b ) El ponderador de la suma residual que hace cumplir el supuesto de homocedasticidad es el

número de empleados de la empresa. Es decir, si se multiplica el modelo (11) por mi , el
modelo cumple todos los supuestos necesarios para estimar por MCO.

√ σ2
V ar(ūi m1 ) = mi = σ 2
mi
Al hacer esto, se le está asignando más peso a las empresas con mayor número de empleados.
De esta manera se compensa la reducción de la varianza de ūi a medida que el número de
empleados es mayor.4
44. Considere un modelo para los empleados de varias empresas.

yi,e = β0 + β1 xi,e,1 + β2 xi,e,2 + .. + βk xi,e,k + fi + vi,e

donde la variable inobservada fi es un efecto de la empresa para cada empleado en


una empresa dada i. El término de error vi,e es especíco para cada empleado e de la
empresa i. El error compuesto es ui,e = fi + vi,e .

a ) Suponga que V ar(fi ) = σf2 , V ar(vi,e ) = σv2 , y que fi y vi,e no están correlacionadas.
Muestre que V ar(ui,e ) = σf2 + σv2 ; llame a esto σ 2 .
b ) Ahora suponga que para e 6= g , vi,e y vi,g no están correlacionadas. Muestre que
Cov(ui,e , ui,g ) = σf2 .
c ) Sea ūi = m−1
Pmi
i e ui,e , el promedio de errores compuestos dentro de una empresa.
σ2
mi es el número total de empleados de la empresa i. Muestre que V ar(ūi ) = σf2 + mvi .
d ) Analice la relevancia del inciso (c) para la estimación por mínimos cuadrados
ponderados empleando datos promediados a nivel de las empresas, donde el pon-
derador empleado para la observación i es el tamaño de la rma.

Respuesta:

a)
V ar(ui,e ) = V ar(fi + vi,e ) = V ar(fi ) + V ar(vi,e )

V ar(ui,e ) = σf2 + σv2 = σ 2


La varianza de ui,e es simplemente la suma de las varianzas de fi y vi,e porque estas variables
no estan correlacionadas y por ende tienen covarianza 0.
b)
Cov(ui,e , ui,g ) = E[ui,e ui,g ] − E[ui,e ]E[ui,g ]

Cov(ui,e , ui,g ) = E[(fi + vi,e )(fi + vi,g )] − E[fi + vi,e ]E[fi + vi,g ]

= E[fi2 + fi vi,g + fi vi,e + vi,e vi,g ] − E[fi ]E[fi ] + E[fi ]E[vi,g ]



Cov(ui,e , ui,g )

+E[vi,e ]E[vi,g ] + E[fi ]E[vi,e ]

Cov(ui,e , ui,g ) = E[fi2 ] − E[fi ]E[fi ] + E[fi vi,g ] − E[fi ]E[vi,g ] + E[fi vi,e ] − E[fi ]E[vi,e ]
| {z } | {z } | {z }
V ar(fi ) Cov(fi ,vi,g ) Cov(fi ,vi,e )

+ E[vi,e vi,g ] − E[vi,e ]E[vi,g ]


| {z }
Cov(vi,e ,vi,g )

4 Como se vió en clase, los ponderadores muchas veces se escogen arbitrariamente. Este ejercicio ilustra como algunas
veces pueden surgir de forma natural.

38
Dado es supuesto de correlación 0 entre fi y vi,g , y correlación 0 entre vi,e y vi,g , los últimos
tres términos del lado derecho de la ecuación anterior son 0.

Cov(ui,e , ui,g ) = E[fi2 ] − E[fi ]E[fi ] = σf2


| {z }
V ar(fi )

c)
mi
X
V ar(ūi ) = V ar(m−1
i ui,e )
e

mi mi
1 X 1 hX XX i
V ar(ūi ) = 2 V ar( u i,e ) = 2 V ar(ui,e ) + 2 Cov(ui,e , ui,g )
mi e
mi e e g

1 h X i 1 h mi i
V ar(ūi ) = 2 mi σ 2 + 2 (mi − 1)σf2 = 2 mi σ 2 + 2 (mi − 1)σf2
mi e
mi 2

1 h 2 2 2 2 2
i σf2 σv2 2
σf2
V ar(ūi ) = m σ
i f + m σ
i v + m σ
i f − m σ
i f = + + σ f −
m2i mi mi mi

σv2
V ar(ūi ) = σf2 +
mi
d ) El problema de usar el tamaño de la rma como ponderador es que aun así la varianza del
nuevo error dependerá del tamaño de la rma. La varianza del nuevo modelo será:

V ar(ū∗i ) = mi σf2 + σv2


45. Proponga un estadístico para el contraste de hipótesis nula H0 : β2 = 0 en el modelo:

y t = β1 + β2 x t + u t , V ar(ut ) = σt2 = σu2 x2t

Respuesta:
Se estima el modelo por MCO asumiendo homocedasticidad, sin embargo la varianza del estimador
cambia. En su lugar se construye la varianza usando el estimador de White.
X 
V ar(β̂) = (X 0 X)−1 uˆt 2 (xt x0t ) (X 0 X)−1
t

Para el caso de βˆ2 , se tiene:

(xt − x̄)uˆt 2
P
V ar(βˆ2 ) = Pt
[ t (xt − x̄)2 ]2

Luego se usa el estadístico t habitual pero usando la nueva varianza. Es decir:

βˆ2
t = qP
(xt −x̄)uˆt 2
Pt 2 2
[ t (xt −x̄) ]

46. Considere el modelo yt = βxt + ut , con σt2 = k(βxt )2 , donde las variables se hallan en
diferencias respecto a sus medias muestrales.

a ) Pruebe que el estimador de MCG de β es igual al promedio muestral del cociente


yt
xt . Halle su varianza.
b ) ¾Qué tipo de problemas surgirían en esta estimación si xt = 0 para algún t? ¾Qué
inferencia obtendríamos del resultado?

39
Respuesta:

a ) El estimador de MCG puede escribirse como:

β̂ = (x0 Ω−1 x)−1 x0 Ω−1 y


donde
1
 
k(βx1 )2 0 ··· 0
1
 0 k(βx2 )2 ··· 0 
−1
 
Ω = .. .. .. .. 

 . . . .


1
0 0 0 k(βxT )2

Resolviendo se obtiene:
 T −1 1 X y P yt
t t xt
β̂ = =
kβ 2 kβ 2 t xt T

La varianza del estimador MCG es:


 T −1 kβ 2
V ar(β̂) = (x0 Ω−1 x)−1 = =
kβ 2 T

b ) Si xt = 0 para algún t, entonces se obtendrá un β̂ innito.


47. Suponga el modelo:

y1 = β0 + β1 y2 + β2 z1 + u1 (12)

donde y2 es endógena y z1 es exógena. Se cuenta con una variable z2 que sirve como
instrumento para y2 . Al tomar la forma reducida de y2 y sustituirla en el modelo (12)
se obtiene la forma reducida para y1 :

y1 = α0 + α1 z1 + α2 z2 + v1
a ) Obtener los coecientes αj en función de los coecientes de la forma reducida de
y2 y los βj .
b ) Obtener el error de forma reducida , v1 , en función de u1 , v2 y los parámetros.
c ) ¾Cómo estimaríamos consistentemente los αj ?
Respuesta:

a ) La forma reducida de y2 es:

y2 = π0 + π1 z1 + π2 z2 + v2 (13)
Sustituyendo (13) en (12) se obtiene:

y1 = β0 + β1 (π0 + π1 z1 + π2 z2 + v2 ) + β2 z1 + u1

y1 = β0 + β1 π0 + β1 π1 z1 + β1 π2 z2 + β1 v2 + β2 z1 + u1

y1 = β0 + β1 π0 + (β1 π1 + β2 ) z1 + β1 π2 z2 + β1 v2 + u1
| {z } | {z } | {z } | {z }
α0 α1 α2 v1

Por lo tanto, α0 = β0 + β1 π0 , α1 = β1 π1 + β2 y α2 = β1 π2 .
b ) Del resultado anterior se tiene que v1 = β1 v2 + u1 .

40
c ) Los αj pueden estimarse por MCO debido a que las variables z1 y z2 son exógenas en el modelo,
sin embargo no se podrá recuperar los coecientes βj y πj debido a que habrán más incógnitas
que ecuaciones.
48. Considere el modelo simple de series temporales donde la variable explicativa tiene un
error de medida clásico:

yt = β0 + β1 x ∗t +ut (14)

xt = x∗t + et

donde ut tiene media cero y no está correlacionado con x∗t y et . Solamente se observan
las variables yt y xt . Suponga que et tiene media cero y no está correlacionado con x∗t
y que x∗t tiene también media cero (este último supuesto se hace sólo para simplicar
el álgebra)

a ) Sustituir x∗t = xt − et y sustituirlo en la ecuación (14). Demostrar que el término


de error en la nueva ecuación, digamos vt , tiene correlación con negativa con xt si
β1 > 0. ¾Qué implica esto para el estimador MCO de β1 en la regresión de yt sobre
xt ?
b ) Además de los supuestos anteriores, suponga que ut y et no están correlacionados
con todos los valores pasados de x∗t y e∗t ; en particular, con x∗t−1 y et−1 . Demostrar
que E(xt−1 vt ) = 0, donde vt es el término de error en el modelo del apartado (a).
c ) ¾Es probable que las variables xt y xt−1 están correlacionadas? Explicar por qué.
d ) ¾Qué estrategia sugieren los apartados (b) y (c) para estimar consistentemente β0
y β1 ?

Respuesta:

a ) Al sustituir x∗t = xt − et en (14) se obtiene:

y t = β0 + β1 x t + u t − β1 e t
| {z }
vt

Dado que xt tiene media cero la covarianza entre xt y vt puede escribirse como:

Cov(xt , vt ) = E(xt vt )

Cov(xt , vt ) = E[(x∗t + et )(ut − β1 et )]

Cov(xt , vt ) = E(x∗t ut − β1 et x∗t + et ut − β1 e2t )

Cov(xt , vt ) = E(x∗t ut ) −β1 E(et x∗t ) + E(et ut ) −β1 E(e2t )


| {z } | {z } | {z }
0 0 0

donde E(e2t ) es la varianza de et , y siempre será positiva. Si β1 > 0 , entonces la covarianza


y por ende la correlación será negativa. En consecuencia el estimador de β1 será sesgado e
inconsistente.

41
b)
E(xt−1 vt ) = E[(x∗t−1 + et−1 )(ut − β1 et )]

E(xt−1 vt ) = E(x∗t−1 ut + et−1 ut − β1 et x∗t−1 − β1 et et−1 )

E(xt−1 vt ) = E(x∗t−1 ut ) + E(et−1 ut ) −β1 E(et x∗t−1 ) −β1 E(et et−1 )


| {z } | {z } | {z } | {z }
0 0 0 0

E(xt−1 vt ) = 0
c ) Al obtener la covarianza

Cov(xt , xt−1 ) = E(xt xt−1 )

Cov(xt , xt−1 ) = E(x∗t x∗t−1 + et x∗t−1 + x∗t et−1 + et et−1 )

Cov(xt , xt−1 ) = E(x∗t x∗t−1 ) + E(et x∗t−1 ) +E(x∗t et−1 ) + E(et et−1 )
| {z } | {z }
0 0

es probable que si esten correlacionados debido a que no se conocen la correlación entre x∗t y
x∗t−1 , y la correlación entre x∗t y et−1 .
d ) La manera de estimar consistentemente los parámetros del modelo (14) es por el método
de variables instrumentales. Un buen instrumento es xt−1 debido a que Cov(xt−1 xt ) 6= 0 y
Cov(xt−1 vt ) = 0.
49. Considere este modelo microeconómico de demanda y oferta de trabajo:

Demanda: y1 = α1 + α2 y2 + α3 x1 + α4 x2 + u1

Oferta: y1 = α5 + α6 y2 + u2

Aquí, y1 (=horas de trabajo) e y2 (=salario) son las variables endógenas. Las variables
exógenas, x1 (=tipo de interés) y x2 (=precio de las materias primas), son independien-
tes de las perturbaciones estructurales u1 y u2 . Estas perturbaciones tienen esperanza
cero. En lo siguiente, respecto a la estimación, supondremos que disponemos de una
muestra de observaciones de y1 , y2 , x1 y x2 de tamaño moderado, y que las regresiones
lineales a efectuar incluyen una constante.

a ) Derive la forma reducida.


b ) ¾Está identicada la ecuación de oferta? ¾Debe estimarse a partir de la regresión
lineal mínimo-cuadrática de y1 sobre y2 ? Explicar.
c ) ¾Está identicada la ecuación de demanda? ¾Debe estimarse a partir de la regre-
sión lineal mínimo-cuadrática de y1 sobre y2 , x1 y x2 ? Explicar.
d ) Se le pide que estime la ecuación de oferta por mínimos cuadrados en dos estapas.
¾Qué pasos seguiría? Sea breve pero explícito.
e ) Se le pide que estime la ecuación de demanda por mínimos cuadrados en dos
estapas. ¾Qué pasos seguiría? Sea breve pero explícito.

Respuesta:

42
a ) Al igualar la oferta y demanda se despeja y2 .

α1 + α2 y2 + α3 x1 + α4 x2 + u1 = α5 + α6 y2 + u2

α2 y2 − α6 y2 = α5 − α1 − α3 x1 − α4 x2 + u2 − u1

(α2 − α6 )y2 = α5 − α1 − α3 x1 − α4 x2 + u2 − u1
Si se asume que α2 6= α6 se puede dividir ambos lados de la ecuación anterior para α2 − α6 .
α5 − α1 −α3 −α4 u2 − u1
y2 = + x1 + x2 +
α2 − α6 α2 − α6 α2 − α6 α2 − α6
| {z } | {z } | {z } | {z }
π1 π2 π3 v1

Para obtener la forma reducida de y1 , se reemplaza la ecuación anterior en la ecuación de


oferta.
α − α −α3 −α4 u2 − u1 
5 1
y1 = α5 + α6 + x1 + x2 + + u2
α2 − α6 α2 − α6 α2 − α6 α2 − α6

α6 (α5 − α1 ) −α6 α3 −α6 α4 α6 (u2 − u1 )


y1 = α 5 + + x1 + x2 + + u2
α2 − α6 α2 − α6 α2 − α6 α2 − α6
α5 α2 − α1 α6 −α6 α3 −α6 α4 α2 u2 − α6 u1
y1 = + x1 + x2 +
α2 − α6 α2 − α6 α2 − α6 α −α
| {z } | {z } | {z } | 2 {z 6 }
π4 π5 π6 v2

b ) La ecuación de oferta si está identicada, sin embargo no se debe estimar por mínimos cuadra-
dos ordinarios debido a que y2 es endógena y causa un sesgo de simultaneidad en el estimador,
además de la inconsistencia.
c ) La ecuación de demanda no está identicada, y tampoco debe estimarse por mínimos cuadrados
ordinarios por la misma razón (el estimador es sesgado e inconsistente).
d ) Primero se regresa y2 sobre x1 y x2 . Mediante una prueba de hiótesis se testea si los coecientes
que acompañan estas variables son signicativos. De ser así, el segundo paso es regresar y1
sobre yˆ2 , donde yˆ2 es la predicción de la regresión de y2 sobre x1 y x2 .
e ) No se puede estimar por mínimos cuadrados en dos etapas debido a que la ecuación no está
identicada.
50. En el modelo lineal

yi = x0i β + ui

E(ui ) = 0

Suponga que los términos de error no están correlacionados, sin embargo no se cumple
el supuesto de homocedasticidad. Suponga que la estructura de la varianza del error
cambia en función de xi y además es conocida. Muestre que el estimador de mínimos
cuadrados generalizados de β puede ser escrito como un estimador de variable instru-
mental usando algún instrumento zi . (Encuentre una expresión para zi en función de
xi )
Respuesta:
Expresando la matriz de varianzas-covarianzas de u como Ω, el estimador de mínimos cuadrados
generalizados es:

43
β̂M CG = (X 0 Ω−1 X)−1 X 0 Ω−1 y

Al compararlo con el estimador de variable instrumental

β̂IV = (Z 0 X)−1 Z 0 y

se puede notar que es necesario que Z 0 sea igual a X 0 Ω−1 . Debido a la simetría de Ω−1 , la matriz
de instrumentos Z puede ser escrita como:

Z = Ω−1 X

 1 
σ12
0 ··· 0  x11 x21 ··· xk1

1
0
σ22
··· 0  x12 x22 ··· xk2 
. .. .. 

 ..
Z= .. .. ..  ..

 . . . .   .. . . . 

0 0 ··· 1
σ2
x1n x2n ··· xkn
n

Por lo tanto, el instrumento zi0 puede ser escrito como

1 0
zi0 = x
σi2 i

Referencias
[1] Novales (1993); Econometría.
[2] Wooldridge (2008); Introductory Econometrics: A Modern Approach.
[3] Greene (2005); Econometric Analysis.
[4] Gujarati & Porter (2010); Econometría.
[5] B. Hansen (2012); Econometrics.
[6] Johnston and Dinardo (1996); Econometric Methods.

44

También podría gustarte