Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Econometria I Ejercicios PDF
Econometria I Ejercicios PDF
Mayo 2014
n
P
xi yi
i=1
β̂ = n
σ2
x2i
P
β2 +
i=1
a ) El sesgo del estimador β̂ se dene como: b(β̂, β) = E(β̂) − β . Por lo tanto el problema consiste
en demostrar que E(β̂) está entre 0 y β , o lo que es lo mismo, que b(β̂, β) sea de signo contrario
aβ
Se empieza calculando
n
P
xi (βxi + ui ) !
i=1
E(β̂) = E n
σ2
x2i
P
β2 +
i=1
n
(βx2i + xi ui ) !
P
i=1
E(β̂) = E n
σ2
x2i
P
β2 +
i=1
n n
x2i +
P P
β xi ui !
i=1 i=1
E(β̂) = E n
σ2
x2i
P
β2 +
i=1
n n
1 X X
E(β̂) = n E[ βx2i + xi ui ]
σ2
x2i
P
β2 + i=1 i=1
i=1
n n
1 X X
E(β̂) = n [β x2i + E[ xi ui ]]
σ2
x2i
P
β2 + i=1 i=1
i=1
| {z }
0
* Cualquier duda o comentario escribir a gvilla@espol.edu.ec.
1
Esto último debido a que E[xi ui ] = 0.
Entonces n
x2i
P
β
i=1
E(β̂) = n
σ2
x2i
P
β2 +
i=1
Hasta aquí ya es posible observar que el valor esperado del estimador está entre 0 y β , sin
embargo se calculará el sesgo:
n n
x2i x2i
P P
β " #
i=1 i=1
b(β̂, β) = n −β =β n −1
σ2 σ2
x2i x2i
P P
β2 + β2 +
i=1 i=1
Lo que está dentro del paréntesis es negativo, por lo tanto el sesgo es de signo contrario a β ,
por lo que está sesgado hacia 0.
b)
n
P
" xi yi #2
2 i=1
E(β̂ − β) = E n −β
σ2
x2i
P
β2 +
i=1
n n
σ2
" P xi yi − x2i #2
P
β −β
i=1 i=1
E(β̂ − β)2 = E n
σ2
x2i
P
β2 +
i=1
n n n
" β P x2 + P xi ui − σ2
x2i #2
P
i β −β
2 i=1 i=1 i=1
E(β̂ − β) = E n
σ2
x2i
P
β2 +
i=1
n
2
σ2
P
E xi ui − β
i=1
E(β̂ − β)2 = 2
n
σ2
x2i
P
β2 +
i=1
n n
2 P 2
E [ xi ui ]2 − 2 σβ xi ui + [ σβ ]2
P
i=1 i=1
E(β̂ − β)2 = 2
n
σ2
x2i
P
β2 +
i=1
Obteniendo el valor esperado de cada término del numerador y teniendo en cuenta que E[xi ui ] =
0, E[ui uj ] = 0 la ecuación anterior se reduce a:
n 2
n
P
σ2
σ2 x2i + [ σβ ]2 σ2 x2i +
P
β2
E(β̂ − β)2 = i=1 2 =
i=1
2
n n
σ 2 P 2 σ 2 P 2
β2 + xi β2 + xi
i=1 i=1
σ2
E(β̂ − β)2 = n
σ2
x2i
P
β2 +
i=1
2
c)
V ar(β̂) = E[β̂ − E(β̂)]2
n n n
" β P x2 + P xi ui β
P
x2i #2
i
i=1 i=1 i=1
V ar(β̂) = E n − n
σ2 σ2
x2i x2i
P P
β2 + β2 +
i=1 i=1
n n n
" β P x2 + P xi ui − β P x2 #2
i i
i=1 i=1 i=1
V ar(β̂) = E n
σ2
x2i
P
β2 +
i=1
n n
xi ui ]2
P P
" xi ui #2 E[
i=1 i=1
V ar(β̂) = E n =h n i2
σ2 σ2
x2i x2i
P P
β2 + β2 +
i=1 i=1
n
σ2 x2i
P
i=1
V ar(β̂) = h n i2
σ2
x2i
P
β2 +
i=1
Para probar que la varianza del estimador MCO es mayor basta con probar que la diferencia
entre la varianza del estimador MCO y la varianza del estimador propuesto es positiva.
n
σ2 x2i
P
2
σ i=1
V ar(β̂M CO ) − V ar(β̂) = P
n −h n i2
σ2
x2i x2i
P
β2 +
i=1 i=1
h n i2 n
hP i2
σ2
σ2 x2i − σ2 x2i
P
β2 +
i=1 i=1
V ar(β̂M CO ) − V ar(β̂) = h n n
i2 P
σ2
x2i x2i
P
β2 +
i=1 i=1
" #
h n i2 n
hP i2
2 σ2
x2i x2i
P
σ β2 + −
i=1 i=1
V ar(β̂M CO ) − V ar(β̂) = h n n
i2 P
σ2
x2i x2i
P
β2 +
i=1 i=1
" #
h i2 n n
hP i2 n
hP i2
σ2 2
2
2 βσ2 x2i x2i x2i
P
σ β2 + + −
i=1 i=1 i=1
V ar(β̂M CO ) − V ar(β̂) = h n n
i2 P
σ2
x2i x2i
P
β2 +
i=1 i=1
" #
h 2
i2 2
n
σ
σ2 + 2 βσ2 x2i
P
β2
i=1
V ar(β̂M CO ) − V ar(β̂) = h n n
i2 P >0
σ2
x2i x2i
P
β2 +
i=1 i=1
3
P P
Y y
βˆ1 = Pt t βˆ4 = Pt t
t Xt t xt
βˆ2 = 1 Yt
βˆ5 = 1 yt
P P
T t Xt T i xt
P P
X Y x y
βˆ3 = Pt t 2 t βˆ6 = Pt t 2 t
t Xt t xt
donde letras minúsculas indican diferencias entre los valores representados por las
mayúsculas y sus respectivos promedios muestrales. Todas las sumas anteriores son
desde t = 1 hasta t = T , donde T es el tamaño muestral. Calcular la esperanza y la
varianza de cada estimador y sugerir cuál de ellos debería utilizarse.
Respuesta:
E(βˆ1 ):
hP Y i
t
E(βˆ1 ) = E P t
t tX
h P (α + βX + u ) i P
t ut
h Tα i
E(βˆ1 ) = E t P t t
=E P +β+ P
t Xt t Xt t Xt
P
tE(ut )
h P (α + βX + u ) i Tα
| {z }
E(βˆ1 ) = E t P t t
=P +β+ P 0
t Xt t Xt t Xt
V ar(βˆ1 ): P P
h Tα ut i t V ar(ut )
V ar(βˆ1 ) = V ar P + β + Pt = hP i2
t Xt t Xt X
t t
T σ2
V ar(βˆ1 ) = hP i2
t Xt
E(βˆ2 ):
1 hX Yt i 1 hX α ut i
E(βˆ2 ) = E = E ( +β+ )
T t
Xt T t
Xt Xt
1 h X 1 X ut i
E(βˆ2 ) = E α + Tβ +
T t
Xt t
Xt
E(ut )
| {z }
α X 1 1 X 0
E(βˆ2 ) = +β+
T t Xt T t Xt
V ar(βˆ2 ):
1 hX Y i
t
V ar(βˆ2 ) = 2 V ar
T t
Xt
1 h X 1 X ut i
V ar(βˆ2 ) = V ar α + T β +
T2 t
Xt t
Xt
1 X V ar(ut )
V ar(βˆ2 ) = 2
T t Xt2
σ2 X 1
V ar(βˆ2 ) =
T 2 t Xt2
4
E(βˆ3 ):
hP X Y i hα P X β t Xt2
P P
Xu i
E(βˆ3 ) = E t t t t t
P 2 = E P 2 + P 2 + Pt t 2 t
t Xt t Xt t Xt t Xt
P
t Xt E(ut )
P | {z }
α Xt
E(βˆ3 ) = P t 2 + β + P 20
X
t t t Xt
V ar(βˆ3 ):
hα P X β t Xt2
P P
ˆ t t Xt ut i
V ar(β3 ) = V ar P 2 + P 2 + Pt 2
t Xt t Xt t Xt
Xt2 V σ2
P
ar(ut )
V ar(βˆ3 ) = tP
2 2 = P 2
( t Xt ) t Xt
1 hX α + βXt + ut − α − β X̄ − ū i
E(βˆ5 ) = E
T t
xt
1 hX α + βXt + ut − α − β X̄ − ū i
E(βˆ5 ) = E
T t
xt
E(ut − ū)
X ut − ū i | {z } i
1 h 1 h X 0
E(βˆ5 ) = E Tβ + = Tβ +
T t
xt T t
x t
E(βˆ5 ) = β
V ar(βˆ5 ):
1 h X ut − ū i
V ar(βˆ5 ) = 2 V ar T β +
T t
xt
1 hX h u − ū i XX 1 1 i
t
V ar(βˆ5 ) = (V ar ) + 2 Cov(ui − ū, u t − ū)
T2 t xt i t
xi xt | {z }
2
i<t − σT
2 2
1 hXh σ 2 + σT − 2 σT i 2σ 2 X X 1 1 i
V ar(βˆ5 ) = −
T2 t x2t T i t xi xt
i<t
5
1 h 2 σ 2 Xh 1 i 2σ 2 X X 1 1 i
V ar(βˆ5 ) = (σ − ) −
T2 T t
x2t T i t xi xt
i<t
Los momentos de βˆ6 son conocidos, debido a que es el estimador de mínimos cuadrados ordinarios.
2
E(βˆ6 ) = β V ar(βˆ6 ) = Pσ 2
t xt
Una propiedad deseable de un estimador es que sea insesgado, así que se seleccionará entre los
estimadores insesgados. Si se comparan las varianzas de los dos estimadores insesgados βˆ6 y βˆ5 se
puede observar que la varianza de βˆ6 es menor que la de βˆ5 . Esto también se sabe gracias al teorema
de Gauss-Markov.
3. Considere los siguientes modelos:
yi = β1 + β2 xi + ui
yi∗ = α1 + α2 x∗i + ui
donde y ∗ y x∗ son variables estandarizadas. Demuestre que αˆ2 = βˆ2 SSxy , donde Sx y Sy
son las desviaciones estándar muestrales de x y y respectivamente.
Respuesta:
P
P ∗ ∗ (yi −ȳ)(xi −x̄)
y x Sy Sx
αˆ2 = P i∗ i2 = P
(xi −x̄)2
(xi ) 2
Sx
P
(yi − ȳ)(xi − x̄) Sx S
x
αˆ2 = P 2
= βˆ2
(xi − x̄) Sy Sy
Este resultado muestra que a pesar de que los coecientes de pendiente son independientes de un
cambio en el origen, no lo son de un cambio de escala.
4. Sean β̂yx y β̂xy las pendientes de la regresión de y sobre x y de x sobre y , respectiva-
mente. Demuestre que:
β̂yx β̂xy = R2
(x − x̄)2
P
2
R = 2
β̂yx P i
(yi − ȳ)2
6
(xi − x̄)2 (x − x̄)2
P P P
(yi − ȳ)(xi − x̄)
R2 = β̂yx β̂yx P 2
= β̂ yx P 2
× P i
(yi − ȳ) (xi − x̄) (yi − ȳ)2
P
(yi − ȳ)(xi − x̄)
R2 = β̂yx P = β̂yx β̂xy
(yi − ȳ)2
R2 = β̂ δ̂
1
R2 = β̂ δ̂ = β̂ =1
β̂
6. Considere los siguientes modelos:
ln yi∗ = α1 + α2 ln x∗i + ui
ln yi = β1 + β2 ln xi + ui
zi = ln xi
zi∗ = ln x∗i
Al simplicar la siguiente expresión zi∗ − z̄ ∗ se obtiene un resultado importante:
P ln w
2
zi∗ ∗
− z̄ = ln w2 + zi − + z¯i = zi − z¯i
n
Se puede hacer el mismo ejercicio para la variable dependiente y se llegará a un resultado
similar. Por lo tanto los coecientes de pendiente para ambos modelos serán los mismos y sus
errores estándar también.
El coeciente de intercepto del primer modelo será:1
7
αˆ1 = ln w1 + ln¯yi − αˆ2 ln w2 − αˆ2 ln¯xi
Al obtener la varianza:
Se puede observar que el estimador del coeciente de intercepto no será igual, además su
error estándar también sera distinto como se aprecia en la ecuación anterior. La varianza del
estimador αˆ1 será igual a la varianza del estimador βˆ1 mas una constante multiplicada por la
varianza de βˆ2 .
b ) El R2 en ambos modelos serán los mismos. Esto puede comprobarse mostrando que lnˆyi∗ −
ln¯yi∗ = lnˆyi − ln¯yi o simplemente usando el resultado del ejercicio 5. Dado que los estimadores
de las pendientes son iguales en ambos modelos, el R2 será el mismo.
7. Suponga que las variables explicativas de un modelo de regresión lineal y = Xβ + µ
pueden dividirse en dos sub-matrices X 1 y X 2 con la propiedad que ambas son orto-
gonales entre sí. Demuestre que los estimadores MCO para los sub-vectores β 1 y β 2
para los modelos parciales:
(
y = X1 β1 + µ1
y = X2 β2 + µ2
y = PX y + MX y = X 1 β̂ 1 + X 2 β̂ 2 + MX y (1)
donde PX es la matriz que proyecta sobre el espacio columna de X y MX es la matriz que proyecta
sobre el complemento ortogonal del espacio columna de X .
Si se multiplica (1) por X 01 se obtiene:
X 01 y = X 01 X 1 β̂ 1 + X 01 X 2 β̂ 2 + X 01 MX y
X 01 y = X 01 X 1 β̂ 1 + X 01 X 2 β̂ 2 + X 01 MX y (2)
| {z } | {z }
O O
8
(X 01 X 1 )−1 X10 y = β̂ 1
Se pide:
Respuesta:
û0 û
V ar(β̂) = σˆ2 (X 0 X)−1 = (X 0 X)−1
n−3
βˆ2 1,6
t= q = = 16
0,1
V ar(βˆ2 )
9
Respuesta:
Resolviendo el lado izquierdo de la ecuación obtenemos:
= y 0 y − y 0 Xc − c0 X 0 y + c0 X 0 Xc − y 0 y + y 0 X β̂ + β̂ 0 X 0 y − β̂ 0 X 0 X β̂
= −y 0 Xc − c0 X 0 y + c0 X 0 Xc + y 0 X β̂ + β̂ 0 X 0 y − β̂ 0 X 0 X β̂
Si usamos el hecho de que β̂ = (X 0 X)−1 X 0 Y entonces:
= −y 0 Xc − c0 X 0 y + c0 X 0 Xc + y 0 X β̂ + β̂ 0 X 0 y − β̂ 0 X 0 X(X 0 X)−1 X 0 y
| {z }
I
= −y 0 Xc − c0 X 0 y +c0 X 0 Xc + y 0 X β̂
|{z}
X 0 X β̂
a) yi = α + βxi + µi
b) ln yi = α + βxi + µi
c) yi = α + β ln xi + µi
d) ln yi = α + β ln xi + µi
Discutir la interpretación que tendria, en cada caso, el valor estimado para el coeciente
β̂ .
Respuesta:
yt = β0 + β1 Xt + ut
10
a ) Las estimaciones de MCO para los parámetros β0 y β1 son (en ese orden):
1) E/F y B
2) 0 y F/B
3) E y B/F
4) F/B y 0
b ) La suma de los cuadrados de los residuos es igual a:
1) B + E 2
2) 0
3) (B 2 /E) − F
4) E − (F 2 /B)
Respuesta:
a ) ii) 0 y F/B
b ) iv) E − (F 2 /B)
Yˆt = 0 + (F/B)Xt
uˆ2t =
X X X
(Yt − (F/B)Xt )2 = (Yt2 − 2(F/B)Xt Yt + (F 2 /B 2 )Xt2 )
t t t
uˆ2t
X X X X
= Yt2 − 2(F/B) Xt Yt + (F 2 /B 2 ) Xt2
t t t t
2 2
= E − 2F /B + F /B
= E − (F 2 /B)
12. Sea el modelo y = Xβ + u. Se estima β por MCO y se obtienen los residuos de la
regresión û = y − X β̂ . Considere ahora la siguiente regresión: y = Xγ + δ û + v .
a ) Dado que los regresores X y û son ortogonales, los estimadores de γ y δ serán los mismos de
las regresiones:
y = Xγ + v1
y
y = δ û + v 2
Por lo tanto:
γ̂ = (X 0 X)−1 X 0 y
y
δ̂ = (û0 û)−1 û0 y = (û0 û)−1 (MX y)0 y
= (û0 û)−1 y 0 MX y
= (û0 û)−1 û0 û
= 1
11
b ) Los residuos serán cero porque hemos incluido en los regresores la parte de y que no es explicada
por X de la regresión original.
v̂ = y − X γ̂ − δ̂ û = y − X β̂ − û = û − û = 0
c ) Por obvias razones el R2 será 1, debido a que el modelo se ajusta perfectamente, es decir la
variabilidad de y está explicada completamente por la variabilidad de los regresores.
v̂ 0 v̂
R2 = 1 − =1−0=1
(y − ȳ)0 (y − ȳ)
13. Considere el modelo de regresión
c ) Pruebe
P que cualquier otro estimador P lineal para α
P(de la forma α̃(de la forma
α̃ = i bi Yi ) debe satisfacer tanto que i bi = 1 como i bi Xi = 0 para ser insesgado.
d ) Si bi = λi + fi , muestre que i fi = 0 y i fi Xi = 0.
P P
Respuesta:
a)
X X 1 X 1 xi
α̂ = λi Yi = ( − wi X̄)Yi = ( − P 2 X̄)Yi
i i
n i
n i xi
P
X yi xi Yi
α̂ = − X̄ Pi 2 = Ȳ − X̄ β̂
i
n i xi
b) P
X X 1 n X xi 0
λi = ( − wi X̄) = − X̄ wi = 1 − X̄ i 2 = 1 − X̄ P 2 = 1
P
i i
n n i
x
i i i xi
X X 1 X
λi Xi = ( − wi X̄)Xi = X̄ − X̄ wi Xi
i i
n i
P P 2
X xi Xi x
λi Xi = X̄ − X̄ P 2 = X̄ − X̄ Pi i2 = X̄ − X̄ = 0
i
i i xi i xi
c ) α̃ = i bi Yi
P
P P
E(α̃) = E( i bi Yi ) = E[ i bi (α + βXi + ui )]
P P P
E(α̃) = E(α i bi ) + E(β i bi Xi ) + E( i bi ui )
P P P
E(α̃) = α i bi + β i bi Xi + bi i E(ui )
| {z }
0
Para que α̃ sea insesgado se tiene
P que cumplir E(α̃) = α. Dado que β es distinto de 0, entonces
se debe cumplir i bi = 1 y i bi Xi = 0.
P
d)
P P P P
fi = i (bi − λi ) = i bi − i λi = 1 − 1 = 0
Pi P P
i fi Xi = i bi Xi − i λi Xi = 0 − 0 = 0
12
e) X X
V ar(α̃) = V ar( bi Yi ) = b2i σ 2
i i
X X X X
V ar(α̃) = σ 2 (λi + fi )2 = σ 2 [ (λi )2 + 2 λi fi + fi2 ]
i i i i
| {z }
0
X X
V ar(α̃) = σ 2 λ2i +σ 2 fi2
i i
| {z }
V ar(α̂)
El primer término es la varianza del estimador MCO y el segundo término es algún número
positivo. Por lo tanto:
V ar(α̃) ≥ V ar(α̂)
E(β̂ 0 β̂) = E[β 0 β] + E[u0 ] X(X 0 X)−1 β + β 0 (X 0 X)−1 X 0 E[u] +E[u0 X(X 0 X)−1 (X 0 X)−1 X 0 u]
| {z } | {z }
0 0
La segunda parte del lado derecho de la ecuación anterior es una matriz de 1 × 1, por lo tanto es
igual a su traza.
13
Dado que X 0 X es una matríz simétrica, esta se puede descomponer espectralmente como CΛC 0
donde C es la matriz con los vectores característicos correspondientes a las raices características de
X 0 X y Λ es una matriz diagonal con las raíces características de X 0 X . Usando este hecho y las
propiedades de la inversa de una matriz se obtiene:
donde
1
0 ··· 0
λ1
1
0 λ2 ··· 0
Λ−1 = .. .. .. ..
. . . .
1
0 0 ··· λK
tr(CΛ−1 C −1 ) = tr(Λ−1 C −1 −1
| {z C}) = tr(Λ )
I
En consecuencia la traza de Λ −1
es 1
y por lo tanto:
P
k λk
K
X 1
E(β̂ 0 β̂) = β 0 β + σ 2 tr(Λ−1 ) = β 0 β + σ 2
λk
k=1
a ) Las ecuaciones normales del modelo de regresión lineal múltiple implican que el
vector de residuos MCO es ortogonal al vector de valores estimados ŷ .
b ) Si las variables que intervienen en un modelo de regresión simple están en des-
viaciones con respecto a su propia media, entonces la línea de regresión estimada
debe pasar a través del origen.
Respuesta:
a ) Verdadero. Las ecuaciones normales del modelo de regresión lineal múltiple pueden escribirse
como:
−2X 0 y + 2X 0 X β̂ = 0
X 0 y − X 0 X β̂ = 0
X 0 (y − X β̂) = 0
| {z }
û
Se puede observar que las ecuaciones normales implican que la matriz de información X sea
ortogonal al vector de residuos û, y esto implica que el vector de residuos sea ortogonal al
vector de valores estomados ŷ .
(X β̂)0 û = 0
β̂ 0 X 0
| {zû} = 0
0
14
b ) Verdadero. El modelo de regresión simple con variables en desviaciones con respecto a su propia
media puede ser escrito como:
∀i : yi∗ = α + βx∗i + ui ,
donde yi∗ y x∗i son las variables en desviaciones con respecto a su media.
Teniendo en cuenta que la media muestral de x∗ y y ∗ son 0. Los estimadores MCO del modelo
son simplemente:
P ∗ ∗ P
xi yi (xi − x̄)(yi − ȳ)
β̂ = P ∗2 = i P
i
2
x
i i i (xi − x̄)
α̂ = y ∗ − x∗ β̂ = 0 − 0β̂ = 0
Como el término de intercepto estimado es 0, entonces la recta de regresión estimada debe
pasar a través del origen.
16. Suponga que un amigo que ignora sobre econometría básica le pide que estime un
modelo de regresión de la forma yi = α + βxi + ui armando que los errores no están
correlacionados y que además se distribuyen exponencialemente. Este le dice que aún
cuando los errores no siguen una distribución normal, usted puede hacer las pruebas
de hipótesis necesarias debido a que el tamaño de la muestra es 100000.
Respuesta:
a ) No se puede estimar porque si los errores siguen una distribución exponencial, entonces los
errores están restringidos a tomar valores positivos. Si todos los errores toman valores positivos
entonces no se cumple el supuesto E(u) = 0. Formalmente, la distribución exponencial es:
1 − uλi
f (ui ) = e
λ
donde E(ui ) = λ y λ no puede ser 0. De lo contrario no sería una función de probabilidad
válida.
b ) Los estimadores MCO son:
α̂ = ȳ − x̄β̂
P
(xi − x̄)ui
β̂ = β + Pi 2
i (xi − x̄)
E(α̂) = α + λ
A pesar de que el estimador MCO de β es insesgado, el estimador del intercepto α es sesgado.
15
17. Para el modelo de regresión sin término constante yi = βxi + ui pruebe que el estimador
ȳ
x̄ es insesgado, y demuestre que la varianza es mayor que la del estimador MCO.
Respuesta:
P
1
ȳ
i βxi + ui
E = E
x̄ x̄ n
P
i (βxi + ui )
ȳ 1
E = E
x̄ x̄ n
P
ȳ
1 X xi i ui
E = [β +E ]
x̄ x̄ i
n n
| {z }
x̄
P
i E(ui )
ȳ | {z }
0
E =β+ =β
x̄ x̄n
La varianza del estimador es:
P
ȳ
i ui 1 X
V ar = V ar = V ar( ui )
x̄ x̄n x̄2 n2 i
ȳ 1 X σ2 n σ2
V ar = V ar( ui ) = 2 2 = 2
x̄ x̄2 n2 i
x̄ n x̄ n
σ2
V ar(β̂M CO ) = P 2
i xi
x2i − nx̄2
ȳ P
2 i
V ar − V ar(β̂M CO ) = σ ( )
nx̄2 i x2i
P
x̄
2
P
i − x̄)
i (xP
ȳ
2
V ar − V ar(β̂M CO ) = σ ( )
x̄ nx̄2 i x2i
La expresión dentro del paréntesis siempres erá positiva, por lo tanto la varianza del estimador ȳ
x̄
es mayor que la del estimador MCO.
18. Reproduzca un razonamiento similar usado en la demostración del teorema de Gauss-
Markov para probar el siguiente resultado:
La combinación lineal c0 β̂ , donde β̂ es el estimador del MCO del parámetro β , es el
estimador insesgado de mímima varianza para la combinación lineal c0 β .
Respuesta:
Basta con demostrar que la diferencia entre la covarianza de c0 β̃ y c0 β̂ es mayor o igual a 0, donde
β̃ es cualquier estimador lineal insesgado de β , distinto del estimador MCO.
16
V ar(c0 β̃) − V ar(c0 β̂) = c0 V ar(β̃)c − c0 V ar(β̂)c
Dado que Z es semidenida positiva, existe una matriz no-singular B tal que:
β̂ = β + (X 0 X)−1 X 0 u
y σˆ2 como:
u0 M X u
σˆ2 =
n−k
β̂ solo depende de la parte aleatoria u a través de (X 0 X)−1 X 0 u, y σˆ2 solo depende de la parte
| {z }
L
aleatoria a través de u0 MX u = (MX u)0 MX u.
El producto matricial LMX da como resultado la matriz nula debido a que la matriz MX proyecta
al complemento ortogonal del espacio columna de X . Dado que los dos vectores son independientes,
entonces se puede concluir que los dos estimadores son independientes.
20. Considere el modelo de regresión múltiple y = Xβ + u, en donde u ∼ N (0, σ 2 I) y X es
determinística.
17
b ) Dada la distribución del vector u demuestre que el estimador maximo verosímil β̃
coincide con β̂ solo si la condición X 0 û = 0 se cumple.
Respuesta:
−2X 0 y + 2X 0 X β̂ = 0
X 0 y − X 0 X β̂ = 0
X 0 (y − X β̂) = 0
| {z }
û
b ) Dado que u ∼ N (0, σ 2 I), se puede escribir la función de máxima verosimilitud en forma
matricial de la siguiente manera:
Y
L= f (ui ; β) = (2πσ 2 )(−n/2) exp(−u0 u/(2σ 2 ))
i
n 1
ln L = − ln 2πσ 2 − 2 u0 u
2 2σ
n 1 n 1
ln L = − ln 2πσ 2 − 2 (y−Xβ)0 (y−Xβ) = − ln 2πσ 2 − 2 (y 0 y−β 0 X 0 y−y 0 Xβ+β 0 X 0 Xβ)
2 2σ 2 2σ
∂ ln L X 0 y X 0 X β̃
= 2 − =0
∂β σ σ2
X 0 y − X 0 X β̃ = 0
X 0 (y − X β̃) = 0
| {z }
ũ
Por lo tanto, el estimador máximo verosimil y MCO de β solo coinciden cuando la condición
X 0 ũ se cumplen.
21. En el modelo yi = α+βxi +ui con ui ∼ N (0, σ 2 ), use las condiciones de segundo orden para
demostrar que los estimadores máximo verosímiles de α, β y σ 2 en realidad maximizan
la función de máxima verosimilitud.
Respuesta:
Las primeras derivadas de la función de máxima verosimilitud son:
∂ ln L 1 X
= 2 (yi − α − βxi )
∂α σ i
∂ ln L 1 X
= 2 (yi − α − βxi )xi
∂β σ i
∂ ln L n 1 X
= − + (yi − α − βxi )2
∂σ 2 2σ 2 2(σ 2 )2 i
Para probar la existencia de un máximo, es necesario plantear la matriz hessiana. Para esto nece-
sitamos obtener las segundas derivadas parciales:
18
∂ 2 ln L n
=− 2
∂α2 σ
P 2
∂ 2 ln L x
= − i2 i
∂β 2 σ
∂ 2 ln L n 1 X
2
= 2 2
− 2 3 (yi − α − βxi )2
∂σ 2(σ ) (σ ) i
∂ 2 ln L
P
xi
= − i2
∂α∂β σ
∂ 2 ln L 1 X
2
=− 2 2 (yi − α − βxi )xi
∂β∂σ (σ ) i
∂ 2 ln L 1 X
2
=− 2 (yi − α − βxi )
∂α∂σ σ i
Planteando la matriz hessiana y reemplazando el valor de los estimadores, se observa que el deter-
minante del primer menor es negativo, ya que el estimador de la varianza siempre será positivo..
∂ 2 ln L ∂ 2 ln L ∂ 2 ln L
∂α2 ∂α∂β ∂α∂σ 2
∂ 2 ln L ∂ 2 ln L ∂ 2 ln L
H = ∂β∂α ∂β 2 ∂β∂σ 2
∂ 2 ln L ∂ 2 ln L ∂ 2 ln L
∂σ 2 ∂α ∂σ 2 ∂β ∂σ 2
P
i xi
n 1
P
− − − i (yi − α̂ − β̂xi )
Pσˆ2 Pσˆ2 2 σˆ2
x x 1
P
= − ˆi2 i − iˆ2 i − ˆ2 2 i (yi − α̂ − β̂xi )xi
σ σ (σ )
1 1 n 1 2
P P P
− i (yi − α̂ − β̂xi ) − i (yi − α̂ − β̂xi )xi − (y i − α̂ − β̂xi )
σˆ2 (σˆ2 )2 2(σˆ2 )2 (σˆ2 )3 i
" P !# " P !#
x2
P
n n 1 X i xi xi n 1 X
− i i (ûi )2 (ûi )2
H = − − + − i −
σˆ2 σˆ2 ˆ2
2(σ )2 ˆ2 3
(σ ) i ˆ
σ2 ˆ
σ 2 ˆ2
2(σ ) 2 ˆ2 3
(σ ) i
19
!" #
n2 x̄)2
P
n 1 X i (xi −
X X
(ûi )2 x2i 2
H = − n −[ xi ] ) = −
2(σˆ2 )3 (σˆ2 )4 i i i 2(σˆ2 )3
Facilmente se puede observar que este último término es negativo. Por lo tanto, la matriz hessiana
es denida negativa y en consecuencia los estimadores de α, β y σ 2 maximizan la función de
verosimilitud.
22. Probar que en el modelo de regresión yt = α + βxt + ut el contraste de hipótesis nula
Ho : β = β0 puede llevarse a cabo mediante un estadístico F.
Respuesta:
Un estadístico t con n grados de libetad, elevado al cuadrado sigue una distribución chi-cuadrado
con 1 grado de libertad en el numerador y n grados de libertad en el denominador.
" #2
β̂ − β0
t2β0 = p
ˆ
pP
2
σ / (xi − x̄)2
Por lo tanto se tiene en el numerador una función de variable aleatoria que se distribuye χ2(1) y en el
denominador una función de variable aleatoria que se distribuye χ2(n−2) dividida para n − 2. Dado
esto, se tiene la forma del estadístico F . Esta sobreentendido que el numerador esta dividido para
1, es decir los grados de libertad.
eβ1 +β2 xi
yi =
1 + eβ1 +β2 xi
20
alcohol = γ0 + γ1 log(earnings) + γ2 educ + γ3 log(price) + u2
donde price es un índice local de precios del alcohol, que incluye los impuestos
estatales y locales. Suponga que educ y price son exógenos. Si β1 , β2 , γ1 , γ2 y γ3
dieren todos de cero, ¾Qué ecuación está identicada?¾Cómo se podría estimar
la ecuación?
Respuesta:
yi = eβ1 +β2 xi (1 − yi )
yi
= eβ1 +β2 xi
(1 − yi )
Aplicando logaritmo natural a ambos lados:
" #
yi
ln = β1 + β2 x i
(1 − yi )
ln zi = β1 + β2 xi + ui
donde zi = (1−y
yi
i)
.
La variable dependiente está restringida a ciertos valores.
∀i : 0 < yi < 1
puesto que log(price) está excluida y aparece en la otra ecuación. log(price) sirve como instru-
mento para alcohol. La ecuación se estima usando mínimos cuadrados en dos estapas. Primero
regresando alcohol sobre educ y log(price), y luego regresando log(earnings) sobre alcoholˆ y
educ.
(n−2)σˆ2
24. Demuestre que bajo los supuestos clásicos, en el modelo yi = β0 + β1 xi + ui , σ2 =
P 2
uˆi
σ2
i
∼ χ(n−2) .
Respuesta:
Se puede escribir i ûi 2 como u0 MX u, donde MX = I − PX = I − X(X 0 X)−1 X 0 . Dada la
P
idempotencia de MX ,
u0 MX u
= 0 MX = (MX )0 (MX )
σ2
donde = u
σ ∼ N (0, I).
21
0
Por lo tanto u Mσ2
xu
se distribuye chi-cuadrado con grados de libertad igual al rango de MX . Para
calcular el rango de la matriz MX se usa la propiedad de la traza y las propiedades de las matrices
idempotentes. El rango de una matriz simétrica e idempotente es igual a su traza.
Si se usa la propiedad de la traza entonces tr(X(X 0 X)−1 X 0 ) = tr((X 0 X)−1 X 0 X) = tr(I), donde
esta nueva matriz identidad es de tamaño k × k.
rank(MX ) = n − tr(I) = n − k
a ) Cuál de las siguientes opciones contiene solamente condiciones necesarias para que
el estimador MCO β̂ sea un estimador insesgado para el parámetro β en el modelo
de regresión múltiple y = Xβ + u con k regresores:
1) E[u0 u] = σ 2 I y rank(X) = k
2) u ∼ N (0, σ 2 I)
3) E[u] = 0 y rank(X) = k
4) Ninguna de las anteriores.
b ) Cuál de las siguientes condiciones debe cumplir el estimador MCO β̂ en el modelo
de regresión múltiple y = Xβ + u para garantizar que sea MELI(Mejor Estimador
Linealmente Insesgado):
1) E[β̂] = β y V ar[β̂] = σ 2 (X 0 X)−1
2) Cov(β̂, û) = 0
3) β̂ debe ser consistente.
4) Ninguna de las anteriores.
Respuesta:
Respuesta:
a ) Falso. Si el poder explicativo del modelo es muy bajo al incluir un regresor más, entonces el R2
ajustado disminuirá, incluso puede llegar a ser negativo. Precisamente por esto, se lo considera
más able que el R2 sin ajustar.
22
b ) Falso. Hay varias alternativas para testear la presencia de un cambio estructural por ejemplo
el test de Hansen. Un inconveniente del test de Chow es la arbitrariedad al escoger el punto
donde se sospecha que hubo un cambio estructural.
27. Una regresión usando datos trimestrales desde 1958 hasta 1976 inclusive, dió la si-
guiente ecuación estimada:
Respuesta:
H0 : y = β 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + u (3)
H1 : y = β1 + β2 x2 + β3 x3 + β4 x4 + β5 x5 + β6 x6 + β7 x7 + u, (4)
donde x5 , x6 y x7 representan las variables dummies estacionales.
Tal y como se vió en clases para relaizar una prueba de hipótesis sobre varias restricciones(en
este caso, 3) en los parámetros se plantea el estadístico F :
(RSSR − U SSR)/r
F = ,
U SSR/(n − k)
donde RSSR es la suma de los residuos al cuadrado del modelo restringido (3), y U SSR es la
suma de los residuos al cuadrado del modelo sin restringir (4). r es el número de restriciones
y n − k son los grados de libertad del modelo sin restringir.
La suma de los cuadrados totales es la misma en ambas ecuaciones puesto que y no ha cam-
biado. A partir de esto podemos hallar la suma de los residuos al cuadrado del modelo sin
restringir que es el dato que falta para calcular F .
(18,48 − 13,28)/3
F = = 9,006
13,28/69
23
b ) Para testear la presencia de un quiebre estructural se usa el test de Chow para lo cuál se
calcula el estadístico F como sigue:
(RSSR − SSR1 − SSR2 )/k
F = ,
(SSR1 + SSR2 )/(n − 2k)
donde RSSR es la suma de los residuos al cuadrado del modelo original, SSR1 es la suma
de los residuos al cuadrados de la regresión para el primer periodo y SSR2 es la suma de los
residuos al cuadrado de la regresión para el segundo periodo.
(18,48 − 9,32 − 7,46)/4
F = = 1,722
(9,32 + 7,46)/(76 − 8)
28. Escribiendo las sumas residuales del modelo restringido y = X1 β1 + u y sin restringir
y = X1 β1 + X2 β2 + u como y 0 M1 y y y 0 M y respectivamente, probar que y 0 (M1 − M )y =
0
(M1 −M )y/J
ûR 0 ûR − û0 û y que en consecuencia, el estadístico yy0 M y/(n−k−1)
sigue la distribución
J
Fn−k−1 .
Respuesta:
y 0 (M1 − M )y = y 0 (M1 y − M y) = y 0 M1 y − y 0 M y
y 0 (M1 − M )y/J J
∼ Fn−k−1
y 0 M y/(n − k − 1)
29. Para el modelo y = Xβ + u, donde la matriz E[u0 u] = σ 2 I es conocida, derive un
estadístico de prueba para la hipótesis conjunta:
H0 : β 1 = β2 = ... = βk = 0
Respuesta:
En general, si un vector aleatorio z de tamaño n × 1 está normalmente distribuido con media 0 y
matriz de covarianzas Σ , entonces la forma cuadrática z 0 Σ −1 z se distribute χ2n .
Dados los supuestos, clásicos el vector β̂ −β ∼ N (0, σ 2 (X 0 X)−1 ) y por lo tanto la forma cuadrática
(β̂ − β)0 [σ 2 (X 0 X)−1 ]−1 (β̂ − β) = (β̂ − β)0 (X 0 X)(β̂ − β)/σ 2 ∼ χ2k
yt = α + βxt + ut (5)
yt = µ + ut (6)
24
a ) ¾Cuál es el estimador MCO de µ?
b ) ¾Es el estimador MCO de µ insesgado para α? Explique.
c ) ¾La suma de los residuos de la regresión (6) será igual a 0?
d ) Suponga que se quiere predecir yT +1 , y para esto se usa la estimación por MCO
de (6):
ŷT +1 = µ̂
Respuesta:
a ) Si se usa la forma general del estimador MCO β̂ = (X 0 X)−1 X 0 y , donde en este caso X es
un vector de 1s, se tiene que el estimador de µ es:
P
X
−1
X yt
µ̂ = ( 1) yt = t = ȳ
t t
n
b ) Para saber si es insesgado para α, se reemplaza yt por el verdadero proceso generador de datos.
P P
t yt (α + βxt + ut )
µ̂ = = t
n n
P P
nα + β t xt + t ut )
µ̂ = = α + β x̄ + ū
n
Al tomar el valor esperado:
E(µ̂) = α + β x̄
En consecuencia el estimador µ̂ no es insesgado para α.
c ) Si. Esto siempre se cumple para cualquier regresión lineal que incluya una constante, sin
importar que el modelo este mal especicado.
X X
(yt − µ̂) = (yt − ȳ) = nȳ − nȳ = 0
t t
ŷT +1 − yT +1 = α + β x̄ + ū − (α + βxT +1 + uT +1 )
ŷT +1 − yT +1 = β(x̄ − xT +1 ) + ū − uT +1
Al tomar el valor esperado se obtiene:
25
e ) Suponga que primero se ajusta el modelo usando (5). La predicción de yT +1 será:
ŷT +1 = α̂ + β̂xT +1
mientras que el verdadero valor de yT +1 será:
yT +1 = α + βxT +1 + uT +1
La varianza del error de predicción es:
h 1 xT +1 − x̄ i
V ar(ŷT +1 − yT +1 ) = σ 2 1 + + P 2
(7)
T t (xt − x̄)
Ahora considere el caso en el que el modelo está mal especicado. Como se demostró anterior-
mente el error de predicción viene dado por:
ŷT +1 − yT +1 = β(x̄ − xT +1 ) + ū − uT +1
mientras que su varianza está dada por:
V ar[ŷT +1 − yT +1 ] = V ar[β(x̄ − xT +1 ) + ū − uT +1 ]
Dado que los errores no están correlacionados la expresión anterior se simplica a:
σ2 1
V ar[ŷT +1 − yT +1 ] = + σ 2 = σ 2 (1 + ) (8)
T T
Comparando (7) y (8) se puede ver que mientras xT +1 > x̄, la varianza de la predicción del
modelo mal especicado será menor que la del verdadero modelo.3
31. Considere la regresión por mínimos cuadrados de y sobre k variables (una constante)
X . Considere otro conjunto de regresores Z = XA, donde A es una matriz no singular.
Entonces cada columna de Z es una combinación lineal de las columnas de X . Pruebe
que el vector de residuos de la regresión de y sobre Z y y sobre X , coinciden. ¾Qué
relevancia tiene esto al momento de cambiar las unidades de medida en las variables
independientes?
Respuesta:
Se sabe que la matriz de proyección al espacio columna de X es PX = X(X 0 X)−1 X 0 . La matriz
de proyección al espacio columna de Z es:
−1 0 −1 0 −1 0 0
PZ = X AA
| {z }(X X) |(A ){z A} X
I I
PZ = X(X 0 X)−1 X 0 = PX
Esto se debe a que el subespacio generado por las columnas de X es idéntico al subespacio generado
por las columnas de Z . Esto resulta bastante obvio, ya que cada columna de Z es una combinación
3 El hecho de que a veces la varianza de la predicción usando estimadores de un modelo subespecicado, sea menor que
la varianza de la predicción usando los estimadores del verdadero proceso generador de datos, se conoce en la literatura
como paradoja de Stein.
26
lineal de las columnas de X . Si PZ = PX entonces MZ = MX , así el vector de residuos MZ y
será igual a MX y .
La importancia de esto es que al cambiar la unidad de medida de las variables explicativas no se
altera la predicción ni los residuos,a pesar de que el estimador β̂ si cambia.
32. En el modelo yt = α+βxt +µt , con E(ut ) = 0, E(u2t ) = σt2 , E(µt µs ) = 0, obtener la expresión
analítica de los estimadores α̂M CG y β̂M CG , y particularizarlas a los casos:
Respuesta:
X 1
2
min s =
α, β σ 2 (yt − α − xt β)
t t
∂s X 2
= − 2 (yt − α̂ − xt β̂) = 0
∂α t
σt
∂s X 2xt
= − 2 (yt − α̂ − xt β̂) = 0
∂β t
σt
α̂ = ȳ − β̂ x̄
b ) Si σt2 = kxt , entonces:
1
P 1
P xt yt 1
P yt P xt
k2 t xt t xt − k2 t xt t xt
β̂ = P 2
1
P x2t P 1 1 xt
k2 t xt t xt − k2 t xt
27
yt − n t xytt
1
P P P
t xt t
β̂ = P P 1 2
t xt t xt − n
ȳ t x1t − t xytt
P P
β̂ =
x̄ t x1t − n
P
33. ¾Cuál de los siguientes casos puede provocar sesgo en los estimadores MCO? Justique
su respuesta (Si o no, y por qué).
a ) Heteroscedasticidad.
b ) Omitir una variable relevante.
c ) Un coeciente de correlación muestral de 0.95 entre 2 variables independientes
incluidas en el modelo.
Respuesta:
a ) No.
E(β̂) = β
b ) Si. Suponga que el verdadero proceso generador de datos es:
y = X1 β1 + x2 β2 + u
y en su lugar se estima el modelo:
y = X1 β1 + u
El valor esperado del estimador MCO será:
28
E(βˆ1 ) = E[(X10 X1 )−1 X10 y]
E(βˆ1 ) = E[(X10 X1 )−1 X10 X1 β1 ] +E[(X10 X1 )−1 X10 x2 β2 ] + E[(X10 X1 )−1 X10 u]
| {z } | {z }
β1 0
a ) Demuestre que el estimador MCO es insesgado y que su varianza está dada por:
P 2
x t
V ar(β̂M CO ) = σ 2 P t 2t 2
( t xt )
σ2
V ar(β̂M CG ) = P x2
t
t t
Respuesta:
β t x2t + t ut xt
P P P P
t yt xt ut xt
β̂ = P 2 = P 2 = β + Pt 2
t xt t xt t xt
Y su valor esperado:
1 X
E(β̂) = β + P 2 xt E(ut )
t xt t
| {z }
0
σ2 X
V ar(β̂) = P 2 2 x2 t
( t xt ) t t
b ) Para obetener el estimador de MCG se minimiza la suma de los residuos al cuadrado, pero
esta vez ponderada por la inversa de la parte variable de la varianza de ut .
X1
min s = (yt − xt β)2
β
t
t
29
∂s X yt xt X x2
t
= −2 + 2β̂ =0
∂ β̂ t
t t
t
Como los errores no están correlacionados la varianza del estimador puede escribirse como:
1 X x2 σ2 X x2 t
t t
V ar(β̂M CG ) = P x2t 2 V ar(ut ) = P x2 2
t
t2 t
t
t2
t t t t
σ2
V ar(β̂M CG ) = P x2
t
t t
y = α + βx + u
P
(y −ȳ)(zi −z̄)
y sea z una variable instrumental binaria para x. Utilizar β̂ = Pi i para de-
i (xi −x̄)(zi −z̄)
mostrar que el estimador de variables instrumentales(IV) puede escribirse como:
y¯1 − y¯0
β̂IV =
x¯1 − x¯0
donde y¯0 y x¯0 son las medias muestrales de yi y xi para aquellas observaciones con zi = 0,
y donde y¯1 y x¯1 son las medias muestrales de yi y xi para aquellas observaciones con
zi = 1. Este estimador, conocido como estimador de grupo fue propuesto por primera
vez por Wald(1940).
Respuesta:
Suponga que existen k observaciones con zi = 1, por lo tanto el número de observaciones
P conPzi = 0
es n − k. La medias muestrales para
P
las observaciones P
con zi = 1 son y
¯1 = i yi zi
k y x
¯ 1 = ik i i ,
x z
30
P P
(n − k) i yi zi − k i yi (1 − zi )
β̂IV = P P
(n − k) i xi zi − k i xi (1 − zi )
P P P P
n i yi zi − k i yi zi − k i yi + k i yi zi
β̂IV = P P P P
n i xi zi − k i xi zi − k i xi + k i xi zi
P P
n yi zi − k i yi
β̂IV = P i P
n i xi zi − k i xi
Multiplicando por n
n se obtiene:
P P P
i yi zi − k ȳ i yi zi − ȳ i zi
β̂IV = P =P P
i xi zi − kx̄ i xi zi − x̄ i zi
P P
(yi − ȳ)zi (yi − ȳ)(zi − z̄)
β̂IV = P i = Pi
(x
i i − x̄)zi i i − x̄)(zi − z̄)
(x
36. Dado el modelo de regresión yt = µ + t , donde E(t ) = 0, V ar(t ) = σ 2 xt , con xt > 0:
a ) ¾Cuál es el estimador lineal más eciente del parámetro µ? ¾Cuál es su varianza?
b ) ¾Cuál es el estimador MCO de µ y cuál es su varianza?
Respuesta:
1 X t 1 X σ 2 xt
V ar(µ̂) = P 1 2 V ar[ ] = P 1 2
[ t xt ] t xt [ t xt ] t x2t
σ 2 t x1t
P
σ2
V ar(µ̂) = P 1 2 = P 1
[ t xt ] t xt
31
b ) Tal y como se ha visto en clase, el estimador MCO de µ es:
P
yt
µ̂ = ȳ = t
n
P P P P
tµ+ t t tµ t
µ̂ = = + t
n n n
P
t
µ̂ = µ + t
n
Y su varianza es:
1 X σ2 X
V ar(µ̂) = V ar( t ) = xt
n2 t n2 t
yi = βxi + ui
Donde E(ui ) = 0, E(u2i ) = σi2 suponiendo que las varianzas cambian con el esquema
σi2 2
= σ zi donde zi es una variable conocida.
a ) Obtenga la expresión analítica para el estimador MCG, así como su varianza.
b ) Utilice la desigualdad de Cauchy-Scwarthz para comparar la varianza del estima-
dor obtenido en el literal anterior con el estimador MCO.
c ) ¾Qué ocurriría si a pesar de la heteroscedasticidad se utilizase σ 2 (X 0 X)−1 como
matriz de varianza-covarianza para el estimador MCO.
Respuesta:
y su varianza:
σ2
V ar(β̂M CG ) = P x2
i
i zi
32
b ) Usando la desigualdad de Cauchy-Schwarz [ i vi wi ]2 ≤ [ i vi2 ][ i wi2 ], donde vi = xi
y
P P P
√
zi
√
wi = xi zi .
X xi √ X x2 X
i
[ √ xi zi ]2 ≤ [ ][ x2i zi ]
i
zi i
zi i
X X x2 X
i
[ x2i ]2 ≤ [ ][ x2i zi ]
i i
zi i
σ2 σ 2 i x2i zi
P
P x2i ≤ [P x2 ]2
i zi i i
var(β̂M CG ) ≤ V ar(β̂M CO )
38. Considere un modelo simple para estimar el efecto de tener un computador personal
(PC) sobre el promedio de calicaciones de los estudiantes de una universidad pública:
GP A = β0 + β1 P C + u
Responda lo siguiente:
a ) Porque hay otros factores en el error que posiblemente inuyan sobre el promedio de calica-
ciones y esten correlacionados con P C . Un ejemplo es el gasto en educación de los estudiantes
que realizan sus padres. Esta variable está claramente correlacionada con P C .
b ) P C está correlacionada con el nivel de renta de los padres porque es más probable que los
estudiantes con padres de mayores ingresos tengan computadoras y los de menos ingresos no.
Esto no es suciente para concluir que el nivel de renta de los padres es una buena variable
instrumental ya que el nivel de ingresos de los padres puede estar correlacionado con el error.
Por ejemplo está correlacionado con el gasto en educación.
c ) Se puede usar una variable dummy que indique 1 si el estudiante recibió beca y 0 en caso
contrario. Esta variable está claramente correlacionada con P C y dado que los estudiantes que
recibieron las becas fueron escogidos al azar(la variable es exógena en el modelo), entonces no
está correlacionada con el error.
33
39. Supongamos que queremos contrastar si las chicas que asisten a institutos femeninos
de educación secundaria son mejores en matemáticas que las chicas que van a institutos
mixtos. Se dispone de una muestra aleatoria de adolescentes femeninas que estudian los
últimos años de la secundaria en un estado de Estados Unidos, y score es la calicación
en un determinado examen de matemáticas. Sea girlhs una variable cticia que indica
si una estudiante asiste a instituto femenino, conteste:
a ) ¾Qué otras variables se podrían incluir en la ecuación? (Debe ser posible recopilar
datos sobre estas variables.)
b ) Escribir una ecuación que relacione score con girlhs y las otras variables indicadas
en el apartado (a).
c ) Supongamos que el apoyo y la motivación que ofrecen los padres son factores
no observables que se encuentran en el término de error del apartado (b). ¾Es
probable que éstos estén correlacionados con girlhs? Explicar por qué.
d ) Discutir los supuestos necesarios para que el número de institutos femeninos en un
radio de veinte millas de la casa de las estudiantes sea una variable instrumental
válida para girlhs.
Respuesta:
a ) Se puede incluir el ingreso familiar, ya que se esperaría que quienes tienen padres con me-
jores ingresos rindan mejor en los estudios. Se puede incluir una variable proxy del nivel de
inteligencia como el IQ. Otra variable importante que se debería incluir son las horas que la
estudiante dedica a estudiar matemáticas.
b)
score = α + β1 girlhs + β2 ing + β3 IQ + β4 time + u
donde:
girlhs =variable cticia que indica si una estudiante asiste a instituto femenino.
ing =ingreso familiar.
IQ =nivel de IQ.
time =tiempo que la estudiante dedica a estudiar matemáticas medido en horas promedio
semanales.
score =calicación en el examen de matemáticas.
c ) Si es probable que esté correlacionado porque los padres que ofrecen menos apoyo y motivación
tienden a enviar a sus hijas a instututos femeninos. Note que también se puede argumentar
lo contrario. Más alla de la justicación lo que se busca es encontrar un sustento teórico que
permita hacer suspuestos sobre un modelo de regresión, en especial aquellos supuestos que no
se pueden testear.
d ) Para que sea una variable instrumental válida debe estar correlacionada con la variable girlhs.
Obviamente las dos variables están correlacionadas. Mientras haya más institutos femeninos
en un radio de veinte millas de la casa, es más probable que los padres decidas que sus hijas
deben estudiar en institutos femeninos.
La otra condición necesaria es que esta variable no debe estar correlacionada con el error. En el
error se encuentran factores no observables como el apoyo y motivación que los padres ofrecen
a sus hijas. Estos factores no tienen relación alguna con el número de institutos femeninos que
hay cerca de la casa. En resumen, dicha variable cumple con las dos condiciones que hacen que
sea una variable instrumemntal válida.
Sea num el número de institutos femeninos en un radio de veinte millas de las casas de los
estudiantes. Entonces:
Cov(num, girhs) 6= 0
Cov(num, u) = 0
34
40. Comente las siguientes armaciones:
consumo = α + βingreso + ut
Respuesta:
a ) Falso. Aún cuando los errores no se distribuyan normal, los estimadores MCO siguen siendo
los mejores estimadores linealmente insesgados. El teorema de Gauss-Markov solo requiere que
E(ui |xi ) = 0 , V ar(ui ) = σ 2 y Cov(ui , uj ) = 0.
b ) El investigador debe escoger un período en el que las tasas de interés hayan uctuado poco.
Si utiliza el resto de períodos es probable que el modelo presente heterocedasticidad.
c ) Falso. Hace falta más información para concluir algo así. Una correlación lineal fuerte entre
dos variables no necesariamente implica que los coecientes de la regresión entre los dos sean
signicativos.
41. Considere el modelo microeconómico de demanda y oferta:
Demanda: Q = α1 P + β1 Z1 + u1
Oferta: Q = α2 P + β2 Z2 + u2
Q β2 u2
P = − Z2 − (9)
α2 α2 α2
Como se puede apreciar hasta ahora, es necesario que α2 6= 0 para poder despejar P , y por
lo tanto que la forma reducida de Q exista. Reemplazando (9) en la ecuación de demanda se
obtiene:
35
Q β2 u2
Q = α1 ( − Z2 − ) + β1 Z1 + u1
α2 α2 α2
α1 α1 β2 α1 u2
Q(1 − ) = β1 Z 1 − Z2 − + u1
α2 α2 α2
β1 α1 β2 α1 u2 u1
Q= α1 Z1 − α1 Z2 + − α1 + α1
(1 − α ) (1 − α2 )α2 (1 − α2 )α2 (1 − α )
| {z 2 } | {z } | {z 2
}
π1 π2 v1
α1 P + β1 Z1 + u1 = β2 Z2 + u2
β2 β1 u2 u1
P = Z2 − Z1 + −
α1 α1 α1 α1
|{z} |{z} | {z }
π3 π4 v2
c ) La forma reducida para Q es la misma que la del literal (a). La forma reducida para P
será distinta. La condición α1 6= α2 garantiza que la forma reducida exista como se verá a
continuación. Se pueden escribir las dos ecuaciones en forma matricial.
1 −α1 Q β 0 Z1 u
= 1 + 1 (10)
1 −α2 P 0 β2 Z2 u2
| {z }
B
Para que la forma reducida exista, la inversa de la matriz B tiene que existir. Si α1 = α2 ,
entonces el determinante de la matriz es 0 y por lo tanto no tiene inversa. Usando la condición
del ejercicio la matriz inversa existe y es igual a:
1 −α2 α1
B −1 =
α1 − α2 −1 1
y = Xβ + u
X = Zγ +
Respuesta:
Primero se regresa X sobre Z para obtener el mejor instrumento para X . Luego en la primera
ecuación se sustituye X por la predicción de la segunda. Es decir:
y = PZ Xβ + u
36
Se obtiene el estimador de β de la forma común:
β̂V I = (X 0 PZ X)−1 X 0 PZ y
43. Suponga que se quiere determinar la relación entre la cantidad que contribuye un
empleado a su plan de pensiones en función de la generosidad del plan. Para ello se
plantea el siguiente modelo:
donde yi,e es la contribución anual del empleado e que trabaja en la empresa i, xi,e,1 es
el ingreso anual de esta persona y xi,e,2 es su edad. xi,3 es la cantidad que la empresa
aporta a la cuenta de un empleado por cada dólar con que éste contribuye.
Suponga que para este modelo se cumplen los supuestos de Gauss-Markov. Sin embargo
usted no cuenta con datos para cada empleado, pero en su lugar cuenta con datos
promedio por empresa, asi como con el número de empleados por empresa. Se plantea
el siguiente modelo para las empresas usando datos promedio:
−1 Pmi
donde ūi = mi e ui,e es el error promedio de todos los empleados de la empresa i.
Si para todo e, V ar(ui,e ) = σ 2 y los errores no están correlacionados entre empleados,
conteste:
Respuesta:
a)
mi
X
V ar(ūi ) = V ar(m−1
i ui,e )
e
mi mi
1 X 1 X
V ar(ūi ) = V ar(ui,e ) = σ2
m2i e m2i e
mi 2 σ2
V ar(ūi ) = σ =
m2i mi
No es correcto usar MCO debido a que la varianza del error será más pequeña a medida que el
número de empleados aumente y por lo tanto el supuesto de homocedasticidad no se cumple.
37
b ) El ponderador de la suma residual que hace cumplir el supuesto de homocedasticidad es el
√
número de empleados de la empresa. Es decir, si se multiplica el modelo (11) por mi , el
modelo cumple todos los supuestos necesarios para estimar por MCO.
√ σ2
V ar(ūi m1 ) = mi = σ 2
mi
Al hacer esto, se le está asignando más peso a las empresas con mayor número de empleados.
De esta manera se compensa la reducción de la varianza de ūi a medida que el número de
empleados es mayor.4
44. Considere un modelo para los empleados de varias empresas.
a ) Suponga que V ar(fi ) = σf2 , V ar(vi,e ) = σv2 , y que fi y vi,e no están correlacionadas.
Muestre que V ar(ui,e ) = σf2 + σv2 ; llame a esto σ 2 .
b ) Ahora suponga que para e 6= g , vi,e y vi,g no están correlacionadas. Muestre que
Cov(ui,e , ui,g ) = σf2 .
c ) Sea ūi = m−1
Pmi
i e ui,e , el promedio de errores compuestos dentro de una empresa.
σ2
mi es el número total de empleados de la empresa i. Muestre que V ar(ūi ) = σf2 + mvi .
d ) Analice la relevancia del inciso (c) para la estimación por mínimos cuadrados
ponderados empleando datos promediados a nivel de las empresas, donde el pon-
derador empleado para la observación i es el tamaño de la rma.
Respuesta:
a)
V ar(ui,e ) = V ar(fi + vi,e ) = V ar(fi ) + V ar(vi,e )
Cov(ui,e , ui,g ) = E[(fi + vi,e )(fi + vi,g )] − E[fi + vi,e ]E[fi + vi,g ]
Cov(ui,e , ui,g ) = E[fi2 ] − E[fi ]E[fi ] + E[fi vi,g ] − E[fi ]E[vi,g ] + E[fi vi,e ] − E[fi ]E[vi,e ]
| {z } | {z } | {z }
V ar(fi ) Cov(fi ,vi,g ) Cov(fi ,vi,e )
4 Como se vió en clase, los ponderadores muchas veces se escogen arbitrariamente. Este ejercicio ilustra como algunas
veces pueden surgir de forma natural.
38
Dado es supuesto de correlación 0 entre fi y vi,g , y correlación 0 entre vi,e y vi,g , los últimos
tres términos del lado derecho de la ecuación anterior son 0.
c)
mi
X
V ar(ūi ) = V ar(m−1
i ui,e )
e
mi mi
1 X 1 hX XX i
V ar(ūi ) = 2 V ar( u i,e ) = 2 V ar(ui,e ) + 2 Cov(ui,e , ui,g )
mi e
mi e e g
1 h X i 1 h mi i
V ar(ūi ) = 2 mi σ 2 + 2 (mi − 1)σf2 = 2 mi σ 2 + 2 (mi − 1)σf2
mi e
mi 2
1 h 2 2 2 2 2
i σf2 σv2 2
σf2
V ar(ūi ) = m σ
i f + m σ
i v + m σ
i f − m σ
i f = + + σ f −
m2i mi mi mi
σv2
V ar(ūi ) = σf2 +
mi
d ) El problema de usar el tamaño de la rma como ponderador es que aun así la varianza del
nuevo error dependerá del tamaño de la rma. La varianza del nuevo modelo será:
Respuesta:
Se estima el modelo por MCO asumiendo homocedasticidad, sin embargo la varianza del estimador
cambia. En su lugar se construye la varianza usando el estimador de White.
X
V ar(β̂) = (X 0 X)−1 uˆt 2 (xt x0t ) (X 0 X)−1
t
(xt − x̄)uˆt 2
P
V ar(βˆ2 ) = Pt
[ t (xt − x̄)2 ]2
βˆ2
t = qP
(xt −x̄)uˆt 2
Pt 2 2
[ t (xt −x̄) ]
46. Considere el modelo yt = βxt + ut , con σt2 = k(βxt )2 , donde las variables se hallan en
diferencias respecto a sus medias muestrales.
39
Respuesta:
Resolviendo se obtiene:
T −1 1 X y P yt
t t xt
β̂ = =
kβ 2 kβ 2 t xt T
y1 = β0 + β1 y2 + β2 z1 + u1 (12)
donde y2 es endógena y z1 es exógena. Se cuenta con una variable z2 que sirve como
instrumento para y2 . Al tomar la forma reducida de y2 y sustituirla en el modelo (12)
se obtiene la forma reducida para y1 :
y1 = α0 + α1 z1 + α2 z2 + v1
a ) Obtener los coecientes αj en función de los coecientes de la forma reducida de
y2 y los βj .
b ) Obtener el error de forma reducida , v1 , en función de u1 , v2 y los parámetros.
c ) ¾Cómo estimaríamos consistentemente los αj ?
Respuesta:
y2 = π0 + π1 z1 + π2 z2 + v2 (13)
Sustituyendo (13) en (12) se obtiene:
y1 = β0 + β1 (π0 + π1 z1 + π2 z2 + v2 ) + β2 z1 + u1
y1 = β0 + β1 π0 + β1 π1 z1 + β1 π2 z2 + β1 v2 + β2 z1 + u1
y1 = β0 + β1 π0 + (β1 π1 + β2 ) z1 + β1 π2 z2 + β1 v2 + u1
| {z } | {z } | {z } | {z }
α0 α1 α2 v1
Por lo tanto, α0 = β0 + β1 π0 , α1 = β1 π1 + β2 y α2 = β1 π2 .
b ) Del resultado anterior se tiene que v1 = β1 v2 + u1 .
40
c ) Los αj pueden estimarse por MCO debido a que las variables z1 y z2 son exógenas en el modelo,
sin embargo no se podrá recuperar los coecientes βj y πj debido a que habrán más incógnitas
que ecuaciones.
48. Considere el modelo simple de series temporales donde la variable explicativa tiene un
error de medida clásico:
yt = β0 + β1 x ∗t +ut (14)
xt = x∗t + et
donde ut tiene media cero y no está correlacionado con x∗t y et . Solamente se observan
las variables yt y xt . Suponga que et tiene media cero y no está correlacionado con x∗t
y que x∗t tiene también media cero (este último supuesto se hace sólo para simplicar
el álgebra)
Respuesta:
y t = β0 + β1 x t + u t − β1 e t
| {z }
vt
Dado que xt tiene media cero la covarianza entre xt y vt puede escribirse como:
Cov(xt , vt ) = E(xt vt )
41
b)
E(xt−1 vt ) = E[(x∗t−1 + et−1 )(ut − β1 et )]
E(xt−1 vt ) = 0
c ) Al obtener la covarianza
Cov(xt , xt−1 ) = E(x∗t x∗t−1 ) + E(et x∗t−1 ) +E(x∗t et−1 ) + E(et et−1 )
| {z } | {z }
0 0
es probable que si esten correlacionados debido a que no se conocen la correlación entre x∗t y
x∗t−1 , y la correlación entre x∗t y et−1 .
d ) La manera de estimar consistentemente los parámetros del modelo (14) es por el método
de variables instrumentales. Un buen instrumento es xt−1 debido a que Cov(xt−1 xt ) 6= 0 y
Cov(xt−1 vt ) = 0.
49. Considere este modelo microeconómico de demanda y oferta de trabajo:
Demanda: y1 = α1 + α2 y2 + α3 x1 + α4 x2 + u1
Oferta: y1 = α5 + α6 y2 + u2
Aquí, y1 (=horas de trabajo) e y2 (=salario) son las variables endógenas. Las variables
exógenas, x1 (=tipo de interés) y x2 (=precio de las materias primas), son independien-
tes de las perturbaciones estructurales u1 y u2 . Estas perturbaciones tienen esperanza
cero. En lo siguiente, respecto a la estimación, supondremos que disponemos de una
muestra de observaciones de y1 , y2 , x1 y x2 de tamaño moderado, y que las regresiones
lineales a efectuar incluyen una constante.
Respuesta:
42
a ) Al igualar la oferta y demanda se despeja y2 .
α1 + α2 y2 + α3 x1 + α4 x2 + u1 = α5 + α6 y2 + u2
α2 y2 − α6 y2 = α5 − α1 − α3 x1 − α4 x2 + u2 − u1
(α2 − α6 )y2 = α5 − α1 − α3 x1 − α4 x2 + u2 − u1
Si se asume que α2 6= α6 se puede dividir ambos lados de la ecuación anterior para α2 − α6 .
α5 − α1 −α3 −α4 u2 − u1
y2 = + x1 + x2 +
α2 − α6 α2 − α6 α2 − α6 α2 − α6
| {z } | {z } | {z } | {z }
π1 π2 π3 v1
b ) La ecuación de oferta si está identicada, sin embargo no se debe estimar por mínimos cuadra-
dos ordinarios debido a que y2 es endógena y causa un sesgo de simultaneidad en el estimador,
además de la inconsistencia.
c ) La ecuación de demanda no está identicada, y tampoco debe estimarse por mínimos cuadrados
ordinarios por la misma razón (el estimador es sesgado e inconsistente).
d ) Primero se regresa y2 sobre x1 y x2 . Mediante una prueba de hiótesis se testea si los coecientes
que acompañan estas variables son signicativos. De ser así, el segundo paso es regresar y1
sobre yˆ2 , donde yˆ2 es la predicción de la regresión de y2 sobre x1 y x2 .
e ) No se puede estimar por mínimos cuadrados en dos etapas debido a que la ecuación no está
identicada.
50. En el modelo lineal
yi = x0i β + ui
E(ui ) = 0
Suponga que los términos de error no están correlacionados, sin embargo no se cumple
el supuesto de homocedasticidad. Suponga que la estructura de la varianza del error
cambia en función de xi y además es conocida. Muestre que el estimador de mínimos
cuadrados generalizados de β puede ser escrito como un estimador de variable instru-
mental usando algún instrumento zi . (Encuentre una expresión para zi en función de
xi )
Respuesta:
Expresando la matriz de varianzas-covarianzas de u como Ω, el estimador de mínimos cuadrados
generalizados es:
43
β̂M CG = (X 0 Ω−1 X)−1 X 0 Ω−1 y
β̂IV = (Z 0 X)−1 Z 0 y
se puede notar que es necesario que Z 0 sea igual a X 0 Ω−1 . Debido a la simetría de Ω−1 , la matriz
de instrumentos Z puede ser escrita como:
Z = Ω−1 X
1
σ12
0 ··· 0 x11 x21 ··· xk1
1
0
σ22
··· 0 x12 x22 ··· xk2
. .. ..
..
Z= .. .. .. ..
. . . . .. . . .
0 0 ··· 1
σ2
x1n x2n ··· xkn
n
1 0
zi0 = x
σi2 i
Referencias
[1] Novales (1993); Econometría.
[2] Wooldridge (2008); Introductory Econometrics: A Modern Approach.
[3] Greene (2005); Econometric Analysis.
[4] Gujarati & Porter (2010); Econometría.
[5] B. Hansen (2012); Econometrics.
[6] Johnston and Dinardo (1996); Econometric Methods.
44