Está en la página 1de 185

Microeconometría

Jorge Catepillan
August 18, 2022
Universidad de Piura
Regresión Lineal
Clase Pasada

• Nos interesa entender la relación ”causal” entre una variable X e Y.

1
Clase Pasada

• Nos interesa entender la relación ”causal” entre una variable X e Y.

• Asumimos que la relación entre estas dos variables es de la forma:

Yi = β0 + β1 Xi + Ui

1
Clase Pasada

• Nos interesa entender la relación ”causal” entre una variable X e Y.

• Asumimos que la relación entre estas dos variables es de la forma:

Yi = β0 + β1 Xi + Ui

• En este caso, entendemos la relación causal como cuanto cambia Yi cuando


cambia Xi y todo lo demás está constante.

1
Clase Pasada

• Nos interesa entender la relación ”causal” entre una variable X e Y.

• Asumimos que la relación entre estas dos variables es de la forma:

Yi = β0 + β1 Xi + Ui

• En este caso, entendemos la relación causal como cuanto cambia Yi cuando


cambia Xi y todo lo demás está constante.

• Esto es β1 .

1
Propiedades que nos interesan

• Identificación: ¿Somo capaces de obtener β1 de los observables? (en este


caso, a partir de Yi y Xi ).

2
Propiedades que nos interesan

• Identificación: ¿Somo capaces de obtener β1 de los observables? (en este


caso, a partir de Yi y Xi ).

• Estimación: Como podemos obtener un valor que sea parecido a β1 a partir


de una muestra de (Yi , Xi , i = 1, ..., n).

2
Propiedades que nos interesan

• Identificación: ¿Somo capaces de obtener β1 de los observables? (en este


caso, a partir de Yi y Xi ).

• Estimación: Como podemos obtener un valor que sea parecido a β1 a partir


de una muestra de (Yi , Xi , i = 1, ..., n).

• Inferencia: A partir de los datos, que nos dicen los test estadísticos?

2
Propiedades que nos interesan

• Identificación: ¿Somo capaces de obtener β1 de los observables? (en este


caso, a partir de Yi y Xi ).

• Estimación: Como podemos obtener un valor que sea parecido a β1 a partir


de una muestra de (Yi , Xi , i = 1, ..., n).

• Inferencia: A partir de los datos, que nos dicen los test estadísticos?

• Para todo esto necesitamos supuestos.

2
Supuestos I

• Linealidad: Yi = β0 + β1 Xi + Ui

3
Supuestos I

• Linealidad: Yi = β0 + β1 Xi + Ui

• Exogenidad: E[Ui |Xi ] = 0

3
Supuestos I

• Linealidad: Yi = β0 + β1 Xi + Ui

• Exogenidad: E[Ui |Xi ] = 0

• Sin multicolinealidad: Var(Xi ) > 0

3
Supuestos I

• Linealidad: Yi = β0 + β1 Xi + Ui

• Exogenidad: E[Ui |Xi ] = 0

• Sin multicolinealidad: Var(Xi ) > 0

3
Supuestos I

• Linealidad: Yi = β0 + β1 Xi + Ui

• Exogenidad: E[Ui |Xi ] = 0

• Sin multicolinealidad: Var(Xi ) > 0


cov(Yi ,Xi )
Esto permite identificar β1 = Var(Xi )

3
Supuesto II

• IID: Observamos una muestra IID de {Xi , Yi , i = 1, ..., n} (n es la cantidad de


observaciones de la muestra)

4
Supuesto II

• IID: Observamos una muestra IID de {Xi , Yi , i = 1, ..., n} (n es la cantidad de


observaciones de la muestra)

4
Supuesto II

• IID: Observamos una muestra IID de {Xi , Yi , i = 1, ..., n} (n es la cantidad de


observaciones de la muestra)

Esto permite estimar


N
(xi − x̄)(yi − ȳ)
\
Cov(Xi , Yi ) i=1
β̂1 = =
\)
Var(X ∑
N
i (xi − x̄)2
i=1

4
Estimación

Bajo los supuestos, β̂1 es:

• Consistente: p lim β̂1 = β1 . Es decir, si la muestra es muy grande, la


n→∞
estimación es parecida a β1 .

5
Estimación

Bajo los supuestos, β̂1 es:

• Consistente: p lim β̂1 = β1 . Es decir, si la muestra es muy grande, la


n→∞
estimación es parecida a β1 .

• Insesgado: E[β̂1 ] = β1 . Es decir, si repetimos muchas veces el muestreo, el


promedio de los estimadores va a ser similar a β1 , aún cuando n sea
pequeño.

5
Inferencia

• Nos interesa, a partir de la data, hacer Test de Hipótesis sobre las incognitas
que nos interesan.

6
Inferencia

• Nos interesa, a partir de la data, hacer Test de Hipótesis sobre las incognitas
que nos interesan.

• En este caso, β1 , que es el efecto causal.

6
Inferencia

• Nos interesa, a partir de la data, hacer Test de Hipótesis sobre las incognitas
que nos interesan.

• En este caso, β1 , que es el efecto causal.

• Sin embargo, eso requiere que hagamos más supuestos, pues necesitamos
saber algo sobre la distribución de los datos que nos permita realizar los
test!

6
Inferencia

Estrategia 1: Suponer que conocemos la distribución exacta de los datos, y a


partir de eso realizar los test.

• El ejemplo clasico es cuando se asume que los errores se distribuyen en


forma nomal.

7
Inferencia

Estrategia 1: Suponer que conocemos la distribución exacta de los datos, y a


partir de eso realizar los test.

• El ejemplo clasico es cuando se asume que los errores se distribuyen en


forma nomal.

• En econometría moderna, no se ocupa mucho este supuesto.

7
Inferencia

Estrategia 1: Suponer que conocemos la distribución exacta de los datos, y a


partir de eso realizar los test.

• El ejemplo clasico es cuando se asume que los errores se distribuyen en


forma nomal.

• En econometría moderna, no se ocupa mucho este supuesto.

• Por qué creen?

7
Inferencia

Estrategia 2: asumir ciertos supuestos que permitan aproximar las


distribucuiones de interes:

• Aproxomiación ocupando la distribución observada de los datos (bootsrap ,


subsampling)

8
Inferencia

Estrategia 2: asumir ciertos supuestos que permitan aproximar las


distribucuiones de interes:

• Aproxomiación ocupando la distribución observada de los datos (bootsrap ,


subsampling)

• Aproximación utilizando el Teorema Central del Límite y la Ley de los


Grandes Números. Esta es la que ocuparemos en el curso.

8
Supuestos III

• Errores homocedasticos: Var(Ui |X) = σ 2

9
Supuestos III

• Errores homocedasticos: Var(Ui |X) = σ 2

• Errores no correlacionados: E[Ui Uj |X] = 0

9
Supuestos III

• Errores homocedasticos: Var(Ui |X) = σ 2

• Errores no correlacionados: E[Ui Uj |X] = 0

• Cuartos momentos acotados: 0 < E[Y4i ], E[X4i ] < K

9
Inferencia

Con todos los supuestos anteriores, podemos obtener la convergencia en


distribución de:


n(β̂1 − β1 ) → N(0, σ 2 /Var(Xi ))

Pues:
[∑ ] ∑
√ (xi − x̄)2 −1 √ (xi − x̄)ui
n(β̂1 − β1 ) = n
n n
[∑ ]−1 [ ∑ ∑ ]
(xi − x̄)2 √ (xi − µx )ui √ ui
= n + (µx − x̄) n
n n n

10
Inferencia

Usando la Ley de los Grande Números:



(xi −x̄)2
• plim n = Var(Xi )

11
Inferencia

Usando la Ley de los Grande Números:



(xi −x̄)2
• plim n = Var(Xi )

• plim(µx − x̄) = 0

11
Inferencia

Usando la Ley de los Grande Números:



(xi −x̄)2
• plim n = Var(Xi )

• plim(µx − x̄) = 0

11
Inferencia

Usando la Ley de los Grande Números:



(xi −x̄)2
• plim n = Var(Xi )

• plim(µx − x̄) = 0

Ocupando el Teorema Central del Límite


√ ∑
• n nui converge en distribución a una normal N(0, σ 2 )

11
Inferencia

Usando la Ley de los Grande Números:



(xi −x̄)2
• plim n = Var(Xi )

• plim(µx − x̄) = 0

Ocupando el Teorema Central del Límite


√ ∑
• n nui converge en distribución a una normal N(0, σ 2 )
√ ∑
(xi −µx )ui
• n n converge en distribución a una normal N(0, Var((xi − µx )ui )

11
Inferencia

Usando la Ley de los Grande Números:



(xi −x̄)2
• plim n = Var(Xi )

• plim(µx − x̄) = 0

Ocupando el Teorema Central del Límite


√ ∑
• n nui converge en distribución a una normal N(0, σ 2 )
√ ∑
(xi −µx )ui
• n n converge en distribución a una normal N(0, Var((xi − µx )ui )

• Bajo los supuestos, Var((xi − µx )ui ) = σ 2 Var(X)

11
Inferencia

• Si observáramos σ, con la distribución del estadístico, podemos testear


hipótesis sobre β1 .

12
Inferencia

• Si observáramos σ, con la distribución del estadístico, podemos testear


hipótesis sobre β1 .

• Sin embargo, probablemente no conocemos σ 2 , por lo que hay que


estimarlo.

12
Inferencia

• Si observáramos σ, con la distribución del estadístico, podemos testear


hipótesis sobre β1 .

• Sin embargo, probablemente no conocemos σ 2 , por lo que hay que


estimarlo.

• Llamemos Ûi = Yi − β̂0 − β̂1 XI

12
Inferencia

• Si observáramos σ, con la distribución del estadístico, podemos testear


hipótesis sobre β1 .

• Sin embargo, probablemente no conocemos σ 2 , por lo que hay que


estimarlo.

• Llamemos Ûi = Yi − β̂0 − β̂1 XI

• El estimador:

n
û2i
2 i=1
σ̂ =
n−2
Es insesgado y consistente!

12
Estimador de la varianza

• Primero: ûi = ui − ū − (xi − x̄)(β̂1 − β1 )

ûi = yi − β̂0 − xi β̂1 ]


= yi − ȳ + x̄β̂1 − xi β̂1
= yi − ȳ − (xi − x̄)β̂1
= (xi − x̄)β1 + ui − ū − (xi − x̄)β̂1
= ui − ū − (xi − x̄)(β̂1 − β1 )

13
Estimador de la varianza
∑ ∑ ∑ 2
i −x̄)(ui −ū))
• Segundo: û2i = (ui − ū)2 − ( (x∑
(xi −x̄)2

∑ ∑
û2i =(ui − ū − (xi − x̄)(β̂1 − β1 ))2

= (ui − ū)2 − 2(ui − ū)(xi − x̄)(β̂1 − β1 ) + (xi − x̄)2 (β̂1 − β1 )2
∑ ∑ ∑
= (ui − ū)2 − 2(β̂1 − β1 ) (ui − ū)(xi − x̄) + (β̂1 − β1 )2 (xi − x̄)2
∑ ∑
Pero ocupando que β̂1 − β1 = (xi − x̄)(ui − ū)/ (xi − x̄)2 llegamos a la
expresión:

∑ ∑ ∑
( (xi − x̄)(ui − ū))2
û2i = (ui − ū)2 − ∑
(xi − x̄)2

14
Estimador de la varianza

• Consistencia:

(∑ )2
∑ ∑ (xi −x̄)(ui −ū)
û2i
(ui − ū)2 n n n
= − ∑
(xi −x̄)2
n−2 n n−2 n−2
n

15
Estimador de la varianza

• Consistencia:

(∑ )2
∑ ∑ (xi −x̄)(ui −ū)
û2i
(ui − ū)2 n n n
= − ∑
(xi −x̄)2
n−2 n n−2 n−2
n

(ui −ū)2
• n converge en probabilidad a σ 2

15
Estimador de la varianza

• Consistencia:

(∑ )2
∑ ∑ (xi −x̄)(ui −ū)
û2i
(ui − ū)2 n n n
= − ∑
(xi −x̄)2
n−2 n n−2 n−2
n

(ui −ū)2
• n converge en probabilidad a σ 2
n
• n−2 converge a 1

15
Estimador de la varianza

• Consistencia:

(∑ )2
∑ ∑ (xi −x̄)(ui −ū)
û2i
(ui − ū)2 n n n
= − ∑
(xi −x̄)2
n−2 n n−2 n−2
n

(ui −ū)2
• n converge en probabilidad a σ 2
n
• n−2 converge a 1

(xi −x̄)(ui −ū)
• n converge en probabilidad a 0.

15
Estimador de la varianza

• Consistencia:

(∑ )2
∑ ∑ (xi −x̄)(ui −ū)
û2i
(ui − ū)2 n n n
= − ∑
(xi −x̄)2
n−2 n n−2 n−2
n

(ui −ū)2
• n converge en probabilidad a σ 2
n
• n−2 converge a 1

(xi −x̄)(ui −ū)
• n converge en probabilidad a 0.

(xi −x̄)2
• n converge en probailidad a Var(Xi ).

15
Estimador de la varianza

• Consistencia:

(∑ )2
∑ ∑ (xi −x̄)(ui −ū)
û2i
(ui − ū)2 n n n
= − ∑
(xi −x̄)2
n−2 n n−2 n−2
n

(ui −ū)2
• n converge en probabilidad a σ 2
n
• n−2 converge a 1

(xi −x̄)(ui −ū)
• n converge en probabilidad a 0.

(xi −x̄)2
• n converge en probailidad a Var(Xi ).
∑ 2

• Finalmente, n−2i converge en probabilidad a σ2.

15
Estimador de la varianza

• Insesgado:

[∑ ] [∑ ] E [(∑(x − x̄)(u − ū))2 |X]


i i
E û2i |X =E 2
(ui − ū) |X − ∑
(xi − x̄)2

16
Estimador de la varianza

• Insesgado:

[∑ ] [∑ ] E [(∑(x − x̄)(u − ū))2 |X]


i i
E û2i |X =E 2
(ui − ū) |X − ∑
(xi − x̄)2
∑ [∑ 2 ] [∑ 2 ] [∑ ∑ ]
• E [ (ui − ū)2 |X] = E ui − nū2 |X = E ui |X − E ui uj |X /n =
∑∑ [ ]
nσ 2 − E ui uj |X /n = (n − 1)σ 2

16
Estimador de la varianza

• Insesgado:

[∑ ] [∑ ] E [(∑(x − x̄)(u − ū))2 |X]


i i
E û2i |X
=E 2
(ui − ū) |X − ∑
(xi − x̄)2
∑ [∑ 2 ] [∑ 2 ] [∑ ∑ ]
• E [ (ui − ū)2 |X] = E ui − nū2 |X = E ui |X − E ui uj |X /n =
∑∑ [ ]
nσ 2 − E ui uj |X /n = (n − 1)σ 2
[∑ ] [∑ ∑ ]
• E ( (xi − x̄)(ui − ū))2 |X = E (xi − x̄)(ui )(xj − x̄)(uj )|X =
∑∑ [ ] ∑
(xi − x̄)E ui uj |X (xj − x̄) = σ 2 (xi − x̄)2

16
Estimador de la varianza

• Insesgado:
[∑ ] ∑ [∑ 2 ]
E û2i |X E [ (ui − ū)2 |X] E ( (xi − x̄)(ui − ū)) |X
= − ∑
n−1 n−2 (n − 2) (xi − x̄)2

nσ 2 − σ 2 σ 2 (xi − x̄)2
= − ∑
n−2 (n − 2) (xi − x̄)2
= σ2

17
Comentarios

• Dado el estimador de la varianza, entonces el estadístico:

β̂1 − β1
√ ∑
σ̂ 2 / (xi − x̄)2
De distribuye asintóticamente como una normal con media cero y varianza 1.

18
Comentarios

• Dado el estimador de la varianza, entonces el estadístico:

β̂1 − β1
√ ∑
σ̂ 2 / (xi − x̄)2
De distribuye asintóticamente como una normal con media cero y varianza 1.

• A partir de eso , podemos testear cosas como β1 = 0.

18
Comentario

Distribución exacta, errores normales.

• En MCO clásico, a veces se asumen errores normales.

19
Comentario

Distribución exacta, errores normales.

• En MCO clásico, a veces se asumen errores normales.

• Esto implica que βˆ1 es normal!

19
Comentario

Distribución exacta, errores normales.

• En MCO clásico, a veces se asumen errores normales.

• Esto implica que βˆ1 es normal!

• Sin embargo, la varianza puede ser desconocida.

19
Comentario

Distribución exacta, errores normales.

• En MCO clásico, a veces se asumen errores normales.

• Esto implica que βˆ1 es normal!

• Sin embargo, la varianza puede ser desconocida.

• Pero el estimador de la varinza se comporta como una Chi cuadrado de n-2


grados de libertad.

19
Comentario

Distribución exacta, errores normales.

• En MCO clásico, a veces se asumen errores normales.

• Esto implica que βˆ1 es normal!

• Sin embargo, la varianza puede ser desconocida.

• Pero el estimador de la varinza se comporta como una Chi cuadrado de n-2


grados de libertad.

• Bajo estos supuestos , el estadístico T es una T-student

19
Comentario

Distribución exacta, errores normales.



• βˆ1 − β1 , condicional en X, es normal de varianza σ 2 /( (xi − x̄)2 )

20
Comentario

Distribución exacta, errores normales.



• βˆ1 − β1 , condicional en X, es normal de varianza σ 2 /( (xi − x̄)2 )
2
• Se puede mostrar que (n − 2) σσ̂2 es una χ2n−2 independiente de βˆ1 − β1

20
Comentario

Distribución exacta, errores normales.



• βˆ1 − β1 , condicional en X, es normal de varianza σ 2 /( (xi − x̄)2 )
2
• Se puede mostrar que (n − 2) σσ̂2 es una χ2n−2 independiente de βˆ1 − β1
• Luego,

βˆ1 − β1
T= √ ∑
(σ̂ 2 / (xi − x̄)2 )
Es una t-student con n − 2 grados de libertad.

20
Comentario

Distribución exacta, errores normales.



• βˆ1 − β1 , condicional en X, es normal de varianza σ 2 /( (xi − x̄)2 )
2
• Se puede mostrar que (n − 2) σσ̂2 es una χ2n−2 independiente de βˆ1 − β1
• Luego,

βˆ1 − β1
T= √ ∑
(σ̂ 2 / (xi − x̄)2 )
Es una t-student con n − 2 grados de libertad.
• Esto es lo que reporta stata

20
Comentario

Distribución exacta, errores normales.



• βˆ1 − β1 , condicional en X, es normal de varianza σ 2 /( (xi − x̄)2 )
2
• Se puede mostrar que (n − 2) σσ̂2 es una χ2n−2 independiente de βˆ1 − β1
• Luego,

βˆ1 − β1
T= √ ∑
(σ̂ 2 / (xi − x̄)2 )
Es una t-student con n − 2 grados de libertad.
• Esto es lo que reporta stata
• Para n grande, esta distribución es muy similar a una normal.

20
Regresiones

• Linealidad: Yi = α + βXi + Ui

21
Regresiones

• Linealidad: Yi = α + βXi + Ui

• Exogeneidad: E[Ui |X] = 0

21
Regresiones

• Linealidad: Yi = α + βXi + Ui

• Exogeneidad: E[Ui |X] = 0

• Sin multicolinealidad: var(Xi ) > 0

21
Regresiones

• Linealidad: Yi = α + βXi + Ui

• Exogeneidad: E[Ui |X] = 0

• Sin multicolinealidad: var(Xi ) > 0

• IID: {Yi , Xi } muestra i.i.d.

21
Regresiones

• Linealidad: Yi = α + βXi + Ui

• Exogeneidad: E[Ui |X] = 0

• Sin multicolinealidad: var(Xi ) > 0

• IID: {Yi , Xi } muestra i.i.d.

• Homocedasticidad / sin correlación serial: E[U2i |Xi ] = σ 2 .


E[Ui Uj |Xk ] = 0, i ̸= j

21
Regresiones

• Linealidad: Yi = α + βXi + Ui

• Exogeneidad: E[Ui |X] = 0

• Sin multicolinealidad: var(Xi ) > 0

• IID: {Yi , Xi } muestra i.i.d.

• Homocedasticidad / sin correlación serial: E[U2i |Xi ] = σ 2 .


E[Ui Uj |Xk ] = 0, i ̸= j

• Cuartos momentos acotados: 0 < E[Y4i ], E[X4i ] < K, K ∈ R+

21
Regresiones

Supuesto Identificación Buena Estimación Inferencia


Linealidad x x x
Exogeneidad x x x
Var(Xi ) > 0 x x x
IID x x
Errores x
4tos Momentos x

22
Regresiones

Un ejemplo:
Supongamos que tenemos el siguiente modelo que cumple con todos los
supuestos.

Yi = β0 + β1 X1i + β2 X2i + Ui

Pero estimamos este modelo,

Yi = β0 + β1 X1i + Wi

¿Qué pasa con nuestro estimador de MCO? ¿Es consistente?

23
Regresiones

∑ 1
(xi − x̄1 )(yi − ȳ) Cov(X1i , Yi )
β̂1 = →
(x1i − x̄1 )2 Var(X1i )
Cov(X1i , β0 + β1 X1i + β2 X2i + Ui )
=
Var(X1i )
Cov(X1i , X2i )
= β1 + β2
Var(X1i )

24
Múltiples Regresores

Modelo con un regresor es útil para entender los conceptos, pero en la realidad:

• Podemos estar interesados en los efectos de tratamientos de más de una


dimensión.

25
Múltiples Regresores

Modelo con un regresor es útil para entender los conceptos, pero en la realidad:

• Podemos estar interesados en los efectos de tratamientos de más de una


dimensión.

• Puede que no sea posible identificar el efecto causal porque en los datos el
error se mueve con X, por lo que hay que controlar por más variables!

25
Múltiples Regresores

Dado yi ∈ R, xi ∈ Rk , i = 1, ..., n variables aleatorias.

• Queremos estudiar el modelo

yi = x′i β + ui

26
Múltiples Regresores

Dado yi ∈ R, xi ∈ Rk , i = 1, ..., n variables aleatorias.

• Queremos estudiar el modelo

yi = x′i β + ui

• Es útil en este contexto ocupar la siguiente notación.


     
y1 x′1 u1
. .  . 
Y= .
. X= .
. U= . 
 . 
yn x′n un
nx1 nxk nxk

26
Múltiples Regresores

Dado yi ∈ R, xi ∈ Rk , i = 1, ..., n variables aleatorias.

• Queremos estudiar el modelo

yi = x′i β + ui

• Es útil en este contexto ocupar la siguiente notación.


     
y1 x′1 u1
. .  . 
Y= .
. X= .
. U= . 
 . 
yn x′n un
nx1 nxk nxk

• Alternativamente, podemos escribir Y = Xβ + U

26
Múltiples Regresores

Supuestos

• Linealidad: yi = x′i β + ui = β0 + β1 x1i + ... + βn xni + ui

27
Múltiples Regresores

Supuestos

• Linealidad: yi = x′i β + ui = β0 + β1 x1i + ... + βn xni + ui

• Exogeneidad: E[ui |xi ] = 0, o E[ui |X] = 0

27
Múltiples Regresores

Supuestos

• Linealidad: yi = x′i β + ui = β0 + β1 x1i + ... + βn xni + ui

• Exogeneidad: E[ui |xi ] = 0, o E[ui |X] = 0

• No hay multicolinearidad: X′ X es invertible (el rango de X′ X es k), o E[xi x′i ] es


invertible.

27
Identificación

Supuestos

• De la linealidad:
E[xi yi ] = E[xi x′i ]β + E[xi ui ]

28
Identificación

Supuestos

• De la linealidad:
E[xi yi ] = E[xi x′i ]β + E[xi ui ]

• De exogeneidad:

E[xi ui ] = E[E[xi ui |xi ]] = E[xi E[ui |xi ]] = 0

28
Identificación

Supuestos

• De la linealidad:
E[xi yi ] = E[xi x′i ]β + E[xi ui ]

• De exogeneidad:

E[xi ui ] = E[E[xi ui |xi ]] = E[xi E[ui |xi ]] = 0

• De la invertibilidad:
β = E[xi x′i ]−1 E[xi yi ]

28
Estimación

Supuestos.

• Muestra i.i.d., (Xi , Yi ), i = 1, ..., N son independientes e idénticamente


distribuídos
• Esto permite estimar β con su análogo muestral.
( n
)−1 ( n )
∑ xi x′ ∑ x i yi
i
β̂ =
n n
i=1 i=1

• Equivalente en forma matricial a:

β̂ = (X′ X)−1 X′ Y

29
Estimación

Bajos los supuestos anteriores, el estimador es insesgado y consistente.

• Insesgado:

E[β̂|X] = (X′ X)−1 X′ E[Y|X] = (X′ X)−1 X′ E[Xβ + U|X] = β

30
Estimación

Bajos los supuestos anteriores, el estimador es insesgado y consistente.

• Insesgado:

E[β̂|X] = (X′ X)−1 X′ E[Y|X] = (X′ X)−1 X′ E[Xβ + U|X] = β

• Consistente:
( n
)−1 ( n )
∑ xi x′ ∑ x i yi
β̂ = i
→ E[xi x′i ]−1 E[xi yi ] = β
n n
i=1 i=1

30
Estimación

Bajos los supuestos anteriores, el estimador es insesgado y consistente.

• Insesgado:

E[β̂|X] = (X′ X)−1 X′ E[Y|X] = (X′ X)−1 X′ E[Xβ + U|X] = β

• Consistente:
( n
)−1 ( n )
∑ xi x′ ∑ x i yi
β̂ = i
→ E[xi x′i ]−1 E[xi yi ] = β
n n
i=1 i=1

• Lo anterior también se puede obtener utilizando:

β̂ = (X′ X)−1 X′ Y = (X′ X)−1 X′ (X′ β + U) = β + (X′ X)−1 X′ U

30
Inferencia

Supuestos

• Homocedasticidad: E[UU′ |X] = σ 2 Inxn

31
Inferencia

Supuestos

• Homocedasticidad: E[UU′ |X] = σ 2 Inxn

• Cuartos momentos acotados.

31
Inferencia

Bajo todos los supuestos anteriores,


• La varianza del estimador, condicional en X, es igual a:
Var(β̂) = Var(β + (X′ X)−1 X′ U) = E[(X′ X)−1 X′ UU′ X(X′ X)−1′ |X]
= (X′ X)−1 X′ E[UU′ |X]X(X′ X)−1
= σ 2 (X′ X)−1

32
Inferencia

Bajo todos los supuestos anteriores,


• La varianza del estimador, condicional en X, es igual a:
Var(β̂) = Var(β + (X′ X)−1 X′ U) = E[(X′ X)−1 X′ UU′ X(X′ X)−1′ |X]
= (X′ X)−1 X′ E[UU′ |X]X(X′ X)−1
= σ 2 (X′ X)−1
• El estadístico,
( n
)−1 ( n )
√ √ √ ∑ xi x′ ∑ xi ui
n(β̂ − β) = n(X′ X)−1 X′ U = n i
n n
i=1 i=1
Tiene una distribución asintótica normal con media cero y varianza
σ 2 E[xi x′i ]−1
32
Inferencia

Esta distribución se obtiene porque:



n xi x′i
• plim n = E[xi x′i ]
i=1

33
Inferencia

Esta distribución se obtiene porque:



n xi x′i
• plim n = E[xi x′i ]
i=1

√ ∑n
xi ui
• n n converge en distribución a una normal con media cero y varianza
i=1
E[xi ui ui x′i ] = E[u2i xi x′i ] = σ 2 E[xi x′i ] (Teorema Central del Límite)

33
Inferencia

Esta distribución se obtiene porque:



n xi x′i
• plim n = E[xi x′i ]
i=1

√ ∑n
xi ui
• n n converge en distribución a una normal con media cero y varianza
i=1
E[xi ui ui x′i ] = E[u2i xi x′i ] = σ 2 E[xi x′i ] (Teorema Central del Límite)


• Por lo tanto n(β̂ − β) converge en distribución a una normal con media
cero y varianza σ 2 E[xi x′i ]−1 E[xi x′i ]E[xi x′i ]−1′ = σ 2 E[xi x′i ]−1

33
Estimador de la varianza

Cómo estimamos σ 2 ?

• Sea Û = Y − Xβ̂ = Xβ + U − Xβ̂ = U − X(X′ X)−1 X′ U = (I − X(X′ X)−1 X′ )U

34
Estimador de la varianza

Cómo estimamos σ 2 ?

• Sea Û = Y − Xβ̂ = Xβ + U − Xβ̂ = U − X(X′ X)−1 X′ U = (I − X(X′ X)−1 X′ )U


• σ̂ 2 = Û′ Û/(n − k) = U′ (I − X(X′ X)−1 X′ )U/(n − k)

34
Estimador de la varianza

Cómo estimamos σ 2 ?

• Sea Û = Y − Xβ̂ = Xβ + U − Xβ̂ = U − X(X′ X)−1 X′ U = (I − X(X′ X)−1 X′ )U


• σ̂ 2 = Û′ Û/(n − k) = U′ (I − X(X′ X)−1 X′ )U/(n − k)
• Es consistente? σ̂ 2 = U′ U/(n − k) − U′ X/n(X′ X/n)−1 X′ U/(n − k)

34
Estimador de la varianza

Cómo estimamos σ 2 ?

• Sea Û = Y − Xβ̂ = Xβ + U − Xβ̂ = U − X(X′ X)−1 X′ U = (I − X(X′ X)−1 X′ )U


• σ̂ 2 = Û′ Û/(n − k) = U′ (I − X(X′ X)−1 X′ )U/(n − k)
• Es consistente? σ̂ 2 = U′ U/(n − k) − U′ X/n(X′ X/n)−1 X′ U/(n − k)
∑ 2
• U′ U/(n − k) = ui /n ∗ n/(n − k) converge en probabilida a σ 2

34
Estimador de la varianza

Cómo estimamos σ 2 ?

• Sea Û = Y − Xβ̂ = Xβ + U − Xβ̂ = U − X(X′ X)−1 X′ U = (I − X(X′ X)−1 X′ )U


• σ̂ 2 = Û′ Û/(n − k) = U′ (I − X(X′ X)−1 X′ )U/(n − k)
• Es consistente? σ̂ 2 = U′ U/(n − k) − U′ X/n(X′ X/n)−1 X′ U/(n − k)
∑ 2
• U′ U/(n − k) = ui /n ∗ n/(n − k) converge en probabilida a σ 2

• U′ X/n = ui x′i /n converge en probabilidad a cero.

34
Estimador de la varianza

Cómo estimamos σ 2 ?

• Sea Û = Y − Xβ̂ = Xβ + U − Xβ̂ = U − X(X′ X)−1 X′ U = (I − X(X′ X)−1 X′ )U


• σ̂ 2 = Û′ Û/(n − k) = U′ (I − X(X′ X)−1 X′ )U/(n − k)
• Es consistente? σ̂ 2 = U′ U/(n − k) − U′ X/n(X′ X/n)−1 X′ U/(n − k)
∑ 2
• U′ U/(n − k) = ui /n ∗ n/(n − k) converge en probabilida a σ 2

• U′ X/n = ui x′i /n converge en probabilidad a cero.

• X′ X/n = xi x′i /n converge en probabilidad a E[xi x′i ].

34
Estimador de la varianza

Cómo estimamos σ 2 ?

• Sea Û = Y − Xβ̂ = Xβ + U − Xβ̂ = U − X(X′ X)−1 X′ U = (I − X(X′ X)−1 X′ )U


• σ̂ 2 = Û′ Û/(n − k) = U′ (I − X(X′ X)−1 X′ )U/(n − k)
• Es consistente? σ̂ 2 = U′ U/(n − k) − U′ X/n(X′ X/n)−1 X′ U/(n − k)
∑ 2
• U′ U/(n − k) = ui /n ∗ n/(n − k) converge en probabilida a σ 2

• U′ X/n = ui x′i /n converge en probabilidad a cero.

• X′ X/n = xi x′i /n converge en probabilidad a E[xi x′i ].

• X′ U/n = xi ui /n ∗ n/(n − k) converge en probabilidad a cero.

34
Estimador de la varianza

Cómo estimamos σ 2 ?

• Sea Û = Y − Xβ̂ = Xβ + U − Xβ̂ = U − X(X′ X)−1 X′ U = (I − X(X′ X)−1 X′ )U


• σ̂ 2 = Û′ Û/(n − k) = U′ (I − X(X′ X)−1 X′ )U/(n − k)
• Es consistente? σ̂ 2 = U′ U/(n − k) − U′ X/n(X′ X/n)−1 X′ U/(n − k)
∑ 2
• U′ U/(n − k) = ui /n ∗ n/(n − k) converge en probabilida a σ 2

• U′ X/n = ui x′i /n converge en probabilidad a cero.

• X′ X/n = xi x′i /n converge en probabilidad a E[xi x′i ].

• X′ U/n = xi ui /n ∗ n/(n − k) converge en probabilidad a cero.
• Por lo tanto, es consistente!

34
Estimador de la varianza

• Es insesgado? σ̂ 2 = U′ U/(n − k) − U′ X(X′ X)−1 X′ U/(n − k)

35
Estimador de la varianza

• Es insesgado? σ̂ 2 = U′ U/(n − k) − U′ X(X′ X)−1 X′ U/(n − k)


• E[U′ U/(n − k)|X] = E[ u2i |X]/(n − k) = nσ 2 /(n − k)

35
Estimador de la varianza

• Es insesgado? σ̂ 2 = U′ U/(n − k) − U′ X(X′ X)−1 X′ U/(n − k)


• E[U′ U/(n − k)|X] = E[ u2i |X]/(n − k) = nσ 2 /(n − k)

• E[U′ X(X′ X)−1 X′ U|X] ?

35
Estimador de la varianza

• Definamos la traza de una matriz como la suma de sus diagonales.

36
Estimador de la varianza

• Definamos la traza de una matriz como la suma de sus diagonales.

• Se puede mostrar que E[tr(A)] = trE[A].

36
Estimador de la varianza

• Definamos la traza de una matriz como la suma de sus diagonales.

• Se puede mostrar que E[tr(A)] = trE[A].

• Se puede mostrar que tr(ABC) = tr(BCA) = tr(CAB)

36
Estimador de la varianza

• Definamos la traza de una matriz como la suma de sus diagonales.

• Se puede mostrar que E[tr(A)] = trE[A].

• Se puede mostrar que tr(ABC) = tr(BCA) = tr(CAB)

• En el caso de U′ X(X′ X)−1 X′ U es un número, entonces es igual a


tr(U′ X(X′ X)−1 X′ U).

36
Estimador de la varianza

E[U′ X(X′ X)−1 X′ U|X] = E[tr(U′ X(X′ X)−1 X′ U)|X]


= E[tr(UU′ X(X′ X)−1 X′ )|X]
= tr(E[UU′ X(X′ X)−1 X′ |X])
= tr(E[UU′ |X]X(X′ X)−1 X′ )
= tr(σ 2 Inxn X(X′ X)−1 X′ )
= tr(σ 2 X′ X(X′ X)−1 )
= tr(σ 2 Ikxk )
= σ2k

37
Estimador de la varianza

Finalmente

• σ̂ 2 = Û′ Û/(n − k) = U′ U/(n − k) − U′ X(X′ X)−1 X′ U/(n − k)

38
Estimador de la varianza

Finalmente

• σ̂ 2 = Û′ Û/(n − k) = U′ U/(n − k) − U′ X(X′ X)−1 X′ U/(n − k)


• E[U′ U/(n − k)|X] = E[ u2i |X]/(n − k) = nσ 2 /(n − k)

38
Estimador de la varianza

Finalmente

• σ̂ 2 = Û′ Û/(n − k) = U′ U/(n − k) − U′ X(X′ X)−1 X′ U/(n − k)


• E[U′ U/(n − k)|X] = E[ u2i |X]/(n − k) = nσ 2 /(n − k)

• E[U′ X(X′ X)−1 X′ U|X] = σ 2 k

38
Estimador de la varianza

Finalmente

• σ̂ 2 = Û′ Û/(n − k) = U′ U/(n − k) − U′ X(X′ X)−1 X′ U/(n − k)


• E[U′ U/(n − k)|X] = E[ u2i |X]/(n − k) = nσ 2 /(n − k)

• E[U′ X(X′ X)−1 X′ U|X] = σ 2 k

• Y E[σ̂ 2 |X] = σ 2

38
Otras Propiedades
Propiedades del estimador de MCO

Propiedad de álgebra lineal:

• Teorema: (Frisch–Waugh–Lovell) Supongamos que se realiza una regresión


de Y en X y en Z. Entonces el coeficiente asociado a X es igual que el que se
obtendría si hacemos una regresión de la parte de Y que no está explicada
por Z en la parte de X que no está explicada por Z.

39
Frisch–Waugh–Lovell

Definiciones previas, sea X una matriz

• Definamos Px = X(X′ X)−1 X′ como la matriz de proyección de X y Mx = I − Px


como la matriz aniquiladora de X.

40
Frisch–Waugh–Lovell

Definiciones previas, sea X una matriz

• Definamos Px = X(X′ X)−1 X′ como la matriz de proyección de X y Mx = I − Px


como la matriz aniquiladora de X.

• P′x = Px y Px Px = Px ; M′x = Mx y Mx Mx = Mx .

40
Frisch–Waugh–Lovell

Definiciones previas, sea X una matriz

• Definamos Px = X(X′ X)−1 X′ como la matriz de proyección de X y Mx = I − Px


como la matriz aniquiladora de X.

• P′x = Px y Px Px = Px ; M′x = Mx y Mx Mx = Mx .

• Intuitivamente, multiplicar por Px proyecta cualquier matriz en el espacio


generado por las columnas de X, y Mx en el espacio ortogonal a las
columnas de X.

40
Frisch–Waugh–Lovell

Definiciones previas, sea X una matriz

• Definamos Px = X(X′ X)−1 X′ como la matriz de proyección de X y Mx = I − Px


como la matriz aniquiladora de X.

• P′x = Px y Px Px = Px ; M′x = Mx y Mx Mx = Mx .

• Intuitivamente, multiplicar por Px proyecta cualquier matriz en el espacio


generado por las columnas de X, y Mx en el espacio ortogonal a las
columnas de X.

• Si A es una matriz y Px A = 0 se dice que A es ortogonal a X.

40
Frisch–Waugh–Lovell

Volviendo a las regresiones

• El teorema de Frisch–Waugh–Lovell dice que en el modelo:

Y = Xβ + Zα + U

41
Frisch–Waugh–Lovell

Volviendo a las regresiones

• El teorema de Frisch–Waugh–Lovell dice que en el modelo:

Y = Xβ + Zα + U
• Si hacemos la regresión de Y en X y en Z, entonces

β̂mco = (X′ Mz X)−1 X′ Mz Y

41
Frisch–Waugh–Lovell

Volviendo a las regresiones

• El teorema de Frisch–Waugh–Lovell dice que en el modelo:

Y = Xβ + Zα + U
• Si hacemos la regresión de Y en X y en Z, entonces

β̂mco = (X′ Mz X)−1 X′ Mz Y


• Esto es equivalente a hacer una regresión en el modelo:

Mz Y = Mz Xβ + W

41
Frisch–Waugh–Lovell

Demostración

• Primero, notar que los errores estimados son ortogonales a los regresores.
Asumiendo que solo tenemos regresores X, entoncs

Û = Y − Xβ̂ = Y − X(X′ X)−1 X′ Y = Mx Y

42
Frisch–Waugh–Lovell

Demostración

• Primero, notar que los errores estimados son ortogonales a los regresores.
Asumiendo que solo tenemos regresores X, entoncs

Û = Y − Xβ̂ = Y − X(X′ X)−1 X′ Y = Mx Y

• Segundo, si hacemos una regresión en X y Z, se cumple la siguiente


identidad:

Y − Û = Xβ̂mco + Zα̂mco

42
Frisch–Waugh–Lovell

Demostración

• Notar que Û es perpendicular a X y a Z! Multiplicando por X′ Mz en ambos


lados nos queda.
X′ Mz Y − X′ Mz Û = X′ Mz Xβ̂mco

43
Frisch–Waugh–Lovell

Demostración

• Notar que Û es perpendicular a X y a Z! Multiplicando por X′ Mz en ambos


lados nos queda.
X′ Mz Y − X′ Mz Û = X′ Mz Xβ̂mco

• Pero al ser Û perpendicular tanto a X como a Z, Mz Û = Û, pero X′ Û = 0 . Con


lo que tenemos la identidad,

X′ Mz Y = X′ Mz Xβ̂mco

43
Frisch–Waugh–Lovell

Demostración

• Notar que Û es perpendicular a X y a Z! Multiplicando por X′ Mz en ambos


lados nos queda.
X′ Mz Y − X′ Mz Û = X′ Mz Xβ̂mco

• Pero al ser Û perpendicular tanto a X como a Z, Mz Û = Û, pero X′ Û = 0 . Con


lo que tenemos la identidad,

X′ Mz Y = X′ Mz Xβ̂mco

• Que implica β̂mco = (X′ Mz X)−1 X′ Mz Y

43
Teorema de Gauss Markov

• Si se cumplen lo supuestos de linealidad, exogeneidad,


no-multicolinealidad, iid y homocedasticidad, entonces β̂mco es el estimador
lineal en Y e insesgados con menor varianza, en el sentido matricial.

44
Teorema de Gauss Markov

• Si se cumplen lo supuestos de linealidad, exogeneidad,


no-multicolinealidad, iid y homocedasticidad, entonces β̂mco es el estimador
lineal en Y e insesgados con menor varianza, en el sentido matricial.

• BLUE: Best Linear Unbiased Estimator.

44
Teorema de Gauss Markov

• Si se cumplen lo supuestos de linealidad, exogeneidad,


no-multicolinealidad, iid y homocedasticidad, entonces β̂mco es el estimador
lineal en Y e insesgados con menor varianza, en el sentido matricial.

• BLUE: Best Linear Unbiased Estimator.

• MELI: Mejor Estimador Lineal Insesgado

44
Teorema de Gauss Markov

Demostración

• Sea β̃ = AY un estimador lineal en Y e insesgado. Podemos escribir


A = (X′ X)−1 X′ + D con DX = 0, que es equivalente a que sea insesgado.

45
Teorema de Gauss Markov

Demostración

• Sea β̃ = AY un estimador lineal en Y e insesgado. Podemos escribir


A = (X′ X)−1 X′ + D con DX = 0, que es equivalente a que sea insesgado.
• La varianza de β̃ = AY condicional en X es:

Var(β̃) = σ 2 AA′ = σ 2 ((X′ X)−1 + DD′ )

45
Teorema de Gauss Markov

Demostración

• Sea β̃ = AY un estimador lineal en Y e insesgado. Podemos escribir


A = (X′ X)−1 X′ + D con DX = 0, que es equivalente a que sea insesgado.
• La varianza de β̃ = AY condicional en X es:

Var(β̃) = σ 2 AA′ = σ 2 ((X′ X)−1 + DD′ )

• La varianza de β̂mco condicional en X es σ 2 (X′ X)−1

45
Teorema de Gauss Markov

Demostración

• Sea β̃ = AY un estimador lineal en Y e insesgado. Podemos escribir


A = (X′ X)−1 X′ + D con DX = 0, que es equivalente a que sea insesgado.
• La varianza de β̃ = AY condicional en X es:

Var(β̃) = σ 2 AA′ = σ 2 ((X′ X)−1 + DD′ )

• La varianza de β̂mco condicional en X es σ 2 (X′ X)−1


• Luego:
Var(β̃) − Var(β̂mco ) = σ 2 DD′

45
Teorema de Gauss Markov

Demostración

• Sea β̃ = AY un estimador lineal en Y e insesgado. Podemos escribir


A = (X′ X)−1 X′ + D con DX = 0, que es equivalente a que sea insesgado.
• La varianza de β̃ = AY condicional en X es:

Var(β̃) = σ 2 AA′ = σ 2 ((X′ X)−1 + DD′ )

• La varianza de β̂mco condicional en X es σ 2 (X′ X)−1


• Luego:
Var(β̃) − Var(β̂mco ) = σ 2 DD′
• Esta diferencia es una matriz semi definida positiva, lo que demuestra el
teorema.
45
Propiedades del estimador

Otras propiedades.

• β̂mco se obtiene también de minimizar las distancias al cuadrado


(formulación clásica)

β̂mco ∈ arg max (yi − x′i β)2
β∈R
i

46
Propiedades del estimador

Otras propiedades.

• β̂mco se obtiene también de minimizar las distancias al cuadrado


(formulación clásica)

β̂mco ∈ arg max (yi − x′i β)2
β∈R
i

• Si los errores se asumen normales, entonce β̂mco es el estimador de máxima


verosimilitud.

46
Propiedades del estimador

Otras propiedades.

• β̂mco se obtiene también de minimizar las distancias al cuadrado


(formulación clásica)

β̂mco ∈ arg max (yi − x′i β)2
β∈R
i

• Si los errores se asumen normales, entonce β̂mco es el estimador de máxima


verosimilitud.

• Ocupando la condición E[xi (yi − x′i β)] = 0, β̂mco es el estimador de GMM.

46
Revisando los supuestos

Problemas con los supuestos: ( linealidad, exogeneidad, sin multicolinearidad,


independencia y homocedasticidad ):

• No - Linealidad: podría implicar variables omitidas. Una forma de lidear con


problemas en este supuesto es ocupar estimaciones no lineales, sobre todo
en caso de Y continua. Caso Y discreta lo vamos a ver más adelante.

47
Revisando los supuestos

Problemas con los supuestos: ( linealidad, exogeneidad, sin multicolinearidad,


independencia y homocedasticidad ):

• No - Linealidad: podría implicar variables omitidas. Una forma de lidear con


problemas en este supuesto es ocupar estimaciones no lineales, sobre todo
en caso de Y continua. Caso Y discreta lo vamos a ver más adelante.
• Endogeneidad: se puede dar por variables omitidas, o algún otro tipo de
problemas. Vamos a ver esto en las siguientes clases.

47
Revisando los supuestos

Problemas con los supuestos: ( linealidad, exogeneidad, sin multicolinearidad,


independencia y homocedasticidad ):

• No - Linealidad: podría implicar variables omitidas. Una forma de lidear con


problemas en este supuesto es ocupar estimaciones no lineales, sobre todo
en caso de Y continua. Caso Y discreta lo vamos a ver más adelante.
• Endogeneidad: se puede dar por variables omitidas, o algún otro tipo de
problemas. Vamos a ver esto en las siguientes clases.
• Multicolinearidad: este supuesto es fácil de chequear.

47
Revisando los supuestos

Problemas con los supuestos: ( linealidad, exogeneidad, sin multicolinearidad,


independencia y homocedasticidad ):

• No - Linealidad: podría implicar variables omitidas. Una forma de lidear con


problemas en este supuesto es ocupar estimaciones no lineales, sobre todo
en caso de Y continua. Caso Y discreta lo vamos a ver más adelante.
• Endogeneidad: se puede dar por variables omitidas, o algún otro tipo de
problemas. Vamos a ver esto en las siguientes clases.
• Multicolinearidad: este supuesto es fácil de chequear.
• Muestra no i.i.d.: ¿Ejemplo?

47
Revisando los supuestos

Problemas con los supuestos: ( linealidad, exogeneidad, sin multicolinearidad,


independencia y homocedasticidad ):

• No - Linealidad: podría implicar variables omitidas. Una forma de lidear con


problemas en este supuesto es ocupar estimaciones no lineales, sobre todo
en caso de Y continua. Caso Y discreta lo vamos a ver más adelante.
• Endogeneidad: se puede dar por variables omitidas, o algún otro tipo de
problemas. Vamos a ver esto en las siguientes clases.
• Multicolinearidad: este supuesto es fácil de chequear.
• Muestra no i.i.d.: ¿Ejemplo?
• Heterocedasticidad: Principal problema es que dificulta la inferencia
estadística. MCO generalizado.

47
Evaluando regresiones
Evaluando estudios basados en regresiones

Stock y Watson, Capítulo 9. ¿Cómo evaluar estudios basados en regresiones?

• Validación Interna: las conclusiones sobre los efectos causales y las


inferencias estadísticas son válidos para la población que se está
estudiando.

48
Evaluando estudios basados en regresiones

Stock y Watson, Capítulo 9. ¿Cómo evaluar estudios basados en regresiones?

• Validación Interna: las conclusiones sobre los efectos causales y las


inferencias estadísticas son válidos para la población que se está
estudiando.
1. ¿Son los estimadores insesgados/consistentes ?

48
Evaluando estudios basados en regresiones

Stock y Watson, Capítulo 9. ¿Cómo evaluar estudios basados en regresiones?

• Validación Interna: las conclusiones sobre los efectos causales y las


inferencias estadísticas son válidos para la población que se está
estudiando.
1. ¿Son los estimadores insesgados/consistentes ?

2. ¿Están correctos los test realizados?

48
Evaluando estudios basados en regresiones

Stock y Watson, Capítulo 9. ¿Cómo evaluar estudios basados en regresiones?

• Validación Interna: las conclusiones sobre los efectos causales y las


inferencias estadísticas son válidos para la población que se está
estudiando.
1. ¿Son los estimadores insesgados/consistentes ?

2. ¿Están correctos los test realizados?


• Validación Externa: las conclusiones se pueden generalizar a otras
poblaciones y situaciones distintas a la estudiada.

48
Evaluando estudios basados en regresiones

Stock y Watson, Capítulo 9. ¿Cómo evaluar estudios basados en regresiones?

• Validación Interna: las conclusiones sobre los efectos causales y las


inferencias estadísticas son válidos para la población que se está
estudiando.
1. ¿Son los estimadores insesgados/consistentes ?

2. ¿Están correctos los test realizados?


• Validación Externa: las conclusiones se pueden generalizar a otras
poblaciones y situaciones distintas a la estudiada.
1. ¿Es la población de interés similar a la población del estudio?

48
Evaluando estudios basados en regresiones

Stock y Watson, Capítulo 9. ¿Cómo evaluar estudios basados en regresiones?

• Validación Interna: las conclusiones sobre los efectos causales y las


inferencias estadísticas son válidos para la población que se está
estudiando.
1. ¿Son los estimadores insesgados/consistentes ?

2. ¿Están correctos los test realizados?


• Validación Externa: las conclusiones se pueden generalizar a otras
poblaciones y situaciones distintas a la estudiada.
1. ¿Es la población de interés similar a la población del estudio?

2. ¿Es el ”escenario”/marco legal/situación similar ?

48
Validación Externa

• Para esta validación, es necesario conocer a la población de estudio e


interés, y verficar que las poblaciones son similares, o justificar que las
diferencias no deberían afectar el objeto de estudio.

49
Validación Externa

• Para esta validación, es necesario conocer a la población de estudio e


interés, y verficar que las poblaciones son similares, o justificar que las
diferencias no deberían afectar el objeto de estudio.

• Si existen dos o más estudios en poblaciones similares pero diferentes (y


ambos están bien hechos), se puede chequear comparando los resultados.

49
Validación Externa

• Para esta validación, es necesario conocer a la población de estudio e


interés, y verficar que las poblaciones son similares, o justificar que las
diferencias no deberían afectar el objeto de estudio.

• Si existen dos o más estudios en poblaciones similares pero diferentes (y


ambos están bien hechos), se puede chequear comparando los resultados.

• Ej, meta-análisis.

49
Validación Externa

• Para esta validación, es necesario conocer a la población de estudio e


interés, y verficar que las poblaciones son similares, o justificar que las
diferencias no deberían afectar el objeto de estudio.

• Si existen dos o más estudios en poblaciones similares pero diferentes (y


ambos están bien hechos), se puede chequear comparando los resultados.

• Ej, meta-análisis.

• ¿Revisión de la literatura?

49
Validación Externa

• Para esta validación, es necesario conocer a la población de estudio e


interés, y verficar que las poblaciones son similares, o justificar que las
diferencias no deberían afectar el objeto de estudio.

• Si existen dos o más estudios en poblaciones similares pero diferentes (y


ambos están bien hechos), se puede chequear comparando los resultados.

• Ej, meta-análisis.

• ¿Revisión de la literatura?

• A veces es más fácil lidear con esto al momento de diseñar el estudio.

49
Validación Interna

En general, existen cinco razones por las cuales los estimadores podrían estar
sesgados o ser inconsistentes:

1. Variables omitidas
2. Especificación funcional errónea
3. Error de medición en las variables
4. Sesgo de selección en la muestra
5. Causalidad simultánea

Y dos razones por las que los test podrían no ser correctos:

1. Heterocedasticidad: La varianza de los errores no es constantes.


2. Correlación serial: Los errores están correlacionados entre si.
50
Validación Interna: Variables Omitidas

El sesgo por variables omitidas ocurre cuando una variable que determina a la
variable dependiente y está correlacionada con alguno de los regresores es
omitida de la regresión. ¿Cómo solucionarlo?

• ¿Si la variable omitida es ”observable”? Agregarla!

51
Validación Interna: Variables Omitidas

El sesgo por variables omitidas ocurre cuando una variable que determina a la
variable dependiente y está correlacionada con alguno de los regresores es
omitida de la regresión. ¿Cómo solucionarlo?

• ¿Si la variable omitida es ”observable”? Agregarla!

• ¿Si la variable omitida no es observable? Panel, RDD, IV, etc.

51
Validación Interna: Variables Omitidas

Agregar variables tiene ventajas y desventajas.

• Ventaja: podría eliminar el potencial sesgo de variables omitidas.

52
Validación Interna: Variables Omitidas

Agregar variables tiene ventajas y desventajas.

• Ventaja: podría eliminar el potencial sesgo de variables omitidas.

• Desventaja, podría hacer menos precisos los estimadores (varianza


aumenta). Ejemplo: ¿Qué pasa con la varianza del estimador de β cuando
corremos los siguientes modelos?

52
Validación Interna: Variables Omitidas

Agregar variables tiene ventajas y desventajas.

• Ventaja: podría eliminar el potencial sesgo de variables omitidas.

• Desventaja, podría hacer menos precisos los estimadores (varianza


aumenta). Ejemplo: ¿Qué pasa con la varianza del estimador de β cuando
corremos los siguientes modelos?
1. Yi = βXi + γZi + Ui

52
Validación Interna: Variables Omitidas

Agregar variables tiene ventajas y desventajas.

• Ventaja: podría eliminar el potencial sesgo de variables omitidas.

• Desventaja, podría hacer menos precisos los estimadores (varianza


aumenta). Ejemplo: ¿Qué pasa con la varianza del estimador de β cuando
corremos los siguientes modelos?
1. Yi = βXi + γZi + Ui

2. Yi = βXi + Wi

52
Validación Interna: Variables Omitidas

¿Cómo decidir si incluir o no un set de variables ”extras”?

1. Identificar el o los coeficientes de interés en la regresión (Ej. ratio de


alumnos por profesor).
2. ¿Cuáles son las variables que más podrían contribuir a un sesgo por
variables omitidas? Esto, antes de cualquier regresión, para determinar una
regresión ”base” y ”potenciales” variables que podrían ser incluidas.
3. Hacer la regresión base e ir agregando las variables ”potenciales”. Si los
resultados de la nueva regresión tiene esos coeficientes significativos o
impactan fuertemente en los coeficientes de la regresión base, incluirlos. Si
no, excluirlos.
4. Presentar todas las tablas y resultados.

53
Validación Interna: Variables Omitidas

54
Validación Interna: Error en la especificación funcional

• Esto se puede ver como un caso de variables omitidas, que implica sesgo en
los estimadores.

55
Validación Interna: Error en la especificación funcional

• Esto se puede ver como un caso de variables omitidas, que implica sesgo en
los estimadores.

• Se puede corregir observando la data y las estimaciones, y corrigiendo la


forma funcional.

55
Validación Interna: Error en la especificación funcional

• Esto se puede ver como un caso de variables omitidas, que implica sesgo en
los estimadores.

• Se puede corregir observando la data y las estimaciones, y corrigiendo la


forma funcional.

• Si la variable es continua, se pueden ocupar técnicas de estimación no


lineales.

55
Validación Interna: Error en la especificación funcional

• Esto se puede ver como un caso de variables omitidas, que implica sesgo en
los estimadores.

• Se puede corregir observando la data y las estimaciones, y corrigiendo la


forma funcional.

• Si la variable es continua, se pueden ocupar técnicas de estimación no


lineales.

• Si la variable dependiente es discreta, ocupar Logit , Probit u otros.

55
Validación Interna: Error en la especificación funcional

56
Validación Interna: Errores de Medición.

• Ejemplo: Supongamos que el siguiente modelo cumple con todos los


supuestos:
Yi = β0 + β1 Xi + Ui

Pero en vez de observar Xi , observamos X̃i = Xi + Wi , con Wi i.i.d e


independiente de Ui y Xi .
¿Es consistente el estimador? ¿Cómo es la varianza?

57
Validación Interna: Errores de Medición.

• Ejemplo: Supongamos que el siguiente modelo cumple con todos los


supuestos:
Yi = β0 + β1 Xi + Ui

Pero en vez de observar Xi , observamos X̃i = Xi + Wi , con Wi i.i.d e


independiente de Ui y Xi .
¿Es consistente el estimador? ¿Cómo es la varianza?

• Si ahora observamos Ỹi = Yi + Wi con Wi independiente. ¿Es consistente el


estimador? ¿Cómo es la varianza?

57
Validación Interna: Errores de Medición.

¿Cómo solucionarlos?

• Variables instrumentales!

58
Validación Interna: Errores de Medición.

¿Cómo solucionarlos?

• Variables instrumentales!

• Modelación del error de medición. Para eso hay que saber como se
comporta el error de medición.

58
Validación Interna: Sesgo de selección y pérdida de datos.

Este puede surgir por tres motivos:

1. Hay datos que se pierden de forma aleatoria. Ej. accidentalmente se


eliminó el 20% de la muestra.

2. Datos que se pierden debido a un proceso relacionado con los regresores.


Ej. si sólo se testean a las escuelas con un ratio de alumnos por profesor
mayor a cierto valor.

3. Algunos datos se pierden debido a un proceso relacionado con la variable


dependiente. Ej. sesgo del sobreviviente.

59
Validación Interna: Sesgo de selección y pérdida de datos.

Sesgo del sobreviviente:

• Ejemplo, queremos saber si los fondos mutuos están rentando más que el
mercados.

60
Validación Interna: Sesgo de selección y pérdida de datos.

Sesgo del sobreviviente:

• Ejemplo, queremos saber si los fondos mutuos están rentando más que el
mercados.

• Para eso, buscamos fondos mutuos que estén operando actualmente,


calculamos su retorno histórico, y lo comparamos con la rentabilidad del
índice de mercado.

60
Validación Interna: Sesgo de selección y pérdida de datos.

Sesgo del sobreviviente:

• Ejemplo, queremos saber si los fondos mutuos están rentando más que el
mercados.

• Para eso, buscamos fondos mutuos que estén operando actualmente,


calculamos su retorno histórico, y lo comparamos con la rentabilidad del
índice de mercado.

• ¿Es esto una buena estrategia?

60
Validación Interna: Sesgo de selección y pérdida de datos.

¿Cómo solucionarlo?

1. Hay datos que se pierden de forma aleatoria. Esto no es problema.

2. Datos que se pierden debido a un proceso relacionado con los regresores.


Si los supuestos se cumplen, no es problema. Sin embargo, los estimadores
son para la población que observamos.

3. Algunos datos se pierden debido a un proceso relacionado con la variable


dependiente. Si aún controlando por los regresores esto pesiste, genera un
sesgo en el estimador.

61
Validación Interna: Causalidad simultánea

Ejemplo: Oferta y Demanda.

Pd = β0 − β1 Qd + Ui
Po = γ0 + γ1 Qo + Vi

¿Qué obtenemos si hacemos una regresión entre Q y P. ? ¿ Cómo podríamos


estimar la demanda?

62
Validación Interna: Causalidad simultánea

Este sesgo aparece cuando hay una relación causal de X en Y , y de Y en X. Esto


hace que los errores estén correlacionados con los regresores.
Para solucionarlo, podemos ocupar variables instrumentales, o diseñar
experimentos que eliminen una dirección de causalidad.

63
Validación Interna: Problemas con los test estadísticos.

Para asegurarse de que los test que se ralizan sean los correctos, idealmente
hay que usar errores robustos al estimar las varianzas. Stata hace eso
automáticament.
Si hay correlación serial, es necesario modelarla para poder incluirla en los tests.

64

También podría gustarte