Está en la página 1de 162

SEMINARIO

TÓPICOS DE
ECONOMETRIA
APLICADA

Junio / 2017
PDA – 1 SEMANA

clase Tema o actividad


(Mc 7/Junio/2017) Breve repaso de mínimos cuadrados – stata
1

(Vn 9/Junio/2017) Breve repaso supuestos MCO – stata


2

(Sb 10/Junio/2017): Artículo


3  Stock & Watson, Capítulo 9
 Angrist, J. D., and A. B. Krueger (1991), “Does Compulsory
School Attendance Affect Schooling and Earnings?” Quarterly
Journal of Economics 106, 979-1014.
PDA – 2 SEMANA
clase Tema o actividad
(Mc 14/Junio/2017): Estimador variables instrumentales. Wooldridge
Capitulo 15. Stock & Watson, Capítulo 12.
4
(Vn 16/Junio/2017): Estimador variables instrumentales. Wooldridge
Capitulo 15. Stock & Watson, Capítulo 12.
5
(Sb 17/Junio/2017): Obligatorios:
 Bound, J., D. A. Jaeger (1996), “On the Validity of Season of Birth as an
6 Instrument in Wage Equations: A Comment on Angrist & Krueger's "Does
Compulsory School Attendance Affect Scho Schooling and Earnings?”
NBER Working Paper No. 5835, November 1996.
 Alicia H. Munnell, Geofrey M. B. Tootell, Geoffrey, Lynne E. Browne y
James McEneaney, «Mortgage Lending in Boston: Interpreting HMDA
Data», American Economic Review, 1996, pp. 25-53
Sugeridos:
 Bound, J., D. A. Jaeger, and R. M. Baker (1995), “Problems with Instrumental Variables
Estimation when the Correlation between the Instruments and Endogenous Explanatory
Variables Is Weak,” Journal of the American Statistical Association 90, 443-450.
 Card, D. (1995), “Using Geographic Variation in College Proximity to Estimate the Return
to Schooling,” in Aspects of Labour Market Behavior: Essays in Honour of John
Vanderkamp. Ed. L. N. Christophides, E. K. Grant, and R. Swidinsky, 201-222. Toronto:
University of Toronto Press.
 Angrist, Joshua D. and Alan B. Krueger. "Instrumental Variables And The Search For
Identification: From Supply And Demand To Natural Experiments," Journal of Economic
PDA – 3 SEMANA
Clase Tema o actividad
(Mc 21/Junio/2017): Modelo de variable dependiente limitada. Wooldridge,
Capítulo 7 (Sección 7.5) y Capítulo17. Stock & Watson, Capítulo 11.
7
(Vn 23/Junio/2017): Modelo de variable dependiente limitada. Wooldridge,
Capítulo 7 (Sección 7.5) y Capítulo17. Stock & Watson, Capítulo 11.
8
(Sb 24/Junio/2017): Artículo
9 Obligatorios:
 Alicia H. Munnell, Geofrey M. B. Tootell, Geoffrey, Lynne E. Browne y
James McEneaney, «Mortgage Lending in Boston: Interpreting HMDA
Data», American Economic Review, 1996, pp. 25-53

 Evans, W. N., Farrelly, M.C., and Montgomery, E. (1999). Do Workplace


Smoking Bans Reduce Smoking? American Economic Review, 89, 728–747

(Mc 28/Junio/2017): EXAMEN


10
Mínimos Cuadrado
Ordinarios
Modelo de regresión

• Relación de dos variables.

• X y Y son dos variables que representan alguna


población.

• Se relaciona con la estimación de la media (valor


promedio) de la variable dependiente, con base en los
valores de las variables explicativas.
• Objetivo:
• Explicar Y en términos de X.
• Estudiar como y varia cuando X cambia.
Ejemplo: Gasto de consumo e ingreso familiar

Y\X 80 100 120 140 160 180 200 220 240 260

55 65 79 80 102 110 120 135 137 150

60 70 84 93 107 115 136 137 145 152


Gasto de consumo semana

65 74 90 95 110 120 140 140 155 175

70 80 94 103 116 130 144 152 165 178

75 85 98 108 118 135 145 157 175 180

88 113 125 140 160 189 185

115 162 191

325 462 445 707 678 750 685 1043 966 1211
Ejemplo: probabilidad condicional

Y\X 80 100 120 140 160 180 200 220 240 260

1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7

1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
Gasto de consumo semana

1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7

1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7

1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7

1/6 1/7 1/6 1/6 1/7 1/6 1/7

1/7 1/7 1/7

65 77 89 101 113 125 137 149 161 173


Diagrama de dispersión/ Curva de regresión

250

200
Título del eje

150

100

50

0
0 50 100 150 200 250 300
Título del eje

Una curva de regresión poblacional es simplemente el lugar geométrico de las medias condicionales de la
variable dependiente para los valores de las variables explicativas.
Modelo de regresión simple

• Preguntas claves - ambigüedades:

• Primero, dado que nunca hay una relación exacta entre dos
variables, ¿cómo podemos permitir que otros factores afecten
a y?
• ¿Cuál es la relación funcional entre Y y X?
• ¿Como podemos estar seguros que nosotros estamos
capturando la relación “ceteris paribus” entre Y y X ?

• Solución: Regresión lineal...

𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝜇
Pero…

• La linealidad de este modelo significa que una


unidad de cambio en X tiene el mismo efecto sobre
Y … ¿esto es verdad?

• B1 mide el efecto de X1 sobre Y, teniendo otros


factores constantes. Qué sucede con la causalidad, si
estamos ignorando otros factores?
El modelo de regresión lineal múltiple esta
dado por…
Y = 𝛽0 + 𝛽1 X + …+ 𝛽𝑘 Xk + ε
Respuesta Explicación Error

Con 4 supuestos básicos:


1. Linealidad en los parámetros
2. E(ε /𝑥1 , 𝑥2 … 𝑥𝑘 ) = 0 para cualquier combinación de
valores de X
3. V(ε /𝑥1 , 𝑥2 … 𝑥𝑘 ) = 𝜎 2 para cualquier combinación de
valores de X
4. Ninguna combinación de los 𝑥1 , 𝑥2 … 𝑥𝑘 forman una
relación lineal exacta (ausencia de multicolinealidad
perfecta).
Interpretación de los parámetros:

• El análisis de regresión múltiple es mas adecuado


para un análisis ceteris paribus debido a que
permite controlar de manera explicita muchos otros
factores que afectan en forma simultanea a la
variable dependiente.

• Las pendientes 𝛽1 , 𝛽2 , … 𝛽𝑘 se interpretan como


efectos parciales o efectos ceteris paribus de un
cambio en la variable asociada.
Ejemplo 1: Efecto de la educación (X1) sobre
el salario (Y )

Nuestro interés fundamental radica en el efecto de la


educación. Pero sabemos que otras variables afectan
también al salario.
Por ejemplo: X2 = Sexo y X3 = Experiencia laboral.
Por ello vamos a realizar una regresión múltiple:

Salario = 𝛽0 + 𝛽1 Educación + 𝛽2 Sexo +


𝛽3 Experiencia + ε

Vamos a estimar esta regresión en stata - WAGE1.dta


Ejemplo 1

• Porque al variar el nivel de Educación también varían


Experiencia y Sexo:
• El efecto de educación puede diferir entre mujeres y hombres.
• La experiencia puede tener una distribución diferente por
niveles de educación.
• Si (por ejemplo) 𝛽1 es el parámetro de mayor interés:
• En la regresión múltiple, nos aseguramos de que 𝛽1 captura el
efecto parcial de la educación manteniendo otros factores, en
este caso Experiencia y Sexo, fijos
• En la regresión simple, Experiencia y Sexo forman parte del
término inobservable.
Media condicional cero

• Cómo puede interpretarse el supuesto de media


condicional cero en el ejemplo anterior? Este supuesto
es E(u/educ,exper) = 0.

“Esto significa que los otros factores que afectan wage no


están relacionados en promedio con educ y exper. Por
tanto, sí se piensa que la capacidad innata es parte de u,
entonces se necesita que los niveles promedio de
capacidad sean iguales para todas las combinaciones de
educación y experiencia en la población trabajadora. Esto
puede ser cierto o no. Hay que formular esta pregunta
para determinar si el método de mínimos cuadrados
ordinarios produce estimadores insesgados.” (W,pag. 70)
Ejemplo 2

• Estime el modelo. Base de datos: CEOSAL2.dta


• Qué es B1?
• Qué es B2?

Es la elasticidad (ceteris paribus) del sueldo (salary)


respecto a las ventas (sales). Si B3 = 0, entonces 100*B2 es
aproximadamente el incremento porcentual ceteris
paribus de salary cuando ceoten aumenta en un ano.
Cuando B3 !=0, el efecto de ceoten sobre salary es mas
complicado.
Ejemplo 3

• Estime el modelo. Base de datos: GPA1.dta


• Interprete B0, B1, B2
Ejemplo 4

• Estime el modelo. Base de datos: wage1.dta


• Interprete B0, B1, B2,B3
Residuales MCO

• Pronóstico:

• Residual:
• Propiedades:
• El promedio muestral de los residuales es cero y de esta
manera 𝑦ത = 𝑦ො
• La covarianza muestral entre cada una de las variables
independientes y los residuales de MCO es cero. Por
consiguiente, la covarianza muestral entre los valores
ajustados de MCO y los residuales de MCO es cero.
• El punto (𝑥1 , 𝑥2 , … 𝑥𝑘 ,…𝑦)
ത se encuentra siempre sobre la
línea de regression de MCO 𝑦ത = 𝛽 ෢0 + 𝛽෢1 𝑥ҧ1 + 𝛽
෢2 𝑥ҧ2 +…+𝛽
෢𝑘 𝑥ҧ𝑘
Bondad de ajuste

Cada observació n esta conformada por una


parte explicada y una parte no explicada,
yi  yˆ i  uˆi Se define lo siguiente :

  y  y  es la suma cuadrada total (SST)


2
i

  yˆ  y  es la suma cuadrada explicada (SSE)


2
i

 uˆ es la suma de cuadrada de los residuales (SSR)


2
i

Entonces SST  SSE  SSR


Bondad de ajuste

• R2 = SSE/SST = 1 – SSR/SST

• R2 también se puede pensar como el coeficiente de


correlación cuadrada entre el Y (verdadero) y Y
(pronóstico)

  y  y yˆ  yˆ 
2

  y  y   yˆ  yˆ  

2 i i
R 2 2
i i
R-squared

• R2 nunca puede disminuir cuando se agrega otra


variable independiente a una regresión…
usualmente aumentará.

• Debido a que R2 normalmente aumentará con el


número de variables independientes, no es una
buena manera de comparar modelos.
Valores esperados de los estimadores

• Supuestos básicos:

• Lineal en los parámetros


El siguiente modelo es poblacional:
Y = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + … + 𝛽𝑘 𝑋𝑘 + 𝜇

La característica clave es que este modelo es lineal en


los parámetros 𝛽0 , 𝛽1 , 𝛽2, … , 𝛽𝑘 .
Valores esperados de los estimadores

• Supuestos básicos:

• Muestreo aleatorio

El siguiente modelo es aleatorio de la población:


𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 + … + 𝛽𝑘 𝑋𝑖𝑘 + 𝜇𝑖

Se tienen muestras aleatorias de n observaciones.


Valores esperados de los estimadores

• Supuestos básicos:
• No hay colinealidad perfecta: En la muestra (y por
tanto en la población), ninguna de las variables
independientes es constante y no hay ninguna relación
lineal exacta entre las variables independientes.
• Si una variable independiente es una combinación lineal
exacta de las otras variables independientes, entonces se
dice que el modelo sufre de colinealidad perfecta y que
no puede ser estimado por el método de MCO.
• si permite que las variables independientes estén
correlacionadas; lo único que no permite es que estén
perfectamente correlacionadas
Valores esperados de los estimadores

• Media condicional cero:

E(μ/x1, x1, …xk, ) = 0

• Puede no satisfacerse sí:


• La ecuación poblacional está mal especificada.
• Omitir un factor importante correlacionado con las
variables X.
• Errores de medición.
Insesgamiento de los estimadores MCO

• Bajo los anteriores supuestos:


𝐸(𝛽መ𝑗 ) = 𝛽𝑗 ; j = 0,1,…,k

• Cuando se dice que los estimadores de MCO son


insesgados bajo los supuestos anteriores, en realidad
se quiere decir que el procedimiento mediante el
cual se obtienen las estimaciones de MCO es
insesgado cuando se le considera aplicado a todas
las muestras aleatorias posibles.
Inclusión de variables irrelevantes

• Sobre-especificación del modelo:

Una (o más) de las variables independientes está


incluida en el modelo aun cuando en la población no
tiene ningún efecto parcial sobre y.

• Recuerde que por insesgamiento 𝐸 𝛽መ𝑗 = 𝛽𝑗 . Sí


tengo una variable que es irrelevante su 𝐸 𝛽መ𝑗 = 0
Sesgo de variable omitida

• Exclusión de una variable relevante o subespecificación


del modelo:

Y = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + 𝜇𝑖

este es el modelo poblacional. Sin embargo se estima:

෪0 + 𝛽
𝑌෨ = 𝛽 ෪1 𝑋1 +𝛽
෪2 𝑋2 + 𝜇𝑖
Esto hace que los estimadores sean sesgados.
Debemos hacer el análisis de error de especificación.
Análisis de error de especificación: dos variables:
Y= 𝛽_0+𝛽_1 𝑋_1 + 𝛽_2 𝑋_(2 )+ 𝜇_𝑖

෪0 +
• Primero, estimamos el modelo con sesgo, 𝑌෨ = 𝛽
෪1 𝑋1 + 𝜇𝑖 .
𝛽
• Obtenemos el valor esperado de 𝛽 ෪1 condicional en
los valores muéstrales de X1, y X2 .
• Tenemos la siguiente relación algebraica 𝛽 ෪1 =𝛽
෢1 +
෢2 𝛿
𝛽 ෪1
• 𝛽෡𝑖 : Estimadores de la regresión bien definida.
• 𝛿෩𝑖 : Pendiente de las regresiones simples (covarianza
muestral entre X)

෪1 ) = E(𝛽
• El sesgo: Bias(𝛽 ෪1 ) - 𝛽1 = 𝛽2 𝛿
෪1
Resumen: Sesgo de variable omitida

• Dos casos donde el sesgp es igual a cero


• b2 = 0, esto es x2 no pertenece realmente al modelo
• x1 y x2 no estan correlacionadas en la muestra.

• Si la correlación entre x2 , x1 y x2 , y tiene la misma


dirección, el sesgo será positive.

• Si la correlación entre x2 , x1 y x2 , y tiene la


dirección opuesta, el sesgo será negative.
Resumen: Sesgo de variable omitida
Análisis de error de especificación:
Y= 𝛽_0+𝛽_1 𝑋_1 + 𝛽_2 𝑋_(2 ) 〖+ 𝛽〗_3 𝑋_(3 )+ 𝜇_𝑖

• Primero, estimamos el modelo con sesgo,


𝑌෨ = 𝛽෪0 + 𝛽
෪1 𝑋1 +𝛽
෪2 𝑋2 + 𝜇𝑖

• Asumimos que X2 y X3 no están correlacionadas


pero X1 y X3 - si.
• Xq es importante esto?

෪1 ) =
• El sesgo: Bias(𝛽
Varianza de los estimadores de MCO

• Debemos estimar la varianza de los estimadores para


tener una medida de dispersión.
• Para el cálculo de la varianza debemos tener presente el
siguiente supuesto:

• Homocedasticidad:

• Dado cualquier valor de las variables explicativas, el


error u tiene la misma varianza : var(u/x1,…xk) = 𝜎 2
• Si esto no se cumple, entonces el modelo muestra
heterocedasticidad.
Varianza de muestreo de los estimadores

𝜎2
𝑉𝑎𝑟 𝛽መ𝑗 =
𝑆𝑇𝐶𝐽 (1−𝑅𝐽2 )
Donde:
• STCj= σ𝑛𝑖=1(𝑥𝑖𝑗 − 𝑥𝑗ҧ )2 Variación muestral total en xj
• 𝑅𝐽2 : R cuadrada de regresión de x sobre todas las otras
j

variables independientes

• Significado:
• Una varianza grande significa un estimador menos
preciso, intervalos de confianza grandes y pruebas de
hipótesis menos exactas
Modelos mal especificados (Var)

• Y = 𝛽0 + 𝛽1 X1 + 𝛽2 X2 + μ: es el verdadero modelo
poblacional que cumple con los supuestos Gauss-
Markov.

• 𝑦ො = 𝛽መ0 + 𝛽መ1 𝑥1 + 𝛽መ2 𝑥2 : modelo de regresión.

• Calculamos una regresión: 𝑦෤ = 𝛽෨0 + 𝛽෨1 𝑥1 (estoy


omitiendo B2) – (efecto parcial).

• Cuando 𝛽2 ≠ 0 , estamos excluyendo una variable


relevante, por lo tanto estamos genera un sesgo en 𝛽෨1 (a
menos que Xs no estén correlacionadas).
Modelos mal especificados (Var)

𝜎2
• 𝑉𝑎𝑟 𝛽መ1 = La varianza de 𝛽ሚ1 𝑒𝑠 𝑠𝑖𝑒𝑚𝑝𝑟𝑒 𝑚𝑒𝑛𝑜𝑟
𝑆𝑇𝐶1 (1−𝑅12 )
𝑞𝑢𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝛽መ1 . A menos que
𝜎2
• 𝑉𝑎𝑟 𝛽෨1 = Xs no estén correlacionadas.
𝑆𝑇𝐶1

• Suponiendo que X1 y X2 no estén no-correlacionadas


entonces:

• Si 𝛽2 ≠ 0, 𝛽෨1 𝑒𝑠 𝑠𝑒𝑠𝑔𝑎𝑑𝑜, 𝛽መ1 𝑒𝑠 𝑖𝑛𝑠𝑒𝑠𝑔𝑎𝑑𝑜 𝑦 𝑉𝑎𝑟 𝛽෨1 <


𝑉𝑎𝑟(𝛽መ1 )
• Si 𝛽2 = 0, 𝛽෨1 𝑦𝛽መ1 𝑠𝑜𝑛 𝑖𝑛𝑠𝑒𝑠𝑔𝑎𝑑𝑜 𝑦 𝑉𝑎𝑟 𝛽෨1 < 𝑉𝑎𝑟(𝛽መ1 )
Estimación de 𝜎^2
Comprobación de supuestos
Regla Valor P

• Valor P : es conocida como probabilidad exacta de


cometer un error tipo I.
• Es un indicador del nivel de admisibilidad de la
hipótesis nula.

• La hipótesis nula se rechaza para cualquier nivel de


significancia mayor o igual al valor P. 𝛂 ≥ 𝐯𝐫 𝐏

• La hipótesis nula no se rechaza cuando el nivel de


significancia es menor al valor P. 𝜶<
𝒗𝒓 𝑷
Multicolinealidad

• El término multicolinealidad se atribuye a Ragnar


Frisch. Originalmente, designaba una relación lineal
“perfecta” o exacta entre algunas o todas las variables
explicativas de un modelo de regresión.

• Si la multicolinealidad es perfecta en el sentido de


(10.1.1), los coeficientes de regresión de las variables X
son indeterminados, y sus errores estándar, infinitos. Si
la multicolinealidad es menos que perfecta, como
sucede en (10.1.2), los coeficientes de regresión, aunque
sean determinados, poseen grandes errores estándar (en
relación con los coeficientes mismos), lo cual significa
que los coeficientes no pueden ser estimados con gran
precisión o exactitud.
Multicolinealidad
Factores

• Método de recolección de información.

• Restricciones en el modelo o en la población objeto de


muestreo.

• Especificación del modelo.

• Modelo sobredeterminado.

• Tendencia común.
Consecuencias

• Aunque los estimadores de MCO son MELI, presentan


varianzas y covarianzas grandes que dificultan la
estimación precisa.

• Debido a la consecuencia 1, los intervalos de confianza


tienden a ser mucho más amplios, lo cual propicia una
aceptación más fácil de la “hipótesis nula cero” (es
decir, que el verdadero coeficiente poblacional es cero).

• También debido a la consecuencia 1, la razón t de uno o


más coeficientes tiende a ser estadísticamente no
significativa.
Consecuencias

• Aunque la razón t de uno o más coeficientes sea


estadísticamente no significativa, R2, la medida
global de bondad de ajuste, puede ser muy alta.

• Los estimadores de MCO y sus errores estándar son


sensibles a pequeños cambios en los datos.
Detección

• Una R2 elevada pero pocas razones t significativas.


Como ya mencionamos, es un síntoma “clásico” de
multicolinealidad. Si R2 es alta, es decir, está por
encima de 0.8, la prueba F, en la mayoría de los
casos, rechazará la hipótesis de que los coeficientes
parciales de pendiente son simultáneamente iguales
a cero, pero las pruebas t individuales mostrarán que
ningún coeficiente parcial de pendiente, o muy
pocos, son estadísticamente diferentes de cero.
Detección

• Altas correlaciones entre parejas de regresoras:


Observar el coeficiente de correlación de orden cero
o entre dos regresoras.

• las correlaciones de orden cero elevadas son una


condición suficiente pero no necesaria para la
existencia de multicolinealidad, debido a que puede
existir a pesar de que las correlaciones de orden
cero o correlaciones simples sean comparativamente
bajas (es decir, inferiores a 0.50).
Detección

• Examen de las correlaciones parciales.


• Regresiones parciales: efectuar la regression de cada Xi
sobre las variables X restantes y calcular la R2
correspondiente.

Si la F calculada excede a la Fi crítica en el nivel de


significancia seleccionado, se dice que la Xi particular es
colineal con las demás X; si no excede a la Fi crítica, se
dice que ésta no es colineal con las demás X, en cuyo caso
se puede mantener la variable en el modelo.
Detección

• Valores propios e índice de condición.

• Regla de decisión: Si k está entre l00 y 1 000, existe una


multicolinealidad que va de moderada a fuerte, mientras
que si excede de 1 000, existe multicolinealidad grave.
De otro modo, si el IC está entre 10 y 30, hay
multicolinealidad entre moderada y fuerte, y si excede
de 30, una multicolinealidad grave.
Detección

• Tolerancia y factor de inflación de la varianza: si el


FIV de una variable es superior a 10 (esto sucede si
R2j excede de 0.90), se dice que esa variable es muy
colineal.

• Diagrama de dispersión.
¿Qué puede hacerse si la multicolinealidad es
grave?

• Hay dos posibilidades:


1) no hacer nada o
2) seguir algunas reglas prácticas.

• Combinación de información de corte transversal y de


series de tiempo.
• Eliminación de una(s) variable(s) y el sesgo de
especificación.
• Transformación de variables
• Datos nuevos o adicionales.
Autocorrelación: ¿Cuál es la naturaleza de la
autocorrelación?

• El término autocorrelación se define como la


“correlación entre miembros de series de observaciones
ordenadas en el tiempo [como en datos de series de
tiempo] o en el espacio [como en datos de corte
transversal]”.

• Auto-correlación y/o correlación serial (pueden


considerarse sinónimos)
Autocorrelación
¿por qué ocurre la correlación serial?

• Inercia: Por ciclos de las variables (índices,


producción, empleo).

• Sesgo de especificación:
• Caso variable excluida
• Forma funcional incorrecta

• Fenómeno de la telaraña: La reacción de la variable


se da un periodo rezagado. Ejemplo oferta de
productos agrícolas.
¿por qué ocurre la correlación serial?

• Rezagos: dependencia de las acciones del pasado.


(autoregresión).

• Manipulación de datos.

• Transformación de datos.

• NO estacionariedad: una serie de tiempo es estacionaria


si sus características (por ejemplo, media, varianza y
covarianza) son invariantes respecto del tiempo; es
decir, no cambian en relación con el tiempo. Si no es
así, tenemos una serie de tiempo no estacionaria.
Qué sucede si y los
demás supuestos se cumplen?

• (ver notas)

• La fórmula usual MCO subestimará la varianza de


B (ar1)

• B seguirá siendo lineal e insesgado pero no tiene


varianza mínima. Es decir, no es eficiente
¿Cuáles son las consecuencias teóricas y
prácticas de la autocorrelación?

• La varianza de los residuos (estimada) subestime la


verdadera varianza.

• Sobreestimación de R cuadrado.

• Las pruebas de significancia t y F dejan de ser


válidas; por lo tanto, es probable que se den
conclusiones erróneas sobre la significancia
estadística de los coeficientes.
¿cómo saber que hay autocorrelación en una
situación dada?

• Método gráfico:
• Gráfica secuencial de tiempo
• Gráfica los residuos estandarizados respecto al tiempo.
(res/error est)
• Gráfica ut respecto a ut-1

• Prueba de Rachas (Geary):


racha es una sucesión ininterrumpida de un símbolo
o atributo (+ -)
longitud de una racha es el número de elementos
que contiene.
¿cómo saber que hay autocorrelación en una
situación dada? Prueba de Rachas
¿cómo saber que hay autocorrelación en una
situación dada? Prueba de Rachas
¿cómo saber que hay autocorrelación en una
situación dada?

• Prueba d de Durbin-Watson.

Supuestos:
• Incluye intercepto.
• X son no estocásticas.
• Los errores siguen un esquema autoregresivo de primer
orden.
• Los errores están normalmente distribuidos.
• El modelo de regresión no incluye valor(es) rezagado(s)
de la variable dependiente
• No hay observaciones faltantes en los datos.
¿cómo saber que hay autocorrelación en una
situación dada? de Durbin-Watson
¿cómo saber que hay autocorrelación en una
situación dada? de Durbin-Watson

• Pasos:

• Efectuar la regresión por MCO y obtener los residuos.

• Calcular d

• Para un tamaño de muestra dado y un número de


variables explicativas dado, determinar los valores
críticos d y d .
L U

• Aplicar la regla de decisión


¿cómo saber que hay autocorrelación en una
situación dada? de Durbin-Watson
¿cómo saber que hay autocorrelación en una
situación dada?

• Prueba de Breusch-Godfrey (BG o ML):


• Supuestos:
• Regresoras no estocásticas, como los valores
rezagados de la regresada;
• Esquemas autorregresivos de orden mayor, como el
AR(1), AR(2), etc.;
• Promedios móviles simples o de orden superior de
los términos de error de ruido blanco
• Hipótesis nula:
¿cómo saber que hay autocorrelación en una
situación dada? Breusch-Godfrey

• Pasos:
• Estime mediante MCO la regresión y obtenga los
residuales
• Haga la regresión de los residuales sobre las Xs
originales y los residuales rezagados y obtenga
Rcuadrado

• Si la muestra es grande, ByG demostraron que


• RD: Si (n − p)R2 excede el valor crítico ji cuadrada en
el nivel de significancia seleccionado, podemos
rechazar la hipótesis nula
¿Cómo remediar el problema de la
autocorrelación?

• Trate de averiguar si se trata de autocorrelación pura y


no el resultado de una mala especificación del modelo.
• Si se trata de autocorrelación pura, se puede utilizar una
transformación apropiada del modelo original de
manera que en el modelo transformado no se presente el
problema de la autocorrelación (pura). Como en la
heteroscedasticidad, habrá que emplear algún método
generalizado de mínimos cuadrados (MCG).
• En muestras grandes se puede utilizar el método
Newey-West para obtener los errores estándar de los
estimadores de MCO corregidos para autocorrelación.
• Mantenga MCO
Mínimos Cuadrados Generalizados (MCG)

• Supongamos

• Existen dos casos (a) se conoce p; (b) no se conoce,


pero se tiene que estimar.
Mínimos Cuadrados Generalizados (MCG)

• (a) se conoce p
Mínimos Cuadrados Generalizados (MCG)

• (b) no se conoce p – se requiere estimarlo.


• Método de primeras diferencias (NO TIENEN
INTERCEPTO)
• regla práctica: utilice la forma de primeras diferencias
siempre que d < R2
• O el estadístico de prueba Berenblutt-Webb: Ho: P=1

• P basado en el estadístico d de Durbin-Watson


Solo muestras grandes

• P a partir de los residuos


Mínimos Cuadrados Generalizados (MCG)

• b) no se conoce p – se requiere estimarlo.


• Método iterativos para estimar p

• procedimiento iterativo de Cochrane-Orcutt,


procedimiento de dos pasos de Cochrane-Orcutt,
procedimiento de dos pasos de Durbin y
procedimiento de rastreo o de búsqueda de
Hildreth-Lu.
procedimiento iterativo de Cochrane-Orcutt

• El proceso que sigue este planteamiento para la


estimación con un término autorregresivo es el
siguiente:
• Se estima el modelo original por mínimos cuadrados.
• Sobre los residuos de este modelo, se estima el valor de
ρ en el proceso AR(1) correspondiente:

• Transformar el modelo original a partir del valor


estimado de ρ, ya que si
procedimiento iterativo de Cochrane-Orcutt

• al restar de ella esta misma expresión referida al período


anterior, multiplicada por ρ, obtenemos

Naturalmente si ρ es muy cercano a 1, es decir, si la


autocorrelación es positiva y alta, las variables
transformadas son prácticamente las primeras diferencias
de las iniciales.

• Sobre estas nuevas variables transformadas, se estiman


los parámetros β.
procedimiento iterativo de Cochrane-Orcutt

• El procedimiento sigue repitiéndose ahora en su


totalidad. Nuevos residuos, nuevas estimaciones
de ρ, nuevas variables transformadas, nuevas
estimaciones de parámetros β. Las iteraciones
se interrumpen cuando la diferencia entre
dos estimaciones consecutivas de ρ difieran en
menos de una cantidad prefijada, por
ejemplo, 0.005.
Heterocedasticidad: ¿Cuál es la naturaleza?

• Varianza constante:
¿Cuál es la naturaleza de la
heteroscedasticidad?

• Hay diversas razones por las cuales las varianzas de ui


pueden ser variables, algunas de las cuales son las
siguientes.
1. Con base en los modelos de aprendizaje de los errores,
a medida que la gente aprende, disminuyen sus errores
de comportamiento con el tiempo.
2. A medida que mejoran las técnicas de recolección de
datos, es probable que la varianza se reduzca.
3. Surge por la presencia de datos atípico.
4. Mala especificación del modelo.
¿Cuál es la naturaleza de la
heteroscedasticidad?

• Hay diversas razones por las cuales las varianzas de ui


pueden ser variables, algunas de las cuales son las
siguientes.

5. Asimetría en la distribución de una o más regresoras


incluidas en el modelo.
6. Incorrecta transformación de los datos (por ejemplo,
las transformaciones de razón o de primeras
diferencias).
7. Una forma funcional incorrecta (por ejemplo, modelos
lineales frente a modelos log-lineales).
Heterocedasticidad

• ¿Qué sucede con los estimadores de MCO y sus


varianzas si introducimos la heteroscedasticidad
permitiendo que E(u2) = σ2, pero conservamos
todos los demás supuestos del modelo clásico?

• Ver notas
¿Cuáles son sus consecuencias?

• Los intervalos de confianza basados en MCO serán


innecesariamente grandes.

• Las pruebas t y F daran resultados imprecisos en el


sentido de que la var(β2) es demasiado grande, y lo que
parece un coeficiente estadísticamente no significativo
(pues el valor t es más bajo de lo apropiado) pueda ser
significativo

• Las conclusiones o inferencias que obtengamos pueden


ser muy equivocadas
¿Cómo se detecta?

1. Método gráfico:
• Residuales al cuadrado
contra Y estimados.
• Averiguar si el valor
medio estimado de Y
está relacionado
sistemáticamente con el
residuo al cuadrado.
• Aplicar una
transformación –
estimar el modelo.
¿Cómo se detecta?

2. Prueba de Park
• Procedimiento de dos etapas:
• Primero efectúe la regresión MCO ignorando el interrogante
de la heteroscedasticidad. Se obtiene ûi de esta regresión.

• Luego, en la segunda etapa, se efectúa la regresión

• Si β resulta estadísticamente significativo, esto sugerirá


heteroscedasticidad en los datos. Si resulta no significativo,
podemos aceptar el supuesto de homoscedasticidad.
¿Cómo se detecta?

3. Prueba de correlación de orden de Spearman:


¿Cómo se detecta?

4. Prueba de correlación de Goldfeld-Quandt:


• Supuesto: la varianza heteroscedástica está relacionada
positivamente con una de las variables explicativas.
¿Cómo se detecta?

5. Prueba Breusch-Pagan-Godfrey:
Prueba Breusch-Pagan-Godfrey
¿Cómo se detecta?

6. Prueba general de heteroscedasticidad de White:


Prueba general de heteroscedasticidad de
White
Stata - Comandos
Stata - Comandos

• Test performs F or Chi2 tests of linear restrictions


applied to the most recently fit model

• the test command, to see if the set of variables are


significant.
• Test VAR ==0 OR Test VAR
• Test VAR = #
• Test VAR = VAR **IGUALDAD DE DOS
COEFICIENTES
• Test (VAR1=0) (VAR2=0) (VAR3=0) * PROBANDO
SI LAS VARIABLES SON SIMULTANEAMENTE
CERO.
Estimador variables
instrumentales
Contenido

• Estimador de VI con un Único Regresor.


• Estimador de VI del Modelo de Regresión Múltiple.
• Mínimos Cuadrados en Dos Etapas.
• Referencia:
• Wooldridge, Captulo 15.
• Stock & Watson, Capítulo 12.
• Angrist, J. D., and A. B. Krueger (1991),
• Bound, J., D. A. Jaeger (1996)
Estimador de VI con un Único Regresor
• Suponga que usted esta interesado en estudiar la relación
entre salarios y educación

𝐿𝑜𝑔 𝑤𝑎𝑔𝑒 = 𝛽0 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝜇;

• La educación podrá estar correlacionada con factores


inobservables que afectan el salario, tales como la habilidad
o motivación del individuo.

• En este caso 𝐸 𝜇 𝑒𝑑𝑢𝑐 ≠ 0 y la estimación por MCO dará


un estimador sesgado e inconsistente de 𝛽1 .

• El método de variables instrumentales puede ser empleado


para obtener un estimador consistente de 𝛽1 .
Estimador de VI con un Único Regresor
• Considere el modelo de regresión con un único regresor
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜇;

• Suponga que existe una variable z que está


correlacionada con x pero no está correlacionada con 𝜇.

• La variable z es llamada variable instrumental o


instrumento para x.

• El instrumento z genera una fuente de variación


exógena en la variable explicativa.
Estimador de VI con un Único Regresor
• Para que la variable z pueda ser usada como un
instrumento de x se deben cumplir las siguientes dos
condiciones:

1. Relevancia: Debe estar correlacionada con x , es


decir 𝐶𝑜𝑣(𝑧, 𝑥) ≠ 0.

2. Exogeneidad: No debe estar correlacionada con 𝜇,


es decir 𝐶𝑜𝑣 𝑧, 𝜇 = 0
Estimador de VI con un Único Regresor
1. Relevancia

• El instrumento debería estar relacionado, positiva o


negativamente, con la variable endógena x.

• La relevancia del instrumento se puede verificar estimando la


regresión de x sobre z por MCO.

𝑥 = 𝜋0 + 𝜋1 𝑧 + 𝑒;
y probando la hipótesis nula 𝐻𝑂 : 𝜋1 = 0 contra la alternativa
𝐻1 : 𝜋1 ≠ 0.

• El instrumento es relevante si se rechaza la hipótesis nula a


niveles de significancia suficientemente pequeños.
Ejemplo: Inasistencia a Clases y Desempeño
del Estudiante
• Suponga que se desea estimar el efecto causal de no asistir a clases
sobre la calificación del examen final para la cual se considera el
modelo de regresión simple
𝑠𝑐𝑜𝑟𝑒 = 𝛽0 + 𝛽1 𝑠𝑘𝑖𝑝𝑝𝑒𝑑 + 𝜇;

donde score es la puntuación del examen final y skipped es el


número total de faltas a clase.

• skipped podra correlacionarse con 𝜇


• El estado general de salud podría aumentar la probabilidad de faltar a clase.
• Estudiantes más capaces y motivados podrían tender a faltar menos a clase
que aquellos estudiantes menos capaces o motivados.

• Un posible instrumento para skipped es la distancia entre la vivienda


y el campus.
Estimador de VI con un Único Regresor
2. Exogeneidad: 𝐶𝑜𝑣 𝑧, 𝜇 = 0

• El instrumento no debe estar correlacionado con los factores


no observados que determinan a la variable dependiente.

• Ejemplo: Inasistencia a Clases y Desempeño del Estudiante

• El instrumento es válido si los estudiantes son asignados


aleatoriamente a la acomodación estudiantil.

• En general, el instrumento no es válido si los estudiantes eligen su


vivienda. Por ejemplo, los estudiantes de familias de bajos ingresos
pueden vivir lejos del campus. Si el ingreso afecta el desempeño del
estudiante, el instrumento podría correlacionarse con 𝜇 .
Estimador de VI con un Único Regresor
• Considere la ecuación inicial
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝜇;

• Calcule la covarianza entre z y y, la cual da

𝐶𝑜𝑣 𝑧, 𝑦 = 𝐶𝑜𝑣(𝑧, 𝛽0 + 𝛽1 𝑥 + 𝜇)
𝐶𝑜𝑣 𝑧, 𝑦 = 𝛽1 𝐶𝑜𝑣(𝑧, 𝑥) + 𝐶𝑜𝑣(𝑧, 𝜇)

• Usando los supuestos de relevancia decir 𝐶𝑜𝑣 𝑧, 𝑥 ≠ 0 y exogeneidad


𝐶𝑜𝑣 𝑧, 𝜇 = 0, y despejando 𝛽1 se tiene

𝐶𝑜𝑣(𝑧, 𝑦)
𝛽1 =
𝐶𝑜𝑣(𝑧, 𝑥)
• El coeficiente 𝛽1 es la covarianza poblacional entre z y y dividida por la
covarianza poblacional entre z y x.
Estimador de VI con un Único Regresor

• Dada una muestra aleatoria, 𝛽መ1,𝑉𝐼 puede ser calculado


sustituyendo las cantidades poblacionales por los análogos
muéstrales
σ𝑛𝑖=1(𝑧𝑖 − 𝑧)(𝑦
ҧ 𝑖 − 𝑦)

𝛽መ1,𝑉𝐼 = 𝑛
σ𝑖=1(𝑧𝑖 − 𝑧)(𝑥
ҧ 𝑖 − 𝑥)ҧ

• A este estimador se le denomina estimador de variables


instrumentales (VI).

• El estimador de 𝛽1 es consistente siempre y cuando las


covarianzas muéstrales converjan a las covarianzas
poblacionales.
Estimador de VI con un Único Regresor

• Bajo los supuestos de relevancia 𝐶𝑜𝑣 𝑧, 𝑥 ≠ 0,


exogeneidad 𝐶𝑜𝑣 𝑧, 𝜇 = 0 y homocedasicidad
𝐸 𝜇2 𝑧 = 𝜎 2 = 𝑉𝑎𝑟(𝜇), la varianza asintótica de
෢1 es
𝛽

𝜎2
𝐴𝑣𝑎𝑟(𝛽መ1,𝑉𝐼 ) =
𝑛𝜎𝑥2 𝜌𝑥,𝑧
2

donde 𝜎𝑥2 es la varianza de x , 𝜎 2 es la varianza de u,


2 es el cuadrado de la correlación entre x y z .
y 𝜌𝑥,𝑧
Estimador de VI con un Único Regresor

• Dada una muestra, la varianza asintótica estimada


es:

𝜎෢2
𝑉𝐼
෣ 𝛽መ1,𝑉𝐼
𝐴𝑣𝑎𝑟 = 2
𝑆𝐶𝑇𝑥 𝑅𝑥,𝑧

σ𝑛 ෣
𝜇 2
donde 𝜎෢ 2
𝑉𝐼 =
ൗ(𝑛−2) , 𝜇ො𝑉𝐼 son los residuales
𝑖=1 𝑖,𝑉𝐼

de VI, 𝑆𝐶𝑇𝑥 = 𝑛𝜎ො𝑥2 es la suma total de cuadrados de


2 es la 𝑅 2 de la regresión de x sobre z.
x , y 𝑅𝑥,𝑧
Estimador de VI con un Único Regresor

• Bajo los supuestos de Gauss Markov


𝜎2
𝐴𝑣𝑎𝑟(𝛽መ1,𝑉𝐼 ) =
𝑛𝜎𝑥2

• Cuando x y μ no se correlacionan, los estimadores de MCO y


VI son consistentes, pero VI es menos preciso que MCO.
2 2 2
• Debido a que 0<𝑅𝑥,𝑧 < 1 y 𝜎ො𝑀𝐶𝑂 < 𝜎ො𝑉𝐼 , la varianza del
estimador de VI es mayor que la varianza de MCO

𝜎෢2
𝑉𝐼 𝜎
ො 2
𝑀𝐶𝑂
෣ 𝛽መ1,𝑉𝐼
𝐴𝑣𝑎𝑟 = > = 𝐴𝑣𝑎𝑟( መ1,𝑀𝐶𝑂 )
𝛽
2 𝑆𝐶𝑇𝑥
𝑆𝐶𝑇𝑥 𝑅𝑥,𝑧
Propiedades de VI con instrumentos
deficientes

• Es posible demostrar que:


𝐶𝑜𝑟𝑟 𝑧,𝜇 𝜎𝑢
𝑝𝑙𝑖𝑚 𝛽መ1,𝑉𝐼 = 𝛽1 +
𝐶𝑜𝑟𝑟 𝑧,𝑥 𝜎𝑥

𝜎𝑢
𝑝𝑙𝑖𝑚 𝛽መ1,𝑀𝐶𝑂 = 𝛽1 + 𝐶𝑜𝑟𝑟 𝑥, 𝜇
𝜎𝑥

• Aun si 𝐶𝑜𝑟𝑟 𝑧, 𝜇 es pequeña, el sesgo asintótico del estimador de VI


puede ser grande si 𝐶𝑜𝑟𝑟 𝑧, 𝑥 también es pequeña.

• El sesgo asintótico del estimador de VI puede ser mas grande que el del
estimador de OLS si 𝐶𝑜𝑟𝑟 𝑧, 𝑥 es lo suficientemente pequeña.

• Los sesgos asintóticos de los estimadores de VI y MCO pueden tener


direcciones diferentes.
Ejemplo: Efecto del Tabaquismo sobre el Peso
al Nacer

• Suponga que se desea estimar el efecto del tabaquismo sobre


el peso al nacer (bwght)
log(𝑏𝑤𝑔ℎ𝑡) = 𝛽0 + 𝛽1 𝑝𝑎𝑐𝑘𝑠 + 𝜇;

donde packs es el numero de cajetillas que una madre fuma


al día.

• packs podría estar correlacionada con otras variables que


afectan el peso al nacer tales como otros factores de salud o
con la disponibilidad de un buen cuidado prenatal.

• Una posible variable instrumental para packs es el precio


promedio de cigarrillos en el estado de residencia (cigprice).
Ejemplo: Efecto del Tabaquismo sobre el Peso
al Nacer

• Para comprobar la relevancia del instrumento se estima la regresión de


packs sobre cigprice

෣ = 0,067 + 0,0003 𝑐𝑖𝑔𝑝𝑟𝑖𝑐𝑒


𝑝𝑎𝑐𝑘𝑠
(0,103) (0,0008)
n = 1:388; 𝑅2 = 0,0000; 𝑅2 = -0,0006

• Dado que pack y cigprice no están correlacionadas no debería utilizarse


cigprice como una VI para packs. Si se usara los resultados serían


log(𝑝𝑎𝑐𝑘𝑠) = 4,45 + 2,99𝑝𝑎𝑐𝑘𝑠
(0,091) (8,70)
n = 1:388;
Estimación de VI del modelo de regresión
múltiple
• Considere el modelo
𝑦1 = 𝛽0 + 𝛽1 𝑦2 + 𝛽2 𝑧1 + ⋯ + 𝛽𝑘 𝑧𝑘−1 + 𝜇1 ;

donde 𝑦2 es una variable explicativa endógena (correlacionada con


𝜇1 ) y 𝑧𝑗 j =1,…, k-1 son variables explicativas exógenas (no
correlacionadas con 𝜇1 ).

• Suponga que se tiene una variable 𝑧𝑘 que es exógena y que no


aparece en la ecuación que se quiere estimar.

• La variable 𝑧𝑘 es una VI valida para 𝑦2 si además del supuesto de


exogeneidad existe alguna correlación parcial entre 𝑧𝑘 y 𝑦2 , lo cual
se tendría si 𝜋𝑘 ≠ 0 en la siguiente ecuación

𝑦2 = 𝜋0 + 𝜋1 𝑧1 + ⋯ + 𝜋𝑘−1 𝑧𝑘−1 + 𝜋𝑘 𝑧𝑘 + 𝜈2 ;
Estimación de VI del modelo de regresión
múltiple
• El supuesto de relevancia del instrumento (la existencia
de alguna correlación parcial entre 𝑧𝑘 y 𝑦2 ) puede
verificarse estimando la regresión de 𝑦2 sobre todas las
variables exógenas (el instrumento y las regresores
exógenas de la ecuación original) por MCO

𝑦2 = 𝜋0 + 𝜋1 𝑧1 + ⋯ + 𝜋𝑘−1 𝑧𝑘−1 + 𝜋𝑘 𝑧𝑘 + 𝜈2 ;

Y probando 𝐻𝑂 : 𝜋𝑘 = 0 contra 𝐻1 : 𝜋𝑘 ≠ 0.

• La variable instrumental 𝑧𝑘 es relevante si se rechaza la


hipótesis nula a niveles de significancia suficientemente
pequeños
Mínimos Cuadrados en Dos Etapas (MC2E)
• Consiste en sustituir la variable explicativa endógena por una
variable instrumentada.

• El estimador de MC2E se calcula en dos etapas:


• Etapa 1: Aislé la parte de 𝑦2 que no esta correlacionada con 𝜇1 estimando
la regresion de 𝑦2 sobre las variables exógenas (el instrumento y las
regresoras exogenas de la ecuación original) por MCO, y calculando los
valores ajustados 𝑦ෞ2 .

• Etapa 2: Estime la regresión de 𝑦1 sobre 𝑦


ෞ2 , 𝑧𝑘 ,…, 𝑧𝑘−1 .

• El estimador de MC2E de 𝛽0𝑀𝐶2𝐸 , 𝛽1𝑀𝐶2𝐸 ,…, 𝛽𝑘𝑀𝐶2𝐸 son los


estimadores de la regresion de la segunda etapa.

• MC2E es una forma de implementar VI.


Ejemplo: La Proximidad de la Universidad
como una VI para la Educación
• Card (1995) estima el rendimiento de la educación para
una muestra de hombres en 1976 usando el modelo

log 𝑤𝑎𝑔𝑒
= 𝛽0 + 𝛽1 𝑒𝑑𝑢 + 𝛽2 𝑒𝑥𝑝𝑒𝑟 + 𝛽3 𝑒𝑥𝑝𝑒𝑟 2 + 𝛽4 𝑏𝑙𝑎𝑐𝑘 + 𝛽5 𝑠𝑚𝑠𝑎
+ 𝛽6 𝑠𝑜𝑢𝑡ℎ + 𝛽7 𝑠𝑚𝑠𝑎66 + 𝛽8 𝑟𝑒𝑔662 + ⋯ + 𝛽15 𝑟𝑒𝑔669 + 𝜇

• donde black es una binaria para raza negra, smsa es una


binaria por vivir en un área metropolitana, south es una
binaria por vivir en el sur, smsa66 es una binaria de área
metropolitana para el lugar donde el hombre viva en
1966 y reg662;…; reg669 son variables binarias
regionales.
Ejemplo: La Proximidad de la Universidad
como una VI para la Educación
• El autor usa una variable binaria para el caso de cualquiera
que hubiera crecido cerca de una universidad con carreras de 4
años (nearc4) como una variable instrumental para educación.

Primera Etapa:
• Para verificar la relevancia del instrumento se estima la
regresión de educ sobre nearc4 y todas las variables exógenas
que aparecen en la ecuación de salario, obteniendo

෣ = 16,64 + 0,320𝑛𝑒𝑎𝑟𝑐4 − 0,413𝑒𝑥𝑝𝑒𝑟 + ⋯


𝑒𝑑𝑢𝑐
(0,24) (0,088) (0,034)
n = 3,010; 𝑅2 = 0,477;
Ejemplo: La Proximidad de la Universidad
como una VI para la Educación
• El estadístico t de nearc4 es 3.64, por lo tanto se rechaza
la hipótesis nula de que el coeficiente asociado a nearc es
igual a cero a niveles de significancia pequeños.

• Si el instrumento no esta correlacionado con los factores


inobservables en el termino de error, se puede utilizar
nearc4 como una VI para educación.

Segunda Etapa:

෣ 𝑒𝑥𝑝𝑒𝑟, 𝑒𝑥𝑝𝑒𝑟 2 ,
• La regresión de log(wage) sobre 𝑒𝑑𝑢𝑐,
black, smsa, south, smsa66, reg662,…, reg669 es
presentada en la siguiente Tabla (véase la tercera
columna).
Ejemplo: La Proximidad de la Universidad
como una VI para la Educación
Ejemplo: La Proximidad de la Universidad
como una VI para la Educación
• La Tabla además presenta los resultados de la regresión
෣ 𝑒𝑥𝑝𝑒𝑟, 𝑒𝑥𝑝𝑒𝑟 2 , black, smsa,
de log(wage) sobre 𝑒𝑑𝑢𝑐,
south, smsa66, reg662,…, reg669 es presentada en la
siguiente Tabla (véase la segunda columna).

• Las estimaciones de MCO y VI de la ecuación de salario


muestran que la estimación del rendimiento de la
educación obtenido por VI es casi el doble de aquel
obtenido por MCO.

• El error estándar de la estimación de VI es mucho mas


grande que el error estándar de MCO.
Una Variable Explicativa Endógena y Dos
Instrumentos
• Considere el modelo
𝑦1 = 𝛽0 + 𝛽1 𝑦2 + 𝛽2 𝑧1 + 𝜇1 ;

donde 𝑦2 es una regresora endógena y 𝑧𝑖 es una regreso exógena.

• Suponga que se tiene dos variable 𝑧2 y 𝑧3 (no correlacionadas con


𝜇1 ) que no aparecen en la ecuación inicial.

• La mejor VI para

𝑦2 es la combinación lineal de las 𝑧𝑗 , la cual
llamaremos 𝑦2
𝑦2∗ = 𝜋0 + 𝜋1 𝑧1 + 𝜋2 𝑧2 + 𝜋3 𝑧3;

• Para que no exista correlación perfecta entre 𝑦2∗ y 𝑧1 re requiere que


al menos una de 𝜋2 o 𝜋3 sea diferente de zero (Condición de rango)
Una Variable Explicativa Endógena y Dos
Instrumentos
• El estimador de MC2E se obtiene como sigue

Etapa 1:
• Se realiza la regresión de 𝑦2 sobre 𝑧1 , 𝑧2 y 𝑧3 , y se obtienen
los valores ajustados

𝑦ො2 = 𝜋ො 0 + 𝜋ො1 𝑧1 + 𝜋ො 2 𝑧2 + 𝜋ො 3 𝑧3 ;

En esta etapa se debe además verificar 𝐻𝑂 : 𝜋2 = 𝜋3 = 0 a un


nivel de significancia pequeño

Etapa 2:
• Se estima la regresión de 𝑦1 sobre 𝑦ො2 y 𝑧1 .
Interpretacion de MC2E
• La variable endógena 𝑦ො2 puede escribirse como

𝑦2 = 𝑦2∗ + 𝜐2
donde se asume que 𝑦2∗ no esta correlacionada con 𝜐2

• Dado que 𝑧1 , 𝑧2 y 𝑧3 son exógenas, 𝑦2∗ es la parte de


𝑦2 que no se correlaciona con 𝜇1
• Dado que 𝑦2 es endógena, 𝜐2 debe ser la parte de
𝑦2 que está correlacionada con 𝜇1 .
Interpretacion de MC2E
• Sustituyendo 𝑦2 en la ecuación original se tiene

𝑦1 = 𝛽0 + 𝛽1 𝑦2∗ + 𝛽2 𝑧1 + 𝜇1 + 𝛽1 𝜐2 ;

• El error

compuesto 𝜇1 + 𝛽1 𝜐2 1v2 no está correlacionado
con 𝑦2 , tampoco con 𝑧1 .

• MC2E descompone 𝑦2 en dos partes y usa la parte que no


está correlacionada con 𝜇1 .

• El valor ajustado de 𝑦ො2 es la versión estimada de 𝑦2∗


Modelo General
• Los casos que se consideraron anteriormente contemplan
la inclusión de una regresora endógena y uno o dos
instrumentos para dicha regresora.

• En el caso general se podría tener:


• múltiples variables explicativas endógenas
𝑥1 , 𝑥2 … 𝑥𝑘 (correlacionadas con el error).

• múltiples variables explicativas exógenas 𝑤1 , 𝑤2 … 𝑤𝑚 (no


correlacionadas con el error).

• múltiples instrumentos 𝑧1 , 𝑧2 … 𝑧𝑟 . La inclusión de un mayor


número de instrumentos podría incrementar la variación en 𝑥ො𝑗 y
así reducir la varianza de los estimadores de MC2E.
Modelo General
• Considere el modelo
𝑦 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝛾1 𝑤1 + ⋯ + 𝛾𝑚 𝑤𝑚 + 𝜇;

donde 𝑥1 , 𝑥2 … 𝑥𝑘 son k regresoras endógenas


(correlacionadas con 𝜇) y 𝑤1 , 𝑤2 … 𝑤𝑚 son m regresoras
exógenas (no correlacionadas con 𝜇).

• Suponga que se tienen r variables exogenas adicionales


𝑧1 , 𝑧2 … 𝑧𝑟 parcialmente correlacionadas con 𝑥1 , 𝑥2 … 𝑥𝑘 y
que no aparecen en la ecuación que se desea estimar.

• Para fines de identicación es necesario que 𝑟 ≥ 𝑘 (Condición


de orden).
Modelo General
• El estimador de MC2E se obtiene como sigue
Etapa 1:
Estime la regresión de cada una de las variables endógenas 𝑥𝑗 , j =
1,…,k, sobre todas las variables exógenas 𝑤1 , 𝑤2 … 𝑤𝑚 , 𝑧1 , 𝑧2 … 𝑧𝑟 y
calcule los valores ajustados

𝑥ො𝑗 = 𝜋ො 0 + 𝜋ො 1 𝑤1 + ⋯ + 𝜋ො 𝑚 𝑤𝑚 + 𝜃෠1 𝑧1 + ⋯ + 𝜃෠𝑟 𝑧𝑟 ;

En esta etapa se debe además verificar la relevancia de los


instrumentos.

Etapa 2:
Estime la regresión de y sobre los valores ajustados de las regresoras
endógenas 𝑥ො1 , 𝑥ො2 … 𝑥ො𝑘 y los valores observados de las regresoras
endógenas 𝑤1 , 𝑤2 … 𝑤𝑚
Prueba de Endogeneidad
• Para cada variable endógena 𝑥𝑗 , j = 1,…,k, calcule los
residuos de la 1ra etapa del procedimiento de MC2E
𝜐ො𝑗 = 𝑥𝑗 − 𝜋ො 0 − 𝜋ො1 𝑤1 − ⋯ − 𝜋ො 𝑚 𝑤𝑚 − 𝜃෠1 𝑧1 − ⋯ − 𝜃෠𝑟 𝑧𝑟 ;

• Estime por MCO la regresión aumentada


𝑦 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝛾1 𝑤1 + ⋯ + 𝛾𝑚 𝑤𝑚 + 𝛿1 𝜐ො1 +
⋯ + 𝛿𝑘 𝜐ො𝑘 + 𝑒𝑟𝑟𝑜𝑟;

Pruebe la significancia conjunta de los residuales probando


𝐻𝑂 : 𝛿1 = ⋯ = 𝛿𝑘 = 0. Usando una prueba F (puede usarse una
prueba robusta a la heterocedasticidad).

• Si se rechaza 𝐻𝑂 se concluye que al menos una variable 𝑥𝑗 es


endogena.
Pruebas de restricciones de sobreidenticación
• Cuando r > k se tienen más instrumentos de los que
se necesitan para estimar los parámetros. En este caso
se dice que el modelo esta sobreidentificado.

• Cuando se tienen más instrumentos que variables


endógenas es posible probar si alguno(s) de ellos no
estan correlacionados con el término de error de la
ecuación de interés.

• Una forma de probar esto es comparar estimaciones


de VI usando un conjunto diferente de instrumentos.
Pruebas de restricciones de sobreidenticación
• Un enfoque alternativo es realizar la siguiente prueba:
• Calcule los residuales de VI de la segunda etapa

𝜇Ƹ 𝑉𝐼 = 𝑦 − 𝛽መ0,𝑉𝐼 − 𝛽መ1,𝑉𝐼 𝑥1 − ⋯ − 𝛽መ𝑘,𝑉𝐼 𝑥𝑘 − 𝛾ො1,𝑉𝐼 𝑤1 − ⋯ − 𝛾ො𝑚,𝑉𝐼 𝑤𝑚

• Estime la regresión de 𝑢ො 𝑉𝐼 sobre todas las variables exogenas y


calcule 𝑅𝜇2

• Con base en la hipótesis nula que todas las VI no están


correlacionadas con μ, n𝑅𝜇2 se distribuye aproximadamente
como una 𝑋𝑞2 , donde q = r - k (la prueba se puede hacer robusta
a la heterocedasticidad).

• Si se rechaza H0 se concluye que por lo menos alguna(s) de las


VI no es(son) exógena(s)
MC2E con Heterocedasticidad
• Una prueba de Breusch-Pagan para probar
heterocedasticidad en el contexto de VI se realiza como
sigue

• Calcule los residuales de VI de la segunda etapa 𝜇ො𝑉𝐼 .

• Estime la regresión de 𝜇ො𝑉𝐼 sobre 𝑤1 , 𝑤2 … 𝑤𝑚 , 𝑧1 , 𝑧2 … 𝑧𝑟 .

• Pruebe la significancia conjunta de las variables exógenas


usando el estadístico F.

• Si se rechaza la hipótesis nula de homocedasticidad se debe


usar algún método de corrección: errores estándar robustos a la
heterocedasticidad o un procedimiento ponderado de MC2E.
Supuestos de MC2E para datos corte
transversal
• MC2E.1 (Linealidad en parámetros) El modelo es
𝑦 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝛾1 𝑤1 + ⋯ + 𝛾𝑚 𝑤𝑚 +
𝜇;

• El conjunto de variables instrumentales se denota como


𝑧 = ( 𝑧1 , 𝑧2 … 𝑧𝑟 ).

• El conjunto de variables exógenas como 𝑧ǁ =


( 𝑤1 , 𝑤2 … 𝑤𝑚 , 𝑧1 , 𝑧2 … 𝑧𝑟 ).

• MC2E.2 (Muestreo aleatorio) Se tiene una muestra


aleatoria 𝑦, 𝑥𝑗 , 𝑤𝑗 y 𝑧𝑗
Supuestos de MC2E para datos corte
transversal
• MC2E.3 (Condición de rango) i) No existen relaciones
lineales perfectas entre las variables exógenas contenidas
en 𝑧.ǁ ii) La condición de rango para la identicación se
mantiene.

• Con una sola variable explicativa endógena, la condición de


rango requiere que al menos uno de los instrumentos tenga un
coeficiente poblacional diferente de cero en la ecuación de la
1ra etapa.

• Note que esto requiere al menos una variable exógena que no


aparezca en la ecuación de interés (Condición de orden).

• Veáse Wooldridge (2010, capítulo 5) para la condición de rango


con dos o mas variables explicativas endógenas.
Supuestos de MC2E para datos corte
transversal
• MC2E.4 (Exogeneidad) El término de error 𝜇 tiene media
cero y ninguna variable contenida en 𝑧ǁ se correlaciona
con 𝜇.

• MC2E.5 (Homocedasticidad) 𝐸 𝜇2 𝑧ǁ = 𝜎 2

• Resultados:
• Bajo los supuestos MC2E.1 a MC2E.4, el estimador de MC2E
es consistente.

• Bajo los supuestos MC2E.1 a MC2E.5, el estimador de MC2E


es el mejor estimador de VI y se distribuye asintóticamente de
manera normal.
Resumen de pruebas
Resumen de pruebas
Resumen de pruebas
Resumen de pruebas
Stata

• ivregress estimator depvar [varlist1] (varlist2 =


varlist_iv) [if] [in] [weight] [, options]

estimator Description
• 2sls two-stage least squares (2SLS)
• liml limited-information maximum
likelihood (LIML)
• gmm generalized method of moments
(GMM)
• Ivregress
• ivreg2
Stata

• Ivreg2 depvar [varlist1] (varlist2=varlist_iv) [weight] [if exp] [in range] [,


options]

• ivreg2 is an alternative to Stata's official ivregress. ivreg2 may be used with time-
series or panel data, in which case the data must be tsset before using ivreg2;

• ivreg2 implements a range of single-equation estimation methods for the linear


regression model: OLS, instrumental variables (IV, also known as two-stage least
squares, 2SLS), the generalized method of moments (GMM), limited-information
maximum likelihood (LIML), and k-class estimators. In the language of
IV/GMM, varlist1 are the exogenous regressors or "included instruments",
varlist_iv are the exogenous variables excluded from the regression or "excluded
instruments", and varlist2 the endogenous regressors that are being
"instrumented".

• ivreg2 will also estimate linear regression models using robust (heteroskedastic-
consistent), autocorrelation-consistent (AC), heteroskedastic and autocorrelation-
consistent (HAC) and cluster-robust variance estimates.
Stata - ejemplo

• ivreg2 PC_homicidios FormerGUED_T_i L.s_UninvolveGUE_T UninvolveGUE_T_i $xlist1 (L.s_FormerGUED_T =


L.s_recruitment_GUE_D recruitment_GUE_D_i L.s_birthplace_GUE_D birthplace_GUE_D_i)
• overid
• ***Sargan test: Ho= exogenous instrument *** Sargan statistic (overidentification test of all instruments): 3.917 *** Chi-sq(3) P-val
= 0.2706 *** We cannot reject the null. the instrument are valid.

• ivreg2 PC_homicidios FormerGUED_T_i L.s_UninvolveGUE_T UninvolveGUE_T_i $xlist1 (L.s_FormerGUED_T =
L.s_recruitment_GUE_D L.s_birthplace_GUE_D)
• overid
• *** Sargan statistic (overidentification test of all instruments): 0.156 *** Chi-sq(1) P-val = 0.6932 *** Ww cannot reject the null.
the instrument are valid.

• ivreg2 PC_homicidios FormerGUED_T_i L.s_UninvolveGUE_T UninvolveGUE_T_i $xlist1 (L.s_FormerGUED_T =


L.s_recruitment_GUE_D recruitment_GUE_D_i L.s_birthplace_GUE_D birthplace_GUE_D_i), gmm2s robust
• *** Hansen J statistic (overidentification test of all instruments): 7.013 *** Chi-sq(1) P-val = 0.0715 *** The statistic is 7.013 and
its p-value is of 0.0715.Therefore, the null is rejected
• *** The null is that J =0, that the overidentification restrictions are not valid at 10%.

• ivreg2 PC_homicidios FormerGUED_T_i L.s_UninvolveGUE_T UninvolveGUE_T_i $xlist1 (L.s_FormerGUED_T =


L.s_recruitment_GUE_D L.s_birthplace_GUE_D), gmm2s robust
• *** Hansen J statistic (overidentification test of all instruments): 0.185 *** Chi-sq(3) P-val = 0.6667 *** The statistic is 0.185 and
its p-value is of 0.6667.Therefore, the null is not rejected *** The null is that J =0, that the overidentification restrictions are valid.
Modelo de variable
dependiente
limitada
Contenido

• Referencia:
• Wooldridge, Capitulo 7, Capitulo 17.
• Stock & Watson, Capítulo 11
• Alicia H. Munnell, Geofrey M. B. Tootell, Geoffrey,
Lynne E. Browne y James McEneaney (1996).
• Evans, W. N., Farrelly, M.C., and Montgomery, E.
(1999).
Introducción
• La variable dependiente y de los modelos de regresión que se
han estudiado hasta ahora ha sido continua:
• Peso al nacer
• Precio de un bien
• Puntuación en el examen final

• Algunos eventos tienen un resultado binario:


• Graduarse de la universidad / No graduarse
• Realizar estudios de posgrado / No realizarlos
• Inscribir Tópicos de Econometría / No inscribirlo

• Estos eventos discretos se representan a través de una variable


que toma dos valores 0 y 1, donde 0 indica falla y 1 indica
exito.
Modelo de Probabilidad Lineal (MPL)
• Considere el modelo

𝑦 = 𝛽0 + 𝛽1 𝑥 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝜇;
Donde la variable dependiente y es binaria.

• Un modelo de regresión lineal donde la variable dependiente


es binaria se conoce como modelo de probabilidad lineal
(MPL).

• Bajo el supuesto de media condicional cero


𝐸 𝑦 𝑋 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘

donde X= 𝑥1 , … , 𝑥𝑘
Modelo de Probabilidad Lineal (MPL)

• En el modelo de probabilidad lineal (MPL)


𝐸 𝑦 𝑋 = 1 ∗ 𝑃 𝑦 = 1 𝑋 + 0 ∗ 𝑃(𝑦 = 0|𝑋)
=𝑃 𝑦=1𝑋
Lo cual implica
𝑃 𝑦 = 1 𝑋 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘

• La probabilidad de éxito 𝑃 𝑦 = 1 𝑋 es una función


lineal de las X.

• La probabilidad de fracaso 𝑃 𝑦 = 0 𝑋 = 1 − 𝑃
𝑦 = 1 𝑋 es también una función linal de las X.
Modelo de Probabilidad Lineal (MPL)

• El coeficiente 𝛽𝑗 es la variación de la probabilidad de


éxito cuando 𝑥𝑗 aumenta una unidad, manteniendo
constantes las otras variables explicativas.

• El valor ajustado 𝑦ො es la probabilidad de éxito


predicha.

• Los coeficientes se pueden estimar por MCO.


Modelo de Probabilidad Lineal (MPL)

• Problemas importantes del MPL:


1. Puede predecir probabilidades menores a 0 o mayores a .
2. El efecto marginal de 𝑥𝑗 es constante.

• Problemas menos importantes del MPL:


1. Heterocedasticidad: Teniendo en cuenta que y es una
variable Bernoulli (solo toma valores de 0 y 1) se tiene
Var 𝑦 𝑋 = 𝑃 𝑦 = 1 𝑋 [1 − 𝑃 𝑦 = 1 𝑋 ]
Solución: Use errores estándar robustos o mínimos
cuadrados ponderados.
2. Dado x, la distribución de y no es normal.
Solución: Si la muestra es lo suficientemente grande
podemos basarnos en la teoría asintótica.
Modelo de Probabilidad Lineal (MPL)

Figure: Diagrama de dispersión entre una variable dependiente discreta y una


variable explicativa continua con una función de probabilidad lineal.
Modelo Logit y Probit
• Una solución a los dos debilidades mas importantes del
MPL es especificar una forma funcional no lineal para la
probabilidad

𝑃 𝑦 = 1 𝑋 = 𝐺(𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 )
Donde G(.) es una función tal que
• 0 < 𝐺 𝑧 < 1 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑎 𝑧
• 𝐺 𝑧 𝑡𝑖𝑒𝑛𝑑𝑒 𝑎 0 𝑐𝑢𝑎𝑛𝑑𝑜 𝑧 𝑣𝑎 𝑎 𝑚𝑒𝑛𝑜𝑠 𝑖𝑛𝑓𝑖𝑛𝑖𝑡𝑜
• 𝐺 𝑧 𝑡𝑖𝑒𝑛𝑑𝑒 𝑎 1 𝑐𝑢𝑎𝑛𝑑𝑜 𝑧 𝑣𝑎 𝑎 𝑚á𝑠 𝑖𝑛𝑓𝑖𝑛𝑖𝑡𝑜
• 𝐺 𝑧 𝑖𝑛𝑐𝑟𝑒𝑚𝑒𝑛𝑡𝑎 𝑐𝑜𝑛 𝑧

• Una clase de funciones con estas características son las


funciones de distribución acumuladas.
Modelo Logit y Probit

Figure: Diagrama de dispersión entre una variable dependiente discreta y una


variable explicativa continua con una función de probabilidad no lineal.
Modelo Probit
• En el modelo probit 𝐺 𝑧 = Φ(𝑧), donde Φ(. ) es la
función de distribución acumulada normal estándar
𝑧
1 1ൗ 𝑢2
Φ 𝑧 = න ( ) 2 exp − 𝑑𝑢
−∞ 2𝜋 2
• La probabilidad de éxito evaluada en 𝑧 = 𝛽0 + 𝛽1 𝑥1 +
⋯ + 𝛽𝑘 𝑥𝑘 es
𝑃 𝑦 = 1 𝑋 = Φ(𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 )

• Ejemplo: Considere un modelo de regresión simple y


suponga que 𝛽0 =-2, 𝛽1 = 1,2, 𝑥 = 1. la probabilidad de
éxito es
𝑃 𝑦 = 1 𝑥 = 1 = Φ(-2+1,2*1)= Φ(-0,8)=0,2119
Modelo Logit
• En el modelo probit 𝐺 𝑧 = Α(𝑧), donde Α(. ) es la
función de distribución acumulada logística estándar
exp(𝑧)
Α 𝑧 =
1 + exp(𝑧)
• La probabilidad de éxito evaluada en 𝑧 = 𝛽0 + 𝛽1 𝑥1 +
⋯ + 𝛽𝑘 𝑥𝑘 es
𝑃 𝑦 = 1 𝑋 = Α(𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑘 𝑥𝑘 )

• Ejemplo: Considere un modelo de regresión simple y


suponga que 𝛽0 =-2, 𝛽1 = 1,2, 𝑥 = 1. la probabilidad de
éxito es
exp(−0,8)
𝑃 𝑦=1𝑥=1 = =0,31
1+exp(−0,8)
Efectos parciales
• El efecto parcial de 𝑥1 sobre la probabilidad de éxito es:
• Si 𝑥1 es un regreso continuo
𝜕𝑃(𝑦 = 1|𝑥) 𝜕𝐺 𝛽0 + 𝛽1 𝑥1+ … + 𝛽𝑘 𝑥𝑘
=
𝜕𝑥1 𝜕𝑥1
= g 𝛽0 + 𝛽1 𝑥1+ … + 𝛽𝑘 𝑥𝑘 𝛽1
Donde 𝑔 𝑧 = 𝑔(𝑧)ൗ𝑑𝑧
• Si 𝑥1 es un regreso discreto
𝐺 𝛽0 + 𝛽1 𝑐1 + 1 + 𝛽2 𝑥2+ … + 𝛽𝑘 𝑥𝑘
− 𝐺 𝛽0 + 𝛽1 𝑐1 + 𝛽2 𝑥2+ … + 𝛽𝑘 𝑥𝑘
• Si 𝑥1 es un regreso binario
𝐺 𝛽0 + 𝛽1 1 + 𝛽2 𝑥2+ … + 𝛽𝑘 𝑥𝑘 − 𝐺 𝛽0 + 𝛽2 𝑥2+ … + 𝛽𝑘 𝑥𝑘
Efectos parciales
• El efecto parcial del regresor 𝑥𝑗 se obtiene de manera
similar.
• Para calcular el efecto parcial es necesario reemplazar cada
regresor 𝑥1 … 𝑥𝑗 por un valor. Una posibilidad es usar su
promedio muestral.

• Otra posibilidad es promediar los efectos parciales


individuales a través de la muestra.

• Los coeficientes de los modelos probit, logit y MPL no son


directamente comparables.
Estimación

• Existen dos métodos estándar para estimar modelos


Logit y Probit:

• Mínimos Cuadrados No Lineales

• Máxima Verosimilitud
Mínimos Cuadrados No Lineales

• El estimador de mínimos cuadrados no lineales


selecciona los valores de 𝑏0 , … , 𝑏𝑘 que minimizan la
suma de residuales al cuadrado:
𝑛
𝑚𝑖𝑛𝑏0,…, 𝑏1 ෍ [𝑦𝑖 − 𝐺(𝑏0 + 𝑏1 𝑥1𝑖 + ⋯ + 𝑏𝑘 𝑥𝑘𝑖 ) ]2
𝑖=1
• En muestras grandes, el estimador de mínimos
cuadrados no lineales es:
• consistente
• normalmente distribuido
• en general menos eficiente que máxima verosimilitud
Máxima verosimilitud
• Sea (𝑦𝑖 , 𝑥𝑖 ) una muestra aleatoria de tamaño n, donde 𝑥𝑖 =
𝑥1𝑖 … 𝑥𝑖𝑘

• La densidad de 𝑦𝑖 dado 𝑥𝑖 es
𝑓 𝑦𝑖 𝑥𝑖 ; 𝛽0 , … , 𝛽𝑘 = 𝐺(𝑥𝑖 𝛽)𝑦𝑖 [1 − 𝐺(𝑥𝑖 𝛽)]1−𝑦𝑖 , 𝑦𝑖 = 0,1,
donde 𝑥𝑖 𝛽=𝛽0 + 𝛽1 𝑥𝑖1 , … , 𝛽𝑘 𝑥𝑖𝑘

• La densidad conjunta de 𝑦𝑖 ,…, 𝑦𝑛 dado 𝑥1 , … , 𝑥𝑛 es el


producto de las densidades 𝑛

𝑓 𝑦1 , … , 𝑦𝑛 𝑥1 , … , 𝑥𝑛 ; 𝛽0 , … , 𝛽𝑘 = ෑ 𝐺(𝑥𝑖 𝛽)𝑦𝑖 [1 − 𝐺(𝑥𝑖 𝛽)]1−𝑦𝑖


𝑖=1
Máxima verosimilitud

• La función de verosimilitud es la densidad condicional de 𝑦1 … 𝑦𝑛


dado 𝑥1 … 𝑥𝑛 tratada como una función𝑛 de los parámetros, esto es
𝐿 𝛽0 , … , 𝛽𝑘 ; 𝑦1 , … , 𝑦𝑛 𝑥1 , … , 𝑥𝑛 = ෑ 𝐺(𝑥𝑖 𝛽)𝑦𝑖 [1 − 𝐺(𝑥𝑖 𝛽)]1−𝑦𝑖
𝑖=1

• El estimador de máxima verosimilitud es el valor de 𝑏0 , … , 𝑏𝑘 que


maximiza la función de verosimilitud

𝑚𝑎𝑥𝑏0,…,𝑏1 𝐿 𝛽0 , … , 𝛽𝑘 ; 𝑦1 , … , 𝑦𝑛 𝑥1 , … , 𝑥𝑛

• El estimador de máxima verosimilitud selecciona los valores de


𝑏0 , … , 𝑏𝑘 para los cuales la probabilidad de haber obtenido los datos
que realmente se observan es la mas grande posible.
Máxima verosimilitud

• Es mas fácil maximizar el logaritmo de la verosimilitud,


que es
𝑙𝑜𝑔𝐿𝑛 𝛽0 , … , 𝛽𝑘 ; 𝑦1 , … , 𝑦𝑛 𝑥1 , … , 𝑥𝑛
= ෍ 𝑦1 log 𝐺(𝑥𝑖 𝛽) + (1 − 𝑦𝑖 )log[1 − 𝐺(𝑥𝑖 𝛽)]
𝑖=1

• En muestras grandes, el estimador de máxima


verosimilitud es:
• Consistente
• normalmente distribuido
• eficiente (tiene la varianza mas pequeña de todos los
estimadores)
Ejemplo – HMDA BOSTON / STATA
COMANDOS
Ejemplo – HMDA BOSTON / STATA
COMANDOS
estsimp logit x193 x43 x45 x47 L_GDP_Rgdp_T ln_duration_1 x201 ln_demo_duration, cluster(cluster)
setx median

plotfds, continuous(L_GDP_Rgdp_T ln_duration_1 ln_demo_duration) discrete(x43 x45 x47 x201) ///


sortorder(x43 x45 x47 ln_duration_1 x201 L_GDP_Rgdp_T ln_demo_duration) nosetx clevel(90) ///
changexcont(min max) label savedata($path1d\ModelGeneral5_2Y, replace) xline(0) title("Model 5 - 2 Years", ///
size(medium)) xtitle("First Difference Estimate") xscale(range(-1.2 1)) ///
note(`"First difference change as: min max or 0 to 1"', size(vsmall) ring(30)) ///
caption(`"Variables with a * are discrete"', size(vsmall) ring(30)) graphregion(fcolor(white))
graph export $path1d\FirstDifference_MG5_2Y.png, replace

• simqi, fd(prval(1)) changex(L_GDP_Rgdp_T min max) level(90)


• simqi, fd(prval(1)) changex(ln_duration_1 min max) level(90)
• simqi, fd(prval(1)) changex(ln_demo_duration min max) level(90)
• simqi, fd(prval(1)) changex(x43 min max) level(90)
• simqi, fd(prval(1)) changex(x45 min max) level(90)
• simqi, fd(prval(1)) changex(x47 min max) level(90)
• simqi, fd(prval(1)) changex(x201 min max) level(90)
Ejemplo – HMDA BOSTON / STATA
COMANDOS
logit x193 x43 x45 x47 L_GDP_Rgdp_T ln_duration_1 x201 ln_demo_duration, cluster(cluster)
estimate store mcA1, title(Model cA1)
fitstat, saving(FM_b)
predict Pr_DDR1_C // probability of a positive outcome; the default Pr_DDR1 is the probability
of a peace process has one of the components of DDR mechanism for each of the observation in the
dataset
predict stdres_DDR1_C, rstand // standardized Pearson residuals; adjusted for number sharing
covariate pattern
// Pearson residuals are defined to be the standardized difference between the observed frequency
and the predicted frequency. They measure the relative deviations between the observed and fitted
values.
predict dv, dev //deviance residual. It measures the disagreement between the maxima of the
observed and the fitted log likelihood functions. Since logistic regression uses the maximal
likelihood principle, the goal in logistic regression is to minimize the sum of /the deviance
residuals.
predict hat, hat // Pregibon (1981) leverage, it is the diagonal of the hat matrix, measures the
leverage (tener influencia) of an observation.
Ejemplo – HMDA BOSTON / STATA
COMANDOS
** SPECIFICATION ERROR
/* The Stata command linktest can be used to detect a specification error, and it is issued after the
logit or logistic command. The idea behind linktest is that if the model is properly specified, one
should not be able to find any additional predictors that are statistically significant except by
chance. After the regression command (in our case, logit or logistic), linktest uses the linear
predicted value (_hat) and linear predicted value squared (_hatsq) as the predictors to rebuild the
model. The variable _hat should be a statistically significant predictor, since it is the predicted
value from the model. This will be the case unless the model is completely misspecified. On the
other hand, if our model is properly specified, variable _hatsq shouldn't have much predictive
power except by chance. Therefore, if _hatsq is significant, then the linktest is significant. This
usually means that either we have omitted relevant variable(s) or our link function is not correctly
specified.
*/
linktest, nolog

** GOODNESS OF FIT
lfit, group(10) table
// With a p-value of 0.255, we can say that Hosmer and Lemeshow's goodness-of-fit test indicates
that our model fits the data well.
Ejemplo – HMDA BOSTON / STATA
COMANDOS
** MULTICOLLINEALITY
collin x43 x45 x47 L_GDP_Rgdp_T ln_duration_1 x201 ln_demo_duration

/*
Two commonly used measures are tolerance (an indicator of how much collinearity that a
regression analysis can tolerate) and VIF (variance inflation factor-an indicator of how
much of the inflation of the standard error could be caused by collinearity). The tolerance
for a particular variable is 1 minus the R2 that results from the regression of the other
variables on that variable. The corresponding VIF is simply 1/tolerance. If all of the
variables are orthogonal to each other, in other words, completely uncorrelated with each
other, both the tolerance and VIF are 1. If a variable is very closely related to another
variable(s), the tolerance goes to 0, and the variance inflation gets very large.
*/
estat classification
* Almost 81,10 percent of the cases are correctly classified. This is quite good.
Ejemplo – HMDA BOSTON / STATA
COMANDOS
** INFLUENTIAL OBSERVARTIONS
gen index = _n
scatter stdres_DDR1_C Pr_DDR1_C, mlabel(x1) mlabsize (tiny) yline(0) name(IO1)
scatter stdres_DDR1_C index, mlab(x1) mlabsize (tiny) yline(0) name(IO2)
// rule of thumb abs(person) >2
clist x1 if stdres_DDR1_C < -2
****
scatter dv Pr_DDR1_C, mlab(x1) mlabsize (tiny) yline(0) name(IO3)
scatter dv index, mlab(x1) mlabsize (tiny) yline(0) name(IO4)
// rule of thumb abs(deviance) >2
clist x1 if dv < -2
****
scatter hat Pr_DDR1_C, mlab(x1) mlabsize (tiny) yline(0) name(IO5)
scatter hat index, mlab(x1) mlabsize (tiny) name(IO6)
// rule of thumb leverage (Hat) > 2
clist x1 if hat > 0.2 & hat != .
clist x1 x15 x17 x6 if hat > 0.2 & hat != .
Ejemplo – HMDA BOSTON / STATA
COMANDOS
* Now let's compare the logistic regression with this observation and without it to see how
*much impact it has on our regression coefficient estimates.

quiet logit x193 x43 x45 x47 L_GDP_Rgdp_T ln_duration_1 x201 ln_demo_duration, cluster(cluster)
estimate store w0, title(W0)
quiet logit x193 x43 x45 x47 L_GDP_Rgdp_T ln_duration_1 x201 ln_demo_duration ///
if x1!="22508903120031" & x1!= "22509103120031" & x1!="22524503120031", nolog cluster(cluster)
estimate store w1, title(W1)
quiet logit x193 x43 x45 x47 L_GDP_Rgdp_T ln_duration_1 x201 ln_demo_duration ///
if x1!="22278205320121", nolog cluster(cluster)
estimate store w2, title(W2)
estout w0 w1 w2, cells(b(star fmt(2)) se(par fmt(2))) starlevels(* 0.10 ** 0.05 *** 0.001) ///
legend label varlabels(_cons constant) stats(N r2_p chi2 ll_0 bic aic, fmt(0 2 2 0 0)) style(fixed)

/* Las variables no cambian la significancia y no se ven cambion mayores en los coeficientes */


Gracias

También podría gustarte