Tema5 3 Eco1

Regresión con variable dependiente binaria
(SW Capítulo 9)
Hasta ahora hemos considerado que la variable dependiente

(Y) es continua:
• puntuaciones en los tests en las escuelas
• tasa de mortalidad en accidentes de tráfico
Pero podemos estar interesados en entender el efecto de X
sobre una variable binaria Y:
• Y = ir a la universidad o no
• Y = ser fumador o no
• Y = conceder una hipoteca o no
9-1
Ejemplo: Denegación de una hipoteca y raza
Datos: The Boston Fed HMDA
• Solicitudes individuales de hipoteca para familias
unipersonales en 1990 en el área de Boston
• 2380 observaciones, recogidas bajo Home Mortgage
Disclosure Act (HMDA)
Variables
• Variable dependiente:
oConcesión o denegación de la hipoteca
• Variables independientes:
oRenta, riqueza, situación laboral
oOtros préstamos, características de la casa
o Raza del solicitante
9-2
El modelo de probabilidad lineal
(SW Sección 9.1)
Un punto de partida natural es el modelo de regresión lineal

con un único regresor:
Yi = β0 + β1Xi + ui
Pero:
∆Y
• ¿Qué significa β1 cuando Y es binaria? ¿Es β1 = ?
∆X
• ¿Qué significa la recta β0 + β1X cuando Y es binaria?
• ¿Qué significa el valor estimado Yˆ cuando Y es binaria?
Por ejemplo, ¿qué significa Yˆ = 0.26?
9-3
El modelo de probabilidad lineal (cont.)
Recordemos la hipótesis #1: E(ui|Xi) = 0, por tanto:
E(Yi|Xi) = E(β0 + β1Xi + ui|Xi) = β0 + β1Xi
Cuando Y es binaria,
E(Y) = 1×Pr(Y=1) + 0×Pr(Y=0) = Pr(Y=1)
así que se tiene,

E(Y|X) = Pr(Y=1|X)
9-4
El modelo de probabilidad lineal (cont.)
Cuando Y es binaria, el modelo de regresión lineal
recibe el nombre de modelo de probabilidad lineal.
• El valor estimado es una probabilidad:

oE(Y|X=x) = Pr(Y=1|X=x) = prob. de Y = 1 dado x
o Yˆ = la probabilidad estimada de que Yi = 1, dado X
• β1 = cambio en la probabilidad de que Y = 1 para un ∆x dado:
Pr(Y = 1| X = x + ∆x ) − Pr(Y = 1| X = x )
β1 =
∆x
Ejemplo: modelo de probabilidad lineal, datosHMDA
9-5
Denegación de hipotecas vs. ratio préstamos a pagar/renta
(P/I ratio) en el conjunto de datos HMDA (subconjunto de
dichos datos)
9-6
9-7
Modelo de probabilidad lineal: datos HMDA
deneg = -.080 + .604 P/I ratio (n = 2380)

(.032) (.098)
• ¿Cuál es el valor estimado para P/I ratio = .3?

Pr(deneg=1 | P/I ratio=.3) = -.080 + .604×.3 = .151
• Calculando “efectos:” increm. de P/I ratio de .3 a .4:
Pr(deneg=1 | P/I ratio=.4) = -.080 + .604×.4 = .212
El efecto sobre la probabilidad de denegación de la
hipoteca de un incremento en el P/I ratio de .3 to .4 es que
se incrementa dicha probabilidad en .061, es decir, en 6.1
puntos porcentuales.
9-8
Incluyamos ahora la variable negro como un regresor (negro
vale 1 para individuos de raza negra):
deneg = -.091 + .559 P/I ratio + .177 black
(.032) (.098) (.025)
Probabilidad estimada de denegación de la hipoteca:
• para un solicitante negro con P/I ratio = .3:
Pr(deneg=1) = -.091 + .559×.3 + .177×1 = .254
• para un solicitante blanco con P/I ratio = .3:
Pr(deneg=1) = -.091 + .559×.3 + .177×0 = .077
• diferencia = .177 = 17.7 puntos porcentuales
• El coeficiente de negro es significativo al 5%
• Todavía habrá muchas variables omitidas (sesgo)…
9-9
El modelo de probabilidad lineal: Resumen
• Modeliza la probabilidad como una función lineal de X

• Ventajas:
oEstimación e interpretación sencillas
oLa inferencia es la misma que en el modelo de regresión
múltiple (necesitamos errores estándar robustos a
heterocedasticidad)
• Desventajas:
o¿Tiene sentido que la probabilidad sea lineal en X?
oLas probabilidades estimadas pueden ser <0 ó >1!
• Este problema puede resolverse utilizando un modelo de
probabilidad no lineal: regresión probit y logit
9-10
Probit and Logit Regression
(SW Section 9.2)
El problema con el modelo de probabilidad lineal es que

modeliza la probabilidad de Y=1 con una función lineal:
Pr(Y = 1|X) = β0 + β1X
Sin embargo, queremos que:

• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X
• Pr(Y = 1|X) creciente en X (para β1>0)
Esto requiere una forma functional no lineal para la
probabilidad. ¿Qué tal una curva en forma de “S”…?
9-11
El modelo probit satisface estas condiciones:
• 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X
• Pr(Y = 1|X) es creciente en X (para β1>0)
9-12
La regresión probit modeliza la probabilidad de que Y=1
usando la función de distribución de la normal estándar,
evaluada en z = β0 + β1X:
Pr(Y = 1|X) = Φ(β0 + β1X)
• Φ es la función de distribución normal.
• z = β0 + β1X es el “valor z” ó “índice z” del modelo
probit
Ejemplo: Supongamos que β0 = -2, β1= 3, X = .4, por tanto:
Pr(Y = 1|X=.4) = Φ(-2 + 3×.4) = Φ(-0.8)
Pr(Y = 1|X=.4) = área bajo la densidad de la normal estándar
que queda a la izquierda de z = -.8, que es…
9-13
Pr(Z ≤ -0.8) = .2119
9-14
Regresión probit (cont.)
¿Por qué usar la distribución de probabilidad acumulada de la

normal?
• La curva “en forma de S” nos da lo que queremos:
o 0 ≤ Pr(Y = 1|X) ≤ 1 para todo X
o Pr(Y = 1|X) creciente en X (para β1>0)
• Es fácil de usar – las probabilidades están tabuladas en las
tablas de la normal
• Tiene una interpretación relativamente directa:
o valor z = β0 + β1X
o βˆ + βˆ X es el valor z estimado, dado X
0 1
o β1 es el cambio en el valor z para un cambio unitario en X

9-15
Ejemplo de STATA: datos HMDA
. probit deny p_irat, r;
Iteration 0: log likelihood = -872.0853 We’ll discuss this later

Iteration 1: log likelihood = -835.6633
Probit estimates Number of obs = 2380

Wald chi2(1) = 40.68
Prob > chi2 = 0.0000
Log likelihood = -831.79234 Pseudo R2 = 0.0462
------------------------------------------------------------------------------
| Robust
deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
p_irat | 2.967908 .4653114 6.38 0.000 2.055914 3.879901
_cons | -2.194159 .1649721 -13.30 0.000 -2.517499 -1.87082
------------------------------------------------------------------------------
Pr(deneg=1 | P/I ratio) = Φ(-2.19 + 2.97×P/I ratio)

(.16) (.47)
9-16
Ejemplo de STATA: datos HMDA (cont.)
Pr(deneg=1 | P/I ratio) = Φ(-2.19 + 2.97 × P/I ratio)
(.16) (.47)
• Coeficiente positivo: ¿tiene sentido?
• Los errores estándar tienen la interpretación habitual
• Probabilidades estimadas:
Pr(deneg=1 | P/I ratio=0.3) = Φ(-2.19 + 2.97 × .3)
= Φ(-1.30) = .097
• Efecto del cambio en P/I ratio de .3 a .4:
Pr(deneg=1 | P/I ratio=0.4) = Φ(-2.19+2.97×.4) = .159
La probabilidad estimada de no concesión de hipoteca se
incrementa, pasando de .097 a .159
9-17
Regresión probit con varios regresores
Pr(Y = 1|X1, X2) = Φ(β0 + β1X1 + β2X2)
• Φ es la función de distribución normal acumulada.

• z = β0 + β1X1 + β2X2 es el “valor z” ó “índice z” del modelo
probit
• β1 es el efecto en el “valor z” de un cambio unitario en X1,
manteniendo constante X2
9-18
. probit deny p_irat black, r;


Wald chi2(2) = 118.18
Prob > chi2 = 0.0000
------------------------------------------------------------------------------
| Robust
-------------+----------------------------------------------------------------
p_irat | 2.741637 .4441633 6.17 0.000 1.871092 3.612181
black | .7081579 .0831877 8.51 0.000 .545113 .8712028
_cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463
------------------------------------------------------------------------------
Veremos después los detalles de la estimación…

9-19
Ejemplo de STATA: probabilidades probit estimadas
. probit deny p_irat black, r;

Wald chi2(2) = 118.18
Prob > chi2 = 0.0000
------------------------------------------------------------------------------
| Robust
-------------+----------------------------------------------------------------
p_irat | 2.741637 .4441633 6.17 0.000 1.871092 3.612181
black | .7081579 .0831877 8.51 0.000 .545113 .8712028
_cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463
------------------------------------------------------------------------------
. sca z1 = _b[_cons]+_b[p_irat]*.3+_b[black]*0;
. display "Pred prob, p_irat=.3, white: "normprob(z1);
Pred prob, p_irat=.3, white: .07546603

NOTE
_b[_cons] is the estimated intercept (-2.258738)
_b[p_irat] is the coefficient on p_irat (2.741637)
sca creates a new scalar which is the result of a calculation
display prints the indicated information to the screen
9-20
Ejemplo de STATA: datos HMDA (cont.)
Pr(deneg=1 | P/I, negro) =
=Φ(-2.26 + 2.74×P/I ratio + .71×black)
(.16) (.44) (.08)
• ¿El coeficiente de negro es estadísticamente significativo?
• Valor estimado de la raza para P/I ratio = .3:
Pr(deneg=1 | .3, 1) = Φ(-2.26+2.74×.3+.71×1) = .233
Pr(deneg=1 | .3, 0) = Φ(-2.26+2.74×.3+.71×0) = .075
• Diferencia en las probabilidad de no concesión de la
hipoteca = .158 (15.8 puntos porcentuales)
• Todavía habrá muchas variables omitidas (sesgos)…
9-21
Regresión logit
La regresión logit modeliza la probabilidad de Y=1 como la

función de distribución acumulada de la logística estándar,
evaluada en z = β0 + β1X:
Pr(Y = 1|X) = F(β0 + β1X)
F es la función de distribución logística:
1
F(β0 + β1X) =
1 + e − ( β0 + β1 X )
9-22
Regresión logit (cont.)
Pr(Y = 1|X) = F(β0 + β1X)
1
donde F(β0 + β1X) = − ( β 0 + β1 X )
.
1+ e
Ejemplo: β0 = -3, β1= 2, X = .4,

por tanto, β0 + β1X = -3 + 2×.4 = -2.2
Pr(Y = 1|X=.4) = 1/(1+e–(–2.2)) = .0998
¿Por qué complicarse con el logit si tenemos el probit?
• Históricamente, ha tenido ventajas computacionales
• En la práctica, es muy similar al probit
9-23
. logit deny p_irat black, r;
Iteration 0: log likelihood = -872.0853 Later…

Logit estimates Number of obs = 2380

Wald chi2(2) = 117.75
Prob > chi2 = 0.0000
------------------------------------------------------------------------------
| Robust
-------------+----------------------------------------------------------------
p_irat | 5.370362 .9633435 5.57 0.000 3.482244 7.258481
black | 1.272782 .1460986 8.71 0.000 .9864339 1.55913
_cons | -4.125558 .345825 -11.93 0.000 -4.803362 -3.447753
------------------------------------------------------------------------------
. dis "Pred prob, p_irat=.3, white: "

> 1/(1+exp(-(_b[_cons]+_b[p_irat]*.3+_b[black]*0)));
Pred prob, p_irat=.3, white: .07485143
NOTE: the probit predicted probability is .07546603
9-24
Las probabilidades estimadas de los modelos probit y logit
son habitualmente muy parecidas.
9-25
Estimación e Inferencia en Modelos Probit (y Logit) (SW
Sección 9.3)
Modelo probit:
Pr(Y = 1|X) = Φ(β0 + β1X)
• Estimación e inferencia
o¿Cómo estimar β0 y β1?
o¿Cuál es la distribución muestral de los estimadores?
o¿Por qué podemos utilizar los métodos de inferencia
habituales?
• Veamos primero mínimos cuadrados no lineales (más fácil de
explicar)
• Después veamos estimación por máxima verosimilitud (es lo que
se hace en la práctica en estos modelos)
9-26
Estimación probit por mínimos cuadrados no lineales
Recordemos MCO:
n
min b0 ,b1 ∑ [Yi − (b0 + b1 X i )]2
i =1
• El resultado son los estimadores MCO βˆ0 y βˆ1
En el probit, tenemos una función de regresión diferente, el

modelo probit no lineal. Entonces, podríamos estimar β0 y β1 por
mínimos cuadrados no lineales:
n
min b0 ,b1 ∑ [Yi − Φ (b0 + b1 X i )]2
i =1
La solución de este problema lleva al estimador de mínimos

cuadrados no lineales de los coeficientes probit.
9-27
Mínimos cuadrados no lineales (cont.)
n
min b0 ,b1 ∑ [Yi − Φ (b0 + b1 X i )]2
i =1
¿Cómo resolver este problema de minimización?

• No tenemos una solución explícita.
• Debe resolverse numéricamente usando un ordenador, es decir, por
un método de “prueba y error”, probando con un conjunto de valores
para (b0,b1), luego probando otro, y otro...
• Una idea mejor: usar algoritmos específicos de minimización
• En la práctica, no se utiliza mínimos cuadrados no lineales porque
no es eficiente; un estimador con una varianza menor es...
9-28
Estimación probit por máxima veosimilitud
La función de verosimilitud es la densidad condicional de
Y1,…,Yn dados X1,…,Xn, entendida como función de los
parámetros desconocidos β0 y β1.
• El estimador de máxima verosimilitud (EMV ó MLE en
inglés) es el valor de (β0, β1) que maximiza la función de
verosimilitud.
• El EMV (MLE) es el valor de (β0, β1) que mejor describe la
distribución de los datos.
• En muestras grandes, el EMV (MLE) es:
oconsistente
ose distribuye como una normal
oeficiente (es el estimador de menor varianza)
9-29
Caso especial: EMV (MLE) probit sin X
 1 con probabilid ad p
Y=  (distribución Bernoulli)
0 con probabilid ad 1 − p
Datos: Y1,…,Yn, i.i.d.
La obtención de la verosimilitud empieza con la densidad de

Y1:
Pr(Y1 = 1) = p y Pr(Y1 = 0) = 1–p
Por tanto,
Pr(Y1 = y1) = p y (1 − p )1− y
1 1
(comprobar para y1=0, 1)
9-30
Densidad conjunta de (Y1,Y2):
Dado que Y1 y Y2 son independientes,
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1) × Pr(Y2 = y2)
= [ p y (1 − p )1− y ]× [ p y (1 − p )1− y ]
1 1 2 2
Densidad conjunta de (Y1,..,Yn):

Pr(Y1 = y1,Y2 = y2,…,Yn = yn)
= [ p y (1 − p )1− y ]× [ p y (1 − p )1− y ]×…× [ p y (1 − p )1− y ]
1 1 2 2 n n
= p ∑
n
y
i =1 i
(1 − p )
( ∑i =1 yi )
n−
n
La verosimilitud es la densidad conjunta, entendida como

función de los parámetros desconocidos, que están en p:
9-31
f(p;Y1,…,Yn) = p ∑ i =1
(1 − p )
n
( ∑i =1Yi )
Yi n−
n
El EMV (MLE) maximiza la verosimilitud. Se suele trabajar con

el logaritmo de la verosimilitud, ln[f(p;Y1,…,Yn)]:
ln[f(p;Y1,…,Yn)] = (∑ Y ) ln( p) + (n − ∑ Y ) ln(1 − p)

n
i =1 i
n
i =1 i
d ln f ( p;Y1 ,..., Yn )
dp
(1
) (
 −1 
∑i=1Yi p + n − ∑i=1Yi  1 − p  = 0
=
n
n
 
)
Resolviendo para p se obtiene el EMV (MLE); es decir, pˆ MLE ,
satisface,
9-32
(∑ Y ) pˆ
n
i =1 i
1
MLE ( n
) −1 
+ n − ∑ i =1Yi 
 1 − pˆ
MLE 

=0
(∑ Y ) pˆ
n
i =1 i
1
MLE (
= n − ∑ i =1Yi
n
) 1
1 − pˆ MLE
ó (dividiendo por n y reordenando términos),
Y pˆ MLE
=
1 − Y 1 − pˆ MLE
ó
pˆ MLE = Y = proporción de 1’s
9-33
El estimador EMV (MLE) en el caso “sin X” (distribución
Bernoulli):
pˆ MLE = Y = proporción de 1’s
• Para Yi i.i.d. Bernoulli, el EMV (MLE) es el estimador “natural”
de p, la proporción de 1’s, que es Y
• Ya conocemos los aspectos básicos de la inferencia:
oPara n grande, la distribución muestral de pˆ MLE = Y es una
distribución normal
oPor tanto, la inferencia es “la habitual”: contrastes de
hipótesis mediante el estadístico t, intervalos de confianza
basados en ±1.96SE
• Nota de STATA: para destacar que se requiere n grande, la salida de
STATA se refiere al estadístico z en lugar de al estadístico t ;
estadístico chi-cuadrado (= q×F) en lugar de estadístico F.
9-34
La verosimilitud probit con un regresor X
Su obtención empieza con la densidad de Y1, dado X1:
Pr(Y1 = 1|X1) = Φ(β0 + β1X1)
Pr(Y1 = 0|X1) = 1–Φ(β0 + β1X1)
Por tanto,
Pr(Y1 = y1|X1) = Φ ( β 0 + β1 X 1 ) y [1 − Φ ( β 0 + β1 X 1 )]1− y
1 1
La función de verosimilitud probit es la densidad conjunta de

Y1,…,Yn dados X1,…,Xn, entendida como función de β0, β1:
f(β0,β1; Y1,…,Yn|X1,…,Xn)
= { Φ ( β 0 + β1 X 1 )Y [1 − Φ ( β 0 + β1 X 1 )]1−Y }×
1 1
…×{ Φ ( β 0 + β1 X n )Y [1 − Φ ( β 0 + β1 X n )]1−Y }
n n
9-35
La función de verosimilitud probit:
f(β0,β1; Y1,…,Yn|X1,…,Xn)
= { Φ ( β 0 + β1 X 1 )Y [1 − Φ ( β 0 + β1 X 1 )]1−Y }×
1 1
…×{ Φ ( β 0 + β1 X n )Y [1 − Φ ( β 0 + β1 X n )]1−Y }
n n
• No se puede obtener el máximo de forma explícita

• Hay que maximizar utilizando métodos numéricos
• Como en el caso “sin X”, en muestras grandes:
o βˆ0MLE , βˆ1MLE son consistentes
o βˆ0MLE , βˆ1MLE siguen distribución normal
oLos errores estándar puede computarse
o Contrastes e intervalos de confianza: los usuales
Para varios X’s, ver SW Apéndice. 9.2
9-36
La verosimilitud logit con un X
• La única diferencia entre el probit y el logit es la forma

functional que se utiliza para la probabilidad: en el logit, Φ
se reemplaza por la distrbución logística.
• Por lo demás, la verosimilitud es similar; ver los detalles
en SW Apéndice. 9.2
• Al igual que en el probit,
o βˆ0MLE , βˆ1MLE son consistentes
o βˆ0MLE , βˆ1MLE tienen distribución normal
oSus errores estándar pueden computarse
o Contrastes e intervalos de confianza: los usuales
9-37
Medidas de bondad de ajuste
R2 y R 2 no tienen sentido en este contexto (por qué?). Dos
medidas de ajuste en este contexto son:
1. La proporción de predicciones correctas = proporción de

Y’s para las que la probabilidad estimada es >50% (si
Yi=1) ó es <50% (si Yi=0).
2. El pseudo-R2 mide el ajuste usando la función de

verosimilitud: mide la mejora en el valor del log de la
verosimilitud relativo al caso “sin X” (ver SW Apéndice.
9.2). Esto se reduce al R2 en el modelo lineal con errores
normalmente distribuidos.
9-38
Distribución del EMV (MLE) para n grande (no está en SW)
• La calcularemos para el caso especial “sin X”, para el que p es el
único parámetro desconocido. Pasos a seguir:
1. Obtener el log de la verosimilitud (“Λ(p)”) (hecho).
2. Encontrar el EMV (MLE) igualando a cero la derivada del
log-verosimilitud; esto requiere resolver una ecuación no
lineal
3. Para n grande, pˆ MLE estará cerca del verdadero p (ptrue), así
que la ecuación no lineal puede aproximarse (localmente) por
una ecuación lineal (expansión de Taylor alrededor de ptrue).
4. Dicha ecuación puede resolverse para pˆ MLE – ptrue.
5. Por la LGN y el TCL, para n grande, n ( pˆ MLE – ptrue) sigue
distribución normal.
9-39
1. Obtener el log de la verosimilitud:
Recuerda que: la densidad para la observación #1 es:
Pr(Y1 = y1) = p y (1 − p )1− y
1
(densidad)
1
Por tanto,
f(p;Y1) = pY (1 − p )1−Y
1
(verosimilitud)
1
La verosimilitud para Y1,…,Yn es,

f(p;Y1,…,Yn) = f(p;Y1) ×…× f(p;Yn)
por tanto el log de la verosimilitud es,
Λ(p) = lnf(p;Y1,…,Yn)
= ln[f(p;Y1) ×…× f(p;Yn)]
n
= ∑ ln f ( p;Y )
i =1
i
9-40
2. Igualar a cero la derivada de Λ(p) para obtener el EMV
(MLE):
∂L ( p ) n
∂ ln f ( p;Yi )
=∑ =0
∂p pˆ MLE i =1 ∂p pˆ MLE
3. Utilizar una expansión de Taylor alrededor de ptrue para

aproximar la ecuación no lineal como una ecuación lineal de
pˆ MLE :
∂L ( p ) ∂L ( p ) ∂ 2L ( p )
0= ≈ + ( pˆ MLE – ptrue)
∂p pˆ MLE
∂p p true
∂p 2 p true
9-41
4. Resolver esta aproximación lineal para ( p
ˆ MLE
– p ):
true
∂L ( p ) ∂ 2L ( p )
+ (p
ˆ MLE
–p )≈0
true
∂p p true
∂p 2 p true
Por tanto,
∂ 2L ( p ) ∂L ( p )
( pˆ MLE
–p true
)≈–
∂p 2 p true
∂p p true
ó
−1
 ∂ 2L ( p )  ∂L ( p )
( pˆ MLE
–p true
) ≈ – 
 ∂p 2
p true 
 ∂p p true
9-42
5. Sustituir y aplicar la LGN y el TCL.
n
Λ(p) = ∑ ln f ( p;Y )
i =1
i
∂L ( p ) n
∂ ln f ( p;Yi )
=∑
∂p p true i =1 ∂p p true
∂ 2L ( p ) ∂ 2 ln f ( p;Yi )
n
=∑
∂p 2 p true i =1 ∂ p 2
p true
Por tanto,
−1
 ∂ 2
L ( p)  ∂L ( p )
( pˆ MLE
– p ) ≈ –
true

 ∂ p 2
p true 
 ∂p p true
−1
 n  ∂ 2 ln f ( p;Y )  n ∂ ln f ( p;Y ) 
= ∑  − i
 ∑  i


 i =1  ∂ 2
  ∂p 
p true  
p i =1  p true 

9-43
Multiplicar ambos miembros por n :
n(p
ˆ MLE
–p )≈
true
−1
 1 n  ∂ 2 ln f ( p;Y )   1 n  ∂ ln f ( p;Y ) 
 ∑ − i
  ∑  i

 ∂   n i =1  ∂p 
2
 i =1 
n p p true
 p true  

Dado que Yi es i.i.d., los terminus i-ésimos en los sumandos

también son i.i.d. Entonces, si esos términos tienen
suficientes momentos (en concreto 2), bajo condiciones
generales (no sólo bajo distribución Bernoulli):
9-44
1 n  ∂ 2 ln f ( p;Yi )  p
∑ −
n i =1  ∂p 2
 → a ( constante) (LDGN)

p true 
1 n  ∂ ln f ( p;Yi )  d
∑ 
n i =1  ∂p


→ N(0,σ 2
ln f ) (TCL) (¿Por qué?)
p true

Poniendo todo junto,
n ( pˆ MLE – ptrue) ≈
−1
 1 n  ∂ 2 ln f ( p;Y )   1 n  ∂ ln f ( p;Y ) 
 ∑ − i
  ∑  i

 ∂   n i =1  ∂p 
2
 i =1 
n p p true  
 p true

9-45
1 n  ∂ 2 ln f ( p;Yi )  p
∑ −
n i =1  ∂p 2
 → a (constante) (LDGN)

p true 
1 n  ∂ ln f ( p;Yi )  d
∑ 
n i =1  ∂p


→ N(0,σ 2
ln f ) (TCL) (¿Por qué?)
p true

Por tanto,
d
n ( pˆ MLE
–p true
) → N(0,σ ln2 f /a2)
Desarrollo de los detalles para el caso probit/sin X

(Bernoulli):
9-46
Recuerda que:
f(p;Yi) = pY (1 − p )1−Y
i i
Por tanto,
ln f(p;Yi) = Yilnp + (1–Yi)ln(1–p)

y
∂ ln f ( p, Yi ) Yi 1 − Yi Yi − p
= − =
∂p p 1− p p(1 − p )
y
∂ 2 ln f ( p, Yi ) Yi 1 − Yi  Yi 1 − Yi 
=− 2− = − 2 + 2 
∂p 2
p (1 − p ) 2
 p (1 − p ) 
9-47
Denominador:
∂ 2 ln f ( p, Yi )  Yi 1 − Yi 
= − 2 + 2 
∂p 2
 p (1 − p ) 
Por tanto,
1 n  ∂ 2 ln f ( p;Yi )  1 n Y 1 − Yi 
∑ −
n i =1  ∂p 2
 = ∑ 2 +
 i =1 
i
(1 − ) 2 
p true 
n p p 
Y 1−Y
= 2+
p (1 − p ) 2
p
p 1− p
→ 2+ (LGN)
p (1 − p ) 2
1 1 1
= + =
p 1− p p(1 − p )
9-48
Numerador:
∂ ln f ( p, Yi ) Yi − p
=
∂p p(1 − p )
so
1 n  ∂ ln f ( p;Yi )  1 n Yi − p
∑ 
n i =1  ∂p
=
 ∑
n i =1 p (1 − p )
p true 
 1  1 n
=  ∑ (Yi − p )
 p (1 − p )  n i =1
d σ Y2
→ N(0, )
[ p(1 − p )]2
9-49
Poniendo todo junto:
n ( pˆ MLE – ptrue) ≈
−1
 1 n  ∂ 2 ln f ( p;Y )   1 n  ∂ ln f ( p;Y ) 
 ∑ − i
  ∑  i

 ∂   n i =1  ∂p 
2
 i =1 
n p p true  
 p true  

donde
1 n  ∂ 2 ln f ( p;Yi )  p 1
∑ −
n i =1  ∂p 2
→
 p (1 − p )
p true

1 n  ∂ ln f ( p;Yi )  d σ Y2
∑ 
n i =1  ∂p
 → N(0,
 [ p(1 − p )]2
)
p true 
De donde,
d
n ( pˆ MLE
–p true
) → N(0,σ Y2 )
9-50
Resumen: EMV (MLE) probit , caso “sin X”
El EMV (MLE): pˆ MLE = Y
Trabajando sobre la teoría de la distribución del EMV (MLE),

llegamos a que:
d
n ( pˆ MLE
–p true
) → N(0,σ Y2 )
Pero dado que ptrue = Pr(Y = 1) = E(Y) = µY, tenemos que:
d
n (Y – µY) → N(0,σ Y2 )
Un resultado visto en las primeras clases de Econometría!

9-51
La derivación del EMV (MLE) utiliza de forma general:
d
n ( pˆ MLE
–p ) → N(0, σ ln2 f /a2))
true
• Los errores estándar se obtienen encontrando expresiones para

σ ln2 f /a2
• Extensión a varios parámetros (β0, β1) mediante cálculo matricial
• Dado que la distribución es normal para n grande, la inferencia
se lleva a cabo de la forma habitual, opr ejemplo, el intervalo de
confianza al 95% es MLE ± 1.96SE.
• La expresión de arriba utiliza errores estándar “robustos”. Se
puede simplificar al caso de errores estándar no robustos si
∂ ln f ( p;Yi ) / ∂p es homocedástico.
9-52
Resumen: distribution del EMV (MLE)
• El EMV (MLE) sigue distribución normal para n grande

• Hemos trabajado este resultado en detalle para el modelo probit
“sin X” (distribución Bernoulli)
• Para n grande, los intervalos de confianza y los contrastes de
hipótesis se construyen de la forma usual.
• Si el modelo está correctamente especificado, el EMV (MLE) es
eficiente, es dicer, tiene menor varianza que cualquier otro
estimador (esto no lo hemos desarrollado).
• Estos métodos se extiende a otros modelos con variables
dependientes discretas, por ejemplo, datos de recuento
(# delitos/día) – ver SW Apéndice. 9.2.
9-53
Aplicación a los datos de Boston HMDA
(SW Sección 9.4)
• Las hipotecas son una parte esencial en la compra de una

casa.
• ¿Hay diferencias en el acceso a una hipoteca en función de
la raza?
• Si dos individuos, uno blanco y otro negro, que en lo
demás son iguales, solicitan una hipoteca, ¿hay diferencias
en la probabilidad de que la hipoteca sea denegada?
9-54
El conjunto de datos HMDA
• Datos sobre características individuales, características de la

casa y concesión o denegación del préstamo
• El proceso de solicitud de hipoteca en Boston 1990-1991:
oIr a una entidad financiera
oRellenar una solicitud (información personal y económica)
oEntrevista con el agente del banco
• El banco decide en función de la ley (sin prestar atención a la
raza). Presumiblemente, el banco quiere otorgar préstamos
beneficios para él y el agente quiere evitar potenciales
problemas por falta de pago.
9-55
La decisión del banco:
• El banco utiliza información sobre variables financieras:

oratioP/I
o ratio gastos de la casa/renta del individuo
o ratio cuantía del préstamo/valor de la casa
o historial crediticio personal
• La regla de decisión no es lineal:
oRatio préstamo/valor > 80%
oRatio préstamo/valor > 95%
oPuntuación en otros créditos (en función de retrasos en el
pago, etc)
9-56
Especificaciones para la regresión
Pr(deneg=1|negro, otras X’s) = …
• modelo de probabilidad lineal
• probit, logit
Principal problema en todas las especificaciones: potencial

sesgo de omisión de variables. Todas esas variables: (i)
entran en la función de decisión del banco, (ii) están o
podrían estar correlacionadas con la raza:
• riqueza, tipo de trabajo
• historial crediticio
• estatus familiar
Variables en los datos HMDA …
9-57
9-58
9-59
9-60
9-61
9-62
Resumen de los resultados empíricos
• Los coeficientes de las variables financieras tienen sentido.
• Negro (black) es estadísticamente significativa en todas las
especificaciones
• Las interacción de la raza con variables financieras no son
significativas.
• La inclusión de otros regresores reduce sensiblemente el efecto
de la reza sobre la probabilidad de denegación del préstamo.
• MPL, probit, logit: estimaciones similares del efecto de la raza
sobre la probabilidad de denegación del préstamo.
• Los efectos estimados son bastante grandes.
9-63
Amenazas a la validez interna y externa
• Validez interna
1. sesgo de variables omitidas
• ¿qué información adicional obtiene el banco en la
entrevista personal?
2. forma funcional incorrecta (no…)
3. errores de medidad (originalmente, sí; ahora, no…)
4. selección
• muestra aleatoria de solicitudes de préstamos
• definir la población de solicitantes de préstamos
5. causalidad simultánea (no)
• Validez externa
Análisis para Boston 1990-91. ¿Qué pasaría hoy?
9-64
Resumen
(SW Sección 9.5)
• Si Yi es binaria, entonces E(Y| X) = Pr(Y=1|X)
• Tres modelos:
omodelo de probabilidad lineal (regresión lineal múltiple)
oprobit (distribución normal estándar)
ologit (distribución logística estándar)
• MPL, probit, logit producen probabilidades estimadas
• El efecto de ∆X es el cambio en la probabilidad
condicionada de Y=1. Para los modelos logit y probit, esto
depende del valor inicial de X
• Probit y logit se estiman por máxima verosimilitud
9-65
oLos coeficientes siguen distribución normal para n
grande.
oLos contrastes de hipótesis e intervalos de confianza para
n grande son los habituales.
9-66

Tema5 3 Eco1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema5 3 Eco1

Cargado por

Copyright:

Formatos disponibles

Regresión con variable dependiente binaria

Hasta ahora hemos considerado que la variable dependiente

Un punto de partida natural es el modelo de regresión lineal

Recordemos la hipótesis #1: E(ui|Xi) = 0, por tanto:

E(Yi|Xi) = E(β0 + β1Xi + ui|Xi) = β0 + β1Xi

así que se tiene,

• El valor estimado es una probabilidad:

Ejemplo: modelo de probabilidad lineal, datosHMDA

deneg = -.080 + .604 P/I ratio (n = 2380)

• ¿Cuál es el valor estimado para P/I ratio = .3?

• Modeliza la probabilidad como una función lineal de X

El problema con el modelo de probabilidad lineal es que

Pr(Y = 1|X) = β0 + β1X

Sin embargo, queremos que:

¿Por qué usar la distribución de probabilidad acumulada de la

o β1 es el cambio en el valor z para un cambio unitario en X

Iteration 0: log likelihood = -872.0853 We’ll discuss this later

Probit estimates Number of obs = 2380

Pr(deneg=1 | P/I ratio) = Φ(-2.19 + 2.97×P/I ratio)

Pr(Y = 1|X1, X2) = Φ(β0 + β1X1 + β2X2)

• Φ es la función de distribución normal acumulada.

Iteration 0: log likelihood = -872.0853

Probit estimates Number of obs = 2380

Veremos después los detalles de la estimación…

Probit estimates Number of obs = 2380

. display "Pred prob, p_irat=.3, white: "normprob(z1);

Pred prob, p_irat=.3, white: .07546603

La regresión logit modeliza la probabilidad de Y=1 como la

Pr(Y = 1|X) = F(β0 + β1X)

F es la función de distribución logística:

Pr(Y = 1|X) = F(β0 + β1X)

Ejemplo: β0 = -3, β1= 2, X = .4,

Iteration 0: log likelihood = -872.0853 Later…

Logit estimates Number of obs = 2380

. dis "Pred prob, p_irat=.3, white: "

• El resultado son los estimadores MCO βˆ0 y βˆ1

En el probit, tenemos una función de regresión diferente, el

La solución de este problema lleva al estimador de mínimos

¿Cómo resolver este problema de minimización?

Datos: Y1,…,Yn, i.i.d.

La obtención de la verosimilitud empieza con la densidad de

Densidad conjunta de (Y1,..,Yn):

La verosimilitud es la densidad conjunta, entendida como

El EMV (MLE) maximiza la verosimilitud. Se suele trabajar con

ln[f(p;Y1,…,Yn)] = (∑ Y ) ln( p) + (n − ∑ Y ) ln(1 − p)

ó (dividiendo por n y reordenando términos),

La función de verosimilitud probit es la densidad conjunta de

• No se puede obtener el máximo de forma explícita

• La única diferencia entre el probit y el logit es la forma

1. La proporción de predicciones correctas = proporción de

2. El pseudo-R2 mide el ajuste usando la función de

La verosimilitud para Y1,…,Yn es,

3. Utilizar una expansión de Taylor alrededor de ptrue para

Dado que Yi es i.i.d., los terminus i-ésimos en los sumandos

Poniendo todo junto,

Desarrollo de los detalles para el caso probit/sin X

ln f(p;Yi) = Yilnp + (1–Yi)ln(1–p)

El EMV (MLE): pˆ MLE = Y

Trabajando sobre la teoría de la distribución del EMV (MLE),

Pero dado que ptrue = Pr(Y = 1) = E(Y) = µY, tenemos que:

Un resultado visto en las primeras clases de Econometría!

• Los errores estándar se obtienen encontrando expresiones para

• El EMV (MLE) sigue distribución normal para n grande