Documentos de Académico
Documentos de Profesional
Documentos de Cultura
(SW Capítulo 9)
Yi = β0 + β1Xi + ui
Pero:
∆Y
• ¿Qué significa β1 cuando Y es binaria? ¿Es β1 = ?
∆X
• ¿Qué significa la recta β0 + β1X cuando Y es binaria?
• ¿Qué significa el valor estimado Yˆ cuando Y es binaria?
Por ejemplo, ¿qué significa Yˆ = 0.26?
9-3
El modelo de probabilidad lineal (cont.)
Yi = β0 + β1Xi + ui
Cuando Y es binaria,
E(Y) = 1×Pr(Y=1) + 0×Pr(Y=0) = Pr(Y=1)
9-5
Denegación de hipotecas vs. ratio préstamos a pagar/renta
(P/I ratio) en el conjunto de datos HMDA (subconjunto de
dichos datos)
9-6
9-7
Modelo de probabilidad lineal: datos HMDA
9-13
Pr(Z ≤ -0.8) = .2119
9-14
Regresión probit (cont.)
------------------------------------------------------------------------------
| Robust
deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
p_irat | 2.967908 .4653114 6.38 0.000 2.055914 3.879901
_cons | -2.194159 .1649721 -13.30 0.000 -2.517499 -1.87082
------------------------------------------------------------------------------
9-18
Ejemplo de STATA: datos HMDA
. probit deny p_irat black, r;
------------------------------------------------------------------------------
| Robust
deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
p_irat | 2.741637 .4441633 6.17 0.000 1.871092 3.612181
black | .7081579 .0831877 8.51 0.000 .545113 .8712028
_cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463
------------------------------------------------------------------------------
------------------------------------------------------------------------------
| Robust
deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
p_irat | 2.741637 .4441633 6.17 0.000 1.871092 3.612181
black | .7081579 .0831877 8.51 0.000 .545113 .8712028
_cons | -2.258738 .1588168 -14.22 0.000 -2.570013 -1.947463
------------------------------------------------------------------------------
. sca z1 = _b[_cons]+_b[p_irat]*.3+_b[black]*0;
9-21
Regresión logit
1
F(β0 + β1X) =
1 + e − ( β0 + β1 X )
9-22
Regresión logit (cont.)
1
donde F(β0 + β1X) = − ( β 0 + β1 X )
.
1+ e
------------------------------------------------------------------------------
| Robust
deny | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
p_irat | 5.370362 .9633435 5.57 0.000 3.482244 7.258481
black | 1.272782 .1460986 8.71 0.000 .9864339 1.55913
_cons | -4.125558 .345825 -11.93 0.000 -4.803362 -3.447753
------------------------------------------------------------------------------
9-24
Las probabilidades estimadas de los modelos probit y logit
son habitualmente muy parecidas.
9-25
Estimación e Inferencia en Modelos Probit (y Logit) (SW
Sección 9.3)
Modelo probit:
Pr(Y = 1|X) = Φ(β0 + β1X)
• Estimación e inferencia
o¿Cómo estimar β0 y β1?
o¿Cuál es la distribución muestral de los estimadores?
o¿Por qué podemos utilizar los métodos de inferencia
habituales?
• Veamos primero mínimos cuadrados no lineales (más fácil de
explicar)
• Después veamos estimación por máxima verosimilitud (es lo que
se hace en la práctica en estos modelos)
9-26
Estimación probit por mínimos cuadrados no lineales
Recordemos MCO:
n
min b0 ,b1 ∑ [Yi − (b0 + b1 X i )]2
i =1
9-27
Mínimos cuadrados no lineales (cont.)
n
min b0 ,b1 ∑ [Yi − Φ (b0 + b1 X i )]2
i =1
1 con probabilid ad p
Y= (distribución Bernoulli)
0 con probabilid ad 1 − p
Por tanto,
Pr(Y1 = y1) = p y (1 − p )1− y
1 1
(comprobar para y1=0, 1)
9-30
Densidad conjunta de (Y1,Y2):
Dado que Y1 y Y2 son independientes,
Pr(Y1 = y1,Y2 = y2) = Pr(Y1 = y1) × Pr(Y2 = y2)
= [ p y (1 − p )1− y ]× [ p y (1 − p )1− y ]
1 1 2 2
= p ∑
n
y
i =1 i
(1 − p )
( ∑i =1 yi )
n−
n
d ln f ( p;Y1 ,..., Yn )
dp
(1
) (
−1
∑i=1Yi p + n − ∑i=1Yi 1 − p = 0
=
n
n
)
Resolviendo para p se obtiene el EMV (MLE); es decir, pˆ MLE ,
satisface,
9-32
(∑ Y ) pˆ
n
i =1 i
1
MLE ( n
) −1
+ n − ∑ i =1Yi
1 − pˆ
MLE
=0
(∑ Y ) pˆ
n
i =1 i
1
MLE (
= n − ∑ i =1Yi
n
) 1
1 − pˆ MLE
Y pˆ MLE
=
1 − Y 1 − pˆ MLE
ó
pˆ MLE = Y = proporción de 1’s
9-33
El estimador EMV (MLE) en el caso “sin X” (distribución
Bernoulli):
pˆ MLE = Y = proporción de 1’s
• Para Yi i.i.d. Bernoulli, el EMV (MLE) es el estimador “natural”
de p, la proporción de 1’s, que es Y
• Ya conocemos los aspectos básicos de la inferencia:
oPara n grande, la distribución muestral de pˆ MLE = Y es una
distribución normal
oPor tanto, la inferencia es “la habitual”: contrastes de
hipótesis mediante el estadístico t, intervalos de confianza
basados en ±1.96SE
• Nota de STATA: para destacar que se requiere n grande, la salida de
STATA se refiere al estadístico z en lugar de al estadístico t ;
estadístico chi-cuadrado (= q×F) en lugar de estadístico F.
9-34
La verosimilitud probit con un regresor X
Su obtención empieza con la densidad de Y1, dado X1:
Pr(Y1 = 1|X1) = Φ(β0 + β1X1)
Pr(Y1 = 0|X1) = 1–Φ(β0 + β1X1)
Por tanto,
Pr(Y1 = y1|X1) = Φ ( β 0 + β1 X 1 ) y [1 − Φ ( β 0 + β1 X 1 )]1− y
1 1
…×{ Φ ( β 0 + β1 X n )Y [1 − Φ ( β 0 + β1 X n )]1−Y }
n n
9-35
La función de verosimilitud probit:
f(β0,β1; Y1,…,Yn|X1,…,Xn)
= { Φ ( β 0 + β1 X 1 )Y [1 − Φ ( β 0 + β1 X 1 )]1−Y }×
1 1
…×{ Φ ( β 0 + β1 X n )Y [1 − Φ ( β 0 + β1 X n )]1−Y }
n n
Por tanto,
f(p;Y1) = pY (1 − p )1−Y
1
(verosimilitud)
1
9-40
2. Igualar a cero la derivada de Λ(p) para obtener el EMV
(MLE):
∂L ( p ) n
∂ ln f ( p;Yi )
=∑ =0
∂p pˆ MLE i =1 ∂p pˆ MLE
∂L ( p ) ∂L ( p ) ∂ 2L ( p )
0= ≈ + ( pˆ MLE – ptrue)
∂p pˆ MLE
∂p p true
∂p 2 p true
9-41
4. Resolver esta aproximación lineal para ( p
ˆ MLE
– p ):
true
∂L ( p ) ∂ 2L ( p )
+ (p
ˆ MLE
–p )≈0
true
∂p p true
∂p 2 p true
Por tanto,
∂ 2L ( p ) ∂L ( p )
( pˆ MLE
–p true
)≈–
∂p 2 p true
∂p p true
ó
−1
∂ 2L ( p ) ∂L ( p )
( pˆ MLE
–p true
) ≈ –
∂p 2
p true
∂p p true
9-42
5. Sustituir y aplicar la LGN y el TCL.
n
Λ(p) = ∑ ln f ( p;Y )
i =1
i
∂L ( p ) n
∂ ln f ( p;Yi )
=∑
∂p p true i =1 ∂p p true
∂ 2L ( p ) ∂ 2 ln f ( p;Yi )
n
=∑
∂p 2 p true i =1 ∂ p 2
p true
Por tanto,
−1
∂ 2
L ( p) ∂L ( p )
( pˆ MLE
– p ) ≈ –
true
∂ p 2
p true
∂p p true
−1
n ∂ 2 ln f ( p;Y ) n ∂ ln f ( p;Y )
= ∑ − i
∑ i
i =1 ∂ 2
∂p
p true
p i =1 p true
9-43
Multiplicar ambos miembros por n :
n(p
ˆ MLE
–p )≈
true
−1
1 n ∂ 2 ln f ( p;Y ) 1 n ∂ ln f ( p;Y )
∑ − i
∑ i
∂ n i =1 ∂p
2
i =1
n p p true
p true
9-44
1 n ∂ 2 ln f ( p;Yi ) p
∑ −
n i =1 ∂p 2
→ a ( constante) (LDGN)
p true
1 n ∂ ln f ( p;Yi ) d
∑
n i =1 ∂p
→ N(0,σ 2
ln f ) (TCL) (¿Por qué?)
p true
n ( pˆ MLE – ptrue) ≈
−1
1 n ∂ 2 ln f ( p;Y ) 1 n ∂ ln f ( p;Y )
∑ − i
∑ i
∂ n i =1 ∂p
2
i =1
n p p true
p true
9-45
1 n ∂ 2 ln f ( p;Yi ) p
∑ −
n i =1 ∂p 2
→ a (constante) (LDGN)
p true
1 n ∂ ln f ( p;Yi ) d
∑
n i =1 ∂p
→ N(0,σ 2
ln f ) (TCL) (¿Por qué?)
p true
Por tanto,
d
n ( pˆ MLE
–p true
) → N(0,σ ln2 f /a2)
f(p;Yi) = pY (1 − p )1−Y
i i
Por tanto,
Y 1−Y
= 2+
p (1 − p ) 2
p
p 1− p
→ 2+ (LGN)
p (1 − p ) 2
1 1 1
= + =
p 1− p p(1 − p )
9-48
Numerador:
∂ ln f ( p, Yi ) Yi − p
=
∂p p(1 − p )
so
1 n ∂ ln f ( p;Yi ) 1 n Yi − p
∑
n i =1 ∂p
=
∑
n i =1 p (1 − p )
p true
1 1 n
= ∑ (Yi − p )
p (1 − p ) n i =1
d σ Y2
→ N(0, )
[ p(1 − p )]2
9-49
Poniendo todo junto:
n ( pˆ MLE – ptrue) ≈
−1
1 n ∂ 2 ln f ( p;Y ) 1 n ∂ ln f ( p;Y )
∑ − i
∑ i
∂ n i =1 ∂p
2
i =1
n p p true
p true
donde
1 n ∂ 2 ln f ( p;Yi ) p 1
∑ −
n i =1 ∂p 2
→
p (1 − p )
p true
1 n ∂ ln f ( p;Yi ) d σ Y2
∑
n i =1 ∂p
→ N(0,
[ p(1 − p )]2
)
p true
De donde,
d
n ( pˆ MLE
–p true
) → N(0,σ Y2 )
9-50
Resumen: EMV (MLE) probit , caso “sin X”
d
n (Y – µY) → N(0,σ Y2 )
9-52
Resumen: distribution del EMV (MLE)
9-53
Aplicación a los datos de Boston HMDA
(SW Sección 9.4)
9-54
El conjunto de datos HMDA
9-55
La decisión del banco:
9-56
Especificaciones para la regresión
Pr(deneg=1|negro, otras X’s) = …
• modelo de probabilidad lineal
• probit, logit
9-63
Amenazas a la validez interna y externa
• Validez interna
1. sesgo de variables omitidas
• ¿qué información adicional obtiene el banco en la
entrevista personal?
2. forma funcional incorrecta (no…)
3. errores de medidad (originalmente, sí; ahora, no…)
4. selección
• muestra aleatoria de solicitudes de préstamos
• definir la población de solicitantes de préstamos
5. causalidad simultánea (no)
• Validez externa
Análisis para Boston 1990-91. ¿Qué pasaría hoy?
9-64
Resumen
(SW Sección 9.5)
• Si Yi es binaria, entonces E(Y| X) = Pr(Y=1|X)
• Tres modelos:
omodelo de probabilidad lineal (regresión lineal múltiple)
oprobit (distribución normal estándar)
ologit (distribución logística estándar)
• MPL, probit, logit producen probabilidades estimadas
• El efecto de ∆X es el cambio en la probabilidad
condicionada de Y=1. Para los modelos logit y probit, esto
depende del valor inicial de X
• Probit y logit se estiman por máxima verosimilitud
9-65
oLos coeficientes siguen distribución normal para n
grande.
oLos contrastes de hipótesis e intervalos de confianza para
n grande son los habituales.
9-66