Está en la página 1de 33

ECONOMETRÍA II

SESIÓN VIII: Modelos de variable dependiente limitada I


Ciclo: Temas avanzados del análisis de regresión

Profesor: Javier Hualde

1
ÍNDICE
1. Variables dependientes binarias y modelo de probabilidad lineal
2. Modelos probit y logit
3. Inferencia en los modelos probit y logit

2
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I
Supongamos que queremos analizar la presencia de discriminación en el mercado
hipotecario

Los prestamos se otorgan y se deniegan en muchos casos por razones legítimas, pero
queremos analizar si conseguir un préstamo es más complicado para las minorías étnicas,
manteniendo constantes el resto de factores relevantes

Un análisis inicial es recopilar datos de concesión de hipotecas: trabajaremos con datos de


solicitudes de hipotecas en Boston en 1990

 Al 28% de solicitantes negros se les denegó el préstamo


 Al 9% de solicitantes blancos se les denegó el préstamo

No muy informativo porque no se mantienen factores constantes ⇒ ¿regresión múltiple?:


Sí, pero una peculiaridad: la variable dependiente es binaria (toma valores 0 ó 1)
3
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – VARIABLES
DEPENDIENTES BINARIAS Y MODELO DE PROBABILIDAD LINEAL
Ejemplo de variable binaria: aceptación o denegación de una solicitud de hipoteca

Este es un ejemplo de variable dependiente limitada

Es habitual usar variables binarias como regresores y esto no causa dificultades especiales

Existen multitud de ejemplos de variables dependientes binarias:

 Efecto de una subvención sobre la decisión de ir o no a una universidad


 Determinantes sobre el fumar o no
 Determinantes de que un país reciba o no ayuda exterior

Trataremos de entender la distinción entre la regresión con una variable dependiente


binaria o continua
4
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – VARIABLES
DEPENDIENTES BINARIAS Y MODELO DE PROBABILIDAD LINEAL
Analizaremos el caso de aceptación o denegación de una solicitud de hipoteca con
los datos de Boston

Uno de los factores claves: cociente entre los pagos mensuales del préstamo y los
ingresos mensuales del solicitante (ratioP/I)
Diagrama de dispersión de la variable
denegar versus ratioP/I: solo 127 de las
2.380 observaciones

Para 𝑟𝑎𝑡𝑖𝑜𝑃/𝐼< 0,3 a pocos solicitantes


se les deniega la hipoteca

𝑟𝑎𝑡𝑖𝑜𝑃/𝐼 > 0,4 a la mayoría de


solicitantes se les deniega la hipoteca
5
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – VARIABLES
DEPENDIENTES BINARIAS Y MODELO DE PROBABILIDAD LINEAL
Relación positiva entre 𝑟𝑎𝑡𝑖𝑜𝑃/𝐼 y denegación de hipotecas

La recta de regresión estimada (con 127 observaciones) predice la variable denegar en


función del regresor (por ejemplo, 𝑟𝑎𝑡𝑖𝑜𝑃/𝐼= 0,3 ⇒ 𝑑𝑒𝑛𝑒𝑔𝑎𝑟 = 0,2)

¿Cuál es la interpretación adecuada de este resultado?

En realidad, 𝑑𝑒𝑛𝑒𝑔𝑎𝑟 está estimando la esperanza condicional de la variable


dependiente dado el regresor, es decir 𝐸(𝑑𝑒𝑛𝑒𝑔𝑎𝑟|𝑟𝑎𝑡𝑖𝑜𝑃/𝐼)

Dado que 𝑑𝑒𝑛𝑒𝑔𝑎𝑟 toma dos valores (0 𝑦 1)

𝐸(𝑑𝑒𝑛𝑒𝑔𝑎𝑟|𝑟𝑎𝑡𝑖𝑜𝑃/𝐼) = 0 × 𝑃𝑟(𝑑𝑒𝑛𝑒𝑔𝑎𝑟 = 0|𝑟𝑎𝑡𝑖𝑜𝑃/𝐼)+1 × 𝑃𝑟(𝑑𝑒𝑛𝑒𝑔𝑎𝑟 = 1|𝑟𝑎𝑡𝑖𝑜𝑃/𝐼)


=𝑃𝑟(𝑑𝑒𝑛𝑒𝑔𝑎𝑟 = 1|𝑟𝑎𝑡𝑖𝑜𝑃/𝐼) 6
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – VARIABLES
DEPENDIENTES BINARIAS Y MODELO DE PROBABILIDAD LINEAL

Es decir, el valor estimado de 𝑃𝑟(𝑑𝑒𝑛𝑒𝑔𝑎𝑟 = 1|𝑟𝑎𝑡𝑖𝑜𝑃/𝐼=0,3) es 0,2

Cuando 𝑟𝑎𝑡𝑖𝑜𝑃/𝐼=0,3 la probabilidad estimada de denegación de la hipoteca es 0,2


(un 20 %)

Por esta razón, el modelo de regresión múltiple aplicado a una variable dependiente
binaria se denomina modelo de probabilidad lineal

Se modeliza la probabilidad de que la variable dependiente sea igual a 1, dados los


regresores (en nuestro caso, la probabilidad de denegación del préstamo)

7
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – VARIABLES
DEPENDIENTES BINARIAS Y MODELO DE PROBABILIDAD LINEAL

Interpretación de 𝜷𝟏 : efecto ceteris paribus en la probabilidad de que 𝑌 = 1 derivado


de una variación unitaria de 𝑋1
8
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – VARIABLES
DEPENDIENTES BINARIAS Y MODELO DE PROBABILIDAD LINEAL
Las herramientas de estimación y contrastes de hipótesis conocidas son aplicables al
modelo de probabilidad lineal

Los coeficientes pueden estimarse por MCO

Pueden construirse intervalos de confianza de la forma habitual

Importante: los errores del modelo de probabilidad lineal son siempre


heterocedásticos (lo veremos en un ejercicio), por lo que esencial usar errores
estándar heterocedástico-robustos

2
Como veremos, el 𝑅 no es un estadístico particularmente útil en este modelo
9
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – VARIABLES
DEPENDIENTES BINARIAS Y MODELO DE PROBABILIDAD LINEAL

Aplicación a los datos HMDA de Boston

Subconjunto de una base de datos recopilada por investigadores del Banco de la Reserva
Federal de Boston, bajo el amparo de la Ley de Divulgación de Hipotecas (HMDA)

Solicitudes de hipotecas en Boston en 1990 (2.380 observaciones)

Modelo estimado

Coeficiente positivo y significativo al 1% (𝑡 = 6,13)


10
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – VARIABLES
DEPENDIENTES BINARIAS Y MODELO DE PROBABILIDAD LINEAL
Si la variable 𝑟𝑎𝑡𝑖𝑜𝑃/𝐼 aumenta en 0,1 unidades, la probabilidad de denegación
estimada aumenta en 0,604 × 0,1 = 0,0604 ⇒ 6%

Estimación de las probabilidades de denegación: 𝑟𝑎𝑡𝑖𝑜𝑃/𝐼= 0,3 ⇒ 𝑑𝑒𝑛𝑒𝑔𝑎𝑟 = 0,101)


⇒ probabilidad estimada de 10,1% de que su solicitud sea denegada (diferente a la
cifra anterior porque ahora usamos más observaciones en la estimación)

Efecto estimado de la etnia, manteniendo constante 𝑟𝑎𝑡𝑖𝑜𝑃/𝐼

Incorporando una dummy de raza negra, modelo estimado

11
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – VARIABLES
DEPENDIENTES BINARIAS Y MODELO DE PROBABILIDAD LINEAL

Manteniendo constante la variable 𝑟𝑎𝑡𝑖𝑜𝑃/𝐼, una persona afroamericana tiene una


probabilidad 17,7% mayor de obtener una denegación de la hipoteca que una
persona blanca

Coeficiente significativo al 1% (𝑡 = 7,11)

¿Existe discriminación racial? Quizás, pero todavía hay factores que se deberían
tener en cuenta: ingresos potenciales del individuo, historial crediticio,…

Debemos posponer las conclusiones definitivas sobre la discriminación racial en la


concesión de préstamos hipotecarios a un análisis más completo y profundo
12
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – VARIABLES
DEPENDIENTES BINARIAS Y MODELO DE PROBABILIDAD LINEAL
Deficiencias del modelo de probabilidad lineal

La linealidad hace que el modelo sea muy fácil de usar, pero es su principal defecto

Las probabilidades deben estar entre 0 y 1, así que 𝑃𝑟(𝑌 = 1|𝑋1 , … , 𝑋𝑘 ) no puede ser
lineal

Si 𝑟𝑎𝑡𝑖𝑜𝑃/𝐼 cercano a 1, un aumento adicional probablemente efecto muy pequeño


en la probabilidad de denegación

Introduciremos modelos no lineales diseñados específicamente para las variables


dependientes binarias
13
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – MODELOS PROBIT Y
LOGIT

Modelos de regresión no lineal específicamente diseñados para variables


dependientes binarias

Regresión probit con un único regresor

Modelo
𝑃𝑟(𝑌 = 1|X)=Φ(𝛽0 + 𝛽1 𝑋)

donde Φ es la función de distribución acumulada de la 𝑁(0,1)

En el ejemplo anterior, suponiendo 𝛽0 = −2, 𝛽1 = 3, la probabilidad de denegación


si 𝑟𝑎𝑡𝑖𝑜𝑃/𝐼 = 0,4 sería Φ −0,8 = 0,212 ⇒ 21,2%
14
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – MODELOS PROBIT Y
LOGIT
Interpretación de 𝜷𝟏 : efecto ceteris paribus en el z-valor que determina la probabilidad
de que 𝑌 = 1 derivado de una variación unitaria de 𝑋

Si 𝛽1 > 0 aumento en 𝑋 aumenta el z-valor, lo que aumenta la probabilidad de que 𝑌 = 1

Si 𝛽1 < 0 aumento en 𝑋 disminuye el z-valor, lo que disminuye la probabilidad de que


𝑌=1

El efecto de 𝑋 sobre el z-valor es lineal, pero el efecto sobre la probabilidad no lineal

Interpretación más adecuada de los coeficientes estimados: efecto de un incremento de


𝑋 sobre la probabilidad estimada
15
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – MODELOS PROBIT Y
LOGIT

Función estimada del modelo


probit con 127 observaciones

Interpretación:

𝑋 = 0,2 ⇒ 𝑃𝑟 𝑌 =1 𝑋 = 0,021
𝑋 = 0,3 ⇒ 𝑃𝑟 𝑌 =1 𝑋 = 0,161
𝑋 = 0,4 ⇒ 𝑃𝑟 𝑌 =1 𝑋 = 0,519
𝑋 = 0,6 ⇒ 𝑃𝑟 𝑌 =1 𝑋 = 0,983

16
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – MODELOS PROBIT Y
LOGIT
Regresión probit con regresores múltiples

Modelo sujeto a posible sesgo de variable omitida, por lo que se suelen incluir
regresores adicionales

Modelo para dos regresores

𝑃𝑟(𝑌 = 1|𝑋1 ,𝑋2 )=Φ(𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 )

Efecto de una variación en 𝑋1 : cálculo del antes y después

Δ𝑃𝑟(𝑌 = 1|𝑋1 ,𝑋2 )=Φ 𝛽0 + 𝛽1 𝑋1 + Δ𝑋1 + 𝛽2 𝑋2 − Φ(𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 )


17
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – MODELOS PROBIT Y
LOGIT

18
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – MODELOS PROBIT Y
LOGIT
Aplicación a los datos HMDA
Usando las 2.380 observaciones

Proporción de pagos sobre ingresos relacionada positivamente con la probabilidad


de denegación y coeficiente significativo al 1% (𝑡 = 6,32)

Cambio en la probabilidad estimada cuando el regresor cambia de 0,3 a 0,4

Φ −2,19 + 2,97 × 0,4 − Φ −2,19 + 2,97 × 0,3 = 0,062

Aumento de la probabilidad estimada de 6,2% (de 9,7% a 15,9%) 19


SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – MODELOS PROBIT Y
LOGIT
Como la función de regresión es no lineal, el efecto de un cambio en 𝑋 depende del
valor inicial de 𝑋

Cambio de probabilidad estimado si 𝑋 varía de 0,4 a 0,5: 8%

Efecto de la etnia

Solicitante afroamericano más probabilidad estimada de denegación (manteniendo


constante 𝑟𝑎𝑡𝑖𝑜𝑃/𝐼) y coeficiente significativo al 1% (𝑡 = 8,55)

Para un 𝑟𝑎𝑡𝑖𝑜𝑃/𝐼= 0,3, la probabilidad de denegación estimada es 15,8% mayor para


un solicitante de raza negra 20
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – MODELOS PROBIT Y
LOGIT

Estimación de los coeficientes probit

Los coeficientes se estiman por el método de máxima verosimilitud

En general, los estimadores son eficientes (varianza mínima), consistentes y se


distribuyen normalmente en muestras grandes

Los estadísticos de contraste e intervalos de confianza se construyen de la forma


habitual

Discutiremos el método de máxima verosimilitud aplicado a este modelo en la


Sección 3 21
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – MODELOS PROBIT Y
LOGIT

Regresión logit
Similar a la regresión probit, pero sustituyendo Φ por la función de
distribución acumulada logística estándar

22
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – MODELOS PROBIT Y
LOGIT

Modelo muy similar al


probit

Misma interpretación

Estimación por máxima


verosimilitud

Motivación histórica de
este modelo: función de
distribución logística más
fácil de calcular que Φ
23
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – MODELOS PROBIT Y
LOGIT

Aplicación a los datos HMDA

Usando las 2.380 observaciones

Coeficiente de la variable negro positivo y estadísticamente significativo al 1% (𝑡 =


8,47)

Para un 𝑟𝑎𝑡𝑖𝑜𝑃/𝐼= 0,3, la probabilidad de denegación estimada es 14,8% mayor para


un solicitante de raza negra
24
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – MODELOS PROBIT Y
LOGIT
Comparativa de los modelos de probabilidad lineal, probit y logit

Los tres modelos son aproximaciones a 𝐸 𝑌 𝑋 = 𝑃𝑟 𝑌 = 1 𝑋

Modelo de probabilidad lineal más fácil de usar e interpretar, pero no capta la naturaleza
no lineal de la verdadera función de regresión poblacional

Los modelos probit y logit captan la no linealidad y suelen ofrecer resultados similares

Para conjuntos de datos con pocos valores extremos de los regresores, el modelo de
probabilidad lineal puede proporcionar una aproximación adecuada

Por ejemplo, para este modelo, la probabilidad de denegación estimada es 17,7% mayor
para un solicitante de raza negra (manteniendo constante 𝑟𝑎𝑡𝑖𝑜𝑃/𝐼): cualitativamente
similar a los resultados del probit o logit
25
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – INFERENCIA EN LOS
MODELOS PROBIT Y LOGIT

Los modelos no lineales estudiados en la Sesión X del curso de Econometría I están


basados en funciones no lineales de los regresores, pero son funciones lineales de los
parámetros ⇒ modelos estimables por MCO

Por el contrario, las funciones de regresión de los modelos probit y logit son no
lineales en los parámetros ⇒ modelos no estimables por MCO

Estudiaremos dos métodos de estimación, aunque el dominante es el de máxima


verosimilitud

26
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – INFERENCIA EN LOS
MODELOS PROBIT Y LOGIT
Estimación por mínimos cuadrados no lineales
Método general de estimación utilizado cuando los parámetros entran en la función de
regresión de forma no lineal

Como en MCO, se eligen valores que minimizan la suma de errores de predicción al


cuadrado

Sabemos que

E(𝑌|𝑋1 , … , 𝑋𝑘 ) = 𝑃𝑟(𝑌 = 1|𝑋1 , … , 𝑋𝑘 )=Φ(𝛽0 + 𝛽1 𝑋1 + ⋯ + 𝛽𝑘 𝑋𝑘 )

La estimación por mínimos cuadrados no lineales ajusta esta esperanza condicional a la


variable dependiente
27
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – INFERENCIA EN LOS
MODELOS PROBIT Y LOGIT
Específicamente, el estimador por mínimos cuadrados no lineales son los 𝑏0 , 𝑏1 , … , 𝑏𝑘
que minimizan
𝑛
2
𝑌𝑖 − Φ(𝑏0 + 𝑏1 𝑋1𝑖 + ⋯ + 𝑏𝑘 𝑋𝑘𝑖 )
𝑖=1

Propiedades
 Consistente
 Normalmente distribuido en muestras grandes
 Existen estimadores más eficientes, por lo que rara vez utilizado en la
práctica
 Fácilmente extendible al modelo logit
28
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – INFERENCIA EN LOS
MODELOS PROBIT Y LOGIT
Estimación máximo verosímil

La función de verosimilitud es la distribución conjunta de la muestra, considerada


como una función de coeficientes desconocidos

El estimador de máxima verosimilitud (EMV) son los valores de los coeficientes


que maximizan la función de verosimilitud

Esencialmente, EMV elige los valores de los coeficientes que maximizan la


probabilidad de haber obtenido los datos que realmente se observan

Los EMV son los valores de los coeficientes que “más probablemente” hayan
generado los datos 29
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – INFERENCIA EN LOS
MODELOS PROBIT Y LOGIT
Asumiendo que las variables son i.i.d., la función de probabilidad conjunta de
𝑌1 , 𝑌2 , … , 𝑌𝑘 dados los regresores es

donde 𝑝𝑖 = Φ 𝛽0 + 𝛽1 𝑋1𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 , teniendo en cuenta que


𝑦𝑖
𝑃𝑟(𝑌𝑖 = 𝑦𝑖 |𝑋1𝑖 , … , 𝑋𝑘𝑖 )=𝑝𝑖 (1 − 𝑝𝑖 )1−𝑦𝑖 , para 𝑦𝑖 = 0,1

La función de verosimilitud (𝐿 𝑏0 , 𝑏1 , … , 𝑏𝑘 ) es la probabilidad conjunta evaluada en


la muestra 𝑌1 , 𝑌2 , … , 𝑌𝑘 e interpretada como función de coeficientes desconocidos
30
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – INFERENCIA EN LOS
MODELOS PROBIT Y LOGIT
Es habitual maximizar el logaritmo de la función de verosimilitud

𝑙𝑜𝑔𝐿 𝑏0 , 𝑏1 , … , 𝑏𝑘
𝑛
= 𝑌𝑖 𝑙𝑜𝑔 Φ(𝑏0 + 𝑏1 𝑋1𝑖 + ⋯ + 𝑏𝑘 𝑋𝑘𝑖 )
𝑖=1
𝑛
+ (1 − 𝑌𝑖 )𝑙𝑜𝑔 1 − Φ(𝑏0 + 𝑏1 𝑋1𝑖 + ⋯ + 𝑏𝑘 𝑋𝑘𝑖 )
𝑖=1

EMV: los 𝑏0 , 𝑏1 , … , 𝑏𝑘 que maximizan 𝑙𝑜𝑔𝐿 𝑏0 , 𝑏1 , … , 𝑏𝑘

EMV para el modelo logit: misma expresión reemplazando Φ por la función de


distribución acumulada logística estándar
31
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – INFERENCIA EN LOS
MODELOS PROBIT Y LOGIT

Propiedades
 Consistente
 Normalmente distribuido en muestras grandes
 Eficiente (mínima varianza)
 Está implementado en el software econométrico habitual, así que es muy
fácil de utilizar en la práctica

Contrastes de hipótesis e intervalos de confianza

EMV se distribuye asintóticamente como una normal, por lo que el procedimiento es


idéntico al empleado hasta ahora

32
SESIÓN VIII - MODELOS DE VARIABLE DEPENDIENTE LIMITADA I – INFERENCIA EN LOS
MODELOS PROBIT Y LOGIT
Medidas de ajuste
Como mencionamos anteriormente, el 𝑅 2 es una medida de ajuste deficiente en el
marco de variable dependiente binaria

Medidas de ajuste para modelos con variable dependiente binaria


 Proporción correctamente estimada: si 𝑌𝑖 = 1 y la probabilidad estimada
>0,5, o si 𝑌𝑖 = 0 y la probabilidad estimada <0,5, “ 𝑌𝑖 correctamente
estimada”. Se calcula la proporción de las 𝑌𝑖 , 𝑖 = 1, … , 𝑛, correctamente
estimadas⇒ fácil de entender pero no refleja la calidad de la predicción

 Pseudo-𝑹𝟐 : compara el valor de la verosimilitud del modelo estimado con el


valor de la verosimilitud cuando no se incluyen regresores
33

También podría gustarte