Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4
Variables de respuesta binaria
Supongamos que queremos predecir si una deuda
resultará finalmente impagada. Solo tenemos 2 categorías
o clases, que resulte impagada o que sea saldada.
Podemos codificar la variable de respuesta, y, mediante
una variable ficticia
1 impago
y=
0 en caso contrario
Puesto que y es una variable binaria sabemos que su
distribución es una Bernoulli o dicotómica. Su
esperanza viene dada por
E ( y) =
1× Pr( y =
1) + 0 × Pr( y =
0) =
Pr( y =
1)
Que se conoce como la “probabilidad de éxito”.
5
Modelo Lineal de Probabilidad
¿Cuáles son la implicaciones de estimar y = β0 + β1 x + u ?
Sabemos que E ( y | x) = β0 + β1 x , pero al mismo tiempo,
dado que y es una Bernoulli, E ( y= | x) Pr(
= y 1| x) .
Por lo tanto un modelo de regresión lineal aplicado a una
variable dicotómica supone implícitamente un modelo
lineal para la “probabilidad de éxito”:
Pr( y = 1| x) = β0 + β1 x
De forma que podríamos predecir y = 1 cuando yˆ > 0.5 .
Este modelo se conoce como Modelo Lineal de
Probabilidad (LPM). Es fácil demostrar que genera los
mismos resultados si cambiamos la codificación.
¿Es razonable suponer un modelo lineal para las
probabilidades? ¡No!
6
Modelo Lineal de Probabilidad
y
ŷ = βˆ 0 + βˆ 1 x
0
x
10
Regresión Logística
La regresión logística o modelo logit modeliza la
probabilidad de éxito a partir de la función logística:
eβ0 +β1x 1
Pr(
= y 1|=x) =
1+ e β0 +β1 x
1 + e − (β0 +β1x )
Puesto que las probabilidades suman 1
eβ0 +β1x 1
Pr( y =
0 | x) =
1 − Pr( y =
1| x) =
1− β0 +β1 x
= β0 +β1x
1+ e 1+ e
Se trata pues de un modelo altamente no lineal en los
parámetros, cuyos coeficientes no tienen un significado
claro y que podemos extender a un número arbitrario
de predictores:
β +β x +...+β p x p
e 0 11
Pr(
= y 1|=x) β +β x +...+β p x p
1+ e 0 1 1 11
Regresión Logística
Manipulación algebraica sencilla permite escribir
p( x)
= eβ0 +β1x
1 − p( x)
donde p= ( x) Pr(
= y 1| x) .
Este ratio se conoce como “odds ratio”, y no es más que
la ratio entre la probabilidad de éxito, p(x), y la
probabilidad de fracaso, 1 − p(x).
Puede tomar cualquier valor entre 0 e ∞.Valores
cercanos a 0 e ∞ indican valores muy bajos o muy altos,
respectivamente, de la “probabilidad de éxito”.
Es usado con frecuencia debido a la facilidad en su
interpretación. Por ejemplo, un valor de 2 significa que la
probabilidad de éxito es el doble que la de fracaso.
12
Regresión Logística
Naturalmente, conocido el “odds” de y es posible
determinar la probabilidad de éxito
odds ( y ) eβ0 +β1x
Pr(
= y 1|=
x) =
1 + odds ( y ) 1 + eβ0 +β1x
Tomando logaritmos en el “odds” obtenemos
p( x)
log = β0 + β1 x
1 − p( x)
La parte izquierda se conoce como log-odds o logit.
La regresión logística tiene un logit lineal en los
predictores, y no tiene una interpretación sencilla.
El logit es un número en la recta real, (−∞, +∞) .
13
Regresión Logística: Estimación
A pesar de que la regresión logística tiene un logit lineal
en los predictores no es posible estimar este modelo
mediante mínimos cuadrados ordinarios.
¡Las probabilidades de éxito no son observables! En
nuestra muestra solo observamos valores 0 o 1 de la
variable de respuesta, y.
Sin embargo, dado que conocemos la distribución de y,
Bernoulli, podemos hacer uso de un método general de
estimación en estadística conocido como estimación
máximo verosímil, que tiene buenas propiedades
estadísticas en grandes muestras.
En concreto, proporciona estimadores consistentes,
asintóticamente normales y asintóticamente
eficientes bajo condiciones bastante generales. 14
Estimación Máximo Verosímil
Intuitivamente el método de estimación máximo
verosímil elige valores de los parámetros que maximizan
la probabilidad de observar la muestra disponible.
En nuestro caso esto significa que elegimos valores de
los β´s tal que la “probabilidad de éxito” predicha por
nuestro modelo, pˆ ( x) , se corresponda lo más posible con
lo observado en la muestra. Es decir, sustituidos los
estimadores en el modelo para p(x) producirá valores
muy altos para las observaciones de y igual a 1 y valores
muy bajos para las observaciones de y igual a 0.
En el modelo de regresión lineal, si asumimos normalidad
de la y entonces los estimadores de OLS coinciden con
los estimadores de máxima verosimilitud (MLE).
15
Estimación Máximo Verosímil
Esta intuición puede ser formalizada mediante la función
de verosimilitud de la muestra, que en el caso de una
Bernoulli es
L(β1 , β2 )
=
=
∏ p( x ) ∏ (1 − p( x ))
i
i: yi 1 = j: y j 0
j
16
Estimación Máximo Verosímil
Las condiciones de primer orden del problema de
optimización anterior dan lugar a un sistema de
ecuaciones no lineal en las β´s, que se resuelve
iterativamente por un algoritmo similar al de mínimos
cuadrados no lineales.
Bajo condiciones bastante generales MLE proporciona
estimadores consistentes, asintóticamente
normales y asintóticamente eficientes. Aunque no
suelen ser insesgados en muestras finitas.
Ello nos permite hacer contraste de hipótesis por los
procedimientos habituales, en concreto la ratio-t tendrá
una distribución asintóticamente normal, ratio-z.
El estadístico-F no está disponible ahora, pero otros
procedimientos asintóticamente equivalentes, como por
ejemplo el contraste de razón de verosimilitud,
podría ser empleado. 17
Regresión Logística
La regresión logística permite acomodar predictores
cualitativos á través de variables ficticias, al igual que
predictores no lineales y efectos interacción.
Los parámetros de la regresión logística carecen de
significado claro, aunque siempre es posible derivar
efectos marginales de los predictores, que naturalmente
deben ser evaluados en un valor concreto del predictor.
El efecto marginal sobre la probabilidad de un cambio
marginal en un predictor cuantitativo, x, viene dado por
dp ( x) e − (β0 +β1x )
= β1
dx (1 + e )
− ( β0 +β1 x ) 2
28