Está en la página 1de 26

El problema de separación en la regresión

logı́stica

Wilmar Sepulveda Herrera

Escuela de Estadı́stica
Universidad del Valle
Cali-Colombia

Diciembre 18 2020

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 1 / 26


Tabla de Contenido

1 Introducción

2 Regresión logı́stica

3 El problema de separación

4 Ejercicio de aplicación

5 Bibliografı́a

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 2 / 26


Introducción

Regresión logı́stica

Es uno de los modelos mas utilizados debido a la gran necesidad de


obtener algoritmos de clasificación binaria.
• Diagnostico clı́nico
• Spam en correos electrónicos
• Reconocimiento de imágenes
• Muchas mas

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 3 / 26


Introducción

Problemas de convergencia

Las EMV para la regresión logı́stica no se pueden obtener de forma


cerrada, por tanto es necesario algoritmos de optimización como el
Newton - Raphson, pero en ocasiones los algoritmos no convergen.
Según Albert & Anderson (1984) este problema tiene tres causas
principales.
• Separación completa
• Separación Cuasicompleta
Estas situaciones provocan estimaciones infinitas

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 4 / 26


Introducción

Problemas de convergencia

Algunos autores hablan de la separación como un problema y otros


afirman que realmente no deberı́a considerarse uno.
• Rindskopf (2002): mencionan que las estimaciones de
parámetros infinitos son deseables en regresión logı́stica, porque
significa que la predicción es perfecta (el presunto objetivo)
• Correa & Valencia (2011): dicen que esta afirmación carece de
sentido cuando las causas de la separación se debe a que hay un
error de diseño en el experimento

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 5 / 26


Introducción

Posibles soluciones

Algunas soluciones son:


• Heinze & Schemper (2002): es uno de los mas referenciados y
consiste en realizar una modificación a la función score de la
regresión logı́stica
• Regularización: Se pueden usar métodos como RIDGE o LASSO.

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 6 / 26


Regresión logı́stica

Definición

ηi = β0 + β1 xi1 + ... + βk xik = xi0 β: Predictor lineal


πi
ηi = xi0 β = log ( 1−π i
): Función de enlace.

exp(ηi ) exp(xi0 β)
πi = = (1)
1 + exp(ηi ) 1 + exp(xi0 β)

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 7 / 26


Regresión logı́stica

Estimación por máxima verosimilitud


(
0 Si no ocurre A
yi =
1 Si ocurre A

fi (yi ) = πiyi (1 − πi )1−yi


 
n n n
!
Y y 1−yi
X πi X
L(π|y1 , ..., yn ) = πi i (1 − πi ) = exp  yi log + log(1 − πi ) (2)
i=1 i=1
1 − πi i=1

n   n
X πi X
l(π|y1 , ..., yn ) = yi log + log(1 − πi ) (3)
i=1
1 − πi i=1
n
X n
X
l(β|y1 , ..., yn ) = yi log xi0 β − log(1 − exp xi0 β) (4)
i=1 i=1

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 8 / 26


Regresión logı́stica

Estimación por máxima verosimilitud

La función score es.


∂l(β)
U(βj ) = = 0, para j = 0, ..., k (5)
∂βj

n n
X (yi − πi )xij ∂πi X
U(βj ) = = (yi − πi )xij (6)
π i (1 − πi ) ∂ηi
i=1 i=1

Usando Newton Raphson estimamos iterativamente ası́


−1
β t+1 = β t + I (β (t) ) U(β t )


Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 9 / 26


El problema de separación

Tipos separación

Maximizar la función de log verosimilitud (4) será considerado


teniendo en cuenta posibles configuraciones de las n observaciones en
el espacio R p .
• Separación completa: Ocurre cuando existe un vector de
coeficientes β̂ tal que yi = 1 cuando xiT β > 0 y yi = 0 cuando
xiT β ≤ 0. En otras palabras, la separación completa ocurre
cuando una función lineal de X puede generar predicciones
perfectas de y .

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 10 / 26


El problema de separación

Tipos separación

• Separación cuasicompleta: Esto ocurre cuando existe algún


coeficiente vectorial β̂ tal que xiT β ≥ 0 cuando yi = 1, y
xiT β ≤ 0 cuando yi = 0, y la igualdad se mantiene por lo menos
en un caso en cada categorı́a de la variable de respuesta. En
otras palabras, la separación cuasicompleta ocurre cuando es
posible definir un plano que pasa por la región de separación con
éxitos a un lado o sobre este y fracasos al otro o sobre este, sin
presentarse convergencia de los estimadores de máxima
verosimilitud

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 11 / 26


El problema de separación

Tipos de separación

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 12 / 26


El problema de separación

Causas de la separación

Según Correa & Valencia (2011), este problema tiene dos principales.
• Error de diseño: asociado a una mala planeación del
experimento y desconocimiento del comportamiento de la
variable de respuesta
• Escasez de los datos: sea mas común, sobre todo cuando se
quiere modelar poblaciones con caracterı́sticas muy especificas

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 13 / 26


El problema de separación

Diagnostico

Se puede detectar con:


• No convergencia de los estimadores
• Matriz de confusión

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 14 / 26


El problema de separación

Soluciones al problema

Si se quiere corregir el problema de convergencia de los estimadores


existen muchas técnicas y caminos que se pueden seguir.
• Penalización de Firth:
1
U(βj )∗ ≡ U(βj )+ trace[I (β) {∂I (β)/∂βj }] = 0, para j = 0, ..., k
2
(7)
n
X
U(βj )∗ = {yi − πi + hii (1/2 − πi )}xij (8)
i=1
• Regularización: Métodos como Lasso y Ridge también
permiten lidiar con esta problemática.

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 15 / 26


Ejercicio de aplicación

Contexto del problema

A continuación se presentan datos sobre el comportamiento de


morosidad de los clientes de un banco, la variable de respuesta es
representada de la siguiente manera
(
0 Si el cliente no presenta mora en el mes de octubre
yi =
1 Si el cliente presenta mora en el mes de octubre

Se quiere construir un modelo que clasifique los clientes a futuro


basado en 2 covariables cuantitativas.
x1 : probabilidad de incumplimiento obtenida de otras fuentes.
x2 : Saldo promedio del cliente en sus productos.

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 16 / 26


Ejercicio de aplicación

Modelo a estimar

exp(β0 + β1 x1 + β2 x2 )
πi =
1 + exp(β0 + β1 x1 + β2 x2 )
Los resultados con la función glm de R son los siguientes.
Df Deviance Resid. Df Resid. Dev
NULL 78 76.79
x1 1 76.79 77 0.00
x2 1 0.00 76 0.00

Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit:


fitted probabilities numerically 0 or 1 occurred

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 17 / 26


Ejercicio de aplicación

estimación de parámetros

Estimate Std. Error z value Pr(>|z|)


(Intercept) -639.6329 176750.0036 -0.00 0.9971
x1 25.4392 6923.6498 0.00 0.9971
x2 25.4442 17615.1711 0.00 0.9988

La banda de decisión es:


−β1 −β0
x2 = x1 + = −0,99x1 + 25,15
β2 β2

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 18 / 26


Ejercicio de aplicación

Resultados del modelo


3.5

y=0
3.0

y=1
2.5
2.0
x2

1.5
1.0
0.5

0 10 20 30 40 50

x1

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 19 / 26


Ejercicio de aplicación

Aplicando Firth

usamos el paquete logistf

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 20 / 26


Ejercicio de aplicación

Aplicando Firth

usamos el paquete logistf

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 21 / 26


Ejercicio de aplicación

Resultados del modelo


3.5

y=0
3.0

y=1
2.5
2.0
x2

1.5
1.0
0.5

0 10 20 30 40 50

x1

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 22 / 26


Ejercicio de aplicación

Conclusiones

• La separación es un problema poco frecuente pero hay que tener


cuidado ya que se puede tener mucho sesgo en las estimaciones
al tener estimaciones que no convergen.
• La penalización es un método que permite corregir este
problema de convergencia (aspecto negativo), pero manteniendo
las clasificaciones perfectas del modelo (aspecto positivo)

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 23 / 26


Bibliografı́a

Bibliografı́a I

Albert, A. & Anderson, J. A. (1984), ‘On the existence of maximum


likelihood estimates in logistic regression models’, Biometrika
71(1), 1–10.
Allison, P. D. (2008), Convergence failures in logistic regression, in
‘SAS Global Forum’, Vol. 360, pp. 1–11.
Correa, J. C. & Valencia, M. (2011), ‘La separación en regresión
logı́stica, una solución y aplicación’, Revista Facultad Nacional de
Salud Pública 29(3), 281–288.
Firth, D. (1992), Bias reduction, the jeffreys prior and glim,
in ‘Advances in GLIM and Statistical Modelling’, Springer,
pp. 91–100.

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 24 / 26


Bibliografı́a

Bibliografı́a II

Heinze, G. & Schemper, M. (2002), ‘A solution to the problem


of separation in logistic regression’, Statistics in medicine
21(16), 2409–2419.
Mansournia, M. A., Geroldinger, A., Greenland, S. & Heinze, G.
(2018), ‘Separation in logistic regression: causes, consequences,
and control’, American journal of epidemiology 187(4), 864–870.
Montgomery, D. C., Peck, E. A. & Vining, G. G. (2012), Introduction
to linear regression analysis, Vol. 821, John Wiley & Sons.
R Core Team (2020), R: A Language and Environment for Statistical
Computing, R Foundation for Statistical Computing, Vienna,
Austria.
URL: https://www.R-project.org/

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 25 / 26


Bibliografı́a

Bibliografı́a III

Rindskopf, D. (2002), ‘Infinite parameter estimates in logistic


regression: Opportunities, not problems’, Journal of Educational
and Behavioral Statistics 27(2), 147–161.

Wilmar Sepulveda Herrera Modelos lineales generalizados Diciembre 18 2020 26 / 26

También podría gustarte