Está en la página 1de 24

TEMA V

ANÁLISIS DE
REGRESIÓN LOGÍSTICA
LECTURA OBLIGATORIA

Regresión Logística. En Rial, A. y Varela, J. (2008). Estadística


Práctica para la Investigación en Ciencias de la Salud. Coruña:
Netbiblo. Páginas 223-246.

Modelos Multivariantes 2
INTRODUCCIÓN
Predecir la probabilidad de que un evento ocurra
Gran utilidad en medicina y Ps. Clínica: identificar factores de
riesgo y factores de protección, estimar cuánto aumenta la
probabilidad de sufrir una patología si se dan una serie de
característica o condiciones, …
Logística Binaria y Logística Multinomial

¿Por qué recurrir a la RL?


 Posibilidad de incorporar VI categóricas

Modelos Multivariantes 3
EJEMPLOS
ESTIMAR LA PROBABILIDAD DE QUE UN INDIVIDUO SUFRA UN INFARTO A
PARTIR DE:
 Nivel de colesterol
 Edad
 Presión arterial
 Sexo
 Antecedentes familiares
ESTIMAR LA PROBABILIDAD DE QUE UN DETERMINADO SUJETO SUFRA
ESQUIZOFRENIA, EN FUNCIÓN DE UNA SERIE DE VIs
PREDECIR EL ÉXITO O FRACASO DE UNA TERAPIA
CONOCER LAS VARIABLES QUE EXPLICAN LA ABSTENCIÓN ELECTORAL,
el absentismo laboral, el burnout, etc.
Modelos Multivariantes 4
FILOSOFÍA
¿Qué hace la RL?
 A partir de las puntuaciones de los sujetos en diferentes VIs, se
estiman probabilidades para poder hacer pronósticos.

 Se estima la probabilidad (P) de que la VD presente uno de los dos


valores posibles ( 0= No se rehabilita; 1= Se rehabilita) en función
de cómo se comporta en determinadas VI.

 Si la probabilidad estimada es menor de 0.5 la predicción será “No


se rehabilita”.

Modelos Multivariantes 5
TÉRMINOS QUE DEBES DOMINAR
 Se compara la probabilidad de ocurrencia de un evento con la probabilidad de
que no ocurra. Al cociente entre ambos se le denomina ODD.
P (Y 1)
1 P (Y 1)
 Se trata de identificar aquellas variables que implican cambios en ese ratio de
probabilidad, aumentándolo o disminuyéndolo de forma significativa.
 La ODD RATIO sería la razón o cociente entre dos ODDs. Permite comparar
el pronóstico realizado bajo dos situaciones o condiciones distintas (Ej: La
proporción de éxito/fracaso escolar es 5 veces menor en familias
desectructuradas que en familias estructuradas).
 Lo que la regresión logística pretende es identificar aquellas VI que hacen variar
esa ODD.
Modelos Multivariantes 6
TÉRMINOS QUE DEBES DOMINAR
 Lo que se estima en la Regresión Logística para cada sujeto no es un valor de
Y’, sino un LOGIT, es decir, el logaritmo de la probabilidad de que le ocurra
un evento, frente a la probabilidad de que no le ocurra.

 Se puede definir también como el Logaritmo de la ODD de cada sujeto, esto


es:

P (Y 1)
Ln
1 P (Y 1)
 El LOGIT es, precisamente, la VD en la Regresión Logística.

Modelos Multivariantes 7
EL MODELO
 Dado que debemos llegar a un cociente de Probabilidades, el modelo
debe asumir una expresión matemática particular, concretamente
logarítmica:

P (Y 1)
Ln 1 X1 2X2 ... nXn
1 P (Y 1)

 La regresión logística utiliza una Función de Enlace Logarítmica, para pasar de los
valores cualesquiera en las VI a predicciones en términos de un cociente
probabilidades y, de ahí a una Probabilidad (entre 0 y 1) y , finalmente a un pronóstico
concreto.
 El modelo de regresión logística asume que existe una relación lineal entre los
predictores y el logaritmo de la probabilidad de ocurrencia de un evento, frente a la no
ocurrencia de dicho evento (LOGIT).
Modelos Multivariantes 8
SUPUESTOS

Menos exigente que el A.D. No es necesario que las VI


sean métricas, normales, y ni siquiera cuantitativas.

1. El modelo debe estar especificado correctamente, con


las VI relevantes
2. La relación entre cada VI y el Logaritmo de las ODD debe
ser lineal
3. Que no exista multicolinealidad

Modelos Multivariantes 9
ESTIMACIÓN DEL MODELO
¿Cómo se estima el modelo en la RL?
 En la Regresión Lineal se hacía siguiendo el criterio de Mínimos
Cuadrados, mientras que en la RL se hace siguiendo el de Máxima
Verosimilitud.
 Se generan Coeficientes Logísticos para las distintas VI.
 Dichos coeficientes de la ecuación ( 1, 2, 3,...) se utilizan para hacer las
estimaciones de probabilidad de que ocurra el evento objeto de estudio.

Al igual que en la Regresión Lineal disonemos del método


directo (ENTER) y el de Pasos (STEPWISE: Adelante Wald).

Modelos Multivariantes 10
EVALUACIÓN DEL AJUSTE
Un primer indicador es el valor de –2LL, que vendría a ser como la parte no
explicada por el modelo. Excesivamente rudimentario: no está acotado. Cuanto
más próximo a cero mejor será el ajuste.

SPSS facilita también un contraste 2 para saber si la capacidad explicativa


del modelo puede considerarse o no estadísticamente significativa.
También disponemos de un % de sujetos correctamente clasificados
(debemos de ganarle al menos ¼ al azar: al menos 62.5%).

También tenemos dos R2:


– R2 de Cox y Snell (de 0 a 1, pero no suele alcanzar el 1 aunque el modelo sea
perfecto)
– R2 de Nagelkerke (versión corregida del anterior)
Modelos Multivariantes 11
INTERPRETACIÓN
¿Qué VI son buenos predictores?
En la Regresión Lineal se recurría a un contraste “t” para saber si cada uno
de los predictores eran o no significativamente distintos de cero. En la RL se
recurre al Estadístico de Wald.
 Un coeficiente “ ” positivo implica un aumento en la probabilidad de
ocurrencia del evento y negativo una disminución. Además Un “ ”
negativo se corresponde con un ODD RATIO menor de 1 (una
“desventaja”). El SPSS le llama Exp(b)
 Justamente el valor de Exp(b) indica cuánto mejor o peor es el
pronóstico en función de los valores que asume la VI. La VENTAJA o
desventaja de una poseer una determinada característica, condición o
factor.
 Nos permite identificar: FACTORES DE RIESGO y FACTORES DE
PROTECCIÓN Modelos Multivariantes 12
PARALELISMOS CON LA RLM

Contrastes globales:
 “F” Anova
 2

Contrastes particulares
 “t” Student
 Wald

Método de estimación
 Mínimos cuadrados
 Máxima verosimilitud
Modelos Multivariantes 13
EJEMPLO
 VD dicotómica: REHABILITACIÓN
70 pacientes víctimas
de accidentes de  0 (NO SE REHABILITA)
tráfico y con daño  1 (SE REHABILITA)
cerebral (TCE)
• 3 Variables explicativas cualitativas (dicotómicas)
APOYO:
Se desea saber si  0 (SIN APOYO FAMILIAR)
variables como el
 1 (CON APOYO FAMILIAR)
Tipo de Lesión, la
Atención, el Apoyo LESIÓN:
Familiar, o laEdad del  0 (DIFUSA)
sujeto influyen en la
 1 (FOCALIZADA)
rehabilitación del
paciente ATENCIÓN
 0 (NO INMEDIATA)
 1 (INMEDIATA)
• 1 Variable explicativa cuantitativa: EDAD

Modelos Multivariantes 14
EJEMPLO
Sea 0= No se rehabilita y 1= Se rehabilita. A partir de los datos de
una tabla de contingencia podemos calcular 4 probabilidades:
 La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no
se rehabilite (ODD para la rehabilitación)
 La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no
se rehabilite, si es que se trata de una lesión focalizada (ODD para la
rehabilitación con lesión focalizada)
 La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no
se rehabilite, si es que se trata de una lesión difusa (ODD para la rehabilitación
con lesión difusa)
 El cociente entre las dos ODD, la obtenida para una lesión focalizada y la
obtenida para una lesión difusa (ODD RATIO).
Modelos Multivariantes 15
EJEMPLO
Tabla de contingencia REHABILITACAIÓN * LESIÓN

LESIÓN
DIFUSA FOCALIZADA T otal
REHABILIT ACAIÓN NO SE REHABILITA Recuento 19 8 27
% de LESIÓN 57,6% 21,6% 38,6%
SE REHABILITA Recuento 14 29 43
% de LESIÓN 42,4% 78,4% 61,4%
T otal Recuento 33 37 70
% de LESIÓN 100,0% 100,0% 100,0%

 La probabilidad de que el sujeto se rehabilite frente a la probabilidad de


que no se rehabilite (ODD para la rehabilitación). P/1-P
43/27=1.59, o lo que es lo mismo 43/70
27/70
Es decir, por cada individuo no rehabilitado encontramos 1.59 rehabilitados

Modelos Multivariantes 16
EJEMPLO
Tabla de contingencia REHABILITACAIÓN * LESIÓN

LESIÓN
DIFUSA FOCALIZADA T otal
REHABILIT ACAIÓN NO SE REHABILITA Recuento 19 8 27
% de LESIÓN 57,6% 21,6% 38,6%
SE REHABILITA Recuento 14 29 43
% de LESIÓN 42,4% 78,4% 61,4%
T otal Recuento 33 37 70
% de LESIÓN 100,0% 100,0% 100,0%

 La probabilidad de que el sujeto se rehabilite frente a la probabilidad


de que no se rehabilite, si es que se trata de una lesión FOCALIZADA
(ODD para la rehabilitación con lesión focalizada) 29/8= 3.62

PRIMER DATO: como la ODD focalizada es mayor que la ODD global


(ese nivel de la variable hace que aumente la probabilidad de
rehabilitación), se trataría de un FACTOR DE PROTECCIÓN
Modelos Multivariantes 17
EJEMPLO
Tabla de contingencia REHABILITACAIÓN * LESIÓN

LESIÓN
DIFUSA FOCALIZADA T otal
REHABILIT ACAIÓN NO SE REHABILITA Recuento 19 8 27
% de LESIÓN 57,6% 21,6% 38,6%
SE REHABILITA Recuento 14 29 43
% de LESIÓN 42,4% 78,4% 61,4%
T otal Recuento 33 37 70
% de LESIÓN 100,0% 100,0% 100,0%

 La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que


no se rehabilite, si es que se trata de una lesión difusa (ODD para la
rehabilitación con lesión DIFUSA) 14/19= 0.73

SEGUNDO DATO: si la ODD difusa es menor que la global, ese nivel de la


variable hace que disminuya la probabilidad de rehabilitación y, por tanto, se
trataría de un FACTOR DE RIESGO
Modelos Multivariantes 18
EJEMPLO
 El cociente entre las ODDs obtenidas con LESIÓN FOCALIZADA Vs. DIFUSA
es 3.62/0.73=4.92; esto es,
La ODD RATIO par la variable tipo de lesión sería 4.92. La proporción de
rehabilitados es CASI 5 VECES MAYOR en el caso de una lesión focalizada
que de una difusa. Variables en la ecuación

B E.T . Wal d gl Sig. Exp(B)


Paso
a
LESIÓN 1,593 ,532 8,952 1 ,003 4,920
1 Constante -,305 ,352 ,752 1 ,386 ,737
a. Vari able(s) i ntroducida(s) en el paso 1: LESIÓN.
ODD
RATIO
TERCER DATO: si para una determinada característica la ODD RATIO>1, poseer dicha
característica supondría una ventaja de cara a la probabilidad de ocurrencia de un
evento, en este caso rehabilitarse. Si fuese similar a 1, se trataría de una variable
irrelevante en términos de pronóstico.
Modelos Multivariantes 19
Veamos el modelo completo
Variables en la ecuación

B E.T . Wal d gl Sig. Exp(B)


Paso
a
EDAD -,152 ,040 14,808 1 ,000 ,859
1 Constante 4,697 1,130 17,272 1 ,000 109,623
Paso
b
LESIÓN 1,770 ,665 7,086 1 ,008 5,872
2 EDAD -,154 ,041 13,736 1 ,000 ,858
Constante
3,950 1,177 11,258 1 ,001 51,915

a. Vari able(s) i ntroducida(s) en el paso 1: EDAD.


b. Vari able(s) i ntroducida(s) en el paso 2: LESIÓN.

Modelos Multivariantes 20
Si sustituimos los parámetros
Variables en la ecuación

B E.T . Wal d gl Sig. Exp(B)


Paso
a
EDAD -,152 ,040 14,808 1 ,000 ,859
1 Constante 4,697 1,130 17,272 1 ,000 109,623
Paso
b
LESIÓN 1,770 ,665 7,086 1 ,008 5,872
2 EDAD -,154 ,041 13,736 1 ,000 ,858
Constante
3,950 1,177 11,258 1 ,001 51,915

a. Vari able(s) i ntroducida(s) en el paso 1: EDAD.


b. Vari able(s) i ntroducida(s) en el paso 2: LESIÓN.

ln[ odd (Y 1)] 3.95 0.15( Edad ) 1.77 ( Lesión )

Para el Sujeto nº 1 (de 19 años y con lesión difusa) el logaritmo de la ODD de


rehabilitarse sería:
ln[ odd (Y 1)] 3.95 0.15(19) 1.77 (0) 1.1
Modelos Multivariantes 21
INTERPRETACIÓN DEL LOGIT
 Para pasar de un LOGIT (que es un logaritmo) a una razón de
probabilidades (la ODD entre rehabilitarse y no rehabilitarse), se recurre a
la INVERSA DEL LOGARITMO, en este caso:
Inv Log (1.1) =3
 INTERPRETACIÓN: para un sujeto con estas características la
probabilidad de rehabilitarse es 3 veces mayor que de no rehabilitarse.

 Pero, ¿cuál es concretamente la probabilidad que tiene de rehabilitarse?.


Habría que despejar la ecuación:
P 3(1 P ) 3 3P
P
ODD 3 3
1 P P 0.75
4
Modelos Multivariantes 22
¿Y si es una lesión FOCALIZADA?

 Repitamos el cálculo ahora para el caso de una lesión FOCALIZADA. El resto de


las condiciones son iguales:
ln[ odd (Y 1)] 3.95 0.15(19) 1.77(1) 2.87
Inv Log (2.87) =17.6

 INTERPRETACIÓN: En el caso de UNA LESIÓN FOCALIZADA por cada paciente


no rehabilitado tendríamos 17 rehabilitados. En el caso de LESIÓN DIFUSA por
cada paciente no rehabilitado tenemos 3 rehabilitados.

 Los ingleses apostarían: Si es difusa, 3 a 1 a que se rehabilita; si es focalizada


17 a 1. Existe una manera de cuantificar esa ventaja: la ODD RATIO
Modelos Multivariantes 23
INTERPRETACIÓN DEL EXP(B)
 Si dividimos la ODD para focalizada entre la ODD para difusa,
obtendremos la ventaja (o desventaja) de tener una lesión focalizada
a la hora de hacer un pronóstico de rehabilitación. Veamos:
ODD (focalizada) = 17.6 ODD (difusa) = 3
17.6 / 3= 5.87
que es exactamente el valor de EXP(B)
Variables en la ecuación

B E.T . Wal d gl Sig. Exp(B)


Paso
a
EDAD -,152 ,040 14,808 1 ,000 ,859
1 Constante 4,697 1,130 17,272 1 ,000 109,623
Paso
b
LESIÓN 1,770 ,665 7,086 1 ,008 5,872
2 EDAD -,154 ,041 13,736 1 ,000 ,858
Constante
3,950 1,177 11,258 1 ,001 51,915

a. Vari able(s) i ntroducida(s) en el paso 1: EDAD.


Modelos Multivariantes 24
b. Vari able(s) i ntroducida(s) en el paso 2: LESIÓN.

También podría gustarte