Está en la página 1de 47

REGRESION LOGISTICA

Prf. Wilver Rodríguez López.


INTRODUCCION

Uno de los objetivos de la


investigación en Epidemiología, es
evaluar la relación
(o asociación) entre una varible
respuesta y uno o mas factores.
INTRODUCCION
Ejemplos:
Relación entre accidente vascular encefálico
(respuesta) y consumo de alcohol (factor).

Relación entre cáncer pulmonar (respuesta)


Y hábitos de fumar (factor).

Etc.
INTRODUCCION

Usualmente la relación bajo estudio


esta afectada por otras variables
(potenciales variables de confusión),
que es necesario controlarlas, bién en
el diseño o en el análisis.
INTRODUCCION
Finalmente, el comportamiento de la relación
entre la respuesta y el factor podría no ser la
misma para cada posible valor de alguna varible
de confusión. Esta situación debe también
contemplarse en el análisis y este fenómeno se
denomina INTERACCION (en el lenguaje
estadístico) o variables modificadoras de efecto
( en el lenguaje epidemiológico )
INTRODUCCION
En resumen, en un estudio para evaluar la
asociación entre uno o mas factores y una
respuesta, existes 4 tipos de variables en el
proceso:
•Una respuesta.
•Uno o mas factores principales (exposición)
•Variables de confusión ( control ).
•Interacciones.
INTRODUCCION

Existen varias formas de analizar la relación entre


una respuesta y los factores principales:
•Análisis individual de la respuesta con cada
factor.
•Análisis individual de la respuesta con cada
factor pero ajustado por otras variables.
•Uso de modelos.
MODELO DE REGRESION
LOGISTICA
La regresión logística analiza la
influencia de varios factores sobre un
resultado, estimando la probabilidad de
la ocurrencia del evento. Lo hace
analizando la relación entre una o más
variables independientes y el log odds
de la variable independiente.
MODELO DE REGRESION
LOGISTICA
La regresión logística es útil para identificar
factores de riesgo y factores de prevención de
enfermedades, tanto en muestras prospectivas
como aquellas de tipo Caso- Control, tanto
MODELO DE REGRESION
LOGISTICA
Es más flexible: los predictores puede ser una
mezcla de variables continuas, discretas,
dicotomicas, ellos no necesitan ser de
distribución normal, linealmente relacionadas o
una varianza igual dentro de los grupos.
Corolario: si las variables independientes son
numéricas, tienen distribución normal, tienen una
varianza igual dentro de los grupos, el álisis
discriminante multinomial es más poderoso.
MODELO DE REGRESION LOGISTICA

Y = Variable dependiente
Usualmente binaria ( Enfermedad )
Y = 1 ENFERMO
Y = 0 NO ENFERMO

X = Variable independiente ( Exposición)


1 = PRESENTE, 0 = AUSENTE.
Puede haber mas de una exposición.
MODELO DE REGRESION LOGISTICA

C1, C2, ......Ch = VARIABLES CONTROL

La inclusión de las variables de control


permite evaluar confusión y/o interacción.
MODELO DE REGRESION LOGISTICA

El conjunto de variables de exposición, control, e


interacción, son las variables INDEPENDIENTES
del modelo de Regresión Logística y se simboliza
por:

X1 , X2 , .......Xk.
En general escribimos X = (X1 , X2 , .......Xk.)
FUNCION LOGISTICA

1 e -y
f(y) = ________ = _________
1 + e –y 1+ey

Logit [f(y)] = ln [ f(y) / 1 - f(y) ] = y


FUNCION LOGISTICA

Usualmente, en lugar de y tenemos un conjunto


de xi de tal forma que:

y =  + 1X1 + 2X2 +..........+ kXk

f(y) = P( y = 1 / X1 , X2 , .......Xk.) = P( Y/ X)
FUNCION LOGISTICA

e + 1X1 + 2X2 +..........+ kXk


P( Y/ X) = _______________________
1 + e + 1X1 + 2X2 +..........+ kXk

Logit P = ln ( P / 1 – P ) =  + 1X1 + 2X2 +..........+ kXk


FUNCION LOGISTICA

P( Y/ X) = probabilidad de que un
individuo libre de la enfermedad
desarrolle la enfermedad dado un
conjunto particular de valores de las
varriables independientes.
FUNCION LOGISTICA
Las variables X pueden ser continuas,
nominales u ordinales. En estos dos
últimos casos, las variables deben ser
transformadas en variables binarias
( dummy ). De tal forma, en el modelo
debería haber (preferentemente )
variables continuas y binarias.
VARIABLES DUMMY

Una variable DUMMY es la


representación binaria de una variable
cualitativa con mas de dos niveles.
Si una variable cualitativa tiene H
niveles, el modelo contendrá H-1
variables Dummy. La otra variable
Dummy quedará como referencia.
LOS COEFICIENTES DEL MODELO
DE REGRESION LOGISTICA

Una de las características que hacen


interesante la regresión logística es la
relación que estos guardan con un
parámetro de cuantificación de riesgo
conocido en la literatura como “odds ratio”
LOS COEFICIENTES DEL MODELO
DE REGRESION LOGISTICA
El odds asociado a un suceso es el cociente entre
las probabilidades de que ocurra frente a la que
no ocurra:
P
odds = ___________
1 - p
Siendo p la probabilidad del suceso
LOS COEFICIENTES DEL MODELO
DE REGRESION LOGISTICA

• Si dividimos el primer odds entre


el segundo, hemos calculado un
cociente de odds, esto es un odds
ratio.
LOS COEFICIENTES DEL MODELO
DE REGRESION LOGISTICA
• Si en la ecuación de regresión tenemos un factor
dicotómico, como puede ser por ejemplo si el sujeto
es no fumador, el coeficiente b de la ecuación para
este factor esta directamente relacionado con el odds
ratio OR de ser fumador respecto a no serlo
• OR = exp( b )
• Es decir exp(b) es una medida que cuantifica el
riesgo que representa el factor, manteniendo
constantes el resto.
LOS COEFICIENTES DEL MODELO
DE REGRESION LOGISTICA
Cuando la variable es numérica como por ejemplo la
edad, índice de masa corporal, peso, etc., el
coeficiente b de la ecuación para este factor cuantifica
el cambio el riesgo cuando se pasa de un valor del
factor a otro, permaneciendo constantes el resto de
variables. Así el odds ratio que supone pasar de la
edad x1 a la edad x2, siendo b el coeficiente
correspondiente a la edad en el modelo de regresión
logístico es :
ESTIMACION DE LOS COEFICIENTES
DE REGRESION

La estimación de los coeficientes se


realizan mediante el método de la
función de máxima verosimilitud.
SIGNIFICADO DE LOS COEFICIENTES

El signo de los coeficientes tienen un


significado importante. Si los coeficientes de
las variables son positivos, esto significa que la
variable aumenta la probabilidad de ocurrencia
del suceso que estamos estudiando. Si esto
fuera una enfermedad, el factor cuyo
coeficiente es positivo aumentaría la
probabilidad de padecer la enfermedad, y por lo
tanto, dicho factor, seria un factor de riesgo
SIGNIFICADO DE LOS COEFICIENTES

Si el coeficiente es negativo, el
factor cuyo coeficiente es negativo
es de protección.
SIGNIFICANCIA DEL COEFICIENTE
DE REGRESION LOGISTICA

Ho : La variable independiente no influye


significativamente sobre la variable
dependiente P.

H1 : La variable independiente influye


significativamente sobre la variable
dependiente P.
PROCEDIMIENTO PARA LA
CONTRASTACION DE LA HIPOTESIS

EVALUACION ESTADISTICA DE WALD

b1 2
WALD = ____________
EE b1 2

Este estadístico tiene una distribución Chi-


Cudrado.
Este estadístico tiene distribución
Chi-Cuadrado con un grado de
libertad, si la variable es
cuantitativa. Si la variable es
cualitativa los grados de libertad
es igual al número de categorías
menos uno.
¿Dónde y cuándo aplicarla la
regresión logística?

La RL se utiliza cuando
queremos investigar si una o
varias variables explican una
variable dependiente que toma
un carácter cualitativo
Como hemos mencionado
anteriormente la RL tiene
una doble función:
explicativa y predictiva.
Una de las ventajas de la RL es que
permite el manejo de múltiples
variables independientes (también
llamadas covariables) con un número
reducido de casos1. Freeman (1987)
ha sugerido que el número de sujetos
debe ser superior a (10)(k+1), donde k
es el número de covariables. Pero hay
que tener en cuenta que el tamaño de
la muestra necesaria es inherente al
tipo de estudio que se realiza.
¿Cómo interpretarla?

Cuando realizamos un análisis de RL lo


que pretendemos es estimar los
parámetros de la ecuación (b0, b1, b2,…
bk) de la función que pretendemos
evaluar:

Z = b0 + b1X1 + b2X2 +… +bkXk


Donde Z es el logaritmo neperiano
(Ln) de la odds de padecer la
enfermedad, el desenlace o el
resultado que se está estudiando; b0
es la ordenada en el origen de la
función de regresión, b1,b2,…bk
representan los coeficientes de la
pendiente de la recta y X1,X2,…Xk son
las variables independientes o
factores de riesgo
Los coeficientes bi expresan el
logaritmo neperiano del odds
ratio (OR) para cada factor de
riesgo Xi. Por tanto el OR se
estima a partir de la fórmula:

OR = antilog (bi) = e bi
Una vez que hemos construido
nuestro modelo de RL, debemos
primero analizar los coeficientes
de regresión ( bi ) de cada variable
independiente para obtener sus
OR y luego confeccionar el valor
predictivo de cada variable
independiente o bien del modelo
en su conjunto
USO DEL MODELO DE
REGRESION LOGISTICA

• Evalúa asociación entre enfermedad y


exposición: estudios de corte transversal, de
cohortes y caso – control.
• Predecir una respuesta de interés: estudios de
corte transversal y de cohortes. La pendiente 
es incorrecta en estudios de casos – controles.
EJEMPLO
Consideremos un modelo de
regresión logística para analizar la
probabilidad de desarrollar
enfermedad coronaria o no, en
base a la contribución de los
siguientes factores de riesgo:
fumador, diabético, hipertenso,
etc..
Odds ratio: es una medida de efecto que relaciona el odds
del evento en un grupo vs el odds en otro grupo (los
individuos expuestos en relación a los no expuestos)

EC HT Total
Si No
OR=p1/q1/p2/q2=p1q2/p2q1
Si 15 41 56
No 20 140 160 OR=15*140/20*41=2.56
Total 70 146 216

La probabilidad de tener enfermedad coronaria es 2.56


beses mayor en los hipertensos en relación a los no
hipertensos. O también :
Los pacientes que tiene HT con respecto no HT tienen
2.56 veces de tener EC.
REGRESION LOGISTICA CON
EL SPSS
Classification Tablea,b

Dependent Variable Encoding Predicted


ENFERMEDA
Original Value Internal Value
D
No 0
CORONARIA Percentage
Si 1
Observed No Si Correct
Step 0 ENFERMEDAD No 47 0 100.0
CORONARIA Si 18 0 .0
Overall Percentage 72.3
a. Constant is included in the model.
Model Summary b. The cut value is .500
-2 Log Cox & Snell Nagelkerke
Step likelihood R Square R Square
1 23.991 .556 .802
2 19.826 .583 .842
Test de Hosmer Lemeshow es < de 0.05
Hosmer and Lemeshow Test rechazamos la hipótesis nula: no hay
Step
1
Chi-square
16.589
df
7
Sig.
.020
diferencias entre los valores observados y
2 16.870 7 .018 predichos del modelo.

Classification Tablea

Predicted
ENFERMEDA
D
CORONARIA Percentage
Observed No Si Correct
Step 1 ENFERMEDAD No 46 1 97.9
CORONARIA Si 2 16 88.9
Overall Percentage 95.4
Step 2 ENFERMEDAD No 46 1 97.9
CORONARIA Si 1 17 94.4
Overall Percentage 96.9
a. The cut value is .500
Variables in the Equation

95.0% C.I.for
EXP(B)
B S.E. Wald df Sig. Exp(B) Lower Upper
Step
a
CB .099 .025 16.281 1 .000 1.104 1.052 1.159
1 Constant -25.988 6.333 16.838 1 .000 .000
Step
b
CB .103 .028 13.842 1 .000 1.108 1.050 1.170
2 EDAD .160 .085 3.548 1 .060 1.173 .994 1.385
Constant
-36.163 10.275 12.388 1 .000 .000

a. Variable(s) entered on step 1: CB.


b. Variable(s) entered on step 2: EDAD.

El estadístico Wald es usado como test de significan cía para los


coeficientes de cada variables independientes (la hipótesis nula
:coeficiente B =0 )
En el step 2 la variable colesterol tiene un OR de 1.108 con un
intervalo de confianza del 95% de 1.050 a 1.170 lo que indicaría que
constituye un factor de riesgo La probabilidad de tener enfermedad
cardiaca respecto de la probabilidad de no tener EC es 1.108 veces
mayor en el grupo de colesterol alto en relación a los que no tienen
colesterol alto.
¿Cómo trabaja?
La regresión logística trabaja con el logaritmo de
odds (la cual puede tomar cualquier valor negativo o
positivo) La ecuación de regresión logística puede
ser expresada de formas equivalentes
ln (odds) = α + X1β1 +X2β2
ln (OR) = X1 ln(OR1) +X2ln(OR2)

 p 
ln    ln e 
 x

   x
1  p 

También podría gustarte