Está en la página 1de 19

P.

UNIVERSIDAD CATÓLICA DE CHILE


FACULTAD DE MATEMATICA
DEPARTAMENTO DE ESTADÍSTICA

Bioestadística
Modelos de Regresión Logística
Problema
Se tiene una variable explicada categórica (binaria)
y múltiples variables explicatorias numéricas y/o categóricas.

Id Sexo Edad Fuma HTA PAS PAD ColTot Triglic ColHDL Peso Talla Litiasis
1 m 46 1 0 100 70 180 61 39 62.0 159 0
2 m 26 1 0 110 70 174 113 47 72.5 172 0
3 f 25 1 1 100 60 129 60 29 58.5 173 1
4 m 45 1 0 100 70 265 308 22 76.5 163 0
5 f 25 0 0 130 80 143 100 23 75.0 169 1
6 f 49 1 0 160 90 191 63 59 50.5 157 0
7 f 43 1 0 120 70 234 81 47 69.2 173 1
8 f 20 1 0 110 70 167 175 26 56.0 161 1
9 m 53 0 1 170 100 237 598 34 70.0 165 0
10 m 53 0 0 130 80 175 73 34 54.0 156 1
11 m 23 0 0 130 80 167 91 34 77.5 170 1
12 f 25 1 0 120 60 163 48 56 54.0 157 0
13 f 25 1 0 100 60 120 109 34 64.2 168 0
14 m 47 1 0 130 80 197 55 49 68.2 163 0
15 m 20 1 0 120 70 118 46 39 59.0 164 0
16 f 38 1 0 90 60 143 47 50 57.0 171 0
17 m 57 1 0 140 90 142 58 52 71.5 165 0

X1 X2 X3 Y
Capítulo 6. Regresión Logística
Introducción

Un modelo de regresión logística binaria permite analizar la relación


entre una variable explicada dicotómica Y (categórica con dos niveles)
y una o más variables explicatorias categóricas o numéricas (X1,... Xk).

Este modelo permite analizar el cambio que se produce en la


probabilidad de ocurrencia del evento Y=1, que corresponde a un
cambio dado en las variable explicatorias X1,... Xk.

Ejemplo. Si Y toma valores 1=Enfermo y 0=Sano, entonces el


modelo permite identificar variables asociadas en forma conjunta con
la probabilidad de ocurrencia de la enfermedad.
Construcción del modelo de regresión logística

Queremos establecer un modelo que relacione la respuesta Y de cada


individuo con una o más variables X1,... Xk.

Supongamos que interesa estudiar los factores asociados a la presencia


de una enfermedad. Sea Y la variable dicotómica definida como:

0 sin la enfermedad
Y =
1 con la enfermedad

Sea p la probabilidad de que la enfermedad esté presente. Luego:

p = P(Y = 1) y 1  p = P(Y = 0)
Definamos una función de p llamada logito de p, dado por:

 p 
logito( p ) = log 
1 p 

Lo que permite plantear el modelo de regresión logística

 p 
log  =   bx
1 p 

logito(p)

El logito(p) varía entre -∞ y +∞,


0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
igual que la función lineal α + βX

p
Nótese que al despejar la probabilidad p en el modelo logístico, se tiene:

exp  bx
p=
1  exp  bx
Luego, al estimar los parámetros  y b, se puede estimar la probabilidad
de que la enfermedad esté presente, para un determinado valor de X.

pˆ =

exp ˆ  bˆx 

1  exp ˆ  bˆx 
Los coeficientes del modelo se estiman mediante el método de máxima
verosimilitud.
Estimación de OR en modelo de regresión logística

Si X es la exposición a un factor (1=Expuesto, 0=No Expuesto), para X=1


la razón p/(1-p) representa la chance de enfermar cuando el factor está
presente y para X=0, representa la chance cuando el factor está ausente.

La chance (odds) escrita en términos del modelo es:

p
odds x = = exp  bx = e  bx
1 p

Y la razón de chances (OR) es:

odds1 e  b
OR = =  = eb
odds0 e
Estimación de OR para variable numérica
Si X es numérica, exp{ b } se puede interpretar como el riesgo adicional
de enfermar por cada unidad de aumento de la variable X.
Por ejemplo, si X se mueve de un valor x1 a un nuevo valor x2, entonces:

odds2 e  bx2
OR = =   bx1 = e b ( x2  x1 )
odds1 e

En general, si..

b>0 OR > 1 Factor de Riesgo


b<0 OR < 1 Factor Protector
b=0 OR = 1 No produce Efecto
Ejemplo: Se estudia la mortalidad (1=Si 0=No) en una muestra de recién
nacidos en función de 3 indicadores: peso al nacer, edad gestacional y
malformaciones congénitas.
El modelo ajustado para X = Peso al nacer (usando SPSS) es el siguiente:

Variables in the Equation

B S.E. Wald df Sig. Exp(B)


Step
a
PESO -0,0047 0,00036 -13,06 1 .000 0,995
1 Constant 3,6611 0,3488 10,49 1 .000
a. Variable(s) entered on step 1: PESO.

De acuerdo al modelo ajustado, la probabilidad estimada de morir es:

exp 3.6611  0.0047 peso 


pˆ =
1  exp 3.6611  0.0047 peso 

Se observa también que el peso al nacer es protector de mortalidad (b negativo:


a mayor peso, menor probabilidad de morir). Además es muy significativo como
factor asociado a mortalidad (p<0.001).
Los resultados muestran que OR = exp{ b } = exp{ -0.0047 } = 0.995.
Por cada gramo de peso de nacimiento adicional, el riesgo de morir
disminuye en 0.5%.

Podemos calcular la razón de chances de morir al disminuir 100


gramos el peso al nacer, de la forma:

odds x 100 e  b  x 100  100 b 0.47


=   bx
= e = e = 1.6
odds x e

Cada 100 gramos menos en el peso al nacer, el riesgo de morir del


recién nacido aumenta en un 60%.
Si se evalúa para 100 gramos mas, se obtiene OR=0.625, lo que
implica una reducción del 37,5% (en general, | OR – 1 | x 100%)
Ejemplo. Se estudia la presencia de Litiasis (1=Si 0=No) en una
muestra de 836 pacientes en función de 2 indicadores: HTA y
colesterol HDL.

El modelo ajustado para X = HTA (1: si, 0: no) usando MINITAB, es el


siguiente:
Binary Logistic Regression: LITIASIS versus HTA

Link Function: Logit

Response Information

Variable Value Count


LITIASIS 1 126 (Event)
0 710
Total 836

Logistic Regression Table


Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Constant -1.8142 0.1028 -17.64 0.000
HTA 1.0315 0.3188 3.24 0.001 2.81 1.50 5.24
El modelo ajustado para X = Colesterol HDL usando MINITAB, es el
siguiente:

Binary Logistic Regression: LITIASIS versus COLHDL

Link Function: Logit

Response Information

Variable Value Count


LITIASIS 1 126 (Event)
0 710
Total 836

Logistic Regression Table


Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Constant -0.4707 0.3905 -1.21 0.228
COLHDL -0.029065 0.008992 -3.23 0.001 0.97 0.95 0.99
Regresión Logística Múltiple
El modelo de regresión logística simple puede ser generalizado para
incluir más de una variable en el modelo, de la forma:

 p 
log  =   b1 x1    b p x p
1 p 

De modo que la probabilidad de morir es:

exp  b1 x1    b p x p 
p=
1  exp  b1 x1    b p x p 
Ejemplo. En el análisis de mortalidad de recién nacidos, podemos
ajustar un modelo con peso al nacer, EG y malformaciones congénitas.
El ajuste usando SPSS es el siguiente:

Variables in the Equation

B S.E. Wald df Sig. Exp(B)


Step
a
PESO -0,0032 0,00046 48,44 1 0,000 0,997
1 EG -0,2181 0,04343 25,22 1 0,000 0,804
MALFORM 0,5941 0,15607 14,49 1 0,000 1,81
Constant 8,2449 1,00634 67,12 1 0,000
a. Variable(s) entered on step 1: PESO, EG, MALFORM.

Al ajustar por edad gestacional y malformaciones congénitas, la razón


de chances de muerte al disminuir en 100 gramos el peso al nacer es:

odds x 100 ˆ
= e 100b1 = e 0.32 = 1.38
odds x
Intervalo de Confianza para el OR ajustado

Para construir un IC para un OR, se requiere construir primero un IC


para b.

Ejemplo. IC de 95% de confianza para b2 (coeficiente de EG), basado


en una aproximación normal es:

bˆ 2  1.96  se( bˆ 2 )  0.2181  1.96  0.04343

o equivalentemente (-0.303, -0.133). Tomando antilogaritmo tenemos:

e 0.303

, e 0.133 = (0.738, 0.875)

Luego, el 20% de reducción de la chance de morir al aumentar una


semana la edad gestacional, tiene un intervalo de confianza de 95%
de (12%, 26%).
Selección de Modelos
En general, un modelo de regresión logística debiera incluir sólo
variables explicatorias que se asocien en forma significativa con la
probabilidad de enfermedad.

Si tenemos un conjunto de potenciales explicatorias, podemos ajustar


todos los modelos posibles y elegir el mejor.
Este método es poco práctico si hay demasiadas variables explicatorias.

Como alternativa, se pueden utilizar los siguientes métodos “paso a paso”.


• Selección de variables con método forward.
• Selección de variables con método backward.
• Selección de variables con método stepwise.
Método de Selección Forward
Comienza sin variables en el modelo. En el paso 1, se incluye la variable más
significativa entre todas las “candidatas”. En el paso 2, se incluye la que hace el aporte
más significativo a la explicación de Y en presencia de la seleccionada en el paso 1, etc.
Finaliza cuando ninguna de las variables fuera del modelo hace un aporte significativo.

Método de Selección Backward


Comienza con todas las variables candidatas en el modelo. En el paso 1, se excluye la
variable menos significativa. En el paso 2, se excluye la que hace el aporte menos
significativo a la explicación de Y sin considerar la excluida en el paso 1, etc. Finaliza
cuando todas las variables dentro del modelo hacen un aporte significativo.

Método de Selección Stepwise


Comienza como Forward. Los pasos siguientes pueden ser forward (se incluye una
variable significativa) o backward (se excluye alguna variable no significativa). Finaliza
cuando todas las variables en el modelo son significativas y todas las variables fuera del
modelo son no significativas.
Ejemplo. En el modelo para Litiasis, se ajustó un modelo con Edad,
Fuma, HTA, COLHDL y Peso. El ajuste usando MINITAB es el
siguiente:

Binary Logistic Regression: LITIASIS versus EDAD; FUMA; ...

Link Function: Logit

Response Information

Variable Value Count


LITIASIS 1 126 (Event)
0 710
Total 836

Logistic Regression Table


Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Constant -1.5935 0.7746 -2.06 0.040
EDAD 0.033346 0.007429 4.49 0.000 1.03 1.02 1.05
FUMA -0.4717 0.2040 -2.31 0.021 0.62 0.42 0.93
HTA 0.3137 0.3577 0.88 0.380 1.37 0.68 2.76
COLHDL -0.033963 0.009630 -3.53 0.000 0.97 0.95 0.99
PESO 0.004145 0.007735 0.54 0.592 1.00 0.99 1.02
Eliminando las variables no significativas mediante selección backward
(dos pasos), se obtiene:

Binary Logistic Regression: LITIASIS versus EDAD; FUMA; COLHDL

Link Function: Logit

Response Information

Variable Value Count


LITIASIS 1 126 (Event)
0 710
Total 836

Logistic Regression Table


Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Constant -1.3236 0.4965 -2.67 0.008
EDAD 0.035998 0.006929 5.20 0.000 1.04 1.02 1.05
FUMA -0.4831 0.2027 -2.38 0.017 0.62 0.41 0.92
COLHDL -0.035484 0.009333 -3.80 0.000 0.97 0.95 0.98

También podría gustarte