Está en la página 1de 37

Sobre Regresión Logística

Modelo caracterizado por la naturaleza singular de su variable respuesta o


dependiente, Y, al tratarse de una variable dicotómica o de Bernoulli, en su
modelo más sencillo:
⎧1 no ocurre el evento de int erés
Y=⎨
⎩0 sí ocurre el evento de int erés
f(y) = py (1 − p)1 − y ; y = 0, 1 ; p = parámetro que señala la probabilidad de
ocurrencia del evento

El valor predicho de Y, o valor medio condicional, razón de de ser de los


modelos de regresión, no es otra cosa que el parámetro p, la probabilidad
de ocurrencia del riesgo.
Si deseamos cuantificar el riesgo de padecer una enfermedad coronaria,
por ejemplo, respecto de los siguientes factores de riesgo: estatus
fumador, edad, antecedentes de hipertensión, diabetes, práctica de
ejercicio, etc… o, en qué medida los factores de riesgo afectan al riesgo,
deberemos integrar dichos factores en variables predictoras o
independientes, al margen de cuáles consideremos de interés primario y
cuáles de control, ajuste o confusión.
La correspondiente modelización se enmarca en la denominada Regresión
Logística.
Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM
Sobre Regresión Logística
Para introducir el procedimiento, volvamos al evento “padecer una
enfermedad coronaria” (CHD), considerando exclusivamente la EDAD como
variable predictora o explicativa:

⎧1 no ocurre el riesgo
Variable respuesta: Y = CHD = ⎨
⎩0 sí ocurre el riesgo

Variable regresora o explicativa: X=EDAD


En este caso, no tenemos la fuente de inspiración que ha supuesto el
modelo normal multivariante en los modelos clásicos de regresión, en los
que la variable respuesta es de distribución normal, por tanto, una variable
continua. Para ver el modo de actuar, partamos del fichero de datos
chdage.dta, que afecta a una muestra hipotética de tamaño 100, respecto
del par de variables anteriores. Se realiza una agrupación de la variable
EDAD por clases y se realiza la representación gráfica de la proporción de
ocurrencia del evento por clase:

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística

Si unimos los
puntos,
tendríamos una
curva en forma de
“S” (sigmoide)

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
La nube de puntos se puede ajustar a una curva sigmoide, semejante a la
función de distribución de una variable aleatoria (a medida que aumenta la
edad, aumenta la proporción de ocurrencia del evento). Esta curva podría
corresponder a la representación gráfica de una función tipo logística:
1 ez
f(z) = =
1 + e−z 1 + e z
cuyas propiedades permiten modelar una probabilidad, concretamente
E(Y | x) = p = π(x) = probabilidad condicional =
= probabilidad de que ocurra el evento para el valor x de
la variable predictora o independiente.

En efecto, f(z) crece de 0 a 1, desde -∞ a +∞, y z podría representar un


índice que integraría la contribución de uno o varios factores de riesgo, de
manera que f(z) señalaría la probabilidad de que ocurra el evento para z,
la contribución cuantitativa de unos valores en concreto de los factores de
riesgo.
La expresión más sencilla para z sería la que correspondería a una forma
lineal, respecto de las variables predictoras o explicativas (los factores de
riesgo) que, en el ejemplo presentado, sería
z = β0 + β1x

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Por tanto, formulamos el siguiente modelo (LOGÍSTICO):
π(x) = probabilidad de que ocurra el evento = f(z) = f(β0 + β1x) =
(β0 +β1x)
1 e
= −(β0 + β1x)
= (β + β x)
1+ e 1+ e 0 1

Este modelo es totalmente equivalente al siguiente:


⎡ π(x) ⎤
ln ⎢ = (β0 + β1x) = g(x) = función de enlace
⎣ 1 − π(x) ⎥⎦
 
log it (transformación logit)

Esta función de enlace o transformación logit corresponde con la parte


lineal del modelo e integra el efecto, en este caso simple, del único factor
de riesgo.
Si nos detenemos en la transformación logit anterior, podemos observar
que el cociente, que se designa por ODDS (ventaja) para el valor x,
π(x)
ODDSx =
1 − π(x)

determina cuánto más probable es que ocurra el evento a que no ocurra,


para el valor x de la variable predictora.
Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM
Sobre Regresión Logística
Veamos de qué forma podemos establecer cuantitativamente la asociación
entre Y y X, en este simple modelo logístico, a partir del coeficiente b1 , y
su significado:
Tomamos, como en los modelos de regresión clásicos, los valores x+1 y x
de la variable explicativa y sus correspondientes ODDS
π(x + 1)
ODDSx +1 =
1 − π(x + 1)
π(x)
ODDSx =
1 − π(x)

Su cociente, denominado ODDS RATIO, no es otra cosa que el valor de la


exponencial en b1 : π(x + 1)
ODDSx +1 1 − π(x + 1) β
OR (x +1) versus (x) = = =e1
ODDSx π(x)
1 − π(x)

una medida de cuánto más probable es que ocurra el riesgo o evento con
x+1 que con x (al aumentar x una unidad o por unidad de x). Esta cantidad
se aproxima al riesgo relativo, si la probabilidad de ocurrencia del evento
es baja.

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
De manera que si b1 es conocido o se ha estimado en base a una muestra,
en el ejemplo que estamos manejando
eβ1
establecería una medida de la variación de la probabilidad de sufrir una
enfermedad coronaria si la edad aumenta un año, o cuánto varía la
probabilidad de que ocurra por año.
β
Otro ejemplo que nos puede ayudar a interpretar e 1 , parte del evento
“desarrollar un cáncer de garganta”, codificado como variable respuesta o
dependiente, considerando como único factor de riesgo o variable
predictiva el estatus fumador:
⎧0 no desarrolla cáncer de garganta
Y=⎨
⎩1 sí desarrolla cáncer de garganta
⎧0 no fumador
X=⎨
⎩1 sí fumador
Si el modelo logístico fuese
(β0 +β1x)
e
π(x) = (β + β x)
1+ e 0 1
β
entonces el odds ratio e 1 determina una medida de cuánto más probable
es desarrollar cáncer de garganta si se es fumador, entre fumadores que
entre no fumadores.
Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM
Sobre Regresión Logística
Estimación de parámetros en el modelo de regresión logística.
Considerando el modelo más simple
(β0 +β1x)
e
π(x) = (β + β x)
1+ e 0 1
hay que desarrollar un procedimiento para estimar b0 y b1 a partir de
(yi ,xi) , i=1,…,n; una muestra de n observaciones, donde (yi ,xi) designan,
respecto al i-ésimo individuo, el valor de la variable respuesta dicotómica
Y, y el correspondiente de la variable predictora o explicativa X.
En los métodos clásicos de regresión se utiliza habitualmente, como bien
es sabido, el método de estimación de los mínimos cuadrados, que
establece los coeficientes del modelo que minimizan la suma de cuadrados
de las desviaciones entre los valores observados de la variable respuesta y
los valores predichos por el modelo. Por ejemplo, si consideramos el
modelo de regresión lineal simple, esta suma de cuadrados de los residuos
o desviaciones es: n

∑ ⎡⎣y
2
SSE = i − (β0 + β1xi )⎤⎦
i =1

Este método tiene buenas propiedades cuando la variable respuesta es


continua y concretamente con distribución normal; pero
desafortunadamente no es el caso con una variable respuesta dicotómica.
Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM
Sobre Regresión Logística
En el modelo de regresión logística el método de estimación de los
parámetros es el de máxima verosimilitud, que a continuación recordamos
para el caso más simple, con sólo una variable explicativa. El valor
predicho o valor medio condicionado en estudio es:
π(xi )  p(Yi = 1 | xi ) , donde Yi es la respuesta Y asociada a la i-ésima observación

y cuya densidad de probabilidad es fi(yi ) = π(xi )yi (1 − π(xi ))1− yi , yi = 0, 1


Como las n observaciones son independientes, la densidad conjunta o
función de verosimilitud o verosimilitud de (Y1,Y2,…,Yn) será
(β0 +β1xi ) (β0 +β1xi )
n n
e e
l(β0 , β1 ) = f1(y1 )f2 (y2 )...fn(yn ) = ∏ π(xi ) i (1 − π(xi )) = ∏(
y 1 − yi y 1− y
(β0 + β1x )
) i (1 − (β0 + β1x )
) i
i =1 i =1 1+ e i
1+ e i

Este método consiste en determinar las estimaciones de b0 y b1 que


maximicen esta función de verosimilitud. Para ello y para facilidad de
cálculo, se considera el logaritmo neperiano de la función de verosimilitud
n
L(β) = ln(l(β0 , β1 )) == ∑ {y
i =1
i ln(π(xi )) + (1 − yi )ln(1 − π(xi ))}

Como es habitual, recurriremos al software estadístico adecuado para


llevar a cabo las estimaciones de los parámetros del modelo planteado.
Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM
Sobre Regresión Logística
Antes de abordar un primer ejemplo de regresión logística, señalaremos el
estadístico de referencia en los correspondientes análisis, que juega el
mismo papel que el cociente de sumas de cuadrados medios, con
distribución F de Fisher, en los modelos clásicos de regresión. Se trata del
estadístico de la razón o cociente de verosimilitudes (likelihood ratio
statistic):
verosimilitud sin un grupo de variables
G = −2 ln( )
verosimilitud con el grupo de variables

De manera que, si plantemos el modelo logístico múltiple:


(β + β x + β x +...β x )
e 0 11 2 2 p p
π(X) = (β0 + β1x1 + β2x2 +...βpxp )
, donde X = (x1 ,x2 ,...,xp )
1+ e

que afecta a p variables predictoras o explicativas (factores de riesgo), y


deseamos contrastar, por ejemplo, la significación en bloque (chunk test)
de un subgrupo de r variables (xi1,xi2,…,xir) , se tiene que
l(todos menos βi , βi , ..., βir )
G = −2 ln( 1 2
)
l(β0 , β1 , β2 , ..., βp )
que, si βi = βi = ... = βir = 0 , se distribuye según una χ2 (r)
1 2

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Retomamos el fichero de datos chdage.dta , que afecta a la variable
respuesta CHD y a la explicativa o factor de riesgo EDAD. Los
procedimientos logit y logistic de Stata, generan los resultados:

Significación del
modelo con G
(likelihood ratio
statistic)

Significación del
coeficiente b1 con
ˆ
estadístico de Wald
ODDS RATIO = eβ1
ˆ
β1 − β1
Z=
ˆˆ
SE( β1 )

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
El modelo final estimado sería:

β0 +ˆ
β1edad)
e e(−5.309 + 0.111⋅edad)
π(x) = ˆ
ˆ π(edad) = =
1+ e

β0 +ˆ
β1edad) 1 + e(−5.309 + 0.111⋅edad)
Transformación logit = (ˆ
β0 + ˆ
β1x) = ˆ
g(x) = −5.309 + 0.111 ⋅ edad

ˆ
ODDS RATIO = eβ1

ˆ
β1
ÔR x +1 versus x = e = 1.12
Cada año que pasa se multiplica por 1.12 la probabilidad de sufrir una enfermedad coronaria

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Con las estimaciones por intervalos de la transformación logit o función de
enlace, se puede obtener una estimación por intervalos de la predicción
para una nueva observación x, es decir, de la probabilidad de que ocurra el
evento para un individuo de edad x. Para ello, una vez que hemos
ejecutado logit o logistic , se utiliza la opción Postestimation de Statistics
para obtener las estimaciones puntuales de la transformación logit, de las
predicciones y de los errores estándares de la transformaciones logit ;
asícomo la matriz de covarianzas estimadas entre los estimadores de b0 y
b1 :

• Se deja que el alumno compruebe, con los datos anteriores, que una
predicción por intervalos (al 95%) para un individuo de 50 años es
(0.435 ; 0.677), interpretando este resultado.
• Compruebe también que 3.03 es una estimación puntual del OR de x+10
versus x e interprételo adecuadamente.

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Ejemplo sobre un hipotético estudio donde la variable respuesta:
Y= estatus CHD (enfermedad coronaria)(0=no, 1=sí), respecto a la
variable explicativa RAZA con 4 categorías: blanca, negra, latina y otras
que, al codificarla con variables indicadoras, resultarían
raza_2 raza_3 raza_4

blanca 0 0 0
negra 1 0 0
latina 0 1 0
otras 0 0 1

El modelo logístico sería:


(β + β raza _ 2 + β raza _ 3 + β raza _ 4)
e 0 1 2 3
π(X) = (β + β raza _ 2 + β2raza _ 3 + β3raza _ 4)
1+ e 0 1
Los ODDS Ratio tienen, en este caso, un significado muy concreto, siempre
en relación a la raza blanca: OR = eβ 1
negra versus blanca

OR latina versus blanca = e β2


OR otras versus blanca = e β3

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Por ejemplo eβ señalaría una medida de cuánto más probable, o cuánto
2

menos probable, es que desarrolle la enfermedad coronaria la raza latina


que la raza blanca. Resulta obvio que para comparar las razas negra y
latina, habría que considerar el cociente
OR negra versus blanca
=
eβ 1
= e β1 −
β2
OR latina versus blanca eβ 2

Veamos con los siguientes datos, cómo se obtendrían las estimaciones de


los parámetros por máxima verosimilitud, al margen que, en este simple
caso, se pueden obtener directamente de la tabla:
CHD blanca negra latina otras total

Sí 5 20 15 10 50
No 20 10 10 10 50
Total 25 30 25 20 100
ODDS RATIO 1 8 6 4
Ln(odds ratio) β̂1 = 2.08 ˆ
β2 = 1.79 ˆ
β3 = 1.39

ˆ
Para X=(0,0,0), se tendría π(X) = 5 e0 β
ˆ =
25 1 + eˆβ0
⇒ˆ
β0 = −1.39

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
De manera equivalente, con el fichero chd versus raza.dta, Stata genera
los resultados:

Significación del
modelo con G
(likelihood ratio
statistic)

Significación
individual de los
coeficientes con el
estadístico de Wald

ODDS RATIO

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Para ilustrar una de las estrategias, quizás la más empleada, en los
modelos de regresión logística, consideramos el siguiente estudio cuyo
objetivo es establecer en qué medida determinados factores de riesgo
afectan al bajo peso al nacer:

• Variable respuesta: Y=Estatus: bajo peso al nacer (0, si peso≥2500 gr.;


1, si peso<2500 gr.).

• Variables explicativas o predictoras (factores de riesgo):


• lwt = peso madre último periodo menstrual (en libras).
• age = edad.
• raza (blanca, negra, otras; codificada con dos dummy)
• ftv = nº de visitas al ginecólogo en el 1er trimestre embarazo.
Esta estrategia recibe del nombre de backward (hacia atrás), jerárquica y
por bloques (chunk tests), estrategia también empleada en los modelos
clásicos de regresión. La transformación logit de modelo completo, sin
términos de interacción por el momento, sería
Transformación logit = g(x) = (β0 + β1lwt + β2 age + β3raza2 + β 4raza3 + β5 ftv)

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Etapa 1: Análisis de la significación del modelo completo
⎧H0 : β0 = β1 = β2 = β3 = β 4 = β5 = 0

⎩H1 : al menos un coeficiente es ≠ 0
con ayuda de G, el estadístico de la razón de verosimilitudes. Si no es
significativo es valor de estadístico, es decir, si las variables explicativas
parece que no “explican” la variabilidad de la respuesta, entonces STOP.
En nuestro caso (fichero lowbwt2.dta) los resultados de Stata defienden la
validez del modelo, por lo que pasamos a la segunda etapa:

Significación del
modelo con G
(likelihood ratio
statistic)

Logaritmo
neperiano de la
verosimilitud del
modelo
completo

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Etapa 2: Se “observa” la significación individual de las variables
(coeficientes) con el test de Wald :
Significación
individual de
coeficientes
(test de Wald)

Parece que AGE (edad) y FTV no son significativas y hay dudas acerca de
RAZA. Dejamos por el momento el caso de RAZA, y contrastamos en
bloque la significación de FTV y AGE: ⎧H0 : β1 = β5 = 0

⎩H1 : al menos un coeficiente es ≠ 0
Lo hacemos en “bloque” para prevenir errores de tipo I (declarar más
variables significativas de las necesarias) y así tener en cuenta el principio
de parsimonia. Este contraste se basa en el estadístico G que, para este
caso, adopta la siguiente forma:
verosimilitud sin las variables AGE y FTV
G = −2 ln( )
verosimilitud con todas las variables
2
que bajo H0 sigue el modelo χ (2)

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Para obtener este valor de G, procedemos como sigue (Statistics ö
Postestimation ö Manage estimation results ö Store estimation results):
,es decir, almacenamos en la variable mod_completo
el valor del logaritmo neperiano de la verosimilitud del modelo con todas
las variables. Como debemos obtener esta cantidad para el modelo sin AGE
y FTV, reajustamos el modelo:

y la almacenamos en mod_s_age_ftv. Con el siguiente comando (Statistics


ö Postestimation ö Tests ö Likelihood-ratio test), obtenemos el valor de G:
No Significativo:
G=0.69,
p-valor=0.71
Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM
Sobre Regresión Logística
Al reajustar el modelo con sólo lwt, raza2 y raza3, en los resultados de la
página anterior observamos que raza parece no significativa por lo que
contrastamos, de nuevo en bloque,
⎧H0 : β3 = β 4 = 0

⎩H1 : al menos un coeficiente es ≠ 0

con G = −2 ln(
verosimilitud sin las variables AGE, FTV, raza2, raza3 (solo lwt)
)
verosimilitud con lwt, raza2 y raza3

En base a los resultados

que están al límite de la significación, quizás por falta de potencia, el


investigador decide mantener la variable raza, “clínicamente importante”;
por lo que el modelo estimado final sería:


β0 +ˆ
β1lwt +ˆ
β3raza2 +ˆ
β4raza3)
e e(0.81−0.015lwt +1.08 raza2 + 0.48 raza3)
π(x) =
ˆ =
1+ e

β0 +ˆ
β1lwt +ˆ
β3raza2 +ˆ
β4raza3) 1 + e(0.81−0.015 lwt +1.08 raza2 + 0.48 raza3)

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
El fenómeno de la interacción: Como ya tuvimos ocasión de analizar en
regresión múltiple, cuando la interacción entre variables explicativas está
presente, la asociación entre el factor de riesgo primario y la variable
respuesta depende en alguna medida del valor o nivel de otra covariante o
variable independiente: la covariante modifica el efecto del factor de riesgo
primario; por esta razón, los epidemiólogos usan el término modificador
para describir una variable que interactúa con un factor de riesgo.
El modelo más sencillo para incluir la interacción es aquel en el que la
transformación logit es también lineal, pero con pendientes distintas en
función del valor de la covariante modificadora. Para aclarar su tratamiento
y significado en regresión logística, consideremos el ejemplo siguiente:

• Variable respuesta: Y= estatus CHD


• Factor de riesgo primario: F=estatus sexo (0 hombre, 1 mujer)
• Covariante, variable de control o posible efecto modificador: X=Edad
transformación log it = g(sexo, edad) = β0 + β1sexo + β2edad + β3sexo ⋅ edad
con β3 ≠ 0

Los ODDS RATIO para el sexo, y por tanto sus estimaciones, deben ser
establecidas con referencia a una edad específica.
Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM
Sobre Regresión Logística
En general, si F es el factor de riesgo primario, X la covariante y FX su
interacción: log it(f, x) = g(f, x) = β0 + β1f + β2 x + β3 fx
De manera que si deseamos establecer el odds ratio, comparando los
niveles f1 y f0 , para el valor x, localizamos en primer lugar los logit:
g(f1 , x) = β0 + β1f1 + β2 x + β3 f1x
g(f0 , x) = β0 + β1f0 + β2 x + β3 f0 x

Evaluando su diferencia, obtendremos el logaritmo del ODDS RATIO:


ln ⎡⎣OR(f1 , f0 , x)⎤⎦ = g(f1 , x) − g(f0 , x) = β1(f1 − f0 ) + β3 (f1 − f0 ) ⋅ x

β1(f1 − f0 ) + β3 (f1 − f0 )⋅ x
OR(f1 , f0 , x) = e

Si f1 = f0 +1 , aumento de una unidad en el factor de riesgo, se tendrá


β1 + β3x
OR = e
que compara en alguna medida las probabilidades de que se produzca el
riesgo, si el factor de riesgo cambia en una unidad, y para el valor
específico x de la variable de control o covariante.
Si fuese preciso una estimación por intervalos del logaritmo del odds ratio
o del odds ratio, bajo la interacción, reemplazaremos los parámetros por
sus estimaciones, y tendremos en cuenta las varianzas estimadas:

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Var ˆ ⎤ = (f − f )2ˆ
ˆ ⎡ln(OR) 2
β1 + ⎡⎣(f1 − f0 )x ⎤⎦ ˆ ˆ
β3 + 2(f1 − f0 )xCov(ˆ
β1 , ˆ
β3 )
⎣ ⎦ 1 0


ˆ ˆ ⎤ = (f − f )2ˆ
SE ⎡ln(OR)
2
ˆ
⎣ ⎦ 1 0 β1 + ⎡(f
⎣ 1 − f0 )x ⎦ ˆ
⎤ β3 + 2(f1 − f0 )xCov(ˆ
β1 , ˆ
β3 )

Se obtendría, finalmente, la estructura del dicho intervalo al 1-a de nivel


de confianza: ⎡ˆ ˆ ⎤ ˆ
⎣β1 (f1 − f0 ) + β3 (f1 − f0 )x ⎦ ± z1 − α / 2SE ⎡⎣ln(OR(f1 , f0 , x)⎤⎦

Tomando la exponencial de los extremos, tendríamos la estimación por


intervalos del odds ratio: ⎡ ⎡ ⎤
⎤ ˆ ˆ ˆ ˆ
⎢⎣β1(f1 − f0 ) + β3 (f1 − f0 )x ⎥⎦ ± z1− α /2SE ⎢⎣ln(OR(f1 ,f0 ,x)⎥⎦
e
Como ejemplo ilustrando la interacción, retomemos el estudio sobre el
evento o riesgo: bajo peso al nacer, de la página 17, en el que
discretizamos, con una variable indicadora, la variable predictiva o factor
de riesgo peso de la madre (1, si lwt<110 libras; 0, sino), con el fin de
obtener un efecto discriminatorio mayor de este factor. Una vez cargado el
fichero lowbwt2.dta, recodificamos lwt , tal y como se ha mencionado, y
considerando el modelo con variable respuesta LOW (bajo peso al nacer),
gr_lwt, como factor de riesgo primario; edad, como variable de control, y
la posible interacción gr_lwt x edad.
Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM
Sobre Regresión Logística

Alta
significación del
modelo
completo.

Significación
de la
interacción al
nivel 0.1 **

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
La interacción no es significativa al nivel 0.05 (quizás por falta de potencia)
pero sí al nivel 0.1. Se opta por mantener el término de interacción, ya que
que en regresión logística se adoptan niveles de significación de hasta 0.15
(incluso superiores), en base a lo que los epidemiólogos denominan
“significación clínica”: se prefiere no descartar un factor de riesgo,
realmente importante, en detrimento de incluir covariantes sin
significación estadística.
Para que pueda ver gráficamente la interacción, se representan en la
página siguiente las transformaciones logit para los dos grupos de peso de
la madre (no hay paralelismo):
ˆ
log it _ 1 = ˆ
β0 + ˆ
β1 ⋅ 1 + ˆ
β2age + ˆ
β3 ⋅ 1 ⋅ age = 0.774 − 1.94 − 0.0796age + 0.132age = −1.22 + 0.052age
ˆ
log it _ 0 = ˆ
β0 + ˆ
β1 ⋅ 0 + ˆ
β2age + ˆ
β3 ⋅ 0 ⋅ age = 0.774 − 0.0796age

Además,
ˆ
β1 +ˆ
ˆ 1 β3age
= e−1.94 + 0.132age
OR( versus 0, age) = e

(Para mujeres de 25 años de edad, por ejemplo, el odds de bajo peso al


nacer se multiplica por casi 4 al tener bajo peso la madre, respecto de las
de las madres con peso normal),(en realidad, el cociente de probabilidades
de ocurrencia del evento es prácticamente 8).
Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM
Sobre Regresión Logística

De la gráfica de la transformaciones logit, puede deducirse que el ODDS


para las madres con bajo peso aumenta a medida que aumenta la edad;
mientras que disminuye en el caso de madres con peso normal.
A continuación, retomaremos este caso pero en una situación más
compleja, en tanto que consideramos cuatro variables explicativas y varios
téminos de interacción.
Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM
Sobre Regresión Logística
Con el fichero de datos lowbwt2.dta nos planteamos un modelo de
regresión logística en el que:

Objetivo del análisis: Estudiar la asociación entre bajo


peso al nacer y el peso de la madre, considerando como
covariantes la edad, la raza y el nº de visitas de la madre al
ginecólogo en el 1er trimestre de embarazo.
Variable respuesta (riesgo) (dependiente): Y=LOW
(estatus)
Variable (factor de riesgo) de interés primario (
independiente): LWT=peso madre en el último periodo
menstrual.
Resto de covariantes(variable de control o ajuste):
EDAD(AGE), RAZA(RACE2, RACE3), FTV(visitas ginecólogo).
Términos de interacción: LWTxAGE, LWTxRACE2,
LWTxRACE3, LWTxFTV.

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Con Stata se generan los cuatro términos de interacción y se
procesa el modelo logístico completo con 9 variables predictoras:
(β + β lwt + β age + β ftv + β race2 + β race3 + β lwt _ age + β lwt _ race2 + β lwt _ race3 + β lwta _ ftv)
e 0 1 2 3 4 5 6 7 8 9
π(X) = (β + β lwt + β2age + β3ftv + β4race2 + β5race3 + β6lwt _ age + β7lwt _ race2 + β8lwt _ race3 + β9lwta _ ftv)
1+ e 0 1

No Significación del
modelo completo al
nivel 0.05 pero sí al
nivel 0.15. Causas
posibles: No
significación de
algunas variables
predictoras; falta de
potencia, …

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Con el fin de resolver la aparente no significación del modelo
completo, realizamos en primer lugar un diagrama de dispersión del
LOW versus LWT:

Se observa una
gran variabilidad de
la respuesta LOW,
para casi todos los
valores de LWT
(peso de la madre),
lo que puede
dificultar la relación
funcional entre
LOW y LWT

Una forma de reducir tal variabilidad es la agrupación por


intervalos, es decir, discretizar LWT, con peso bajo y normal,
potenciando su efecto discriminatorio respecto de la respuesta.
Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM
Sobre Regresión Logística
Se observa, lo que confirma la asociación, una correlación
significativa negativa entre LOW y LWT (al aumentar el peso de la
madre, el riesgo de bajo peso al nacer disminuye):

No se detecta correlación
significativa entre LOW y
LWT en ninguno de los dos
grupos: cuando el peso de la
madre es bajo, es indiferente
Discretizamos LWT con 0 para peso lo bajo que sea; y si es
normal, es indiferente su
normal (≥110 libras) y 1 para bajo magnitud. Esto defiende la
peso (<110 libras) y calculamos los discretización de LWT

coeficientes de correlación
condicional :

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
De todo lo anterior, retomamos el modelo completo, reemplazando
LWT por su discretización gr_lwt, en todos los términos, y
recalculamos :
Alta significación
del modelo
completo, una vez
discretizada LWT.

Obedeciendo al
principio jerárquico,
a continuación
contrastamos la
significación en
bloque de los
términos de
interacción, con
ayuga de G.

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Contraste en bloque de la interacción:
⎧H0 : β6 = β7 = β8 = β9 = 0

⎩H1 : al menos un coeficiente es ≠ 0
con
verosimilitud sin las variables gr_lwt_age, gr_lwt_race2, gr_lwt_race3, gr_lwt_ftv
G = −2 ln( )
verosimilitud modelo completo

A continuación,
contraste de
significación en
bloque de AGE y
FTV.

No significativo:
eliminar los
términos de
interacción.

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Contraste en bloque de AGE y FTV:
⎧H0 : β2 = β3 = 0

⎩H1 : al menos un coeficiente es ≠ 0
con
verosimilitud sin las variables age y ftv
G = −2 ln( )
verosimilitud del modelo con gr_lwt, age, ftv, race2 y race3

A continuación,
contraste de
significación en
bloque de race2 y
race3

No significativo:
eliminar las
variables AGE y
FTV.

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Contraste en bloque de race2 y race3:
⎧H0 : β 4 = β5 = 0

⎩H1 : al menos un coeficiente es ≠ 0
con
verosimilitud sin las variables race2 y race3
G = −2 ln( )
verosimilitud del modelo con gr_lwt, race2 y race3

No significativo al
nivel 0.05 pero sí al
nivel 0.1: se
mantienen race2 y
race3

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
Modelo final estimado:

β0 +ˆ
β1 gr _ lwt +ˆ
β4 race2 +ˆ
β5race3)
e e(−1.4 +1.1 gr _ lwt +1.01race2 + 0.499race3)
π(X) =
ˆ =
1+ e

β0 +ˆ
β1 gr _ lwt +ˆ
β4 race2 +ˆ
β5race3) 1 + e(−1.4 +1.1 gr _ lwt +1.01race2 + 0.499race3)
A partir de las predicciones estimadas de la probabilidad del
evento, de las estimaciones de la transformación logit y sus
correspondientes errores estándares, y de las covarianzas de los
estimadores de los coeficientes del modelo final, todo ello
referido a las observaciones; y que se pueden obtener con los
siguientes comandos de Stata:

Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM


Sobre Regresión Logística
• Estimación puntual y por intervalos (95%)y significado de
OR(gr _ lwt = 1versus gr _ lwt = 0, race2, race3)

• Estimación puntual y por intervalos (95%)y significado de


OR(gr _ lwt, raza negraversusraza blanca)

• Estimación puntual y por intervalos (95%)y significado de


OR(gr _ lwt, raza negraversus otras razas)
• Estimación puntual y por intervalos (95%) de probabilidad de
riesgo (bajo peso al nacer) para gr_lwt=0 y raza negra, y
significado: π(gr _ lwt = 0, raza negra)

Indicaciones: tal y como se observa en págs. 14 y 15, conviene


determinar, en primer lugar, las estimaciones de los coeficientes
del modelo y/o transformaciones logit y utilizar, después, las
exponenciales correspondientes.

• PRACTICA FINAL CON ESTUDIO “EVANS” (en hojas


separadas)
Dpto. Matemática Aplicada (Biomatemática) Fac. Biología UCM

También podría gustarte