DG06 RegLogisticaSimple 2023 Resolucion

Metodología Científica II – Curso 2023
Departamento de Métodos Cuantitativos
Ejercicios para Discusión Grupal

Sesión 6
Regresión Logística Simple
1. ¿Qué valores toma la variable dependiente cuando se usa un modelo de regresión logística (para
los casos biomédicos usuales)?
Para los casos que vemos en este curso, la variable dependiente es una variable dicotómica cuyos
valores se codifican como 0 y 1. El caso más común es que la variable describa la ocurrencia de una
patología o un factor y que se codifique la presencia como 1 y la ausencia como 0. Esta regresión se
conoce como Regresión Logística Binaria
Existe la posibilidad de utilizar otros modelos de regresión logística en los que la variable dependiente
es una variable categórica nominal o incluso ordinal, con más de dos categorías. Estas regresiones no
las estudiaremos en el curso.
2. ¿Cómo son las variables explicativas (en cuanto a los valores que pueden tomar)?
Las variables explicativas podrán ser tanto cualitativas, como cuantitativas. En el caso de las
cualitativas, si son dicotómicas, se codificarán para el ajuste de la regresión de igual forma que la
variable dependiente, es decir como 1 y 0. En caso de ser variables cualitativas de más de dos
categorías, se crearán variables auxiliares que permitirán codificar todas las categorías. El
procedimiento se verá en los ejemplos de regresión logística múltiple.
3. En un cierto estudio caso-control se ha analizado el eventual riesgo generado por ciertas variables
(A y B) en relación con la ocurrencia de un cierto cáncer (C). Ambas variables A y B son dicotómicas
(presencia (1) o ausencia (cero) del factor). En la tabla siguiente se muestra el resultado del ajuste
de un modelo de regresión logística inicial que considera únicamente al factor A.
Variable Coeficiente Error Estándar Valor-p

Intercepto -0.11 0.11
Factor A 0.78 0.10 <0.0004
a. Escriba la ecuación correspondiente al modelo resultante.

b. Calcule el OR para el factor A, explique el significado
c. Calcule el intervalo de confianza al 95% del OR para el factor A
d. Interprete los resultados
e. ¿Le parece que el valor del OR es “crudo” o “ajustado”? Explique
La ecuación para el modelo ajustado toma la siguiente forma:

𝑝̂
𝐿𝑛 ( ) = 𝐿𝑜𝑔𝑖𝑡(𝑝̂ ) = −0.11 + 0.78 × 𝐹𝑎𝑐𝑡𝑜𝑟 𝐴
1 − 𝑝̂
Como el Factor A se codifica como 1 para los individuos que lo presentan y como 0 para aquellos que
no lo tienen, la diferencia esperada en el logit entre dos individuos que solo se diferencian en tener o
no el Factor A, será 0.78. Para un individuo que presenta el factor A, el logit esperado es -
0.11+0.78=0.67, mientras que para el sujeto que no presenta el factor A, el logit esperado es: -.0.11;
de ahí que la diferencia es 0.78
El logit es el logaritmo del odds de que ocurra el cáncer. Si comparamos los odds para pacientes con
el factor A y sin el factor A, se puede obtener el odds ratio del factor A para la ocurrencia del cancer:
̂𝐴 ̂
𝑂𝑑𝑑𝑠 𝑒 ln (𝑂𝑑𝑑𝑠𝐴 ) ̂ ̂
̂ =
𝑂𝑅 = = 𝑒 ln(𝑂𝑑𝑑𝑠𝐴 )−ln (𝑂𝑑𝑑𝑠𝐴− ) = 𝑒 (−0.11+0.78−(−0.11)) = 𝑒 0.78 = 2.18
̂
𝑂𝑑𝑑𝑠𝐴− 𝑒 ln ̂
(𝑂𝑑𝑑𝑠𝐴− )
(en la ecuación anterior utilizamos A para la presencia del factor A y A- para la ausencia del factor A).
En definitiva, como se observa del despeje anterior, el OR puede estimarse como la exponencial del
coeficiente estimado para la variable.
Dado que en la tabla de coeficientes estimados del modelo se presenta el error estándar del
coeficiente estimado, se puede también calcular el intervalo de confianza para el OR hallado:
̂ )−1.96×𝐸𝐸(ln(𝑂𝑅
̂ )) ln(𝑂𝑅
𝐼𝐶95% = (𝑒 ln(𝑂𝑅 ; 𝑒 ̂ )−1.96×𝐸𝐸(ln(𝑂𝑅
̂ ))
) = (𝑒 0.78−1.96×0.10 ; 𝑒 0.78+1.96×0.10 )
𝐼𝐶95% = (1.79; 2.65)
Cabe recordar que el intervalo de confianza del OR es simétrico en la escala logarítmica, pero una vez
aplicada la exponencial no se conserva esa simetría. Además, este intervalo asume que los
estimadores (𝛽̂) distribuyen en forma normal, por eso se utiliza el ±1.96 para multiplicar el Error
Estándar del estimador, para construir el intervalo de confianza (valor de la distribución normal
estándar para una probabilidad central de 95%).
Para el cálculo del valor-p para el contraste de hipótesis sobre el estimador, podemos mantener el
mismo supuesto sobre la distribución de los estimadores. De esta forma, en el contraste, la hipótesis
nula es que β=0 y la hipótesis alternativa es que β≠0. El estadístico para esta prueba será:
𝛽̂ − 0 0.78 − 0
𝑧∗ = = = 7.8
𝐸𝐸(𝛽̂ ) 0.10
De aquí que el valor-p pueda calcularse como:
valor-p = 𝑃(|𝑍| ≥ 𝑧 ∗ ) = 𝑃(|𝑍| ≥ 7.8) < 0.0004

Si bien se planteó antes la interpretación del modelo en términos de las diferencias esperadas en el
logit, lo más práctico para interpretar desde el punto de vista biológico o epidemiológico los
resultados, es interpretar el OR estimado. Este se interpreta de la misma forma que los OR obtenidos
a partir de tablas de doble entrada, es decir que un OR=2.18 implica que aquellas personas que
presentan el factor A presentan chances significativamente (considerar aquí el intervalo de confianza
y el valor-p obtenido) más altas de presentar el cáncer en estudio, que las personas que no presenten
ese factor. Siendo un poco más concretos, el valor de 2.18 estimado para el OR, implica que quienes
presentan el factor A tienen aproximadamente el doble de chances de sufrir el cáncer en estudio,
comparados con quienes no presentan el factor A.
El valor del OR estimado en este ejemplo es un valor crudo, ya que no toma en consideración ninguna
otra variable.
4. En el presente estudio se ha explorado a través de un modelo de regresión logística el desarrollo

de fenómenos alérgicos en niños en relación con diferentes variables. El valor de esta variable (Y)
fue 1 si el niño padecía de alergia antes de los 6 años y 0 (cero) si no se verificaba esta condición.
En este caso se muestra la relación con la variable, X1: antecedentes alérgicos en la madre (X1=1
si la madre tenía antecedentes alérgicos y X1=0 si no tenía)
Variable Coeficiente Error Estándar Valor-p

X1 0.532 0.141 <0.0004
a. Escriba el modelo que expresan estos resultados

b. Interprete el coeficiente para X1
c. Plantee la hipótesis a la cual refiere el valor -p
d. ¿Cuál es el valor del OR para X1?
e. Concluya sobre los resultados obtenidos.
El modelo ajustado queda planteado de la siguiente forma:

𝑝̂
𝐿𝑛 ( ) = 𝐿𝑜𝑔𝑖𝑡(𝑝̂ ) = −1.362 + 0.532 × 𝑋1
1 − 𝑝̂
El coeficiente hallado, de valor positivo, implica que aquellos niños cuyas madres presentan
antecedentes alérgicos, tendrán más chances de desarrollar fenómenos alérgicos, en comparación con
niños cuyas madres no presentan antecedentes alérgicos. Para evaluar si el coeficiente estimado es
significativamente distinto de cero (caso en el que no habría asociación entre los antecedentes de la
madre y el desarrollo de fenómenos alérgicos en el niño), se puede plantear un contraste de hipótesis
cuyas hipótesis serán:
𝐻0 : 𝛽 = 0
𝐻𝐴 : 𝛽 ≠ 0
Este es el contraste al que corresponde el valor-p previsto en la tabla. Para obtener el valor-p se calcula
el estadístico de prueba igual que en el ejercicio pasado y se supone que este estadístico tiene
distribución aproximadamente normal.
𝛽̂ − 0 0.532 − 0
𝑧∗ = = = 3.77
̂
𝐸𝐸(𝛽 ) 0.141
valor-p = 𝑃(|𝑍| ≥ 𝑧 ∗ ) = 𝑃(|𝑍| ≥ 3.77) < 0.0004

El OR puede obtenerse simplemente como la exponencial del coeficiente estimado para la variable
antecedentes alérgicos de la madre (ver ejercicio anterior para el despeje completo):
̂ = 𝑒 0.532 = 1.70
𝑂𝑅
Se puede también calcular el intervalo de confianza al 95% para este OR:

̂ )−1.96×𝐸𝐸(ln(𝑂𝑅
̂ )) ln(𝑂𝑅
𝐼𝐶95% = (𝑒 ln(𝑂𝑅 ; 𝑒 ̂ )−1.96×𝐸𝐸(ln(𝑂𝑅
̂ ))
) = (𝑒 0.532−1.96×0.141 ; 𝑒 0.532+1.96×0.141 )
𝐼𝐶95% = (1.29; 2.24)
De los resultados planteados puede concluirse que los antecedentes alérgicos de la madre se asocian
con mayores (coeficiente positivo, OR mayor que 1) chances de desarrollar fenómenos alérgicos en el
niño. Esta asociación es estadísticamente significativa si la evaluamos a un nivel de significación del
5% (valor-p < 0.05; Intervalo de confianza del OR que no incluye al 1). Finalmente, si interpretamos el
valor obtenido para la estimación del OR, se puede decir que aquellos niños cuyas madres tienen
antecedentes alérgicos tendrán un 70% más de chances de presentar fenómenos alérgicos, en
comparación con aquellos cuyas madres no tienen antecedentes alérgicos.
5. Cierto investigador estudió la asociación entre la condición de fumador y la presencia de estenosis

aórtica mediante un modelo de regresión logística. La variable “Fumador” se codificó una variable
dicotómica: 1=fumador, 0: no fumador. La estenosis se codificó de la manera usual en este tipo de
regresión. Los resultados del modelo se muestran en la tabla siguiente.
Variable Coeficiente Error Estándar Z Valor-p

Fumador 0.386 0.276 1.40 0.16
a. Escriba el modelo
b. Interprete el coeficiente
c. Complete la tabla para la variable independiente (considere que la distribución del
estadístico es normal para el cálculo de la significación)
d. Enuncie la hipótesis para el coeficiente y concluya
e. Calcule e interprete el OR y su intervalo al 95% de confianza
𝑝̂
𝐿𝑛 ( ) = 𝐿𝑜𝑔𝑖𝑡(𝑝̂ ) = −0.216 + 0.386 × 𝐹𝑢𝑚𝑎𝑑𝑜𝑟
1 − 𝑝̂
Para completar la tabla, se plantea el contraste de hipótesis sobre el coeficiente de la variable
independiente. Este contraste es el mismo que el planteado en los ejercicios anteriores:
𝐻0 : 𝛽 = 0
𝐻𝐴 : 𝛽 ≠ 0
𝛽̂ − 0 0.386 − 0
𝑧∗ = = = 1.40
𝐸𝐸(𝛽̂ ) 0.276
valor-p = 𝑃(|𝑍| ≥ 𝑧 ∗ ) = 𝑃(|𝑍| ≥ 1.40) = 0.16

El OR puede obtenerse simplemente como la exponencial del coeficiente estimado para la variable
independiente (ver ejercicio 3 para el despeje completo). El cálculo del intervalo de confianza también
sigue el mismo planteo que en ejercicios anteriores:
̂ = 𝑒 0.386 = 1.47
𝑂𝑅
̂ )−1.96×𝐸𝐸(ln(𝑂𝑅
̂ )) ln(𝑂𝑅
𝐼𝐶95% = (𝑒 ln(𝑂𝑅 ; 𝑒 ̂ )−1.96×𝐸𝐸(ln(𝑂𝑅
̂ ))
) = (𝑒 0.386−1.96×0.276 ; 𝑒 0.386+1.96×0.276 )
𝐼𝐶95% = (0.86; 2.53)
En este caso observamos que si bien el coeficiente estimado para la variable fumador sugiere que
existe una asociación positiva entre el fumar y el desarrollo del cáncer en estudio (𝛽̂ > 0), si
consideramos la significación estadística (a un nivel de 5%), no existe evidencia suficiente para
descartar la hipótesis nula de ambas variables son independientes (β=0). Esto puede observarse tanto
en el valor-p hallado en el contraste, como en que el intervalo de confianza al 95% para el OR contiene
al 1 (que es equivalente a decir que el intervalo de confianza para β incluye al 0). Por lo tanto,
concluimos que no hay evidencia estadísticamente significativa de asociación entre el fumar y el
desarrollo del cáncer en estudio.

DG06 RegLogisticaSimple 2023 Resolucion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

DG06 RegLogisticaSimple 2023 Resolucion

Cargado por

Copyright:

Formatos disponibles

Metodología Científica II – Curso 2023

Departamento de Métodos Cuantitativos

Ejercicios para Discusión Grupal

Variable Coeficiente Error Estándar Valor-p

a. Escriba la ecuación correspondiente al modelo resultante.

La ecuación para el modelo ajustado toma la siguiente forma:

De aquí que el valor-p pueda calcularse como:

valor-p = 𝑃(|𝑍| ≥ 𝑧 ∗ ) = 𝑃(|𝑍| ≥ 7.8) < 0.0004

4. En el presente estudio se ha explorado a través de un modelo de regresión logística el desarrollo

Variable Coeficiente Error Estándar Valor-p

a. Escriba el modelo que expresan estos resultados

El modelo ajustado queda planteado de la siguiente forma:

valor-p = 𝑃(|𝑍| ≥ 𝑧 ∗ ) = 𝑃(|𝑍| ≥ 3.77) < 0.0004

Se puede también calcular el intervalo de confianza al 95% para este OR:

5. Cierto investigador estudió la asociación entre la condición de fumador y la presencia de estenosis

Variable Coeficiente Error Estándar Z Valor-p

valor-p = 𝑃(|𝑍| ≥ 𝑧 ∗ ) = 𝑃(|𝑍| ≥ 1.40) = 0.16

𝐼𝐶95% = (0.86; 2.53)

También podría gustarte