Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
EC (Y) Fuma (X1) Edad (X2) EC (Y) Fuma (X1) Edad (X2)
1 1 42 1 1 67
0 1 43 0 1 67
0 1 43 1 1 67
0 1 45 0 1 68
0 1 47 0 0 45
0 1 47 0 0 46
0 1 49 0 0 46
0 1 49 0 0 47
0 1 51 0 0 48
1 1 53 0 0 48
0 1 53 0 0 48
0 1 54 0 0 49
1 1 54 0 0 49
0 1 54 0 0 49
0 1 55 0 0 50
0 1 56 0 0 52
1 1 56 0 0 52
1 1 57 0 0 53
1 1 57 0 0 53
0 1 57 0 0 53
0 1 58 0 0 57
0 1 58 0 0 58
0 1 58 0 0 58
1 1 58 0 0 59
1 1 59 0 0 59
1 1 60 0 0 60
1 1 62 0 0 61
1 1 62 0 0 62
1 1 63 0 0 62
1 1 64 1 0 63
Debes realizar el análisis de regresión logística para este caso. Ten en cuenta que la variable
dependiente de nuestra investigación es EC y las variables predictoras, también conocidas como
regresoras, son fuma y edad. Asimismo, responde: ¿cuál es la probabilidad de que un hombre de 60
años fumador llegue a sufrir de una enfermedad coronaria? ¿Cuál es la probabilidad de que un hombre
de 60 años de edad no fumador sufra una enfermedad coronaria? Para responder, debes comprobar
antes que el coeficiente de regresión logística sea significativamente distinto de cero, es decir, tenga una
significancia de α = 0,05.
En relación con la regresión logística binaria, supongamos que tenemos un fenómeno que solo toma
dos resultados posibles. Y es uno de estos resultados, lo llamaremos éxito. Por su parte, es el segundo
resultado complementario, lo llamaremos fracaso. Si el resultado Y ocurre diremos que:
Y = 1
Y = 0
Cuando un suceso tiene únicamente dos posibilidades de ocurrir, se dice que es dicotómico o binomial.
Supongamos ahora que el conjunto de variables X1,X2,…Xk son independientes e influyen en la
ocurrencia del resultado Y. Podemos modelar la función de densidad de probabilidad de la variable Y
mediante la siguiente ecuación.
Aquí es el número de Euler y x1,x2,…,xk son valores que toman las variables X1,X2,…,Xk,
respectivamente. La función β0+β1x1+⋯+βkxk es una función lineal. Además, β0 es la constante, β1 es el
coeficiente de regresión logística de la primera variable regresora y βk es el coeficiente de regresión
logística de la k-ésima variable. Las variables cualitativas no pueden ser incluidas directamente en el
modelo, por tanto, para cada variable cualitativa se deben generar tantas variables ficticias (dummy)
como categorías tenga la variable menos una. Las variables dicotómicas se pueden incluir en el modelo
de regresión (Álvarez Cáceres, 2018).
P(Y)+ P( ) = 1
Estimación de los coeficientes de regresión logística
El cálculo de los coeficientes es engorroso y existen diversos métodos, pero uno de los más utilizados es
el de máxima verosimilitud. La función de verosimilitud (likelihood) es la siguiente.
En la figura 1, se observa el modelo de regresión logística, donde P(Y) es la probabilidad de que ocurra
un suceso, e es el número de Euler y β0+β1x1+⋯+βkxk es una función lineal.
n ≥ 10(K + 1)
Ejemplo. Hay 4 variables independientes, ¿cuál es el número mínimo de casos? La respuesta es 50.
Los estimadores de los coeficientes de la regresión logística se representa con la letra b minúscula y un
subíndice que indica el número de la variable independiente. Por su parte, realizamos el análisis de
regresión logística, con ayuda del paquete estadístico de InfoStat y obtuvimos los siguientes resultados
(figura 2).
En la tabla 1 de la figura 2, observamos que en la segunda columna «Est.» se pueden apreciar los
coeficientes de regresión logística. Allí, b0 = -11,36 b1 = 2,89 b2 = 0,15. Por lo tanto, el modelo logístico
ajustado es:
Para hallar la probabilidad cuando fuma = 1 y edad = 60, se reemplazan los valores de fuma = 1 y edad =
60 en el modelo logístico ajustado por el coeficiente b2 con 3 cifras decimales, b2 = 0,147:
De la población muestral, la probabilidad que un hombre de 60 años fumador adquiera una enfermedad
coronaria antes de los próximos 4 años es del 58 %.
Para no entrar en cálculos complicados, al realizar la regresión logística, también se pueden generar los
valores predichos. Estos valores corresponden a las probabilidades de adquirir la enfermedad coronaria
en relación con las variables fuma y edad. Si observamos los resultados de los valores predichos (tabla
2), se puede verificar que la probabilidad de adquirir una EC cuando fuma = 1 y edad = 60 es 0,58, o sea
el 58 %.
Por su parte, si revisamos los valores predichos obtenidos de la regresión logística (figura 3), podemos
responder también al interrogante que preguntaba sobre la probabilidad de que un hombre de 60 años no
fumador adquiera una enfermedad coronaria antes de los 4 años, o sea fuma = 1 y edad = 60. La
probabilidad entonces es del 7%. Sin embargo, podemos averiguarlo también mediante el modelo
logístico ajustado:
Una investigación tiene por objetivo analizar la influencia del sexo al padecer una insuficiencia renal.
Padecer insuficiencia renal se codificó con Y = 1, mientras que sexo se estableció como sexo = 0 para
mujeres y sexo = 1 para los hombres. El tamaño muestra es 50. Si se aplica la regresión logística en
contraste con el estadístico t, se puede afirmar que tiene:
48 grados de libertad
50 grados de libertad
52 grados de libertad
La regresión logística simple se da cuando se tiene solo una variable independiente. Se considera que el
modelo ajustado es válido si el coeficiente de regresión logística poblacional es estadísticamente distinto
de cero y tiene una significación especificada. Para la regresión logística múltiple, se contrasta uno a uno
cada coeficiente de regresión logística poblacional para que sean distintos de cero (Álvarez Cáceres,
2018).
Existen dos hipótesis planteadas. Por un lado, encontramos la hipótesis nula. En ella, el coeficiente de
regresión logística no contribuye al modelo. Veamos su ecuación:
H0: B1 = 0
Por otro lado, tenemos la hipótesis alternativa, cuyo coeficiente de regresión logística sí contribuye al
modelo. Veamos su fórmula:
Hα: B1 ≠ 0
Para contrastar las hipótesis de la regresión logística en nuestro caso de investigación, estudiaremos:
la prueba de Wald;
el incremento del estadístico -2LLo;
el likehihood;
los valores de p.
La prueba t de student
Permite contrastar una a una las hipótesis de que los coeficientes de regresión logística son distintos de
cero. Esta prueba es equivalente a la t de student y resulta al dividir el coeficiente de regresión logística
muestral b1 que se distribuye normal con media B1 por el error estándar muestra lEEb1. Además, tenemos
los coeficientes de regresión logística con n - 2 grados de libertad. Cuando n > 200, la distribución t se
debe aproximar a una distribución normal Z.
H0: B1 = 0
Ha:B1 ≠ 0
Para el coeficiente de regresión logística de la variable fuma, veamos los resultados de la figura 4,
particularmente el parámetro X1.
De esta manera, tenemos: b1 = 2,89 y EEb1 = 1,10. Por su parte, el estadístico de prueba es:
El tamaño de la muestra de la investigación es n = 60, por lo tanto, requiere una prueba de dos colas. Los
puntos críticos de t de student son n - 2 = 58 grados de libertad y observamos que
es y
Asimismo, como el valor del estadístico de prueba es y, por lo tanto, mayor que el valor crítico
Al usar el valor de p
Recordemos que se rechaza H0 cuando p < α. Por lo tanto, como 0,0088 el valor de p es menor que 0,05,
se rechaza H0. Con una significancia del 5%, podemos decir que existe evidencia que indica que el
coeficiente de regresión logística b1 es significativamente distinto de cero.
Permite contrastar las hipótesis de que los coeficientes de regresión logística son estadísticamente
significativos. Esta prueba es equivalente a la t de student y resulta de dividir el cuadrado del coeficiente
de regresión logística muestral b1 por el cuadrado del error estándar muestral de b1. El estadístico de
prueba Wald se expresa:
Las hipótesis se contrastan al evaluar el estadístico de prueba Wald. El estadístico se distribuye en chi-
cuadrada con un grado de libertad.
Ahora evaluemos los estadísticos de prueba Wald pertenecientes a nuestro caso. Puedes apreciar los
valores de los estadísticos Wald en los dos coeficientes (fuma y edad) de regresión logística. Las
hipótesis a probar son la hipótesis nula, , y la hipótesis alternativa, . Vemos
así que el estadístico de prueba Wald de la variable independiente fuma es b1 = 6,87. Además, el valor
crítico de chi-cuadrada con un grado de libertad y α = 0,05 es . Como el valor del
estadístico de prueba Wald (6,87) es mayor que el valor crítico , se rechaza la hipótesis nula. El
coeficiente de regresión logística es significativo al nivel del α = 0,05.
De igual forma se evalúa el valor estadístico de prueba Wald para la variable edad. Las hipótesis a
contrastar son la nula, , y la alternativa . El coeficiente b2 = 5,72 y el valor
crítico es también . Como el valor del estadístico de prueba Wald es mayor que el valor
crítico, se rechaza la hipótesis nula. El coeficiente de regresión logística b2 es significativo al nivel del α =
0,05. Los coeficientes b1 y b2 son estadísticamente significativos al α = 0,05.
Para nuestro caso, los valores del estadístico -2LLo se pueden apreciar en la figura 5.
Figura 5: Análisis de regresión logística, valores de estadístico -2LLo para las variables
independientes (fuma y edad)
Para el coeficiente b1, el punto crítico para una distribución tiene un nivel de significancia α = 0,05 y
dos grados de libertad, por lo tanto, es . Asimismo, el valor del estadístico de prueba
Si usamos el valor de p de la tabla 2, cada valor de los coeficientes de regresión logística b1 (0,0001) y b2
(0,0064) son menores que α = 0,05. Por lo tanto, se concluye que se rechaza la hipótesis nula. Las dos
variables muestran una relación significativa, α = 0,05, con padecer una enfermedad coronaria antes de
los 4 años.
Video conceptual
Interactive Video
0:00
/ 0:05
Referencias
Álvarez Cáceres, R. (2018). Estadística aplicada a las ciencias de la salud. Madrid, España: Ediciones
Díaz de Santos.
Devore, J. L. (2016). Probabilidad y estadística para ingeniería y ciencias. México: Cengage Learning.
InfoStat, (2020). InfoStat (InfoStat/L) [software para análisis estadístico]. Córdoba, Argentina: Diseño de
Experimentos de la Universidad Nacional de Córdoba.
Cuando tenemos un modelo que no posee un comportamiento intrínsecamente lineal, podemos abordar
el modelo de regresión con polinomios.