Está en la página 1de 11

IntroducciónBloque 1Bloque 2ReferenciasRevisión

Regresión no lineal. Regresión logística binaria

Introducción

En investigaciones donde se aplica la estadística, siempre va a surgir la necesidad de calcular la


probabilidad de que ocurra o no un evento. Pensemos en lanzar una moneda y que salga cara o cruz
para tomar determinada decisión, por ejemplo, dar de alta a una persona antes o después de cinco días
de su cirugía. El modelo de regresión logística nos permite evaluar estos eventos. Veremos el modelo de
regresión logística simple y múltiple. Además, realizaremos y analizaremos los resultados de un análisis
de regresión logística múltiple en un caso puntual.

1. Regresión no lineal: regresión logística binaria

Presentación del caso

Investigadores de la Ues21 realizan un estudio paralelo en la ciudad de Córdoba. Para ello,


seleccionaron una muestra de hombres mayores de 40 años. En el momento de iniciar el estudio, los
sujetos no tenían criterios de enfermedad coronaria (EC), pero se observó su evolución durante 4 años y
se registraron aquellos que desarrollaron criterios de EC. Los hombres que han desarrollado EC se
codifican con 1 en la variable EC y los que no han desarrollado EC al finalizar el estudio, con un 0. La
variable fuma se codifica con 0 en los no fumadores y 1 en los fumadores. La edad son los años que
tienen los participantes de la muestra al momento de ser incluidos en el estudio.

Tabla 1: Datos de las investigaciones

EC (Y) Fuma (X1) Edad (X2) EC (Y) Fuma (X1) Edad (X2)

1 1 42 1 1 67

0 1 43 0 1 67

0 1 43 1 1 67

0 1 45 0 1 68

0 1 47 0 0 45

0 1 47 0 0 46

0 1 49 0 0 46

0 1 49 0 0 47

0 1 51 0 0 48

1 1 53 0 0 48

0 1 53 0 0 48

0 1 54 0 0 49

1 1 54 0 0 49

0 1 54 0 0 49

0 1 55 0 0 50
0 1 56 0 0 52

1 1 56 0 0 52

1 1 57 0 0 53

1 1 57 0 0 53

0 1 57 0 0 53

0 1 58 0 0 57

0 1 58 0 0 58

0 1 58 0 0 58

1 1 58 0 0 59

1 1 59 0 0 59

1 1 60 0 0 60

1 1 62 0 0 61

1 1 62 0 0 62

1 1 63 0 0 62

1 1 64 1 0 63

Fuente: Álvarez Cáceres, 2018. 

Debes realizar el análisis de regresión logística para este caso. Ten en cuenta que la variable
dependiente de nuestra investigación es EC y las variables predictoras, también conocidas como
regresoras, son fuma y edad. Asimismo, responde: ¿cuál es la probabilidad de que un hombre de 60
años fumador llegue a sufrir de una enfermedad coronaria? ¿Cuál es la probabilidad de que un hombre
de 60 años de edad no fumador sufra una enfermedad coronaria? Para responder, debes comprobar
antes que el coeficiente de regresión logística sea significativamente distinto de cero, es decir, tenga una
significancia de α = 0,05.

En relación con la regresión logística binaria, supongamos que tenemos un fenómeno que solo toma
dos resultados posibles. Y es uno de estos resultados, lo llamaremos éxito. Por su parte,  es el segundo
resultado complementario, lo llamaremos fracaso. Si el resultado Y ocurre diremos que:

Y = 1

En cambio, si el resultado ocurre expresaremos que:

Y = 0

Cuando un suceso tiene únicamente dos posibilidades de ocurrir, se dice que es dicotómico o binomial.
Supongamos ahora que el conjunto de variables X1,X2,…Xk son independientes e influyen en la
ocurrencia del resultado Y. Podemos modelar la función de densidad de probabilidad de la variable Y
mediante la siguiente ecuación.

Aquí es el número de Euler y x1,x2,…,xk son valores que toman las variables X1,X2,…,Xk,
respectivamente. La función β0+β1x1+⋯+βkxk es una función lineal. Además, β0 es la constante, β1 es el
coeficiente de regresión logística de la primera variable regresora y βk es el coeficiente de regresión
logística de la k-ésima variable. Las variables cualitativas no pueden ser incluidas directamente en el
modelo, por tanto, para cada variable cualitativa se deben generar tantas variables ficticias (dummy)
como categorías tenga la variable menos una. Las variables dicotómicas se pueden incluir en el modelo
de regresión (Álvarez Cáceres, 2018).

Volvamos a nuestra suposición, Y es el resultado de éxito e , el resultado de fracaso. La probabilidad de


que ocurra el suceso es P(Y) y su valor puede oscilar entre cero y uno. Por el contrario, la probabilidad de
que no ocurra el suceso es P( ). Entonces, tenemos:

​P(Y)+ P( ) = 1
Estimación de los coeficientes de regresión logística

El cálculo de los coeficientes es engorroso y existen diversos métodos, pero uno de los más utilizados es
el de máxima verosimilitud. La función de verosimilitud (likelihood) es la siguiente.

También se suele usar el logaritmo neperiano de la verosimilitud:

En la figura 1, se observa el modelo de regresión logística, donde P(Y) es la probabilidad de que ocurra
un suceso, e es el número de Euler y β0+β1x1+⋯+βkxk es una función lineal.

Figura 1: Gráfica de regresión logística

Fuente: Álvarez Cáceres, 2018. 


Los valores de los estimadores de regresión logística son aquellos que hacen máxima la función de
verosimilitud. Se calculan mediante el método de Newton-Raphson, un método de derivaciones sucesivas
e iteraciones. Es importante aclarar que no todos los conjuntos de datos pueden ajustarse a un modelo
de regresión logística. En caso de no ajustarse y si se usan paquetes estadísticos, se hace determinado
número de iteraciones. Si no hay convergencia, se envía un mensaje de no convergencia con el modelo
de regresión logística. Como tamaño mínimo de la muestra es recomendable un tamaño muestral 10
veces mayor al número de variables, incluyendo a la dependiente. Veamos la siguiente ecuación, allí K
representa a las variables independientes.

n ≥ 10(K + 1)

Ejemplo. Hay 4 variables independientes, ¿cuál es el número mínimo de casos? La respuesta es 50.

Los estimadores de los coeficientes de la regresión logística se representa con la letra b minúscula y un
subíndice que indica el número de la variable independiente. Por su parte, realizamos el análisis de
regresión logística, con ayuda del paquete estadístico de InfoStat y obtuvimos los siguientes resultados
(figura 2).

Figura 2: Resultados de regresión logística binaria 

Fuente: elaboración propia con base en el software InfoStat (InfoStat, 2020).

En la tabla 1 de la figura 2, observamos que en la segunda columna «Est.» se pueden apreciar los
coeficientes de regresión logística. Allí, b0 = -11,36   b1 = 2,89    b2 = 0,15. Por lo tanto, el modelo logístico
ajustado es: 

Para hallar la probabilidad cuando fuma = 1 y edad = 60, se reemplazan los valores de fuma = 1 y edad =
60 en el modelo logístico ajustado por el coeficiente b2 con 3 cifras decimales, b2 = 0,147:

De la población muestral, la probabilidad que un hombre de 60 años fumador adquiera una enfermedad
coronaria antes de los próximos 4 años es del 58 %.

Para no entrar en cálculos complicados, al realizar la regresión logística, también se pueden generar los
valores predichos. Estos valores corresponden a las probabilidades de adquirir la enfermedad coronaria
en relación con las variables fuma y edad. Si observamos los resultados de los valores predichos (tabla
2), se puede verificar que la probabilidad de adquirir una EC cuando fuma = 1 y edad = 60 es 0,58, o sea
el 58 %.

Tabla 2: Valores predichos de regresión logística en mayores de 59 años y fumadores

Fuente: elaboración propia con base en el software InfoStat (InfoStat, 2020).

Por su parte, si revisamos los valores predichos obtenidos de la regresión logística (figura 3), podemos
responder también al interrogante que preguntaba sobre la probabilidad de que un hombre de 60 años no
fumador adquiera una enfermedad coronaria antes de los 4 años, o sea fuma = 1 y edad = 60. La
probabilidad entonces es del 7%. Sin embargo, podemos averiguarlo también mediante el modelo
logístico ajustado:

Figura 3: Valores predichos de regresión logística en mayores de 53 años y no fumadores


Fuente: captura de pantalla del software InfoStat (InfoStat, 2020).

Pregunta de múltiple opción

Una investigación tiene por objetivo analizar la influencia del sexo al padecer una insuficiencia renal.
Padecer insuficiencia renal se codificó con Y = 1, mientras que sexo se estableció como sexo = 0 para
mujeres y sexo = 1 para los hombres. El tamaño muestra es 50. Si se aplica la regresión logística en
contraste con el estadístico t, se puede afirmar que tiene:

48 grados de libertad

50 grados de libertad

52 grados de libertad

Prueba de hipótesis en regresión logística

La regresión logística simple se da cuando se tiene solo una variable independiente. Se considera que el
modelo ajustado es válido si el coeficiente de regresión logística poblacional es estadísticamente distinto
de cero y tiene una significación especificada. Para la regresión logística múltiple, se contrasta uno a uno
cada coeficiente de regresión logística poblacional para que sean distintos de cero (Álvarez Cáceres,
2018).

Existen dos hipótesis planteadas. Por un lado, encontramos la hipótesis nula. En ella, el coeficiente de
regresión logística no contribuye al modelo. Veamos su ecuación:

H0: B1 = 0

Por otro lado, tenemos la hipótesis alternativa, cuyo coeficiente de regresión logística sí contribuye al
modelo. Veamos su fórmula:

Hα: B1 ≠ 0

Para contrastar las hipótesis de la regresión logística en nuestro caso de investigación, estudiaremos:

la prueba de Wald;
el incremento del estadístico -2LLo;
el likehihood;
los valores de p.

La prueba t de student

Permite contrastar una a una las hipótesis de que los coeficientes de regresión logística son distintos de
cero. Esta prueba es equivalente a la t de student y resulta al dividir el coeficiente de regresión logística
muestral b1 que se distribuye normal con media B1 por el error estándar muestra lEEb1. Además, tenemos
los coeficientes de regresión logística con n - 2 grados de libertad. Cuando n > 200, la distribución t se
debe aproximar a una distribución normal Z.

Como en el contraste de nuestra prueba, se realiza sobre el valor de B1 = 0 , entonces el estadístico a


contrastar es:

Si b1 es significativamente distinto de cero, la variable independiente influye en la probabilidad que el


suceso de interés ocurra sobre P(Y). Además, si el signo de b1 es positivo, la probabilidad de dicha
característica aumentará conforme aumente. No obstante, disminuirá la P(Y), si el signo es negativo.

2. Evaluemos las hipótesis de nuestro caso

Con el estadístico de prueba t

Para b1 tenemos, por un lado, la hipótesis nula:

H0: B1 = 0

Por otro, la hipótesis alternativa:

Ha:B1 ≠ 0

Para el coeficiente de regresión logística de la variable fuma, veamos los resultados de la figura 4,
particularmente el parámetro X1.

Figura 4: Resultado del coeficiente de regresión logística de la variable fuma

Fuente: elaboración propia con base en el software InfoStat (InfoStat, 2020).

De esta manera, tenemos: b1 = 2,89 y EEb1 = 1,10. Por su parte, el estadístico de prueba es:

El tamaño de la muestra de la investigación es n = 60, por lo tanto, requiere una prueba de dos colas. Los
puntos críticos de t de student son n - 2 = 58 grados de libertad y observamos que   

es   y  

Asimismo, como el valor del estadístico de prueba es   y, por lo tanto, mayor que el valor crítico

, se rechaza la hipótesis nula porque el coeficiente de regresión logística es


significativamente distinto de cero. 

Al usar el valor de p

Recordemos que se rechaza H0 cuando p < α. Por lo tanto, como 0,0088 el valor de p es menor que 0,05,
se rechaza H0. Con una significancia del 5%, podemos decir que existe evidencia que indica que el
coeficiente de regresión logística b1 es significativamente distinto de cero.

Procedemos de igual forma y contrastamos el coeficiente de regresión logística de la edad. Usamos


entonces el valor de p que es 0,0167. Este valor es menor que el nivel de significancia del 0,05, de esta
forma, se rechaza H0. Los dos coeficientes de regresión logística son significativamente distintos de cero.
El estadístico de prueba de Wald

Permite contrastar las hipótesis de que los coeficientes de regresión logística son estadísticamente
significativos. Esta prueba es equivalente a la t de student y resulta de dividir el cuadrado del coeficiente
de regresión logística muestral b1 por el cuadrado del error estándar muestral de b1. El estadístico de
prueba Wald se expresa:

Las hipótesis se contrastan al evaluar el estadístico de prueba Wald. El estadístico se distribuye en chi-
cuadrada con un grado de libertad.

Ahora evaluemos los estadísticos de prueba Wald pertenecientes a nuestro caso. Puedes apreciar los
valores de los estadísticos Wald en los dos coeficientes (fuma y edad) de regresión logística. Las
hipótesis a probar son la hipótesis nula, , y la hipótesis alternativa, . Vemos
así que el estadístico de prueba Wald de la variable independiente fuma es b1  = 6,87. Además, el valor
crítico de chi-cuadrada con un grado de libertad y α = 0,05   es . Como el valor del

estadístico de prueba Wald (6,87) es mayor que el valor crítico , se rechaza la hipótesis nula. El
coeficiente de regresión logística es significativo al nivel del α = 0,05.

De igual forma se evalúa el valor estadístico de prueba Wald para la variable edad. Las hipótesis a
contrastar son la nula, , y la alternativa . El coeficiente b2 = 5,72 y el valor

crítico es también . Como el valor del estadístico de prueba Wald es mayor que el valor
crítico, se rechaza la hipótesis nula. El coeficiente de regresión logística b2 es significativo al nivel del α =
0,05. Los coeficientes b1 y b2 son estadísticamente significativos al α = 0,05.

Evaluación del incremento del estadístico -2LLo

El estadístico de prueba -2LLo es muy importante en la prueba de regresión logística. L es el logaritmo


neperiano y Lo, la verosimilitud. El estadístico que se contrasta es el incremento que sufre el estadístico
al evaluar al inicio del ajuste del modelo -2LLoInicial, y finalizar el ajuste con las variables independientes
en el modelo -2LLoFinal. La diferencia de -2LLoInicial   menos -2LLoFinal se denomina incremento de la
verosimilitud y se denota . Este estadístico tiene una distribución con k grados de libertad y k es
el número de variables independientes. Para una regresión logística simple k = 1.

El estadístico de prueba   =  -2LLoInicial    - (-2LLoFinal) en el contraste de hipótesis aplica de la misma


forma que las pruebas t y de Wald. Es decir, tenemos a la hipótesis nula, , y la
hipótesis alternativa, , las cuales se contrastan  con .

Para nuestro caso, los valores del estadístico -2LLo se pueden apreciar en la figura 5.

Figura 5: Análisis de regresión logística, valores de estadístico -2LLo para las variables
independientes (fuma y edad)

Fuente: captura de pantalla del software InfoStat (InfoStat, 2020).

Para el coeficiente b1, el punto crítico para una distribución tiene un nivel de significancia   α = 0,05 y

dos grados de libertad, por lo tanto, es . Asimismo, el valor del estadístico de prueba

. Como el estadístico de prueba es mucho mayor que el estadístico , se rechaza la


hipótesis nula. Se concluye que el coeficiente de regresión logística b1 es significativo a un nivel α = 0,05.

Si usamos el valor de p de la tabla 2, cada valor de los coeficientes de regresión logística b1 (0,0001) y b2
(0,0064) son menores que α = 0,05. Por lo tanto, se concluye que se rechaza la hipótesis nula. Las dos
variables muestran una relación significativa, α = 0,05, con padecer una enfermedad coronaria antes de
los 4 años.

Video conceptual


Interactive Video

 0:00
/ 0:05  

Referencias

Álvarez Cáceres, R. (2018). Estadística aplicada a las ciencias de la salud. Madrid, España: Ediciones
Díaz de Santos.

Devore, J. L. (2016). Probabilidad y estadística para ingeniería y ciencias. México: Cengage Learning.

InfoStat, (2020). InfoStat (InfoStat/L) [software para análisis estadístico]. Córdoba, Argentina: Diseño de
Experimentos de la Universidad Nacional de Córdoba.

Revisión del módulo

Hasta acá aprendimos

☰ Regresión lineal simple


Muchas veces nos enfrentamos a experimentos que involucran dos variables. Su información se puede
expresar mediante el par (x,y), cuyos componentes no necesariamente caen en una recta en el plano
cartesiano, pero muestran una tendencia que podría describirse como lineal. Esto abre la puerta a
encontrar una cierta recta que se ajuste a tales puntos.
☰ Análisis de varianza para regresión lineal y prueba de hipótesis
Recordemos que la regresión lineal es una técnica que permite hallar una recta que se ajusta a los
puntos (x,y) y realizar predicciones sobre el comportamiento de las variables que han generado esos
puntos. 
☰ Regresión con polinomios
Probablemente, muchos comportamientos de conjuntos de puntos, por ejemplo, , que
son provenientes de variables aleatorias, como X e  Y, no siguen patrones lineales. Sin embargo, puede
existir alguna transformación de estas variables a variables X' o Y' que permita una relación:

Cuando tenemos un modelo que no posee un comportamiento intrínsecamente lineal, podemos abordar
el modelo de regresión con polinomios.

☰ Regresión no lineal: regresión logística binaria


En investigaciones donde se aplica la estadística, siempre va a surgir la necesidad de calcular la
probabilidad de que ocurra o no un evento. Pensemos en lanzar una moneda y que salga cara o cruz
para tomar determinada decisión, por ejemplo, dar de alta a una persona antes o después de cinco días
de su cirugía. El modelo de regresión logística nos permite evaluar estos eventos. 

También podría gustarte