Está en la página 1de 10

UNIVERSIDAD NACIONAL

TORIBIO RODRIGUEZ DE MENDOZA DE AMAZONAS

FACULTAD DE CIENCIAS DE LA SALUD


ESCUELA PROFESIONAL DE ESTOMATOLOGÍA
Tema:
Regresión logística simple y múltiple
Alumnos:
MANOSALVA GUEVARA, Jhenniffer Virginia
MENDOZA RIMARACHIN, Ada Ledy
MUNDACA NUÑEZ, Mayra Rubby
PIZARRO BAZAN, Luis Fernando
PIZARRO ZAVALETA, Carlos Eduardo
RIVASPLATA BAUTISTA, Karol Mylena
ROSAS CARRASCO, Tanya
Docente:
Mg. MENDOZA QUIJANO, Elito
Curso:
Bioestadística

CHACHAPOYAS – PERÚ

2022
REGRESIÓN LOGÍSTICA SIMPLE Y MÚLTIPLE.

I. INTRODUCCIÓN

La regresión logística forma parte del conjunto de métodos estadísticos que caen bajo tal
denominación y es la variante que corresponde al caso en que se valora la contribución de
diferentes factores en la ocurrencia de un evento simple.

El análisis de regresión logística es un modelo matemático formulado con el propósito de


predecir el comportamiento de una variable dependiente en función de una o más variables
independientes.

El método de regresión logística es el recomendado cuando se trabaja con una variable


cualitativa con dos niveles, tanto con uno (regresión logística simple) como con múltiples
predictores (regresión logística múltiple).

Con el nombre de modelos de regresión se incluyen un conjunto de técnicas estadísticas que


tratan de explicar cómo se modifica la variable dependiente o resultado, cuando cambian otra u
otras variables, denominadas independientes o predictoras. Lo que caracteriza en principio a las
distintas clases de modelos de regresión es la naturaleza de la variable dependiente; así, con
variables continuas la clase de modelos de regresión lineal es la más utilizada; con variables
dicotómicas lo es el modelo de regresión logística.

La regresión logística es uno de los instrumentos estadísticos más expresivos y versátiles de que
se dispone para el análisis de datos en clínica y epidemiología. Su origen se remonta a la década
de los sesenta (Confield, Gordon y Smith 1961); su uso se universaliza y expande desde
principios de los ochenta debido, especialmente, a las facilidades informáticas con que se cuenta
desde entonces.
II. OBJETIVOS DE LA REGRESIÓN LOGÍSTICA

El objetivo primordial de esta técnica es el de modelar como influyen las variables regresoras en
la probabilidad de ocurrencia de un suceso particular.
Sistemáticamente tiene dos objetivos:
1. Investigar cómo influye en la probabilidad de ocurrencia de un suceso, la presencia o no de
diversos factores y el valor o nivel de los mismos.
2. Determinar el modelo más parsimonioso y mejor ajustado que siendo razonable describa la
relación entre la variable respuesta y un conjunto de variables regresoras.

III. MARCO TEORICO

3.1. ¿QUÉ ES LA REGRESIÓN LOGÍSTICA?

Los métodos de regresión de variable dependiente cualitativa abarcan diferentes modelos que
tratan de explicar y predecir una característica cualitativa a partir de los datos de otras variables
conocidas, bien cuantitativas o cualitativas que actúan como variables explicativas.
La característica que se quiere explicar puede ser:

a) Una cualidad que puede únicamente tomar dos modalidades (modelos binomiales), son las
más frecuentemente utilizadas.

b) Una cualidad que puede tomar más de dos modalidades diferentes, exhaustivas y mutuamente
excluyentes (modelos multinomiales)

c) Una característica con varias modalidades que presentan entre ellas un orden natural
(modelos ordenados)

d) La característica a explicar corresponde a una decisión que puede suponer decisiones


encadenadas (modelos anidados).

Como es conocido, el concepto de regresión hace referencia a la ley experimental o fórmula


matemática que traduce la relación entre variables correlacionadas. Generalmente cuando se
quiere poner una variable en función de otra (o de otras), se acude al bien conocido recurso de la
regresión lineal (simple o múltiple). Esta función utiliza normalmente el método de mínimos
cuadrados y funciona fluidamente desde el punto de vista aritmético.

Pero cuando la variable a explicar sólo puede tomar dos valores, es decir, la ocurrencia o no de
un cierto proceso, al evaluar la función para valores específicos de las variables independientes
se obtendrá un número que será diferente de 1 y de O (los valores posibles de la variable
dependiente), lo cual carece de todo sentido. En este caso, la regresión lineal debe ser descartada,
en cambio la RL se ajusta adecuadamente a esta situación.

3.1.1 ¿DÓNDE Y CUÁNDO APLICARLA?

La regresión logística se utiliza cuando queremos investigar si una o varias variables explican
una variable dependiente que toma un carácter cualitativo. Una de las ventajas de la RL es que
permite el manejo de múltiples variables independientes (también llamadas covariables) con un
número reducido de casos. Como hemos mencionado anteriormente la RL tiene una doble
función: explicativa y predictiva.

Su utilización en la predicción es el uso más frecuente y extendido, enmarcado en los diferentes


tipos de estudios, ya sean típicamente prospectivos con finalidad pronóstica (epidemiología
clínica), estudios prospectivos con finalidad analítica (cohortes), estudios caso-control (riesgo
atribuible) y en los ensayos clínicos. Quisiéramos en este punto resaltar que la RL es un
instrumento muy útil para facilitar el tratamiento cuantitativo de los datos, pero no podemos
aislarlo del diseño del estudio, so pena de cometer errores que nos conducirían a conclusiones
erróneas.

3.1.2. VARIABLES DUMMY

Las variables explicativas de tipo nominal deben ser incluidas en el modelo señalando que tienen
esa condición. Se trata de variables que no son numéricas (por ejemplo: estado civil o raza) o
que, aunque los valores que contiene aparezcan como números, son en realidad códigos o se
quieren manejar como tales (por ejemplo, si se asigna el valor 1 para indicar que se trata de un
sujeto soltero, el valor 2 para un divorciado, etc.). Supongamos que la variable en cuestión tiene
k clases o categorías (donde k≥2). Epidat 4 construye automáticamente k-1 variables dummy
para manejar esta situación.
El ajuste del modelo se hace de manera usual por mínimos cuadrados:

3.1.3. FUNCIÓN DE VEROSIMILITUD

Cualquier variable dependiente, toma valores dependiendo de los que tengan las variables de las
que depende.

3.1.4. DIFERENCIA ENTRE REGRESIÓN LINEAL Y REGRESIÓN LOGÍSTICA.

La Regresión Lineal proporciona una salida continua, pero la Regresión Logística proporciona
una salida discreta.

3.2. REGRESION LOGISTICA BINARIA.

Los modelos de regresión logística binaria resultan ser los de mayor interés ya que la mayor parte
de las circunstancias analizadas en las ciencias experimentales responden a este modelo
(presencia o no de una cualidad, éxito o fracaso, etc.).

 Variable dependiente una categoría (dicotómica)


 Variable independiente una categoría (dicotómica) y numéricas (discreta y continua)

3.2.1. SUPUESTO DEL MODELO DE REGRESIÓN LOGÍSTICA

La regresión logística comparte algunos supuestos con la regresión usual.

• Linealidad: en regresión lineal asumimos que la variable respuesta tiene una relación
lineal con las variables predictoras.

• Independencia de los errores: los distintos casos de los datos no deben estar
relacionados, por ejemplo, no podemos medir a la misma gente en diferentes puntos del
tiempo.

• Multicolinealidad: las variables predictoras no deben estar altamente correlacionadas.


3.3. REGRESIÓN LOGÍSTICA SIMPLE

3.3.1 CONCEPTO:

La Regresión Logística Simple, desarrollada por David Cox en 1958, es un método de regresión
que permite estimar la probabilidad de una variable cualitativa binaria en función de una variable
cuantitativa. Una de las principales aplicaciones de la regresión logística es la de clasificación
binaria, en el que las observaciones se clasifican en un grupo u otro dependiendo del valor que
tome la variable empleada como predictor. Por ejemplo, clasificar a un individuo desconocido
como hombre o mujer en función del tamaño de la mandíbula.

Es importante tener en cuenta que, aunque la regresión logística permite clasificar, se trata de un
modelo de regresión que modela el logaritmo de la probabilidad de pertenecer a cada grupo. La
asignación final se hace en función de las probabilidades predichas.

La existencia de una relación significativa entre una variable cualitativa con dos niveles y una
variable continua se puede estudiar mediante otros test estadísticos tales como t-test o ANOVA.

Sin embargo, la regresión logística permite además calcular la probabilidad de que la variable
dependiente pertenezca a cada una de las dos categorías en función del valor que adquiera la
variable independiente.

Supóngase que se quiere estudiar la relación entre los niveles de colesterol y los ataques de
corazón. Para ello, se mide el colesterol de un grupo de personas y durante los siguientes 20 años
se monitoriza que individuos han sufrido un ataque. Un t-test entre los niveles de colesterol de las
personas que han sufrido ataque vs las que no lo han sufrido permitiría contrastar la hipótesis de
que el colesterol y los ataques al corazón están asociados. Si además se desea conocer la
probabilidad de que una persona con un determinado nivel de colesterol sufra un infarto en los
próximos 20 años, o poder conocer cuánto tiene que reducir el colesterol un paciente para no
superar un 50% de probabilidad de padecer un infarto en los próximos 20 años, se tiene que
recurrir a la regresión logística.

En la regresión lineal simple, se modela el valor de la variable dependiente Y en función del


valor de la variable independiente X. Sin embargo, en la regresión logística, se modela la
probabilidad de que la variable respuesta Y pertenezca al nivel de referencia 1 en función del
valor que adquieran los predictores, mediante el uso de LOG of ODDs.

Supóngase que la probabilidad de que un evento sea verdadero es de 0.8, por lo que la
probabilidad de evento falso es de 1 - 0.8 = 0.2. Los ODDs o razón de probabilidad de verdadero
se definen como el ratio entre la probabilidad de evento verdadero y la probabilidad de evento
falso pq. En este caso los ODDs de verdadero son 0.8 / 0.2 = 4, lo que equivale a decir que se
esperan 4 eventos verdaderos por cada evento falso.

La trasformación de probabilidades a ODDs es monotónica, si la probabilidad aumenta también


lo hacen los ODDs, y viceversa. El rango de valores que pueden tomar los ODDs es de [0,∞].
Dado que el valor de una probabilidad está acotado entre [0,1] se recurre a una trasformación
logit (existen otras) que consiste en el logaritmo natural de los ODDs. Esto permite convertir el
rango de probabilidad previamente limitado a [0,1] a [−∞,+∞].

Si el p-value es menor que el nivel de significancia establecido, podemos deducir que hay una
relación entre el predictor X y la probabilidad de éxito.

La ordenada en el origen β1 estimada en el modelo no suele ser de interés.

3.3.2 Bondad de ajuste del modelo.


‐ Se utilizan: Chi-cuadrado - Hosmer-Lemeshow
Significación de chi-cuadrado del modelo en la prueba ómnibus: Si la significación es menor
de 0,05 indica que el modelo ayuda a explicar el evento, es decir, las variables independientes
explican la variable dependiente.
Evalúa la bondad de ajuste del modelo construyendo una tabla de contingencia para la prueba de
Hosmer-Lemeshow.

3.3.3 Resumen del modelo.


R-cuadrado de Cox y Snell, y R-cuadrado de Nagelkerke: Indica la parte de la varianza de la
variable dependiente explicada por el modelo. Hay dos R-cuadrados en la regresión logística, y
ambas son válidas. Se acostumbra a decir que la parte de la variable dependiente explicada por el
modelo oscila entre la R-cuadrado de Cox y Snell y la R-cuadrado de Nagelkerke. Cuanto más
alto es la R-cuadrado más explicativo es el modelo, es decir, las variables independientes
explican la variable dependiente.

3.4. REGRESIÓN LOGÍSTICA MÚLTIPLE.

La regresión logística permite discriminar entre dos poblaciones, en términos de un conjunto de


variables numéricas, en el papel de predictores. También para representar probabilidades de
ocurrencia de un evento, como función de una serie de variables predictoras.

Por último, sirve para representar una variable asociada a un fenómeno, que dependa de un
conjunto de variables predictoras, cuyo comportamiento sea aproximadamente lineal, dentro de
un cierto rango de los predictores, y tiendan a mantenerse constantes fuera de el. De este modo el
modelo de regresión logística resulta más realista que un modelo de regresión lineal.

Es irreal que la relación entre una variable respuesta y un grupo de predictores sea de tipo lineal,
en todo el rango de estas últimas. Los predictores pueden ser también variables dicotómicas, en
tal caso se utilizan variables dummy para representarlas.

3.3.2 Bondad de ajuste del modelo.


‐ Se utilizan: Chi-cuadrado - Hosmer-Lemeshow
Significación de chi-cuadrado del modelo en la prueba ómnibus: Si la significación es menor
de 0,05 indica que el modelo ayuda a explicar el evento, es decir, las variables independientes
explican la variable dependiente.
Evalúa la bondad de ajuste del modelo construyendo una tabla de contingencia para la prueba de
Hosmer-Lemeshow.

3.3.3 Resumen del modelo.


R-cuadrado de Cox y Snell, y R-cuadrado de Nagelkerke: Indica la parte de la varianza de la
variable dependiente explicada por el modelo. Hay dos R-cuadrados en la regresión logística, y
ambas son válidas. Se acostumbra a decir que la parte de la variable dependiente explicada por el
modelo oscila entre la R-cuadrado de Cox y Snell y la R-cuadrado de Nagelkerke. Cuanto más
alto es la R-cuadrado más explicativo es el modelo, es decir, las variables independientes
explican la variable dependiente. La regresión logística múltiple es una extensión del modelo de
regresión logística simple en el que se predice una respuesta binaria en función de múltiples
predictores, que pueden ser tanto continuos como categóricos.

IV. CONCLUSIONES

 Los modelos de regresión logística aplicados a las ciencias de la salud nos permiten
analizar los resultados en términos explicativos y predictivos, pudiendo conocer la fuerza
de asociación mediante los OR de los factores de riesgo con el efecto, estudiado de una
manera independiente y conocer el valor predictivo de cada uno de ellos o bien del
modelo en su conjunto. Pero hay que ser conscientes de que son una herramienta más en
el método científico y que no subsanan problemas de diseño del estudio. Su uso, cada vez
más frecuente debe ir precedido de una reflexión crítica tanto de la elección de las
variables incluidas en el modelo como del análisis de sus resultados.
 El algoritmo de regresión logística es uno de los más utilizados actualmente en
aprendizaje automático. Siendo su principal aplicación los problemas de clasificación
binaria. Es un algoritmo simple en el que se pueden interpretar fácilmente los resultados
obtenidos e identificar por qué se obtiene un resultado u otro. A pesar de su simplicidad
funciona realmente bien en muchas aplicaciones y se utiliza como referencia de
rendimiento. Por lo tanto, este es un algoritmo con el que los científicos de datos han de
estar familiarizados. Ya que comprender los conceptos básicos de la regresión logística
son útiles para la entender de otras técnicas más avanzadas.
 Entre sus ventajas se puede destacar su simplicidad y que sus resultados son fácilmente
interpretables. Por otro lado, entre sus desventajas se puede destacar que no funciona bien
en problemas que no son linealmente separables. Además, se ha presentado las técnicas
que se pueden utilizar para utilizar la regresión logística en problemas de clasificación
con múltiples clases.
 La regresión logística es una técnica estadística muy útil para sacar perfiles y sobre todo
para identificar las causas de los fenómenos, algo importante si queremos incidir o
intervenir sobre la realidad social. Este modelo nos sirve para predecir los datos, y tener
un mejor porcentaje de confiabilidad.
V. REFERENCIAS BIBLIOGRAFICAS

 CAPÍTULO 2 MODELO DE REGRESIÓN LOGÍSTICA 2.1 INTRODUCCIÓN. (n.d.).


https://sisbib.unmsm.edu.pe/bibvirtualdata/Tesis/Basic/Salcedo_pc/enPDF/Cap2.PDF

 Cardenas J. Qué es la regresión logística binaria y cómo analizarla [Internet]. Networkianos.


Blog de Sociología. 2014 . Disponible en: https://networkianos.com/regresion-logistica-
binaria/

 Gil, C. (2015). REGRESIÓN LOGÍSTICA (Simple y Múltiple). Amazonaws.com.


https://rstudio-pubsstatic.s3.amazonaws.com/388799_ac1988bada0143d4a4cef0847e3605f8.ht
ml#regresi%C
3%B3n_log%C3%ADstica_m%C3%BAltiplehttps://prezi.com/p/4bojpudbgt2f/
regresionlogistica/?fallback=1

 Joaquín Amat Rodrigo. (2015). Regresión logística simple y múltiple. Cienciadedatos.net.


https://www.cienciadedatos.net/documentos/27_regresion_logistica_simple_y_multiple

 José Supo. (2014, December 6). Regresión logística binaria para estudios explicativos.
BIOESTADISTICO. https://bioestadistico.com/regresion-logistica-binaria-para-
estudiosexplicativos

 Regresión logística Santiago de la Fuente Fernández. (n.d.).


https://www.estadistica.net/ECONOMETRIA/CUALITATIVAS/LOGISTICA/regresionlogist
ica.pdf

También podría gustarte