Está en la página 1de 10

MODELOS DE REGRESIÓN LOGIT Y PROBIT

La regresión logística se utiliza para predecir la presencia o ausencia de una característica o


resultado según los valores de un conjunto de variables predictoras. Es similar a un modelo de
regresión lineal, pero adaptado para modelos cuya variable dependiente es dicotómico. Los
coeficientes de regresión logística se utilizan para estimar la razón de las ventajas (odds ratio)
de cada variable independiente del modelo.
Sobre los factores influyentes en la enfermedad de Diabetes definida en la siguiente tabla de
operacionalización de variables, sobre una base de datos denominada Diabetes.sav:
Variables
Indicadores Valor final Tipo de variable
Independientes
Edad Fecha de nacimiento Años Numérica
Caracteres sexuales Masculino Nominal
Sexo
secundarios Femenino Dicotómica
Urbano
Comunidad social de Nominal
Ambiente Rural
procedencia Politómica
Marginal
Proteínas
Predominio de Nominal
Dieta Carbohidratos
macronutrientes Politómica
Grasas
Predisposición Antecedente familiar de Sí Nominal
genética diabetes No Dicotómica
Sí Nominal
Consumo de alcohol Consumo de alcohol
No Dicotómica
Sí Nominal
Hipertensión Arterial Diagnóstico de Hipertenso
No Dicotómica
Normal
Sobrepeso Ordinal
Estado nutricional Nivel nutricional
Obesidad Politómica
Obesidad Mórbida
Nula
Mínima Ordinal
Actividad física Índice de actividad física
Moderada Politómica
Alta
Triglicéridos Nivel de triglicéridos mg/dL Numérica
VARIABLE
INDICADOR VALOR FINAL ESCALA
DEPENDIENTE
Sí Nominal
Diabetes Diagnóstico de diabetes
No Dicotómica
Para cada análisis se obtienen estadísticos como los Casos totales, Casos seleccionados y Casos
válidos. Para cada variable categórica se obtiene la codificación de los parámetros. Para cada
paso se obtienen las variables introducidas o eliminadas, historial de iteraciones, −2 log de la
verosimilitud, bondad de ajuste, estadístico de bondad de ajuste de Hosmer-Lemeshow, chi-
cuadrado del modelo, chi-cuadrado de la mejora, tabla de clasificación, correlaciones entre las
variables, gráfico de las probabilidades pronosticadas y los grupos observados y chi-cuadrado
residual. Para cada variable de la ecuación se obtiene: coeficiente (B), error típico de B,
estadístico de Wald, R, razón de las ventajas estimada (exp(B)), intervalo de confianza para
exp(B), log de la verosimilitud si el término se ha eliminado del modelo. Para cada variable que
no esté en la ecuación se obtiene: estadístico de puntuación y R. Para cada caso se obtiene:
grupo observado, probabilidad pronosticada, grupo pronosticado, residuo y residuo tipificado.
Puede estimar modelos utilizando la entrada en bloque de las variables o cualquiera de los
siguientes métodos por pasos: condicional hacia adelante, LR hacia adelante, Wald hacia
adelante, condicional hacia atrás, LR hacia atrás o Wald hacia atrás.
Planteamiento 1: Realizar la regresión logística binaria con el siguiente rocedimiento:

Variable Dependiente: para las siguientes variables independientes

Variables independeintes:
Edad
Sexo
Ambiente (procedencia)
Predisposición genética (antecedente familiar)
Estado nutricional
1. Análisis bivariado (variables que no están en la ecuación)

2. Análisis multivariado (Variables en la ecuación)

3. Resumen del modelo


Para realizar un análisis de regresión logística binaria, elija en los menús
Analizar
Regresión
Logística binaria

(Figura 2.1)
Seleccione las variables y las especificaciones habiendo cargado el archivo de nombre
Diabetes.sav que contiene datos sobre características de la enfermedad como son los factores
influyentes para tener diabetes. La variable cualitativa dependiente va a ser Diabetes (Si o No)
y las variables independientes son Edad, Sexo, Ambiente (procedencia), Predisposición
genética (antecedente familiar), Estado nutricional. Se ajustará un modelo que prediga si tiene
diabetes según los valores de las variables independientes.
En cuanto a los datos, la variable dependiente es dicotómico. Las variables independientes serán
intervalo o categóricas. Si son categóricas, deben ser variables dummy o estar codificadas como
indicadores numéricos.
En el botón Categórica se especifica los detalles sobre cómo el procedimiento Regresión
logística manipulará las variables categóricas (en este caso la procedencia) . El campo
Covariables contiene una lista de todas las covariables especificadas en el cuadro de diálogo
principal para cualquier capa, bien por ellas mismas o como parte de una interacción. Se tiene:

Resumen de procesamiento de casos


Casos sin ponderara N Porcentaje
Casos seleccionados Incluido en el análisis 500 100,0
Casos perdidos 0 ,0
Total 500 100,0
Casos no seleccionados 0 ,0
Total 500 100,0
a. Si la ponderación está en vigor, consulte la tabla de clasificación para el
número total de casos.

Codificación de variable
dependiente
Valor original Valor interno
No 0
Sí 1

Codificaciones de variables categóricas


Codificación de parámetro
Frecuencia (1) (2)
Ambiente Urbano 192 1,000 ,000
Rural 247 ,000 1,000
Marginal 61 ,000 ,000

Análisis bivariado

Las variables no están en la ecuación


Puntuación gl Sig.
Paso 0 Variables Edad 3,669 1 ,055
Sexo 4,184 1 ,041
Ambiente 26,605 2 ,000
Ambiente(1) 26,515 1 ,000
Ambiente(2) 17,675 1 ,000
Predisposición 90,171 1 ,000
Nivel nutricional 18,955 1 ,000
Estadísticos globales 140,041 6 ,000

Resumen del modelo


Logaritmo de la R cuadrado de R cuadrado de
Paso verosimilitud -2 Cox y Snell Nagelkerke
1 534,153a ,272 ,363
a. La estimación ha terminado en el número de iteración 5
porque las estimaciones de parámetro han cambiado en
menos de ,001.

Análisis Multivariado

Variables en la ecuación
B Error estándar Wald gl Sig. Exp(B)
Paso 1a Edad ,024 ,008 10,212 1 ,001 1,024
Sexo -,297 ,243 1,497 1 ,221 ,743
Ambiente 31,969 2 ,000
Ambiente(1) 1,757 ,369 22,619 1 ,000 5,796
Ambiente(2) ,617 ,343 3,233 1 ,072 1,853
Predisposición 2,088 ,231 81,485 1 ,000 8,066
Nivel nutricional ,899 ,177 25,891 1 ,000 2,458
Constante -4,639 ,649 51,090 1 ,000 ,010
a. Variables especificadas en el paso 1: Edad, Sexo, Ambiente, Predisposición, Nivel nutricional.

SPSS Y LA REGRESIÓN LOGÍSTICA MULTINOMIAL


SPSS incorpora un procedimiento que implementa el análisis de regresión logística
multinomial. La opción Regresión logística multinomial resulta útil en aquellas situaciones en
las que desee poder clasificar a los sujetos según los valores de un conjunto de variables
predictoras. Este tipo de regresión es similar a la regresión logística, pero más general, ya que
la variable dependiente no está restringida a dos categorías.
Como ejemplo podemos preguntarnos ¿Qué características del organismo humano son factores
efectivamente intervinientes en el crecimiento? Dada una muestra de niños y niñas a los que se
mide la edad, sexo, la distancia del centro de la pituitaria a la fisura ptérigo-maxilar y el índice
de crecimiento, se construir un modelo para predecir el crecimiento según el índice (variable
multinomial) en la muestra de personas. El modelo puede utilizarse posteriormente para derivar
estimaciones de la razón de las ventajas para cada uno de los factores y así indicarle, por
ejemplo, cuánto más probable es que las características de crecimiento indicadas intervengan
más en los niños que presentan un índice u otro.
Otro ejemplo de aplicación se define a continuación: para conseguir una producción y
distribución de películas más eficaz, los estudios de cine necesitan predecir qué tipo de películas
es más probable que vayan a ver los aficionados. Mediante una regresión logística multinomial,
el estudio puede determinar la influencia que la edad, el sexo y las relaciones de pareja de cada
persona tienen sobre el tipo de película que prefieren. De esta manera, el estudio puede orientar
la campaña publicitaria de una película concreta al grupo de la población que tenga más
probabilidades de ir a verla.
MODELO LOGIT
SPSS incorpora un procedimiento que implementa el análisis de regresión Logit, Probit. Este
procedimiento mide la relación entre la intensidad de un estímulo y la proporción de casos que
presentan una cierta respuesta a dicho estímulo. Es útil para las situaciones en las que se dispone
de una respuesta dicotómica que se piensa puede estar influenciada o causada por los niveles
de alguna o algunas variables independientes, y es particularmente adecuada para datos
experimentales, mediante un modelo siguiente:
ETAPAS PARA CONSTRUIR UN MODELO

ESPECIFICACIÓN.- es la definición de la variable endógena, explicativas y forma funcional

ESTIMACIÓN.- Cálculo de los parámetros

VALIDACION.- Individual: Ver que variables resultan significativas estadísticamente;


Conjunta: Ver si en conjunto el modelo es aceptable

UTILIZACIÓN.- Predicción e Interpretación de los parámetros


Este procedimiento permite estimar la intensidad necesaria para que un estímulo llegue a
inducir una determinada proporción de respuestas, como la dosis efectiva para la mediana.
Como estadísticos se obtienen los coeficientes de regresión y errores típicos, intersección y su
error típico, Chi-cuadrado de Pearson de la bondad de ajuste, frecuencias observadas y
esperadas e intervalos de confianza para los niveles efectivos de la variable o variables
independientes. Como diagramas se obtienen los gráficos de respuestas transformadas.
En el caso de Logit NO se requiere que las variables independientes categóricas politómicas
sean transformadas en variables ficticias o simuladas (dummy).
Analizar
LogLineal
Logit
En el botón
Modelo, seleccionamos Construir términos

Y Obtennos los resultados:


MODELO PROBIT Y LOGIT
En probabilidad y estadística la función Probit nos permite hallar la probabilidad de ocurrencia

Ejemplo:
Una academia preuniversitaria que cuenta con 30 salones de clases, los cuales son clasificados
según el rendimiento académico (el salón 1 tiene el mejor rendimiento académico) en cada
salón se obtuvo el número promedio de horas de estudio a la semana y luego del examen de
admisión se encontraron los siguientes datos.
¿Cuántas horas a la semana en promedio debe estudiar un alumno para tener el 80% de
probabilidades de ingresar a la universidad?
Fracción de
Horas/semana Alumnos en el salón Ingresantes ingresantes
Salón 1 50,2 40 35
Salón 6 24,7 38 37
Salón 11 10,1 36 19
Salón 16 4,8 38 13
Salón 26 2,6 40 5
Solución en SPSS

Analizar
Regresión
Probit
Resulta:
Pruebas de chi-cuadrado
Chi-cuadrado glb Sig.
PROBIT Prueba de bondad de ajuste 29,260 3 ,000a
de Pearson
a. Puesto que el nivel de significación es menor que ,150, se utiliza un factor de
heterogeneidad en el cálculo de los límites de confianza.
b. Las estadísticas basadas en casos individuales difieren de las estadísticas
basadas en casos agregados.

Límites de confianza
95% de límites de confianza para Horas/semana
Probabilidad Estimación Límite inferior Límite superior
PROBITa ,010 -35,144 . .
,020 -29,523 . .
,030 -25,957 . .
,040 -23,274 . .
,050 -21,092 . .
,060 -19,235 . .
,070 -17,606 . .
,080 -16,148 . .
,090 -14,822 . .
,100 -13,601 . .
,150 -8,547 . .
,200 -4,530 . .
,250 -1,084 . .
,300 2,011 . .
,350 4,878 . .
,400 7,600 . .
,450 10,232 . .
,500 12,823 . .
,550 15,414 . .
,600 18,047 . .
,650 20,768 . .
,700 23,636 . .
,750 26,731 . .
,800 30,177 . .
,850 34,194 . .
,900 39,248 . .
,910 40,469 . .
,920 41,795 . .
,930 43,253 . .
,940 44,882 . .
,950 46,739 . .
,960 48,921 . .
,970 51,604 . .
,980 55,170 . .
,990 60,791 . .
a. Se utiliza un factor de heterogeneidad.

Tareas.
Instrucciones: Realizar la regresión logística binaria para la base de datos diabetes,
considerando las variables:

Dieta

Consumo de alcohol

Hipertensión Arterial

Actividad física

Triglicéridos

1. Análisis bivariado (variables que no están en la ecuación)

2. Análisis multivariado (Variables en la ecuación)


3. Resumen del modelo

Análisis de regresión Probit


Instrucciones: Predecir la ocurrencia para el caso:

Se desea probar la efectividad de un insecticida sobre 5 grupos de insectos separados


aleatoriamente. Las dosis se midieron luego de la preparación de la solución y se obtuvieron
los siguientes resultados.

¿Cuál es la dosis necesaria para eliminar por lo menos al 50% de los insectos en la primera
fumigación?

Dosis Tamaño Muertes Porcentaje éxito


Grupo 1 60,2 50 44 0,88
Grupo 2 34,7 49 45 0,92
Grupo 3 20,1 46 24 0,52
Grupo 4 4,8 48 16 0,33
Grupo 5 2,6 50 6 0,12

También podría gustarte