Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística
Curso 2011-2012
Índice
1. Objetivos de la práctica 2
2.4. Predicciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1
FBA I. Estadística Práctica 6: Regresión Logística I
1 Objetivos de la práctica
En muchas situaciones prácticas nos interesa determinar la relación entre una variable dependiente Y y una o
varias variables independientes X . Hay ocasiones en las que la variable dependiente Y es una variable categórica
dicotómica, es decir, toma sólo dos valores (1 ó 0). En ese caso nos interesa modelizar
y = (x ) + ;
donde (x ) representa la P (Y =1 =x ). El modelo logístico establece que la función de regresión (x ) es de la
forma:
1 x
e 0
+ 1
(x ) = x
( 0+ 1 )
=
1 + e0 +1 x
1+e
En esta práctica aprenderemos a ajustar y analizar un modelo de regresión logística simple con SPSS.
teoría. Queremos explicar la especie de or de iris (versicolor o no) en función de la longitud del
de regresión logística para explicar la relación entre las variables objeto de estudio.
Para ajustar un modelo de regresión logística a los datos debes selecciona el menú Analizar. Los pasos son los
siguientes:
Página 2 de 7
FBA I. Estadística Práctica 6: Regresión Logística I
a la longitud de pétalo como covariable. Recuerda que la variable dependiente (que es la que deseamos
modelizar o predecir) debe ser una variable categórica dicotómica (si la variable no está codicada con
3. En Opciones marca
X IC para exp(B)
En primer lugar (ver Figura 2) aparece un cuadro resumen con el número de casos introducidos, los seleccionados
para el análisis y los excluídos. A continuación aparece una tabla que especica la codicación de la variable Y.
Vamos a analizar los resultados del ajuste que aparecen resumidos en la tabla Variables en la ecuación (ver
Figura 3)
Figura 3: Ajuste de un modelo de regresión logística en SPSS para los datos de Iris.
Las estimaciones de los parámetros del modelo aparecen en la primera columna de la tabla. En nuestro ejemplo
^0 = 43:781 y ^1 = :
9 002. ¾Cuál es entonces la función de regresión logística estimada d
(x )?
La segunda columna de la tabla Variables en la ecuación corresponde a los errores típicos de los parámetros.
Página 3 de 7
FBA I. Estadística Práctica 6: Regresión Logística I
donde 1z =
2 es el valor que deja una probabilidad 1 =
2 a su izquierda en una (0 1). El intervalo que N ;
devuelve SPSS es el intervalo de conanza para e 1 y se construye a partir del anterior como:
^1 z1 =2 (^1 ) ; ^1 +z1 =2 (^1 )
e e
Suponiendo que se cumple el modelo de regresión logística, estamos interesados en determinar si la variable
Longitud de pétalo es signicativa para explicar la especie de la or. Planteamos entonces el siguiente contraste:
El estadístico de Wald se obtiene dividiendo el estimador ^1 entre su error típico (^1 ) (E.T. en SPSS).
^1
W =
(^1 )
El valor que devuelve SPSS es W 2 , que bajo la hipótesis nula, sigue una distribución chi-cuadrado con 1
grado de libertad
Rechazamos la hipótesis nula si el p-valor del estadístico es pequeño (columna Sig.). En este ejemplo,
rechazamos H0 y concluimos que la variable Longitud de pétalo es signicativa.
Siempre que se construye un modelo de regresión debemos corroborar que el modelo calculado se ajusta efec-
valores de estos coecientes aparecen recogidos en la Tabla Resumen del Modelo, ver Figura 4.
-2LL (desviación): mide hasta qué punto un modelo se ajusta bien a los datos. Cuanto más pequeño sea
Página 4 de 7
FBA I. Estadística Práctica 6: Regresión Logística I
R cuadradro de Cox y Snell: Sus valores oscilan entre 0 y 1 (tiene un valor máximo inferior a 1, incluso
R cuadrado de Nagelkerke: es una versión corregida de la R cuadrado de Cox y Snell y cubre el rango
completo de 0 a 1.
La prueba de Hosmer-Lemeshow es otro método para estudiar la bondad de ajuste del modelo de regresión
logística que consiste en comparar los valores previstos (esperados) por el modelo con los valores realmente
observados. Ambas distribuciones, esperada y observada, se contrastan mediante una prueba de 2 . La hipó-
tesis nula del test de Hosmer-Lemeshow es que no hay diferencias entre los valores observados y los valores
pronosticados (el rechazo este test indicaría que el modelo no está bien ajustado).
Para obtener el resultado de este test en SPSS, al hacer el análisis de regresión logística binaria, en Opciones
marca X Bondad de ajuste de Hosmer-Lemeshow . Los resultados se muestran en la Figura 5. El valor de la
signicación nos lleva a no rechazar la hipótesis nula. La conclusión es que el modelo ajusta bien a los datos.
Otra forma de evaluar el ajuste del modelo es construir una tabla 2 2 clasicando a todos los individuos de
la muestra según la concordancia de los valores observados con los predichos o estimados por el modelo. Una
ecuación sin poder de clasicación alguno tendría unos porcentajes de clasicación correcta igual al 50 % (por
el simple azar). Un modelo puede considerarse aceptable si los porcentajes de clasicación correcta son altos,
Página 5 de 7
FBA I. Estadística Práctica 6: Regresión Logística I
2.4 Predicciones
Al hacer el ajuste de regresión logística podemos pedirle a SPSS que nos devuelva los valores pronosticados.
longitud de pétalo. Para añadir la línea conectando los puntos, pincha en el gráco para abrir el Editor
de grácos y selecciona en el menú ElementosI Línea de interpolación, ver Figura 8.
Página 6 de 7
FBA I. Estadística Práctica 6: Regresión Logística I
Siguiendo el guión de los datos de iris ajusta un modelo de regresión logística que explique el comportamiento
de los satélites en función del ancho de la hembra en esta especie. Comenta los resultados obtenidos.
Página 7 de 7