Pasos para La Regresion Logistica en SPSS

Fundamentos de Biología Aplicada I
Estadística
Curso 2011-2012
Práctica 6: Regresión Logística I
Índice
1. Objetivos de la práctica 2
2. Estimación de un modelo de regresión logística con SPSS 2

2.1. Ajuste de un modelo de regresión logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1.1. Estimación de los parámetros del modelo . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.2. Intervalo de conanza para 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. Contrastes sobre los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3. Bondad de ajuste del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.4. Predicciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3. Datos de cangrejo de herradura 7
1
FBA I. Estadística Práctica 6: Regresión Logística I
1 Objetivos de la práctica
En muchas situaciones prácticas nos interesa determinar la relación entre una variable dependiente Y y una o
varias variables independientes X . Hay ocasiones en las que la variable dependiente Y es una variable categórica
dicotómica, es decir, toma sólo dos valores (1 ó 0). En ese caso nos interesa modelizar
y = (x ) + ;
donde (x ) representa la P (Y =1 =x ). El modelo logístico establece que la función de regresión (x ) es de la
forma:
1 x
e 0
+ 1
(x ) = x
( 0+ 1 )
=
1 + e0 +1 x
1+e
En esta práctica aprenderemos a ajustar y analizar un modelo de regresión logística simple con SPSS.
2 Estimación de un modelo de regresión logística con SPSS

Ejemplo: Vamos a estimar el modelo de regresión logística para los datos de Iris comentados en clase de
teoría. Queremos explicar la especie de or de iris (versicolor o no) en función de la longitud del
pétalo. Los datos se encuentran en el chero irisSPSS.sav.

En primer lugar, realiza un gráco de dispersión (Figura 1) de los datos que justique la elección de un modelo
de regresión logística para explicar la relación entre las variables objeto de estudio.
Figura 1: Gráco de dispersión para los datos de Iris.
2.1 Ajuste de un modelo de regresión logística
Para ajustar un modelo de regresión logística a los datos debes selecciona el menú Analizar. Los pasos son los
siguientes:
1. Analizar IRegresión ILogística Binaria.
Página 2 de 7
2. Selecciona la variable correspondiente a la especie como variable dependiente y la variable correspondiente
a la longitud de pétalo como covariable. Recuerda que la variable dependiente (que es la que deseamos
modelizar o predecir) debe ser una variable categórica dicotómica (si la variable no está codicada con
valores 0 y 1, SPSS le asignará ese código interno).
3. En Opciones marca
X IC para exp(B)
En primer lugar (ver Figura 2) aparece un cuadro resumen con el número de casos introducidos, los seleccionados
para el análisis y los excluídos. A continuación aparece una tabla que especica la codicación de la variable Y.
Figura 2: Resumen y codicación.
Vamos a analizar los resultados del ajuste que aparecen resumidos en la tabla Variables en la ecuación (ver
Figura 3)
Figura 3: Ajuste de un modelo de regresión logística en SPSS para los datos de Iris.
2.1.1 Estimación de los parámetros del modelo
Las estimaciones de los parámetros del modelo aparecen en la primera columna de la tabla. En nuestro ejemplo
^0 = 43:781 y ^1 = :
9 002. ¾Cuál es entonces la función de regresión logística estimada d
(x )?
La segunda columna de la tabla Variables en la ecuación corresponde a los errores típicos de los parámetros.
Página 3 de 7
2.1.2 Intervalo de conanza para 1

El intervalo de conanza para 1 es de la forma:
^1 z1 =2 (^1 ); ^1 + z1 =2 (^1 )

donde 1z =
2 es el valor que deja una probabilidad 1 =
2 a su izquierda en una (0 1). El intervalo que N ;

devuelve SPSS es el intervalo de conanza para e 1 y se construye a partir del anterior como:
^1 z1 =2 (^1 ) ; ^1 +z1 =2 (^1 )

e e
2.2 Contrastes sobre los parámetros
Suponiendo que se cumple el modelo de regresión logística, estamos interesados en determinar si la variable
Longitud de pétalo es signicativa para explicar la especie de la or. Planteamos entonces el siguiente contraste:
H0 : 1 = 0 (La variable Longitud de pétalo no es signicativa)
H1 : 1 6= 0 (La variable Longitud de pétalo es signicativa)
El estadístico de Wald se obtiene dividiendo el estimador ^1 entre su error típico (^1 ) (E.T. en SPSS).
^1
W =
(^1 )
El valor que devuelve SPSS es W 2 , que bajo la hipótesis nula, sigue una distribución chi-cuadrado con 1
grado de libertad
Rechazamos la hipótesis nula si el p-valor del estadístico es pequeño (columna Sig.). En este ejemplo,
rechazamos H0 y concluimos que la variable Longitud de pétalo es signicativa.
2.3 Bondad de ajuste del modelo
Siempre que se construye un modelo de regresión debemos corroborar que el modelo calculado se ajusta efec-
tivamente a los datos usados para estimarlo.
En regresión logística se calculan coecientes de determinación, parecidos al coeciente R2 que se obtenía en

regresión lineal, que expresan la proporción (en tanto por uno) de la variación explicada por el modelo. Los
valores de estos coecientes aparecen recogidos en la Tabla Resumen del Modelo, ver Figura 4.
Figura 4: Tabla resumen para los datos de Iris.
-2LL (desviación): mide hasta qué punto un modelo se ajusta bien a los datos. Cuanto más pequeño sea
el valor, mejor será el ajuste.
Página 4 de 7
R cuadradro de Cox y Snell: Sus valores oscilan entre 0 y 1 (tiene un valor máximo inferior a 1, incluso
para un modelo perfecto).
R cuadrado de Nagelkerke: es una versión corregida de la R cuadrado de Cox y Snell y cubre el rango
completo de 0 a 1.
La prueba de Hosmer-Lemeshow es otro método para estudiar la bondad de ajuste del modelo de regresión
logística que consiste en comparar los valores previstos (esperados) por el modelo con los valores realmente
observados. Ambas distribuciones, esperada y observada, se contrastan mediante una prueba de 2 . La hipó-
tesis nula del test de Hosmer-Lemeshow es que no hay diferencias entre los valores observados y los valores
pronosticados (el rechazo este test indicaría que el modelo no está bien ajustado).
Para obtener el resultado de este test en SPSS, al hacer el análisis de regresión logística binaria, en Opciones
marca X Bondad de ajuste de Hosmer-Lemeshow . Los resultados se muestran en la Figura 5. El valor de la
signicación nos lleva a no rechazar la hipótesis nula. La conclusión es que el modelo ajusta bien a los datos.
Figura 5: Prueba de Hosmer-Lemeshow.
Otra forma de evaluar el ajuste del modelo es construir una tabla 2 2 clasicando a todos los individuos de
la muestra según la concordancia de los valores observados con los predichos o estimados por el modelo. Una
ecuación sin poder de clasicación alguno tendría unos porcentajes de clasicación correcta igual al 50 % (por
el simple azar). Un modelo puede considerarse aceptable si los porcentajes de clasicación correcta son altos,
como ocurre en el ejemplo del Iris (ver Figura 6).
Página 5 de 7
Figura 6: Porcentajes de clasicación correcta para los datos de Iris.
2.4 Predicciones
Al hacer el ajuste de regresión logística podemos pedirle a SPSS que nos devuelva los valores pronosticados.
Con estos valores podremos representar la curva ajustada.
1. Analizar IRegresión I Logística Binaria.

2. En la opción Guardar, selecciona
X Probabilidades y Grupo de pertenencia, ver Figura 7.
3. Puedes ver los valores pronosticados en la Vista de datos
4. Representa la curva ajustada como se muestra en la Figura 8 mediante el menú: GrácosICuadro de
diálogo antiguosI Dispersión/Puntos.
Selecciona como variable para el eje Y la probabilidad pronosticada y como variable para el eje X la
longitud de pétalo. Para añadir la línea conectando los puntos, pincha en el gráco para abrir el Editor
de grácos y selecciona en el menú ElementosI Línea de interpolación, ver Figura 8.
Figura 7: Valores pronosticados en el modelo de regresión logística.
Página 6 de 7
Figura 8: Valores pronosticados y curva de regresión ajustada.
3 Datos de cangrejo de herradura

El chero crabSPSS.sav contiene los datos de cangrejo de herradura comentados en clase de teoría. Recuerda
que los datos corresponden a un total de 188 cangrejos de herradura hembra. Las variables de estudio son:
X =ancho de cangrejo de herradura hembra

Y , que toma los valores
Y =1 si el cangrejo hembra tiene algún satélite (cangrejo macho residiendo cerca)
Y =0 si el cangrejo hembra no tiene ningún satélite
Siguiendo el guión de los datos de iris ajusta un modelo de regresión logística que explique el comportamiento
de los satélites en función del ancho de la hembra en esta especie. Comenta los resultados obtenidos.
Página 7 de 7

Pasos para La Regresion Logistica en SPSS

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pasos para La Regresion Logistica en SPSS

Cargado por

Copyright:

Formatos disponibles

Fundamentos de Biología Aplicada I

Práctica 6: Regresión Logística I

2. Estimación de un modelo de regresión logística con SPSS 2

2.1.1. Estimación de los parámetros del modelo . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.1.2. Intervalo de conanza para 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2. Contrastes sobre los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.3. Bondad de ajuste del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3. Datos de cangrejo de herradura 7

2 Estimación de un modelo de regresión logística con SPSS

pétalo. Los datos se encuentran en el chero irisSPSS.sav.

Figura 1: Gráco de dispersión para los datos de Iris.

2.1 Ajuste de un modelo de regresión logística

1. Analizar IRegresión ILogística Binaria.

2. Selecciona la variable correspondiente a la especie como variable dependiente y la variable correspondiente

valores 0 y 1, SPSS le asignará ese código interno).

Figura 2: Resumen y codicación.

2.1.1 Estimación de los parámetros del modelo

2.1.2 Intervalo de conanza para 1

2.2 Contrastes sobre los parámetros

H0 : 1 = 0 (La variable Longitud de pétalo no es signicativa)

H1 : 1 6= 0 (La variable Longitud de pétalo es signicativa)

2.3 Bondad de ajuste del modelo

tivamente a los datos usados para estimarlo.

En regresión logística se calculan coecientes de determinación, parecidos al coeciente R2 que se obtenía en

Figura 4: Tabla resumen para los datos de Iris.

el valor, mejor será el ajuste.

para un modelo perfecto).

Figura 5: Prueba de Hosmer-Lemeshow.

como ocurre en el ejemplo del Iris (ver Figura 6).

Figura 6: Porcentajes de clasicación correcta para los datos de Iris.

Con estos valores podremos representar la curva ajustada.

1. Analizar IRegresión I Logística Binaria.

Figura 7: Valores pronosticados en el modelo de regresión logística.

Figura 8: Valores pronosticados y curva de regresión ajustada.

3 Datos de cangrejo de herradura

X =ancho de cangrejo de herradura hembra

Y =0 si el cangrejo hembra no tiene ningún satélite

También podría gustarte

2.1.2. Intervalo de conanza para 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

pétalo. Los datos se encuentran en el chero irisSPSS.sav.

Figura 1: Gráco de dispersión para los datos de Iris.

Figura 2: Resumen y codicación.

2.1.2 Intervalo de conanza para 1

H0 : 1 = 0 (La variable Longitud de pétalo no es signicativa)

H1 : 1 6= 0 (La variable Longitud de pétalo es signicativa)

En regresión logística se calculan coecientes de determinación, parecidos al coeciente R2 que se obtenía en

Figura 6: Porcentajes de clasicación correcta para los datos de Iris.

Y =0 si el cangrejo hembra no tiene ningún satélite