Está en la página 1de 7

Fundamentos de Biología Aplicada I

Estadística

Curso 2011-2012

Práctica 6: Regresión Logística I

Índice

1. Objetivos de la práctica 2

2. Estimación de un modelo de regresión logística con SPSS 2


2.1. Ajuste de un modelo de regresión logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1.1. Estimación de los parámetros del modelo . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.1.2. Intervalo de conanza para 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2. Contrastes sobre los parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.3. Bondad de ajuste del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.4. Predicciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3. Datos de cangrejo de herradura 7

1
FBA I. Estadística Práctica 6: Regresión Logística I

1 Objetivos de la práctica
En muchas situaciones prácticas nos interesa determinar la relación entre una variable dependiente Y y una o

varias variables independientes X . Hay ocasiones en las que la variable dependiente Y es una variable categórica
dicotómica, es decir, toma sólo dos valores (1 ó 0). En ese caso nos interesa modelizar

y = (x ) + ;
donde (x ) representa la P (Y =1 =x ). El modelo logístico establece que la función de regresión (x ) es de la
forma:
1 x
e 0
+ 1
 (x ) = x
( 0+ 1 )
=
1 + e 0 + 1 x
1+e
En esta práctica aprenderemos a ajustar y analizar un modelo de regresión logística simple con SPSS.

2 Estimación de un modelo de regresión logística con SPSS


Ejemplo: Vamos a estimar el modelo de regresión logística para los datos de Iris comentados en clase de

teoría. Queremos explicar la especie de or de iris (versicolor o no) en función de la longitud del

pétalo. Los datos se encuentran en el chero irisSPSS.sav.


En primer lugar, realiza un gráco de dispersión (Figura 1) de los datos que justique la elección de un modelo

de regresión logística para explicar la relación entre las variables objeto de estudio.

Figura 1: Gráco de dispersión para los datos de Iris.

2.1 Ajuste de un modelo de regresión logística

Para ajustar un modelo de regresión logística a los datos debes selecciona el menú Analizar. Los pasos son los

siguientes:

1. Analizar IRegresión ILogística Binaria.

Página 2 de 7
FBA I. Estadística Práctica 6: Regresión Logística I

2. Selecciona la variable correspondiente a la especie como variable dependiente y la variable correspondiente

a la longitud de pétalo como covariable. Recuerda que la variable dependiente (que es la que deseamos

modelizar o predecir) debe ser una variable categórica dicotómica (si la variable no está codicada con

valores 0 y 1, SPSS le asignará ese código interno).

3. En Opciones marca 
X IC para exp(B)
En primer lugar (ver Figura 2) aparece un cuadro resumen con el número de casos introducidos, los seleccionados

para el análisis y los excluídos. A continuación aparece una tabla que especica la codicación de la variable Y.

Figura 2: Resumen y codicación.

Vamos a analizar los resultados del ajuste que aparecen resumidos en la tabla Variables en la ecuación (ver

Figura 3)

Figura 3: Ajuste de un modelo de regresión logística en SPSS para los datos de Iris.

2.1.1 Estimación de los parámetros del modelo

Las estimaciones de los parámetros del modelo aparecen en la primera columna de la tabla. En nuestro ejemplo

^0 = 43:781 y ^1 = :
9 002. ¾Cuál es entonces la función de regresión logística estimada d
(x )?
La segunda columna de la tabla Variables en la ecuación corresponde a los errores típicos de los parámetros.

Página 3 de 7
FBA I. Estadística Práctica 6: Regresión Logística I

2.1.2 Intervalo de conanza para 1


El intervalo de conanza para 1 es de la forma:
^1 z1 =2  ( ^1 ); ^1 + z1 =2  ( ^1 )


donde 1z =
2 es el valor que deja una probabilidad 1 =
2 a su izquierda en una (0 1). El intervalo que N ;

devuelve SPSS es el intervalo de conanza para e 1 y se construye a partir del anterior como:

^1 z1 =2  ( ^1 ) ; ^1 +z1 =2  ( ^1 )
 
e e

2.2 Contrastes sobre los parámetros

Suponiendo que se cumple el modelo de regresión logística, estamos interesados en determinar si la variable

Longitud de pétalo es signicativa para explicar la especie de la or. Planteamos entonces el siguiente contraste:

H0 : 1 = 0 (La variable Longitud de pétalo no es signicativa)

H1 : 1 6= 0 (La variable Longitud de pétalo es signicativa)

El estadístico de Wald se obtiene dividiendo el estimador ^1 entre su error típico ( ^1 ) (E.T. en SPSS).
^1
W =
( ^1 )
El valor que devuelve SPSS es W 2 , que bajo la hipótesis nula, sigue una distribución chi-cuadrado con 1
grado de libertad

Rechazamos la hipótesis nula si el p-valor del estadístico es pequeño (columna Sig.). En este ejemplo,
rechazamos H0 y concluimos que la variable Longitud de pétalo es signicativa.

2.3 Bondad de ajuste del modelo

Siempre que se construye un modelo de regresión debemos corroborar que el modelo calculado se ajusta efec-

tivamente a los datos usados para estimarlo.

En regresión logística se calculan coecientes de determinación, parecidos al coeciente R2 que se obtenía en


regresión lineal, que expresan la proporción (en tanto por uno) de la variación explicada por el modelo. Los

valores de estos coecientes aparecen recogidos en la Tabla Resumen del Modelo, ver Figura 4.

Figura 4: Tabla resumen para los datos de Iris.

-2LL (desviación): mide hasta qué punto un modelo se ajusta bien a los datos. Cuanto más pequeño sea

el valor, mejor será el ajuste.

Página 4 de 7
FBA I. Estadística Práctica 6: Regresión Logística I

R cuadradro de Cox y Snell: Sus valores oscilan entre 0 y 1 (tiene un valor máximo inferior a 1, incluso

para un modelo perfecto).

R cuadrado de Nagelkerke: es una versión corregida de la R cuadrado de Cox y Snell y cubre el rango

completo de 0 a 1.

La prueba de Hosmer-Lemeshow es otro método para estudiar la bondad de ajuste del modelo de regresión

logística que consiste en comparar los valores previstos (esperados) por el modelo con los valores realmente

observados. Ambas distribuciones, esperada y observada, se contrastan mediante una prueba de 2 . La hipó-
tesis nula del test de Hosmer-Lemeshow es que no hay diferencias entre los valores observados y los valores

pronosticados (el rechazo este test indicaría que el modelo no está bien ajustado).

Para obtener el resultado de este test en SPSS, al hacer el análisis de regresión logística binaria, en Opciones
marca X Bondad de ajuste de Hosmer-Lemeshow . Los resultados se muestran en la Figura 5. El valor de la

signicación nos lleva a no rechazar la hipótesis nula. La conclusión es que el modelo ajusta bien a los datos.

Figura 5: Prueba de Hosmer-Lemeshow.

Otra forma de evaluar el ajuste del modelo es construir una tabla 2 2 clasicando a todos los individuos de

la muestra según la concordancia de los valores observados con los predichos o estimados por el modelo. Una

ecuación sin poder de clasicación alguno tendría unos porcentajes de clasicación correcta igual al 50 % (por

el simple azar). Un modelo puede considerarse aceptable si los porcentajes de clasicación correcta son altos,

como ocurre en el ejemplo del Iris (ver Figura 6).

Página 5 de 7
FBA I. Estadística Práctica 6: Regresión Logística I

Figura 6: Porcentajes de clasicación correcta para los datos de Iris.

2.4 Predicciones

Al hacer el ajuste de regresión logística podemos pedirle a SPSS que nos devuelva los valores pronosticados.

Con estos valores podremos representar la curva ajustada.

1. Analizar IRegresión I Logística Binaria.


2. En la opción Guardar, selecciona 
X Probabilidades y Grupo de pertenencia, ver Figura 7.
3. Puedes ver los valores pronosticados en la Vista de datos
4. Representa la curva ajustada como se muestra en la Figura 8 mediante el menú: GrácosICuadro de
diálogo antiguosI Dispersión/Puntos.
Selecciona como variable para el eje Y la probabilidad pronosticada y como variable para el eje X la

longitud de pétalo. Para añadir la línea conectando los puntos, pincha en el gráco para abrir el Editor
de grácos y selecciona en el menú ElementosI Línea de interpolación, ver Figura 8.

Figura 7: Valores pronosticados en el modelo de regresión logística.

Página 6 de 7
FBA I. Estadística Práctica 6: Regresión Logística I

Figura 8: Valores pronosticados y curva de regresión ajustada.

3 Datos de cangrejo de herradura


El chero crabSPSS.sav contiene los datos de cangrejo de herradura comentados en clase de teoría. Recuerda
que los datos corresponden a un total de 188 cangrejos de herradura hembra. Las variables de estudio son:

X =ancho de cangrejo de herradura hembra


Y , que toma los valores
Y =1 si el cangrejo hembra tiene algún satélite (cangrejo macho residiendo cerca)

Y =0 si el cangrejo hembra no tiene ningún satélite

Siguiendo el guión de los datos de iris ajusta un modelo de regresión logística que explique el comportamiento

de los satélites en función del ancho de la hembra en esta especie. Comenta los resultados obtenidos.

Página 7 de 7

También podría gustarte