Está en la página 1de 14

Departamento de Ciencias Políticas y Sociales

Grado en Ciencias Políticas y de la Administración


Universitat Pompeu Fabra

M etodología cuantitativa I V

Clase 8: regresión logística binaria

Bruno Arpino
(Despacho: 20.182; email: bruno.arpino@upf.edu)
Clase 8: regresión logistica

¿Que vamos a hacer hoy?


Variables dependientes dicotómicas

Regresión logística binaria: interpretación coeficientes

Probabilidades pronosticadas

2
Clase 8: regresión logistica

Variables dependientes dicotómicas:


ejemplos
Son variables cualitativas (normalmente no ordenables)
con dos categorías:
Haber votado o no en las ultimas elecciones políticas

Haber votado o no por un determinado partido en las


ultimas elecciones políticas

Estar en el paro o no

Estar afiliado o no a un partido

Votar sí o no a un referéndum
3
Clase 8: regresión logistica
Las variables son significativas. Hay una relación lineal entre edad y P de haber votado,
y años de estudio y P de haber votado. en ambos casos la relación es positiva

¿Qué pasa si utilizamos un modelo de


regresión lineal?
Imaginemos que queremos estudiar si la probabilidad de
votar en las elecciones está en relación con la edad y los
años de instrucción. Utilizando los datos de la ESS-1
Al ser una variable dicotómica, la interpretación es:
obtenemos: Por cada valor de la edad augmentado, el modelo nos indica un
Por cada valor medio, que corresponde a todas las personas con esa edad
año de Este valor
edad sería una
más, la media
probabili entre los
dad de puntos en
votar el 0 y los
aumenta puntos en
en unos el 1
0,007 (La variable “voto” (variable dependiente) es = 1 para las personas que
puntos han contestado “sí” a la pregunta B13 (¿Votó usted en las últimas
porcentu elecciones generales de marzo de 2000?) y = 0 para las personas que han
ales
contestado “no”) A esta pregunta solo han contestado los que el 2000 tenían 18 años 4
Clase 8: regresión logistica

Este modelo no tiene en cuenta que la variable es cualitativa y que los


valores solo pueden ser 0 y 1
¿Qué pasa si utilizamos un modelo de
regresión lineal? La recta no está limitada entre 0 y 1, y esto
puede causar valores inferiores o superiores
Interpret (que no tienen sentido)
ación de
la
constant
e: la
probabili
dad de
votar con
0 años y
con 0 Según el modelo estimado, tanto la edad como los años de instrucción
años de tienen una relación lineal positiva y significativa con la probabilidad de
estudio
es de votar.
0,355. La Problema: el modelo lineal NO LIMITA la Y! Son posibles predicciones
interpret imposibles: la probabilidad predicha (pronosticada/esperada) puede ser <0
ación no o > 1.
tiene
sentido Por ejemplo: para una persona de 80 años que ha estudiado 15 años el
modelo nos da un valor más grande de 1 de la Y:
voto = 0,355 + 0,007 * 80 + 0,011*15 = 1,08 5
Clase 8: regresión logistica

El modelo lineal no es apropiado en todos los casos, tenemos otra función con los casos
limitados entre 0 y 1
Modelo de regresión logística (binaria)
Foto gràfica!!!!
El modelo logístico establece la siguiente relación entre la probabilidad de
que ocurra el suceso (variable dependiente = 1) y las variables
independientes: La relación entre
Así, los X y Y no es lineal,
valores 1 no es constante.
numérico P (Y = 1) =
s no se
pueden
1 + e −( β 0 + β1 X 1 + β 2 X 2 +...+ β k X k )
Este modelo empieza con la regresión lineal pero se hace una transformación
interpreta para que el resultado final siempre esté entre 0 y 1
r donde e es el número de Euler o constante de Napier (2.71828)
directame
(http://es.wikipedia.org/wiki/N%C3%BAmero_e). La constante tampoco se puede
nte (a
interpretar directamente
diferencia
del Los signos de los coeficientes de cada variable independiente indican si hay
modelo un efecto positivo o negativo sobre la probabilidad de que Y sea 1 cuando
lineal)
aumentan los valores de cada variable independiente.

La interpretación de los valores estimados es más compleja que en el


modelo de regresión lineal. 7
Clase 8: regresión logistica

En ese sentido, por esta razón solo cogemos 16 CCAA en vez de 17. Porque si
sabemos 16 podemos calcular ya la 17

Modelo de regresión logística: ejemplo Las


categorías de
Volvemos a analizar la regresión de antes pero ahora con un modelo regiones se
logístico y añadimos la comunidad autónoma de residencia como otracomparan
siempre a la
variable independiente (tenemos que incluir 16 de las 17 regiones). que no está
(region 17)
Nos fijamos en los
signos de los coeficientes
de las variables
independientes y en los
p-valores.
Interpretación:
Sig: se interpreta como siempre
Edad: 0,042. Al ser un valor positivo,
sabemos que la relación es positiva
CCAA: variable cualitativa nominal
Al coger una variable dicotomica,
debemos coger solo 1 de los 2
valores, puesto que si cogieramos
tanto hombres como mujeres, serían
perfectamente colineales entre ellos
y no aportarían nueva info 8
Clase 8: regresión logistica

Modelo de regresión logística: ejemplo


Edad y años de estudio tienen una relación positiva y significativa (p-valor
< 0,05) con la probabilidad de votar: los mayores y los que han estudiado
más tienen una probabilidad más alta de votar.

9
Clase 8: regresión logistica

Modelo de regresión logística: ejemplo


La variable “regiones” es una variable cualitativa con 17 categorías. Se
incluye en una regresión a través de 16 variables binarias (la región que se
excluye es la de referencia). SPSS por defecto excluye la ultima (Canarias).

Los coeficientes de las


variables binarias que
indican las regiones muestran
que en algunas regiones la
probabilidad de votar es
significativamente más alta
que en las Canarias (por
ejemplo en la región numero
12 = Cataluña).
(Notar: para algunas regiones
los coeficientes son
negativos pero no son
significativos)
10
Clase 8: regresión logistica

Predictor lineal: parte lineal de la fórmula


1. Sustituimos los parámetros (las betas) con el valor que les corresponde de la tabla

Probabilidades pronosticadas
Después haber estimado los coeficientes del modelo logístico y utilizando la
formula

1
P (Y = 1) = − ( β 0 + β1 X 1 + β 2 X 2 +...+ β k X k )
1+ e
2. Imponer valores a las variables (las X), por ejemplo los valores que nos interesen

se pueden calcular probabilidades pronosticadas que corresponden a


valores específicos de las variables independientes.

SPSS (…guardar probabilidades) calcula las probabilidades pronosticadas


por cada individuo en la muestra (según sus valores de las variables
independientes).

Por ejemplo, utilizando las estimaciones del modelo logístico anterior SPSS
indica que la probabilidad de votar para una persona de 38 años, que ha
estudiado 11 años y que vive en el País Vasco es igual a 61,25%.
11
Clase 8: regresión logistica

Para practicar
En el año 2014, un investigador ha encuestado una muestra de
2000 trabajadores que perdieron el trabajo después el comienzo de
la crisis del 2008. El investigador ha recopilado datos sobre el
estado ocupacional en 2014 (empleado = 1; desempleado = 0), la
edad y el nivel de estudios (primario =1; segundario =2; terciario =
3, grupo de referencia). El investigador ha utilizado una regresión
logística (véase la tabla abajo) para analizar si la edad y el nivel de
estudio influyen en la probabilidad de encontrado trabajo.
¿Se puede afirmar que a cada año más de edad, corresponde una
reducción de 5 puntos porcentuales
en la probabilidad de encontrar Tabla
trabajo? B Sig.
¿Al aumentar del nivel de estudios, a
Paso 1 edad -0,053 ,002

aumenta la probabilidad de encontrar Nivel de estudios ,068


Nivel de estudios(1) ,180 ,272
trabajo? Nivel de estudios(2) ,315 ,004
Constante 1,973 ,000
12
Clase 8: regresión logistica

Referencias
Santiago de la Fuente Fernandez, Regresion logistica
http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/C
UALITATIVAS/LOGISTICA/regresion-logistica.pdf

Aguayo Canela Mariano, Cómo hacer una Regresión Logística


con SPSS© “paso a paso”
http://www.fabis.org/html/archivos/docuweb/Regres_log_1r.pdf

13
Si algo no queda claro

podéis pedirme tutorías

o escribirme un email

14
Modelo de regresión logística (binaria)
El modelo logístico se conoce también como modelo logit porque se puede
escribir como:

P (Y = 1)
logit[ P (Y = 1)] = Log = β 0 + β1 X 1 + β 2 X 2 + ... + β k X k
P (Y = 0)

La cantidad P(Y=1)/P(Y=0) se llama odds (cociente de probabilidades) y el


logaritmo neperiano del cociente de probabilidades se llama logit.

15

También podría gustarte