Mqiv 8

Departamento de Ciencias Políticas y Sociales
Grado en Ciencias Políticas y de la Administración

Universitat Pompeu Fabra
M etodología cuantitativa I V
Clase 8: regresión logística binaria
Bruno Arpino
(Despacho: 20.182; email: bruno.arpino@upf.edu)
Clase 8: regresión logistica
¿Que vamos a hacer hoy?

Variables dependientes dicotómicas
Regresión logística binaria: interpretación coeficientes
Probabilidades pronosticadas
2
Variables dependientes dicotómicas:

ejemplos
Son variables cualitativas (normalmente no ordenables)
con dos categorías:
Haber votado o no en las ultimas elecciones políticas
Haber votado o no por un determinado partido en las

ultimas elecciones políticas
Estar en el paro o no
Estar afiliado o no a un partido
Votar sí o no a un referéndum
3
Las variables son significativas. Hay una relación lineal entre edad y P de haber votado,
y años de estudio y P de haber votado. en ambos casos la relación es positiva
¿Qué pasa si utilizamos un modelo de

regresión lineal?
Imaginemos que queremos estudiar si la probabilidad de
votar en las elecciones está en relación con la edad y los
años de instrucción. Utilizando los datos de la ESS-1
Al ser una variable dicotómica, la interpretación es:
obtenemos: Por cada valor de la edad augmentado, el modelo nos indica un
Por cada valor medio, que corresponde a todas las personas con esa edad
año de Este valor
edad sería una
más, la media
probabili entre los
dad de puntos en
votar el 0 y los
aumenta puntos en
en unos el 1
0,007 (La variable “voto” (variable dependiente) es = 1 para las personas que
puntos han contestado “sí” a la pregunta B13 (¿Votó usted en las últimas
porcentu elecciones generales de marzo de 2000?) y = 0 para las personas que han
ales
contestado “no”) A esta pregunta solo han contestado los que el 2000 tenían 18 años 4
Este modelo no tiene en cuenta que la variable es cualitativa y que los

valores solo pueden ser 0 y 1
¿Qué pasa si utilizamos un modelo de
regresión lineal? La recta no está limitada entre 0 y 1, y esto
puede causar valores inferiores o superiores
Interpret (que no tienen sentido)
ación de
la
constant
e: la
probabili
dad de
votar con
0 años y
con 0 Según el modelo estimado, tanto la edad como los años de instrucción
años de tienen una relación lineal positiva y significativa con la probabilidad de
estudio
es de votar.
0,355. La Problema: el modelo lineal NO LIMITA la Y! Son posibles predicciones
interpret imposibles: la probabilidad predicha (pronosticada/esperada) puede ser <0
ación no o > 1.
tiene
sentido Por ejemplo: para una persona de 80 años que ha estudiado 15 años el
modelo nos da un valor más grande de 1 de la Y:
voto = 0,355 + 0,007 * 80 + 0,011*15 = 1,08 5
El modelo lineal no es apropiado en todos los casos, tenemos otra función con los casos
limitados entre 0 y 1
Modelo de regresión logística (binaria)
Foto gràfica!!!!
El modelo logístico establece la siguiente relación entre la probabilidad de
que ocurra el suceso (variable dependiente = 1) y las variables
independientes: La relación entre
Así, los X y Y no es lineal,
valores 1 no es constante.
numérico P (Y = 1) =
s no se
pueden
1 + e −( β 0 + β1 X 1 + β 2 X 2 +...+ β k X k )
Este modelo empieza con la regresión lineal pero se hace una transformación
interpreta para que el resultado final siempre esté entre 0 y 1
r donde e es el número de Euler o constante de Napier (2.71828)
directame
(http://es.wikipedia.org/wiki/N%C3%BAmero_e). La constante tampoco se puede
nte (a
interpretar directamente
diferencia
del Los signos de los coeficientes de cada variable independiente indican si hay
modelo un efecto positivo o negativo sobre la probabilidad de que Y sea 1 cuando
lineal)
aumentan los valores de cada variable independiente.
La interpretación de los valores estimados es más compleja que en el

modelo de regresión lineal. 7
En ese sentido, por esta razón solo cogemos 16 CCAA en vez de 17. Porque si
sabemos 16 podemos calcular ya la 17
Modelo de regresión logística: ejemplo Las

categorías de
Volvemos a analizar la regresión de antes pero ahora con un modelo regiones se
logístico y añadimos la comunidad autónoma de residencia como otracomparan
siempre a la
variable independiente (tenemos que incluir 16 de las 17 regiones). que no está
(region 17)
Nos fijamos en los
signos de los coeficientes
de las variables
independientes y en los
p-valores.
Interpretación:
Sig: se interpreta como siempre
Edad: 0,042. Al ser un valor positivo,
sabemos que la relación es positiva
CCAA: variable cualitativa nominal
Al coger una variable dicotomica,
debemos coger solo 1 de los 2
valores, puesto que si cogieramos
tanto hombres como mujeres, serían
perfectamente colineales entre ellos
y no aportarían nueva info 8
Modelo de regresión logística: ejemplo

Edad y años de estudio tienen una relación positiva y significativa (p-valor
< 0,05) con la probabilidad de votar: los mayores y los que han estudiado
más tienen una probabilidad más alta de votar.
9
Modelo de regresión logística: ejemplo

La variable “regiones” es una variable cualitativa con 17 categorías. Se
incluye en una regresión a través de 16 variables binarias (la región que se
excluye es la de referencia). SPSS por defecto excluye la ultima (Canarias).
Los coeficientes de las

variables binarias que
indican las regiones muestran
que en algunas regiones la
probabilidad de votar es
significativamente más alta
que en las Canarias (por
ejemplo en la región numero
12 = Cataluña).
(Notar: para algunas regiones
los coeficientes son
negativos pero no son
significativos)
10
Predictor lineal: parte lineal de la fórmula

1. Sustituimos los parámetros (las betas) con el valor que les corresponde de la tabla
Probabilidades pronosticadas
Después haber estimado los coeficientes del modelo logístico y utilizando la
formula
1
P (Y = 1) = − ( β 0 + β1 X 1 + β 2 X 2 +...+ β k X k )
1+ e
2. Imponer valores a las variables (las X), por ejemplo los valores que nos interesen
se pueden calcular probabilidades pronosticadas que corresponden a

valores específicos de las variables independientes.
SPSS (…guardar probabilidades) calcula las probabilidades pronosticadas

por cada individuo en la muestra (según sus valores de las variables
independientes).
Por ejemplo, utilizando las estimaciones del modelo logístico anterior SPSS
indica que la probabilidad de votar para una persona de 38 años, que ha
estudiado 11 años y que vive en el País Vasco es igual a 61,25%.
11
Para practicar
En el año 2014, un investigador ha encuestado una muestra de
2000 trabajadores que perdieron el trabajo después el comienzo de
la crisis del 2008. El investigador ha recopilado datos sobre el
estado ocupacional en 2014 (empleado = 1; desempleado = 0), la
edad y el nivel de estudios (primario =1; segundario =2; terciario =
3, grupo de referencia). El investigador ha utilizado una regresión
logística (véase la tabla abajo) para analizar si la edad y el nivel de
estudio influyen en la probabilidad de encontrado trabajo.
¿Se puede afirmar que a cada año más de edad, corresponde una
reducción de 5 puntos porcentuales
en la probabilidad de encontrar Tabla
trabajo? B Sig.
¿Al aumentar del nivel de estudios, a
Paso 1 edad -0,053 ,002
aumenta la probabilidad de encontrar Nivel de estudios ,068

Nivel de estudios(1) ,180 ,272
trabajo? Nivel de estudios(2) ,315 ,004
Constante 1,973 ,000
12
Referencias
Santiago de la Fuente Fernandez, Regresion logistica
http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/C
UALITATIVAS/LOGISTICA/regresion-logistica.pdf
Aguayo Canela Mariano, Cómo hacer una Regresión Logística

con SPSS© “paso a paso”
http://www.fabis.org/html/archivos/docuweb/Regres_log_1r.pdf
13
Si algo no queda claro
podéis pedirme tutorías
o escribirme un email
14
Modelo de regresión logística (binaria)
El modelo logístico se conoce también como modelo logit porque se puede
escribir como:
P (Y = 1)
logit[ P (Y = 1)] = Log = β 0 + β1 X 1 + β 2 X 2 + ... + β k X k
P (Y = 0)
La cantidad P(Y=1)/P(Y=0) se llama odds (cociente de probabilidades) y el

logaritmo neperiano del cociente de probabilidades se llama logit.
15

Mqiv 8

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mqiv 8

Cargado por

Copyright:

Formatos disponibles

Departamento de Ciencias Políticas y Sociales

Grado en Ciencias Políticas y de la Administración

Clase 8: regresión logística binaria

¿Que vamos a hacer hoy?

Regresión logística binaria: interpretación coeficientes

Variables dependientes dicotómicas:

Haber votado o no por un determinado partido en las

Estar afiliado o no a un partido

¿Qué pasa si utilizamos un modelo de

Este modelo no tiene en cuenta que la variable es cualitativa y que los

La interpretación de los valores estimados es más compleja que en el

Modelo de regresión logística: ejemplo Las

Modelo de regresión logística: ejemplo

Modelo de regresión logística: ejemplo

Los coeficientes de las

Predictor lineal: parte lineal de la fórmula

se pueden calcular probabilidades pronosticadas que corresponden a

SPSS (…guardar probabilidades) calcula las probabilidades pronosticadas

aumenta la probabilidad de encontrar Nivel de estudios ,068

Aguayo Canela Mariano, Cómo hacer una Regresión Logística

podéis pedirme tutorías

La cantidad P(Y=1)/P(Y=0) se llama odds (cociente de probabilidades) y el

También podría gustarte