Está en la página 1de 66

Facultad de Ciencias Sociales

Departamento de Sociología
Estadística III

Modelos Logit y Probit

Catalina Canals Cifuentes


02/10/2015
I. INTRODUCCIÓN
Contenidos
II. Concepto
III. Objetivos y preguntas de investigación
IV. Modelo Logit: Especificación del modelo e
interpretación de coeficientes.
V. Modelo Logit: Estimación del modelo
VI. Modelo Logit: Supuestos
VII. Modelo Logit: Ajuste del modelo
VIII.Modelo Logit: Interpretación de resultados
I. INTRODUCCIÓN
Contenidos
IX. Modelo Logit en STATA
X. Modelo Probit: Especificación del modelo.
XI. Modelo Probit: Estimación del modelo
XII. Modelo Probit: Supuestos
XIII.Modelo Probit: Ajuste del modelo
XIV. Modelo Probit: Interpretación de resultados
XV. Modelo Probit en STATA
XVI.Probit vs Logit
XVII.Causalidad en modelos probit y logit
II. CONCEPTO Y PREGUNTAS DE INVESTIGACIÓN
Modelos Logit y Probit
Técnicas de análisis estadístico utilizadas para estimar
los efectos de ciertas variables (independientes
/predictores) en una variable dummy (dependiente/
predicha/ respuesta).
Variable
independiente
Variable
independiente Variable
Variable Dependiente
independiente
Variable
independiente
II. CONCEPTO Y PREGUNTAS DE INVESTIGACIÓN
Modelos Logit y Probit
Técnicas de análisis estadístico utilizadas para predecir
la probabilidad de tener el valor 1 en una variable
dummy (dependiente) a partir de otras variables
(independientes).
Variable
independiente
Variable
independiente Variable
Variable Dependiente
independiente
Variable
independiente
II. CONCEPTO Y PREGUNTAS DE INVESTIGACIÓN
Pasos para hacer un modelo Logit y
Probit
• Especificar el modelo
• Verificar el cumplimiento de supuestos
• Estimar el modelo
• Verificar la capacidad explicativa del modelo
• Interpretar los resultados
II. CONCEPTO Y PREGUNTAS DE INVESTIGACIÓN
Objetivos de investigación

• Determinar cómo incide (y con qué intensidad lo


hacen) A, B y C en D /Estimar el efecto de A, B y C
en D

• Predecir la probabilidad de D, a partir de A, B y C

• Determinar él efecto de A en B, C y D
II. CONCEPTO Y PREGUNTAS DE INVESTIGACIÓN
II. CONCEPTO Y PREGUNTAS DE INVESTIGACIÓN
II. CONCEPTO Y PREGUNTAS DE INVESTIGACIÓN
IV. ESPECIFICACIÓN DEL MODELO…
Modelos Logit y Probit
IV. ESPECIFICACIÓN DEL MODELO
Modelos Logit y Probit

10 15 20 25
IV. ESPECIFICACIÓN DEL MODELO
Modelos Logit y Probit

P[Y=1|X]=F(X)

•Logit: F es una función de probabilidad logística

•Probit: F es una función de probabilidad normal


acumulada
IV. ESPECIFICACIÓN DEL MODELO

Logit o Regresión
Logística
IV. ESPECIFICACIÓN DEL MODELO…
Modelos Logit (Regresión Logística)
Probabilidad

Logit
 
=

Odd
IV. ESPECIFICACIÓN DEL MODELO…
Modelos Logit (Regresión Logística)

VARIABLE VARIABLES
DICOTÓMICA CUANTITATIVAS O
(DUMMY) DICOTÓMICA
(DUMMY)
V. ESTMACIÓN DEL MODELO
Ajustar la curva: Estimación de
Máxima Verosimilitud
• Verosimilitud: Probabilidad de obtener
los datos, dados los coeficientes a y b.

• Estimación mediante máxima


verosimilitud: estimar los coeficientes
que maximizan la verosimilitud.
VI. SUPUESTOS
Supuestos de la Regresión logística

1. Función de Probabilidad Logística

2. Ausencia de Multicolinealidad

3. Observaciones independientes

4. Muestras grandes
VI. SUPUESTOS
1. Función de Probabilidad logística

Función de Probabilidad Logística:


P[Y=1]=F(X) con F logística

Consecuencia del no cumplimiento del


supuesto: Disminución del ajuste del modelo.
VI. SUPUESTOS
1. Función de Probabilidad logística

• Diagnóstico del cumplimiento del supuesto:


Gráfico de dispersión de X e Y

1.2

0.8

0.6

0.4

0.2

0
0 20 40 60 80 100 120 140 160 180
VI. SUPUESTOS
2. Ausencia de Multicolinealidad

• Variables predictoras independientes entre sí.


• Consecuencia del no cumplimiento del
supuesto: grandes errores estándar (intervalos
de confianza) y problemas de identificación.
• Diagnóstico del cumplimiento del supuesto:
correlaciones entre variables
• Solución: Elegir variable o construir índices.
VI. SUPUESTOS
3. Observaciones independientes
• Los datos de los distintos individuos deben
ser independientes entre sí

• Consecuencia del no cumplimiento del


supuesto:
Inadecuada estimación de los coeficientes
del modelo.
VI. SUPUESTOS
4. Muestra grandes

• La Muestra es grande (30 casos por cada


predictor)

• Consecuencia del no cumplimiento del


supuesto:
Estimación inadecuada de los coefientes del
modelo.
VII. AJUSTE DEL MODELO
Porcentaje de casos bien clasificados

1
0
VII. AJUSTE DEL MODELO
Porcentaje de casos bien clasificados (Ej.)
X Y (consume Y Predicción
(edad) alcohol)
1 12 0 85,3% 1
2 18 1 91,4% 1
3 25 1 95,5% 1
VII. AJUSTE DEL MODELO
Pseudo R cuadrado
Se basan en la comparación de la log-Verosimilitud
del Modelo estimado y un Modelo Nulo

Dado que la verosimilitud(L) se encuentra entre 0 y 1;


la log-verosimilitud(LL) es siempre menor o igual a 0.
• Mejor Modelo: L=1 y LL=0
• Peor Modelo: L=0 y LL<0
VII. AJUSTE DEL MODELO
Pseudo R cuadrado
•McFadden
1 Ajuste Perfecto
0 Mal Ajuste
(equivalente al modelo
nulo)

•McFadden Ajustado
1 Ajuste Perfecto
<=0 Mal Ajuste
(equivalente al modelo
nulo)
VII. AJUSTE DEL MODELO
Pseudo R cuadrado
•Cox & Snell 1-L(M nulo)2/N (<1)
Ajuste Perfecto
0 Mal Ajuste
(equivalente al modelo
nulo)

•Nalgelkerke

1 Ajuste Perfecto
0 Mal Ajuste
(equivalente al modelo
nulo)
VII. AJUSTE DEL MODELO
Test de Hosmer y Lemeshow

Clasifica a los casos en grupos de valores predichos


similares y compara si las frecuencias observadas de
dichos grupos coinciden con las esperadas bajo una
distribución logística.

• H0: Clasificaciones observadas son iguales a las


esperadas

Si P>0,05, con 95% de confianza NO se rechaza H0,


indicando un buen ajuste
VIII. INTERPRETACIÓN DE RESULTADOS
Análisis de Perfiles
• Y= Tener pareja

• Perfiles:
– Ocupado de 40 años
– Ocupado de 20 años
– Desocupado de 40 años
– Desocupado de 20 años
VIII. INTERPRETACIÓN DE RESULTADOS
Análisis de Perfiles
VIII. INTERPRETACIÓN DE RESULTADOS
Test de hipótesis de los coeficientes
del modelo
TEST DE RAZÓN DE VEROSIMILITUD: Compara
la verosimilitud del modelo (k predictores)
con un modelo reducido (q predictores).
• H0:bk=0 k no incluido en el modelo
reducido.
• Estadístico:

Si Valor P<0.05, con 95% se rechaza H0


VIII. INTERPRETACIÓN DE RESULTADOS
Test de hipótesis de los coeficientes
del modelo
TEST DE WALD:
• H0: bk=0

• Estadístico:

• Si Valor P<0.05, con 95% se rechaza H0


VIII. INTERPRETACIÓN DE RESULTADOS
Coeficientes del modelo

INTERPRETACIONES POSIBLES:
• Interpretar b

• Interpretar eb

• Interpretar efectos marginales promedio


VIII. INTERPRETACIÓN DE RESULTADOS
Modelos Logit (Regresión Logística)
Probabilidad

El b puede ser interpretado,


realizando una
aproximación lineal a la
curva en el punto de interés.
Dicha recta tendrá
pendiente p(p-1) b
IV. ESPECIFICACIÓN DEL MODELO…
Modelos Logit (Regresión Logística)
Probabilidad de votar  
0
por Piñera 0.5

Si alguien gana 600 mil, si


aumenta 100 mil su sueldo,
la probabilidad de votar por
Piñera aumenta en
=0.4*0.6*0.5=0,012 (1,2%)

Ingresos (100 mil)


VIII. INTERPRETACIÓN DE RESULTADOS
Coeficientes del modelo

INTERPRETACIONES POSIBLES:
• Interpretar b
– b >0
• Al aumentar en 1 la variable independiente, logit aumenta en b
• Al Aumentar en 1 la variable independiente aumenta en p(p-
1)b
– b <0
• Al aumentar en 1 la variable independiente, logit disminuye en
b
• Al Aumentar en 1 la variable independiente disminuye en p(p-
1)b
IV. ESPECIFICACIÓN DEL MODELO…
Modelos Logit (Regresión Logística)
=e

Probabilidad de votar  
0
por Piñera 0.5

Si alguien aumenta su
sueldo en 100 mil, los odds
aumenta en 64%

Ingresos (100 mil)


IV. ESPECIFICACIÓN DEL MODELO…
Modelos Logit (Regresión Logística)
Probabilidad de votar  
0
por Piñera - 0.5

Si alguien aumenta su
sueldo en 100 mil, los odds
disminuyen en 40%

Ingresos (100 mil)


VIII. INTERPRETACIÓN DE RESULTADOS
Coeficientes del modelo

INTERPRETACIONES POSIBLES:
• Interpretar eb
– eb >1: Al aumentar en 1 la variable independiente
los odds aumentan en 100(eb -1)%
– eb <1: Al aumentar en 1 la variable independiente
los odds disminuyen en 100(1- eb)%
– Al aumentar en 1 la variable independiente los
odds aumentan en eb veces.
VIII. INTERPRETACIÓN DE RESULTADOS
Coeficientes del modelo

INTERPRETACIONES POSIBLES:
• Interpretar efectos marginales promedio
(EMP)
– EFP>0: En promedio, cuando la variable
independiente aumenta en 1, la variable
dependiente aumenta en EMP
– EFP<0: En promedio, cuando la variable
independiente aumenta en 1, la variable
dependiente disminuye en EMP
VIII. INTERPRETACIÓN DE RESULTADOS
Ejemplo
pareja2 Coef. Std. Err. z P>|z| [95% Conf. Interval]

edad .0338646 .000284 119.24 0.000 .033308 .0344212


ocupa1 .7317526 .0103442 70.74 0.000 .7114784 .7520269
_cons -1.807127 .0150622 -119.98 0.000 -1.836649 -1.777606

pareja2 Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

edad 1.034445 .0002938 119.24 0.000 1.033869 1.03502


ocupa1 2.078721 .0215027 70.74 0.000 2.037001 2.121295
_cons .1641249 .0024721 -119.98 0.000 .1593506 .1690423

dy/dx w.r.t. : edad ocupa1

Delta-method
dy/dx Std. Err. z P>|z| [95% Conf. Interval]

edad .0075454 .0000527 143.24 0.000 .0074422 .0076487


ocupa1 .1630431 .0021776 74.87 0.000 .1587752 .1673111
IX. MODELO LOGIT EN STATA
REPASO
Preguntas
I. ¿Para qué se usan los modelos probit y logit?
II. ¿En qué consiste la estimación por máxima
verosimilitud?
En un modelo logit…
III. ¿Cómo se interpretan –de forma general- los
pseudo- R cuadrado?
IV. ¿Cómo se interpreta el test de Hosmer y
Lemeshow?
V. ¿Cómo se interpreta b, eb y los EMP?
X. ESPECIFICACIÓN DEL MODELO

Probit
X. ESPECIFICACIÓN DEL MODELO
Modelos Logit y Probit

10 15 20 25
X. ESPECIFICACIÓN DEL MODELO
Modelos Logit y Probit

P[Y=1|X]=F(X)

•Logit: F es una función de probabilidad logística

•Probit: F es una función de probabilidad normal


acumulada
X. ESPECIFICACIÓN DEL MODELO
Probit
•Función de probabilidad normal acumulada
16

14

12
Frecuencia 10
Frecuencia acumulada 8

0 1 1 6

10 2.5 3.5 4

2
20 5 8.5 0
30 8 16.5 70
1 2 3 4 5 6 7 8 9 10 11

40 12 28.5 60

50 14 42.5 50

60 12 54.5 40

70 8 62.5 30

80 5 67.5 20

90 2.5 70 10

10 1 71 0
1 2 3 4 5 6 7 8 9 10 11
X. ESPECIFICACIÓN DEL MODELO
Probit

VARIABLES
VARIABLE CUANTITATIVAS O
DICOTÓMICA DICOTÓMICA
(DUMMY) (DUMMY)
XI. ESTIMACIÓN DEL MODELO
Ajustar la curva: Estimación de
Máxima Verosimilitud
• Verosimilitud: Probabilidad de obtener
los datos, dados los coeficientes a y b.

• Estimación mediante máxima


verosimilitud: estimar los coeficientes
que maximizan la verosimilitud.
XII. SUPUESTOS
Supuestos de Probit

1. Función de Probabilidad normal acumulada

2. Ausencia de Multicolinealidad

3. Observaciones independientes

4. Muestras grandes
XII. SUPUESTOS
1. Función de Probabilidad normal
acumulada
P[Y=1]=F(X) con F normal acumulada

Consecuencia del no cumplimiento del


supuesto: Disminución del ajuste del modelo.
XII. SUPUESTOS
1. Función de Probabilidad normal
acumulada
• Diagnóstico del cumplimiento del supuesto:
Gráfico de dispersión de X e Y

1.2

0.8

0.6

0.4

0.2

0
0 20 40 60 80 100 120 140 160 180
XIII. AJUSTE DEL MODELO
Porcentaje de casos bien clasificados
1
0

Test de Hosmer y Lemeshow


H0: Clasificaciones observadas son iguales a las
esperadas

Si P>0,05, con 95% de confianza NO se rechaza H0,


indicando un buen ajuste
XIII. AJUSTE DEL MODELO
Pseudo R cuadrado
•McFadden •Cox & Snell
1-L(M nulo)2/N
1 Ajuste (<1) Ajuste
Perfecto Perfecto
0 Mal Ajuste 0 Mal Ajuste
(equivalente al (equivalente al
modelo nulo) modelo nulo)

•McFadden Ajustado •Nalgelkerke

1 Ajuste 1 Ajuste
Perfecto Perfecto
0 Mal Ajuste 0 Mal Ajuste
(equivalente al (equivalente al
modelo nulo) modelo nulo)
XIV. INTERPRETACIÓN DE RESULTADOS
Análisis de Perfiles
• Y= Tener pareja, X=Edad y Ocupado

• Perfiles:
– Ocupado de 40 años
– Ocupado de 20 años
– Desocupado de 40 años
– Desocupado de 20 años
XIV. INTERPRETACIÓN DE RESULTADOS
Análisis de Perfiles
XIV. INTERPRETACIÓN DE RESULTADOS
Análisis de Perfiles
XIV. INTERPRETACIÓN DE RESULTADOS
Test de hipótesis de los coeficientes
del modelo
TEST DE RAZÓN DE VEROSIMILITUD:
• H0:bk=0 k no incluido en el modelo
reducido.
• Si Valor P<0.05, con 95% se rechaza H0

TEST DE WALD:
• H0: bk=0
• Si Valor P<0.05, con 95% se rechaza H0
XIV. INTERPRETACIÓN DE RESULTADOS
Coeficientes del modelo

INTERPRETACIONES POSIBLES:
• Interpretar b
– b >0
• Al aumentar la variable independiente, la
probabilidad de Y=1 aumenta
– b <0
• Al aumentar la variable independiente, la
probabilidad de Y=1 disminuye
• Interpretar efectos marginales promedio (EMP)
XIV. INTERPRETACIÓN DE RESULTADOS
Coeficientes del modelo

INTERPRETACIONES POSIBLES:
• Interpretar efectos marginales promedio
(EMP)
– EFP>0: En promedio, cuando la variable
independiente aumenta en 1, la variable
dependiente aumenta en EMP
– EFP<0: En promedio, cuando la variable
independiente aumenta en 1, la variable
dependiente disminuye en EMP
XIV. INTERPRETACIÓN DE RESULTADOS
Ejemplo
>
pareja2 Coef. Std. Err. z P>|z| [95% Conf. Interval]

edad .0208241 .0001692 123.07 0.000 .0204925 .0211557


ocupa1 .4620657 .0063266 73.04 0.000 .4496658 .4744656
_cons -1.12406 .0091259 -123.17 0.000 -1.141947 -1.106174

Delta-method
dy/dx Std. Err. z P>|z| [95% Conf. Interval]

edad .0075709 .0000529 143.23 0.000 .0074673 .0076745


ocupa1 .1679902 .0021858 76.86 0.000 .1637061 .1722743
XV. MODELO PROBIT EN STATA
XVI. PROBIT VS LOGIT
Probit vs Logit

• La estimación de los EMP suelen ser similares.

• El modelo logit tiene una ecuación más sencilla y


la magnitud de los coeficientes tienen una
interpretación directa.

• Se puede optar por uno u otro, en función de


cual modelo ajuste mejor a los datos, aun
cuando el ajuste suele ser similar.
XVII. CAUSALIDAD

Causalidad en Modelos Probit y Logit


• La existencia de relación estadística de la variable
dependiente Y con las variables independientes X no
implica causalidad.
• La causalidad puede ser de X a Y o de Y a X
Recomendable incluir predictores X de un periodo
previo
• La causalidad puede deberse a otras variables
Recomendable controlar
• Aún siguiendo las recomendaciones no hay garantía
de causalidad.
REPASO
Preguntas

I. ¿En qué se diferencia un modelo probit de un


logit?

II. ¿Cómo se interpreta b y los EMP?

También podría gustarte