Tema12 23y30nov

Facultad de Ciencias Sociales
Departamento de Sociología
Estadística III
Modelos Logit y Probit
Catalina Canals Cifuentes

02/10/2015
I. INTRODUCCIÓN
Contenidos
II. Concepto
III. Objetivos y preguntas de investigación
IV. Modelo Logit: Especificación del modelo e
interpretación de coeficientes.
V. Modelo Logit: Estimación del modelo
VI. Modelo Logit: Supuestos
VII. Modelo Logit: Ajuste del modelo
VIII.Modelo Logit: Interpretación de resultados
I. INTRODUCCIÓN
Contenidos
IX. Modelo Logit en STATA
X. Modelo Probit: Especificación del modelo.
XI. Modelo Probit: Estimación del modelo
XII. Modelo Probit: Supuestos
XIII.Modelo Probit: Ajuste del modelo
XIV. Modelo Probit: Interpretación de resultados
XV. Modelo Probit en STATA
XVI.Probit vs Logit
XVII.Causalidad en modelos probit y logit
II. CONCEPTO Y PREGUNTAS DE INVESTIGACIÓN
Técnicas de análisis estadístico utilizadas para estimar
los efectos de ciertas variables (independientes
/predictores) en una variable dummy (dependiente/
predicha/ respuesta).
Variable
independiente
Variable
independiente Variable
Variable Dependiente
independiente
Variable
independiente
Técnicas de análisis estadístico utilizadas para predecir
la probabilidad de tener el valor 1 en una variable
dummy (dependiente) a partir de otras variables
(independientes).
Variable
independiente
Variable
independiente Variable
Variable Dependiente
independiente
Variable
independiente
Pasos para hacer un modelo Logit y
Probit
• Especificar el modelo
• Verificar el cumplimiento de supuestos
• Estimar el modelo
• Verificar la capacidad explicativa del modelo
• Interpretar los resultados
Objetivos de investigación
• Determinar cómo incide (y con qué intensidad lo

hacen) A, B y C en D /Estimar el efecto de A, B y C
en D
• Predecir la probabilidad de D, a partir de A, B y C
• Determinar él efecto de A en B, C y D
IV. ESPECIFICACIÓN DEL MODELO…
IV. ESPECIFICACIÓN DEL MODELO
10 15 20 25
P[Y=1|X]=F(X)
•Logit: F es una función de probabilidad logística
•Probit: F es una función de probabilidad normal

acumulada
Logit o Regresión
Logística
Modelos Logit (Regresión Logística)
Probabilidad
Logit

=
Odd
VARIABLE VARIABLES
DICOTÓMICA CUANTITATIVAS O
(DUMMY) DICOTÓMICA
(DUMMY)
V. ESTMACIÓN DEL MODELO
Ajustar la curva: Estimación de
Máxima Verosimilitud
• Verosimilitud: Probabilidad de obtener
los datos, dados los coeficientes a y b.
• Estimación mediante máxima

verosimilitud: estimar los coeficientes
que maximizan la verosimilitud.
VI. SUPUESTOS
Supuestos de la Regresión logística
1. Función de Probabilidad Logística
2. Ausencia de Multicolinealidad
3. Observaciones independientes
4. Muestras grandes
VI. SUPUESTOS
1. Función de Probabilidad logística
Función de Probabilidad Logística:

P[Y=1]=F(X) con F logística
Consecuencia del no cumplimiento del

supuesto: Disminución del ajuste del modelo.
VI. SUPUESTOS
1. Función de Probabilidad logística
• Diagnóstico del cumplimiento del supuesto:

Gráfico de dispersión de X e Y
1.2
0.8
0.6
0.4
0.2
0
0 20 40 60 80 100 120 140 160 180
VI. SUPUESTOS
• Variables predictoras independientes entre sí.

• Consecuencia del no cumplimiento del
supuesto: grandes errores estándar (intervalos
de confianza) y problemas de identificación.
correlaciones entre variables
• Solución: Elegir variable o construir índices.
VI. SUPUESTOS
• Los datos de los distintos individuos deben
ser independientes entre sí

supuesto:
Inadecuada estimación de los coeficientes
del modelo.
VI. SUPUESTOS
4. Muestra grandes
• La Muestra es grande (30 casos por cada

predictor)

supuesto:
Estimación inadecuada de los coefientes del
modelo.
VII. AJUSTE DEL MODELO
Porcentaje de casos bien clasificados
1
0
Porcentaje de casos bien clasificados (Ej.)
X Y (consume Y Predicción
(edad) alcohol)
1 12 0 85,3% 1
2 18 1 91,4% 1
3 25 1 95,5% 1
Pseudo R cuadrado
Se basan en la comparación de la log-Verosimilitud
del Modelo estimado y un Modelo Nulo
Dado que la verosimilitud(L) se encuentra entre 0 y 1;

la log-verosimilitud(LL) es siempre menor o igual a 0.
• Mejor Modelo: L=1 y LL=0
• Peor Modelo: L=0 y LL<0
Pseudo R cuadrado
•McFadden
1 Ajuste Perfecto
0 Mal Ajuste
(equivalente al modelo
nulo)
•McFadden Ajustado
<=0 Mal Ajuste
nulo)
Pseudo R cuadrado
•Cox & Snell 1-L(M nulo)2/N (<1)
Ajuste Perfecto
0 Mal Ajuste
nulo)
•Nalgelkerke
0 Mal Ajuste
nulo)
Test de Hosmer y Lemeshow
Clasifica a los casos en grupos de valores predichos

similares y compara si las frecuencias observadas de
dichos grupos coinciden con las esperadas bajo una
distribución logística.
• H0: Clasificaciones observadas son iguales a las

esperadas
Si P>0,05, con 95% de confianza NO se rechaza H0,

indicando un buen ajuste
VIII. INTERPRETACIÓN DE RESULTADOS
Análisis de Perfiles
• Y= Tener pareja
• Perfiles:
– Ocupado de 40 años
– Desocupado de 40 años
Test de hipótesis de los coeficientes
del modelo
TEST DE RAZÓN DE VEROSIMILITUD: Compara
la verosimilitud del modelo (k predictores)
con un modelo reducido (q predictores).
• H0:bk=0 k no incluido en el modelo
reducido.
• Estadístico:
Si Valor P<0.05, con 95% se rechaza H0

del modelo
TEST DE WALD:
• H0: bk=0
• Estadístico:
• Si Valor P<0.05, con 95% se rechaza H0

Coeficientes del modelo
INTERPRETACIONES POSIBLES:
• Interpretar b
• Interpretar eb
• Interpretar efectos marginales promedio

Probabilidad
El b puede ser interpretado,

realizando una
aproximación lineal a la
curva en el punto de interés.
Dicha recta tendrá
pendiente p(p-1) b
Probabilidad de votar
0
por Piñera 0.5
Si alguien gana 600 mil, si

aumenta 100 mil su sueldo,
la probabilidad de votar por
Piñera aumenta en
=0.4*0.6*0.5=0,012 (1,2%)
Ingresos (100 mil)

• Interpretar b
– b >0
• Al aumentar en 1 la variable independiente, logit aumenta en b
• Al Aumentar en 1 la variable independiente aumenta en p(p-
1)b
– b <0
• Al aumentar en 1 la variable independiente, logit disminuye en
b
• Al Aumentar en 1 la variable independiente disminuye en p(p-
1)b
=e
0
por Piñera 0.5
Si alguien aumenta su
sueldo en 100 mil, los odds
aumenta en 64%
Ingresos (100 mil)

0
por Piñera - 0.5
Si alguien aumenta su
sueldo en 100 mil, los odds
disminuyen en 40%
Ingresos (100 mil)

• Interpretar eb
– eb >1: Al aumentar en 1 la variable independiente
los odds aumentan en 100(eb -1)%
– eb <1: Al aumentar en 1 la variable independiente
los odds disminuyen en 100(1- eb)%
– Al aumentar en 1 la variable independiente los
odds aumentan en eb veces.
(EMP)
– EFP>0: En promedio, cuando la variable
independiente aumenta en 1, la variable
dependiente aumenta en EMP
– EFP<0: En promedio, cuando la variable
dependiente disminuye en EMP
Ejemplo
pareja2 Coef. Std. Err. z P>|z| [95% Conf. Interval]
edad .0338646 .000284 119.24 0.000 .033308 .0344212

ocupa1 .7317526 .0103442 70.74 0.000 .7114784 .7520269
_cons -1.807127 .0150622 -119.98 0.000 -1.836649 -1.777606
pareja2 Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
edad 1.034445 .0002938 119.24 0.000 1.033869 1.03502

ocupa1 2.078721 .0215027 70.74 0.000 2.037001 2.121295
_cons .1641249 .0024721 -119.98 0.000 .1593506 .1690423
dy/dx w.r.t. : edad ocupa1
Delta-method
dy/dx Std. Err. z P>|z| [95% Conf. Interval]
edad .0075454 .0000527 143.24 0.000 .0074422 .0076487

ocupa1 .1630431 .0021776 74.87 0.000 .1587752 .1673111
IX. MODELO LOGIT EN STATA
REPASO
Preguntas
I. ¿Para qué se usan los modelos probit y logit?
II. ¿En qué consiste la estimación por máxima
verosimilitud?
En un modelo logit…
III. ¿Cómo se interpretan –de forma general- los
pseudo- R cuadrado?
IV. ¿Cómo se interpreta el test de Hosmer y
Lemeshow?
V. ¿Cómo se interpreta b, eb y los EMP?
X. ESPECIFICACIÓN DEL MODELO
Probit
10 15 20 25
P[Y=1|X]=F(X)
•Logit: F es una función de probabilidad logística
•Probit: F es una función de probabilidad normal

acumulada
Probit
•Función de probabilidad normal acumulada
16
14
12
Frecuencia 10
Frecuencia acumulada 8
0 1 1 6
10 2.5 3.5 4
2
20 5 8.5 0
30 8 16.5 70
1 2 3 4 5 6 7 8 9 10 11
40 12 28.5 60
50 14 42.5 50
60 12 54.5 40
70 8 62.5 30
80 5 67.5 20
90 2.5 70 10
10 1 71 0
1 2 3 4 5 6 7 8 9 10 11
Probit
VARIABLES
VARIABLE CUANTITATIVAS O
DICOTÓMICA DICOTÓMICA
(DUMMY) (DUMMY)
XI. ESTIMACIÓN DEL MODELO
Ajustar la curva: Estimación de
Máxima Verosimilitud
• Verosimilitud: Probabilidad de obtener
los datos, dados los coeficientes a y b.
• Estimación mediante máxima

verosimilitud: estimar los coeficientes
que maximizan la verosimilitud.
XII. SUPUESTOS
Supuestos de Probit
1. Función de Probabilidad normal acumulada
4. Muestras grandes
XII. SUPUESTOS
1. Función de Probabilidad normal
acumulada
P[Y=1]=F(X) con F normal acumulada
Consecuencia del no cumplimiento del

supuesto: Disminución del ajuste del modelo.
XII. SUPUESTOS
1. Función de Probabilidad normal
acumulada
Gráfico de dispersión de X e Y
1.2
0.8
0.6
0.4
0.2
0
0 20 40 60 80 100 120 140 160 180
XIII. AJUSTE DEL MODELO
Porcentaje de casos bien clasificados
1
0
Test de Hosmer y Lemeshow

H0: Clasificaciones observadas son iguales a las
esperadas
Si P>0,05, con 95% de confianza NO se rechaza H0,

indicando un buen ajuste
XIII. AJUSTE DEL MODELO
Pseudo R cuadrado
•McFadden •Cox & Snell
1-L(M nulo)2/N
1 Ajuste (<1) Ajuste
Perfecto Perfecto
0 Mal Ajuste 0 Mal Ajuste
(equivalente al (equivalente al
modelo nulo) modelo nulo)
•McFadden Ajustado •Nalgelkerke
1 Ajuste 1 Ajuste
Perfecto Perfecto
0 Mal Ajuste 0 Mal Ajuste
(equivalente al (equivalente al
modelo nulo) modelo nulo)
XIV. INTERPRETACIÓN DE RESULTADOS
• Y= Tener pareja, X=Edad y Ocupado
• Perfiles:
del modelo
TEST DE RAZÓN DE VEROSIMILITUD:
• H0:bk=0 k no incluido en el modelo
reducido.
TEST DE WALD:
• H0: bk=0
• Interpretar b
– b >0
• Al aumentar la variable independiente, la
probabilidad de Y=1 aumenta
– b <0
• Al aumentar la variable independiente, la
probabilidad de Y=1 disminuye
• Interpretar efectos marginales promedio (EMP)
(EMP)
– EFP>0: En promedio, cuando la variable
dependiente aumenta en EMP
– EFP<0: En promedio, cuando la variable
dependiente disminuye en EMP
Ejemplo
>
pareja2 Coef. Std. Err. z P>|z| [95% Conf. Interval]
edad .0208241 .0001692 123.07 0.000 .0204925 .0211557

ocupa1 .4620657 .0063266 73.04 0.000 .4496658 .4744656
_cons -1.12406 .0091259 -123.17 0.000 -1.141947 -1.106174
Delta-method
dy/dx Std. Err. z P>|z| [95% Conf. Interval]
edad .0075709 .0000529 143.23 0.000 .0074673 .0076745

ocupa1 .1679902 .0021858 76.86 0.000 .1637061 .1722743
XV. MODELO PROBIT EN STATA
XVI. PROBIT VS LOGIT
Probit vs Logit
• La estimación de los EMP suelen ser similares.
• El modelo logit tiene una ecuación más sencilla y

la magnitud de los coeficientes tienen una
interpretación directa.
• Se puede optar por uno u otro, en función de

cual modelo ajuste mejor a los datos, aun
cuando el ajuste suele ser similar.
XVII. CAUSALIDAD
Causalidad en Modelos Probit y Logit

• La existencia de relación estadística de la variable
dependiente Y con las variables independientes X no
implica causalidad.
• La causalidad puede ser de X a Y o de Y a X
Recomendable incluir predictores X de un periodo
previo
• La causalidad puede deberse a otras variables
Recomendable controlar
• Aún siguiendo las recomendaciones no hay garantía
de causalidad.
REPASO
Preguntas
I. ¿En qué se diferencia un modelo probit de un

logit?
II. ¿Cómo se interpreta b y los EMP?

Tema12 23y30nov

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema12 23y30nov

Cargado por

Copyright:

Formatos disponibles

Facultad de Ciencias Sociales

Modelos Logit y Probit

Catalina Canals Cifuentes

• Determinar cómo incide (y con qué intensidad lo

• Predecir la probabilidad de D, a partir de A, B y C

•Logit: F es una función de probabilidad logística

•Probit: F es una función de probabilidad normal

• Estimación mediante máxima

1. Función de Probabilidad Logística

Función de Probabilidad Logística:

Consecuencia del no cumplimiento del

• Diagnóstico del cumplimiento del supuesto:

• Variables predictoras independientes entre sí.

• Consecuencia del no cumplimiento del

• La Muestra es grande (30 casos por cada

• Consecuencia del no cumplimiento del

Dado que la verosimilitud(L) se encuentra entre 0 y 1;

Clasifica a los casos en grupos de valores predichos

• H0: Clasificaciones observadas son iguales a las

Si P>0,05, con 95% de confianza NO se rechaza H0,

Si Valor P<0.05, con 95% se rechaza H0

• Si Valor P<0.05, con 95% se rechaza H0

• Interpretar efectos marginales promedio

El b puede ser interpretado,

Si alguien gana 600 mil, si

Ingresos (100 mil)

Ingresos (100 mil)

Ingresos (100 mil)

edad .0338646 .000284 119.24 0.000 .033308 .0344212

pareja2 Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

edad 1.034445 .0002938 119.24 0.000 1.033869 1.03502

dy/dx w.r.t. : edad ocupa1

edad .0075454 .0000527 143.24 0.000 .0074422 .0076487

•Logit: F es una función de probabilidad logística

•Probit: F es una función de probabilidad normal

• Estimación mediante máxima

1. Función de Probabilidad normal acumulada

Consecuencia del no cumplimiento del

Test de Hosmer y Lemeshow

Si P>0,05, con 95% de confianza NO se rechaza H0,

•McFadden Ajustado •Nalgelkerke

edad .0208241 .0001692 123.07 0.000 .0204925 .0211557

edad .0075709 .0000529 143.23 0.000 .0074673 .0076745

• La estimación de los EMP suelen ser similares.

• El modelo logit tiene una ecuación más sencilla y

• Se puede optar por uno u otro, en función de

Causalidad en Modelos Probit y Logit

I. ¿En qué se diferencia un modelo probit de un

II. ¿Cómo se interpreta b y los EMP?

También podría gustarte