Está en la página 1de 43

El modelo Logit

1) El modelo logit surge cundo para representar


la probabilidad de que un individuo escoja la
opcin Y = 1, se utiliza la funcin de distribucin
logstica
Pi = Prob(Yi =1) = ez/ 1+ ez
donde Zi = B0 + B1 Xi + . . . +ui
2) Pi representa la probabilidad de que un
individuo efectu una eleccin determinada
conociendo Xi
2) La grafica de la funcin de distribucin logstica es:
Es una funcin montona creciente ( en los extremos la
tasa de crecimiento es menor)

P
FDA

- 0 X
3) Deduccin del modelo Logit
Pi = 1/ (1+ e-z )
pi ( 1+e-z) = 1
Pi + Pi e-z = 1
Pi e-z = 1- Pi
e-z = 1- Pi / Pi
Hallando la inversa en ambos miembros de la ecuacin:
ez = Pi / 1-Pi
Tomando logaritmos neperianos en ambos miembros
de la ecuacin:
Ln ez = Ln(Pi / 1-Pi) =>Z = Ln (Pi / 1-Pi)
Li = Ln (Pi / 1-Pi)= B1 + B2 X2i + B3 X3i+ . . . + Bk Xki +ui
Li (se denomina logit)
Interpretacin del modelo logit
En el modelo logit: Ln(Pi / 1-Pi)= B0 + B1 X1i + ui
1) Ln(Pi / 1-Pi) : es el logaritmo de la razn de probabilidades
2) B0: es el valor que toma, Ln(Pi / 1-Pi) cuando X1i = 0
3) Interpretacin de B1:
Ln(Pi / 1-Pi)/ Xi = B1
Ln(Pi / 1-Pi)/ Xi = B1
Ln(Pi / 1-Pi)= B1 Xi
Si Xi =1 => Ln(Pi / 1-Pi)= B1
B1 mide el cambio en Ln(Pi / 1-Pi), ocasionado por un
cambio unitario en X1
4) Pero: Ln(Pi / 1-Pi)= Pi / Pi (1 Pi) = B1
5) => P = B1 Pi (1-Pi)
La ratio odds= Pi /1-Pi
1)Se llama ratio de probabilidades al cociente entre
la probabilidad de que ocurra un hecho, o de que
se elija la opcin 1, frente a la probabilidad de
que no suceda el fenmeno, o de que se elija la
opcin 0
2)Su interpretacin es la ventaja o preferencia de
la opcin 1 frente a la 0, es decir, el nmero de
veces que es ms probable que ocurra el
fenmeno frente a que no ocurra.
3) Cociente entre odds.-
El inters de esta medida adquiere sentido cuando se
comparan las ventajas para distintos valores de la variable
explicativa, calculndose el cociente entre odds. As,
Si se compara la situacin de la observacin i con la de la
observacin j (que suele ser la de referencia) El cociente entre
ODDS mide cuanto es mas probable que se de, la
alternativa 1 en i que en j
.
Cociente entre odds =
4) Si el valor obtenido es mayor a la unidad, la
probabilidad de ocurra la alternativa 1 en la
observacin i es mayor que en la observacin j, mientras
que si el valor obtenido es inferior a uno, la probabilidad
de ocurrencia de la alternativa 1 es superior en la
observacin j que en la i. Si el valor obtenido es igual a
la unidad significa que las probabilidades en ambas
observaciones son iguales.
5)El calculo del cociente entre odds facilita la interpretacin de
los parmetros estimados cuando se aplica al caso concreto de
calcular la variacin en la preferencia o ventaja de un
individuo( i ) cuando incrementa en una unidad una de las
variables explicativas frente a la ventaja o preferencia del
mismo individuo( i ) cuando se encuentra en la situacin de
referencia

Cociente entre odds =


Bk
Donde e es un factor de cambio en el cociente entre odds
cuando el valor de la variable Xk aumenta en una unidad y el
resto de las variables se mantienen constantes, es decir , el
parmetro Bk se interpreta como el numero de veces que
incrementa el logaritmo de la ventaja o preferencia de la
opcin 1 frente a la opcin 0 cuando se incrementa en una
unidad Xk
Ejemplo
Para el ejemplo de la propiedad de la vivienda para datos
agrupados:
Cunto mas es mas probable que las familias que ganan 30000
tengan casa propia que las familias que ganan 25000?
Solucin
1) para x=25000 => Pj /1-Pj = 1.50
2) Para: x= 30000=> pi /1-pi = 1.94
3) Pi /1-Pi / Pj / 1-Pj = 1.94/ 1.50= 1.29
1.29 es mas probable que tengan casa propia las familias que
ganan 30000 que las que ganan 25000
Estimacin del modelo logit
I. Estimacin del modelo logit con informacin
dada en forma agrupada
II. Estimacin del modelo logit con informacin
dada en forma individual
Estimacin del modelo logit con
informacin dada en forma agrupada
a. En este caso el modelo logit se estima por el mtodo de MCO,
se agrupa la informacin porque viene en forma repetida, por
ello es necesario agruparlo
b. El procedimiento de estimacin es el siguiente:
Primero se calculan las frecuencias relativas(pi)
correspondientes a cada Xi
pi = ni / Ni
Ni = # de individuos con atributo Xi
ni = # de individuos con atributo Xi que tienen respuesta si
pi = frecuencia relativa
Luego se calculan los logit Li para cada grupo
y se estima el modelo logit:
Ln(Pi / 1-Pi)= B0 + B1 X1i + ui
Pero en este modelo ui tiene varianza
heteroscedastica por ello es necesario corregir
dicha heteroscedasticidad,
Ui para grandes muestras tiene una distribucin
normal con media 0 y varianza [ 1/ Ni Pi (1-Pi)]
es decir: i ~ N [ 0, 1/ Ni Pi (1-Pi )]
=>Var(ui )= [ 1/ Ni Pi (1-Pi)]
Para remediar la heteroscedasticidad en el modelo logit
cuando se estima el modelo por el mtodo MCO se
tiene que dividir el modelo original entre la raz
cuadrada de la varianza de ui
Como: 2 = [ 1/ Ni Pi (1-Pi)] => = [ 1/ Ni Pi (1-Pi)]
= 1/ [ Ni Pi (1-Pi)] = 1 / [ Ni Pi (1-Pi)]

Si : Ni Pi (1-Pi) = wi => = 1/ wi
Modelo logit con heteroscedasticidad :
Li = Ln(Pi / 1-Pi)= B0 + B1 X1i + ui
Corrigiendo la heteroscedasticidad
Li / (1/w) = B0 / (1/w) + B1X1i / 1/w + ui / (1/w)
=> el modelo logit corregido de
heteroscedasticidad es:
Li wi = B0 wi + B1 X1i wi + vi
Ejemplo de aplicacin
Se cuenta con la siguiente informacin: Xi= Ingreso familiar
en miles de $), Ni= #de familias con ingreso Xi ; ni= # de
familias con ingreso Xi que poseen casa propia

Xi Ni ni

6 40 8
8 50 12
10 60 18
13 80 28
15 100 45
20 70 36
25 65 39
30 50 33
35 40 30
40 25 20
X Ni n p 1-p p/1-p

6 40 8 0.20 0.80 0.25


8 50 13 0.24 0.76 0.32
10 60 18 0.30 0.70 0.43
13 80 28 0.35 0.65 0.54
15 100 45 0.45 0.55 0.82
20 70 36 0.51 0.49 1.04
25 65 39 0.60 0.40 1.50
30 50 33 0.66 0.34 1.94
35 40 30 0.75 o.25 3.00
40 25 20 0.80 0.20 4.00
Li =Ln(p/1-P) Wi = Ni P(1-P) Wi =NP(1-P) L iWi Xi Wi

-1.3863 6.4 2.5298 -3.5071 15.1788


-1.1526 3.0199 -3.4807 24.1592
-0.8472 3.5496 -3.0072 35.4960
-0.6190 4.2661 -2.6407 55.4593
-0.2007 4.9749 -0.9985 74.6235
0.0400 4.1825 0.1673 83.6506
0.4054 3.9497 1.6012 98.7425
0.6633 3.3496 2.2218 100.4880
1.0986 2.7386 3.0086 95.8405
1.3863 2.0000 2.7726 80.0000
El modelo estimado corregido de heteroscedasticidad:
Li w = -1.59474w + 0.07862 Xi w
1) Cual ser la probabilidad de tener casa propia para una familia
cuyo ingreso familiar es de $ 10 000 ?
Ln(Pi / 1-Pi) w = -1.59474w + 0.07862 Xi w
Dividiendo la ecuacin anterior entre w
Ln(Pi / 1-Pi) = -1.59474 + 0.07862 Xi
Ln(Pi / 1-Pi) = -1.59474 + 0.07862 (10)= -0.80854
=> (Pi / 1-Pi) = e-0.8085= 0.4455
=> P = 0.4455(1-P) = 0.4455- 0.4455P
=> P = 0.4455/ 1.4455 = 0.3082=> P = 30.82%
2)Cul es la probabilidad de tener casa propia para una familia
cuyos ingresos son de $18000?
Ln(Pi / 1-Pi) w = -1.59474w + 0.07862 Xi w
t => (-14.43619) (14.56675)
Dividiendo la ecuacin entre w
Ln(Pi / 1-Pi) = -1.59474+ 0.07862 Xi
Ln(Pi / 1-Pi) = -1.59474 + 0.07862 (18)=-0.17958
=> (Pi / 1-Pi)= -0.17958=> (Pi / 1-Pi) = e-0.17958= 0.83562
=>(Pi / 1-Pi)= 0.83562 => P = 45.52%
3)Calcular el cambio en la probabilidad de tener casa propia
por efecto de un cambio unitario en el ingreso familiar
Ln(Pi / 1-Pi)/ Xi = B1 => Ln(Pi / 1-Pi) = B1X
si X = 1=> Ln(Pi / 1-Pi)= B1
=> pero: Ln(Pi / 1-Pi)= Pi / Pi (1-Pi) = B1
=> Pi = B1 Pi ( 1-Pi)
5)Para cada nivel de ingreso el cambio en la probabilidad por efecto de un cambio
unitario en el ingreso ( por cada $1000) es diferente: as tenemos:
Si X =6=>P=0.2454=>P=0.0786(0.2454)(0.7546)=0.01456
Si X=8 =>P= 0.2757=>P=0.0786(0.2757)(0.7243)=0.01570
Si x=10=>P=0.3082=>P=0.0786(0.3082)(0.6918)=0.01676
Si X=13=>P=
Si X= 15=>P=
Si X=20=>P=
Si X=25=>P=
Si X=30=>P=
Si X=35=>P=
Si X=40=>P=
Si X=45=>P=
6)Cunto mas es mas probable que las familias que ganan 30000
tengan casa propia que las familias que ganan 25000?
Solucin
1) para x=25000 => Pj /1-Pj = 1.50
2) Para: x= 30000=> pi /1-pi = 1.94
3) Pi /1-Pi / Pj / 1-Pj = 1.94/ 1.50= 1.29
1.29 es mas probable que tengan casa propia las familias que
ganan 30000 que las que ganan 25000
7)El modelo logit estimado sin correccin de heteroscedasticidad:
Li = -1.6587 + 0.0792 Xi
t=> ( -17.32) (19.11)
Estimacin del modelo logit con
informacin individual
1) Si quisiramos estimar el modelo logit con informacin dada en
forma individual por el mtodo de MCO tendramos el
problema siguiente:
2) Si P= 1 => ln(P/1-P) = ln(1/1-1)= ln(1/0) =
Si P=0=> ln(p/1-P) = Ln(0/1-0)= ln(0/1) =
En ambos casos no se podra calcular los logit Li
Debido a la consideracin anterior el modelo logit con
informacin dada en forma individual se estima por el mtodo
de mxima verosimilitud, adems los estimadores de MV no
son heteroscedasticos.
La bondad de ajuste en el modelo
Logit
En los modelos logit y probit, debido a que el mtodo de
estimacin no es el de MCO sino el de MV( Maxima
verosimilitud) no podemos utilizar el coeficiente de
determinacin clsico R2 para medir la bondad del ajuste.
Recordemos que este era uno de los problemas que surgan
el modelo lineal de probabilidad
Existen varias medidas de la bondad de ajuste en el
modelo as tenemos:
a) La R2 de Mc fadden
b) El R2 de conteo
El pseudo R2 de McFadden:
R2 = 1 LnL/Ln(0)
Donde LnL es el logaritmo neperiano de la funcin de
verosimilitud del modelo sin restricciones (el modelo con
todas las variables explicativas) y lnL(0) es el logaritmo
neperiano de la funcin de verosimilitud del modelo
restringido (que solo incluye el termino independiente del
modelo).
El ratio calculado tendr valores comprendidos entre 0 y 1 de
forma que:
El R2 de conteo
Porcentaje de prediccin correcta, porcentaje de Ys para los
que la prediccin de probabilidad es mayor a 50% (si Y=1) o
menor a 50% (si Y=0).
1) El R2 de conteo se define en la siguiente forma:
R2 =
Las observaciones acertadas son cuando:
El Y estimado > 0.50 y coincide con Y=1
El Y estimado 0.50 y coincide con Y =0
4) Las observaciones no acertadas son cuando:
El Y estimado > 0.50 y coincide con Y= 0
El Y estimado 0.50 y coincide con Y =1
Contrastacin de las hiptesis
I)Significacin individual de los parmetros o coeficientes
La significacin estadstica de los parmetros BJ es la siguiente:
a) H0 : BJ = 0
H1 : BJ 0
b) | Bj |= BJ/ Var(BJ)
c) Se lee en la tabla de distribucin T-student para 5% de significacin
y para (N-K) grados de libertad un T/2
c) Si | Bj |T1-/2 =T/2 =>se rechaza la H0 y se acepta la H1
Si | Bj |<T1-/2 = T/2 =>se acepta la H0
Utilizando la distribucin normal para la prueba de
significacin individual
se puede construir un intervalo de confianza del parmetro estimado,
para testar si dicho valor es significativamente distinto de cero de forma
individual:
H0 : B=0 H1 0

: _ B +

El intervalo de confianza proporciona un rango de


posibles valores para el parmetro, por lo que si el valor
de B en H0 se encuentra en el intervalo no rechazar la
hiptesis, pero si esta fuera del intervalo nula, se deber
rechazar la hiptesis nula.
Prueba equivalente a la prueba F
1) A fin de probar la hiptesis nula respecto a que todos los
coeficientes de pendiente son simultneamente iguales a
cero, el equivalente de la prueba F en el modelo logit es el
LR estadstico. El LR estadstico es usado para probar la
significancia total del modelo
2) Dada la hiptesis nula, el estadstico LR sigue la
distribucin X2 con (m) Grados de libertad,
donde m= # de variables explicativas del modelo
La significacin conjunta de los parmetros o
coeficientes es siguiente:
a) H0 : B1 = B2 = . . . = Bk =0
H1 : B1 B2 . . . Bk 0
b) El estadstico de contraste es
c) LR =-2 Ln B / Ln( B )
c) Se lee en la tabla de distribucin X2 para 5% de significacin y
para m grados (m: numero de variables explicativas del modelo)
d) Si LR X2m =>se rechaza la H0 y se acepta la H1
Si LR< x2m =>se acepta la H0
Ejemplo de aplicacin
1) Si tenemos el modelo Logit:
Ln( Pi /1-Pi) = B0 +B1 IFi + B2 HUi + B3 PPi + ui
Donde:
a) Y =(1 si la familia tiene una PC en su casa; 0: si la familia no
tiene una PC en su casa)
b) Variables explicativas:
IF: ingreso familiar
HU=(1: tienen hijos universitarios,=: si no tiene hijos
universitarios)
PP=( 1: si los padres son profesionales, 0: si los padres no
son profesionales)
Ejemplo de aplicacin
El modelo Logit estimado:

Ln (P/1-P)= - 5.852594 + 0.000494 IF + 4.107827 HU + 3.170859 PP


a) Calcular la probabilidad de que una familia tenga un PC en su hogar si
IF=5000; HU= 1 y PP=1.
b) Que significa (P/1-P) en este caso
c) Calcular el R2 de conteo
d) Probar la hiptesis nula de que todos los
coeficientes de pendiente son simultneamente
iguales a cero
e) En cuanto se incrementa la probabilidad de tener
una PC para las familias profesionales de IF = 3000
que tienen hijos universitarios en relacin a los que
no tienen hijos universitarios
f) Cuantas veces es mas propenso que las familias
que tienen hijos universitarios tengan una PC que las
que no tienen hijos universitarios para la pregunta ( e
)?
Solucin:
a) IF= 5000, HU= 1: PP=1
Ln(p/1-P) = 3.896092 =>
=>P/1-P= e3.896092= 49.209761
=>P/1-P=49.2097
=> P= 98%
b) P/1-P = 49.209761, significa que 49.2 veces es
mas probable que se de la alternativa 1 que la
alternativa 0
c)R2 = # de predicciones correctas / # total de observaciones
d)
H 0: B 1 = B 2= B 3 = 0
H A : B 1 B 2 B 3 0
LR= 35.39342
Para 3 Grados de libertad X2= 0.352
Como LR= 35.39 > X2 = 0.352 => se rechaza la H0 y se
acepta la HA , eso significa que las variables IFi, HUi y PPi
tomadas en conjunto explican las variaciones de la variableYi
e)
f)