Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Modelos de Elección Discreta Con Stata PDF
Modelos de Elección Discreta Con Stata PDF
Resumen
El objetivo de este documento es introducir al lector en los modelos de eleccin
discreta estimados por mxima verosimilitud y, a los modelos con variable
dependiente limitada. En primer lugar se presentan los modelos dicotmicos MLP,
Logit y probit. Posteriormente se presentan los modelos de mltiples alternativas
ordenadas y no ordenadas. Para finalmente presentar los modelos censurados y
truncados.
Palabras Clave: Econometra, software economtrico, Stata
Clasificacin JEL: C01, C87.
Stata es una marca registrada de Stata Corporation. Copyright 19962010 StataCorp LP, 4905
Lakeway Drive, College Station, TX 77845 USA. Las opiniones contenidas en este documento, los errores
u omisiones son de exclusiva responsabilidad del autor.
1 Introduccin
Los modelos de eleccin binaria corresponden a aquellos modelos de eleccin discreta en
los que el conjunto de eleccin se reduce a slo dos alternativas posibles. Dentro de los
modelos de eleccin discreta, en los que el conjunto de eleccin tiene slo dos alternativas
posibles mutuamente excluyentes, es decir cuando la variable dependiente es una variable
dummy, existen: el modelo lineal de probabilidad (MLP), el modelo Probit, y el modelo
Logit. Una posibilidad para estimar modelos con variable dependiente discreta binaria, es
usar el modelo lineal de probabilidad y estimarlo por MCO. No obstante, esta aproximacin
presenta varios problemas, que se estudiarn ms adelante. Cabe resaltar que algunos de
estos problemas tienen solucin, mientras otros no la tienen, lo que nos lleva a plantear el
uso de modelos que empleen funciones de probabilidad acumulativas, que se ajustan ms a
la realidad que se quiere estudiar. Algunos ejemplos de este tipo de modelos son el Logit,
que emplea una funcin de distribucin logstica, y el Probit, que emplea una funcin de
distribucin normal; ambos modelos se estiman por medio del mtodo de Mxima
Verosimilitud.
Los modelos de eleccin discreta presentan muchas veces algunos problemas
particulares diferentes a aquellos a los que se enfrentan los modelos clsicos de
regresin, aqu se presentarn tambin este tipo de problemas y sus posibles
soluciones.
2 Modelo lineal de probabilidad: MCO
Los modelos de probabilidad lineal se especifican de la siguiente manera:
Yi = 0 + 1 X 1i + 2 X 2i + ... + k X ki + i
i = 1, 2,..., n
1,
Yi =
0
zi 0
zi < 0
Donde Zi corresponde a una variable latente, es decir una variable que no es observable,
pero para la cual se puede inferir su valor a partir de una variable relacionada (en este caso
la variable relacionada es la variable dummy Yi). Es preciso aclarar que Zi representara, por
ejemplo, el benficio neto para el individuo de participar en el programa (Yi=1): en efecto si el
beneficio de participar es mayor que cero, el individuo toma la caracterstica relacionada
con Yi=1, y cuando el beneficio es inferior a cero aquella relacionada con Yi=0.
Este modelo expresa la variable dicotmica Yi como una funcin lineal de las variables
explicativas. Este tipo de modelos se conocen como modelos de probabilidad lineal, ya que
el valor esperado de la variable dependiente condicionada a las variables independientes,
puede ser interpretada como la probabilidad condicional de que un evento determinado
acontezca dado Xi. Suponiendo que E (i)=0 para que los estimadores sean insesgados, se
obtiene que:
E (Yi | X i ) = 0 + 1 X 1i + 2 X 2i + ... + k X ki
i = 1, 2...n
probabilidad Pi
probabilidad 1-Pi
Por lo tanto, el valor esperado del modelo inicial, puede ser interpretado como la
probabilidad condicional de Yi . Dado que la probabilidad debe estar acotada entre 0 y 1,
entonces la esperanza condicional debe tambin estar restringida entre estos valores, tal y
como sigue: 0 E (Yi / X i ) 1
No obstante, esta aproximacin tiene varios problemas, tales como la no normalidad de los
errores, la heterocedasticidad del trmino de error, los valores generalmente bajos del R2, y
la posibilidad de que los valores estimados de la variable dependiente dicotmica se salgan
del rango 0-1.
A pesar de los muchos inconvenientes que presenta el MPL, su mayor problema radica en
que supone que Pi = E (Yi = 1/ X i ) aumenta linealmente con X, es decir el efecto marginal o
incremental de X permanece constante todo el tiempo. Esto no parece ser realista, en
realidad se esperara que Pi estuviera relacionado de forma no lineal con Xi (GUJARATI
1997). Estos problemas invalidan entonces la estimacin por MCO, por lo que ser
necesario usar un mejor mtodo estadstico de estimacin.
En efecto se necesitan modelos que satisfagan las siguientes condiciones:
-
Una opcin para lograrlo es usar funciones de distribucin acumulativa, como por ejemplo
la distribucin logstica o la normal, que dan lugar a los modelos Logit y Probit.
Para empezar se puede decir que de forma general este tipo de modelos se especifica tal y
como sigue:
Donde F es una funcin que toma valores entre 0 y 1 para todos los reales. Segn las
distintas definiciones de F, se tendrn distintos modelos de eleccin binaria.
3 Modelo Logit: MV
El modelo Logit es un modelo con variable dependiente binaria. Si F ( z ) =
ez
,
1 + ez
e 0 + 1 X1 +...+ X k
1 + e 0 + 1 X1 +...+ X k
Este modelo sigue una distribucin logstica, que permite ver que a medida que Z se
encuentra entre y - la probabilidad de que Yi tome el valor de uno se encuentra dentro
del rango 0-1, y adicionalmente dicha probabilidad no est relacionada linealmente con Xi.
Se estima por el mtodo de Mxima Verosimilitud obteniendo estimadores insesgados y
consistentes.
Stata permite estimar este tipo de modelos de la siguiente manera: el men de
herramientas se selecciona la opcin Statistics para despus elegir Binary outcomes. Una
vez hecho esto, se puede elegir bien sea el modelo Logit o el Probit, u otras opciones que
proporciona el programa.
0:
1:
2:
3:
log
log
log
log
likelihood
likelihood
likelihood
likelihood
= -20.526953
= -19.650438
=
-19.6485
=
-19.6485
Logistic regression
Log likelihood =
Number of obs
LR chi2(3)
Prob > chi2
Pseudo R2
-19.6485
Coef.
x1
x2
x3
_cons
-.0047131
.1120338
.8902547
-.8768972
Std. Err.
.0154551
.1242195
.8861582
1.103113
P>|z|
-0.30
0.90
1.00
-0.79
=
=
=
=
30
1.76
0.6244
0.0428
0.760
0.367
0.315
0.427
-.0350045
-.1314319
-.8465835
-3.038959
.0255783
.3554995
2.627093
1.285165
dy/dx
-.001155
.027455
.2183869
Std. Err.
.00379
.0304
.21226
z
-0.30
0.90
1.03
P>|z|
95% C.I.
0.760
0.366
0.304
-.008578
-.032128
-.197634
.006268
.087038
.634408
X
51.1
5.06667
.3
4 Modelo Probit: MV
z
1 2z
( z) =
e
2
Y=F ( z ) = F ( 0 + 1 X 1 + ... + X k ) =
1 2
e d
2
probit 1, 6 log it
Al realizar la estimacin de un modelo Probit, la tabla que arroja Stata es la siguiente:
Tabla 3. Resultados de la estimacin de un modelo Probit
Iteration
Iteration
Iteration
Iteration
0:
1:
2:
3:
log
log
log
log
likelihood
likelihood
likelihood
likelihood
=
=
=
=
-20.526953
-19.652544
-19.652082
-19.652082
Probit regression
Number of obs
LR chi2(3)
Prob > chi2
Pseudo R2
Coef.
x1
x2
x3
_cons
-.0028088
.0686759
.5431961
-.5460755
Std. Err.
.0095977
.0760005
.53932
.6843898
z
-0.29
0.90
1.01
-0.80
P>|z|
0.770
0.366
0.314
0.425
=
=
=
=
30
1.75
0.6259
0.0426
.0160023
.2176341
1.600244
.7953038
En esta tabla aparecen los coeficientes estimados, los errores estndar y los valores
respectivos de las z. A su vez, Stata proporciona la prueba de significancia global del
modelo llamado LR chi2(3) (el nmero 3 corresponde al nmero de variables
independientes) y su respectivo valor p. esto permite concluir pues sobre la
significancia global del modelo. Este test es una prueba de que todas las pendientes
son cero, anlogo a la prueba F usualmente utilizada en los modelos de regresin
lineal.
Como ya se sabe, los coeficientes s estimados solamente permiten contrastar los
signos esperados a priori, sin embargo las interpretaciones se deben realizar con los
efectos marginales. El comando para el clculo de estos es:
.mfx
dy/dx
-.0011028
.0269638
.2135571
Std. Err.
.00377
.0298
.20838
z
-0.29
0.90
1.02
P>|z|
95% C.I.
0.770
0.366
0.305
-.008489
-.03145
-.194869
.006284
.085378
.621983
X
51.1
5.06667
.3
En la tabla se observan los efectos marginales que son ahora interpretables como
usualmente se hace. Tambin muestra los errores estndar, los valores z con su
respectivo valor p y el intervalo de confianza.
Si lo que se desea es calcular los efectos marginales sobre un valor puntual (por
ejemplo 10 o 20) se debe introducir:
.mfx, at (var1=10 var2=20 var3=30)
5 Modelos con mltiples alternativas
Los economistas continuamente hacen regresiones con variables dependientes
discretas buscando analizar principalmente las elecciones de los individuos. Para este
fin, los modelos de eleccin discreta resultan los ms apropiados cuando el objetivo
no es predecir el comportamiento medio de un agregado, sino analizar los factores
determinantes de la probabilidad de que un agente econmico individual elija un
curso de accin dentro de un conjunto, generalmente finito, de opciones posibles.
El agente econmico entonces, puede llegar a enfrentarse a ms de dos alternativas
en su proceso de eleccin, asumiendo el llamado problema multinomial, en donde
la variable dependiente toma un conjunto discreto y finito de valores o categoras. A
estos modelos se les conoce como modelos multinomiales, los cuales se constituyen
en extensiones del Logit y Probit binario en los cuales, dependiendo de si las
alternativas de la variable endgena sean excluyentes o incorporen informacin
ordinal se distinguen entre los modelos condicionales, modelos con datos ordenados y
los modelos con datos no ordenados. Los primeros se dan cuando nacen 2 o ms
decisiones de manera secuencial, los segundos surgen cuando las decisiones de los
individuos pueden ordenarse o jerarquizarse, plantendose la necesidad de que se
cumpla una primera condicin para optar por una segunda. Pero a pesar de que
muchos economistas han optado por los modelos de respuesta ordenada, no siempre
son la mejor opcin, pues muchas veces, no logran recoger adecuadamente la
naturales de un proceso de decisin en el que existen factores que actan en el mismo
sentido sobre la probabilidad de eleccin de las alternativas extremas.
Para especificar correctamente la funcin que ejemplifique mejor la toma de
decisiones de los individuos, se parte de la formulacin de supuestos sobre los
Variables que contienen aspectos especficos del individuo y por tanto, su valor
ser el mismo en todas las alternativas. Este tipo de variables reciben el
nombre de caractersticas, y se las denota por .
Variables que contienen aspectos especficos de las alternativas entre las que
se ha de elegir, y varan tanto entre individuos como entre alternativas. Este
tipo de variables reciben el nombre de atributos a las alternativas y las denota
por .
Los datos se estiman por Mxima verosimilitud, sin embargo mediante este mtodo
no podemos interpretar los coeficientes estimados de forma tradicional como se hace
por el mtodo de MCO. Explcitamente los coeficientes no indicarn el cambio en la
probabilidad. Slo representan la relacin Y y X, que segn el signo que arroje cada
uno, se sabr si es una relacin directa o inversa.
Lo que efectivamente se puede interpretar es la probabilidad de que suceda cada
una de las elecciones, la Odds-ratio que es un ratio de probabilidades que representa
el cociente entre la probabilidad de que suceda un hecho (elegir la opcin 1) frente a
Donde, en el caso de que el valor de la ratio Odds sea: Mayor que 1, la probabilidad (o
utilidad) del individuo i es mayor que del individuo j. Menor que 1, la probabilidad (o
utilidad) del individuo i es menor que el individuo j. E igual a 1, las probabilidades (o
utilidades) del individuo i e j son iguales o indiferentes.
Para realizar la estimacin de un modelo de variable dependiente con mltiples
alternativas se deben seguir los siguientes pasos:
Donde son inobservables que afectan las decisiones de los individuos y no tiene
trmino constante. Un ejemplo para este tipo de modelos es el tiempo que tarda en
llegar al trabajo el individuo i teniendo en cuenta el medio de transporte j que utilice.
Este es un tipo de decisin condicionada que se trabaja en este tipo de modelos.
El modelo Logit condicional se expresa as:
P(Yi = j | X i ) = p j ( X ) =
( X ij )
j = 0,1, 2...J
( X ih )
h=0
Y* = X +
Donde X no contiene constante, contiene k parmetros y el trmino de error se
distribuye de manera normal con media cero y varianza constante igual a uno. Ahora,
se definen
Y = 0 ...
Yi* 1
Y = 1 ... 1 < Yi* 2
Y = j ...
Yi* > j
P (Y = j | X ) = P(Y > j | X ) = 1 ( j X )
En este caso se trata de un Probit Ordenado, si en vez de utilizar (.) se utiliza (.)
sera entonces un Modelo Logit Ordenado.
En Stata, se deben realizar los siguientes pasos para la estimacin de este tipo de
modelos. En la barra de herramientas se selecciona el men Statistics, donde se
desprende lo siguiente:
.01
Density
.02
.03
.04
40
50
60
achiv
70
80
Y = X +u
u | X ~ N (0; 2 )
.001
Density
.002
.003
.004
300
400
500
600
700
800
apt
si Y *i 0
si Y *i > 0
0
1
0
0
Ahora, en una segunda etapa, lo que se hace es calcular la probabilidad de que dentro
de la decisin del individuo potencial efectivamente ocurra el suceso estudiado. En
efecto, se trata de asignar un valor real positivo a la variable Yi una vez que, en la
http://www.ats.ucla.edu/stat/stata/
http://econpapers.hhs.se/paper/bocbocoec/531.htm
http://fmwww.bc.edu/ec/res.info.php
http://ideas.repec.org/s/boc/bocins.html
http://ideas.repec.org/s/boc/bocode.html