Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. INTRODUCCIN
2. INTERPRETACIN ESTRUCTURAL DE LOS MODELOS DE ELECCIN
DISCRETA
3. MODELO LINEAL DE PROBABILIDAD (MLP)
Especificacin e interpretacin del MLP
Limitaciones de la estimacin por MCO
4. MODELOS DE PROBABILIDAD NO LINEAL
Especificacin de los modelos de eleccin discreta (Logit y Probit)
Estimacin de los parmetros en los modelos Logit
A. Estimacin con observaciones no repetidas: Mtodo de MximaVerosimilitud
B. Estimacin con observaciones repetidas: Mtodo Mnimos
Cuadrados Generalizados
Contraste y validacin de hiptesis
A. Significatividad estadstica de los parmetros estimados
B. Medidas de bondad de ajuste del modelo
5. MODELOS DE RESPUESTA MLTIPLE
Modelos de respuesta mltiple con datos no ordenados
A. El modelo Logit Multinomial
B. El modelo Logit Condicional
C. El modelo Logit Anidado
Modelos de respuesta mltiple con datos ordenados
1. INTRODUCCIN
La utilidad de los modelos de eleccin discreta frente a la econometra tradicional radica
en que los primeros permiten la modelizacin de variables cualitativas, a travs del uso
de tcnicas propias de las variables discretas. Se dice que una variable es discreta
cuando est formada por un nmero finito de alternativas que miden cualidades. Esta
caracterstica exige la codificacin como paso previo a la modelizacin, proceso por el
cual las alternativas de las variables se transforman en cdigos o valores cunticos,
susceptibles de ser modelizados utilizando tcnicas economtricas.
La modelizacin de este tipo de variables se conoce genricamente con el nombre de
modelos de eleccin discreta, dentro de la cual existe una amplia tipologa de modelos.
En concreto, segn el nmero de alternativas incluidas en la variable endgena, se
distinguen los modelos de respuesta dicotmica frente a los denominados modelos de
respuesta o eleccin mltiple. Segn la funcin utilizada para la estimacin de la
probabilidad existe el modelo de probabilidad lineal truncado, el modelo Logit y el
modelo Probit. Segn que las alternativas de la variable endgena sean excluyentes o
incorporen informacin ordinal se distingue entre los modelos con datos no ordenados y
los modelos con datos ordenados. Dentro de los primeros, segn que los regresores
hagan referencia a aspectos especficos de la muestra o de las alternativas entre las que
se ha de elegir, se distingue entre los modelos multinomiales y los condicionales.
Teniendo en cuenta todos los elementos que influyen en el proceso de especificacin de
los modelos de eleccin discreta, se puede establecer una clasificacin general de los
mismos, que queda recogida en la el siguiente cuadro.
Clasificacin de los modelos de eleccin discreta
N de alternativas
Tipo de
alternativas
El regresor se refiere a:
Tipo de funcin
Caractersticas
Atributos
Lineal
Logstica
Modelo Logit
Normal tipificada
Modelo Probit
Logit Multinomial
Logstica
Modelos de respuesta No ordenadas
mltiple
(ms de 2 alternativas)
Ordenadas
Normal tipificada
Logit Codicional
- Logit Anidado
- Logit Anidado
- Logit Mixto
- Logit Mixto
Probit Multinomial
Probit Condicional
Logit Ordenado
Normal tipificada
Probit Ordenado
Yi=
si I i* > 0
si I i* < 0
La variable latente est relacionada con sus caractersticas a travs de un modelo de regresin:
I i* = X i + i
donde
X i
(1)
clave
Con el modelo as definido, la variable endgena del modelo dicotmico representa la
probabilidad de ocurrencia del fenmeno analizado, siendo la probabilidad de que
ocurra la opcin 1 ms elevada cuando mayor sea el valor de Ii* .
El segundo de los enfoques para la interpretacin de los modelos de respuesta
dicotmica es el que hace referencia a la modelizacin a travs de la formulacin de una
utilidad aleatoria. Bajo este enfoque un individuo debe adoptar una decisin que le
permita elegir entre dos alternativas excluyentes, la 1 o la 0, lo que har maximizando la
utilidad esperada que le proporciona cada una de las alternativas posibles sobre las que
tiene que decidir. Es decir, el individuo i-simo elegir una de las dos alternativas
dependiendo de que la utilidad que le proporciona dicha decisin sea superior a la que le
proporciona su complementaria.
La formulacin del modelo bajo esta teora parte del supuesto de que la utilidad
derivada de una eleccin, Ui0 o Ui1 , es funcin de las variables explicativas de dicha
decisin, que son las caractersticas propias de cada una de las alternativas de eleccin y
las caractersticas personales propias del individuo, de manera que suponiendo
linealidad en las funciones, se tiene
U i 0 = 0 + X i0 + i0
(2)
U i1 = 1 + X i1 + i1
donde los ij recogen las desviaciones que los agentes tienen respecto a lo que sera el
comportamiento del agente medio y que se debe a factores aleatorios. El agente i elegir
la opcin 1 si la utilidad de esa decisin supera la de la opcin 0 y viceversa, de manera
que,
Yi=
1 si Ui1 >Ui0
0 si Ui1 <Ui0
(3)
(4)
donde:
1 si ocurre una alternativa
0 en caso contrario
Xki= Variables explicativas
i = Variable aleatoria que se distribuye normal N 0, 2
Yi =
Nube de puntos en un
modelo de respuesta dicotmica
1.5
ENDOGENA
1.0
0.5
0.0
-0.5
0
10
20
30
XI
40
50
60
Yi
+ k X ki 1
+ k X ki
0 < + k X ki < 1
+ k X ki 0
(1 f i (1))2 f i (1) + ( fi (1) 2 (1 fi (1)) = (1 fi (1)) fi (1)(1 f i (1) + f i (1)) = (1 f i (1)) f i (1)
(5)
(6)
Si los valores estimados de Yi son mayores que la unidad o menores que cero,
deben sustituirse por la unidad (en el primer caso) o por cero (en el segundo). En
ambos casos el valor resultante del clculo de la varianza de i ser cero, lo que
generara problemas al utilizar la Var ( i ) como ponderador. Ante esta situacin se
puede optar por eliminar las observaciones que generan estos valores, incurriendo
en prdida de informacin. Es por ello que la opcin preferida es sustituir los
valores mayores o iguales a la unidad por 0,999, y los valores menores o iguales a
cero por 0,001.
Se pondera el modelo (4) dividiendo ambos miembros de la ecuacin por la
desviacin tpica estimada
en homocedstico.
Yi
2
i
= 1
2
i
+ 2
X 1i
2
i
+ ... + k
X ki
2
i
+ i
(7)
i2
distribuye la nube de puntos de una variable dicotmica. Dado que el clculo del
coeficiente de determinacin2 se ve afectado por
2
i
, el R2 calculado en la
R = 1
2
2
i
(Y Y )
i
Yi =
1
1+ e
k X ki
+ i =
e + k X k i
+kX ki
1+ e
+ i
(8)
Yi =
+ X i
s2
1
e 2 ds + i
1/2
( 2 )
(9)
donde la variable s es una variable muda de integracin con media cero y varianza
uno.
Dada la similitud existente entre las curvas de la normal tipificada y de la logstica, los
resultados estimados por ambos modelos no difieren mucho entre s3 , siendo las
3
Discrepan, nicamente, en la rapidez con que las curvas se aproximan a los valores extremos, y as la
funcin logstica es ms achatada que la normal al alcanzar, esta ltima, ms rpidamente los valores
extremos (0 y 1).
e + k X ki
1 + e + k X ki
(10)
de donde:
M i + M i e + k X k i = e + k X ki
M i = (1 M i )e + k Xk i
(11)
Mi
= e + k X ki
(1 M i )
Al cociente entre la probabilidad de que ocurra un hecho, o de que se elija la opcin 1,
frente a la probabilidad de que no suceda el fenmeno, o de que se elija la opcin 0, se
la denomina como la ratio odds. Su interpretacin es la ventaja o preferencia de la
opcin 1 frente a la 0, es decir, el nmero de veces que es ms probable que ocurra el
fenmeno frente a que no ocurra.
Ratio odds =
10
Mi
(1 M i )
El ratio odds4 , tal y como est construido (cociente entre probabilidades), siempre ser
mayor o igual que 0. El campo de variacin del ratio va desde 0 hasta + , y su
interpretacin se realiza en funcin de que el valor sea igual, menor o superior a la
unidad: si toma el valor 1 significa que la probabilidad de que ocurra la alternativa 1 es
la misma que la de que no ocurra; si el ratio es menor que 1 indica que la ocurrencia de
la alternativa 1 tiene menor probabilidad que la ocurrencia de la alternativa 0; mientras
que si es mayor que la unidad la opcin 1 es ms probable que la 0.
El inters de esta medida adquiere sentido cuando se comparan las ventajas para
distintos valores de la variable explicativa, calculndose el cociente entre odds. As, si
se compara la situacin de la observacin i con la de la observacin j (que suele ser
la de referencia), el cociente entre odds mide cuanto es ms probable que se de la
alternativa 1 en i que en j.
Mi
(1 M i ) e + k X ki
( X X )
Cociente entre odds =
= + k X kj = e k ii jj
Mj
e
(1 M j )
Si el valor obtenido es mayor a la unidad, la probabilidad de ocurra la alternativa 1 en la
observacin i es mayor que en la observacin j, mientras que si el valor obtenido es
inferior a uno, la probabilidad de ocurrencia de la alternativa 1 es superior en la
observacin j que en la i. Si el valor obtenido es igual a la unidad significa que las
probabilidades en ambas observaciones son iguales.
El clculo del cociente entre odds facilita la interpretacin de los parmetros estimados
cuando se aplica al caso concreto de calcular la variacin en la preferencia o ventaja de
un individuo i cuando incrementa en una unidad una de las variables explicativas,
frente a la ventaja o preferencia del mismo individuo i cuando se encuentra en la
situacin de referencia, obtenindose para este caso concreto
4
Tomando logaritmos neperianos del ratio odds se linealiza la ecuacin del modelo Logit, respetando el
objetivo de que los valores estimados caigan dentro del rango (0-1), obtenindose la expresin:
Mi
Ln
1 M i
La nueva variable
Mi
Ln
1
= Ln (e + k X k i ) = + k X k i
11
M i +1
(1 M i +1 ) e + k ( X ki +1)
( X +1 X )
Cociente entre Odds =
= + k X ki = e k ki kj = e k
Mi
e
(1 M i )
De donde el parmetro e k es un factor de cambio en el cociente entre odds cuando el
valor de la variable Xk aumenta en una unidad y el resto de variables explicativas se
mantienen constantes. Es decir, el parmetro k se interpreta como el nmero de veces
que incrementa el logaritmo de la ventaja o preferencia de la opcin 1 frente a la 0
cuando incrementa en una unidad X k . En muchas ocasiones lo que se analiza es el
valor del antilogaritmo del parmetro de tal manera que se evale de una forma ms
directa su efecto sobre la probabilidad.
Pi =
i =1
Yi
ni
(12)
12
n
i =1
M i Yi (1 M i )1Yi
(13)
donde Mi recoge la probabilidad de que Yi=1. Por simplicidad se trabaja con la funcin
de densidad conjunta en logaritmos, cuya expresin es:
i
n i
i =1
i =1+ i
13
e + X i
= (Yi M i ) = Yi
i =1
1 + e + X i
=0
(15)
n
e
= (Yi M i ) X i = Yi
i =1
1 + e + Xi
+ X i
Xi = 0
(16)
y sustituyendo Mi por su valor queda:
n
e + X i
= ei = Yi
i =1
1 + e + X i
=0
e + Xi
X
e
=
Y
i i i 1 + e + X i
i =1
Xi = 0
= + k X k i + i
= + k X k i + i + i '
si =
1
Var ( i ' )
= n i Pi (1 Pi )
(17)
(18)
P
i ' = Ln i
1 Pi
Mi
Ln
1 M i
15
H1 : 0
z / 2 Var ( ) + z / 2 Var ( )
donde es la probabilidad de que el verdadero valor del parmetro se halle fuera del
intervalo, y z es el valor tabular de la distribucin N(0;1) que deja a su derecha una
probabilidad igual a / 2 .
A partir de la expresin anterior se puede fijar un rechazo de la hiptesis nula cuando:
Var ( )
z / 2
16
log L
log L( 0)
(19)
donde L es el valor de la funcin de verosimilitud del modelo completo (el estimado con
todas las variables explicativas) y L(0) es el valor correspondiente del modelo
restringido (el que incluye nicamente en la estimacin el trmino constante).
El ratio calculado tendr valores comprendidos entre 0 y 1 de forma que:
-
H 0 : Yi = M i ; lo que equivale a H 0 : Yi M i = ei = 0
17
(Yi M i ) 2
= e =
i =1
i =1 M (1 M )
n
2
i
(20)
Yi M i
M i (1 M i )
18
i
Prediccin de M
Yi = 0
Yi = 1
M i < c
P11
P12
M i > c
P21
P22
19
Definicin
Expresin
Tasa de aciertos
P11 + P22
P11 + P12 + P21 + P22
Tasa de errores
P12 + P21
P11 + P12 + P21 + P22
Especificidad
P11
P11 + P21
Sensibilidad
P22
P12 + P22
P21
P11 + P21
P12
P12 + P22
Pi
).
nj
HL =
j =1
(Y
n j Pj )
(21)
n j Pj (1 Pj )
20
e
J
' Zij
(22)
' Z ij
j =0
donde Zij representa la matriz de los regresores del modelo. Dichas variables
explicativas pueden ser de dos tipos:
-
Variables que contienen aspectos especficos del individuo y por tanto, su valor
ser el mismo en todas las alternativas. Este tipo de variables reciben el nombre
de caractersticas, y se las denota por Wi.
Variables que contienen aspectos especficos de las alternativas entre las que se
ha de elegir, y varan tanto entre individuos como entre alternativas. Este tipo de
variables reciben el nombre de atributos de las alternativas y se las denota por
Xij.
21
e
J 1
j 'X i
(23)
j ' Xi
j =0
j 'X i
J 1
1+ e
(24)
j =1
A pesar de que las caractersticas especficas de cada individuo se han denotado con Wi , en lo que
sigue se denotarn con Xi al hacer referencia a las variables explicativas de un modelo economtrico en
el que tradicionalmente se utiliza esa denominacin.
22
Pr ob(Yi = 0) =
1
J 1
1+ e
para j=0
j ' Xi
j =1
P
j= 0
=1
Para el caso sencillo de un modelo en el que la variable endgena presenta tres posibles
alternativas de eleccin y slo existe una variable explicativa en la modelizacin, la
probabilidad asociada a cada una de las alternativas posibles de eleccin tomaran las
siguientes expresiones9
P0 =
1
1+ e
1 + 1 X i
+ e 2 + 2 X i
P1 =
e 1 + 1 X i
1 + e1 + 1 X i + e 2 + 2 X i
P2 =
e 2 + 2 X i
1 + e 1 + 1 X i + e 2 + 2 X i
(25)
con P0 + P1 + P2 = 1
Y la matriz de diseo X vendr expresada como
1
0
X = 0
...
1
0
X1
1 0
0 X2
1 0
... ...
0 Xn
1 0
0
X 1
0
X 2
...
0
X n
23
e
J
' X ij
para j = 1, 2, ..., J
(26)
' X ij
j =1
24
'X j /l
Jl
'X j / l
j =1
Pl =
(27)
e 'Zl + l I l
Jl
' Z l + l Il
j =1
Jl
donde I l = ln e
'X j /l
j =1
25
(28)
...
Pr ob( Yi = ( J 1 )) = 1 ( ( J 2 ) ' X i )
donde 1 , 2 , ..., ( J 2) son parmetros que representan los valores de los umbrales o
barreras y se estiman a la vez que y ( ' X i ) representa la funcin de distribucin
logstica10 .
Para que todas las probabilidades sean positivas se debe cumplir
0 < 1 < 2 < ... < ( J 2)
f( )
0,30
0,25
0,20
0,15
0,10
0,05
- ' X
10
( ' X i ) =
1 ' X
2 ' X
e ' X
1+ e ' X
26
Y=4
3 ' X
19
Y=3
17
15
13
Y=2
11
Y=1
Y=0
0,00