P. 1
ECONOMETRIA CORTE TRANSVERSAL

ECONOMETRIA CORTE TRANSVERSAL

|Views: 2.064|Likes:
Publicado porsantosunsaac

More info:

Published by: santosunsaac on Apr 22, 2012
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

07/21/2013

pdf

text

original

Econometría de Corte Transversal

Las herramientas metodológicas que se presentan a continuación son aplicables a
información obtenida en un momento en el tiempo para un grupo determinado de
“individuos”, sean éstos personas, empresas, bancos, etc.. Por lo mismo, el
componente temporal pierde (momentáneamente) importancia, centrándose ahora el
interés en las similitudes o disparidades de ese grupo en determinado instante de
tiempo; es así que nuestras observaciones pasarán a tener el subíndice i (y ya no t),
donde i hace referencia al individuo i de la muestra.
Pese a esta característica de la información, el uso de MCO no se invalida siempre que
la dependiente sea una variable continua sin ninguna limitación, siendo sólo necesario
ser cuidadoso con la posible heterocedasticidad del modelo estimado, la misma que
debe ser convenientemente corregida. No obstante, cuando la dependiente no satisface
estas condiciones, el estimador MCO deja de ser el más apropiado surgiendo otros
estimadores de mejores propiedades finitas y asintóticas. Son éstos estimadores el
centro del análisis de las siguientes páginas.
Debido a que el problema se centra en la dependiente, dividiremos el análisis sobre la
base de las características que ésta muestre, distinguiendo entre una dependiente
discreta de aquella que siendo continua tiene rangos limitados de trabajo.
1. Variable dependiente discreta
1.1. Las binomiales
Son aquellas que toman sólo dos valores, tradicionalmente 0 y 1, es decir:
Yi = 1, si se cumple cierta condición
0, de cualquier otra forma
por ejemplo,
Yi = 1, si una persona trabaja 1
0, si una persona no trabaja
1.1.1. 1.1.1. Modelo de Probabilidad Lineal (MPL) Modelo de Probabilidad Lineal (MPL)
Supongamos que decidimos modelar la variable dependiente de (1) usando un modelo
lineal de la forma:
Y X u
i i i
· + β'
, 2
donde ( ) E u
i
· 0
. Podemos decir que:
( ) ( ) ( ) E Y X Yi Yi
i i
/ · + 1 0 Prob =1 Prob = 0
3
además de (2) se puede deducir que:
( )
i i i
X X Y E ' / β · 4
1
por lo que se puede concluir que:
( )
i i i
Y X Y ob · · · ' 1 Pr β 5
es decir, la probabilidad de que la persona trabaje es β´Xi, la que por lógica tiene que
estar entre 0 y 1. No obstante, en el modelo no hay nada que restringa a
i
Y a estarlo.
Además, se tiene problemas con el error, pues éste toma sólo dos valor, a saber:
Si ui Pr
Yi = 1 1- β´ Xi β´ Xi P(Yi =1)
Yi = 0 - β´ Xi 1- β´ Xi P(Yi = 0)
Total 1
Es decir, el error es binomial y no normal, siendo su varianza igual a:
( ) ( ) ( ) ( ) ( )
i i i i i i i
X X X X X X u Var ' 1 ' ' 1 ' ' ' 1 ) (
2 2
β β β β β β − · − − + − ·
1
6
de forma tal que, como depende de las observaciones, termina siendo heterocedástica.
De esta forma podemos concluir que existen tres grandes limitaciones para el uso del
estimador MCO en estos modelos:
• El error es heteroscedástico
• El error no es normal
• Nada restringe a Yi = β´ Xi = Pr (Yi = 1) a estar entre 0 y 1
Los dos primeros problemas pueden ser resueltos con relativa facilidad, utilizando MCG
y ampliando la muestra, respectivamente. No obstante, no existe forma de resolver el
último problema, razón por la cual nos vemos en la necesidad de trabajar con un
método que garantice que la probabilidad resultante se mueva entre esos límites; para
ello se recurrirá a la función de distribución acumulada del error, la cual será utilizada
para hallar el estimador MV de los parámetros de interés.
1.1.2. 1.1.2. Los modelos probabilísticos: Probit y Logit Los modelos probabilísticos: Probit y Logit
Supongamos que se tiene el siguiente modelo:
Y X u
i i i
* ' · + β
7
en el que Yi * es una variable no observable e igual, por ejemplo, al “número de horas
deseadas de trabajo”. La variable que se observa es Yi, la misma que toma el valor de
1 si Yi * > 0, y de 0 si Yi * < 0.
Note que ahora
i
X ' β es igual a
( )
i i
X Y E / * y no a
( )
i i
X Y E / , por lo que no hay
necesidad de que esté restringido a 0 y 1, más aún si tenemos en cuenta que la
Pr(Yi=1) ya no es igual a B’Xi. Es así que:
( ) ( ) ( ) Pr Pr * Pr Y Y u X
i i i i
· · > · 1 0 > - ' β
1
Nótese que ello implica que:
( ) ( ) ( ) [ ] 1 Pr 1 1 Pr ' 1 ' ) ( · − · · − ·
i i i i i
Y Y X X u Var β β
2
= ( ) 1− − F X
i
β'
8

donde F(•) es la función de densidad acumulada del error.
La función de verosimilitud pertinente, para los n individuos de una muestra, estaría
dada por:
L =
F X F X
i
Yi
i
Yi
( ' ) [ ( ' )] − − −
· ·
∏ ∏
β β
0 1
1
9
Si F(u) es normal estándar estaríamos hablando del modelo Probit, mientras que si
fuera logística
2
nos referiríamos al modelo Logit. Cabe mencionar que como ambas
funciones son simétricas podemos concluir que ( ) ( )
i i
X F Y ' ) X ' F(- - 1 1 Pr
i
β β · · · .
Comparemos un poco más estas dos funciones. La principal diferencia entre ellas es la
amplitud de sus colas, ya que la logística tiene colas más anchas. Por lo mismo los
resultados que se obtienen con cada una de ellas no son comparables. Dado que en el
modelo probit el uso de una normal estándar arroja β´s estandarizados (siendo σ=1), la
comparación con los β’s logit requiere estandarizar estos últimos también, para lo cual
hay que dividir los estimados entre la desviación estándar, que es igual a
3
π
. Es
decir

β
π
3 L
vs. βP
Dado que no hay forma de saber a priori cómo se comportan los errores de los
modelos que queremos estimar, y que la diferencia entre estas funciones es
relativamente sutil, la elección entre probit y logit dependerá del mejor ajuste que se
logre utilizando una u otra indistintamente.
Finalmente, vale la pena comparar las implicancias de utilizar los modelos
probabilísticos frente a la posibilidad de utilizar MPL. Como vimos en 1.1.1, el MPL
implica que Pr(Yi = 1) = β´ Xi , mientras que los modelos probabilísticos suponen que
Pr(Yi = 1) = F(β´ Xi ). De esta forma, en el primer caso el efecto marginal o impacto de
un cambio en una unidad de las X’s sería constante, a saber:


β
Pr( ) Y
X
i
·
·
1

10
mientras que para los modelos probabilísticos este efecto sería:


β β
Pr( )
( ' ).
Yi
X
f Xi
·
·
1

11
es decir, dependería del nivel de las X’s para cada individuo. Esto último coincide con lo
que se observa en la vida real. Por ejemplo, el cambio en la probabilidad de que un
niño asista al colegio frente a un aumento en el ingreso, será distinto en el caso de
2
Recuérdese que la función logística tiene la siguiente especificación:
F(u) =
exp( )
exp( )
u
u 1+
3
familias de altos y bajos ingresos, esperando para las primeras un incremento casi nulo
de la probabilidad y para las segundas una bastante mayor.
3
Veamos ahora la matemática del modelo Logit. Su función de verosimilitud se define
como:
L =
1
1 1
1
1
+
¸
¸

_
,

+
¸
¸

_
,

·


exp( ' )
exp( ' )
exp( ' ) β
β
β X
X
X
i
i
n
Yi
i
i
Yi
12
L =
( )
exp ( )
exp ( ' )


β
β
X Y
X
i i
i
n
i
i
n
·
·


+
1
1
1
13
Y tomando logaritmo:
[ ]
ln ln exp L X Y
i i
· − +
∑ ∑
β β 1 ( ' X )
i
derivando respecto a los parámetros y maximizando:
( ) ∑ ∑ · · × − · 0
i
0
) X ' ( exp + 1
) ' ( exp ln
β
β
β
∂β

S X
X
Y X
L
ik
i
i i
14
Como vemos, 14 es una ecuación no lineal en β, por lo que para resolverla es
necesario recurrir a algún método iterativo. Uno de los más usado es el de Newton-
Raphson. Así, se define:
( ) [ ] ( ) 0
1
0 0 1 I + = β β β β S

donde [I(β0)] es la matriz de información. De esta forma, se utiliza un valor cualquier
para β0, que podría ser el de MCO, y se continúa iterando hasta hallar el β que haga
S(β0) = 0.
1.1.3. 1.1.3. Bondad de Ajuste Bondad de Ajuste
Para establecer la bondad de ajuste del modelo se requeriría comparar la predicción de
la variable dependiente con la realmente observada. No obstante, en un modelo
discreto ello pierde sentido ya que se observa la elección real (0 ó 1, en el caso
binomial) mientras que el modelo arroja probabilidades. Es así que el R
2
, que se
basaría en estos errores distorsionados, pierde sentido.
Una alternativa lo constituye el Test de la Razón de Verosimilitud, cuya Ho es que
todos los β’s del modelo (excepto la constante), o un subconjunto de ellos, es igual a 0.
El estadístico asociado se define como:
3
Cuando hablamos de bajos ingresos no queremos referirnos a las familias de mayor pobreza
entre las que es posible que la mencionada probabilidad también sea nula. Esto último no hace
sino reafirmar la lógica del uso de la función de densidad cuyos extremos son menos
empinados que el resto de la función.
4
( )
( )

max
max
β
λ
L
O L
·
15
donde L*(0) es la función de verosimilitud del modelo restringido (que sólo considera
constante, o las explicativas que no están sometidas a la prueba de significancia) y
L*(β) es la del modelo completo.
Según Wilks (1962):
−2lnλ ∼ ( ) X q
2
16
donde q es el número de restricciones.
A partir de la función de verosimilitud es posible construir un seudo R
2
. Así hay que
tener en cuenta que como L(•) es generalmente una productoria de probabilidades
puede tomar valores entre 0 y 1. Por ello, ln L(•) < 0. Si definimos L*(•) como el valor
máximo del logaritmo de la función de verosimilitud, es decir:
L*(•)= máx ln L(•)
Entonces debe ser cierto que:
L*(β) ≥ L*(0)
Es decir, L*(β) debe estar muy cerca de 0 para que el modelo estimado sea bueno, y
cuanto mejor sea la distancia respecto a L*(0) debería ser mayor. Es así que si
definimos el seudo R
2
como:
( )
( )
ρ
2
1
0
· −
L
L
*
*

17
Si el modelo es bueno L*(β) se aproximaría a 0, por lo que ρ
2
tendería a 1. Si el modelo
es malo L*(β) estaría muy cerca de L*(0) por lo que ρ
2
tendería a 0. Como regla
práctica, es de esperar que un buen modelo tenga un ρ
2
entre 0.2 y 0.4.
1.1.4. 1.1.4. Procedimiento para estimar un modelo Procedimiento para estimar un modelo
Para estimar correctamente un modelo discreto se sugiere seguir los pasos que se
explican a continuación:
1. Analizar la matriz de correlaciones entre la dependiente y el conjunto de
posibles explicativas. A partir de ella se busca rescatar dos cosas:
• Establecer el grado de relación de las explicativas y la dependiente así
como su signo esperado.
• Establecer la posible correlación entre explicativas potenciales. Como
regla práctica, si dos variables tienen una correlación mayor a 75% se
debe elegir entre ellas a aquella que ajuste mejor; no incluir a ambas en
el modelo.
5
2. Analizar tablas cruzadas entre la dependiente y las explicativas que mostraron
en 1. ser las más relacionadas con la primera. A través de este análisis se
pretende confirmar la dirección y magnitud de la relación.
3. Estimar la ecuación con todas las explicativas que aparecieron como relevantes
en 1 y 2. Una vez corrido el modelo dejar aquellas explicativas que tengan el
signo esperado y cuya probabilidad asociada a t no sea mayor a 10% ó 15%.
Nótese que en el caso de los modelos discretos el t reduce su validez, por lo
que se relaja la necesidad de ser muy estrictos respecto de las conclusiones
que arroja este test.
Uno de los resultados claves del modelo estimado es la predicción de la
probabilidad asociada a la variable dependiente, la misma que puede ser
determinada para la media muestral o para individuos con características
específicas dentro de la muestra.
4. Determinar los efectos impactos de las variables explicativas del modelo. En el
caso de una variable explicativa discreta k éste sería igual a:
( )
( )
ki i
k
i
k
X f
X
Y
EI β β


ˆ
. '
ˆ

1 Pr
·
·
·
18
El mismo que puede ser evaluado en la media muestral o para un conjunto
específico de valores de las explicativas.
En el caso de una variable explicativa discreta tendría que calcularse la
diferencia de la probabilidad cuando dicha variable toma un valor u otro. Por
ejemplo, si estamos analizando la decisión de trabajar y la variable explicativa
de interés es el sexo de la persona, definido como 1 si es hombre y 0 si es
mujer, el efecto impacto de la misma sobre la probabilidad de trabajar sería:
( ) ( )
EI F X X X F X X X
X 2 1 1 2 3 3 4 4 1 1 2 3 3 4 4
1 0 · + + + + + + + + β β β β β β β β ( ) .... ( ) .... -
En este caso también podría calcularse el efecto para la media muestral o para
características determinadas del individuo.
Note que cualquiera sea el tipo de variable explicativa, el efecto impacto arroja
el cambio de la probabilidad, en puntos porcentuales, frente a la variación en
una unidad de la explicativa, razón por la cual su utilidad es mayor cuando
analizamos explicativas discretas.
5. Determinar la elasticidad de la probabilidad respecto de cambios en las
variables explicativas. La misma puede definirse como para la variable
explicativa k:
( ) X F
X
EI
K
X K
K
'
ˆ
.
β
η
  
·
19
La elasticidad indica el cambio porcentual en la probabilidad ante una variación
de 1% en la variable explicativa de interés, razón por la cual resulta más
conveniente estimarla para explicativas continuas. No obstante, dado que
6
carece de unidades, la elasticidad puede servir también para rankear todas las
variables explicativas de acuerdo con su importancia relativa en el modelo.
1.2. Modelos Multinomiales
Los modelos multinomiales son aquéllos cuyo objetivo es explicar variables
dependientes discretas pero de múltiples opciones, de forma tal que se modela el
proceso a través del cual una persona escoge entre diferentes alternativas de elección,
de acuerdo con aquélla que le dé la más alta utilidad.
De esta forma, si definimos:
ij ij ij
x U ε β + · '
*
20
donde Uij* es la utilidad que recibe el individuo i al escoger la alternativa j, dicha utilidad
está en función de un conjunto de variables explicativas xij, a través de los parámetros
β, que pueden o no depender de las alternativas de elección.
El modelo general se basa en la resolución de la función de verosimilitud construida a
partir de la función de distribución conjunta de cada uno de los individuos de la
muestra. Es decir:

·
·
n
i
Yim
im
Yi
i
Yi
i
P P P L
1
2
2
1
1
...... .
21
donde Yij toma el valor de 1 si el individuo i escoge la categoría j y Pij es la probabilidad
del mismo de elegir dicha categoría. La especificación de las probabilidades estará en
función del tipo de modelo multinomial que se esté trabajando, el que depende a su vez
de la forma de la variable que se quiere explicar.
1.2.1. 1.2.1. Variables dependientes no ordenadas Variables dependientes no ordenadas
Son aquéllas que se caracterizan por especificar un conjunto de posibles alternativas
que no presentan una relación de orden entre ellas, como por ejemplo, profesiones,
hobbies, modos de transporte, marcas de cigarrillos, etc. Tomando el primer ejemplo,
supóngase que se desean explicar los determinantes del tipo de ocupación del jefe de
hogar de las familias peruanas, de forma tal que la variable se define como:
Yi = Ocupación del jefe de hogar
= 1 Médico
2 Abogado
3 Carpintero

• .

m Otros
7
De esta forma, se tienen en total m categorías no ordenadas. El hecho de que éstas no
puedan ser relacionadas de acuerdo a algún ordenamiento específico genera la
necesidad de establecer un orden a priori a través de la selección de una categoría
base o referencial. A partir de ella se podrá especificar la probabilidad de escoger cada
categoría, utilizando un conjunto de modelos binomiales entre ellas y la categoría base,
es decir:
( )
( )
( ) '

'
'
2
2
2
1
1
1
X F
P P
P
X F
P P
P
X F
P P
P
j
m j
j
m
m
β
β
β
·
+
·
+
·
+

22
donde F(•) es la función de densidad de los errores de la ecuación explicativa de la
utilidad. A partir de (22) se define una especificación para Pj y Pm de forma que:
4
( ) ( )
( )
( )
( )
P P F X P F X
P
P
F X
F X
G X
j j j m j
j
m
j
j
j
· +
·

·
β β
β
β
β




' '
'
'
'
1
23
donde G(•) es la función de densidad de la diferencia de los errores de las ecuaciones
explicativas de la utilidad que da la alternativa j y la m. Ahora se puede derivar la
probabilidad de escoger la categoría m aplicando sumatoria al cociente Pj/Pm:
( )
( )
1
1
1
1
1
1
1
1 '
' 1
1 1


·

·

·
1
1
]
1

¸

+ ·
· − ·

·

∑ ∑
m
j
j m
m
j
j
m
j m m
m
m
j
X G P
X G
P P
P
P
P
β
β
24
y a partir de Pm hallar la probabilidad de escoger una alternativa j cualquiera:
( )
( )
( )


·
+
·
·
1
1
' 1
'
'
m
j
j
j
j
m j j
X G
X G
P
P X G P
β
β
β
25
Las expresiones de Pj y Pm resultan ser el centro del interés del modelo. G(•) puede ser
normal o logística, aunque dada la necesidad de evaluar múltiples integrales en el caso
de usar una normal se prefiere la distribución logística, resultando lo que se conoce
como el Modelo Logit Multinomial. En el mismo los β resultan ser parámetros relativos
respecto de la categoría base por lo que no pueden ser analizados en forma individual.
Este modelo tiene especificaciones determinadas que dependen de la utilidad final que
se le dé. Así, cuando se supone que la probabilidad de escoger una categoría j
4
Ver Amemiya (1983)
8
depende exclusivamente de características del individuo i se puede reescribir el Pj de
(25), de forma que:
( )
( )


·
+
·
1
1
' 1
'
m
j
i j
i j
ij
X G
X G
P
β
β
26
donde, como se observa, las variables explicativas dependen del individuo i.
No obstante, es posible tener una especificación alternativa en donde las explicativas
dependen del individuo y de la alternativa, mientras que los β son invariables a ambos
factores. Este es el conocido modelo condicional de McFadden (1973) en donde la
probabilidad de que el individuo i escoja la alternativa j está dada por:
( )
( )


·
+
·
1
1
' 1
'
m
j
ij
ij
ij
X G
X G
P
β
β
27
en esta especificación los β representan los "precios implícitos" de las diferentes
características de las alternativas a escoger (o pesos específicos) mientras que Xij es la
valoración que el individuo i tiene respecto de cada característica de la alternativa j.
Como se observa, la especificación de cada modelo responde a un objetivo específico.
Así, el primer modelo definido por (26) se utiliza para predecir la probabilidad que un
individuo fuera de la muestra escoja una de las m alternativas analizadas, dadas sus
características específicas. Por su lado, el modelo que define (27) permite predecir la
probabilidad de escoger una alternativa no considerada entre las m estimadas, pero
para la que se tienen las valoraciones de cada individuo i Xij; ello gracias a que se
cuenta con los precios implícitos o ponderaciones de las características de las m
alternativas con las que se realizó la estimación.
5
Finalmente, sería posible considerar un modelo combinado que incorpore tanto la
valoración de las características de las alternativas como aquéllas de los individuos que
conforman la muestra. Ello implicaría una nueva especificación de la probabilidad de
que el individuo i escoja la alternativa j de la forma:
( )
( )


·
+ +
+
·
1
1
'
'
' 1
'
m
j
i j ij
i j ij
ij
Y X G
Y X G
P
α β
α β
28
5
Es posible notar, además, que en el primer modelo el número de parámetros a estimar es
igual al número de variables explicativas del individuo por m-1, si es que se considera la
normalización de uno de los parámetros a estimar (βo=0). En el segundo modelo se estiman
tantos parámetros como características se hayan considerado para cada alternativa.
9
donde Xij representa las valoraciones del individuo i respecto de las características de
la alternativa j, mientras que Yi indica las características particulares del individuo i.
1.2.2. 1.2.2. Variables dependientes ordenadas Variables dependientes ordenadas
Las variables multinomiales ordenadas son aquéllas que indican diversas alternativas
que guardan entre sí un ordenamiento específico. Ese sería el caso de un ranking de
prioridades de inversión, de rangos de ingresos, de categorías de instituciones
prestadoras de salud, entre otras variables. Si tomamos este último ejemplo podríamos
definir la variable Yi como:
Yi = Institución de salud donde se obtiene el servicio
= 4 Clínicas particulares
= 3 Hospitales públicos
= 2 Centros y postas
= 1 Otros proveedores
Este ordenamiento supone que son las instituciones a las que se les coloca un mayor
valor de la variable Y las de mejor servicio.
El modelo se basa en la definición de un índice de performance I*, el que se encuentra
relacionado con un conjunto de variables explicativas vinculadas con el individuo y las
alternativas j, tal como:
i i i
X I ε β + · ' * 29
Asimismo se establecen puntos de corte (α's) entre los cuales se mueve el I*. Así, si
I*<α1, el individuo escoge la categoría 1; si I* está entre α1 y α2 escoge la categoría 2, si
está entre α2 y α3 escoge la 3, y si es mayor que α3 elige la categoría 4. De esta forma
se requerirán tener tanto puntos de corte como categorías haya, menos uno.
A partir de estas definiciones se pueden especificar las probabilidades asociadas a
estar en una determinada categoría, es decir:
( ) ( ) ( )
( )
( )
( ) ( ) ( )
( ) ( )
( ) ( ) ( )
( ) ( )
( ) ( ) ( )
( )
i
i i i i
i i
i i i
i i
i i i
i
i i
i i i i
X F
X I Y
X F X F
I I Y
X F X F
I I Y
X F
X
X I Y
' 1
' Pr * Pr 4 Pr
' '
* Pr * Pr 3 Pr
' '
* Pr * Pr 2 Pr
'
' Pr
' Pr * Pr 1 Pr
3
3 3
2 3
2 3
1 2
1 2
1
1
1 1
β α
β α ε α
β α β α
α α
β α β α
α α
β α
β α ε
α ε β α
− − ·
− > · > · ·
− − − ·
< − < · ·
− − − ·
< − < · ·
− ·
− < ·
< + · < · ·
30
10
A fin de que todas las probabilidades sean positivas debe ser cierto que α1<α2<α3. Estos
puntos de corte son estimados por el modelo junto con los β y hacen posible obtener
las probabilidades estimadas de estar en cada categoría. Como en el caso binomial, los
β no tienen un significado individual sino dentro del argumento de la función de
densidad; no obstante, su signo indicará la dirección de la relación con la probabilidad
de estar en la categoría más alta, y la inversa de la misma en el caso de la categoría
más baja; las categorías intermedias tendrán efectos impacto que no se pueden definir
a priori.
1.2.3. 1.2.3. Variables dependientes secuenciales Variables dependientes secuenciales
Estas variables son un tipo especial de ordenada en la que una categoría no puede ser
elegida sin haber pasado por un proceso previo de elección de otra(s) de ella(s). Esta
secuencialidad debe ser incorporada en la especificación de la probabilidad de elegir
una categoría determinada. Veamos un par de ejemplos que pueden ser ilustrativos.
Supongamos que la variable bajo estudio es la educación del jefe de hogar de las
familias peruanas, la que se especifica de la siguiente forma:
Yi = Educación del JH
= 1 si no terminó la educación primaria
= 2 si no terminó la educación secundaria pero sí la primaria
= 3 si no terminó la educación superior pero sí la secundaria
= 4 si terminó la educación superior
Así, por ejemplo, si la persona se encuentra en el nivel 3 definitivamente no puede
situarse en las dos categorías anteriores, aún cuando previamente ha debido pasar por
ellas para alcanzar la 3, por lo que la definición de la probabilidad asociada con dicha
categoría debe incorporar esta consideración.
La estimación de los determinantes del nivel de educación del jefe de hogar se puede
llevar a cabo a través de modelos binomiales secuenciales. Partiendo la muestra en
dos, los que terminaron primaria y los que no, se estima un primer modelo binomial
obteniendo el vector β1 de parámetros. Luego, tomando sólo aquéllos que terminaron la
primaria, se puede dividir esta submuestra en aquéllos que sí terminaron secundaria y
los que no; ello haría posible estimar un segundo modelo binomial de donde se
obtendría el vector β2. El proceso seguiría y es brevemente resumido en el siguiente
cuadro.
β3
¸
No terminó
primaria Y=1
Sí terminó primaria
Y=0
Terminó
superior
Y=0
No terminó
superior
Y=1
Si terminó secundaria
Y=0
No terminó secundaria
Y=1
_ β2
¸ β1
11
A partir de estas estimaciones se pueden obtener las probabilidades de estar en una
categoría determinada (ver Amemiya 1983). Así por ejemplo la probabilidad de estar en
la categoría 3 es igual a la probabilidad conjunta de no haber terminado la educación
superior pero sí la secundaria
6
. La definición de las probabilidades de todas las
categorías analizadas se muestra a continuación:
( ) ( )
( ) ( ) ( )
[ ]
( ) ( ) ( )
[ ]
( )
[ ]
( ) ( )
[ ]
( )
[ ]
( )
[ ]
Pr '
Pr ' '
Pr ' ' '
Pr ' ' '
Y F X
Y F X F X
Y F X F X F X
Y F X F X F X
i i
i i i
i i i i
i i i i
· ·
· · −
· · − −
· · − − −
1
2 1
3 1 1
4 1 1 1
1
2 1
3 1 2
1 2 3
β
β β
β β β
β β β
31
Una especificación alternativa se observa en el siguiente modelo para la demanda de
automóviles trabajado por Cragg y Uhler (1970). En el mismo se quieren analizar los
determinantes de la adquisición de un automóvil, planteando las decisiones de compra
de la siguiente manera:
Cambiar el actual

Comprar uno por primera vez
Adquirir un automóvil
Vender el actual
No
Mantenerse en la situación actual
Si definimos las siguientes probabilidades:
P1= probabilidad de cambiar el auto actual
P2= probabilidad de comprar uno por primera vez
P3= probabilidad de vender el auto actual
P4= probabilidad de no hacer ninguna transacción
Entonces podemos definir estas probabilidades como:
( ) ( ) ( )
( ) ( ) ( ) [ ]
( ) ( ) ( ) [ ]
( ) ( ) [ ] ( ) [ ]
i i i
i i i
i i i
i i i
X F X F Y
X F X F Y
X F X F Y
X F X F Y
' 1 ' 1 4 Pr
' 1 ' 3 Pr
' 1 ' 2 Pr
' ' 1 Pr
3 1
1 3
2 1
2 1
β β
β β
β β
β β
− − · ·
− · ·
− · ·
· ·
32
Así, el vector β1 se obtendrá del modelo binomial que divide la muestra entre quienes
adquieren un auto nuevo y los que no lo hacen; el β2 del modelo que, dentro de la
muestra de quienes compran un auto nuevo, diferencia entre quienes reemplazan el
que tienen y los que compran uno por primera vez; finalmente, el β3 se obtiene del
modelo que, entre quienes no adquieren un carro, diferencia entre los que venden
carros y los que no realizan ninguna transacción.
6
Es decir, Pr(Yi=3,Yi≠ 2)=Pr(Yi=3/Yi≠ 2) x Pr(Yi≠ 2)
12
Nótese que la propuesta de estimación simultánea planteada en los dos modelos antes
presentados sólo es válida en la medida que los factores aleatorios que afectan las
diferentes etapas de decisión sean independientes entre sí (independencia de los
errores de las ecuaciones que se estiman sucesivamente).
13

2. utilizando MCG y ampliando la muestra. Los modelos probabilísticos: Probit y Logit Supongamos que se tiene el siguiente modelo: Yi * = β ' X i + ui 7 en el que Yi * es una variable no observable e igual. La variable que se observa es Yi.por lo que se puede concluir que: Pr ob( Yi = 1) = β ' X i = Yi 5 es decir.β´ Xi 1 P(Yi =1) P(Yi = 0) Es decir. la misma que toma el valor de 1 si Yi * > 0. como depende de las observaciones. más aún si tenemos en cuenta que la Pr(Yi=1) ya no es igual a B’Xi. razón por la cual nos vemos en la necesidad de trabajar con un método que garantice que la probabilidad resultante se mueva entre esos límites.1. al “número de horas deseadas de trabajo”. Además. respectivamente. se tiene problemas con el error. la probabilidad de que la persona trabaje es β´Xi. Es así que: Pr ( Yi = 1) = Pr ( Yi * > 0) = Pr ( ui 1 > -β ' X i ) Nótese que ello implica que: Var (u i ) = β ' X i (1 − β ' X i ) = Pr ( Yi = 1) [1 − Pr ( Yi = 1) ] 2 .β´ Xi Pr β´ Xi 1. No obstante. en el modelo no hay nada que restringa a Yi a estarlo. Note que ahora β ' X i es igual a E ( Yi * / X i ) y no a E ( Yi / X i ) . la que por lógica tiene que estar entre 0 y 1. pues éste toma sólo dos valor. el error es binomial y no normal.β´ Xi . No obstante. por ejemplo. no existe forma de resolver el último problema. la cual será utilizada para hallar el estimador MV de los parámetros de interés. para ello se recurrirá a la función de distribución acumulada del error. siendo su varianza igual a: Var (u i ) = (1 − β ' X i ) 2 ( β ' X i ) + ( − β ' X i ) 2 (1 − β ' X i ) = β ' X i (1 − β ' X i ) 1 6 de forma tal que. a saber: Si Yi = 1 Yi = 0 Total ui 1. termina siendo heterocedástica. 1. y de 0 si Yi * < 0. por lo que no hay necesidad de que esté restringido a 0 y 1. De esta forma podemos concluir que existen tres grandes limitaciones para el uso del estimador MCO en estos modelos: • El error es heteroscedástico • El error no es normal • Nada restringe a Yi = β´ Xi = Pr (Yi = 1) a estar entre 0 y 1 Los dos primeros problemas pueden ser resueltos con relativa facilidad.

β ∂X 11 es decir.1. mientras que si fuera logística2 nos referiríamos al modelo Logit. Por ejemplo. el MPL implica que Pr(Yi = 1) = β´ Xi .= 1 − F ( −β ' X i ) donde F(•) es la función de densidad acumulada del error. estaría dada por: L= ∏ F (−β ' X ) ∏ [1 − F (−β ' X )] i i Yi = 0 Yi =1 9 Si F(u) es normal estándar estaríamos hablando del modelo Probit. Como vimos en 1. Es βP Dado que no hay forma de saber a priori cómo se comportan los errores de los modelos que queremos estimar. el cambio en la probabilidad de que un niño asista al colegio frente a un aumento en el ingreso. mientras que los modelos probabilísticos suponen que Pr(Yi = 1) = F(β´ Xi ). Dado que en el modelo probit el uso de una normal estándar arroja β´s estandarizados (siendo σ=1). De esta forma. vale la pena comparar las implicancias de utilizar los modelos probabilísticos frente a la posibilidad de utilizar MPL. en el primer caso el efecto marginal o impacto de un cambio en una unidad de las X’s sería constante. la comparación con los β’s logit requiere estandarizar estos últimos también. Por lo mismo los resultados que se obtienen con cada una de ellas no son comparables. Finalmente. que es igual a π decir βL 3 vs. Esto último coincide con lo que se observa en la vida real. a saber: ∂ Pr(Yi = 1) =β ∂X 10 mientras que para los modelos probabilísticos este efecto sería: ∂ Pr(Yi = 1) = f ( β ' Xi ). Cabe mencionar que como ambas funciones son simétricas podemos concluir que Pr ( Yi = 1) = 1 . ya que la logística tiene colas más anchas. dependería del nivel de las X’s para cada individuo. para lo cual hay que dividir los estimados entre la desviación estándar. 8 La función de verosimilitud pertinente.β ' X i ) = F ( β ' X i ) . para los n individuos de una muestra. será distinto en el caso de Recuérdese que la función logística tiene la siguiente especificación: exp(u) F(u) = 1 + exp(u) 2 3 . Comparemos un poco más estas dos funciones.1. π 3 . La principal diferencia entre ellas es la amplitud de sus colas. la elección entre probit y logit dependerá del mejor ajuste que se logre utilizando una u otra indistintamente.F(. y que la diferencia entre estas funciones es relativamente sutil.

Así. Una alternativa lo constituye el Test de la Razón de Verosimilitud. 3 4 . El estadístico asociado se define como: Cuando hablamos de bajos ingresos no queremos referirnos a las familias de mayor pobreza entre las que es posible que la mencionada probabilidad también sea nula. o un subconjunto de ellos. esperando para las primeras un incremento casi nulo de la probabilidad y para las segundas una bastante mayor. por lo que para resolverla es necesario recurrir a algún método iterativo. Bondad de Ajuste Para establecer la bondad de ajuste del modelo se requeriría comparar la predicción de la variable dependiente con la realmente observada. cuya Ho es que todos los β’s del modelo (excepto la constante). que podría ser el de MCO. 1. en el caso binomial) mientras que el modelo arroja probabilidades. se utiliza un valor cualquier para β0.3 Veamos ahora la matemática del modelo Logit. Uno de los más usado es el de NewtonRaphson. Es así que el R2.1. Esto último no hace sino reafirmar la lógica del uso de la función de densidad cuyos extremos son menos empinados que el resto de la función. De esta forma. es igual a 0. pierde sentido. Su función de verosimilitud se define como: 1−Yi Yi L= ∏ i =1 n   1    1 + exp( β ' X i )   exp( β ' X i )     1 + exp( β ' X i )  12 exp ( β L = ∑X Y) i i i =1 i n ∏ ( 1 + exp (β ' X )) i =1 n 13 Y tomando logaritmo: ln L = β ∑ X Y − ∑ ln[ 1 + exp (β ' X )] i i i derivando respecto a los parámetros y maximizando: exp ( β ' X i ) ∂ ln L = ∑ X i Yi − ∑ × X ik = 0 = S ( β 0 ) ∂β 1 + exp ( β ' X i ) 14 Como vemos. en un modelo discreto ello pierde sentido ya que se observa la elección real (0 ó 1. se define: β 1 = β 0 + [ I( β 0 ) ] −1 S ( β 0 ) donde [I(β0)] es la matriz de información. No obstante. 14 es una ecuación no lineal en β. que se basaría en estos errores distorsionados.familias de altos y bajos ingresos.3. y se continúa iterando hasta hallar el β que haga S(β0) = 0.

Como regla práctica. si dos variables tienen una correlación mayor a 75% se debe elegir entre ellas a aquella que ajuste mejor. Según Wilks (1962): −2 ln λ ∼ X 2 ( q ) 16 donde q es el número de restricciones. por lo que ρ2 tendería a 1. no incluir a ambas en el modelo.2 y 0. 5 .λ= max L( O ) max L( β ) 15 donde L*(0) es la función de verosimilitud del modelo restringido (que sólo considera constante. Como regla práctica. A partir de ella se busca rescatar dos cosas: • Establecer el grado de relación de las explicativas y la dependiente así como su signo esperado. Si el modelo es malo L*(β) estaría muy cerca de L*(0) por lo que ρ2 tendería a 0. Si definimos L*(•) como el valor máximo del logaritmo de la función de verosimilitud. A partir de la función de verosimilitud es posible construir un seudo R 2 . Por ello.4. L*(β) debe estar muy cerca de 0 para que el modelo estimado sea bueno. es de esperar que un buen modelo tenga un ρ2 entre 0. Procedimiento para estimar un modelo Para estimar correctamente un modelo discreto se sugiere seguir los pasos que se explican a continuación: 1. 1. y cuanto mejor sea la distancia respecto a L*(0) debería ser mayor.1. es decir: L*(•)= máx ln L(•) Entonces debe ser cierto que: L*(β) ≥ L*(0) Es decir. • Establecer la posible correlación entre explicativas potenciales. o las explicativas que no están sometidas a la prueba de significancia) y L*(β) es la del modelo completo. Analizar la matriz de correlaciones entre la dependiente y el conjunto de posibles explicativas. ln L(•) < 0. Así hay que tener en cuenta que como L(•) es generalmente una productoria de probabilidades puede tomar valores entre 0 y 1.4. Es así que si definimos el seudo R2 como: ρ2 = 1− L * ( Ω) L * ( 0) 17 Si el modelo es bueno L*(β) se aproximaría a 0.

( ) ( ) En este caso también podría calcularse el efecto para la media muestral o para características determinadas del individuo... Uno de los resultados claves del modelo estimado es la predicción de la probabilidad asociada a la variable dependiente.  X K ˆ F(β' X ) 19 La elasticidad indica el cambio porcentual en la probabilidad ante una variación de 1% en la variable explicativa de interés.F β 1 X 1 + β 2 (0) + β 3 X 3 + β 4 X 4 +. razón por la cual su utilidad es mayor cuando analizamos explicativas discretas. 5. . β ki ∂ Xk 18 El mismo que puede ser evaluado en la media muestral o para un conjunto específico de valores de las explicativas. Note que cualquiera sea el tipo de variable explicativa. razón por la cual resulta más conveniente estimarla para explicativas continuas.. 3. Determinar los efectos impactos de las variables explicativas del modelo. en puntos porcentuales. En el caso de una variable explicativa discreta tendría que calcularse la diferencia de la probabilidad cuando dicha variable toma un valor u otro. 4. A través de este análisis se pretende confirmar la dirección y magnitud de la relación. Una vez corrido el modelo dejar aquellas explicativas que tengan el signo esperado y cuya probabilidad asociada a t no sea mayor a 10% ó 15%. ser las más relacionadas con la primera. si estamos analizando la decisión de trabajar y la variable explicativa de interés es el sexo de la persona.. En el caso de una variable explicativa discreta k éste sería igual a: EI k = ∂ Pr ( Yi = 1) ˆ ˆ = f ( β ' X i ) . No obstante. frente a la variación en una unidad de la explicativa. la misma que puede ser determinada para la media muestral o para individuos con características específicas dentro de la muestra..2. Nótese que en el caso de los modelos discretos el t reduce su validez. definido como 1 si es hombre y 0 si es mujer.. La misma puede definirse como para la variable explicativa k: η K = EI X K . Determinar la elasticidad de la probabilidad respecto de cambios en las variables explicativas. por lo que se relaja la necesidad de ser muy estrictos respecto de las conclusiones que arroja este test. Analizar tablas cruzadas entre la dependiente y las explicativas que mostraron en 1. Estimar la ecuación con todas las explicativas que aparecieron como relevantes en 1 y 2. dado que 6 . Por ejemplo. el efecto impacto arroja el cambio de la probabilidad. el efecto impacto de la misma sobre la probabilidad de trabajar sería: EI X 2 = F β 1 X 1 + β 2 (1) + β 3 X 3 + β 4 X 4 +.

supóngase que se desean explicar los determinantes del tipo de ocupación del jefe de hogar de las familias peruanas. la elasticidad puede servir también para rankear todas las variables explicativas de acuerdo con su importancia relativa en el modelo. Modelos Multinomiales Los modelos multinomiales son aquéllos cuyo objetivo es explicar variables dependientes discretas pero de múltiples opciones.. el que depende a su vez de la forma de la variable que se quiere explicar..1. Tomando el primer ejemplo. El modelo general se basa en la resolución de la función de verosimilitud construida a partir de la función de distribución conjunta de cada uno de los individuos de la muestra. Es decir: n L= ∏P i =1 Yi1 i1 . hobbies. profesiones. La especificación de las probabilidades estará en función del tipo de modelo multinomial que se esté trabajando..carece de unidades. • m Otros 7 . que pueden o no depender de las alternativas de elección.2. De esta forma. de forma tal que se modela el proceso a través del cual una persona escoge entre diferentes alternativas de elección. Pi 2 Yi 2 . marcas de cigarrillos.. modos de transporte. de forma tal que la variable se define como: Yi = Ocupación del jefe de hogar = 1 Médico 2 Abogado 3 Carpintero • • . de acuerdo con aquélla que le dé la más alta utilidad. como por ejemplo.Pim Yim 21 donde Yij toma el valor de 1 si el individuo i escoge la categoría j y Pij es la probabilidad del mismo de elegir dicha categoría.2. Variables dependientes no ordenadas Son aquéllas que se caracterizan por especificar un conjunto de posibles alternativas que no presentan una relación de orden entre ellas. etc. 1. dicha utilidad está en función de un conjunto de variables explicativas x ij. a través de los parámetros β. si definimos: U ij = β ' xij + ε ij * 20 donde Uij* es la utilidad que recibe el individuo i al escoger la alternativa j.. 1.

G(•) puede ser normal o logística. Ahora se puede derivar la probabilidad de escoger la categoría m aplicando sumatoria al cociente Pj/Pm: ∑P j =1 m −1 Pj m = m −1 1 − Pm 1 = −1= G β j' X Pm Pm j =1 ∑ ( ) 24  m −1  Pm =  G β j ' X + 1  j =1    ∑ ( ) −1 y a partir de Pm hallar la probabilidad de escoger una alternativa j cualquiera: Pj = G β j ' X Pm Pj = 1+ G β j' X ( ( ) ) X 25 ∑ G( β j =1 m −1 j' ) Las expresiones de Pj y Pm resultan ser el centro del interés del modelo. Así. aunque dada la necesidad de evaluar múltiples integrales en el caso de usar una normal se prefiere la distribución logística.De esta forma. Este modelo tiene especificaciones determinadas que dependen de la utilidad final que se le dé. se tienen en total m categorías no ordenadas. A partir de ella se podrá especificar la probabilidad de escoger cada categoría. En el mismo los β resultan ser parámetros relativos respecto de la categoría base por lo que no pueden ser analizados en forma individual. El hecho de que éstas no puedan ser relacionadas de acuerdo a algún ordenamiento específico genera la necesidad de establecer un orden a priori a través de la selección de una categoría base o referencial. es decir: P1 = F ( β 1' X ) P1 + Pm P2 = F ( β 2' X ) P2 + Pm  Pj Pj + Pm = F β j' X 22 ( ) donde F(•) es la función de densidad de los errores de la ecuación explicativa de la utilidad. A partir de (22) se define una especificación para Pj y Pm de forma que:4 Pj = Pj F β j ' X + Pm F β j ' X Pj Pm j j' ( ) ( F( β ' X ) = = G( β 1 − F( β ' X ) j ) ) 23 X donde G(•) es la función de densidad de la diferencia de los errores de las ecuaciones explicativas de la utilidad que da la alternativa j y la m. utilizando un conjunto de modelos binomiales entre ellas y la categoría base. resultando lo que se conoce como el Modelo Logit Multinomial. cuando se supone que la probabilidad de escoger una categoría j 4 Ver Amemiya (1983) 8 .

Como se observa. que en el primer modelo el número de parámetros a estimar es igual al número de variables explicativas del individuo por m-1. es posible tener una especificación alternativa en donde las explicativas dependen del individuo y de la alternativa. como se observa. las variables explicativas dependen del individuo i. mientras que los β son invariables a ambos factores. En el segundo modelo se estiman tantos parámetros como características se hayan considerado para cada alternativa. Así. el modelo que define (27) permite predecir la probabilidad de escoger una alternativa no considerada entre las m estimadas. Por su lado.5 Finalmente. el primer modelo definido por (26) se utiliza para predecir la probabilidad que un individuo fuera de la muestra escoja una de las m alternativas analizadas. ello gracias a que se cuenta con los precios implícitos o ponderaciones de las características de las m alternativas con las que se realizó la estimación. la especificación de cada modelo responde a un objetivo específico. No obstante. además. Este es el conocido modelo condicional de McFadden (1973) en donde la probabilidad de que el individuo i escoja la alternativa j está dada por: Pij = 1+ G β ' X ij m −1 j =1 ( ) ij ∑ G( β ' X ) 27 en esta especificación los β representan los "precios implícitos" de las diferentes características de las alternativas a escoger (o pesos específicos) mientras que Xij es la valoración que el individuo i tiene respecto de cada característica de la alternativa j. Ello implicaría una nueva especificación de la probabilidad de que el individuo i escoja la alternativa j de la forma: Pij = 1+ G β ' X ij + α 'j Yi ( ) ' j Yi ∑ G( β ' X m −1 j =1 ij +α ) 28 Es posible notar. sería posible considerar un modelo combinado que incorpore tanto la valoración de las características de las alternativas como aquéllas de los individuos que conforman la muestra. de forma que: Pij = 1+ G β j' X i ( ) Xi ∑ G( β j =1 m −1 j' ) 26 donde. dadas sus características específicas.depende exclusivamente de características del individuo i se puede reescribir el Pj de (25). 5 9 . pero para la que se tienen las valoraciones de cada individuo i Xij. si es que se considera la normalización de uno de los parámetros a estimar (βo=0).

donde Xij representa las valoraciones del individuo i respecto de las características de la alternativa j. El modelo se basa en la definición de un índice de performance I*. de categorías de instituciones prestadoras de salud. si I*<α1. Variables dependientes ordenadas Las variables multinomiales ordenadas son aquéllas que indican diversas alternativas que guardan entre sí un ordenamiento específico. de rangos de ingresos. Si tomamos este último ejemplo podríamos definir la variable Yi como: Yi = Institución de salud donde se obtiene el servicio = 4 Clínicas particulares = 3 Hospitales públicos = 2 Centros y postas = 1 Otros proveedores Este ordenamiento supone que son las instituciones a las que se les coloca un mayor valor de la variable Y las de mejor servicio. Ese sería el caso de un ranking de prioridades de inversión. 1. menos uno. si está entre α2 y α3 escoge la 3. tal como: Ii * = β ' X i + εi 29 Asimismo se establecen puntos de corte (α's) entre los cuales se mueve el I*. el individuo escoge la categoría 1.2. el que se encuentra relacionado con un conjunto de variables explicativas vinculadas con el individuo y las alternativas j. Así. si I* está entre α1 y α2 escoge la categoría 2. mientras que Yi indica las características particulares del individuo i. y si es mayor que α3 elige la categoría 4.2. entre otras variables. es decir: Pr ( Yi = 1) = Pr ( I i * < α ) = Pr ( β ' X i + ε i < α 1 ) = Pr ( ε i < α 1− β ' X i ) = F ( α 1− β ' X i ) 1 2 Pr ( Yi = 2) = Pr ( I i * < α ) − Pr ( I i * < α 1 ) = F ( α 2 − β ' X i ) − F (α 1− β ' X i ) = F ( α 3 − β ' X i ) − F (α 2 − β ' X i ) 3 2 30 Pr ( Yi = 3) = Pr ( I i * < α 3 ) − Pr ( I i * < α ) Pr ( Yi = 4) = Pr ( I i * > α ) = Pr ( ε i > α 3 − β ' X i ) = 1 − F (α 3 − β ' X i ) 10 . De esta forma se requerirán tener tanto puntos de corte como categorías haya. A partir de estas definiciones se pueden especificar las probabilidades asociadas a estar en una determinada categoría.

no obstante. El proceso seguiría y es brevemente resumido en el siguiente cuadro. Como en el caso binomial. por lo que la definición de la probabilidad asociada con dicha categoría debe incorporar esta consideración. se estima un primer modelo binomial obteniendo el vector β1 de parámetros.3. las categorías intermedias tendrán efectos impacto que no se pueden definir a priori. si la persona se encuentra en el nivel 3 definitivamente no puede situarse en las dos categorías anteriores. Estos puntos de corte son estimados por el modelo junto con los β y hacen posible obtener las probabilidades estimadas de estar en cada categoría. se puede dividir esta submuestra en aquéllos que sí terminaron secundaria y los que no. y la inversa de la misma en el caso de la categoría más baja. Luego. Partiendo la muestra en dos. Esta secuencialidad debe ser incorporada en la especificación de la probabilidad de elegir una categoría determinada. los que terminaron primaria y los que no. su signo indicará la dirección de la relación con la probabilidad de estar en la categoría más alta. β3  No terminó Sí terminó primaria primaria Y=1 Y=0 Terminó No terminó superior superior Y=0 Y=1 Si terminó No Y=1  β1 11 secundaria Y=0 terminó secundaria  β2 . ello haría posible estimar un segundo modelo binomial de donde se obtendría el vector β2.2. por ejemplo. Variables dependientes secuenciales Estas variables son un tipo especial de ordenada en la que una categoría no puede ser elegida sin haber pasado por un proceso previo de elección de otra(s) de ella(s). la que se especifica de la siguiente forma: Yi = Educación del JH = 1 si no terminó la educación primaria = 2 si no terminó la educación secundaria pero sí la primaria = 3 si no terminó la educación superior pero sí la secundaria = 4 si terminó la educación superior Así. 1. tomando sólo aquéllos que terminaron la primaria. aún cuando previamente ha debido pasar por ellas para alcanzar la 3. La estimación de los determinantes del nivel de educación del jefe de hogar se puede llevar a cabo a través de modelos binomiales secuenciales. Supongamos que la variable bajo estudio es la educación del jefe de hogar de las familias peruanas. los β no tienen un significado individual sino dentro del argumento de la función de densidad. Veamos un par de ejemplos que pueden ser ilustrativos.A fin de que todas las probabilidades sean positivas debe ser cierto que α1<α2<α3.

diferencia entre los que venden carros y los que no realizan ninguna transacción. el β3 se obtiene del modelo que. La definición de las probabilidades de todas las categorías analizadas se muestra a continuación: Pr ( Yi = 1) = F ( β 1 ' X i ) [ ] Pr ( Yi = 3) = F ( β 3 ' X i ) [ 1 − F ( β 1 ' X i ) ] [ 1 − F ( β 2 ' X i ) ] Pr ( Yi = 4) = [ 1 − F ( β 1 ' X i ) ] [ 1 − F ( β 2 ' X i ) ] [ 1 − F ( β 3 ' X i ) ] Pr ( Yi = 2) = F ( β 2 ' X i ) 1 − F ( β 1 ' X i ) 31 Una especificación alternativa se observa en el siguiente modelo para la demanda de automóviles trabajado por Cragg y Uhler (1970).A partir de estas estimaciones se pueden obtener las probabilidades de estar en una categoría determinada (ver Amemiya 1983). el β2 del modelo que. dentro de la muestra de quienes compran un auto nuevo. Así por ejemplo la probabilidad de estar en la categoría 3 es igual a la probabilidad conjunta de no haber terminado la educación superior pero sí la secundaria6. entre quienes no adquieren un carro. Pr(Yi=3. planteando las decisiones de compra de la siguiente manera: Cambiar el actual Sí Comprar uno por primera vez Adquirir un automóvil Vender el actual No Mantenerse en la situación actual Si definimos las siguientes probabilidades: P1= probabilidad de cambiar el auto actual P2= probabilidad de comprar uno por primera vez P3= probabilidad de vender el auto actual P4= probabilidad de no hacer ninguna transacción Entonces podemos definir estas probabilidades como: Pr ( Yi = 1) = F ( β 1 ' X i ) F ( β 2 ' X i ) Pr ( Yi = 2 ) = F ( β 1 ' X i ) [1 − F ( β 2 ' X i ) ] Pr ( Yi = 3) = F ( β 3 ' X i ) [1 − F ( β 1 ' X i ) ] Pr ( Yi = 4 ) = [1 − F ( β 1 ' X i ) ][1 − F ( β 3 ' X i ) ] 32 Así. diferencia entre quienes reemplazan el que tienen y los que compran uno por primera vez. finalmente. En el mismo se quieren analizar los determinantes de la adquisición de un automóvil.Yi≠ 2)=Pr(Yi=3/Yi≠ 2) x Pr(Yi≠ 2) 12 . el vector β1 se obtendrá del modelo binomial que divide la muestra entre quienes adquieren un auto nuevo y los que no lo hacen. 6 Es decir.

13 .Nótese que la propuesta de estimación simultánea planteada en los dos modelos antes presentados sólo es válida en la medida que los factores aleatorios que afectan las diferentes etapas de decisión sean independientes entre sí (independencia de los errores de las ecuaciones que se estiman sucesivamente).

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->