Econometría de Corte Transversal

Las herramientas metodológicas que se presentan a continuación son aplicables a
información obtenida en un momento en el tiempo para un grupo determinado de
“individuos”, sean éstos personas, empresas, bancos, etc.. Por lo mismo, el
componente temporal pierde (momentáneamente) importancia, centrándose ahora el
interés en las similitudes o disparidades de ese grupo en determinado instante de
tiempo; es así que nuestras observaciones pasarán a tener el subíndice i (y ya no t),
donde i hace referencia al individuo i de la muestra.
Pese a esta característica de la información, el uso de MCO no se invalida siempre que
la dependiente sea una variable continua sin ninguna limitación, siendo sólo necesario
ser cuidadoso con la posible heterocedasticidad del modelo estimado, la misma que
debe ser convenientemente corregida. No obstante, cuando la dependiente no satisface
estas condiciones, el estimador MCO deja de ser el más apropiado surgiendo otros
estimadores de mejores propiedades finitas y asintóticas. Son éstos estimadores el
centro del análisis de las siguientes páginas.
Debido a que el problema se centra en la dependiente, dividiremos el análisis sobre la
base de las características que ésta muestre, distinguiendo entre una dependiente
discreta de aquella que siendo continua tiene rangos limitados de trabajo.
1. Variable dependiente discreta
1.1. Las binomiales
Son aquellas que toman sólo dos valores, tradicionalmente 0 y 1, es decir:
Yi = 1, si se cumple cierta condición
0, de cualquier otra forma
por ejemplo,
Yi = 1, si una persona trabaja 1
0, si una persona no trabaja
1.1.1. 1.1.1. Modelo de Probabilidad Lineal (MPL) Modelo de Probabilidad Lineal (MPL)
Supongamos que decidimos modelar la variable dependiente de (1) usando un modelo
lineal de la forma:
Y X u
i i i
· + β'
, 2
donde ( ) E u
i
· 0
. Podemos decir que:
( ) ( ) ( ) E Y X Yi Yi
i i
/ · + 1 0 Prob =1 Prob = 0
3
además de (2) se puede deducir que:
( )
i i i
X X Y E ' / β · 4
1
por lo que se puede concluir que:
( )
i i i
Y X Y ob · · · ' 1 Pr β 5
es decir, la probabilidad de que la persona trabaje es β´Xi, la que por lógica tiene que
estar entre 0 y 1. No obstante, en el modelo no hay nada que restringa a
i
Y a estarlo.
Además, se tiene problemas con el error, pues éste toma sólo dos valor, a saber:
Si ui Pr
Yi = 1 1- β´ Xi β´ Xi P(Yi =1)
Yi = 0 - β´ Xi 1- β´ Xi P(Yi = 0)
Total 1
Es decir, el error es binomial y no normal, siendo su varianza igual a:
( ) ( ) ( ) ( ) ( )
i i i i i i i
X X X X X X u Var ' 1 ' ' 1 ' ' ' 1 ) (
2 2
β β β β β β − · − − + − ·
1
6
de forma tal que, como depende de las observaciones, termina siendo heterocedástica.
De esta forma podemos concluir que existen tres grandes limitaciones para el uso del
estimador MCO en estos modelos:
• El error es heteroscedástico
• El error no es normal
• Nada restringe a Yi = β´ Xi = Pr (Yi = 1) a estar entre 0 y 1
Los dos primeros problemas pueden ser resueltos con relativa facilidad, utilizando MCG
y ampliando la muestra, respectivamente. No obstante, no existe forma de resolver el
último problema, razón por la cual nos vemos en la necesidad de trabajar con un
método que garantice que la probabilidad resultante se mueva entre esos límites; para
ello se recurrirá a la función de distribución acumulada del error, la cual será utilizada
para hallar el estimador MV de los parámetros de interés.
1.1.2. 1.1.2. Los modelos probabilísticos: Probit y Logit Los modelos probabilísticos: Probit y Logit
Supongamos que se tiene el siguiente modelo:
Y X u
i i i
* ' · + β
7
en el que Yi * es una variable no observable e igual, por ejemplo, al “número de horas
deseadas de trabajo”. La variable que se observa es Yi, la misma que toma el valor de
1 si Yi * > 0, y de 0 si Yi * < 0.
Note que ahora
i
X ' β es igual a
( )
i i
X Y E / * y no a
( )
i i
X Y E / , por lo que no hay
necesidad de que esté restringido a 0 y 1, más aún si tenemos en cuenta que la
Pr(Yi=1) ya no es igual a B’Xi. Es así que:
( ) ( ) ( ) Pr Pr * Pr Y Y u X
i i i i
· · > · 1 0 > - ' β
1
Nótese que ello implica que:
( ) ( ) ( ) [ ] 1 Pr 1 1 Pr ' 1 ' ) ( · − · · − ·
i i i i i
Y Y X X u Var β β
2
= ( ) 1− − F X
i
β'
8

donde F(•) es la función de densidad acumulada del error.
La función de verosimilitud pertinente, para los n individuos de una muestra, estaría
dada por:
L =
F X F X
i
Yi
i
Yi
( ' ) [ ( ' )] − − −
· ·
∏ ∏
β β
0 1
1
9
Si F(u) es normal estándar estaríamos hablando del modelo Probit, mientras que si
fuera logística
2
nos referiríamos al modelo Logit. Cabe mencionar que como ambas
funciones son simétricas podemos concluir que ( ) ( )
i i
X F Y ' ) X ' F(- - 1 1 Pr
i
β β · · · .
Comparemos un poco más estas dos funciones. La principal diferencia entre ellas es la
amplitud de sus colas, ya que la logística tiene colas más anchas. Por lo mismo los
resultados que se obtienen con cada una de ellas no son comparables. Dado que en el
modelo probit el uso de una normal estándar arroja β´s estandarizados (siendo σ=1), la
comparación con los β’s logit requiere estandarizar estos últimos también, para lo cual
hay que dividir los estimados entre la desviación estándar, que es igual a
3
π
. Es
decir

β
π
3 L
vs. βP
Dado que no hay forma de saber a priori cómo se comportan los errores de los
modelos que queremos estimar, y que la diferencia entre estas funciones es
relativamente sutil, la elección entre probit y logit dependerá del mejor ajuste que se
logre utilizando una u otra indistintamente.
Finalmente, vale la pena comparar las implicancias de utilizar los modelos
probabilísticos frente a la posibilidad de utilizar MPL. Como vimos en 1.1.1, el MPL
implica que Pr(Yi = 1) = β´ Xi , mientras que los modelos probabilísticos suponen que
Pr(Yi = 1) = F(β´ Xi ). De esta forma, en el primer caso el efecto marginal o impacto de
un cambio en una unidad de las X’s sería constante, a saber:


β
Pr( ) Y
X
i
·
·
1

10
mientras que para los modelos probabilísticos este efecto sería:


β β
Pr( )
( ' ).
Yi
X
f Xi
·
·
1

11
es decir, dependería del nivel de las X’s para cada individuo. Esto último coincide con lo
que se observa en la vida real. Por ejemplo, el cambio en la probabilidad de que un
niño asista al colegio frente a un aumento en el ingreso, será distinto en el caso de
2
Recuérdese que la función logística tiene la siguiente especificación:
F(u) =
exp( )
exp( )
u
u 1+
3
familias de altos y bajos ingresos, esperando para las primeras un incremento casi nulo
de la probabilidad y para las segundas una bastante mayor.
3
Veamos ahora la matemática del modelo Logit. Su función de verosimilitud se define
como:
L =
1
1 1
1
1
+
¸
¸

_
,

+
¸
¸

_
,

·


exp( ' )
exp( ' )
exp( ' ) β
β
β X
X
X
i
i
n
Yi
i
i
Yi
12
L =
( )
exp ( )
exp ( ' )


β
β
X Y
X
i i
i
n
i
i
n
·
·


+
1
1
1
13
Y tomando logaritmo:
[ ]
ln ln exp L X Y
i i
· − +
∑ ∑
β β 1 ( ' X )
i
derivando respecto a los parámetros y maximizando:
( ) ∑ ∑ · · × − · 0
i
0
) X ' ( exp + 1
) ' ( exp ln
β
β
β
∂β

S X
X
Y X
L
ik
i
i i
14
Como vemos, 14 es una ecuación no lineal en β, por lo que para resolverla es
necesario recurrir a algún método iterativo. Uno de los más usado es el de Newton-
Raphson. Así, se define:
( ) [ ] ( ) 0
1
0 0 1 I + = β β β β S

donde [I(β0)] es la matriz de información. De esta forma, se utiliza un valor cualquier
para β0, que podría ser el de MCO, y se continúa iterando hasta hallar el β que haga
S(β0) = 0.
1.1.3. 1.1.3. Bondad de Ajuste Bondad de Ajuste
Para establecer la bondad de ajuste del modelo se requeriría comparar la predicción de
la variable dependiente con la realmente observada. No obstante, en un modelo
discreto ello pierde sentido ya que se observa la elección real (0 ó 1, en el caso
binomial) mientras que el modelo arroja probabilidades. Es así que el R
2
, que se
basaría en estos errores distorsionados, pierde sentido.
Una alternativa lo constituye el Test de la Razón de Verosimilitud, cuya Ho es que
todos los β’s del modelo (excepto la constante), o un subconjunto de ellos, es igual a 0.
El estadístico asociado se define como:
3
Cuando hablamos de bajos ingresos no queremos referirnos a las familias de mayor pobreza
entre las que es posible que la mencionada probabilidad también sea nula. Esto último no hace
sino reafirmar la lógica del uso de la función de densidad cuyos extremos son menos
empinados que el resto de la función.
4
( )
( )

max
max
β
λ
L
O L
·
15
donde L*(0) es la función de verosimilitud del modelo restringido (que sólo considera
constante, o las explicativas que no están sometidas a la prueba de significancia) y
L*(β) es la del modelo completo.
Según Wilks (1962):
−2lnλ ∼ ( ) X q
2
16
donde q es el número de restricciones.
A partir de la función de verosimilitud es posible construir un seudo R
2
. Así hay que
tener en cuenta que como L(•) es generalmente una productoria de probabilidades
puede tomar valores entre 0 y 1. Por ello, ln L(•) < 0. Si definimos L*(•) como el valor
máximo del logaritmo de la función de verosimilitud, es decir:
L*(•)= máx ln L(•)
Entonces debe ser cierto que:
L*(β) ≥ L*(0)
Es decir, L*(β) debe estar muy cerca de 0 para que el modelo estimado sea bueno, y
cuanto mejor sea la distancia respecto a L*(0) debería ser mayor. Es así que si
definimos el seudo R
2
como:
( )
( )
ρ
2
1
0
· −
L
L
*
*

17
Si el modelo es bueno L*(β) se aproximaría a 0, por lo que ρ
2
tendería a 1. Si el modelo
es malo L*(β) estaría muy cerca de L*(0) por lo que ρ
2
tendería a 0. Como regla
práctica, es de esperar que un buen modelo tenga un ρ
2
entre 0.2 y 0.4.
1.1.4. 1.1.4. Procedimiento para estimar un modelo Procedimiento para estimar un modelo
Para estimar correctamente un modelo discreto se sugiere seguir los pasos que se
explican a continuación:
1. Analizar la matriz de correlaciones entre la dependiente y el conjunto de
posibles explicativas. A partir de ella se busca rescatar dos cosas:
• Establecer el grado de relación de las explicativas y la dependiente así
como su signo esperado.
• Establecer la posible correlación entre explicativas potenciales. Como
regla práctica, si dos variables tienen una correlación mayor a 75% se
debe elegir entre ellas a aquella que ajuste mejor; no incluir a ambas en
el modelo.
5
2. Analizar tablas cruzadas entre la dependiente y las explicativas que mostraron
en 1. ser las más relacionadas con la primera. A través de este análisis se
pretende confirmar la dirección y magnitud de la relación.
3. Estimar la ecuación con todas las explicativas que aparecieron como relevantes
en 1 y 2. Una vez corrido el modelo dejar aquellas explicativas que tengan el
signo esperado y cuya probabilidad asociada a t no sea mayor a 10% ó 15%.
Nótese que en el caso de los modelos discretos el t reduce su validez, por lo
que se relaja la necesidad de ser muy estrictos respecto de las conclusiones
que arroja este test.
Uno de los resultados claves del modelo estimado es la predicción de la
probabilidad asociada a la variable dependiente, la misma que puede ser
determinada para la media muestral o para individuos con características
específicas dentro de la muestra.
4. Determinar los efectos impactos de las variables explicativas del modelo. En el
caso de una variable explicativa discreta k éste sería igual a:
( )
( )
ki i
k
i
k
X f
X
Y
EI β β


ˆ
. '
ˆ

1 Pr
·
·
·
18
El mismo que puede ser evaluado en la media muestral o para un conjunto
específico de valores de las explicativas.
En el caso de una variable explicativa discreta tendría que calcularse la
diferencia de la probabilidad cuando dicha variable toma un valor u otro. Por
ejemplo, si estamos analizando la decisión de trabajar y la variable explicativa
de interés es el sexo de la persona, definido como 1 si es hombre y 0 si es
mujer, el efecto impacto de la misma sobre la probabilidad de trabajar sería:
( ) ( )
EI F X X X F X X X
X 2 1 1 2 3 3 4 4 1 1 2 3 3 4 4
1 0 · + + + + + + + + β β β β β β β β ( ) .... ( ) .... -
En este caso también podría calcularse el efecto para la media muestral o para
características determinadas del individuo.
Note que cualquiera sea el tipo de variable explicativa, el efecto impacto arroja
el cambio de la probabilidad, en puntos porcentuales, frente a la variación en
una unidad de la explicativa, razón por la cual su utilidad es mayor cuando
analizamos explicativas discretas.
5. Determinar la elasticidad de la probabilidad respecto de cambios en las
variables explicativas. La misma puede definirse como para la variable
explicativa k:
( ) X F
X
EI
K
X K
K
'
ˆ
.
β
η
  
·
19
La elasticidad indica el cambio porcentual en la probabilidad ante una variación
de 1% en la variable explicativa de interés, razón por la cual resulta más
conveniente estimarla para explicativas continuas. No obstante, dado que
6
carece de unidades, la elasticidad puede servir también para rankear todas las
variables explicativas de acuerdo con su importancia relativa en el modelo.
1.2. Modelos Multinomiales
Los modelos multinomiales son aquéllos cuyo objetivo es explicar variables
dependientes discretas pero de múltiples opciones, de forma tal que se modela el
proceso a través del cual una persona escoge entre diferentes alternativas de elección,
de acuerdo con aquélla que le dé la más alta utilidad.
De esta forma, si definimos:
ij ij ij
x U ε β + · '
*
20
donde Uij* es la utilidad que recibe el individuo i al escoger la alternativa j, dicha utilidad
está en función de un conjunto de variables explicativas xij, a través de los parámetros
β, que pueden o no depender de las alternativas de elección.
El modelo general se basa en la resolución de la función de verosimilitud construida a
partir de la función de distribución conjunta de cada uno de los individuos de la
muestra. Es decir:

·
·
n
i
Yim
im
Yi
i
Yi
i
P P P L
1
2
2
1
1
...... .
21
donde Yij toma el valor de 1 si el individuo i escoge la categoría j y Pij es la probabilidad
del mismo de elegir dicha categoría. La especificación de las probabilidades estará en
función del tipo de modelo multinomial que se esté trabajando, el que depende a su vez
de la forma de la variable que se quiere explicar.
1.2.1. 1.2.1. Variables dependientes no ordenadas Variables dependientes no ordenadas
Son aquéllas que se caracterizan por especificar un conjunto de posibles alternativas
que no presentan una relación de orden entre ellas, como por ejemplo, profesiones,
hobbies, modos de transporte, marcas de cigarrillos, etc. Tomando el primer ejemplo,
supóngase que se desean explicar los determinantes del tipo de ocupación del jefe de
hogar de las familias peruanas, de forma tal que la variable se define como:
Yi = Ocupación del jefe de hogar
= 1 Médico
2 Abogado
3 Carpintero

• .

m Otros
7
De esta forma, se tienen en total m categorías no ordenadas. El hecho de que éstas no
puedan ser relacionadas de acuerdo a algún ordenamiento específico genera la
necesidad de establecer un orden a priori a través de la selección de una categoría
base o referencial. A partir de ella se podrá especificar la probabilidad de escoger cada
categoría, utilizando un conjunto de modelos binomiales entre ellas y la categoría base,
es decir:
( )
( )
( ) '

'
'
2
2
2
1
1
1
X F
P P
P
X F
P P
P
X F
P P
P
j
m j
j
m
m
β
β
β
·
+
·
+
·
+

22
donde F(•) es la función de densidad de los errores de la ecuación explicativa de la
utilidad. A partir de (22) se define una especificación para Pj y Pm de forma que:
4
( ) ( )
( )
( )
( )
P P F X P F X
P
P
F X
F X
G X
j j j m j
j
m
j
j
j
· +
·

·
β β
β
β
β




' '
'
'
'
1
23
donde G(•) es la función de densidad de la diferencia de los errores de las ecuaciones
explicativas de la utilidad que da la alternativa j y la m. Ahora se puede derivar la
probabilidad de escoger la categoría m aplicando sumatoria al cociente Pj/Pm:
( )
( )
1
1
1
1
1
1
1
1 '
' 1
1 1


·

·

·
1
1
]
1

¸

+ ·
· − ·

·

∑ ∑
m
j
j m
m
j
j
m
j m m
m
m
j
X G P
X G
P P
P
P
P
β
β
24
y a partir de Pm hallar la probabilidad de escoger una alternativa j cualquiera:
( )
( )
( )


·
+
·
·
1
1
' 1
'
'
m
j
j
j
j
m j j
X G
X G
P
P X G P
β
β
β
25
Las expresiones de Pj y Pm resultan ser el centro del interés del modelo. G(•) puede ser
normal o logística, aunque dada la necesidad de evaluar múltiples integrales en el caso
de usar una normal se prefiere la distribución logística, resultando lo que se conoce
como el Modelo Logit Multinomial. En el mismo los β resultan ser parámetros relativos
respecto de la categoría base por lo que no pueden ser analizados en forma individual.
Este modelo tiene especificaciones determinadas que dependen de la utilidad final que
se le dé. Así, cuando se supone que la probabilidad de escoger una categoría j
4
Ver Amemiya (1983)
8
depende exclusivamente de características del individuo i se puede reescribir el Pj de
(25), de forma que:
( )
( )


·
+
·
1
1
' 1
'
m
j
i j
i j
ij
X G
X G
P
β
β
26
donde, como se observa, las variables explicativas dependen del individuo i.
No obstante, es posible tener una especificación alternativa en donde las explicativas
dependen del individuo y de la alternativa, mientras que los β son invariables a ambos
factores. Este es el conocido modelo condicional de McFadden (1973) en donde la
probabilidad de que el individuo i escoja la alternativa j está dada por:
( )
( )


·
+
·
1
1
' 1
'
m
j
ij
ij
ij
X G
X G
P
β
β
27
en esta especificación los β representan los "precios implícitos" de las diferentes
características de las alternativas a escoger (o pesos específicos) mientras que Xij es la
valoración que el individuo i tiene respecto de cada característica de la alternativa j.
Como se observa, la especificación de cada modelo responde a un objetivo específico.
Así, el primer modelo definido por (26) se utiliza para predecir la probabilidad que un
individuo fuera de la muestra escoja una de las m alternativas analizadas, dadas sus
características específicas. Por su lado, el modelo que define (27) permite predecir la
probabilidad de escoger una alternativa no considerada entre las m estimadas, pero
para la que se tienen las valoraciones de cada individuo i Xij; ello gracias a que se
cuenta con los precios implícitos o ponderaciones de las características de las m
alternativas con las que se realizó la estimación.
5
Finalmente, sería posible considerar un modelo combinado que incorpore tanto la
valoración de las características de las alternativas como aquéllas de los individuos que
conforman la muestra. Ello implicaría una nueva especificación de la probabilidad de
que el individuo i escoja la alternativa j de la forma:
( )
( )


·
+ +
+
·
1
1
'
'
' 1
'
m
j
i j ij
i j ij
ij
Y X G
Y X G
P
α β
α β
28
5
Es posible notar, además, que en el primer modelo el número de parámetros a estimar es
igual al número de variables explicativas del individuo por m-1, si es que se considera la
normalización de uno de los parámetros a estimar (βo=0). En el segundo modelo se estiman
tantos parámetros como características se hayan considerado para cada alternativa.
9
donde Xij representa las valoraciones del individuo i respecto de las características de
la alternativa j, mientras que Yi indica las características particulares del individuo i.
1.2.2. 1.2.2. Variables dependientes ordenadas Variables dependientes ordenadas
Las variables multinomiales ordenadas son aquéllas que indican diversas alternativas
que guardan entre sí un ordenamiento específico. Ese sería el caso de un ranking de
prioridades de inversión, de rangos de ingresos, de categorías de instituciones
prestadoras de salud, entre otras variables. Si tomamos este último ejemplo podríamos
definir la variable Yi como:
Yi = Institución de salud donde se obtiene el servicio
= 4 Clínicas particulares
= 3 Hospitales públicos
= 2 Centros y postas
= 1 Otros proveedores
Este ordenamiento supone que son las instituciones a las que se les coloca un mayor
valor de la variable Y las de mejor servicio.
El modelo se basa en la definición de un índice de performance I*, el que se encuentra
relacionado con un conjunto de variables explicativas vinculadas con el individuo y las
alternativas j, tal como:
i i i
X I ε β + · ' * 29
Asimismo se establecen puntos de corte (α's) entre los cuales se mueve el I*. Así, si
I*<α1, el individuo escoge la categoría 1; si I* está entre α1 y α2 escoge la categoría 2, si
está entre α2 y α3 escoge la 3, y si es mayor que α3 elige la categoría 4. De esta forma
se requerirán tener tanto puntos de corte como categorías haya, menos uno.
A partir de estas definiciones se pueden especificar las probabilidades asociadas a
estar en una determinada categoría, es decir:
( ) ( ) ( )
( )
( )
( ) ( ) ( )
( ) ( )
( ) ( ) ( )
( ) ( )
( ) ( ) ( )
( )
i
i i i i
i i
i i i
i i
i i i
i
i i
i i i i
X F
X I Y
X F X F
I I Y
X F X F
I I Y
X F
X
X I Y
' 1
' Pr * Pr 4 Pr
' '
* Pr * Pr 3 Pr
' '
* Pr * Pr 2 Pr
'
' Pr
' Pr * Pr 1 Pr
3
3 3
2 3
2 3
1 2
1 2
1
1
1 1
β α
β α ε α
β α β α
α α
β α β α
α α
β α
β α ε
α ε β α
− − ·
− > · > · ·
− − − ·
< − < · ·
− − − ·
< − < · ·
− ·
− < ·
< + · < · ·
30
10
A fin de que todas las probabilidades sean positivas debe ser cierto que α1<α2<α3. Estos
puntos de corte son estimados por el modelo junto con los β y hacen posible obtener
las probabilidades estimadas de estar en cada categoría. Como en el caso binomial, los
β no tienen un significado individual sino dentro del argumento de la función de
densidad; no obstante, su signo indicará la dirección de la relación con la probabilidad
de estar en la categoría más alta, y la inversa de la misma en el caso de la categoría
más baja; las categorías intermedias tendrán efectos impacto que no se pueden definir
a priori.
1.2.3. 1.2.3. Variables dependientes secuenciales Variables dependientes secuenciales
Estas variables son un tipo especial de ordenada en la que una categoría no puede ser
elegida sin haber pasado por un proceso previo de elección de otra(s) de ella(s). Esta
secuencialidad debe ser incorporada en la especificación de la probabilidad de elegir
una categoría determinada. Veamos un par de ejemplos que pueden ser ilustrativos.
Supongamos que la variable bajo estudio es la educación del jefe de hogar de las
familias peruanas, la que se especifica de la siguiente forma:
Yi = Educación del JH
= 1 si no terminó la educación primaria
= 2 si no terminó la educación secundaria pero sí la primaria
= 3 si no terminó la educación superior pero sí la secundaria
= 4 si terminó la educación superior
Así, por ejemplo, si la persona se encuentra en el nivel 3 definitivamente no puede
situarse en las dos categorías anteriores, aún cuando previamente ha debido pasar por
ellas para alcanzar la 3, por lo que la definición de la probabilidad asociada con dicha
categoría debe incorporar esta consideración.
La estimación de los determinantes del nivel de educación del jefe de hogar se puede
llevar a cabo a través de modelos binomiales secuenciales. Partiendo la muestra en
dos, los que terminaron primaria y los que no, se estima un primer modelo binomial
obteniendo el vector β1 de parámetros. Luego, tomando sólo aquéllos que terminaron la
primaria, se puede dividir esta submuestra en aquéllos que sí terminaron secundaria y
los que no; ello haría posible estimar un segundo modelo binomial de donde se
obtendría el vector β2. El proceso seguiría y es brevemente resumido en el siguiente
cuadro.
β3
¸
No terminó
primaria Y=1
Sí terminó primaria
Y=0
Terminó
superior
Y=0
No terminó
superior
Y=1
Si terminó secundaria
Y=0
No terminó secundaria
Y=1
_ β2
¸ β1
11
A partir de estas estimaciones se pueden obtener las probabilidades de estar en una
categoría determinada (ver Amemiya 1983). Así por ejemplo la probabilidad de estar en
la categoría 3 es igual a la probabilidad conjunta de no haber terminado la educación
superior pero sí la secundaria
6
. La definición de las probabilidades de todas las
categorías analizadas se muestra a continuación:
( ) ( )
( ) ( ) ( )
[ ]
( ) ( ) ( )
[ ]
( )
[ ]
( ) ( )
[ ]
( )
[ ]
( )
[ ]
Pr '
Pr ' '
Pr ' ' '
Pr ' ' '
Y F X
Y F X F X
Y F X F X F X
Y F X F X F X
i i
i i i
i i i i
i i i i
· ·
· · −
· · − −
· · − − −
1
2 1
3 1 1
4 1 1 1
1
2 1
3 1 2
1 2 3
β
β β
β β β
β β β
31
Una especificación alternativa se observa en el siguiente modelo para la demanda de
automóviles trabajado por Cragg y Uhler (1970). En el mismo se quieren analizar los
determinantes de la adquisición de un automóvil, planteando las decisiones de compra
de la siguiente manera:
Cambiar el actual

Comprar uno por primera vez
Adquirir un automóvil
Vender el actual
No
Mantenerse en la situación actual
Si definimos las siguientes probabilidades:
P1= probabilidad de cambiar el auto actual
P2= probabilidad de comprar uno por primera vez
P3= probabilidad de vender el auto actual
P4= probabilidad de no hacer ninguna transacción
Entonces podemos definir estas probabilidades como:
( ) ( ) ( )
( ) ( ) ( ) [ ]
( ) ( ) ( ) [ ]
( ) ( ) [ ] ( ) [ ]
i i i
i i i
i i i
i i i
X F X F Y
X F X F Y
X F X F Y
X F X F Y
' 1 ' 1 4 Pr
' 1 ' 3 Pr
' 1 ' 2 Pr
' ' 1 Pr
3 1
1 3
2 1
2 1
β β
β β
β β
β β
− − · ·
− · ·
− · ·
· ·
32
Así, el vector β1 se obtendrá del modelo binomial que divide la muestra entre quienes
adquieren un auto nuevo y los que no lo hacen; el β2 del modelo que, dentro de la
muestra de quienes compran un auto nuevo, diferencia entre quienes reemplazan el
que tienen y los que compran uno por primera vez; finalmente, el β3 se obtiene del
modelo que, entre quienes no adquieren un carro, diferencia entre los que venden
carros y los que no realizan ninguna transacción.
6
Es decir, Pr(Yi=3,Yi≠ 2)=Pr(Yi=3/Yi≠ 2) x Pr(Yi≠ 2)
12
Nótese que la propuesta de estimación simultánea planteada en los dos modelos antes
presentados sólo es válida en la medida que los factores aleatorios que afectan las
diferentes etapas de decisión sean independientes entre sí (independencia de los
errores de las ecuaciones que se estiman sucesivamente).
13

la cual será utilizada para hallar el estimador MV de los parámetros de interés. No obstante. razón por la cual nos vemos en la necesidad de trabajar con un método que garantice que la probabilidad resultante se mueva entre esos límites. Es así que: Pr ( Yi = 1) = Pr ( Yi * > 0) = Pr ( ui 1 > -β ' X i ) Nótese que ello implica que: Var (u i ) = β ' X i (1 − β ' X i ) = Pr ( Yi = 1) [1 − Pr ( Yi = 1) ] 2 . al “número de horas deseadas de trabajo”. para ello se recurrirá a la función de distribución acumulada del error. Note que ahora β ' X i es igual a E ( Yi * / X i ) y no a E ( Yi / X i ) . se tiene problemas con el error.1.β´ Xi . como depende de las observaciones. termina siendo heterocedástica. el error es binomial y no normal. respectivamente. en el modelo no hay nada que restringa a Yi a estarlo. a saber: Si Yi = 1 Yi = 0 Total ui 1.2. Además. por ejemplo.β´ Xi Pr β´ Xi 1. De esta forma podemos concluir que existen tres grandes limitaciones para el uso del estimador MCO en estos modelos: • El error es heteroscedástico • El error no es normal • Nada restringe a Yi = β´ Xi = Pr (Yi = 1) a estar entre 0 y 1 Los dos primeros problemas pueden ser resueltos con relativa facilidad.por lo que se puede concluir que: Pr ob( Yi = 1) = β ' X i = Yi 5 es decir. no existe forma de resolver el último problema. más aún si tenemos en cuenta que la Pr(Yi=1) ya no es igual a B’Xi. Los modelos probabilísticos: Probit y Logit Supongamos que se tiene el siguiente modelo: Yi * = β ' X i + ui 7 en el que Yi * es una variable no observable e igual. siendo su varianza igual a: Var (u i ) = (1 − β ' X i ) 2 ( β ' X i ) + ( − β ' X i ) 2 (1 − β ' X i ) = β ' X i (1 − β ' X i ) 1 6 de forma tal que. pues éste toma sólo dos valor. La variable que se observa es Yi. y de 0 si Yi * < 0. la misma que toma el valor de 1 si Yi * > 0. utilizando MCG y ampliando la muestra. por lo que no hay necesidad de que esté restringido a 0 y 1. 1. No obstante. la probabilidad de que la persona trabaje es β´Xi.β´ Xi 1 P(Yi =1) P(Yi = 0) Es decir. la que por lógica tiene que estar entre 0 y 1.

π 3 . La principal diferencia entre ellas es la amplitud de sus colas. Esto último coincide con lo que se observa en la vida real.1. mientras que si fuera logística2 nos referiríamos al modelo Logit. la comparación con los β’s logit requiere estandarizar estos últimos también.F(.= 1 − F ( −β ' X i ) donde F(•) es la función de densidad acumulada del error. estaría dada por: L= ∏ F (−β ' X ) ∏ [1 − F (−β ' X )] i i Yi = 0 Yi =1 9 Si F(u) es normal estándar estaríamos hablando del modelo Probit. en el primer caso el efecto marginal o impacto de un cambio en una unidad de las X’s sería constante. el cambio en la probabilidad de que un niño asista al colegio frente a un aumento en el ingreso. y que la diferencia entre estas funciones es relativamente sutil. De esta forma.1. Cabe mencionar que como ambas funciones son simétricas podemos concluir que Pr ( Yi = 1) = 1 . Como vimos en 1. Por ejemplo. la elección entre probit y logit dependerá del mejor ajuste que se logre utilizando una u otra indistintamente. mientras que los modelos probabilísticos suponen que Pr(Yi = 1) = F(β´ Xi ). Es βP Dado que no hay forma de saber a priori cómo se comportan los errores de los modelos que queremos estimar. β ∂X 11 es decir. 8 La función de verosimilitud pertinente. a saber: ∂ Pr(Yi = 1) =β ∂X 10 mientras que para los modelos probabilísticos este efecto sería: ∂ Pr(Yi = 1) = f ( β ' Xi ). Dado que en el modelo probit el uso de una normal estándar arroja β´s estandarizados (siendo σ=1). ya que la logística tiene colas más anchas.β ' X i ) = F ( β ' X i ) . Por lo mismo los resultados que se obtienen con cada una de ellas no son comparables. vale la pena comparar las implicancias de utilizar los modelos probabilísticos frente a la posibilidad de utilizar MPL. Comparemos un poco más estas dos funciones. para los n individuos de una muestra. para lo cual hay que dividir los estimados entre la desviación estándar. el MPL implica que Pr(Yi = 1) = β´ Xi . será distinto en el caso de Recuérdese que la función logística tiene la siguiente especificación: exp(u) F(u) = 1 + exp(u) 2 3 . Finalmente. que es igual a π decir βL 3 vs. dependería del nivel de las X’s para cada individuo.

que se basaría en estos errores distorsionados. y se continúa iterando hasta hallar el β que haga S(β0) = 0. se define: β 1 = β 0 + [ I( β 0 ) ] −1 S ( β 0 ) donde [I(β0)] es la matriz de información. Una alternativa lo constituye el Test de la Razón de Verosimilitud.3 Veamos ahora la matemática del modelo Logit. Uno de los más usado es el de NewtonRaphson.1. 14 es una ecuación no lineal en β. en un modelo discreto ello pierde sentido ya que se observa la elección real (0 ó 1. en el caso binomial) mientras que el modelo arroja probabilidades. De esta forma. o un subconjunto de ellos. Así. 1. No obstante. cuya Ho es que todos los β’s del modelo (excepto la constante). Su función de verosimilitud se define como: 1−Yi Yi L= ∏ i =1 n   1    1 + exp( β ' X i )   exp( β ' X i )     1 + exp( β ' X i )  12 exp ( β L = ∑X Y) i i i =1 i n ∏ ( 1 + exp (β ' X )) i =1 n 13 Y tomando logaritmo: ln L = β ∑ X Y − ∑ ln[ 1 + exp (β ' X )] i i i derivando respecto a los parámetros y maximizando: exp ( β ' X i ) ∂ ln L = ∑ X i Yi − ∑ × X ik = 0 = S ( β 0 ) ∂β 1 + exp ( β ' X i ) 14 Como vemos. esperando para las primeras un incremento casi nulo de la probabilidad y para las segundas una bastante mayor. Esto último no hace sino reafirmar la lógica del uso de la función de densidad cuyos extremos son menos empinados que el resto de la función. pierde sentido. Bondad de Ajuste Para establecer la bondad de ajuste del modelo se requeriría comparar la predicción de la variable dependiente con la realmente observada.familias de altos y bajos ingresos. se utiliza un valor cualquier para β0. que podría ser el de MCO. es igual a 0.3. Es así que el R2. 3 4 . por lo que para resolverla es necesario recurrir a algún método iterativo. El estadístico asociado se define como: Cuando hablamos de bajos ingresos no queremos referirnos a las familias de mayor pobreza entre las que es posible que la mencionada probabilidad también sea nula.

• Establecer la posible correlación entre explicativas potenciales. Como regla práctica. es de esperar que un buen modelo tenga un ρ2 entre 0. 1. Por ello.2 y 0. ln L(•) < 0. Si el modelo es malo L*(β) estaría muy cerca de L*(0) por lo que ρ2 tendería a 0. es decir: L*(•)= máx ln L(•) Entonces debe ser cierto que: L*(β) ≥ L*(0) Es decir.1. o las explicativas que no están sometidas a la prueba de significancia) y L*(β) es la del modelo completo. Procedimiento para estimar un modelo Para estimar correctamente un modelo discreto se sugiere seguir los pasos que se explican a continuación: 1. A partir de ella se busca rescatar dos cosas: • Establecer el grado de relación de las explicativas y la dependiente así como su signo esperado. Analizar la matriz de correlaciones entre la dependiente y el conjunto de posibles explicativas. Según Wilks (1962): −2 ln λ ∼ X 2 ( q ) 16 donde q es el número de restricciones. L*(β) debe estar muy cerca de 0 para que el modelo estimado sea bueno.4. si dos variables tienen una correlación mayor a 75% se debe elegir entre ellas a aquella que ajuste mejor. Si definimos L*(•) como el valor máximo del logaritmo de la función de verosimilitud.λ= max L( O ) max L( β ) 15 donde L*(0) es la función de verosimilitud del modelo restringido (que sólo considera constante. A partir de la función de verosimilitud es posible construir un seudo R 2 . 5 . Es así que si definimos el seudo R2 como: ρ2 = 1− L * ( Ω) L * ( 0) 17 Si el modelo es bueno L*(β) se aproximaría a 0. Como regla práctica. Así hay que tener en cuenta que como L(•) es generalmente una productoria de probabilidades puede tomar valores entre 0 y 1. y cuanto mejor sea la distancia respecto a L*(0) debería ser mayor. por lo que ρ2 tendería a 1. no incluir a ambas en el modelo.4.

razón por la cual resulta más conveniente estimarla para explicativas continuas. Nótese que en el caso de los modelos discretos el t reduce su validez. ser las más relacionadas con la primera. β ki ∂ Xk 18 El mismo que puede ser evaluado en la media muestral o para un conjunto específico de valores de las explicativas. Determinar los efectos impactos de las variables explicativas del modelo. el efecto impacto arroja el cambio de la probabilidad. Por ejemplo. 3.. Analizar tablas cruzadas entre la dependiente y las explicativas que mostraron en 1. Uno de los resultados claves del modelo estimado es la predicción de la probabilidad asociada a la variable dependiente. Estimar la ecuación con todas las explicativas que aparecieron como relevantes en 1 y 2. La misma puede definirse como para la variable explicativa k: η K = EI X K . frente a la variación en una unidad de la explicativa. En el caso de una variable explicativa discreta k éste sería igual a: EI k = ∂ Pr ( Yi = 1) ˆ ˆ = f ( β ' X i ) . ( ) ( ) En este caso también podría calcularse el efecto para la media muestral o para características determinadas del individuo. Una vez corrido el modelo dejar aquellas explicativas que tengan el signo esperado y cuya probabilidad asociada a t no sea mayor a 10% ó 15%. en puntos porcentuales. Determinar la elasticidad de la probabilidad respecto de cambios en las variables explicativas. . En el caso de una variable explicativa discreta tendría que calcularse la diferencia de la probabilidad cuando dicha variable toma un valor u otro.  X K ˆ F(β' X ) 19 La elasticidad indica el cambio porcentual en la probabilidad ante una variación de 1% en la variable explicativa de interés. dado que 6 .F β 1 X 1 + β 2 (0) + β 3 X 3 + β 4 X 4 +. 5.. No obstante. Note que cualquiera sea el tipo de variable explicativa. el efecto impacto de la misma sobre la probabilidad de trabajar sería: EI X 2 = F β 1 X 1 + β 2 (1) + β 3 X 3 + β 4 X 4 +. definido como 1 si es hombre y 0 si es mujer. razón por la cual su utilidad es mayor cuando analizamos explicativas discretas.. si estamos analizando la decisión de trabajar y la variable explicativa de interés es el sexo de la persona.. por lo que se relaja la necesidad de ser muy estrictos respecto de las conclusiones que arroja este test.2. 4.. la misma que puede ser determinada para la media muestral o para individuos con características específicas dentro de la muestra. A través de este análisis se pretende confirmar la dirección y magnitud de la relación..

2. supóngase que se desean explicar los determinantes del tipo de ocupación del jefe de hogar de las familias peruanas. 1. a través de los parámetros β. La especificación de las probabilidades estará en función del tipo de modelo multinomial que se esté trabajando. como por ejemplo. la elasticidad puede servir también para rankear todas las variables explicativas de acuerdo con su importancia relativa en el modelo. el que depende a su vez de la forma de la variable que se quiere explicar. que pueden o no depender de las alternativas de elección..1. 1. marcas de cigarrillos. De esta forma. El modelo general se basa en la resolución de la función de verosimilitud construida a partir de la función de distribución conjunta de cada uno de los individuos de la muestra. Es decir: n L= ∏P i =1 Yi1 i1 ..2.Pim Yim 21 donde Yij toma el valor de 1 si el individuo i escoge la categoría j y Pij es la probabilidad del mismo de elegir dicha categoría. • m Otros 7 . modos de transporte. de acuerdo con aquélla que le dé la más alta utilidad. profesiones. Tomando el primer ejemplo.. Variables dependientes no ordenadas Son aquéllas que se caracterizan por especificar un conjunto de posibles alternativas que no presentan una relación de orden entre ellas. de forma tal que se modela el proceso a través del cual una persona escoge entre diferentes alternativas de elección.. Pi 2 Yi 2 . dicha utilidad está en función de un conjunto de variables explicativas x ij. si definimos: U ij = β ' xij + ε ij * 20 donde Uij* es la utilidad que recibe el individuo i al escoger la alternativa j. de forma tal que la variable se define como: Yi = Ocupación del jefe de hogar = 1 Médico 2 Abogado 3 Carpintero • • . etc.carece de unidades. hobbies. Modelos Multinomiales Los modelos multinomiales son aquéllos cuyo objetivo es explicar variables dependientes discretas pero de múltiples opciones..

G(•) puede ser normal o logística.De esta forma. A partir de (22) se define una especificación para Pj y Pm de forma que:4 Pj = Pj F β j ' X + Pm F β j ' X Pj Pm j j' ( ) ( F( β ' X ) = = G( β 1 − F( β ' X ) j ) ) 23 X donde G(•) es la función de densidad de la diferencia de los errores de las ecuaciones explicativas de la utilidad que da la alternativa j y la m. Este modelo tiene especificaciones determinadas que dependen de la utilidad final que se le dé. aunque dada la necesidad de evaluar múltiples integrales en el caso de usar una normal se prefiere la distribución logística. es decir: P1 = F ( β 1' X ) P1 + Pm P2 = F ( β 2' X ) P2 + Pm  Pj Pj + Pm = F β j' X 22 ( ) donde F(•) es la función de densidad de los errores de la ecuación explicativa de la utilidad. El hecho de que éstas no puedan ser relacionadas de acuerdo a algún ordenamiento específico genera la necesidad de establecer un orden a priori a través de la selección de una categoría base o referencial. cuando se supone que la probabilidad de escoger una categoría j 4 Ver Amemiya (1983) 8 . se tienen en total m categorías no ordenadas. resultando lo que se conoce como el Modelo Logit Multinomial. utilizando un conjunto de modelos binomiales entre ellas y la categoría base. A partir de ella se podrá especificar la probabilidad de escoger cada categoría. Así. Ahora se puede derivar la probabilidad de escoger la categoría m aplicando sumatoria al cociente Pj/Pm: ∑P j =1 m −1 Pj m = m −1 1 − Pm 1 = −1= G β j' X Pm Pm j =1 ∑ ( ) 24  m −1  Pm =  G β j ' X + 1  j =1    ∑ ( ) −1 y a partir de Pm hallar la probabilidad de escoger una alternativa j cualquiera: Pj = G β j ' X Pm Pj = 1+ G β j' X ( ( ) ) X 25 ∑ G( β j =1 m −1 j' ) Las expresiones de Pj y Pm resultan ser el centro del interés del modelo. En el mismo los β resultan ser parámetros relativos respecto de la categoría base por lo que no pueden ser analizados en forma individual.

Ello implicaría una nueva especificación de la probabilidad de que el individuo i escoja la alternativa j de la forma: Pij = 1+ G β ' X ij + α 'j Yi ( ) ' j Yi ∑ G( β ' X m −1 j =1 ij +α ) 28 Es posible notar. Por su lado. sería posible considerar un modelo combinado que incorpore tanto la valoración de las características de las alternativas como aquéllas de los individuos que conforman la muestra. pero para la que se tienen las valoraciones de cada individuo i Xij. 5 9 .depende exclusivamente de características del individuo i se puede reescribir el Pj de (25). En el segundo modelo se estiman tantos parámetros como características se hayan considerado para cada alternativa. la especificación de cada modelo responde a un objetivo específico. de forma que: Pij = 1+ G β j' X i ( ) Xi ∑ G( β j =1 m −1 j' ) 26 donde. si es que se considera la normalización de uno de los parámetros a estimar (βo=0). mientras que los β son invariables a ambos factores.5 Finalmente. que en el primer modelo el número de parámetros a estimar es igual al número de variables explicativas del individuo por m-1. el primer modelo definido por (26) se utiliza para predecir la probabilidad que un individuo fuera de la muestra escoja una de las m alternativas analizadas. Como se observa. dadas sus características específicas. ello gracias a que se cuenta con los precios implícitos o ponderaciones de las características de las m alternativas con las que se realizó la estimación. el modelo que define (27) permite predecir la probabilidad de escoger una alternativa no considerada entre las m estimadas. No obstante. las variables explicativas dependen del individuo i. Este es el conocido modelo condicional de McFadden (1973) en donde la probabilidad de que el individuo i escoja la alternativa j está dada por: Pij = 1+ G β ' X ij m −1 j =1 ( ) ij ∑ G( β ' X ) 27 en esta especificación los β representan los "precios implícitos" de las diferentes características de las alternativas a escoger (o pesos específicos) mientras que Xij es la valoración que el individuo i tiene respecto de cada característica de la alternativa j. como se observa. además. es posible tener una especificación alternativa en donde las explicativas dependen del individuo y de la alternativa. Así.

1. Si tomamos este último ejemplo podríamos definir la variable Yi como: Yi = Institución de salud donde se obtiene el servicio = 4 Clínicas particulares = 3 Hospitales públicos = 2 Centros y postas = 1 Otros proveedores Este ordenamiento supone que son las instituciones a las que se les coloca un mayor valor de la variable Y las de mejor servicio.2. el que se encuentra relacionado con un conjunto de variables explicativas vinculadas con el individuo y las alternativas j. A partir de estas definiciones se pueden especificar las probabilidades asociadas a estar en una determinada categoría. de categorías de instituciones prestadoras de salud. De esta forma se requerirán tener tanto puntos de corte como categorías haya.2. tal como: Ii * = β ' X i + εi 29 Asimismo se establecen puntos de corte (α's) entre los cuales se mueve el I*. si I*<α1. si I* está entre α1 y α2 escoge la categoría 2. entre otras variables. mientras que Yi indica las características particulares del individuo i. menos uno. es decir: Pr ( Yi = 1) = Pr ( I i * < α ) = Pr ( β ' X i + ε i < α 1 ) = Pr ( ε i < α 1− β ' X i ) = F ( α 1− β ' X i ) 1 2 Pr ( Yi = 2) = Pr ( I i * < α ) − Pr ( I i * < α 1 ) = F ( α 2 − β ' X i ) − F (α 1− β ' X i ) = F ( α 3 − β ' X i ) − F (α 2 − β ' X i ) 3 2 30 Pr ( Yi = 3) = Pr ( I i * < α 3 ) − Pr ( I i * < α ) Pr ( Yi = 4) = Pr ( I i * > α ) = Pr ( ε i > α 3 − β ' X i ) = 1 − F (α 3 − β ' X i ) 10 . Ese sería el caso de un ranking de prioridades de inversión. de rangos de ingresos. si está entre α2 y α3 escoge la 3.donde Xij representa las valoraciones del individuo i respecto de las características de la alternativa j. El modelo se basa en la definición de un índice de performance I*. Variables dependientes ordenadas Las variables multinomiales ordenadas son aquéllas que indican diversas alternativas que guardan entre sí un ordenamiento específico. el individuo escoge la categoría 1. y si es mayor que α3 elige la categoría 4. Así.

por ejemplo. Veamos un par de ejemplos que pueden ser ilustrativos. La estimación de los determinantes del nivel de educación del jefe de hogar se puede llevar a cabo a través de modelos binomiales secuenciales. su signo indicará la dirección de la relación con la probabilidad de estar en la categoría más alta. si la persona se encuentra en el nivel 3 definitivamente no puede situarse en las dos categorías anteriores. la que se especifica de la siguiente forma: Yi = Educación del JH = 1 si no terminó la educación primaria = 2 si no terminó la educación secundaria pero sí la primaria = 3 si no terminó la educación superior pero sí la secundaria = 4 si terminó la educación superior Así.3.A fin de que todas las probabilidades sean positivas debe ser cierto que α1<α2<α3. Esta secuencialidad debe ser incorporada en la especificación de la probabilidad de elegir una categoría determinada. se puede dividir esta submuestra en aquéllos que sí terminaron secundaria y los que no. ello haría posible estimar un segundo modelo binomial de donde se obtendría el vector β2.2. los β no tienen un significado individual sino dentro del argumento de la función de densidad. 1. aún cuando previamente ha debido pasar por ellas para alcanzar la 3. Estos puntos de corte son estimados por el modelo junto con los β y hacen posible obtener las probabilidades estimadas de estar en cada categoría. por lo que la definición de la probabilidad asociada con dicha categoría debe incorporar esta consideración. El proceso seguiría y es brevemente resumido en el siguiente cuadro. las categorías intermedias tendrán efectos impacto que no se pueden definir a priori. tomando sólo aquéllos que terminaron la primaria. Partiendo la muestra en dos. Supongamos que la variable bajo estudio es la educación del jefe de hogar de las familias peruanas. no obstante. los que terminaron primaria y los que no. Luego. β3  No terminó Sí terminó primaria primaria Y=1 Y=0 Terminó No terminó superior superior Y=0 Y=1 Si terminó No Y=1  β1 11 secundaria Y=0 terminó secundaria  β2 . Como en el caso binomial. y la inversa de la misma en el caso de la categoría más baja. Variables dependientes secuenciales Estas variables son un tipo especial de ordenada en la que una categoría no puede ser elegida sin haber pasado por un proceso previo de elección de otra(s) de ella(s). se estima un primer modelo binomial obteniendo el vector β1 de parámetros.

A partir de estas estimaciones se pueden obtener las probabilidades de estar en una categoría determinada (ver Amemiya 1983). finalmente.Yi≠ 2)=Pr(Yi=3/Yi≠ 2) x Pr(Yi≠ 2) 12 . el vector β1 se obtendrá del modelo binomial que divide la muestra entre quienes adquieren un auto nuevo y los que no lo hacen. el β2 del modelo que. planteando las decisiones de compra de la siguiente manera: Cambiar el actual Sí Comprar uno por primera vez Adquirir un automóvil Vender el actual No Mantenerse en la situación actual Si definimos las siguientes probabilidades: P1= probabilidad de cambiar el auto actual P2= probabilidad de comprar uno por primera vez P3= probabilidad de vender el auto actual P4= probabilidad de no hacer ninguna transacción Entonces podemos definir estas probabilidades como: Pr ( Yi = 1) = F ( β 1 ' X i ) F ( β 2 ' X i ) Pr ( Yi = 2 ) = F ( β 1 ' X i ) [1 − F ( β 2 ' X i ) ] Pr ( Yi = 3) = F ( β 3 ' X i ) [1 − F ( β 1 ' X i ) ] Pr ( Yi = 4 ) = [1 − F ( β 1 ' X i ) ][1 − F ( β 3 ' X i ) ] 32 Así. dentro de la muestra de quienes compran un auto nuevo. 6 Es decir. diferencia entre los que venden carros y los que no realizan ninguna transacción. entre quienes no adquieren un carro. En el mismo se quieren analizar los determinantes de la adquisición de un automóvil. Pr(Yi=3. diferencia entre quienes reemplazan el que tienen y los que compran uno por primera vez. el β3 se obtiene del modelo que. Así por ejemplo la probabilidad de estar en la categoría 3 es igual a la probabilidad conjunta de no haber terminado la educación superior pero sí la secundaria6. La definición de las probabilidades de todas las categorías analizadas se muestra a continuación: Pr ( Yi = 1) = F ( β 1 ' X i ) [ ] Pr ( Yi = 3) = F ( β 3 ' X i ) [ 1 − F ( β 1 ' X i ) ] [ 1 − F ( β 2 ' X i ) ] Pr ( Yi = 4) = [ 1 − F ( β 1 ' X i ) ] [ 1 − F ( β 2 ' X i ) ] [ 1 − F ( β 3 ' X i ) ] Pr ( Yi = 2) = F ( β 2 ' X i ) 1 − F ( β 1 ' X i ) 31 Una especificación alternativa se observa en el siguiente modelo para la demanda de automóviles trabajado por Cragg y Uhler (1970).

Nótese que la propuesta de estimación simultánea planteada en los dos modelos antes presentados sólo es válida en la medida que los factores aleatorios que afectan las diferentes etapas de decisión sean independientes entre sí (independencia de los errores de las ecuaciones que se estiman sucesivamente). 13 .