Está en la página 1de 26

Notas sobre modelos de variable dependiente limitada

Graciela Sanroman
Serafn Frache
Ctedra de Econometra
FCEA-UDELAR.
Mayo, 2005

Introduccin

Los modelos de variable dependiente limitada (VDL) incluyen un conjunto de modelos en


los cuales el comportamiento de la variable dependiente difiere del esperado en el modelo
de regresin lineal clasico. Dentro de los modelos VDL encontramos los modelos de
eleccin discreta (tambin denominados de variable cualitativa) y los modelos de variable
truncada o censurada.

Modelos de eleccin discreta

En los modelos de eleccin discreta la variable a ser explicada, y, es una variable aleatoria
que slo puede adoptar un nmero finito y generalmente reducido de valores. Uno de los
casos de mayor inters es el caso en el cual y slo puede adoptar dos valores, por ejemplo
cero o uno.
Este tipo de variables es poco usual cuando se trabaja con datos agregados (por ejemplo, el PBI, el consumo, la inversin, el empleo) pero es muy comn cuando se consideran
micro datos. Por ejemplo, y, podra ser una variable que indicara si una persona participa
en el mercado laboral, o si est ocupado, o si hay nios en un hogar, tambin podra indicar
si una empresa realiz inversiones en maquinaria en un perodo determinado. Es posible
enmumerar muchos otros casos que ilustran decisiones econmicas de los individuos que
refieren a la eleccin entre un conjunto finito de alternativas.
En el caso binario es usual suponer que los valores que puede adoptar la variable y
son 0 o 1, y se denomina xito al caso en el cual y = 1. Estos valores son completamente arbitarios aunque facilitan el anlisis del problema. En estos modelos estaremos
interesados en estimar la probabilidad de que y adopte un valor determinado.
1

Es fcil corroborar que:

y =0 1p
Pr(y) =
y=1
p

(1)

E(y) = Pr(y = 1) = p
V (y) = E(y E(y))2 = p(1 p)
Pero lo que interesar es el anlisis condicional, o sea el anlisis de y | x, con x =

x1 , x2 , ......xk 0 :
E(y | x) = Pr(y = 1 | x) = p(x)
V (y | x) = p(x) [1 p(x)] = 2 (x)

(2)
(3)

Entonces, podemos tambin ver este problema como uno en el que queremos un modelo
para la media condicional E(y | x) = p(x) sabiendo que se trata de un problema intrnsecamente heterocedstico.

En los modelos de eleccin binaria, de forma anloga que en el caso del modelo de
regresin lineal, el inters de la estimacin puede estar en:
a) Estudiar qu variables del vector x son relevantes para determinar la probabilidad de
que y sea igual a uno (cero).
b) Estimar los efectos parciales (analizar cmo vara esa probabilidad ante cambios de
una variable, por ejemplo, xj ).
c) Predecir y.para distintos valores de x.
Pero para ello es necesario estimar p(x). Supongamos que

yi , xi i=1,...,N es una muestra aleatoria, para realizar una estimacin paramtrica es


necesario elegir una forma funcional para p(xi )

Estudiaremos dos alternativas bsicas:


(i) El modelo de probabilidad lineal (MPL) que supone linealidad es decir que p(xi ) se
puede representar como x0i .
(ii) Los modelos ndice (o indicador) que incluyen
2

El modelo probit, en el cual, p(xi ) = (x0i ) siendo (.) la funcin de distribucin


de una v.a. N (0, 1).

El modelo logit, en el cual, p(xi ) = (x0i ) siendo (.) la funcin de distribucin


de una v.a. logstica estndar.

Notar que x es un vector de dimensin k que puede incluir variables transformadas


(tales como el logaritmo, el cuadrado o el cubo) o interacciones entre variables.

El modelo de probabilidad lineal para variables de


eleccin binaria

El modelo de probabilidad lineal para variables dependientes binarias puede especificarse


como,
Pr(yi = 1 | xi ) = x0i = 0 + x1i 1 + x2i 2 + .. + xki k
En este modelo el efecto parcial Pr(yi = 1 | xi )/xj = j , es decir j es el cambio en
la probabilidad de xito dado un aumento infinitesimal en la variable continua xj dejando
constante el otro conjunto de variables; si xj no es continua y, en cambio, es una variable
binaria j es simplemente la diferencia en la probabilidad de xito cuando xj = 1 y xj =
0.1
Para estimar este modelo apropiadamente es importante recordar que el mismo es
intrnsecamente heterocedstico. Por lo tanto, en ausencia de otros problemas de especificacin, la estimacin MCO ser consistente pero ineficiente. Podremos alternativamente
estimar por MCO y calcular los errores estndar robustos a heterocedasticidad a travs
de la frmula de White.
Pero alternativamente, dado que en este modelo la forma de la varianza del estimador
es conocida, los estimadores MCG sern asintticamente ms eficientes. Para estimar
utilizando MCG un procedimiento sencillo es realizar un proceso en dos etapas. En el
b
primero se obtienen estimaciones consistentes
M CO utilizando la regresin MCO, a
partir de ellos se realiza la prediccin ybi . Seguidamente, y siempre que se cumpla que
1

Esto se cumple para xj siempre que la misma no aparezca funcionalmente relacionada con ninguna otra
variable del vector x. Aunque es sencilla la generalizacin al caso en el cual esto no se cumple, por ejemplo,
al caso en el cual el cuadrado de la variable est tambin incluido o si se incluyen productos cruzados.

0 < ybi < 1 i = 1..N, se calcula


b2i = ybi (1 ybi ). Finalmente, en una segunda etapa, se
b
obtienen los estimadores
M CG aplicando la regresin MCO a
yi /b
i , 1i /b
i , x1i /b
i , ....xki /b
i i = 1..N.

3.1

Limitaciones y ventajas del MPL

Limitaciones del Modelo de Probabilidad Lineal:


(i) Predicciones ybi no necesariamente pertenecen al intervalo [0, 1]
(ii) Efectos parciales constantes P (yi = 1 | xi )/xk = k xi .
Ventajas del Modelo de Probabilidad Lineal:
(i) Es lineal, por lo cual las propiedades de los estimadores son ampliamente conocidas
(ii) Ofrece buenas estimaciones de los efectos parciales para valores de xi cercanos a
su media (en ausencias de otros problemas de especificacin)
(iii) Problemas tales como errores de medida en las variables explicativas, presencia de
heterogeneidad inobservable u otras fuentes de endogeneidad son ms facilmente
tratadas.

Modelos Indice: Probit y Logit


P yi = 1 | xi = p xi = pi
= G(x0i ) = G(r)

donde

xi = 1, x2i , ...., xKi es un vector K 1 de caractersticas del individuo i

= 1 , 2 , ...., K es un vector K 1 de parmetros desconocidos


= + x .... + x
denominamos a r = x0i
1
2 2i
K Ki funcin Indice
G(.) es una funcin que proyecta ese ndice en la probabilidad condicional.
Queremos 0 < G(.) < 1, entonces una fdp es una opcin razonable. Las ms usadas

G(r) = (r)

Z r
1
1 2
exp r
=
2
2

(Modelo Probit)

(Modelo Logit)

G(r) = (r)
exp(r)
=
1 + exp(r)

Las prediciones de estos modelos sern predicciones de la probabilidad condicional y


b
asumirn la forma pbi = G(r) = G(x0i ).

Estimacin de los modelos Probit y Logit

Cuando utilizamos este tipo de modelos nos enfrentamos a una estimacin en la cual a
forma de la funcin de verosimilitud es conocida.
La contribucin de cada individuo a la verosimilitud ser

y
pi i 1 pi 1yi

entonces, la funcin de verosimiltud de una muestra aleatoria yi , xi , i = 1, ...N ser


N
Y

y
L() =
pi i 1 pi 1yi
i=1

(4)

de donde la log-verosimilitud
L() =

N
X

(5)

li ()

i=1

donde li () = yi log(pi ) + 1 yi log 1 pi y pi = G(x0i ).2


Entonces, los estimadores mximo verosmiles (MV) de 3 sern

b
b

M V = = arg max
b

N
X

li (b).

(6)

i=1

Notar que si el parmetro de inters es p (esPdecir la probabilidad incondicional P[y1 = 1]), entonces la
solucin al problema de verosimilitud ser pb = N1 i yi = NN1 , donde N1 es la cantidad de xitos en la muestra.
3
Es importante destacar que los parmetros pueden ser identificados up to scale es decir no es posible
identificar separadamente los coeficientes y la varianza del trmino de perturbacin .

Las CPO del problema estarn dadas por:


N
b
X
li ()
= 0.
b
i=1

(7)

g(x0i b)xi [yi pi ]


G(r)
li (b)
g(x0i b)xi [yi G(x0i b)]
=
. Es importante
,
entonces
=
0
0
r
b
G(xi b)[1G(xi b)]
pi (1pi )
notar que esta ltima expresin evaluada en el verdadero valor de corresponde con el
tanteo (o score) de la log-verosimilitud condicional de la observacin i-sima.4

Sea g(r) =

De forma similar, el valor esperado del hessiano condicional en xi (que corresponde a


2 li ()/bb0 ) resulta:
h
i
0 ) 2
g(x

i
h
i xi x0i
E Hi () | xi =
(8)
0
0
G(xi ) 1 G(xi )
y por lo tanto

Notar que

1
i
h

b 2
N
X


g(x0i )
0
b
b
h
i
Avar =
xi xi

b 1 G(x0 )
b
i=1 G(x0 )

i
i
1

2
N

X
g
b
i
xi x0i
=

pb 1 pbi
i=1 i
b
= V
g(x0i ) = (x0i )

1
1 h 0 i2
= exp xi
2
2

h
i
0
0
0
g(xi ) = (xi ) 1 (xi )
exp(x0i )
= h
i2
0
1 + exp(xi )

(9)

(Modelo Probit)

(Modelo Logit)

Notar que en general no existe una solucin cerrada para [7] debido a que no es un problema lineal en
los parmetros. Una ventaja de este problema es que es globalmente cncavo. Para obtener una solucin es
necesario utilizar algoritmos del tipo Newton-Ramphson o BHHH. No obstante, actualmente la casi totalidad
de los paquetes estadsticos incluyen rutinas para estimar los modelos probit y logit por mxima verosimiltud,
por lo cual para estimarlos no es necesario conocer el detalle del procedimiento de optimizacin.

5.1

Contrastes de hiptesis en los modelos Probit y Logit

b tendr una distribucin asinttica normal con media . El error estndar (asinEl vector
b
b estar dado por la raz cuadrada del jsimo elemento de la diagonal de V
ttico) de
j
en [9]. Por lo tanto es posible calcular los estadsticos t y construir intervalos de confianza
a la manera usual para realizar contrastes respecto a los parmetros j .

Para realizar contrastes mltiples, se pueden utilizar tantos los test de Wald, de RV o
LM, los tres son asintticamente equivalentes. Por ejemplo, considere el modelo

P yi = 1 | xi , zi = G(x0i + z0i )

donde xi , zi son vectores de dimensin K1 y K2 respectivamente. Queremos realizar el


contraste de exclusin H0 : = 0.
El estadstico de Wald se obtiene estimando el modelo sin restricciones y calculando

0 h
i

b R0 1 Rb
r
W = Rb
r
RV

donde

(K + K ) 1 es el vector de parmetros
=
1
2

R=
R1 K2 K1 es una matriz de ceros y R2 K2 K2 es la matriz
R1 R2
identidad
r es un vector K2 1 de ceros
b (K + K ) (K + K ) es la matriz de varianzas y covarianzas de b
V
estimada.
1
2
1
2
Bajo la hiptesis nula el estadstico W se distribuye asintticamente como una 2K .
2

El estadstico del contraste de la Razn de Verosimilitudes est dado por

donde

RV =2 LN R LR

LN R es la log-verosimilitud resultante en la estimacin del modelo no restringido.


LR es la log-verosimilitud resultante en la estimacin del modelo restringido.
Bajo la hiptesis nula el estadstico RV se distribuye asintticamente como una 2K .
2
El estadstico del contraste de los Multiplicadores de Lagrange es equivalente a
LM = NR2
donde
7

N es el tamao muestral
R2 es el coeficiente de determinacin en una regresin MCO de u
bi sobre xi y zi
pi ; x = p b
gi
gi
siendo u
bi = p yi b
xi y zi = p b
z.
i
pbi (1b
pi )
pbi (1b
pi )
pbi (1b
pi ) i
Bajo la hiptesis nula el estadstico LM se distribuye asintticamente como una 2K .
2

5.2

Medidas de bondad de ajuste

Existen distintos estadsitcos que ofrecen medidas de bondad de ajuste de los modelos
probit y logit.
Las medidad de bondad de ajuste ms usuales son:
1. Proporcin de predicciones correctas.
Sea vc un valor de corte, se define

0 si yb < vc
i
ybi =
1 si yb > vc
i

Habitualmente vc es establecido igual a 0.50, o tambin se establece en la frecuencia


muestral de unos.
Una medida del ajuste del modelo podra ser la proporcin total de aciertos, no obstante, sta ser en general una mala medida. Para comprobarlo, basta observar
el siguiente ejemplo: en los modelos de morosidad bancaria es razonable suponer
que la proporcin de no morosos es mayor al 90%, entonces, ser difcil encontrar
un modelo estadstico que obtenga una mayor proporcin de predicciones correctas
que un modelo que simplemente establece ybi = 1 i. Esto es debido a que muchas
veces es ms sencillo predecir los unos que los ceros (o viceversa). Entonces, deberamos tener en cuenta separadamente la proporcin de unos (ceros) predichos
correctamente, o sea,

yi
0

ybi

N00
N10

N01
N11

A partir de estos estadsticos, se pueden obtener medidas sintticas, tales como el


00
porcentaje de ceros acertados dado por d
pr0 = N N+N
, el porcentaje de unos ac00
10
8

00
ertados d
pr1 = N N+N
y a partir de ellos podemos calcular combinaciones lineales
00
10
d o el min(d
convexas de d
pr1 y pr0,
pr1, d
pr0).

2. Pseudo-R2 de McFadden. Se basa en comparar la log-verosimilitud resultante en


h i
b
la estimacin con las K variables explicativas L
y compararlo con la logverosimilitud de un modelo que incluye slo una constante (L0 ).

Pseudo-R2 = 1


b
L
L0

(10)

Notar que ste estadstico est relacionado con el estadstico RV pero no es igual,

b L .
ya que RV = 2 L
0

3. Suma de los cuadrados de los residuos. Se define como

N
X
X
X

yi pbi 2 =
pb2i +
1 pbi 2 .
i:yi =1
i=1
i:yi =0

(11)

Este estadstico penaliza los errores segn su distancia respecto a 0 o 1; esta medida no ser de ninguna utilidad dado que estamos frente a un modelo heterocedstico. Es posible definir la suma de los cuadrados de los residuos ponderada

N y pb 2
X
X 1 pb
X
pbi
i
i =
i

+
.
pbi
pbi 1 pbi
1 pbi
i:yi =0
i:yi =1
i=1

(12)

que corrige el problema de heterocedasticidad.

4. Criiterio de informacin de Akaike



b +K
AIC = L

donde K es la dimensin del vector .

Este estadstico particularmente til para contrastar modelos no anidados. Como es


habitual el criterio es elegir el modelo que minimice el estadtico AIC.
5. Test de Efran
2
N
X
y

p
b
i
i
R2 Efran = 1

2
y

y
i=1 i
9

2
i yi
N es la frecuencia muestral de unos. R Efran no est acotado al
intervalo unitario, y no es claro que es lo que permite medir, ya que no se relaciona
donde y =

directamente con la varianza explicada por el modelo.


Es importante destacar que ninguno de los estadsticos antes definidos tiene una distribucin asinttica conocida. Recordar que, no obstante, es posible realizar contrastes
estadsticos sobre la significacin conjunta de todos (o varios) de los coeficientes de un
modelo mediante los contrastes de Wald, RV y LM, tal como se explic en la sub-seccin
anterior.

5.3

Efectos parciales en los modelos Probit y Logit

Una diferencia importante de los modelos Probit y Logit con respecto al Modelo de Probabilidad Lineal es que, en los primeros, los efectos parciales dependern del valor de xi .
5.3.1 Efectos parciales cuando la variable x es continua
Si xj es una variable continua, entonces es posible definir el efecto parcial como,

P yi = 1 | xi
xj

P yi = 1 | 1, x1i , ...xji .xKi


=
xj
= j g(x0i )

El efecto parcial ser diferente para los diferentes individuos. Es necesario decidir en que
valores es evaluan, las dos alternativas ms obvias:
"

#
N
P
1
a) Obtener la media muestral del efecto parcial j N
g(x0i ) .
i=1

b) Evaluarlo para x (el valor de la media muestral de xi ), o sea, el el efecto parcial


h
i
N

1 P x .
0
es j g(x ) = j g( 1 + 2 x2 + .. K xK ) donde xj = N
ji
i=1
Es importante tener en cuenta que el efecto parcial de j es una funcin del vector ,

por lo cual, para calcular los errores estndar y construir intervalos de confianza para los
efectos parciales se utilizar el mtodo delta.

10

5.3.2 Efectos parciales cuando la variable x es binaria


Suponga que xK es una variable binaria, o sea, adopta slo dos posibles valores, por
ejemplo 0 y 1, el efecto parcial de xK estar definido por la diferencia,
G( 1 + 2 x2i .... + K1 xk1i + K )
G( 1 + 2 x2i .... + K1 xk1i )
En este caso tambin es necesario definir donde evaluar el efecto parcial y se aplica lo
anterior, o sea, dos alternativas son obtener la media muestral de esta expresin o evaluar
esta expresin para el promedio de las x que no son xK .
5.3.3 Efectos parciales cuando la variable x es discreta
Suponga que xK es una variable discreta ordinal, que adopta valores en el conjunto de los
nmero enteros, por ejemplo xKi mide los aos de educacin completos de un individuo,
el efecto parcial de xK estar definido por la diferencia,
h
i
G 1 + 2 x2i .... + K1 xk1i + K (xKi + 1)
h
i
G 1 + 2 x2i .... + K1 xk1i + K xKi
Para evaluar este efecto parcial se aplican las alternativas de obtener la media muestral
de esta expresin o de evaluar esta expresin para el promedio de las x.5

Probit y Logit como modelos de variable latente

Modelos de utilidad estocstica (RUM).


Supongamos que un individuo enfrenta un problema de decisin binaria del tipo participar o no participar, invertir o no invertir, etc.. Especificamente supongamos que estoy
estudiando la decisin de enviar un nio a una guardera.
Definamos w0 como la utilidad que obtiene la madre si no lo enva y w1 si lo enva.
w0 = v0 + 0
w1 = v1 + 1
5

Formas funcionales de las funciones G(.) y g() para los modelos Probit y Logit son las previamente
definidas.

11

donde vj es un componente determinstico


y j es un componente aleatorio, notar que la decisin depender del signo
de w1 w0 , al cual puedo expresarlo como,
w1 w0 = (v1 v0 ) + (1 0 )
w = v +
yi = 1(w > 0)
= 1(v > )
Si supongo que se distribuye N(0,1) entonces el modelo probit adems de ser un modelo
estadstico tiene una interpretacin estructural,
Pr(yi = 1) = Pr (wi > 0)
= Pr(vi < )
= 1 (vi )
= (vi )
Similarmente si supongo que se distribuye logistica, tengo
Pr(yi = 1) = Pr (wi > 0)
= Pr(vi < )
= 1 (vi )
= (vi )
Pero estamos considerando modelos microeconometricos, en los cuales lo que ms
interesa es analizar el comportamiento condicional, es decir, el objetivo del modelo es
tener en cuenta v distintas para los individuos,
En un modelo condicional no puedo observar separadamente v0 o v1 , pero supongo
que la diferencia entre ambas depende de caractersticas observables del individuo,

vi = xi
yi

xi = 1(wi > 0)
0

= 1(xi > )
12

Para estimar este modelo podra suponer se distribuye como una variable normal,

0
Pr yi | xi = (xi )

pero tambin podra suponer que es una v.a. logit

0
Pr yi | xi = (xi )

Modelos multinomiales

Los modelos multinomiales son aquellos en los cuales el conjunto de eleccin es discreto
pero hay ms de dos alternativas. Consideramos el caso en el cual no existe un orden
jerrquico entre las alternativas; por ejemplo el medio de transporte,

bus

1
yi =
2
taxi

3 auto particular

Aqu los nmeros no tienen ningun sentido, como tengo ms de dos alternativas no

puedo hablar de xito o fracaso. Consideremos un caso en el cual existen M + 1 alternativas.6 Defino un conjunto de M + 1 variables binarias que cubriran el conjunto de
alternativas disponibles.

Notar que

M
P

j=0

1
yi = j
dji =
j = 0, ....M
0 en caso contrario
dji = 1. Similarmente
pji = Pr(yi = j | xi )
= Pr(dji = 1 | xi )

La cantidad de alternativas podra variar entre individuos. No obstante en esta exposicin supondremos
que todos los individuos enfrentan el mismo conjunto de alternativas.

13

La verosimilitud del modelo estar dada por


N Y
M
Y
d
pjiji
i=1 j=0
N
X
L() =
li ()
i=1
M
X
li () =
dji ln(pji )
j=0

L() =

7.1

Logit multinomial

El logit multinomial supone que


exp(x0i j )
pji = Pr(dji = 1 | xi ) = P
M exp(x0 )
j=0
i j

este modelo se estandariza sin perder generalidad asumiendo que una alternativa base
a la que denominamos como alternativa 0 cumple con 0 = 0, o sea,
p0i = Pr(d0i = 1 | xi ) =

1
.
PM
1 + j=1 exp(x0i j )

Notar que tengo J M parmetros a estimar. Quedando as perfectamente definido el


problema de mxima verosimilitud. McFadden (1974) demostr que la log-verosimilitud de

este problema es globalmente cncava por lo cual el estimador mximo verosmil es muy
atractivo.
El modelo logit multinomial puede asociarse a modelos de utilidad estocstica. Supongamos que la utilidad que le brinda al individuo la alternativa j est dada por
uji = vji + ji j = 0, 1, ...M
y que vji depende de caractersticas del individuo vji = xi j
h
i
pji = Pr uji = max(u1i , u2i , ......, uMi )
McFadden prob que el modelo Logit multinomial puede derivarse de un modelo de utilidad estocstica si los ji son variables aleatorias independientes cuya distribucin es la

14

distribucin de valor extremo de tipo 1, la funcin de distribucin de probabilidad acumu


n
o
n
o
lada es F ji = exp exp ji
y densidad exp ji exp ji . Lo importante es
que si eso se cumple

F ji ki se distribuye logistica
Obtener e interpretar los efectos parciales de este modelo es difcil, el efecto parcial
cuando xk es una funcin continua est dado por

X
Pr(y = j | x)
0
0

= Pr(y = j | x) jk
hk exp x h m x

xk
h=1

P
0 .
donde hk es el elemento k-esimo de h y m x0 = 1 + M
exp
x
h
h=1
Las predicciones del modelo pueden obtenerse asignando la opcin que obtenga la
mayor probabilidad. A partir de ello es posible obtener indicadores de porcentaje de
predicciones correctas.
Generalmente cuando estimamos estos modelos nos concentramos en los denominap
p
dos odd-ratio pji = exp(x0i j ) y el log-odd ratio ln( pji ) = x0i j cuando comparamos una
0i
0i
h
i
pji
alternativa j respecto a la alternativa base, y pki = exp x0i j k y el log-odd ratio

pji
0
ln( p ) = xi j k cuando comparamos la alternativa j respecto a otra alternativa k.
0i
Es importante notar que otra propiedad de este modelo es que cuando estimamos la
probabilidad de que y = j condicional a que la variable y asume el valor j o k obtenemos
un problema de tipo binario,

Pr dji = 1 | x; dji + dki = 1

pji
pji + pki

exp(x0i j )
=
exp(x0i j ) + exp(x0i k )
1

=
0
1 + exp(xi k j )

Se observa que cuando comparamos la probabilidad de una alternativa en relacin a otra


slo interesan los coeficientes de las alternativas bajo anlisis. Esto se da as debido al
supuesto de independencia de las variables aleatorias . Esta caracterstica se denomina
propiedad de independencia de las alternativas irrelevantes (IAI). Este es un defecto del
modelo. El ejemplo con el que generalmente se ilustra el problema es el de medios de
15

transporte. Supongamos que inicialmente tenemos dos alternativas: 2/3 de la poblacin


utiliza auto propio mientras que 1/3 usa un bus rojo. el ratio de probabilidades es igual
2/3
= 2 Consideremos que se modifica el conjunto de alternativas y se incorpora un
a
1/3
bus verde, sera razonable suponer que ahora: auto propio 2/3, bus rojo 1/6, bus verde
2/3
1/6, ahora el odd ratio=
= 4. No obstante el multinomial logit dira que sigue siendo 2.
1/6
Aqu el problema es sencillo de solucionar porque es claro la sustituibilidad de bus verde
frente a bus rojo, no obstante en otros problemas el dilema no es sencillo. Entonces, lo
que estamos necesitando es un modelo que permita que las estn correlacionadas de
forma de incorporar los distintos grados de sustituibilidad entre las alternativas.

7.2

Probit Multinomial

Supongamos que uji con j = 1, 2, ...M es la utilidad estocstica asociada a la alternativa


j. Definamos el vector ui = (u1i , u2i , ......, uM i )0 . Suponemos

Nuevamente

Ejemplo M = 3

ui NM xi j ,
h
i
pji = Pr uji = max(u1i , u2i , ......, uMi )
0

u1i = xi 1 + 1i
0

u2i = xi 2 + 2i
0

u3i = xi 3 + 3i
i NM (0, )

21 12 13

=
22 23

2
3

Pr d1i = 1 = Pr u1i > u2i , u1i > u3i


h 0
i
0
0
0
= Pr xi 1 + 1i > xi 2 + 2i , xi 1 + 1i > xi 3 + 3i
h
i
0
0
= Pr 2i 1i > xi ( 1 2 ) , 3i 1i > xi ( 1 3 )
16

como i N(0, ) entonces

1i
N(0, )
i = 2i
3i 1i

2
2
2
+ 2 2 12 1 12 13 + 23

= 1
21 + 23 2 13
Z x0 ( ) Z x0 ( )

1
2
1
3
i
i
Pr(d1i = 1) =
f 2i 1i , 3i 1i d 2i 1i d 3i 1i

para calcular la integral mltiple tengo que proceder por clculo nmerico, y el problema se transforma en irresoluble para ms de 3 alternativas. Como alternativa se pueden
utilizar mtodos de estimacin por simulacin.
Algunas veces cuando se piensa que las opciones tienen un orden natural, por ejemplo,
no trabajar, trabajar parcial, trabajar full time se utilizan los modelos denominados logit
ordenados o probit ordenados.

Modelos de respuesta ordenada: Logit ordenado y


probit ordenado

Otro tipo de modelos multinomiales son los modelos ordenados. Como el nombre lo sugiere si y es una variable ordenada entonces los valores que asignamos a cada alternativa
ya no son totalmente arbitrarios. Por ejemplo y podra ser un rating de credito de 0 a 5
con y = 5 representando el mayor rating y y = 0 el rating menor. El hecho de que 6 es
mejor que 5 es informacin til; no obstante, la diferencia entre 6 y 5 no tiene un sentido
de magnitud los valores tienen un sentido ordinal.
Sea y una variable de respuesta ordenada que asume valores {0, 1, 2, ....J} para un

J entero conocido. El modelo probit ordenado para y (condicional en los regresores x)


puede ser derivado desde un modelo de variable latente. Suponga que la variable latente
y se define como
y = x0 + e

con e | x Normal(0, 1)
17

donde es un vector k 1 y x no incluye constante. Sea 1 < 2 ... < J valores de corte
conocidos (parametros umbral) definamos
y = 0 si y < 1
y = 1 si 1 < y < 2
.
.
y = J si y > J
Dado el supuesto de normalidad de la variable e se sigue directamente que
Pr(y = 0 | x) = Pr( y < 1 | x) = Pr(x0 + e < 1 | x) = (1 x0 )
Pr(y = 1 | x) = Pr( 1 < y < 2 | x) = Pr(1 < x0 + e < 2 | x) = (2 x0 )
(1 x0 )
.
.
Pr(y = J 1 | x) = Pr( J1 < y < J | x) = Pr(J1 < x0 + e < J | x) =
(J x0 ) (J1 x0 )
Pr(y = J | x) = Pr( y > J | x) = Pr(x0 + e > J | x) = 1 (J x0 )
El vector de parmetros y pueden estimarse por Mxima Verosimilitud. La con-

tribucin de cada individuo i esta dada por

li (, ) = 1 yi = 0 log (1 x0 )
h
i

0
0
+1 yi = 1 log (2 x ) (1 x )
...

h
i

+1 yi = J log 1 (J x0 )

Otras funciones de distribucin en lugar de la normal pueden ser utilizadas. Por ejemplo la funcin logistica da lugar a los conocidos como modelos logit ordenados. En
cualquier caso debemos recordar que el interes de estos modelos no est en per-se.

En la mayora de los casos no estamos interesados en E y | x = x0 en la medida


en que y es una construccin muy abstracta. Entonces, en general el inters estar en
las probabilidades condicionales Pr(y = j | x) . Los efectos cuando el regresor es una

18

variable continua estn dados por,


Pr(y = 0 | x)
= k (1 x0 )
xk
Pr(y = J | x)
= k (J x0 )
xk
h
i
Pr(y = j | x)
= k (j1 x0 ) (j x0 ) 0 < j < J
xk
Notar que mientras el signo del efecto de xk sobre Pr(y = 0 | x) y Pr(y = J | x) est
totalmente determinado por el signo de pero no as para el efecto sobre (y = j | x)
para 0 < j < J el cual depende tambin de (j1 x0 ) (j x0 ).Similarmente se
obtienen los efectos en el modelo logit ordenado.
Como en los modelos multinomiales las predicciones del modelo pueden obtenerse
asignando la opcin que obtenga la mayor probabilidad. A partir de ello es posible obtener
indicadores de porcentaje de predicciones correctas.

Modelos de variable truncada y censurada

Cuando analizo microdatos tambin tendr casos en los cuales la variable dependiente
tiene un comportamiento en parte cualitativo, en parte cuantitativo, por ejemplo: las horas trabajadas, la cantidad invertida en maquinaria por parte de una empresa. La situacin
aqu es la siguiente: para algunas observaciones la variable dependiente se comporta
como continua, en tanto que para otras, la variable dependiente toma el valor cero.
Tenemos en trminos generales dos tipos de modelos: los modelos censurados y los
modelos truncados. En los primeros se encuentran valores de las variables independientes para todos los casos, en tanto que la variable dependiente se observa para algunas
observaciones y para otras no (por ejemplo se obtiene un cero). Un ejemplo de censura
se da cuando se recopila informacin sobre el ingreso de un hogar y para los valores mayores a un cierto umbral slo se recoge el hecho de que es mayor que ese umbral. Por
ejemplo si el ingreso es inferior a c se observa el ingreso y si es superior a c no se registra
el valor del ingreso, es decir,

y = y y < c
i
i
i
yi =
y = c y > c
i
i
19

o
yi = min(c, yi )
Un ejemplo de truncamiento es el salario. Slo observamos el salario en aquellos casos en los que la persona est ocupada. Cul es sera el salario de los que no trabajan?
No es cero obviamente, pero no observamos ningn valor.

9.1

Modelos de Regresin Truncada

Los modelos de regresin truncada se concentran en explicar el valor esperado de una


variable endgena y condicional a los valores de las variables explicativas x. El problema
radica en que nicamente observamos la variable dependiente cuando la misma por ejemplo supera cierto valor. Cmo ejemplo se puede citar el caso en que se desea estudiar
los salarios de las personas y nicamente se consideran aquellas perssonas que trabajan. El modelo de regresin truncada refleja un modelo poblacional que cumple con los
supuestos del modeo lineal clsico:

y = x + u, u | x N(0, 2 )

(13)

segn estas suposiciones el procedimiento MCO produce los estimadores lineales e insesgados de mnima varianza. El problema es que slo se observarn valores de y cuando
sobrepasa un cierto umbral mnimo c, por lo que para estimar el vector y necesitamos
conocer la distribucin de y dado que yi > c, en definitiva una distribucin de probabilidad
truncada. De esta forma, si tenemos una variable aleatoria continua con una funcin de
densidad f (z), la funcin de densidad de la variable truncada a partir del valor c es la
funcin de densidad condicional:
f(z)
f (z)
=
P [z > c]
1 F (c)

(14)

f(z)
(1/)((z )/)
=
1 (c)
1 (c)

(15)

f (z | z > c) =
en el caso de que z N (, 2 ) entonces:
f (z | z > c) =

Veamos como es el valor esperado de la variable y en el caso del modelo truncado


(ecuacin 13):
E(y | y > c, x) = x + E(u | u > c x) = x + E(
20

u u
c x
| >
)

(16)

Aplicando la expresin (15) a E(u | u > c x) se obtiene:

i
( cx
)

E(yi | yi > c, xi ) = xi +
= xi + i
(17)
i
)
( cx

(i )
donde a la razn i = (i ) =
se le denomina inversa del ratio de Mills. A partir
(i )
de esta expresin se puede ver cmo el estimador de por MCO es sesgado, dado que

ignora el segundo trmino de la ecuacin (17).


Utilizando el supuesto de normalidad de las perturbaciones de la ecuacin (13) se
puede calcular f (yi | xi , yi > c) usando (15), por lo que la funcin de verosimilitud ser:
h
i
1 yxi
Y

h
i
(18)
L(, ) =
cxi
1

y la de log-verosimilitud ser:

X
n
1 X
l(, ) = (log(2) + log( 2 )
(yi xi )2
log(1 ((c xi )/)) (19)
2
2 2
i
i
a partir de la cual se obtienen los estimadores mximo verosmiles para y ; el estimador
mximo verosmil de la matriz de covarianzas puede obtenerse de la inversa de la matriz
de informacin.

9.2

El modelo Tobit

Cierto tipo de modelos censurados son denominados modelos Tobit, en honor al economista
James Tobin que estudi la demanda de bienes durables en un artculo de 1959. El modelo Tobit puede ser ms sencillamente presentado como un modelo de variable latente:
y = x + u, u N(0, 2 )

(20)

y = max(0, y )

(21)

donde la variable latente cumple con las suposiciones del modelo lineal clsico. La variable observada y es y cuando y > 0, y y es 0 cuando y < 0. La distribucin de la
variable y es mixta, ya que es discreta en 0 (cuando y < 0):
P (yi = 0 | x)=P (yi 6 0 | xi ) = P (u 6 xi )
xi
x
u
= P( 6
) = ( i )

21

(22)
(23)

y continua en los dems valores; es decir cuando y > 0 tendremos la funcin de densidad
de una normal:


y xi
1

(24)

xi Y 1
y xi
L(, ) =
(
)

yi =0
yi =1

(25)


X
xi
y xi
1
log((
)) +
log(

)
l(, ) =

yi 0
yi =0

(26)

1 yxi 2
1
f (yi ) =
e 2 ( ) =
2

de esta forma la funcin de verosimilitud ser:


Y

y la log-verosimilitud
X

A partir de la maximizacin de la ecuacin (26) se obtienen los estimadores y ; el


estimador mximo verosmil de la matriz de covarianzas puede obtenerse de la inversa de
la matriz de informacin.
Si a la ecuacin (25) la multiplicamos por la siguiente expresin:
Y x Y
1
h
i
i
xi

yi =1
yi =1

(27)

reacomodando se llega a que:

y xi Y
xi Y 1
xi Y
1
h
i = (28)
)

L(, ) =
(

yi =1
yi =1
yi =1
yi =0

h
i
1 yxi Y

y xi Y
xi
1
i
h
=

(29)
x

yi =1
yi =1
yi =1

donde la primer productoria de la segunda igualdad de la expresin (28) es un modelo


truncado (cuando c = 0) y las otras dos productorias corresponden a un probit que modela

si la observacin es censurada o no. La ecuacin (28) sugiere que un modelo tobit (puede
extenderse para un modelo censurado) es una combinacin de un modelo probit, que
determina las observaciones que son censuradas y las que no, y un modelo truncado
para las observaciones no censuradas.

22

9.2.1 Efectos parciales en el modelo Tobit


Una expresin de particular importancia es la E(y | y > 0, x). Si z N (0, 1) = E(z |
z > c) = (c)/ [1 (c)], entonces:

( x
)
( x

) = x +
E(y | y > 0, x) = x +
= x +
x
x
1 ( )
( )
donde nuevamente aparece la razn i = (i ) =

(30)

(i )
, la inversa del ratio de Mills, por
(i )

lo que E(y | y > 0, x) = x + ( x


).

Para obtener los efectos parciales, podemos derivar la ecuacin (20) respecto a xj y de

esta forma obtenemos el efecto parcial sobre la variable latente, variable que en ocasiones
tiene un sentido econmico y en otros no:
E(y | x)
= j
xj

(31)

Pero para calcular el efecto parcial sobre la variable y debemos calcular en primera
instancia E(y | x):
E(y | x) = 0 P (y = 0 | x) + E(y | y > 0, x) P (y > 0 | x)
E(y | y > 0, x) = x + E(u | u > x) = x + E(

u u
x
| > )

(32)

(33)

Entonces:

x
x
E(y | x) = E(y | y > 0, x)P (y > 0 | x) = x + ( ) ( )

(34)

Desarrollando la expresin anterior se llega a:


E(y | x) = (

x
x
)x+( )

(35)

a partir de la cual queda claro que la E(y | x) es una funcin no lineal de x y . Lo que
E(y|x)
queremos calcular es
por lo que:
xj
E(y | x)
E(y | y > 0, x)
P (y > 0 | x)
=
P (y > 0 | x) + E(y | y > 0, x)
xj
xj
xj

(36)

En primer lugar podemos diferenciar la ecuacin (30) y obtenemos:


E(y | y > 0, x)
d x
= j + j ( )
xj
dc
23

(37)

y usando el hecho que


entonces:

d(c)
d(c)
= (c) y
= c(c) se demuestra que d = (c) [c + (c)],
dc
dc
dc

E(y | y > 0, x)
= j
xj

x x
x
1 ( )
+ ( )

(38)

Por otro lado como ( x


) = P (y > 0 | x) tenemos que:
j
x
P (y > 0 | x)
= ( )( )
xj

(39a)

x
x
Finalmente sustituyendo (38) y (??) en (36), usando que ( x
)( ) = ( ), que
surge a partir de la definicin de la inversa de Mills, y simplificando se obtiene que:
x
E(y | x)
= J ( )
xJ

9.3

(40)

Modelos de Regresin Censurada

Existen diferencias entre un modelo Tobit y un modelo censurado. Segn se vi, el modelo
Tobit responde a un problema econmico, tiene variables continuas (dependiente e independientes) para valores de y positivos y tiene una probabilidad positiva de que la variable
dependiente adopte el valor cero en algunos casos. El modelo de regresin censurada
surge de que los datos de la variable dependiente son observados con censura, por ejemplo dentro de algn rango de valores. Por ejemplo, se recoge informacin del ingreso de
los hogares hasta cierto nivel c, luego del cual no se recoge la informacin y se asume
que la variable toma ese valor mximo (en definitiva se intercambia el valor cero por un
cierto umbral c). El planteo del modelo censurado sera el siguiente:
yi = xi + ui

(41)

wi = min(yi , c)

(42)

donde por ejemplo si se asume que la distribucin de u es normal e independiente del


valor c, obtenemos el modelo de regresin normal censurado. La estimacin del modelo
de regresin normal censurado por MCO resulta en estimadores inconsistentes,al igual
que sucede con el modelo Tobit; esto se deriva por un razonamiento similar con el que se
lleg a la ecuacin (30).
24

9.4

Modelos de seleccin muestral: El mtodo de Heckman

En la ecuacin (30) se puede ver cmo en el caso de aplicar MCO sobre los datos de la
muestra truncada, es decir sobre las observaciones que cumplen que y > 0, se obtiene un
sesgo para el estimador . En base de dicha constatacin, Heckman plantea un mtodo
de estimacin en dos etapas para obtener una estimacin consitente de (Modelo de
seleccin muestral).
El procedimiento consiste en intriducir una variable ficticia di (variable de seleccin)
que toma el valor 1 si y > 0 (caso en que no hay censura) y 0 en el caso contrario (
d = 1[y > 0]). Esto lo podemos expresar de la siguiente forma:

c si d = 0
i
yi = di yi + (1 di )c =
y si d = 1
i
i

(43)

lo cual corresponde a la versin censurada del modelo de seleccin muestral. Tambin

se puede construir la versin truncada, la cual sera:


yi = di yi

(44)

Continuemos trabajando para el caso del modelo censurado. Si se considera entonces


el modelo de regresin que se aplica a las observaciones no censuradas:
E(yi | xi , di = 1) = xi + i

(45)

lo que muestra que se podra estimar en forma consistente a y si i fuera observable.


Podemos dividir al modelo planteado en (45) entre :
y
x

u
( i ) = ( i ) + ( i ) + ( i )

(46)

para los casos en que di = 1 se tiene que:


P [di = 1 | z] = P [y > 0 | z] = (z)

(47)

entonces estimamos el modelo (47) para todas las observaciones, que por sus caractersticas es el modelo probit ya presentado. A partir de la estimacin de en una primer etapa
)
con
= (zi
se pueden construir los distintos
. En una segunda etapa se reestima
i
i
(zi
)
como variable adicional.
el modelo original (46) incorporando la variable
i
En resumen, en la primer etapa se estima un modelo probit utilizando todas las ob . En una segunda etapa se estima
servaciones con el objetivo de construir la variable
i
25

por MCO el modelo original considerando las observaciones no censuradas regresando


En la primer
la variable y contra las varables explicativas x y adicionando la variable .
etapa se estima la probabilidad de que los datos sean no censurados, en tanto que en la
para corregir el problema de sesgo que
segunda etapa se incluye la variable adicional
tiene la estimacin MCO. Se debe sealar que el estimador MCO de la matriz de varianzas
y covarianzas de la segunda etapa es sesgado y debe ser corregido.
Amemiya, T. (1985) Advanced Econometrics, Oxford: Blackwell.
Diez de Medina, R. Notas de la Ctedra de Econometra. Facultad de Ciencias Econmicas y de Administracin, UDELAR.
Greene, W. (1999) Anlisis Economtrico, Tercera edicin, Prentice Hall Iberia.
Maddala, G.S. (1983) Limited dependent and Qualitative Variables in Econometrics. Cambridge University Press.
Manski, C. and D. McFadden (1981) Structural Analysis of Discrete Data with Econometric
Applications, MIT press.
Novales, A. (1997) Econometra, Segunda Edicin, McGraw-Hill/Interamericana.
Wooldridge, J. (2002): Econometric Analysis of Cross Section and Panel Data, MIT Press,

26