Cap 6. Modelos de Variable Dependiente Limitada

Modelos de variable Dependiente
Limitada
Juan Byron Correa F.
Maestrı́a en Economı́a Aplicada

January 27, 2022
Juan Byron Correa (Microeconometrı́a) Modelos de variable dependiente limitada January 27, 2022 1 / 48
Modelos de variable Dependiente Limitada
Modelos de variable dependiente limitada

En datos provenientes de encuestas, se observa que algunas variables
parten de un valor lı́mite inferior, o uno superior, y ese valor lı́mite es
tomado por un número substancial de encuestados. Para el resto de
encuestados, la variable toma una amplia gama de valores por arriba, o por
debajo del valor lı́mite (o umbral)1 .
El valor lı́mite define dos tipos de problemas en la muestra: variables
truncadas o variables censuradas.
1
Tobin James (1958). ”Estimation of Relationships for Limited Dependent Variables”.
Econometrica, Vol. 26, No. 1. pp. 24-36
Modelos de variable Dependiente Limitada
Modelos de variable dependiente limitada

En datos provenientes de encuestas, se observa que algunas variables
parten de un valor lı́mite inferior, o uno superior, y ese valor lı́mite es
tomado por un número substancial de encuestados. Para el resto de
encuestados, la variable toma una amplia gama de valores por arriba, o por
debajo del valor lı́mite (o umbral)1 .
El valor lı́mite define dos tipos de problemas en la muestra: variables
truncadas o variables censuradas.
Ejemplo: Algunos estudios de ingresos tienen lı́mites por debajo o por
encima de la lı́nea de pobreza. Estos pueden ser de utilidad limitada para
hacer inferencia sobre la totalidad de la población.
1
Tobin James (1958). ”Estimation of Relationships for Limited Dependent Variables”.
Econometrica, Vol. 26, No. 1. pp. 24-36
Observaciones truncadas
Observaciones truncadas
Sea la fn Yi = X′i β + εi que define la relación entre Yi y el vector de variables Xi .
Una muestra se denomina truncada si sabemos de antemano que las observaciones solo
pueden provenir de una parte restringida de la distribución de la población subyacente
La distribución de la variable que se encuentra por encima (debajo) del punto de
truncamiento contiene la información relevante para el estudio.
Ejemplo: Compra de automóvil nuevo.
Sea Yi el precio del automóvil y Xi las

caracterı́sticas del comprador: edad,
ingresos. Luego, ninguna observación de Yi
puede estar por debajo del precio del auto
más barato.
Algunos hogares pueden querer comprar un
auto pero lo encuentran demasiado caro, en
cuyo caso no lo compran y no forman parte
de los datos observados.
Un modelo para datos truncados

El truncamiento puede ser inferior (izquierda) (ejemplo anterior), superior (derecha) (Yi
pueda tomar valores por encima de cierto umbral) o de ambos lados.
Consideraremos una situación de truncamiento inferior con punto de truncamiento
conocido. Los otros tipos de truncamiento pueden tratarse de manera similar.
Supongamos además que el punto de truncamiento es igual a cero, lo que siempre se
puede lograr midiendo Yi en desviaciones del punto de truncamiento conocido.
Se asume que, en la población no truncada, la relación entre la variable dependiente
(Yi ) y las explicativas (Xi ) es lineal. Para propósitos posteriores, planteamos el modelo
como:
Yi∗ = X′i β + σεi ,

con εi ∼ iid y E(εi ) = 0
Aquı́ σ es un parámetro de escala y εi es un término de error con f dp simétrica,

continua conocida f (·). Por ejemplo, si εi se distribuye normal estándar, entonces σ es
la desviación estándar desconocida del termino de error.
Supongamos que los datos observados satisfacen el modelo, pero la muestra esta
truncada, en decir, los individuos con Yi∗ ≤ 0 no son observados.
En el ejemplo de venta de autos, Yi puede ser interpretada como la cantidad de dinero
que una persona esta dispuesta a gastar en un automóvil y, si ésta es menor que el precio
del auto más barato, no comprará un auto. Entonces, la muestra proviene de una
subpoblación, es decir,
(
Yi∗ = X′i β + εi si Yi∗ > 0
Yi =
es no observado si Yi∗ ≤ 0
Función de densidad truncada del término de error

¿Cuál es el efecto del truncamiento?.
X′i β
En la muestra observada siempre que Yi∗ > 0, se tiene que εi > − σ
. Luego la f da
del término de error de la i-ésima observación viene dada por
X′ β
h i
h X′ β i P r − σi < εi < t
P r εi ≤ tεi > − i =

X′ β
h i
σ P r εi > − σi
X′ β

F (t) − F − σi X′i β
= X′ β si t>−
F i σ
σ
Donde, F (·) es la f da correspondiente a una f dp, f (·) simétrica, de modo que
P [εi > −a] = P [εi ≤ a] = F (a)
La f dp del término de error εi del PGD (para las observaciones Yi > 0) se obtiene
diferenciando la f da respecto al argumento t.
Luego se obtiene la f dp truncada fi (·) definida por
X′ β

 f (t) X′ β
si t > − σi
F − i
fi (t) = σ
X′ β
0 si t ≤ − σi

Luego, la f dp truncada del término de error es proporcional en la “parte derecha” (si

t > −X′i β/σ) a la f dp original f (·).
X′i β
El factor de escala F ( σ
) es necesario para obtener la f dp, es decir, para resolver
Z
fi (t)dt = 1
Algunos ejemplos:
1. Demanda de vivienda 2. Horas trabajadas
Analizar la relación entre el gasto en Analizar la relación entre las
vivienda y un conjunto de variables caracterı́sticas sociolaborales de los
socioeconómicas (ingresos, situación empleados (edad, escolaridad,
laboral, estrato). experiencia, nivel sociocultural, estado
Un análisis de la muestra deja ver que civil, Nro de hijos) y las horas trabajadas
la información sobre el gasto en al mes. Dado que existen individuos en
vivienda solo esta disponible para el desempleo, las horas trabajadas toman
aquellas familias que compraron la un valor cero.
vivienda. 3. Función de Salarios
En un estudio de este tipo el interés Se desea estudiar el salario de los
recae en analizar la demanda empleados a partir de una función que
potencial más que la demanda real. relaciona las caracterı́sticas
Por tanto, es importante contar con la sociolaborales con el nivel de ingreso
muestra completa aun en el caso de mensual. Por ley el salario devengado
que no se disponga de la información por el trabajador está por encima de dos
en la variable dependiente. salarios mı́nimos mensuales.
Distribuciones Truncadas
Una distribución truncada es la parte de la distribución no truncada que está por
encima o por debajo de cierto valor umbral conocido.
Distribución normal estándar trun- Ejemplo: El ingreso laboral

cada, con µ = 0 y σ = 1, que toma Sólo se observa en aquellos casos en
valores en el rango -3, 0, y 3. los que la persona está en el mercado
laboral y eso se da si el salario que
obtendrı́a el individuo es mayor que
su salario de reserva:
yi = yi∗
con yi∗ el salario de reserva de i

¿Cuál serı́a el salario de los que no
trabajan? No es cero obviamente,
pero no se observa ningún valor.
Momentos de una distribución truncada

Nuestro interés, como es usual, es calcular la media y la varianza de una variable
aleatoria truncada. Según la definición, estos pueden ser obtenidos:
Sea w una v.a. con: f dp = f (w) y f da = F (c) = P r(w < c).
Supongamos que w presenta truncamiento inferior en el punto c, luego la función
de densidad condicional al punto de truncamiento es:
f (w) f (w)
f (w|w > c) = =
P r[w > c] 1 − F (c)
luego, la media condicional de la distribución truncada es:

Z +∞
f (w)
E(w|w > c) = w dw
−∞ 1 − F (c)
que es mayor que la media no condicional, E(w), y mayor que c, el punto de

truncamiento.
Ejemplo
Ejemplo 19.1 Grenne: Distribución Uniforme truncada
Sea x una v.a. que sigue una distribución uniforme estándar, U (0, 1), con
f (x) = 1, 0≤x≤1
Supongamos que c = 31 , luego, la distribución truncada para los x > 1

3 es también
uniforme 1 f (x) 1 3 1
f x|x > = = 2 = , ≤x≤1
3 P r x > 13 3
2 3
Donde, el valor esperado es
Z 1 Z 1
1 3 2
E x|x > v = xf x|x > dx = xdx =
1
3
3 1 2
3
3
Sabemos que, una v.a. con distribución uniforme entre a y b, tiene varianza:
(b−a)2
12
1 (1 − 13 )2 1
V ar x|x > = =
3 12 27
1 1
Donde, la distribución no truncada tiene media 2 y varianza 12
Por tanto, se cumplen los siguientes resultados:
Si el truncamiento es inferior, entonce la media de la variable

truncada es más grande que la media de la variable original.
Si el truncamiento es es superior, la media de la variable truncada es
más pequeña que la media de la variable original.
El truncamiento reduce la varianza comparada con la varianza de la
distribución no truncada.
Momentos de una distribución truncada bajo Normalidad
Truncamiento inferior o a Izquierda

Si ω ∼ N (µ, σ 2 ), y c es un valor umbral o punto truncamiento inferior
constante:
f ω−µ 1 ω−µ

σ ϕ
f (ω|ω > c) = = σ σ
1 − Φ c−µ
σ 1 − Φ c−µ
σ
ω−µ c−µ
Denotando a ω ∗ = σ y c∗ = σ , se tiene
1 ϕ(ω ∗ )
f (ω|ω > c) = (1)
σ 1 − Φ(c∗ )
Donde ω ∗ ∼ N (0, 1), y ω = µ + σω ∗
Truncamiento inferior o a Izquierda
Por tanto, la media condicional bajo normalidad es:

Z +∞
E(ω|ω > c) = ωf (ω|ω > c)dω
c
Z +∞ ∗

∗ 1 ϕ(ω )
= µ + σω ∗)
σdω ∗
c σ 1 − Φ(c
ϕ(ω ∗ )
Z +∞
= µ+σ ω∗ ∗)
dω ∗
c 1 − Φ(c
Donde, es posible demostrar que:
ϕ(c∗ )
E(ω|ω > c) = µ + σ = µ + σλ(c∗ )
1 − Φ(c∗ )
ϕ(c∗ )
donde λ(c∗ ) = 1−Φ(c∗ ) , es llamada la Razón Inversa de Mills.
Modelo de Regresión Truncado
Modelo de Regresión Truncado
Explica el valor esperado de una variable endógena truncada (superior o
inferior) condicional al conjunto de valores de las variables explicativas X.
El modelo truncado refleja una función poblacional que cumple con los
supuestos del MCRL:
′
Yi∗ = X β + εi
donde
Yi = Yi∗ si Yi∗ > 0
Si fuese posible observar Yi∗ los MCO producirı́an estimadores MELI
consistentes.
Problema: sólo se observan los valores de Yi cuando se sobrepasa un

cierto valor umbral c, luego, al estimar el vector β y σ, se necesita
conocer la distribución de Yi condicional a Yi∗ > c, es decir la f dp
truncada.
Estimación MCO
Derivación del sesgo sistemático de los MCO
El estimador de β aplicando MCO a (2) para Yi > 0, es no consistente.
Dado que el término de error con distribución fi (·) no tienen media cero, ya que
h X′ β i
E[εi |Yi∗ > 0] = E εi |εi > − i >0
σ
Por ejemplo, si f (·) es la normal estándar con zi = −X′i β/σ, se obtiene
Z ∞
1 ∞ 1
Z
ϕ(t) 1 2
E[εi |Yi∗ > 0] = t dt = √ te− 2 t dt
−zi Φ(zi ) zi −zi 2π
∞
1 1
− 12 t2 1 1 1 2
= √ te = √ te− 2 zi
Φ(zi ) 2π Φ(zi ) 2π

−zi
ϕ(zi ) ϕ(X′i β/σ)
= = = λi > 0
Φ(zi ) Φ(X′i β/σ)
El término λi es llamado razón inversa de Mills, por tanto
Estimación MCO
Luego,
E[Yi |Yi > 0] = X′i β + σE[εi |Yi∗ > 0]

= X′i β + σλi (2)
Sea ωi = Yi − E[Yi |Yi∗ > 0] = εi + σλi , entonces E[ωi |Yi∗ > 0] = 0 y en la

muestra observada (con Yi∗ > 0) se puede escribir
Yi = X′i β + σλi + ωi , E[ωi ] = 0
Por tanto, al regresar de Yi sobre Xi , se ignora el regresor λi (no observado).

Esto hace que los MCO sean sesgados e inconsistentes. El estimador MCO es
X −1 X
b = Xi X′i Xi Yi
1 X −1 1 X
= β+ (Xi X′i (σλi + ωi )Xi
n n
Los MCO son inconsistentes porque la probabilidad lı́mite de λi Xi ̸= 0, ya que λi
es función de Xi . Es decir, se viola la condición de ortogonalidad.
El sesgo de MCO será pequeño si λi es pequeño
Estimación por máxima verosimilitud (MV)
Estimación por máxima verosimilitud (MV)

Un estimador consistente para β se obtienen aplicando la MV, utilizando la f dp
truncada correcta fi () para el término de error εi y la correspondiente f dp truncada de
las observaciones Yi . Sup una distribución normal, la f dp truncada es igual a
1 ϕ((Yi − X′i β)/σ)
p(Yi ) = (3)
σ Φ(X′i β/σ)
Dado que las observaciones Yi son independientes, la fn log de verosimilitud
log(L(β, σ)) = log(p(Y1 , . . . , Yn )) = n
P
i=1 log(p(Yi ) resulta
n n
n n 1 X X
log(L) = − log(2π) − log(σ 2 ) − 2 (Yi − X′i β)2 − log(Φ(X′i β/σ)) (4)
2 2 2σ i=1 i=1
El último término se suma a los términos habituales en un modelo de regresión lineal y

representa el efecto de truncamiento. Este último término no es lineal en b y σ.
Variables Censuradas
Variables censuradas
La censura es esencialmente un defecto en las observaciones en la
muestra, no es una caracterı́stica intrı́nseca de la distribución de la variable.
Probablemente, si no hubiera censura, los datos serı́an una muestra
representativa de la población de interés.
La censura de un rango de valores en la variable de interés introduce

una distorsión en los resultados estadı́sticos convencionales, similar al
truncamiento.
Se examinará también una forma de truncamiento llamado: problema de

selección muestral, sesgo de selección o truncamiento incidental2 .
2
Heckman, James J. (1976), “The Common Structure of Statistical Models of Truncation, Sample Selection, and Limited
Dependent Variables and a Simple Estimator for Such Models”, Annals of Economic and Social Measurement 5, 475-492.
Distribución Censurada
Distribución Censurada
Cuando los datos están censurados, la distribución que aplica a la muestra
de datos es una mixtura de una distribución discreta y una continua.
Si las observaciones de la v.a. se observan en el punto lı́mite pero no a la
izquierda / derecha (o ambos) de éste, los valores en el lı́mite se definen
como censura.
Censura inferior o a izquierda Censura superior o a derecha
La variable censurada a izquierda del La variable censurada a derecha del valor
punto c se define como: u se define como:
(
Yi∗ si Yi∗ < u
(
Yi∗ si Yi∗ > c Yi =
Yi =
c si Yi∗ ≤ c u si Yi∗ ≥ u
Yi = max(Yi∗ , c) Yi = min(u, Yi∗ )
Ejemplo: Censura inferior Ejemplo: Censura superior
Horas trabajadas: las personas que Algunas encuestas, en particular las
laboran presentan un número mayor a ENH, permiten reportar el ingreso del en-
cero de horas trabajadas al mes, mientras cuestado en seis casillas, por tanto aque-
que los desempleados, presentan cero ho- llas personas que perciben ingresos supe-
ras laboradas. riores a 999.999 solo se les puede repor-
tar esta cantidad.
Momentos de la variable normal censurada
Momentos de la variable normal censurada
Fuente: Grenne 2005
Observaciones
Observaciones:
Es importante distinguir entre censura dada por soluciones de esquina

en el problema de decisión económica del agente y censura por la
caracterı́stica de los datos.
Nos limitaremos a ver el caso de los modelos de Regresión Truncados
y Censurados en los cuales el término de error del Modelo Latente
sigue una distribución normal.
Modelo de Regresión Censurado: Modelo Tobit
Modelo de Regresión Censurado: Modelo Tobit
Cierto tipo de modelos censurados son denominados modelos Tobit, en honor al
economista James Tobin quien estudió la demanda de bienes durables.
El modelo es presentado como un modelo de variable latente:
Yi∗ = X′ β + εi εi ∼ N (0, σ 2 )
Yi = max(c, Yi∗ ) = max(c, X′i β + εi )

La variable latente cumple con los supuestos del MCRL.
Suponiendo censura inferior en c, la variable observada se define como:
(
Yi∗ si Yi∗ > c
Yi =
c si Yi∗ ≤ c
La distribución de Yi es mixta: Discreta en c para Yi∗ < c
P r(Yi = c|X′i β) = P r(Yi∗ < c|X′i β) = P r(εi ≤ c − X′i β)
c − X′i β
ε
i
c − X′ β
i
Pr ≤
=Φ
σ σ σ
y continua en los demás valores. Suponiendo c = 0.
Estimación Máximo verosı́mil: Modelo Tobit
y continua en los demás valores. Suponiendo c = 0. Sea
(
1 si Yi∗ > c
di =
0 en otro caso
Cuando di = 1 Cuando di = 0
El aporte del individuo a la El aporte del individuo a la verosimilitud
verosimilitud estará dado por la f dp está dada por
normal:
P r(di = 0|Xi ) = P r(Yi∗ ≤ 0|Xi )
1 h Yi − X′ β i
f (Yi |Xi ) = ϕ = P r(εi ≤ −X′i β|Xi )
σ σ X′ β
i
= 1−Φ
. σ
De esta forma la función de verosimilitud está dada por:
N X′ β 1−di 1 Y − X′ β di
i
Y
i i
L(β, σ) = 1−ϕ ϕ
i=1
σ σ σ
linealizando, la función log-verosimilitud será, (eliminando los términos
constantes):
N X ′ β 1 Yi − X′i β
X
i
ln L(β, σ) = (1 − di ) ln 1 − ϕ + di ln ϕ
i=1
σ σ σ
A partir de la maximización de la ecuación anterior se obtienen los

estimadores de β y σ.
El estimador máximo verosı́mil de la matriz de covarianzas puede obtenerse
a partir de la inversa de la matriz de información. Si multiplicamos la
ecuación de verosimilitud antes definida por la siguiente expresión:
N d N
Y 1 Yi − X′i β i Y 1
ϕ di
σ σ

i=1 i=1 X′ β
ϕ σi
Operando, se llega a:
Yi −X′i β
#
N 1 di N
ϕ
"
σ σ
X′ β 1−di 1 Y − X′ β di
Y Y
i i i
L(β, σ) = X′ β × 1−ϕ ϕ
i=1 ϕ i
i=1
σ σ σ
σ
donde la primera productoria es un modelo truncado (cuando c = 0) y la

segunda corresponde a un modelo Probit que es utilizado cuando la
observación es censurada.
Esto indica que el modelo tobit censurado es la unión:
De un modelo probit, definido por las observaciones que están
censuradas y las que no.
De un modelo truncado para las observaciones continuas no
censuradas.
Efectos parciales en el Modelo Tobit
Efectos marginales en el Modelo Tobit
Se obtienen derivando respecto a Xj , se calculan:
El efecto parcial sobre la variable latente,
∂E(Yi∗ |Xi )
= βj
∂Xj
El efecto parcial sobre la variable truncada,

∂E(Yi |Yi∗ > 0, Xi )
= βj [1 − λ2i + αi λi ]
∂Xj
El efecto parcial sobre la variable censurada, donde

X′ β
E(Yi |Xi ) = Φ i
(X′i β + σλi )
σ
luego,
∂E(Yi |Xi ) X′ β
i
= βj Φ
∂Xj σ
Problema de selección muestral
Problema de sesgo de selección

Fue introducido en la Econometrı́a por James Heckman (1976), se puede
presentar tanto en un modelo de variable dependiente continua como en
uno de variable dependiente discreta.
Dado que existen situaciones en las que la muestra esta limitada por
truncamiento o por censuramiento, se puede generar un problema de
ausencia de aleatoriedad muestral, es decir, selección de muestras no
aleatorias.
Por tanto, al estimar los modelos estructurales, se obtienen resultados y
conclusiones que no describen lo que se esperarı́a de las caracterı́sticas de
la población en general, sino tan solo de las caracterı́sticas de un
determinado grupo poblacional, sin importar el tamaño de la muestra
utilizada.
Selección muestral
El sesgo de selección puede surgir por dos razones:
Decisiones sobre el diseño Autoselección
muestral Los individuos se pueden
Algunas decisiones que toma el auto-seleccionar para pertenecer a un
investigador en el diseño del determinado grupo.
experimento que inciden de forma Ejemplo: la decisión que toma un
especı́fica sobre la muestra. individuo de participar o no del mercado
Ejemplo: Decidir realizar un muestreo laboral. Un individuo decide trabajar si
estratificado. el salario de mercado es mayor o al
. menos igual a su salario de reserva.
La decisión de participar en el mercado laboral es endógena al modelo,
dado que pertenecer en este caso al grupo de individuos que reciben un
salario no es aleatorio.
Pertenecer o no a este grupo de individuos viene determinado por una decisión
anterior que es: si los individuos quieren y pueden o no participar del mercado
laboral.
Consecuencias de la selección muestral
Consecuencias de la presencia del problema de selección muestral
El problema que se presenta al utilizar muestras de este tipo –variables

truncadas y/o variables censuradas– es:
Al estimar el vector de parámetros β por el método

de Mı́nimos Cuadrados Ordinarios, este no satisface
la propiedad de consistencia.
Truncamiento incidental
Truncamiento incidental o respecto a otra variable

Supongamos las v.a. w1 y w2 que se distribuyen conjuntamente normal o
siguen una distribución normal bivariante con correlación ρ.
Estamos interesados en la distribución de w1 condicional a w2 cuando esta
excede un valor particular.
La intuición sugiere que w1 y w2 están correlacionadas, luego el
truncamiento de w2 puede empujar la distribución de w1 hacia arriba.
¿Como es la forma de la distribución truncada y como son su media y su
varianza?
Truncamiento incidental
La función de densidad conjunta truncada de w1 y w2 es:
f (w1 , w2 )
f (w1 , w2 |w2 > c2 ) =
P r(w2 > c2 )
donde −∞ < w1 < ∞ y c2 < w2 < ∞,

Z ∞Z ∞
P r(w2 > c2 ) = f (w1 , w2 )dw1 dw2
c2 −∞
Luego, la f dp marginal truncada de w1 (obtenida integrando respecto a

w2 ) es:
P r(w2 > c2 |w1 )
f (w1 |w2 > c2 ) = f (w1 )
P r(w2 > c2 )
Los momentos de la distribución normal truncada son:
Momentos de la distribución normal truncada
Fuente: Grenne 2005
Dado que w1 y w2 se distribuyen normal bivariante,

" #
σ12 σ12

w1 µ1
∼N ,
w2 µ2 σ21 σ22
Luego, la media condicional está dada por:
2 c − µ
σ12 2 2
E(w1 |w2 > c2 ) = µ1 + λ
σ22 σ2
Ejemplo
Ejemplo: Modelo de oferta laboral femenina:
Ecuación de Salarios Ecuación de horas trabajadas
La diferencia entre el salario de El número deseado de horas laborales
mercado y su salario de reserva, es lo ofertadas depende del salario, de las
que hace que una chica participe en el caracterı́sticas personales y del hogar
mercado laboral, con regresoras: la tales como; años de escolaridad, número
edad, años de escolaridad, número de de hijos menores, el estatus marital,
hijos, lugar donde vive... entre otras.
El problema de truncamiento surge cuando se hace necesario considerar una 2da
ecuación que describe: la participación en el mercado (ejemplo 1), o las horas
laborales deseables (ejemplo 2), ya que el ingreso o las horas son observadas solo
si el individuo, participa o está trabajando.
En ambos casos se considera una ecuación de participación, esta se da, cuando
los ingresos laborales o cuando las horas trabajadas positivas o cero son
observadas. Luego inferimos que el salario de mercado excede el salario de
reserva, por tanto la variable horas trabajadas es truncada de forma incidental.
Modelo Generalizado de Selección (Heckman, 1979)

El modelo Tobit no es apropiado cuando el proceso que induce a algunos
individuos a estar en el punto de censura no es aleatorio. Situación en la
cual los individuos están condicionados a las decisiones que toman (por
ejemplo desempleo involuntario).
Heckman propone descomponer el modelo censurado en dos procesos, de
manera que se tenga un modelo con dos ecuaciones (modelo bivariante):
Y1i∗ = X′i β + u1i

Y2i∗ = Z′i γ + u2i (5)
Donde se observan {Yi , di , Xi , Zi } con: di una variable dicotómica

di = 1(Y2i∗ > c),
Yi = Y1i∗ si di = 1
Si u1i y u2i están correlacionados estamos ante un caso de “selección endógena”

de la muestra, debido a que la selección se hace con base a Y2i∗ .
Podemos reescribir
(
c si di = 0
Yi = (1 − di )c + di Y1i∗ =
Yi∗ si di = 1
lo que corresponde a la versión censurada del modelo de selección muestral.

La versión truncada se da definiendo:
Yi = di Yi∗
Consideremos el caso del modelo censurado con c = 0,
Y1i∗ = X′i β + u1i , Y2i∗ = Z′i γ + u2i
se observa {Yi , di , Xi , Zi }
Modelos de selección
Un modelo de selección
En muestras truncadas, los valores de la variable dependiente se observan solo en
un cierto intervalo (Yi > 0). De manera más general, sea zi una variable ficticia
de selección que toma el valor zi = 1 si el i-ésimo individuo está en la muestra y
zi = 0 si no lo está.
Supongamos que Yi = X′i β + σεi aplica a todos los individuos (observados y no
observados) y que este modelo satisface todos los supuestos estándar. Entonces
la muestra observada se puede describir mediante
(
X′i β + σεi si zi = 1
Yi = (6)
es no observado si zi = 0
La regresión de Yi en Xi para las observaciones con zi = 1, es consistente si y

solo si la selección es exógena. Esta condición se violará si la variable de selección
zi depende del término de error εi , caso de una regresión truncada donde
zi = 1 sii Yi > 0; este caso zi = 1 sii εi > −(X′i β/σ).
Luego, el estimador MCO de β es inconsistente, en el sentido de que la variable
de selección zi depende del término de error εi .
El modelo tobit (tipo 2) para efectos de selección

En los modelos truncados, un individuo es no observado siempre que
Yi = X′i β + σεi tome valores negativos. Es decir, si el factor X′i β que
influye en la probabilidad de ser observado es el mismo que influye en la
magnitud de la respuesta Yi = Yi∗ para Yi∗ > 0. En algunos casos estos
factores pueden ser diferentes.
Por ejemplo, la decisión de trabajar o no puede depender de algunos
factores distintos al numero de horas trabajadas, o la decisión de comprar
un bien durable puede estar influenciada por algunos factores distintos a la
cantidad de dinero gastado.
Sea wi un conjunto de variables que influye en la probabilidad de que se observe

Yi (zi = 1) o no (zi = 0). Un posible modelo de selección es el siguiente.
zi = 1 si wi′ γ > 0
zi = 0 si wi′ γ ≤ 0 (7)
Al combinar (6) y (7) se obtiene el modelo tobit tipo 2.

Se diferencia del modelo estándar (tobit tipo 1) en:
1. en el tobit tipo 1, la variable dependiente está censurada (con Yi = 0 para

zi = 0 y Yi > 0 para zi = 1), mientras que en el tobit tipo 2 Yi no se
observa para zi = 0 y Yi puede tomar valores negativos y positivos si zi = 1.
2. las variables de selección wi son (parcialmente) diferentes de los regresores

Xi , mientras que en el tobit tipo 1 wi = Xi , γ = β, y ω i = σεi .
Ejemplos
Ejemplo 1
Ejemplo 2
Suponga el conjunto de datos de n
Sea Yi el precio del automóvil nuevo
observaciones de variables (Xi , wi , zi ),
comprado por el i-esimo individuo. Una
mientras que la variable dependiente Yi se
variable explicativa relevante Xi puede ser
observa solo cuando z1 = 1.
el precio del auto actual del cliente, y wi
Por ejemplo, podemos tener datos de n puede ser la antigüedad del auto actual y
individuos, de los cuales (zi = 1) tienen el esfuerzo de marketing para este cliente.
trabajo y (zi = 0) no tienen. Si la variable
Los ingresos por ventas Yi se observan
dependiente de interés Yi es el salario que
solo para los clientes que deciden comprar
ganarı́a un individuo con caracterı́sticas
un automóvil nuevo (zi = 1), mientras
Xi , entonces Yi no se observa para los
que las caracterı́sticas (Xi , wi ) son
individuos sin trabajo.
conocidas para todos los clientes.
Las caracterı́sticas relevantes Xi que
pueden afectar el salario son, por ejemplo,
la edad y la educación, y los factores que
pueden afectar la posibilidad de que una
persona trabaje son, por ejemplo, la edad,
la educación y la composición familiar. .
Distinción entre selección truncada y censurada
Distinción entre selección truncada y censurada

Hasta ahora hemos asumido que la variable dependiente en el modelo tobit tipo 2
está truncada; Yi no se observa si zi = 0. A veces, se asigna el valor Yi = 0 si
zi = 0, de modo que la variable dependiente se convierte en censurada en lugar
de truncada. Por ejemplo, el salario de las personas no trabajadoras es cero y la
cantidad de dinero que gastan los clientes que no compran es cero.
En la estimación, no importa qué convención se siga, ya que, condicionar a zi = 0
el hecho de que Yi = 0 es una cuestión de definición que no proporciona
información adicional. Sin embargo, la interpretación de la muestra truncada
suele ser más natural, ya que en este caso Yi puede verse como la respuesta
natural que corresponde a Xi .
Para las personas con Yi = 0, esta respuesta no se debe tanto a Xi , sino a las wi
que causan zi = 0. Por ejemplo, para las personas que no trabajan el salario es
‘cero’ porque no trabajan (zi = 0), y es mejor decir que no observamos el salario
que normalmente ganarı́an individuos con las mismas caracterı́sticas Xi .
Derivación del sesgo de selección de MCO

La regresión de Yi sobre Xi en la muestra observada (con zi = 1) proporciona
estimaciones consistentes si los términos de error en la ecuación de selección, ωi ,
son independientes de los términos de error εi en el modelo de regresión. En caso
contrario, MCO es inconsistente.
Asumamos que los valores de (wi , Xi ) son fijos y que los términos de error
(ωi , εi ) no son independientes para diferentes observaciones, con distribución
normal conjunta con media cero, varianzas E[ωi2 ] = 1 y E[ε2i ] = 1, y
E[ωi , εi ] = ρ. En este caso
" #
ωi 0 1 ρ
∼ N ID , , i = 1, . . . , n
εi 0 ρ 1
Sea ηi = εi − ρωi , donde ηi se distribuye normal con media cero y, suponiendo

que E[ηi , ωi ] = 0, entonces ηi y ωi son independientes.
Luego, escribiendo εi = ρωi + ηi , se tiene que
E[εi |zi = 1] = E[εi |ωi > wi′ γ] = ρE[ωi |ωi > wi′ γ]
donde, el último término puede escribirse como E[ωi |ωi > wi′ γ] = λi , con λi la
razón inversa de Mills.
Esto muestra que para las observaciones en la muestra (con zi = 1) se cumple
E[εi |zi = 1] = E[ωi |ωi > wi′ γ] = ρλi
Adicionalmente, en la muestra observada (zi = 1), X′i β no es igual a la media de

Yi , como
E[Yi |zi = 1] = X′i β + σE[εi |zi = 1] = X′i β + ρσλi (8)
Por lo tanto, el estimador MCO en Yi = X′i β + εi es inconsistente, ya que se
ignora el regresor λi , a menos que ρ = 0, es decir, a menos que la variable de
selección zi sea independiente del término de error εi .
Estimador de máxima verosimilitud
Derivación de la función log – verosimilitud
MV proporciona estimadores consistentes de los parámetros (β, γ, σ, ρ).
La función de verosimilitud de las variables dependientes zi y Yi (para zi = 1), al
suponer observaciones independientes, toma la forma
Y Y
L= p(zi ) p(Yi , zi = 1)
εi ,zi =0 εi ,zi =1
y como p(Yi , zi = 1) = p(Yi )P [zi = 1|Yi ], se obtiene que

X X X
log(L(β, γ, σ, ρ)) = log(p(zi )) + log(P [zi = 1|Yi ]) + log(p(Yi ))
i:zi =0 i:zi =1 i:zi =1
Donde:
el 3er término representa la contribución de los valores observados
Yi ∼ N (X′i β, σ).
El 1er término se evalua utilizando el hecho de que
P [zi = 0] = P [ωi ≤ wi′ γ] = Φ(−wi′ γ) = 1 − Φ(wi′ γ).
El 2do usa P [zi = 1|Yi ] = P [ω > wi′ γ|Yi ] donde Yi = X′i β + σεi , de modo que
(ωi , Yi ) sigue una distribución normal bivariada
" #
ωi 0 1 ρσ
∼N ,Ω =
Yi X′i β ρσ 1
Estimador de máxima verosimilitud
Por tanto se tiene que,
ρ
(Yi − X′i β), 1 − ρ2

ωi |Yi ∼ N
σ
luego
ρ
(Yi − X′i β)
h ωi − w′ γ − ρ (Yi − X′i β i
P [zi = 1|Yi ] = P [ωi > −wi′ γ|Yi ] = P pσ
> i pσ
1−ρ 2 1 − ρ2
w′ γ − ρ (Yi − X′ β) w′ γ − ρ (Yi − X′ β)
i i i i
= 1−Φ pσ =Φ pσ (9)
1 − ρ2 1 − ρ2
De donde, la función log de verosimilitud del modelo de selección es:

X
log(L(β, γ, σ, ρ)) = log(1 − Φ(wi′ γ)
i:zi =0
wi γ − σρ (Yi − X′i β)
X ′
+ log Φ p
i:zi =1 1 − ρ2

X 1 1 1
+ − log(σ 2 ) − log(2π) − 2
(Yi − X′i β)2 (10)
i:z =1
2 2 2σ
i
Método de dos etapas de Heckman
Heckman propone un método que también proporciona estimadores
consistentes de β. De acuerdo con (8), para los valores observados de Yi
(es decir, para zi = 1) el término de sesgo es igual a
E[Yi |zi = 1] − X′i β = ρσλi . Sea ηi = Yi − E[Yi |zi = 1]; entonces
podemos escribir
Yi = X′i β + ρσλi + ηi , E[ηi ] = 0 para zi = 1
El método de dos etapas es similar al descrito para datos censurados.

Etapa 1: Use todas las n observaciones (wi , zi ) para estimar los
parámetros γ del modelo de selección probit.
Sean γ̂ las estimaciones obtenidas; entonces las inversa de la razón de
Mills se estiman como
ϕ(wi′ γ̂)
λ̂i =
Φ(wi′ γ̂)
Etapa 2: Obtenga estimaciones consistentes de β y ρσ regresando Yi en

función de Xi y λ̂i , usando solo la submuestra de observaciones para
zi = 1.
Pruebe la significancia del parámetro de sesgo de selección
H0 : ρ = 0 vs H1 : ρ ̸= 0
Evalué si el coeficiente asociado a la razón inversa de Mills es significativo.

Dado que los errores ηi son heterocedásticos, los pruebas basadas en los
errores estándar no son válidas. Pueden obtenerse errores estándar
consistentes mediante el método robusto de White.
Comentarios sobre las variables wi y Xi
Comentarios sobre las variables wi y Xi

Puede ser que algunas de las variables wi que afectan a la variable de
selección zi también sean relevantes para explicar la respuesta Yi .
Por ejemplo, la edad de una persona puede influir en la decisión de
trabajar o no y, para alguien que está trabajando, también puede afectar el
nivel del salario.
Para evitar correlaciones excesivamente grandes entre los regresores Xi y
λi , normalmente se requiere que wi contenga al menos una variable que
no esté presente en Xi .

Cap 6. Modelos de Variable Dependiente Limitada

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cap 6. Modelos de Variable Dependiente Limitada

Cargado por

Copyright:

Formatos disponibles

Modelos de variable Dependiente

Juan Byron Correa F.

Maestrı́a en Economı́a Aplicada

Modelos de variable dependiente limitada

Modelos de variable dependiente limitada

Sea Yi el precio del automóvil y Xi las

Un modelo para datos truncados

Yi∗ = X′i β + σεi ,

Aquı́ σ es un parámetro de escala y εi es un término de error con f dp simétrica,

Función de densidad truncada del término de error

Donde, F (·) es la f da correspondiente a una f dp, f (·) simétrica, de modo que

P [εi > −a] = P [εi ≤ a] = F (a)

Luego, la f dp truncada del término de error es proporcional en la “parte derecha” (si

Distribución normal estándar trun- Ejemplo: El ingreso laboral

con yi∗ el salario de reserva de i

Momentos de una distribución truncada

luego, la media condicional de la distribución truncada es:

que es mayor que la media no condicional, E(w), y mayor que c, el punto de

Supongamos que c = 31 , luego, la distribución truncada para los x > 1

Por tanto, se cumplen los siguientes resultados:

Si el truncamiento es inferior, entonce la media de la variable

Truncamiento inferior o a Izquierda

Donde ω ∗ ∼ N (0, 1), y ω = µ + σω ∗

Por tanto, la media condicional bajo normalidad es:

Donde, es posible demostrar que:

Problema: sólo se observan los valores de Yi cuando se sobrepasa un

El término λi es llamado razón inversa de Mills, por tanto

E[Yi |Yi > 0] = X′i β + σE[εi |Yi∗ > 0]

Sea ωi = Yi − E[Yi |Yi∗ > 0] = εi + σλi , entonces E[ωi |Yi∗ > 0] = 0 y en la

Yi = X′i β + σλi + ωi , E[ωi ] = 0

Por tanto, al regresar de Yi sobre Xi , se ignora el regresor λi (no observado).

Estimación por máxima verosimilitud (MV)

El último término se suma a los términos habituales en un modelo de regresión lineal y

La censura de un rango de valores en la variable de interés introduce

Se examinará también una forma de truncamiento llamado: problema de

Yi = max(Yi∗ , c) Yi = min(u, Yi∗ )

Fuente: Grenne 2005

Es importante distinguir entre censura dada por soluciones de esquina

Yi = max(c, Yi∗ ) = max(c, X′i β + εi )

La distribución de Yi es mixta: Discreta en c para Yi∗ < c

P r(Yi = c|X′i β) = P r(Yi∗ < c|X′i β) = P r(εi ≤ c − X′i β)

A partir de la maximización de la ecuación anterior se obtienen los

donde la primera productoria es un modelo truncado (cuando c = 0) y la

El efecto parcial sobre la variable truncada,

El efecto parcial sobre la variable censurada, donde

Problema de sesgo de selección

Consecuencias de la presencia del problema de selección muestral

El problema que se presenta al utilizar muestras de este tipo –variables

Al estimar el vector de parámetros β por el método

Truncamiento incidental o respecto a otra variable

La función de densidad conjunta truncada de w1 y w2 es:

donde −∞ < w1 < ∞ y c2 < w2 < ∞,

Luego, la f dp marginal truncada de w1 (obtenida integrando respecto a

Fuente: Grenne 2005

Dado que w1 y w2 se distribuyen normal bivariante,

Modelo Generalizado de Selección (Heckman, 1979)

Y1i∗ = X′i β + u1i

Donde se observan {Yi , di , Xi , Zi } con: di una variable dicotómica

Si u1i y u2i están correlacionados estamos ante un caso de “selección endógena”

lo que corresponde a la versión censurada del modelo de selección muestral.

Consideremos el caso del modelo censurado con c = 0,

Y1i∗ = X′i β + u1i , Y2i∗ = Z′i γ + u2i