Está en la página 1de 49

Pontificia Universidad Javeriana

Facultad de Ciencias Económicas y Administrativas


Economía

Cortes Transversales

Econometría de Variable Dependiente Limitada:


Censura y Truncamiento

Módulo 3

M. Misas A.
1
Variables Dependientes Limitadas

En este módulo se consideran dos tipos de modelo de regresión:

•Regresión con variable dependiente observada de manera incompleta


•Regresión con variable dependiente observada de manera completa
pero seleccionada de una muestra que no representa a la población.

Datos truncados: algunas observaciones tanto de la variable dependiente como


de los regresores no están disponibles.
Ejemplo: el ingreso por debajo de la línea de pobreza.
Como variable dependiente se consideran solo individuos con bajos ingresos
para conformar la muestra de estudio.

Datos censurados: la información sobre la variable dependiente no está disponible,


lo cual no ocurre en el caso de la información de los regresores.
Ejemplo: Individuos de todos los niveles de ingreso pueden estar incluidos en la
muestra, pero por razones de confiabilidad, el ingreso de los individuos
de alto ingreso que exceden a un umbral se reporta tan solo como un
valor. 2
Truncamiento

El efecto de truncamiento se tiene cuando la muestra se toma de un subconjunto de


una población de interés.

Ejemplo: Estudios de ingresos basados en una muestra de personas por encima de la


línea de pobreza. De poca utilidad para llevar a cabo inferencia sobre la
población total?.

Distribución Truncada
•Una distribución truncada es una parte de una distribución no truncada. Se refiere a
una parte seleccionada por encima o por debajo de algún valor particular.
•El truncamiento es esencialmente una característica de la distribución de donde la
muestra ha sido extraída.

3
Algunas ideas acerca de la función de densidad de probabilidad

X : Variable aleatoria discreta x1 , x2 ,, xn

Puntos de masa

 PX  x j  si X  x j Dominio : 
f X x   
0 si X  x j Recorrido : 0,1

Frecuencia de la masa de probabilidad o función de densidad de probabilidad

X : Variable aleatoria continua

f X x  Función de densidad de probabilidad si: f X x   0


 f X x dx  1
Dominio :  
x
Recorrido : 0,   FX x    f X u du

4
Se considera relevante solo la parte de
la distribución por ecima del punto de
truncamiento. Se reescala bajo el
supuesto de que una observación no
truncada cae en el rango de interés
Distribución Normal truncada

Puntos de truncamiento
Distribución Normal

Densidad de una variable aleatoria truncada

f X 
X Variable aleatoria continua f  X X  a  :
prob  X  a 
f X  x   f x  Función de densidad de probabilidad

a  Función de densidad truncada

5
Ejemplo

Distribución Uniforme: función de densidad Distribución uniforme truncada

f X x   f X x; a, b  
1
I a , b   x  X ~ U 0,1
ba
f X x   1 0  x 1

EX  
ab  1 f X x  1 3
f X  x x     
2  3  1 2 2
prob x  
VAR X  
b  a
2
 3
3
12
1
 x 1
3

Función de densidad de la Distribución Normal:

 1

f t   2 2 
1
2 2
exp  2 t    
 2 
t
z

 1 
 z   2 
1
2 exp  z 2  Función de densidad de la Distribución Normal
 2  6
estándar
Distribución Normal Truncada

•Una gran cantidad de aplicaciones basadas en variables aleatorias continuas


utilizan la distribución normal truncada:

X Variable aleatoria continua que sigue una distribución normal

X ~ N  , 2 

a 
prob  X  a   1    
  
 1     a
siendo 

 Función de distribución acumulada de la
f x  normal estándar
f X x x  a   X
1   


2  e  x    / 2 
2 1 / 2 2 2

Densidad de la distribución
1    normal truncada

1/  x    /  
1    7
Distribución de Poisson Truncada

•En el caso de variables aleatorias discretas, es muy utilizada en la literatura la


Distribución de Poisson con truncamiento en cero.

e 
y 
probY  y y  0 
y!
probY  0
e 
y 
y!

1  probY  0
e 
y 
y!
 
  0, y  1,2,
1 e

8
Valor esperado y varianza de una distribución truncada

En general, se está interesado en la media y en la varianza de las distribuciones truncadas:


E  X X  a    Xf  X  dX
a

Ejemplo:

Una variable distribuida uniforme entreU y L varianza truncada: var x x  a  


U  L
2

12

 X  32
1
E X X  1   dX La distribución no truncada:
 3 1
3
1
3X2 1 2 Media
   2
2  2 13  3 1
Varianza
12
 
2

 1 1 1 1
var  X X    3 
 3 12 27
9
Momentos de una distribución normal truncada:

X ~ N  , 2 
a constante Razón inversa de Mills

E  X Truncamiento         
a
VAR  X Truncamiento    2 1      

  
    Si el truncamiento es: X a
Función Hazard 1   
  
     Si el truncamiento es: X a
 

           

Donde 0      1 

10
Algunos resultados:
•Si el truncamiento es inferior, la media de la variable truncada es mayor que la
media de la variable original.
•Si el truncamiento es superior, la media de la variable truncada es menor que la
media de la variable original.
•El truncamiento reduce la varianza comparada con la varianza de la distribución
original.

Ejemplo:
El americano de ingreso alto recibe en promedio $142.000 dólares al año. El grupo
encuestado tienen como mínimo un ingreso anual de $100.000 dólares al año.
Puede este grupo encuestado decir algo acerca del americano promedio?

La impresión general es No

Tan solo el 2% de la población


está en este rango. (1987)

Dado que el grado de truncamiento en la muestra es 98%. El valor de $142.000 es


un valor probablemente muy lejano del ingreso de la media en el total de la población
11
•Supóngase que el ingreso de la población sigue una distribución lognormal

Nota: Distribución lognormal

Sea X una variable aleatoria positiva.

Sea y una nueva variable aleatoria positiva definida como y  ln x 


Si y sigue una distribución normal  y 2 x sigue una distribución lognormal

12
X : Ingreso
Y : ln  X 
ln 100  4.605
ln(142)  4.956

•Supóngase que el tamaño de la muestra es suficientemente grande para tratar


al promedio muestral como la verdadera media

El artículo establece que:

EY Y  4.605  4.956

probY  4.605  0.02

13
  
La estadística establece: EY Y  4.605   
1   

donde   4.605   

   0.98
   1 0.98  2.054

Se infiere: 2.054  4.605    *


     2.054  0.0484


4.956     0.0484
0.02
 4.956    2.420 *

14
  2.635
  0.959

Para obtener el ingreso medio:

Si 
Y ~ N  ,  y2  X  e  E X   E e  e
Y
 
Y   2 / 2

EX   $22,087

En 1987 se mostró que el americano promedio tenía un ingreso de $25.000 anuales,


Estudio basado en una muestra aleatoria y representativa de toda la población.

La impresión general es incorrecta

15
Modelo de Regresión Truncada

Sea Y variable dependiente y X i un conjunto de variables independientes, relacionadas


con Y a través de la siguiente relación:

i  1,, N yi  X i'    i
Eyi X i   i ~ N 0, 2 

Sea i  X i'  parte determinística del modelo de regresión clásica

Muestra truncada y análisis de regresión

•En este caso, se habla de una muestra truncada si sabemos de antemano que las
observaciones y i provienen de una parte restringida de la distribución poblacional
subyacente

16
Ejemplo:

Objetivo: Estudio sobre venta de carros nuevos

yi Precio del carro


Xi Características del comprador: edad, ingreso, ocupación, etc.

Ninguna observación para y i puede estar por debajo del precio correspondiente
al auto nuevo más barato.

•Algunos individuos pueden desear comprar un carro nuevo pero encontrar que éste es
muy costoso, en cuyo caso no lo comprarán y no harán parte de los datos observados.
El efecto de este truncamiento deberá ser tenido en cuenta, por ejemplo, si se desea
predecir las ventas potenciales de un nuevo tipo de carro muy económico, debido a que
los compradores potenciales no hacen parte de la muestra observada.

yi  yi*  X i'    i si yi*  a Es parte de la data observada


yi es no observado si yi*  a No es parte de la data observada

17
En general, se puede suponer que el punto de truncamiento es igual a 0, el cual
puede siempre alcanzarse midiendo a y i como desviación del punto a .

Regresión que incorpora el truncamiento de la muestra:

i  1,, N
yi  X i'    i
 i ~ N 0, 2 

yi X i ~ N X i'  ,  2  Que sucede si se está interesado en la distribución de y i
dado que y i es mayor que un punto de truncamiento: a ?

E yi yi  a; X i   X i'     i  i    i 
   i  
 X i'     
1    
i 

  a  X i'   
    
   
 X i'       Función no lineal en X ,  , a, 
1    '
 
 
a X i
 
    18
Matriz de diseño de información
Estimación

•Mínimos Cuadrados Ordinarios ???

Como lo presenta W. Greene (1993), la primera inclinación es utilizar MCO para llevar
a cabo la estimación de 

Para cada individuo de la subpoblación de la cual se extrajo la información se tiene:

yi yi  a  E yi yi  a; X i   ei
 X i'     i   ei ei  yi yi  a  Eyi yi  a

Var ei    2 1    i 
  2 1  2i  i i 
Proceso heteroscedástico en el término de
perturbación: i  f Xi 

En una regresión de y frente a X y una estimación MCO se omitiría el término no


lineal i se produciría una estimación sesgada como consecuencia de una
variable omitida. Heckman (1979) “Specification error”
19
•Máxima Verosimilitud
Nota
 1    yi  X i    vi  
'
    li 
    
f  yi yi  a; X i   
 a  X i     li  
 1 
1 1
'
exp   li2 
1     2 2  2 
  
 2 2  2 exp   2 vi    

1
 1 2

 2 

Función de verosimilitud total: el log de la función de verosimilitud es la suma de los


logaritmos de las siguientes densidades:

 1  y i  xi'   
    
 1  y i  xi'    T   a  xi'   
    T
L   Ti1  ln L   ln       ln 1    
  a  xi'    i 1      i 1    
 1    
   

T   a  Xi'   
ln2   ln 2   1 2  yi  X  
T T
 ln1  
2
ln L  '

2 
i
2 i 1 i 1   

20
Condiciones de primer orden:

 ln L T  y i  Xi'    i 
      X Igualada
 i 1   2     i 0
Resolución a través de un
Método de Optimización no
lineal

 ln L  T  i   i 
 yi  X i'  
1 T
 2 Igualada
  
 2 2 2 2 4 i 1  2 2  0

Tarea: Condiciones de segundo orden

21
Efectos Marginales

1 1 2
a X  Nota:   i   exp  i 
E yi yi  a; X i   X i'     i 
'
donde  i  i 2  2 

   i   i
E yi yi  a; X i     
X i  i X i

1. 2.
  i    i 
  i      i   
1   i   i X i 
    i  
  
 i 1   i  
  i  i 1   i     i    i 

1   i 2
  i 2  i  i 
 
1   i  1   i 
2

2i   i i 22
Así:

X

E yi yi  a      i2   i i    
 
 
    i i   i   
 
 
      i   i    i   
 
     i 
  1    i 
  1   i 
  i    i

•Para cada elemento de X, el efecto marginal es menor que el correspondiente


coeficiente
•En la subpoblación yi  a , la varianza de la regresión es: Var yi yi  a   2 1    i 
Atenuación de la varianza

•El interés sobre el efecto marginal o el coeficiente  dependerá de la intención de


inferencia del estudio. Si solo se desea la subpoblación  1    i 

Es de gran importancia

Si se desea llevar a cabo inferencia a la población  es de interés 23


Ejemplo: MV Poisson truncada
*
Supóngase que y sigue una distribución de Poisson, de tal forma que:
 y
f y  
* e 
y!

ln f * y     y ln   ln y!

  expx'  

Supóngase que el número de visitas a una clínica es modelado, la información solo está
disponible para aquellas personas que han visitado la clínica.

La información es truncada por debajo de cero y solo observamos

y  y * si y *  0

Se tiene: F * 0  Pry *  0  Pry *  0  e  

•La verosimilitud truncada para  maximiza:

ln L     expxi'    yi xi'   ln yi ! ln1  exp expxi'  


N
24
i 1
Censuramiento
Supóngase que el conjunto de información consta de y , X 
i i
i  1,, N

Totalmente observado

No siempre es observado,
algunos de los individuos pueden
concentrase en el valor de cero
u otro valor específico

Una variable dependiente es censurada si todos los valores de cierto rango son
transformados a un valor simple.
•Gastos del hogar en bienes durables
•Número de relaciones extramatrimoniales
•Número de arrestos después de salir de prisión
•Gastos en vacaciones

Cada uno de estos estudios analiza una variable dependiente que toma un valor
particular (cero) para una fracción significativa de observaciones.
25
Ejemplo:
Una interpretación postula que el valor cero corresponde a una observación censurada.

Supóngase que los hogares tienen una demanda latente por bienes y
*
la
cual no se expresa como compra hasta que un umbral conocido L es superado

Observamos y solo cuando y  L


* *
cero gastos puede ser interpretado como
una variable de censura a la izquierda que es igual a cero cuando y  L
*

La muestra observada consiste en observaciones censuradas y no censuradas

26
Ejemplo:

Modelo de regresión censurado: expresa la variable observada y en


términos de una variable latente o no observada y *

Similar al modelo de selección binaria:

Función de utilidad

27
Ejemplo:
Supóngase que se desea estudiar el monto de donación que un individuo
Desea aportar a obras de caridad. Para una gran cantidad de individuos
Dicho valor es cero, es decir, no aportan a obras de caridad. Para otros
observamos sus donaciones Datos Censurados

Si la cantidad que la persona deseara


aportar fuese negativa o muy pequeña,
Todo lo que observaríamos sería nada!!!!!

Cual es la relación entre el aporta a obras de caridad de un individuo


y su ingreso?

28
y*
Recta de regresión entre ingresos
y donaciones

Ingreso

Reciben los aportes


de caridad Donaciones negativas

Realmente que observamos?

29
y*

Ingreso

La estimación por MCO producirá estimaciones sesgadas hacia abajo:

y*

Ingreso

30
Distribución Normal Censurada

Se parte del supuesto de normalidad Y ~ N  , 2 

Se supone 0 como el punto de censura

•Censuramiento: la distribución que aplica a la muestra es una mezcla de


distribuciones discreta y continua

Para analizar la distribución se define una nueva variable aleatoria y a partir de la


variable original y *

y  0 si y *  0
y  y * si y *  0
Si y * ~ N  ,  2 
 
Si  
y *  0 la distribución que aplica es: proby  0   prob y *  0      1   
   

Si y  0  y ~ N  , 
* 2
  conserva la densidad de y
*

31
Mezcla de distribuciones

La distribución es una mezcla de partes discreta y


continua. La probabilidad total es 1 y en este caso no se
reescala la segunda parte, simplemente se asigna la
probabilidad total en la región censurada al punto de
censura, en este caso 0.
Ejemplo:

•Se quiere conocer el número de


boletas demandadas para cierto
evento en un estadio.

Capacidad Sillas demandadas •La única medición existente es el


número de boletas vendidas.
•Se sabe que al vender toda la
boletería, el número demandado de
boletas es mayor que el número de
Capacidad Tiquetes vendidos boletas vendido.
•El número de boletas demandadas es
censurado, el punto de censura es el
número de boletas vendidas.
32
Momentos de una variable normal censurada

Si 
y* ~ N  , 2  E  y   a  1      
y  a si y *  a 
VAR  y    2 1   1         
2

 a    
y  y * si y *  a  
     prob y  a  
*

  


1 
  2  

Demostración:

1. E  y   prob  y  a  x E  y y  a   prob  y  a  x E  y y  a 
 prob  y*  a  x a  prob  y*  a  x E  y * y *  a 
 Φa  1       


 Φ   a  1            

33
2. Var y  Evarianza condiciona l   Var media condiciona l 

Evarianza condiciona l   Var y y  a   1   Var y y  a 


 0  1   Var y * y *  a  
 1    2 1    Resultado del truncamiento

Var media condiciona l   E y y  a   E y    1   E y y  a   E y 


2 2

 a  a  1        1        a  1      


2 2

 1   a        1    a     


2 2

Haciendo a    

 
Var media condiciona l   1     1    2  2    
2 2

 1    2    
2


Así, Var  y   2 1  1         
2
 
E y a  0      
 

 

Si a0   
 34
 
 
Ejemplo
Supóngase que el estadio tiene 20000 sillas y que en la última temporada se vendió el
abono total un 25% de las veces. Si el promedio de participación, incluyendo el lleno total
fue de 18000 sillas. ¿Cuál es la media y la desviación estándar de la demanda de sillas?.

a  20000
18000 es un estimado de: Eventas  200001       
20000  


Si 25% es vendido total   0.75
1 0.75  0.675  
  0.675
  0.424
0.675

Se generan dos ecuaciones para y 

18000  0.25(20000)  0.75  0.424    18362


0.675  20000     2426 35
Modelo de regresión censurada Modelo Tobit

La regresión es obtenida haciendo que la media definida anteriormente


corresponda al modelo clásico de regresión

La formulación general es usualmente dada en términos de una función índicadora:

1. y i  X i    i
* '

Hay potencialmente tres funciones condicionales


2. y i  0 si y i  0
*
para la media, depende del interés del estudio
3. y i  y i si y i  0
* *

1. Para la variable índicadora o variable latente se tiene:

Eyi* Xi   Xi' 

Sin embargo, si los datos están siempre censurados este resultado no es muy útil
36
2. Siguiendo los momentos de una distribución normal censurada , para una
observación muestreada aleatoriamente de una población, la cual puede o no ser
censurada se tiene:
 X i'   '
Eyi X i    X i    i 
  

 X i'  
  
i   ' 
X  
 i 
  

3. Si el propósito son las observaciones no censurados se está en el caso de


regresión truncada.

Ey i y i  0  X i'     i 
   i  
 X i'     
 1    
i 

   X i'   
    
   
 X i'      

 1    X '
 

i
 
    
37
Estimación
Si la distribución condicional de y* dado un conjunto de regresores X es especificada,
entonces los parámetros de la distribución pueden ser consistente y eficientemente
estimados a través de ML basados en la distribución condicional censurada de la variable y

f   yi X  Función de densidad
y*
F a X  Función de distribución acumulada
y  g  y* 
La estimación de este modelo es similar al modelo de regresión truncada.

1. Función de verosimilitud:

 f   yi X  si yi  a y  y* si y*  a
f  yi X    
F a X  si yi  a
y  a si y*  a

La función de densidad de y es una mezcla de la pdf y la cdf de y*

1 si y  a
f  yi X   f   yi X  F  a X 
1d
d 
d

0 si y  a
38
Para T observaciones independientes, la máxima verosimilitud censurada maximiza:

 
ln L    di ln f   yi X i ,   1  di  ln F  a X i , 
T
 parámetros de la distribución
i 1

y
Dado el siguiente modelo Tobit y a : 0

yi*  X i'    i  i ~ N 0,  2 


yi  0 si yi*  0
yi  yi* si yi*  0

f  y i  ~ NXi'  , 2 

 
F  0  Prob yi  0
 ProbX    i
'
i 0 
 X i'  
   
  
 X i'  
 1-  39
  
Densidad censurada bajo normalidad:
d 1 d
 1  1    X i'  
f  yi X i    exp  2  yi  X i   1   
'

 2
2
 2     

El estimador MLE ˆ  ˆ ,ˆ 2  maximiza la siguiente función de verosimilitud censurada:

   X i'   
ln L ,     di   ln 2  ln   2 yi  X i     1  di  ln 1  
T
  1 1 1 2 
2 2 '
 
2 
  2
i 1  2       

Condiciones de primer orden: Tarea

 ln L T 1   i 

 '

  2  d i yi  X i   1  di 
  X i  0
1  i  
i 1  
Optimizador no lineal
 ln L T    1
  d i  2 

yi  X i'  
2

  1  d i  i X i  
' 
0
3
 2 i 1  

 2 2 4 
 1   i  2 

40
2. Otra forma de la función de verosimilitud

1
ln L    ln 2   ln   
2  yi  X i'  
2
   X i'  
   ln 1   
yi  0 2 
  2
 yi 0    

(1) (2)

Mezcla de distribuciónes:
discreta y continua
Amemiya (1973): la estimación
Se puede llevar a cabo a través
de MLE

Las dos partes corresponden a:


(1) la regresión clásica para observaciones ilimitadas
(2) Probabilidad relevante para observaciones limitadas

41
Reparametrización de Olsen (1978):

 1
Definiendo:  , 
 

Función de verosimilitud:

ln L   
yi  0
1
2
 
ln 2   ln  2  yi  X i'    ln1  X  
2

yi  0
i
' Mayor similitud con la
regresión truncada

•Un algoritmo de optimización lineal converge de manera rápida dado que su


matriz Hessiana es siempre definida negativa.

•Después de la convergencia, los parámetros originales se pueden recuperar a


partir de:
 1
 ,  
 

42
Método de estimación de Heckman en dos etapas

•Un método alternativo de estimación,


el cual está basado en la idea
•Respuesta binaria:
yi  0 ; yi  0
Datos censurados combinación
•Regresión lineal muestra truncada:
yi  xi'    i

•Para el modelo Tobit , el modelo de respuesta binaria es un modelo probit:


 xi'  
Pr yi  0   
  

 Pryi  0  1  Pryi  0

•Se define 
yi  1 si yi  0
~
yi  0 si yi  0
~
43
1) En una primera etapa  puede ser estimado consistentemente por ML en el
Modelo Probit:
Pr~  
yi  1   xi'

2) En una segunda etapa: se considera la muestra truncada de observaciones: yi  0

 
E yi yi*  0  xi'    i

Se define yi como la variable aleatoria yi condicional a la información yi  0


Observaciones correspondientes a la parte truncada

yi  xi'    i  wi
E wi yi  0  0
 x  
' ~
i 
 
 xi'~
i 
 xi' 
Reemplazado por :
  Corrección de sesgo
i
 xi'~
Estimación Probit

OLS produce un estimador consistente de  y  , conocido como el


Estimador de Heckman de dos pasos 44
Efectos marginales

E yi* X i


1. Considerando la variable indicadora se tiene X i

Este resultado no es de gran interés por ser la variable


no observada

2. Considerando la variable observada y ,dado el censuramiento, se tiene:

    X i'   ' 
E y i X i    
 X i     
X i X i     
   X i'   '    X i'  
   X i      
X i      X i   

1 2

45
   X i'   '    X i'    Xi   
'

1.  X i    X i 
'
     X i'  
X i      X i       X i
  i   i 
 X i'  
 X    i 
 i i 

  
 X i'    i     i 
   
Recordar:
  i   i 1 1
 X     i   exp  i2 
'
2.   i   
X i     i X i 2  2 

  -  i  i  
 
 -  i   i 

   
Donde: Ey i X i   X i'    i     i    i   i 
X i    
X  
'

   i   i    i    i  i  
  
   i  i    i    i  i  
  i 
X  
'

  i   46
  
McDonald y Moffitt (1980) sugieren una descomposición útil:

Ey i X i 
   i 1  i  i  i   i  i  i 
X i
Ey i X i , y i  0  Pry i  0
 Pry i  0  Ey i X i , y i  0
X i X i

 X i'  
donde  i      i 
  

47
Doble censura:

Se tiene el siguiente modelo censurado:

y i  X i'    i
y i  a si y i  a
y i  b si y i  b
a , b constantes
y i  y i en caso contrario
f  i   función de densidad
F  i   CDF
 i  variable aleatoria continua con media 0 y varianza  2

Se tiene:
E yi X i 
X i

  prob a  yi  b 

48
Tarea revisión de la demostración

Ey i Xi   a proby i  a Xi  b proby i  b Xi  proba  y i  b Xi E y i a  y i  b Xi 



 aF a  b1  F b   F b   F a E y i a  y i  b Xi 
y i  Xi'   
Dado que y  X   

i
'
i   la media condicional es igual a:
 

 
i

i   y i  X i'  a  X i'  y i  X i'  b  X i'  
E y a  y  b X i  X    E '
i
 





 

 X   
'
b
  f   d  
 
i
a
F b   F  a   

Recolectando términos se tiene: j 


j  X  
'


b
     
Eyi X i   aF a   b1  F b   F b   F a X       f  d  
'

a         
i

Aplicando el teorema de Leibnitz y el hecho de que f   no depende de X

        


E y i X i    af a    bf b   F b   F a   X i   f b   f a 
'
    b f b    a f a  
X i          49 
 F b   F a 

También podría gustarte