P. 1
Microeconometría

Microeconometría

|Views: 1.489|Likes:
Publicado porClaudio Palominos

More info:

Published by: Claudio Palominos on Oct 26, 2010
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

05/27/2014

pdf

text

original

Sections

  • 1.1. Estimación por Máxima Verosimilitud
  • 1.5. Violaciones de regularidad y propiedades
  • 1.6. Comparación entre modelos Probit y Logit
  • 2.3. Estimación de los Momentos Condicionales
  • 3.1. Análisis de datos Grupales
  • 3.2. Modelos con más de una elección
  • 4.2. Datos de Panel con Variable Discreta Binaria
  • 5.2. Algunas propiedades de la distribución Normal
  • 5.5. Modelos para Sesgo de Selección
  • 6.1. Datos de Duración Discreta
  • 6.2. Datos de Duración Continua
  • 6.3. Estimación no paramétrica de la Distribución
  • 6.6. Impacto de Factores Explicativos
  • 6.7. Heterogeneidad Omitida y Modelos Mixtos
  • 7.2. Un Modelo Lineal General para Datos de Panel
  • 7.3. El One Way Error Component Model
  • 7.4. El Two Way Error Component Model
  • 8.2. El estimador de OLS, WG y IV
  • 8.3. Usando GMM en la estimación de Paneles Dinamicos
  • 8.4. Algunos test de especificación
  • 8.5. El caso de instrumentos débiles

Microeconometría

José Miguel Benavente H.
*
22 de diciembre de 2003
Capitulo 1: Modelos de Elección Discreta 4
1.1 Estimación por Máxima Verosimilitud ———— 5
1.2 Medidas condicionales del término de error
en un Modelo de Variable Latente ———— 7
1.3 Propiedades Asintóticas del estimador ML
para los Modelos Logit y Probit ———— 9
1.4 Algunas Propiedades de la densidades
regulares y verosimilitudes ———— 11
1.5 Violaciones de regularidad y propiedades ———— 15
1.6 Comparación entre modelos Probit y Logit ———— 15
1.7 Efectos Marginales ———— 18
1.8 Test de Diagnóstico para el Modelo Probit ———— 22
1.9 Probit Heterocedástico ———— 28
Capítulo 2: Econometría Semi y No Paramétrica 30
2.1 Introducción ———— 30
2.2 Estimación de densidades ———— 30
2.3 Estimación de Momentos Condicionales ———— 50
2.4 Estimación Semiparamétrica de Modelos con
Variable de elección discreta ———— 61
Capítulo 3: Extensiones del Modelo Básico 67
3.1 Análisis de Datos Grupales ———— 67
3.2 Modelos con más de una elección ———— 71
*
Departamento de Economía. Universidad de Chile. e-mail : jbenaven@econ.uchile.cl. Quisiera
agradecer la eficiente ayuda de Javiera Vásquez en la transcripción de estos apuntes.
Capitulo 4: Tópicos Especiales con Variable
Dependiente Binaria 91
4.1 Análisis Discriminante ———— 91
4.2 Datos de Panel con Variable Discreta Binaria ———— 94
Capítulo 5: Variable Dependiente Limitada 99
5.1 Introducción ———— 99
5.2 Algunas Propiedades de la distribución Normal ———— 99
5.3 Truncamiento ———— 100
5.4 Datos Censurados ———— 105
5.5 Modelos para Sesgo de Selección ———— 119
Capítulo 6: Modelos de Duración 135
6.1 Datos de Duración Discreta ———— 135
6.2 Datos de Duración Continua ———— 136
6.3 Estimación No Paramétrica de la Distribución ———— 137
6.4 Modelos Paramétricos ———— 139
6.5 Estimación ———— 141
6.6 Impacto de Factores Explicativos ———— 142
6.7 Heterogeneidad Omitida y Modelos Mixtos ———— 146
Capítulo 7: Datos de Panel 150
7.1 Introducción ———— 150
7.2 Un Modelo Lineal General para Datos de Panel ———— 154
7.3 One Way Error Component Model ———— 155
7.4 Two Way Error Component Model ———— 161
7.5 Extensiones ———— 164
Capítulo 8: Datos de Panel Dinámicos 165
8.1 Introducción ———— 165
8.2 El estimador de OLS, WG y IV ———— 165
8.3 Usando GMM en la Estimación de Paneles Dinámicos ———— 168
8.4 Algunos Test de Especificación ———— 171
8.5 El caso de Instrumentos Débiles ———— 173
8.6 GMM de Sistemas ———— 176
8.7 Análisis Multivariado ———— 177
8.8 El estudio de Kiviet ———— 179
Capítulo 9: Métodos de Evaluación para Datos
No Experimentales 182
9.1 Criterios para escoger una forma u otra ———— 183
9.2 ¿Qué se desea medir?
9.3 Datos Experimentales ———— 186
9.4 Datos No Experimentales ———— 186
1. Modelos de Elección Discreta
En muchos contextos, el fenómeno que se quiere modelar no es continuo sino discre-
to. Así por ejemplo,la decisión de participar en el mercado del trabajo, opinión sobre
un tipo de legislación, tipo de auto escogido por el consumidor entre vario modelos
posibles. En general, todos los modelos que estudiaremos en este contexto tienen en
común que en ellos la variable dependiente toma los valores 0, 1, 2 ....En ocasiones
estos valores tendrán significado en si mismo como el numeros de patentes a los que
denominaremos datos de recuento. Pero en la mayoría de los casos los valores que toma
la variable dependiente no son mas que códigos utilizados para representar un resultado
cualitativo. Por ejemplo, en el caso de la participación de mercado, un 0 puede significar
“no participar” y un 1 puede significar “si participar”.
Aparentemente, en ninguno de estos casos parece posible, en principio, utilizar el
análisis de regresión clásico. Si embargo, en todos ellos es posible construir modelos que
enlazan la decisión o resultado con un conjunto de factores bajo la misma filosofía que
en el modelo de regresión. Lo que haremos será analizar cada uno de estos casos dentro
del marco general de los modelos de probabilidad.
Resulta conveniente agrupar los modelos posibles en dos grandes clases, binomial y
multinomial, dependiendo de si el resultado es la elección entre dos alternativas o entre
más. Si bien el segundo tipo es una extensión del primero, se pueden distinguir en estos
últimos situaciones donde los resultados son no ordenados, como el caso de la elección
del auto o bien ordenados como el caso de las patentes.
En lo que sigue nos concentraremos en las diversas formas de estimar un modelo de
elección binaria para luego continuar con casos de elección múltiples.
Supuesto básico:
latent variable threshold model
y

i
= x

i
β +ε
i
con:
y
i
=

1 si y

i
> 0;
0 si y

i
≤ 0
Luego,
P[y
i
= 1]=P[x

i
β +ε
i
> 0] = F(x

i
β)
4
Modelos Alternativos para F(·):
Probit:
Φ(z) =
1


·

z
−∞
exp(−u
2
/2)du
Logit:
Λ(z) =
1
1 +e
−z
1.1. Estimación por Máxima Verosimilitud
L =
n
¸
i=1
F(x

i
β)
y
i
[1 −F(x

i
β)]
1−y
i
Tomando logaritmo a la expresión anterior:
logL =
n
¸
i=1

y
i
· logF(x

i
β) + (1 −y
i
) · log[1 −F(x

i
β)]
¸
Maximizando con respecto a beta obtenemos la función "score":
∂logL
∂β
=
n
¸
i=1

y
i
· f
i
F
i

(1 −y
i
) · f
i
1 −F
i

. .. .
escalar
· x
i
....
vector
con F
i
= F(x

i
β) y f
i
= f(x

i
β); donde f es la densidad correspondiente a F.
Entonces:
∂logL
∂β
=
n
¸
i=1
y
i
−F
i
F
i
(1 −F
i
)
· f
i
· x
i
y así, el estimador ML
´
β es aquel que resuelve las ecuaciones de verosimilitud:
n
¸
i=1
y
i
−F
i
F
i
(1 −F
i
)
· f
i
· x
i
= 0
5
(1) Modelo Logit: Si se tiene que en el modelo logit:
Λ(z) =
1
1 +e
−z
entonces al derivar se puede obtener la siguiente expresión :
f(z) = Λ(z)[1 −Λ(z)]
Demostración :
F(z) = Λ(z) = (1 +e
−z
)
−1
dΛ(z)
dz
= −1(1 +e
−1
)
−2
(−1 · e
−z
) = Λ(z)[1 −Λ(z)]
Y en consecuencia las ecuaciones de verosimilitud son:
∂logL
∂β
=
n
¸
i=1
(y
i
−Λ
i
) · x
i
donde Λ
i
= Λ(x

i
β).
La matriz de segundas derivadas (Hessiano) es la siguiente: (permite ver la velocidad
con que se acerca al máximo)
H =

2
logL
∂β∂β

= −
n
¸
i=1
Λ
i
(1 −Λ
i
)
. .. .
escalar
·x
i
x

i
Demostración:
∂logL
∂β
=
n
¸
i=1
y
i
−F
i
F
i
(1 −F
i
)
· f
i
· x
i
=
n
¸
i=1
y
i
−Λ
i
Λ
i
(1 −Λ
i
)
· Λ
i
(1 −Λ
i
) · x
i
=
n
¸
i=1
(y
i
−Λ
i
) · x
i

2
logL
∂β∂β

=
n
¸
i=1
−x
i
∂Λ
i
∂β
= −
n
¸
i=1
Λ
i
(1 −Λ
i
) · x
i
x

i
6
La que es definida negativa para todos los β, asumiendo que los x’s no son perfec-
tamente colineales ( si lo fueran H no es invertible, explota). Así, la log-likelihood es
globalmente cóncava. La esperanza de H es ella misma y no depende de y, por lo tanto
la matriz de información muestral es:
Jn(β) =
n
¸
i=1
Λ
i
(1 −Λ
i
) · x
i
x

i
(2) Modelo Probit (Normit):
∂logL
∂β
=
n
¸
i=1
y
i
−Φ
i
Φ
i
(1 −Φ
i
)
· φ
i
· x
i
= 0
donde Φ
i
= Φ(x

i
β)), φ
i
= φ(x

i
) con φ la densidad de la normal standard. También se
puede escribir como:
∂logL
∂β
=
¸
y
i
=0
−φ
i
1 −Φ
i
· x
i
+
¸
y
i
=1
φ
i
Φ
i
· x
i
1.2. Medidas condicionales del término de error en un modelo de
variable latente
E(ε
i
|y
i
= 1) = E(ε
i
|x

i
β +ε
i
> 0)
=
φ(x

i
β)
Φ(x

i
β)
y por otra parte:
E(ε
i
|y
i
= 0) = E(ε
i
|x

i
β +ε
i
0)
=
−φ(x

i
β)
1 −Φ(x

i
β)
7
Si z N(0,1):
Figura 1
Distribución Normal(0,1)
densidad:
φ(z) =
1


· exp(−1/2z
2
)
Medias Condicionales:
E(z|z < k) =
1
P(z < k)
·

k
−∞
z · φ(z)dz
=
1
Φ(k)
·

k
−∞
z ·
1


· exp(−1/2z
2
)dz
=
1
Φ(k)
¸

1


· exp(−1/2z
2
)

k
−∞
=
φ(k)
Φ(k)
8
De la misma manera:
E(z|z > k) =
1
1 −Φ(k)
·

+∞
k
z · φ(z)dz
=
1
1 −Φ(k)
·

+∞
k
z ·
1


· exp(−1/2z
2
)dz
=
1
1 −Φ(k)
¸

1


· exp(−1/2z
2
)

+∞
k
=
φ(k)
1 −Φ(k)
Así, las ecuaciones de verosimilitud, en el caso de un modelo Probit, se pueden escribir
de la siguiente forma:
n
¸
i=1
E(ε
i
|y
i
) · x
i
= 0
. .. .
condición de ortogonalidad
La matriz Hessiana correspondiente es la siguiente:

2
logL
∂β∂β

=
¸
y
i
=0
−φ
i
(1 −Φ
i
)
2

i
−xi

β(1 −Φ
i
)] · x
i
x

i
+
¸
y
i
=1
−φ
i
Φ
2
i

i
+x

i
βΦ
i
] · x
i
x

i
Dadas las expresiones para las medias condicionales, los valores entre paréntesis
cuadrados son positivos y entonces la matriz Hessiana correspondiente es negativa defini-
da, es decir, la log-likelihood es globalmente cóncava.
Tomando esperanzas, la matriz de información muestral para el modelo Probit es la
siguiente:
Jn(β) =
n
¸
i=1
φ
2
i
Φ
i
(1 −Φ
i
)
· x
i
x

i
1.3. Propiedades Asintóticas del estimador ML para los modelos Logit
y Probit
Bajo “condiciones de regularidad generales”, el estimador ML es consistente y asin-
tóticamente normal con una matriz de varianzas y covarianzas dada por el inverso de
la matriz de información. Esta inversa es la cota inferior de Cramer-Rao y entonces, el
estimador ML es también asintóticamente eficiente.
9
La varianza del vector Score:
Para ambos modelos el Score tiene la siguiente forma:
∂logL
∂β
=
n
¸
i=1
y
i
−F
i
F
i
(1 −F
i
)
· f
i
· x
i
Donde F
i
= F(x

i
β) y f
i
= f(x

i
β). Así, la varianza viene dada por:
E

∂logL
∂β

∂logL
∂β

= E
n
¸
i=1

y
i
−F
i
F
i
(1 −F
i
)

2
· f
2
i
· x
i
x

i
=
n
¸
i=1
f
2
i
F
i
(1 −F
i
)
· x
i
x

i
Dado que la Var(y
i
)=F
i
(1 −F
i
).
Demostración:
V ar(y
i
) = E(y
i
−F
i
)
2
= E(y
2
i
−2F
i
y
i
+F
2
i
)
Dado que: E(y
i
) = F
i
V ar(y
i
) = E(y
i
) −F
2
i
= F
i
(1 −F
i
)
Notar que esta última expresión es la misma que la matriz de información muestral
derivada para cada uno de los modelos anteriores.
Nota : Máximo Global: Aproximación de Taylor de logL(β) alrededor de
´
β
MLE
logL(β) = logL(
´
β) +
∂logL
∂β

β
. .. .
=0
(
´
β −β) + 0,5(
´
β −β)


2
logL
∂β∂β

β
. .. .
<0
(
´
β −β)
logL(β) < logL(
´
β)
10
1.4. Algunas Propiedades de las densidades regulares y verosimili-
tudes
Considere una muestra aleatoria obtenida de una función de densidad g(y:θ), la que
depende del parámetro θ (extendible al caso de un vector). El logaritmo de la función
de verosimilitud viene dado por:
logL =
n
¸
i=1
log(g(y
i
; θ))
La densidad g es Regular de primer orden si la diferenciación con respecto a θ y la
integración sobre y puede ser llevada a cabo en ambos sentidos con un mismo resultado.
(es decir, la integral de la derivada es igual a la derivada de la integral).
d

y
g(y; θ)dy =

y
d

g(y; θ)dy
La densidad es Regular de segundo orden si lo mismo se cumple para la segunda
derivada.
Si θ es un vector las condiciones anteriores deben cumplirse para todas las derivadas
con respecto a cada uno de los elementos de θ.
Propiedades:
1.

+∞
−∞
g(y; θ)dy = 1
Así, si g es regular de primer orden, entonces:

+∞
−∞
g

(y; θ)dy = 0
y entonces:
E
¸
g

(y; θ)
g(y; θ)

= 0
es decir,
E
¸
∂log(g(y; θ))
∂θ

= 0
11
y entonces
E
¸
∂logL
∂θ

= 0 score
2. Ahora consideremos la segunda derivada del logaritmo de g:

2
log(g(y; θ))
∂θ
2
=
g

(y; θ)
g(y; θ)

¸
g

(y; θ)
g(y; θ)

2
Si g es regular de segundo orden, entonces:

+∞
−∞
g

(y; θ) · dy = 0
es decir,
E
¸
g

(y; θ)
g(y; θ)

= 0
y así,
E
¸

2
log(g(y; θ))
∂θ
2

= −E
¸
g

(y; θ)
g(y; θ)

2
= −E
¸
∂log(g(y; θ))
∂θ

2
3.
E
¸
∂logL
∂θ

2
= E
¸
n
¸
i=1
∂log(g(y
i
; θ))
∂θ
¸
2
= E
n
¸
i=1
¸
∂log(g(y
i
; θ))
∂θ

2
Ya que el valor esperado de todos los términos cruzados (fuera de la diagonal) son
cero. Ello debido al supuesto de independencia de las observaciones y el hecho de
que:
E
¸
∂log(g(y; θ))
∂θ

= 0
12
Así entonces:
E
¸

2
logL
∂θ
2

= −E
¸
∂logL
∂θ

2
Para el caso en que θ es vector:
E
¸

2
logL
∂θ
2

= −E

∂logL
∂θ

∂logL
∂θ

4. Sumando sobre las observaciones el vector equivalente al de la propiedad (2) es:
Jn(θ) = E
¸


2
logL
∂θ∂θ

= E(Q)
Donde:
Q =
n
¸
i=1

∂log(g(y
i
; θ))
∂θ

∂log(g(y
i
; θ))
∂θ

Generalmente es más útil usar Q en vez de E(Q) para muestras grandes.
Nota Técnica: Estimación de la varianza asintótica del estimador ML:
Si la forma del valor esperado de la segunda(s) derivada(s) de la log-likelihood es cono-
cida, entonces:
[Jn(θ)]
−1
=

−E
¸

2
logL
∂θ∂θ

−1
Evaluada en
´
θ
ML
entrega un estimador de la matriz de covarianzas del MLE. Sin em-
bargo, este estimador rara vez esta disponible dado que son complicadas funciones no
lineales de los datos. Existen dos alternativas:
1.

´
Jn(
´
θ)

−1
=



2
logL
∂θ∂θ

−1
13
La que se obtiene al evaluar la matriz de segundas derivadas actual (no esperada)
con el valor de MLE máximo obtenido. No obstante, a veces es difícil obtener las
segundas derivadas y programarlas en el computador.
2.

´
Jn(
´
θ)

−1
=
¸
n
¸
i=1

∂log(g(y
i
; θ))
∂θ

∂log(g(y
i
; θ))
∂θ

¸
el que esta basado en el resultado de que el valor esperado de la matriz de segun-
das derivadas es la matriz de covarianzas del vector de primeras derivadas.
[BHHH ó OPG (outer product of gradients)]
Este último estimador es muy conveniente pues no se necesita ningún cálculo más allá
que estimar ecuación de verosimilitud. Además es siempre no negativa definida.
Tabla 1. Observaciones de Ingreso y Educación.
Observación Ingreso Educación Observación Ingreso Educación
1 20.5 12 11 55.8 16
2 31.5 16 12 25.2 20
3 47.7 18 13 29.0 12
4 26.2 16 14 85.5 16
5 44.0 12 15 15.1 10
6 8.28 12 16 28.5 18
7 30.8 16 17 21.4 16
8 17.2 12 18 17.7 20
9 19.9 10 19 6.42 12
10 9.96 12 20 84.9 16
Los datos fueron generados por la siguiente función:
f(y
i
, x
i
, β) =
1
β +x
i
exp(−y
i
/(β +x
i
))
Donde y=Ingreso [miles de pesos] y x=Educación [años].
logL = −
n
¸
i=1
log(β +x
i
) −
n
¸
i=1
y
i
β +x
i
Score:
∂logL
∂β
= −
n
¸
i=1
1
β +x
i
+
n
¸
i=1
y
i
(β +x
i
)
2
= 0
Con la solución (única)
´
β
MLE
=15.60275.
Para Computar la varianza asintótica del estimador MLE, se requiere:

2
logL
∂β
2
=
n
¸
i=1
1
(β +x
i
)
2
−2 ·
n
¸
i=1
y
i
(β +x
i
)
3
(1)
14
Dado que E(y
i
)=β+x
i
es conocido, la forma exacta del valor esperado de (1) es conocida
(algo no común). Reemplazamos β + x
i
por y
i
e invirtiendo obtenemos 44.255 como
estimador de la varianza. Al insertar
´
β=15.60275 e invirtiendo obtenemos el segundo
estimador de la varianza: 46.164. Finalmente, al computar el inverso de la suma de los
cuadrados de la primera derivada de la densidad evaluada en
´
β
MLE
:
¸

Jn(
´
β)

−1
=
1
¸
n
i=1

−1
(

β+x
i
)
+
y
i
(

β+x
i
)
2

2
Se obtiene un BHHH de 100.512.
Los tres estimadores son asintóticamente equivalentes, pero BHHH es mucho más fácil
de obtener. Pero cuidado con los valores en muestras finitas:
Ho: β=0 sería rechazada solo con los estimadores de la varianza.
1.5. Violaciones de regularidad y propiedades
i. Discontinuidades de L
ii. Observaciones están correlacionadas
iii. Observaciones no están distribuidas idénticamente
iv. La densidad escogida no contiene la verdadera densidad
v. densidad g tiene un rango que depende de θ
vi. número de parámetros aumenta con el número de observaciones.
1.6. Comparación entre modelos Probit y Logit
La mayoría de los textos sugiere que un análisis detallado acerca de la elección
entre un modelo u otro, no rinde muchos frutos.
modelos predicen en forma similar; estimadores (una vez corregidos para hacerlos
comparables) son estadísticamente indistinguibles.
Si las muestras son muy grandes pueden aparecer diferencias ya que la distribución
logística tiene colas más altas (anchas) que la distribución normal (ver gráficos).
Para que los parámetros entre los modelos sean comparables, se deben realizar
ciertos ajustes:
β
probit
= β
logit


3
π
β
probit
= β
logit
∗ 0,625
15
16
17
1.7. Efectos Marginales
Sabemos que:
P[y
i
= 1] = F(x

i
β)
∂P[y
i
= 1]
∂x
i
= f(x

i
β) · β
estos son los llamados efectos marginales:
Probit: φ(x

i
β) · β
Logit: Λ(x

i
β)[1 −Λ(x

i
β)] · β
También se pueden calcular los errores standard de estos efectos marginales. Si defini-
mos ´ γ =
´
f ·
´
β donde
´
f = f(x

i
´
β), entonces:
V ar.Asin.(´ γ) =

∂´ γ

´
β

V

∂´ γ

´
β

Donde V= Var. Asin. (
´
β).
La matriz de derivadas viene dada por:

∂´ γ

´
β

=
´
f


´
β

´
β

+
´
β


´
f
∂z

ϑz

´
β

=
´
fI +
´
β


´
f
∂z

´
βx

Para los dos modelos:
Probit:
df
dz
= −z · φ, con z = x

´
β
V ar.Asin.(´ γ)
probit
= φ
2
[I −(x

´
β)
´
βx

]V [I −(x

´
β)
´
βx

]

Logit:
df
dz
= (1 −2Λ)Λ(1 −Λ)
V ar.Asin.(´ γ)
logit
= (
´
Λ(1 −
´
Λ))
2
[I + (1 −2
´
Λ)
´
βx

]V [I + (1 −2
´
Λ)
´
βx

]

18
Al igual que los efectos marginales, los errores standard asintóticos también dependen
del vector de variables x utilizado.
Comentarios sobre las estimación de los efectos marginales
en Modelos Probit y Logit:
Efecto marginal: ¿evaluar en la media o la media de las evaluaciones individ-
uales?.
Según el teorema de Slutsky debería dar lo mismo ( plim g(x
n
)=g(plim x
n
)),
pero en la práctica para muestras pequeñas se recomienda calcular los efectos
marginales individuales y luego promediarlos.
Efecto marginal de variables dummies: La forma correcta de estimar el efecto
marginal de una variable independiente binaria, por ejemplo d, sería:
Prob[Y = 1/x

, d = 1] −Prob[Y = 1/x

, d = 0]
Donde x

es la media de todo el resto de las variables independientes. En general,
tomando la derivada con respecto a la variable binaria como si fuera continua en-
trega resultados sorprendentemente certeros. Pero lo anterior solo es válido cuando
se evalúa el efecto marginal para la media del resto de las variables independi-
entes. Podemos analizar el efecto de la variable dummy en toda la distribución al
calcular Prob[Y=1] sobre el rango de x’β para los valores de la variable binaria.
Ejemplo (con un modelo Probit):
GRADE: indicador si los alumnos mejoraron sus notas después de realizar un curso
especial PSI.
GPA: promedio de notas.
TUCE: resultado de una prueba de diagnostico previo al programa.
PSI: indicador si el estudiante realizó el curso o no.
Probit Logit
Variable

β
MLE

f

β

β
MLE

f

β
constante -7.425 - -13.021 -
GPA 1.626 0.533 2.826 0.534
TUCE 0.052 0.017 0.091 0.018
PSI 1.426 0.469 2.379 0.499
f(x

β) 0.328 0.189
Usando estos coeficientes, tenemos las siguientes probabilidades como función de GPA
(evaluadas en la media de TUC):
19
PSI=0: Prob[GRADE=1]=Φ[-7.45+1.62GPA+0.052(21.938)]
PSI=1: Prob[GRADE=1]=Φ[-7.45+1.62GPA+0.052(21.938)+1.4263]
3.117
0.571
0.106
con PSI
sin PSI
Prob(GRADE=1)
GPA
El efecto marginal de PSI es la diferencia entre las dos funciones, el que va desde 0.06
en GPA=2 hasta 0.5 en GPA=0.35. Así, la probabilidad de que el estudiante aumente
sus notas dado que siguió PSI es más alta si mejores son sus notas!!. (Efecto marginal
de PSI en x es 0.468).
Cálculo de errores standard en Probit y Logit (repaso):
Efectos marginales:
Probit: φ(x

i
β) · β
Logit: Λ(x

i
β)[1 −Λ(x

i
β)] · β
si definimos ´ γ =
´
f ·
´
β donde
´
f = f(x

i
´
β), entonces:
V ar.Asin.(´ γ) =

∂´ γ

´
β

V

∂´ γ

´
β

Donde V= Var. Asin. (
´
β).
Entonces:
Probit:
V ar.Asin.(´ γ)
probit
= φ
2
[I −(x

´
β)
´
βx

]V [I −(x

´
β)
´
βx

]

20
Logit:
V ar.Asin.(´ γ)
logit
= (
´
Λ(1 −
´
Λ))
2
[I + (1 −2
´
Λ)
´
βx

]V [I + (1 −2
´
Λ)
´
βx

]

Así, se pueden realizar todas las pruebas de hipótesis ya conocida para los parámet-
ros. Por ejemplo, los tradicionales test-t para restricciones simples los que están basados
en los errores estándar calculados a partir de la matriz de información (BHHH u otra).
Logit Probit
Variable Coef. t ratio Pendiente t ratio Coef. t ratio Pendiente t ratio
Constante -13.021 -2.64 - - -7.452 -2.930 - -
(4.931) (2.542)
GPA 2.826 2.238 0.534 2.252 1.626 2.343 0.533 1.761
(1.263) (0.237) (0.694) (0.303)
TUCE 0.095 0.672 0.018 0.685 0.052 0.617 0.017 0.587
(0.142) (0.026) (0.084) (0.029)
PSI 2.379 2.234 0.449 2.284 1.426 2.397 0.468 1.695
(2.234) (0.197) (0.595) (2.276)
En general, para un conjunto de restricciones Rβ=q, el estadístico de prueba es:
W = (R
´
β −q)

R(Est.V ar.Asin(
´
β))R

¸
−1
(R
´
β −q)
Para una prueba general sobre un conjunto de coeficientes que sean igual a cero (por
ejemplo: los L últimos) el test de Wald requiere que:
R = [0|I
L
] y q = 0
con W=
´
β

L
V
−1
L
´
β
L
donde el subíndice L indica el subvector o submatriz correspondiente a las L variables
y V es la matriz de varianzas y covarianzas de
´
β estimada.
De igual manera el test de razón de verosimilitud puede ser realizado:
LR = −2[log
´
L
r
−log
´
L]
a
∼ χ
2
r
donde
´
L
r
y
´
L son las funciones log-likelihood evaluadas con los estimadores restringui-
dos y no restringuidos respectivamente. Por ejemplo, la prueba típica de que todos los
coeficientes de las pendientes en el modelo Probit o Logit son cero (como un test F).
Para esta prueba solo se restringe el coeficiente de la constante. En este caso, el caso no
21
restringuido es el mismo para Logit y Probit:
LogL
0
= n[P · logP + (1 −P)log(1 −P)]
donde P es la proporción de variables dependientes igual a 1.
Ejemplo anterior (ver tabla 19.1 Greene): P=11/32 → logL
0
=-20.5917, se sabe que
log
´
L
probit
=-12.819 y log
´
L
logit
=-12.890, χ
2
probit
=15.546 y χ
2
logit
=15.404, con χ
2
crit(3)
=7.81,
por lo tanto se rechaza la hipótesis nula de que todos los β

s son igual a cero.
Problemas de estimación en Probit:
(1) Supongamos que tenemos una variable (observada) z
i
tal que:

y
i
= 1 si z
i
> 0;
y
i
= 0 si z
i
≤ 0
z se denomina clasificador perfecto. esto implica que el modelo no puede ser estimado
(esta es una propiedad de los datos). Esto ocurre pues existe una combinación lineal
z
i
= x

i
β

de tal forma que z
i
es un clasificador perfecto y entonces β no puede ser
identificado.
(2) Otro problema de identificación ocurre cuando tenemos una combinación de muestra
pequeña con un gran número de parámetros a ser estimados.
La regla que aplica aquí es la siguiente:
Si min[n·y, n·(1 −y)]<k, entonces no se pueden estimar los β’s. Donde n es el tamaño
de muestra, k es la dimensión de β, n·y es el número de unos y n·(1 −y) es el número
de ceros.
Lo anterior pues no existe una solución finita para las condiciones de primer orden
y por lo tanto β no puede ser identificado.
1.8. Test de Diagnóstico para el modelo Probit (Análogo para logit)
Residuos Generalizados: Para el caso de modelos con variable latente, los residuos
generalizados se definen como:
η
i
= E(ε
i
|y
i
)
= E(y

i
|y
i
) −x

i
β
= E(y

i
|y
i
) −E(y

i
)
22
En el modelo Probit habíamos visto que la media condicional tenia la siguiente estruc-
tura:
E(ε
i
|y
i
= 1) =
φ(x

i
β)
Φ(x

i
β)
E(ε
i
|y
i
= 0) =
−φ(x

i
β)
1 −Φ(x

i
β)
De esta forma,
η
i
=
φ(x

i
β)
Φ(x

i
β)
· y
i

φ(x

i
β)
1 −Φ(x

i
β)
· (1 −y
i
)
=
(y
i
−Φ
i
)
Φ
i
(1 −Φ
i
)
· φ
i
También vimos que las ecuaciones de verosimilitud (score) podrían escribirse como:
∂logL
∂β
=
n
¸
i=1
E(ε
i
|y
i
) · x
i
= 0
o bien
∂logL
∂β
=
n
¸
i=1
η
i
· x
i
= 0 (2)
donde la ecuación (2) es la condición de ortogonalidad.
La matriz Hessiana en el modelo Probit esta dada por:

2
logL
∂β∂β

=
¸
y
i
=0
−φ
i
(1 −Φ
i
)
2

i
−x

i
β(1 −Φ
i
)] · x
i
x

i
+
¸
y
i
=1
−φ
i
Φ
2
i

i
+x

i
βΦ
i
] · x
i
x

i
o bien:
H = −
n
¸
i=1

i
(x

i
β +η
i
)} · x
i
x

i
Recordemos que habíamos definido:
Q =

∂logL
∂β

∂logL
∂β

entonces este estimador puede escribirse como:
Q =
n
¸
i=1
η
2
i
x
i
x

i
23
Notar que E(η
i
) = 0 y V ar(η
i
) =
φ
2
i
Φ
i
(1−Φ
i
)
(demostrar !!), η
i
se conoce como el “residuo
del primer momento” (η
i
es la contribución de cada observación i al score!!).
Pruebas que se pueden realizar con el Score:
(i) Variable Omitida: Supongamos el siguiente Modelo de Variable Latente:
y

i
= x

i
β +z

i
γ +ε
i
La hipótesis a testear es γ=0. El vector Score con respecto a γ es el siguiente:
∂logL
∂γ
=
n
¸
i=1
η
i
· z
i
Si usamos Q para estimar la matriz de varianzas, entonces el test puede ser calculado
como:
c

R(R

R)
−1
R

c ∼ χ
2
(p)
Donde p es el número de restricciones, c es un vector de dimensión n de unos y R una
matriz cuyas fila i es: (η
i
· x

i
, η
i
· z

i
). Este estadístico puede ser obtenido al regresionar c
sobre R. Si se trata de una sola variable omitida, el test t asociado a η
i
· z

i
al cuadrado
es el estadístico χ
2
1
.
Alternativamente, se puede regresionar por MCO η
i
· z
i
sobre η
i
· x
i
y una constante (p
regresiones) y calcular el estadístico:
W
1 +
W
n
donde W es el estadístico de Wald para la hipótesis que todos los interceptos son cero.
(De nuevo, si p=1, entonces Wald=t
2
sobre la constante).
Algunas aplicaciones adicionales de variables omitidas:
Reset-test: es decir, forma funcional correcta.
E(y
i
) = Φ[h(x

i
β)]
aquí z
i
son potencias de (x

i
´
β)
Endogeneidad: probar correlación entre x
i
y el error (ortogonalidad).
(ii) Heterocedasticidad: Suponga que bajo la hipótesis alternativa:
y

i
= x

i
β +σ · ε
i
24
con ε
i
∼ N(0,1), entonces:
∂logL
∂σ
2
=
n
¸
i=1
E(ε
2
i
−1|y
i
)
El término al interior de la sumatoria es el “residuo del segundo momento”. Para el caso
de Probit:
∂logL
∂σ
2
=
n
¸
i=1
−η
i
x

i
β
Ahora bien, si consideramos un modelo heterocedástico más general:
y

i
= x
i
β +σ
i
· ε
i
con σ
2
i
=h(z

i
γ) con h tal que h(0)=1 y
∂h(z

i
γ)
∂γ

γ=0
= z
i
(por ejemplo si h(z

i
γ)=1+z

i
γ).
Entonces, bajo la hipótesis nula:
∂logL
∂γ
=
n
¸
i=1
(−η
i
· x

i
β)z
i
De esta forma, el estadístico de prueba puede calcularse como:
c

R(R

R)
−1
R

c ∼ χ
2
(p)
donde, en esta ocasión la i-fila de R es:

i
· x

i
, η
i
(x

i
β)z
i
)
el que puede ser obtenido al regresionar c sobre R. O bien, como mecanismo alternativo,
regresionar η
i
(x

i
β)z
i
sobre η
i
x
i
y una constante y testear con Wald.
(iii) Aplicaciones adicionales: Test de Normalidad (Pagan y Vella 1989):
Una forma de probar normalidad de los errores es asumir que z
i
=[(x

i
β)
2
(x

i
β)
3
] y
probar mediante un Reset-test la significancia de estos términos. (también en Ruud
1984).
Pero, ¿de dónde proviene todo esto?. Respuesta : sobre las restricciones de momentos.
Pruebas sobre restricciones sobre los momentos:
En un modelo de regresión lineal:
y
i
= x

i
β +u
i
25
i E(z
i
u
i
)=0
ii E(z
i
(u
2
i
−σ
2
))=0 restricción sobre el segundo momento.
iii E(u
3
i
)=0 tercer momento, distribución simétrica.
iv E(u
4
i
) −3σ
4
=0 cuarto momento/ kurtosis.
Si el modelo está correctamente especificado entonces los momentos poblacionales de-
berían ser igual a cero.
A partir de la información muestral, se pueden obtener los análogos muestrales:
´ τ
1
=
1
n
·
n
¸
i=1
z
i
· ´ u
i
´ τ
2
=
1
n
z
i
(´ u
2
i
− ´ σ
2
)
para el caso particular del Probit:
y
i
= Φ(x

i
β) +v
i
con v
i
= y
i
−E(y
i
) el cual tiene media cero y varianza Φ
i
(1 −Φ
i
) con Φ
i
= Φ(x

i
β).
De esta manera:
´ τ
i
=
1
n
n
¸
i=1
z
i
·
´
φ
i
· ´ v
i
´
Φ
i
(1 −
´
Φ
i
)
=
1
n
n
¸
i=1
z
i
·
´
φ
i
· (y
i

´
Φ
i
)
´
Φ
i
(1 −
´
Φ
i
)
=
1
n
n
¸
i=1
z
i
· ´ η
i
De esta forma se construye entonces la prueba sobre los momentos, que en este caso
utiliza los residuos generalizados. En particular, esta última expresión es la covarianza
entre los residuos generalizados y z. Así, al regresionar z
i
· ´ η
i
sobre x
i
· ´ η
i
y una constante
es equivalente a un estadístico de prueba sobre la importancia de la variable z(Idéntico
al test de score LM).
26
Consecuencias de la heterocedasticidad y variable omitida en Probit (Logit): incon-
sistencia, a pesar de que no existe correlación en los errores.
Ejemplo de Prueba:
t-statistic
Test Moment Restriction Eligible Ineligible
Omitted E(SAL80

η)=0 1.427 1.145
Variables E(DSA79

η)=0 1.101 1.365
RESET E(PRED
2
η)=0 2.404 2.6
E(PRED
3∗
η)=0 2.287 0.525
Heteroskedasticity E(SAL80

PRED

η)=0 1.364 0.891
E(MOVES

PRED

H)=0 2.879 7.670
E(RACE

PRED

η)=0 1.090 1.855
E(LSA79

PRED

η)=0 1.647 1.349
E(MLE

PRED

η)=0 1.449 5.869
E(ATBATS

PRED

η)=0 2.258 1.043
E(ADJS

PRED

η)=0 2.194 0.083
E(DFN

PRED

η)=0 1.981 4.626
E(BYR

PRED

η)=0 2.197 2.595
E(YSRM

PRED

η)=0 2.541 3.557
Otra Aplicación: Mroz data: participation equation as in applied Econometrics.
Probit
Variable Coeficiente s.e
LWW1 0.240 0.094
KL6 -0.879 0.115
K618 -0.0321 0.0407
WA -0.0345 0.0077
WE 0.132 0.026
UN -0.0107 0.0160
CIT 0.0115 0.1075
PRIN/10
4
-0.212 0.047
Constant 0.538 0.481
logL=-450.72, Jt. sig.=128.31(χ
2
(8)
)
Diagnostic Test statistic:
Funcional Form: (square term only) χ
2
(1)
=9.42.
Heteroskedasticity: (all RHS variables) χ
2
(8)
=25.44.
Non.normality: χ
2
(2)
=9.48.
27
1.9. Probit Heterocedástico
La idea aquí es incorporar la estructura de la forma funcional esperada o presunta
de la heterocedasticidad en la estimación del modelo. Parecida a la idea de la corrección
de heterocedasticidad en OLS pero ahora en un contexto no lineal utilizando ML.
y

i
= x

i
β +ε
i
ε
i
∼ N(0, σ
2
) con σ
2
i
= [exp(z

i
γ)]
2
logL =
n
¸
i=1

y
i
· logΦ

x

i
β
exp(z

i
γ)

+ (1 −y
i
) · log

1 −Φ

x

i
β
exp(z

i
γ)

con la probabilidad predicha:
p
i
= Φ

x

i
β
exp(z

i
γ)

En general, (no demostrado aquí) los coeficientes obtenidos son un poco mayores y los
intervalos de confianza (errores standard) mas amplios. Aunque algunos resultados em-
píricos sugieren que el sesgo no es importante (ver Horowitz, Econometrica 1977).
Medidas del grado de ajuste:
Si bien en modelos no lineales no se puede aplicar la idea de ajuste en la forma tradi-
cional de verla (i.e. cuanto de la variación total de la variable dependiente es explicada
por la variación de las variables independientes ponderadas por los betas) una forma
sencilla de tener una idea acerca de si las variables escogida como exógenas son rele-
vantes es asumir que todas estas son cero excepto la constante y compararlas con una
especificación en que se incluyan todas las variables relevantes.
Likelihood ratio index:
LRI = 1 −
logL
logL
0
con logL
0
: verosimilitud calculado solo con una constante (es decir, asumir que todos
los betas son cero).
Propiedades:
Acotado entre 0 y 1
28
si F
i
es siempre 1 cuando y
i
es uno y 0 cuando y
i
es 0, entonces logL es igual a
cero → LRI=1. (Pero cuidado con los predictores perfectos).
difícil la interpretación para los valores entre 0 y 1, recordar que ML no está
diseñado para maximizar un criterio de ajuste, como el R
2
en OLS.
29
2. Econometría Semi y No Paramétrica
2.1. Introducción
Texto Guía: A. Pagan y A. Ullah, “Non Parametric Econometrics”.
Más detalles se pueden encontrar en: A.W. van der Vaart, “Asymptotic Statistics”.
Temas a cubrir:
Estimación de densidades (Pagan y Ullah, Capitulo 2)
• Métodos de Kernel
• Métodos teóricos de información
Estimación de momentos condicionales (Pagan y Ullah, Capitulo 3). Regresión no
paramétrica.
Modelos de elección discreta (Pagan y Ullah, Capitulo 7)
2.2. Estimación de densidades
Una forma de estimar una densidad es la siguiente: tenemos observaciones de i=1,......,n
para z
i
={y
i
, x
i
} las que son obtenidas (son una realización) de una densidad f(z). La
pregunta que queremos resolver es: ¿cual será una buena estimación de f(z), trabajando
solamente con los z
i
’s?
La descomposición de z en y y x, cada una multivariada sugiere que algunas de estas
variables pueden ser consideradas como dependientes (es decir, de x), “ser explicadas”
ó quizás “endógenas”. No obstante, por ahora no haremos prejuicios sobre este asunto.
De forma similar, la poca claridad de la aseveración del primer párrafo no nos dice
nada acerca de si las observaciones son independientes e idénticamente distribuidas. El
relajo de este supuesto de “idéntica” no será una gran barrera a lo que veremos más
adelante, no obstante, el relajo del supuesto de "independencia"es un tema mucho más
complejo.
Si llegamos a tener una buena estimación de f(z), por ejemplo
´
f(z), entonces muchas
preguntas convencionales de la econometría pueden ser respondidas. Por ejemplo, una
estimación de E(y
1
|x
1
, x
2
) puede ser derivada a partir de la integración apropiada de
´
f(z).
Para hacer las cosas más fáciles comenzaremos con la estimación de la densidad de
una sola variable: x. Veamos las metodológicas alternativas para realizar esta tarea.
30
2.2.1. Estimación de Densidad I: Kernel
Una estimación “naive” de f(x) sería dar un “peso” 1/n a cada punto x
i
, i=1,...n. La
función de distribución correspondiente a este procedimiento, se conoce como “función
de distribución empírica”. Una debilidad aparente de esta propuesta es que no asigna
probabilidades o valores de la densidad a valores de x que no ocurrieron o que no están
presentes en la muestra, con la agravante que para la mayoría de los casos que estudi-
amos en econometría se asume que f(x) hace un dominio (support) continuo.
Una alternativa natural es la de suavizar el peso 1/n asignado a cada punto x
i
sobre
un area ’cercana’ a x
i
. Una forma de hacer esto podría ser estimar f(x) como una com-
binación de densidades normales, cada una con una desviación standard σ centrada en
cada punto x. Usando φ(x; µ, σ
2
) para denotar la densidad normal estándar con media
µ y varianza σ
2
evaluada en cada x, entonces el estimador de f(x) tendría la siguiente
forma:
´
f(x) =
n
¸
i=1
1
n
φ(x; x
i
, σ
2
) =
n
¸
i=1
1
n
·
1
σ
(2π)
−1/2
· e

1/2 ·
¸
(x −x
i
)
σ

2
(3)
donde, si σ es muy pequeño entonces tendríamos una estimación de la función con pun-
tas agudas en cada x
i
. Si σ es mas grande, la estimación resultante es mas suave. Dado
que (3) es una mezcla de funciones de densidad, entonces
´
f(x) también es una densidad.
Para simplificar un poco la notación, podemos ver que la expresión más a la derecha
de la ecuación (3), (2π)
−1/2
· e
−1/2·

(x−x
i
)
σ

2
puede ser reemplazado por:
K

x −x
i
σ

o K

x −x
i
h

donde σ ha sido reemplazado por h sin alterar las propiedades fundamentales de
´
f(x),
ello mientras K(·) comparta ciertas propiedades con (2π)
−1/2
· e
−1/2·

(x−x
i
)
σ

2
como ser:
simétrica, no-negativa y que la integral sobre x sea igual a 1. También resulta natural
que K(0) ≥ K(x) ∀ x.
1
De esta manera la expresión en (3) puede ser reescrita como:
´
f(x) =
1
n · h
·
n
¸
i=1
K

x −x
i
h

(4)
donde K(·) se denomina la función Kernel.
1
La condición de simetría implica que

y · K(y)dy = 0, la que usaremos después
31
Estimador Kernel con un Kernel normal y dos observaciones
para tres ancho de banda: pequeño (izquerda), intermedio
(centro) y largo (derecha)
Estimación Kernel para la densidad de una muestra de tamaño 15 de una
densidad normal estándar para tres diferentes ancho de banda h=0.68
(izquerda), h=1.82 (centro) y h=4.5 (derecha), usando Kernel Normal
32
33
Criterios para la elección de h:
Pagan y Ullah (pag. 23-26) y la literatura en general, considera dos criterios para elegir h:
integrated square error ISE:
min

[
´
f(x) −f(x)]
2
dx
mean integrated square error MISE:
minE

[
´
f(x) −f(x)]
2
dx

las que corresponden a la noción de "pérdida
2
riesgorespectivamente, donde la primera
depende de los datos que se tiene en la muestra pero la segunda no.
Para caso de MISE:
MISE
f
(
´
f) =

E
f
[
´
f(x) −f(x)]
2
dx (5)
=

var
f
´
f(x)dx
. .. .
varianza
+

[E
f
´
f(x) −f(x)]
2
dx
. .. .
sesgo
Dado que
´
f =
´
f(x) =
1
n·h
·
¸
n
i=1
K

x−x
i
h

, entonces, considerando la expresión (5),
es claro que si escogemos un h pequeño, el sesgo en la estimación de la densidad es
pequeño pero la varianza (ruido) es grande. Por otra parte, un h muy pequeño signifi-
ca que no habrán suficientes puntos en x para promediar o suavizar y en consecuencia,
obtendremos una estimación de la densidad que presente "saltos.
o
.
o
ndas"(sinusoidales).
Por otra parte, si escogemos un h grande el sesgo será grande pero la varianza (rui-
do) menor, resultando en una estimación de densidad sobre suavizada y en conclusión
con una fuerte distorsión sobre la verdadera estructura de la densidad. En la práctica h
se debe escoger de manera de alcanzar el mejor "trade-off"posible entre sesgo y varianza,
lo que necesita de algún criterio.
AMISE: Aproximación de MISE mediante una expansión de Taylor.
AMISE =
h
4
4
· µ
2
2

[f
(2)
(x)]
2
dx + (nh)
−1

f(x)dx

K
2
(ψ)dψ (6)
=
1
4
· λ
1
· h
4

2
· (nh)
−1
donde:
λ
1
= µ
2
2

[f
(2)
(x)]
2
dx
34
λ
2
=

[K
2
(ψ)dψ
ψ =

x −x
i
h

µ
2
=

ψ
2
K(ψ)dψ
para el caso de función kernel. Para obtener h

tal que minimize AMISE, diferenciamos
(6) con respecto a h e igualamos a 0.
h
3
λ
1

1
n · h
2
λ
2
= 0 →h

= c · n
−1/5
donde c=(λ
2

1
)
1/5
el que depende del kernel y de la curvatura de la densidad (ver-
dadera).
Elección de h en la práctica:
Podemos notar que x depende de la varianza del Kernel y de

[f
(2)
(x)]
2
dx el que indica
el grado de variabilidad de la densidad. Así, por ejemplo, si la verdadera densidad es
más bien plana entonces λ
1
→0 y c →∞ (ancho de banda muy grande). En contraste,
si la verdadera función es altamente variable, λ
1
→∞ y c →0 (h pequeño).
Con el fin de tener una idea sobra la magnitud de c suponga que K es la densidad
normal estándar y f(x) ∼ N(µ, σ
2
). Algebraicamente se puede determinar que c ∼ 1.06
σ y entonces h=1.06 σ · n
−1/5
.
En Silverman (1986) se compara este último resultado con el h óptimo si la distribu-
ción desconocida realmente fuera una mezcla de dos normales o que fueran funciones
altamente simétricas, encontrandose que esta fórmula es una muy buena aproximación.
Una mejora a este método es reemplazar σ por un estimador robusto de la dispersion
de la muestra, por ejemplo:
h = 0,9A· n
−1/5
donde A = min{ˆ σ, (R/1,34)}
con R, el rango intercuartil.
Una forma alternativa y muy utilizada en muchas aplicaciones semi y no paramétricas
es la Validación Cruzada Generalizada (GCV). Cuando una decisión como suavización
debe realizarse, escoja el parámetro que optimiza el criterio de la función jackknife.
Jackknifing es un procedimiento general donde una cantidad desconocida se estima al
dejar fuera cada observación sucesivamente y estimar, usando las n-1 observaciones
restantes, algo acerca del n-ésimo punto. Por ejemplo, al dejar fuera x
1
usamos los
35
restantes puntos para estimar log
´
f(x
1
) el que denotaremos por
´
f
[−1]
(x
1
). de esta forma,
escogemos h de tal modo de:
m´ax
{h}
i=1
n
¸
i=1
log
´
f
[−i]
(x
i
)
Elección de K(·):
Pagan y Ullah usan K(ψ) mientras que Van der Vaart usa K(y). Pagan y Ullah -
supuesto A.2 (Pág 21) - impone las condiciones estándar para K(·) la que debe ser una
función simétrica (no negativa ?) y que satisfaga los siguientes criterios:
(i)

K(ψ)dψ = 1
(ii)

K
2
(ψ)dψ = µ
2
= 0
(iii)

K
2
(ψ)dψ < ∞
bajo estas condiciones, se demuestra (pág. 27-28) que AMISE puede ser minimizado
para el caso del Kernel con bandwidth uniforme al escoger el siguiente kernel:
K(ψ) =

3
4
(1 −ψ
2
) |ψ| ≤ 1;
0 ∼
conocido como Kernel Epanechnikov(1969).
2
Este tipo de Kernel es no negativo para todo el dominio de x y tiene forma de parábola.
Existe una extensa literatura comparando el MISE de este Kernel con el de otros posibles
Kernels. Los resultados indican que la diferencia entre estos es pequeña. Consecuente-
mente, considerando simplicidad, costos computacionales y la velocidad de convergencia
del estimador de la densidad pueden determinar que Kernel escogemos como apropiado
al problema que estemos analizando. No obstante, la elección de h tiene mucho mayor
impacto que la elección de K(·).
Elección de K(·): Aspectos Adicionales:
Si abandonamos el requerimiento que K(ψ) sea no negativo podemos reemplazar el
supuesto A.2 por A.6 y reducir el AMISE de
´
f(x) en una cantidad apreciable ( O(n
−4/5
)
2
Recordar que ψ =

x−x
i
h

.
36
→ O(n
−2r/(2r+1)
)), con r el valor del orden del Kernel. Sea K perteneciente a la clase
de Kernels simétricos, tal que:

ψ
j
K(ψ)dψ = 1 si j = 0
= 0 si j = 1, · · · , r −1; r ≥ 2
< ∞ si j = r
(momentos de orden (r-1) son cero pero el r-ésimo momento es finito). Estos Kernels se
conocen como “Kernels de orden superior” (orden r). Para emplearlos debemos asumir
que la derivada de orden r es continua).
Se puede demostrar que Kernels de orden superior reducen su AMISE a O(n
−2r/(2r+1)
)
el cual para r grandes es cercano a la tasa paramétrica de O(n
−1
), ello al extender los
términos en la expansión de Taylor).
3
Ejemplo:
Como se mencionó, Kernels de orden superior pueden necesitarse para:
reducir el sesgo en muestras pequeñas.
asegurar que la distribución asintótica de (nh)
1/2
· (
´
f −f) esta centrado en cero.
así debemos generar Kernels cuyos r-1 momentos sean cero. Si r=3 y K(ψ)=(a
0
+ a
1
·
ψ + a
2
· ψ
2
) · φ(ψ) donde φ(ψ) es una densidad N(0, 1), a
0
, a
1
, a
2
deben determinarse
de modo que

K(ψ)dψ = 1 y

ψK(ψ)dψ = 0 =

ψ
2
K(ψ)dψ.
Del hecho que los momentos impares de una normal (0,1) son cero y los pares son:

2j
=
2
j
π
· Γ

2j + 1
2

tenemos que:

K(ψ)dψ = 0 ⇒ a
0
+a
2
= 1

ψK(ψ)dψ = 0 ⇒ a
1
= 0

ψ
2
K(ψ)dψ = 1 ⇒ a
0
+ 3a
2
= 0
3
La secuencia {x
n
} de números se dice que es de orden n
k
, x
n
=O(n
k
), si
x
n
n
k
→ c mientras n → ∞
y c es constante.
37
donde las soluciones son: a
0
= 3/2; a
1
= 0, a
2
= −1/2. Así, el Kernel es:
K(ψ) =
1
2
(3 −ψ
2
)φ(ψ)
cuyos primeros momentos son cero. Este Kernel incluye una mezcla de polinomio de
grado dos y una densidad normal el que puede alcanzar valores negativos !! (en vez de
sumar, datos lejanos se restan).
Otros Tipos de Kernels: bandwidth variable o estimadores de Kernel adap-
tativo
¿Puede la reducción del sesgo lograrse sin tener que utilizar kernels de orden superior?.
La respuesta es Si al escoger diferentes h para x
i
. En general, si x
i
esta en una area
densa, h
i
deberá ser pequeño; mientras las observaciones “outlying” deberán recibir un
h
i
mayor. Hecho de manera correcta O(n
−8/9
) puede lograrse con Kernels adaptativos,
no negativos (equivalente a kernels con r=4). Pero, en la práctica, kernels adaptativos
son más lentos que h uniforme y la teoría es muy compleja.
2.2.2. Estimación de Densidad II: Balanceo Exponencial
La función Kernel, a pesar de su popularidad y facilidad de uso, no permite repro-
ducir momentos mayores de las muestras observadas. Por ejemplo, medianas, intercuar-
tiles u otros similares no son posible de estimar utilizando Kernels.
Una forma novedosa poco convencional de estimación de funciones de densidad es una
variante de aquella propuesta por Barron y Sheu (1991) conocida como Balanceo expo-
nencial (Exponencial Tilting).
Definimos una función de densidad arbitraria f
0
(x); también ψ(x) como un vector de
funciones de x con una dimensión m (es decir, pensar en un momento como E(x), E(x
2
),
E(x
3
), si m=3); y t un vector de m parámetros. Consideremos la siguiente densidad:
f(x; t) =
e
t·ψ(x)
· f
0
(x)

e
t·ψ(x)
· f
0
dx
(7)
Aquí t transforma f
0
(x) en otra densidad. Ahora, suponga que utilizamos la densidad
f(x; t) como un modelo paramétrico de un conjunto de datos, con parámetro t descono-
cido y a ser estimado. El logaritmo de la densidad es:
logf(x; t) = t · ψ(x) +logf
0
(x) −log

e
t·ψ(x)
· f
0
(x)dx
= t · ψ(x) +logf
0
(x) −K(t)
Donde el último término de la derecha representa la función generadora de momentos
38
acumulada. Entonces el log-likelihood es:
logL(t) =
n
¸
i=1
log[f(x; t)] = t ·
n
¸
i=1
ψ(x
i
) +
n
¸
i=1
logf
0
(x
i
) −n · K(t)
La F.O.C para maximizar logL(t) con respecto a t:
∂logL(t)
∂t
=
n
¸
i=1
ψ(x
i
) −n
∂K(t)
∂t
o
¸
n
i=1
ψ(x
i
)
n
=
∂K(t)
∂t
(8)
Así la media de ψ se define para que sea igual a
∂K(t)
∂t
. Aquellos familiarizados con
funciones generadoras de momentos reconocerán que (8) plantea que el estimador MLE
de t es aquel donde E
f(x;t)
ψ(x) = n
−1
·
¸
n
i=1
ψ(x
i
), es decir que la media poblacional
de esta distribución "t-tilde"se iguala a la media muestral para cada componente de ψ.
Ello se puede obtener del siguiente cálculo:
∂K(t)
∂t
=

∂t
log

e
t·ψ(x)
f
0
(x)dx
=

ψ(x)e
t·ψ(x)
f
0
(x)dx

e
t·ψ(x)
f
0
(x)dx
=

ψ(x)

e
t·ψ(x)
f
0
(x)dx

e
t·ψ(x)
f
0
(x)dx
¸
dx
=

ψ(x) · f(x; t)dx
= E
f(x;t)
ψ(x)
la idea es obtener una representación paramétrica que tiene la propiedades de la muestra
obtenida. Por ejemplo: si en la muestra µ=1 entonces:
ψ
1
= x −1 ; ψ
2
= (x −1)
2
; ψ
3
= (x −1)
3
; ψ
4
= (x −mediana)
En el trabajo original de Barron y Sheu las funciones base ψ(x) eran secuencias de las
funciones polinomiales, trigonométricas o spline y x fue reescalado para que estuviera
en el rango [0, 1]. Así, tomando f
0
(x) como la densidad uniforme sobre [0, 1], uno puede
usar polinomios ortogonales de la función uniforme para definir ψ(x). Pero cuantas de
estasψ’s deberían considerarse?. Si se sabe que el logaritmo de la verdadera densidad
39
tiene r derivadas cuadráticamente integrables, (

|D
r
logf(x)|dx < 0) entonces definien-
do m=n
1
2r+1
alcanza una tasa de convergencia de
´
f a f igual a O
p
(n
−2r
2r+1
) el cual es
similar al alcanzado por los Kernels adaptativos (de orden superior)
Algunas Propiedades del Estimador de Balance Exponencial:
Los datos solo entran en la construcción del estimador a través de las medias mues-
trales de las funciones bases ψ(x). En la práctica, de aplicaciones econométricas
construimos las funciones base de tal forma que tengas media cero y las denomi-
namos çondiciones de momentos". Por ejemplo, ψ(x
i
) = x
3
i
− (x
3
) (el cual tiene
media cero) en vez de ψ(x
i
) = x
3
i
.
La formulación de ψ fuera de la noción estadística de funciones "base"nos per-
miten ser flexibles para imponer propiedades sobre la densidad estimada. Podemos
imponer una condición de mediana:
ψ(x) = 1(x > µ) −1(x < µ)
donde µ es la mediana a ser impuesta.
La elección del número de condiciones de momentos m a ser impuestas es análogo
a la elección del Bandwidth de la estimación por Kernel. A menor m mayor es
la influencia de f
0
(x) de la estimación
´
f(x). A mayor m, mayor la influencia que
tiene la secuencia de momentos en la apariencia de
´
f(x); en el límite, a medida que
m se acerca a n (tamaño muestral) la estimada tiende a reproducir la distribución
empírica (no obstante cuando m=n los cálculos colapsan).
Estimación de Densidades Multivariadas:
La extensión de la estimación de densidad por Balance Exponencial para el caso mul-
tivariado es simple: x ahora es multidimensional y ψ(x) deberá incluir momentos como
x
a
1
· x
b
2
para pequeños valores de a y b, también como x
a
1
· x
b
2
· x
c
3
y así sucesivamente
(notar también que la media de x puede ser restada de las expresiones anteriores para
imponer condiciones de momentos). No obstante, a medida que la dimensión aumenta,
la integración numérica que define K(t) se hace mas compleja.
En general, para todos los métodos de estimación incluidos el de Kernel, la dificul-
tad para obtener estimaciones de densidades precisas crece muy rápidamente con el
número de dimensiones.
Para el caso de funciones Kernel, la expansión a dimensiones mayores es bastante di-
recta:
´
f(y, x) =
´
f(z)
1
n · h
q+1
·
n
¸
i=1
K
1

z
i
−z
h

40
donde x tiene dimensión q e y es un escalar.
La ecuación anterior usa el mismo h para cada variable; una práctica habitual es o
bien reescalar los datos componente a componente con el fin de obtener una varianza
unitaria, aplicar el estimador Kernel y transformar de vuelta. Otra alternativa es uti-
lizar un Kernel normal multivariado con una matriz de covarianzas no diagonal donde
la elección natural para la matriz de covarianzas sería proporcional a la matriz de co-
varianzas muestral.
Por otra parte, la función Kernel multivariada K
1
puede incluir la densidad normal
estándar multivariada o bien el producto de q+1 kernels univariados. Sorprendente-
mente, Epanechmikov demostró que el Kernel normal multivariado ( y no el producto
de Kernels Epanechnikov) minimizan el MISE sobre toda la clase de productos de Ker-
nels.
Cabe señalar que si tenemos
´
f(x) podemos manipularlo y obtener:
´
f(x) =

´
f(y, x)dy
o bien:
´
f(y|x) =
´
f(y, x)
´
f(x)
y así sucesivamente. De esto último se desprende que podremos calcular, entre otros
E(y|x) aunque no todos los estimadores no paramétricso de E(y|x) se obtienen de esta
forma.
Ejemplos de Estimaciones de Densidad:
(1) Densidad de Retornos Accionarios: (Pagan y Schwart 1990)
Uno de los primeros trabajos que utiliza la estimación de densidades está relaciona-
do con los retornos mensuales de activos financieros entre 1834 y 1925, con un total de
1104 observaciones para x
i
. Después de determinar los valores mínimos y máximos, un
grupo de 100 observaciones fueron seleccionadas las que pertenecían ea este rango. La
figura 2.1. presenta la estimación de densidad para estos 100 puntos para una función
Gaussiana :
K(ψ) = (2π)
−1/2
e

1
2
ψ
2
y una Espanechnikov:
K(ψ) =
3
4
(1 −ψ
2
) si |ψ| ≤ 1
41
donde ψ =
x
i
−x
h
y h=n
−1/5
´ σ
x
, con n=1104.
Se observa que sólo hay pequeñas diferencias entre estimadores sugiriendo que la elec-
ción entre tipos de kernel no es fundamental.
La figura 2.2 contrasta la densidad estimada con una Normal de una variable aleatoria
con la misma varianza muestral. También se entrega la cota inferior del intervalo de
confianza al 95 %, el cual se calcula como :
(nh)
−1
( 0,2821
. .. .

K
2
(ψ)dψ
·
´
f(x))
42
No hay duda de que la densidad es diferente a la Normal y una de sus características
principales es sus colas mas anchas y gran peak en torno al valor cero. Esto significa que
hay demasiados retornos o muy grandes o muy pequeños para que sean consistentes con
una distribución Normal. Adicionalmente, pareciera ser que hay mas retornos positivos
que negativos dando una idea de que la distribución no es exactamente simétrica.
Complementario a lo anterior, sabemos que :
(nh)
1/2
(
´
f −E
´
f)
d
→N

0, f(x) ·

K
2
(ψ)dψ

cuando n →∞
es decir, que asintóticamente sería una Normal si (nh)
1/2
h
2
−→ 0 mientras n −→ ∞
pero sabemos que h = n
−1/5
σ
x
no cumple con este requerimiento y por tanto hay que
dar cuenta de este sesgo asintótico de alguna forma.
La utilización de Kernels de mayor orden puede ser ua forma de solucionar este proble-
ma. En la Figura 2.3 muestra que el ajuste no mejora mucho existiendo un estimación
con mas sinusoidales. Otra forma de solucionarlo es mediante Kernels adaptativos (ver
forma de estimación en pág. 74 de Pagan y Ullah). Los resultados que se presentan en
la Figura 2.4 tampoco arrojan resultados satisfactorios.
43
(2) Estimación de Densidad Dickey-Fuller:
Como se mencionó, el output de experimentos de Monte Carlo pueden ser utilizados
para realizar análisis no paramétrico particularmente cuando se desea tener una visión
completa de la densidad de un estimador en particular. Un caso interesante es el análisis
de la densidad para el estimador del parámetro en un proceso autorregresivo de primer
orden cuando el verdadero valor del parámetro es la unidad. Esto es :
44
y
t
= ρy
t−1
+e
t
donde ρ = 1
Fuller (1976) entrega tablas para la densidad n(´ ρ
ols
− 1) las que son ampliamente uti-
lizadas para determinar el orden de integración de una serie.
De esta forma, este experimento es estimar por Montecarlo la densidad n(´ ρ − 1) con
n = 1000 series de y
t
, t = 1, · · · 1000, y y
0
y e
t
obtenida de una N(0, 1). Si cada serie y
t
es designada como {y
(i)
t
}
1000
i=1
, entonces:
´ ρ
(i)
=
¸
1000
¸
t=1
(y
(i)
t=1
)
2
¸
1000
¸
t=1
y
(i)
t−1
· y
(i)
t
, x
i
= 1000(´ ρ
(i)
−1)
y donde {x
i
}
1000
i=1
.
La figura 2.5 muestra la la estimación de la densidad de n(´ ρ
ols
−1) cuando ρ = 1 usando
Gaussian y Espanechmikov kernels con h = 0,9An
−1/5
, donde A=min{ˆ σ,
R
1,34
} = 0,31
y ´ σ
x
= 3,47. Como se aprecia, existen pocas diferencias entre ambas.
45
46
Estimación de Densidad Univariada por Balanceo Exponencial:
Suponga que queremos construir una densidad g(x) con ciertas propiedades y cuen-
to con una estimación preliminar o densidad "base"f
0
(x) la que puede o no tener las
propiedades deseadas. En particular, las "propiedades"son condiciones sobre los mo-
mentos, las que pueden ser expresadas como:

γ(x)g(x)dx = M (9)
47
donde asumiremos que el dominio de x es conocido (por ahora). Podemos reescribir la
ecuación anterior como sigue:

(γ(x) −M) · g(x)dx = 0 o bien

ψ(x)g(x)dx = 0
donde ψ(x) es una condición de momento construida deliberadamente (no confundir
con ψ(x) = (
x−x
i
h
), la que se iguala a cero. ψ(x) puede tener una dimensión m.
Considere:
f(x; t) =
e
λ·ψ(x)
· f
0
(x)

e
λ·ψ(x)
f
0
(x)dx
Definiendo:
M
o
(t) =

e
t·ψ(x)
· f
o
(x)dx
=

e
t·ψ(x)
· f(x; o)dx
y, en forma similar:
M
λ
(t) =

e
t·ψ(x)
· f(x; λ)dx
=

e
t·ψ(x)
·
e
λψ(x)
· f
0
(x)
M
0
(λ)
dx
Para hacer las cosas más fáciles, definamos:
logM
0
(t) ≡ K
0
(t)
Ahora, podemos definir λ en f(x; λ) de tal modo que f(x; λ) es la ( o una) función g(x)
que buscamos. Estos requiere que:

ψ(x) ·
e
λψ(x)
· f
0
(x)
M
0
(λ)
dx = 0 (10)
donde podemos observar que (10) es idéntica a
∂K
0
(λ)
∂λ
(ver notas anteriores), de esta
manera resolviendo
∂K
0
(λ)
∂λ
= 0 para λ nos entrega valores para λ que tenga propiedades
requeridas.
Para el caso univariado, suponga que tomamos una secuencia de funciones γ(x) y cal-
culamos su media muestral de forma de determinar µ. Si definimos ψ(x) = γ(x) − µ
y seguimos el procedimiento anterior para calcular f(x, λ), entonces si se escoge ade-
cuadamente la secuencia γ(x) (la que incluye el número de funciones a medida que la
muestra aumenta), el estimador
´
f(x) = f(x; λ) converge a la verdadera densidad a la
misma velocidad que los Kernels reducidores de sesgo, independientemente de la forma
48
escogida para f
0
(x).
Ejemplos de condiciones de Momentos:
mediana: 1(x < µ) −1(x > µ) = 0
α quantil: α · 1(x < µ) −(1 −α) · 1(x > µ) = 0
Estimación por Kernels: puntos adicionales:
Deaton(1997), pág 174.
"....an adequate procedure is to consider a number of different bandwidths, to plot the
associate density estimates, and to judge by eye weather the plots are under smoothed
or over smoothed...there should also be some preference for undersmoothing when using
graphical methods; the eye can readly ignore variability that it judge to be spurious,
but it cannot discern features than have been covered up by oversmoothing".
Ejemplo: log PCE (per capita expenditure) en Sudáfrica.
´
f
w
(x) =
1
h
n
¸
i=1
v
n
K

x −x
i
h

K = Epanechmikov
v
n
: pesos normalizados (pesos normalizados por su suma, es decir que sumen 1).
Posiblemente en la realidad sea como A pues están incluidos blancos y negros con
claras diferencias en sus PCE’s.
h’s grandes o oversmoothing pueden esconder propiedades verdaderas de los datos.
49
Pero h’s pequeños hacen que la serie tenga muchos saltos, quizás exagerando la
verdadera distribución de los datos.
2.3. Estimación de los Momentos Condicionales
2.3.1. Estimadores Tradicionales
Una vez revisado los aspectos generales de estimación no paramétrica de una den-
sidad de probabilidades, el siguiente paso que debemos dar está relacionado con la
estimación de funciones de momentos condicionales. Ello debido a que en general, los
modelos econométricos pueden ser visto como una función de momento condicional, en
particular como una valor esperado condicional. De esta manera, a diferencia de una
estimación de densidad bivariada o multivariada nos interesa determinar la forma que
tiene la relación entre un conjunto de variables x y su contraparte y. Con este fin,
adoptaremos la siguiente notación:
Y = E(Y |X = x) +u = m(x) +u
donde, en general diremos que Y, X son variables aleatorias poblacionales y x
i
, y
i
pueden
ser ya sea variables aleatorias o valores particulares de la muestra dependiendo del con-
texto.
En primer lugar, debemos notar que si tenemos valores repetidos de x, podemos prome-
diar los valores correspondientes de y para obtener un estimador de m(x). NO obstante
l,o anterior, si no tenemos varias observaciones de x, podemos tomar valores muestrales
{y
i
, x
i
} donde x
i
esta cercano a x y promediar los y’s correspondientes. O bien, mas
sofisticado aún, tomar un promedio ponderado de los y’s dependiendo cuan cerca esta
el correspondiente x
i
de x. La idea en general, es analizar la estructura o dispersion
que tienen los valores de y, los cuales son obtenidos a partir de los x en relación de
como están distribuidos dichos x. Veamos esto formalmente. Podemos definir entonces,
el valor esperado de y condicional en x como :
m(x) =


−∞
y ·
f(x, y)
f
1
(x)
dy (11)
donde f
1
(x) es la densidad marginal de X en x. Si sustituimos estimadores de Kernels,
los que se obtiene de la muestra, con ancho de ventana fijo h para f(y, x) y para f
1
(x),
entonces obtenemos (después de un tortuoso camino algebraico, p. 83-84 de Pagan y
Ullah), la siguiente expresión para el estimador de dicha esperanza condicional.
´ m(x) =
¸
n
i=1
K

x
i
−x
h

· y
i
¸
n
i=1
K

x
i
−x
h
(12)
el que se conoce como el estimador de Nadaraya-Watson.
Para estimar m(x) se pondera cada observación y
i
en proporción a la contribución
50
que los x’s de cada y
i
hacen para la estimación de la densidad marginal de X a x.
El estimador de Nadaraya-Watson puede ser visto como una suma ponderada de aque-
llos y
i
’s que corresponden a x
i
en una vecindad de x.
Una generalización de esta idea es la de estimar m(x) de la siguiente forma:
¯ m(x) =
n
¸
i=1
w
n
i
(x) · y
i
(13)
donde w
n
i
= w
n
(x
i
, x). Si los w
n
i
son no negativos y suman 1, podemos pensarlos en
ellos como pesos probabilísticos.
Veamos esta situació en el siguiente gráfico donde se han considerado sólo dos pun-
tos.
yi
m(x)
yj
xi X xj
¯ m(x) =
n
¸
i=1
w
n
i
(x) · y
i
ahora, si n=2, tenemos que :
= y
i
· w
n
(x
i
, x) +y
j
· w
n
(x
j
, x)
=
K

x
i
−x
h

· y
i
+K

x
j
−x
h

· y
j
K

x
i
−x
h

+K

x
j
−x
h

Pues bien, pensando ahora mas en el contexto de un modelo de regresión, donde la
especificación tiene la estructura de una esperanza condicional, podríamos pensar en
m(x) como una forma funcional conocida con parámetro β. De esta manera, el estimador
51
OLS de β se encontraría al minimizar la siguiente expresión:
n
¸
i=1
(y
i
−m(x
i
, β))
2
De esta forma, podríamos considerar el siguiente criterio:
n
¸
i=1
w

n
i
(x) · [y
i
−m(x)]
2
mediante el cual se le entrega un ponderador mayor (peso mas alto) a aquellos x
i
que
están mas cerca de x. Si m(x) es considerado como un solo parámetro a estimar (pensar
en la constante en un modelo de regresión), entonces tenemos que:
n
¸
i=1
w

n
i
(x) · [y
i
−m]
2
(14)
con una solución teniendo una estructura como en (13) donde:
w
n
i
=
w

n
i
(x)
¸
n
i=1
w

n
i
(x)
Notar, que lo que hacemos es tratar de estimar los β para lo que necesitamos una
estimación (en este caso no paramétrica) de la esperanza condicional. Para el caso
del estimador de Nadaraya-Watson los pesos para la estimación de dicha esperanza
condicional son de tal forma que - al comparar (14) con (12)- escogemos los m de tal
forma de minimizar:
¸
[y
i
−m]
2
· K

x −x
i
h

Una extensión natural a esta forma de estimación es la denominada "locally linear
regression". En ésta se escoge m y β con el fin de minimizar la siguiente expresión :
n
¸
i=1
[y
i
−m−(x
i
−x)β]
2
· K

x −x
i
h

De esta manera, mientras el estimador Nadaraya-Watson ajusta una constante a los
datos cercanos a x, el estimador LLR ajusta una línea recta. Claramente, funciones más
complejas, por ejemplo, polinomios de (x
i
−x) pueden ser agregadas a esta formulación
para así obtenre "locally polynomial regression".
El siguiente gráfico muestra una de estas LPR en que se han utilizados polinomios
de Hermite para aproximar la función.
52
1
f1(x)=1
f2(x)
f3(x)
donde, en esta caso, f
1
(x) = 1, f
2
(x) = a + bx y f
3
(x) = c + dx + ex
2
. Así, la linea
continua se aproxima mediante una combinación de las funciones f
i
(x). Formalmente :
m(x) = E[Y |X = x] = G
¸
q
¸
k=1
f
k
(x
k
)
¸
con q= número de funciones
En el caso particular de utilización de polinomios de Hermit, se debe cumplir que :

f
1
(x) · φ(x) = 1

f
2
(x) · f
1
(x) · φ(x) = 1 pero

f
2
(x) · f
1
(x) = 0
y así sucesivamente donde se imponen condiciones de ortogonalidad entre las funciones
escogidas.
Entre las ventajas de los modelos de LLR podemos destacar las siguientes:
pueden ser analizad con las técnicas de regresión estándar.
tiene las mismas propiedades estadísticas independientemente si x
i
son estocásti-
cas o deterministicas.
2.3.2. Estimación de momentos condicionales mediante series:
Una forma alternativa de estimar m(x) = E(y|x) es aproximar m(x) por una función
lineal de un vector z de dimensión M, con z = z(x) donde el conjunto de funciones z se
denomina "base". Elecciones obvias de la base pueden ser x, x
2
, x
3
, o similares o bien var-
ios sistemas de polinomios ortogonales (por ejemplo, los ya mencionados Hermit). Una
53
forma más compleja son series trigonométricas sin(kx), cos(kx) para k = 1, ...., M/2.
La idea es estimar θ en el modelo:
y =
n
¸
i=1
z
ik
θ
n
+u
i
De esta manera, m(x) puede ser aproximada por ´ m(x) =
¸
M
k=1
z
k
(x)θ
k
.
Esta forma "funcional"(en el sentido asintótico) si M crece en forma proporcional a
n y si ´ m(x) se aproxima a m(x) suficientemente bien. Una sugerencia de base que
funciona bastante bien es una forma funcional flexible de series de Fourier donde las
funciones base tienen las siguientes formas:
sin(x
1
+x
2
), sin(x
1
+x
3
), sin(x
1
−x
3
),.....
sin(2(x
1
+x
2
)), sin(2(x
1
+x
3
)), sin(2(x
1
−x
3
)),....
junto con términos en cosenos y polinomios (ver Pagan y Ullah p.124-125).
En geneal la aproximación multivariada mediante series de Fourier tiene la siguiente
forma;
y
i
=
L
¸
l=1
J
¸
j=1

jl
cos(jk

l
x
i
) +δ
jl
sin(jk

l
x
i
)]
con k

l
vector de valores entre -1 y 2 (ver siguiente tabla ) y L y J realcionados con M/2.
La idea central de esta forma flexible, desarrollada por Gallant, es que dichas series
aproximan bastante bien m(x) para el caso multivariado. En particular bajos ciertos
supuestos (B1-B7, en teorema 3.9 Pagan y Ullah), se cumple que:
u
−1/2
[E( ´ m(x)) −m(x)] →0 mientras n →∞
con u = σ
2
(Z

(Z

Z)
−1
Z).
54
Conditional Moment Estimation
Tabla3.1. Multi-indices {k
l
} for q=3. K

=3
k

1 2 3
(1,0,0) (1,1,0) (1,1,1)
(0,1,0) (1,0,1) (1,-1,1)
(0,0,1) (0,1,1) (1,1,-1)
(1,-1,0) (1,-1,-1)
(1,0,-1) (0,1,2)
(0,1,-1) (0,2,1)
(1,2,0)
(1,0,2)
(2,1,0)
(2,0,1)
(0,1,-2)
(0,2,-1)
(1,-2,0)
(1,0,-2)
(2,-1,0)
(2,0,-1)
Comparación entre regresión paramétrica y no paramétrica:
1. No es posible calcular la esperanza condicional para valores de x donde la densidad
es cero. Si x no puede ocurrir no tiene sentido condicionar, y en su ocurrencia el
intento de calcular la regresión en estos caso implica dividir por cero; ver (12).
2. No obstante, cálculos para valores cercanos a cero pueden ser obtenidos pero con
intervalos de confianza (varianza) muy altos y por lo tanto, la imposición será
alta.
3. A diferencia de la regresión paramétrica, es imposible utilizar regresiones no
paramétricas para calcular predicciones fuera de la muestra.
4. La gran ventaja de la regresión no paramétrica es el hecho que no asume for-
ma funcional alguna permitiendo no solo que los datos "escojan"los parámetros
estimados sino que la forma de la curva también.
2.3.3. Sesgos en las regresiones usando Kernels:
Existen dos fuentes de sesgos en una regresión mediante Kernel. Estos se ilustran
en el siguiente gráfico.
55
x1 x2
x3
y3
y2
y1
m1
m2 Bandwidth
xa
xb
y2*
y3*
Sources of Bias in kernel regressions
Los puntos x
1
, x
2
, x
3
están igualmente espaciados y donde tenemos dos funciones de
regresión, a saber, m1 la que es una línea recta y m2 una curva.
Partamos con el caso de la función m2. Dado el ancho de banda h sólo los puntos
x
1
, x
2
y x
3
contribuyen a la estimación de y
2
, En consecuencia, este valor será un
promedio ponderado entre y
1
, y

2
e y

3
donde y

2
captura la mejor parte del peso y con
y
1
e y

3
tomando el mismo peso y con los pesos sumando 1.
Dado que la función de regresión es cóncava, este promedio ponderado será menor
que y

2
y por lo tanto la estimación estará sesgada hacia abajo. Si la verdadera función
fuera convexa, el sesgo será hacia arriba y por lo tanto, sólo en el caso lineal no existiría
sesgo. No obstante, el sesgo sería cada vez menor a medida que el tamaño de la muestra
aumentara ya que el bandwidth será cada vez menos y, en el límite, salo x
2
contribuirá
a estimar la media condicional.
En consecuencia, transformaciones previas de los datos que tiendan a la linealización de
la relación (como logs) serán útiles para eliminar esta clase de sesgo en la regresión por
kernel. Desafortunadamente, no todo el sesgo puede ser eliminado mediante un modelo
lineal.
Al considerar los valores extremos también cierto sesgo puede aparecer. Suponga que
x
1
es el valor menor de las x’s en la muestra. Cuando tratamos de estimar la regresión
por kernel en x
1
, el promedio de los puntos vecinos sólo incluirán aquellos que están
a la derecha y por lo tanto existirá un sesgo hacia arriba en la estimación (si la regre-
sión tiene pendiente positiva). Un problema análogo se observará en la otra parte de la
muestra. Este sesgo disminuye a medida que nos movemos de las puntas hacia el centro
pero si el bandwidth es amplio este sesgo puede ser distorsionador.
56
La pregunta que surge es, si a pesar de tener una relación lineal, la cual evita el primer
sesgo ya discutido, cómo se puede eludir el segundo sesgo. La respuesta es ampliar
la muestra (es decir, n → ∞). Pero que sucede si no demos hacer esto en la práctica.
Una forma, es la ya discutida aproximación utilizando series, pero existen otras, veamos.
Una forma es imponer una estructura de los momentos condicionales, el cual, entre
otras cosas nos ayuda a solucionar el problema del çurse of dimensionality"que surge al
utilizar las aproximaciones por series.
Por una parte, existen un tipo de aproximaciones que se denominan Modelos Aditivos
Generalizados los que tiene la siguiente estructura :
y
i
=
q
¸
j=1
m
j
(x
ij
) +u
i
donde m
j
son funciones de variables unitarias con E[m
q
(x
q
)] = 0 condición necesaria
para su identificación. Supongamos que el número de regresores q, es igual a 2.
m(x
1
, x
2
) = m
1
(x
1
) +m
2
(x
2
)
entonces, al aplicar valor esperado tenemos que:

m(x
1
, x
2
)f(x
2
)dx
2
=

{m
1
(x
1
) +m
2
(x
2
)}f(x
2
)dx
= m
1
(x
1
) + 0
y de esta manera, estimadores de f
2
(x
2
) y m(x
1
, x
2
) entregan un estimador de m
1
(x
1
).
Este procedimiento se puede realizar en forma análoga con el fin de obtener m
2
(x
2
) y
así sucesivamente.
Por otra parte, si bien sabemos que :
m
1
(x
1
) =

m(x
1
, x
2
)f(x
2
)dx
2
ya que

m(x
2
)f(x
2
) = 0 dado el supuesto de que E(m
2
(x
2
)) = 0. Entonces, m(x
1
, x
2
)
puede ser estimado en forma no paramétrica ´ m(x
1
, x
2
) =
¸
n
j=1
w
j
(x
1
, x
2
)y
j
dejando
sólo el problema de que hacer con f
2
(x
2
).
Una forma de llevar a cabo esta última etapa es mediante el reemplazo de f(x
2
) por
una función determinística f(x
2
) con la condición que integre a la unidad.
57
De esta forma, finalmente, el estimador de m
1
(x
1
) será:
´ m
1
(x
1
) =

´ m(x
1
, x
2
)f(x
2
)dx
2
=
n
¸
j=1
y
j
·

w
j
(x
1
, x
2
)dF(x
2
)
=
n
¸
j=1
w
j
(x
1
)y
j
donde: w
j
(x
1
) =

w
j
(x
1
, x
2
)f(x
2
)dx
2
.
Otra forma alternativa de la estimación de momentos condicionales es el modelo "Lineal
Parcial". Supongamos que la variable y depende nuevamente de dos variables aleatorias
x
1
y x
2
estructura que puede ser descrita de la siguente forma:
y
i
= x

1i
β +g
1
(x
2i
) +u
i
Dado que E(y
i
|x
2i
) = E(x
1i
/x
2i
)β +g
1
(x
2i
), tenemos que:
y
i
−E(y
i
/x
2i
) = [x
1i
−E(x

1i
/x
2i
)]

β +u
i
donde β puede ser estimado vía OLS una vez que E(y
i
|x
2i
) y E(x

1i
|x
2i
) han sido
reemplazados por sus estimadores tipo kernel u otro similar. Así, g
1
(x
2i
) puede ser
recobrado de la siguiente manera:
g
1
(x
2i
) = E(y
i
|x
2i
) −E(x

1i
|x
2i
)

β
Notar la aparición de β en estas dos últimas ecuaciones. Ello nos lleva al mundo de la
"estimación semi-paramétrica", donde existen parámetros de interés económico en un
modelo de características no paramétricas.
2.3.4. Ejemplos de aplicaciones de estimación de momentos condicionales
Di Nardo y Tobias (JEP 2001).
Modelo : como afecta al salario por hora (en logaritmos) la habilidad cognitiva, me-
dida por un aprueba estándar, y nivel de educación, medida como el máximo nivel de
educación alcanzado por los individuos entrevistados.
Estimación: regresión por kernel del tipo
y
i
= m(x
i
) +u
i
58
donde el estimador de m(x
0
) es denotado por α

o
, el cual minimiza el siguiente problema
de mínimos cuadrados ponderados:
m´ın
α
0

1
n
¸
i=1
¸
(y
i
−α
0
−α
1
(x
i
−x
0
))
2
K

x
i
−x
0
h

Para este caso particular, la variable educación, fue separada en 5 categorías y para la
variable habilidad cognitiva se creo una grilla de 20 puntos separados uniformemente
los que denotaban aquellos individuos desde 0.3 desviaciones estándar bajo la media de
esta variable hasta 1,5 desviaciones estándar sobre la media.
De esta manera se necesitaron cinco regresiones no paramétricas con el fin de describir
la relación entre habilidad y (el log) de los salarios por hora al interior de cada grupo
educativo. Estos 5 valores estimados se agruparon de modo de graficar la esperanza
condicional de log wages sobre el espacio habilidad-educación.
59
Comentarios:
Con respecto al Bandwidth: el de la izquierda se obtuvo con un h óptimo de
acuerdo con los criterios ya vistos. Aquel de la derecha es con h más pequeño, y
por ende, más "saltos".
Con respecto a los resultados: salarios suben a medida que la educación sube
dado un nivel de habilidad; excepto en habilidad baja y educación alta, lo que
es un problema de disponibilidad de datos más que de inconsistencia económica.
También para niveles altos de educación existen retornos crecientes a los niveles
de educación más bajos donde tiene forma de U invertida.
Otro ejemplo:
Ahora bien veamos resultados mediante el uso del modelo semi paramétrico “partially
linear model” entre otras cosas, para ver el aumento del “curse of dimensionality” y los
beneficios en términos de ahorro de costos computacionales. Para ellos consideremos
este sencillo modelo:
y
i
= z
i
β +m(x
i
) +ε
i
Una forma de estimar un modelo como este , es la siguiente:
(i) Ordenar los datos por valores ascendentes de x (aquellos que deseamos tratar no
paramétricamente). Calcular primeras diferencias de todos los datos ordenados.
(ii) Obtener un estimador de β usando diferencias de las variables z e y [esto es :∆y
i
=
β
0
∆z
i
+u
i
]
(iii) Ajustar la variable dependiente original y
i
al sacar el efecto de las variables z.
y

i
= y
i
−z

i
β
0
(iv) Obtener una regresión lineal local no paramétrica usando y

i
y x
i
para obtener un
estimador de m.
Veamos una aplicación práctica de este modelo para el cual se ha generado 300 puntos el
que incluye componentes paramétricos como también no paramétricos con la siguiente
estructura:
y = 2z
1
+z
2
+m(x) +ε
donde m(x) = 0,3exp[−4(x + 1)
2
] + 0,7exp[−16(x −1)
2
] y con ε ∼ N(0, 0,01I
n
).
Además x es generado uniformemente en el intervalo [-2,2] y z
1i
∼ N(0.5x
i
, 1) y z
2
independientemente generado a partir de una t-student con 4 grados de libertad.
Los siguientes gráficos muestran la verdadera así como los resultados de las variadas
60
estimaciones, concentrándose en la parte no paramétrica.
2.4. Estimación Semiparamétrica de modelos con variables de elec-
ción discreta
Finalmente retornamos al punto que habíamos dejado durante el primera sección
de estas notas y que tenía que ver con la estimación de modelos con variable depen-
diente binaria. Recordando lo que se había mencionado, los modelos analizados para
modelar de elección discreta descansan en forma imprtante sobre los supuestos que se
asuman acerca de la distribución de los errores. Particularmente, dada la no linealidad
en los parámetros que resultan de escoger la función logística o normal acumulada para
estimar, la violación del supuesto acerca de la distribución de los errores generarán es-
timadores inconsistentes.
Lo anterior motivó la búsqueda de especificaciones mas flexibles acerca de la distribu-
ción de los errores. El mundo no paramétrico ofrece una alternativa de solución para
estos casos.
61
No obstante lo anterior, vimos que si utilizamos especificaciones no paramétricas para
determinar valores esperados condicionales nos enfrentaremos al problema del curse of
dimensionality, el cual se agrava mientras mas regresores incorporamos en las estima-
ciones.
Como vimos, una forma de salir al paso es realizar estimaciones del tipo semiparamétri-
ca pueda así esquivamos este último problema y nos concentramos en la variable de
interés (ó aquella generadora del problema).
Retornemos a la estimación paramétrica del modelo de elección binaria MEB el cual
utilizaremos como benchmark.
y

i
= x

i
β +u
i
donde y

i
es la variable no observada o latente y el econometrista sólo observa si y

es
positivo o no (o y
i
es 1 o 0). Si asumimos que u
i
es i.i.d independiente de x, entonces:
P[y
i
= 1] = P[y

i
> 0] = P[x

i
β +u
i
> 0]
= P[u
i
> −x

i
β]
= F[x

i
β] =: F
i
bajo la condición que u esta simétricamente distribuido entorno a 0.
4
.
Como vimos, cuando u se distribuye normal, F(·) es la distribución normal acumu-
lada y el modelo se denomina Probit; cuando u es una distribución logística F(·) es
e
u
(1+e
u
)
y el modelo se denomina Logit.
La función de verosimilitud para β en ambos casos
5
viene dada por:
logL =
n
¸
i=1
{(1 −y
i
) · log(1 −F
i
) +y
i
· logF
i
} (15)
con las condiciones de primer orden siguientes:
∂logL
∂β
=
n
¸
i=1

∂F
i
∂β

F
−1
i
(1 −F
i
)
−1
(y
i
−F
i
) = 0 (16)
Alternativamente, podríamos estimar el modelo no-lineal y
i
= F(x

i
β) + u
i
, el cual
presume una forma funcional conocida para F(·), por mínimos cuadrados no-lineales,
el cual tiene las siguientes FOC’s:
n
¸
i=1

∂F
i
∂β

(y
i
−F
i
) = 0 (17)
4
Si no deseamos imponer simetría, entonces P(y
i
= 1) = 1 −F(−x

i
β) = g(x

i
β))
5
y en general, para cualquier modelo de elección binaria
62
Una forma de interpretar las condiciones de primer orden del estimador máximo verosímil
es que en ellas se "pesan"las FOC del mínimo cuadrado no lineales (NLS) en forma
apropiada para correguir la heterocedasticidad presente del error (y
i
−F
i
).
Es importante notar que F(·) es una función del escalar x

i
β; de ahí el nombre de
modelo índice unitario (single-index model).
Debido a esta dependencia, la esperanza condicional está basada en este índice x

i
β
y no en x
i
. Si β fuera conocido, y deseáramos estimar la probabilidad de una decisión
positiva (es decir, y
i
= 0 ó y

i
> 0) dadas las características del individuo x
i
, métodos
no- paramétricos podrían ser empleados para estimar dicha esperanza condicional al
usar y
i
y z
i
= x

i
β como datos. Notar que no se debería usar y
i
, x
i
pues no captarán la
naturaleza de índice único del modelo).
2.4.1. Normalización de los parámetros en un contexto semi-paramétrico.
En el mundo paramétrico, la escala de los errores se ha normalizado a 1 y una me-
dida de su ubicación central.
6
Si no deseamos imponer restricciones a supuesto alguno
sobre el error en el mundo no paramétrico, deberemos imponer, eso si, algún tipo de
normalización sobre los parámetros a estimar (después de todo, menos restricciones so-
bre los errores no pueden incrementar el número de parámetros identificables).
La normalización más conveniente (ver Pagan y Ullah) es imponer la condición de
constante igual a cero y escalar el coeficiente de uno de las componentes de x como 1,
donde esta última variable escogida debe ser continua. Así, tenemos :
x

i
β = x
2i
β
2
+· · · +x
qi
β
q
= β
2
(x
2i
+x
3i
θ
1
+· · · +x
qi
θ
q−2
)
= β
2
· v(x
i
, θ)
donde
v(x
i
, θ) = x
2i
+x
3i
θ
1
+· · · +x
qi
θ
q−2
con θ
j
=
β
j+2
β
2
j=1, · · · , q − 2 y donde θ es identificable. Todo esto dependerá de si
se puede identificar correctamente una variable independiente continua con coeficiente
no-cero (es decir β
2
= 0). La función v(x
i
, θ) es denominada "el índice
2
no tiene nece-
sariamente que ser lineal. Lo esencial es que la forma funcional entre los parámetros,
sea conocida y uno de estos parámetros puede ser normalizado a 1.
No olvidar que los modelos donde P(y = 1|x) = P(y = 1|v(x, θ) se denominan modelos
de índice único (i.e. propensity score de Heckman!!).
6
en logit y probit la medida se define como cero
63
Existen dos formas principales para evaluar θ semiparametricamnte, una al resolver
las condiciones de primer orden como (16) o (17), ó bien al maximizar (15) donde F(·)
y sus derivadas son reemplazadas por las estimaciones no paramétricas correspondientes
de la media de y
i
condicional en v(x
i
, θ). El primero de ellos se denomina estimador
Ichimura (1993) y el segundo el estimador de Klein y Spady (1993) donde ambos alcan-
zan el limite de eficiencia no paramétrica.
7
.
2.4.2. Estimador de Ichimura: Mínimos Cuadrados Semiparamétricos
La idea central de este estimador es la siguiente:
y
i
−E(y|x
i
) = y
i
−F(v(x
i
, θ
0
))
= y
i
−m(v(x
i
, θ
0
))
donde F es desconocida y v es conocida, y θ
0
es el verdadero valor del parámetro θ. En
consecuencia, un estimador de θ (es decir,
´
θ) puede surgir al aplicar mínimos cuadrados
a:
n
¸
i=1
{y
i
− ´ m(v(x
i
, θ))}
2
donde ´ m puede ser estimado, por ejemplo, por Nadaraya-Watson y v me lo doy. Aquí,
´ m es el estimador no paramétrico de E(y|v(x, θ)).
Las condiciones de primer orden para θ son:
n
¸
i=1
∂ ´ m[v(x
i
, θ)]
∂θ
· (y
i
− ´ m[v(x
i
, θ)] = 0
La eficiencia de esta técnica depende de la habilidad para estimar m[v(x
i
, θ)], es decir, de
la velocidad de estimación. Ello impone ciertas restricciones sobre los anchos de banda h
si se utilizan métodos de kernel. No obstante, si son bien seleccionados se podrá obtener
consistencia n
1/2
y normalidad. Esto es:
n
1/2
(
´
θ −θ
0
)
d
→N(0, D
−1
V D
−1
)
con V = var(n
1/2
v(θ
0
, τ
o
) (ver Pagan y Ullah p.280).
2.4.3. Estimador de Klein-Spady:
Dado que v(x, θ) tiene un coeficiente no cero en una variable continua, entonces posee
uns distribucíón contínua, por ejemplo, f(v). Usando v para abreviar v(x, θ) podemos
7
análogo al límite de eficiencia de Cramer-Rao (Pagan y Ullah p.277, 280)
64
escribir la siguiente relación:
P(y = 1|x) = P(y = 1|v)
=
f(y = 1|v)
f(v)
=
f(v|y = 1) · P(y = 1)
f(v|y = 1) · P(y = 1) +f(v|y = 0) · P(y = 0)
Todas las cantidades que aparecen en este último término pueden ser estimadas; las
densidades condicionales por estimadores de densidad no paramétrica y las probabili-
dades incondicionales por las medias muestrales.
Usando
´
P(y = 1|v) para denotar un estimador obtenido a partir de la sustitución
de los estimadores anteriores, una forma funcional análoga al ML paramétrico puede
ser escrita de la siguiente manera:
logL =
n
¸
i=1
(1 −y
i
)log(1 −
´
P(y = 1|v)) +y
i
· log(
´
P(y = 1|v)) (18)
Diferenciando con respecto a θ, tenemos :
∂logL
∂θ
=
n
¸
i=1


´
P(y = 1|v
i
)
∂θ

·
´
P(y = 1|v
i
)
−1
·

1 −
´
P(y = 1|v
i
)

−1
·

y
i

´
P(y = 1|v
i
)

= 0
De nuevo este estimador dependerá de la velocidad en la estimación de P(y=1|v). De
ser así, el estimador encontrado alcanzará el límite de eficiencia NP.
¿Cómo se hace esto en la práctica?
Todos los estimadores se obtienen de procesos iterativos. En el caso de KSE,
primero se escoge un β, b
(0)
ks
el cual entrega f(v|y = 1), f(v|y = 0). Notar que los
P(y = 1) y P(y = 0) se obtiene de la muestra.
A partir de ellos se obtiene un
´
P(y = 1|v) en cual se incluye en (18) y se maximiza
obteniendo b
(1)
ks
.
Este último se compara con b
(0)
ks
y si es muy distinto se hace todo esto de nuevo.
Notar que en cada iteración se deben estimar los kernels de vuelta ahora con
distintos v. En particular, para KSE:
f(v|y = 1) =
1
n · P(y = 1) · h
n
·
n
¸
i=1
y
i
K ·

v −x

i
b
ks
h
i

y
f(v|y = 0) =
1
n · (1 −P(y = 1)) · h
n
·
n
¸
i=1
(1 −y
i
)K ·

v −x

i
b
ks
h
i

con n siendo el número de observaciones, h
n
: bandwidth y K: kernel.
65
Extensiones KSE: ver Lee(95) para varias elecciones (polychotomous) aunque KSE
no llega al límite inferior NP.
2.4.4. Otros estimadores No paramétricos para los modelos de elección bi-
naria
Aquí entregamos una lista acotada de otros estimadores que sugiere la literatura
aunque no son muy utilizados en la práctica.
1. Manski: Maximun Score Estimator
Esta basado en la siguiente función objetivo:
Q
n
(β) =
n
¸
i=1
y
i
· 1(x

i
β > 0) + (1 −y
i
) · 1(x

i
β < 0)
el cual es n
1/3
consistente, distribución límite no-normal y candidato natural para
hacer inferencia vía bootstrap, la consistencia depende de F(0) = 0,5 (mediana).
2. Horowitz: Smoothed Maximum Score Estimator
La idea básica es reemplazar la función indicador (1(·)) en el estimador de Manski
por una función suavizante la cual se acerque a la función indicador a medida que
n crece.
Ver paper Gerfin (1996).
66
3. Extensiones del Modelo Básico
Una vez que ya hemos analizado con cierto grade de detalle modelos de elección
binaria, en este capítulo revisaremos algunas extensiones del modelo básico binario.
Comenzaremos con el análisis de datos grupales para luego continuar con modelos para
situaciones con mas de dos elecciones.
3.1. Análisis de datos Grupales
En general, existen dos formas de analizar respuestas binarias. Una en forma indi-
vidual; es decir cada observación esta formada por la respuesta del individuo y un vector
de regresores asociados a él [y
i
, x
i
] la cual es la que hemos analizado hasta ahora. La
segunda alternativa es en forma grupal. Bajo este marco, los datos consisten en propor-
ciones de observaciones, los que se obtienen observando la respuesta de n
i
individuos,
todos ellos con los mismos valores para el vector de características x.
Existen a lo menos dos formas de estimar modelos de datos grupales.
1. Máxima Verosimilitud:
Si asumimos que existen J clases de grupos de individuos donde las características
de éstos x son las mismas al interior de cada clase, entonces
P(y
i
= 1) = F(x

i
β)
pero cuidado, ahora x
i
en un conjunto de variables las que sólo difieren entre gru-
pos y no al interior de ellos.
En forma análoga al caso individual, podemos definir la función de verosimili-
tud (en logaritmos) para cada individuo, de la siguiente forma :
logL =
n
¸
i=1
¸
y
i
· log(F(x

i
β)) + (1 −y
i
) · log(1 −F(x

i
β))
¸
Ahora, si los x son constantes al interior de cada clase j entonces la función
anterior puede ser re escrita como sigue :
logL =
J
¸
j=1
¸
p
j
· log(F(x

j
β)) + (1 −p
j
) · log(1 −F(x

j
β))
¸
(19)
donde p
j
=
1
n
j
·
¸
n
j
j=1
y
i
es la proporción de respuestas igual a "1"en la clase j y
con n
1
, · · · , n
j
el número de observaciones al interior de cada clase j. Notar que
la suma del MLE es solo sobre j términos y donde F puede ser la Normal o la
Logística.
Ahora, dado que J < n tenemos lo que se denomina un modelo “completamente
67
saturado” con J parámetros. Esto significa que para cada clase de x asignamos
un parámetro diferente. Por ejemplo, δ
j
con j = 1, ...J no imponiendo condición
alguna de como las covarianzas entre los δ
j
pueden afectar las probabilidades.
De ser así, el log-likehood tiene la siguiente forma:
logL =
J
¸
j=1
[p
j
· log(δ
j
) + (1 −p
j
) · log(1 −δ
j
)] · n
j
donde
´
δ
j
MLE
= p
j
. Ahora, supongamos que la verdadera probabilidad de que la
clase j tenga la experiencia del evento, sea π
j
. Entonces:
π
j
= F(x

j
β)
donde dim(β) = K con K < J. Si el modelo de datos agrupados es exitoso es
porque resume las J celdas o grupos en forma parsimoniosa como función de un
número limitado de variables x.
Una forma de probar esto es realizar un LR test entre el modelo completamente
saturado y el original (19).
LR = −2[
¸
j
n
j
p
j
· log(F(x

j
β)) + (1 −p
j
) · log(1 −F(x

j
β))]
−[
¸
j
n
j
p
j
· log(p
j
) + (1 −p
j
) · log(1 −p
j
)]
el cual se distribuye χ
2
[J−K]
2. Estimación por mínimos χ
2
:
La idea es que en datos grupales debemos ajustar un número fijo de clases inde-
pendientemente del número de observaciones. No olvidar que en el caso individual
el número de observaciones crece en la misma proporción que la muestra. La idea
es transformar la variable dependiente y usar Mínimos Cuadrados Ponderados
(WLS). En la siguiente tabla se presentan algunos modelos con sus formas fun-
cionales correspondientes
Varios modelos de minimos χ
2
para datos agrupados
Model Probability Dependent variable Variance(ε)
Linear p
j
= Xβ p
j
p
j
(1−p
j
)
n
j
Log-linear p
j
= exp(Xβ) log(p
j
)
(1−p
j
)
n
j
p
j
Probit p
j
= Φ(Xβ) Φ
−1
(p
j
)
p
j
(1−p
j
)
nφ(p
j
)
2
Logit p
j
= Λ(Xβ) log

p
j
1−p
j

1
n
j
p
j
(1−p
j
)
El procedimiento consiste en regresionar por OLS la variable dependiente de acuer-
do a la tabla y se utilizan como pesos la inversa de la raíz cuadrada de la varianza
68
dada en la última columna de la tabla.
No obstante, debemos recordar que al ser los coeficientes de ponderación fun-
ciones de parámetros desconocidos, se deben estimar previamente (dos etapas).
Ello mediante un OLS en la primera etapa (sin pesos) donde los estimadores
serán consistentes pero no eficientes. Y luego, en la segunda etapa, con los pesos.
Amemiya 1985: 275-280 demuestra que el estimador χ
2
de β tiene las mismas
propiedades que el estimador MLE, esto es, E(p
j
) = π
j
con la misma varianza.
Una derivación mas formal (ver Amemiya 275 ó Greene 769)
p
j
= F(x

j
β) +
j
= π
j
+
j
donde E(
j
)=0 y V(
j
) =
π
j
(1−π
j
)
n
j
F
−1
(p
j
) = F
−1

j
+
j
) ≈ F
−1

j
) +
¸
dF
−1

j
)

j

j
la última expresión corresponde a una expansión de Taylor en torno al punto

j
= 0.
Pero, sabemos que
F
−1

j
) = x

j
β
y ademá que,
dF
−1

j
)

j
=
1
f(x

j
β)
luego se tinee que :
F
−1
(p
j
) ≈ x

j
β +

j
f
j
obtiniéndose así el modelo de regresión lineal heterocedástico :
F
−1
(p
j
) = z
i
= x

j
β +u
j
con E(u
j
) = 0 y V (u
j
) =
F
j
(1−F
j
)
n
j
·f
2
j
Para el caso de logit (ver tabla anterior), si se sabe que :
π
j
=
exp(x

j
β)
1 +exp(x

j
β)
entonces,
x

j
β = log

π
j
1 −π
j

69
Un ejemplo
Veamos un ejemplo ilustrativo de la estimación de modelos binarios con datos agrupa-
dos. Warner (1978) considera el problema de predicción de deserción para los enlistados
en la marina de los EEUU. Para ello define las siguientes variables:
y = 1 si la persona deja la marina antes de terminar primer año de enlistamiento.
y = 0 en otro caso.
Warner estima cuatro modelos alternativos:
(a) un modelo de probabilidad lineal con observaciones individuales.
(b) modelo de probabilidad lineal con observaciones en grupo.
(c) modelo logit con observaciones individuales.
(d) modelo logit con datos grupales.
La variable dependiente era si la persona se retiró anticipadamente del programa antes
de terminarlo. En este estudio, las variables independientes eran: años de educación,
habilidad mental (Test AFQT), estado civil, edad y raza. La educación se dividió en
tres categorías: menos de 12 años, 12 años y más de 12 años. El puntaje del test de
habilidad se dividió en cinco categorías. La edad en tres categorías (menos de 18, 18 o 19
y mas de 19 años). Las distintas combinaciones de nivel de educación, habilidad mental,
edad, raza y estado civil arrojaron un total de (3x5x3x2x2) 180 categorías o celdas en
las que los individuos pueden clasificarse. Estos son los datos grupales. La muestra con-
sistió en 30.000 individuos extraído de un total de 67.000 reclutas hombres durante 1973.
Para la estimación del modelo de probabilidad lineal se aplicó el método de correc-
ción de heterocedasticidad sugerido por Goldberger. No obstante, en los casos que la
estimación de p por OLS es menor que 0, Warner usa un ´ p=0.02, sugerido por Nerlove
y Press (1973). Si bien este último procedimiento puede salir al paso del problema de
los pesos negativos en la estimación por GLS de los β, los problemas de interpretación
del modelo como una de probabilidad aún persiste.
En la siguiente table se presentan los resultados alcanzados para las cuatro especifi-
caciones empíricas.
70
Comparación entre los parámetros estimados: datos individuales y por grupos
Variable Individual linear Grouped linear Individual logit Grouped logit
Ed<12 -0.105 (17.04) -0.109 (14.14) -0.672 (21.23) -0.656 (14.42)
Ed>12 0.028 (3.88) 0.032 (3.79) 0.349 (4.51) 0.284 (2.87)
Mental group I 0.084 (9.95) 0.084 (9.65) 1.179 (9.32) 1.040 (6.00)
Mental group II 0.021 (3.96) 0.020 (3.09) 0.201 (4.50) 0.208 (3.6)
Mental group III -0.053 (7.70) -0.052 (6.20) -0.345 (7.71) -3.42 (6.00)
Mental group IV -0.098 (12.46) -0.097 (10.04) -0.581 (12.98) -0.571 (9.75)
Dependents -0.046 (4.82) -0.039 (3.61) -0.349 (5.52) -0.403 (5.21)
Age<18 -0.031 (4.16) -0.024 (2.56) -0.145 (3.24) -0.166 (3.14)
Age>19 -0.027 (4.30) -0.022 (3.51) -0.185 (4.13) -0.169 (3.24)
Race 0.027 (3.61) 0.037 (4.15) 0.136 (3.04) 0.081 (1.28)
Constant 0.881 (25.70) 0.882 (20.79) 1.959 (61.96) 1.950 (40.87)
N 30.000 137 30.000 137
(t values entre paréntesis)
Como se observa, las variaciones entre el modelo estimado en forma grupal y aquel
individual son poco significativas. Notar, eso sí, la menor cantidad de datos necesarios
para la estimación de los datos en forma agrupada.
3.2. Modelos con más de una elección
Hasta el momento nos hemos concentrado en modelos donde la variable dependiente
puede tener solo dos valores. No obstante, en la vida real nos podemos encontrar con
situaciones donde existan fenómenos que pueden ser descritos como procesos que in-
volucran mas de una decisión.
En general pueden existir a lo menos dos tipos de situaciones cuando hay mas de una
elección, a saber: (i) individuos que tienen que tomar varias decisiones cada una de
ellas entre dos alternativas o bien (ii)una elección donde hay mas de dos alternativas
(ordenadas o no ordenadas).
Para el primer caso se aplica generalmente modelos probit o logit multivariados mien-
tras que para el segundo caso se aplican los denominados multinomial logit cuando
las alternativas no tienen un orden pre establecido (no ordenados) o ordered probit
cuando el orden de las alternativas importa (caso ordenado).
Comenzaremos con la revisión de aquellos casos donde existen mas de dos alternati-
va de elección pero donde hay sólo una elección. Como se mencionó, en este caso existen
a lo menos dos situaciones:
1. donde las probabilidades de elección de cada alternativa dependen solo de las car-
acterísticas de quien decide. Bajo esta situación modelamos dichas probabilidades
con un Multinomial Logit (MNL).
2. donde además de lo anterior, las características de las alternativas en sí mismas
también influyen en la probabilidad de cada alternativa. Este caso será abordado
por el Conditional Logit atribuible a McFadden (1976).
71
3.2.1. Modelos para alternativas múltiples no ordenadas
Multinomial Logit Model Suponga que hay m categorías, donde p
j
con j = 1, ..., m
las probabilidades asociadas a la elección de estas m categorías. La idea detrás del multi-
nomial logit es expresar estas probabilidades en forma binaria. Esto es, la probabilidad
de escoger una alternativa j o de no hacerlo. Veamos.
Sea:
p
1
p
1
+p
m
= F(β

1
X)
p
2
p
2
+p
m
= F(β

2
X)
p
m−1
p
m−1
+p
m
= F(β

m−1
X)
esto implica que:
p
j
p
m
=
F(β

j
X)
1 −F(β

j
X)
= G(β

j
X) j = 1, 2, · · · , m−1.
ya que,
m−1
¸
j=1
p
j
p
m
=
1 −p
m
p
m
=
1
p
m
−1
tenemos que:
p
m
=

1 +
m−1
¸
j=1
G(β

j
X)
¸
¸
−1
(20)
y entonces:
p
j
=
G(β

j
X)
1 +
¸
m−1
j=1
G(β

j
X)
(21)
Podemos considerar que las observaciones son obtenidas de una distribución multinomial
con las probabilidades dadas según (19) y (20). Desde el punto de vista computacional la
distribución logística para el error hacen que G(β

j
X) sea igual a exp(β

j
X) y entonces:
8
p
j
=
e
β

j
X
D
j = 1, 2, ...m−1 (22)
8
aunque técnicamente se puede asumir cualquier distribución para u en el modelo y

= β

X +u
72
con D = 1 +
¸
m−1
k=1
e
β

j
X
este modelo se conoce como multinomial logit.
Estimación del MNL
Cada uno de los n individuos escogerá la alternativa k con probabilidad dada por (21).
Si x
i
es el vector de observaciones para el individuo i, entonces p
ij
con j = 1, 2, ...m−1
son las probabilidades para el individuo i de escoger j.
Así y
ij
= 1 si el individuo escoje la categoría j y y
ij
= 0 en otro caso. De esta manera,
la función de verosimilitud del MNL es la siguiente:
L =
n
¸
i=1
p
y
i1
i1
· p
y
i2
i2
· · · p
y
im
im
transformando en logaritmos, la función tiene la siguiente estructura:
logL =
n
¸
i=1
m
¸
j=1
y
ij
· logp
ij
donde i representa al individuo y j la alternativa.
Dado que :
p
ij
=
exp(x

i
β
j
)
1 +
¸
m−1
k=1
exp(x

i
β
k
)
j = 1, 2, ....m−1.
y también que :
p
im
=
1
1 +
¸
n−1
k=1
exp(x

i
β
k
)
podemos obtener las siguientes expresiones más simples:
∂p
ij
∂β
j
= p
ij
(1 −p
ij
) · x
i
j, k = 1, 2, ......m−1
∂p
ij
∂β
k
= −p
ij
· p
ik
· x
i
∂p
im
∂β
j
= −p
ij
· p
im
· x
i
Entonces el score viene dado por:
∂logL
∂β
k
=
n
¸
i=1

y
ik
p
ik
· p
ik
(1 −p
ik
) +
¸
j=1
j=k
y
ij
p
ij
(−p
ij
· p
ik
)
¸
¸
¸
x
i
=
n
¸
i=1
(y
ik
−p
ik
)x
i
= 0
73
después de simplificar y recordando que
¸
m
j=1
y
ij
= 1, las ecuaciones del vector score
pueden escribirse como :
n
¸
i=1
(y
ik
−p
ik
)x
i
= 0 k = 1, 2, ....m−1 (23)
con una interptretación análoga que el caso del logit simple.
Las ecuaciones (22) son no lineales en β
k
pues p
ik
es una función no lineal de todos
los β

s y en consecuencia se aplican métodos numéricos (i.e. Newton-Raphson). POr su
parte, la matriz de segundas derivadas se obtiene a partir de:

2
logL
∂β
k
· ∂β

k
= −
n
¸
i=1
p
ik
(1 −p
ik
) · x
i
x

i

2
logL
∂β
k
· ∂β

l
=
n
¸
i=1
p
ik
p
il
· x
i
x

i
La cual es negativa definida lo que asegura una única solución. La estimación de ésta
puede realizarse según los métodos ya vistos donde el estimador BHHH es un a alter-
nativa sencilla.
Finalmente, para la iteración de las rutinas para encontrar los valores óptimos a partir
del score se pueden considerar como valores iniciales para obtener los β

s aquellos re-
sultantes de los modelos logit simples para cada alternativa j ó bien los coeficientes de
una función discriminante.
Conditional Logit Model Como se advirtió, este modelo desarrollado por McFad-
den (1976) considera ciertas características de las opciones (vista por los individuos)
como los determinantes de la probabilidades asociadas a cada elección, mas que las
características de los individuos en sí.
Revisemos un ejemplo -Boskin (1976) que nos ayude a ilustrar este modelo. Supon-
ga que existen m distintos trabajos cada uno caracterizado por tres variables (i) valor
presente de ganancias potenciales, (ii) costos de entrenamiento sobre ganancias netas y
(iii) valor presente del tiempo en desempleo.
Sea y
ij
: vector de valores de estas características para la ocupación j percibida por
el individuo i.
Así, la probabilidad para el individuo i de escoger la alternativa j viene dado por
la siguiente expresión :
p
ij
=
exp(β

y
ij
)
¸
m
i=1
exp(β

y
ij
)
(24)
74
Notar que en el caso del MNL (ecuación 21), los p
j
tienen diferentes vectores de coefi-
ciente β
j
. En cambio, en el conditional logit (ecuación 23) el vector β entrega el vector
de precios implícitos para las características.
9
.
Uno de los mejores usos de (23) es la de predecir la probabilidad que un individuo
decida por una alternativa en particular (tipo de trabajo), para la cual tenemos el vec-
tor de características de las alternativas y
ij
.
Para el ejemplo anterior, un MNL modela la probabilidad de que un individuo con
características x
i
escoja el tipo de profesión i con i = 1, ....m, de la siguiente forma:
p
ij
=
exp(α

j
x
i
)
¸
m
k=1
exp(α

k
x
i
)
(25)
Cabe señalar que en (23) el número de parámetros a estimar es igual al número de
características de las ocupaciones (alternativas). Pero en (24) el número de parámetros
a estimar es igual al número de características individuales multiplicadas por m − 1
donde m es el número de alternativas. Así, en (25) dado un nuevo individuo, podemos
predecir la probabilidad que escoja una de las m.
Por supuesto que uno puede combinar ambas cosas y escribir (23) y (24) como:
p
ij
=
exp(β

y
ij

j
x
i
)
¸
m
k=1
exp(β

y
ij

k
x
i
donde la probabilidad de escoger la alternativa j por el individuo i depende de las
características del decisor x
i
y de las características de la alternativa j percibidas por
el individuo i, a saber y
ij
.
9
aunque se necesita un tipo de normalización por ejemplo que el primer elemento de β sea igual a 1
75
Tabla 2.3. Relative weights of occupational characteristic in the conditional logit decision model.
Population group
Variable White males Black males White females Black females
Present value of 1.084 0.072 0.875 0.378
potential earnings (0.075)
a
(0.013) (0.076) (0.132)
Training cost/net -0.001 -0.010 -0.005 -0.012
worth (0.001) (0.001) (0.002) (0.002)
Present value of -0.051 -4.35 -18.74 -20.78
time unemployment (0.090) (0.57) (1.61) (1.82)
a
Figures in parentheses are asymptotic standard errors
Source: Boskin (1974, Table 3, p.395)
Tabla 2.4. Probability of being in each occupation given average education and experience in 1970.
Occupation
Race-sex combination Menial Blue collar Craft White collar Professional
Black female 0.396 0.188 0.011 0.219 0.187
Black male 0.222 0.368 0.136 0.073 0.202
White female 0.153 0.146 0.018 0.492 0.192
White male 0.089 0.296 0.232 0.169 0.214
comparación entre grupos en 2.3 es una forma relativa β
0

1
para tabla 2.4 (cálculo de probabilidades) es el vector x
i
incluyó: educación, ex-
periencia, raza y sexo.
Veamos otro ejemplo de un modelo conditional logit.
10
Hensher (1986) estima un mod-
elo de elección de viajes urbanos para una muestra de Sydney. Las cuatros elecciones
eran: auto/conductor (C/D), auto/pasajero (C/P), tren y bus. Para el modelo básico,
los atributos eran (1) constante especifica de C/D, (2) una constante especifica de C/P,
(3) una constante especifica de tren, (4) tiempo de viaje, (5) tiempo de espera, (6)
tiempo caminando, (7) costos de viaje, (8) costos de estacionamiento, (9) número de
vehiculos requeridos para la familia y (10) porcentaje de los gastos de transporte cubier-
tos por fuentes que no sean de la familia. La muestra consistió en 1455 observaciones.
Un resumen de los datos se presenta en la siguiente tabla.
Resumen Estadísticas
In-Vehicle In-Vehicle Walk Wait Number
Cost (dol) Time (min) Time (min) Time (min) Choosing
C/D 64.56 28.65 0.76 0.15 953
C/P 4.37 28.32 0.71 2.89 78
Train 98.23 43.84 10.50 8.37 279
Bus 81.61 38.15 7.47 7.11 145
Las es estimaciones de los parámetros asociados a cada alternativa se presentan en la
siguiente tabla :
10
ver ejemplo 19.16 Greene
76
Parámetros estimados (t values entre paréntesis)
(1) 0.8973 (4.86) (2) -2.2154 (-10.36)
(3) 1.3286 (9.10) (4) -0.0227 (-4.7)
(5) -0.1336 (-6.68) (6) -0.0672 (-5.44)
(7) -0.0063 (-5.03) (8) -0.0086 (-5.05)
(9) 0.4524 (1.83) (10) -0.0119 (3.71)
Log likelihood para β=0, = -2017.1
Log likelihood at convergence=-598.2
A partir de la información anterior se pueden determinar las probabilidades asociadas
a la elección de cada alternativa junto a la predicción sobre la cantidad de personas que
las escojen.
Probabilidades predichas y frecuencias
C/D C/P Train Bus
Probability 0.88625 0.03799 0.01390 0.06186
Predicted N 1290 55 20 90
Actual N 953 78 279 145
Nota Precuatoria: Independencia de alternativas irrelevantes:
Se había señalado que en el multinomial logit y en el conditional logit los coeficientes de
las probabilidades eran independientes del resto de las alternativas. Esta característica
se conoce como la propiedad de independencia de alternativas irrelevantes.
En el ejemplo anterior, a la luz de los resultados presentados en la última tabla, pode-
mos concluir que existen
C/D
bus
=
0,89
0,06
∼ 14,8 a 1 mayores probabilidades de manejar un
auto propio en vez de tomar el bus.
Ahora bien, si la mitad de los autos que existen en el país son nacionales (o azules)
entonces el cociente de probabilidades de ir a trabajar manejando en auto nacional o
ir en bus es ahora 7.4 a1. Ello, ya que la relación de 14 a 1 se mantiene, erróneamente
podría asignarse el otro 7.4 al tren o como pasajeros en un auto.
Dicho de otro modo, si la utilidad relativa de viajar en auto versus viajar en bus es
alta, no necesariamente implica que la utilidad relativa de viajar en tren versus viajar
en bus será alta también. Pero si dicha utilidad es alta entre un auto rojo versus bus
aumenta la probabilidad que viajar en auto azul sea relativamente mas preferible a vi-
ajar en bus.
De esta manera podemos notar que en el MNL se asume que la elección entre dos
alternativas es independiente de las alternativas restantes. Específicamente se asume
que los términos de error en la ecuación de elección subyacente son independientes en-
tre sí.
En general, la exclusión de variables irrelevantes genera ineficiencia pero no inconsis-
tencia. La hipótesis de independencia es consecuencia de la hipótesis inicial de que las
perturbaciones son independientes y homocedásticas.
77
Hausman y McFadden (1984) indican que si un subconjunto de alternativas posibles
es verdaderamente irrelevante, omitirlo del modelo no llevará cambios sistemáticos en
los estimadores de los parámetros. Si son relevantes y dejarlos fuera, entonces serán
inconsistentes los estimadores obtenidos mediante el MNL.
Siguiendo el espíritu de las pruebas de Hausman, se define el siguiente estadístico :
χ
2
= (
´
β
s

´
β
f
)

[
´
V
s

´
V
f
]
−1
(
´
β
s

´
β
f
) ∼ χ
2
[k]
donde :
s: conjunto restringuido.
f: conjunto de todas las alternativas posibles.
k: rango de la matriz [
´
V
s

´
V
f
]
Si no se puede rechazar la hipótesis de independencia de las alternativas irrelevantes,
será necesario utilizar un modelo alternativo al logit multinomial ya que este último
será inconsistente. Existen a lo menos dos formas de resolver este problema. Una forma
es mediante un Probit Multivariado y la otra, es mediante la utilización de un Logit
Anidado (Nested Logit). Veamos cada uno de ellos.
Logit Anidado
El principio subyacente a este enfoque es modelar, de ser posible, la decisión entre
las alternativas como siguiendo un proceso de etapas consecutivas. Bajo este esquema,
se agrupan las alternativas en subgrupos permitiendo que la varianza sea diferente en
cada grupo, relajando así el supuesto de homocedasticidad del logit condicional, pero
manteniendo la hipótesis de independencia de alternativas irrelevantes dentro de cada
grupo. El modelamiento implica que el decisor puede escoger entre L subgrupos y luego
escoger entre una de las alternativas dentro del grupo, generándose una estructura de
árbol.
Elección
Rama 1 Rama 2
C1/1 C2/2 C1/2 C2/1
Cabe señalar que este modelo surge, generalmente, como modificación de la especifi-
cación estocástica del modelo logit condicional y no necesariamente como un modelo de
comportamiento.
78
Supongamos que también los datos están formados por observaciones con atributos
de las alternativas y
j|l
y atributos de los conjuntos alternativos z
l
con l = 1, ....L
Así:
P[subrama
j
, rama
l
] = p
jl
=
e
β

y
j|l

z
l
¸
L
l=1
¸
j
l
j=1
e
β

y
j|l

z
l
la cual puede ser escrita como p
jl
= p
j|l
· p
l
donde
p
j|l
=
e
β

y
j|l
¸
j
l
j=1
e
β

y
j|l
y
p
l
=
e
γ

z
l

l
I
l
¸
L
l=1
e
γ

z
l

l
I
l
donde I
l
= log
¸
j
l
j=1
e
β

y
j|l
valor inclusivo de la l-esima rama y donde si τ
l
= 1, entonces
se recupera el modelo original.
La estimación de un modelo logit anidado puede ser realizada por dos métodos al-
ternativamente. En el primero de ellos, se estiman los β considerando la elección dentro
de cada rama como un modelo logit condicional sencillo. Así se calculan los valores
inclusivos de todas las ramas del modelo. Y luego, se estima γ y todos los parámetros
τ considerando la elección entre ramas como un modelo logit condicional con atributos
z
l
y I
l
. Este método se conoce como máxima verosimilitud con información incompleta
(LIML).
La otra forma es utilizando toda la información disponible (FIML) donde la función
de verosimilitud viene dada por:
logL =
n
¸
i=1
log[P(subrama|rama) · P(rama)]
i
siendo esta última más eficiente que la estimación en dos etapas con Información Limi-
tada.
Veamos un ejemplo de aplicación de Logit Anidado. Hesher y Greene (1995) reportan
estimaciones de un modelo de elección de modos de viaje entre Sydney y Melbourne,
Australia. La base de datos contiene 75 observaciones sobre la elección de cuatro alter-
nativas: Aire, Tren, Bus y Auto. Los atributos usados para este ejemplo son constantes
especificas de las elecciones y dos medidas continuas: CG, una medida de el costo gen-
eralizado del viaje y TTIME, tiempo de viaje. Además se utiliza el ingreso del hogar,
79
HINC.
Se estima un modelo logit anidado con dos ramas: FLY=(aire) y GROUND=(tren,
bus, auto). Notar que una de las ramas tiene solo una elección, entonces la probabil-
idad condicional p
j|fly
= p
aire|fly
= 1. El modelo se estima por FIML y LIML como
así también con unn conditional logit con cuatro alternativas a modo comparativo. Los
resultados encontrados se presentan en la siguiente tabla :
Nested Logit Models (Standard Errors in Perenthesis)
FIML estimates Unconditional LIML estimates
β
train
3.8895 (0.52374) 3.6630 (0.70882) 3.5029 (1.0511)
β
bus
1.0133 (1.5734) 0.84625 (0.97896) -0.03645 (1.4389)
β
gcost
-0.0233 (0.01026) -0.01968 (0.007572) -0.07256 (0.02121)
β
ttime
-0.066356 (0.01337) -0.06093 (0.015472) -0.02071 (0.02723)
γ
air
3.8826 (0.1104) 3.3869 (1.1503) -1.8367 (0.7478)
γ
hinc
0.02164 (0.01521) 0.02308 (0.01539) 0.03023 (0.01379)
τ 0.7758 (0.24159) 1.0000 (0.0000) 0.05578 (0.11453)
logL -65.40806 -65.73624 -
logL
0
-82.68496
Como se mencionó, el LIML se estima en dos etapas. Hay dos pruebas acerca del
anidamiento. El LR entre las dos formas de estimación -2(65.73-65.41)=0.65 resulta
ser bastante m,enor que el χ
2
crítico de 3.84. Y la segunda prueba basada en un test
de Wald del FIML con χ
2
=
(0,7758−1)
2
(0,24159)
2
= 0,861 entregando la misma conclusión.
Multinomial Probit:
Una solución alternativa al problema de la independencia de alternativa irrelevantes
es estimar un MP en el cual las alternativas irrelevantes son generadas por una dis-
tribución normal multivariada interdependiente conjunta.
Veamos el caso de tres alternativas:
Y

1
= V
1
+
1
Y

2
= V
2
+
2
Y

3
= V
3
+
3
con V
j
vector de atributos de la variable j.
Asuma que los residuos (
1
,
2
,
3
) tiene una distribución trivariada normal con me-
dia cero y matriz de covarianzas Σ.
Σ =

σ
2
11
σ
2
12
σ
2
13
σ
2
12
σ
2
22
σ
2
23
σ
2
13
σ
2
23
σ
2
33
¸
¸
Considere que la probabilidad que la primera alternativa sea escogida:
P(Y

1
> Y

2
, Y

1
> Y

3
) = P(
2

1
< V
1
−V
2
,
3

1
< V
1
−V
3
)
80
si η
21
=
2

1
, η
31
=
3

1
, V
12
= V
1
−V
2
y V
13
= V
1
−V
3
.
Entonces η
21
y η
31
tiene una distribución normal bivariada con matriz de varianza
y covarianza:
Ω =
¸
σ
2
1

2
2
−2σ
12
σ
2
1
−σ
13
−σ
12

23
σ
2
1
−σ
13
−σ
12

23
σ
2
1

2
3
−2σ
13

Así la probabilidad de que la alternativa 1 sea escogida viene dada por:
P
1
=

V
12
−∞

V
13
−∞
f(η
21
η
31
) · dη
21

31
donde f(η
21
η
31
) tiene una distribución normal bivariada con matriz de covarianza igual
a Ω y media cero.
Para el caso de cuatro (4) alternativas terminaríamos con la evaluación de integrales
triples (tres variables).
Resumen
El siguiente cuadro nos permite contextualizar la discusión de los modelos que hemos
analizados hasta ahora y los que aún nos quedan por analizar.
variable
discreta
Dicotómica
Policotómica
Probit
Logit
Lineal
No y semiparamétrico
no ordenada
ordenada
secuencial
multinomial logit
conditional logit
ordered probit
En el siguiente box se resumen algunas propiedades ya discutidas para modelos de mul-
tiples alternativas no ordenadas.
No ordenado:
Multinomial Logit: probabilidades de escoger alternativa j dependen de las caracterís-
ticas del individuo i. Interés en estimar la probabilidad de que el individuo i escoja la al-
ternativa j: Y
ij
= 1 si i escoge j (j=1, 2, ....m). Denotaremos π
ij
= E(Y
i
j)=probabilidad
81
que i escoja j con
¸
j
π
ij
= 1.
MNL:
E(y
ij
= 1) = π
ij
=
e

j

j
x
i
)
¸
m
j=1
e

j

j
x
i
)
Theil Normalization ⇒ α
1
= β
1
= 0 notar que e
0
= 1 permite una interpretación con-
veniente de los datos.
MNL(τ
N
):
E(y
i1
) = π
i1
=
1
1 +
¸
m
j=2
e

j

j
x
i
)
E(y
i2
) = π
i2
=
e

2

2
x
i
)
1 +
¸
m
j=2
e

j

j
x
i
)
.
.
.
esta normalización permite expresar la probabilidad relativa de observar el resultado
j=2 en contraposición a j=1.
π
i2
πi1
= exp(α
2

2
· x
i
)
o bien:
log

π
i2
πi1

= α
2

2
· x
i
mas general
log

π
ij
πin

= x

i

j
−β
n
)
Conditional Logit Model: incorpora a la probabilidad de escoger j por el individuo
i, las características de la opinión j junto a las características de i.
E(y
ij
) = π
ij
=
e

j

j
x
i
+γz
j
)
¸
m
j=1
e

j

j
x
i
+γz
j
)
(26)
Efectos Marginales en MNL y CLM:
MNL:
∂π
j
∂x
k
= π
j
¸
β
j

K
¸
k=0
π
k
β
k
¸
= π
j

β
j
−β

82
donde K: # de variables independientes y con π
j
la probabilidad predicha de obtener
la escojencia de la alternativa j evaluada en la media del vector x. Nota: puede suceder
que
∂π
j
∂x
k
no tenga el mismo signo que β
k
.
CLM:
∂π
j
∂z
j
= π
j
(1 −π
j
) ·
¯
β y
∂π
j
∂z
k
= −π
j
· π
k
·
¯
β
donde
¯
β es el vector de coeficientes estimados de (26).
Nested Logit: otra forma de salir al paso ante la situación de rechazo de la hipótesis
de independencia de las alternativas irrelevantes.
Aquí "desarmábamos"la elección en varias ramas y asumíamos que existía indepen-
dencia al interior de cada rama o grupos pero no necesariamente entre grupos (ramas).
Aquí los datos están conformados por observaciones con atributos de las alternativas
x
j/l
y atributos de los conjuntos de alternativas z
l
P[subrama
j
, rama
l
] = P
jl
=
e
β

x
j/l

z
l
¸
L
l=1
¸
J
i
j=1
e
β

x
j/l

z
l
que para la estimación se utiliza la propiedad de que P
jl
= P
j/l
· P
l
.
Vimos los métodos de LIML y FIML para estiamr dichas probabilidades.
3.2.2. Modelos para alternativas múltiples ordenadas
A diferencia de los casos estudiados hasta el momento, en esta sección consideraremos
situaciones donde existe un orden natural entre las alternativas. Asumiremos que existe
una variable latente :
y

i
= x

i
β +
i
donde la variable observada indica en cual intervalo o categoría cae la variable y

no
observada por el econometrista. Una forma de esquematizar el valor de la variable
observada es la siguiente :
y
i
=

1 si y

i
< µ
1
;
2 si µ
1
≤ y

i
< µ
2
.
.
.
J si µ
j−1
≤ y

i
µ
1
< µ
2
< . . . µ
j−1
. .. .
umbrales
el algebra se simplifica bastante si se considera que:
µ
0
= −∞ ∧ µ
j
= +∞
83
Así, la variable dependiente observada puede ser definida de la siguiente forma :
y
i
= j si µ
j−1
≤ y

i
< µ
j
j : 1...J
Para estos casos, se utiliza un modelo denominado Probit Ordenado para estimar esta
ecuación donde se asume que los errores se distribuyen:

i
∼ N(0, σ
2
)
los que no son observables y luego deben ser estimados; es decir, son parámetros del
modelo.
Dado que los umbrales µ

s y los valores de y

no son observados, la escala y origen
de y

son arbitrarios. Así, podemos llevar a cabo la siguiente normalización: σ=1 y
µ
1
=0.
DE esta manera, tenemos :
P [y
i
= j] = P [µ
j−1
≤ y

i
< µ
j
]
= P

µ
j−1
−x

i
β ≤
i
< µ
j
−x

i
β

= Φ(µ
j
−x

i
β) −Φ(µ
j
−x

i
β)
es decir,
P [y
i
= 1] = Φ(−x

i
β) = 1 −Φ(x

i
β)
P [y
i
= 2] = Φ(µ
2
−x

i
β) −Φ(−x

i
β)
.
.
.
P [y
i
= J] = 1 −Φ(µ
j−1
−x

i
β)
Como en el caso de los modelos no ordenados, podemos definir arbitrariamente:
y
ij
=

1 si y
i
= j;
0 si ∼
Entonces el log-likelihood de la muestra viene dado por:
logL =
n
¸
i=1
J
¸
j=1
y
ij
· log

Φ(µ
j
−x

i
β) −Φ(µ
j−1
−x

i
β)

Las condiciones de primer orden son entonces:
∂logL
∂β
=
n
¸
i=1
J
¸
j=1
y
ij
·
φ(µ
j−1
−x

i
β) −φ(µ
j
−x

i
β)
Φ(µ
j
−x

i
β) −Φ(µ
j−1
−x

i
β)
84
y también :
∂logL
∂µ
k
=
n
¸
i=1
J
¸
j=1
y
ij
·
1(j = k) · φ(µ
j
−x

i
β) −1(j −1 = k) · φ(µ
j−1
−x

i
β)
Φ(µ
j
−x

i
β) −Φ(µ
j−1
−x

i
β)
Para el caso de las segundas derivadas, ver Maddala 1986:49 donde se demuestra que el
Hessiano es negativo definido, y por lo tanto, el método de iteración usado (i.e. Newton-
Raphson) convergerá al máximo global del log-likelihood.
Cabe señalar que la función de verosimilitud se debe maximizar con respecto a (β,
µ
2
, µ
3
, . . ., µ
J−1
) es decir hay k +J −2 parámetros por estimar.
Los efectos marginales del modelo probit ordenado son los siguientes:
∂P[y
i
= j]
∂x
i
=

φ(µ
j−1
−x

i
β) −φ(µ
j
−x

i
β)

· β
∂P[y
i
= 1]
∂x
i
= −φ(x

i
β) · β
∂P[y
i
= J]
∂x
i
= φ(µ
j−1
−x

i
β) · β
donde los dos últimos casos son aquellos en el extremo de la distribución. Si se asume
que el β obtenido es positivo entonces el signo de estar derivadas será negativo para el
primer umbral y positivo para el último. Para aquellas categorías o alternativas en el
centro, el efecto es ambiguo. Veamos lo que ocurre gráficamente para el caso de tener
tres alternativas ordenadas (i.e. dos umbrales).
11
y=0 y=1
y=2
-x'beta
u1-x'beta
f(e)
e
11
aunque con la normalización sólo queda un solo umbral por estimar.
85
P[y = 0] = 1 −Φ(x

β)
P[y = 1] = Φ(µ
1
−x

β) −Φ(−x

β)
P[y = 2] = 1 −Φ(µ
1
−x

β)
El siguiente gráfico ilustra los efectos marginales asociados al cambio en una de las
variables independientes x
i
.
f(e)
e
Del gráfico anterior se observa que al aumentar una de las x manteniendo constante los
β y µ equivale a desplazar la distribución hacia la derecha. Si el β asociado a esta x es
positivo, entonces inequivocamente P(y = 0) tendrá menos masa y P(y = 2) aumen-
tará, no obstante en el medio el efecto no es concluyente
∂P(y=1)
∂x
i

<
0.
El siguiente ejemplo muestra una aplicación de un modelo de probit ordenado. Marcus
y Greene (1985) estimaron un modelo probit ordenado para estudiar como la armada
estadounidense asigna empleos entre sus reclutas. La armada intenta colocar a cada
recluta en el puesto de trabajo en el que vaya a resultar más productivo. Los empleo se
dividen en tres grupos genéricos: "de especialización media", de "especialización alta
2
de "especialización alta con conocimiento de energía nuclear".
Puesto que la asignación se hace tanto de factores específicos de los individuos como de
las propias necesidades y criterios de la armada, se utilizo un modelo probit ordenado
con las siguientes variables explicativas: (1) FP=variable binaria que indica si el recluta
ha obtenido previamente algún diploma en un instituto de formación profesional o no;
(2) EM=nivel educativo de la madre del recluta; (3) EX=calificación obtenida en un ex-
amen de ingreso; (4) AE=años de educación del recluta; (5) CAS=variable binaria que
86
indica si el individuo estaba casado o no en el momento que se alistó; (6) EDAD=edad
del recluta en el momento que se alistó. La muestra obtenida fue de 5.641 observaciones.
La siguiente tabla muestra los resultados obtenidos.
Estimación de la ecuación de asignación de empleos
Variable Estimador Estadístico La variable
Constante -4.34 - -
FP 0.057 1.7 0.66
EM 0.007 0.8 12.1
EX 0.039 39.9 71.2
AE 0.190 8.7 12.1
CAS -0.48 -9.0 0.08
EDAD 0.0015 0.1 18.8
µ 1.79 80.8 -
Es lógico el enorme valor del estadistico t asociado a la variable EX, pues la Armada
tiene muy en cuenta el resultado de este examen cuando asigna un puesto de trabajo.
Por otra parte, si se quieren obtener los efectos marginales de las variables continuas,
es necesario evaluar la densidad normal estándar en −β

x=-0.8479 y en µ−β

x=0.9421.
De esta manera odemos obtener las probabilidades estimadas, las que son Φ(0,8479) =
0,198, Φ(0,9421)−Φ(−0,8479)=0.628 y 1-Φ(0,9421)=0.173. Por su parte, las frecuencias
relativas observadas eran: 0.25, 0.52 y 0.23. Las dos densidades son φ(−0,8479)=0.278
y φ(0,9421)=0.255. Por lo tanto, las derivadas con respecto a las tres probabilidades
con respecto a la variable EX, por ejemplo, son:
∂P
0
∂EX
= (−0,278)0,039 = −0,01084
∂P
1
∂EX
= (0,278 −0,255)0,039 = 0,0009
∂P
2
∂EX
= (0,255)0,039 = 0,00995
Obsérvese que la suma de los efectos marginales es cero, lo que es consecuencia de que la
suma de las probabilidades sea igual a 1. Este enfoque no resulta apropiado para evaluar
el efecto de una variable binaria. Podemos analizar el efecto de estas comparando las
probabilidades que se obtienen cuando la variable binaria se evalúa es cada uno de sus
dos valores posibles y las demás variables se evalúan en sus medias muestrales.
Por ejemplo, en la siguiente table se entregan los resultados que se obtienen para la
variable CAS.
Efecto marginal de una variable binaria.
−β

x µ −

β

x P[y=0] P[y=1] P[y=2]
CAS=0 -0.8863 0.9037 0.187 0.629 0.184
CAS=1 -0.4063 1.3837 0.342 0.574 0.084
cambio 0.155 -0.055 -0.100
87
Test de Diagnostico para Modelos Probit Ordenados:
El modelo de variable dependiente latente, y

i
, puede ser especificado como:
y

i
= x

β +ε
i
ε
i
∼ N(0, 1)
La información observada nos da J intervalos en los cuales y

i
puede caer:
y
i
= j si θ
j−1
< y

i
< θ
j
j = 1, . . . , J
donde θ
0
= −∞ and θ
j
= ∞. Para los datos de 1980 que son usados J=3, y para 1984
J=5. Dado que el vector x contiene una constante, el conjunto completo de θ no esta
identificado. La normalización θ
1
= 0 es adoptada. La log-likehood esta dada por:
logL =
J
¸
j=1
¸
y
i
=j
log

Φ(θ
j
−x

i
β) −Φ(θ
j−1
−x

i
β)

Este modelo difiere del modelo de variable dependiente(GDV) en grupos considerado
por Stewart (1983) en donde θ
j
eran parámetros a estimar y no conocidos y constantes.
El test score de GDV fue derivado por Chester y Irish (1987).
Los errores generalizados para este modelo están dados por:
E(y

i
−x

i
β/y
i
= j, x
i
) =
φ
(j−1)i
−φ
ji
Φ
ji
−Φ
(j−1)i
donde φ
ji
= φ(w
ij
) y w
ij
= θ
j
− x

i
β. Entonces los residuos generalizados o primer
momento de los residuos están dados por:
´ e
(1)
i
=
´
φ
(j−1)i

´
φ
ij
´
Φ
ij

´
Φ
(j−1)i
donde (´) denota que el parámetros desconocido ha sido reemplazado por su estimación
MLE.
La "threshold score contribution"esta dad por:
η
ij
=

φ
ji
Φ
ji
−Φ
(j−1)i
si y
i
= j;
φ
ji
Φ
ji
−Φ
(j−1)i
si y
i
= j + 1
0 ∼
para j=1, ....2.
Momentos condicionales de orden mayor para la variable latente pueden ser especifi-
cados en término de las funciones definidas por Stewart (1983) como:
M
τi
=
w
τ
(j−1)i
φ
(j−1)i
−w
τ
ji
φ
ji
Φ
ji
−Φ
(j−1)i
88
Los primeros cuatro momentos residuales son definidos como:
ˆ e
(1)
i
=
ˆ
M
0i
ˆ e
(2)
i
=
ˆ
M
1i
ˆ e
(3)
i
= 2ˆ e
(1)
i
+
ˆ
M
2i
ˆ e
(4)
i
= 3ˆ e
(2)
i
+
ˆ
M
3i
El estadístico del test score reportado en este paper toman la forma de:
ξ = 1

F(F

F)
−1
F

1
donde 1 es un vector de unos de dimensión n y F una matriz de orden n, cada fila
contiene la contribución del score de todos los parámetros del modelo. ξ es simplemente
n veces el R
2
de una regresión de 1 sobre las columnas de F.
Test estadísticos:
Variable explicativas omitidas: El modelo general se asumen que es:
y

i
= x

i
β +q

i
α +ε
i
donde q es de dimensión q y no incluye la constante. Un test score es construido para
la hipótesis nula de que α=0, el test estadístico es de la forma ξ de arriba, donde las
filas de F están dadas por:
F
i
= (ˆ e
(1)
i
x
i
, . . . , ˆ η
(J−1)i
, ˆ e
(1)
i
q
i
)
Bajo la hipótesis nula ξ se distribuye como χ
2
(k)
.
Forma seudo-funcional: forma modificada del test RESET (Ramsey), construido co-
mo un caso particular del test previo donde q
i
contienen potencias de ˆ y

i
= x

i
β
Heterocedasticidad:
la varianza de ε se asume de la siguiente forma:
σ
2
i
= 1 +q/α
las filas de F para el test score de que α=0 son:
F
i
= (ˆ e
(1)
i
x
i
, ˆ η
2i
. . . , ˆ η
(J−1)i
, ˆ e
(2)
i
q
i
)
bajo la hipótesis nula ξ se distribuye como χ
2
(k)
Normalidad:
89
Las filas de F en el test usual χ
2
(2)
para asimetría y/o Kurtosis están dadas por:
F
i
= (ˆ e
(1)
i
x
i
, ˆ η
2i
. . . , ˆ η
(J−1)i
, ˆ e
(3)
i
, ˆ e
(4)
i
)
Heterogeneidad en los umbrales: bajo la hipótesis alternativa, los umbrales pueden vari-
ar sistemáticamente sobre las observaciones.
θ
ij
=
¯
θ
j
+q/α
j
y el test score puede ser construido para la nula de que α
j
= 0, j=1, 2,.....,J-1. Las filas
de F en este caso estarán dadas por:
F
i
= (ˆ e
(1)
i
x
i
, ˆ η
2i
. . . , ˆ η
(J−1)i
, ˆ η
2i
q
i
, . . . , ˆ η
(J−1)i
q
i
)
Bajo la hipótesis nula ξ se distribuye como χ
2
k(J−2)
90
4. Tópicos Especiales con Variable Dependiente Binaria
En este corto capítulo revisaremos dos aspectos adicionales de modelos de elección
binaria. Uno de ellos es el conocido análisis discriminante y el otro el modelamiento
mediante datos de panel de variables binarias. Si bien los aspectos de datos de panel
serán abordados en un capítulo separado, se asume sólo un conocimiento básico de este
tema.
4.1. Análisis Discriminante
El problema que se trata de modelar en esta situación es el de clasificar un individuo
en una de las dos poblaciones posibles π
1
π
2
basada en un vector de características X =
(x
1
, x
2
, ...., x
k
). De esta forma, se utiliza una combinación lineal de las observaciones:
y = λ
1
· x
1

2
· x
2
+. . . λ
k
· x
k
donde y es una variable binaria que representa si el individuo pertenece a un grupo en
particular. El objetivo entonces será escoger los coeficientes, de tal manera de maximizar:
φ =


1
−µ
2
)]
2
λ

Σλ
donde µ
1
y µ
2
son la media del vector X en ambos grupos y donde Σ es la matriz de
varianzas y covarianzas en cada grupo, la cual se asume igual para ambos.
λ = Σ
−1

1
−µ
2
)
Si los parámetros poblacionales no son conocidos, como generalmente ocurre, los parámet-
ros pueden ser estimados de la siguiente manera :
ˆ
λ = S
−1
(X
1
−X
2
)
con
S =
1
n
1
+n
2
−2
¸
¸
i
(X
1i
−X
1
)(X
1i
−X
1
)

+
¸
i
(X
2i
−X
2
)(X
2i
−X
2
)

¸
donde X
1
y X
2
son las medias muestrales de cada grupo respectivamente.
Probabilidades previas y costos por clasificación errónea:
Sea p
1
la proporción del grupo π
1
y p
2
la proporción del grupo π
2
. Sea C
1
el costo
de clasificar erróneamente a un miembro de π
1
en π
2
y C
2
el costo de clasificar er-
róneamente a un miembro de π
2
en π
1
. De esta forma, el costo esperado total C
E
viene
determinado por la siguiente expresión :
C
E
= C
1
· p
1

R
1
f
1
(x)dx +C
2
· p
2

R
2
f
2
(x)dx
91
donde R
1
y R
2
son regiones de tal manera que si la observación muestral cae en esta
región, se clasifica al individuo en el grupo π
1
o bien π
2
respectivamente. Adicional-
mente, f
1
(x), f
2
(x) son las densidades de las distribuciones de características X en cada
una de las dos poblaciones.
Dado que:

R
2
f
2
(x)dx +

R
1
f
1
(x)dx = 1
entonces se tiene que el costo esperado total es :
C
E
= C
1
· p
1
+

R
1
[C
2
· p
2
· f
2
(x) −C
1
· p
1
· f
1
(x)] dx
en consecuencia, el costo esperado total C es minimizado si se escoge una región R
1
tal
que se cumpla lo siguiente :
C
2
· p
2
· f
2
(x) < C
1
· p
1
· f
1
(x) (27)
o bien
f
2
(x)
f
1
(x)
>
C
2
· p
2
C
1
· p
1
(28)
Ahora si X se distribuye normal con media µ
1
y µ
2
y covarianza Σ, la misma para
ambas poblaciones, entonces se tiene que :
f
i
(x) = (2π)
−n/2
|Σ|
1/2
exp
¸

1
2
(x −µ
1
)

Σ
−1
(x −µ
2
)

y en consecuencia:
f
1
(x)
f
2
(x)
= exp

(x −µ
1
)

Σ
−1
x
. .. .
f(x)

1
2

1
−µ
2
)

Σ
−1

1

2
)
. .. .
constante
¸
¸
¸
(29)
y así, la condición sobre R
1
para que C sea minimizada queda determinada de la sigu-
iente forma :
λ

x > ln
C
2
· p
2
C
1
· p
1
+
1
2
λ


1

2
)
ahora si Σ
1
= Σ
2
, entonces la expresión anterior tiene la siguiente forma :
ln
f
1
(x)
f
2
(x)
= −
1
2
x


−1
1
−Σ
−1
2
)x +x


−1
1
µ
1
−Σ
−1
2
µ
2
) +constante (30)
la que es una función discriminante cuadrática en X la cual se reemplazo en (27).
Datos no normales y discriminación logística:
El modelo discriminación lineal que hemos revisado descansa en los siguientes supuestos:
92
tanto f
1
(x) como f
2
(x) son normales multivariadas.
las matrices de covarianzas (Σ
1
= Σ
2
) son iguales.
las probabilidades p
1
y p
2
son conocidas de antemano.
las medias µ
1
, µ
2
y σ son conocidas.
Pero si sustituimos por los valores muestrales, los dos últimos supuestos están resueltos.
Si usamos la ecuación (28) entonces el segundo supuesto también está resuelto. Veamos
que hacemos con el primer supuesto:
Por Bayes, sabemos que :
P(π
i
|x) =
P(x|π
i
) · p
i
P(x|π
1
) · p
1
+P(x|π
2
) · p
2
i = 1, 2
Si P(x|π
i
) es normal multivariada con media µ
i
y matriz de covarianzas Σ entonces se
tiene que :
P(π
1
|x)
P(π
2
|x)
=
P(π
1
|x) · p
1
P(π
2
|x) · p
2
= exp(α +β

x) (31)
con
α = log
p
1
p
2

1
2

1
−µ
2
)

Σ
−1

1

2
) (32)
β = Σ
−1

1
−µ
2
)
lo que se obtiene de (29). De esta manera reemplazando en (31) se tiene que :
P(π
1
|x) =
exp(α +β

x)
1 +exp(α +β

x)
P(π
2
|x) =
1
1 +exp(α +β

x)
donde el modelo representado en la ecuación (29) se conoce como modelo logístico, dis-
tinto de modelo logit).
Estimación:
Sea :
y
i
= 1 si x
i
∈ π
1
y
i
= 0 si x
i
∈ π
2
93
entonces la función de verosimilitud vienen dada por la siguiente expresión :
L =
¸
y
i
=1
exp(α +β

x)
1 +exp(α +β

x)
·
¸
y
i
=0
1
1 +exp(α +β

x)
(33)
Diversos autores señalan que si X no proviene de una normal entonces los estimadores
ML de (33) son preferibles a aquellos de una función discriminante λ; más aún si X son
dummies ya que
ˆ
λ no es consistente. Cuando son más de dos grupos los que se analizan,
el modelo es análogo a un logit. Ver Maddala (p. 379) sobre si las muestras de y
i
= 1 y
y
i
= 0 son muy diferentes en tamaño, lo que significa un ajuste en la constante.
4.2. Datos de Panel con Variable Discreta Binaria
Como se mencionó, si bien los temas de datos de panel serán revisados mas adelante,
aquí analizaremos someramente la estimación de este tipo de estructura de datos cuan-
do la variable dependiente es binaria. Partamos con un ejemplo presentado en Heckman
y Willis (1977) denominado : Participación secuencial de mujeres en el mercado del
trabajo.
Sea y
it
= 1 si la persona i trabaja en el tiempo t e y
it
=0 en otra situación. Por otra
parte, se define x
it
como el vector de características observadas de quien decide partic-
ipar en el mercado laboral o no.
De esta manera, se puede determinar P(y
it
= 1) = F(x

it
β) con i = 1, 2, ...n para
un t fijo como la probabilidad que el individuo i decida participar. Como puede notarse,
aquí solo se especifica una probabilidad marginal para un t fijo y por tanto, se necesita
especificar la probabilidad conjunta P(y
i1
, y
i2
,...y
iT
) con el fin de dar cuenta de toda la
historia temporal de decisiones del individuo.
La forma más simple de especificar la probabilidad conjunta es asumir independencia
entre las decisiones. De esta manera, la probabilidad conjunta de observar la historia
de decisiones viene dada por la siguiente expresión :
P(y
i1
, y
i2
, ....., y
iT
) =
T
¸
t=1
P(y
it
)
lo que representa un modelo de elección discreta igual a los ya estudiado, con la única
diferencia que tenemos N · T observaciones.
Cabe señalar que el supuesto de independencia implica lo siguiente :
P(y
it
= 1|y
it−1
= 1) = P(y
it
= 1)
o sea, una vez que obtenemos x
it
el que la señora halla trabajado o no en el periodo
anterior no nos dará ninguna información acerca de la situación de hoy; poco sostenible
94
empíricamente!!.
Existen a lo menos dos situaciones de porqué P(y
it
= 1|y
it−1
= 1) = P(y
it
= 1),
es decir que no sea creíble el supuesto de independencia:
Heterogeneidad: existen variables no observadas para el econometrista las que
pueden afectar a las personas en forma diferente con respecto a tendencia a tra-
bajar.
Dependencia entre estados: para cada persona, el estado presente influye en el
estado futuro. Siguiendo la idea de cadenas de Markov.
Veamos cada una en forma separada.
4.2.1. Heterogeneidad
Para atacar el problema de la heterogeneidad no observable, supongamos el siguiente
modelo :
P(y
it
= 1|u
i
) = F(x

it
β +u
i
)
i = 1, . . . , n
t = 1, . . . , T
(34)
asumiendo que los {y
it
} son serialmente independientes (sobre t) condicionales a u
i
,
entonces se tiene que (descartando el subindice i):
P(y
t
= 1|y
t−1
) −P(y
t
= 1) =
E

F(x

t
β +u) · F(x

t−1
β +u)

E

F(x

t−1
β +u)
−E

F(x

t
β +u)

=
COV

F(x

t
β +u), F(x

t−1
β +u)

E

F(x

t−1
β +u)

De esta manera, la probabilidad conjunta de {y
it
} con t = 1, 2, ...T viene dada por la
siguiente expresión :
P(y
i1
, y
i2
, ...y
iT
) = E
u
i

T
¸
t=1
F(x

it
β +u
i
)
y
it

1 −F(x

it
β +u
i
)

1−y
it
¸
(35)
donde la función de verosimilitud del modelo es el producto de esta ecuación sobre to-
dos los individuos i = 1, 2, ...n. Para ello se asume que {u
i
} son i.i.d sobre los individuos.
En general si F = Φ y µ se distribuye normal, el cálculo del valor esperado en (33) es
la única alternativa computacionalmente factible, por ejemplo con n = 1500 y T = 10,
aunque muy demandante de tiempo de computador. Una forma mas simple de expresar
esta esperanza es como el producto y razón de funciones gama (Beta Logistic Model).
En este caso, sea :
P(y
it
= 1|u
i
) = u
i
i = 1, . . . , n
t = 1, . . . , T
(36)
95
con u
i
distribuido beta, de la siguiente forma :
f
i
(u
i
) =
Γ(a
i
+b
i
)
Γ(a
i
) · Γ(b
i
)
· u
a
i
−1
i
(1 −u
i
)
b
i
−1
0 ≤ u
i
≤ 1
a
i
> 0
b
i
> 0
donde Γ(z) =


0
x
z−1
· e
−x
dx.
Notando que {y
it
} son serialmente independientes condicionales a u
i
, y que la inde-
pendencia entre individuos existe, entonces se tiene que (omitiendo el subindice i) :
P(y
t
= 1|y
t−1
= 1) =
P(y
t
= 1, y
t−1
= 1)
P(y
t−1
= 1)
=
E(u
2
)
E(u)
. .. .
beta
donde
E(u
2
)
E(u)
> E(u)
ya que E(u) está definido como P(y
t
= 1) donde se sabe que V (u) > 0. Heckman y
Willis sugieren que a
i
= exp(x

i
α) y b
i
= exp(x

i
β), donde x
i
es un vector de caracterís-
ticas de los decisores el que no depende del tiempo para i.
Así reemplazando en (34) se obtiene :
P(y
it
= 1) = Λ[x

i
(α −β)]
ello pues la media de una beta es (a + b)
−1
· a. Si solo consideramos probabilidades
marginales, tenemos un modelo logit y en este sentido un modelo beta logístico en una
generalización del modelo logit.
Al maximizar la siguiente expresión :
L =
n
¸
i=1
T
¸
t=1
Λ[x

i
(α −β)]
podremos obtener un estimador consistente de α−β. Sin embargo, podemos estimar α y
β consistentemente y también más eficientemente al estimar la función de verosimilitud
completa. Si la persona trabajó s
i
periodos de un total de T entonces la función de
verosimilitud del modelo beta logístico viene dada por :
L =
n
¸
i=1
E

u
s
i
i
(1 −u
i
)
T−s
i

=
n
¸
i=1
Γ(a
i
+b
i
)
Γ(a
i
) · Γ(b
i
)
·
Γ(a
i
+b
i
) · Γ(b
i
+T −s
i
)
Γ(a
i
+b
i
+T)
Pudiendo estimarse entonces α, β en forma más eficiente. Cabe señalar, eso sí, que aún
persiste el problema acerca del supuesto de que los x
i
son independientes del tiempo.
96
4.2.2. Modelos con Heterogeneidad y dependencia de estado
En esta sección generalizaremos aún mas el modelo anterior incoporando no sólo la
heterogeneidad sino que también la dependencia del estado.
Para ello definiremos la siguiente relación :
P(y
it
= 1|u
i
) = F(x

it
β +u
i
)
i = 1, . . . , n
t = 1, . . . , T
(37)
donde se asume que existe una variable latente no observable la cual determina el
resultado observado para y
it
mediante la siguiente regla:
y
it
=

1 si y

it
> 0;
0 si ∼
Heckman 1981 sugiere la siguiente especificación para este modelo:
y

it
= x

it
β +γy
i,t−1
+v
it
donde si existe dependencia de estado entonces γ = 0 y si existe heterogeneidad, habría
correlación serial en {v
it
}. De esta manera el modelo especificado en (35) surge si γ = 0
y además si v
it
= u
i
+
it
con {
it
} serialmente independientes. Este modelo restringuido
no solo asume que no existe dependencia de estado sino que también asume una forma
especial de heterogeneidad (one factor-model).
Por de pronto se asumirá que que {v
it
} está serialmente correlacionado pero donde
{y
it
} se mantiene independiente entre individuos i. La función de verosimilitud por lo
tanto es el producto de las funciones individuales.
Formalmente,
y
it
=

1 si γy
i,t−1
+x

it
β +u
i
+
it
> 0
0 si ∼
donde u
i
∼ iid(0, σ
2
u
) y
it
∼ iid(0, σ
2

) sobre i y sobre t. Además u
i
y
it
son indepen-
dientes y para cualquier (t, s), se tiene que x
it
es independiente de
is
.
Algunos comentarios:
el término γy
i,t−1
representa la existencia de dependencia entre estados. Por lo
tanto, siγ >0, se tiene que :
P[y
i,t
|x
i,t
, u
i
, y
i,t−1
= 1] > P[y
i,t
|x
i,t
, u
i
, y
i,t−1
= 0]
por otra parte, x

it
β puede capturar parte de la heterogeneidad. Sin embargo,
aquella heterogeneidad no observada será capturada por u
i
.
97
si existe heterogeneidad no-observada, esto es var(u
i
) = 0 pero no se controla
por ella en la estimación, el estimador de γ estará sesgado hacia arriba. Esto es,
concluiremos que toda la persistencia, una vez que controlamos por x
it
, se debe
a una "verdadera dependencia entre estadosçuando ello no es cierto. De hecho,
puede que no exista tal dependencia.
Una importante diferencia con el modelo estático es que tenemos una variable
explicativa y
i,t−1
la que no es exógena fuerte con respecto a u
it
. Es una variable
predeterminada: independiente de valores actuales y futuros de u pero dependiente
de valores previos de u.
Identificación de Problemas entre Heterogeneidad v/s Dependencia:
Si tenemos un panel largo, esto es con muchas observaciones por individuo, el prob-
lema de identificación entre heterogeneidad y dependencia sería trivial. El problema
radica en que generalmente este no es el caso.
Por ejemplo, cuál de las siguientes historias de elección puede ser generada por un
modelo verdadero de dependencia entre estados?
A = {0, 0, 0, 1, 1, 1} B = {0, 0, 0, 1, 0, 0}
Historia A: con una verdadera dependencia entre estados esperaríamos encontrar per-
sistencia en los dos estados. Con heterogeneidad esperaríamos encontrar persistencia en
solo un estado.
De esta manera, necesitaríamos a lo menos cuatro observaciones por individuo para
poder identificar estos dos efectos.
{0,0} {0,0,0} {0,1,0}
con T=2 {0,1} con T=3 {0,0,1} {1,0,1}
{1,0} {0,1,0} {1,1,0}
{1,1} {1,0,0} {1,1,1}
98
5. Variable Dependiente Limitada
5.1. Introducción
Dentro del trabajo empírico propiamente tal, existen muchos casos donde debido a
la forma en como recolectamos datos, disponemos de información incompleta acerca de
la conducta de ciertos elementos o unidades de la muestra. Si esta información faltante
fuera sistemática entonces aquellos modelos econométricos que ignoren este hecho po-
drían estar sesgados. Veamos algunos casos donde este fenómeno ocurre.
Truncamiento: en este caso, la muestra está sistemáticamente restringida a solo una
parte de la población. Por ejemplo, una muestra puede solo incluir personas que están
empleadas, o gente sobre una cierta edad. Ahora, el que la truncamiento sea importante
dependerá del tipo de pregunta que el investigador se haga.
Censuramiento (censura): este caso ocurre cuando la variable dependiente, pero
no así las variables independientes, son observadas dentro de un rango restringido. Bajo
esta situación, todas las observaciones de la variable dependiente que están en o bajo
el nivel límite son tratadas como si estuvieran en el nivel limite.
Selección Muestral o Truncamiento Accidental: esta situación combina aspec-
tos de las dos anteriores y ocurre cuando el proceso por el cual la muestra es truncada
influencia los parámetros del modelo estimando sobre la muestra restringida. Por ejem-
plo, supongamos que estamos interesados en examinar los determinantes de los salarios
de inmigrantes. El problema estriba en que los salarios son uno de los factores que ex-
plicaría la decisión de migrar. Esto es claramente una forma de truncamiento, es decir,
la muestra solo incluye a inmigrantes, pero es una forma donde los factores que deter-
minan el truncamiento no son independientes de la conducta de la variable dependiente
dentro de la muestra truncada.
En los acápites que siguen revisaremos la forma de estimar modelos que incorporen
explícitamente estas situaciones. No obstante lo anterior, previo a esto revisaremos al-
guna propiedades de la distribución normal que son fundamentales para entender los
problemas antes señalados.
5.2. Algunas propiedades de la distribución Normal
Sabemos que si la variable aleatoria x ∼ N(µ, σ
2
), entonces :
f(x) =
1

2πσ
2
· e
−(x−µ)
2

2
ó en el caso de que z ∼ N(0, 1) con z =
x−µ
σ
, se tiene que :
φ(z) =
1


· e
z
2
2
99
Lo anterior permite determinar ciertas propiedades de esta variable aleatoria.
φ(−z) = φ(z)
dφ(z)
dz
= −z · φ(z)
f(x) =
1
σ
· φ

(x−µ)
σ

=
1
σ
· φ(z)
Φ(a) = P(z < a) =

a
−∞
φ(z)dz
Φ(−a) = 1 −Φ(a) = P(z ≥ a)
con estas propiedades a la mano discutiremos los aspectos problemáticos mencionados
en la introducción.
5.3. Truncamiento
Como se mencionó, este fenómeno se observa cuando la muestra está restringida a
una parte de la población de tal forma que sólo observamos las variables X e Y dentro
de una rango restringido. Por ejemplo, si estamos interesados en examinar el efecto de
la escolaridad sobre los ingresos (salarios) pero solo disponemos una muestra de ingre-
sos altos. O bien, si examinamos los determinantes de los ingresos a nivel de hogares
usando una encuesta sobre empleo e ingresos en vez de una encuesta de hogares, ya
que la primera incluye, por definición, solo aquellos que están trabajado o aquellos que
pagan impuestos.
Para analizar y con ello generar una forma de estimar un modelo cuya variable de-
pendiente tenga esta característica debemos revisar las propiedades de una distribución
truncada.
Propiedades de la Distribución Truncada
La densidad de una variable que es truncada a partir de a viene dada or la siguiente
expresión :
f(x|x > a) =
f(x)
p(x > a)
esta definición asegura que la densidad truncada sume uno sobre el rango restringido.
100
f(x)
x
-0.5 0.0 0.2
E(x/x>-oo)
E(x/x>-0.5)
E(x/x>0.2)
de esta forma sabemos que :
P(x > a) = 1 −Φ
¸
(a −µ)
σ

= 1 −Φ(α)
esto último se obtiene de la última propiedad de la distribución normal ya vistas, donde
α =
a−µ
σ
.
Así tenemos entonces :
f(x|x > a) =
f(x)
[1 −Φ(α)]
=
1
σ
φ(z)
[1 −Φ(α)]
con z =
x −µ
σ
en el gráfico anterior podemos observar que si el truncamiento es por abajo, la media
de la distribución truncada será mayor que la media de aquella sin truncar. Si ahora la
distribución estuviera truncada por arriba, sería análogo a lo anterior.
De esta forma, el valor esperado de una distribución truncada tiene la siguiente for-
ma :
E(x|truncamiento) = µ +σ · λ(α)
donde,
λ(α) =
φ(α)
[1 −Φ(α)]
si el truncamiento es del tipo x > a, o bien,
λ(α) =
−φ(α)
Φ(α)
101
si el truncamiento es del tipo x < a
En ambos casos, λ(α) se conoce como el inverse mills ratio (ó hazard rate), la que
está asociada a la probabilidad condicional de observar α condicional en que α está
en la muestra. En otras palabras, mide el grado de ajuste requerido para la media sin
truncar µ.
Por otro lado, la varianza de la distribución truncada viene determinada por la siguiente
expresión :
V (x|truncamiento) = σ
2
(1 −δ(α))
donde
δ(α) =
λ(α)
[λ(α) −α]
con 0 < δ < 1 ∀α
lo que implica que la varianza de la distribución truncada siempre es menor que aquella
de la distribución sin truncar.
En general, nos referimos al truncamiento en términos del grado de truncamiento, lo que
representa la probabilidad de que x sea menor que a. Si el valor de a aumenta el grado
de truncamiento aumenta ya que la probabilidad de que x sea menor que a aumenta.
Así, una mayor proporción de la distribución se descarta y por consiguiente la media
de la distribución truncada aumenta.
E(x/x>a)
0
P(x>a)
5.3.1. Regresión Truncada
Una vez definido el truncamiento y las propiedades de una distribución truncada analizare-
mos a continuación la forma de estimación de un modelo en que la variable dependiente
tiene esta característica. Para ello definiremos la siguiente regresión :
y
i
= βx
i
+
i

i
∼ N(0, σ
2
)
102
donde si y
i
es truncada de algún modo, sabemos que:
E(y
i
|y
i
> a) = βx
i
+σ · λ
i

i
) con α
i
=
(a −βx
i
)
σ
No olvidar que a es el punto de truncamiento y α
i
es el valor estandarizado (pero no es
la constante del modelo la cual esta incorporada en x).
De esta manera, el valor esperado de y
i
viene dado por la siguiente forma :
E[y
i
|y
i
> a] = βx
i

φ[(a −βx
i
)/σ]
1 −Φ[(a −βx
i
)/σ]
expresión que sugiere que la media de la distribución truncada es una función no lineal
de x, β y σ y el punto de truncamiento a.
A partir de la formula de la varianza se puede determinar que:
V (y
i
|y
i
> a) = σ
2
[1 −δ(α
i
)]
con δ(α) = λ(α) · [λ(α) −α] y además 0 < δ(α) < 1, ∀α
donde λ(α) = φ(α)/(1 −Φ(α)) es el inverse Mills ratio.
5.3.2. Efectos Marginales:
Para el caso de un model,o de regresión truncado, los efectos marginales pueden ser
obtenidos de la siguiente manera :
∂E[y
i
|y
i
> a]
∂x
j
= β
j

∂λ
i
∂α
i
·
∂α
i
∂x
j

= β
j

λ
2
i
−α
i
λ
i

−β
j
σ

= β
j
(1 −λ
2
i

i
λ
i
)
= β
j
(1 −δ(α
i
))
ya que δ(α
i
)) < 1, ∀α, el efecto marginal de un cambio en x
j
sobre E(y
i
) cuando y
i
tiene una distribución truncada es siempre menor que el correspondiente a β
j
.
También es importante notar que si estamos tratando de realizar inferencia sobre la
sub-población entonces el parámetro relevante es β
j
(1 −δ(α)). Ahora, si el interés está
sobre inferencias concernientes a toda la población, entonces el coeficiente relevante será
β.
103
+
+ +
+
+ +
+
+
+
+
+
+
+
(+)
(+): no observado
(+)
(+)
(+)
(+)
(+)
(+)
+ : observado
a
verdadera
OLS
Del gráfico podemos notar que ajustando un OLS a los datos truncados (muestra trun-
cada) sesgará los coeficientes hacia cero.
12
5.3.3. Estimación:
Como se mencionó, si estimamos el siguiente modelo :
y
i
= βx
i
+
i

i
∼ N(0, σ
2
)
por OLS pero usando una muestra truncada, entonces tendríamos un problema de sesgo
por omisión de variable (el inverse Mills Ratio) relacionado con el truncamiento. Así los
β’s estarán sesgados y serán inconsistentes.
Mas aún, dado que el término de error en el modelo OLS está también truncado (es
decir, es una función de α) entonces el modelo anterior tendrá un término de error
heterocedastico con la siguiente estructura :
V (
i
) = σ
2
(1 −λ
2
i

i
α
i
)
el cual es una función de x
i
(ya que λ
i
es función de x
i
).
Una forma alternativa de estimación es por Máxima Verosimilitud. Dada la función
de densidad de y
i
, entonces se tiene que :
f(y
i
|y
i
> a) =
1
σ
φ[(y
i
−βx
i
)/σ]
1 −Φ[(a −βx
i
)/σ]
y en consecuencia, en logaritmos tenemos que :
logL = −
n
2

log(2π) +logσ
2


1

2
n
¸
i=1
(y
i
−βx
i
)
2

n
¸
i=1
log
¸
1 −Φ

a −βx
i
σ

12
el caso de truncamiento por arriba es análogo
104
Maximizando con respecto a β y σ
2
se obtiene lo siguiente :
∂logL
∂β
=
¸
i
¸
y
i
−βx
i
σ
2

λ
i
σ

· x
i
= 0
∂logL
∂σ
2
=
¸
i
¸

1

2
+
(y
i
−βx
i
)
2

4

α
i
λ
i

2

= 0
donde α
i
=
(a−βx
i
)
σ
y λ
i
=
φ(α
i
)
1−Φ(α
i
)
.
5.4. Datos Censurados
Como se había mencionado, en este caso observamos el vector de variables independi-
entes x sobre todo el rango pero la variable dependiente y sólo es observada sobre un
subconjunto restringido de valores de la distribución. Por ejemplo, el gasto del hogar en
bienes durables (Tobin 1958) u horas dedicadas al trabajo en Investigación y Desarrollo.
Notar que el sesgo introducido mediante la restricción del rango observado para y será
serio si la probabilidad de que y caiga por debajo del umbral no sea despreciable.
a u
f(y)
y
toda la probabilidad se concentra
en un punto
.
Sabemos que al sacar las observaciones censuradas nos quedamos con un modelo trunca-
do (muestra truncada). Por lo tanto, debemos entonces ver un método para incorporar
la presencia de censura. El problema de sacar los datos es que se pierde información
importante. Con este fin primero estudiaremos la distribución de probabilidades cuando
la variable analizada presenta censura.
5.4.1. Distribución Normal Censurada
Veamos nuevamente el modelo de variable latente:
y

∼ N(µ, σ
2
)
105
y =

a si y

≤ a;
y


en este caso y

es sólo observable para los valores sobre el umbral a. La distribución de
una variable censurada puede pensarse como la combinación de dos partes. La primera
es un componente discreto la cual otorga todo el peso del componente censurado de la
distribución en un sólo punto. En cambio, la segunda comprende el componente contin-
uo para el rango de valores de y para el que existe una distribución (truncada).
Así, el valor esperado de esta variable aleatoria esta compuestos por dos partes :
E(y) = P(y = a) · E(y|y = a) +P(y > a) · E(y|y > a)
= P(y

≤ a) · a +P(y

> a) · E(y|y > a)
= Φ(α) · a + [1 −Φ(α)] · [µ +σ · λ(α)]
donde α =
(a−µ)
σ
y λ(α) es el Inverse Mills Ratio.
5.4.2. Modelo Tobit
En general, los modelos que tratan muestras censuradas se denominan modelos de
regresión censurada donde el punto de censura puede cambiar entre observaciones. El
Modelo Tobit (Tobin’s Probit Model) opera bajo la idea de que existe un único punto
de censura el cual es fijo y generalmente normalizado a cero.
La estructura del modelo es la siguiente:
y

i
= βx
i
+
i

i
∼ N(0, σ
2
)
y
i
=0 si y

i
≤ 0
y
i
=1 si y

i
> 0
donde la media esta dada por: (aquí se asume que a = 0):
E(y
i
) = P(y
i
= 0) · E(y
i
|y
i
= 0) +P(y
i
> 0) · E(y
i
|y
i
> 0)
Veamos con mas detención esta última expresión:
si a = 0 entonces se tiene que E(y
i
|y
i
= 0) = 0
y en consecuencia, E(y
i
|y
i
> 0) = βx
i
+σ · λ
i
donde:
λ
i
=
φ[(0 −βx
i
)/σ]
1 −Φ[(0 −βx
i
)/σ]
=
φ(βx
i
/σ)
Φ(βx
i
/σ)
106
por otro lado, se tiene que:
P(y
i
> 0) = P(βx
i
+
i
> 0)
= P(
i
> −βx
i
)
= P(
i
< βx
i
)
= Φ(βx
i
/σ)
Combinando los puntos anteriores se tiene que el valor esperado de y
i
viene dado por
la siguiente expresión :
E(y
i
) = P(y

i
> 0) · E(y
i
|y
i
> 0)
E(y
i
) = Φ

βx
i
σ

· [(βx
i
+σ · λ
i
)]
donde:
λ
i
=
φ(βx
i
/σ)
Φ(βx
i
/σ)
5.4.3. Efectos Marginales:
En general, los efectos marginales dependerán si estamos interesados en saber algo sobre
la media en la distribución censurada o los coeficientes del modelo latente. Por ejemplo,
si tomamos el caso de los salarios de reserva, debemos preguntarnos si queremos estimar
el cambio en las ganancias y en la educación (sea x
j
) para solo los que trabajan (muestra
censurada) o bien la relación entre educación y ganancias (esperadas) para toda la oferta
de trabajo.
∂E(y
i
|x
i
)
∂x
j
= β
j
· Φ(βx
i
/σ)
. .. .
parte censurada
∂E(y

i
/x
i
)
∂x
j
= β
j
. .. .
toda la población
Así, si x
j
aumenta (educación medida como número de años en el colegio) primero
afecta la media condicional del valor de y

en la parte positiva de la distribución. El se-
gundo efecto es que un aumento en x
j
va aumentar la probabilidad de que la observación
caiga en la parte positiva de la distribución.
107
+
+
+
+
+
+
+
+
+
+
(+)
(+)
(+)
(+)
(+)
(+)
verdadera
+
OLS muetra
censurada
OLS
muestra
truncada
5.4.4. Estimación Tobit
Considerando una distribución normal para los errores, la función de verosimilitud para
el modelo Tobit tiene la siguiente forma :
logL =
¸
y
i
>0
¸

1
2
log(2π) +log(σ
2
) +
(y
i
−βx
i
)
2
σ
2

+
¸
y
i
=0
log
¸
1 −Φ

βx
i
σ

La cual es una mezcla de observaciones con distribución continua (no censurada) y ob-
servaciones con distribución discreta censurada. Esta es una expresión compleja pero
manejable. Generalmente, los estimadores OLS se reportan también con fines compar-
ativos.
Del gráfico anterior se puede observar que los parámetros OLS son menores en valor
absoluto, a aquellos obtenidos por MLE. Resultados empíricos sugieren que los esti-
madores MLE pueden aproximarse al dividir los estimadores OLS por la proporción de
observaciones no limitadas en la muestra.
No obstante, existe una forma más adecuada de corregir los estimadores OLS cuando
los datos son censurados: método de Heckman en dos etapas, el cual discutiremos con
más detalle en "sesgo de selección".
5.4.5. Residuos Generalizados
Al igual que en los modelos de elección binaria, el supuesto de la distribución de los
errores así como también la presencia de heteroscedasticidad y autocorrelación generan
estimadores inconsistentes. Como se discutió anteriormente, ello se debe a la no lineal-
idad presente en este tipo de modelos.
Dado esto, se desarrolló una batería de test basados en los residuos generalizados de las
estimaciones máximo verosímiles las que ahora se explican para el caso de un modelo
Tobit.
108
Sabemos que E(y

i
) = x

i
β y además que las esperanzas condicionales son:
(i)
E(y

i
|y
i
= 0) = E(y

i
≤ 0)
= x

i
β +E(
i
|x

i
β +
i
≤ 0)
= x

i
β −σ · E
¸

i
σ
|
x

i
β
σ


i
σ

= x

i
β −σ · λ(α
i
)
con:
λ(α
i
) =
φ

x

i
β
σ

1 −Φ

x

i
β
σ

(ii) Además, E(y

i
|y
i
> 0) = y
i
Uniendo ambos términos se tiene lo siguiente :
µ
i
= E(y

i
|y
i
) =

y
i
si y
i
= 0;
x

i
β −σ · λ
i
si y
i
= 0
o bien, como una forma alternativa de re escribirlo, se tiene :
µ
i
= D
i
· y
i
+ (1 −D
i
) · (x

i
β −σ · λ
i
)
donde
D
i
=

1 si y

i
> 0;
0 ∼
De esta manera, los residuos generalizados del modelo Tobit vienen dados por la sigu-
iente expresión :
η
i
= µ
i
−x

i
β =

y
i
−x

i
β si y
i
= 0;
−σ · λ
i
si y
i
= 0
La función de verosimilitud asociada a estos residuos, tiene la siguiente forma :
logL =
n
¸
i=1
D
i

logφ

y
i
−x

i
β
σ

−log(σ)

+ (1 −D
i
) · log
¸
1 −Φ

x

i
β
σ

109
A partir de esta expresión se pueden obtener los primeros momentos de los residuos los
cuales tienen la siguiente forma :
ˆ e
(1)
i
=
ˆ η
i
ˆ σ
ˆ e
(2)
i
= D
i

y
i
−x

i
ˆ
β
ˆ σ

2
−1

+ (1 −D
i
) ·
ˆ
λ
i
·

x

i
ˆ
β
ˆ σ

ˆ e
(3)
i
= D
i
·

y
i
−x

i
ˆ
β
ˆ σ

3
−(1 −D
i
) ·
ˆ
λ
i
·

¸
2 +

x

i
ˆ
β
ˆ σ

2
¸

ˆ e
(4)
i
= D
i

y
i
−x

i
ˆ
β
ˆ σ

4
−3

+ (1 −D
i
) ·
ˆ
λ
i
·

3

x

i
ˆ
β
ˆ σ

+

x

i
ˆ
β
ˆ σ

3
¸
¸
5.4.6. Pruebas basadas en el Score
Siguiendo los aspectos metodológicos discutidos para el caso del Probit, en lo que sigue
se discuten algunas pruebas basadas en el score para el caso particular del modelo de
censura Tobit.
1. Variable Omitida:
Se asume que el modelo correctamentee specificado tiene la siguinete forma :
y

i
= x

i
β +z

i
γ +ε
i
donde la prueba nula, acerca de la inclusión de una variable relevante es Ho: γ = 0
donde
∂logL
∂γ
=
1
σ
2
¸
n
i=1
η
i
z
i
En general, para el caso del Tobit, se tiene que :
∂logL
∂β
=
n
¸
i=1

D
i
¸
y
i
−x

i
β
σ

+ (1 −D
i
)(−λ
i
x
i
σ
)

=
1
σ
2
n
¸
i=1
η
i
· x
i
a diferencia del caso Probit el vector de score incluye adicionalmente un término
con respecto a σ y por lo tanto debe ser este incluido en las pruebas de hetero-
cedasticidad y/o normalidad mediante el segundo momento de los residuos.
Como en el caso de probit, para probar variable omitida definimos el siguiente
estadístico:
c

R(R

R)
−1
R

c ∼ χ
2
(p)
p : #restricciones
110
donde c es un vector de unos con dimensión n y por su parte R una matriz cuya
fila i es: (ˆ e
(1)
i
x

i
, ˆ e
(1)
i
z

i
, ˆ e
(2)
i
), el cual se obtiene al regresionar c sobre R. Si se trata
de una sola variable omitida, el estadístico de student asociado a ˆ e
(1)
i
z

i
al cuadrado
es el χ
2
1
necesario para la prueba. Recordar que:
ˆ e
(1)
i
=
ˆ η
i
ˆ σ
ˆ e
(2)
i
=

[ˆ e
(1)
i
]
2
−1 si y > 0;
ˆ
λ
i
x

i
ˆ
β
ˆ σ
si y = 0
2. Heterocedasticidad: aquí se aplica la misma idea que el caso anterior pero ahora
la fila i del vector R es la siguiente : (ˆ e
(1)
i
x

i
, ˆ e
(2)
i
, ˆ e
(2)
i
z
i
) si se asume que el modelo
es:
y

i
= x

i
β +
i
con σ
2
= h(z

i
γ) donde
∂h(z

i
γ)
∂γ

γ=0
= z
i
. Por ejemplo, exp(z
i
γ).
3. Normalidad: para este caso se debe considerar el tercer y cuarto momento de la
distribución de los errores generalizados. Veamos esto en detalle.
Tercer momento:
E
¸

i
σ

3
|y
i

= 0
ˆ e
(3)
i
=

[ˆ e
(1)
i
]
3
si y > 0;
λ(2 +z
2
) si y = 0
o bien
ˆ e
(3)
i
= D
i

y
i
−x

i
ˆ
β
ˆ σ

3
−(1 −D
i
)
ˆ
λ
i

¸
2 +

x

i
ˆ
β
ˆ σ

2
¸

como ya lo habíamos visto. Por su part el cuarto momento tien la siguiente es-
tructura:
E
¸

i
σ

4
|y
i

= 0
ˆ e
(4)
i
=

[ˆ e
(1)
i
]
4
−3 si y > 0;
λ
i
(3z +z
3
) si y = 0
o bien
ˆ e
(4)
i
= D
i

y
i
−x

i
ˆ
β
ˆ σ

4
−3
¸
¸
+ (1 −D
i
)
ˆ
λ
i

3

x

i
ˆ
β
ˆ σ

+

x

i
ˆ
β
ˆ σ

3
¸
¸
111
Para testear la normalidad de los residuos, se deben utilizar el tercer y cuarto
momento conjuntamente. La prueba estadística es análoga a las dos ya vistas y
tiene la siguiente forma:
c

R(R

R)
−1
R

c ∼ χ
2
(p)
donde, en este caso c es un vector columna de unos y la fila i de la matriz R tiene
los siguientes elementos : [ˆ e
(1)
i
, ˆ e
(1)
i
x
i
, ˆ e
(2)
i
, ˆ e
(3)
i
, ˆ e
(4)
i
].
Sabemos que si esta prueba de normalidad es rechazada entonces Tobit no es
un modelo apropiado porque los β’s serán inconsistentes. No obstante lo anterior,
ello dependerá del grado de censura en la variable endógena. Por otra parte, es
posible realizar pruebas acerca de restricciones sobre el tercer y cuarto momento
en forma separada pero ello no constituye una prueba de normalidad.
Existe una forma de testear normalidad y heterocedasticidad del tipo White
(de forma desconocida) mediante un procedimiento similar al anterior pero ahora
donde la fila i de la matriz R es la siguiente: [ˆ e
(1)
i
x

i
, ˆ e
(2)
i
, ˆ e
(2)
i
x
i
x

i
, ˆ e
(3)
i
, ˆ e
(4)
i
].
Ejemplo: Heterocedasticidad Multiplicativa en el modelo Tobit
Utilizado datos de corte transversal, Petersen y Waldman analizaron el volumen
de los intereses pagados a corto plazo por diferentes acciones. Los regresores de
su modelo eran una medida de la componente de las expectativas heterogéneas
de la compañía determinada por el mercado, similar a lo que se denomina coe-
ficiente BETA; una medida de las expectativas heterogéneas especifica de cada
compañía, que llamaremos NO-MERCADO; el NUMERO de la compañía dedica-
dos a predecir ganancias; el número de acciones comunes emitidas para adquirir
otras empresas, variable denominada FUSION; y la variable binaria que indican
si existen o no OPCIONES. Los autores presentan resultados que se presentan
en la siguiente tabla en un modelo que supone que la varianza es de la forma
σ
2
i
= exp(α

x
i
). Los valores que se dan entre paréntesis son los errores estándar
asintóticos estimados.
Estimadores de un Modelo Tobit
Homocedástico Heterocedástico
β α β
Constante -18.28 (5.10) -4.11 (3.28) -0.47 (0.60)
BETA 10.97 (3.61) 2.22 (2.00) 1.20 (1.81)
NO-MERCADO 0.65 (7.41) 0.12 (1.90) 0.08 (7.55)
NUMERO 0.75 (5.74) 0.33 (4.50) 0.15 (4.58)
FUSION 0.50 (5.90) 0.24 (3.00) 0.06 (4.17)
OPCIONES 2.256 (1.51) 2.96 (2.99) 0.83 (1.70)
LogL -547.30 -466.27
Tamaño muestral 200 200
112
El efecto de la heterocedasticidad sobre los estimadores es muy importante. Puede
contrastarse la hipótesis α = 0 utilizando un estadístico de cocientes de verosimil-
itudes. Con estos resultados el estadístico es -2[-547.3-(-466.27)]=162.06. La dis-
tribución asintótica del estadístico es χ
2
(5)
. El valor muestral es muy superior al
valor crítico que aparece en las tablas, por lo que se rechaza la hipótesis nula.
5.4.7. Modelos alternativos para censura
Como se discutió previamente, los estimadores del modelo Tobit son inconsistentes si
los supuestos sabre los que descansan no se cumplen. Existen a los menos dos soluciones
en la literatura orientadas a estimar modelos con variables censurada cuando el Tobit
es inconsistente. Powell (1984, 1986) ha sugerido dos soluciones posibles, las que a con-
tinuación revisaremos.
Symmetrically Trimmed Least Squares
La idea detrás de este estimador puede resumirse de la siguiente manera. Suponga que
pudiéramos observar la variable latente y

en todo su espectro y que el término de error,
en consecuencia, estará simétricamente distribuido en torno a cero. Así la estimación
por OLS nos daría estimadores consistentes. De esta forma, la censura introduce lo que
hace es introducir una asimetría a la distribución.
e
xi'beta 2xi'beta
Densidad de xi'beta + e
Para una observación dada x
i
, solo podemos obtener el area a la derecha de 0. Así todas
las observaciones donde e
i
<−x
i
β están omitidas. En un modelo del tipo:
y

= xβ +e
y
i
=

y

i
si y

i
> 0;
0 si y

i
≤ 0
ó bien
y
i
=

y

i
si e
i
> −x
i
β;
0 si e
i
≤ −x
i
β
113
Suponga ahora que truncamos las observaciones tales que e
i
>xiβ. Esto significa tomar
los puntos a la derecha de 2x
i
β en la figura anterior, y en consecuencia tendríamos
nuevamente una distribución del error que sería simétrica.
Powell (Econometrica 1986) sugiere que si conociéramos el verdadero valor del parámetro
β (por ejemplo, β
0
) podríamos reemplazar y
i
por la mínima cantidad entre {y
i
, 2x
i
β
0
} y
generar de esta forma un estimador consistente para β
0
. Otra forma de hacer lo mismo
es:
e

i
= max(e
i
, −x
i
β
0
)
y reemplazar e

i
por el min{y
i
, 2x
i
β
0
} si x
i
β
0
>0 o bien borrar la observación si esto no
se cumple.
En consecuencia, el verdadero valor del coeficiente β
0
debería satisfacer la siguiente
ecuación normal:
n
¸
i=1
1(x
i
β
0
) · (min{y
i
, 2x
i
β
0
} −x
i
β
0
)x

i
= 0 (38)
Cabe hacer notar que β
0
no es observado pero Powell hace uso de la noción de .
a
uto
consistencia"para demostrar que un estimador de β
0
, consistente al ser solución de (38)
nos entrega un estimador consistente del verdadero β.
En términos prácticos, es relativamente sencillo encontrar un estimador consistente de
β, el que denominaremos
ˆ
β al usar el siguiente algoritmo iterativo:
1. Calcular un estimador inicial
ˆ
β por OLS a partir de los datos originales.
2. Calcular el valor predicho para todas las observaciones
si el valor predicho es negativo, hacer la observación como missing.
si el valor de la variable dependiente es mayor que dos veces el valor predicho,
entonces reemplazar el valor de la variable dependiente por 2x
i
β
3. Correr un OLS sobre los nuevos datos alterados.
4. Volver a realizar la rutina hasta que el valor de β ya no cambie.
La matriz de varianza de
ˆ
β puede ser determinada de la siguiente forma. Definiendo :
C
n
=
1
n
·
n
¸
i=1
E[1(−x
i
β
0
<
i
< x
i
β
0
) · x

i
x
i
] (39)
y por otra parte :
D
n
=
1
n
·
n
¸
i=1
E[1(x
i
β
0
> 0) · min{
2
i
, (x
i
β
0
)
2
}x

i
x
i
] (40)
114
Así la matriz de varianza covarianza puede sere estimada como :
´
C
−1
´
D
´
C
−1
donde
´
C y
´
D son estimadores consistentes de (39)y (40) respectivamente.
Una característica atractiva de este método es que es robusta ante la presencia de
heterocedasticidad siempre y cuando la distribución del error sea simétrica. Este méto-
do es más útil, es decir, eficiente, mientras menos sea el grado de censura y mayor el
tamaño de la muestra.
115
116
117
5.4.8. Censured Least Absolute Deviations (CLAD)
Esto es una forma alternativa de estimar Tobit simple cuando existen problemas con
los supuestos. Este estimador es un poco menos restringido con respecto a los errores
comparado con el STLS.
De nuevo supondremos que y

puede ser observada en el modelo.
y

= xβ +
así:
E[y

i
|x
i
] = x
i
β +E[
i
/x
i
] = x
i
β
su estimador consistente puede ser obtenido por OLS, el cual es la solución al siguiente
programa :
m´ın
ˆ
β
¸
n
¸
i=1
(y

i
−x
i
ˆ
β)
2
¸
esto es
ˆ
β es aquel estimador que minimiza la suma de errores al cuadrado.
Suponga que en vez de minimizar los errores al cuadrado, se minimiza la suma del
valor absoluto de los errores.
m´ın
ˆ
β
¸
n
¸
i=1
|y

i
−x
i
ˆ
β|
¸
este estimador se conoce como desviaciones absolutas mínimas (LAD). Otra forma de
escribir este modelo es:
m´ın
ˆ
β
n
¸
i=1
(y

i
−x
i
ˆ
β) · signo(y

i
−x
i
ˆ
β)
donde signo (·) toma el valor de 1, 0, -1 dependiendo si el argumento es positivo, cero
o negativo. La ecuación normal correspondiente es:
n
¸
i=1
x

i
· signo(y

i
−x
i
ˆ
β) = 0
de esta manera, es el signo de los residuos y no su magnitud la que importa para
determinar
ˆ
β. Como puede inferirse, la regresión LAD corresponde a la regresión sobre
la mediana de la muestra ya que :
q
50
[y

i
|x
i
] = x
i
β +q
50
[
i
|x
i
] = x
i
β
118
No olvidar que OLS corresponde a la regresión sobre la media la cual será inconsistente
en un modelo de regresión censurada pues :
E[m´ax{0, y

i
}|x
i
] = x
i
β +E[|x
i
,
i
> −x
i
β] = x
i
β
La mediana, a diferencia de la media, no es afectada por la transformación max. De
esta manera, se puede demostrar que: (ver Powell 1984)
q
50
[m´ax{0, y

i
}|x
i
] = x
i
β +q
50
[|x
i
,
i
> −x
i
β] = x
i
β
ello es cierto independientemente de la forma de los errores. En particular si son hete-
rocedásticos y/o no normales.
La representación práctica de este estimador exige regresiones cuantiles en q = 50,
qreg en STATA). Veamos esto:
1. Regresione por LAD (o qreg en q = 50) sobre la muestra entera para generar un
valor inicial de β.
2. Use este estimador para sacar las observaciones para las cuales su predicción es
negativa.
3. Regresione por LAD sobre esta nueva muestra y encuentre un nuevo estimador de
β.
4. Repita (b) y (c) hasta que
ˆ
β converja.
Notar que pueden existir problemas con el mínimo global. Así, deberá probar distintos
valores iniciales. La matriz de covarianzas se estima por bootstrap del proceso completo.
5.5. Modelos para Sesgo de Selección
Recordemos que la principal diferencia entre un modelo censurado y un modelo de sesgo
selección (censura accidental) estaba en que la presencia de la observación en la muestra
(sólo la variable dependiente) estaba determinada por variables que habían sido recogi-
das en la muestra.
Para ilustrar este último punto veamos el siguiente modelo :
y
2i
= z
i
δ +v
2i
(a)
y
1i
= x
i
β +v
1i
si y
2i
> 0 (b)
y
1i
no obs. si y
2i
≤ 0
D
2i
= 1 si y
2i
> 0
D
2i
= 0 si y
2i
≤ 0
119
La ecuación para y
1i
es una ecuación de regresión común. Sin embargo, bajo ciertas
condiciones no observamos la variable dependiente de esta ecuación. Denotaremos si
observamos o no esta variable mediante una variable dummy D
2i
. La observación de la
variable dependiente y
1i
es función del valor de otra regresión : la ecuación de selección
que relaciona la variable latente y
2i
con algunas características observadas z
i
). Puede
que las variables en x
i
y z
i
puedan traslaparse incluso ser las mismas aunque esto puede
generar problemas de identificación.
Algunos ejemplos:
1. Oferta de trabajo de madres casadas: primera ecuación son las horas y la segunda
es sobre al diferencia de salario de mercado y el salario de reserva no observado.
2. Relación entre tamaño de la firma y crecimiento: primera ecuación relaciona crec-
imiento y tamaño y la segunda describe la probabilidad de salida entre el primer
y el segundo período.
Análisis del Sesgo:
Suponga que estimamos la ecuación (b) por OLS usando solo los datos observados.
Existe algún sesgo en los βs ?.
Sin asumir una distribución en particular para los errores v, el valor esperado de y
1
condicional en x y la probabilidad de observar y
1
viene dado por :
E[y
1
|x, y
2
> 0] = xβ +E[v
1
|v
2
> −zδ]
De esta manera, β será insesgado si y solo si v
1
es independiente de v
2
lo que implica
que los datos están “aleatoriamente” faltantes o que el proceso de selección es "ignor-
able"(caso poco realista).
Ahora, asumiremos que v
1
y v
2
están distribuidos conjuntamente f(v
1
, v
2
, θ) donde
θ es un conjunto finito de parámetros : media, varianza y correlación entre las variables
aleatorias.
Usando Bayes tenemos que el valor esperado de v
1
condicional es el siguiente :
E[v
1
|v
2
> −z
i
δ] =


−∞


−z
i
δ
v
1
· f(v
1
, v
2
, θ)dv
2
dv
1


−∞


−z
i
δ
f(v
1
, v
2
, θ)dv
2
dv
1
(41)
= λ(zδ, θ)
De esta manera se desprende que la esperanza condicional de y
1
dado x y la probabilidad
de observar y
1
será igual a la regresión común de y
1
n función de xβ mas una función
no lineal de los regresores z de la ecuación de selección, la cual no tendrá una media
igual a cero (análogo a IMR). De esta forma, y con respecto a la estimacioines de los
parámetros en el modelo de sesgo de selección, se puede determinar lo siguiente:
120
1. El intercepto estimado será sesgado pues la media del término de error no es cero.
De hecho es igual a E
i
[λ(z
i
δ; θ)].
2. Si las variables x y z no son distribuidas completamente independientes, es decir,
tiene variables en común o están correlacionadas, los coeficientes de pendiente
estimados estarán sesgados pues existe un problema de omisión de variable en
la regresión. La variable omitida es λ(z
i
δ; θ) la cual está correlacionado con las
variables incluidas x.
Notar que aunque x y z sean independientes, el hecho de que los datos faltantes no lo
sean aleatoriamente introduce heterocedasticidad al término de error y así OLS no es
eficiente.
Existen a lo menos dos formas de solución el problema de sesgo de selección dentro
del mundo paramétrico.
13
Uno es el método en dos etapas atribuible a Heckman (1979)
y el otro es mediante Máxima Verosimilitud (Amemiya 1981). Antes de analizar estos
dos métodos en detalle discutiremos previamente las propiedades de una distribución
normal bivariada truncada.
14
Asumiendo que la distribución conjunta entre dos variables aleatorias x e y es normal
bivariada, esto puedes ser especificado de la siguiente manera :

x
y

∼ N
¸
µ
x
µ
y

,

σ
2
x
ρσ
x
σ
y
ρσ
x
σ
y
σ
2
y

donde ρ es la correlación entre ambas variables aleatorias, y en consecuencia ρσ
x
σ
y
es la
covarianza entre ambas variables. Una de las tantas ventajas de la distribución normal
es que la distribución condicional también es normal. Veamos esto :
f(y|x) ∼ N

µ
y
+ρ ·
σ
x
σ
y
σ
2
x
· (x −µ
x
), σ
2
y
(1 −ρ
2
)

o bien, estandarizando, queda :
f(y|x) ∼ φ

y −µ
y
−ρ ·
σ
x
σ
y
σ
2
x
· (x −µ
x
)
σ
y

1 −ρ
2

Así, la distribución de y dado x es normal con una media mayor que su media sin
condicionar µ
y
si las variables x e y están positivamente correlacionados y mientras x
sea mayor que su media sin condicionar. Análogamente, la media condicional de y es
menor que su media incondicional cuando x e y están negativamente correlacionados y
x es mayor que su media.
15
En general, y condicional en x tiene una varianza menor
que la distribución incondicional de y independientemente de la correlación entre x e y.
13
ya discutiremos mas adelante aquellas provenientes del mundo semi paramétrico
14
la normal truncada univariada fue discutida previamente
15
lo contrario se cumple cuando x es menor a su media
121
Usando este resultado podemos mostrar que la esperanza condicional de y, condicional
que x es mayor que una valor dado, tiene la siguiente forma:
E[y|x > a] = µ
y
+ρ · σ
y
· λ

a −µ
x
σ
x

donde
λ(µ) =
φ(µ)
1 −Φ(µ)
=
φ(−µ)
Φ(−µ)
a λ(µ) se le conoce como el hazard rate de x evaluado en a.
5.5.1. Heckman (1979) two-step estimator
Este autor asume que existe una distribución normal bivariada de los errores en las
ecuaciones (a) y (b) con la siguiente estructura :

u
1
u
2

∼ N
¸
0
0

,

σ
2
1
ρσ
1
ρσ
1
1

de esta forma, la ecuación de selección se convierte en un modelo Probit. Por su parte,
recordemos que la varianza de la distribución en la ecuación Probit puede ser normal-
izada a uno sin pérdida de información ya que la escala de la variable dependiente no
es observada.
De esta manera, usando el supuesto de normalidad y las propiedades de la normal
bivariada truncada podemos calcular E[y
1
|y
2
> 0] como sigue:
E[y
1
|y
2
> 0] = xβ +E[v
1
|v
2
> −zδ] (42)
= xβ +ρσ
1
λ
¸
−zδ
1

= xβ +ρσ
1
φ(−zδ)
1 −Φ(−zδ)
= xβ +ρσ
1
φ(zδ)
Φ(zδ)
ya que el IMR siempre es positivo, la regresión de y sobre x estará sesgada dependiendo
del valor de ρ.
Así la magnitud del sesgo dependerá de la magnitud de la correlación entre los errores
(ρ), la varianza relativa del error (σ
1
) y la severidad del truncamiento (IMR es mayor
cuando zδ es menor). Así, si ρ = 0 entonces no habrás sesgo de selección.
122
Cabe señalar que en el caso del Tobit simple, donde y
1
es igual a y
2
, ρ = 1 y por
lo tanto se tiene que el valor esperado condicional es :
E[y
1
|y
1
> 0] = xβ +σ
1
·
φ(xβ)
Φ(xβ)
con el sesgo siempre hacia abajo.
Estimación utilizando el método de Heckman:
La idea es utilizar la especificación en (42)
E[y
1i
|y
2i
> 0] = x
i
β +ρ · σ
1
·
φ(z
i
δ)
Φ(z
i
δ)
y estimar β en (b) por OLS incluyendo una medida de
φ(z
i
δ)
Φ(z
i
δ)
en dicha ecuación.
Con este fin Heckman (1979) sugiere realizar los siguientes pasos:
1. Estimar δ consistentemente usando un probit para la probabilidad de observar los
datos en función de z.
2. Calcular su valor ajustado para la función índice o variable latente ˆ y
2i
= z
i
ˆ
δ y
calcular enseguida el IMR,
ˆ
λ
i
como función de ˆ y
2i
.
3. Incluir
ˆ
λ
i
en la regresión de y
1i
sobre x
i
para aproximar λ(z
i
δ). El coeficiente de
ˆ
λ
i
será una medida de ρσ
1
y de esta forma una estimación de ρ y σ
1
puede ser
obtenida a partir de allí.
Los valores resultantes (estimadores) de β, ρ y σ
1
son consistentes pero asintóticamente
ineficientes bajo el supuesto de normalidad. La gran gracia de este método es su sencillez
puesto que sólo se necesita un probit y un OLS.
No obstante lo anterior, existen a lo menos tres aspectos que se deben considerar con
respecto a este estimador en dos etapas:
1. El estimador del error estándar convencional en (a) es inconsistente pues el modelo
de regresión en (42) es intrínsecamente heterocedástico debido a la selección. Una
forma de solucionar esto es mediante el uso de los estimadores de los errores
estándar robustos los cuales son, al menos consistentes.
2. El método no impone la condición que |ρ| ≤1 lo cual esta implícitamente asumido
en el modelo. Esta condición es a menudo violada.
3. El supuesto de normalidad es necesario para la consistencia de los estimadores.
123
5.5.2. Estimación por ML:
Cabe señalar que uno de los principales problemas que existían por ese entonces era la
capacidad computacional para estimar modelos no lineales sofisticados. De esta man-
era, el tener acceso a un paquete computacional que pueda maximizar la función de
verosimilitud con respecto a un vector de parámetros dado un conjunto de datos per-
mite savar esta valla técnica. De esta forma, quizá el desafío más grande sea definir la
función de verosimilitud acorde al problema econométrico que se nos presenta.
Para el caso particular del Tobit generalizado (Tobit tipo II según la nomenclatura
de Amemiya 1985), primero se debe especificar el modelo completo como lo hemos he-
cho en (a) y (b). A su vez, es necesario incluir una especificación general y completa de
la distribución de las variables aleatorias en el modelo, como lo hicimos en (42).
El paso siguiente es dividir las observaciones en grupos de acuerdo al tipo de dato
observado. Considerando el problema de sesgo de selección, cada grupo tendrá una for-
ma distinta de verosimilitud. En este caso puntual tenemos dos tipos de observaciones.
1. Aquellas donde y
1
es observada para lo cual sabemos que la condición de que
donde sabemos que y
2
> 0 se cumple. Para estas observaciones la función de
verosimilitud es la probabilidad del evento y
1
y que también ocurra que y
2
> 0.
P(y
1i
, y
2i
> 0|x, z) = f(y
1i
) · P(y
2i
> 0|y
1i
, x, z)
= f(v
1i
) · P(v
2i
> −z
i
δ|v
1i
, x, z)
=
1
σ
1
· φ

y
1i
−x
i
β
σ
1

·


−z
i
δ
f(v
2i
|v
1i
)dv
2i
=
1
σ
1
·

y
1i
−x
i
β
σ
1

·


−z
i
δ
φ
¸
v
2i

ρ
σ
1
(y
1i
−x
i
β)

1 −ρ
2
¸
dv
2i
=
1
σ
1
· φ

y
1i
−x
i
β
σ
1

·
¸
1 −Φ ·

z
i
δ +
ρ
σ
1
(y
1i
−x
i
β)

1 −ρ
2
¸
=
1
σ
1
· φ

y
1i
−x
i
β
σ
1

· Φ ·

z
i
δ +
ρ
σ
1
(y
1i
−x
i
β)

1 −ρ
2

Así, la probabilidad de una observación para la cual observamos efectivamente sus
datos es la densidad en el punto y
1
multiplicada por la probabilidad condicional
para y
2
dado el valor de y
1
fue observado.
2. Para aquellos y
1
no observados, sabemos que y
2
≤ 0 y del manera, no tenemos
información independiente para y
1
.
P(y
2i
≤ 0) = P(v
2i
≤ −z
i
δ)
= Φ(−z
i
δ)
= 1 −Φ(z
i
δ)
124
De esta manera, juntando ambos términos, se tiene que la loglikelihood de la muestra
completa de observaciones será la siguiente:
logL(β, δ, ρ, σ
1
; datos) =
N
0
¸
i=1
log [1 −Φ(z
i
δ)]
+
N
¸
i=N
0
+1
¸
−logσ
1
+logφ

y
1i
−x
i
β
σ
1

+logΦ

z
i
δ +
ρ
σ
1
(y
1i
−x
i
β)

1 −ρ
2
¸
donde existe N
0
observaciones para las cuales no observamos y
1
y N
1
observaciones,
donde si lo hacemos, con N = N
0
+N
1
. Los parámetros estimados pueden obtenerse al
maximizar la función de verosimilitud con respecto a sus argumentos.
Estos estimadores serán consistentes y asintóticamente eficientes bajo el supuesto de
normalidad y homocedasticidad de los términos de error no censurados.
16
Aunque un-
os de los problemas que tiene la estimación por ML es que la función no es estrictamente
cóncava y en consecuencia no necesariamente existe una única solución.
16
Ver Amemiya 81 para la demostración.
125
126
127
128
129
5.5.3. Pruebas de normalidad en el Tobit generalizado
Como habíamos visto, el modelo de Tobit generalizado (tipo II) pueder ser escrito de
la siguiente forma :
y

1i
= x

1i
β
1

1i
y
i
=

y

1i
si y
2i
> o
0 otro caso
D
i
=

1 si Y
2i
> 0;
0 otro caso
con
y

2i
= x

2i
β
2

2i
La segunda etapa en el modelo de Heckman está basado en:
y
1i
= x

1i
β
1
+E(ε
1i
|D
i
= 1) +ε
1i
Ahora, si (ε
1i
, ε
2i
) se distribuyan normal bivariada, entonces se tiene que :
E(ε
1i
|D
i
= 1) =
σ
12
σ
2
λ
i
, con λ
i
=
φ

x
2i
β
2
σ
2

φ

x

2i
β
2
σ
2

Notar que generalmente se normaliza σ
2
= 1 el cual no afecta a los parámetros.
Prueba de Normalidad de la distribución marginal de ε
1i
:
Partiremos con una expresión generalizada de distribución conjunta para los errores
de ambas ecuaciones desarrolada por Gallant y Nychka (Econométrica 1987).
f(ε
1
, ε
2
) =

K
¸
k=0
J
¸
j=0
γ
kj
· ε
k
1
· ε
j
2

· b(ε
1
, ε
2
)
donde b es la densidad normal bivariada con γ
00
= 1. Si K = 0, reemplazando en la
expresión anterior se obtiene lo siguiente :
E(ε
1i
|D
i
= 1) = E(ε
2i
|D
i
= 1) +γ
01
E(ε
2i
|D
i
= 1) +.......γ
0j
E(ε
j
2i
|D
i
= 1)
Los cuatro primeros términos del lado derecho, corresponden a:
λ
i
, 1 −Z
i
· λ
i
, λ
i
· (Z
2
i
+ 2), 3 −3Z
i
· λ
i
−Z
3
i
· λ
i
donde
Z
i
=
X

2i
β
2
σ
2
y λ
i
=
φ(Z
i
)
φ(Z
i
)
130
respectivamente.
Pagan y Vella (1989) basada en esta descomposición, sugieren agregar
ˆ
Z
j
i
·
ˆ
λ
i
con
(j = 1, 2, 3) a la ecuación en el segundo paso del estimador de Heckman y probar por su
significancia conjunta. En otras palabras, sugieren agregar el IMR, IMR
2
y IMR
3
a la
ecuación de intensidad y testear su significancia conjunta. Si se rechaza entonces no ex-
iste sospecha de no normalidad y por lo tanto los estimadores del Tobit son consistentes.
Cabe recordar que en el modelo de Heckman la distribución de los errores de la ecuación
de selección, aquella que se estima utilizando un Probit, se asume normal. De esta for-
ma, una prueba indirecta acerca de la validez de los estimadores de Heckman es testear
la normalidad de los errores en el Probit mediante residuos generalizado.
Pues bien, si los errores son normales en el Probit o la expansión de IMR’s en la ecuación
de intensidad sugerida por Pagan y Vella no son significativos, entonces el modelo Tobit
generalizado debería estimarse por ML.
Recordemos que la estimación de Heckman es ineficiente comparada con ML y según
Davidson y Mackinnon, representa una buena prueba para estudiar la presencia de sesgo
de selección pero no para estimar parámetros.
5.5.4. Estimación modelo de sesgo de selección con errores no normales
La pregunta que surge ahora es qué pasa si las pruebas de normalidad son rechazadas.
Cabe recordar que debido a la no linealidad del modelo, el rechazo de f(ε
1
, ε
2
) se dis-
tribuya normal bivariada significa que los estimadores tanto de la ecuación de intensidad
(
ˆ
β
1
) como aquellos de la ecuación de selección (
ˆ
β
2
) serán inconsistentes. Ya sea si fueron
estimados por ML o bien por Heckman).
Existen dos formas generales para solucionar este problema. Una es seguir en el mundo
paramétrico, asumiendo que se conoce la distribución de los errores en ambas ecua-
ciones. Y la otra es moverse al mundo no paramétrico, estrictamente hablando, al semi-
paramétrico.Veamos cada uno de ellos.
Mundo paramétrico:
Supongamos que ε
2
, los errores de la ecuación de selección no son normales. Bajo lo que
se denomina "Modelo de Selección Generalizado"podemos redefinir el término del error
como sigue:
y

1i
= x

1i
β
1

1
ε
0
1i
y

2i
= x

2i
β
2

0
2i
131
Suponga que ε
0
2i
tiene una distribución F conocida. Entonces, podemos obtener una
nueva variable normal al aplicar la siguiente función sobre los errores originales :
ε

2i
= J(ε
0
2i
) = Φ
−1
· F(ε
0
2i
)
y, en consecuencia :
ε

2i
∼ N(·)
También se puede relajar el supuesto de normalidad de ε

1i
. La única condición es que
F sea conocida y continua.
De esta forma, el modelo de Heckman en dos etapas tiene la siguiente forma:
y
1i
= x

1i
β
1

1
· ρ ·
¸
φ(J(x

2i
β
2
))
F(x

2i
β
2
)


i
(43)
con ρ =cor(ε
0
1i
, ε

2i
) la correlación entre los errores.
Notar que las probabilidades ajustadas de la primera etapa son F(x

2i
ˆ
β
2
) y en con-
secuencia, el término entre corchetes en (43) será:
φ[Φ
−1
( ˆ p
i
)]
ˆ p
i
con ˆ p
i
= F(x

2i
ˆ
β
2
)
Entre otras propiedades de esta forma de estimación esta que puede ser aplicado para
un caso mas general, donde existan mas de dos alternativas. Por ejemplo, a través de
un multinomial logit y se calcula las probabilidades predichas para cada alternativa y
luego se corrige la ecuación de intensidad utilizando la corrección propuesta para cada
alternativa. No obstante, solo se puede aplicar si F es conocida y continua.
Mundo No Paramétrico
La mayoría de los modelos no paramétricos continuan la idea propuesta por Heckman
de estimación en dos etapas. De esta forma, la segunda etapa viene definida por:
y
1i
= x

1i
β
1
+E(ε
1i
|D
i
= 1) +ν
1i
donde se relaja el supuesto paramétrico sobre el término de corrección, es decir, la nor-
malidad de ε
2i
.
De esta manera tenemos :
y
1i
= x

1i
β
1
+λ(x

2i
β
2
) +ν
1i
donde si asumimos normalidad en ε
2i
entonces λ(·) es conocida e igual al IMR. Sin
realizar ningún supuesto distribucional lo único que sabemos es que λ depende de x

2i
β
2
λ(x

2i
β
2
) = E(ε
1i

2i
> −x

2i
β
2
)
Existen dos formas dentro del mundo semiparamétrico para estimar estos casos:
132
Pensar en λ como un ruido.
Aproximar λ.
En general, existen mas formas de tratarlo, pero éstas son las mas frecuentes en la lit-
eratura.
1. Tratar a λ como un ruido.
La idea es tratar a este parámetro como un ruido y por lo tanto hay que trtar
de eliminarlo. Este tratamiento se expone en Robinson (Econometrica 1988) y
también en Pagan y Ullah (p. 304 y 198) Teniendo la ecuación de selección :
y
1i
= x

1i
β
1
+E(ε
1i
|x
i
, y

2i
> 0) +ν
1i
(44)
y
1i
= x

1i
β
1
+g(x

2i
µ
2
) +ν
1i
(45)
la idea es aplicar el valor esperado |E(·|x

2i
β
2
), obteníendose lo siguiente :
E(y
1i
|x

2i
β
2
) = E(x

1i
|x

2i
β
2
) · β
1
+g(x

2i
β
2
) (46)
Así, restando los dos últimas ecuaciones (45)-(46) se obtiene lo siguiente :
y
1i
−E(y
1i
|x

2i
β
2
) = [x

1i
−E(x

1i
|x

2i
β
2
)] · β
1

1i
ecuación que tiene las propiedades de un modelo de regresión lineal con variable
dependiente igual a :
y
1i
−E(y
1i
|x

2i
β
2
)
Notar que :
g(x

2i
β
2
) = E(y
1i
|x

2i
β
2
) −E(x

1i
|x

2i
β
2
) · β
1
Un estimador no paramétrico de
ˆ
β será (ver Pagan y vella pág. 199)
ˆ
β
1
=
¸
n
¸
i=1
(x
1i
− ˆ m
12i
)(x
1i
− ˆ m
12i
)

¸
−1
¸
n
¸
i=1
(x
1i
− ˆ m
12i
)(y
1i
− ˆ m
2i
)
¸
donde ˆ m
12i
y ˆ m
2i
son los estimadores por Kernel de
m
12i
= E(x
1i
|x
2i
· β
2
) y m
2i
= E(y
1i
|x

2i
β
2
)
Todo lo anterior suponiendo que β
2
es conocido. De no serlo también puede ser
estimado no paramétricamente a partir de la ecuación de selección. Ver Pagan y
Vella p.305).
Adicionalmente, se tiene que :
ˆ g(x

2i
β
2
) = ˆ m
2i
− ˆ m

12i
ˆ
β
1
133
2. La otra forma es tratar de aproximar λ
Lee (Journal of Econometrics,1994) plantea la siguiente relación :
λ(x

2i
ˆ
β
2
) ≈
J
¸
j=1
α
j
· b
j
· (x

2i
β
a
2
)
donde, bajo ciertas restricciones, esta expresión es equivalente al test de Pagan y
Vella (1989) donde se agregan potencias del IMR en la ecuación de intensidad.
Es decir:
y
1i
= x

1i
β
1
+IMR +IMR
2
+IMR
3

1i
o bien,
φ(x

2i
ˆ
β
2
)
Φ(x

2i
ˆ
β
2
)
· (x

2i
ˆ
β)
j
(j = 1, ..., 3)
Ver resultados con datos de Mroz.
Existe una forma alternativa de estimar el modelo Tobit Generalizado en forma
no paramétrica y es por Máxima Verosimilitud. Dado que el supuesto clave aquí
es acerca de la distribución conjunta de los errores tanto de la ecuación de se-
lección como la de intensidad f(ε
1i
, ε
2i
) Gallant y Nychka proponen la siguiente
aproximación para la distribución conjunta :
ˆ
f(ε
1i
, ε
2i
) =

M
¸
j=0
M
¸
k=0
γ
jk
· ε
j
1i
· ε
k
2i
¸
¸
exp{−(ε
1i

1
)
2
−(ε
2i

2
)
2
}
la cual es incorporada en la función de ML y estimada posteriormente. Para de-
talles, ver Pagan y Vella p.311
134
6. Modelos de Duración
Para comenzar se debe señalar que los modelos de duración pueden ser vistos como de
duración discreta o continua. Como punto de partida, se considera el modelo de datos
de duración discreta.
A lo largo de este capítulo se recurrirá frecuentemente al caso del desempleo, como
modo de ejemplo. Entonces, es ilustrativo comenzar el estudio de los modelos de du-
ración pensando en la duración del desempleo como variable a ser explicada.
6.1. Datos de Duración Discreta
Sea T una variable aleatoria entera no negativa la que representa el tiempo de salida
de un estado (situación de desempleo) de un individuo perteneciente a una población
homogénea donde el tiempo se mide a partir del comienzo del fenómeno (momento en
el cual el individuo pierde su trabajo y pasa a ser desempleado).
La distribución de probabilidades de esta variable aleatoria puede ser especificada de
diversas maneras, todas las cuales se encuentran relacionadas. Estas son: la función de
densidad de probabilidades, la función de sobrevivencia
17
y la función de riesgo.
18
Es
importante tener presente que al especificar una de ellas, las otras quedan automática-
mente determinadas.
El concepto central, tanto en modelos teóricos como estadísticos sobre duración, es
la probabilidad condicional de salida (es decir, la probabilidad de que el evento, en este
caso desempleo, finalice). Definamos λ
t
como la probabilidad de finalización del período
de desempleo (es decir, la probabilidad de que el individuo encuentre trabajo) al tiempo
t, condicional a estar aún desempleado en t −1. Este concepto es conocido como la tasa
de riesgo:
19
λ
t
= P(T = t|T ≥ t) (47)
para t = 1, 2, 3... Intuitivamente se puede definir a la función de sobrevivencia, S(t),
como la probabilidad de seguir desempleado hasta al menos el período t:
20
S(t) = P(T ≥ t) = 1 −F(t) (48)
Esta función puede ser escrita como:
S(t) =
t−1
¸
s=0
(1 −λ
s
) (49)
17
Survivor function.
18
Hazard function.
19
Hazard rate.
20
Algo así como la probabilidad de que el fenómeno dure hasta al menos t.
135
con t ≥ 1 y con S(0) = 1. De (48) es posible notar que la función de distribución
acumulada se define como:
F(t) = 1 −S(t) (50)
La función de densidad de probabilidades de T entrega la probabilidad de que una
duración completa sea exactamente igual a t, es decir, P(T = t):
f(t) = λ
t
t−1
¸
s=0
(1 −λ
s
) = λ
t
S(t) (51)
Es decir, corresponde al producto entre la probabilidad condicional de dejar de estar
desempleado en el tiempo t (tasa de riesgo) y la probabilidad de mantenerse desempleado
en t (función de sobrevivencia). De (49) se sabe que:
S(t + 1) = S(t)(1 −λ
t
) = S(t) −S(t)λ
t
Reemplazando (5) y ordenando se tiene que:
f(t) = S(t) −S(t + 1) (52)
Note que la distribución de T puede ser especificada en términos de la función de den-
sidad, o de la función de sobrevivencia, o bien de la tasa de riesgo.
Generalmente, los modelos de análisis de duración son especificados en términos de
la función de riesgo. Los datos para estimar el modelo serán duraciones, algunas com-
pletas otras incompletas (algunas personas dejaron de ser desempleadas, mientras que
otras aún permanecen en esa condición). Así, la función de verosimilitud (esto es, la
probabilidad de observar los datos que se tienen dado el modelo) será especificado en
términos de la función de sobrevivencia y de la función de densidad.
6.2. Datos de Duración Continua
Considere ahora el caso en que T es una variable aleatoria no negativa continua.
Denotando f(t), F(t) y S(t) como las funciones de densidad, acumulada y sobrevivencia,
respectivamente, se tiene que:
S(t) = P(T ≥ t) =


t
f(u)du (53)
Note que:
f(t) = −
∂S(t)
∂t
(54)
La función de riesgo es ahora la probabilidad instantánea de dejar de ser desempleado
en el tiempo t condicional a que el individuo lo ha estado hasta t. Corresponde a la
probabilidad de dejar el estado (de desempleo) en un intervalo de tiempo breve, digamos
entre t y t + ∆t, dado que se encuentra desempleado en t es:
P(t ≤ T < t + ∆t|T ≥ t) (55)
136
La función de riesgo se define como:
21
λ(t) = l´ım
∆t→0
P(t ≤ T < t + ∆t|T ≥ t) = l´ım
∆t→0
F(t + ∆t) −F(t)
∆tS(t)
=
f(t)
S(t)
(56)
Un aspecto interesante respecto de la probabilidad de salida del estado (desempleo)
será si esta varía a medida que transcurre el tiempo. Por ejemplo, a medida que pasa
el tiempo, más difícil es para la persona desempleada encontrar trabajo (histéresis). Se
dice que la función de riesgo presenta dependencia en la duración si:
∂λ(t)
∂t
= 0 (57)
Al igual que en el caso discreto, la distribución de T puede ser especificada tanto en
términos de f(t) como de S(t), o bien, de λ(t).
Reemplazando (8) en (10) se tiene:
λ(t) =
1
S(t)
−∂S(t)
∂t
=
−∂logS(t)
∂t
(58)
Por lo tanto:
S(t) = exp

t
0
λ(u)du

= exp{−Λ(t)} (59)
donde Λ(t) se denomina función integrada de riesgo. Nuevamente, estas relaciones per-
miten escribir la función de verosimilitud para una muestra dada en términos de un
modelo de riesgo específico.
6.3. Estimación no paramétrica de la Distribución
6.3.1. Tiempo Discreto
Considere una muestra de n individuos de una distribución dada para la cual ob-
servamos un conjunto de personas las cuales han completado su duración (encontraron
trabajo) y otras para las cuales sólo observamos el período vigente de desempleo (siguen
buscando trabajo).
Sea t
i
la duración observada para el individuo i. Definiremos c
i
= 1 si el período de
desempleo se ha completado y c
i
= 0 si no. Para aquellos con duración completada la
probabilidad de la información observada viene dada por la función de densidad, f(t), y
21
En términos más formales, esta se define como:
λ(t) =
f(t)
1 −F(t)
que corresponde a la densidad de una variable aleatoria truncada.
137
para aquellos con duración censuradas por la función de sobrevivencia. La verosimilitud
de la muestra observada viene dada por:
L =
n
¸
i=1

λ
c
i
t
i
t
i
−1
¸
s=0
(1 −λ
s
)
¸
(60)
Sea J la duración mas larga en la muestra
22
(es decir, el individuo que estuvo o está
más tiempo desempleado) y definiendo n
j
como el número de salidas en tiempo igual
a j (número de personas que encontraron trabajo en la última semana) y r
j
como el
número de potenciales salidas en j (número de personas que pudieron haber encontrado
trabajo en la última semana), es decir, el número de individuos con duraciones ≥ j.
Entonces podemos reescribir la verosimilitud como sigue:
L =
J
¸
j=0
λ
n
j
j
(1 −λ
j
)
r
j
−n
j
(61)
Maximizando log(L) con respecto a λ
j
se tiene:
ˆ
λ
j
=
n
j
r
j
(62)
para j = 0, ....., J. Este es el estimador natural de λ
j
: la razón entre el número de salidas
en la duración j y el número potencial de salidas en ese punto del tiempo. El estimador
correspondiente para la función de sobrevivencia es:
ˆ
S(j) =
j−1
¸
k=0
(1 −
ˆ
λ
k
) =
j−1
¸
k=0
r
k
−n
k
r
k
(63)
6.3.2. Tiempo Continuo
Aquí habrá un universo finito de distintas duraciones completas en la muestra, por
ejemplo, J. Ordenando estas duraciones de menor a mayor se tiene:
t
1
< t
2
< ... < t
j
(64)
Al igual que en el caso anterior, definiremos n
j
como el número de salidas en t
j
y r
j
como el número potencial de salidas en t
j
. Así, el estimador de máxima verosimilitud
para la función de riesgo en estos puntos será como la ya definida y el estimador de la
función de sobrevivencia vendrá dada por:
ˆ
S(t) =
¸
j|t
j
<t

r
j
−n
j
r
j

(65)
Esta es conocida como la función Kaplan-Meier o el estimador de producto límite y
tiene la forma de una función “step” declinante.
Ejemplo: Encuesta de desempleo (por cohortes) en UK. No incluye aquellos que se
retiran (ver gráficos Stewart).
22
Piense en J como medida en semanas: una semana, dos semanas, etc.
138
6.4. Modelos Paramétricos
La partida natural al considerar modelos paramétricos es aquel modelo donde la
función de riesgo es constante, λ(t) = λ ∀t. La probabilidad condicional de dejar el
desempleo no varía en el ciclo, es decir, no depende de cuánto tiempo el individuo ha
estado desempleado. Es posible mostrar que en este caso T (tiempo del ciclo) tiene una
distribución exponencial. De las relaciones discutidas anteriormente, podemos observar
que para este caso:
Λ(t) = λt (66)
a lo cual se llega solucionando una sencilla integral. Además:
S(t) = exp(−λt) (67)
f(t) = λexp(−λt) (68)
La ecuación (66) proporciona una gráfica muy útil para analizar lo adecuado del mod-
elo exponencial como representación de los datos. La función de riesgo integrada es
ˆ
Λ(t) = −log[
ˆ
S(t)]
23
, donde
ˆ
S(t) es el estimador Kaplan-Meier de la función de sobre-
vivencia. La gráfica de esta en función de t debiese ser una línea recta que parte del
origen. Como una ilustración, se presenta el gráfico de los datos de observaciones de
desempleo de UK (ver figura 3).
Existe una marcada curvatura en el gráfico, sugiriendo que una representación expo-
nencial de T puede no ser adecuada.
24
La duración media en el modelo exponencial es
λ
−1
y la varianza es λ
−2
(la mediana de la distribución de duración viene dada por la
solución de S(t) = 0,5 y es log

2
λ

). El modelo puede ser escrito en su forma log-lineal
como sigue:
25
log(T) = −log(λ) +ω (69)
donde ω tiene una distribución extrema del tipo I (e
ω
tiene una distribución exponencial
unitaria). Así:
media : E(logT) = −logλ +ψ(1) (70)
varianza : V (logT) = ψ

(1) (71)
donde ψ(1) y ψ

(1) son constantes conocidas −0,5772 y 1,6449, respectivamente. Así,
log(T) tiene una varianza conocida, la cual no depende de λ.
Una generalización simple pero importante de la distribución exponencial, la cual per-
mite dependencia temporal
26
de la duración es la distribución Weibull. Su función de
riesgo viene dada por:
λ(t) = αλ(λt)
α−1
(72)
23
Ver (13).
24
De hecho, es posible testear si la linealidad es o no rechazada.
25
Por conveniencia en la estimación.
26
Es decir, la probabilidad de finalizar el ciclo va cambiando conforme pasa el tiempo.
139
con α, λ > 0. Esta función crece o decrece monotónicamente dependiendo si α > 1 o
α < 1 y se reduce a la exponencial si α = 1.
Considerando las relaciones antes vistas podemos observar que para el caso Weibull
se tiene que:
Λ(t) = (λt)
α
(73)
S(t) = exp[−(λt)
α
] (74)
f(t) = αλ(λt)
α−1
exp[−(λt)
α
] (75)
Para el caso de la distribución Weibull se tiene que:
media : E(T) = λ
−1
Γ

1 +
1
α

(76)
varianza : V (T) = λ
−2

Γ

1 +
2
α

−Γ
2

1 +
1
α

(77)
donde Γ(·) es la función Gamma completa (para un ejemplo ver Lancaster 1990 Apéndice
1).
Las funciones ψ(1) y ψ

(1) antes mencionadas son la primera y segunda derivada de
logΓ(·), respectivamente. Al igual que en el caso anterior, existe un test gráfico muy útil
basado en la transformación Kaplan-Meier de la estimación de la función de sobreviven-
cia. Dado que log(Λ(t)) = αlog(λ)+αlog(t), un gráfico entre log(
ˆ
Λ(t)) = log[−log[
ˆ
S(t)]]
contra log(t) debería dar aproximadamente una línea recta. Veamos el caso de UK (figu-
ra 4).
Observamos que se parece bastante a la línea recta o por lo menos tiene menos curvatu-
ra que el gráfico anterior. En el caso especial de la exponencial la línea recta también
debería estar sobre la recta de 45

.
En forma similar al caso exponencial, podemos escribir el modelo Weibull como:
log(T) = −log(λ) +α
−1
ω (78)
donde ω es la distribución de valor extremo tipo I. Lo anterior implica que:
media : E(logT) = −log(λ) +
ψ(1)
α
(79)
varianza : V (logT) =
ψ

(1)
α
2
(80)
Weibull introduce su parámetro en la varianza definida por la exponencial.
140
6.5. Estimación
Considere una muestra de n individuos con una distribución de duración particular.
Sea t
i
la duración observada para el individuo i y sea c
i
la variable indicadora, que toma
el valor 1 si el ciclo o racha es completada (el período de desempleo terminó) y 0 si no.
La contribución a la verosimilitud del individuo i viene dada por:
log(L
i
) = c
i
log(f(t
i
)) + (1 −c
i
)log(S(t
i
))
log(L
i
) = c
i
log(λ(t
i
)) +c
i
log(S(t
i
)) + (1 −c
i
)log(S(t
i
))
log(L
i
) = c
i
log(λ(t
i
)) +log(S(t
i
))
log(L
i
) = c
i
log(λ(t
i
)) −Λ(t
i
) (81)
En el caso del modelo exponencial la función de verosimilitud para la muestra viene
dada por:
log(L(λ)) =
n
¸
i=1
{c
i
log(λ) −λt
i
} (82)
La primera derivada es:
∂logL(λ)
∂λ
=
1
λ
n
¸
i=1
c
i

n
¸
i=1
t
i
(83)
Así:
ˆ
λ
MLE
=
¸
n
i=1
c
i
¸
n
i=1
t
i
(84)
Ante la ausencia de censura esta expresión equivale simplemente a la inversa de la
duración promedio en la muestra. La varianza asintótica viene dada por:
V (
ˆ
λ) = −
¸

2
log(L(λ))
∂λ
2

−1
(85)
V (
ˆ
λ) =
ˆ
λ
2
¸
n
i=1
c
i
(86)
la cual crece a medida que aumenta el grado de censura.
Para el caso de la distribución Weibull la log-likelihood es la siguiente:
logL(λ, α) =
n
¸
i=1
{c
i
log(α) +c
i
αlog(λ) +c
i
(α −1)log(t
i
) −(λt
i
)
α
} (87)
Se requieren técnicas iterativas para maximizar esta expresión con respecto a λ y α. La
inversa de la matriz Hessiana (con signo cambiado) puede ser utilizada para aproximar
la varianza del estimador y así calcular los errores estándar de los coeficientes.
A continuación se presentan los resultados de estos modelos aplicados a los datos de UK:
141
Exponencial Weibull
ˆ
λ×100 0.55 (0.02) 0.56 (0.02)
ˆ α 1.0 0.86 (0.03)
log(L) -1905.1 -1888.9
Mediana (días) 127.2 117.4
La duración está medida en días, luego los estimadores de λ están en términos diarios.
Ambos estimadores de λ son similares entre sí e indican que existe una probabilidad
cercana al 4 % para salir del ciclo o racha (de desempleo) por semana. El modelo expo-
nencial (α = 1) se rechaza con test LR a favor de Weibull. Los modelos difieren en su
predicción en la mediana de la distribución. La duración mediana de desempleo en la
muestra es alrededor de 101 días. Así, ambos predicen una mediana un poco mayor a
la verdadera aunque la distorsión es reducida al utilizar el modelo Weibull.
6.6. Impacto de Factores Explicativos
Obviamente uno de los principales objetivos del modelamiento es examinar el im-
pacto de varios factores explicativos sobre la probabilidad de dejar la situación de de-
sempleo. Por ejemplo, el ingreso individual dentro y fuera del trabajo o las condiciones
de demanda que existen en el mercado laboral local.
Una manera natural de incorporar estos factores al contexto paramétrico ya descrito, es
especificar uno de los parámetros en el modelo homogéneo como función de un vector
de variables explicativas Z. En el caso de Weibull (recordar que la exponencial es un
caso especial), pensando en el requerimiento de no-negatividad, podemos especificar:
λ = exp{γ
0
+Z

γ} (88)
Esto proporciona una función de riesgo del siguiente tipo:
λ(t; Z) = αt
α−1
exp{α(γ
0
+Z

γ)} (89)
λ(t; Z) = αt
α−1
exp{β
0
+Z

β} (90)
Así, este caso pertenece a la clase de modelos de riesgo proporcional. En estos modelos
una variable explicativa tiene el mismo efecto proporcional en todos los puntos del riesgo.
En forma alternativa, recordemos que el modelo de Weibull puede ser escrito como
un modelo lineal para el logaritmo de T:
log(T) = −log(λ) +α
−1
ω (91)
con ω teniendo distribución valor extremo tipo I. De esta forma, al incluir las variables
explicativas tenemos
log(T) = −γ
0
−Z

γ +α
−1
ω (92)
log(T) = γ

0
+Z

γ

+σω (93)
142
que corresponde a una regresión log-lineal para T con un error distribuido valor ex-
tremo. En consecuencia, las variables explicativas tienen un efecto multiplicativo sobre
T.
Este modelo también pertenece a la clase general de los modelos log-lineales denom-
inados modelos de tiempo de falla acelerado. En estos modelos, los regresores aceleran el
tiempo de dejar el desempleo. De esta forma, con el fin de generalizar el modelo, tanto
el modelo de riesgo proporcional como aquellos de tiempo de falla acelerada aparecen
como rutas naturales a este fin. Veamos cada uno en detalle donde los modelos de riesgo
proporcionales han sido los mas utilizados en la literatura econométrica sobre duración.
6.6.1. Modelo de Riesgo Proporcionales
En este modelo, el riesgo (la probabilidad de dejar el desempleo en t dado que se está
desempleado en t − 1) se especifica como el producto de un término que depende sólo
de la duración que haya transcurrido, conocido como el riesgo base (baseline hazard), y
un término dependiente del vector de variables explicativas Z:
λ(t; Z) = λ
0
(t)φ(Z, β) (94)
Dado el requerimiento de no-negatividad, una expresión comúnmente usada para φ es:
φ(Z, β) = exp(Z

β) (95)
lo que implica que:
λ(t; Z) = λ
0
(t)e
Z

β
(96)
y así:
∂log(λ(t; Z))
∂Z
= β (97)
entregando un efecto proporcional constante de cada variable explicativa sobre la prob-
abilidad condicional de dejar el desempleo.
Una propiedad interesante de la función de riesgo integrada es que, independientemente
de la distribución de T, esta tiene una distribución exponencial unitaria. En el caso del
modelo de riesgo proporcional, este puede ser escrito como
−log(Λ
0
(t)) = log(φ(Z, β)) +ε (98)
donde Λ
0
(t) =

t
0
λ
0
(u)du es la función integrada de riesgo base y ε tiene una distribu-
ción valor extremo, la cual no depende de φ(Z, β). En el caso de que especifiquemos
φ(Z, β) = exp(z

β) entonces:
−logΛ
0
(t) = Z

β +ε (99)
entrega una regresión lineal para la variable transformada t

= −log(Λ
0
(t)) (conocer la
distribución de ε será fundamental para la construcción de pruebas específicas una vez
143
que el modelo ha sido estimado).
Notar que en el modelo de riesgo proporcional asumimos una distribución conocida
para ε y estimamos la transformación Λ
0
junto con β. La forma alternativa, que nos
conduce a los modelos de falla acelerada, asumen una transformación conocida de t y
así estima la distribución de ε junto con los β. Veamos primero el tema de estimación
paramétrica del riesgo base.
Especificación Paramétrica
Utilizaremos una especificación Weibull para el riesgo base. Como se vio anteriormente,
esto nos entregará:
λ
i
(t
i
; Z
i
) = αt
α−1
i
exp{β
0
+Z

i
β} (100)
Asumiendo nuevamente una muestra aleatoria, la contribución a la log-likelihood del
i-ésimo individuo viene dada por:
27
log(L
i
) = c
i
logλ
i
(t
i
)
. .. .
log(riesgo)
− Λ
i
(t
i
)
. .. .
log(sobrevivencia)
(101)
Así, la log-likelihood para la muestra observada es:
logL(α, β
0
, β) =
n
¸
i=1
{c
i
log(α)+c
i
(α−1)log(t
i
)+c
i
β
0
+c
i
Z

i
β−t
α
i
exp(β
0
+Z

i
β)} (102)
el cual puede ser maximizando con respecto a (α, β
0
, β) por un método iterativo, como
por ejemplo, el de Newton-Raphson. Veamos un ejemplo utilizando el caso de empleo
en UK. El vector Z contiene variables como edad, dummy casado, tasa de desempleo,
el logaritmo del ingreso predicho mientras estuvo empleado, el logaritmo del ingreso
predicho si estuviese empleado. Los coeficientes β, es decir, los efectos en el logaritmo
del riesgo, son presentados en la siguiente tabla. Para obtener los efectos en el logaritmo
de la duración (γ

) se debe invertir el signo y dividir por ˆ α:
Exponencial Weibull
ˆ α 0.90 (0.30)
ˆ
β 1.0
Age/ 10 -0.32 (0.03) -0.30 (0.030)
Married 0.16 (0.12) 0.16 (0.12)
local unemployment rate -1.72 (0.60) -1.61 (0.60)
log(employment income) 1.53 (0.14) 1.46 (0.14)
log(unemployment income) -0.55 (0.06) -0.53 (0.06)
ˆ
β
0
-9.28 (0.57) -8.56 (0.57)
log(L) -1816.6 -1809.3
Median (in days) 122.3 116.2
La hipótesis α = 1 es rechazada nuevamente (LR test). No obstante, el estimador es
más cercano a 1 que en el modelo sin regresores (α = 0,86(0,03)). Como veremos más
27
Ver (35).
144
adelante, ˆ α está sesgado hacia abajo por la exclusión de regresores relevantes.
Los estimadores muestran un efecto fuerte de la edad (ceteris paribus). La probabil-
idad de salida (del desempleo) de una persona de 60 años es aproximadamente 1/4 con
respecto a un tipo de 20 años comparable. Un residente de un mercado laboral que ten-
ga la tasa de desempleo mas baja tiene una tasa de salida cercana a un 45 % mas alta
comparada con una persona que resida en un mercado laboral con la tasa de desempleo
mas alta. Por otra parte, existen fuertes efectos asociados al ingreso. Dada la forma
funcional estos coeficientes representan elasticidades.
Una distribución alternativa puede obtenerse seleccionado una especificación distinta
para el riesgo base. La estimación sería la misma que la anterior bajo la especificación
de la forma funcional apropiada para las funciones de riesgo y riesgo integrado corre-
spondientes.
Vimos anteriormente que un modelo Weibull puede también escribirse como:
log(T) = −
β
0
α
−Z

β
α
+
1
α
ω (103)
con ω distribuido valor extremo tipo I. Lo anterior puede reescribirse como:
log(T) =
ψ(1) −β
0
α
−Z

β
α
+µ (104)
con E(µ) = 0 y V (µ) =
ψ

(1)
α
2
. Ante la ausencia de censura, este modelo podría estimarse
por mínimos cuadrados ordinarios (MCO), el cual entregaría un estimador insesgado de
β
α
. Pero MCO es inapropiado ante censura y debe ser estimado por máxima verosimili-
tud (ML).
Estimador de Verosimilitud Parcial de Cox
Este estimador entrega un método para estimar β sin tener que especificar la forma del
riesgo base. Considere el caso más simple de no censura y todas las duraciones con un
tiempo único, con duraciones completadas ordenadas t
i
< t
2
< ... < t
n
. La probabil-
idad condicional de que el individuo i-ésimo deje de estar desempleado en t
i
dado los
individuos que pudieron haber salido en ese punto (es decir, aún están desempleados)
es:
λ(t
i
; Z
i
)
¸
n
j=1
λ(t
i
; Z
j
)
(105)
La ecuación anterior es la probabilidad condicional (riesgo) del individuo i dada la
probabilidad existente para salir, la que puede ser escrita, dada la especificación de
riesgo proporcional como:
exp(Z

i
β)
¸
n
j=i
exp(Z

j
β)
(106)
145
dado que el término λ
0
(t
i
) se cancela. La log-likelihood a ser maximizada viene dada
por:
log(L(β)) =
n
¸
i=1

Z

i
β −log

n
¸
j=i
exp(Z

j
β)
¸
¸

(107)
El estimador puede fácilmente extenderse para casos de censura y empate (es decir, mas
de un individuo con la misma duración). Una vez que β ha sido estimado el riesgo base
puede ser estimado en forma no paramétrica como en el caso de Kaplan-Meier.
Los resultados de la estimación con el estimador parcial de Cox para la misma base
de datos y con el mismo vector de variables explicativas Z, es el siguiente:
ˆ
β
Age/ 10 -0.29 (0.03)
Married 0.18 (0.12)
Local unemployment rate -1.50 (0.60)
log(employment income) 1.42 (0.14)
log(unemployment income) -0.52 (0.06)
Los coeficientes estimados son muy parecidos a los encontrados en los modelos paramétri-
cos. Dentro de las ventajas de estos modelos es que no se necesita ningún supuesto sobre
λ
0
(t), la que en este caso particular, no influye mucho sobre los coeficientes estimados.
La desventaja es que λ
0
(t) debe ser estimado no paramétricamente.
6.7. Heterogeneidad Omitida y Modelos Mixtos
A pesar de que hemos introducido heterogeneidad, la cual puede resultar de las
diferencias en las características observadas (las cuales se mantienen constantes en el
tiempo), es esperable que existan otras características (no observables) que pueden in-
fluenciar la probabilidad de dejar la situación de desempleo.
Estas heterogeneidades omitidas pueden sesgar (hacia abajo) los riesgos estimados. In-
tuitivamente, trabajadores más diestros o que trabajan en sectores mas empleables son
los primeros en dejar de estar desempleados dejando a aquellos con menor probabilidad
de salida, y en consecuencia, creando la ilusión de una fuerte dependencia negativa de
la duración que actualmente existe.
Existe un problema de identificación entre la verdadera dependencia de duración y
la dependencia de duración espúrea como resultado de la heterogeneidad no controlada.
¿Cómo podemos abordar este problema? Una forma natural es incorporar un escalar µ
el cual representa regresores omitidos en forma análoga a aquellos donde se introduce
heterogeneidad observada:
λ(t; Z, µ) = λ
0
(t)e
Z

β+µ
(108)
146
λ(t; Z, µ) = λ
0
(t)
. .. .
riesgo base
ν
....
no obs.
e
Z

β
....
obs.
(109)
donde ν = e
µ
. Usando las relaciones ya vistas la función de sobrevivencia se puede
escribir como:
28
S(t; Z, µ) = exp(−νe
Z

β

t
0
λ
0
(τ)d(τ)) (110)
No obstante, ν no es observable. La función de sobrevivencia condicional sólo en ob-
servables es:
S(t; Z) =


0
S(t; Z, ν)g(ν)dν (111)
donde g(ν) es la función de densidad de probabilidades de ν. Así, podemos notar el
problema de identificación. Combinaciones diferentes de λ
0
(t) y g(ν) pueden entregar
el mismo S(t; Z), es decir, la misma distribución de los datos observados. Dos enfoques
han sido considerados para la estimación de modelos mixtos de este tipo: paramétricos
y no-paramétricos.
En el modelo paramétrico se especifica una distribución para ν y los parámetros de
la distribución se estiman conjuntamente con aquellos del riesgo individual. Una forma
comúnmente adoptada es la distribución gamma para ν con media unitaria y varianza
σ
2
. Así, la integración que resulta para la función de sobrevivencia condicional sólo en
observables es:
S(t; Z) =

1 +σ
2
e
Z

β
Λ
0
(t)


1
σ
2
(112)
A medida que σ
2
→0 se vuelve al modelo homogéneo. Al diferenciar se puede demostrar
que la función de riesgo condicional sólo en observables es:
λ(t; Z) = λ
0
(t)e
Z

β
S(t; Z)
σ
2
(113)
donde también está el problema de identificación.
Veamos el caso de los datos para UK nuevamente, donde junto con las anteriores ver-
siones homogéneas, se ha incluido una forma de heterogeneidad distribuida gamma.
Exponencial Weibull Weibull/Gamma
ˆ α 1.0 0.90 (0.03) 1.35 (0.08)
ˆ γ

:
Age/ 10 0.32 (0.03) 0.34 (0.03) 0.36 (0.04)
Married -0.16 (0.10) -0.18 (0.12) -0.38 (0.15)
Local unemployment rate 1.72 (0.51) 1.78 (0.60) 1.13 (0.71)
log(employment income) -1.53 (0.12) -1.61 (0.15) -2.00 (0.18)
log(unemployment income) 0.55 (0.05) 0.59 (0.05) 0.82 (0.07)
ˆ γ

0
9.28 (0.51) 9.48 (0.61) 10.03(0.73)
ˆ σ
2
0 0 1.18 (0.19)
logL -1816.6 -1809.3 -1777.7
Median (in days) 122.3 116.2 99.9
28
Ver (13).
147
El modelo Weibull homogéneo es rechazado en favor del gamma mixto: σ
2
es significa-
tivamente mayor que cero. El estimador del parámetro de dependencia de duración α,
es significativamente mayor que 1 en el modelo de gamma de heterogeneidad, mientras
que era significativamente menor que 1 en los modelos que no controlaban por hetero-
geneidad.
Existen también diferencias en los estimadores γ

(efectos de duración): casados ahora
tienen una duración significativamente mas corta que aquellos solteros comparables. El
efecto de la tasa de desempleo local es insignificante.
Ambas elasticidades ingreso son un poco mayores en el modelo gamma heterogéneo.
La mediana predicha es mas cercana a la muestral en este último modelo.
148
149
7. Datos de Panel
7.1. Introducción
Un conjunto de datos de panel o longitudinales es aquel que sigue individuos
(firmas o paises) a través del tiempo y en consecuencia entrega múltiples observaciones
para cada individuo. Así, datos de panel es la unión de datos en serie de tiempo y de
corte transversal. El análisis de la de conductas utilizando datos de panel es una de
las áreas más atractivas de la econometría. En esta y la siguiente clase daremos una
introducción a este tema.
7.1.1. ¿ Porqué usar Datos de Panel ?
Mas observaciones : Un panel contiene NT observaciones. Por convención, in-
dexaremos la dimensión temporal como t = 1 · · · T y la dimensión transversal
como n = 1 · · · N. Típicamente T es relativamente pequeño mientras N es rela-
tivamente mayor. Notar que incluso si T = 2 tendremos un panel que puede ser
utilizado para realizar estimaciones. El aumento en el número de observaciones
aumentará el número de grados de libertad, reducirá el grado de colinealidad
muestral y aumentará la eficiencia de cualquier estimador que se obtenga.
Discriminación entre hipótesis : Al utilizar el componente de series de tiempo de
los datos puede ser posible discriminar entre hipótesis aspecto que no es posible
realizar al utilizar solo datso de corte transversal
Ejemplo: Considere el efecto de la sindicalización sobre los salarios. Suponga que
observaciones de corte transversal sugieren que firmas donde existen sindicatos,
sus trabajadores tienen salarios mas altos. Esto es consistente con a lo menos dos
hipótesis. Primero, que los sindicatos hacen aumentar los salarios por encima de
la productividad marginal de la mano de obra. Segundo, que diferentes niveles
de sindicalización reflejan factores diferentes al poder del sindicato, como ser la
productividad de la mano de obra individual. Estas dos apreciaciones no pueden
ser distinguibles en el caso de que sólo contáramos con datos de corte transversal.
Sin embargo, si pudiéramos seguir a los trabajadores durante el tiempo entonces
podríamos determinar si el salario de un trabajador con una habilidad constante
sube o no cuando pasa de no estar sindicalizado a estarlo.
Controlando por heterogeneidad individual no observable: Similar al caso anteri-
or el que lo ilustraremos mediante un ejemplo. Suponga que estamos estudiando
la utilización (consumo) de bienes públicos entre países e imagine que existe un
factor que varía entre los países pero que no es fácilmente medible : uno de estos
factores puede ser actitudes políticas con respecto a la provisión pública de ser-
vicios. Dado que en una política pro-estado (estado benefactor) es esperable que
el consumo de bienes públicos aumente, en el caso de estados benefactores como
Suecia, uno esperaría encontrar una diferencia significativa en la propensión al
consumo de bienes públicos con respecto al promedio del resto de los países. En
150
una regresión de corte transversal, podríamos manejar este problema al utilizar
una variable dummy para Suecia. Esto, sin embargo, lo que logra es sacar com-
pletamente a Suecia de la muestra lo que no es satisfactorio. Este no será el caso
para datos de panel, como veremos en seguida.
Considere el siguiente proceso de generación de datos (bivariado):
y
it
= α
i

i
x
it
+u
it
i = 1....N t = 1, ....T (114)
donde, en principio, tanto α
i
como β
i
pueden variar entre individuos. Suponga
que agrupamos las NT observaciones y estimamos el modelo clásico de regresión
(con α y β fijos) :
y
it
= α +βx
it
+u
it
(115)
Esta especificación ignora la heterogeneidad entre individuos. ¿ Cuáles son las
implicancias de esto ?
(i) Interceptos heterogéneos (α
i
= α). Tanto los coeficientes de la pendiente co-
mo de los interceptos estarán sesgados al ser estimados por OLS y el sesgo
no tendrá signo determinado. Datos de panel pueden ser útiles en este caso.
Ver Figura.
OLS
alfa 1
alfa 2
alfa 3
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
(ii) Pendientes e interceptos heterogéneos (α
i
= α y β
i
= β ). Los estimadores
OLS de las pendientes e interceptos serán sesgados y sin sentido. También
se sigue de que modelos estándar de panel no pueden tampoco manejar este
problema (ya que no tenemos suficientes grados de libertad). Ver Figura.
151
i=1
i=2
i=3
i=4
OLS
Controlando por variables omitidas (no observadas o mal medidas): Datos de panel
permiten al investigador usar los elementos tanto dinámicos como de individuali-
dad de los elementos de un set de datos para controlar por los efectos de variables
faltantes o inobservables. Esta es una de las principales atracciones acerca del uso
de datos de panel.
Considere el siguiente modelo :
y
it
= α

x
it

z
it
+u
it
, µ
it
∼ N(0, σ
2
u
) (116)
Bajo los supuestos usuales, la estimación por OLS de (3) entregará estimadores
insesgados y consistentes del vector de parámetros β y γ . Suponga, sin embargo,
de que el vector de variables Z no es observable pero donde la matriz de covarianza
entre X y Z no es cero. En este caso, los estimadores OLS de β estarán sesgados,
dado que z
it
representaría el caso clásico de omisión de variable.
Cuando tenemos datos de panel existen dos situaciones en las cuales podemos
controlar (i.e. corregir) por este problema de omisión de variable.
(i) Caso donde z
it
= z
i
para todo t de tal forma de que las variables Z son
constantes en el tiempo pero que sólo difieren entre individuos. Así, podemos
tomar las primeras diferencias de (114) con respecto al tiempo para obtener
:
(y
it
−y
it−1
) = β

(x
it
−x
it−1
) + (µ
it
−µ
it−1
) (117)
De esta manera lo que hicimos es "sacar"la variable-problema Z de tal man-
era que ahora se pueden obtener estimadores insesgados y consistentes de
β.
(ii) Caso donde z
it
= z
t
para todo i de tal manera de que las variables Z son
ahora comunes para todos los individuos. De esta manera, podemos tomar
la desviación de la observación de cada individuo sobre la media entre todos
152
los individuos (en cada período), de la siguiente forma :
y
it
−y
t
= β

(x
it
−x
t
) + (µ
it
−µ
t
) (118)
donde y
t
=
1
N
¸
N
i=1
y
it
representa la media grupal (el valor promedio de la
variable del grupo i = 1 · · · N en cada período t )
En ambos casos las transformaciones han "sacado"la variable-problema no
observada (o mal medida) Z. Como consecuencia, la estimación por OLS de
(117) o (118) entregará estimadores insesgados y consistentes de β los que no
podrían haber sido obtenidos mediante series de corte transversal o en series
de tiempo en forma aislada.
Modelamiento de la Dinámica de Ajuste: Datos de panel son particularmente
útiles para el análisis de la duración de situaciones económicas como desempleo
o pobreza. Dependiendo del largo del panel estos nos pueden dar luces sobre la
velocidad de ajuste a shock exógenos. Aunque estos deben ser modelados con
largos datos de panel mediante técnicas denominadas Datos de Panel Dinámicos
(DPD), los que veremos en la próxima clase.
7.1.2. Algunos Problemas de los Datos de Panel
Costos de recolección de los datos : Algunos datos de panel son terriblemente
costosos en su recolección y requieren largos horizontes de investigación. Ellos
presentan todos los problemas clásicos de recolección de datos como cobertura, no
respuesta, selección endógena (i.e. truncamiento endógeno), etc.
Medición del Error Compuesto : En aquellas situaciones en que medir el término
de error es un problema, esto puede simplificarse o bien exacerbarse cuando se
utilizan datos de panel.
Suponga que tenemos un ingreso (variable X) el cual es declarado en el tiem-
po t por el hogar i con cierto error :
x

it
= x
it
+
it
(119)
donde
it
es una medida del error con media cero y varianza seccional igual a ω.
Si asumimos de que Cov(x, ) = 0 entonces V ar(x

it
) = V ar(x
it
) + ω. Ahora,
si vamos a utilizar estos datos para eliminar algunos efectos no observables (como
en la ecuación (117)) entonces tenemos lo siguiente :
∆x

it
= ∆x
it
+ ∆
it
V ar(∆x

it
) = V ar(∆x
it
) + 2ω
2
(1 −ρ) (120)
donde ρ es la correlación entre el error de medición de dos períodos. Ello puede
sugerir dos casos extremos:
153
Caso (i) Errores Independientes del Tiempo (autocorrelación perfecta) Suponga de
que un hogar comete el mismo error año tras año ( por ejemplo el hogar se
equivocan en ingresar el valor de su casa). En este caso ρ tenderá a uno y en
consecuencia :
∆x

it
→∆x
it
V ar(∆x

it
) →V ar(∆x
it
) (121)
De esta manera, datos de panel permiten que los errores de medición sean
"eliminados"de los datos y así los parámetros de interés sean estimados sin
sesgo.
Caso (ii) Suponga que los errores de medición no están correlacionados en el tiempo
( ρ = 0 ). En este caso, encontraremos de que al diferenciar la varianza en
el error de medición será duplicada. Si la varianza del verdadero valor de
X es relativamente baja (e.g. existe una persistencia en el tiempo en X)
entonces, al diferenciar los datos significará que la "señal"es absorbido por el
ruido". En general, notar de que si ρ < 0,5 al diferenciar los datos tendrá un
efecto desproporcionado sobre la varianza del error en la medición relativo a
la varianza propia de la variable en sí.
Sesgo de Respuesta Sistemática y Reducción Sistemática : El primer sesgo surge
al tener que visitar en forma reiterada al mismo individuo y las respuestas pueden
entonces ser endógenas; las personas tienden a exagerar. El segundo sesgo está
relacionado con el hecho de que las los hogares o individuos entrevistados en el
pasado pueden ya no serlo en el presente ya que o bien murieron, quebraron,
dejaron de ser pobres, etc, lo que puede introducir un sesgo hacia atrás. Esto
se puede corregir con los denominados pseudo-paneles, tópico que está fuera del
alcance de este curso.
7.2. Un Modelo Lineal General para Datos de Panel
El modelo básico de datos de panel combina series de tiempo con datos en corte transver-
sal en un solo modelo el cual puede ser escrito de la siguiente forma :
y
it
= α +X
it
β +u
it
, i = 1....N, t = 1.....T (122)
donde i denota las unidades en corte transversal y t el tiempo. Los diferentes modelos
de datos de panel dependerán de los supuestos que se realicen sobre los errores no ob-
servados u
it
. Existen principalmente dos alternativas :
El one-way error component model (modelo de error de componente en un so-
lo sentido) el cual asume de que la estructura del error se define como sigue
u
it
= µ
i

it
, υ
it
∼ iid(0, σ
2
υ
) (123)
154
donde µ
i
denota efectos específicos al individuo que no son observables y υ
it
son los
denominados efectos idiosincráticos. Los µ
i
son invariantes en el tiempo y dan cuenta
de cualquier tipo de efecto individual no incluido en la regresión. Un ejemplo están-
dar en ecuaciones de ganancia es la habilidad; en funciones de producción agrícola uno
de estos efectos puede ser la calidad (no observada) del suelo; en macro paneles sobre
crecimiento de países se pueden incluir normas culturales (e.g. con respecto al ahorro o
riesgo).
El two way error component model se asume de que la estructura del error se
define de la siguiente manera :
u
it
= µ
i

t

it
, υ
it
∼ iid(0, σ
2
υ
) (124)
donde, nuevamente, µ
i
denota efectos individuales específicos no observables y donde
λ
t
denota efectos temporales no observables. Estos efectos se asumen que son comunes
entre individuos pero que varían en el tiempo. Ejemplos incluirían variaciones en el
clima o cambios en la política económica en general.
7.3. El One Way Error Component Model
Podemos re escribir (122) en forma vectorial de la siguiente forma :
Y = α1
NT
+Xβ +u = Zδ +u (125)
donde las dimensiones de las matrices son Y = [NT ×1], X = [NT ×K], Z = [1
NT
X]
y δ

= [α

β

] en donde 1
NT
es un vector de unos de dimension NT. De esta forma
(123) puede ser expresado como sigue:
u = Z
µ
µ +υ (126)
donde u

= (u
11
, ...u
1T
, u
21
, ...u
2T
, ....u
N1
, ...u
NT
) y Z
µ
= I
N
⊗ 1
T
, con I
N
la matriz
identidad y ⊗ el producto Kronecker.
De esta manera Z
µ
es la matriz de selección la que está compuesta de ceros y unos
y que captura los efectos de µ
i
. Usaremos estos resultados para calcular dos matrices
adicionales. La primera es :
P
NT×NT
= Z
µ
(Z

µ
Z
µ
)
−1
Z

µ
la cual es la matriz de proyección sobre Z
µ
; matriz que promedia las observaciones
en el tiempo para cada individuo. La segunda matriz es :
Q = I
NT
−P
la cual permite obtener las desviaciones sobre las medias individuales.
155
De esta forma Pu, tiene el típico elemento u
i
=
¸
T
t=1
u
it
T
y la matriz Qu tiene este
como elemento típico u
it
−u
i
Estas relaciones se usan extensivamente para derivar los modelos de datos de panel.
Ahora consideraremos dos supuestos sobre los efectos individuales µ
i
.
7.3.1. Modelo de Efectos Fijos
El modelo de efectos fijos asume que los efectos individuales µ
i
son parámetros
determinísticos los que deberán ser estimados. Este sería el caso si N representa la
"población"tal como el conjunto de países o estados o firmas, y que nuestras inferencias
es solamente relacionada sobre las N observaciones que se dispone. Así la inferencia es
condicional sobre las N observaciones en particular : no estaremos utilizando los resul-
tados para inferir aspectos relacionados a otro conjunto de países/firmas/individuos.
Al sustituir (126) en (125) tenemos que:
y = α1
NT
+Xβ +Z
µ
µ +ν = Zδ +Z
µ
µ +ν (127)
Podemos usar OLS sobre (127) para generar estimadores de α y el vector de β y µ al
incluir (N − 1) variables dummy para los efectos fijos no observados. Esta estimación
generalmente se conoce con Estimador Mínimo Cuadrático de Variables Dum-
my (LSDV). Cada uno de los coeficientes sobre µ
i
miden la diferencia de los efectos
individuales con respecto a un individuo base de comparación ( representado por α).
Sin embargo, si N es grande con respecto a NT existirán demasiados parámetros a
estimar (α, β y los N −1 efectos individuales específicos) en (127). Comúnmente, el in-
terés del investigador estará en saber los valores de α, β y en consecuencia, desearemos
simplemente controlar, y no estimar, los efectos individuales los que, después de todo,
son una amalgama de diferentes aspectos de la heterogeneidad.
La alternativa mas común para estimar esta situación es el estimador de efectos fijos.
Primero, deberemos pre multiplicar el modelo (124) por la matriz de selección Q la cual
calcula las desviaciones con respecto a la media grupal (de individuos). La observación
representativa para el individuo i en el tiempo t es :
(y
it
−y
i
) = (α −α
i
) + (X
it
−X
i
)β + (µ
i
−µ
i
) + (v
it
−v
i
) (128)
donde y
i
=
1
T
¸
T
t=1
y
it
es la media del valor y para el individuo i sobre todo el período de
observaciones (t = 1 · · · T). Notar de que por definición de que el primer y tercer término
de la parte derecha de (128) son cero. En una notación vectorial mas conveniente queda
de la siguiente forma :
Qy = QXβ +Qν (129)
donde hacemos uso del hecho de que Q−Z
µ
= Q1
NT
= 0 dado que el promedio temporal
del efecto invariante en el tiempo es simplemente el efecto en si mismo. De esta forma,
156
podemos estimar como sigue :
¯
β
W
= (X

QX)
−1
X

Qy (130)
donde
V ar(
¯
β
W
) = σ
2
ν
(X

QX)
−1
= σ
2
ν
(
¯
X

¯
X)
−1
(131)
y donde podemos recuperar el valor estimado de α como :
¯ α
W
= y −X
¯
β
W
donde aquí, el promedio se calcula sobre todas las observaciones basados en la restric-
ción de que
¸
N
i=1
µ
i
= 0 el cual es un supuesto estándar para las variables dummy.
Resultados
Si (127) es el verdadero modelo, el estimador de efectos fijos es BLUE sólo mientras
v
it
tenga las características Gaussianas estándar. A medida de que T tiende a infinito,
entonces el modelo es consistente para todos los parámetros del modelo. Sin embargo,
si T es fijo y N tiende a infinito, entonces el estimador FE de β será consistente. El
estimador FE de los efectos individuales (α+µ
i
) no son consistentes dado que el número
de parámetros aumenta a medida de que N aumenta.
Pruebas de Efectos Fijos
Podemos testear para la existencia de efectos fijos al usar un test F estándar donde la
nula es que :
Ho : µ
1
= µ
2
= · · · µ
N−1
= 0 (132)
La suma de cuadrados de residuos restringidas viene dado por la suma de los cuadrados
de los residuos del modelo OLS sobre los datos agrupados y el modelo sin restringir son
la suma de los residuos al cuadrado del modelo de efectos fijos. La prueba es la siguiente
:
F
FE
=
(rrss −urss)/(n −1)
urss/(nt −n −k)
∼ F
[n−1,nt−n−k]
(133)
Generalmente nos referiremos a esta como la restricción de agrupamiento sobre la het-
erogeneidad no observable en el modelo.
7.3.2. Modelo de Efectos Aleatorios
Suponga ahora que los efectos individuales no son determinísticos sino que cada uno
de ellos son una variable aleatoria. Esto sería un supuesto mas razonable en el caso de
que nuestros datos fuera una muestra genuina utilizada con el fin de realizar inferencias
sobre la población como un todo. Estos efectos aleatorios no observables pueden ser
pensados a nivel de individuos como habilidades mientras que a nivel de firma podemos
pensar en términos de capacidad administrativa. Asumiremos de que µ
i
∼ iid(0, σ
2
µ
) y
que ambos, µ
i
, v
it
son independientes de X
it
para todo i y t. Ahora, siendo los efectos
individuales aleatorios la varianza del término de error será :
V ar(u
it
) = σ
2
µ

2
ν
(134)
157
El aspecto clave de esta varianza es que a pesar de ser homocedástica, tiene correlación
serial al interior de cada unidad de corte transversal (dado que cada "efecto individu-
al"de cada persona persiste en el tiempo). En particular, sea :
Cov(u
it
, u
js
) = (µ
i
+v
it
)(µ
j
+v
js
) (135)
Así, si i = j y t = s entonces se tiene que la Cov(u
it
, u
js
) = σ
2
µ
+ σ
2
v
. Por otro lado, si
i = j pero t = s entonces se tiene que la Cov(u
it
, u
js
) = σ
2
µ
y cero en otro caso. Por
extensión, tenemos lo siguiente :
ρ = Corr(u
it
, u
js
) = 1 para i = j; t = s
ρ = Corr(u
it
, u
js
) =
σ
2
µ

2
µ

2
ν
)
para i = j; t = s
y cero en otro caso. Esto sugiere que ante la presencia de efectos aleatorios, la matriz de
varianzas covarianzas para el modelo de datos de panel no será del tipo "Gaussiano".
Para proceder con la estimación necesitaremos analizar la estructura de esta matriz.
Para examinar el estimador de efectos aleatorios necesitaremos introducir una nueva
matriz de selección. Sea J
T
una matriz de unos de dimensión T de tal forma de que
Z
µ
Z
µ

= I
N
⊗J
T
.
De esta manera, a partir de (126) podemos calcular la matriz de varianza covarian-
za (la cual es ahora de NT ×NT)
Ω = E(uu

) = Z
µ
E(µµ

)Z

µ
+E(νν

) (136)
la cual se puede simplificar en la siguiente expresión :
Ω = (Tσ
2
µ

2
ν
)(I
N
⊗J
T
) +σ
2
ν
(I
N
⊗E
T
) = σ
2
1
P +σ
2
ν
(137)
donde J
T
= J
T
/T, E
T
= (I
T
−J
T
) y σ
2
1
= Tσ
2
µ

2
v
.
Con esta definición podemos entonces aplicar a (127) el estimador GLS estándar para
derivar los estimadores de los coeficientes de α, β bajo el supuesto de efectos aleatorios:
´
δ
GLS
= [X


−1
X]
−1
[X


−1
y] (138)
El único problema (y uno no trivial) es que Ω es de rango (NT × NT) y la inversión
de esta matriz es extremadamente difícil. Un sinnúmero de trucos se han desarrollado
para salvar esta traba.
La forma de resolución a este problema mas popular introduce los denominados es-
timadores Entre Grupos (BG) el cual regresiona un conjunto de observaciones consis-
tentes en el promedio a través del tiempo para cada una de las N observaciones :
y
i.
= α +X

i.
β +u
i
i = 1, ...N (139)
158
donde :
y
i.
=
1
T
T
¸
t=1
y
it
El estimador entre grupos puede ser derivado al aplicar la matriz P a nuestro modelo
básico en (127) :
Py = Pα1
NT
+PXβ +P(Z
µ
µ +ν) (140)
el cual entrega el siguiente estimador :
¯
β
B
= [X

(P −J
NT
)X]
−1
[X

(P −J
NT
)y] (141)
Este estimador se denomina entre grupos pues ignora cualquier variación al interior del
grupo ( o individuo) en el tiempo y utiliza, lo que efectivamente es un resumen de la in-
formación de corte transversal simple sobre la variación entre los grupos ( o individuos).
Maddala (Econometrica, 1971) muestra de que el estimador GLS puede ser expresa-
do como :
´
β
GLS
= [
(X

QX)
σ
2
ν
+
X

(P −J
NT
)X
σ
2
1
]
−1
[
(X

Qy)
σ
2
ν
+
X

(P −J
NT
)y
σ
2
1
] (142)
Podemos simplificar la expresión anterior mediante la siguiente notación. Sea W
XX
=
X

QX, W
XY
= X

Qy, B
XX
= X

(P − J
NT
)X, B
XY
= X

(P − J
NT
) y finalmente,
φ
2
=
σ
2
ν
σ
2
1
.
Usando estas definiciones podemos re-expresar (142) como :
´
β
GLS
= [W
XX

2
B
XX
]
−1
[W
XY

2
B
XY
] (143)
el cual es el estimador GLS de Maddala para el modelo de efectos aleatorios.
Finalmente, notar de (130) de que W
−1
XX
W
XY
es simplemente el estimador al interi-
or del grupo (o intra grupo, WG) y de (141) de que B
−1
XX
B
XY
es el estimador entre
grupos (BG) de tal forma que :
´
β
GLS
= Θ
¯
β
W
+ (1 −Θ)
¯
β
B
(144)
con Θ = [W
XX

2
B
XX
]
−1
W
XX
. El estimador GLS en (144) es un promedio ponderado
entre los estimadores entre grupos e intra grupo. El parámetro clave en la ponderación
es Θ. Pueden existir tres casos diferentes:
(i) A medida de que T tienda a infinito, entonces φ
2
tenderá a cero, y por tanto Θ a
la unidad. En este caso, el estimador GLS tenderá al estimador intra grupo o el
estimador LSDV.
(ii) Si φ
2
tiende al infinito entonces Θ tenderá a cero y en consecuencia el estimador
GLS convergerá al estimador entre grupos.
159
(iii) Si σ
2
µ
= 0 (i.e. los efectos individuales son determinísticos) entonces φ
2
= 1 y así
el estimador GLS tenderá al estimador OLS (el cual entrega igual ponderación a
la variación intra grupo y inter grupos).
Podemos pensar, en consecuencia, a los estimadores LSDV (FE) y el estimador OLS
con los datos agrupados como casos especiales del estimador GLS donde el estimador
LSDV trata a todos los efectos individuales como fijos y diferentes y donde el estimador
OLS asume de que todos son fijos pero idénticos. El estimador GLS de efectos variables
permite a los datos considerar una posición intermedia.
7.3.3. Estimación Factible del estimador GLS
Como en todos los casos de estimadores GLS, necesitamos un procedimiento para
estimar los componentes de la matriz de varianzas y covarianzas de tal manera de que la
podamos utilizar para estimar los parámetros del GLS. Necesitamos, en consecuencia,
estimaciones de σ
2
µ
y σ
2
ν
.
La primera opción es usar una estimación máxima verosímil interativa. Bajo los supuestos
de normalidad para µ
i
y ν
it
podemos escribir la función de verosimilitud de la siguiente
manera:
log L(α, β, φ
2
, σ
2
ν
) = constante −
NT
2
log σ
2
ν
+
N
2
log φ
2

1

2
ν
u

Σ
−1
u (145)
y maximizarla en la forma usual, utilizando los estimadores entre grupos como los val-
ores iniciales de β.
Alternativamente
29
, valores consistentes de σ
2
ν
pueden ser derivados a partir de los
estimadores intra grupos ( ya que este estimador suprime los efectos entre grupos) y los
estimadores de σ
2
µ
pueden ser obtenidos a partir de los estimadores entre grupos ( ya que
suprime el efecto intra grupo). Estos estimadores consistentes pueden ser sustituidos en
el estimador GLS.
Si el modelo de efectos aleatorios es correcto, entonces el estimador GLS basado en
las componentes verdaderas de varianzas es BLUE. Todos los estimadores FGLS serán
consistentes a medida de que N o T tiendan a infinito.
Resumen
El método de estimación a ser usado dependerá en si asumimos de que los efectos in-
dividuales sean fijos o aleatorios. Resulta ser de que los valores para los parámetros β
pueden variar dramáticamente, en el caso mas común donde N es grande y T pequeño,
entre estimadores intra o entre grupos. Cuando sólo existen pocas observaciones en el
tiempo resulta mejor usar los elementos de corte transversal de los datos para estimar
aquella parte de la relación que contenga variables que difieren entre un individuo al
29
ver la rutina existente en STATA
160
otro (el estimador entre grupos). Ello permite de que la parte de serie de tiempo de los
datos sea usada en forma eficiente de tal manera de rescatar la parte común de dicha
relación entre individuos.
7.3.4. Problemas de Especificación
Hasta el momento se ha asumido de que los efectos individuales son o bien fijos
(i.e. no estocásticos) o si estos eran aleatorios, la covarianza entre los efectos no observ-
ables y las variables x
i
es cero. Esto puede no ser muy realista. Por ejemplo, en una
función de producción las capacidades administrativas no observables podrían estar cor-
relacionadas con la elección de los insumos.
Un resultado importante de Mundlak (Econometrica, 1978) sugiere que cuando los efec-
tos µ
i
son tratados como variables aleatorias pero la varianza entre estos y las variables
x
i
no son cero, el estimador de efectos aleatorios GLS será sesgado e inconsistente. Da-
do que el estimador intra grupo "eliminaçompletamente el efecto de los µ
i
, entonces el
estimador de efectos fijo intra grupo es insesgado y consistente.
Un corolario del resultado anterior es el siguiente. Por una parte, si Cov(u
i
, x
i
) = 0
entonces β
W
es BLUE y por lo tanto β
GLS
= ∆β
B
+ (1 − ∆)β
W
estará sesgado. Por
otra parte, si Cov(u
i
, x
i
) = 0 entonces se tiene que β
GLS
= ∆β
b
+(1 −∆)β
W
es BLUE
y asintóticamente eficiente.
El test de especificación de Hausman puede ser también utilizado en este caso. De
no existir covarianza (i.,e. bajo la nula) entonces el estimador GLS será BLUE y asin-
tóticamente eficiente; pero bajo la alternativa de que existe covarianza entre los efectos
y las variables x
i
, el estimador GLS será sesgado. En contraste, el estimador intra grupo
(efecto fijo) será consistente y BLUE (pero no asintóticamente eficiente) bajo la alterna-
tiva y consistente bajo la nula. La prueba de Hausman pregunta simplemente si existen
diferencias significativas entre los estimadores GLS y intra grupo y viene denotado de
la siguiente forma :
m = (
´
β
W

´
β
GLS
)

V ar(
´
β
W

´
β
GLS
)
−1
(
´
β
W

´
β
GLS
) ∼ χ
2
[k]
(146)
donde la hipótesis nula es que la covarianza es cero. Covarianza significativa entre los
efectos µ
i
y las variables x
i
hará que el valor de m sea grande lo que rechazará el test
y deberá estimarse, entonces, utilizando el estimador de efectos fijos intra grupo.
7.4. El Two Way Error Component Model
Suponga de que el término de error tienen dos efectos sistemáticos no observables
de la siguiente manera :
u
it
= µ
i

t

it
ν
it
∼ iid(0, σ
2
ν
) (147)
161
Podemos re escribir esto en forma vectorial como :
u = Z
µ
µ +Z
λ
λ +ν (148)
donde Z
µ
fue anteriormente definido y Z
λ
= 1
N
⊗I
T
es la matriz de variables dummies
temporales que capturan el efecto λ
t
si estos son parámetros fijos.
7.4.1. El Estimador de Efectos Fijos
Como fue definido anteriormente, si µ
i
y λ
t
son determinísticos (y v
it
es indepen-
diente de los x
it
) podemos utilizar el estimador LSDV el cual incluye N − 1 variables
dummy para cada efecto individual y T −1 variables dummy para los efectos temporales.
Esto, sin embargo, consume una gran cantidad de grados de libertad los que pueden
hacer inválida la estimación.
Podemos usar no obstante, una versión modificada del estimador intra grupo mediante
una transformación que "saque"los efectos de µ
i
y λ
t
. Re definiendo la transformación
Q tenemos :
Q = I
N
⊗I
T
−I
N
⊗J
T
−J
N
⊗I
T
+J
N
⊗J
T
(149)
Esta transformación significa que el típico elemento del vector y viene dado por :
¯ y = (y
it
−y
i.
−y
.t
+y) (150)
donde el segundo término de la expresión a la derecha promedia a través del tiempo (
y en consecuencia saca el efecto temporal); el tercer término promedia entre individ-
uos para el mismo período ( así sacando el efecto individual); mientras que la última
expresión promedia los efectos entre los individuos y entre los períodos de tiempo (recu-
perando la variación no explicada de los efectos individuales y temporales). Aplicando
esta transformación al término de error tenemos el siguiente resultado importante :
¯ u
it
= (u
it
−u
i.
−u
.t
+u
..
) = (ν
it
−ν
i.
−ν
.t

..
) (151)
Podemos entonces estimar los parámetros de interés como :
¯
β = (X

QX)
−1
X

y (152)
con la estimación del intercepto común como sigue :
¯ α = y
..

¯
βX
..
(153)
(ver Baltagi pp.28 para una derivación completa )
Prueba de Efectos Fijos
Como en el caso del one way eror component model, podemos testear por la presencia
de efectos fijos usando la prueba F estándar sobre la nula :
Ho = µ
1
= · · · µ
n−1
= λ
1
· · · λ
T−1
= 0 (154)
162
7.4.2. Modelo de Efectos Aleatorios
Ahora suponga que ambos efectos individuales y temporales son no determinísticos,
es decir podemos tratarlas como variables aleatorias estocásticas. Podemos asumir de
que µ
i
∼ iid(0, σ
2
u
), λ
t
∼ iid(0σ
2
λ
) independiente entre cada uno de ellas y con ν
it
, y
que µ
i
, λ
t
, ν
it
son independientes de x
it
para todo i y t. Ahora siendo los efectos fijos
aleatorios, la varianza del término de error será :
V ar(u
it
) = σ
2
µ

2
λ

2
ν
(155)
El aspecto clave de esta varianza es que siendo de nuevo homocedástica tendrá dos tipos
de correlación serial : entre cada unidad de corte transversal (un “efecto fijo” individual
que persiste en el tiempo) y uno a través del tiempo. Así :
Cov(u
ij
, u
js
) = σ
2
µ
si i = j, t = s
Cov(u
ij
, u
js
) = σ
2
λ
si i = j, t = s
El estimador de efectos aleatorios es de nuevo un estimador GLS y, como en el caso del
modelo de one way error component, podemos utilizar el estimador ponderado de Mad-
dala en el cual tenemos dos estimadores "entre". Así existirá e tradicional estimador
Intra Grupo (usando la ecuación (151)) derivado a partir de la aplicación del la matriz
de selección Q
1
; el estimador intergrupos individual el cual es derivado de la regresión:
(y
i.
− y
..
) sobre (x
i.
− x
..
) utilizando la matriz de selección Q
2
; y el tercer estimador
intergrupos temporal el cual se deriva de la regresión entre(y
.t
− y
..
) sobre (x
.t
− x
..
)
utilizando la matriz de selección Q
3
.
Definiendo W
XX
= X

Q
1
X; B
XX
= X

Q
2
X; C
XX
= X

Q
3
X, y en forma análoga
para W
XY
, B
XY
y C
XY
donde además se tiene que φ
2
2
=
σ
2
v
λ
2
; φ
2
3
=
σ
2
v
λ
3
; λ
2
= Tσ
2
µ
+ σ
2
ν
y λ
3
= nσ
2
λ
+ σ
2
v
, Maddala (Econometrica, 1971) demuestra de que el estimador GLS
puede ser expresado mediante un rearreglo de (142) como :
´
β
GLS
= [W
XX

2
2
B
XX

2
3
C
XX
]
−1
[W
XY

2
2
B
XY

2
3
C
XY
] (156)
el cual puede ser simplificado un paso más al notar de que W
−1
XX
W
XY
es simplemente
el estimador intragrupo y que B
−1
XX
B
XY
es el estimador intergrupo individual y que
C
−1
XX
C
XY
es el estimador intergrupo temporal. Así, se tiene que la siguiente expresión :
´
β
GLS
= Θ
1
¯
β
W
+ Θ
2
¯
β
B
+ Θ
3
´
β
C
(157)
donde :
Θ
1
= [W
XX

2
2
B
XX

2
3
C
XX
]
−1
W
XX
Θ
2
= [W
XX

2
2
B
XX

2
3
C
XX
]
−1

2
2
B
XX
)
Θ
3
= [W
XX

2
2
B
XX

2
3
C
XX
]
−1

2
3
C
XX
)
A partir de lo anterior, finalmente se tiene que :
163
Si σ
2
µ
= σ
2
λ
= 0 implica de que φ
2
2
= φ
2
3
= 1 y así el estimador GLS tenderá al
OLS.
Si T y N tienden al infinito entonces esto implica de que φ
2
2
, φ
2
3
tiendan a cero y
así el estimador GLS tienda al estimador intra grupo.
Si φ
2
2

2
3
) tienden a infinito entonces el estimador GLS tenderá al estimador
intergrupo individual (intergrupo temporal).
7.5. Extensiones
El modelo básico puede ser extendido en varias direcciones. Estas son discutidas en
forma extensa en el Hsiao y en Baltagi algunas de las cuales revisaremos en la próxima
clase. Entre las mas interesantes se tiene :
Tratar la Heterocedasticidad y Correlación Serial en Datos de Panel.
Modelos de Sistemas con Datos de Panel.
Variables con variable Dependiente Discreta en datos de panel.
Modelos de Datos de Panel Dinámicos.
164
8. Datos de Panel Dinámicos
30
8.1. Introducción
El uso de datos de panel dinámico es una de las areas de mayor desarrollo en la
actualidad en el trabajo econométrico tanto en términos teóricos como aplicados. Las
ventajas que se derivan del uso de estos son evidentes, ya que permite estimar relaciones
económicas que presentan una naturaleza dinámica y que es imposible estimarla usando
datos de corte transversal. Por otra parte en la práctica es raro poseer observaciones
para periodos de tiempo prolongados de una unidad de análisis, como requeriría el poder
trabajar con series de tiempo. De esta manera es común tener en el trabajo aplicado
paneles con períodos de tiempo corto y con un gran numero de unidades. Sin embargo,
el trabajar con paneles dinámicos con estas características involucra una serie de de-
safíos en la estimación de los parámetros, ya que deseamos que estos sean consistentes
y eficientes, al menos en términos asintóticos.
Las técnicas tradicionales de estimación como son Mínimos Cuadros Ordinarios (OLS)
y el estimador Within Group (WG) han demostrado tener un pobre desempeño debido a
que presentan sesgos los cuales no desaparecen cuando la muestra crece (N →∞). Una
alternativa sugerida para hacer frente a este problema es trabajar con los estimadores
de variables instrumentales (VI) que proponen Anderson y Hsiao (1982). Estos autores
instrumentalizan la variable dependiente rezagada a través del uso de la misma variable
dependiente pero con un orden mayor de rezago.
Como una respuesta a los estimadores anteriores se ha desarrollado toda una liter-
atura la cual esta basada en el Método Generalizado de los Momentos (GMM), el cual
trata de obtener estimadores consistentes y eficientes en términos asintóticos. Entre los
estimadores que se han desarrollado podemos mencionar el estimador de una etapa,
de dos etapas y el estimador sistemas el cual trata de explotar toda la información
disponible a través de las combinación de las condiciones de momento para la ecuación
en niveles y en sus primeras diferencias. En este capítulo nos concentramos en dar una
revisión a los diversos métodos de estimación enfatizando cuales son los posibles sesgos
en que se incurre y la eficiencia que muestran dichos métodos.
8.2. El estimador de OLS, WG y IV
El modelo en el cual nos concentramos, es uno del siguiente tipo:
y
it
= αy
it−1
+ (η
i

it
); |α| < 1; i = 1 . . . N; t = 1 . . . T (158)
donde η
i
representa el efecto individual el cual es invariante en el tiempo, υ
it
representa
el efecto aleatorio que varia de manera individual a través del tiempo. Se asume que
30
Capítulo escrito junto a Emerson Melo.
165
ambos son variables aleatorias y sus dos primeros momentos vienen dados por:
E(η
i
) = E(υ
it
) = 0; y E(η
2
i
) = σ
2
η
; E(υ
2
it
) = σ
2
υ
; E(υ
it
υ
is
) = 0 ∀ i = s
Por otra parte se asume que N es grande y T es pequeño y fijo, por tanto las propiedades
asintóticas de los estimadores vendrán dadas en la medida que N →∞.
Dado lo anterior el primer estimador que estamos interesados es el estimador de OLS
el cual viene dado por:
´ α
OLS
=
¸
N
i=1
¸
T
t=2
y
it
y
it−1
¸
N
i=1
¸
T
t=2
y
2
it−1
(159)
El estimador anterior puede ser expresado de la siguiente manera :
´ α
OLS
=
¸
N
i=1
¸
T
t=2
(αy
it−1

i

it
)y
it−1
¸
N
i=1
¸
T
t=2
y
2
it−1
Por tanto tenemos que:
´ α
OLS
= α +
¸
N
i=1
¸
T
t=2

i

it
)y
it−1
¸
N
i=1
¸
T
t=2
y
2
it−1
El estimador anterior resulta ser inconsistente, debido a que y
it−1
esta correlacionado
positivamente con η
i
. Es posible demostrar que el plim´ α
OLS
viene dado por la siguiente
expresión:
plim(´ α
OLS
−α) = (1 −α)
σ
2
η
σ
2
υ
σ
2
η
σ
2
υ
+k
; con k =
1 −α
1 +α
(160)
De esta forma el estimador OLS de la especificación original está sesgado hacia arriba,
en donde se tiene que α < plim´ α
OLS
< 1.
31
Existen dos formas de afrontar el prob-
lema anterior, las cuales consisten en eliminar el efecto individual el cual es la fuente
de inconsistencia. La primera es transformar el modelo en desviaciones de medias de
manera de poder obtener el tradicional estimador WG. La transformación a utilizar es
la siguiente :
Q = I
T−1

ee

T −1
(161)
donde I
T−1
es una matriz identidad de rango T − 1 y e es un vector de t − 1 unos Si
multiplicamos (158) por (161) tenemos que se obtiene:
y
it
−y
i
= α(y
it−1
−y
i,t−1
) + (υ
it
−υ
i
) (162)
con y
i
=
1
T
¸
T
t=1
y
it
, esto es análogo para el caso de y
i,t−1
y υ
i
. Si aplicamos OLS a
(162) el estimador WG viene dado por:
´ α
WG
=
¸
N
i=1
¸
T
t=2
(y
it
−y
i
)(y
t−1
−y
i,t−1
)
¸
N
i=1
¸
T
t=2
(y
t−1
−y
i,t−1
)
2
(163)
31
Notar que si la distribución de η
i
es degenarada, la ecuación (160) se convierte en plim α
OLS
= α
y por tanto no existíria sesgo.
166
El estimador WG si bien elimina el efecto individual η
i
, mediante la aplicación de la
matriz de transformación dada por Q, igual resulta ser inconsistente. Para ver porque
se produce esto, analicemos los términos (y
it−1
−y
i,−1
) y (υ
it
−υ
i
) en la ecuación (162).
Si escribimos dichos términos de manera extendida se tiene que :
y
it−1
−y
i,−1
= y
it−1
−(
1
T −1
(y
i1
+....y
it
+..... +y
iT−1
))
por otra parte el terminó de error es :
υ
it
−υ
i
= υ
it
−(
1
T −1

i2
+..... +υ
it−1
+....... +υ
iT
))
A partir de lo anterior es fácil darse cuenta que y
it−1
está correlacionado con el término
−1
T−1
υ
it−1
y que el término
−1
T−1
y
it
lo está con υ
it
. De esta manera existe una correlación
negativa entre la variable dependiente rezagada y el terminó de error en la ecuación
(162), por tanto el estimador WG de α resulta ser inconsistente, plim´ α
WG
es entregado
por la ecuación (164)
plim´ α
WG
= −
1+α
(T−1)
(1 −
1−α
T
T(1−α)
)
1 −

(1−α)(1−T)
(1 −
1−α
T
T(1−α)
)
(164)
El sesgo es hacia abajo y por tanto WG subestima a α. De esta forma tanto OLS como
WG entregan estimadores inconsistentes de α en la estimación de (158) y la dirección
de los sesgos van en direcciones opuestas.
La segunda alternativa que tenemos para eliminar el efecto individual de (158) es estimar
un modelo en primeras diferencias el cual viene dado por la siguiente ecuación:
∆y
it
= α∆y
it−1
+ ∆υ
it
(165)
En donde ∆y
it
= y
it
−y
it−1
, ∆y
it−1
= y
it−1
−y
it−2
y por último ∆υ
it
= υ
it
−υ
it
.
Si estimamos (165) mediante OLS se obtendrá nuevamente un estimador sesgado de-
bido al hecho que y
it−1
está correlacionado con υ
it−1
. Anderson y Hsiao (1982) proponen
instrumentalizar ∆y
it−1
usando como instrumentos
32
y
it−2
ó bien (y
it−2
−y
it−3
).
DE esta forma, el estimador de variables instrumentales cuando usamos y
it−2
como
instrumento viene dado por la siguiente expresión :
´ α
V I
=
¸
N
i=1
¸
T
t=2
(y
it
−y
i
)y
it−2
¸
N
i=1
¸
T
t=2
(y
it−1
−y
it−2
)y
it−2
(166)
32
Un instrumento debe cumplir que este altamente correlacionado con el regresor al cual esta
instrumentalizando, y que no este correlacionado con el termino de error. A partir del supuesto
E(υ
it
υ
is
) = 0 ∀ i = s los instrumentos señalados son validos
167
y cuando usamos (y
it−2
−y
it−3
) como instrumento tiene la siguiente expresión alternativa
:
´ α
V I
=
¸
N
i=1
¸
T
t=2
(y
it
−y
i
)(y
it−2
−y
it−3
)
¸
N
i=1
¸
T
t=2
(y
it−1
−y
it−2
)(y
it−2
−y
it−3
)
(167)
El estimador dado por (166) tiene la ventaja que identifica a α cuando T 2, en cambio
(167) funciona cuando T 3.
Los criterios para usar (166) ó (167) vienen dados por el instrumento que presente
una mayor correlación con ∆y
it−1
, así como también por consideraciones de eficiencia
asintotica.
No obstante lo anterior Arellano y Bond (1991) a partir de un experimento de Monte-
carlo, muestran el pobre desempeño que presentan los estimadores de IV antes men-
cionados, en particular el estimador entregado por (167) presenta un gran sesgo hacia
bajo y una gran imprecisión.
8.3. Usando GMM en la estimación de Paneles Dinamicos
Considerando la inconsistencia de los estimadores hasta ahora descritos, Arellano y
Bond sugieren la utilización del Método de los Momentos Generalizado (GMM) para la
estimación de la ecuiación (158).
En esta sección se describen los estimadores sugeridos por estos autores basados en
el concepto de estimación consistente mediante la utilización de un vector de instru-
mentos.
8.3.1. El método de Arellano y Bond
El método considera las siguientes condiciones de momento:
E(g(X
i
, θ
0
)) = E(g
i

0
)) = 0
donde g(.) es un vector de orden q y θ
0
es un vector de orden k, en donde q k. El
estimador GMM
´
θ para θ
0
, minimiza el siguiente criterio:
Q
W
N
=
¸
1
N
N
¸
i=1
g
i
(θ)
¸

W
−1
N
¸
1
N
N
¸
i=1
g
i
(θ)
¸
(168)
con respecto a θ, en donde W
−1
N
es una matriz definida positiva que cumple con
plim
N→∞
W
−1
N
= W con W una matriz definida positiva.
GMM asume que lim
N→∞
1
N
¸
N
i=1
g
i
(θ) = E(g
i
(θ)) y ademas que
1
N
¸
N
i=1
g
i

0
) →
N(0, Ψ). LO último se conoce como condiciones de regularidad.
168
Por otra parte sea Γ(θ) = E(∂g
i
(θ)/∂θ

) y Γ
θ
0
= Γ(θ
0
), entonces

N(
´
θ − θ
0
) tiene
una distribución normal limite dada por

N(
´
θ −θ
0
) →N(0, V
W
), donde :
V
W
= (Γ

θ
0
W
−1
Γ
θ
0
)
−1
Γ

θ
0
W
−1
ΨW
−1
Γ
θ
0

θ
0
W
−1
Γ
θ
0
) (169)
El estimador GMM de dos etapas eficiente, elige la matriz de ponderaciones W
N
de
manera tal que plim
N→∞
W
N
= Ψ y por tanto se tiene que V
W
= (Γ

θ
0
W
−1
Γ
θ
0
)
−1
. La
matriz que cumple con las condiciones anteriores es la siguiente :
W
N
(
´
θ
1
) =
1
N
N
¸
i=1
g
i
(
´
θ
1
)g
i
(
´
θ
1
)

(170)
en donde θ
1
es un estimador consistente de θ
0
, el cual es obtenido en una primera etapa.
Para ver cómo funciona GMM retomemos el modelo dado por (165) el cual esta ex-
presado en primeras diferencias, y asumamos que T > 3 de manera tal que el modelo
está sobreidentificado, en particular asumamos T = 4.
En dicho caso se tiene que para t = 4 los instrumentos disponibles son y
i2
y y
i1
, y
para t = 3 solo tenemos disponibles y
i1
como instrumento. De esta manera se puede
deducir que para t = T se tiene que los instrumentos disponibles son (y
i1
, y
i2
, .......y
iT−2
).
A partir de lo anterior y siguiendo a Arellano y Bond (1991), podemos escribir las
condiciones de momento para la ecuacion (165), de la siguiente manera:
E(∆υ
it
y
it−s
) = 0 i = 1 . . . N; t = 3 . . . T; s = 2 . . . t −1 (171)
Las condiciones de momento disponibles son m =
(T−1)(T−2)
2
.
Denotando las condiciones anteriores en términos matriciales tenemos que :
E(Z

i
∆υ
i
) = 0 (172)
con ∆υ

i
= (υ
i3
, υ
i4
, .....υ
iT
)

y Z
i
es una matriz de instrumentos definida de la siguiente
manera :
Z
i
=

y
i1
0 0 . . . . . . 0
0 y
i1
y
i2
. . . . . . 0
. . . . . . . . . .
0 0 0 y
i1
. . . y
iT−2
¸
¸
¸
¸
(173)
la cual es de (T −2)×m en donde m representa las condiciones de momento disponibles.
El estimador GMM basado en las condiciones entregadas por (171), minimiza el siguiente
criterio
Q =
¸
1
N
N
¸
i=1
∆υ

i
Z
i
¸
W
−1
N
¸
N
¸
i=1
Z

i
∆υ
¸
(174)
169
La elección de la matriz da lugar a dos estimadores los cuales son asintóticamente equiv-
alentes.
Para el estimador de una etapa utilizamos la siguiente matriz de ponderaciones :
W
N1
=
¸
1
N
N
¸
i=1
Z

i
HZ
i
¸
−1
(175)
en donde H es una matriz que contiene dos en la diagonal principal y menos uno en las
dos primeras subdiagonales y ceros en todo los demás lugares.
La ecuación (176) muestra el estimador que se obtiene al minimizar (174) con respecto
a α:
´ α
1GMM
= [∆y

−1
ZW
−1
N1
Z

∆y
−1
]
−1
[∆y

−1
ZW
−1
N1
Z

∆y] (176)
en donde ∆y
−1
es un vector de N(T −2) ×1 dado por ∆y

−1
= (∆y

1(−1)
, ....∆y

N(−1)
)

,
del mismo modo se tiene que ∆y

= (∆y

1
, ....∆y

N
)

el cual es también es de orden
N(T −2) ×1, y finalmente Z

= (Z

1
, ........Z

N
)

, la cual es una matriz de m×N(T −2).
El estimador ´ α
1GMM
es consistente en la medida que N →∞, aunque no es eficiente.
El estimador eficiente el cual denominamos como ´ α
2GMM
surge del hecho de elegir
la matriz de ponderaciones óptimas la cual tiene la siguiente forma :
W
N2
=
¸
1
N
N
¸
i=1
Z

i
¯
∆υ
i
¯
∆υ
i

Z
i
¸
−1
(177)
en donde
¯
∆υ
i
son los residuos estimados a partir de un estimador consistente de α,
el cual usualmente es el estimador ´ α
1GMM
. Asi se tiene que el ´ α
2GMM
es el mismo
estimador que el señalado por la ecuación (176) con la diferencia que la matriz W
N1
es
reemplazada por W
N2
.
8.3.2. Comparando la eficiencia de ´ α
1GMM
y´ α
2GMM
Un punto central en la decisión de ocupar ´ α
1GMM
o bien ´ α
2GMM
es saber cómo
se comportan en términos de eficiencia, en particular cuando trabajamos con muestras
finitas.
33
La varianza asintótica para ´ α
1GMM
es estimada por :

V AR(´ α
1GMM
) = N(∆y

−1
ZW
−1
N1
Z

∆y
−1
)
−1
∆y

−1
ZW
−1
N1
W
N1
(´ α
1GMM
)× (178)
Z

∆y
−1
(∆y

−1
ZW
−1
N1
Z

∆y
−1
)
−1
33
Sabemos que α
2GMM
es asintóticamente eficiente en la medida que N → ∞.
170
donde se tiene que :
W
N1
(´ α
1GMM
) =
1
N
N
¸
i=1
Z

i
¯
∆υ
i
¯
∆υ
i

Z
i
¯
∆υ
i
= ∆y
i
− ´ α
1GMM
∆y
−1
Por otra parte la varianza para el estimador de dos etapas viene dada por la siguiente
expresión :

V AR(´ α
2GMM
) = N(∆y

−1
ZW
N2
(´ α
2GMM
)Z

∆y
−1
) (179)
Arellano y Bond (1991) documentan el hecho que la varianza del estimador de dos eta-
pas puede estar severamente sesgada hacia abajo en muestras finitas y por tanto las
estadísticas de prueba tienen un mayor poder tendiéndose a sobrerechazar la hipótesis
nula.
De esta manera se sugiere el uso del estimador de una etapa para la realización de
inferencias. La fuente de sesgo en los errores estándar del estimador de dos etapas
proviene del hecho que en el cálculo de (178) está presente el estimador de una etapa.
Windmeijer (2000) muestra este hecho y propone una corrección para muestras fini-
tas a partir de una expansión de Taylor de primer orden.
8.4. Algunos test de especificación
Uno de los supuestos sobre ν
it
es que estos son serialmente no correlacionados lo que
viene expresado por :
E(ν
it
ν
is
) = 0 ∀ t = s (180)
por tanto cuando diferenciamos (158) para remover η
i
, el termino de error ∆ν
it
que
resulta, esta por construcción serialmente correlacionado.
En particular se tiene que:
E(∆ν
it
∆ν
it−s
) = −σ
2
ν
, si s = 1
de esta forma se tiene un MA(1) de coeficiente unitario en el termino de error. La
consistencia de GMM depende fuertemente de que se cumpla (180), por tanto una vez
que se ha estimado (158) esta condición debe ser testeada, ya que de no cumplirse, las
condiciones de momento establecidas por (171) son inválidas.
Una forma de saber si se cumple o no dicha condición es saber si existe no correlación
serial de segundo orden. Para esto definamos lo siguiente :
´ ν
it
= ∆y
it
− ´ α∆y
it−1
(181)
171
A partir de (181) podemos ver que una manera fácil de entender el problema es con-
centrar nuestra atención solamente en una unidad i y ver si se cumple la condición. De
esta manera se sabe que:
ξ
i
= ∆ν

i(−2)
ν
i
(182)
donde ∆ν
i(−2)
y ν
i
son de vectores de (T −4)×1. Bajo la hipótesis nula de no correlación,
ξ
i
tiene media cero y podemos construir test para saber si efectivamente E(ξ
i
) = 0. Así
a partir de la simple idea anterior el test para saber si existe o no correlación serial de
segundo orden es el siguiente:
m
1
=
∆´ ν

i(−2)
´ ν
i
´ ν
1/2

(183)
donde m
1
tiende a una normal de media cero y varianza uno
34
. Por otra parte ´ ν
1/2

viene dado por:
´ ν

=
N
¸
i=1
ν

i(−2)
´ ν
i
ν
i
´ ν
i(−2)

2´ ν

−2
X

(X

ZW
N
ZX)
−1
X

ZA
N
(
N
¸
i=1
Z

i
´ ν
i
´ ν

i
´ ν
i(−2)
)
+´ ν

−2
X

avar(
´
δ)X


´ ν
−2
Lo interesante de (183) está en el hecho que es flexible ya que esta definida en términos
de un estimador consistente y no necesariamente eficiente. Sin embargo, la potencia que
alcance m
1
dependerá de la eficiencia asintótica del estimador que se utilice.
Si los errores no están serialmente correlacionados, entonces no se rechaza la hipóte-
sis de ausencia de correlación serial de segundo orden en ∆ν
it
; no obstante lo anterior,
llegaríamos a la misma conclusion si estos fueran autocorrelacionados pero el proceso
fuera un Random Walk.
Una forma para discriminar entre ambas situaciones seria la de construir un estadístico
denominado como m
2
pero para probar si existe o no correlación serial de primer orden
en ∆ν
it
.
El poder distinguir entre ambos casos no es un tema menor ya que si los errores siguen
un Random Walk al estimar por GMM y por MCO la ecuacion en primera diferencias,
ambos entregaran estimadores consistentes y por tanto se tiene que esto daría origen a
un test de Hausman de especificación.
8.4.1. Test de Sargan de sobreidentificacion
Este test busca establecer si las condiciones de momento impuestas son o no validas
en donde si m son las condiciones de momento y k los parámetros a estimar diremos
34
Arellano y Bond (1991) demuestran la normalidad asintotica de este estadístico
172
que el modelo esta sobreidentificado si p > k.
El test propuesto por Sargan viene dado por :
S = ∆´ ν

Z(Z

∆´ ν∆´ ν

Z)
−1
Z

∆´ ν ∼ aχ
2
p−k
(184)
donde ´ ν es construido a partir del estimador de dos etapas, para una matriz de in-
strumentos Z dada, que no necesariamente es la matriz de instrumentos óptimas. La
hipótesis nula de este test es que las condiciones de momento son validas.
Un aspecto interesante del test de Sargan es aquel relacionado con el hecho que puede
ser modificado de manera de poder trabajar con distintas hipótesis para el termino de
error ν
it
, en particular para el tema de correlación serial.
Para entender esto, consideremos una matriz de instrumentos la cual la denominamos
por Z
1
y que contiene p
1
columnas que corresponden a las condiciones de momento
cuando se tiene que el término de error en niveles presenta un proceso MA(1).
El test de Sargan para las condiciones de momento anteriormente señaladas es el sigu-
iente :
S
1
= ∆´ ν

1
Z
1
(Z

1
∆´ ν
1
∆´ ν

1
Z
1
)
−1
Z

1
∆´ ν
1
∼ aχ
2
p
1
−k
(185)
donde ∆´ ν
1
son obtenidos a partir de un estimador de dos etapas basado en la matriz
de instrumentos Z
1
. De esta forma (185) puede ser comparada con (184) y por tanto
formar :
DS = S −S
1
∼ aχ
2
p
1
−p
Los grados de libertad p
1
−p están reflejando el hecho que existen condiciones de mo-
mento adicionales lo cual se explica porque la matriz de instrumentos Z es construida
asumiendo ausencia de correlación serial en ν
it
.
Si se rechaza H
0
, estamos diciendo que existen condiciones de momento mal especi-
ficadas y por tanto se tendría que usar Z
1
en vez de Z.
8.5. El caso de instrumentos débiles
Como se mencionó, sabemos que una de las condiciones que debe cumplir un instru-
mento es la de estar correlacionado con la variable a la cual se va a instrumentalizar.
35
Sin embargo en la estimación de paneles dinámicos usando GMM, se ha encontra-
do que en ocasiones los instrumentos muestran una débil correlación con las variables
que están instrumentalizando, lo que lleva a que las estimaciones de los parámetros del
modelo se realice con poca precision y con sesgos.
35
La otra condición es la de no estar correlacionada con el termino de error, esto al menos en términos
asintóticos.
173
Uno de los primeros estudios en dar cuenta de esto fue el realizado por Griliches y
Mairesse(1997), quienes señalan para el caso de la estimación de una función de pro-
ducción Cobb-Douglas:
En la practica, la aplicación de métodos de panel a microdatos producen
resultados muy insatisfactorios; coeficientes para el capital bajo y usualmente
insignificantes junto estimadores poco contradictorios para los retornos con-
stantes a escala
-Griliches y Mairesse (1997) Para entender
el porque se produce este problema consideremos el caso donde T = 3, de manera tal
que las condiciones de momento se reducen solamente a una condición de ortogonalidad.
En este caso GMM se convierte en 2SLS. En particular en la primera etapa tenemos :
∆y
i2
= π
d
y
i1
+r
i
i = 1, ....N (186)
Si el instrumento es débil, implicara que en (186), π
d
será no significativo, y por tanto
no cumple una de las condiciones para ser instrumento. El que y
i1
este débilmente
correlacionado con ∆y
2
dependerá de dos factores :
1. En la medida que α → 1, en la ecuación (158).
2. El tamaño relativo de la varianza de η
i
respecto a la varianza de ν
it
.
En efecto si consideramos el modelo original en T = 2 y restando a ambos lados y
i1
se
tiene que :
∆y
i2
= (α −1)y
i1

i

it
(187)
El estimador de MCO para (α−1) en (187) estará sesgado hacia arriba, es decir, hacia
cero en la medida que esperamos que E(y
i1
η
i
).
Asumiendo estacionariedad en covarianza se tiene que el plim´ π
d
viene dado por :
plim´ π
d
= (α −1)
k
σ
2
η
σ
2
ν
+k
con k =
1 −α
1 +α
(188)
De (188) se desprende el hecho que plim´ π
d
→0 en la medida que α →1 o en la medida
que σ
2
η

2
ν
→∞.
Blundell y Bond (1999) muestran que el sesgo de GMM en presencia de instrumentos
débiles es similar al sesgo que tiene el estimador WG. La solución que se propone es
utilizar el denominado estimador GMM de sistemas el cual mezcla condiciones de mo-
mento para la ecuación en primeras diferencias y para la ecuación en niveles.
El estimador usando condiciones en primeras diferencias ya lo conocemos, por tan-
to debemos derivar un estimador para condiciones de momento en niveles, para luego
combinar ambas condiciones.
174
8.5.1. Condiciones iniciales y un estimador en niveles
Consideremos la siguiente condición :
E(η
i
∆y
i2
) = 0 i = 1, ....N (189)
La condición anterior es una restricción sobre el proceso que genera los datos, y a partir
de esta tendremos las siguientes condiciones de momento adicionales:
E((η
i

it
)∆y
it−1
) = 0 t = 3, ...T (190)
Lo anterior proviene de (189) y señala que si ∆y
i2
no está correlacionado con η
i
entonces
llevará a que ∆y
it
también no lo esté.
Esto puede ser visto en (165), donde si comenzamos a reemplazar al lado derecho de
esta ecuación, se llega a una expresión del siguiente tipo :
∆y
it
= α
t−2
∆y
i2
+
t−3
¸
s=0
α
s
∆µ
it−s
(191)
donde ∆µ
it
= (η
i

it
) −(η
i

it−1
) = ∆ν
it
.
Por tanto de (191) se deriva el hecho que ∆y
it
estará no correlacionado con η
i
en
la medida que ∆y
i2
no lo esté.
El estimador GMM en niveles puede ser obtenido mediante el uso de las siguientes
condiciones de momento:
E(∆y
it−s

i

it
)) = 0 s = 2......t −1
En términos matriciales tenemos lo siguiente :
E(Z
li
µ
i
) = 0 t = 2....T (192)
en donde Z
li
viene dada por la siguiente expresión :
Z
i
=

∆y
i2
0 0 . . . . . . 0
0 ∆y
i2
∆y
i3
. . . . . . 0
. . . . . . . . . .
0 0 0 ∆y
i2
. . . ∆y
iT−1
¸
¸
¸
¸
(193)
la cual tiene dimension de (T −2) ×m
l
con m
l
= 0,5(T −1)(T −2).
Para la obtención de los estimadores de una y dos etapas procedemos de la misma
manera que para el estimador GMM con las condiciones de momento para la ecuación
en diferencia.
175
8.6. GMM de sistemas
Al tener las condiciones de momento en niveles y en primeras diferencias la pregunta
obvia que nos surge es ¿como combinamos estas condiciones de la manera mas eficiente
posible?.
Arellano y Bover(1995) responden esta pregunta a partir de un modelo mas general
donde se incluyen variables que pueden estar correlacionadas con η
i
.
36
El estimador GMM en este caso resulta de combinar las condiciones en niveles y en
primeras diferencias en forma simultanea, de manera que el sistema resultante tiene
2(T −2) ecuaciones. Las condiciones a utilizar en la estimación son las siguientes :
E(y
it−s
∆µ
it
) = 0 t = 2...T s = 2.....t −1 (194)
E(∆y
it−1
µ
it
) = 0 t = 3...T (195)
con µ
it
= η
i

it
. Haciendo uso de matrices se tiene que :
E(Z

si
q
i
) = 0
en donde Z
s
es :
Z
s
=
¸
Z
di
0
0 Z
P
li

=

Z
di
0 0 0 0 0
0 ∆y
i2
0 . . . . . . 0
0 0 ∆y
i3
. . . . . . 0
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . . . . . 0 ∆y
iT−1
¸
¸
¸
¸
¸
¸
¸
(196)
Al igual que en los casos anteriores, el estimador de una y de dos etapas se obtiene con
el procedimiento descrito en las secciones precedentes.
Lo interesante del estimador GMM de sistemas, es que puede ser entendido como una
combinación del estimador en primeras diferencias y del estimador en niveles usando
solo algunas condiciones de momento para este.
37
Por otra parte, para el estimador en 2SLS en sistemas se puede demostrar que :
´ α
s
= (q

−1
Z
s
(Z

s
Z
s
)
−1
Z

s
)
−1
q

−1
Z
s
(Z

s
Z
s
)
−1
Z

s
q
en donde q

−1
= [∆y
−1
, y
−1
]. Y por otra parte se tiene que :
q

−1
Z
s
(Z

s
Z
s
)
−1
Z

s
q
−1
= ∆y

−1
Z
d
(Z

d
Z
d
)
−1
Z

d
∆y
−1
+y

−1
Z
p
l
(Z
p
l
Z
p
l
)
−1
Z
p
l
y
−1
36
La sección siguiente se discute el caso cuando se tiene regresores adicionales a la variables depen-
diente rezagada.
37
En particular solo usamos la diagonal de la matriz Z
li
.
176
Usando estas dos expresiones se llega al hecho de que :
´ α
s
= γ´ α
d
+ (1 −γ)´ α
p
l
(197)
definiendo ´ α
d
el estimador 2SLS para la ecuación en primeras diferencias y ´ α
p
l
el esti-
mador en niveles utilizando solamente las T −2 condiciones de momento.
Finalmente γ puede ser definido como :
γ =
∆y

−1
Z
d
(Z

d
Z
d
)
−1
Z

d
∆y
−1
∆y

−1
Z
d
(Z

d
Z
d
)
−1
Z

d
∆y
−1
+y

−1
Z
p
l
(Z
p
l
Z
p
l
)
−1
Z
p
l
y
−1
arreglando la expresión anterior se tiene que :
γ =
´ π

d
Z

d
Z
d
´ π
d
´ π

d
Z

d
Z
d
´ π
d
+ ´ π

l
Z
p
l
Z

d
´ π
l
con ´ π
d
y ´ π
l
son los estimadores de OLS en la primera etapa.
De esta forma si tenemos el caso de que α → 1 o σ
η
2/σ
2
υ
→ ∞ se producirá que
γ → 0 y el estimador en sistemas permanece entregando información ya que en (197)
´ α
s
→ ´ α
p
l
y por tanto se soluciona el caso de instrumentos débiles al utilizar el estimador
de sistemas.
8.7. Analisis Multivariado
Hasta el momento nos hemos concentrado en un modelo donde como variable del
lado derecho sólo observamos la variable endógena rezagada. Como en la mayoría de
los trabajos empíricos esta variable rezagada puede ser importante en la estructura del
modelo como un mecanismo que da cuenta de los costos de ajuste, deberá existir la
posibilidad que orto conjunto de variables exógenas también sean importantes en la
explicación de la variable de interés.
De esta manera, el modelo que estamos interesados en esta sección es uno del sigu-
iente tipo :
y
it
= αy
it−1
+βx
it

it
, t = 2.....T (198)
donde µ
it
= η
i

it
y x
it
es un escalar. Asumiremos que x
it
está correlacionado con η
i
.
Por otra parte sabemos que x
it
puede estar correlacionado de tres maneras distintas
con υ
it
, lo que dará origen a diversas condiciones de momento.
En primer lugar asumiremos que x
it
es estrictamente exógeno, lo cual puede ser repre-
sentado de la siguiente manera :
E(x
is
υ
it
) = 0 con s = 1.....T, t = 1......T
177
El segundo caso que podemos tener es que x
it
sea predeterimanda o débilmente exógena
donde bajo esta situación :
E(x
is
υ
it
) = 0 con s = 1....t, t = 1...T
y
E(x
is
υ
it
) = 0 para s = t + 1, ...T
Finalmente x
it
puede estar determinado endógenamente en cuyo caso se tiene que :
E(x
is
υ
it
) = 0 s = 1, ....t −1, t = 1, ......T
y
E(x
is
υ
it
) = 0 s = t, ....T, t = 1, ......T
Con lo anterior tendremos distintas condiciones de momento para cada caso, en donde
las condiciones dadas por (171) se mantienen, pero para cada caso de x
it
tendremos
condiciones adicionales.
De esta forma, si x
it
es estrictamente exógena las condiciones de momento son las
siguientes :
E(x
is
∆υ
it
) = 0 s = 1......T, t = 3, ......T (199)
lo cual origina que existen T(T −2) condiciones de momento adicionales.
Por otra parte cuando tenemos el caso que x
it
es predeterminada tenemos que :
E(x
is
∆υ
it
) = 0 s = 1....., t −1 t = 3.....T (200)
en donde las condiciones de momento adicionales son 0,5(T −2)(t −1).
Por ultimo para el caso de x
it
endogena tenemos que :
E(x
is
∆υ
it
) = 0 s = 2....., t −1 t = 3.....T (201)
las condiciones disponibles son 0,5(T −2)(T −1).
De esta forma el estimador de sistemas se obtiene combinando las condiciones en
primeras diferencias y en niveles. Para ejemplificar esto asumamos que x
it
es endógeno,
de esta forma las condiciones en primera diferencias son las siguientes :
E(y
it−s
∆υ
it
) = 0
y
E(y
it−1

i

it
))
178
con t = 3...T y s = 2, ....., t −1.
Para el caso de x
it
tenemos que :
E(x
it−s
∆υ
it
) = 0
y
E(∆x
it−1

i

it
)) = 0
para t = 3...T y s = 2, ....., t −1.
8.8. El estudio de Kiviet
Durante el análisis que hemos realizado a lo largo de este capítulo se ha asumido de
que la dimensión temporal del panel es relativamente corta pero donde la dimensión en
términos de individuos es relativamente grande.
38
No obstante lo anterior, en la práctica podemos encontrar situaciones donde ningu-
na de las variables es relativamente grande y por lo tanto ninguno de los estimadores
anteriormente revisados entregaría resultados consistentes. Por ejemplo, en estudios de
convergencia en crecimiento económico rara vez la dimensión de T supera las 30 obser-
vaciones y N el valor de 50. O bien, en el caso chileno, un análisis comunal con datos
de la CASEN no permite un N superior a 240 por decir lo mucho.
Kiviet (1995) desarrolla una corrección al estimador WG el que como ya vimos, presenta
un sesgo sistemático el cual no desaparece conforme N crece. No obstante lo anterior,
cuando T crece este sesgo tiende a disminuir aunque no es muy claro en la literatura el
valor de T para el cual dicho sesgo desaparece.
El método lo que hace es restarle al estimador por LSDV del modelo original una
expresión que captura el sesgo cometido por este último. Cabe hacer notar que el sesgo
del estimador LSDV es función de los verdaderos parámetros del modelo. En conse-
cuencia éstos deberán ser estimados primeramente tarea que se realiza mediante una
estructura de IV sugerida por Anderson y Hsiao (1981).
8.8.1. Kiviet con mas detalle
39
Como se adelantó, el estimador de Kiviet el cual denominaremos LSDV
K
se ob-
tiene en dos etapas. En la primera etapa etapa usa un estimador por IV para estimar
los residuos de un estimador consistente y los coeficientes sesgados son obtenidos por
efectos fijos (LSDV). Luego en la segunda etapa se utilizan estos residuos para corregir
el sesgo del estimador por efectos fijos.
38
En efecto, los estimadores de GMM son consistentes asintóticamente para N → ∞ pero con T fijo.
39
Deseo agradecer a Jorge Hermann por aportar el material que se presenta en esta sección
179
Formalmente (198) puede ser re escrita de la siguiente forma :
y = Wϕ + (I
n
⊗i
T
)η +ε (202)
donde W = [Y
−1
.
.
.X] y ϕ

= (δ, β). El estimador de efectos fijos (LSDV) será:
ˆ ϕ = (W

AW
)
−1
W

Ay (203)
donde A
t
= I
t

1
T
i
T
i

T
y A = I
N
⊗A
T
.
Sin embargo, como se señalo anteriormente este estimador es sesgado por lo cual se
sugiere utilizar el estimador de Kiviet(1995). El sesgo será en consecuencia :
E( ˆ ϕ −ϕ) = E(W

AW)
−1
W

A[Wϕ + (I
n
⊗i
t
)η +ε] −ϕ
= E(W

AW)
−1
W


Aquí se asume que A(I
N
⊗i
T
) = (I
N
⊗Ai
T
) = 0, dado A
T
i
T
= 0. La expresión anterior
no es fácil de evaluar, ya que W es estocástico y no lineal.
En orden de aproximar esta expectativa se divide W en su parte estocástica
˜
W y no
estocástica
¯
W, es decir
¯
W = E(W) (204)
˜
W = W −E(W) (205)
W =
¯
W +
˜
W (206)
donde
¯
W = [
¯
Y
−1
.
.
.X] y
˜
W = [
˜
Y
−1
.
.
.0].
La descomposición de W puede ser usada para examinar AW = A(
¯
W +
˜
W). Kiviet
deriva la siguiente expresion para A
˜
W :
A
˜
W = (I
N
⊗A
T
C)εq

(207)
donde
C=

¸
¸
¸
¸
¸
¸
¸
¸
¸
0 · · · · · 0
1 0 ·
δ 1 0 ·
δ
2
δ 1 · ·
· · · · · ·
· · ·
δ
T−2
· · · δ 1 0
¸

q = (1, 0, ..., 0)

180
Kiviet utiliza estas expresiones para derivar el sesgo del estimador de LSDV de la
siguiiente forma :
E( ˆ ϕ −ϕ) = E((
¯
W +
˜
W)

A(
¯
W +
˜
W))
−1
(
¯
W +
˜
W)


E( ˆ ϕ −ϕ) = −σ
2
ε
(
¯
D)
−1
(g
1
+g
2
+g
3
) +O(N
−1
T
3
2
) (208)
donde :
¯
D =
¯
W

A
˜
W +σ
2
ε
Ntr[C

A
T
C]qq

g
1
=
N
T
(i

T
Ci
T
)[2q −
¯
W

A
¯
W(
¯
D)
−1
q]
g
2
= tr[
˜
W

(I
N
⊗A
T
CA
T
)
¯
W(
¯
D)
−1
]q
g
3
=
¯
W

(I
N
⊗A
T
CA
T
)
¯
W(
¯
D)
−1
q

2
ε
Nq

(
¯
D)
−1
q ×[−
N
T
(i

T
Ci
T
)tr(C

A
T
C) + 2tr(C

A
T
CA
T
C]q
Kiviet muestra que solo g
1
es necesario para calcular el sesgo del estimador LSDV.
En consecuencia, el estimador de LSDV
K
consiste en calcular g
1
usando los residuos
de IV para luego computar el sesgo el que luego se utiliza para ajustar los coeficientes
estimados por efectos fijos.
181
9. Métodos de Evaluación para Datos No-Experimentales
Objetivo: La medición del impacto de una reforma política o intervención sobre
un conjunto de variables (de predicción) bien definidas.
En general, los individuos pueden ser identificados por ciertas variables observ-
ables, -sexo, edad, educación, estado civil- y por tanto, el problema de la evaluación
es medir el impacto del programa en cada tipo de individuo.
Problema: El impacto del programa lo podemos estudiar sólo en quienes partic-
iparon y no podemos saber qué habría pasado con ellos si no hubieran participado.
La construcción de los contrafactuales es el aspecto central en los métodos de evaluación.
La construcción de los contrafactuales ha sido realizada bajo 5 procesos distintos, pero
relacionados:
1. Experimento Social Aleatorio (puro).
Se relaciona un grupo de potenciales participantes homogéneos y se deja fuera
una submuestra, aleatoriamente determinada. Administrándose el programa al
grupo restante y comprando sus perfomances relativas.
Problemas de este método:
- Muy caros raros en la práctica.
- Se necesita un grupo de control que no está afecto, bajo ninguna forma,
por las reformas (programas). No existe spillovers , institución, efectos
sobre salario de mercado, etc.
2. Experimentos Naturales.
Considera la reforma (programa) como un experimento y tratando de encontrar
un grupo comparable en forma natural. Denotado generalmente como Diferencias-
en-diferencias ya que compara la diferencia en la conducta promedio después y
antes de la reforma para el grupo elegido contrastándola con aquella conducta
promedio -antes y después- del grupo de comparación.
Recupera así, el efecto promedio del programa sobre aquellos individuos que par-
ticiparon (o fueron "tratados") capturando el efecto: "The effect of Treatment
on the Treated". Lo anterior , al remover efectos individuales no observables y
factores macro comunes.
Problemas:
- Asume que existen efectos temporales comunes entre los grupos.
182
- No existen cambios de composición al interior del grupo.
- Así, escoger el grupo de control es muy complejo.
(ya lo veremos)
3. Métodos de Matching (calce).
Persigue seleccionar factores observables suficientes como para que dos individuos
con los mismos valores para estos factores no presenten diferencias sistemáticas
en sus reacciones a las reformas. Así, el impacto del programa puede ser aislado al
comparar dos individuos similares (clones); uno que participó y uno que no lo hizo:
Problema:
- La escogencia de las variables que serán utilizadas para definir el clon.
- Si las variables son las equivocadas, el efecto contrafactual estará incorrec-
tamente medido y así el impacto del programa.
4. Modelo de Selección.
Basado en el principio de exclusión en que una variable es necesaria para de-
terminar la participación en el programa pero no en el resultado del programa. A
diferencia del matching, el cual puede ser considerado como una selección sobre
observables, este approach (de Heckman) considera la selección basada en no-
observables.
5. Modelos de Simulación Estructural.
Usualmente utilizados para las evaluaciones de reformas impositivas, se modela
mediante un marco de elección racional el cual separa las preferencias de las re-
stricciones y por lo tanto, puede ser utilizado para simular reformas económicas
que modifican las restricciones pero que dejan las preferencias inalteradas.
9.1. Criterios para escoger una forma u otra
1. Naturaleza del programa: local-nacional, escala pequeña o global.
2. Naturaleza de la pregunta que se desea responder -impacto general, efecto del
tratamiento sobre los tratados, extrapolación u otras reformas, etc.
3. Naturaleza de los datos disponibles.
183
9.2. Qué se desea medir?
1. El impacto del programa sobre individuos con características particulares como
si fueran asignados aleatoriamente al programa de una población de todos los
individuos con otras características.
2. El impacto sobre de ciertas características entre todos que fueron asignados al
programa.
Bajo el supuesto de efecto del tratamiento homogéneo estas dos medidas son idénticas.
Pero si los efectos son heterogéneos ambas medidas pueden diferir, en particular, 2. se
conoce como "efecto del tratamiento sobre los tratados".
9.2.1. Efectos Homogéneos del Tratamiento
Y
it
= X
it
β +d
i
α +µ
it
t > k
Y
it
= X
it
β +µ
it
t ≤ k
E(µ
it
) = 0 E(µ
it
, X
it
) = 0
d
i
=1 si individuo i participó en el programa (el cual ocurrió en t=k).
α: mide el impacto homogéneo del tratamiento sobre individuo i.
Con la excepción del caso de datos experimentales, la asignación al programa no es
aleatorio.
⇒ E(d
i
, µ
it
) = 0
pues, puede ser que la decisión de participar, o el ser seleccionado depende de ciertas
características de los individuos.
Separación de la decisión de participar.
N
i
= Z
i
· γ +ν
i
donde N: índice de participación (VAN, etc).
con d
i
=1 si N
i
=0.
d
i
=0 otro caso
184
9.2.2. Efectos de Tratamiento Heterogéneos
Aquí el impacto del programa varía entre individuos. También dichos efectos difer-
enciados pueden influenciar el proceso de decisión (es decir, correlación con indicador
d
i
).
Sustituyendo de otros regresores X,
Y
it
= β +d
i
α
i

it
t > k
α
i
: impacto del tratamiento en individuo i.
Si α: impacto promedio sobre la población.
ε
i
: desviación del individuo i en la media población.
α
T
: impacto promedio del tratamiento sobre los tratados.
α
i
= α +ε
i
α
T
= α +E(ε
i
|d
i
= 1)
donde E(ε
i
|d
i
= 1) desviación media del impacto entre los participantes. Así el impacto:
Y
it
= β +d
i
· α + [µ
it
+d
i
· ε
i
]
= β +d
i
· α + [µ
it
+d
i

i
−α)]
Aquí, el problema adicional que surge como consecuencia de la participación heterogénea
es la forma del término de error. µ
it
+ d
i

i
− α), el cual cambia de acuerdo a si fue
tratado o no.
La identificación de α es mas difícil en el caso de correlación con el indicador de
tratamiento (participación). Notar que si E(ε
i
· d
i
)= o tendríamos que E(ε
i
|d
i
)= 0 y así:
E(Y
it
|d
i
) = β +d
i
[α +E(ε
i
|d
i
)] +E(µ
it
|d
i
)
En este caso, OLS identifica:
E(ˆ α) = α +E(ε
i
|d
i
= 1) +E(µ
it
|d
i
= 1) −E(µ
it
|d
i
= 0)
Así, aún si µ
it
no está correlacionado con d
i
, de tal modo que E(µ
it
|d
i
= 1)=E(µ
it
|d
i
=
0)=0 sigue existiendo el problema de identificación.
Solo es posible identificar: α
T
= α + E(ε
i
|d
i
= 1), es decir, el impacto del tratamiento
sobre los tratados.
Ello pues separar de que el término de error µ no este correlacionado con el proceso de
decisión el componente del efecto del programa específico al individuo ε
i
, probablemente
lo esté. En general, se espera que los individuos considera sus condiciones específicas en
su decisión y en consecuencia E(ε
i
|d
i
= 1)=0 y por lo tanto, la identificación de α se
hace mas dificultosa.
185
9.3. Datos Experimentales
Si el diseño del programa escoge aleatoriamente una muestra del grupo de personajes
elegibles para participar donde la elección es absolutamente es independiente del posible
resultado, entonces
ˆ α = Y
1
t
−ς
0
t
t > k
donde Y
(1)
t
y ς
(0)
t
son los resultados medios en los tratados y no tratados en el tiempo
t después del programa.
Pero:
- si existen dropouts (non random)
- si se le ofrece otros programas a los no-seleccionados
- si el experimento en si altera la conducta de los tratados/no tratados.
Entonces
- consistencia de ˆ α es invalidada.
9.4. Non-experimental data
Aún si el diseño del grupo de control obedece a criterios o reglas de comparación
basada en información observable, lo cual es ya difícil, no podemos garantizar diferencias
en no-observables.
Este es el típico problema de selección.
E(ˆ α) = α + [E(µ
it
|d
i
= 1) −E(µ
it
|d
i
= 0)]
En el caso en que E(µ
it
|d
i
)= 0, si vemos que los términos anteriores se cancelan, esta
esperanza será diferente de α. Así, estimadores alternativos serán necesarios: IV, selec-
ción, diff-in-diff, matching.
Ejemplo ilustrativo: Estudio de LaLonde (1986), ver tablas:
Comparison of Treatments and Controls:
Characteristics for the NSWD Males
Treatments Controls
Age 24.49 23.99
Years of school 10.17 10.17
Proportional high-school drop-outs 0.79 0.80
Proportional married 0.14 0.13
Proportional black 0.76 0.75
Proportional Hispanic 0.12 0.14
Real earnings one year before treatment
a
1,472 1,558
Real earnings two year before treatment
a
2,860 3,030
Hours worked one year before treatment 278 274
Hours worked two year before treatment 458 469
Number of observation 2,083 2,193
a: Annual earnings in US dollars.
186
Annual Earnings of Male Treatments and Controls
Treatments Controls
1975 3,066 3,027
1976 4,035 2,121
1977 6,335 3,403
1978 5,976 5,090
Number of observation 297 425
Estimated Treatment Effects for the NSWD Male Participants
using the Control Group and Comparison Groups from
the PSID and the CPS-SSA.
Comparison Unadjusted Adjusted Unadjusted Adjusted Two-step
Group difference of difference of difference-in- difference-in- estimator
mean post- mean post- differences differences
programme programme
earnings earnings
Controls 886 798 847 856 889
PSID 1 -15,578 -8,067 425 -749 -667
PSID 2 -4,020 -3,482 484 -650 -
PSID 3 697 -509 242 -1,325 -
CPS-SSA 1 -8,870 -4,416 1,714 195 213
CPS-SSA 2 -4,095 -1,675 226 -488 -
CPS-SSA 3 -1,300 224 -1,637 -1,388 -
Definitions:
PSID 1 -all male household heads continuously in the period studied (1975-78) who were less than 55
years old and did not classify themselves as retired in 1975.
PSID 2 -all men in PSID 1 not working when surveyed in the spring of 1976.
PSID 3 -all men in PSID 1 not working when surveyed in either the spring of 1975 or the spring of
1960.
CPS-SSA 1 -all males based on Westat’s criterion except those over 55 years old.
CPS-SSA 2 -all males in CPS-SSA 1 who were not working when surveyed in March 1976.
CPS-SSA 3 -all males in CPS-SSA 1 who were unemployed in 1976 and whose income in 1975 was
below the poverty level.
187
Revisión principales métodos para datos no-experimentales.
La metodología apropiada para trabajar la evaluación de programas con datos no-
experimentales depende de tres puntos:
1. tipo de información disponible
2. modelo subyacente
3. parámetros de interés
para single
cross-section
IV
Heckman
two-step
Longitudinal o
repeated cross
section
difference-in-difference
matching
propensity
scores /
matching / dif
Veamos cada uno de ellos.
9.4.1. Datos de corte transversal
Recordemos el modelo original (caso impacto homogéneo)
Y
it
= X
it
· β +d
i
· α +µ
it
t > k
N
i
= Z
i
· γ +ν
i
con
d
i
=

1 si N
i
> 0;
0 otro caso
1. Método por variables instrumentales (IV).
Requiere la existencia de al menos un regresor exclusivo para la regla de decisión
con Z

satisfaciendo los siguientas requerimientos
- Z

determine la participación en el programa:
-tiene un coeficiente no-cero en la regla de decisión
- podemos encontrar una transformación g tal que g(Z

) sea no-correlacionado
con el error µ dadas las variables exógenas X.
188
- Z

no esté completamente determinado por X.
Así la(s) variable(s) Z

son los instrumentos que entregan la variación exógena
que aproximan el diseño aleatorio.
Entonces en la regresión por IV, el indicador de tratamiento es reemplazado por
g(Z

) o bien, alternativamente, se usa tanto X como Z

para predecir d, creando
una nueva variable
ˆ
d la que se incorpora a la regresión en vez de d.
Problemas de esta metodología:
- A pesar de su simpleza, la escogencia de los instrumentos no es fácil, particular-
mente para que cumplan con los 3 requerimientos planteados. Una solución
es considerar valores rezagados de las variables determinantes.
- En el caso de impacto heterogéneo a pesar de que Z

i
puede no estar correla-
cionado con µ
it
, si
µ
it
+d
i
· ε
i
= µ
it
+d
i

i
−α)
dado que Z

i
determina d
i
por definición, entonces el error estará correlaciona-
do con Z
i
y por tanto IV no es aplicable en el caso de impacto homogéneo.
2. Método de selección de Heckman.
Para el caso de impacto homogéneo, este método es análogo a un Tobit general-
izado (tipo II) donde
E(Y
it
|d
i
= 1) = β · X
i
+α +ρ ·
φ(Z
i
· γ)
Φ(Z
i
· γ)
y
E(Y
it
|d
i
= 0) = β · X
i
−ρ ·
φ(Z
i
· γ)
1 −Φ(Z
i
· γ)
con las mismas salvedades descritas para el Tobit en que Z y X deben tener al
menos una variable diferente y ˆ γ puede ser estimado regresionando N = Z
i
γ por
Probit.
Ahora, cuando existen efectos de tratamiento heterogéneos, el modelamiento es
un poco más complejo. Considerando que α
T
= ˆ α +E(ε
i
|d
i
= 1), entonces
Y
it
= β · X
i
+d
i
· α + [µ
it
+d
i
· ε
i
]
puede ser reescrito
Y
it
= β · X
i

T
· d
i
+{µ
it
+d
i
· [ε
i
−E(ε
i
|d
i
= 1)]}
Y
it
= β · X
i

T
· d
i

it
189
El procedimiento en dos etapas requiere el conocimiento de la distribución con-
junta de µ
it
, ν
i
y ε
i
. Si esta es normal con σ
v
= 1, entonces
E(ξ
it
|d
i
= 1) = corr(µ
it

i
, ν
i
) · V ar(µ
it

i
)
1/2
·
φ(Z
i
· γ)
Φ(Z
i
· γ)
= ρ
(µ,ν,ε)
·
−φ(Z
i
· γ)
Φ(Z
i
· γ)
análogamente
E(ξ
it
|d
i
= 0) = corr(µ
it
, ν
i
) · V ar(µ
it
)
1/2
·
−φ(Z
i
· γ)
1 −Φ(Z
i
· γ)
= ρ
(µ,ν)
·
−φ(Z
i
· γ)
1 −Φ(Z
i
· γ)
y así, la regresión queda:
Y
it
= β · X
i
+d
i
¸
α
T

(µ,ν,ε)
φ(Z
i
· γ)
Φ(Z
i
· γ)

+ (1 −d
i
) · ρ
(µ,ν)
·
−φ(Z
i
· γ)
1 −Φ(Z
i
· γ)

it
pudiendo identificarse α
T
pero no α.
9.4.2. Matching Estimators.
Estos evalúan los efectos del tratamiento al comparar los outcomes de las personas
tratadas con aquellos de personas similares en un grupo de control o comparación.
Esta similitud se determina si tienen características observables similares las que son
medidas por alguna medida de distancia métrica.
Notación.
Y
1
= outcome de los tratados.
Y
0
= outcome de los no-tratados.
D=1 si la persona recibe tratamiento (D=0 si no).
X: vector de características utilizadas como variables de condicionamiento.
P(X)= Pr(D=1|X).
Como vimos existen dos tipos de estimadores de pareo (ME):
ì) Cross-sectional (CS): el que compara los outcomes para los tratados y el grupo de
comparación medidos en algún período después del programa.
ii) difference-in-difference (DID): el que compara el cambio en el outcome de los
tratados con aquellos no tratados, donde el cambio es medido relativo a un perío-
do base previo al programa.
190
La principal ventaja de DID sobre CS es que considera las diferencias no observables-
contantes en el tiempo-en los tratados y no tratados.
Adicionalmente a los dos estimadores vistos en la clase anterior, aquí veremos tres
a) nearest neighbor cross-sectional matching estimator
b) nearest neighbor DID matching estimator
c) kernel and local linear versions de los dos anteriores
(existe también el regression adjusted matching explicado en Heckman, Ichimura, Todd
(97,98)).
Supuestos para la identificación de los diferentes estimadores.
Como habríamos dicho en la clase anterior, un parámetro de interés clave es el impacto
promedio del programa sobre los tratados. Este puede ser definido condicional en
algunas características X con:

D=1
(X) = E(Y
1
−Y
0
|x, D = 1)
o bien un parámetro promedio puede ser definido sobre un soporte (región) de X, S
x
:

D=1
=

S
x
E(Y
1
−Y
o
|X, D = 1) · f
x
(X|D = 1) · dX

S
x
f
x
(X|D = 1) · dX
donde f
x
(X|D=1) es la densidad de X.
Todos los estimadores que veremos tratan de estimar el impacto medio del tratamiento
en los tratados ∆
D=1
.
a) Cross Sectional
Supuestos:
(CS.1) E(Y
0
|P(X),D=1)=E(Y
0
|P(X),D=0).
(CS.2) 0 < Pr(D = 1|X) < 1.
Así
ˆ

CS
D=1
=
1
n
1
·
n
1
¸
i=1
{D
i
=1}
Y
1i
(X
i
) −
´
E(y
0i
|P(X
i
), D
i
= 0)
Con n
1
el número de individuos tratados con valores de X que satisfacen CS.1.
´
E(Y
0i
|P(X
i
), D
i
= 0) puede ser estimado en forma no paramétrica por nearest
neighbor, kernel o local linear regression (los que ya veremos):
191
b) Difference-in-difference (DID) Matching Estimators.
Para su implementación se necesita datos cross-sectional repetidos o datos longi-
tudinales tanto para participantes como no participantes. Sea t y t’ dos períodos
en el tiempo uno antes del comienzo del programa y otro después del término
de este. Y
0t
es el outcome observado en t. Las condiciones que se necesitan para
implementar de estos estimadores son:
(DID.1) E(Y
0t
−Y
ot
|P(X), D = 1) = E(Y
ot
−Y
0t
|P(X), D = 0).
(DID.2) 0 < Pr(D = 1|X) < 1.
Así
´

DID
D=1
=
1
n
1t
n
1t
¸
i=1
{D
i
=1}
{Y
1t
i
(X
i
) −
ˆ
E(Y
0t
i
|P(X
i
), D
i
= 0)}

1
n
1t

n
1t

¸
j=1
{D
j
=1}
{Y
0t

j
(X
j
) −
ˆ
E(Y
0t

j
|P(x
j
), D
j
= 0)}
Implementación
Paso 1: Estimar el modelo de participación en el programa.
También denominado "propensity score"es una manera de reducir la dimensión
del problema de condicionamiento en el matching. Esto es, se reduce el problema
del matching a un problema unidimensional no-paramétrico al estimar E(Y
0
|D =
0, P(X)) en vez del problema de dimensión k E(Y
0
|D = 0, X).
La estimación de los PS requiere escoger un conjunto de variables condicionantes
X. Donde es fundamental de que los X no están influenciados por el programa.
Sino los estimadores por matching no medirán correctamente el efecto del progra-
ma pues no capturarán cambios en la distribución de las variables X medidas por
el programa.
Por esta razón, las variables X estarán relacionadas con las características individ-
uales de las personas (firmas, hogares) antes de entrar al programa. En Heckman,
Ichimura y Todd (99) la historia de empleo en el año anterior al programa de en-
trenamiento es un predictor fundamental en la participación. En general, entre
mas variables se consideran en X mejor y no considerar variables muy generales
como son característica demográficas.
Qué pasa si los datos (del grupo de control) no son aleatoriamente determinados?
Por ejemplo, puede suceder que los individuos del grupo de control estén sobre o
subrepresentados en relación con su frecuencia en una población aleatoria.
Amenija (1985) sugiere que se debe considerar el log [
ˆ
P(X
i
)|1 −
ˆ
P(X
i
)] en vez de
los propensity scores estimados.
192
Paso 2: Construir los matching outcomes.
Ello requiere estimar E(Y
0i
|P(X
i
), D
i
= 0) en el caso de CS y E(Y
0t
i
|P(X
i
), D
i
=
0) y también E(Y
0t

i
|P(X
i
), D
i
= 0) para el estimador DID.
Existen variadas formas para estimar estas medias condicionales. En general, co-
mo es demostrado en Heckman, Ichimura y Todd (97):
Loss estimadores de las medias condicionales pueden expresarse como promedio
ponderado de los outcomes observados para aquellos con D
i
= 0.
Así
(CS)
ˆ
E(Y
0i
|P(X
i
), D
i
= 0) =
n
0
¸
j=1
{D
j
=0}

j
(P(X
i
))] · Y
0j
que en el caso de kernel, los puros ω
j
vienen dado por
ω
j
(P(X
I
)) =
K

ˆ
P(X
i
)−
ˆ
P(X
j
)
h
n

n
o
¸
K=1
{D
K
=0}
K

ˆ p(X
i
) − ˆ p(X
k
)
h
n

con K la función kernel y h
n
bandwidth. En forma particular,
a) Estimadores "simple average nearest neighbor"
Para implementar este estimador se necesita primero determinar cuantos
vecinos serán utilizados (p.e. Z).
Para ello
i) determine |P(X
i
) − P(X
j
)| para cada observación tratada i y todos los
miembros del grupo de comparación j.
ii) ordene las j observaciones en términos de |P(X
i
) − P(X
j
)| de menor a
mayor.
iii) Sea A
x
un índice del conjunto de Z observaciones con los menores valores
de |P(X
i
) −P(X
j
)|. Estos son los vecinos mas cercanos.
iv construya los matched outcomes como un promedio simple sobre los out-
comes de los vecinos mas cercanos.
ˆ
E(Y
0i
|P(X
0
), D
i
= 0) =
1
Z
·
Z
¸
j=1
Y
oj
{D
j
∈ A
Z
}
193
b) Kernel regression matching estimator.
El estimador anterior o bien asigna un peso de
1
Z
o 0 a las observaciones del
grupo de control. Así, si Z=5 entonces el segundo o tercer vecino mas cercano
reciben el mismo peso en la estimación del valor esperado condicional.
Un Kernel regression escoge el peso de tal forma de que la observación mas
cercana en términos de |P(X
i
) −P(X
j
)| recibe mayor peso.
Una forma de Kernel es la bi-weight Kernel:
K(s) =

15
16
· (s
2
−1) para |s| < 1
0 otro caso
conde, en general, los Kernels escogidos deben cumplir con la condición de
que

K(s)ds = 1 y

K(s)sds = 0.
Aquí el ancho h
n
es análogo al problema de escoger el número Z en el caso
anterior. Los pesos a las observaciones D
j
= 0 dependerán de los valores de
K

P(X
i
)−P(X
j
)
h
n

.
En términos prácticos una forma de definir a h
n
es h
n
= |P(X
i
) − P(X
j
)|
para el z-ésimo vecino cercano. Así, el h
n
variará dependiendo de la cantidad
de datos (vecinos) que tenga cada punto de P(X
i
) (o en cada i ∈ {D
i
= 1})
otra forma es escoger un h
n
∈ [0,2,0,4].
c) Local Linear Regression Estimator (LLR).
De nuevo, la diferencia solo yace en los pesos donde en el caso de LLR, éstos
vienen determinados por:
ω
j
(P(X
i
)) =
K
ij
¸
n
0
K=1
K
iK
(P
K
−P
i
)
2
−[K
ij
(P
j
−P
i
)][
¸
n
0
K=1
K
iK
(P
k
−P
i
)]
¸
n
0
j=1
K
ij
¸
n
o
K=1
K
iK
(P
k
−P
i
)
2
−[
¸
n
0
j=1
K
ij
(P
j
−P
i
)]
2
donde K
iK
= K

P(X
I
)−P(X
j
)
h
n

también se puede demostrar (Fan (1992,1993)) de que el LLR estimator de E(Y
0
i|P(X
i
), D
i
=
0) puede ser visto como la solución hata al problema siguiente de regresión pon-
derada:
m´ın
a,b
n
0
¸
j=1
{D
j
=0}
(Y
0j
−a −b · (P(X
j
) −P(X
i
)))
2
· K

P(X
i
) −P(X
j
)
h
n

Así, para cada valor P(X
i
) requiere por WLS Y
0j
sobre una constante y P(X
j
) −
P(X
i
) usado las personas con D
j
= 0 y así el intercepto estimado será un esti-
mador de E(Y
0i
|P(X
i
), D
i
= 0).
Qué pasa si no hay matches cercanos?
194
Los estimadores no paramétricos de E(Y
0i
|P(X
i
), D
i
= 0) esta definido solamente
en los puntos de la densidad f(P(X
i
)|D = 0) > 0. Esto significa que deberían
existir valores de P(X
j
) para el grupo de D
j
= 0 en la vecindad de los puntos de
evaluación P(X
i
).
Así, observaciones D
i
= 1 que no tengan un P(X
J
) cercano a P(X
i
) deben ser
excluidas de la estimación.
En general, deberíamos considerar el support para P(X) donde tanto f
x
(P(X)|D =
1) > 0 como también f
x
(P(X)|D = 0) o sea la región de overlapping support.
Una forma de determinar este soporte común es al dibujar el histograma de P(X
i
)
tanto para los tratados como los de control e identificar visualmente los rangos
donde no hay matches cercanos.
Una forma mas rigurosa de determinar esta región de soporte común es calcular
la densidad F(P(X
i
)|D = 0) en cada punto de los P(X
i
) para las observaciones
D
i
= 1 madiante estimadores de densidad no-paramétrica. Por ejemplo:
ˆ
f(P(X
i
)|D
i
= 0) =
n
0
¸
K=1
{D
K
=0}
K

P(x
i
) −P(x
K
)
h
n

Una vez que los estimadores de las densidades en cada punto son obtenidos se
debe ordenar los estimadores de densidad. Así, todos los valores de P(X
i
) para
los cuales las densidades estimadas exceden el limite de 1 o 2 % cuantil son con-
sideradas dentro de la región de soporte común. Aquellos por debajo deben ser
excluidos de la estimación.
(Ahora si la región de traslape es muy pequeña es muy pequeña, entonces se deben
recalcular los P(X) al considerar otros X).
Descomposición del sesgo.
Sesgo =: E(Y
1
|X, D
i
=!) −E(Y
0
|X, D
i
= 0) = B
1
+B
2
+B
3
B
1
sesgo por non-overlapping support de X
B
2
error en la ponderación incorrecta en el canon support de X pues las distribu-
ciones de los tratados y no tratados no son exactamente iguales aún en el
soporte común.
B
3
sesgo de selección verdadera (econométrico) resultante de la "selección en no
observables"
DID matching con canon support corrigen por los primeros dos y el tercero, se
asume que es cero.
En general, DID con common support es la forma adecuada, en la medida de
lo posible, de aislar el efecto del tratamiento promedio en los tratados.
195

Capitulo 4: Tópicos Especiales con Variable Dependiente Binaria 4.1 Análisis Discriminante 4.2 Datos de Panel con Variable Discreta Binaria Capítulo 5: Variable Dependiente Limitada 5.1 5.2 5.3 5.4 5.5 Introducción Algunas Propiedades de la distribución Normal Truncamiento Datos Censurados Modelos para Sesgo de Selección ———— ———— ———— ———— ———— ———— ————

91 91 94 99 99 99 100 105 119 135 ———— ———— ———— ———— ———— ———— ———— 135 136 137 139 141 142 146 150 ———— ———— ———— ———— ———— 150 154 155 161 164 165 ———— ———— ———— ———— ———— ———— ———— ———— 165 165 168 171 173 176 177 179

Capítulo 6: Modelos de Duración 6.1 6.2 6.3 6.4 6.5 6.6 6.7 Datos de Duración Discreta Datos de Duración Continua Estimación No Paramétrica de la Distribución Modelos Paramétricos Estimación Impacto de Factores Explicativos Heterogeneidad Omitida y Modelos Mixtos

Capítulo 7: Datos de Panel 7.1 7.2 7.3 7.4 7.5 Introducción Un Modelo Lineal General para Datos de Panel One Way Error Component Model Two Way Error Component Model Extensiones

Capítulo 8: Datos de Panel Dinámicos 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 Introducción El estimador de OLS, WG y IV Usando GMM en la Estimación de Paneles Dinámicos Algunos Test de Especificación El caso de Instrumentos Débiles GMM de Sistemas Análisis Multivariado El estudio de Kiviet

Capítulo 9: Métodos de Evaluación para Datos No Experimentales 9.1 9.2 9.3 9.4 Criterios para escoger una forma u otra ¿Qué se desea medir? Datos Experimentales Datos No Experimentales ———— ———— ————

182 183 186 186

∗ 0 si yi ≤ 0 P [yi = 1]=P [xi β + εi > 0] = F (xi β) 4 . Lo que haremos será analizar cada uno de estos casos dentro del marco general de los modelos de probabilidad. Aparentemente. 2 . En lo que sigue nos concentraremos en las diversas formas de estimar un modelo de elección binaria para luego continuar con casos de elección múltiples. en el caso de la participación de mercado..1. Modelos de Elección Discreta En muchos contextos. en ninguno de estos casos parece posible. un 0 puede significar “no participar” y un 1 puede significar “si participar”. Supuesto básico: latent variable threshold model ∗ yi = xi β + εi con: yi = Luego. ∗ 1 si yi > 0. como el caso de la elección del auto o bien ordenados como el caso de las patentes... Pero en la mayoría de los casos los valores que toma la variable dependiente no son mas que códigos utilizados para representar un resultado cualitativo.En ocasiones estos valores tendrán significado en si mismo como el numeros de patentes a los que denominaremos datos de recuento. binomial y multinomial. Resulta conveniente agrupar los modelos posibles en dos grandes clases. todos los modelos que estudiaremos en este contexto tienen en común que en ellos la variable dependiente toma los valores 0. tipo de auto escogido por el consumidor entre vario modelos posibles. Si bien el segundo tipo es una extensión del primero. en todos ellos es posible construir modelos que enlazan la decisión o resultado con un conjunto de factores bajo la misma filosofía que en el modelo de regresión. dependiendo de si el resultado es la elección entre dos alternativas o entre más. Si embargo. se pueden distinguir en estos últimos situaciones donde los resultados son no ordenados. Por ejemplo. el fenómeno que se quiere modelar no es continuo sino discreto.la decisión de participar en el mercado del trabajo. en principio. Así por ejemplo. opinión sobre un tipo de legislación. utilizar el análisis de regresión clásico. 1. En general.

donde f es la densidad correspondiente a F.Modelos Alternativos para F(·): Probit: 1 Φ(z) = √ · 2π Logit: Λ(z) = 1 1 + e−z z −∞ exp(−u2 /2)du 1.1. el estimador ML β es aquel que resuelve las ecuaciones de verosimilitud: n i=1 yi − Fi · fi · xi = 0 Fi (1 − Fi ) 5 . Estimación por Máxima Verosimilitud n L= i=1 F (xi β)yi [1 − F (xi β)]1−yi Tomando logaritmo a la expresión anterior: n logL = i=1 yi · logF (xi β) + (1 − yi ) · log[1 − F (xi β)] Maximizando con respecto a beta obtenemos la función "score": ∂logL = ∂β n i=1 yi · fi (1 − yi ) · fi − Fi 1 − Fi escalar · xi vector con Fi = F (xi β) y fi = f (xi β). Entonces: ∂logL = ∂β n i=1 yi − Fi · fi · xi Fi (1 − Fi ) y así.

La matriz de segundas derivadas (Hessiano) es la siguiente: (permite ver la velocidad con que se acerca al máximo) H= ∂ 2 logL =− ∂β∂β n n (yi − Λi ) · xi i=1 Λi (1 − Λi ) ·xi xi i=1 escalar Demostración: ∂logL ∂β n = i=1 n yi − Fi · fi · xi Fi (1 − Fi ) yi − Λi · Λi (1 − Λi ) · xi Λi (1 − Λi ) (yi − Λi ) · xi = i=1 n = ∂ 2 logL ∂β∂β i=1 n = i=1 −xi n ∂Λi ∂β = − i=1 Λi (1 − Λi ) · xi xi 6 .(1) Modelo Logit: Si se tiene que en el modelo logit: Λ(z) = 1 1 + e−z entonces al derivar se puede obtener la siguiente expresión : f (z) = Λ(z)[1 − Λ(z)] Demostración : F (z) = Λ(z) = (1 + e−z )−1 dΛ(z) = −1(1 + e−1 )−2 (−1 · e−z ) = Λ(z)[1 − Λ(z)] dz Y en consecuencia las ecuaciones de verosimilitud son: ∂logL = ∂β donde Λi = Λ(xi β).

La esperanza de H es ella misma y no depende de y.La que es definida negativa para todos los β. asumiendo que los x’s no son perfectamente colineales ( si lo fueran H no es invertible. por lo tanto la matriz de información muestral es: n Jn(β) = i=1 Λi (1 − Λi ) · xi xi (2) Modelo Probit (Normit): ∂logL = ∂β n i=1 yi − Φi · φi · xi = 0 Φi (1 − Φi ) donde Φi = Φ(xi β)). Medidas condicionales del término de error en un modelo de variable latente E(εi |yi = 1) = E(εi |xi β + εi > 0) = y por otra parte: E(εi |yi = 0) = E(εi |xi β + εi = −φ(xi β) 1 − Φ(xi β) 0) φ(xi β) Φ(xi β) 7 . la log-likelihood es globalmente cóncava.2. φi = φ(xi ) con φ la densidad de la normal standard. También se puede escribir como: ∂logL = ∂β −φi · xi + 1 − Φi φi · xi Φi yi =0 yi =1 1. Así. explota).

1) densidad: 1 φ(z) = √ · exp(−1/2z 2 ) 2π Medias Condicionales: E(z|z < k) = = = = 1 · P (z < k) 1 · Φ(k) k k z · φ(z)dz −∞ 1 z · √ · exp(−1/2z 2 )dz 2π −∞ k −∞ 1 1 − √ · exp(−1/2z 2 ) Φ(k) 2π φ(k) Φ(k) 8 .1): Figura 1 Distribución Normal(0.Si z N(0.

se pueden escribir de la siguiente forma: n E(εi |yi ) · xi = 0 i=1 condición de ortogonalidad La matriz Hessiana correspondiente es la siguiente: ∂ 2 logL = ∂β∂β −φi [φi − xi β(1 − Φi )] · xi xi + (1 − Φi )2 −φi [φi + xi βΦi ] · xi xi Φ2 i y =1 i yi =0 Dadas las expresiones para las medias condicionales. Propiedades Asintóticas del estimador ML para los modelos Logit y Probit Bajo “condiciones de regularidad generales”. el estimador ML es consistente y asintóticamente normal con una matriz de varianzas y covarianzas dada por el inverso de la matriz de información. en el caso de un modelo Probit. Tomando esperanzas. la log-likelihood es globalmente cóncava. los valores entre paréntesis cuadrados son positivos y entonces la matriz Hessiana correspondiente es negativa definida. las ecuaciones de verosimilitud. 9 . la matriz de información muestral para el modelo Probit es la siguiente: n Jn(β) = i=1 φ2 i · xi xi Φi (1 − Φi ) 1. es decir. Esta inversa es la cota inferior de Cramer-Rao y entonces.3.De la misma manera: E(z|z > k) = = = = 1 · 1 − Φ(k) 1 · 1 − Φ(k) +∞ z · φ(z)dz k +∞ k 1 z · √ · exp(−1/2z 2 )dz 2π +∞ k 1 1 − √ · exp(−1/2z 2 ) 1 − Φ(k) 2π φ(k) 1 − Φ(k) Así. el estimador ML es también asintóticamente eficiente.

La varianza del vector Score: Para ambos modelos el Score tiene la siguiente forma: ∂logL = ∂β n i=1 yi − Fi · fi · xi Fi (1 − Fi ) Donde Fi = F (xi β) y fi = f (xi β). la varianza viene dada por: ∂logL ∂β ∂logL ∂β n E = E i=1 n yi − Fi Fi (1 − Fi ) 2 · fi2 · xi xi = i=1 fi2 · xi xi Fi (1 − Fi ) Dado que la Var(yi )=Fi (1 − Fi ). Así. Demostración: 2 V ar(yi ) = E(yi − Fi )2 = E(yi − 2Fi yi + Fi2 ) Dado que: E(yi ) = Fi V ar(yi ) = E(yi ) − Fi2 = Fi (1 − Fi ) Notar que esta última expresión es la misma que la matriz de información muestral derivada para cada uno de los modelos anteriores.5(β − β) (β − β) ∂β β ∂β∂β β =0 <0 logL(β) < logL(β) 10 . Nota : Máximo Global: Aproximación de Taylor de logL(β) alrededor de βM LE logL(β) = logL(β) + ∂logL ∂ 2 logL (β − β) + 0.

si g es regular de primer orden. θ) =0 g(y. Si θ es un vector las condiciones anteriores deben cumplirse para todas las derivadas con respecto a cada uno de los elementos de θ. +∞ g(y. entonces: +∞ g (y. d dθ g(y.1. El logaritmo de la función de verosimilitud viene dado por: n logL = i=1 log(g(yi . θ)dy dθ La densidad es Regular de segundo orden si lo mismo se cumple para la segunda derivada. Algunas Propiedades de las densidades regulares y verosimilitudes Considere una muestra aleatoria obtenida de una función de densidad g(y:θ). θ)dy = 1 −∞ Así. la que depende del parámetro θ (extendible al caso de un vector). θ)dy = y y d g(y. E ∂log(g(y. θ) E es decir. θ)dy = 0 −∞ y entonces: g (y. la integral de la derivada es igual a la derivada de la integral).4. θ)) La densidad g es Regular de primer orden si la diferenciación con respecto a θ y la integración sobre y puede ser llevada a cabo en ambos sentidos con un mismo resultado. Propiedades: 1. θ)) =0 ∂θ 11 . (es decir.

entonces: +∞ 2 g (y. θ)) ∂θ 2 n =E i=1 ∂log(g(yi . θ) · dy = 0 −∞ es decir. g (y. θ)) =0 ∂θ 12 E . θ) g (y. θ)) ∂θ 2 Ya que el valor esperado de todos los términos cruzados (fuera de la diagonal) son cero. θ) 2 ∂log(g(y. θ) E y así. θ) g(y. θ) Si g es regular de segundo orden. ∂logL E ∂θ 2 n =E i=1 ∂log(g(yi . Ahora consideremos la segunda derivada del logaritmo de g: ∂ 2 log(g(y. θ)) ∂θ 2 3. θ) = − 2 ∂θ g(y. θ)) g (y. θ) g(y. E ∂ 2 log(g(y. Ello debido al supuesto de independencia de las observaciones y el hecho de que: ∂log(g(y. θ) =0 g(y.y entonces ∂logL = 0 score ∂θ E 2. θ)) ∂θ2 = −E = −E g (y.

Así entonces: ∂ 2 logL ∂logL E = −E ∂θ2 ∂θ Para el caso en que θ es vector: ∂ 2 logL = −E ∂θ2 ∂logL ∂θ ∂logL ∂θ 2 E 4. Sumando sobre las observaciones el vector equivalente al de la propiedad (2) es: ∂ 2 logL = E(Q) ∂θ∂θ Jn(θ) = E − Donde: n Q= i=1 ∂log(g(yi . Nota Técnica: Estimación de la varianza asintótica del estimador ML: Si la forma del valor esperado de la segunda(s) derivada(s) de la log-likelihood es conocida. Jn(θ) −1 = 13 ∂ 2 logL − ∂θ∂θ −1 . Sin embargo. este estimador rara vez esta disponible dado que son complicadas funciones no lineales de los datos. entonces: [Jn(θ)]−1 = −E ∂ 2 logL ∂θ∂θ −1 Evaluada en θM L entrega un estimador de la matriz de covarianzas del MLE. θ)) ∂θ ∂log(g(yi . θ)) ∂θ Generalmente es más útil usar Q en vez de E(Q) para muestras grandes. Existen dos alternativas: 1.

8 25. θ)) ∂θ ∂log(g(yi .5 47.5 21.7 6. Observaciones de Ingreso y Educación. No obstante. Para Computar la varianza asintótica del estimador MLE.2 29.2 19.42 84. a veces es difícil obtener las segundas derivadas y programarlas en el computador. β) = 1 exp(−yi /(β + xi )) β + xi Donde y=Ingreso [miles de pesos] y x=Educación [años]. Además es siempre no negativa definida.28 30. Observación 1 2 3 4 5 6 7 8 9 10 Ingreso 20.5 31. Tabla 1. n n logL = − i=1 log(β + xi ) − i=1 yi β + xi Score: ∂logL =− ∂β n i=1 1 + β + xi n i=1 yi =0 (β + xi )2 Con la solución (única) βM LE =15. se requiere: ∂ 2 logL = ∂β 2 n i=1 1 −2· (β + xi )2 14 n i=1 yi (β + xi )3 (1) . θ)) ∂θ el que esta basado en el resultado de que el valor esperado de la matriz de segundas derivadas es la matriz de covarianzas del vector de primeras derivadas.96 Educación 12 16 18 16 12 12 16 12 10 12 Observación 11 12 13 14 15 16 17 18 19 20 Ingreso 55. xi .1 28. [BHHH ó OPG (outer product of gradients)] Este último estimador es muy conveniente pues no se necesita ningún cálculo más allá que estimar ecuación de verosimilitud. Jn(θ) −1 n = i=1 ∂log(g(yi .La que se obtiene al evaluar la matriz de segundas derivadas actual (no esperada) con el valor de MLE máximo obtenido.2 44.5 15. 2.9 Educación 16 20 12 16 10 18 16 20 12 16 Los datos fueron generados por la siguiente función: f (yi .60275.0 8.4 17.7 26.8 17.0 85.9 9.

255 como estimador de la varianza. estimadores (una vez corregidos para hacerlos comparables) son estadísticamente indistinguibles. pero BHHH es mucho más fácil de obtener.60275 e invirtiendo obtenemos el segundo estimador de la varianza: 46. 1. Observaciones no están distribuidas idénticamente iv.164. Observaciones están correlacionadas iii. número de parámetros aumenta con el número de observaciones. densidad g tiene un rango que depende de θ vi.625 15 . Si las muestras son muy grandes pueden aparecer diferencias ya que la distribución logística tiene colas más altas (anchas) que la distribución normal (ver gráficos). Discontinuidades de L ii. 1. Comparación entre modelos Probit y Logit La mayoría de los textos sugiere que un análisis detallado acerca de la elección entre un modelo u otro.Dado que E(yi )=β+xi es conocido. se deben realizar ciertos ajustes: √ 3 βprobit = βlogit ∗ π βprobit = βlogit ∗ 0.5. al computar el inverso de la suma de los cuadrados de la primera derivada de la densidad evaluada en βM LE : −1 Jn(β) Se obtiene un BHHH de 100. modelos predicen en forma similar. = 1 n i=1 −1 (β+xi ) + yi (β+xi )2 2 Los tres estimadores son asintóticamente equivalentes. Para que los parámetros entre los modelos sean comparables. Pero cuidado con los valores en muestras finitas: Ho: β=0 sería rechazada solo con los estimadores de la varianza. la forma exacta del valor esperado de (1) es conocida (algo no común). Reemplazamos β + xi por yi e invirtiendo obtenemos 44. Al insertar β=15. Finalmente.6. Violaciones de regularidad y propiedades i. La densidad escogida no contiene la verdadera densidad v. no rinde muchos frutos.512.

16 .

17 .

Efectos Marginales Sabemos que: P [yi = 1] = F (xi β) ∂P [yi = 1] = f (xi β) · β ∂xi estos son los llamados efectos marginales: Probit: φ(xi β) · β Λ(xi β)[1 − Λ(xi β)] · β Logit: También se pueden calcular los errores standard de estos efectos marginales.Asin.7. (β).(γ)logit = (Λ(1 − Λ))2 [I + (1 − 2Λ)βx ]V [I + (1 − 2Λ)βx ] 18 .(γ)probit = φ2 [I − (x β)βx ]V [I − (x β)βx ] Logit: df dz = (1 − 2Λ)Λ(1 − Λ) V ar. con z = x β V ar. entonces: V ar.Asin.Asin.1.(γ) = Donde V= Var. La matriz de derivadas viene dada por: ∂γ ∂β = f ∂β ∂β +β ∂f ∂z ∂f ∂z βx ϑz ∂β ∂γ ∂β V ∂γ ∂β = fI + β Para los dos modelos: Probit: df dz = −z · φ. Asin. Si definimos γ = f · β donde f = f (xi β).

pero en la práctica para muestras pequeñas se recomienda calcular los efectos marginales individuales y luego promediarlos. Podemos analizar el efecto de la variable dummy en toda la distribución al calcular Prob[Y=1] sobre el rango de x’β para los valores de la variable binaria. En general. Comentarios sobre las estimación de los efectos marginales en Modelos Probit y Logit: Efecto marginal: ¿evaluar en la media o la media de las evaluaciones individuales?. d = 0] Donde x∗ es la media de todo el resto de las variables independientes.499 0.533 0. d = 1] − P rob[Y = 1/x∗ .091 0. Efecto marginal de variables dummies: La forma correcta de estimar el efecto marginal de una variable independiente binaria. PSI: indicador si el estudiante realizó el curso o no.379 0.052 0.189 Usando estos coeficientes. Pero lo anterior solo es válido cuando se evalúa el efecto marginal para la media del resto de las variables independientes. tenemos las siguientes probabilidades como función de GPA (evaluadas en la media de TUC): 19 .Al igual que los efectos marginales. Según el teorema de Slutsky debería dar lo mismo ( plim g(xn )=g(plim xn )). tomando la derivada con respecto a la variable binaria como si fuera continua entrega resultados sorprendentemente certeros.469 0.426 0. por ejemplo d.626 0.425 1. sería: P rob[Y = 1/x∗ . GPA: promedio de notas. Variable constante GPA TUCE PSI f (x β) Probit βM LE fβ -7. Ejemplo (con un modelo Probit): GRADE: indicador si los alumnos mejoraron sus notas después de realizar un curso especial PSI.534 0.021 2.826 0.017 1.018 2. TUCE: resultado de una prueba de diagnostico previo al programa. los errores standard asintóticos también dependen del vector de variables x utilizado.328 Logit βM LE fβ -13.

052(21.052(21.35.5 en GPA=0.571 sin PSI 0.938)] PSI=1: Prob[GRADE=1]=Φ[-7. Cálculo de errores standard en Probit y Logit (repaso): Efectos marginales: Probit: Logit: φ(xi β) · β Λ(xi β)[1 − Λ(xi β)] · β si definimos γ = f · β donde f = f (xi β). (β). entonces: V ar. Asin.4263] Prob(GRADE=1) con PSI 0.468).938)+1. la probabilidad de que el estudiante aumente sus notas dado que siguió PSI es más alta si mejores son sus notas!!.45+1.62GPA+0. Entonces: Probit: V ar.117 GPA El efecto marginal de PSI es la diferencia entre las dos funciones.45+1. (Efecto marginal de PSI en x es 0.PSI=0: Prob[GRADE=1]=Φ[-7.06 en GPA=2 hasta 0. Así.(γ) = Donde V= Var.62GPA+0.Asin.Asin.(γ)probit = φ2 [I − (x β)βx ]V [I − (x β)βx ] 20 ∂γ ∂β V ∂γ ∂β .106 3. el que va desde 0.

el caso no 21 a .343 0.397 t ratio 1.449 (0.Logit: V ar.930 2.452 (2.542) 1.761 0.685 2.084) 1.026) 0.276) Variable Constante GPA TUCE PSI Coef.263) 0.Asin(β))R (Rβ − q) Para una prueba general sobre un conjunto de coeficientes que sean igual a cero (por ejemplo: los L últimos) el test de Wald requiere que: R = [0|IL ] y q=0 −1 con W= βL VL βL donde el subíndice L indica el subvector o submatriz correspondiente a las L variables y V es la matriz de varianzas y covarianzas de β estimada.426 (0.197) Probit Pendiente 0.Asin.672 2.234) t ratio -2. la prueba típica de que todos los coeficientes de las pendientes en el modelo Probit o Logit son cero (como un test F). Logit Pendiente 0.695 En general.238 0.237) 0.017 (0.095 (0. el estadístico de prueba es: −1 W = (Rβ − q) R(Est.234 t ratio 2. Por ejemplo.534 (0. -13. -7.533 (0.931) 2.587 1.052 (0. Para esta prueba solo se restringe el coeficiente de la constante. se pueden realizar todas las pruebas de hipótesis ya conocida para los parámetros.142) 2.V ar. En este caso. para un conjunto de restricciones Rβ=q.694) 0.379 (2.284 Coef.303) 0.(γ)logit = (Λ(1 − Λ))2 [I + (1 − 2Λ)βx ]V [I + (1 − 2Λ)βx ] Así.595) t ratio -2.826 (1.626 (0. Por ejemplo.64 2.252 0. los tradicionales test-t para restricciones simples los que están basados en los errores estándar calculados a partir de la matriz de información (BHHH u otra).468 (2.617 2.029) 0. De igual manera el test de razón de verosimilitud puede ser realizado: LR = −2[log Lr − log L] ∼ χ2 r donde Lr y L son las funciones log-likelihood evaluadas con los estimadores restringuidos y no restringuidos respectivamente.021 (4.018 (0.

(2) Otro problema de identificación ocurre cuando tenemos una combinación de muestra pequeña con un gran número de parámetros a ser estimados. se sabe que 2 2 logLprobit =-12. los residuos generalizados se definen como: ηi = E(εi |yi ) ∗ = E(yi |yi ) − xi β ∗ ∗ = E(yi |yi ) − E(yi ) 22 . esto implica que el modelo no puede ser estimado (esta es una propiedad de los datos). n·y es el número de unos y n·(1 − y) es el número de ceros.546 y χlogit =15. Ejemplo anterior (ver tabla 19. k es la dimensión de β. Lo anterior pues no existe una solución finita para las condiciones de primer orden y por lo tanto β no puede ser identificado. por lo tanto se rechaza la hipótesis nula de que todos los β s son igual a cero. Problemas de estimación en Probit: (1) Supongamos que tenemos una variable (observada) zi tal que: yi = 1 si zi > 0.5917. entonces no se pueden estimar los β’s. yi = 0 si zi ≤ 0 z se denomina clasificador perfecto. La regla que aplica aquí es la siguiente: Si min[n·y.404.restringuido es el mismo para Logit y Probit: LogL0 = n[P · logP + (1 − P )log(1 − P )] donde P es la proporción de variables dependientes igual a 1.81. n·(1 − y)]<k. χ2 probit =15. Esto ocurre pues existe una combinación lineal zi = xi β ∗ de tal forma que zi es un clasificador perfecto y entonces β no puede ser identificado. con χcrit(3) =7.8.1 Greene): P=11/32 → logL0 =-20.890. Donde n es el tamaño de muestra.819 y logLlogit =-12. Test de Diagnóstico para el modelo Probit (Análogo para logit) Residuos Generalizados: Para el caso de modelos con variable latente. 1.

ηi = = φ(xi β) φ(xi β) · yi − · (1 − yi ) Φ(xi β) 1 − Φ(xi β) (yi − Φi ) · φi Φi (1 − Φi ) φ(xi β) Φ(xi β) −φ(xi β) 1 − Φ(xi β) También vimos que las ecuaciones de verosimilitud (score) podrían escribirse como: ∂logL = ∂β o bien ∂logL = ∂β n n E(εi |yi ) · xi = 0 i=1 ηi · x i = 0 i=1 (2) donde la ecuación (2) es la condición de ortogonalidad. La matriz Hessiana en el modelo Probit esta dada por: ∂ 2 logL = ∂β∂β o bien: n yi =0 −φi [φi − xi β(1 − Φi )] · xi xi + (1 − Φi )2 −φi [φi + xi βΦi ] · xi xi Φ2 i y =1 i H=− i=1 {ηi (xi β + ηi )} · xi xi Recordemos que habíamos definido: Q= ∂logL ∂β ∂logL ∂β entonces este estimador puede escribirse como: n Q= i=1 2 ηi xi xi 23 .En el modelo Probit habíamos visto que la media condicional tenia la siguiente estructura: E(εi |yi = 1) = E(εi |yi = 0) = De esta forma.

E(yi ) = Φ[h(xi β)] aquí zi son potencias de (xi β) Endogeneidad: probar correlación entre xi y el error (ortogonalidad). Algunas aplicaciones adicionales de variables omitidas: Reset-test: es decir. si p=1.i Notar que E(ηi ) = 0 y V ar(ηi ) = Φi (1−Φi ) (demostrar !!). ηi · zi ). forma funcional correcta. El vector Score con respecto a γ es el siguiente: ∂logL = ∂γ n ηi · zi i=1 Si usamos Q para estimar la matriz de varianzas. 1 Alternativamente. φ2 Pruebas que se pueden realizar con el Score: (i) Variable Omitida: Supongamos el siguiente Modelo de Variable Latente: ∗ yi = xi β + zi γ + εi La hipótesis a testear es γ=0. (De nuevo. entonces el test puede ser calculado como: c R(R R)−1 R c ∼ χ2 (p) Donde p es el número de restricciones. Si se trata de una sola variable omitida. c es un vector de dimensión n de unos y R una matriz cuyas fila i es: (ηi · xi . se puede regresionar por MCO ηi · zi sobre ηi · xi y una constante (p regresiones) y calcular el estadístico: W 1+ W n donde W es el estadístico de Wald para la hipótesis que todos los interceptos son cero. ηi se conoce como el “residuo del primer momento” (ηi es la contribución de cada observación i al score!!). (ii) Heterocedasticidad: Suponga que bajo la hipótesis alternativa: ∗ yi = xi β + σ · εi 24 . Este estadístico puede ser obtenido al regresionar c sobre R. entonces Wald=t2 sobre la constante). el test t asociado a ηi · zi al cuadrado es el estadístico χ2 .

ηi (xi β)zi ) el que puede ser obtenido al regresionar c sobre R. Pruebas sobre restricciones sobre los momentos: En un modelo de regresión lineal: yi = xi β + ui 25 . (también en Ruud 1984). como mecanismo alternativo. ¿de dónde proviene todo esto?. O bien. el estadístico de prueba puede calcularse como: c R(R R)−1 R c ∼ χ2 (p) donde. entonces: ∂logL = ∂σ 2 n E(ε2 − 1|yi ) i i=1 El término al interior de la sumatoria es el “residuo del segundo momento”.1). bajo la hipótesis nula: ∂logL = ∂γ n (−ηi · xi β)zi i=1 De esta forma. Pero. regresionar ηi (xi β)zi sobre ηi xi y una constante y testear con Wald. (iii) Aplicaciones adicionales: Test de Normalidad (Pagan y Vella 1989): Una forma de probar normalidad de los errores es asumir que zi =[(xi β)2 (xi β)3 ] y probar mediante un Reset-test la significancia de estos términos. Para el caso de Probit: ∂logL = ∂σ 2 n −ηi xi β i=1 Ahora bien. si consideramos un modelo heterocedástico más general: ∗ yi = xi β + σi · εi 2 con σi =h(zi γ) con h tal que h(0)=1 y ∂h(zi γ) ∂γ γ=0 = zi (por ejemplo si h(zi γ)=1+zi γ).con εi ∼ N(0. Respuesta : sobre las restricciones de momentos. en esta ocasión la i-fila de R es: (ηi · xi . Entonces.

Así. i Si el modelo está correctamente especificado entonces los momentos poblacionales deberían ser igual a cero. De esta manera: τi = = = 1 n 1 n 1 n n i=1 n i=1 n i=1 zi · φi · vi Φi (1 − Φi ) zi · φi · (yi − Φi ) Φi (1 − Φi ) zi · ηi De esta forma se construye entonces la prueba sobre los momentos. que en este caso utiliza los residuos generalizados. esta última expresión es la covarianza entre los residuos generalizados y z. En particular. distribución simétrica. i iii E(u3 )=0 tercer momento. 26 .i E(zi ui )=0 ii E(zi (u2 − σ 2 ))=0 restricción sobre el segundo momento. al regresionar zi · ηi sobre xi · ηi y una constante es equivalente a un estadístico de prueba sobre la importancia de la variable z(Idéntico al test de score LM). se pueden obtener los análogos muestrales: 1 τ1 = · n n z i · ui i=1 τ2 = para el caso particular del Probit: 1 zi (u2 − σ 2 ) i n yi = Φ(xi β) + vi con vi = yi − E(yi ) el cual tiene media cero y varianza Φi (1 − Φi ) con Φi = Φ(xi β). i iv E(u4 ) − 3σ 4 =0 cuarto momento/ kurtosis. A partir de la información muestral.

043 2.115 0.090 1.31(χ2 ) (8) Diagnostic Test statistic: Funcional Form: (square term only) χ2 =9.42.538 Variable LWW1 KL6 K618 WA WE UN CIT PRIN/104 Constant s.525 1.595 2. Jt.094 0. (1) Heteroskedasticity: (all RHS variables) χ2 =25.404 2.349 1.6 2.48.879 -0.083 1.44.197 2.365 2.normality: χ2 =9.879 7. Ejemplo de Prueba: t-statistic Eligible Ineligible 1.026 0.212 0.=128.449 5.1075 0.0321 -0.287 0.557 Test Omitted Variables RESET Heteroskedasticity Moment Restriction E(SAL80∗ η)=0 E(DSA79∗ η)=0 E(PRED2 η)=0 E(PRED3∗ η)=0 E(SAL80∗ PRED∗ η)=0 E(MOVES∗ PRED∗ H)=0 E(RACE∗ PRED∗ η)=0 E(LSA79∗ PRED∗ η)=0 E(MLE∗ PRED∗ η)=0 E(ATBATS∗ PRED∗ η)=0 E(ADJS∗ PRED∗ η)=0 E(DFN∗ PRED∗ η)=0 E(BYR∗ PRED∗ η)=0 E(YSRM∗ PRED∗ η)=0 Otra Aplicación: Mroz data: participation equation as in applied Econometrics.427 1. sig.101 1.981 4.869 2.0160 0. (2) 27 .240 -0.0345 0. a pesar de que no existe correlación en los errores.626 2.891 2.0077 0.0115 -0.0407 0. (8) Non.481 logL=-450.Consecuencias de la heterocedasticidad y variable omitida en Probit (Logit): inconsistencia.145 1.670 1.0107 0.72. Probit Coeficiente 0.047 0.194 0.132 -0.364 0.541 3.258 1.647 1.855 1.e 0.

Probit Heterocedástico La idea aquí es incorporar la estructura de la forma funcional esperada o presunta de la heterocedasticidad en la estimación del modelo.1. Parecida a la idea de la corrección de heterocedasticidad en OLS pero ahora en un contexto no lineal utilizando ML. σ 2 ) 2 con σi = [exp(zi γ)]2 n logL = i=1 yi · logΦ xi β exp(zi γ) + (1 − yi ) · log 1 − Φ xi β exp(zi γ) con la probabilidad predicha: xi β exp(zi γ) pi = Φ En general. Aunque algunos resultados empíricos sugieren que el sesgo no es importante (ver Horowitz. asumir que todos los betas son cero).e. Econometrica 1977). (no demostrado aquí) los coeficientes obtenidos son un poco mayores y los intervalos de confianza (errores standard) mas amplios.9. Propiedades: Acotado entre 0 y 1 28 . cuanto de la variación total de la variable dependiente es explicada por la variación de las variables independientes ponderadas por los betas) una forma sencilla de tener una idea acerca de si las variables escogida como exógenas son relevantes es asumir que todas estas son cero excepto la constante y compararlas con una especificación en que se incluyan todas las variables relevantes. Medidas del grado de ajuste: Si bien en modelos no lineales no se puede aplicar la idea de ajuste en la forma tradicional de verla (i. ∗ yi = xi β + εi εi ∼ N (0. Likelihood ratio index: LRI = 1 − logL logL0 con logL0 : verosimilitud calculado solo con una constante (es decir.

difícil la interpretación para los valores entre 0 y 1. recordar que ML no está diseñado para maximizar un criterio de ajuste. entonces logL es igual a cero → LRI=1. 29 . (Pero cuidado con los predictores perfectos).si Fi es siempre 1 cuando yi es uno y 0 cuando yi es 0. como el R2 en OLS.

.n para zi ={yi . trabajando solamente con los zi ’s? La descomposición de z en y y x.. el relajo del supuesto de "independencia"es un tema mucho más complejo. Estimación de densidades Una forma de estimar una densidad es la siguiente: tenemos observaciones de i=1. Para hacer las cosas más fáciles comenzaremos con la estimación de la densidad de una sola variable: x.. Capitulo 2) • Métodos de Kernel • Métodos teóricos de información Estimación de momentos condicionales (Pagan y Ullah. Pagan y A. Ullah. por ahora no haremos prejuicios sobre este asunto.W. No obstante. 2. Más detalles se pueden encontrar en: A. “Asymptotic Statistics”.. Capitulo 3). Temas a cubrir: Estimación de densidades (Pagan y Ullah. Regresión no paramétrica. “ser explicadas” ó quizás “endógenas”. De forma similar. Capitulo 7) 2.1. por ejemplo f (z). xi } las que son obtenidas (son una realización) de una densidad f (z). no obstante. “Non Parametric Econometrics”. Modelos de elección discreta (Pagan y Ullah. Por ejemplo. Si llegamos a tener una buena estimación de f (z)... El relajo de este supuesto de “idéntica” no será una gran barrera a lo que veremos más adelante.2. Econometría Semi y No Paramétrica Introducción Texto Guía: A.. x2 ) puede ser derivada a partir de la integración apropiada de f (z). una estimación de E(y1 |x1 .2. La pregunta que queremos resolver es: ¿cual será una buena estimación de f (z). 30 . de x). cada una multivariada sugiere que algunas de estas variables pueden ser consideradas como dependientes (es decir. van der Vaart. entonces muchas preguntas convencionales de la econometría pueden ser respondidas. Veamos las metodológicas alternativas para realizar esta tarea. la poca claridad de la aseveración del primer párrafo no nos dice nada acerca de si las observaciones son independientes e idénticamente distribuidas.

. Estimación de Densidad I: Kernel Una estimación “naive” de f (x) sería dar un “peso” 1/n a cada punto xi . podemos ver que la expresión más a la derecha de la ecuación (3). con la agravante que para la mayoría de los casos que estudiamos en econometría se asume que f (x) hace un dominio (support) continuo. También resulta natural que K(0) ≥ K(x) ∀ x. entonces el estimador de f (x) tendría la siguiente forma: n f (x) = i=1 1 φ(x. cada una con una desviación standard σ centrada en cada punto x. (2π)−1/2 · e −1/2· (x−xi ) 2 σ puede ser reemplazado por: x − xi h K x − xi σ o K donde σ ha sido reemplazado por h sin alterar las propiedades fundamentales de f (x).n. Si σ es mas grande. Una forma de hacer esto podría ser estimar f (x) como una combinación de densidades normales. se conoce como “función de distribución empírica”..2. Una alternativa natural es la de suavizar el peso 1/n asignado a cada punto xi sobre un area ’cercana’ a xi . Una debilidad aparente de esta propuesta es que no asigna probabilidades o valores de la densidad a valores de x que no ocurrieron o que no están presentes en la muestra.1 De esta manera la expresión en (3) puede ser reescrita como: −1/2· (x−xi ) 2 f (x) = 1 · n·h n K i=1 x − xi h (4) donde K(·) se denomina la función Kernel. 1 La condición de simetría implica que y · K(y)dy = 0. Usando φ(x. la estimación resultante es mas suave. Para simplificar un poco la notación. La función de distribución correspondiente a este procedimiento..2. µ. Dado que (3) es una mezcla de funciones de densidad. si σ es muy pequeño entonces tendríamos una estimación de la función con puntas agudas en cada xi . la que usaremos después 31 . xi . σ ello mientras K(·) comparta ciertas propiedades con (2π)−1/2 · e como ser: simétrica. i=1. no-negativa y que la integral sobre x sea igual a 1. σ 2 ) para denotar la densidad normal estándar con media µ y varianza σ 2 evaluada en cada x. σ 2 ) = n n i=1 1 1 (x − xi ) · (2π)−1/2 · e− 1/2 · n σ σ 2 (3) donde. entonces f (x) también es una densidad.1.

5 (derecha). h=1.68 (izquerda).82 (centro) y h=4. usando Kernel Normal 32 . intermedio (centro) y largo (derecha) Estimación Kernel para la densidad de una muestra de tamaño 15 de una densidad normal estándar para tres diferentes ancho de banda h=0.Estimador Kernel con un Kernel normal y dos observaciones para tres ancho de banda: pequeño (izquerda).

33 .

un h muy pequeño significa que no habrán suficientes puntos en x para promediar o suavizar y en consecuencia.ondas"(sinusoidales). el sesgo en la estimación de la densidad es pequeño pero la varianza (ruido) es grande. Por otra parte.Criterios para la elección de h: Pagan y Ullah (pag. considera dos criterios para elegir h: integrated square error ISE: min mean integrated square error MISE: minE [f (x) − f (x)]2 dx 2 [f (x) − f (x)]2 dx las que corresponden a la noción de "pérdida riesgorespectivamente. AMISE: Aproximación de MISE mediante una expansión de Taylor. resultando en una estimación de densidad sobre suavizada y en conclusión con una fuerte distorsión sobre la verdadera estructura de la densidad. considerando la expresión (5). obtendremos una estimación de la densidad que presente "saltos. 23-26) y la literatura en general. En la práctica h se debe escoger de manera de alcanzar el mejor "trade-off"posible entre sesgo y varianza. donde la primera depende de los datos que se tiene en la muestra pero la segunda no. si escogemos un h grande el sesgo será grande pero la varianza (ruido) menor. Para caso de MISE: M ISEf (f ) = = Ef [f (x) − f (x)]2 dx varf f (x)dx + varianza (5) [Ef f (x) − f (x)]2 dx sesgo 1 Dado que f = f (x) = n·h · n K x−xi . i=1 h es claro que si escogemos un h pequeño.o . entonces. Por otra parte. lo que necesita de algún criterio. AM ISE = = donde: λ1 = µ2 2 [f (2) (x)]2 dx 34 h4 2 · µ2 [f (2) (x)]2 dx + (nh)−1 4 1 · λ1 · h4 + λ2 · (nh)−1 4 f (x)dx K 2 (ψ)dψ (6) .

Con el fin de tener una idea sobra la magnitud de c suponga que K es la densidad normal estándar y f(x) ∼ N(µ. escoja el parámetro que optimiza el criterio de la función jackknife. algo acerca del n-ésimo punto. por ejemplo: h = 0. Cuando una decisión como suavización debe realizarse. Por ejemplo. Elección de h en la práctica: Podemos notar que x depende de la varianza del Kernel y de [f (2) (x)]2 dx el que indica el grado de variabilidad de la densidad. Algebraicamente se puede determinar que c ∼ 1. Una mejora a este método es reemplazar σ por un estimador robusto de la dispersion de la muestra. diferenciamos (6) con respecto a h e igualamos a 0. En Silverman (1986) se compara este último resultado con el h óptimo si la distribución desconocida realmente fuera una mezcla de dos normales o que fueran funciones altamente simétricas. (R/1. Para obtener h∗ tal que minimize AMISE. Así. si la verdadera función es altamente variable. el rango intercuartil.06 σ · n−1/5 .λ2 = [K 2 (ψ)dψ ψ= x − xi h ψ 2 K(ψ)dψ µ2 = para el caso de función kernel. al dejar fuera x1 usamos los 35 donde A = min{ˆ . por ejemplo.9A · n−1/5 con R. h3 λ1 − 1 λ2 = 0 → h∗ = c · n−1/5 n · h2 donde c=(λ2 /λ1 )1/5 el que depende del kernel y de la curvatura de la densidad (verdadera). En contraste. encontrandose que esta fórmula es una muy buena aproximación. Jackknifing es un procedimiento general donde una cantidad desconocida se estima al dejar fuera cada observación sucesivamente y estimar. usando las n-1 observaciones restantes. λ1 → ∞ y c → 0 (h pequeño).34)} σ . si la verdadera densidad es más bien plana entonces λ1 → 0 y c → ∞ (ancho de banda muy grande). Una forma alternativa y muy utilizada en muchas aplicaciones semi y no paramétricas es la Validación Cruzada Generalizada (GCV). σ 2 ).06 σ y entonces h=1.

Elección de K(·): Aspectos Adicionales: Si abandonamos el requerimiento que K(ψ) sea no negativo podemos reemplazar el supuesto A. Existe una extensa literatura comparando el MISE de este Kernel con el de otros posibles Kernels. Los resultados indican que la diferencia entre estos es pequeña. 27-28) que AMISE puede ser minimizado para el caso del Kernel con bandwidth uniforme al escoger el siguiente kernel: K(ψ) = 3 4 (1 − ψ 2 ) |ψ| ≤ 1.2 (Pág 21) . Pagan y Ullah supuesto A. Consecuentemente.6 y reducir el AMISE de f (x) en una cantidad apreciable ( O(n−4/5 ) 2 Recordar que ψ = x−xi h . 36 .impone las condiciones estándar para K(·) la que debe ser una función simétrica (no negativa ?) y que satisfaga los siguientes criterios: (i) K(ψ)dψ = 1 (ii) K 2 (ψ)dψ = µ2 = 0 (iii) K 2 (ψ)dψ < ∞ bajo estas condiciones. costos computacionales y la velocidad de convergencia del estimador de la densidad pueden determinar que Kernel escogemos como apropiado al problema que estemos analizando. considerando simplicidad. 0 ∼ conocido como Kernel Epanechnikov(1969). No obstante. escogemos h de tal modo de: n {h}i=1 m´x a log f[−i] (xi ) i=1 Elección de K(·): Pagan y Ullah usan K(ψ) mientras que Van der Vaart usa K(y). se demuestra (pág. de esta forma.2 Este tipo de Kernel es no negativo para todo el dominio de x y tiene forma de parábola.restantes puntos para estimar logf (x1 ) el que denotaremos por f[−1] (x1 ). la elección de h tiene mucho mayor impacto que la elección de K(·).2 por A.

a0 . Kernels de orden superior pueden necesitarse para: reducir el sesgo en muestras pequeñas. con r el valor del orden del Kernel. Si r=3 y K(ψ)=(a0 + a1 · ψ + a2 · ψ 2 ) · φ(ψ) donde φ(ψ) es una densidad N (0. si y c es constante.1) son cero y los pares son: Eψ 2j = tenemos que: K(ψ)dψ = 0 ⇒ a0 + a2 = 1 2j ·Γ π 2j + 1 2 ψK(ψ)dψ = 0 ⇒ a1 = 0 ψ 2 K(ψ)dψ = 1 3 ⇒ a0 + 3a2 = 0 xn nk La secuencia {xn } de números se dice que es de orden nk . Sea K perteneciente a la clase de Kernels simétricos. Para emplearlos debemos asumir que la derivada de orden r es continua). Se puede demostrar que Kernels de orden superior reducen su AMISE a O(n−2r/(2r+1) ) el cual para r grandes es cercano a la tasa paramétrica de O(n−1 ). 1). r − 1. · · · . ello al extender los términos en la expansión de Taylor). a1 . tal que: ψ j K(ψ)dψ = 1 si j = 0 = 0 si j = 1. asegurar que la distribución asintótica de (nh)1/2 · (f − f ) esta centrado en cero.→ O(n−2r/(2r+1) )). → c mientras n → ∞ 37 . así debemos generar Kernels cuyos r-1 momentos sean cero. Estos Kernels se conocen como “Kernels de orden superior” (orden r). a2 deben determinarse de modo que K(ψ)dψ = 1 y ψK(ψ)dψ = 0 = ψ 2 K(ψ)dψ. xn =O(nk ). 3 Ejemplo: Como se mencionó. Del hecho que los momentos impares de una normal (0. < ∞ si j = r r≥2 (momentos de orden (r-1) son cero pero el r-ésimo momento es finito).

a1 = 0. t) como un modelo paramétrico de un conjunto de datos. a pesar de su popularidad y facilidad de uso. si m=3). en la práctica.donde las soluciones son: a0 = 3/2. La respuesta es Si al escoger diferentes h para xi . Este Kernel incluye una mezcla de polinomio de grado dos y una densidad normal el que puede alcanzar valores negativos !! (en vez de sumar. con parámetro t desconocido y a ser estimado. también ψ(x) como un vector de funciones de x con una dimensión m (es decir. El logaritmo de la densidad es: logf (x.2. kernels adaptativos son más lentos que h uniforme y la teoría es muy compleja. Por ejemplo. a2 = −1/2. Así. E(x2 ). Una forma novedosa poco convencional de estimación de funciones de densidad es una variante de aquella propuesta por Barron y Sheu (1991) conocida como Balanceo exponencial (Exponencial Tilting). Consideremos la siguiente densidad: f (x. hi deberá ser pequeño. t) = t · ψ(x) + logf0 (x) − log = t · ψ(x) + logf0 (x) − K(t) Donde el último término de la derecha representa la función generadora de momentos 38 et·ψ(x) · f0 (x)dx .2. no permite reproducir momentos mayores de las muestras observadas. E(x3 ). Pero. intercuartiles u otros similares no son posible de estimar utilizando Kernels. Ahora. Definimos una función de densidad arbitraria f0 (x). suponga que utilizamos la densidad f (x. si xi esta en una area densa. Hecho de manera correcta O(n−8/9 ) puede lograrse con Kernels adaptativos. 2. y t un vector de m parámetros. no negativos (equivalente a kernels con r=4). el Kernel es: 1 K(ψ) = (3 − ψ 2 )φ(ψ) 2 cuyos primeros momentos son cero. medianas. Estimación de Densidad II: Balanceo Exponencial La función Kernel. datos lejanos se restan). t) = et·ψ(x) · f0 (x) et·ψ(x) · f0 dx (7) Aquí t transforma f0 (x) en otra densidad. mientras las observaciones “outlying” deberán recibir un hi mayor. pensar en un momento como E(x). En general. Otros Tipos de Kernels: bandwidth variable o estimadores de Kernel adaptativo ¿Puede la reducción del sesgo lograrse sin tener que utilizar kernels de orden superior?.

acumulada. Entonces el log-likelihood es:
n n n

logL(t) =
i=1

log[f (x; t)] = t ·
i=1

ψ(xi ) +
i=1

logf0 (xi ) − n · K(t)

La F.O.C para maximizar logL(t) con respecto a t: ∂logL(t) = ∂t
n

ψ(xi ) − n
i=1

∂K(t) ∂t

o

n i=1 ψ(xi )

n

=

∂K(t) ∂t

(8)

Así la media de ψ se define para que sea igual a ∂K(t) . Aquellos familiarizados con ∂t funciones generadoras de momentos reconocerán que (8) plantea que el estimador MLE de t es aquel donde Ef (x;t) ψ(x) = n−1 · n ψ(xi ), es decir que la media poblacional i=1 de esta distribución "t-tilde"se iguala a la media muestral para cada componente de ψ. Ello se puede obtener del siguiente cálculo: ∂K(t) ∂t ∂ log et·ψ(x) f0 (x)dx ∂t ψ(x)et·ψ(x) f0 (x)dx et·ψ(x) f0 (x)dx ψ(x) et·ψ(x) f0 (x)dx et·ψ(x) f0 (x)dx dx

= = = =

ψ(x) · f (x; t)dx

= Ef (x;t) ψ(x) la idea es obtener una representación paramétrica que tiene la propiedades de la muestra obtenida. Por ejemplo: si en la muestra µ=1 entonces: ψ1 = x − 1 ; ψ2 = (x − 1)2 ; ψ3 = (x − 1)3 ; ψ4 = (x − mediana)

En el trabajo original de Barron y Sheu las funciones base ψ(x) eran secuencias de las funciones polinomiales, trigonométricas o spline y x fue reescalado para que estuviera en el rango [0, 1]. Así, tomando f0 (x) como la densidad uniforme sobre [0, 1], uno puede usar polinomios ortogonales de la función uniforme para definir ψ(x). Pero cuantas de estasψ’s deberían considerarse?. Si se sabe que el logaritmo de la verdadera densidad 39

tiene r derivadas cuadráticamente integrables, ( |Dr logf (x)|dx < 0) entonces definiendo m=n 2r+1 alcanza una tasa de convergencia de f a f igual a Op (n 2r+1 ) el cual es similar al alcanzado por los Kernels adaptativos (de orden superior) Algunas Propiedades del Estimador de Balance Exponencial: Los datos solo entran en la construcción del estimador a través de las medias muestrales de las funciones bases ψ(x). En la práctica, de aplicaciones econométricas construimos las funciones base de tal forma que tengas media cero y las denominamos çondiciones de momentos". Por ejemplo, ψ(xi ) = x3 − (x3 ) (el cual tiene i media cero) en vez de ψ(xi ) = x3 . i La formulación de ψ fuera de la noción estadística de funciones "base"nos permiten ser flexibles para imponer propiedades sobre la densidad estimada. Podemos imponer una condición de mediana: ψ(x) = 1(x > µ) − 1(x < µ) donde µ es la mediana a ser impuesta. La elección del número de condiciones de momentos m a ser impuestas es análogo a la elección del Bandwidth de la estimación por Kernel. A menor m mayor es la influencia de f0 (x) de la estimación f (x). A mayor m, mayor la influencia que tiene la secuencia de momentos en la apariencia de f (x); en el límite, a medida que m se acerca a n (tamaño muestral) la estimada tiende a reproducir la distribución empírica (no obstante cuando m=n los cálculos colapsan). Estimación de Densidades Multivariadas: La extensión de la estimación de densidad por Balance Exponencial para el caso multivariado es simple: x ahora es multidimensional y ψ(x) deberá incluir momentos como xa · xb para pequeños valores de a y b, también como xa · xb · xc y así sucesivamente 1 2 1 2 3 (notar también que la media de x puede ser restada de las expresiones anteriores para imponer condiciones de momentos). No obstante, a medida que la dimensión aumenta, la integración numérica que define K(t) se hace mas compleja. En general, para todos los métodos de estimación incluidos el de Kernel, la dificultad para obtener estimaciones de densidades precisas crece muy rápidamente con el número de dimensiones. Para el caso de funciones Kernel, la expansión a dimensiones mayores es bastante directa: f (y, x) = f (z) 1 · n · hq+1
n
1 −2r

K1
i=1

zi − z h

40

donde x tiene dimensión q e y es un escalar. La ecuación anterior usa el mismo h para cada variable; una práctica habitual es o bien reescalar los datos componente a componente con el fin de obtener una varianza unitaria, aplicar el estimador Kernel y transformar de vuelta. Otra alternativa es utilizar un Kernel normal multivariado con una matriz de covarianzas no diagonal donde la elección natural para la matriz de covarianzas sería proporcional a la matriz de covarianzas muestral. Por otra parte, la función Kernel multivariada K1 puede incluir la densidad normal estándar multivariada o bien el producto de q+1 kernels univariados. Sorprendentemente, Epanechmikov demostró que el Kernel normal multivariado ( y no el producto de Kernels Epanechnikov) minimizan el MISE sobre toda la clase de productos de Kernels. Cabe señalar que si tenemos f (x) podemos manipularlo y obtener: f (x) = o bien: f (y|x) = f (y, x) f (x) f (y, x)dy

y así sucesivamente. De esto último se desprende que podremos calcular, entre otros E(y|x) aunque no todos los estimadores no paramétricso de E(y|x) se obtienen de esta forma. Ejemplos de Estimaciones de Densidad: (1) Densidad de Retornos Accionarios: (Pagan y Schwart 1990) Uno de los primeros trabajos que utiliza la estimación de densidades está relacionado con los retornos mensuales de activos financieros entre 1834 y 1925, con un total de 1104 observaciones para xi . Después de determinar los valores mínimos y máximos, un grupo de 100 observaciones fueron seleccionadas las que pertenecían ea este rango. La figura 2.1. presenta la estimación de densidad para estos 100 puntos para una función Gaussiana : K(ψ) = (2π)−1/2 e− 2 ψ y una Espanechnikov:
3 K(ψ) = 4 (1 − ψ 2 ) si |ψ| ≤ 1
1 2

41

con n=1104. el cual se calcula como : (nh)−1 ( 0. Se observa que sólo hay pequeñas diferencias entre estimadores sugiriendo que la elección entre tipos de kernel no es fundamental. La figura 2.donde ψ = xi −x h y h=n−1/5 σx . También se entrega la cota inferior del intervalo de confianza al 95 %.2 contrasta la densidad estimada con una Normal de una variable aleatoria con la misma varianza muestral.2821 ·f (x)) K 2 (ψ)dψ 42 .

En la Figura 2. La utilización de Kernels de mayor orden puede ser ua forma de solucionar este problema. Adicionalmente. 43 . Esto significa que hay demasiados retornos o muy grandes o muy pequeños para que sean consistentes con una distribución Normal. 74 de Pagan y Ullah).4 tampoco arrojan resultados satisfactorios. Complementario a lo anterior. sabemos que : d (nh)1/2 (f − E f ) → N 0.3 muestra que el ajuste no mejora mucho existiendo un estimación con mas sinusoidales. f (x) · K 2 (ψ)dψ cuando n → ∞ es decir. Otra forma de solucionarlo es mediante Kernels adaptativos (ver forma de estimación en pág. que asintóticamente sería una Normal si (nh)1/2 h2 −→ 0 mientras n −→ ∞ pero sabemos que h = n−1/5 σx no cumple con este requerimiento y por tanto hay que dar cuenta de este sesgo asintótico de alguna forma.No hay duda de que la densidad es diferente a la Normal y una de sus características principales es sus colas mas anchas y gran peak en torno al valor cero. pareciera ser que hay mas retornos positivos que negativos dando una idea de que la distribución no es exactamente simétrica. Los resultados que se presentan en la Figura 2.

(2) Estimación de Densidad Dickey-Fuller: Como se mencionó. Un caso interesante es el análisis de la densidad para el estimador del parámetro en un proceso autorregresivo de primer orden cuando el verdadero valor del parámetro es la unidad. Esto es : 44 . el output de experimentos de Monte Carlo pueden ser utilizados para realizar análisis no paramétrico particularmente cuando se desea tener una visión completa de la densidad de un estimador en particular.

1. (i) (i) xi = 1000(ρ(i) − 1) y donde {xi }1000 . t = 1. existen pocas diferencias entre ambas. donde A=min{ˆ . i=1 La figura 2. este experimento es estimar por Montecarlo la densidad n(ρ − 1) con n = 1000 series de yt .34 } = 0. 45 . Si cada serie yt (i) es designada como {yt }1000 . y y0 y et obtenida de una N (0. entonces: i=1 1000 1000 t=1 ρ(i) = t=1 (yt=1 )2 (i) yt−1 · yt .9An−1/5 .31 σ R y σx = 3.47. De esta forma. 1). Como se aprecia. · · · 1000.5 muestra la la estimación de la densidad de n(ρols −1) cuando ρ = 1 usando Gaussian y Espanechmikov kernels con h = 0.yt = ρyt−1 + et donde ρ = 1 Fuller (1976) entrega tablas para la densidad n(ρols − 1) las que son ampliamente utilizadas para determinar el orden de integración de una serie.

46 .

En particular. las "propiedades"son condiciones sobre los momentos. las que pueden ser expresadas como: γ(x)g(x)dx = M (9) 47 .Estimación de Densidad Univariada por Balanceo Exponencial: Suponga que queremos construir una densidad g(x) con ciertas propiedades y cuento con una estimación preliminar o densidad "base"f0 (x) la que puede o no tener las propiedades deseadas.

en forma similar: Mλ (t) = = et·ψ(x) · f (x. Estos requiere que: ψ(x) · eλψ(x) · f0 (x) dx = 0 M0 (λ) (10) donde podemos observar que (10) es idéntica a ∂K0 (λ) (ver notas anteriores). el estimador f (x) = f (x. ψ(x) puede tener una dimensión m. h Considere: f (x. λ). la que se iguala a cero.donde asumiremos que el dominio de x es conocido (por ahora). de esta ∂λ manera resolviendo ∂K0 (λ) = 0 para λ nos entrega valores para λ que tenga propiedades ∂λ requeridas. suponga que tomamos una secuencia de funciones γ(x) y calculamos su media muestral de forma de determinar µ. λ) es la ( o una) función g(x) que buscamos. definamos: logM0 (t) ≡ K0 (t) Ahora. Podemos reescribir la ecuación anterior como sigue: (γ(x) − M ) · g(x)dx = 0 o bien ψ(x)g(x)dx = 0 donde ψ(x) es una condición de momento construida deliberadamente (no confundir con ψ(x) = ( x−xi ). λ) de tal modo que f(x. λ) converge a la verdadera densidad a la misma velocidad que los Kernels reducidores de sesgo. independientemente de la forma 48 . t) = Definiendo: Mo (t) = = y. entonces si se escoge adecuadamente la secuencia γ(x) (la que incluye el número de funciones a medida que la muestra aumenta). Para el caso univariado. podemos definir λ en f(x. Si definimos ψ(x) = γ(x) − µ y seguimos el procedimiento anterior para calcular f(x. o)dx eλ·ψ(x) · f0 (x) eλ·ψ(x) f0 (x)dx Para hacer las cosas más fáciles. λ)dx et·ψ(x) · eλψ(x) · f0 (x) dx M0 (λ) et·ψ(x) · fo (x)dx et·ψ(x) · f (x.

. fw (x) = 1 h n vn K i=1 x − xi h K = Epanechmikov vn : pesos normalizados (pesos normalizados por su suma. Ejemplos de condiciones de Momentos: mediana: 1(x < µ) − 1(x > µ) = 0 α quantil: α · 1(x < µ) − (1 − α) · 1(x > µ) = 0 Estimación por Kernels: puntos adicionales: Deaton(1997). h’s grandes o oversmoothing pueden esconder propiedades verdaderas de los datos. but it cannot discern features than have been covered up by oversmoothing". to plot the associate density estimates. pág 174. and to judge by eye weather the plots are under smoothed or over smoothed. Posiblemente en la realidad sea como A pues están incluidos blancos y negros con claras diferencias en sus PCE’s. the eye can readly ignore variability that it judge to be spurious.an adequate procedure is to consider a number of different bandwidths...there should also be some preference for undersmoothing when using graphical methods.escogida para f0 (x).. Ejemplo: log PCE (per capita expenditure) en Sudáfrica.. 49 . es decir que sumen 1). ".

Podemos definir entonces. 2. Si sustituimos estimadores de Kernels. podemos promediar los valores correspondientes de y para obtener un estimador de m(x). La idea en general. De esta manera.3. Para estimar m(x) se pondera cada observación yi en proporción a la contribución 50 . el valor esperado de y condicional en x como : ∞ m(x) = −∞ y· f (x. X son variables aleatorias poblacionales y xi . entonces obtenemos (después de un tortuoso camino algebraico. si no tenemos varias observaciones de x. y) dy f1 (x) (11) donde f1 (x) es la densidad marginal de X en x. la siguiente expresión para el estimador de dicha esperanza condicional. En primer lugar.Pero h’s pequeños hacen que la serie tenga muchos saltos. Ello debido a que en general. Veamos esto formalmente. debemos notar que si tenemos valores repetidos de x.3. mas sofisticado aún. O bien. quizás exagerando la verdadera distribución de los datos. xi } donde xi esta cercano a x y promediar los y’s correspondientes. Con este fin. 83-84 de Pagan y Ullah). podemos tomar valores muestrales {yi . a diferencia de una estimación de densidad bivariada o multivariada nos interesa determinar la forma que tiene la relación entre un conjunto de variables x y su contraparte y. adoptaremos la siguiente notación: Y = E(Y |X = x) + u = m(x) + u donde. en particular como una valor esperado condicional. yi pueden ser ya sea variables aleatorias o valores particulares de la muestra dependiendo del contexto. tomar un promedio ponderado de los y’s dependiendo cuan cerca esta el correspondiente xi de x. en general diremos que Y. los cuales son obtenidos a partir de los x en relación de como están distribuidos dichos x. x) y para f1 (x). m(x) = n xi −x · yi i=1 K h n xi −x i=1 K h (12) el que se conoce como el estimador de Nadaraya-Watson. el siguiente paso que debemos dar está relacionado con la estimación de funciones de momentos condicionales. NO obstante l.o anterior. es analizar la estructura o dispersion que tienen los valores de y. con ancho de ventana fijo h para f (y. p. los que se obtiene de la muestra. los modelos econométricos pueden ser visto como una función de momento condicional. Estimación de los Momentos Condicionales Estimadores Tradicionales Una vez revisado los aspectos generales de estimación no paramétrica de una densidad de probabilidades.1. 2.

donde la especificación tiene la estructura de una esperanza condicional. x). El estimador de Nadaraya-Watson puede ser visto como una suma ponderada de aquellos yi ’s que corresponden a xi en una vecindad de x. Si los wni son no negativos y suman 1. tenemos que : = yi · wn (xi . si n=2. pensando ahora mas en el contexto de un modelo de regresión. Una generalización de esta idea es la de estimar m(x) de la siguiente forma: n m(x) = i=1 wni (x) · yi (13) donde wni = wn (xi . x) = K xi −x h · yi + K +K xj −x h xj −x h · yj K xi −x h Pues bien. Veamos esta situació en el siguiente gráfico donde se han considerado sólo dos puntos.que los x’s de cada yi hacen para la estimación de la densidad marginal de X a x. De esta manera. podemos pensarlos en ellos como pesos probabilísticos. yj m(x) yi xi X xj n m(x) = i=1 wni (x) · yi ahora. x) + yj · wn (xj . podríamos pensar en m(x) como una forma funcional conocida con parámetro β. el estimador 51 .

β))2 i=1 De esta forma. 52 . que lo que hacemos es tratar de estimar los β para lo que necesitamos una estimación (en este caso no paramétrica) de la esperanza condicional.OLS de β se encontraría al minimizar la siguiente expresión: n (yi − m(xi . funciones más complejas. por ejemplo. podríamos considerar el siguiente criterio: n ∗ wni (x) · [yi − m(x)]2 i=1 mediante el cual se le entrega un ponderador mayor (peso mas alto) a aquellos xi que están mas cerca de x. Si m(x) es considerado como un solo parámetro a estimar (pensar en la constante en un modelo de regresión). En ésta se escoge m y β con el fin de minimizar la siguiente expresión : n [yi − m − (xi − x)β]2 · K i=1 x − xi h De esta manera. El siguiente gráfico muestra una de estas LPR en que se han utilizados polinomios de Hermite para aproximar la función.escogemos los m de tal forma de minimizar: [yi − m]2 · K x − xi h Una extensión natural a esta forma de estimación es la denominada "locally linear regression". el estimador LLR ajusta una línea recta. entonces tenemos que: n ∗ wni (x) · [yi − m]2 i=1 (14) con una solución teniendo una estructura como en (13) donde: wni = ∗ wni (x) n ∗ i=1 wni (x) Notar. mientras el estimador Nadaraya-Watson ajusta una constante a los datos cercanos a x.al comparar (14) con (12). Para el caso del estimador de Nadaraya-Watson los pesos para la estimación de dicha esperanza condicional son de tal forma que . Claramente. polinomios de (xi − x) pueden ser agregadas a esta formulación para así obtenre "locally polynomial regression".

los ya mencionados Hermit). o similares o bien varios sistemas de polinomios ortogonales (por ejemplo. la linea continua se aproxima mediante una combinación de las funciones fi (x). Una 53 . x2 .2. Elecciones obvias de la base pueden ser x. Así. se debe cumplir que : f1 (x) · φ(x) = 1 f2 (x) · f1 (x) · φ(x) = 1 pero f2 (x) · f1 (x) = 0 y así sucesivamente donde se imponen condiciones de ortogonalidad entre las funciones escogidas. 2. f1 (x) = 1.3. x3 .f3(x) f2(x) 1 f1(x)=1 donde. Entre las ventajas de los modelos de LLR podemos destacar las siguientes: pueden ser analizad con las técnicas de regresión estándar. Estimación de momentos condicionales mediante series: Una forma alternativa de estimar m(x) = E(y|x) es aproximar m(x) por una función lineal de un vector z de dimensión M. en esta caso. tiene las mismas propiedades estadísticas independientemente si xi son estocásticas o deterministicas. con z = z(x) donde el conjunto de funciones z se denomina "base". f2 (x) = a + bx y f3 (x) = c + dx + ex2 . Formalmente : q m(x) = E[Y |X = x] = G k=1 fk (xk ) con q= número de funciones En el caso particular de utilización de polinomios de Hermit.

m(x) puede ser aproximada por m(x) = Esta forma "funcional"(en el sentido asintótico) si M crece en forma proporcional a n y si m(x) se aproxima a m(x) suficientemente bien.forma más compleja son series trigonométricas sin(kx).124-125).. es que dichas series aproximan bastante bien m(x) para el caso multivariado. junto con términos en cosenos y polinomios (ver Pagan y Ullah p... se cumple que: u−1/2 [E(m(x)) − m(x)] → 0 mientras n → ∞ con u = σ 2 (Z (Z Z)−1 Z).. Una sugerencia de base que funciona bastante bien es una forma funcional flexible de series de Fourier donde las funciones base tienen las siguientes formas: sin(x1 + x2 ).. La idea central de esta forma flexible. sin(2(x1 + x3 )).. sin(2(x1 − x3 )). De esta manera.. En particular bajos ciertos supuestos (B1-B7.. 54 . .. L J yi = l=1 j=1 [γjl cos(jkl xi ) + δjl sin(jkl xi )] con kl vector de valores entre -1 y 2 (ver siguiente tabla ) y L y J realcionados con M/2. en teorema 3. sin(2(x1 + x2 )). En geneal la aproximación multivariada mediante series de Fourier tiene la siguiente forma.9 Pagan y Ullah).. sin(x1 + x3 ). desarrollada por Gallant. M/2. cos(kx) para k = 1.. La idea es estimar θ en el modelo: n y= i=1 zik θn + ui M k=1 zk (x)θk .. sin(x1 − x3 )..

Estos se ilustran en el siguiente gráfico.0.1) (1.2) (0. K ∗ =3 k∗ 1 2 3 (1.-2) (0.-1. A diferencia de la regresión paramétrica.-2.0) (1.Conditional Moment Estimation Tabla3. cálculos para valores cercanos a cero pueden ser obtenidos pero con intervalos de confianza (varianza) muy altos y por lo tanto. la imposición será alta.-1. Sesgos en las regresiones usando Kernels: Existen dos fuentes de sesgos en una regresión mediante Kernel.-1) (0.-1.2) (2.-2) (2.-1) (1.1.1.2. y en su ocurrencia el intento de calcular la regresión en estos caso implica dividir por cero.0) (1.-1) (1.0. No obstante.1) (1. No es posible calcular la esperanza condicional para valores de x donde la densidad es cero.1) (0.2.1.1) (0.1) (0.0) (1.1. Multi-indices {kl } for q=3.-1.0. es imposible utilizar regresiones no paramétricas para calcular predicciones fuera de la muestra.3. 3.-1) (0.0.0) (2. 4.-1) (1.0.2.1. La gran ventaja de la regresión no paramétrica es el hecho que no asume forma funcional alguna permitiendo no solo que los datos "escojan"los parámetros estimados sino que la forma de la curva también.1.0.1) (1. Si x no puede ocurrir no tiene sentido condicionar.1.0) (1. ver (12). 55 . 2.1.0.0) (1.0.0) (1.1) (0. 2.-1) Comparación entre regresión paramétrica y no paramétrica: 1.1.0) (2.3.1.

Suponga que x1 es el valor menor de las x’s en la muestra. Cuando tratamos de estimar la regresión por kernel en x1 . sólo en el caso lineal no existiría sesgo. y2 e y3 donde y2 captura la mejor parte del peso y con ∗ tomando el mismo peso y con los pesos sumando 1. En consecuencia. x3 están igualmente espaciados y donde tenemos dos funciones de regresión. x2 y x3 contribuyen a la estimación de y2 . En consecuencia. Si la verdadera función fuera convexa. el promedio de los puntos vecinos sólo incluirán aquellos que están a la derecha y por lo tanto existirá un sesgo hacia arriba en la estimación (si la regresión tiene pendiente positiva). m1 la que es una línea recta y m2 una curva. no todo el sesgo puede ser eliminado mediante un modelo lineal. Dado el ancho de banda h sólo los puntos x1 . No obstante. Partamos con el caso de la función m2.Bandwidth y3* m2 y2* y3 m1 y2 y1 x1 x2 xa xb x3 Sources of Bias in kernel regressions Los puntos x1 . este valor será un ∗ ∗ ∗ promedio ponderado entre y1 . Al considerar los valores extremos también cierto sesgo puede aparecer. el sesgo sería cada vez menor a medida que el tamaño de la muestra aumentara ya que el bandwidth será cada vez menos y. Desafortunadamente. Un problema análogo se observará en la otra parte de la muestra. 56 . y1 e y3 Dado que la función de regresión es cóncava. transformaciones previas de los datos que tiendan a la linealización de la relación (como logs) serán útiles para eliminar esta clase de sesgo en la regresión por kernel. x2 . Este sesgo disminuye a medida que nos movemos de las puntas hacia el centro pero si el bandwidth es amplio este sesgo puede ser distorsionador. este promedio ponderado será menor ∗ que y2 y por lo tanto la estimación estará sesgada hacia abajo. a saber. salo x2 contribuirá a estimar la media condicional. el sesgo será hacia arriba y por lo tanto. en el límite.

Este procedimiento se puede realizar en forma análoga con el fin de obtener m2 (x2 ) y así sucesivamente. cómo se puede eludir el segundo sesgo. entre otras cosas nos ayuda a solucionar el problema del çurse of dimensionality"que surge al utilizar las aproximaciones por series. Por una parte. Una forma de llevar a cabo esta última etapa es mediante el reemplazo de f (x2 ) por una función determinística f (x2 ) con la condición que integre a la unidad. es la ya discutida aproximación utilizando series. 57 . veamos. x2 ) = n wj (x1 . pero existen otras. Supongamos que el número de regresores q. x2 )f (x2 )dx2 ya que m(x2 )f (x2 ) = 0 dado el supuesto de que E(m2 (x2 )) = 0. estimadores de f2 (x2 ) y m(x1 . x2 ) entregan un estimador de m1 (x1 ). si bien sabemos que : m1 (x1 ) = m(x1 . Una forma es imponer una estructura de los momentos condicionales. Entonces. Una forma. n → ∞). la cual evita el primer sesgo ya discutido. x2 )yj dejando j=1 sólo el problema de que hacer con f2 (x2 ). si a pesar de tener una relación lineal. es igual a 2. Pero que sucede si no demos hacer esto en la práctica. Por otra parte. x2 ) puede ser estimado en forma no paramétrica m(x1 . existen un tipo de aproximaciones que se denominan Modelos Aditivos Generalizados los que tiene la siguiente estructura : q yi = j=1 mj (xij ) + ui donde mj son funciones de variables unitarias con E[mq (xq )] = 0 condición necesaria para su identificación. m(x1 . al aplicar valor esperado tenemos que: m(x1 . x2 ) = m1 (x1 ) + m2 (x2 ) entonces. La respuesta es ampliar la muestra (es decir.La pregunta que surge es. m(x1 . x2 )f (x2 )dx2 = {m1 (x1 ) + m2 (x2 )}f (x2 )dx = m1 (x1 ) + 0 y de esta manera. el cual.

3. Estimación: regresión por kernel del tipo yi = m(xi ) + ui 58 . medida por un aprueba estándar.4. y nivel de educación. tenemos que: yi − E(yi /x2i ) = [x1i − E(x1i /x2i )] β + ui donde β puede ser estimado vía OLS una vez que E(yi |x2i ) y E(x1i |x2i ) han sido reemplazados por sus estimadores tipo kernel u otro similar. x2 )f (x2 )dx2 . 2. finalmente. medida como el máximo nivel de educación alcanzado por los individuos entrevistados. Supongamos que la variable y depende nuevamente de dos variables aleatorias x1 y x2 estructura que puede ser descrita de la siguente forma: yi = x1i β + g1 (x2i ) + ui Dado que E(yi |x2i ) = E(x1i /x2i )β + g1 (x2i ). Ejemplos de aplicaciones de estimación de momentos condicionales Di Nardo y Tobias (JEP 2001). el estimador de m1 (x1 ) será: m1 (x1 ) = n m(x1 . Así. g1 (x2i ) puede ser recobrado de la siguiente manera: g1 (x2i ) = E(yi |x2i ) − E(x1i |x2i ) β Notar la aparición de β en estas dos últimas ecuaciones. Otra forma alternativa de la estimación de momentos condicionales es el modelo "Lineal Parcial".De esta forma. donde existen parámetros de interés económico en un modelo de características no paramétricas. x2 )dF (x2 ) wj (x1 )yj donde: wj (x1 ) = wj (x1 . Ello nos lleva al mundo de la "estimación semi-paramétrica". Modelo : como afecta al salario por hora (en logaritmos) la habilidad cognitiva. x2 )f (x2 )dx2 yj · j=1 n = = j=1 wj (x1 .

3 desviaciones estándar bajo la media de esta variable hasta 1. 59 . Estos 5 valores estimados se agruparon de modo de graficar la esperanza condicional de log wages sobre el espacio habilidad-educación. fue separada en 5 categorías y para la variable habilidad cognitiva se creo una grilla de 20 puntos separados uniformemente los que denotaban aquellos individuos desde 0. De esta manera se necesitaron cinco regresiones no paramétricas con el fin de describir la relación entre habilidad y (el log) de los salarios por hora al interior de cada grupo educativo. el cual minimiza el siguiente problema de mínimos cuadrados ponderados: n α0 .5 desviaciones estándar sobre la media.∗ donde el estimador de m(x0 ) es denotado por αo . la variable educación.α1 m´ ın (yi − α0 − α1 (xi − x0 ))2 K i=1 xi − x0 h Para este caso particular.

∗ yi = yi − zi β0 ∗ (iv) Obtener una regresión lineal local no paramétrica usando yi y xi para obtener un estimador de m. También para niveles altos de educación existen retornos crecientes a los niveles de educación más bajos donde tiene forma de U invertida. para ver el aumento del “curse of dimensionality” y los beneficios en términos de ahorro de costos computacionales.7exp[−16(x − 1)2 ] y con ε ∼ N (0. excepto en habilidad baja y educación alta. Para ellos consideremos este sencillo modelo: yi = zi β + m(xi ) + εi Una forma de estimar un modelo como este .3exp[−4(x + 1)2 ] + 0. Veamos una aplicación práctica de este modelo para el cual se ha generado 300 puntos el que incluye componentes paramétricos como también no paramétricos con la siguiente estructura: y = 2z1 + z2 + m(x) + ε donde m(x) = 0.Comentarios: Con respecto al Bandwidth: el de la izquierda se obtuvo con un h óptimo de acuerdo con los criterios ya vistos.01In ). Con respecto a los resultados: salarios suben a medida que la educación sube dado un nivel de habilidad. y por ende. lo que es un problema de disponibilidad de datos más que de inconsistencia económica. más "saltos". Además x es generado uniformemente en el intervalo [-2. Calcular primeras diferencias de todos los datos ordenados. 0. es la siguiente: (i) Ordenar los datos por valores ascendentes de x (aquellos que deseamos tratar no paramétricamente).2] y z1i ∼ N(0. Los siguientes gráficos muestran la verdadera así como los resultados de las variadas 60 . 1) y z2 independientemente generado a partir de una t-student con 4 grados de libertad.5xi . (ii) Obtener un estimador de β usando diferencias de las variables z e y [esto es :∆yi = β0 ∆zi + ui ] (iii) Ajustar la variable dependiente original yi al sacar el efecto de las variables z. Otro ejemplo: Ahora bien veamos resultados mediante el uso del modelo semi paramétrico “partially linear model” entre otras cosas. Aquel de la derecha es con h más pequeño.

Particularmente. los modelos analizados para modelar de elección discreta descansan en forma imprtante sobre los supuestos que se asuman acerca de la distribución de los errores. El mundo no paramétrico ofrece una alternativa de solución para estos casos. 2. Recordando lo que se había mencionado.4. concentrándose en la parte no paramétrica. la violación del supuesto acerca de la distribución de los errores generarán estimadores inconsistentes. Lo anterior motivó la búsqueda de especificaciones mas flexibles acerca de la distribución de los errores. 61 . Estimación Semiparamétrica de modelos con variables de elección discreta Finalmente retornamos al punto que habíamos dejado durante el primera sección de estas notas y que tenía que ver con la estimación de modelos con variable dependiente binaria. dada la no linealidad en los parámetros que resultan de escoger la función logística o normal acumulada para estimar.estimaciones.

∗ yi = xi β + ui ∗ donde yi es la variable no observada o latente y el econometrista sólo observa si y ∗ es positivo o no (o yi es 1 o 0). entonces: ∗ P [yi = 1] = P [yi > 0] = P [xi β + ui > 0] = P [ui > −xi β] = F [xi β] =: Fi bajo la condición que u esta simétricamente distribuido entorno a 0. Como vimos. para cualquier modelo de elección binaria 62 . vimos que si utilizamos especificaciones no paramétricas para determinar valores esperados condicionales nos enfrentaremos al problema del curse of dimensionality.4 . Si asumimos que ui es i. el cual se agrava mientras mas regresores incorporamos en las estimaciones. el cual presume una forma funcional conocida para F (·). La función de verosimilitud para β en ambos casos n 5 viene dada por: (15) logL = i=1 {(1 − yi ) · log(1 − Fi ) + yi · logFi } con las condiciones de primer orden siguientes: ∂logL = ∂β n i=1 ∂Fi ∂β Fi−1 (1 − Fi )−1 (yi − Fi ) = 0 (16) Alternativamente.No obstante lo anterior. entonces P (yi = 1) = 1 − F (−xi β) = g(xi β)) y en general. podríamos estimar el modelo no-lineal yi = F (xi β) + ui .i. cuando u se distribuye normal. Retornemos a la estimación paramétrica del modelo de elección binaria MEB el cual utilizaremos como benchmark.d independiente de x. el cual tiene las siguientes FOC’s: n i=1 4 5 ∂Fi ∂β (yi − Fi ) = 0 (17) Si no deseamos imponer simetría. por mínimos cuadrados no-lineales. F (·) es la distribución normal acumulada y el modelo se denomina Probit. una forma de salir al paso es realizar estimaciones del tipo semiparamétrica pueda así esquivamos este último problema y nos concentramos en la variable de interés (ó aquella generadora del problema). cuando u es una distribución logística F (·) es eu (1+eu ) y el modelo se denomina Logit. Como vimos.

y deseáramos estimar la probabilidad de una decisión ∗ positiva (es decir. · · · . métodos no. Es importante notar que F (·) es una función del escalar xi β. de ahí el nombre de modelo índice unitario (single-index model). 6 en logit y probit la medida se define como cero 63 2 . eso si. 2. Notar que no se debería usar yi . En el mundo paramétrico. xi pues no captarán la naturaleza de índice único del modelo). propensity score de Heckman!!). algún tipo de normalización sobre los parámetros a estimar (después de todo.1. La normalización más conveniente (ver Pagan y Ullah) es imponer la condición de constante igual a cero y escalar el coeficiente de uno de las componentes de x como 1. q − 2 y donde θ es identificable.e.paramétricos podrían ser empleados para estimar dicha esperanza condicional al usar yi y zi = xi β como datos.6 Si no deseamos imponer restricciones a supuesto alguno sobre el error en el mundo no paramétrico. yi = 0 ó yi > 0) dadas las características del individuo xi . Así. θ) = x2i + x3i θ1 + · · · + xqi θq−2 j+2 con θj = β2 j=1. θ) se denominan modelos de índice único (i. deberemos imponer. sea conocida y uno de estos parámetros puede ser normalizado a 1. La función v(xi . tenemos : xi β = x2i β2 + · · · + xqi βq = β2 (x2i + x3i θ1 + · · · + xqi θq−2 ) = β2 · v(xi . la esperanza condicional está basada en este índice xi β y no en xi . la escala de los errores se ha normalizado a 1 y una medida de su ubicación central.Una forma de interpretar las condiciones de primer orden del estimador máximo verosímil es que en ellas se "pesan"las FOC del mínimo cuadrado no lineales (NLS) en forma apropiada para correguir la heterocedasticidad presente del error (yi − Fi ). Debido a esta dependencia. Lo esencial es que la forma funcional entre los parámetros. Si β fuera conocido. Todo esto dependerá de si se puede identificar correctamente una variable independiente continua con coeficiente no-cero (es decir β2 = 0). θ) es denominada "el índice no tiene necesariamente que ser lineal.4. Normalización de los parámetros en un contexto semi-paramétrico. β No olvidar que los modelos donde P (y = 1|x) = P (y = 1|v(x. donde esta última variable escogida debe ser continua. menos restricciones sobre los errores no pueden incrementar el número de parámetros identificables). θ) donde v(xi .

un estimador de θ (es decir. θ)] = 0 ∂θ La eficiencia de esta técnica depende de la habilidad para estimar m[v(xi . Estimador de Ichimura: Mínimos Cuadrados Semiparamétricos La idea central de este estimador es la siguiente: yi − E(y|xi ) = yi − F (v(xi . D−1 V D−1 ) con V = var(n1/2 v(θ0 . θ)). No obstante. por Nadaraya-Watson y v me lo doy. entonces posee uns distribucíón contínua. una al resolver las condiciones de primer orden como (16) o (17). por ejemplo. θ))}2 i=1 donde m puede ser estimado. θ) puede surgir al aplicar mínimos cuadrados a: n {yi − m(v(xi . 280) 64 .Existen dos formas principales para evaluar θ semiparametricamnte. 2.3. τo ) (ver Pagan y Ullah p. θ0 )) = yi − m(v(xi . θ) podemos 7 análogo al límite de eficiencia de Cramer-Rao (Pagan y Ullah p. Ello impone ciertas restricciones sobre los anchos de banda h si se utilizan métodos de kernel. de la velocidad de estimación. 2. θ) tiene un coeficiente no cero en una variable continua. θ). m es el estimador no paramétrico de E(y|v(x. Estimador de Klein-Spady: d Dado que v(x. si son bien seleccionados se podrá obtener consistencia n1/2 y normalidad. Esto es: n1/2 (θ − θ0 ) → N (0.4.7 . es decir. Aquí. θ)]. El primero de ellos se denomina estimador Ichimura (1993) y el segundo el estimador de Klein y Spady (1993) donde ambos alcanzan el limite de eficiencia no paramétrica. por ejemplo. f (v).277. Usando v para abreviar v(x.4. Las condiciones de primer orden para θ son: n i=1 ∂ m[v(xi .2. θ0 )) donde F es desconocida y v es conocida. θ)] · (yi − m[v(xi . ó bien al maximizar (15) donde F (·) y sus derivadas son reemplazadas por las estimaciones no paramétricas correspondientes de la media de yi condicional en v(xi . En consecuencia. y θ0 es el verdadero valor del parámetro θ.280).

escribir la siguiente relación: P (y = 1|x) = P (y = 1|v) f (y = 1|v) = f (v) = f (v|y = 1) · P (y = 1) f (v|y = 1) · P (y = 1) + f (v|y = 0) · P (y = 0) Todas las cantidades que aparecen en este último término pueden ser estimadas. ¿Cómo se hace esto en la práctica? Todos los estimadores se obtienen de procesos iterativos. En particular. las densidades condicionales por estimadores de densidad no paramétrica y las probabilidades incondicionales por las medias muestrales. A partir de ellos se obtiene un P (y = 1|v) en cual se incluye en (18) y se maximiza (1) obteniendo bks . Este último se compara con bks y si es muy distinto se hace todo esto de nuevo. f (v|y = 0). (0) primero se escoge un β. bks el cual entrega f (v|y = 1). para KSE: f (v|y = 1) = y 1 · f (v|y = 0) = n · (1 − P (y = 1)) · hn n (0) 1 · n · P (y = 1) · hn n yi K · i=1 v − xi bks hi v − xi bks hi (1 − yi )K · i=1 con n siendo el número de observaciones. 65 . De ser así. una forma funcional análoga al ML paramétrico puede ser escrita de la siguiente manera: n logL = i=1 (1 − yi )log(1 − P (y = 1|v)) + yi · log(P (y = 1|v)) (18) Diferenciando con respecto a θ. tenemos : ∂logL = ∂θ n i=1 ∂ P (y = 1|vi ) ∂θ · P (y = 1|vi )−1 · 1 − P (y = 1|vi ) −1 · yi − P (y = 1|vi ) = 0 De nuevo este estimador dependerá de la velocidad en la estimación de P(y=1|v). hn : bandwidth y K: kernel. En el caso de KSE. Notar que los P (y = 1) y P (y = 0) se obtiene de la muestra. Usando P (y = 1|v) para denotar un estimador obtenido a partir de la sustitución de los estimadores anteriores. Notar que en cada iteración se deben estimar los kernels de vuelta ahora con distintos v. el estimador encontrado alcanzará el límite de eficiencia NP.

4. Horowitz: Smoothed Maximum Score Estimator La idea básica es reemplazar la función indicador (1(·)) en el estimador de Manski por una función suavizante la cual se acerque a la función indicador a medida que n crece. distribución límite no-normal y candidato natural para hacer inferencia vía bootstrap.4.Extensiones KSE: ver Lee(95) para varias elecciones (polychotomous) aunque KSE no llega al límite inferior NP. Manski: Maximun Score Estimator Esta basado en la siguiente función objetivo: n Qn (β) = i=1 yi · 1(xi β > 0) + (1 − yi ) · 1(xi β < 0) el cual es n1/3 consistente. 2. 66 .5 (mediana). Ver paper Gerfin (1996). 1. la consistencia depende de F (0) = 0. Otros estimadores No paramétricos para los modelos de elección binaria Aquí entregamos una lista acotada de otros estimadores que sugiere la literatura aunque no son muy utilizados en la práctica. 2.

todos ellos con los mismos valores para el vector de características x. 1. dado que J < n tenemos lo que se denomina un modelo “completamente 67 . Existen a lo menos dos formas de estimar modelos de datos grupales. en este capítulo revisaremos algunas extensiones del modelo básico binario. nj el número de observaciones al interior de cada clase j. Comenzaremos con el análisis de datos grupales para luego continuar con modelos para situaciones con mas de dos elecciones. 3. Una en forma individual. · · · . podemos definir la función de verosimilitud (en logaritmos) para cada individuo. Extensiones del Modelo Básico Una vez que ya hemos analizado con cierto grade de detalle modelos de elección binaria. Análisis de datos Grupales En general. existen dos formas de analizar respuestas binarias. En forma análoga al caso individual.1. Ahora. si los x son constantes al interior de cada clase j entonces la función anterior puede ser re escrita como sigue : J logL = j=1 n pj · log(F (xj β)) + (1 − pj ) · log(1 − F (xj β)) (19) j 1 donde pj = nj · j=1 yi es la proporción de respuestas igual a "1"en la clase j y con n1 . xi ] la cual es la que hemos analizado hasta ahora. ahora xi en un conjunto de variables las que sólo difieren entre grupos y no al interior de ellos. es decir cada observación esta formada por la respuesta del individuo y un vector de regresores asociados a él [yi . Bajo este marco. los que se obtienen observando la respuesta de ni individuos. Máxima Verosimilitud: Si asumimos que existen J clases de grupos de individuos donde las características de éstos x son las mismas al interior de cada clase.3. Notar que la suma del MLE es solo sobre j términos y donde F puede ser la Normal o la Logística. La segunda alternativa es en forma grupal. de la siguiente forma : n logL = i=1 yi · log(F (xi β)) + (1 − yi ) · log(1 − F (xi β)) Ahora. entonces P (yi = 1) = F (xi β) pero cuidado. los datos consisten en proporciones de observaciones.

Entonces: πj = F (xj β) donde dim(β) = K con K < J.. el log-likehood tiene la siguiente forma: J logL = j=1 [pj · log(δj ) + (1 − pj ) · log(1 − δj )] · nj donde δj M LE = pj . De ser así. La idea es transformar la variable dependiente y usar Mínimos Cuadrados Ponderados (WLS).. Esto significa que para cada clase de x asignamos un parámetro diferente. sea πj . No olvidar que en el caso individual el número de observaciones crece en la misma proporción que la muestra.J no imponiendo condición alguna de como las covarianzas entre los δj pueden afectar las probabilidades. Ahora. supongamos que la verdadera probabilidad de que la clase j tenga la experiencia del evento. δj con j = 1. Si el modelo de datos agrupados es exitoso es porque resume las J celdas o grupos en forma parsimoniosa como función de un número limitado de variables x. LR = −2[ j nj pj · log(F (xj β)) + (1 − pj ) · log(1 − F (xj β))] −[ j nj pj · log(pj ) + (1 − pj ) · log(1 − pj )] el cual se distribuye χ2 [J−K] 2.saturado” con J parámetros. Una forma de probar esto es realizar un LR test entre el modelo completamente saturado y el original (19). Estimación por mínimos χ2 : La idea es que en datos grupales debemos ajustar un número fijo de clases independientemente del número de observaciones. . En la siguiente tabla se presentan algunos modelos con sus formas funcionales correspondientes Varios modelos de minimos χ2 para datos agrupados Model Probability Dependent variable Variance(ε) Linear Log-linear Probit Logit pj = Xβ pj = exp(Xβ) pj = Φ(Xβ) pj = Λ(Xβ) pj log(pj ) Φ−1 (pj ) log pj 1−pj pj (1−pj ) nj (1−pj ) nj pj pj (1−pj ) nφ(pj )2 1 nj pj (1−pj ) El procedimiento consiste en regresionar por OLS la variable dependiente de acuerdo a la tabla y se utilizan como pesos la inversa de la raíz cuadrada de la varianza 68 . Por ejemplo.

debemos recordar que al ser los coeficientes de ponderación funciones de parámetros desconocidos. Una derivación mas formal (ver Amemiya 275 ó Greene 769) pj = F (xj β) + donde E( j )=0 y V( j ) = πj (1−πj ) nj j) j = πj + j F −1 (pj ) = F −1 (πj + ≈ F −1 (πj ) + dF −1 (πj ) dπj j la última expresión corresponde a una expansión de Taylor en torno al punto j = 0. Ello mediante un OLS en la primera etapa (sin pesos) donde los estimadores serán consistentes pero no eficientes. con los pesos. Y luego. si se sabe que : exp(xj β) 1 + exp(xj β) πj 1 − πj πj = entonces. sabemos que F −1 (πj ) = xj β y ademá que. xj β = log 69 . Amemiya 1985: 275-280 demuestra que el estimador χ2 de β tiene las mismas propiedades que el estimador MLE. esto es. Pero. dF −1 (πj ) 1 = dπj f (xj β) F −1 (pj ) ≈ xj β + j luego se tinee que : fj obtiniéndose así el modelo de regresión lineal heterocedástico : F −1 (pj ) = zi = xj β + uj con E(uj ) = 0 y V (uj ) = Fj (1−Fj ) 2 nj ·fj Para el caso de logit (ver tabla anterior). E(pj ) = πj con la misma varianza. en la segunda etapa. se deben estimar previamente (dos etapas). No obstante.dada en la última columna de la tabla.

Para ello define las siguientes variables: y = 1 si la persona deja la marina antes de terminar primer año de enlistamiento. En la siguiente table se presentan los resultados alcanzados para las cuatro especificaciones empíricas. Warner estima cuatro modelos alternativos: (a) un modelo de probabilidad lineal con observaciones individuales. las variables independientes eran: años de educación. El puntaje del test de habilidad se dividió en cinco categorías. La edad en tres categorías (menos de 18. habilidad mental (Test AFQT). edad y raza. No obstante. habilidad mental. edad. En este estudio. Si bien este último procedimiento puede salir al paso del problema de los pesos negativos en la estimación por GLS de los β. Las distintas combinaciones de nivel de educación. 12 años y más de 12 años. raza y estado civil arrojaron un total de (3x5x3x2x2) 180 categorías o celdas en las que los individuos pueden clasificarse. Warner usa un p=0.000 reclutas hombres durante 1973.Un ejemplo Veamos un ejemplo ilustrativo de la estimación de modelos binarios con datos agrupados. (b) modelo de probabilidad lineal con observaciones en grupo. sugerido por Nerlove y Press (1973). 18 o 19 y mas de 19 años). (d) modelo logit con datos grupales. estado civil. en los casos que la estimación de p por OLS es menor que 0. Para la estimación del modelo de probabilidad lineal se aplicó el método de corrección de heterocedasticidad sugerido por Goldberger. y = 0 en otro caso.02. La educación se dividió en tres categorías: menos de 12 años. La variable dependiente era si la persona se retiró anticipadamente del programa antes de terminarlo. Warner (1978) considera el problema de predicción de deserción para los enlistados en la marina de los EEUU. 70 . Estos son los datos grupales.000 individuos extraído de un total de 67. La muestra consistió en 30. los problemas de interpretación del modelo como una de probabilidad aún persiste. (c) modelo logit con observaciones individuales.

96) 0. las variaciones entre el modelo estimado en forma grupal y aquel individual son poco significativas.20) -0. Para el primer caso se aplica generalmente modelos probit o logit multivariados mientras que para el segundo caso se aplican los denominados multinomial logit cuando las alternativas no tienen un orden pre establecido (no ordenados) o ordered probit cuando el orden de las alternativas importa (caso ordenado).52) -0.179 (9.75) Dependents -0. donde además de lo anterior.65) 1.052 (6.16) -0.097 (10.42) Ed>12 0.037 (4.42 (6.136 (3.950 (40.23) -0.032 (3.959 (61.61) -0.031 (4.046 (4.349 (5. las características de las alternativas en sí mismas también influyen en la probabilidad de cada alternativa.208 (3.95) 0.00) Mental group II 0.098 (12.000 137 30.145 (3.081 (1.185 (4. Notar.14) -0.028 (3. Modelos con más de una elección Hasta el momento nos hemos concentrado en modelos donde la variable dependiente puede tener solo dos valores.672 (21. Este caso será abordado por el Conditional Logit atribuible a McFadden (1976).79) 0. eso sí.00) Mental group IV -0.79) 1. 3.24) Race 0. en la vida real nos podemos encontrar con situaciones donde existan fenómenos que pueden ser descritos como procesos que involucran mas de una decisión.166 (3.084 (9.105 (17.50) 0.000 137 (t values entre paréntesis) Como se observa.169 (3.28) Constant 0. donde las probabilidades de elección de cada alternativa dependen solo de las características de quien decide.2.51) -0.04) 0.46) -0. en este caso existen a lo menos dos situaciones: 1.109 (14.24) -0.022 (3. la menor cantidad de datos necesarios para la estimación de los datos en forma agrupada.96) 1.15) 0.403 (5.21) Age<18 -0.881 (25.6) Mental group III -0.882 (20. a saber: (i) individuos que tienen que tomar varias decisiones cada una de ellas entre dos alternativas o bien (ii)una elección donde hay mas de dos alternativas (ordenadas o no ordenadas).021 (3.70) 0.027 (4.82) -0. Como se mencionó.56) -0.040 (6.13) -0.201 (4.14) Age>19 -0.09) 0.039 (3.87) N 30.345 (7.581 (12.571 (9.61) 0.349 (4.71) -3.084 (9.30) -0.024 (2. Bajo esta situación modelamos dichas probabilidades con un Multinomial Logit (MNL). No obstante.51) 0.04) -0.020 (3.70) -0. Comenzaremos con la revisión de aquellos casos donde existen mas de dos alternativa de elección pero donde hay sólo una elección.04) -0. 2.88) 0.98) -0.32) 1. 71 .053 (7.027 (3. En general pueden existir a lo menos dos tipos de situaciones cuando hay mas de una elección.284 (2.87) Mental group I 0.656 (14.Comparación entre los parámetros estimados: datos individuales y por grupos Variable Individual linear Grouped linear Individual logit Grouped logit Ed<12 -0.

La idea detrás del multinomial logit es expresar estas probabilidades en forma binaria. m las probabilidades asociadas a la elección de estas m categorías.3. Desde el punto de vista computacional la distribución logística para el error hacen que G(βj X) sea igual a exp(βj X) y entonces:8 eβj X pj = D 8 j = 1.. m − 1.m − 1 (22) aunque técnicamente se puede asumir cualquier distribución para u en el modelo y ∗ = β X + u 72 . m−1 j=1 pj 1 − pm 1 = = −1 pm pm pm tenemos que:  pm =  1 + j=1 m−1 −1 G(βj X) (20) y entonces: pj = G(βj X) 1+ m−1 j=1 G(βj X) (21) Podemos considerar que las observaciones son obtenidas de una distribución multinomial con las probabilidades dadas según (19) y (20). Sea: p1 = F (β1 X) p1 + pm p2 = F (β2 X) p2 + pm pm−1 = F (βm−1 X) pm−1 + pm esto implica que: F (βj X) pj = = G(βj X) j = 1. Veamos. 2. · · · . 2.. pm 1 − F (βj X) ya que. la probabilidad de escoger una alternativa j o de no hacerlo. Modelos para alternativas múltiples no ordenadas Multinomial Logit Model Suponga que hay m categorías. ..1. . donde pj con j = 1.2. Esto es...

.. la función tiene la siguiente estructura: n m logL = i=1 j=1 yij · logpij donde i representa al individuo y j la alternativa.. k = 1..m − 1. m−1 βj X k=1 e Estimación del MNL Cada uno de los n individuos escogerá la alternativa k con probabilidad dada por (21)... Si xi es el vector de observaciones para el individuo i. entonces pij con j = 1.. De esta manera..con D = 1 + este modelo se conoce como multinomial logit. podemos obtener las siguientes expresiones más simples: ∂pij ∂βj ∂pij ∂βk ∂pim ∂βj = pij (1 − pij ) · xi = −pij · pik · xi = −pij · pim · xi  yij  (−pij · pik ) xi pij j.m − 1 Entonces el score viene dado por:  ∂logL ∂βk n = i=1 n  yik · pik (1 − pik ) +  pik (yik − pik )xi = 0 j=1 j=k = i=1 73 .m − 1 son las probabilidades para el individuo i de escoger j. Dado que : pij y también que : pim = 1 1+ n−1 k=1 exp(xi βk ) = exp(xi βj ) 1+ m−1 k=1 exp(xi βk ) j = 1. 2. . la función de verosimilitud del MNL es la siguiente: n L= i=1 pyi1 · pyi2 · · · pyim i1 i2 im transformando en logaritmos. . 2. 2. Así yij = 1 si el individuo escoje la categoría j y yij = 0 en otro caso....

para la iteración de las rutinas para encontrar los valores óptimos a partir del score se pueden considerar como valores iniciales para obtener los β s aquellos resultantes de los modelos logit simples para cada alternativa j ó bien los coeficientes de una función discriminante. mas que las características de los individuos en sí. la matriz de segundas derivadas se obtiene a partir de: ∂ 2 logL =− ∂βk · ∂βk n pik (1 − pik ) · xi xi i=1 n ∂ 2 logL = ∂βk · ∂βl pik pil · xi xi i=1 La cual es negativa definida lo que asegura una única solución. la probabilidad para el individuo i de escoger la alternativa j viene dado por la siguiente expresión : exp(β yij ) pij = m (24) i=1 exp(β yij ) 74 .. este modelo desarrollado por McFadden (1976) considera ciertas características de las opciones (vista por los individuos) como los determinantes de la probabilidades asociadas a cada elección.m − 1 (23) con una interptretación análoga que el caso del logit simple.. POr su parte.e. las ecuaciones del vector score (yik − pik )xi = 0 i=1 k = 1. . La estimación de ésta puede realizarse según los métodos ya vistos donde el estimador BHHH es un a alternativa sencilla. Suponga que existen m distintos trabajos cada uno caracterizado por tres variables (i) valor presente de ganancias potenciales. Newton-Raphson). Finalmente. Así. Conditional Logit Model Como se advirtió. (ii) costos de entrenamiento sobre ganancias netas y (iii) valor presente del tiempo en desempleo. Las ecuaciones (22) son no lineales en βk pues pik es una función no lineal de todos los β s y en consecuencia se aplican métodos numéricos (i. Sea yij : vector de valores de estas características para la ocupación j percibida por el individuo i..después de simplificar y recordando que pueden escribirse como : n m j=1 yij = 1. 2. Revisemos un ejemplo -Boskin (1976) que nos ayude a ilustrar este modelo.

9 aunque se necesita un tipo de normalización por ejemplo que el primer elemento de β sea igual a 1 75 .. Así. En cambio. en el conditional logit (ecuación 23) el vector β entrega el vector de precios implícitos para las características. Uno de los mejores usos de (23) es la de predecir la probabilidad que un individuo decida por una alternativa en particular (tipo de trabajo). a saber yij . Por supuesto que uno puede combinar ambas cosas y escribir (23) y (24) como: pij = exp(β yij + αj xi ) m k=1 exp(β yij + αk xi donde la probabilidad de escoger la alternativa j por el individuo i depende de las características del decisor xi y de las características de la alternativa j percibidas por el individuo i. un MNL modela la probabilidad de que un individuo con características xi escoja el tipo de profesión i con i = 1.. de la siguiente forma: pij = exp(αj xi ) m k=1 exp(αk xi ) (25) Cabe señalar que en (23) el número de parámetros a estimar es igual al número de características de las ocupaciones (alternativas). los pj tienen diferentes vectores de coeficiente βj . podemos predecir la probabilidad que escoja una de las m.m. para la cual tenemos el vector de características de las alternativas yij . Pero en (24) el número de parámetros a estimar es igual al número de características individuales multiplicadas por m − 1 donde m es el número de alternativas. 9 . en (25) dado un nuevo individuo..Notar que en el caso del MNL (ecuación 21). . Para el ejemplo anterior.

76 28.202 White female 0.492 0.56 4.089 0.37 7. Occupation Race-sex combination Menial Blue collar Craft White collar Professional Black female 0. raza y sexo.187 Black male 0.84 10.076) (0.013) (0.32 0. (3) una constante especifica de tren.001) (0.072 0.57) (1.002) (0.219 0.4 (cálculo de probabilidades) es el vector xi incluyó: educación.15 7.71 43.61) (1.78 time unemployment (0. (2) una constante especifica de C/P.051 -4. Las cuatros elecciones eran: auto/conductor (C/D).132) Training cost/net -0.378 potential earnings (0. experiencia.075)a (0.001) (0.073 0.15 2.35 -18.11 Number Choosing 953 78 279 145 Las es estimaciones de los parámetros asociados a cada alternativa se presentan en la siguiente tabla : 10 ver ejemplo 19. (5) tiempo de espera.23 81.4. tren y bus.136 0. Para el modelo básico.3.005 -0.47 C/D C/P Train Bus In-Vehicle Cost (dol) 64.Tabla 2. Probability of being in each occupation given average education and experience in 1970. La muestra consistió en 1455 observaciones.875 0. Resumen Estadísticas In-Vehicle Walk Time (min) Time (min) 28. Un resumen de los datos se presenta en la siguiente tabla. auto/pasajero (C/P). Table 3.192 White male 0. p. (4) tiempo de viaje.368 0. los atributos eran (1) constante especifica de C/D. Relative weights of occupational characteristic in the conditional logit decision model.012 worth (0. (9) número de vehiculos requeridos para la familia y (10) porcentaje de los gastos de transporte cubiertos por fuentes que no sean de la familia.74 -20.10 Hensher (1986) estima un modelo de elección de viajes urbanos para una muestra de Sydney. (6) tiempo caminando.010 -0.214 comparación entre grupos en 2.3 es una forma relativa β0 /β1 para tabla 2.396 0.002) Present value of -0.232 0. (8) costos de estacionamiento.296 0.61 Wait Time (min) 0. (7) costos de viaje.153 0.82) a Figures in parentheses are asymptotic standard errors Source: Boskin (1974.146 0.018 0.011 0.89 8.37 98.084 0.169 0. Veamos otro ejemplo de un modelo conditional logit.222 0.16 Greene 76 .65 0.395) Tabla 2.090) (0.50 38. Population group Variable White males Black males White females Black females Present value of 1.001 -0.188 0.

Ahora bien. De esta manera podemos notar que en el MNL se asume que la elección entre dos alternativas es independiente de las alternativas restantes.8973 (4. la exclusión de variables irrelevantes genera ineficiencia pero no inconsistencia. si la utilidad relativa de viajar en auto versus viajar en bus es alta. Pero si dicha utilidad es alta entre un auto rojo versus bus aumenta la probabilidad que viajar en auto azul sea relativamente mas preferible a viajar en bus. Específicamente se asume que los términos de error en la ecuación de elección subyacente son independientes entre sí.4 al tren o como pasajeros en un auto. = -2017.06186 Predicted N 1290 55 20 90 Actual N 953 78 279 145 Nota Precuatoria: Independencia de alternativas irrelevantes: Se había señalado que en el multinomial logit y en el conditional logit los coeficientes de las probabilidades eran independientes del resto de las alternativas.05) (9) 0.68) (6) -0.7) (5) -0.3286 (9.86) (2) -2.89 ∼ 14.1 Log likelihood at convergence=-598.0086 (-5.Parámetros estimados (t values entre paréntesis) (1) 0.03799 0.10) (4) -0. erróneamente podría asignarse el otro 7.1336 (-6. si la mitad de los autos que existen en el país son nacionales (o azules) entonces el cociente de probabilidades de ir a trabajar manejando en auto nacional o ir en bus es ahora 7.06 auto propio en vez de tomar el bus.0063 (-5.44) (7) -0.2154 (-10. En general.36) (3) 1. Probabilidades predichas y frecuencias C/D C/P Train Bus Probability 0.01390 0.83) (10) -0.0672 (-5.4 a1. a la luz de los resultados presentados en la última tabla. podemos concluir que existen C/D = 0.2 A partir de la información anterior se pueden determinar las probabilidades asociadas a la elección de cada alternativa junto a la predicción sobre la cantidad de personas que las escojen. La hipótesis de independencia es consecuencia de la hipótesis inicial de que las perturbaciones son independientes y homocedásticas. no necesariamente implica que la utilidad relativa de viajar en tren versus viajar en bus será alta también. Esta característica se conoce como la propiedad de independencia de alternativas irrelevantes.0119 (3.88625 0.0227 (-4.03) (8) -0.71) Log likelihood para β=0. Dicho de otro modo. Ello. ya que la relación de 14 a 1 se mantiene. En el ejemplo anterior. 77 .4524 (1.8 a 1 mayores probabilidades de manejar un bus 0.

generándose una estructura de árbol. k: rango de la matriz [Vs − Vf ] Si no se puede rechazar la hipótesis de independencia de las alternativas irrelevantes. la decisión entre las alternativas como siguiendo un proceso de etapas consecutivas. f : conjunto de todas las alternativas posibles. El modelamiento implica que el decisor puede escoger entre L subgrupos y luego escoger entre una de las alternativas dentro del grupo. es mediante la utilización de un Logit Anidado (Nested Logit). pero manteniendo la hipótesis de independencia de alternativas irrelevantes dentro de cada grupo. Bajo este esquema. 78 . Una forma es mediante un Probit Multivariado y la otra. Veamos cada uno de ellos. de ser posible. Elección Rama 1 C1/1 C2/1 Rama 2 C1/2 C2/2 Cabe señalar que este modelo surge. se agrupan las alternativas en subgrupos permitiendo que la varianza sea diferente en cada grupo. se define el siguiente estadístico : χ2 = (βs − βf ) [Vs − Vf ]−1 (βs − βf ) ∼ χ2 [k] donde : s: conjunto restringuido. omitirlo del modelo no llevará cambios sistemáticos en los estimadores de los parámetros. Existen a lo menos dos formas de resolver este problema. entonces serán inconsistentes los estimadores obtenidos mediante el MNL. Logit Anidado El principio subyacente a este enfoque es modelar. será necesario utilizar un modelo alternativo al logit multinomial ya que este último será inconsistente.Hausman y McFadden (1984) indican que si un subconjunto de alternativas posibles es verdaderamente irrelevante. relajando así el supuesto de homocedasticidad del logit condicional. Siguiendo el espíritu de las pruebas de Hausman. como modificación de la especificación estocástica del modelo logit condicional y no necesariamente como un modelo de comportamiento. Si son relevantes y dejarlos fuera. generalmente.

Supongamos que también los datos están formados por observaciones con atributos de las alternativas yj|l y atributos de los conjuntos alternativos zl con l = 1, ....L Así: P [subramaj , ramal ] = pjl = eβ yj|l +γ zl
L l=1 jl β yj|l +γ zl j=1 e

la cual puede ser escrita como pjl = pj|l · pl donde pj|l = y pl = eγ zl +τl Il
L γ zl +τl Il l=1 e

eβ yj|l
jl β yj|l j=1 e

donde Il = log jl eβ yj|l valor inclusivo de la l-esima rama y donde si τl = 1, entonces j=1 se recupera el modelo original. La estimación de un modelo logit anidado puede ser realizada por dos métodos alternativamente. En el primero de ellos, se estiman los β considerando la elección dentro de cada rama como un modelo logit condicional sencillo. Así se calculan los valores inclusivos de todas las ramas del modelo. Y luego, se estima γ y todos los parámetros τ considerando la elección entre ramas como un modelo logit condicional con atributos zl y Il . Este método se conoce como máxima verosimilitud con información incompleta (LIML). La otra forma es utilizando toda la información disponible (FIML) donde la función de verosimilitud viene dada por:
n

logL =
i=1

log[P (subrama|rama) · P (rama)]i

siendo esta última más eficiente que la estimación en dos etapas con Información Limitada. Veamos un ejemplo de aplicación de Logit Anidado. Hesher y Greene (1995) reportan estimaciones de un modelo de elección de modos de viaje entre Sydney y Melbourne, Australia. La base de datos contiene 75 observaciones sobre la elección de cuatro alternativas: Aire, Tren, Bus y Auto. Los atributos usados para este ejemplo son constantes especificas de las elecciones y dos medidas continuas: CG, una medida de el costo generalizado del viaje y TTIME, tiempo de viaje. Además se utiliza el ingreso del hogar, 79

HINC. Se estima un modelo logit anidado con dos ramas: FLY=(aire) y GROUND=(tren, bus, auto). Notar que una de las ramas tiene solo una elección, entonces la probabilidad condicional pj|f ly = paire|f ly = 1. El modelo se estima por FIML y LIML como así también con unn conditional logit con cuatro alternativas a modo comparativo. Los resultados encontrados se presentan en la siguiente tabla :
Nested Logit Models FIML estimates 3.8895 (0.52374) 1.0133 (1.5734) -0.0233 (0.01026) -0.066356 (0.01337) 3.8826 (0.1104) 0.02164 (0.01521) 0.7758 (0.24159) -65.40806 (Standard Errors in Perenthesis) Unconditional LIML estimates 3.6630 (0.70882) 3.5029 (1.0511) 0.84625 (0.97896) -0.03645 (1.4389) -0.01968 (0.007572) -0.07256 (0.02121) -0.06093 (0.015472) -0.02071 (0.02723) 3.3869 (1.1503) -1.8367 (0.7478) 0.02308 (0.01539) 0.03023 (0.01379) 1.0000 (0.0000) 0.05578 (0.11453) -65.73624 -82.68496

βtrain βbus βgcost βttime γair γhinc τ logL logL0

Como se mencionó, el LIML se estima en dos etapas. Hay dos pruebas acerca del anidamiento. El LR entre las dos formas de estimación -2(65.73-65.41)=0.65 resulta ser bastante m,enor que el χ2 crítico de 3.84. Y la segunda prueba basada en un test 2 de Wald del FIML con χ2 = (0,7758−1) = 0,861 entregando la misma conclusión. (0,24159)2 Multinomial Probit: Una solución alternativa al problema de la independencia de alternativa irrelevantes es estimar un MP en el cual las alternativas irrelevantes son generadas por una distribución normal multivariada interdependiente conjunta. Veamos el caso de tres alternativas: Y1∗ = V1 + Y2∗ = V2 + Y3∗ = V3 + con Vj vector de atributos de la variable j. Asuma que los residuos ( 1 , 2 , 3 ) tiene una dia cero y matriz de covarianzas Σ.  2 2 σ11 σ12 2 2 Σ = σ12 σ22 2 2 σ13 σ23 distribución trivariada normal con me 2 σ13 2 σ23  2 σ33
1 2 3

Considere que la probabilidad que la primera alternativa sea escogida: P (Y1∗ > Y2∗ , Y1∗ > Y3∗ ) = P (
2

1

< V1 − V2 ,

3

1

< V1 − V3 )

80

si η21 =

2

1,

η31 =

3

1,

V12 = V1 − V2 y V13 = V1 − V3 .

Entonces η21 y η31 tiene una distribución normal bivariada con matriz de varianza y covarianza: Ω=
2 σ1 2 2 2 σ1 + σ2 − 2σ12 σ1 − σ13 − σ12 + σ23 2 2 − σ13 − σ12 + σ23 σ1 + σ3 − 2σ13

Así la probabilidad de que la alternativa 1 sea escogida viene dada por:
V12 V13 −∞

P1 =

−∞

f (η21 η31 ) · dη21 dη31

donde f (η21 η31 ) tiene una distribución normal bivariada con matriz de covarianza igual a Ω y media cero. Para el caso de cuatro (4) alternativas terminaríamos con la evaluación de integrales triples (tres variables). Resumen El siguiente cuadro nos permite contextualizar la discusión de los modelos que hemos analizados hasta ahora y los que aún nos quedan por analizar.

Probit Dicotómica variable discreta Logit Lineal No y semiparamétrico no ordenada Policotómica ordenada secuencial
multinomial logit conditional logit ordered probit

En el siguiente box se resumen algunas propiedades ya discutidas para modelos de multiples alternativas no ordenadas. No ordenado: Multinomial Logit: probabilidades de escoger alternativa j dependen de las características del individuo i. Interés en estimar la probabilidad de que el individuo i escoja la alternativa j: Yij = 1 si i escoge j (j=1, 2, ....m). Denotaremos πij = E(Yi j)=probabilidad 81

. E(yij ) = πij = e(αj +βj xi +γzj ) m (αj +βj xi +γzj ) j=1 e (26) Efectos Marginales en MNL y CLM: MNL: ∂πj ∂xk K = πj βj − k=0 πk βk = πj βj − β 82 . MNL(τN ): E(yi1 ) = πi1 = 1 1+ m (αj +βj xi ) j=2 e E(yi2 ) = πi2 = e(α2 +β2 xi ) 1 + m e(αj +βj xi ) j=2 . E(yij = 1) = πij = e(αj +βj xi ) m (αj +βj xi ) j=1 e Theil Normalization ⇒ α1 = β1 = 0 notar que e0 = 1 permite una interpretación conveniente de los datos. esta normalización permite expresar la probabilidad relativa de observar el resultado j=2 en contraposición a j=1. πi2 = exp(α2 + β2 · xi ) πi1 o bien: log mas general log πij = xi (βj − βn ) πin πi2 = α2 + β2 · xi πi1 Conditional Logit Model: incorpora a la probabilidad de escoger j por el individuo i.que i escoja j con MNL: j πij = 1. las características de la opinión j junto a las características de i. .

Asumiremos que existe una variable latente : ∗ yi = xi β + i donde la variable observada indica en cual intervalo o categoría cae la variable y ∗ no observada por el econometrista. yi =  . CLM: ∂πj = πj (1 − πj ) · β ∂zj y ∂πj = −πj · πk · β ∂zk donde β es el vector de coeficientes estimados de (26). Nota: puede suceder ∂πj que ∂xk no tenga el mismo signo que βk .  J si µ ∗  µ1 < µ2 < . Vimos los métodos de LIML y FIML para estiamr dichas probabilidades. Aquí "desarmábamos"la elección en varias ramas y asumíamos que existía independencia al interior de cada rama o grupos pero no necesariamente entre grupos (ramas). . µj−1  j−1 ≤ yi   umbrales el algebra se simplifica bastante si se considera que: µ0 = −∞ ∧ 83 µj = +∞ .donde K: # de variables independientes y con πj la probabilidad predicha de obtener la escojencia de la alternativa j evaluada en la media del vector x. Aquí los datos están conformados por observaciones con atributos de las alternativas xj/l y atributos de los conjuntos de alternativas zl P [subramaj .   ∗  2 si µ1 ≤ yi < µ2   . .2. . Modelos para alternativas múltiples ordenadas A diferencia de los casos estudiados hasta el momento.2. Una forma de esquematizar el valor de la variable observada es la siguiente :  ∗  1 si yi < µ1 . ramal ] = Pjl = eβ xj/l +γ zl L l=1 Ji β xj/l +γ zl j=1 e que para la estimación se utiliza la propiedad de que Pjl = Pj/l · Pl . en esta sección consideraremos situaciones donde existe un orden natural entre las alternativas. 3. Nested Logit: otra forma de salir al paso ante la situación de rechazo de la hipótesis de independencia de las alternativas irrelevantes.

la variable dependiente observada puede ser definida de la siguiente forma : yi = j ∗ si µj−1 ≤ yi < µj j : 1.. es decir. la escala y origen de y ∗ son arbitrarios. σ 2 ) los que no son observables y luego deben ser estimados. P [yi = J] = 1 − Φ(µj−1 − xi β) Como en el caso de los modelos no ordenados. Así. podemos definir arbitrariamente: yij = 1 si yi = j. . Dado que los umbrales µ s y los valores de y ∗ no son observados. podemos llevar a cabo la siguiente normalización: σ=1 y µ1 =0. tenemos : ∗ P [yi = j] = P [µj−1 ≤ yi < µj ] = P µj−1 − xi β ≤ es decir. DE esta manera..Así.J Para estos casos. . son parámetros del modelo. 0 si ∼ Entonces el log-likelihood de la muestra viene dado por: n J logL = i=1 j=1 yij · log Φ(µj − xi β) − Φ(µj−1 − xi β) Las condiciones de primer orden son entonces: ∂logL = ∂β n J yij · i=1 j=1 φ(µj−1 − xi β) − φ(µj − xi β) Φ(µj − xi β) − Φ(µj−1 − xi β) 84 . se utiliza un modelo denominado Probit Ordenado para estimar esta ecuación donde se asume que los errores se distribuyen: i ∼ N (0. i < µj − xi β = Φ(µj − xi β) − Φ(µj − xi β) P [yi = 1] = Φ(−xi β) = 1 − Φ(xi β) P [yi = 2] = Φ(µ2 − xi β) − Φ(−xi β) .

. . Los efectos marginales del modelo probit ordenado son los siguientes: ∂P [yi = j] ∂xi ∂P [yi = 1] ∂xi ∂P [yi = J] ∂xi = φ(µj−1 − xi β) − φ(µj − xi β) · β = −φ(xi β) · β = φ(µj−1 − xi β) · β donde los dos últimos casos son aquellos en el extremo de la distribución.e. el efecto es ambiguo. el método de iteración usado (i. µ2 .y también : ∂logL = ∂µk n J yij · i=1 j=1 1(j = k) · φ(µj − xi β) − 1(j − 1 = k) · φ(µj−1 − xi β) Φ(µj − xi β) − Φ(µj−1 − xi β) Para el caso de las segundas derivadas. dos umbrales).11 f(e) y=0 -x'beta 11 y=1 u1-x'beta y=2 e aunque con la normalización sólo queda un solo umbral por estimar. NewtonRaphson) convergerá al máximo global del log-likelihood. Veamos lo que ocurre gráficamente para el caso de tener tres alternativas ordenadas (i. Cabe señalar que la función de verosimilitud se debe maximizar con respecto a (β. Para aquellas categorías o alternativas en el centro.. y por lo tanto. µJ−1 ) es decir hay k + J − 2 parámetros por estimar. µ3 . . ver Maddala 1986:49 donde se demuestra que el Hessiano es negativo definido.e. 85 . Si se asume que el β obtenido es positivo entonces el signo de estar derivadas será negativo para el primer umbral y positivo para el último.

Los empleo se dividen en tres grupos genéricos: "de especialización media". < El siguiente ejemplo muestra una aplicación de un modelo de probit ordenado. de "especialización alta de "especialización alta con conocimiento de energía nuclear". (4) AE=años de educación del recluta. Marcus y Greene (1985) estimaron un modelo probit ordenado para estudiar como la armada estadounidense asigna empleos entre sus reclutas. no obstante en el medio el efecto no es concluyente ∂P∂xi ≥ 0. La armada intenta colocar a cada recluta en el puesto de trabajo en el que vaya a resultar más productivo. Puesto que la asignación se hace tanto de factores específicos de los individuos como de las propias necesidades y criterios de la armada.P [y = 0] = 1 − Φ(x β) P [y = 1] = Φ(µ1 − x β) − Φ(−x β) P [y = 2] = 1 − Φ(µ1 − x β) El siguiente gráfico ilustra los efectos marginales asociados al cambio en una de las variables independientes xi . entonces inequivocamente P (y = 0) tendrá menos masa y P (y = 2) aumen(y=1) tará. (2) EM=nivel educativo de la madre del recluta. se utilizo un modelo probit ordenado con las siguientes variables explicativas: (1) FP=variable binaria que indica si el recluta ha obtenido previamente algún diploma en un instituto de formación profesional o no. (3) EX=calificación obtenida en un examen de ingreso. f(e) e Del gráfico anterior se observa que al aumentar una de las x manteniendo constante los β y µ equivale a desplazar la distribución hacia la derecha. (5) CAS=variable binaria que 86 2 . Si el β asociado a esta x es positivo.

Por lo tanto.9 71.7 0. Por otra parte.8479) = 0.184 CAS=1 -0. Podemos analizar el efecto de estas comparando las probabilidades que se obtienen cuando la variable binaria se evalúa es cada uno de sus dos valores posibles y las demás variables se evalúan en sus medias muestrales.039 = 0.057 1.0009 = (0.173.9421)=0.039 39. Este enfoque no resulta apropiado para evaluar el efecto de una variable binaria.66 EM 0.255)0.155 -0.278)0. es necesario evaluar la densidad normal estándar en −β x=-0.8479)=0.9037 0. Las dos densidades son φ(−0. son: ∂P0 ∂EX ∂P1 ∂EX ∂P2 ∂EX = (−0.641 observaciones.198.255)0.084 cambio 0. (6) EDAD=edad del recluta en el momento que se alistó.3837 0.4063 1.25. las frecuencias relativas observadas eran: 0.8479)=0. 0.52 y 0.8479 y en µ − β x=0.indica si el individuo estaba casado o no en el momento que se alistó.007 0.1 EX 0. De esta manera odemos obtener las probabilidades estimadas. La siguiente tabla muestra los resultados obtenidos.187 0.2 AE 0. las que son Φ(0.278 − 0.100 87 .23.255. Estimación de la ecuación de asignación de empleos Variable Estimador Estadístico La variable Constante -4.8 12.190 8.7 12. La muestra obtenida fue de 5. Efecto marginal de una variable binaria.039 = −0.039 = 0.8 - Es lógico el enorme valor del estadistico t asociado a la variable EX. en la siguiente table se entregan los resultados que se obtienen para la variable CAS.9421.79 80.574 0.1 CAS -0.01084 = (0.00995 Obsérvese que la suma de los efectos marginales es cero.8 µ 1.628 y 1-Φ(0.9421)−Φ(−0.0 0.342 0. pues la Armada tiene muy en cuenta el resultado de este examen cuando asigna un puesto de trabajo. Φ(0.0015 0.8863 0. −β x µ − β x P[y=0] P[y=1] P[y=2] CAS=0 -0. Por su parte.08 EDAD 0. lo que es consecuencia de que la suma de las probabilidades sea igual a 1.629 0. si se quieren obtener los efectos marginales de las variables continuas. por ejemplo.9421)=0.48 -9.278 y φ(0.055 -0. las derivadas con respecto a las tres probabilidades con respecto a la variable EX.1 18.34 FP 0. Por ejemplo.

el conjunto completo de θ no esta identificado. Dado que el vector x contiene una constante. xi ) = φ(j−1)i − φji Φji − Φ(j−1)i donde φji = φ(wij ) y wij = θj − xi β. .  φji ηij =  Φji −Φ(j−1)i si yi = j + 1  0 ∼ para j=1. . . Para los datos de 1980 que son usados J=3. .. J donde θ0 = −∞ and θj = ∞. . La normalización θ1 = 0 es adoptada. y para 1984 J=5. Los errores generalizados para este modelo están dados por: ∗ E(yi − xi β/yi = j.. puede ser especificado como: ∗ yi = x β + ε i εi ∼ N (0.2.Test de Diagnostico para Modelos Probit Ordenados: ∗ El modelo de variable dependiente latente. Momentos condicionales de orden mayor para la variable latente pueden ser especificados en término de las funciones definidas por Stewart (1983) como: Mτ i = τ τ w(j−1)i φ(j−1)i − wji φji Φji − Φ(j−1)i 88 . 1) ∗ La información observada nos da J intervalos en los cuales yi puede caer: yi = j ∗ si θj−1 < yi < θj j = 1. La "threshold score contribution"esta dad por:  φji  Φji −Φ(j−1)i si yi = j.. Entonces los residuos generalizados o primer momento de los residuos están dados por: ei (1) = φ(j−1)i − φij Φij − Φ(j−1)i donde ( ) denota que el parámetros desconocido ha sido reemplazado por su estimación MLE. El test score de GDV fue derivado por Chester y Irish (1987). La log-likehood esta dada por: J logL = j=1 yi =j log Φ(θj − xi β) − Φ(θj−1 − xi β) Este modelo difiere del modelo de variable dependiente(GDV) en grupos considerado por Stewart (1983) en donde θj eran parámetros a estimar y no conocidos y constantes. yi .

Un test score es construido para la hipótesis nula de que α=0. construido como un caso particular del test previo donde qi contienen potencias de yi = xi β ˆ∗ Heterocedasticidad: la varianza de ε se asume de la siguiente forma: 2 σi = 1 + q/α (1) (1) las filas de F para el test score de que α=0 son: Fi = (ˆi xi . η2i . . ξ es simplemente n veces el R2 de una regresión de 1 sobre las columnas de F. η(J−1)i . . . ei qi ) e ˆ ˆ ˆ bajo la hipótesis nula ξ se distribuye como χ2 (k) Normalidad: 89 (1) (2) . cada fila contiene la contribución del score de todos los parámetros del modelo. Test estadísticos: Variable explicativas omitidas: El modelo general se asumen que es: ∗ yi = xi β + qi α + εi donde q es de dimensión q y no incluye la constante. . . . donde las filas de F están dadas por: Fi = (ˆi xi . (k) Forma seudo-funcional: forma modificada del test RESET (Ramsey). el test estadístico es de la forma ξ de arriba. ei qi ) e ˆ ˆ Bajo la hipótesis nula ξ se distribuye como χ2 . η(J−1)i .Los primeros cuatro momentos residuales son definidos como: ei ˆ ei ˆ ei ˆ ei ˆ (1) (2) (3) (4) ˆ = M0i ˆ = M1i (1) ˆ = 2ˆi + M2i e (2) ˆ = 3ˆ + M3i e i El estadístico del test score reportado en este paper toman la forma de: ξ = 1 F (F F )−1 F 1 donde 1 es un vector de unos de dimensión n y F una matriz de orden n. .

θij = θj + q/αj y el test score puede ser construido para la nula de que αj = 0.. . . . η2i qi . . . η(J−1)i .J-1. . .. η(J−1)i qi ) e ˆ ˆ ˆ ˆ Bajo la hipótesis nula ξ se distribuye como χ2 k(J−2) (1) (1) (3) (4) 90 . Las filas de F en este caso estarán dadas por: Fi = (ˆi xi .. . j=1. ei ) e ˆ ˆ ˆ ˆ Heterogeneidad en los umbrales: bajo la hipótesis alternativa. η2i . η2i .. ei . .Las filas de F en el test usual χ2 para asimetría y/o Kurtosis están dadas por: (2) Fi = (ˆi xi . . 2. η(J−1)i . los umbrales pueden variar sistemáticamente sobre las observaciones...

Uno de ellos es el conocido análisis discriminante y el otro el modelamiento mediante datos de panel de variables binarias.1.. Tópicos Especiales con Variable Dependiente Binaria En este corto capítulo revisaremos dos aspectos adicionales de modelos de elección binaria.. El objetivo entonces será escoger los coeficientes. de tal manera de maximizar: φ= [λ (µ1 − µ2 )]2 λ Σλ donde µ1 y µ2 son la media del vector X en ambos grupos y donde Σ es la matriz de varianzas y covarianzas en cada grupo. se asume sólo un conocimiento básico de este tema. como generalmente ocurre. Si bien los aspectos de datos de panel serán abordados en un capítulo separado. De esta forma... λ = Σ−1 (µ1 − µ2 ) Si los parámetros poblacionales no son conocidos. . . De esta forma. el costo esperado total CE viene determinado por la siguiente expresión : CE = C1 · p1 f1 (x)dx + C2 · p2 91 f2 (x)dx R1 R2 . Sea C1 el costo de clasificar erróneamente a un miembro de π1 en π2 y C2 el costo de clasificar erróneamente a un miembro de π2 en π1 . la cual se asume igual para ambos. . se utiliza una combinación lineal de las observaciones: y = λ1 · x1 + λ2 · x2 + . x2 . xk ).4. 4. Probabilidades previas y costos por clasificación errónea: Sea p1 la proporción del grupo π1 y p2 la proporción del grupo π2 . los parámetros pueden ser estimados de la siguiente manera : ˆ λ = S −1 (X 1 − X 2 ) con S= 1 n1 + n2 − 2 (X1i − X 1 )(X1i − X 1 ) + i i (X2i − X 2 )(X2i − X 2 ) donde X 1 y X 2 son las medias muestrales de cada grupo respectivamente. λk · xk donde y es una variable binaria que representa si el individuo pertenece a un grupo en particular. Análisis Discriminante El problema que se trata de modelar en esta situación es el de clasificar un individuo en una de las dos poblaciones posibles π1 π2 basada en un vector de características X = (x1 .

f1 (x). entonces se tiene que : 1 fi (x) = (2π)−n/2 |Σ|1/2 exp − (x − µ1 ) Σ−1 (x − µ2 ) 2 y en consecuencia:   (29) f1 (x) 1   = exp (x − µ1 ) Σ−1 x − (µ1 − µ2 ) Σ−1 (µ1 + µ2 ) f2 (x) 2 f (x) constante y así. Datos no normales y discriminación logística: El modelo discriminación lineal que hemos revisado descansa en los siguientes supuestos: 92 . Adicionalmente. Dado que: R2 f2 (x)dx + R1 f1 (x)dx = 1 entonces se tiene que el costo esperado total es : CE = C1 · p1 + R1 [C2 · p2 · f2 (x) − C1 · p1 · f1 (x)] dx en consecuencia. la misma para ambas poblaciones. entonces la expresión anterior tiene la siguiente forma : ln 1 f1 (x) = − x (Σ−1 − Σ−1 )x + x (Σ−1 µ1 − Σ−1 µ2 ) + constante 1 2 1 2 f2 (x) 2 (30) la que es una función discriminante cuadrática en X la cual se reemplazo en (27). el costo esperado total C es minimizado si se escoge una región R1 tal que se cumpla lo siguiente : C2 · p2 · f2 (x) < C1 · p1 · f1 (x) o bien f2 (x) C2 · p2 > f1 (x) C1 · p1 (28) (27) Ahora si X se distribuye normal con media µ1 y µ2 y covarianza Σ. se clasifica al individuo en el grupo π1 o bien π2 respectivamente. la condición sobre R1 para que C sea iente forma : C2 · p2 λ x > ln + C1 · p1 minimizada queda determinada de la sigu1 λ (µ1 + µ2 ) 2 ahora si Σ1 = Σ2 . f2 (x) son las densidades de las distribuciones de características X en cada una de las dos poblaciones.donde R1 y R2 son regiones de tal manera que si la observación muestral cae en esta región.

tanto f1 (x) como f2 (x) son normales multivariadas. De esta manera reemplazando en (31) se tiene que : P (π1 |x) = exp(α + β x) 1 + exp(α + β x) 1 1 + exp(α + β x) P (π2 |x) = donde el modelo representado en la ecuación (29) se conoce como modelo logístico. Si usamos la ecuación (28) entonces el segundo supuesto también está resuelto. Veamos que hacemos con el primer supuesto: Por Bayes. Pero si sustituimos por los valores muestrales. Estimación: Sea : yi = 1 si xi ∈ π1 yi = 0 si xi ∈ π2 93 . los dos últimos supuestos están resueltos. las medias µ1 . sabemos que : P (πi |x) = P (x|πi ) · pi P (x|π1 ) · p1 + P (x|π2 ) · p2 i = 1. las probabilidades p1 y p2 son conocidas de antemano. µ2 y σ son conocidas. 2 Si P (x|πi ) es normal multivariada con media µi y matriz de covarianzas Σ entonces se tiene que : P (π1 |x) · p1 P (π1 |x) = = exp(α + β x) P (π2 |x) P (π2 |x) · p2 con α = log p1 1 − (µ1 − µ2 ) Σ−1 (µ1 + µ2 ) p2 2 β = Σ−1 (µ1 − µ2 ) (32) (31) lo que se obtiene de (29). distinto de modelo logit). las matrices de covarianzas (Σ1 = Σ2 ) son iguales.

. 4..n para un t fijo como la probabilidad que el individuo i decida participar. aquí solo se especifica una probabilidad marginal para un t fijo y por tanto. se define xit como el vector de características observadas de quien decide participar en el mercado laboral o no. .. lo que significa un ajuste en la constante. De esta manera. con la única diferencia que tenemos N · T observaciones. Datos de Panel con Variable Discreta Binaria Como se mencionó. Partamos con un ejemplo presentado en Heckman y Willis (1977) denominado : Participación secuencial de mujeres en el mercado del trabajo. una vez que obtenemos xit el que la señora halla trabajado o no en el periodo anterior no nos dará ninguna información acerca de la situación de hoy. Por otra parte. aquí analizaremos someramente la estimación de este tipo de estructura de datos cuando la variable dependiente es binaria. yiT ) = t=1 P (yit ) lo que representa un modelo de elección discreta igual a los ya estudiado... 379) sobre si las muestras de yi = 1 y yi = 0 son muy diferentes en tamaño.. Ver Maddala (p. más aún si X son ˆ dummies ya que λ no es consistente. poco sostenible 94 .entonces la función de verosimilitud vienen dada por la siguiente expresión : L= yi =1 exp(α + β x) · 1 + exp(α + β x) yi =0 1 1 + exp(α + β x) (33) Diversos autores señalan que si X no proviene de una normal entonces los estimadores ML de (33) son preferibles a aquellos de una función discriminante λ.. se necesita especificar la probabilidad conjunta P(yi1 . yi2 .. La forma más simple de especificar la probabilidad conjunta es asumir independencia entre las decisiones. yi2 . Como puede notarse. la probabilidad conjunta de observar la historia de decisiones viene dada por la siguiente expresión : T P (yi1 . el modelo es análogo a un logit. Cabe señalar que el supuesto de independencia implica lo siguiente : P (yit = 1|yit−1 = 1) = P (yit = 1) o sea. se puede determinar P (yit = 1) = F (xit β) con i = 1. 2.. Cuando son más de dos grupos los que se analizan. si bien los temas de datos de panel serán revisados mas adelante.2.. De esta manera.yiT ) con el fin de dar cuenta de toda la historia temporal de decisiones del individuo.. Sea yit = 1 si la persona i trabaja en el tiempo t e yit =0 en otra situación.

Para ello se asume que {ui } son i. Dependencia entre estados: para cada persona. . aunque muy demandante de tiempo de computador. entonces se tiene que (descartando el subindice i): P (yt = 1|yt−1 ) − P (yt = 1) = = E F (xt β + u) · F (xt−1 β + u) − E F (xt β + u) E F (xt−1 β + u) COV F (xt β + u). Veamos cada una en forma separada.empíricamente!!. . .yiT ) = Eui t=1 F (xit β + ui )yit 1 − F (xit β + ui ) 1−yit (35) donde la función de verosimilitud del modelo es el producto de esta ecuación sobre todos los individuos i = 1. T (36) . el estado presente influye en el estado futuro. F (xt−1 β + u) E F (xt−1 β + u) De esta manera.2.d sobre los individuos. 2. . el cálculo del valor esperado en (33) es la única alternativa computacionalmente factible. . En general si F = Φ y µ se distribuye normal.. Existen a lo menos dos situaciones de porqué P (yit = 1|yit−1 = 1) = P (yit = 1). . yi2 . . . . .. Heterogeneidad Para atacar el problema de la heterogeneidad no observable.T viene dada por la siguiente expresión : T P (yi1 . Siguiendo la idea de cadenas de Markov. . T (34) asumiendo que los {yit } son serialmente independientes (sobre t) condicionales a ui . . supongamos el siguiente modelo : P (yit = 1|ui ) = F (xit β + ui ) i = 1. 2. es decir que no sea creíble el supuesto de independencia: Heterogeneidad: existen variables no observadas para el econometrista las que pueden afectar a las personas en forma diferente con respecto a tendencia a trabajar. .i. Una forma mas simple de expresar esta esperanza es como el producto y razón de funciones gama (Beta Logistic Model). En este caso. 4. sea : P (yit = 1|ui ) = ui 95 i = 1.n. . la probabilidad conjunta de {yit } con t = 1.1. por ejemplo con n = 1500 y T = 10. n t = 1. . .. .. n t = 1. ... .

entonces se tiene que (omitiendo el subindice i) : P (yt = 1|yt−1 = 1) = P (yt = 1. y que la independencia entre individuos existe. yt−1 = 1) E(u2 ) = P (yt−1 = 1) E(u) beta donde E(u2 ) > E(u) E(u) ya que E(u) está definido como P (yt = 1) donde se sabe que V (u) > 0. donde xi es un vector de características de los decisores el que no depende del tiempo para i. Al maximizar la siguiente expresión : n T L= i=1 t=1 Λ[xi (α − β)] podremos obtener un estimador consistente de α−β. 96 . que aún persiste el problema acerca del supuesto de que los xi son independientes del tiempo. de la siguiente forma : fi (ui ) = donde Γ(z) = Γ(ai + bi ) · uai −1 (1 − ui )bi −1 Γ(ai ) · Γ(bi ) i · e−x dx. tenemos un modelo logit y en este sentido un modelo beta logístico en una generalización del modelo logit. β en forma más eficiente. Así reemplazando en (34) se obtiene : P (yit = 1) = Λ[xi (α − β)] ello pues la media de una beta es (a + b)−1 · a. Si la persona trabajó si periodos de un total de T entonces la función de verosimilitud del modelo beta logístico viene dada por : n L = i=1 n E usi (1 − ui )T −si i Γ(ai + bi ) Γ(ai + bi ) · Γ(bi + T − si ) · Γ(ai ) · Γ(bi ) Γ(ai + bi + T ) = i=1 Pudiendo estimarse entonces α. Sin embargo.con ui distribuido beta. eso sí. 0 ≤ ui ≤ 1 ai > 0 bi > 0 ∞ z−1 0 x Notando que {yit } son serialmente independientes condicionales a ui . podemos estimar α y β consistentemente y también más eficientemente al estimar la función de verosimilitud completa. Si solo consideramos probabilidades marginales. Heckman y Willis sugieren que ai = exp(xi α) y bi = exp(xi β). Cabe señalar.

yi. . . Además ui y dientes y para cualquier (t. . Este modelo restringuido no solo asume que no existe dependencia de estado sino que también asume una forma especial de heterogeneidad (one factor-model). habría correlación serial en {vit }. ui .t |xi.t .t .t−1 + vit donde si existe dependencia de estado entonces γ = 0 y si existe heterogeneidad.t |xi. Sin embargo. yit = 1 si γyi. . σ 2 ) sobre i y sobre t. . . . xit β puede capturar parte de la heterogeneidad. Para ello definiremos la siguiente relación : P (yit = 1|ui ) = F (xit β + ui ) i = 1. aquella heterogeneidad no observada será capturada por ui .t−1 = 1] > P [yi. siγ >0. T (37) donde se asume que existe una variable latente no observable la cual determina el resultado observado para yit mediante la siguiente regla: yit = ∗ 1 si yit > 0. De esta manera el modelo especificado en (35) surge si γ = 0 y además si vit = ui + it con { it } serialmente independientes.t−1 representa la existencia de dependencia entre estados. se tiene que xit es independiente de is .t−1 = 0] por otra parte. Formalmente. se tiene que : P [yi.2. son indepen- Algunos comentarios: el término γyi. n t = 1. 0 si ∼ Heckman 1981 sugiere la siguiente especificación para este modelo: ∗ yit = xit β + γyi. Por lo tanto. yi. La función de verosimilitud por lo tanto es el producto de las funciones individuales. Por de pronto se asumirá que que {vit } está serialmente correlacionado pero donde {yit } se mantiene independiente entre individuos i. 97 . Modelos con Heterogeneidad y dependencia de estado En esta sección generalizaremos aún mas el modelo anterior incoporando no sólo la heterogeneidad sino que también la dependencia del estado.t−1 + xit β + ui + 0 si ∼ it >0 it 2 donde ui ∼ iid(0. s). ui .2. σu ) y it ∼ iid(0.4. .

el estimador de γ estará sesgado hacia arriba. Identificación de Problemas entre Heterogeneidad v/s Dependencia: Si tenemos un panel largo.1} {0.0} {1. Esto es. 1.t−1 la que no es exógena fuerte con respecto a uit . necesitaríamos a lo menos cuatro observaciones por individuo para poder identificar estos dos efectos. 1} B = {0.1.1} con T=3 {0. una vez que controlamos por xit .1. 1. De hecho.0} {0.0} {1. el problema de identificación entre heterogeneidad y dependencia sería trivial.0} {1.1} 98 . 1. 0. Una importante diferencia con el modelo estático es que tenemos una variable explicativa yi. 0} Historia A: con una verdadera dependencia entre estados esperaríamos encontrar persistencia en los dos estados.0. esto es var(ui ) = 0 pero no se controla por ella en la estimación.0} {0. se debe a una "verdadera dependencia entre estadosçuando ello no es cierto. De esta manera.0} {0.1. El problema radica en que generalmente este no es el caso.0. 0.0. esto es con muchas observaciones por individuo. Es una variable predeterminada: independiente de valores actuales y futuros de u pero dependiente de valores previos de u. Por ejemplo.0. 0.si existe heterogeneidad no-observada.1} {1. cuál de las siguientes historias de elección puede ser generada por un modelo verdadero de dependencia entre estados? A = {0.0} {1. 0. puede que no exista tal dependencia.1. 0. concluiremos que toda la persistencia. con T=2 {0.1} {1. Con heterogeneidad esperaríamos encontrar persistencia en solo un estado.

supongamos que estamos interesados en examinar los determinantes de los salarios de inmigrantes. Por ejemplo. son observadas dentro de un rango restringido. la muestra solo incluye a inmigrantes. Truncamiento: en este caso. Ahora. entonces : −(x−µ)2 1 f (x) = √ · e 2σ2 2πσ 2 ó en el caso de que z ∼ N (0. Por ejemplo.2. Bajo esta situación. Algunas propiedades de la distribución Normal Sabemos que si la variable aleatoria x ∼ N (µ. Si esta información faltante fuera sistemática entonces aquellos modelos econométricos que ignoren este hecho podrían estar sesgados. todas las observaciones de la variable dependiente que están en o bajo el nivel límite son tratadas como si estuvieran en el nivel limite. disponemos de información incompleta acerca de la conducta de ciertos elementos o unidades de la muestra. se tiene que : z2 1 φ(z) = √ · e 2 2π 99 . pero es una forma donde los factores que determinan el truncamiento no son independientes de la conducta de la variable dependiente dentro de la muestra truncada. o gente sobre una cierta edad. El problema estriba en que los salarios son uno de los factores que explicaría la decisión de migrar. una muestra puede solo incluir personas que están empleadas. pero no así las variables independientes. 5. 1) con z = x−µ σ . σ 2 ). la muestra está sistemáticamente restringida a solo una parte de la población. Esto es claramente una forma de truncamiento. En los acápites que siguen revisaremos la forma de estimar modelos que incorporen explícitamente estas situaciones. es decir. No obstante lo anterior. Veamos algunos casos donde este fenómeno ocurre. el que la truncamiento sea importante dependerá del tipo de pregunta que el investigador se haga. existen muchos casos donde debido a la forma en como recolectamos datos. previo a esto revisaremos alguna propiedades de la distribución normal que son fundamentales para entender los problemas antes señalados. Censuramiento (censura): este caso ocurre cuando la variable dependiente.5.1. Selección Muestral o Truncamiento Accidental: esta situación combina aspectos de las dos anteriores y ocurre cuando el proceso por el cual la muestra es truncada influencia los parámetros del modelo estimando sobre la muestra restringida. Variable Dependiente Limitada Introducción Dentro del trabajo empírico propiamente tal. 5.

100 . φ(−z) = φ(z) dφ(z) dz = −z · φ(z) 1 σ f (x) = ·φ (x−µ) σ = 1 σ · φ(z) Φ(a) = P (z < a) = a −∞ φ(z)dz Φ(−a) = 1 − Φ(a) = P (z ≥ a) con estas propiedades a la mano discutiremos los aspectos problemáticos mencionados en la introducción. Propiedades de la Distribución Truncada La densidad de una variable que es truncada a partir de a viene dada or la siguiente expresión : f (x|x > a) = f (x) p(x > a) esta definición asegura que la densidad truncada sume uno sobre el rango restringido. solo aquellos que están trabajado o aquellos que pagan impuestos.Lo anterior permite determinar ciertas propiedades de esta variable aleatoria. ya que la primera incluye. Truncamiento Como se mencionó. Para analizar y con ello generar una forma de estimar un modelo cuya variable dependiente tenga esta característica debemos revisar las propiedades de una distribución truncada.3. si estamos interesados en examinar el efecto de la escolaridad sobre los ingresos (salarios) pero solo disponemos una muestra de ingresos altos. 5. O bien. este fenómeno se observa cuando la muestra está restringida a una parte de la población de tal forma que sólo observamos las variables X e Y dentro de una rango restringido. por definición. Por ejemplo. si examinamos los determinantes de los ingresos a nivel de hogares usando una encuesta sobre empleo e ingresos en vez de una encuesta de hogares.

sería análogo a lo anterior.5) x de esta forma sabemos que : P (x > a) = 1 − Φ (a − µ) σ = 1 − Φ(α) esto último se obtiene de la última propiedad de la distribución normal ya vistas. De esta forma. σ Así tenemos entonces : f (x|x > a) = = f (x) [1 − Φ(α)] 1 φ(z) σ [1 − Φ(α)] con z = x−µ σ en el gráfico anterior podemos observar que si el truncamiento es por abajo. donde α = a−µ .0 E(x/x>0. Si ahora la distribución estuviera truncada por arriba.f(x) -0. la media de la distribución truncada será mayor que la media de aquella sin truncar. λ(α) = φ(α) [1 − Φ(α)] si el truncamiento es del tipo x > a. o bien. el valor esperado de una distribución truncada tiene la siguiente forma : E(x|truncamiento) = µ + σ · λ(α) donde. λ(α) = −φ(α) Φ(α) 101 .2 E(x/x>-oo) E(x/x>-0.5 0.2) 0.

Así. nos referimos al truncamiento en términos del grado de truncamiento. una mayor proporción de la distribución se descarta y por consiguiente la media de la distribución truncada aumenta. lo que representa la probabilidad de que x sea menor que a. σ 2 ) 102 . la varianza de la distribución truncada viene determinada por la siguiente expresión : V (x|truncamiento) = σ 2 (1 − δ(α)) donde δ(α) = λ(α) [λ(α) − α] con 0 < δ < 1 ∀α lo que implica que la varianza de la distribución truncada siempre es menor que aquella de la distribución sin truncar. E(x/x>a) 0 P(x>a) 5.3. Por otro lado. Si el valor de a aumenta el grado de truncamiento aumenta ya que la probabilidad de que x sea menor que a aumenta. En general.si el truncamiento es del tipo x < a En ambos casos. mide el grado de ajuste requerido para la media sin truncar µ. λ(α) se conoce como el inverse mills ratio (ó hazard rate). la que está asociada a la probabilidad condicional de observar α condicional en que α está en la muestra. En otras palabras. Para ello definiremos la siguiente regresión : yi = βxi + i i ∼ N (0. Regresión Truncada Una vez definido el truncamiento y las propiedades de una distribución truncada analizaremos a continuación la forma de estimación de un modelo en que la variable dependiente tiene esta característica.1.

3. A partir de la formula de la varianza se puede determinar que: V (yi |yi > a) = σ 2 [1 − δ(αi )] con δ(α) = λ(α) · [λ(α) − α] y además 0 < δ(α) < 1. los efectos marginales pueden ser obtenidos de la siguiente manera : ∂E[yi |yi > a] ∂xj = βj + σ ∂λi ∂αi · ∂αi ∂xj −βj σ = βj + σ λ2 − αi λi i = βj (1 − λ2 + αi λi ) i = βj (1 − δ(αi )) ya que δ(αi )) < 1. 103 . ∀α donde λ(α) = φ(α)/(1 − Φ(α)) es el inverse Mills ratio. sabemos que: E(yi |yi > a) = βxi + σ · λi (αi ) con αi = (a − βxi ) σ No olvidar que a es el punto de truncamiento y αi es el valor estandarizado (pero no es la constante del modelo la cual esta incorporada en x). También es importante notar que si estamos tratando de realizar inferencia sobre la sub-población entonces el parámetro relevante es βj (1 − δ(α)). ∀α. Ahora. el valor esperado de yi viene dado por la siguiente forma : E[yi |yi > a] = βxi + σ φ[(a − βxi )/σ] 1 − Φ[(a − βxi )/σ] expresión que sugiere que la media de la distribución truncada es una función no lineal de x. el efecto marginal de un cambio en xj sobre E(yi ) cuando yi tiene una distribución truncada es siempre menor que el correspondiente a βj .2. entonces el coeficiente relevante será β. Efectos Marginales: Para el caso de un model.o de regresión truncado. si el interés está sobre inferencias concernientes a toda la población. De esta manera. β y σ y el punto de truncamiento a. 5.donde si yi es truncada de algún modo.

σ 2 ) por OLS pero usando una muestra truncada. 12 5. Mas aún. Una forma alternativa de estimación es por Máxima Verosimilitud. entonces tendríamos un problema de sesgo por omisión de variable (el inverse Mills Ratio) relacionado con el truncamiento. si estimamos el siguiente modelo : yi = βxi + i i ∼ N (0.3. Así los β’s estarán sesgados y serán inconsistentes. dado que el término de error en el modelo OLS está también truncado (es decir. es una función de α) entonces el modelo anterior tendrá un término de error heterocedastico con la siguiente estructura : V ( i ) = σ 2 (1 − λ2 + λi αi ) i el cual es una función de xi (ya que λi es función de xi ). Dada la función de densidad de yi .3.verdadera + + + a + + + + + + + + + + OLS (+) (+) (+) (+) (+) (+) (+) (+): no observado + : observado Del gráfico podemos notar que ajustando un OLS a los datos truncados (muestra truncada) sesgará los coeficientes hacia cero. en logaritmos tenemos que : logL = − 12 n 1 log(2π) + logσ 2 − 2 2 2σ (yi − βxi )2 − i=1 i=1 log 1 − Φ a − βxi σ el caso de truncamiento por arriba es análogo 104 . entonces se tiene que : f (yi |yi > a) = − βxi )/σ] 1 − Φ[(a − βxi )/σ] n n 1 σ φ[(yi y en consecuencia. Estimación: Como se mencionó.

y λi = 5. a u y Sabemos que al sacar las observaciones censuradas nos quedamos con un modelo truncado (muestra truncada). f(y) toda la probabilidad se concentra en un punto . en este caso observamos el vector de variables independientes x sobre todo el rango pero la variable dependiente y sólo es observada sobre un subconjunto restringido de valores de la distribución. Distribución Normal Censurada Veamos nuevamente el modelo de variable latente: y ∗ ∼ N (µ.1. el gasto del hogar en bienes durables (Tobin 1958) u horas dedicadas al trabajo en Investigación y Desarrollo. Con este fin primero estudiaremos la distribución de probabilidades cuando la variable analizada presenta censura. El problema de sacar los datos es que se pierde información importante. σ 2 ) 105 . Por lo tanto.4.4. 5. Datos Censurados Como se había mencionado. Por ejemplo. Notar que el sesgo introducido mediante la restricción del rango observado para y será serio si la probabilidad de que y caiga por debajo del umbral no sea despreciable. debemos entonces ver un método para incorporar la presencia de censura.Maximizando con respecto a β y σ 2 se obtiene lo siguiente : ∂logL ∂β ∂logL ∂σ 2 donde αi = (a−βxi ) σ = i yi − βxi λi − · xi = 0 σ2 σ − (yi − βxi )2 αi λi 1 + − =0 2σ 2 2σ 4 2σ 2 = i φ(αi ) 1−Φ(αi ) .

Modelo Tobit En general.2.4. la segunda comprende el componente continuo para el rango de valores de y para el que existe una distribución (truncada). E(yi |yi > 0) = βxi + σ · λi donde: λi = = φ[(0 − βxi )/σ] 1 − Φ[(0 − βxi )/σ] φ(βxi /σ) Φ(βxi /σ) 106 . Así.y= a si y ∗ ≤ a. el valor esperado de esta variable aleatoria esta compuestos por dos partes : E(y) = P (y = a) · E(y|y = a) + P (y > a) · E(y|y > a) = P (y ∗ ≤ a) · a + P (y ∗ > a) · E(y|y > a) = Φ(α) · a + [1 − Φ(α)] · [µ + σ · λ(α)] donde α = 5. El Modelo Tobit (Tobin’s Probit Model) opera bajo la idea de que existe un único punto de censura el cual es fijo y generalmente normalizado a cero. La distribución de una variable censurada puede pensarse como la combinación de dos partes. En cambio. La primera es un componente discreto la cual otorga todo el peso del componente censurado de la distribución en un sólo punto. La estructura del modelo es la siguiente: ∗ yi = βxi + i i ∼ N (0. (a−µ) σ y λ(α) es el Inverse Mills Ratio. los modelos que tratan muestras censuradas se denominan modelos de regresión censurada donde el punto de censura puede cambiar entre observaciones. y∗ ∼ en este caso y ∗ es sólo observable para los valores sobre el umbral a. σ 2 ) ∗ yi ≤ 0 ∗ yi > 0 yi =0 yi =1 si si donde la media esta dada por: (aquí se asume que a = 0): E(yi ) = P (yi = 0) · E(yi |yi = 0) + P (yi > 0) · E(yi |yi > 0) Veamos con mas detención esta última expresión: si a = 0 entonces se tiene que E(yi |yi = 0) = 0 y en consecuencia.

∂E(yi |xi ) = βj · Φ(βxi /σ) ∂xj parte censurada ∗ ∂E(yi /xi ) = βj ∂xj toda la población Así. se tiene que: P (yi > 0) = P (βxi + i > 0) = P ( i > −βxi ) = P ( i < βxi ) = Φ(βxi /σ) Combinando los puntos anteriores se tiene que el valor esperado de yi viene dado por la siguiente expresión : ∗ E(yi ) = P (yi > 0) · E(yi |yi > 0) E(yi ) = Φ donde: βxi σ · [(βxi + σ · λi )] λi = 5.por otro lado. si tomamos el caso de los salarios de reserva. los efectos marginales dependerán si estamos interesados en saber algo sobre la media en la distribución censurada o los coeficientes del modelo latente.3. Por ejemplo. si xj aumenta (educación medida como número de años en el colegio) primero afecta la media condicional del valor de y ∗ en la parte positiva de la distribución. 107 . El segundo efecto es que un aumento en xj va aumentar la probabilidad de que la observación caiga en la parte positiva de la distribución. Efectos Marginales: φ(βxi /σ) Φ(βxi /σ) En general. debemos preguntarnos si queremos estimar el cambio en las ganancias y en la educación (sea xj ) para solo los que trabajan (muestra censurada) o bien la relación entre educación y ganancias (esperadas) para toda la oferta de trabajo.4.

la función de verosimilitud para el modelo Tobit tiene la siguiente forma : logL = yi >0 (yi − βxi )2 1 − log(2π) + log(σ 2 ) + + 2 σ2 log 1 − Φ yi =0 βxi σ La cual es una mezcla de observaciones con distribución continua (no censurada) y observaciones con distribución discreta censurada.verdadera OLS muetra censurada + + + + (+) (+) + + + + + + + OLS muestra truncada (+) (+)(+) (+) 5. el cual discutiremos con más detalle en "sesgo de selección". a aquellos obtenidos por MLE. ello se debe a la no linealidad presente en este tipo de modelos. los estimadores OLS se reportan también con fines comparativos. Estimación Tobit Considerando una distribución normal para los errores. 5. el supuesto de la distribución de los errores así como también la presencia de heteroscedasticidad y autocorrelación generan estimadores inconsistentes. Esta es una expresión compleja pero manejable.4.5. Del gráfico anterior se puede observar que los parámetros OLS son menores en valor absoluto. Generalmente. No obstante. Resultados empíricos sugieren que los estimadores MLE pueden aproximarse al dividir los estimadores OLS por la proporción de observaciones no limitadas en la muestra. 108 . Dado esto. Como se discutió anteriormente.4. se desarrolló una batería de test basados en los residuos generalizados de las estimaciones máximo verosímiles las que ahora se explican para el caso de un modelo Tobit. existe una forma más adecuada de corregir los estimadores OLS cuando los datos son censurados: método de Heckman en dos etapas.4. Residuos Generalizados Al igual que en los modelos de elección binaria.

tiene la siguiente forma : n logL = i=1 Di logφ yi − xi β σ − log(σ) + (1 − Di ) · log 1 − Φ xi β σ 109 . los residuos generalizados del modelo Tobit vienen dados por la siguiente expresión : yi − xi β si yi = 0. como una forma alternativa de re escribirlo.∗ Sabemos que E(yi ) = xi β y además que las esperanzas condicionales son: (i) ∗ ∗ E(yi |yi = 0) = E(yi ≤ 0) = xi β + E( i |xi β + i ≤ 0) − i xi β − i = xi β − σ · E | ≤ σ σ σ = xi β − σ · λ(αi ) con: λ(αi ) = φ xi β σ xi β σ 1−Φ ∗ (ii) Además. ηi = µi − xi β = −σ · λi si yi = 0 La función de verosimilitud asociada a estos residuos. se tiene : µi = Di · yi + (1 − Di ) · (xi β − σ · λi ) donde Di = ∗ 1 si yi > 0. xi β − σ · λi si yi = 0 o bien. 0 ∼ De esta manera. E(yi |yi > 0) = yi Uniendo ambos términos se tiene lo siguiente : ∗ µi = E(yi |yi ) = yi si yi = 0.

1.A partir de esta expresión se pueden obtener los primeros momentos de los residuos los cuales tienen la siguiente forma : ei ˆ ei ˆ (1) (2) ηi ˆ σ  ˆ  y −x β ˆ i i = Di  σ ˆ = ˆ yi − x i β σ ˆ 2 ei ˆ (3) ei ˆ 5. para el caso del Tobit. Como en el caso de probit.6. en lo que sigue se discuten algunas pruebas basadas en el score para el caso particular del modelo de censura Tobit.4. Variable Omitida: Se asume que el modelo correctamentee specificado tiene la siguinete forma : ∗ yi = xi β + zi γ + εi donde la prueba nula. acerca de la inclusión de una variable relevante es Ho: γ = 0 1 donde ∂logL = σ2 n ηi zi i=1 ∂γ En general. se tiene que : ∂logL ∂β n = i=1 Di 1 σ2 n yi − xi β xi + (1 − Di )(−λi ) σ σ = ηi · xi i=1 a diferencia del caso Probit el vector de score incluye adicionalmente un término con respecto a σ y por lo tanto debe ser este incluido en las pruebas de heterocedasticidad y/o normalidad mediante el segundo momento de los residuos. para probar variable omitida definimos el siguiente estadístico: c R(R R)−1 R c ∼ χ2 (p) p : #restricciones 110 . (4)  2 ˆ xi β  ˆ = Di · − (1 − Di ) · λi · 2 + σ ˆ     y −x β 4  ˆ ˆ xi β i i ˆ = Di − 3 + (1 − Di ) · λi · 3 +   σ ˆ σ ˆ 3   ˆ − 1 + (1 − Di ) · λi ·   ˆ xi β σ ˆ ˆ xi β σ ˆ 3   Pruebas basadas en el Score Siguiendo los aspectos metodológicos discutidos para el caso del Probit.

Si se trata e ˆ ˆ (1) de una sola variable omitida. Heterocedasticidad: aquí se aplica la misma idea que el caso anterior pero ahora (1) (2) (2) ˆ ˆ la fila i del vector R es la siguiente : (ˆi xi . ei . Tercer momento: E (3) i 3 σ |yi = 0 (1) ei ˆ o bien ei ˆ (3) = [ˆi ]3 si y > 0. exp(zi γ). Veamos esto en detalle. el cual se obtiene al regresionar c sobre R. ei zi ) si se asume que el modelo e es: ∗ yi = xi β + i con σ 2 = h(zi γ) donde ∂h(zi γ) ∂γ γ=0 = zi . 3. Normalidad: para este caso se debe considerar el tercer y cuarto momento de la distribución de los errores generalizados. e λ(2 + z 2 ) si y = 0 3  ˆ − (1 − Di )λi 2 + ˆ xi β σ ˆ = Di ˆ yi − xi β σ ˆ 2   como ya lo habíamos visto. e ˆ ˆ xi β λi σ si y = 0 ˆ (1) 2. ei zi . e λi (3z + z 3 ) si y = 0   ˆ xi β σ ˆ + ˆ xi β σ ˆ 3  ˆ yi − xi β = Di  σ ˆ 4   ˆ − 3 + (1 − Di )λi 3 111 . Por su part el cuarto momento tien la siguiente estructura: E (4) i 4 σ (1) |yi = 0 ei ˆ o bien ei ˆ (4) = [ˆi ]4 − 3 si y > 0.donde c es un vector de unos con dimensión n y por su parte R una matriz cuya (1) (1) (2) fila i es: (ˆi xi . Recordar que: 1 ei ˆ (2) ei ˆ (1) = ηi ˆ σ ˆ = [ˆi ]2 − 1 si y > 0. el estadístico de student asociado a ei zi al cuadrado ˆ es el χ2 necesario para la prueba. Por ejemplo. ei ).

81) NO-MERCADO 0. es posible realizar pruebas acerca de restricciones sobre el tercer y cuarto momento en forma separada pero ello no constituye una prueba de normalidad.55) NUMERO 0.30 -466.58) FUSION 0.60) BETA 10. que llamaremos NO-MERCADO.33 (4.97 (3. ei . se deben utilizar el tercer y cuarto momento conjuntamente. ei xi xi . ei ]. el número de acciones comunes emitidas para adquirir otras empresas.24 (3.00) 0.256 (1. y la variable binaria que indican si existen o no OPCIONES.61) 2.15 (4. ei xi .65 (7.20 (1.27 Tamaño muestral 200 200 112 .28 (5.70) LogL -547. similar a lo que se denomina coeficiente BETA. ei ].06 (4.96 (2. Los autores presentan resultados que se presentan en la siguiente tabla en un modelo que supone que la varianza es de la forma 2 σi = exp(α xi ). ei .12 (1.47 (0. en este caso c es un vector columna de unos y la fila i de la matriz R tiene (1) (1) (2) (3) (4) los siguientes elementos : [ˆi .28) -0.22 (2.83 (1. Estimadores de un Modelo Tobit Homocedástico Heterocedástico β α β Constante -18.50) 0. e ˆ ˆ ˆ ˆ Ejemplo: Heterocedasticidad Multiplicativa en el modelo Tobit Utilizado datos de corte transversal.90) 0. ei . La prueba estadística es análoga a las dos ya vistas y tiene la siguiente forma: c R(R R)−1 R c ∼ χ2 (p) donde.75 (5. Los valores que se dan entre paréntesis son los errores estándar asintóticos estimados. e ˆ ˆ ˆ ˆ Sabemos que si esta prueba de normalidad es rechazada entonces Tobit no es un modelo apropiado porque los β’s serán inconsistentes.Para testear la normalidad de los residuos. el NUMERO de la compañía dedicados a predecir ganancias.74) 0. Existe una forma de testear normalidad y heterocedasticidad del tipo White (de forma desconocida) mediante un procedimiento similar al anterior pero ahora (1) (2) (2) (3) (4) donde la fila i de la matriz R es la siguiente: [ˆi xi . variable denominada FUSION.51) 2.10) -4.11 (3. No obstante lo anterior. Petersen y Waldman analizaron el volumen de los intereses pagados a corto plazo por diferentes acciones. ei .00) 1.90) 0. Por otra parte.50 (5.17) OPCIONES 2. una medida de las expectativas heterogéneas especifica de cada compañía.08 (7.41) 0. Los regresores de su modelo eran una medida de la componente de las expectativas heterogéneas de la compañía determinada por el mercado.99) 0. ello dependerá del grado de censura en la variable endógena.

Symmetrically Trimmed Least Squares La idea detrás de este estimador puede resumirse de la siguiente manera.El efecto de la heterocedasticidad sobre los estimadores es muy importante. por lo que se rechaza la hipótesis nula.7. 1986) ha sugerido dos soluciones posibles. Así todas las observaciones donde ei <−xi β están omitidas. Densidad de xi'beta + e xi'beta 2xi'beta e Para una observación dada xi . estará simétricamente distribuido en torno a cero. Puede contrastarse la hipótesis α = 0 utilizando un estadístico de cocientes de verosimilitudes. El valor muestral es muy superior al (5) valor crítico que aparece en las tablas. Así la estimación por OLS nos daría estimadores consistentes. Con estos resultados el estadístico es -2[-547. Suponga que pudiéramos observar la variable latente y ∗ en todo su espectro y que el término de error. Existen a los menos dos soluciones en la literatura orientadas a estimar modelos con variables censurada cuando el Tobit es inconsistente.3-(-466.06. solo podemos obtener el area a la derecha de 0. En un modelo del tipo: y ∗ = xβ + e yi = ó bien yi = ∗ ∗ yi si yi > 0. Modelos alternativos para censura Como se discutió previamente. en consecuencia. 5.4. la censura introduce lo que hace es introducir una asimetría a la distribución.27)]=162. De esta forma. ∗ 0 si yi ≤ 0 ∗ yi si ei > −xi β. 0 si ei ≤ −xi β 113 . Powell (1984. los estimadores del modelo Tobit son inconsistentes si los supuestos sabre los que descansan no se cumplen. las que a continuación revisaremos. La distribución asintótica del estadístico es χ2 .

En términos prácticos.auto consistencia"para demostrar que un estimador de β0 . Esto significa tomar los puntos a la derecha de 2xi β en la figura anterior. 2. 2xi β0 } si xi β0 >0 o bien borrar la observación si esto no i se cumple. 4. 2xi β0 } − xi β0 )xi = 0 i=1 (38) Cabe hacer notar que β0 no es observado pero Powell hace uso de la noción de . ˆ La matriz de varianza de β puede ser determinada de la siguiente forma. En consecuencia. Volver a realizar la rutina hasta que el valor de β ya no cambie. −xi β0 ) i y reemplazar e∗ por el min{yi . β0 ) podríamos reemplazar yi por la mínima cantidad entre {yi . hacer la observación como missing. el que denominaremos β al usar el siguiente algoritmo iterativo: ˆ 1. Otra forma de hacer lo mismo es: e∗ = max(ei . Calcular el valor predicho para todas las observaciones si el valor predicho es negativo. Definiendo : 1 Cn = · n y por otra parte : 1 Dn = · n n n E[1(−xi β0 < i=1 i < xi β0 ) · xi xi ] (39) E[1(xi β0 > 0) · min{ 2 . 2xi β0 } y generar de esta forma un estimador consistente para β0 . el verdadero valor del coeficiente β0 debería satisfacer la siguiente ecuación normal: n 1(xi β0 ) · (min{yi . si el valor de la variable dependiente es mayor que dos veces el valor predicho.Suponga ahora que truncamos las observaciones tales que ei >xiβ. (xi β0 )2 }xi xi ] i i=1 (40) 114 . entonces reemplazar el valor de la variable dependiente por 2xi β 3. Powell (Econometrica 1986) sugiere que si conociéramos el verdadero valor del parámetro β (por ejemplo. consistente al ser solución de (38) nos entrega un estimador consistente del verdadero β. Correr un OLS sobre los nuevos datos alterados. es relativamente sencillo encontrar un estimador consistente de ˆ β. Calcular un estimador inicial β por OLS a partir de los datos originales. y en consecuencia tendríamos nuevamente una distribución del error que sería simétrica.

Este método es más útil.Así la matriz de varianza covarianza puede sere estimada como : C −1 DC −1 donde C y D son estimadores consistentes de (39)y (40) respectivamente. 115 . mientras menos sea el grado de censura y mayor el tamaño de la muestra. es decir. eficiente. Una característica atractiva de este método es que es robusta ante la presencia de heterocedasticidad siempre y cuando la distribución del error sea simétrica.

116 .

117 .

Como puede inferirse. y ∗ = xβ + así: ∗ E[yi |xi ] = xi β + E[ i /xi ] = xi β su estimador consistente puede ser obtenido por OLS. Otra forma de escribir este modelo es: n m´ ın ˆ β i=1 ∗ ∗ ˆ ˆ (yi − xi β) · signo(yi − xi β) donde signo (·) toma el valor de 1.8. cero o negativo.4. 0. es el signo de los residuos y no su magnitud la que importa para ˆ determinar β. el cual es la solución al siguiente programa : n m´ ın ˆ β i=1 ∗ ˆ (yi − xi β)2 ˆ esto es β es aquel estimador que minimiza la suma de errores al cuadrado. -1 dependiendo si el argumento es positivo. Este estimador es un poco menos restringido con respecto a los errores comparado con el STLS. De nuevo supondremos que y ∗ puede ser observada en el modelo. la regresión LAD corresponde a la regresión sobre la mediana de la muestra ya que : ∗ q50 [yi |xi ] = xi β + q50 [ i |xi ] = xi β 118 . n m´ ın ˆ β i=1 ∗ ˆ |yi − xi β| este estimador se conoce como desviaciones absolutas mínimas (LAD). se minimiza la suma del valor absoluto de los errores. La ecuación normal correspondiente es: n i=1 ∗ ˆ xi · signo(yi − xi β) = 0 de esta manera.5. Suponga que en vez de minimizar los errores al cuadrado. Censured Least Absolute Deviations (CLAD) Esto es una forma alternativa de estimar Tobit simple cuando existen problemas con los supuestos.

Use este estimador para sacar las observaciones para las cuales su predicción es negativa. Veamos esto: 1. 2. Así. 3. Para ilustrar este último punto veamos el siguiente modelo : y2i y1i y1i D2i D2i = = = = zi δ + v2i xi β + v1i no obs.No olvidar que OLS corresponde a la regresión sobre la media la cual será inconsistente en un modelo de regresión censurada pues : ∗ E[m´x{0. 5. yi }|xi ] = xi β + E[ |xi . deberá probar distintos valores iniciales. qreg en STATA). no es afectada por la transformación max. Modelos para Sesgo de Selección Recordemos que la principal diferencia entre un modelo censurado y un modelo de sesgo selección (censura accidental) estaba en que la presencia de la observación en la muestra (sólo la variable dependiente) estaba determinada por variables que habían sido recogidas en la muestra. La representación práctica de este estimador exige regresiones cuantiles en q = 50. ˆ 4. a i > −xi β] = xi β La mediana. Regresione por LAD sobre esta nueva muestra y encuentre un nuevo estimador de β. yi }|xi ] = xi β + q50 [ |xi . 1 0 si si si si y2i y2i y2i y2i >0 ≤0 >0 ≤0 (a) (b) 119 . Repita (b) y (c) hasta que β converja. De esta manera. a diferencia de la media.5. se puede demostrar que: (ver Powell 1984) ∗ q50 [m´x{0. Notar que pueden existir problemas con el mínimo global. Regresione por LAD (o qreg en q = 50) sobre la muestra entera para generar un valor inicial de β. La matriz de covarianzas se estima por bootstrap del proceso completo. a i > −xi β] = xi β ello es cierto independientemente de la forma de los errores. En particular si son heterocedásticos y/o no normales.

Ahora. Puede que las variables en xi y zi puedan traslaparse incluso ser las mismas aunque esto puede generar problemas de identificación. De esta forma. v2 . Existe algún sesgo en los βs ?. θ)dv2 dv1 ∞ ∞ −∞ −zi δ f (v1 . v2 . y2 > 0] = xβ + E[v1 |v2 > −zδ] De esta manera. bajo ciertas condiciones no observamos la variable dependiente de esta ecuación. θ)dv2 dv1 (41) = λ(zδ. Sin embargo. y con respecto a la estimacioines de los parámetros en el modelo de sesgo de selección. Denotaremos si observamos o no esta variable mediante una variable dummy D2i . θ) De esta manera se desprende que la esperanza condicional de y1 dado x y la probabilidad de observar y1 será igual a la regresión común de y1 n función de xβ mas una función no lineal de los regresores z de la ecuación de selección. Sin asumir una distribución en particular para los errores v. v2 .La ecuación para y1i es una ecuación de regresión común. 2. Relación entre tamaño de la firma y crecimiento: primera ecuación relaciona crecimiento y tamaño y la segunda describe la probabilidad de salida entre el primer y el segundo período. el valor esperado de y1 condicional en x y la probabilidad de observar y1 viene dado por : E[y1 |x. Oferta de trabajo de madres casadas: primera ecuación son las horas y la segunda es sobre al diferencia de salario de mercado y el salario de reserva no observado. asumiremos que v1 y v2 están distribuidos conjuntamente f (v1 . θ) donde θ es un conjunto finito de parámetros : media. Usando Bayes tenemos que el valor esperado de v1 condicional es el siguiente : E[v1 |v2 > −zi δ] = ∞ ∞ −∞ −zi δ v1 · f (v1 . Algunos ejemplos: 1. Análisis del Sesgo: Suponga que estimamos la ecuación (b) por OLS usando solo los datos observados. β será insesgado si y solo si v1 es independiente de v2 lo que implica que los datos están “aleatoriamente” faltantes o que el proceso de selección es "ignorable"(caso poco realista). La observación de la variable dependiente y1i es función del valor de otra regresión : la ecuación de selección que relaciona la variable latente y2i con algunas características observadas zi ). la cual no tendrá una media igual a cero (análogo a IMR). varianza y correlación entre las variables aleatorias. se puede determinar lo siguiente: 120 .

2. 15 En general. 2 ρσx σy σy µy donde ρ es la correlación entre ambas variables aleatorias. los coeficientes de pendiente estimados estarán sesgados pues existe un problema de omisión de variable en la regresión.13 Uno es el método en dos etapas atribuible a Heckman (1979) y el otro es mediante Máxima Verosimilitud (Amemiya 1981). la media condicional de y es menor que su media incondicional cuando x e y están negativamente correlacionados y x es mayor que su media. y en consecuencia ρσx σy es la covarianza entre ambas variables.1. Si las variables x y z no son distribuidas completamente independientes. queda : f (y|x) ∼ φ y − µy − ρ · σy σx σy 2 σx · (x − µx ) 1 − ρ2 Así. De hecho es igual a Ei [λ(zi δ.14 Asumiendo que la distribución conjunta entre dos variables aleatorias x e y es normal bivariada. Antes de analizar estos dos métodos en detalle discutiremos previamente las propiedades de una distribución normal bivariada truncada. la distribución de y dado x es normal con una media mayor que su media sin condicionar µy si las variables x e y están positivamente correlacionados y mientras x sea mayor que su media sin condicionar. Análogamente. Una de las tantas ventajas de la distribución normal es que la distribución condicional también es normal. Existen a lo menos dos formas de solución el problema de sesgo de selección dentro del mundo paramétrico. La variable omitida es λ(zi δ. y condicional en x tiene una varianza menor que la distribución incondicional de y independientemente de la correlación entre x e y. es decir. θ) la cual está correlacionado con las variables incluidas x. el hecho de que los datos faltantes no lo sean aleatoriamente introduce heterocedasticidad al término de error y así OLS no es eficiente. σy (1 − ρ2 ) 2 σx o bien. El intercepto estimado será sesgado pues la media del término de error no es cero. tiene variables en común o están correlacionadas. 13 14 ya discutiremos mas adelante aquellas provenientes del mundo semi paramétrico la normal truncada univariada fue discutida previamente 15 lo contrario se cumple cuando x es menor a su media 121 . θ)]. Notar que aunque x y z sean independientes. estandarizando. Veamos esto : f (y|x) ∼ N µy + ρ · σx σy 2 · (x − µx ). esto puedes ser especificado de la siguiente manera : x y ∼N 2 σx ρσx σy µx .

5. recordemos que la varianza de la distribución en la ecuación Probit puede ser normalizada a uno sin pérdida de información ya que la escala de la variable dependiente no es observada. la varianza relativa del error (σ1 ) y la severidad del truncamiento (IMR es mayor cuando zδ es menor). De esta manera. condicional que x es mayor que una valor dado. 0 ρσ1 1 de esta forma. la regresión de y sobre x estará sesgada dependiendo del valor de ρ. Así la magnitud del sesgo dependerá de la magnitud de la correlación entre los errores (ρ).1.Usando este resultado podemos mostrar que la esperanza condicional de y. Por su parte. Así. si ρ = 0 entonces no habrás sesgo de selección.5. tiene la siguiente forma: E[y|x > a] = µy + ρ · σy · λ donde λ(µ) = = φ(µ) 1 − Φ(µ) φ(−µ) Φ(−µ) a − µx σx a λ(µ) se le conoce como el hazard rate de x evaluado en a. Heckman (1979) two-step estimator Este autor asume que existe una distribución normal bivariada de los errores en las ecuaciones (a) y (b) con la siguiente estructura : u1 u2 ∼N 2 0 σ1 ρσ1 . usando el supuesto de normalidad y las propiedades de la normal bivariada truncada podemos calcular E[y1 |y2 > 0] como sigue: E[y1 |y2 > 0] = xβ + E[v1 |v2 > −zδ] −zδ = xβ + ρσ1 λ 1 φ(−zδ) = xβ + ρσ1 1 − Φ(−zδ) φ(zδ) = xβ + ρσ1 Φ(zδ) (42) ya que el IMR siempre es positivo. 122 . la ecuación de selección se convierte en un modelo Probit.

Calcular su valor ajustado para la función índice o variable latente y2i = zi δ y ˆ ˆ i como función de y2i . 3. existen a lo menos tres aspectos que se deben considerar con respecto a este estimador en dos etapas: 1. La gran gracia de este método es su sencillez puesto que sólo se necesita un probit y un OLS. Una forma de solucionar esto es mediante el uso de los estimadores de los errores estándar robustos los cuales son. El coeficiente de ˆ i será una medida de ρσ1 y de esta forma una estimación de ρ y σ1 puede ser λ obtenida a partir de allí. Estimación utilizando el método de Heckman: La idea es utilizar la especificación en (42) E[y1i |y2i > 0] = xi β + ρ · σ1 · φ(zi δ) Φ(zi δ) φ(zi δ) Φ(zi δ) φ(xβ) Φ(xβ) y estimar β en (b) por OLS incluyendo una medida de en dicha ecuación. Los valores resultantes (estimadores) de β. ρ y σ1 son consistentes pero asintóticamente ineficientes bajo el supuesto de normalidad. ρ = 1 y por lo tanto se tiene que el valor esperado condicional es : E[y1 |y1 > 0] = xβ + σ1 · con el sesgo siempre hacia abajo. ˆ 2. al menos consistentes. Incluir λi en la regresión de y1i sobre xi para aproximar λ(zi δ). Esta condición es a menudo violada.Cabe señalar que en el caso del Tobit simple. Con este fin Heckman (1979) sugiere realizar los siguientes pasos: 1. Estimar δ consistentemente usando un probit para la probabilidad de observar los datos en función de z. El estimador del error estándar convencional en (a) es inconsistente pues el modelo de regresión en (42) es intrínsecamente heterocedástico debido a la selección. El método no impone la condición que |ρ| ≤1 lo cual esta implícitamente asumido en el modelo. donde y1 es igual a y2 . calcular enseguida el IMR. 2. λ ˆ ˆ 3. El supuesto de normalidad es necesario para la consistencia de los estimadores. 123 . No obstante lo anterior.

P (y1i . Para aquellos y1 no observados. quizá el desafío más grande sea definir la función de verosimilitud acorde al problema econométrico que se nos presenta. P (y2i ≤ 0) = P (v2i ≤ −zi δ) = Φ(−zi δ) = 1 − Φ(zi δ) 124 . y2i > 0|x. es necesario incluir una especificación general y completa de la distribución de las variables aleatorias en el modelo. como lo hicimos en (42). Aquellas donde y1 es observada para lo cual sabemos que la condición de que donde sabemos que y2 > 0 se cumple. De esta manera. no tenemos información independiente para y1 . la probabilidad de una observación para la cual observamos efectivamente sus datos es la densidad en el punto y1 multiplicada por la probabilidad condicional para y2 dado el valor de y1 fue observado.5. el tener acceso a un paquete computacional que pueda maximizar la función de verosimilitud con respecto a un vector de parámetros dado un conjunto de datos permite savar esta valla técnica. El paso siguiente es dividir las observaciones en grupos de acuerdo al tipo de dato observado. De esta forma. cada grupo tendrá una forma distinta de verosimilitud. z) = f (v1i ) · P (v2i > −zi δ|v1i . x. z) = f (y1i ) · P (y2i > 0|y1i .2. x. sabemos que y2 ≤ 0 y del manera. Para estas observaciones la función de verosimilitud es la probabilidad del evento y1 y que también ocurra que y2 > 0. 2. primero se debe especificar el modelo completo como lo hemos hecho en (a) y (b). z) ∞ y1i − xi β 1 ·φ · f (v2i |v1i )dv2i = σ1 σ1 −zi δ = = = 1 · σ1 1 ·φ σ1 1 ·φ σ1 y1i − xi β σ1 y1i − xi β σ1 y1i − xi β σ1 ∞ · −zi δ φ v2i − ρ σ1 (y1i − xi β) 1 − ρ2 zi δ + ρ σ1 (y1i dv2i · 1−Φ· ·Φ· zi δ + − xi β) 1 − ρ2 ρ σ1 (y1i − xi β) 1 − ρ2 Así. Estimación por ML: Cabe señalar que uno de los principales problemas que existían por ese entonces era la capacidad computacional para estimar modelos no lineales sofisticados. Para el caso particular del Tobit generalizado (Tobit tipo II según la nomenclatura de Amemiya 1985). Considerando el problema de sesgo de selección. A su vez. En este caso puntual tenemos dos tipos de observaciones. 1.5.

16 Ver Amemiya 81 para la demostración. con N = N0 + N1 . ρ. σ1 . δ. datos) = + log [1 − Φ(zi δ)] i=1 N −logσ1 + logφ i=N0 +1 y1i − xi β σ1 + logΦ zi δ + ρ σ1 (y1i − xi β) 1 − ρ2 donde existe N0 observaciones para las cuales no observamos y1 y N1 observaciones. donde si lo hacemos. se tiene que la loglikelihood de la muestra completa de observaciones será la siguiente: N0 logL(β. Estos estimadores serán consistentes y asintóticamente eficientes bajo el supuesto de normalidad y homocedasticidad de los términos de error no censurados. 125 . Los parámetros estimados pueden obtenerse al maximizar la función de verosimilitud con respecto a sus argumentos.De esta manera. 16 Aunque unos de los problemas que tiene la estimación por ML es que la función no es estrictamente cóncava y en consecuencia no necesariamente existe una única solución. juntando ambos términos.

126 .

127 .

128 .

129 .

donde Zi = X2i β2 σ2 y λi = φ(Zi ) φ(Zi ) 1 − Zi · λi .   f (ε1 . reemplazando en la expresión anterior se obtiene lo siguiente : E(ε1i |Di = 1) = E(ε2i |Di = 1) + γ01 E(ε2i |Di = 1) + . λi · (Zi2 + 2).5. corresponden a: λi . ε2i ) se distribuyan normal bivariada. si (ε1i . ε2 ) =  K J γkj · εk · εj 1 2    · b(ε1 ..3. 0 otro caso ∗ y2i = x2i β2 + ε2i La segunda etapa en el modelo de Heckman está basado en: y1i = x1i β1 + E(ε1i |Di = 1) + ε1i Ahora. Pruebas de normalidad en el Tobit generalizado Como habíamos visto..γ0j E(εj |Di = 1) 2i Los cuatro primeros términos del lado derecho. 3 − 3Zi · λi − Zi3 · λi 130 .. Si K = 0. ε2 ) k=0 j=0 donde b es la densidad normal bivariada con γ00 = 1. el modelo de Tobit generalizado (tipo II) pueder ser escrito de la siguiente forma : ∗ y1i = x1i β1 + ε1i ∗ y1i si y2i > o 0 otro caso yi = con Di = 1 si Y2i > 0. Prueba de Normalidad de la distribución marginal de ε1i : Partiremos con una expresión generalizada de distribución conjunta para los errores de ambas ecuaciones desarrolada por Gallant y Nychka (Econométrica 1987)... entonces se tiene que : σ12 E(ε1i |Di = 1) = λi . σ2 con λi = φ φ x2i β2 σ2 x2i β2 σ2 Notar que generalmente se normaliza σ2 = 1 el cual no afecta a los parámetros.5..

5. Una es seguir en el mundo paramétrico. ε2 ) se distribuya normal bivariada significa que los estimadores tanto de la ecuación de intensidad ˆ ˆ (β1 ) como aquellos de la ecuación de selección (β2 ) serán inconsistentes. Ya sea si fueron estimados por ML o bien por Heckman). Recordemos que la estimación de Heckman es ineficiente comparada con ML y según Davidson y Mackinnon. 5.Veamos cada uno de ellos.4. representa una buena prueba para estudiar la presencia de sesgo de selección pero no para estimar parámetros. al semiparamétrico. 2. IM R2 y IM R3 a la ecuación de intensidad y testear su significancia conjunta. si los errores son normales en el Probit o la expansión de IMR’s en la ecuación de intensidad sugerida por Pagan y Vella no son significativos. Bajo lo que se denomina "Modelo de Selección Generalizado"podemos redefinir el término del error como sigue: ∗ y1i = x1i β1 + σ1 ε0 1i ∗ y2i = x2i β2 + ε0 2i 131 . Y la otra es moverse al mundo no paramétrico. estrictamente hablando. entonces el modelo Tobit generalizado debería estimarse por ML. 3) a la ecuación en el segundo paso del estimador de Heckman y probar por su significancia conjunta.respectivamente. sugieren agregar Zij · λi con (j = 1. los errores de la ecuación de selección no son normales. Mundo paramétrico: Supongamos que ε2 . Cabe recordar que debido a la no linealidad del modelo. sugieren agregar el IM R. Existen dos formas generales para solucionar este problema. De esta forma. se asume normal. ˆ ˆ Pagan y Vella (1989) basada en esta descomposición. asumiendo que se conoce la distribución de los errores en ambas ecuaciones. el rechazo de f (ε1 . Si se rechaza entonces no existe sospecha de no normalidad y por lo tanto los estimadores del Tobit son consistentes. Estimación modelo de sesgo de selección con errores no normales La pregunta que surge ahora es qué pasa si las pruebas de normalidad son rechazadas. una prueba indirecta acerca de la validez de los estimadores de Heckman es testear la normalidad de los errores en el Probit mediante residuos generalizado. Cabe recordar que en el modelo de Heckman la distribución de los errores de la ecuación de selección. aquella que se estima utilizando un Probit. Pues bien. En otras palabras.

a través de un multinomial logit y se calcula las probabilidades predichas para cada alternativa y luego se corrige la ecuación de intensidad utilizando la corrección propuesta para cada alternativa. Por ejemplo. ε∗ ) la correlación entre los errores. solo se puede aplicar si F es conocida y continua. la normalidad de ε2i . el término entre corchetes en (43) será: φ[Φ−1 (pi )] ˆ pi ˆ ˆ con pi = F (x2i β2 ) ˆ Entre otras propiedades de esta forma de estimación esta que puede ser aplicado para un caso mas general. De esta forma. 1i 2i ˆ Notar que las probabilidades ajustadas de la primera etapa son F (x2i β2 ) y en consecuencia. donde existan mas de dos alternativas. De esta forma.Suponga que ε0 tiene una distribución F conocida. De esta manera tenemos : y1i = x1i β1 + λ(x2i β2 ) + ν1i donde si asumimos normalidad en ε2i entonces λ(·) es conocida e igual al IMR. la segunda etapa viene definida por: y1i = x1i β1 + E(ε1i |Di = 1) + ν1i donde se relaja el supuesto paramétrico sobre el término de corrección. No obstante. Entonces. La única condición es que 1i F sea conocida y continua. Mundo No Paramétrico La mayoría de los modelos no paramétricos continuan la idea propuesta por Heckman de estimación en dos etapas. en consecuencia : ε∗ ∼ N (·) 2i También se puede relajar el supuesto de normalidad de ε∗ . podemos obtener una 2i nueva variable normal al aplicar la siguiente función sobre los errores originales : ε∗ = J(ε0 ) = Φ−1 · F (ε0 ) 2i 2i 2i y. el modelo de Heckman en dos etapas tiene la siguiente forma: y1i = x1i β1 + σ1 · ρ · φ(J(x2i β2 )) + νi F (x2i β2 ) (43) con ρ =cor(ε0 . Sin realizar ningún supuesto distribucional lo único que sabemos es que λ depende de x2i β2 λ(x2i β2 ) = E(ε1i |ε2i > −x2i β2 ) Existen dos formas dentro del mundo semiparamétrico para estimar estos casos: 132 . es decir.

De no serlo también puede ser estimado no paramétricamente a partir de la ecuación de selección.Pensar en λ como un ruido. 304 y 198) Teniendo la ecuación de selección : ∗ y1i = x1i β1 + E(ε1i |xi .305). La idea es tratar a este parámetro como un ruido y por lo tanto hay que trtar de eliminarlo. 199) ˆ β1 = n −1 n (x1i − m12i )(x1i − m12i ) ˆ ˆ i=1 i=1 (x1i − m12i )(y1i − m2i ) ˆ ˆ donde m12i y m2i son los estimadores por Kernel de ˆ ˆ m12i = E(x1i |x2i · β2 ) y m2i = E(y1i |x2i β2 ) Todo lo anterior suponiendo que β2 es conocido. En general. Ver Pagan y Vella p. 1. Tratar a λ como un ruido. Este tratamiento se expone en Robinson (Econometrica 1988) y también en Pagan y Ullah (p. Aproximar λ. Adicionalmente. y2i > 0) + ν1i (44) (45) y1i = x1i β1 + g(x2i µ2 ) + ν1i la idea es aplicar el valor esperado |E(·|x2i β2 ). se tiene que : g (x2i β2 ) = m2i − m12i β1 ˆ ˆ ˆ ˆ 133 . pero éstas son las mas frecuentes en la literatura. restando los dos últimas ecuaciones (45)-(46) se obtiene lo siguiente : y1i − E(y1i |x2i β2 ) = [x1i − E(x1i |x2i β2 )] · β1 + ν1i (46) ecuación que tiene las propiedades de un modelo de regresión lineal con variable dependiente igual a : y1i − E(y1i |x2i β2 ) Notar que : g(x2i β2 ) = E(y1i |x2i β2 ) − E(x1i |x2i β2 ) · β1 ˆ Un estimador no paramétrico de β será (ver Pagan y vella pág. existen mas formas de tratarlo. obteníendose lo siguiente : E(y1i |x2i β2 ) = E(x1i |x2i β2 ) · β1 + g(x2i β2 ) Así.

. ˆ φ(x2i β2 ) ˆ · (x2i β)j ˆ Φ(x β2 ) 2i (j = 1. Existe una forma alternativa de estimar el modelo Tobit Generalizado en forma no paramétrica y es por Máxima Verosimilitud. esta expresión es equivalente al test de Pagan y Vella (1989) donde se agregan potencias del IMR en la ecuación de intensidad. bajo ciertas restricciones. ε2i ) Gallant y Nychka proponen la siguiente aproximación para la distribución conjunta :   ˆ f (ε1i . . ε2i ) =  M M γjk · εj · εk  exp{−(ε1i |δ1 )2 − (ε2i |δ2 )2 } 2i 1i j=0 k=0 la cual es incorporada en la función de ML y estimada posteriormente. Es decir: y1i = x1i β1 + IM R + IM R2 + IM R3 + ν1i o bien.311 134 . La otra forma es tratar de aproximar λ Lee (Journal of Econometrics. Dado que el supuesto clave aquí es acerca de la distribución conjunta de los errores tanto de la ecuación de selección como la de intensidad f (ε1i . 3) Ver resultados con datos de Mroz.1994) plantea la siguiente relación : ˆ λ(x2i β2 ) ≈ J a αj · bj · (x2i β2 ) j=1 donde. Para detalles.2.. ver Pagan y Vella p..

135 . la probabilidad de que el evento. A lo largo de este capítulo se recurrirá frecuentemente al caso del desempleo.. Hazard function. como modo de ejemplo. como la probabilidad de seguir desempleado hasta al menos el período t:20 S(t) = P (T ≥ t) = 1 − F (t) Esta función puede ser escrita como: t−1 (48) S(t) = 17 18 (1 − λs ) s=0 (49) Survivor function. 20 Algo así como la probabilidad de que el fenómeno dure hasta al menos t. condicional a estar aún desempleado en t − 1. 19 Hazard rate. la función de sobrevivencia17 y la función de riesgo. Entonces.18 Es importante tener presente que al especificar una de ellas.. todas las cuales se encuentran relacionadas. 3. El concepto central. Intuitivamente se puede definir a la función de sobrevivencia. 2. Este concepto es conocido como la tasa de riesgo:19 λt = P (T = t|T ≥ t) (47) para t = 1. 6. S(t). Modelos de Duración Para comenzar se debe señalar que los modelos de duración pueden ser vistos como de duración discreta o continua. se considera el modelo de datos de duración discreta. Estas son: la función de densidad de probabilidades. Datos de Duración Discreta Sea T una variable aleatoria entera no negativa la que representa el tiempo de salida de un estado (situación de desempleo) de un individuo perteneciente a una población homogénea donde el tiempo se mide a partir del comienzo del fenómeno (momento en el cual el individuo pierde su trabajo y pasa a ser desempleado). Como punto de partida. es ilustrativo comenzar el estudio de los modelos de duración pensando en la duración del desempleo como variable a ser explicada.1. finalice). tanto en modelos teóricos como estadísticos sobre duración. es la probabilidad condicional de salida (es decir. La distribución de probabilidades de esta variable aleatoria puede ser especificada de diversas maneras. las otras quedan automáticamente determinadas. Definamos λt como la probabilidad de finalización del período de desempleo (es decir. la probabilidad de que el individuo encuentre trabajo) al tiempo t. en este caso desempleo.6.

Datos de Duración Continua Considere ahora el caso en que T es una variable aleatoria no negativa continua. la función de verosimilitud (esto es. mientras que otras aún permanecen en esa condición). algunas completas otras incompletas (algunas personas dejaron de ser desempleadas. es decir. o bien de la tasa de riesgo. F (t) y S(t) como las funciones de densidad. Los datos para estimar el modelo serán duraciones. Generalmente. o de la función de sobrevivencia. digamos entre t y t + ∆t. Denotando f (t). De (49) se sabe que: S(t + 1) = S(t)(1 − λt ) = S(t) − S(t)λt Reemplazando (5) y ordenando se tiene que: f (t) = S(t) − S(t + 1) (52) Note que la distribución de T puede ser especificada en términos de la función de densidad. corresponde al producto entre la probabilidad condicional de dejar de estar desempleado en el tiempo t (tasa de riesgo) y la probabilidad de mantenerse desempleado en t (función de sobrevivencia). Corresponde a la probabilidad de dejar el estado (de desempleo) en un intervalo de tiempo breve. los modelos de análisis de duración son especificados en términos de la función de riesgo. De (48) es posible notar que la función de distribución acumulada se define como: F (t) = 1 − S(t) (50) La función de densidad de probabilidades de T entrega la probabilidad de que una duración completa sea exactamente igual a t. P (T = t): t−1 f (t) = λt (1 − λs ) = λt S(t) s=0 (51) Es decir. respectivamente. acumulada y sobrevivencia. dado que se encuentra desempleado en t es: f (t) = − P (t ≤ T < t + ∆t|T ≥ t) 136 (55) . la probabilidad de observar los datos que se tienen dado el modelo) será especificado en términos de la función de sobrevivencia y de la función de densidad. 6. Así. se tiene que: ∞ S(t) = P (T ≥ t) = t f (u)du (53) Note que: ∂S(t) (54) ∂t La función de riesgo es ahora la probabilidad instantánea de dejar de ser desempleado en el tiempo t condicional a que el individuo lo ha estado hasta t.2.con t ≥ 1 y con S(0) = 1.

o bien. 6. Nuevamente. f (t). la distribución de T puede ser especificada tanto en términos de f (t) como de S(t). Se dice que la función de riesgo presenta dependencia en la duración si: ∂λ(t) =0 ∂t (57) Al igual que en el caso discreto. de λ(t).La función de riesgo se define como:21 λ(t) = l´ P (t ≤ T < t + ∆t|T ≥ t) = l´ ım ım ∆t→0 F (t + ∆t) − F (t) f (t) = ∆t→0 ∆tS(t) S(t) (56) Un aspecto interesante respecto de la probabilidad de salida del estado (desempleo) será si esta varía a medida que transcurre el tiempo. Estimación no paramétrica de la Distribución Tiempo Discreto Considere una muestra de n individuos de una distribución dada para la cual observamos un conjunto de personas las cuales han completado su duración (encontraron trabajo) y otras para las cuales sólo observamos el período vigente de desempleo (siguen buscando trabajo). Definiremos ci = 1 si el período de desempleo se ha completado y ci = 0 si no. esta se define como: λ(t) = f (t) 1 − F (t) que corresponde a la densidad de una variable aleatoria truncada.3.1. más difícil es para la persona desempleada encontrar trabajo (histéresis). a medida que pasa el tiempo. Reemplazando (8) en (10) se tiene: λ(t) = Por lo tanto: S(t) = exp 0 −∂logS(t) 1 −∂S(t) = S(t) ∂t ∂t t (58) λ(u)du = exp{−Λ(t)} (59) donde Λ(t) se denomina función integrada de riesgo. y 21 En términos más formales. Para aquellos con duración completada la probabilidad de la información observada viene dada por la función de densidad. Por ejemplo. 6. estas relaciones permiten escribir la función de verosimilitud para una muestra dada en términos de un modelo de riesgo específico. 137 .3. Sea ti la duración observada para el individuo i.

El estimador correspondiente para la función de sobrevivencia es: j−1 j−1 ˆ S(j) = 6. dos semanas. Así. el número de individuos con duraciones ≥ j.. definiremos nj como el número de salidas en tj y rj como el número potencial de salidas en tj . . Ordenando estas duraciones de menor a mayor se tiene: t1 < t2 < .. J..para aquellos con duración censuradas por la función de sobrevivencia. 22 Piense en J como medida en semanas: una semana. J. No incluye aquellos que se retiran (ver gráficos Stewart). el estimador de máxima verosimilitud para la función de riesgo en estos puntos será como la ya definida y el estimador de la función de sobrevivencia vendrá dada por: ˆ S(t) = j|tj <t rj − nj rj (65) Esta es conocida como la función Kaplan-Meier o el estimador de producto límite y tiene la forma de una función “step” declinante. etc. por ejemplo. 138 .. es decir. el individuo que estuvo o está más tiempo desempleado) y definiendo nj como el número de salidas en tiempo igual a j (número de personas que encontraron trabajo en la última semana) y rj como el número de potenciales salidas en j (número de personas que pudieron haber encontrado trabajo en la última semana)...2. La verosimilitud de la muestra observada viene dada por: n L= i=1 λcii t ti −1 (1 − λs ) s=0 (60) Sea J la duración mas larga en la muestra22 (es decir. Tiempo Continuo ˆ (1 − λk ) = k=0 k=0 rk − nk rk (63) Aquí habrá un universo finito de distintas duraciones completas en la muestra.3. < tj (64) Al igual que en el caso anterior. Este es el estimador natural de λj : la razón entre el número de salidas en la duración j y el número potencial de salidas en ese punto del tiempo. Ejemplo: Encuesta de desempleo (por cohortes) en UK.. Entonces podemos reescribir la verosimilitud como sigue: J L= j=0 λj j (1 − λj )rj −nj n (61) Maximizando log(L) con respecto a λj se tiene: nj ˆ λj = rj (62) para j = 0.

donde S(t) es el estimador Kaplan-Meier de la función de sobrevivencia. Modelos Paramétricos La partida natural al considerar modelos paramétricos es aquel modelo donde la función de riesgo es constante. 25 Por conveniencia en la estimación. La función de riesgo integrada es ˆ ˆ ˆ Λ(t) = −log[S(t)]23 . 26 Es decir. se presenta el gráfico de los datos de observaciones de desempleo de UK (ver figura 3). Así.4. λ(t) = λ ∀t. la cual permite dependencia temporal26 de la duración es la distribución Weibull. sugiriendo que una representación exponencial de T puede no ser adecuada.5772 y 1. la probabilidad de finalizar el ciclo va cambiando conforme pasa el tiempo. la cual no depende de λ. Existe una marcada curvatura en el gráfico. log(T ) tiene una varianza conocida. es posible testear si la linealidad es o no rechazada. respectivamente. La gráfica de esta en función de t debiese ser una línea recta que parte del origen. no depende de cuánto tiempo el individuo ha estado desempleado.5 y es log λ ).24 La duración media en el modelo exponencial es λ−1 y la varianza es λ−2 (la mediana de la distribución de duración viene dada por la 2 solución de S(t) = 0.6. Como una ilustración. Su función de riesgo viene dada por: λ(t) = αλ(λt)α−1 (72) 23 24 Ver (13). Una generalización simple pero importante de la distribución exponencial.6449. De las relaciones discutidas anteriormente. Es posible mostrar que en este caso T (tiempo del ciclo) tiene una distribución exponencial. El modelo puede ser escrito en su forma log-lineal como sigue:25 log(T ) = −log(λ) + ω (69) donde ω tiene una distribución extrema del tipo I (eω tiene una distribución exponencial unitaria). De hecho. Así: media : E(logT ) = −logλ + ψ(1) (70) varianza : V (logT ) = ψ (1) (71) donde ψ(1) y ψ (1) son constantes conocidas −0. 139 . La probabilidad condicional de dejar el desempleo no varía en el ciclo. podemos observar que para este caso: Λ(t) = λt (66) a lo cual se llega solucionando una sencilla integral. Además: S(t) = exp(−λt) f (t) = λexp(−λt) (67) (68) La ecuación (66) proporciona una gráfica muy útil para analizar lo adecuado del modelo exponencial como representación de los datos. es decir.

Dado que log(Λ(t)) = αlog(λ)+αlog(t). Veamos el caso de UK (figura 4). En el caso especial de la exponencial la línea recta también debería estar sobre la recta de 45◦ .con α. respectivamente. Observamos que se parece bastante a la línea recta o por lo menos tiene menos curvatura que el gráfico anterior. podemos escribir el modelo Weibull como: log(T ) = −log(λ) + α−1 ω donde ω es la distribución de valor extremo tipo I. 140 . En forma similar al caso exponencial. un gráfico entre log(Λ(t)) = log[−log[S(t)]] contra log(t) debería dar aproximadamente una línea recta. Lo anterior implica que: media : E(logT ) = −log(λ) + varianza : V (logT ) = ψ(1) α (79) (80) (78) ψ (1) α2 Weibull introduce su parámetro en la varianza definida por la exponencial. existe un test gráfico muy útil basado en la transformación Kaplan-Meier de la estimación de la función de sobrevivenˆ ˆ cia. Al igual que en el caso anterior. Esta función crece o decrece monotónicamente dependiendo si α > 1 o α < 1 y se reduce a la exponencial si α = 1. Las funciones ψ(1) y ψ (1) antes mencionadas son la primera y segunda derivada de logΓ(·). Considerando las relaciones antes vistas podemos observar que para el caso Weibull se tiene que: Λ(t) = (λt)α (73) S(t) = exp[−(λt)α ] f (t) = αλ(λt)α−1 exp[−(λt)α ] Para el caso de la distribución Weibull se tiene que: media : E(T ) = λ−1 Γ 1 + varianza : V (T ) = λ−2 Γ 1 + 2 α 1 α 1 α (76) (77) (74) (75) − Γ2 1 + donde Γ(·) es la función Gamma completa (para un ejemplo ver Lancaster 1990 Apéndice 1). λ > 0.

Estimación Considere una muestra de n individuos con una distribución de duración particular. La inversa de la matriz Hessiana (con signo cambiado) puede ser utilizada para aproximar la varianza del estimador y así calcular los errores estándar de los coeficientes.6. La varianza asintótica viene dada por: ∂ 2 log(L(λ)) ˆ V (λ) = − ∂λ2 ˆ V (λ) = ˆ λ2 n i=1 ci −1 (85) (86) la cual crece a medida que aumenta el grado de censura. Para el caso de la distribución Weibull la log-likelihood es la siguiente: n logL(λ. α) = i=1 {ci log(α) + ci αlog(λ) + ci (α − 1)log(ti ) − (λti )α } (87) Se requieren técnicas iterativas para maximizar esta expresión con respecto a λ y α. que toma el valor 1 si el ciclo o racha es completada (el período de desempleo terminó) y 0 si no. La contribución a la verosimilitud del individuo i viene dada por: log(Li ) = ci log(f (ti )) + (1 − ci )log(S(ti )) log(Li ) = ci log(λ(ti )) + ci log(S(ti )) + (1 − ci )log(S(ti )) log(Li ) = ci log(λ(ti )) + log(S(ti )) log(Li ) = ci log(λ(ti )) − Λ(ti ) (81) En el caso del modelo exponencial la función de verosimilitud para la muestra viene dada por: n log(L(λ)) = i=1 {ci log(λ) − λti } n n (82) La primera derivada es: ∂logL(λ) 1 = ∂λ λ Así: ˆ λM LE = ci − i=1 n i=1 ci n i=1 ti i=1 ti (83) (84) Ante la ausencia de censura esta expresión equivale simplemente a la inversa de la duración promedio en la muestra. Sea ti la duración observada para el individuo i y sea ci la variable indicadora. A continuación se presentan los resultados de estos modelos aplicados a los datos de UK: 141 .5.

En forma alternativa. Por ejemplo. 6.86 (0. El modelo exponencial (α = 1) se rechaza con test LR a favor de Weibull. La duración mediana de desempleo en la muestra es alrededor de 101 días. En el caso de Weibull (recordar que la exponencial es un caso especial).55 (0.2 Weibull 0. En estos modelos una variable explicativa tiene el mismo efecto proporcional en todos los puntos del riesgo. este caso pertenece a la clase de modelos de riesgo proporcional. De esta forma. es especificar uno de los parámetros en el modelo homogéneo como función de un vector de variables explicativas Z.56 (0. Una manera natural de incorporar estos factores al contexto paramétrico ya descrito.0 -1905. Así. al incluir las variables explicativas tenemos log(T ) = −γ0 − Z γ + α−1 ω (92) ∗ log(T ) = γ0 + Z γ ∗ + σω (93) 142 . ambos predicen una mediana un poco mayor a la verdadera aunque la distorsión es reducida al utilizar el modelo Weibull.ˆ λ×100 α ˆ log(L) Mediana (días) Exponencial 0. Z) = αtα−1 exp{β0 + Z β} (89) (90) (88) Así. podemos especificar: λ = exp{γ0 + Z γ} Esto proporciona una función de riesgo del siguiente tipo: λ(t.6. pensando en el requerimiento de no-negatividad. el ingreso individual dentro y fuera del trabajo o las condiciones de demanda que existen en el mercado laboral local. Z) = αtα−1 exp{α(γ0 + Z γ)} λ(t. luego los estimadores de λ están en términos diarios. Ambos estimadores de λ son similares entre sí e indican que existe una probabilidad cercana al 4 % para salir del ciclo o racha (de desempleo) por semana.9 117.03) -1888. recordemos que el modelo de Weibull puede ser escrito como un modelo lineal para el logaritmo de T : log(T ) = −log(λ) + α−1 ω (91) con ω teniendo distribución valor extremo tipo I. Impacto de Factores Explicativos Obviamente uno de los principales objetivos del modelamiento es examinar el impacto de varios factores explicativos sobre la probabilidad de dejar la situación de desempleo.02) 1.4 La duración está medida en días.1 127. Los modelos difieren en su predicción en la mediana de la distribución.02) 0.

Veamos cada uno en detalle donde los modelos de riesgo proporcionales han sido los mas utilizados en la literatura econométrica sobre duración. β). independientemente de la distribución de T . las variables explicativas tienen un efecto multiplicativo sobre T. la cual no depende de φ(Z.1. β) = exp(Z β) lo que implica que: λ(t. Z) = λ0 (t)eZ β y así: (96) (95) ∂log(λ(t. β) (94) Dado el requerimiento de no-negatividad. y un término dependiente del vector de variables explicativas Z: λ(t. Z) = λ0 (t)φ(Z. Este modelo también pertenece a la clase general de los modelos log-lineales denominados modelos de tiempo de falla acelerado. el riesgo (la probabilidad de dejar el desempleo en t dado que se está desempleado en t − 1) se especifica como el producto de un término que depende sólo de la duración que haya transcurrido. los regresores aceleran el tiempo de dejar el desempleo. De esta forma. β)) + ε t (98) donde Λ0 (t) = 0 λ0 (u)du es la función integrada de riesgo base y ε tiene una distribución valor extremo. este puede ser escrito como −log(Λ0 (t)) = log(φ(Z.que corresponde a una regresión log-lineal para T con un error distribuido valor extremo. con el fin de generalizar el modelo.6. En consecuencia. Modelo de Riesgo Proporcionales En este modelo. Una propiedad interesante de la función de riesgo integrada es que. esta tiene una distribución exponencial unitaria. 6. Z)) =β (97) ∂Z entregando un efecto proporcional constante de cada variable explicativa sobre la probabilidad condicional de dejar el desempleo. conocido como el riesgo base (baseline hazard ). β) = exp(z β) entonces: −logΛ0 (t) = Z β + ε (99) entrega una regresión lineal para la variable transformada t∗ = −log(Λ0 (t)) (conocer la distribución de ε será fundamental para la construcción de pruebas específicas una vez 143 . tanto el modelo de riesgo proporcional como aquellos de tiempo de falla acelerada aparecen como rutas naturales a este fin. En el caso del modelo de riesgo proporcional. una expresión comúnmente usada para φ es: φ(Z. En el caso de que especifiquemos φ(Z. En estos modelos.

es decir.90 (0.60) 1. El vector Z contiene variables como edad.06) -9.0 -0. como por ejemplo.3 Weibull 0.56 (0.57) -1809.14) -0.03)). β) por un método iterativo. Veamos primero el tema de estimación paramétrica del riesgo base. Zi ) = αtα−1 exp{β0 + Zi β} (100) i Asumiendo nuevamente una muestra aleatoria. los efectos en el logaritmo del riesgo. Como se vio anteriormente. esto nos entregará: λi (ti .60) 1. el de Newton-Raphson.28 (0.16 (0.32 (0.que el modelo ha sido estimado).53 (0. la log-likelihood para la muestra observada es: n logL(α. el estimador es más cercano a 1 que en el modelo sin regresores (α = 0.03) 0.6 122.55 (0.030) 0. Especificación Paramétrica Utilizaremos una especificación Weibull para el riesgo base.30 (0. la contribución a la log-likelihood del i-ésimo individuo viene dada por:27 log(Li ) = ci logλi (ti ) − log(riesgo) Λi (ti ) log(sobrevivencia) (101) Así. dummy casado. Notar que en el modelo de riesgo proporcional asumimos una distribución conocida para ε y estimamos la transformación Λ0 junto con β. β) = i=1 {ci log(α)+ci (α −1)log(ti )+ci β0 +ci Zi β −tα exp(β0 +Zi β)} (102) i el cual puede ser maximizando con respecto a (α. tasa de desempleo.16 (0.72 (0. Para obtener los efectos en el logaritmo de la duración (γ ∗ ) se debe invertir el signo y dividir por α: ˆ Exponencial α ˆ ˆ β Age/ 10 Married local unemployment rate log(employment income) log(unemployment income) ˆ β0 log(L) Median (in days) 1.06) -8.46 (0.61 (0. La forma alternativa. asumen una transformación conocida de t y así estima la distribución de ε junto con los β.14) -0.3 116.86(0.57) -1816.12) -1. β0 . Veamos un ejemplo utilizando el caso de empleo en UK. Los coeficientes β.2 La hipótesis α = 1 es rechazada nuevamente (LR test). el logaritmo del ingreso predicho si estuviese empleado. son presentados en la siguiente tabla. No obstante. el logaritmo del ingreso predicho mientras estuvo empleado.30) -0. 144 .53 (0.12) -1. que nos conduce a los modelos de falla acelerada. β0 . Como veremos más 27 Ver (35).

. La probabilidad condicional de que el individuo i-ésimo deje de estar desempleado en ti dado los individuos que pudieron haber salido en ese punto (es decir. este modelo podría estimarse 2 por mínimos cuadrados ordinarios (MCO). dada la especificación de riesgo proporcional como: exp(Zi β) (106) n j=i exp(Zj β) 145 . Lo anterior puede reescribirse como: log(T ) = β ψ(1) − β0 −Z +µ α α (104) con E(µ) = 0 y V (µ) = ψα(1) . con duraciones completadas ordenadas ti < t2 < . Considere el caso más simple de no censura y todas las duraciones con un tiempo único. Dada la forma funcional estos coeficientes representan elasticidades. α está sesgado hacia abajo por la exclusión de regresores relevantes. Zi ) (105) n j=1 λ(ti . existen fuertes efectos asociados al ingreso. Una distribución alternativa puede obtenerse seleccionado una especificación distinta para el riesgo base. La estimación sería la misma que la anterior bajo la especificación de la forma funcional apropiada para las funciones de riesgo y riesgo integrado correspondientes. la que puede ser escrita. Un residente de un mercado laboral que tenga la tasa de desempleo mas baja tiene una tasa de salida cercana a un 45 % mas alta comparada con una persona que resida en un mercado laboral con la tasa de desempleo mas alta. Estimador de Verosimilitud Parcial de Cox Este estimador entrega un método para estimar β sin tener que especificar la forma del riesgo base. Zj ) La ecuación anterior es la probabilidad condicional (riesgo) del individuo i dada la probabilidad existente para salir. Pero MCO es inapropiado ante censura y debe ser estimado por máxima verosimilitud (ML).adelante. Vimos anteriormente que un modelo Weibull puede también escribirse como: log(T ) = − β 1 β0 −Z + ω α α α (103) con ω distribuido valor extremo tipo I.. el cual entregaría un estimador insesgado de β α . < tn . Por otra parte. Ante la ausencia de censura. La probabilidad de salida (del desempleo) de una persona de 60 años es aproximadamente 1/4 con respecto a un tipo de 20 años comparable. ˆ Los estimadores muestran un efecto fuerte de la edad (ceteris paribus). aún están desempleados) es: λ(ti .

Los resultados de la estimación con el estimador parcial de Cox para la misma base de datos y con el mismo vector de variables explicativas Z. ¿Cómo podemos abordar este problema? Una forma natural es incorporar un escalar µ el cual representa regresores omitidos en forma análoga a aquellos donde se introduce heterogeneidad observada: λ(t.14) -0.12) -1. µ) = λ0 (t)eZ β+µ (108) 146 .03) 0. mas de un individuo con la misma duración).7.60) 1. La desventaja es que λ0 (t) debe ser estimado no paramétricamente.50 (0. trabajadores más diestros o que trabajan en sectores mas empleables son los primeros en dejar de estar desempleados dejando a aquellos con menor probabilidad de salida. Una vez que β ha sido estimado el riesgo base puede ser estimado en forma no paramétrica como en el caso de Kaplan-Meier.42 (0. Heterogeneidad Omitida y Modelos Mixtos A pesar de que hemos introducido heterogeneidad.dado que el término λ0 (ti ) se cancela.06) Los coeficientes estimados son muy parecidos a los encontrados en los modelos paramétricos. es el siguiente: ˆ β Age/ 10 Married Local unemployment rate log(employment income) log(unemployment income) -0. La log-likelihood a ser maximizada viene dada por:    n  n  Zi β − log  exp(Zj β) (107) log(L(β)) =   i=1 j=i El estimador puede fácilmente extenderse para casos de censura y empate (es decir. 6. Dentro de las ventajas de estos modelos es que no se necesita ningún supuesto sobre λ0 (t). no influye mucho sobre los coeficientes estimados. Intuitivamente. Estas heterogeneidades omitidas pueden sesgar (hacia abajo) los riesgos estimados.52 (0. y en consecuencia. Existe un problema de identificación entre la verdadera dependencia de duración y la dependencia de duración espúrea como resultado de la heterogeneidad no controlada. la cual puede resultar de las diferencias en las características observadas (las cuales se mantienen constantes en el tiempo). es esperable que existan otras características (no observables) que pueden influenciar la probabilidad de dejar la situación de desempleo.18 (0. creando la ilusión de una fuerte dependencia negativa de la duración que actualmente existe. la que en este caso particular.29 (0. Z.

48 (0. Z. En el modelo paramétrico se especifica una distribución para ν y los parámetros de la distribución se estiman conjuntamente con aquellos del riesgo individual.51) 0 -1816. ν no es observable.55 (0.35 (0.32 (0.0 0.03) 0.λ(t.28 (0.08) 0.10) 1. Una forma comúnmente adoptada es la distribución gamma para ν con media unitaria y varianza σ 2 .18) 0. Z) = 1 + σ 2 eZ β Λ0 (t) − σ2 (112) A medida que σ 2 → 0 se vuelve al modelo homogéneo.05) 9. se ha incluido una forma de heterogeneidad distribuida gamma. Z.03) -0.38 (0.19) -1777.59 (0. donde junto con las anteriores versiones homogéneas.51) -1.03) -0. Usando las relaciones ya vistas la función de sobrevivencia se puede escribir como:28 S(t.18 (0. podemos notar el problema de identificación.07) 10.73) 1. Así. Z.72 (0. Así. la integración que resulta para la función de sobrevivencia condicional sólo en observables es: 1 S(t.53 (0.6 122.82 (0. Z) = S(t.12) 0. Z) = λ0 (t)eZ β S(t.00 (0.13 (0.03(0. Z)σ donde también está el problema de identificación. Al diferenciar se puede demostrar que la función de riesgo condicional sólo en observables es: λ(t.60) -1. la misma distribución de los datos observados. µ) = exp(−νeZ β 0 t λ0 (τ )d(τ )) (110) No obstante.05) 9.90 (0. µ) = λ0 (t) ν eZ β (109) riesgo base no obs. Z).3 116.18 (0.9 2 (113) α ˆ γ∗: ˆ Age/ 10 Married Local unemployment rate log(employment income) log(unemployment income) γ0 ˆ∗ σ2 ˆ logL Median (in days) 28 Ver (13). Combinaciones diferentes de λ0 (t) y g(ν) pueden entregar el mismo S(t. obs.16 (0. ν)g(ν)dν (111) 0 donde g(ν) es la función de densidad de probabilidades de ν.34 (0.04) -0.61) 0 -1809.2 Weibull/Gamma 1. Veamos el caso de los datos para UK nuevamente.61 (0. Exponencial 1.7 99. es decir.15) 0. donde ν = eµ . Dos enfoques han sido considerados para la estimación de modelos mixtos de este tipo: paramétricos y no-paramétricos.36 (0.3 Weibull 0.15) 1.78 (0. La función de sobrevivencia condicional sólo en observables es: ∞ S(t.71) -2. 147 .12) 1.

La mediana predicha es mas cercana a la muestral en este último modelo. Existen también diferencias en los estimadores γ ∗ (efectos de duración): casados ahora tienen una duración significativamente mas corta que aquellos solteros comparables. El estimador del parámetro de dependencia de duración α. 148 . El efecto de la tasa de desempleo local es insignificante. es significativamente mayor que 1 en el modelo de gamma de heterogeneidad.El modelo Weibull homogéneo es rechazado en favor del gamma mixto: σ 2 es significativamente mayor que cero. mientras que era significativamente menor que 1 en los modelos que no controlaban por heterogeneidad. Ambas elasticidades ingreso son un poco mayores en el modelo gamma heterogéneo.

149 .

Así. indexaremos la dimensión temporal como t = 1 · · · T y la dimensión transversal como n = 1 · · · N . Suponga que estamos estudiando la utilización (consumo) de bienes públicos entre países e imagine que existe un factor que varía entre los países pero que no es fácilmente medible : uno de estos factores puede ser actitudes políticas con respecto a la provisión pública de servicios. El aumento en el número de observaciones aumentará el número de grados de libertad. El análisis de la de conductas utilizando datos de panel es una de las áreas más atractivas de la econometría. Estas dos apreciaciones no pueden ser distinguibles en el caso de que sólo contáramos con datos de corte transversal. ¿ Porqué usar Datos de Panel ? Mas observaciones : Un panel contiene NT observaciones. 7. Dado que en una política pro-estado (estado benefactor) es esperable que el consumo de bienes públicos aumente. Por convención. si pudiéramos seguir a los trabajadores durante el tiempo entonces podríamos determinar si el salario de un trabajador con una habilidad constante sube o no cuando pasa de no estar sindicalizado a estarlo. Segundo. que diferentes niveles de sindicalización reflejan factores diferentes al poder del sindicato. 7. que los sindicatos hacen aumentar los salarios por encima de la productividad marginal de la mano de obra.1.7. en el caso de estados benefactores como Suecia. datos de panel es la unión de datos en serie de tiempo y de corte transversal.1. Discriminación entre hipótesis : Al utilizar el componente de series de tiempo de los datos puede ser posible discriminar entre hipótesis aspecto que no es posible realizar al utilizar solo datso de corte transversal Ejemplo: Considere el efecto de la sindicalización sobre los salarios. Típicamente T es relativamente pequeño mientras N es relativamente mayor. Suponga que observaciones de corte transversal sugieren que firmas donde existen sindicatos. como ser la productividad de la mano de obra individual. uno esperaría encontrar una diferencia significativa en la propensión al consumo de bienes públicos con respecto al promedio del resto de los países. Primero.1. Controlando por heterogeneidad individual no observable: Similar al caso anterior el que lo ilustraremos mediante un ejemplo. reducirá el grado de colinealidad muestral y aumentará la eficiencia de cualquier estimador que se obtenga. Sin embargo. En esta y la siguiente clase daremos una introducción a este tema. Datos de Panel Introducción Un conjunto de datos de panel o longitudinales es aquel que sigue individuos (firmas o paises) a través del tiempo y en consecuencia entrega múltiples observaciones para cada individuo. Notar que incluso si T = 2 tendremos un panel que puede ser utilizado para realizar estimaciones. Esto es consistente con a lo menos dos hipótesis. En 150 . sus trabajadores tienen salarios mas altos.

T (114) donde... como veremos en seguida. Tanto los coeficientes de la pendiente como de los interceptos estarán sesgados al ser estimados por OLS y el sesgo no tendrá signo determinado. También se sigue de que modelos estándar de panel no pueden tampoco manejar este problema (ya que no tenemos suficientes grados de libertad). tanto αi como βi pueden variar entre individuos. en principio... 151 . podríamos manejar este problema al utilizar una variable dummy para Suecia. Los estimadores OLS de las pendientes e interceptos serán sesgados y sin sentido. Ver Figura. Datos de panel pueden ser útiles en este caso..una regresión de corte transversal. lo que logra es sacar completamente a Suecia de la muestra lo que no es satisfactorio. ¿ Cuáles son las implicancias de esto ? (i) Interceptos heterogéneos (αi = α). Esto. OLS X X X alfa 3 X X X X X X X alfa 2 X X X X X X alfa 1 (ii) Pendientes e interceptos heterogéneos (αi = α y βi = β ). sin embargo.N t = 1.. Ver Figura. Considere el siguiente proceso de generación de datos (bivariado): yit = αi + βi xit + uit i = 1. . Este no será el caso para datos de panel. Suponga que agrupamos las NT observaciones y estimamos el modelo clásico de regresión (con α y β fijos) : yit = α + βxit + uit (115) Esta especificación ignora la heterogeneidad entre individuos.

En este caso. (i) Caso donde zit = zi para todo t de tal forma de que las variables Z son constantes en el tiempo pero que sólo difieren entre individuos. la estimación por OLS de (3) entregará estimadores insesgados y consistentes del vector de parámetros β y γ . Suponga. 2 µit ∼ N (0. De esta manera. dado que zit representaría el caso clásico de omisión de variable. podemos tomar las primeras diferencias de (114) con respecto al tiempo para obtener : (yit − yit−1 ) = β (xit − xit−1 ) + (µit − µit−1 ) (117) De esta manera lo que hicimos es "sacar"la variable-problema Z de tal manera que ahora se pueden obtener estimadores insesgados y consistentes de β. (ii) Caso donde zit = zt para todo i de tal manera de que las variables Z son ahora comunes para todos los individuos. corregir) por este problema de omisión de variable. Esta es una de las principales atracciones acerca del uso de datos de panel. Cuando tenemos datos de panel existen dos situaciones en las cuales podemos controlar (i. σu ) (116) Bajo los supuestos usuales. los estimadores OLS de β estarán sesgados. de que el vector de variables Z no es observable pero donde la matriz de covarianza entre X y Z no es cero. sin embargo.i=3 OLS i=2 i=4 i=1 Controlando por variables omitidas (no observadas o mal medidas): Datos de panel permiten al investigador usar los elementos tanto dinámicos como de individualidad de los elementos de un set de datos para controlar por los efectos de variables faltantes o inobservables. podemos tomar la desviación de la observación de cada individuo sobre la media entre todos 152 .e. Así. Considere el siguiente modelo : yit = α∗ + β xit + γ zit + uit .

los individuos (en cada período), de la siguiente forma : yit − yt = β (xit − xt ) + (µit − µt ) (118)

1 donde yt = N N yit representa la media grupal (el valor promedio de la i=1 variable del grupo i = 1 · · · N en cada período t )

En ambos casos las transformaciones han "sacado"la variable-problema no observada (o mal medida) Z. Como consecuencia, la estimación por OLS de (117) o (118) entregará estimadores insesgados y consistentes de β los que no podrían haber sido obtenidos mediante series de corte transversal o en series de tiempo en forma aislada. Modelamiento de la Dinámica de Ajuste: Datos de panel son particularmente útiles para el análisis de la duración de situaciones económicas como desempleo o pobreza. Dependiendo del largo del panel estos nos pueden dar luces sobre la velocidad de ajuste a shock exógenos. Aunque estos deben ser modelados con largos datos de panel mediante técnicas denominadas Datos de Panel Dinámicos (DPD), los que veremos en la próxima clase. 7.1.2. Algunos Problemas de los Datos de Panel

Costos de recolección de los datos : Algunos datos de panel son terriblemente costosos en su recolección y requieren largos horizontes de investigación. Ellos presentan todos los problemas clásicos de recolección de datos como cobertura, no respuesta, selección endógena (i.e. truncamiento endógeno), etc. Medición del Error Compuesto : En aquellas situaciones en que medir el término de error es un problema, esto puede simplificarse o bien exacerbarse cuando se utilizan datos de panel. Suponga que tenemos un ingreso (variable X) el cual es declarado en el tiempo t por el hogar i con cierto error : x∗ = xit + it donde
it it

(119)

es una medida del error con media cero y varianza seccional igual a ω.

Si asumimos de que Cov(x, ) = 0 entonces V ar(x∗ ) = V ar(xit ) + ω. Ahora, it si vamos a utilizar estos datos para eliminar algunos efectos no observables (como en la ecuación (117)) entonces tenemos lo siguiente : ∆x∗ = ∆xit + ∆ it V ar(∆x∗ ) it
it

= V ar(∆xit ) + 2ω 2 (1 − ρ)

(120)

donde ρ es la correlación entre el error de medición de dos períodos. Ello puede sugerir dos casos extremos: 153

Caso (i) Errores Independientes del Tiempo (autocorrelación perfecta) Suponga de que un hogar comete el mismo error año tras año ( por ejemplo el hogar se equivocan en ingresar el valor de su casa). En este caso ρ tenderá a uno y en consecuencia : ∆x∗ → ∆xit it V ar(∆x∗ ) → V ar(∆xit ) it (121) De esta manera, datos de panel permiten que los errores de medición sean "eliminados"de los datos y así los parámetros de interés sean estimados sin sesgo. Caso (ii) Suponga que los errores de medición no están correlacionados en el tiempo ( ρ = 0 ). En este caso, encontraremos de que al diferenciar la varianza en el error de medición será duplicada. Si la varianza del verdadero valor de X es relativamente baja (e.g. existe una persistencia en el tiempo en X) entonces, al diferenciar los datos significará que la "señal"es absorbido por el ruido". En general, notar de que si ρ < 0,5 al diferenciar los datos tendrá un efecto desproporcionado sobre la varianza del error en la medición relativo a la varianza propia de la variable en sí. Sesgo de Respuesta Sistemática y Reducción Sistemática : El primer sesgo surge al tener que visitar en forma reiterada al mismo individuo y las respuestas pueden entonces ser endógenas; las personas tienden a exagerar. El segundo sesgo está relacionado con el hecho de que las los hogares o individuos entrevistados en el pasado pueden ya no serlo en el presente ya que o bien murieron, quebraron, dejaron de ser pobres, etc, lo que puede introducir un sesgo hacia atrás. Esto se puede corregir con los denominados pseudo-paneles, tópico que está fuera del alcance de este curso.

7.2.

Un Modelo Lineal General para Datos de Panel

El modelo básico de datos de panel combina series de tiempo con datos en corte transversal en un solo modelo el cual puede ser escrito de la siguiente forma : yit = α + Xit β + uit , i = 1....N, t = 1.....T (122)

donde i denota las unidades en corte transversal y t el tiempo. Los diferentes modelos de datos de panel dependerán de los supuestos que se realicen sobre los errores no observados uit . Existen principalmente dos alternativas : El one-way error component model (modelo de error de componente en un solo sentido) el cual asume de que la estructura del error se define como sigue uit = µi + υit ,
2 υit ∼ iid(0, συ )

(123)

154

donde µi denota efectos específicos al individuo que no son observables y υit son los denominados efectos idiosincráticos. Los µi son invariantes en el tiempo y dan cuenta de cualquier tipo de efecto individual no incluido en la regresión. Un ejemplo estándar en ecuaciones de ganancia es la habilidad; en funciones de producción agrícola uno de estos efectos puede ser la calidad (no observada) del suelo; en macro paneles sobre crecimiento de países se pueden incluir normas culturales (e.g. con respecto al ahorro o riesgo). El two way error component model se asume de que la estructura del error se define de la siguiente manera : uit = µi + λt + υit ,
2 υit ∼ iid(0, συ )

(124)

donde, nuevamente, µi denota efectos individuales específicos no observables y donde λt denota efectos temporales no observables. Estos efectos se asumen que son comunes entre individuos pero que varían en el tiempo. Ejemplos incluirían variaciones en el clima o cambios en la política económica en general.

7.3.

El One Way Error Component Model

Podemos re escribir (122) en forma vectorial de la siguiente forma : Y = α1N T + Xβ + u = Zδ + u (125)

donde las dimensiones de las matrices son Y = [N T ×1], X = [N T ×K], Z = [1N T X] y δ = [α β ] en donde 1N T es un vector de unos de dimension N T . De esta forma (123) puede ser expresado como sigue: u = Zµ µ + υ (126)

donde u = (u11 , ...u1T , u21 , ...u2T , ....uN 1 , ...uN T ) y Zµ = IN ⊗ 1T , con IN la matriz identidad y ⊗ el producto Kronecker. De esta manera Zµ es la matriz de selección la que está compuesta de ceros y unos y que captura los efectos de µi . Usaremos estos resultados para calcular dos matrices adicionales. La primera es :
N T ×N T

P

= Zµ (Zµ Zµ )−1 Zµ

la cual es la matriz de proyección sobre Zµ ; matriz que promedia las observaciones en el tiempo para cada individuo. La segunda matriz es : Q = IN T − P la cual permite obtener las desviaciones sobre las medias individuales.

155

Cada uno de los coeficientes sobre µi miden la diferencia de los efectos individuales con respecto a un individuo base de comparación ( representado por α).1. De esta forma. si N es grande con respecto a N T existirán demasiados parámetros a estimar (α.3. tiene el típico elemento ui = como elemento típico uit − ui T uit t=1 T y la matriz Qu tiene este Estas relaciones se usan extensivamente para derivar los modelos de datos de panel. Este sería el caso si N representa la "población"tal como el conjunto de países o estados o firmas. Primero. y que nuestras inferencias es solamente relacionada sobre las N observaciones que se dispone. los efectos individuales los que. deberemos pre multiplicar el modelo (124) por la matriz de selección Q la cual calcula las desviaciones con respecto a la media grupal (de individuos). Así la inferencia es condicional sobre las N observaciones en particular : no estaremos utilizando los resultados para inferir aspectos relacionados a otro conjunto de países/firmas/individuos. desearemos simplemente controlar. Notar de que por definición de que el primer y tercer término de la parte derecha de (128) son cero. y no estimar. La alternativa mas común para estimar esta situación es el estimador de efectos fijos. La observación representativa para el individuo i en el tiempo t es : (yit − y i ) = (α − αi ) + (Xit − X i )β + (µi − µi ) + (vit − v i ) (128) 1 donde y i = T T yit es la media del valor y para el individuo i sobre todo el período de t=1 observaciones (t = 1 · · · T ). después de todo. Al sustituir (126) en (125) tenemos que: y = α1N T + Xβ + Zµ µ + ν = Zδ + Zµ µ + ν (127) Podemos usar OLS sobre (127) para generar estimadores de α y el vector de β y µ al incluir (N − 1) variables dummy para los efectos fijos no observados. β y los N − 1 efectos individuales específicos) en (127). 156 . En una notación vectorial mas conveniente queda de la siguiente forma : Qy = QXβ + Qν (129) donde hacemos uso del hecho de que Q−Zµ = Q1N T = 0 dado que el promedio temporal del efecto invariante en el tiempo es simplemente el efecto en si mismo. Sin embargo. son una amalgama de diferentes aspectos de la heterogeneidad. Ahora consideraremos dos supuestos sobre los efectos individuales µi . 7. Esta estimación generalmente se conoce con Estimador Mínimo Cuadrático de Variables Dummy (LSDV). el interés del investigador estará en saber los valores de α. β y en consecuencia. Comúnmente.De esta forma P u. Modelo de Efectos Fijos El modelo de efectos fijos asume que los efectos individuales µi son parámetros determinísticos los que deberán ser estimados.

podemos estimar como sigue : βW = (X QX)−1 X Qy donde
2 2 V ar(βW ) = σν (X QX)−1 = σν (X X)−1

(130) (131)

y donde podemos recuperar el valor estimado de α como : αW = y − X βW donde aquí, el promedio se calcula sobre todas las observaciones basados en la restricción de que N µi = 0 el cual es un supuesto estándar para las variables dummy. i=1 Resultados Si (127) es el verdadero modelo, el estimador de efectos fijos es BLUE sólo mientras vit tenga las características Gaussianas estándar. A medida de que T tiende a infinito, entonces el modelo es consistente para todos los parámetros del modelo. Sin embargo, si T es fijo y N tiende a infinito, entonces el estimador FE de β será consistente. El estimador FE de los efectos individuales (α+µi ) no son consistentes dado que el número de parámetros aumenta a medida de que N aumenta. Pruebas de Efectos Fijos Podemos testear para la existencia de efectos fijos al usar un test F estándar donde la nula es que : Ho : µ1 = µ2 = · · · µN −1 = 0 (132) La suma de cuadrados de residuos restringidas viene dado por la suma de los cuadrados de los residuos del modelo OLS sobre los datos agrupados y el modelo sin restringir son la suma de los residuos al cuadrado del modelo de efectos fijos. La prueba es la siguiente : (rrss − urss)/(n − 1) FF E = ∼ F[n−1,nt−n−k] (133) urss/(nt − n − k) Generalmente nos referiremos a esta como la restricción de agrupamiento sobre la heterogeneidad no observable en el modelo. 7.3.2. Modelo de Efectos Aleatorios

Suponga ahora que los efectos individuales no son determinísticos sino que cada uno de ellos son una variable aleatoria. Esto sería un supuesto mas razonable en el caso de que nuestros datos fuera una muestra genuina utilizada con el fin de realizar inferencias sobre la población como un todo. Estos efectos aleatorios no observables pueden ser pensados a nivel de individuos como habilidades mientras que a nivel de firma podemos 2 pensar en términos de capacidad administrativa. Asumiremos de que µi ∼ iid(0, σµ ) y que ambos, µi , vit son independientes de Xit para todo i y t. Ahora, siendo los efectos individuales aleatorios la varianza del término de error será :
2 2 V ar(uit ) = σµ + σν

(134)

157

El aspecto clave de esta varianza es que a pesar de ser homocedástica, tiene correlación serial al interior de cada unidad de corte transversal (dado que cada "efecto individual"de cada persona persiste en el tiempo). En particular, sea : Cov(uit , ujs ) = (µi + vit )(µj + vjs ) (135)

2 2 Así, si i = j y t = s entonces se tiene que la Cov(uit , ujs ) = σµ + σv . Por otro lado, si 2 y cero en otro caso. Por i = j pero t = s entonces se tiene que la Cov(uit , ujs ) = σµ extensión, tenemos lo siguiente :

ρ = Corr(uit , ujs ) = 1 ρ = Corr(uit , ujs ) =
2 σµ 2 2 (σµ + σν )

para i = j;

t=s t=s

para i = j;

y cero en otro caso. Esto sugiere que ante la presencia de efectos aleatorios, la matriz de varianzas covarianzas para el modelo de datos de panel no será del tipo "Gaussiano". Para proceder con la estimación necesitaremos analizar la estructura de esta matriz. Para examinar el estimador de efectos aleatorios necesitaremos introducir una nueva matriz de selección. Sea JT una matriz de unos de dimensión T de tal forma de que Zµ Z µ = IN ⊗ JT . De esta manera, a partir de (126) podemos calcular la matriz de varianza covarianza (la cual es ahora de N T × N T ) Ω = E(uu ) = Zµ E(µµ )Zµ + E(νν ) la cual se puede simplificar en la siguiente expresión :
2 2 2 2 2 Ω = (T σµ + σν )(IN ⊗ J T ) + σν (IN ⊗ ET ) = σ1 P + σν 2 2 2 donde J T = JT /T , ET = (IT − J T ) y σ1 = T σµ + σv .

(136)

(137)

Con esta definición podemos entonces aplicar a (127) el estimador GLS estándar para derivar los estimadores de los coeficientes de α, β bajo el supuesto de efectos aleatorios: δGLS = [X Ω−1 X]−1 [X Ω−1 y] (138)

El único problema (y uno no trivial) es que Ω es de rango (N T × N T ) y la inversión de esta matriz es extremadamente difícil. Un sinnúmero de trucos se han desarrollado para salvar esta traba. La forma de resolución a este problema mas popular introduce los denominados estimadores Entre Grupos (BG) el cual regresiona un conjunto de observaciones consistentes en el promedio a través del tiempo para cada una de las N observaciones : y i. = α + X i. β + ui 158 i = 1, ...N (139)

donde : y i. = 1 T

T

yit
t=1

El estimador entre grupos puede ser derivado al aplicar la matriz P a nuestro modelo básico en (127) : P y = P α1N T + P Xβ + P (Zµ µ + ν) (140) el cual entrega el siguiente estimador : βB = [X (P − J N T )X]−1 [X (P − J N T )y] (141)

Este estimador se denomina entre grupos pues ignora cualquier variación al interior del grupo ( o individuo) en el tiempo y utiliza, lo que efectivamente es un resumen de la información de corte transversal simple sobre la variación entre los grupos ( o individuos). Maddala (Econometrica, 1971) muestra de que el estimador GLS puede ser expresado como : βGLS = [ (X QX) X (P − J N T )X −1 (X Qy) X (P − J N T )y + ] [ + ] 2 2 2 2 σν σν σ1 σ1 (142)

Podemos simplificar la expresión anterior mediante la siguiente notación. Sea WXX = X QX, WXY = X Qy, BXX = X (P − J N T )X, BXY = X (P − J N T ) y finalmente, 2 φ2 = σν . σ2
1

Usando estas definiciones podemos re-expresar (142) como : βGLS = [WXX + φ2 BXX ]−1 [WXY + φ2 BXY ] el cual es el estimador GLS de Maddala para el modelo de efectos aleatorios.
−1 Finalmente, notar de (130) de que WXX WXY es simplemente el estimador al interi−1 or del grupo (o intra grupo, WG) y de (141) de que BXX BXY es el estimador entre grupos (BG) de tal forma que :

(143)

βGLS = ΘβW + (1 − Θ)βB

(144)

con Θ = [WXX +φ2 BXX ]−1 WXX . El estimador GLS en (144) es un promedio ponderado entre los estimadores entre grupos e intra grupo. El parámetro clave en la ponderación es Θ. Pueden existir tres casos diferentes: (i) A medida de que T tienda a infinito, entonces φ2 tenderá a cero, y por tanto Θ a la unidad. En este caso, el estimador GLS tenderá al estimador intra grupo o el estimador LSDV. (ii) Si φ2 tiende al infinito entonces Θ tenderá a cero y en consecuencia el estimador GLS convergerá al estimador entre grupos. 159

Resulta ser de que los valores para los parámetros β pueden variar dramáticamente. Resumen El método de estimación a ser usado dependerá en si asumimos de que los efectos individuales sean fijos o aleatorios.2 (iii) Si σµ = 0 (i.3. Necesitamos. 7. Todos los estimadores FGLS serán consistentes a medida de que N o T tiendan a infinito. Si el modelo de efectos aleatorios es correcto. a los estimadores LSDV (FE) y el estimador OLS con los datos agrupados como casos especiales del estimador GLS donde el estimador LSDV trata a todos los efectos individuales como fijos y diferentes y donde el estimador OLS asume de que todos son fijos pero idénticos. Estimación Factible del estimador GLS Como en todos los casos de estimadores GLS. La primera opción es usar una estimación máxima verosímil interativa. los efectos individuales son determinísticos) entonces φ2 = 1 y así el estimador GLS tenderá al estimador OLS (el cual entrega igual ponderación a la variación intra grupo y inter grupos). utilizando los estimadores entre grupos como los valores iniciales de β. en consecuencia. Estos estimadores consistentes pueden ser sustituidos en el estimador GLS. β. entre estimadores intra o entre grupos. φ2 .3. Cuando sólo existen pocas observaciones en el tiempo resulta mejor usar los elementos de corte transversal de los datos para estimar aquella parte de la relación que contenga variables que difieren entre un individuo al 29 ver la rutina existente en STATA 160 . 2 Alternativamente 29 . necesitamos un procedimiento para estimar los componentes de la matriz de varianzas y covarianzas de tal manera de que la podamos utilizar para estimar los parámetros del GLS. entonces el estimador GLS basado en las componentes verdaderas de varianzas es BLUE. en el caso mas común donde N es grande y T pequeño. valores consistentes de σν pueden ser derivados a partir de los estimadores intra grupos ( ya que este estimador suprime los efectos entre grupos) y los 2 estimadores de σµ pueden ser obtenidos a partir de los estimadores entre grupos ( ya que suprime el efecto intra grupo). 2 2 estimaciones de σµ y σν . Podemos pensar. σν ) = constante − N 1 NT 2 log σν + log φ2 − 2 u Σ−1 u 2 2 2σν (145) y maximizarla en la forma usual.e. en consecuencia. El estimador GLS de efectos variables permite a los datos considerar una posición intermedia. Bajo los supuestos de normalidad para µi y νit podemos escribir la función de verosimilitud de la siguiente manera: 2 log L(α.

1978) sugiere que cuando los efectos µi son tratados como variables aleatorias pero la varianza entre estos y las variables xi no son cero.e. el estimador GLS será sesgado. Covarianza significativa entre los efectos µi y las variables xi hará que el valor de m sea grande lo que rechazará el test y deberá estimarse. xi ) = 0 entonces se tiene que βGLS = ∆βb + (1 − ∆)βW es BLUE y asintóticamente eficiente.e. pero bajo la alternativa de que existe covarianza entre los efectos y las variables xi . Ello permite de que la parte de serie de tiempo de los datos sea usada en forma eficiente de tal manera de rescatar la parte común de dicha relación entre individuos. El test de especificación de Hausman puede ser también utilizado en este caso.. xi ) = 0 entonces βW es BLUE y por lo tanto βGLS = ∆βB + (1 − ∆)βW estará sesgado. Por ejemplo.4. si Cov(ui . Problemas de Especificación Hasta el momento se ha asumido de que los efectos individuales son o bien fijos (i.3. utilizando el estimador de efectos fijos intra grupo. el estimador de efectos aleatorios GLS será sesgado e inconsistente. De no existir covarianza (i. σν ) (147) 161 . la covarianza entre los efectos no observables y las variables xi es cero. no estocásticos) o si estos eran aleatorios. en una función de producción las capacidades administrativas no observables podrían estar correlacionadas con la elección de los insumos. La prueba de Hausman pregunta simplemente si existen diferencias significativas entre los estimadores GLS y intra grupo y viene denotado de la siguiente forma : m = (βW − βGLS ) V ar(βW − βGLS )−1 (βW − βGLS ) ∼ χ2 [k] (146) donde la hipótesis nula es que la covarianza es cero. entonces el estimador de efectos fijo intra grupo es insesgado y consistente. el estimador intra grupo (efecto fijo) será consistente y BLUE (pero no asintóticamente eficiente) bajo la alternativa y consistente bajo la nula. El Two Way Error Component Model Suponga de que el término de error tienen dos efectos sistemáticos no observables de la siguiente manera : uit = µi + λt + νit 2 νit ∼ iid(0. si Cov(ui .4. 7. Dado que el estimador intra grupo "eliminaçompletamente el efecto de los µi . Por una parte. Un corolario del resultado anterior es el siguiente. Un resultado importante de Mundlak (Econometrica. 7. entonces.otro (el estimador entre grupos). En contraste. bajo la nula) entonces el estimador GLS será BLUE y asintóticamente eficiente. Esto puede no ser muy realista. Por otra parte.

t + u. El Estimador de Efectos Fijos Como fue definido anteriormente.28 para una derivación completa ) Prueba de Efectos Fijos Como en el caso del one way eror component model.t + ν . si µi y λt son determinísticos (y vit es independiente de los xit ) podemos utilizar el estimador LSDV el cual incluye N − 1 variables dummy para cada efecto individual y T −1 variables dummy para los efectos temporales. − y . − u. sin embargo. − ν . 7. Esto.Podemos re escribir esto en forma vectorial como : u = Zµ µ + Zλ λ + ν (148) donde Zµ fue anteriormente definido y Zλ = 1N ⊗ IT es la matriz de variables dummies temporales que capturan el efecto λt si estos son parámetros fijos. Podemos usar no obstante.t + y) (150) donde el segundo término de la expresión a la derecha promedia a través del tiempo ( y en consecuencia saca el efecto temporal). Re definiendo la transformación Q tenemos : (149) Q = IN ⊗ IT − IN ⊗ J T − J N ⊗ IT + J N ⊗ J T Esta transformación significa que el típico elemento del vector y viene dado por : y = (yit − y i. ) = (νit − ν i.. ) Podemos entonces estimar los parámetros de interés como : β = (X QX)−1 X y con la estimación del intercepto común como sigue : α = y . Aplicando esta transformación al término de error tenemos el siguiente resultado importante : uit = (uit − ui. mientras que la última expresión promedia los efectos entre los individuos y entre los períodos de tiempo (recuperando la variación no explicada de los efectos individuales y temporales).1. el tercer término promedia entre individuos para el mismo período ( así sacando el efecto individual).4.. (ver Baltagi pp... − βX . podemos testear por la presencia de efectos fijos usando la prueba F estándar sobre la nula : Ho = µ1 = · · · µn−1 = λ1 · · · λT −1 = 0 162 (154) (153) (152) (151) . consume una gran cantidad de grados de libertad los que pueden hacer inválida la estimación. una versión modificada del estimador intra grupo mediante una transformación que "saque"los efectos de µi y λt .

y en forma análoga 2 2 2 2 para WXY . Modelo de Efectos Aleatorios Ahora suponga que ambos efectos individuales y temporales son no determinísticos. BXX = X Q2 X. ) sobre (x. − y . Así : 2 Cov(uij . Ahora siendo los efectos fijos aleatorios. 1971) demuestra de que el estimador GLS puede ser expresado mediante un rearreglo de (142) como : βGLS = [WXX + φ2 BXX + φ2 CXX ]−1 [WXY + φ2 BXY + φ2 CXY ] 2 3 2 3 (156) −1 el cual puede ser simplificado un paso más al notar de que WXX WXY es simplemente −1 el estimador intragrupo y que BXX BXY es el estimador intergrupo individual y que −1 CXX CXY es el estimador intergrupo temporal. la varianza del término de error será : 2 2 2 V ar(uit ) = σµ + σλ + σν (155) El aspecto clave de esta varianza es que siendo de nuevo homocedástica tendrá dos tipos de correlación serial : entre cada unidad de corte transversal (un “efecto fijo” individual que persiste en el tiempo) y uno a través del tiempo. νit son independientes de xit para todo i y t. ujs ) = σµ 2 Cov(uij . φ2 = σv .. finalmente se tiene que : 163 (157) . Podemos asumir de 2 2 que µi ∼ iid(0. λt .t − x. Así existirá e tradicional estimador Intra Grupo (usando la ecuación (151)) derivado a partir de la aplicación del la matriz de selección Q1 . es decir podemos tratarlas como variables aleatorias estocásticas.t − y . ) utilizando la matriz de selección Q3 . Así. ) utilizando la matriz de selección Q2 .2. σu ). λ2 = T σµ + σν 2 3 λ2 λ3 2 2 y λ3 = nσλ + σv . como en el caso del modelo de one way error component. ) sobre (xi.7. Definiendo WXX = X Q1 X.4. y que µi . CXX = X Q3 X. BXY y CXY donde además se tiene que φ2 = σv .. el estimador intergrupos individual el cual es derivado de la regresión: (y i. i = j.. se tiene que la siguiente expresión : βGLS = Θ1 βW + Θ2 βB + Θ3 βC donde : Θ1 = [WXX + φ2 BXX + φ2 CXX ]−1 WXX 2 3 Θ2 = [WXX + φ2 BXX + φ2 CXX ]−1 (φ2 BXX ) 2 3 2 Θ3 = [WXX + φ2 BXX + φ2 CXX ]−1 (φ2 CXX ) 2 3 3 A partir de lo anterior. − x. Maddala (Econometrica. y el tercer estimador intergrupos temporal el cual se deriva de la regresión entre(y . podemos utilizar el estimador ponderado de Maddala en el cual tenemos dos estimadores "entre". t=s t=s El estimador de efectos aleatorios es de nuevo un estimador GLS y. λt ∼ iid(0σλ ) independiente entre cada uno de ellas y con νit . ujs ) = σλ si si i = j..

φ2 tiendan a cero y 2 3 así el estimador GLS tienda al estimador intra grupo. 164 . Modelos de Datos de Panel Dinámicos. Entre las mas interesantes se tiene : Tratar la Heterocedasticidad y Correlación Serial en Datos de Panel. Estas son discutidas en forma extensa en el Hsiao y en Baltagi algunas de las cuales revisaremos en la próxima clase. 7.2 2 Si σµ = σλ = 0 implica de que φ2 = φ2 = 1 y así el estimador GLS tenderá al 2 3 OLS. Variables con variable Dependiente Discreta en datos de panel.5. Extensiones El modelo básico puede ser extendido en varias direcciones. Si φ2 (φ2 ) tienden a infinito entonces el estimador GLS tenderá al estimador 2 3 intergrupo individual (intergrupo temporal). Si T y N tienden al infinito entonces esto implica de que φ2 . Modelos de Sistemas con Datos de Panel.

υit representa el efecto aleatorio que varia de manera individual a través del tiempo. WG y IV El modelo en el cual nos concentramos. El estimador de OLS. ya que permite estimar relaciones económicas que presentan una naturaleza dinámica y que es imposible estimarla usando datos de corte transversal. de dos etapas y el estimador sistemas el cual trata de explotar toda la información disponible a través de las combinación de las condiciones de momento para la ecuación en niveles y en sus primeras diferencias. Las ventajas que se derivan del uso de estos son evidentes. . Una alternativa sugerida para hacer frente a este problema es trabajar con los estimadores de variables instrumentales (VI) que proponen Anderson y Hsiao (1982). i = 1 . . al menos en términos asintóticos. t = 1. el cual trata de obtener estimadores consistentes y eficientes en términos asintóticos. Entre los estimadores que se han desarrollado podemos mencionar el estimador de una etapa. Estos autores instrumentalizan la variable dependiente rezagada a través del uso de la misma variable dependiente pero con un orden mayor de rezago.. En este capítulo nos concentramos en dar una revisión a los diversos métodos de estimación enfatizando cuales son los posibles sesgos en que se incurre y la eficiencia que muestran dichos métodos.8. N. Por otra parte en la práctica es raro poseer observaciones para periodos de tiempo prolongados de una unidad de análisis. 30 Datos de Panel Dinámicos 8. el trabajar con paneles dinámicos con estas características involucra una serie de desafíos en la estimación de los parámetros. Sin embargo. Como una respuesta a los estimadores anteriores se ha desarrollado toda una literatura la cual esta basada en el Método Generalizado de los Momentos (GM M ). como requeriría el poder trabajar con series de tiempo. ya que deseamos que estos sean consistentes y eficientes. De esta manera es común tener en el trabajo aplicado paneles con períodos de tiempo corto y con un gran numero de unidades.2. 8. es uno del siguiente tipo: yit = αyit−1 + (ηi + υit ).1. Se asume que 30 Capítulo escrito junto a Emerson Melo.T (158) donde ηi representa el efecto individual el cual es invariante en el tiempo. |α| < 1. 165 .. Introducción El uso de datos de panel dinámico es una de las areas de mayor desarrollo en la actualidad en el trabajo econométrico tanto en términos teóricos como aplicados. Las técnicas tradicionales de estimación como son Mínimos Cuadros Ordinarios (OLS) y el estimador Within Group (W G) han demostrado tener un pobre desempeño debido a que presentan sesgos los cuales no desaparecen cuando la muestra crece (N → ∞).

por tanto las propiedades asintóticas de los estimadores vendrán dadas en la medida que N → ∞.t−1 y υ i . 2 2 E(υit ) = συ .t−1 ) (163) Notar que si la distribución de ηi es degenarada.t−1 ) + (υit − υ i ) (162) 1 con y i = T T yit .31 Existen dos formas de afrontar el problema anterior. E(υit υis ) = 0 ∀ i = s Por otra parte se asume que N es grande y T es pequeño y fijo.ambos son variables aleatorias y sus dos primeros momentos vienen dados por: E(ηi ) = E(υit ) = 0. las cuales consisten en eliminar el efecto individual el cual es la fuente de inconsistencia. y 2 2 E(ηi ) = ση . la ecuación (160) se convierte en plimαOLS = α y por tanto no existíria sesgo. Si aplicamos OLS a t=1 (162) el estimador W G viene dado por: αW G = 31 N i=1 T t=2 (yit − y i )(yt−1 − y i. en donde se tiene que α < plimαOLS < 1. La transformación a utilizar es la siguiente : ee (161) Q = IT −1 − T −1 donde IT −1 es una matriz identidad de rango T − 1 y e es un vector de t − 1 unos Si multiplicamos (158) por (161) tenemos que se obtiene: yit − y i = α(yit−1 − y i. La primera es transformar el modelo en desviaciones de medias de manera de poder obtener el tradicional estimador W G. debido a que yit−1 esta correlacionado positivamente con ηi .t−1 ) N T 2 i=1 t=2 (yt−1 − y i. Es posible demostrar que el plimαOLS viene dado por la siguiente expresión: plim(αOLS − α) = (1 − α) σ2 2 ση 2 συ η 2 συ +k . con k = 1−α 1+α (160) De esta forma el estimador OLS de la especificación original está sesgado hacia arriba. Dado lo anterior el primer estimador que estamos interesados es el estimador de OLS el cual viene dado por: N T i=1 t=2 yit yit−1 (159) αOLS = N T 2 i=1 t=2 yit−1 El estimador anterior puede ser expresado de la siguiente manera : αOLS = Por tanto tenemos que: αOLS = α + N i=1 T t=2 (ηi + υit )yit−1 N T 2 i=1 t=2 yit−1 N i=1 T t=2 (αyit−1 + ηi + N T 2 i=1 t=2 yit−1 υit )yit−1 El estimador anterior resulta ser inconsistente. esto es análogo para el caso de y i. 166 .

El estimador W G si bien elimina el efecto individual ηi .. analicemos los términos (yit−1 − y i.. igual resulta ser inconsistente. + yiT −1 )) T −1 A partir de lo anterior es fácil darse cuenta que yit−1 está correlacionado con el término −1 −1 T −1 υit−1 y que el término T −1 yit lo está con υit . A partir del supuesto E(υit υis ) = 0 ∀ i = s los instrumentos señalados son validos 167 .. plimαW G es entregado por la ecuación (164) plimαW G = − 1−αT 1+α (T −1) (1 − T (1−α) ) 2α 1−αT (1−α)(1−T ) (1 − T (1−α) ) 1− (164) El sesgo es hacia abajo y por tanto W G subestima a α.. Anderson y Hsiao (1982) proponen instrumentalizar ∆yit−1 usando como instrumentos32 yit−2 ó bien (yit−2 − yit−3 ).... por tanto el estimador W G de α resulta ser inconsistente. y que no este correlacionado con el termino de error. De esta forma tanto OLS como W G entregan estimadores inconsistentes de α en la estimación de (158) y la dirección de los sesgos van en direcciones opuestas. ∆yit−1 = yit−1 − yit−2 y por último ∆υit = υit − υit . La segunda alternativa que tenemos para eliminar el efecto individual de (158) es estimar un modelo en primeras diferencias el cual viene dado por la siguiente ecuación: ∆yit = α∆yit−1 + ∆υit (165) En donde ∆yit = yit − yit−1 ... Para ver porque se produce esto. el estimador de variables instrumentales cuando usamos yit−2 como instrumento viene dado por la siguiente expresión : αV I = 32 N i=1 N i=1 T t=2 (yit T t=2 (yit−1 − y i )yit−2 − yit−2 )yit−2 (166) Un instrumento debe cumplir que este altamente correlacionado con el regresor al cual esta instrumentalizando. + υit−1 + ... + υiT )) T −1 1 (yi1 + . Si estimamos (165) mediante OLS se obtendrá nuevamente un estimador sesgado debido al hecho que yit−1 está correlacionado con υit−1 .yit + ... Si escribimos dichos términos de manera extendida se tiene que : yit−1 − y i..−1 = yit−1 − ( por otra parte el terminó de error es : υit − υ i = υit − ( 1 (υi2 + . DE esta forma..−1 ) y (υit − υ i ) en la ecuación (162).. mediante la aplicación de la matriz de transformación dada por Q.. De esta manera existe una correlación negativa entre la variable dependiente rezagada y el terminó de error en la ecuación (162).

en cambio Los criterios para usar (166) ó (167) vienen dados por el instrumento que presente una mayor correlación con ∆yit−1 . θ0 )) = E(gi (θ0 )) = 0 donde g(.) es un vector de orden q y θ0 es un vector de orden k. en particular el estimador entregado por (167) presenta un gran sesgo hacia bajo y una gran imprecisión. El gi (θ) i=1 −1 WN 1 N N gi (θ) i=1 (168) −1 con respecto a θ. minimiza el siguiente criterio: QWN = 1 N N k. Arellano y Bond sugieren la utilización del Método de los Momentos Generalizado (GMM) para la estimación de la ecuiación (158). en donde q estimador GMM θ para θ0 .1. Ψ). muestran el pobre desempeño que presentan los estimadores de IV antes mencionados.3. 8. así como también por consideraciones de eficiencia asintotica. No obstante lo anterior Arellano y Bond (1991) a partir de un experimento de Montecarlo. LO último se conoce como condiciones de regularidad. En esta sección se describen los estimadores sugeridos por estos autores basados en el concepto de estimación consistente mediante la utilización de un vector de instrumentos.y cuando usamos (yit−2 −yit−3 ) como instrumento tiene la siguiente expresión alternativa : N T (yit − y i )(yit−2 − yit−3 ) αV I = N i=1 T t=2 (167) i=1 t=2 (yit−1 − yit−2 )(yit−2 − yit−3 ) El estimador dado por (166) tiene la ventaja que identifica a α cuando T (167) funciona cuando T 3. en donde WN es una matriz definida positiva que cumple con −1 plimN →∞ WN = W con W una matriz definida positiva. 8. 2. El método de Arellano y Bond El método considera las siguientes condiciones de momento: E(g(Xi . 1 N N i=1 gi (θ0 ) → 168 .3. 1 GMM asume que limN →∞ N N gi (θ) = E(gi (θ)) y ademas que i=1 N (0. Usando GMM en la estimación de Paneles Dinamicos Considerando la inconsistencia de los estimadores hasta ahora descritos.

 0 yi1 yi2 ... minimiza el siguiente criterio N N 1 −1 Q= Zi ∆υ (174) ∆υi Zi WN N i=1 i=1 169 .. . .t − 1 (171) Las condiciones de momento disponibles son m = (T −1)(T −2) . En dicho caso se tiene que para t = 4 los instrumentos disponibles son yi2 y yi1 . 2 Denotando las condiciones anteriores en términos matriciales tenemos que : E(Zi ∆υi ) = 0 con ∆υi = (υi3 . A partir de lo anterior y siguiendo a Arellano y Bond (1991)..... ... 0  . 0  (173)  . en particular asumamos T = 4. podemos escribir las condiciones de momento para la ecuacion (165). y asumamos que T > 3 de manera tal que el modelo está sobreidentificado.. s = 2.. Zi =   .. N . elige la matriz de ponderaciones WN de manera tal que plimN →∞ WN = Ψ y por tanto se tiene que VW = (Γθ0 W −1 Γθ0 )−1 .T. La matriz que cumple con las condiciones anteriores es la siguiente : WN (θ1 ) = 1 N N gi (θ1 )gi (θ1 ) i=1 (170) en donde θ1 es un estimador consistente de θ0 .yiT −2 ). yiT −2 la cual es de (T −2)×m en donde m representa las condiciones de momento disponibles. . de la siguiente manera: E(∆υit yit−s ) = 0 i = 1 . Para ver cómo funciona GMM retomemos el modelo dado por (165) el cual esta expresado en primeras diferencias.. De esta manera se puede deducir que para t = T se tiene que los instrumentos disponibles son (yi1 .. VW ). ... t = 3. El estimador GMM basado en las condiciones entregadas por (171)... entonces N (θ − θ0 ) tiene ) una distribución normal limite dada por N (θ − θ0 ) → N (0. . donde : VW = (Γθ0 W −1 Γθ0 )−1 Γθ0 W −1 ΨW −1 Γθ0 (Γθ0 W −1 Γθ0 ) (169) El estimador GMM de dos etapas eficiente.. .υiT ) y Zi es una matriz de manera :  yi1 0 0. . yi2 . el cual es obtenido en una primera etapa. y para t = 3 solo tenemos disponibles yi1 como instrumento..√ Por otra parte sea Γ(θ) = E(∂gi (θ)/∂θ √ y Γθ0 = Γ(θ0 ). ... υi4 . . 0 0 0 yi1 (172) instrumentos definida de la siguiente  . .. .. .

Para el estimador de una etapa utilizamos la siguiente matriz de ponderaciones : WN 1 1 = N N −1 Zi HZi i=1 (175) en donde H es una matriz que contiene dos en la diagonal principal y menos uno en las dos primeras subdiagonales y ceros en todo los demás lugares..∆yN ) el cual es también es de orden N (T − 2) × 1. aunque no es eficiente. . en particular cuando trabajamos con muestras finitas.3. ... del mismo modo se tiene que ∆y = (∆y1 . La ecuación (176) muestra el estimador que se obtiene al minimizar (174) con respecto a α: −1 −1 α1 GM M = [∆y−1 ZWN 1 Z ∆y−1 ]−1 [∆y−1 ZWN 1 Z ∆y] (176) en donde ∆y−1 es un vector de N (T − 2) × 1 dado por ∆y−1 = (∆y1(−1) ... 170 . Asi se tiene que el α2 GM M es el mismo estimador que el señalado por la ecuación (176) con la diferencia que la matriz WN 1 es reemplazada por WN 2 ..∆yN (−1) ) .2. El estimador α1GM M es consistente en la medida que N → ∞.... Comparando la eficiencia de α1GM M yα2GM M Un punto central en la decisión de ocupar α1 GM M o bien α2 GM M es saber cómo se comportan en términos de eficiencia..ZN ) .. .La elección de la matriz da lugar a dos estimadores los cuales son asintóticamente equivalentes..33 La varianza asintótica para α1GM M es estimada por : −1 −1 V AR(α1GM M ) = N (∆y−1 ZWN 1 Z ∆y−1 )−1 ∆y−1 ZWN 1 WN 1 (α1GM M )× (178) Z 33 −1 ∆y−1 (∆y−1 ZWN 1 Z ∆y−1 )−1 Sabemos que α2 GM M es asintóticamente eficiente en la medida que N → ∞.. 8. el cual usualmente es el estimador α1 GM M . y finalmente Z = (Z1 . El estimador eficiente el cual denominamos como α2 GM M surge del hecho de elegir la matriz de ponderaciones óptimas la cual tiene la siguiente forma : WN 2 1 = N N −1 Zi ∆υi ∆υi Zi i=1 (177) en donde ∆υi son los residuos estimados a partir de un estimador consistente de α. la cual es una matriz de m × N (T − 2).

ya que de no cumplirse. De esta manera se sugiere el uso del estimador de una etapa para la realización de inferencias. por tanto una vez que se ha estimado (158) esta condición debe ser testeada. La consistencia de GM M depende fuertemente de que se cumpla (180). Para esto definamos lo siguiente : νit = ∆yit − α∆yit−1 (181) 171 . las condiciones de momento establecidas por (171) son inválidas. Algunos test de especificación Uno de los supuestos sobre νit es que estos son serialmente no correlacionados lo que viene expresado por : E(νit νis ) = 0 ∀ t = s (180) por tanto cuando diferenciamos (158) para remover ηi . Una forma de saber si se cumple o no dicha condición es saber si existe no correlación serial de segundo orden. 8. si s = 1 de esta forma se tiene un M A(1) de coeficiente unitario en el termino de error. En particular se tiene que: 2 E(∆νit ∆νit−s ) = −σν . Windmeijer (2000) muestra este hecho y propone una corrección para muestras finitas a partir de una expansión de Taylor de primer orden. esta por construcción serialmente correlacionado. el termino de error ∆νit que resulta.donde se tiene que : WN 1 (α1 GM M ) = 1 N N Zi ∆υi ∆υi Zi i=1 ∆υi = ∆yi − α1 GM M ∆y−1 Por otra parte la varianza para el estimador de dos etapas viene dada por la siguiente expresión : V AR(α2GM M ) = N (∆y−1 ZWN 2 (α2GM M )Z ∆y−1 ) (179) Arellano y Bond (1991) documentan el hecho que la varianza del estimador de dos etapas puede estar severamente sesgada hacia abajo en muestras finitas y por tanto las estadísticas de prueba tienen un mayor poder tendiéndose a sobrerechazar la hipótesis nula.4. La fuente de sesgo en los errores estándar del estimador de dos etapas proviene del hecho que en el cálculo de (178) está presente el estimador de una etapa.

Si los errores no están serialmente correlacionados. Por otra parte ν∗ viene dado por: N 1/2 ν∗ = i=1 νi(−2) νi νi νi(−2) − N −1 2ν−2 X∗ (X ZWN ZX) X ZAN ( i=1 Zi νi νi νi(−2) ) +ν−2 X∗ avar(δ)X∗ ν−2 Lo interesante de (183) está en el hecho que es flexible ya que esta definida en términos de un estimador consistente y no necesariamente eficiente. no obstante lo anterior. Bajo la hipótesis nula de no correlación. ξi tiene media cero y podemos construir test para saber si efectivamente E(ξi ) = 0. De esta manera se sabe que: ξi = ∆νi(−2) νi (182) donde ∆νi(−2) y νi son de vectores de (T −4)×1. Sin embargo. El poder distinguir entre ambos casos no es un tema menor ya que si los errores siguen un Random Walk al estimar por GMM y por MCO la ecuacion en primera diferencias.A partir de (181) podemos ver que una manera fácil de entender el problema es concentrar nuestra atención solamente en una unidad i y ver si se cumple la condición. Test de Sargan de sobreidentificacion Este test busca establecer si las condiciones de momento impuestas son o no validas en donde si m son las condiciones de momento y k los parámetros a estimar diremos 34 Arellano y Bond (1991) demuestran la normalidad asintotica de este estadístico 172 . llegaríamos a la misma conclusion si estos fueran autocorrelacionados pero el proceso fuera un Random Walk.4. entonces no se rechaza la hipótesis de ausencia de correlación serial de segundo orden en ∆νit . 8. la potencia que alcance m1 dependerá de la eficiencia asintótica del estimador que se utilice. ambos entregaran estimadores consistentes y por tanto se tiene que esto daría origen a un test de Hausman de especificación.1. Una forma para discriminar entre ambas situaciones seria la de construir un estadístico denominado como m2 pero para probar si existe o no correlación serial de primer orden en ∆νit . Así a partir de la simple idea anterior el test para saber si existe o no correlación serial de segundo orden es el siguiente: ∆νi(−2) νi m1 = (183) 1/2 ν∗ donde m1 tiende a una normal de media cero y varianza uno34 .

La hipótesis nula de este test es que las condiciones de momento son validas. lo que lleva a que las estimaciones de los parámetros del modelo se realice con poca precision y con sesgos. Para entender esto. 35 173 . estamos diciendo que existen condiciones de momento mal especificadas y por tanto se tendría que usar Z1 en vez de Z. La otra condición es la de no estar correlacionada con el termino de error. se ha encontrado que en ocasiones los instrumentos muestran una débil correlación con las variables que están instrumentalizando. Si se rechaza H0 . en particular para el tema de correlación serial. 8. El test propuesto por Sargan viene dado por : S = ∆ν Z(Z ∆ν∆ν Z)−1 Z ∆ν ∼ aχ2 p−k (184) donde ν es construido a partir del estimador de dos etapas.5. Un aspecto interesante del test de Sargan es aquel relacionado con el hecho que puede ser modificado de manera de poder trabajar con distintas hipótesis para el termino de error νit . consideremos una matriz de instrumentos la cual la denominamos por Z1 y que contiene p1 columnas que corresponden a las condiciones de momento cuando se tiene que el término de error en niveles presenta un proceso M A(1).35 Sin embargo en la estimación de paneles dinámicos usando GM M . El caso de instrumentos débiles Como se mencionó. De esta forma (185) puede ser comparada con (184) y por tanto formar : DS = S − S1 ∼ aχ21 −p p Los grados de libertad p1 − p están reflejando el hecho que existen condiciones de momento adicionales lo cual se explica porque la matriz de instrumentos Z es construida asumiendo ausencia de correlación serial en νit .que el modelo esta sobreidentificado si p > k. sabemos que una de las condiciones que debe cumplir un instrumento es la de estar correlacionado con la variable a la cual se va a instrumentalizar. para una matriz de instrumentos Z dada. esto al menos en términos asintóticos. que no necesariamente es la matriz de instrumentos óptimas. El test de Sargan para las condiciones de momento anteriormente señaladas es el siguiente : S1 = ∆ν1 Z1 (Z1 ∆ν1 ∆ν1 Z1 )−1 Z1 ∆ν1 ∼ aχ21 −k (185) p donde ∆ν1 son obtenidos a partir de un estimador de dos etapas basado en la matriz de instrumentos Z1 .

En este caso GMM se convierte en 2SLS.Uno de los primeros estudios en dar cuenta de esto fue el realizado por Griliches y Mairesse(1997). hacia cero en la medida que esperamos que E(yi1 ηi ). 2. quienes señalan para el caso de la estimación de una función de producción Cobb-Douglas: En la practica. El que yi1 este débilmente correlacionado con ∆y2 dependerá de dos factores : 1.. para luego combinar ambas condiciones. en la ecuación (158). El tamaño relativo de la varianza de ηi respecto a la varianza de νit . En efecto si consideramos el modelo original en T = 2 y restando a ambos lados yi1 se tiene que : ∆yi2 = (α − 1)yi1 + ηi + νit (187) El estimador de M CO para (α − 1) en (187) estará sesgado hacia arriba.. Blundell y Bond (1999) muestran que el sesgo de GM M en presencia de instrumentos débiles es similar al sesgo que tiene el estimador W G. y por tanto no cumple una de las condiciones para ser instrumento. En la medida que α → 1. La solución que se propone es utilizar el denominado estimador GM M de sistemas el cual mezcla condiciones de momento para la ecuación en primeras diferencias y para la ecuación en niveles. la aplicación de métodos de panel a microdatos producen resultados muy insatisfactorios. En particular en la primera etapa tenemos : ∆yi2 = πd yi1 + ri i = 1. implicara que en (186). . πd será no significativo. por tanto debemos derivar un estimador para condiciones de momento en niveles.N (186) Si el instrumento es débil. 174 . es decir. El estimador usando condiciones en primeras diferencias ya lo conocemos.. coeficientes para el capital bajo y usualmente insignificantes junto estimadores poco contradictorios para los retornos constantes a escala -Griliches y Mairesse (1997) Para entender el porque se produce este problema consideremos el caso donde T = 3. Asumiendo estacionariedad en covarianza se tiene que el plimπd viene dado por : plimπd = (α − 1) σ2 η 2 σν k +k con k = 1−α 1+α (188) De (188) se desprende el hecho que plimπd → 0 en la medida que α → 1 o en la medida 2 2 que ση /σν → ∞. de manera tal que las condiciones de momento se reducen solamente a una condición de ortogonalidad.

... y a partir de esta tendremos las siguientes condiciones de momento adicionales: E((ηi + νit )∆yit−1 ) = 0 t = 3. . . 0 0 0 ∆yi2  ... .....t − 1 En términos matriciales tenemos lo siguiente : E(Zli µi ) = 0 t = 2... donde si comenzamos a reemplazar al lado derecho de esta ecuación...8. Condiciones iniciales y un estimador en niveles Consideremos la siguiente condición : E(ηi ∆yi2 ) = 0 i = 1. . 175 .T (190) Lo anterior proviene de (189) y señala que si ∆yi2 no está correlacionado con ηi entonces llevará a que ∆yit también no lo esté. ∆yiT −1 (193) la cual tiene dimension de (T − 2) × ml con ml = 0.. 0   .T (192) en donde Zli viene dada por la siguiente expresión :  ∆yi2 0 0. . Por tanto de (191) se deriva el hecho que ∆yit estará no correlacionado con ηi en la medida que ∆yi2 no lo esté..5. .. Zi =   .  0 ∆yi2 ∆yi3 ...5(T − 1)(T − 2).. El estimador GM M en niveles puede ser obtenido mediante el uso de las siguientes condiciones de momento: E(∆yit−s (ηi + υit )) = 0 s = 2.... ... . . Esto puede ser visto en (165). 0  . se llega a una expresión del siguiente tipo : t−3 ∆yit = α t−2 ∆yi2 + s=0 αs ∆µit−s (191) donde ∆µit = (ηi + νit ) − (ηi + νit−1 ) = ∆νit .N (189) La condición anterior es una restricción sobre el proceso que genera los datos. Para la obtención de los estimadores de una y dos etapas procedemos de la misma manera que para el estimador GM M con las condiciones de momento para la ecuación en diferencia. .1.

...8.37 Por otra parte. . . de manera que el sistema resultante tiene 2(T − 2) ecuaciones.T con µit = ηi + υit .. .. . . 0 . 0 0 . Y por otra parte se tiene que : q−1 Zs (Zs Zs )−1 Zs q−1 = ∆y−1 Zd (Zd Zd )−1 Zd ∆y−1 + y−1 Zlp (Zlp Zlp )−1 Zlp y−1 La sección siguiente se discute el caso cuando se tiene regresores adicionales a la variables dependiente rezagada.. . 36 176 . es que puede ser entendido como una combinación del estimador en primeras diferencias y del estimador en niveles usando solo algunas condiciones de momento para este. 0 ∆yiT −1        (196) s = 2.. . 0 . .. .. . . .36 El estimador GMM en este caso resulta de combinar las condiciones en niveles y en primeras diferencias en forma simultanea. . . el estimador de una y de dos etapas se obtiene con el procedimiento descrito en las secciones precedentes. Las condiciones a utilizar en la estimación son las siguientes : E(yit−s ∆µit ) = 0 t = 2.. para el estimador en 2SLS en sistemas se puede demostrar que : αs = (q−1 Zs (Zs Zs )−1 Zs )−1 q−1 Zs (Zs Zs )−1 Zs q en donde q−1 = [∆y−1 . . . .6. 37 En particular solo usamos la diagonal de la matriz Zli . y−1 ].T E(∆yit−1 µit ) = 0 t = 3. . Arellano y Bover(1995) responden esta pregunta a partir de un modelo mas general donde se incluyen variables que pueden estar correlacionadas con ηi .. GMM de sistemas Al tener las condiciones de momento en niveles y en primeras diferencias la pregunta obvia que nos surge es ¿como combinamos estas condiciones de la manera mas eficiente posible?.. Haciendo uso de matrices se tiene que : E(Zsi qi ) = 0 en donde Zs es :  Zs = Zdi 0 P 0 Zli    =   Zdi 0 0 0 0 0 0 ∆yi2 0 . .. .t − 1 (194) (195) Al igual que en los casos anteriores. . . 0 0 0 ∆yi3 . Lo interesante del estimador GM M de sistemas. .

lo que dará origen a diversas condiciones de momento. De esta manera.. 8. En primer lugar asumiremos que xit es estrictamente exógeno. Como en la mayoría de los trabajos empíricos esta variable rezagada puede ser importante en la estructura del modelo como un mecanismo que da cuenta de los costos de ajuste.. 2 De esta forma si tenemos el caso de que α → 1 o ση2 /συ → ∞ se producirá que γ → 0 y el estimador en sistemas permanece entregando información ya que en (197) p αs → αl y por tanto se soluciona el caso de instrumentos débiles al utilizar el estimador de sistemas..... Finalmente γ puede ser definido como : γ= ∆y−1 Zd (Zd Zd )−1 Zd ∆y−1 + y−1 Zlp (Zlp Zlp )−1 Zlp y−1 ∆y−1 Zd (Zd Zd )−1 Zd ∆y−1 arreglando la expresión anterior se tiene que : γ= πd Zd Zd πd πd Zd Zd πd + πl Zlp Zd πl con πd y πl son los estimadores de OLS en la primera etapa... Asumiremos que xit está correlacionado con ηi . deberá existir la posibilidad que orto conjunto de variables exógenas también sean importantes en la explicación de la variable de interés.. 177 t = 1.. t = 2.. el modelo que estamos interesados en esta sección es uno del siguiente tipo : yit = αyit−1 + βxit + µit .7.T (198) donde µit = ηi + υit y xit es un escalar..Usando estas dos expresiones se llega al hecho de que : p αs = γ αd + (1 − γ)αl (197) p definiendo αd el estimador 2SLS para la ecuación en primeras diferencias y αl el estimador en niveles utilizando solamente las T − 2 condiciones de momento. lo cual puede ser representado de la siguiente manera : E(xis υit ) = 0 con s = 1. Por otra parte sabemos que xit puede estar correlacionado de tres maneras distintas con υit .T.T . Analisis Multivariado Hasta el momento nos hemos concentrado en un modelo donde como variable del lado derecho sólo observamos la variable endógena rezagada..

... en donde las condiciones dadas por (171) se mantienen...... y E(xis υit ) = 0 para s = t + 1.T t = 1..El segundo caso que podemos tener es que xit sea predeterimanda o débilmente exógena donde bajo esta situación : E(xis υit ) = 0 con s = 1.....t. Por otra parte cuando tenemos el caso que xit es predeterminada tenemos que : E(xis ∆υit ) = 0 s = 1. pero para cada caso de xit tendremos condiciones adicionales. Para ejemplificar esto asumamos que xit es endógeno..5(T − 2)(T − 1). t − 1 t = 3......T Con lo anterior tendremos distintas condiciones de momento para cada caso. t = 1. de esta forma las condiciones en primera diferencias son las siguientes : E(yit−s ∆υit ) = 0 y E(yit−1 (ηi + υit )) 178 (201) (200) .T. t − 1 t = 3. .t − 1. y E(xis υit ) = 0 s = t..5(T − 2)(t − 1).T t = 1.... Por ultimo para el caso de xit endogena tenemos que : E(xis ∆υit ) = 0 s = 2...T Finalmente xit puede estar determinado endógenamente en cuyo caso se tiene que : E(xis υit ) = 0 s = 1....T. . De esta forma el estimador de sistemas se obtiene combinando las condiciones en primeras diferencias y en niveles. De esta forma....T en donde las condiciones de momento adicionales son 0... t = 3. .T (199) lo cual origina que existen T (T − 2) condiciones de momento adicionales. si xit es estrictamente exógena las condiciones de momento son las siguientes : E(xis ∆υit ) = 0 s = 1......... ..... .... .T las condiciones disponibles son 0....

8. Deseo agradecer a Jorge Hermann por aportar el material que se presenta en esta sección 179 .1.T y s = 2. Kiviet (1995) desarrolla una corrección al estimador WG el que como ya vimos.. los estimadores de GMM son consistentes asintóticamente para N → ∞ pero con T fijo...38 No obstante lo anterior. 38 39 En efecto. t − 1. El estudio de Kiviet Durante el análisis que hemos realizado a lo largo de este capítulo se ha asumido de que la dimensión temporal del panel es relativamente corta pero donde la dimensión en términos de individuos es relativamente grande. Luego en la segunda etapa se utilizan estos residuos para corregir el sesgo del estimador por efectos fijos. El método lo que hace es restarle al estimador por LSDV del modelo original una expresión que captura el sesgo cometido por este último. el estimador de Kiviet el cual denominaremos LSDVK se obtiene en dos etapas. No obstante lo anterior..T y s = 2. Cabe hacer notar que el sesgo del estimador LSDV es función de los verdaderos parámetros del modelo. un análisis comunal con datos de la CASEN no permite un N superior a 240 por decir lo mucho. . En consecuencia éstos deberán ser estimados primeramente tarea que se realiza mediante una estructura de IV sugerida por Anderson y Hsiao (1981)... En la primera etapa etapa usa un estimador por IV para estimar los residuos de un estimador consistente y los coeficientes sesgados son obtenidos por efectos fijos (LSDV). en la práctica podemos encontrar situaciones donde ninguna de las variables es relativamente grande y por lo tanto ninguno de los estimadores anteriormente revisados entregaría resultados consistentes. O bien... t − 1. Por ejemplo.. en estudios de convergencia en crecimiento económico rara vez la dimensión de T supera las 30 observaciones y N el valor de 50...8. en el caso chileno. Para el caso de xit tenemos que : E(xit−s ∆υit ) = 0 y E(∆xit−1 (ηi + υit )) = 0 para t = 3. presenta un sesgo sistemático el cual no desaparece conforme N crece... cuando T crece este sesgo tiende a disminuir aunque no es muy claro en la literatura el valor de T para el cual dicho sesgo desaparece.8. 8. 39 Kiviet con mas detalle Como se adelantó. .con t = 3..

. La expresión anterior no es fácil de evaluar. . ya que W es estocástico y no lineal. ¯ ˜ La descomposición de W puede ser usada para examinar AW = A(W + W ).0]. .Formalmente (198) puede ser re escrita de la siguiente forma : y = W ϕ + (In ⊗ iT )η + ε .. 0. donde W = [Y−1 .. El estimador de efectos fijos (LSDV) será: donde W = [Y−1 . como se señalo anteriormente este estimador es sesgado por lo cual se sugiere utilizar el estimador de Kiviet(1995). es decir ¯ W ˜ W W ¯ ¯ .X] y ϕ = (δ.X] y W = [Y−1 . dado AT iT = 0. . β). 0) 180 . ˜ En orden de aproximar esta expectativa se divide W en su parte estocástica W y no ¯ estocástica W . Sin embargo. ϕ = (W AW ) ˆ donde At = It − 1 T iT iT −1 (202) W Ay (203) y A = IN ⊗ AT . ˜ ˜ . Kiviet ˜ : deriva la siguiente expresion para AW ˜ AW = (IN ⊗ AT C)εq donde      C=      0 1 δ δ2 · · · · · δ · 0 1 δ · 0 1 · · · · · 1 · · · · 0 = E(W ) = W − E(W ) ¯ ˜ = W +W (204) (205) (206) (207)  ·  ·  ·   ·  · δ T −2 0 q = (1. . El sesgo será en consecuencia : E(ϕ − ϕ) = E(W AW )−1 W A[W ϕ + (In ⊗ it )η + ε] − ϕ ˆ = E(W AW )−1 W Aε Aquí se asume que A(IN ⊗ iT ) = (IN ⊗ AiT ) = 0.

Kiviet utiliza estas expresiones para derivar el sesgo del estimador de LSDV de la siguiiente forma : ¯ ˜ ¯ ˜ ¯ ˜ E(ϕ − ϕ) = E((W + W ) A(W + W ))−1 (W + W ) Aε ˆ 3 2 ¯ E(ϕ − ϕ) = −σε (D)−1 (g1 + g2 + g3 ) + O(N −1 T 2 ) ˆ donde : 2 ¯ ¯ ˜ D = W AW + σε N tr[C AT C]qq N ¯ ¯ ¯ g1 = (i CiT )[2q − W AW (D)−1 q] T T ˜ ¯ ¯ g2 = tr[W (IN ⊗ AT CAT )W (D)−1 ]q (208) ¯ ¯ ¯ g3 = W (IN ⊗ AT CAT )W (D)−1 q N 2 ¯ +σε N q (D)−1 q × [− (iT CiT )tr(C AT C) + 2tr(C AT CAT C]q T Kiviet muestra que solo g1 es necesario para calcular el sesgo del estimador LSDV. En consecuencia. 181 . el estimador de LSDVK consiste en calcular g1 usando los residuos de IV para luego computar el sesgo el que luego se utiliza para ajustar los coeficientes estimados por efectos fijos.

edad.Muy caros raros en la práctica. La construcción de los contrafactuales ha sido realizada bajo 5 procesos distintos. Problema: El impacto del programa lo podemos estudiar sólo en quienes participaron y no podemos saber qué habría pasado con ellos si no hubieran participado. etc. Denotado generalmente como Diferenciasen-diferencias ya que compara la diferencia en la conducta promedio después y antes de la reforma para el grupo elegido contrastándola con aquella conducta promedio -antes y después. pero relacionados: 1. al remover efectos individuales no observables y factores macro comunes.y por tanto. 182 . el problema de la evaluación es medir el impacto del programa en cada tipo de individuo.Se necesita un grupo de control que no está afecto.del grupo de comparación.9. -sexo. La construcción de los contrafactuales es el aspecto central en los métodos de evaluación. Problemas: . Se relaciona un grupo de potenciales participantes homogéneos y se deja fuera una submuestra. En general. Administrándose el programa al grupo restante y comprando sus perfomances relativas. Experimento Social Aleatorio (puro). los individuos pueden ser identificados por ciertas variables observables. Considera la reforma (programa) como un experimento y tratando de encontrar un grupo comparable en forma natural. Métodos de Evaluación para Datos No-Experimentales Objetivo: La medición del impacto de una reforma política o intervención sobre un conjunto de variables (de predicción) bien definidas. Experimentos Naturales. educación. Recupera así.Asume que existen efectos temporales comunes entre los grupos. institución. aleatoriamente determinada. Problemas de este método: . por las reformas (programas). bajo ninguna forma. estado civil. 2. efectos sobre salario de mercado. No existe spillovers . el efecto promedio del programa sobre aquellos individuos que participaron (o fueron "tratados") capturando el efecto: "The effect of Treatment on the Treated". Lo anterior . .

Si las variables son las equivocadas. A diferencia del matching..Así. 4. 2. 183 . Así.La escogencia de las variables que serán utilizadas para definir el clon. 3. Persigue seleccionar factores observables suficientes como para que dos individuos con los mismos valores para estos factores no presenten diferencias sistemáticas en sus reacciones a las reformas. el efecto contrafactual estará incorrectamente medido y así el impacto del programa. Usualmente utilizados para las evaluaciones de reformas impositivas. uno que participó y uno que no lo hizo: Problema: .1. el cual puede ser considerado como una selección sobre observables. este approach (de Heckman) considera la selección basada en noobservables. se modela mediante un marco de elección racional el cual separa las preferencias de las restricciones y por lo tanto. Naturaleza del programa: local-nacional. Métodos de Matching (calce). efecto del tratamiento sobre los tratados. Criterios para escoger una forma u otra 1. . Naturaleza de los datos disponibles. Modelo de Selección. . puede ser utilizado para simular reformas económicas que modifican las restricciones pero que dejan las preferencias inalteradas.No existen cambios de composición al interior del grupo. etc. el impacto del programa puede ser aislado al comparar dos individuos similares (clones). escala pequeña o global. 9. Modelos de Simulación Estructural. extrapolación u otras reformas. escoger el grupo de control es muy complejo. Naturaleza de la pregunta que se desea responder -impacto general. 5. Basado en el principio de exclusión en que una variable es necesaria para determinar la participación en el programa pero no en el resultado del programa. (ya lo veremos) 3.

µit ) = 0 pues.2. la asignación al programa no es aleatorio. se conoce como "efecto del tratamiento sobre los tratados". Ni = Zi · γ + νi donde N: índice de participación (VAN. ⇒ E(di . di =0 otro caso 184 . Con la excepción del caso de datos experimentales. Pero si los efectos son heterogéneos ambas medidas pueden diferir. en particular. Separación de la decisión de participar. con di =1 si Ni =0. Xit ) = 0 t>k di =1 si individuo i participó en el programa (el cual ocurrió en t=k).2. El impacto sobre de ciertas características entre todos que fueron asignados al programa. puede ser que la decisión de participar.1.9. α: mide el impacto homogéneo del tratamiento sobre individuo i. 9. o el ser seleccionado depende de ciertas características de los individuos. El impacto del programa sobre individuos con características particulares como si fueran asignados aleatoriamente al programa de una población de todos los individuos con otras características. etc). Bajo el supuesto de efecto del tratamiento homogéneo estas dos medidas son idénticas. 2. Efectos Homogéneos del Tratamiento Yit = Xit β + di α + µit Yit = Xit β + µit t≤k E(µit ) = 0 E(µit . 2. Qué se desea medir? 1.

εi : desviación del individuo i en la media población. OLS identifica: E(ˆ ) = α + E(εi |di = 1) + E(µit |di = 1) − E(µit |di = 0) α Así. probablemente lo esté. Yit = β + di αi + µit αi : impacto del tratamiento en individuo i. el impacto del tratamiento sobre los tratados. el cual cambia de acuerdo a si fue tratado o no.2. el problema adicional que surge como consecuencia de la participación heterogénea es la forma del término de error. Efectos de Tratamiento Heterogéneos Aquí el impacto del programa varía entre individuos. La identificación de α es mas difícil en el caso de correlación con el indicador de tratamiento (participación). Ello pues separar de que el término de error µ no este correlacionado con el proceso de decisión el componente del efecto del programa específico al individuo εi . µit + di (αi − α). Sustituyendo de otros regresores X. Notar que si E(εi · di )= o tendríamos que E(εi |di )= 0 y así: E(Yit |di ) = β + di [α + E(εi |di )] + E(µit |di ) En este caso. αT : impacto promedio del tratamiento sobre los tratados. de tal modo que E(µit |di = 1)=E(µit |di = 0)=0 sigue existiendo el problema de identificación. t>k 185 . También dichos efectos diferenciados pueden influenciar el proceso de decisión (es decir.9.2. se espera que los individuos considera sus condiciones específicas en su decisión y en consecuencia E(εi |di = 1)=0 y por lo tanto. Así el impacto: Yit = β + di · α + [µit + di · εi ] = β + di · α + [µit + di (αi − α)] Aquí. aún si µit no está correlacionado con di . la identificación de α se hace mas dificultosa. Solo es posible identificar: αT = α + E(εi |di = 1). αi = α + εi αT = α + E(εi |di = 1) donde E(εi |di = 1) desviación media del impacto entre los participantes. es decir. En general. correlación con indicador di ). Si α: impacto promedio sobre la población.

13 0.17 0. Datos Experimentales Si el diseño del programa escoge aleatoriamente una muestra del grupo de personajes elegibles para participar donde la elección es absolutamente es independiente del posible resultado.472 Real earnings two year before treatmenta 2.76 Proportional Hispanic 0.860 Hours worked one year before treatment 278 Hours worked two year before treatment 458 Number of observation 2. si vemos que los términos anteriores se cancelan.14 1. matching. ˆ 9.083 a: Annual earnings in US dollars.si existen dropouts (non random) . Controls 23.9. Pero: . Entonces . no podemos garantizar diferencias en no-observables.193 186 . diff-in-diff.558 3. Non-experimental data Aún si el diseño del grupo de control obedece a criterios o reglas de comparación basada en información observable. esta esperanza será diferente de α.si el experimento en si altera la conducta de los tratados/no tratados.79 Proportional married 0.75 0.12 Real earnings one year before treatmenta 1.80 0. E(ˆ ) = α + [E(µit |di = 1) − E(µit |di = 0)] α En el caso en que E(µit |di )= 0. ver tablas: Comparison of Treatments and Controls: Characteristics for the NSWD Males Treatments Age 24.030 274 469 2. Este es el típico problema de selección. Así. entonces α = Y t − ς0 ˆ t (1) (0) 1 t>k donde Y t y ς t son los resultados medios en los tratados y no tratados en el tiempo t después del programa. lo cual es ya difícil.14 Proportional black 0.3. estimadores alternativos serán necesarios: IV.si se le ofrece otros programas a los no-seleccionados .99 10.17 Proportional high-school drop-outs 0.4. Ejemplo ilustrativo: Estudio de LaLonde (1986).49 Years of school 10.consistencia de α es invalidada. selección.

335 3. CPS-SSA 1 -all males based on Westat’s criterion except those over 55 years old.121 1977 6. Comparison Unadjusted Adjusted Unadjusted Adjusted Group difference of difference of difference-in.Annual Earnings of Male Treatments and Controls Treatments Controls 1975 3.578 -8. CPS-SSA 2 -all males in CPS-SSA 1 who were not working when surveyed in March 1976.067 425 -749 PSID 2 -4. CPS-SSA 3 -all males in CPS-SSA 1 who were unemployed in 1976 and whose income in 1975 was below the poverty level.976 5.300 224 -1. Two-step estimator 889 -667 213 - 187 .637 -1.020 -3.066 3.090 Number of observation 297 425 Estimated Treatment Effects for the NSWD Male Participants using the Control Group and Comparison Groups from the PSID and the CPS-SSA.388 Definitions: PSID 1 -all male household heads continuously in the period studied (1975-78) who were less than 55 years old and did not classify themselves as retired in 1975.403 1978 5.870 -4.325 CPS-SSA 1 -8. PSID 3 -all men in PSID 1 not working when surveyed in either the spring of 1975 or the spring of 1960.416 1.035 2.714 195 CPS-SSA 2 -4.difference-inmean postmean postdifferences differences programme programme earnings earnings Controls 886 798 847 856 PSID 1 -15.095 -1.027 1976 4.675 226 -488 CPS-SSA 3 -1. PSID 2 -all men in PSID 1 not working when surveyed in the spring of 1976.482 484 -650 PSID 3 697 -509 242 -1.

0 otro caso t>k 1. Requiere la existencia de al menos un regresor exclusivo para la regla de decisión con Z ∗ satisfaciendo los siguientas requerimientos . La metodología apropiada para trabajar la evaluación de programas con datos noexperimentales depende de tres puntos: 1.podemos encontrar una transformación g tal que g(Z ∗ ) sea no-correlacionado con el error µ dadas las variables exógenas X. tipo de información disponible 2. parámetros de interés IV para single cross-section Heckman two-step difference-in-difference Longitudinal o repeated cross section matching propensity scores / matching / dif Veamos cada uno de ellos.Revisión principales métodos para datos no-experimentales. modelo subyacente 3.4. 9. 188 . Datos de corte transversal Recordemos el modelo original (caso impacto homogéneo) Yit = Xit · β + di · α + µit Ni = Zi · γ + νi con di = 1 si Ni > 0. Método por variables instrumentales (IV).1.Z ∗ determine la participación en el programa: -tiene un coeficiente no-cero en la regla de decisión .

Considerando que αT = α + E(εi |di = 1).Z ∗ no esté completamente determinado por X. . entonces ˆ Yit = β · Xi + di · α + [µit + di · εi ] puede ser reescrito Yit = β · Xi + αT · di + {µit + di · [εi − E(εi |di = 1)]} Yit = β · Xi + αT · di + ξit 189 . particularmente para que cumplan con los 3 requerimientos planteados. alternativamente. este método es análogo a un Tobit generalizado (tipo II) donde E(Yit |di = 1) = β · Xi + α + ρ · y E(Yit |di = 0) = β · Xi − ρ · φ(Zi · γ) 1 − Φ(Zi · γ) φ(Zi · γ) Φ(Zi · γ) con las mismas salvedades descritas para el Tobit en que Z y X deben tener al menos una variable diferente y γ puede ser estimado regresionando N = Zi γ por ˆ Probit.En el caso de impacto heterogéneo a pesar de que Zi∗ puede no estar correlacionado con µit . la escogencia de los instrumentos no es fácil. Una solución es considerar valores rezagados de las variables determinantes. entonces el error estará correlacionado con Zi y por tanto IV no es aplicable en el caso de impacto homogéneo. Para el caso de impacto homogéneo. Ahora. Así la(s) variable(s) Z ∗ son los instrumentos que entregan la variación exógena que aproximan el diseño aleatorio. si µit + di · εi = µit + di (αi − α) dado que Zi∗ determina di por definición. el indicador de tratamiento es reemplazado por g(Z ∗ ) o bien. el modelamiento es un poco más complejo. Problemas de esta metodología: .A pesar de su simpleza. cuando existen efectos de tratamiento heterogéneos. se usa tanto X como Z ∗ para predecir d.. Entonces en la regresión por IV. Método de selección de Heckman. creando ˆ una nueva variable d la que se incorpora a la regresión en vez de d. 2.

la regresión queda: Yit = β · Xi + di αT + ρ(µ. 9. Notación. entonces E(ξit |di = 1) = corr(µit + εi . Como vimos existen dos tipos de estimadores de pareo (ME): ì) Cross-sectional (CS): el que compara los outcomes para los tratados y el grupo de comparación medidos en algún período después del programa. Y0 = outcome de los no-tratados. νi ) · V ar(µit )1/2 · = ρ(µ.ε) · análogamente E(ξit |di = 0) = corr(µit . Matching Estimators.4.ν) · + δit Φ(Zi · γ) 1 − Φ(Zi · γ) −φ(Zi · γ) 1 − Φ(Zi · γ) −φ(Zi · γ) 1 − Φ(Zi · γ) −φ(Zi · γ) Φ(Zi · γ) φ(Zi · γ) Φ(Zi · γ) pudiendo identificarse αT pero no α. νi y εi .ν.El procedimiento en dos etapas requiere el conocimiento de la distribución conjunta de µit .2. νi ) · V ar(µit + εi )1/2 · = ρ(µ. X: vector de características utilizadas como variables de condicionamiento. 190 .ε) φ(Zi · γ) −φ(Zi · γ) + (1 − di ) · ρ(µ. Y1 = outcome de los tratados. ii) difference-in-difference (DID): el que compara el cambio en el outcome de los tratados con aquellos no tratados.ν) · y así. Esta similitud se determina si tienen características observables similares las que son medidas por alguna medida de distancia métrica. D=1 si la persona recibe tratamiento (D=0 si no). Si esta es normal con σv = 1. donde el cambio es medido relativo a un período base previo al programa. Estos evalúan los efectos del tratamiento al comparar los outcomes de las personas tratadas con aquellos de personas similares en un grupo de control o comparación.ν. P(X)= Pr(D=1|X).

Ichimura.D=0). kernel o local linear regression (los que ya veremos): 191 . Sx : ∆D=1 = Sx E(Y1 − Yo |X. (CS. un parámetro de interés clave es el impacto promedio del programa sobre los tratados. E(Y0i |P (Xi ). Este puede ser definido condicional en algunas características X con: ∆D=1 (X) = E(Y1 − Y0 |x. D = 1) · fx (X|D = 1) · dX Sx fx (X|D = 1) · dX donde fx (X|D=1) es la densidad de X. aquí veremos tres a) nearest neighbor cross-sectional matching estimator b) nearest neighbor DID matching estimator c) kernel and local linear versions de los dos anteriores (existe también el regression adjusted matching explicado en Heckman.98)). Todos los estimadores que veremos tratan de estimar el impacto medio del tratamiento en los tratados ∆D=1 .2) 0 < P r(D = 1|X) < 1. Supuestos para la identificación de los diferentes estimadores. D = 1) o bien un parámetro promedio puede ser definido sobre un soporte (región) de X.D=1)=E(Y0 |P(X).1) E(Y0 |P(X). a) Cross Sectional Supuestos: (CS.La principal ventaja de DID sobre CS es que considera las diferencias no observablescontantes en el tiempo-en los tratados y no tratados. Di = 0) i=1 {Di =1} Con n1 el número de individuos tratados con valores de X que satisfacen CS. Como habríamos dicho en la clase anterior. Así 1 ˆ D=1 · ∆CS = n1 n1 Y1i (Xi ) − E(y0i |P (Xi ). Todd (97.1. Di = 0) puede ser estimado en forma no paramétrica por nearest neighbor. Adicionalmente a los dos estimadores vistos en la clase anterior.

b) Difference-in-difference (DID) Matching Estimators. Las condiciones que se necesitan para implementar de estos estimadores son: (DID. Di = 0)} − 1 n1t i=1 {Di =1} n1t ˆ {Y0tj (Xj ) − E(Y0tj |P (xj ). D = 1) = E(Yot − Y0t |P (X). 192 . Donde es fundamental de que los X no están influenciados por el programa. Qué pasa si los datos (del grupo de control) no son aleatoriamente determinados? Por ejemplo. Ichimura y Todd (99) la historia de empleo en el año anterior al programa de entrenamiento es un predictor fundamental en la participación. La estimación de los PS requiere escoger un conjunto de variables condicionantes X.1) E(Y0t − Yot |P (X). puede suceder que los individuos del grupo de control estén sobre o subrepresentados en relación con su frecuencia en una población aleatoria. Esto es. X). ˆ ˆ Amenija (1985) sugiere que se debe considerar el log [P (Xi )|1 − P (Xi )] en vez de los propensity scores estimados.2) 0 < P r(D = 1|X) < 1. En general. D = 0). Sino los estimadores por matching no medirán correctamente el efecto del programa pues no capturarán cambios en la distribución de las variables X medidas por el programa. entre mas variables se consideran en X mejor y no considerar variables muy generales como son característica demográficas. Dj = 0)} j=1 {Dj =1} Implementación Paso 1: Estimar el modelo de participación en el programa. hogares) antes de entrar al programa. También denominado "propensity score"es una manera de reducir la dimensión del problema de condicionamiento en el matching. Así ∆DID = D=1 1 n1t n1t ˆ {Y1ti (Xi ) − E(Y0ti |P (Xi ). Sea t y t’ dos períodos en el tiempo uno antes del comienzo del programa y otro después del término de este. Por esta razón. Para su implementación se necesita datos cross-sectional repetidos o datos longitudinales tanto para participantes como no participantes. Y0t es el outcome observado en t. las variables X estarán relacionadas con las características individuales de las personas (firmas. se reduce el problema del matching a un problema unidimensional no-paramétrico al estimar E(Y0 |D = 0. P (X)) en vez del problema de dimensión k E(Y0 |D = 0. En Heckman. (DID.

ii) ordene las j observaciones en términos de |P (Xi ) − P (Xj )| de menor a mayor.Paso 2: Construir los matching outcomes. iii) Sea Ax un índice del conjunto de Z observaciones con los menores valores de |P (Xi ) − P (Xj )|. a) Estimadores "simple average nearest neighbor" Para implementar este estimador se necesita primero determinar cuantos vecinos serán utilizados (p. Existen variadas formas para estimar estas medias condicionales. Di = 0) = · Z {Dj ∈ AZ } 193 Z Yoj j=1 . Estos son los vecinos mas cercanos. En general.e. como es demostrado en Heckman. Ichimura y Todd (97): Loss estimadores de las medias condicionales pueden expresarse como promedio ponderado de los outcomes observados para aquellos con Di = 0. En forma particular. Di = 0) = n0 [ωj (P (Xi ))] · Y0j j=1 {Dj =0} que en el caso de kernel. Di = 0) en el caso de CS y E(Y0ti |P (Xi ). Ello requiere estimar E(Y0i |P (Xi ). Di = 0) y también E(Y0ti |P (Xi ). Para ello i) determine |P (Xi ) − P (Xj )| para cada observación tratada i y todos los miembros del grupo de comparación j. los puros ωj vienen dado por ωj (P (XI )) = K no ˆ ˆ P (Xi )−P (Xj ) hn K K=1 {DK =0} p(Xi ) − p(Xk ) ˆ ˆ hn con K la función kernel y hn bandwidth. Así ˆ (CS) E(Y0i |P (Xi ). Di = 0) para el estimador DID. 1 ˆ E(Y0i |P (X0 ). Z). iv construya los matched outcomes como un promedio simple sobre los outcomes de los vecinos mas cercanos.

2. 1 El estimador anterior o bien asigna un peso de Z o 0 a las observaciones del grupo de control. Di = 0). el hn variará dependiendo de la cantidad de datos (vecinos) que tenga cada punto de P (Xi ) (o en cada i ∈ {Di = 1}) otra forma es escoger un hn ∈ [0. para cada valor P (Xi ) requiere por WLS Y0j sobre una constante y P (Xj ) − P (Xi ) usado las personas con Dj = 0 y así el intercepto estimado será un estimador de E(Y0i |P (Xi ). P (X )−P (X ) c) Local Linear Regression Estimator (LLR). Así. Una forma de Kernel es la bi-weight Kernel: K(s) = 15 16 · (s2 − 1) para |s| < 1 0 otro caso conde.0. Qué pasa si no hay matches cercanos? 194 . Aquí el ancho hn es análogo al problema de escoger el número Z en el caso anterior. hn En términos prácticos una forma de definir a hn es hn = |P (Xi ) − P (Xj )| para el z-ésimo vecino cercano. Los pesos a las observaciones Dj = 0 dependerán de los valores de i j K . éstos vienen determinados por: ωj (P (Xi )) = Kij n0 2 K=1 KiK (PK − Pi ) − [Kij (Pj no n0 2 K=1 KiK (Pk − Pi ) j=1 Kij P (X )−P (X ) − Pi )][ n0 KiK (Pk − Pi )] K=1 − [ n0 Kij (Pj − Pi )]2 j=1 j I donde KiK = K hn también se puede demostrar (Fan (1992.b) Kernel regression matching estimator. si Z=5 entonces el segundo o tercer vecino mas cercano reciben el mismo peso en la estimación del valor esperado condicional. De nuevo. Un Kernel regression escoge el peso de tal forma de que la observación mas cercana en términos de |P (Xi ) − P (Xj )| recibe mayor peso. Así.4]. los Kernels escogidos deben cumplir con la condición de que K(s)ds = 1 y K(s)sds = 0.1993)) de que el LLR estimator de E(Y0 i|P (Xi ).b (Y0j − a − b · (P (Xj ) − P (Xi )))2 · K j=1 {Dj =0} P (Xi ) − P (Xj ) hn Así. en general. Di = 0) puede ser visto como la solución hata al problema siguiente de regresión ponderada: n0 m´ ın a. la diferencia solo yace en los pesos donde en el caso de LLR.

deberíamos considerar el support para P(X) donde tanto fx (P (X)|D = 1) > 0 como también fx (P (X)|D = 0) o sea la región de overlapping support. Di = 0) esta definido solamente en los puntos de la densidad f (P (Xi )|D = 0) > 0. en la medida de lo posible. En general.Los estimadores no paramétricos de E(Y0i |P (Xi ). Así. Una forma de determinar este soporte común es al dibujar el histograma de P (Xi ) tanto para los tratados como los de control e identificar visualmente los rangos donde no hay matches cercanos. B3 sesgo de selección verdadera (econométrico) resultante de la "selección en no observables" DID matching con canon support corrigen por los primeros dos y el tercero. de aislar el efecto del tratamiento promedio en los tratados. Así. entonces se deben recalcular los P(X) al considerar otros X). se asume que es cero. Descomposición del sesgo. Di =!) − E(Y0 |X. Aquellos por debajo deben ser excluidos de la estimación. Di = 0) = B1 + B2 + B3 B1 sesgo por non-overlapping support de X B2 error en la ponderación incorrecta en el canon support de X pues las distribuciones de los tratados y no tratados no son exactamente iguales aún en el soporte común. Una forma mas rigurosa de determinar esta región de soporte común es calcular la densidad F (P (Xi )|D = 0) en cada punto de los P (Xi ) para las observaciones Di = 1 madiante estimadores de densidad no-paramétrica. DID con common support es la forma adecuada. Por ejemplo: ˆ f (P (Xi )|Di = 0) = n0 K K=1 {DK =0} P (xi ) − P (xK ) hn Una vez que los estimadores de las densidades en cada punto son obtenidos se debe ordenar los estimadores de densidad. observaciones Di = 1 que no tengan un P (XJ ) cercano a P (Xi ) deben ser excluidas de la estimación. En general. Sesgo =: E(Y1 |X. todos los valores de P (Xi ) para los cuales las densidades estimadas exceden el limite de 1 o 2 % cuantil son consideradas dentro de la región de soporte común. Esto significa que deberían existir valores de P (Xj ) para el grupo de Dj = 0 en la vecindad de los puntos de evaluación P (Xi ). (Ahora si la región de traslape es muy pequeña es muy pequeña. 195 .

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->