Está en la página 1de 8

Econometrı́a I

Profesor: Rómulo Chumacero


Ayudantes: Adolfo Fuentes1 , Rodrigo Miranda
Pauta Ayudantı́a N◦ 14
Otoño 2014

1. Comentes
1. Explique en qué consiste el test de Wald.

Respuesta
El test de Wald es el simil de los test t y test F aplicados para máxima verosimiltud. El estadı́stico de
estos tests se escribe de la forma:
"  2 −1 #−1
∂h(θ) ∂ l ∂h(θ)
W = −h(θ̂) | | | h(θ̂)
∂θ0 θ̂ ∂θ∂θ0 θ̂ ∂θ θ̂

Donde la función h(·) es diferenciable y expresa la condición que estamos testeando. Notar que estamos
tomando una condición (h(·)) y la estamos diviendo por la “varianza” de nuestro estimador junto con
las restricciones.
En términos de la distribución, el test de Wald distribuye chi-cuadrado con q grados de libertad. Donde
q corresponde a la cantidad de restricciones que estamos imponiendo en h(·).

Conceptualmente, este test tiene la ventaja de solo utilizar la estimación irrestricta (no hay que calcular
dos estimadores), y compara este estimador con el que cumple la condición. Es decir, está comparando
θ̂ con θ

2. Explique en qué consiste el test de LM.

Respuesta
El test de Lagrange Multiplier consiste en evaluar el precio sombra en el estimador que queremos testear.
La intuición es la siguiente: El precio sombra corresponde a cuanto nos tiene que “doler” alejarnos de la
restricción para que vayamos en la dirección correcta. Luego, mientras mayor sea el precio sombra, más
dificil es que se cumpla la restricción, dado que debe ser mas costoso que nos alejemos.

El estadı́stico corresponde a la “varianza”:


−1
∂2l

∂l(θ) ∂l(θ)
| | |
∂θ0 θ ∂θ∂θ0 θ ∂θ θ

Conceptualmente, estamos viendo la pendiente que tiene nuestro estimador. Si la restricción que impone-
mos no molesta (calza con el estimador irrestricto) la pendiente será cero (estaremos en el óptimo). Sin
embargo, si la restricción que imponemos dista mucho del máximo, la pendiente será positiva o negativa
y el valor del multiplicador será distinto de cero.

Este test solo necesita el estimador restringido y distribuye chi-cuadrado con q grados de libertad.

1 adfuente@fen.uchile.cl

Página 1 de 8
Universidad de Chile
Facultad de Economı́a y Negocios Ayudantı́a

3. Explique en qué consiste el test de LR.

Respuesta
Hasta ahora, tratamos de verificar una hipótesis verificando la distancia entre el estimador restringido
y el irrestricto (Wald) y la pendiente que se genera de resolver el problema (LM). Otra alternativa es
evaluar las diferencias entre las funciones de log verosimulitud que se desprenden de estimar el modelo
sin restricciones y con restricciones. Esta es la idea del test de Ratio de Verosimilitud (LR en inglés).

El estadı́stico es de la forma:
ˆ − l(θ)]
LR = 2[l(θ)

Este test necesita ambos estimadores (el irrestricto y el restringido) y también distribuye chi-cuadrado
con q grados de libertad.

4. Explique la idea del modelo de variable dependiente limitada. Además explique la metodologı́a de la
estimación.

Respuesta
Los modelos de variable dependiente limitada surgen cuando asumimos que hay una variable latente,
llamemosla yi∗ que genera que, sobre un umbral de esta, se toma una decisión (yi = 1), y bajo el umbral,
esta no se toma (yi = 0). Es decir:

1 yi∗ ≥ 0

yi =
0 yi∗ < 0
Luego, el problema es que nosotros solo observamos la decisión y no la variable latente. Por lo tanto,
la gracia de estos modelos consiste en estimarla. Para ello, suponemos que la variable latente se puede
modelar a través de una forma lineal, es decir:

yi∗ = βxi + ui

De forma que la probabilidad del evento está dada por:

Pr(yi = 1|xi ) = Pr(yi∗ = βxi + ui ≥ 0)


= Pr(ui ≥ −βxi )
= 1 − F(−βxi )

Posteriormente asumiendo que E(u) = 0 (nuestros errores no están sesgados hacia algún lado), y la
función de distribución es simétrica, tenemos que:

1 − F(−βxi ) = F(βxi )

Luego, la función de verosimilitud está dada por:


n
Y
L= [F(xi β)yi ][1 − F(xi β)1−yi ]
i=1

Entonces, la función de log verosimilitud corresponde a:


n
X
l= [yi ln(F(xi β)) + (1 − yi ) ln(1 − F(xi β))]
i=1

Página 2 de 8
Universidad de Chile
Facultad de Economı́a y Negocios Ayudantı́a

Notar que acá estamos sumando factores que no siempre son distintos de cero (esto porque hay veces
donde yi es cero). Luego, hacer la sumatoria del primer término es equivalente a hacer la sumatoria de
arriba es equivalente a sumar los términos cuando yi es igual a 1. Lo mismo para el caso yi = 0. Con
esto entonces tenemos que la expresión de arriba puede escribirse como:
X X
ln F(βxi ) + ln(1 − F(βxi ))
yi =1 yi =0

Ahora, volviendo a la expresión antes de reordenar la sumatoria, derivamos con respecto a β para obtener el
estimador de máxima verosimilitud. Recordando que la derivada de una función de distribución acumulada
(F(·)) es la función de densidad (f (·)), tenemos que:

∂l X  f (βxi )xi f (βxi )xi



= yi − (1 − yi )
∂β i=1
F(βxi ) 1 − F(βxi )

Que se puede expresar como:


" #
X f (β̂xi ) f (β̂xi )
yi − (1 − yi ) xi = 0
i=1 F(β̂xi ) 1 − F(β̂xi )

Lo que claramente es no lineal, por lo que requiere de métodos numéricos para ser estimado.

Matemáticos
1. Calcule los estimadores de máxima verosimilitud cuando distribución es normal, cuya función de densidad
está dada por:
1 (yt − µ)2
 
2 1
f (yt ; µ, σ ) = √ exp −
2πσ 2 2 σ2

Respuesta
La función de verosimilitud, está dada por:
n
1 (yt − µ)2
 
Y 1
L= √ exp −
t=1 2πσ 2 2 σ2
Luego, la función de log verosimilitud corresponde a:
n
1 (yt − µ)2
 
Y 1
l = ln √ exp −
t=1 2πσ 2 2 σ2

n
1 (yt − µ)2
 
X 1
l= ln √ exp −
t=1 2πσ 2 2 σ2
Que se puede separar como:
n n n
!
1X 1X 1 X (yt − µ)2
l = − ln(2π) − ln(σ 2 ) −
2 t=1 2 t=1 2 t=1
σ2
n n n
!
1X 1X 1 X (yt2 − 2yt µ + µ2 )
l = − ln(2π) − ln(σ 2 ) −
2 t=1 2 t=1 2 t=1
σ2

Página 3 de 8
Universidad de Chile
Facultad de Economı́a y Negocios Ayudantı́a

Notar que este es un caso distinto a los anteriores, ahora tenemos dos parámetros que son la media y la
varianza. Obtendremos estimadores de ambos.

Para la media, derivamos por ella e igualamos a cero:


n
!
∂l 1 X −2yt + 2µ)
= − =0
∂µ 2 t=1 σ2
Pn
∂l t=1 yt − µn
= =0
∂µ σ2
Pn
t=1 yt
µ̂ =
n
Para la varianza, derivamos por ella e igualamos a cero:
n n
!
∂l 1X 1 1 X (yt − µ)2
= − + =0
∂σ 2 2 t=1 σ 2 2 t=1
σ4
n
!
∂l n X (yt − µ)2
= − 2+ =0
∂σ 2 σ t=1
σ4
Pn 2
t=1 (yt − µ)
σ̂ 2 =
n

2. Calcule el estimador de máxima verosimilitud cuando la distribución es normal y el modelo es lineal:

Respuesta
Notar que cuando tenemos estas condiciones, estamos hablando de que la distribución de los errores es
normal. Entonces como el modelo lineal es de la forma:

Y = Xβ + u

Donde E(u)=0 y V(u)= σ 2 . Podemos escribir la función de verosimilitud como:


n
1 (Y − Xβ)0 (Y − Xβ)
 
Y 1
L= √ exp −
t=1 2πσ 2 2 σ2

Luego, la función de log verosimilitud corresponde a:


n
1 u2
 
Y 1
l = ln √ exp − 2
t=1 2πσ 2 2σ

n
1 u2
 
X 1
l= ln √ exp − 2
t=1 2πσ 2 2σ

Que se puede separar como:


n
!
n n 1 X u2
l = − ln(2π) − ln(σ 2 ) −
2 2 2 t=1
σ2

Página 4 de 8
Universidad de Chile
Facultad de Economı́a y Negocios Ayudantı́a

Ahora bien, el último término se puede escribir como:

(Y − Xβ)0 (Y − Xβ)
 
n n 1
l = − ln(2π) − ln(σ 2 ) −
2 2 2 σ2

Luego derivamos, y siguiendo las reglas de derivadas matriciales, obtenemos:

β̂ = (X 0 X)−1 X 0 Y

La solución conceptualmente es la misma, porque para maximizar la función de log verosimilitud debemos
minimizar la suma de los errores al cuadrado.

Estimado un Probit en Stata


Considere que está estimando la probabilidad de que una persona presente o no ahorros. Para ello recurre a
la encuesta CASEN 2011 y formula un modelo de variable latente de la siguiente forma:

yi∗ ≥ 0

1 (ahorra)
yi =
0 (no ahorra) yi∗ < 0

Donde:

yi∗ = β0 + β1 ingreso + β2 casado + β3 genero

a) Estime el modelo probit. ¿Encuentra algún problema?

Respuesta
Al momento de estimar el modelo encontramos que el modelo no converge. Esto se puede deber, en
parte, a que variables como el ingreso tienen una distribución chi cuadrado en vez de normal, por lo
tanto, al programa le cuesta “ajustarlas”.

b) Estime el siguiente modelo:

yi∗ = β0 + β1 ln ingreso + β2 casado + β3 genero

¿Encuentra ahora resultados? ¿Por qué ahora si?

Página 5 de 8
Universidad de Chile
Facultad de Economı́a y Negocios Ayudantı́a

Respuesta
Efectivamente al utilizar el logaritmo de la variable la estimación por máxima verosimilitud converge
rapitadamente:

Esto sucede porque el logaritmo de los ingresos tiene una distribución normal, lo cual, cuadra mejor
con el modelo probit.

c) Verifique que la esperanza de los errores del modelo sean algo cercano a 0. ¿Qué parámetro de la
estimación nos ayuda a esto?

Respuesta
Para verificar que el promedio de los errores es cercano a cero, realizamos la siguiente estimación:

• probit ahorro ln yopraj casado genero


• predict u gorro, p

• gen pred err = ahorro-u gorro


• sum pred err

Lo que nos entrega:

Página 6 de 8
Universidad de Chile
Facultad de Economı́a y Negocios Ayudantı́a

Lo que nos garantiza esto, al igual que en corte transversal, es la inclusión de la constante. Para verificar
esto, estimaremos el modelo sin constante y veremos que ocurre.

• probit ahorro ln yopraj casado genero, noconstant


• predict u2 gorro, p
• gen pred2 err = ahorro-u gorro

• sum pred2 err

Donde se obtiene que:

d) Interprete los coeficientes. ¿Cuáles son los efectos marginales de estos problemas?

Respuesta
Debemos tener en cuenta que el modelo planteado es de la forma:

Pr(yi = 1|xi ) = F(βxi )

Luego, al estimar este modelo nosotros obtenemos el parámetro β̂, que son los reportados en la tabla.
Sin embargo, el efecto marginal como lo conocemos viene dado por:

∂Pr(yi = 1|xi )
= f (βxi ) · β
∂xi
Luego, para calcular el efecto marginal debemos calcular para cada agente:

f (β̂xi ) · β̂

Sin embargo, si nos fijamos, notaremos que cada agente tiene distintos xi , por lo cual, el efecto marginal
sobre cada uno de ellos será distinto. Esta es una gran diferencia con respecto a los modelos tradicio-
nales que estimabamos, pues antes el efecto marginal era el mismo independiente de las caracterı́sticas
del agente evaluado.

Debido a esta condición de multiples efectos marginales, en este tipo de modelos se suele entregar lo
que se denomina efecto marginal en la media, es decir, el efecto marginal promedio que se observa
entre los agentes. Matemáticamente este viene dado por:
Pn
i=1 f (β̂xi ) · β̂
mfx =
n
Para calcularlo en Stata seguimos el siguiente procedimiento:

• probit ahorro ln yopraj casado genero

• scalar beta ln yopraj = b[ln yopraj]

Página 7 de 8
Universidad de Chile
Facultad de Economı́a y Negocios Ayudantı́a

• scalar beta casado = b[casado]


• scalar beta genero= b[genero]
• scalar const= b[ cons]

• gen mfx lnyopraj=normalden(const + beta ln yopraj*ln yopraj + beta casado*casado


+beta genero*genero)*beta ln yopraj
• gen mfx casado=normalden(const + beta ln yopraj*ln yopraj + beta casado*casado
+beta genero*genero)*beta casado

• gen mfx genero=normalden(const + beta ln yopraj*ln yopraj + beta casado*casado


+beta genero*genero)*beta genero
• mean(mfx lnyopraj mfx casado mfx genero)

Lo cual se reduce en el siguiente comando:

• probit ahorro ln yopraj casado genero


• mfx

Lo que nos entrega la siguiente tabla:

Donde acá si los coeficientes son interpretables como la probabilidad marginal del suceso. Es decir, por
cada 1 % de aumento del ingreso, la probabilidad de ahorrar aumenta en un 5,48 %. Por otro lado, si se
es casado la probabilidad de ahorrar disminuye en 0,40 %, mientras que si se es hombre la probabilidad
de ahorrar disminuye en un 8,55 %.

Página 8 de 8

También podría gustarte