Está en la página 1de 7

Econometrı́a I

Profesor: Rómulo Chumacero


Ayudantes: Adolfo Fuentes1 , Rodrigo Miranda
Pauta Ayudantı́a N◦ 13
Otoño 2014

1. Comentes
1. La estimación por máxima verosimilud se basa es que sabemos la distribución de los errores. Luego, sino
la sabemos, no podemos estimar por este método.

Respuesta
La estimación a través del método de máxima verosimilitud efectivamente requiere una función de dis-
tribución sobre la cual trabajar. Luego, si no contamos con esta distribución no es posible la estimación
a través de este método.

Sin embargo, en la práctica, nunca contamos con la certeza de que la función de distribución que estamos
utilizando sea la correcta. De esta forma, trabajamos con cuasi máxima verosimilitud, donde asumimos
que la distribución con la que estamos trabajando es la correcta.

2. Una de las propiedades de la estimación por máxima verosimilitud es que siempre alcanzaremos la cota
de Cramer Rao, generando una estimación eficiente.

Respuesta
Falso. Esta propiedad se obtiene solamente cuando la distribución de los errores es efectivamente la
correcta. Ası́, cuando esto ocurre tenemos que:

∂2l
 
∂l ∂l
H0 = E |θ = −E |θ0 = −O0
∂θ∂θ0 0 ∂θ ∂θ0

Luego, la expresión de la distribución de estos estimadores se escribe como:

θ̂ ∼ N (θ0 , H0−1 O0 H0−1 )

Que se puede reducir a:

θ̂ ∼ N (θ0 , −H0−1 )

Que corresponde justamente a la cota inferior de Cramer-Rao

1 adfuente@fen.uchile.cl

Página 1 de 7
Universidad de Chile
Facultad de Economı́a y Negocios Ayudantı́a

3. Explique en qué consiste el test de Wald.

Respuesta
El test de Wald es el simil de los test t y test F aplicados para máxima verosimiltud. El estadı́stico de
estos tests se escribe de la forma:
"  2 −1 #−1
∂h(θ) ∂ l ∂h(θ)
W = −h(θ̂) | | | h(θ̂)
∂θ0 θ̂ ∂θ∂θ0 θ̂ ∂θ θ̂

Donde la función h(·) es diferenciable y expresa la condición que estamos testeando. Notar que estamos
tomando una condición (h(·)) y la estamos diviendo por la varianza de nuestro estimador junto con las
restricciones, de forma similar a como serı́a con CLS.
En términos de la distribución, el test de Wald distribuye chi-cuadrado con q grados de libertad. Donde
q corresponde a la cantidad de restricciones que estamos imponiendo en h(·).

Conceptualmente, este test tiene la ventaja de solo utilizar la estimación irrestricta (no hay que calcular
dos estimadores), y compara este estimador con el que cumple la condición. Es decir, está comparando
θ̂ con θ

4. Explique en qué consiste el test de LM.

Respuesta
El test de Lagrange Multiplier consiste en evaluar el precio sombra en el estimador que queremos testear.
La intuición es la siguiente: El precio sombra corresponde a cuanto nos tiene que “doler” alejarnos de la
restricción para que vayamos en la dirección correcta. Luego, mientras mayor sea el precio sombra, más
dificil es que se cumpla la restricción, dado que debe ser mas costoso que nos alejemos.

El estadı́stico corresponde a la varianza:


−1
∂2l

∂h(θ) ∂h(θ)
| | |
∂θ0 θ ∂θ∂θ0 θ ∂θ θ

Conceptualmente, estamos viendo la pendiente que tiene nuestro estimador. Si la restricción que impone-
mos no molesta (calza con el estimador irrestricto) la pendiente será cero (estaremos en el óptimo). Sin
embargo, si la restricción que imponemos dista mucho del máximo, la pendiente será positiva o negativa
y el valor del multiplicador será distinto de cero.

Este test solo necesita el estimador restringido y distribuye chi-cuadrado con q grados de libertad.

Página 2 de 7
Universidad de Chile
Facultad de Economı́a y Negocios Ayudantı́a

5. Explique en qué consiste el test de LR.

Respuesta
Hasta ahora, tratamos de verificar una hipótesis verificando la distancia entre el estimador restringido
y el irrestricto (Wald) y la pendiente que se genera de resolver el problema (LM). Otra alternativa es
evaluar las diferencias entre las funciones de log verosimulitud que se desprenden de estimar el modelo
sin restricciones y con restricciones. Esta es la idea del test de Ratio de Verosimilitud (LR en inglés).

El estadı́stico es de la forma:
ˆ − l(θ)]
LR = 2[l(θ)

Este test necesita ambos estimadores (el irrestricto y el restringido) y también distribuye chi-cuadrado
con q grados de libertad.

6. Explique cómo se relaciona la estimación de máxima verosimilitud con el método de Newton-Raphson

Respuesta
Los modelos que utilizan máxima similitud, como Probit o Logit, son modelos donde hay que encontrar
condiciones de primer orden y maximizar una función determinada. Como los computadores no saben
derivar, utilizan el método de Newton-Raphson para ir encontrando las máximos.

Página 3 de 7
Universidad de Chile
Facultad de Economı́a y Negocios Ayudantı́a

2. Matemáticos
1. Calcule el estimador de máxima verosimilitud cuando:
La distribución es exponencial:
1  y 
t
f (yt ; θ) = exp −
θ θ

Respuesta
La función de verosimilitud, está dada por:
n
Y 1  y 
t
L= exp −
t=1
θ θ

Luego, la función de log verosimilitud corresponde a:


n
Y 1  y 
t
l = ln exp −
t=1
θ θ

Que equivale a:
n
X 1  y 
t
l= ln exp −
t=1
θ θ

Que se puede separar como:


n 
X yt 
l = ln 1 − ln θ −
t=1
θ
n Pn
X
t=1 yt
l = − ln θ −
t=1
θ
Pn
t=1 yt
l = −n ln θ −
θ
Derivamos e igualamos a cero:
Pn
∂l n yt
= − + t=1 =0
∂θ θ̂2
Pθ̂n
t=1 yt
θ̂ =
n

Página 4 de 7
Universidad de Chile
Facultad de Economı́a y Negocios Ayudantı́a

La distribución es poisson:

λyt exp(−λ)
f (yt ; λ) =
yt !

Respuesta
La función de verosimilitud, está dada por:
n
Y λyt exp(−λ)
L=
t=1
yt !

Luego, la función de log verosimilitud corresponde a:


n
Y λyt exp(−λ)
l = ln
t=1
yt !

Que equivale a:
n
X λyt exp(−λ)
l= ln
t=1
yt !

Que se puede separar como:


n
X n
X n
X
l = yt ln λ − λ− ln yt !
t=1 t=1 t=1
Xn n
X
l = yt ln λ − nλ − ln yt !
t=1 t=1

Derivamos e igualamos a cero:


Pn
∂l t=1 yt
= −n=0
∂λ
Pnλ̂
t=1 yt
λ̂ =
n

Página 5 de 7
Universidad de Chile
Facultad de Economı́a y Negocios Ayudantı́a

La distribución es normal:
1 (yt − µ)2
 
1
f (yt ; µ, σ 2 ) = √ exp −
2πσ 2 2 σ2

Respuesta
La función de verosimilitud, está dada por:
n
1 (yt − µ)2
 
Y 1
L= √ exp −
t=1 2πσ 2 2 σ2

Luego, la función de log verosimilitud corresponde a:


n
1 (yt − µ)2
 
Y 1
l = ln √ exp −
t=1 2πσ 2 2 σ2

n
1 (yt − µ)2
 
X 1
l= ln √ exp −
t=1 2πσ 2 2 σ2

Que se puede separar como:


n n n
!
1X 1X 1 X (yt − µ)2
l = − ln(2π) − ln(σ 2 ) −
2 t=1 2 t=1 2 t=1
σ2
n n n
!
1X 1X 1 X (yt2 − 2yt µ + µ2 )
l = − ln(2π) − ln(σ 2 ) −
2 t=1 2 t=1 2 t=1
σ2

Notar que este es un caso distinto a los anteriores, ahora tenemos dos parámetros que son la media
y la varianza. Obtendremos estimadores de ambos.

Para la media, derivamos por ella e igualamos a cero:


n
!
∂l 1 X −2yt + 2µ)
= − =0
∂µ 2 t=1 σ2
Pn
∂l t=1 yt − µn
= =0
∂µ σ2
Pn
t=1 yt
µ̂ =
n
Para la varianza, derivamos por ella e igualamos a cero:
n n
!
∂l 1X 1 1 X (yt − µ)2
= − + =0
∂σ 2 2 t=1 σ 2 2 t=1
σ4
n
!
∂l n X (yt − µ)2
= − 2+ =0
∂σ 2 σ t=1
σ4
Pn 2
t=1 (yt − µ)
σ̂ 2 =
n

Página 6 de 7
Universidad de Chile
Facultad de Economı́a y Negocios Ayudantı́a

La distribución es normal y el modelo es lineal

Respuesta
Notar que cuando tenemos estas condiciones, estamos hablando de que la distribución de los errores es
normal. Entonces como el modelo lineal es de la forma:

Y = Xβ + u

Donde E(u)=0 y V(u)= σ 2 . Podemos escribir la función de verosimilitud como:


n
1 (Y − Xβ)0 (Y − Xβ)
 
Y 1
L= √ exp −
t=1 2πσ 2 2 σ2

Luego, la función de log verosimilitud corresponde a:


n
1 u2
 
Y 1
l = ln √ exp − 2
t=1 2πσ 2 2σ

n
1 u2
 
X 1
l= ln √ exp − 2
t=1 2πσ 2 2σ

Que se puede separar como:


n
!
n n 1 X u2
l = − ln(2π) − ln(σ 2 ) −
2 2 2 t=1
σ2

Ahora bien, el último término se puede escribir como:

(Y − Xβ)0 (Y − Xβ)
 
n n 1
l = − ln(2π) − ln(σ 2 ) −
2 2 2 σ2

Luego derivamos, y siguiendo las reglas de derivadas matriciales, obtenemos:

β̂ = (X 0 X)−1 X 0 Y

La solución conceptualmente es la misma, porque para maximizar la función de log verosimilitud debemos
minimizar la suma de los errores al cuadrado.

Página 7 de 7

También podría gustarte