Documentos de Académico
Documentos de Profesional
Documentos de Cultura
GMM
Estimadores M
Gabriel V. Montes-Rojas
Marco general
Marco general
Tomemos q (w , θ) como una función del vector aleatorio w y el vector de
parámetros θ ∈ Θ.
En general tenemos w = (y , x ) con elementos tı́picos w i de una muestra
{w i : i = 1, 2, ..., N }.
q (.) es una función conocida de w y θ.
θ es un vector P × 1. θ ∈ Θ ⊆ RP .
Un estimador M (M-estimator en inglés) de θ0 resuelve el problema
N
min N −1
θ∈Θ
∑ q (w i , θ),
i =1
N
θ̂ = arg min N −1
θ∈Θ
∑ q (w i , θ)
i =1
Marco general
Identificación
Consistencia
Consistencia
p
Supongamos que θ̂ → θ, y asumamos que r (w , θ) satisface los mismos supuestos de
p
q (w , θ). Entonces, N −1 ∑N
i =1 r (w , θ̂) → E [r (w , θ0 )].
Ejemplo MCO
E [q (y , x, β 0 )] = E [y 2 + m(x, β 0 )2 − 2ym(x, β 0 )2 ]
= E [(x β 0 )2 + u 2 + (x β 0 )2 − 2(x β 0 )2 ] = σ2
Entonces,
E [q (x, β 0 )] < E [q (x, β)] para todo β ∈ B, β 6= β 0 .
donde 0
∂q (w , θ) ∂q (w , θ) ∂q (w , θ)
s (w , θ)0 = ∇θ q (w , θ) = , , ...,
∂θ1 ∂θ2 ∂θP
es el score de la función objetivo, un vector P × 1.
Esta condición se satisface en general con igualdad (pero no siempre, ver regresión por
cuantiles). Para MCO siempre es con igualdad.
∇θ E [q (w , θ)]θ=θ0 = 0.
E [∇θ q (w , θ0 )] = E [s (w , θ0 )] = 0.
p
Además si θ̂ → θ, entonces bajo las condiciones estándar de regularidad
N
p
N −1 ∑ s (w i , θ̂) → E [s (w , θ0 )].
i =1
se llama estimador Z (del inglés Z-estimator, por “zero”). Aquı́ kkM es una norma
pre-especificada (en general la normal euclidiana).
Para este caso deberı́amos usar una condición de identificación diferente:
E [s (w , θ)] = 0 ⇐⇒ θ = θ0 .
∂2 q (w , θ) ∂s (w , θ)
H (w , θ) = ∇2θ q (w , θ) = =
∂θ∂θ0 ∂θ0
Por el teorema del valor medio aplicado a q (w , θ) en el valor θ0 ,
!
N N N
∑ s (w i , θ̂) = ∑ s (w i , θ0 ) + ∑ Ḧ i (θ̂ − θ0 ),
i =1 i =1 i =1
Expansiones asintóticas
p
Ahora con N −1 ∑N
i =1 s (w i , θ0 ) → E [s (w , θ0 )] = 0 también podemos aplicar la
LGN.
d
También vamos a usar el TCL, N −1/2 ∑N i =1 s (w i , θ0 ) → N (0, B 0 ), donde B 0 se
define más abajo, la varianza de s (w , θ0 ).
p
Usando argumentos similares para el score θ̂ → θ0 , entonces por teorı́a
asintótica (LGN y teorema de Slutsky)
N
p
N −1 ∑ H (w i , θ̃) → E [H (w , θ0 )].
i =1
Expansiones asintóticas
donde s i (θ0 ) = s (w i , θ0 ).
Expansiones asintóticas
Normalidad asintótica
Notemos la fórmula sandwich: A0−1 B 0 A0−1 . Esta aparecerá muchas veces en el futuro.
Ejemplo MCO
s (w , β) = ∇θ q (w , β) = −2x 0 (y − x β),
que nos da la clásica condición E [x 0 u ] = 0.
El hessiano es
A0 = E [H (w , β 0 )] = 2E [x 0 x ].
B 0 = E [s (w , β 0 )s (w , β 0 )0 ] = 4σ2 E [x 0 x ]
Entonces,
√ d
N ( β̂ − β 0 ) → N (0, σ2 E [x 0 x ]−1 ).
Ejemplo MCO
Si tenemos heteroscedasticidad:
B 0 = E [s (w , β 0 )s (w , β 0 )0 ] = 4E [x 0 u 0 ux ]
y entonces B 0 6= A0 .
En este caso,
√ d
N ( β̂ − β 0 ) → N (0, E [x 0 x ]−1 E [x 0 u 0 ux ]E [x 0 x ]−1 ).
Método delta
√ d
N (g (θ̂) − g (θ0 )) → N 0, ∇θ g (θ0 )V θ̂ ∇θ g (θ0 )0
p
∇θ g (θ̂)V̂ θ̂ ∇θ g (θ̂)0 → ∇θ g (θ0 )V θ̂ ∇θ g (θ0 )0 ,
h i0 h i
Definamos QN (θ) = ∑N i =1 g (w i , θ) Ξ̂ ∑i =1 g (w i , θ) . Bajo condiciones de
N
Definamos
matriz J × P de rango P, G 0 ≡ E [∇θ g i (θ̂)];
matriz P × P de rango P, A0 ≡ G 00 Ξ0 G 0 ;
matriz P × P de rango P, B 0 ≡ G 00 Ξ0 Λ0 Ξ0 G 0 ;
matriz J × J de rango J, Λ0 ≡ E [g i (θ0 )g i (θ0 )0 ] = Var [g i (θ0 )].
Con manipulaciones algebraicas llegamos a
N √
0 = G 00 Ξ0 N −1/2 ∑ g i (θ0 ) + A0 N (θ̂ − θ0 ) + op (1)
i =1
Entonces,
√ N
∑ g i (θ0 ) + op (1) → N (0, A0−1 B 0 A0−1 )
d
N (θ̂ − θ0 ) = −A0−1 G 00 Ξ0 N −1/2
i =1
0
β̂Ξ 0 0 0 0 0
GMM = arg min(Z u ( β )) Ξ (Z u ( β )) = arg min Z (y − X β ) Ξ Z (y − X β )
β β
" #0 " #
N N
= arg min
β
∑ z i0 ui ( β) Ξ ∑ z i0 ui ( β)
i =1 i =1
β̂ΞGMM = (X 0 Z ΞZ 0 X )−1 X 0 Z ΞZ 0 y ,
donde enfatizamos que depende de Ξ.
p
= β + (X 0 Z ΞZ 0 X )−1 X 0 Z ΞZ 0 u → β, N → ∞
p
usando N1 Z 0 u → 0J y que 1 0
NZ X converge a una matrı́z no nula cuando
N → ∞.
Este estimador no es factible porque no tenemos Ξ. Para ello necesitamos
calcular la varianza asintótica...
1 0 p
Si hacemos Ξ̂ = NZ u → E [z i0 ui ui0 u i ] = (Ξ∗ )−1 , entonces tenemos la varianza
óptima:
El estimador GMM se tiene que armar con ponderaciones que son inversamente
proporcionales a la varianza de las condiciones de momento.
Estos modelos reciben el nombre de mı́nimos cuadrados generalizados (MCG).
Referencias