Está en la página 1de 19

Capı́tulo 0

Preliminares: Revisión de Conceptos


Básicos

0.1. El MRLG básico. Propiedades del estimador MCO

0.1.1. Modelo e Hipótesis Básicas


El modelo de regresión lineal general lo representamos como:

Yt = β1 + β2 X2t + . . . + βK XKt + ut t = 1, . . . , T
y en forma matricial, junto a las hipótesis básicas,
Y = Xβ + u u ∼ N (0, σu2 I)
X no estocástica rg(X) = K

0.1.2. Propiedades en muestras finitas del estimador


MCO
El estimador MCO es:
β̂M CO = (X ′ X)−1 X ′ Y = β + (X ′ X)−1 X ′ u
Se demostró, en Introducción a la Econometrı́a, que, bajo las hipótesis
básicas, este estimador es:
Lineal con respecto a u.
Insesgado.
De mı́nima varianza entre los estimadores lineales e insesgados.

1
2 CAPÍTULO 0. PRELIMINARES: REVISIÓN DE CONCEPTOS BÁSICOS

Recordar, sobre las propiedades en muestras finitas que:


1. Entre dos estimadores insesgados, es mejor aquél que tenga menor
varianza.
2. No es cierto que un estimador insesgado sea siempre mejor que otro
estimador sesgado.

0.2. Propiedades Asintóticas de un estimador


Son propiedades de los estimadores cuando el tamaño muestral tiende
a infinito ⇒ estarán más cerca de cumplirse cuanto mayor sea el tamaño
muestral.
Consistencia.
Convergencia en Distribución.
Eficiencia Asintótica.

0.2.1. Consistencia
Definición 0.1 Una sucesión de variables aleatorias {XT : T ≥ 1} conver-
ge en probabilidad a la variable aleatoria X si:

∀ε > 0 lı́m P [|XT − X| < ε] = 1


T →∞

La convergencia en probabilidad se denota como:


p
XT → X ó plim XT = X
El concepto de convergencia en probabilidad nos sirve para definir el con-
cepto de consistencia de un estimador:
Definición 0.2 Un estimador θ̂T de un parámetro θ se dice que es consis-
tente si converge en probabilidad a θ.
p
Se denota como θ̂T → θ ó como plim θ̂T = θ.
Cualquier estimador, θ̂T , puede expresarse como una sucesión de va-
riables aleatorias. Para comprobar la propiedad de consistencia, pueden
utilizarse las propiedades del operador plim ó las condiciones suficientes
para convergencia en probabilidad (que también son para consistencia).
0.2. PROPIEDADES ASINTÓTICAS DE UN ESTIMADOR 3

Propiedades del operador plim:


Sean dos sucesiones de variables aleatorias, {XT } e {YT } cualesquiera.
Entonces se verifica:
1.plim (XT + YT ) = plimXT + plimYT
2.plim (XT YT ) = plimXT plimYT
3.plim XYTT = plim XT
plimYT si plimYT 6= 0
4.plim g(XT ) = g(plim(XT ))
para cualquier función g(·) continua.
5.plim XT = lı́mT →∞ XT
si XT no es una variable aleatoria.
6. Estas propiedades se pueden generalizar a matrices de v.a. {AT },
{ZT }, por ejemplo
plimA−1 −1
T ZT = (plimAT ) plimZT si |plimAT | =
6 0
Condiciones Suficientes de Convergencia en Probabilidad
Sea una sucesión de variables aleatorias X1 , . . . , XT . Para que conver-
ja en probabilidad a X es suficiente que se cumplan las dos condiciones
siguientes:
lı́m E(XT ) = X
T →∞
lı́m V ar(XT ) = 0
T →∞

De la misma forma, para que un estimador θ̂T sea consistente es sufi-


ciente que se cumplan las:
Condiciones Suficientes de Consistencia
lı́m E(θ̂T ) = θ (Insesgadez Asintótica)
T →∞
lı́m V ar(θ̂T ) = 0
T →∞

0.2.2. Convergencia en Distribución


Definición 0.3 Se dice que una sucesión de variables aleatorias {XT } con-
verge en distribución a la variable aleatoria X si la función de distribución
FXT converge a la función de distribución FX en todos los puntos de con-
tinuidad de FX , es decir, si
FXT (x) → FX (x) ∀x punto de continuidad de FX (·)
4 CAPÍTULO 0. PRELIMINARES: REVISIÓN DE CONCEPTOS BÁSICOS

d a
Se denota como XT → X ó como XT ∼ FX .

Teorema 0.1 (Cramer) Sea AT una matriz posiblemente estocástica tal


p d
que AT → A y sea zT un vector de variables aleatorias tal que zT → z.
Entonces,
d
AT zT → Az

Existe un resultado de gran importancia, el Teorema de Mann y Wald,


que permite verificar, bajo ciertas condiciones, tanto consistencia como
convergencia en distribución:

Teorema 0.2 (Mann-Wald) Sean X una matriz, posiblemente estocásti-


ca, de orden T ×K y u un vector de variables aleatorias de dimensión T ×1
tales que:
iid
i) ut ∼ (0, σu2 ) (⇒ u ∼ (0, σu2 I))
ii) E(Xit ut ) = 0 (⇒ E(X ′ u) = 0)

iii) plim XTX = Q < ∞ simétrica y definida positiva.

Si i)-iii) se verifican, entonces,



1. plim XT u = 0
′ d  
X
√u → 2
2. T
N 0, σu Q

0.2.3. Eficiencia Asintótica


Definición 0.4 Un estimador se dice que es asintóticamente eficiente si
tiene menor varianza asintótica que cualquier otro estimador consistente.
0.3. PROPIEDADES ASINTÓTICAS DEL ESTIMADOR MCO EN EL MRLG 5

0.3. Propiedades asintóticas del estimador MCO en


el MRLG

0.3.1. Consistencia de los estimadores MCO del MRLG


El supuesto de normalidad no es necesario. Sı́ suponemos, en cambio,
que:
X ′X
plim = Q finita e invertible
T
Podemos escribir:
 −1
′ −1 ′ 
X ′X  X ′u
β̂T = β + (X X) X u = β +
T T
Y entonces:
  
X ′ X −1 X ′ u
plimβ̂T = β + plim T T
 −1


X X X ′u
= β+ plim plim
T {z T }
| {z }|
=0
=Q−1

0.3.2. Consistencia del estimador de σu2


Necesitamos el siguiente resultado previo:

Teorema 0.3 (Khintchine) Si las variables aleatorias X1 , X2 , . . . , XT son


independientes y están idénticamente distribuidas con media finita µ, en-
tonces,
1 T
X
plim Xt = µ
T t=1

Para ver la consistencia de σ̂u2 , entonces:

û′ û u′ M u u′ (I − X(X ′ X)−1 X ′ )u


σ̂u2 = = =
T −K T −K T −K
Multiplicando y dividiendo por T ,
6 CAPÍTULO 0. PRELIMINARES: REVISIÓN DE CONCEPTOS BÁSICOS

  −1 
′ ′ ′ ′
T u u u X X X X u
σ̂u2 =  −  
T −K T T T T

Tomando el operador plim en ambos lados, queda:

plim σ̂u2 = 1 · [σu2 − 0 · Q−1 · 0] = σu2


0.3. PROPIEDADES ASINTÓTICAS DEL ESTIMADOR MCO EN EL MRLG 7

0.3.3. Convergencia en distribución del estimador MCO


Este concepto es necesario cuando por ejemplo las perturbaciones no
tienen distribución normal.
En el caso del estimador MCO:

β̂T = β + (X ′ X)−1 X ′ u

Pasando β al lado izquierdo y multiplicando y dividiendo por T ,


 −1

X ′u
X ′X 
β̂T − β =
T T

Y multiplicando a izquierda y derecha por T ,
 −1
√  
X ′X  X ′u
T β̂T − β =  √
T T
Dado que:
X ′ d
√u → N (0, σu2 Q) (Mann-Wald)
T
X ′X p
T → Q finita e invertible
Entonces, por el teorema de Cramer:
 −1
√  
X ′X  X ′u d  
T β̂T − β =  √ −→ N 0, σu2 Q−1
T T

0.3.4. Eficiencia asintótica del estimador MCO


Se demuestra que el estimador MCO es asintóticamente eficiente bajo
las hipótesis básicas del MRLG.
8 CAPÍTULO 0. PRELIMINARES: REVISIÓN DE CONCEPTOS BÁSICOS

0.3.5. Inferencia en el MRLG


Vamos a ver esto mediante un ejemplo: el caso del contraste de signifi-
cación individual sobre un coeficiente. Se plantea ası́:

 H0 : βi = 0
 HA : βi =
6 0
Vimos, en Introducción a la Econometrı́a, que cuando las perturbaciones
son normales (i.e.: u ∼ N (0, σu2 I)), tenı́amos dos posibles estadı́sticos de
contraste (siempre bajo la H0 ):

1. Si σu2 es conocida:
β̂i H0
√ ∼ N (0, 1)
σu aii

2. Si σu2 es desconocida:
β̂i H0
√ ∼ tT −K
σ̂u aii
Si la distribución de u no es normal ó no es conocida, las distribuciones
de los estadı́sticos anteriores no son correctas en muestras finitas.
Si utilizamos los resultados asintóticos obtenidos anteriormente, que β̂
es asintóticamente normal y que σ̂u2 es consistente, aplicando el teorema de
Cramer (y bajo H0 ),

β̂i d,H0
√ → N (0, 1)
σ̂u aii

(Nota: tT −k → N (0, 1) cuando T → ∞.)


0.3. PROPIEDADES ASINTÓTICAS DEL ESTIMADOR MCO EN EL MRLG 9

En el caso general de contrastes de hipótesis lineales



 H0 : Rβ = r
 HA : Rβ =
6 r
los estadı́sticos de contraste cuando u ∼ N (0, σu2 I) eran (siempre bajo
H0 ):

1. Si σu2 es conocida:
H
(Rβ̂ − r)′ [σu2 R(X ′ X)−1 R′ ]−1 (Rβ̂ − r) ∼0 χ2q

2. Si σu2 es desconocida:

(Rβ̂ − r)′ [R(X ′ X)−1 R′ ]−1 (Rβ̂ − r)/q H0


∼ Fq,T −k
σ̂u2

De la misma manera que en el ejemplo anterior, cuando las perturba-


ciones no son normales, podemos utilizar (bajo H0 ),
d,H
(Rβ̂ − r)′ [σ̂u2 R(X ′ X)−1 R′ ]−1 (Rβ̂ − r) →0 χ2q

χ2
(Nota: Fq,T → q cuando T → ∞.)
10 CAPÍTULO 0. PRELIMINARES: REVISIÓN DE CONCEPTOS BÁSICOS
Capı́tulo 1

Generalización del Modelo de


Regresión Lineal

1.1. Modelo de regresión con perturbaciones no esféri-


cas
En el modelo de regresión lineal general

Y = Xβ + u (1.1)
una de las hipótesis básicas es que las perturbaciones son esféricas, es decir,

 

σ2 0 · · · 0 
 
2 

0 σ2 · · · 0 

V ar(u) = σ I =  .. .. . . . .. 

 . . . 

0 0 · · · σ2

Esto impone dos supuestos:

1. Homocedasticidad: var(ut ) = σ 2 , ∀ t.

2. No correlación: cov(ut us ) = 0, ∀ t 6= s.

En este tema relajamos estos supuestos permitiendo:

1. Heterocedasticidad: var(ut ) = σt2 .

2. Correlación: cov(ut us ) 6= 0, ∀ t 6= s.

11
12 CAPÍTULO 1. GENERALIZACIÓN DEL MODELO DE REGRESIÓN LINEAL

En general permitimos que las perturbaciones tengan una matriz de


varianzas y covarianzas no escalar:

 

σ12 σ12 · · · σ1T 
 
 σ21 σ22 · · · σ2T 
E(uu′ ) = Σ = 
 .. .. . . . ... 


 . . 

σT 1 σT 2 · · · σT2
 

w11 w12 · · · w1T 
 
2 w21 w22 · · · w2T 
= σ2Ω = σ  .. .. . . . ... 


 . . 

wT 1 wT 2 · · · wT T

donde var(ut ) = σt2 = σ 2 wtt , t = 1, ..., T


cov(ut us ) = σts = σst = σ 2 wts , t 6= s

1.2. Propiedades de los estimadores MCO


Sea el modelo (1.1) donde se mantienen las hipótesis básicas salvo que:

E(uu′ ) = Σ = σ 2 Ω, donde Ω 6= I

Propiedades de β̂MCO :

1. Lineal: β̂ = β + (X ′ X)−1 X ′ u
2. Insesgado: E(β̂) = β + E[(X ′ X)−1 X ′ u] = β + (X ′ X)−1 X ′ E(u) = β
3. Matriz de varianzas y covarianzas:

V ar(β̂) = E[(X ′ X)−1 X ′ uu′ X(X ′ X)−1 ]


= (X ′ X)−1 X ′ E(uu′ )X(X ′ X)−1
= (X ′ X)−1 X ′ ΣX(X ′ X)−1
= σ 2 (X ′ X)−1 X ′ ΩX(X ′ X)−1

4. Ya no es el estimador con varianza mı́nima entre los estimadores li-


neales e insesgados.
1.2. PROPIEDADES DE LOS ESTIMADORES MCO 13

5. Si las perturbaciones tienen una distribución normal

β̂ ∼ N (β, (X ′ X)−1 X ′ ΣX(X ′ X)−1 )



6. Consistente: Si limT →∞ X TΩX = B < ∞ entonces:

lı́mT →∞ E(β̂T ) = β
2 ′ ′ ′
lı́mT →∞ V ar(β̂T ) = lı́mT →∞ σT ( XTX )−1 ( X TΩX )( XTX )−1 =
= 0 · Q−1 · B · Q−1 = 0

y ası́, por las condiciones suficientes de consistencia:

plimβ̂T = β

Importante: Ya no podemos usar la expresión σ̂ 2 (X ′ X)−1 para estimar


la matriz de varianzas y covarianzas de β̂M CO :

1. Primero porque (X ′ X)−1 6= (X ′ X)−1 X ′ ΩX(X ′ X)−1


2. Y en segundo lugar porque σ̂ 2 es un estimador sesgado de σ 2 :

(Y − X β̂)′ (Y − X β̂) Y ′ M ′ M Y u′ M u
σ̂ 2 = = =
T −K T −K T −K
ya que M = (I−X(X ′ X)−1 X ′ ) es simétrica e idempotente y M Y = M u.
Entonces
E(u′ M u) E(trM uu′ ) σ 2 tr(M Ω)
E(σ̂ 2 ) = = = 6= σ 2
T −K T −K T −K
ya que, aunque tr(M ) = T − K, tr(M Ω) 6= T − K si Ω 6= I. Además
se demuestra que dicho estimador no es consistente. Por lo tanto si
desconocemos σ 2 y lo estimamos con σ̂ 2 ninguno de los contrastes
realizados con este estimador es válido.
14 CAPÍTULO 1. GENERALIZACIÓN DEL MODELO DE REGRESIÓN LINEAL

1.3. Método de Mı́nimos Cuadrados Generalizados


(MCG)
Supongamos que conocemos E(uu′ ) = Σ = σ 2 Ω. Vamos a transformar
el modelo (1.1) hasta obtener otro con perturbaciones esféricas.
Como Σ = σ 2 Ω es simétrica y semidefinida positiva ⇒ ∃P no singular
tal que Ω = P P ′ .
Por tanto, podemos escribir: Ω−1 = (P P ′ )−1 = (P ′ )−1 P −1
Vamos a transformar el modelo (1.1) premultiplicándolo por P −1 :

−1 −1 −1
|P {z Y} =P
| {z X} β + |P {z u} (1.2)
Y∗ X∗ u∗
=⇒ Y ∗ = X ∗ β + u∗

Este modelo tiene perturbaciones u∗ esféricas:


E(u∗ ) = E(P −1 u) = P −1 E(u) = 0

′ ′
V ar(u∗ ) = E(P −1 uu′ (P −1 ) ) = P −1 E(uu′ )(P −1 ) =

= σ 2 P −1 ΩP −1 = σ 2 P −1 P P ′ (P ′ )−1 = σ 2 I
Por lo tanto en el modelo transformado se cumplen las hipótesis básicas,
y aplicar MCO dará buenos resultados. Ası́ obtenemos el estimador de
MCG:

β̃M CG = (X ∗′ X ∗ )−1 X ∗′ Y ∗ = (1.3)


= (X ′ (P ′ )−1 P −1 X)−1 X ′ (P ′ )−1 P −1 Y =
= (X ′ Ω−1 X)−1 X ′ Ω−1 Y = (1.4)
= (X ′ Σ−1 X)−1 X ′ Σ−1 Y (1.5)

Vemos dos formas de calcular el estimador de MCG:

Aplicando MCO al modelo transformado: ecuación (1.3)


Aplicando el estimador (1.4) o (1.5) al modelo original
1.3. MÉTODO DE MÍNIMOS CUADRADOS GENERALIZADOS (MCG) 15

1.3.1. Propiedades de los estimadores MCG


1. Lineal: β̃ = (X ′ Ω−1 X)−1 X ′ Ω−1 Y = β + (X ′ Ω−1 X)−1 X ′ Ω−1 u

2. Insesgado: E(β̃) = β + E[(X ′ Ω−1 X)−1 X ′ Ω−1 u] =


= β + (X ′ Ω−1 X)−1 X ′ Ω−1 E(u) = β

3. Matriz de varianzas y covarianzas:

V ar(β̃) = E[(X ′ Ω−1 X)−1 X ′ Ω−1 uu′ Ω−1 X(X ′ Ω−1 X)−1 ]
= (X ′ Ω−1 X)−1 X ′ Ω−1 E[uu′ ]Ω−1 X(X ′ Ω−1 X)−1
= σ 2 (X ′ Ω−1 X)−1 X ′ Ω−1 ΩΩ−1 X(X ′ Ω−1 X)−1
= σ 2 (X ′ Ω−1 X)−1

4. Si u ∼ N ⇒ β̃ ∼ N (β, σ 2 (X ′ Ω−1 X)−1 )

5. Eficiente: Por el teorema de Gauss-Markov aplicado en el modelo


transformado es el estimador con varianza mı́nima entre los estima-
dores lineales e insesgados.
′ −1 ∗′ ∗
6. Consistente: Si plim X ΩT X = plim X TX = A < ∞ y no singular
entonces se cumplen las condiciones del teorema de Mann-Wald en el
modelo transformado.

7. Distribución Asintótica: Del teorema de Mann-Wald se deduce


√ d
T (β̃ − β) → N (0, σ 2 A−1 )

1.3.2. Estimador de σ 2
σ 2 es una constante común en E[uu′ ] (no siempre es la varianza de u).
Su estimación se realiza de la manera habitual en el modelo transformado,
resultando un estimador insesgado y consistente:


2 (Y ∗ − X ∗ β̃)′ (Y ∗ − X ∗ β̃) û∗ û∗
σ̃ = = =
T −K T −K

(Y − X β̃)′ Ω−1 (Y − X β̃) ũM CG Ω−1 ũM CG
=
T −K T −K
16 CAPÍTULO 1. GENERALIZACIÓN DEL MODELO DE REGRESIÓN LINEAL

1.4. Método de Mı́nimos Cuadrados Generalizados


Factibles (MCGF)
Hasta ahora hemos supuesto que conocı́amos E(uu′ ) = Σ = σ 2 Ω ó al
menos Ω. El estimador de MCG en este caso es lineal, insesgado y de
varianza mı́nima. Pero en la práctica la mayorı́a de las veces Ω es desco-
nocida. La solución habitual es sustituir Ω (o Σ) por una estimación suya
en la expresión del estimador de MCG dando lugar al estimador MCGF:

β̃M CGF = (X ′c Ω−1 Y


Ω−1 X)−1 X ′c
Σ−1 Y
Σ−1 X)−1 X ′c
= (X ′c (1.6)

Propiedades de β̃M CGF :


c
1. Es NO lineal: aparece Ω que es una matriz de v.a. de forma no lineal
en la ecuación (1.6).
2. En muestras pequeñas sus propiedades son desconocidas o difı́ciles de
calcular.
3. En muestras grandes bajo ciertas condiciones de regularidad, en ge-
c
neral basta con que Ω sea un estimador consistente de Ω, β̃M CGF es

2 b −1 ũM CGF
ũM CGF Ω
asintóticamente equivalente a β̃M CG , y σ̃M CGF = T −K es un
estimador consistente de σ 2 .
1.5. CONTRASTES DE RESTRICCIONES LINEALES 17

1.5. Contrastes de restricciones lineales


En esta sección analizamos como se realizan contrastes de restricciones
lineales sobre el vector β, Rβ = r, donde R es una matriz q × K y r es
un vector de dimensión q, en un modelo Y = Xβ + u con perturbaciones
no esféricas. Ası́, las hipótesis nula y alternativa para el contraste de q
restricciones lineales son

H0 : Rβ = r
Ha : Rβ 6= r.

Vamos a distinguir tres casos:

1. Σ = σ 2 Ω es totalmente conocida.

2. Ω es conocida pero desconocemos σ 2 .

3. Σ es desconocida pero la podemos estimar.

1.5.1. Σ = σ 2Ω conocida
En este caso aplicamos MCG tal que, si las perturbaciones tienen una
distribución Normal,

Rβ̃M CG ∼ N (Rβ, R(X ′ Σ−1 X)−1 R′ ) (1.7)


con lo que si la hipótesis nula es cierta

H
Rβ̃M CG ∼0 N (r, R(X ′ Σ−1 X)−1 R′ )

H
Fc = (Rβ̃M CG − r)′ [R(X ′ Σ−1 X)−1 R′ ]−1 (Rβ̃M CG − r) ∼0 χ2q

H
donde q es el número de restricciones y ∼0 denota distribución bajo la
hipótesis nula. Entonces rechazamos la hipótesis nula si Fc > χ2q,α para un
nivel de significación α.
18 CAPÍTULO 1. GENERALIZACIÓN DEL MODELO DE REGRESIÓN LINEAL

1.5.2. Ω conocida y σ 2 desconocida


Siendo Ω conocida podemos aplicar MCG de forma que (1.7) sigue cum-
pliéndose. El estadı́stico Fc se puede reescribir como

(Rβ̃M CG − r)′ [R(X ′ Ω−1 X)−1 R′ ]−1 (Rβ̃M CG − r) H0 2


Fc = ∼ χq (1.8)
σ2
Sin embargo Fc no se puede calcular directamente ya que σ 2 es desconocida.
Si sustituimos σ 2 por un estimador insesgado como σ̃M 2
CG , entonces la
distribución cambia ya que el denominador ya no es una constante sino
∗′ ∗
una variable aleatoria. Teniendo en cuenta que û σ2û ∼ χ2T −K , la ecuación
(1.8) y que el ratio de dos variables χ2 divididas por sus grados de libertad
es una F de Snedecor con grados de libertad los de las variables en el
numerador y denominador, tenemos que

(Rβ̃M CG − r)′ [R(X ′ Ω−1 X)−1 R′ ]−1 (Rβ̃M CG − r)/q


Fcd = 2
σ̃M CG
H
Fcd ∼0 Fq,T −K (1.9)

Ası́, rechazaremos la hipótesis nula si Fcd > Fq,T −K|α para un nivel de
significación α.

1.5.3. Σ desconocida pero estimable


En este caso no podremos calcular el estimador de MCG, pero si el
de MCGF. Desconocemos la distribución en muestras finitas del estimador
MCGF por lo que, a diferencia de los dos casos anteriores, la inferencia que
podamos realizar será válida solamente para tamaños muestrales grandes.
c
Si la estimación Σ es consistente tenemos que la distribución asintótica
de β̃M CGF es como la de β̃M CG pero sólo válida para tamaños muestrales
grandes:
d
Rβ̃M CGF → N (Rβ, R(X ′ Σ−1 X)−1 R′ ) (1.10)
d
donde → denota convergencia en distribución.
1.5. CONTRASTES DE RESTRICCIONES LINEALES 19

Por lo tanto bajo la hipótesis nula


d,H
(Rβ̃M CGF − r)′ [R(X ′ Σ−1 X)−1 R′ ]−1 (Rβ̃M CGF − r) −→0 χ2q
d,H
donde −→0 denota convergencia en distribución bajo la hipótesis nula. Este
estadı́stico sigue sin poder calcularse porque Σ es desconocida. Sin embar-
go, si sustituimos Σ por un estimador consistente la distribución asintótica
no varı́a por lo que el estadı́stico a utilizar es
d,H
Σ−1 X)−1 R′ ]−1 (Rβ̃M CGF − r) −→0 χ2q
Fds = (Rβ̃M CGF − r)′ [R(X ′c

y la regla de decisión es rechazar la hipótesis nula a un nivel de significación


α si Fds > χ2q,α .

También podría gustarte