Está en la página 1de 15

Regresiones

Pepe

25 de julio de 2014

Índice

1. Preliminares. 2
1.1. Distribuciones útiles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.1. Chi-cuadrado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.2. t de student. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.3. F de Snedecor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2. Variables normales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3. Proyección ortogonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4. Formas cuadráticas de variables aleatorias normales. . . . . . . . . . . . . 4

2. Regresión lineal OLS. 5


2.1. Estimación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2.
2
Bondad de ajuste: R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3. Signicatividad de los coecientes. . . . . . . . . . . . . . . . . . . . . . . 8

2.4. Teorema de Gauss-Markov. . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3. Modelos anidados. 10

4. Variables omitidas. 11

5. Estimador de máxima verosimilitud (MV). 11

6. Estimador de mínimos cuadrados generalizados (GLS). 13

Referencias 15

1
1. Preliminares.

1.1. Distribuciones útiles.


1.1.1. Chi-cuadrado.

Si tenemos n variables aleatorias independientes xi cada una de las cuales se distribuye

como una N (0, 1), con lo que conjuntamente lo harán según una N (0, I), entonces la
2
P
suma de sus cuadrados será una variable aleatoria z= i xi que sigue una distribución
χ2 con n grados de libertad.
2
La χ tiene una distribución asimétrica y sólo toma valores positivos. Verica además

que:

E χ2

= n
var χ2 = 2n


La suma de dos χ2 independientes de n1 y n2 grados de libertad es una χ2 de n 1 + n2


grados de libertad.

Se puede usar la notación χ2n para referirse a una χ2 con n grados de libertad.

1.1.2. t de student.
Si tenemos dos variables aleatorias independientes x e y tales que x sigue una dis-

tribución N (0, 1) e y 2
sigue una χn entonces la variable aleatoria t = √xy sigue una
/n
distribución t de student con n grados de libertad, tn :
)
x ∼ N (0, 1) x
⇒p ∼ tn
y∼ χ2n y/n

La tn es una distribución simétrica y parecida a la N (0, 1), pero con más dispersión.

Esta dsitribución verica que:

E (tn ) = 0
n
var (tn ) =
n−2

Como se puede ver su varianza tiende a 1 (y por tanto se parecerá cada vez más a la

normal estándar) a medida que el número de grados de libertad tiende a innito.

2
1.1.3. F de Snedecor.

Se trata de una distribución asimétrica y que sólo adopta valores positivos que se

obtiene por cociente de dos χ2 independientes.


x/n
Si x ∼ χ2n e y ∼ χ2m son independientes entonces la variable aleatoria Fn,m = se
y/m
distribuye según una F de Snedecor:

)
x ∼ χ2n x/n
⇒ ∼ Fn,m
y ∼ χ2m y/m

1
Se verica trivialmente que si F ∼ Fn,m entonces ∼ Fm,n . Además, si x ∼ tm
F
entonces x
2 ∼ F1,m , con lo que se tiene que una normal estándar al cuadrado se distribuye
según una χ2 y una t al cuadrado se distribuye según una F.
Se verica que:

m
E (Fn,m ) =
m−2
2m2 (m + n − 2)
var (Fn,m ) =
n (m − 2)2 (m − 4)

1.2. Variables normales.


Para variables normales la incorrelación implica independencia. Es decir, si x1 y x2
son normales y están incorreladas (lo que ocurrirá si cov (x1 , x2 ) = 0), entonces serán

independientes.

Si se hace una transformación lineal de variables normales las variables resultantes son

también normales. Es decir, si x1 , . . . , xn son conjuntamente normales, con una distribu-

ción N (µ, Σ) siendo Σ la matriz de covarianzas, y le aplicamos una transformación lineal


dada por una matriz A de dimensiones p × n, de forma que tomando vectores columna

y = A · x, obtenemos p variables aleatorias y1 , . . . , yp que se distribuyen conjuntamente

según una normal:

)
x ∼ N (µ, Σ)
⇒ y ∼ N Aµ, AΣA0

y =A·x

Supongamos como un caso particular que las x1 , . . . , x n son independientes, con lo que

su matriz de covarianzas es σI , y que las p las de la matiz A son p vectores unitarios

3
P
n-dimensionales. Entonces cada yj = ajk xk puede ser vista como la proyección del

vector x = (x1 , . . . , xn ) sobre la dirección dada por el vector la de A (aj1 , . . . , ajn ). La

matriz de covarianzas de las y será σAA0 , que será diagonal si y sólo si las direcciones

de proyección son ortogonales, es decir si la matriz A es ortogonal. La conclusión es

que al proyectar variables normales independientes sobre una serie de direcciones, las

variables proyectadas serán independientes si y sólo si las direcciones de proyección son

ortogonales.

1.3. Proyección ortogonal.


Sea y un vector de Rn . Lo podemos proyectar ortogonalmente sobre un subespacio de

dimensión p. Supongamos que este subespacio está generado por los p vectores lineal-

mente independientes x1 , . . . , x p , que pueden ser agrupados por columnas formando la

matriz X de dimensiones n × p:
 
x11 . . . x1p
. ..
 
X= . .
.

 
xn1 xnp
El resultado de proyectar y sobre los vectores columna de la matriz anterior será:

−1
v = A · y = X X 0X X0 · y

A es la matriz de proyección, que se puede vericar que es cuadrada, n × n, simétrica

(A0 = A), idempotente (A · A = A), y de rango p, la dimensión del subespacio sobre el

que se proyecta.

Al hacer la proyección se obtiene una descomposición ortogonal de y : y = v + (y − v),


donde v pertenece al subespacio generado por los vectores xi e y−v pertenece al subes-

pacio ortogonal a él. Al ser v e y−v ortogonales entre sí se tendrá por el teorema de
2 2 2
Pitágoras que |y| = |v| + |y − v| .

Además, como v = Ay se cumple que |v|2 = (Ay)0 Ay = y 0 A0 Ay = y 0 Ay , debido a la

simetría e idempotencia de A. Se tiene en consecuencia que:

|v|2 = y 0 Ay

1.4. Formas cuadráticas de variables aleatorias normales.


Sean y1 , . . . yn n variables aleatorias normales estandarizadas e independientes, de for-

ma que su distribución conjunta sea N (0, I).

4
Si proyectamos el vector y = (y1 , . . . yn ) sobre un subespacio de dimensión p obtene-

mos p variables aleatorias independientes y que son normales estandarizadas. La suma

de sus cuadrados se distribuye como una χ2 con p grados de libertad. Si proyectamos

sobre distintos subespacios ortogonales los módulos al cuadrado de las proyecciones se

distribuyen como χ2 independientes (jarse en que el módulo al cuadrado de un vector

es un invariante).

2. Regresión lineal OLS.

2.1. Estimación del modelo.


Supongamos que tenemos una variable dependiente y para la que planteamos un mo-

delo que supone que es función lineal de un conjunto de variables explicativas x1 , . . . , x k


de la siguiente manera (en donde el 2º subíndice se reere a la variable):

yi = βo + β1 xi1 + . . . + βk xik + εi

Matricialmente esto se puede poner como:

y = Xβ + ε

siendo X la matriz n × (k + 1) siguiente:

 
1 x11 . . . x1k
. . ..
 
X= . . .
. .

 
1 xn1 xnk
en la que cada columna corresponde a una variable explicativa. Esta matriz X se deno-

mina matriz de diseño.


En este modelo se asume que los términos de error, εi , verican lo siguiente:

son independientes entre sí.

N 0, σ 2

se distribuyen según una

El modelo anterior supone que los valores de las x son jos, con lo que se tendrá que

σ2.
P
E (y|x) = βx y que var (y) =
Lo que intentaremos es estimar los k+1 = p parámetros β = (β0 , β1 , . . . , βk )0 de

forma que se minimice el módulo al cuadrado del término de error. Llamaremos β̂i a los

estimadores obtenidos. Quedará entonces que y = X β̂ + ε̂ y los β̂ los calcularemos de

5
forma que se minimice |ε̂|2 . Llamando ŷ = X β̂ se tiene que podemos descomponer y como
y = ŷ + ε̂ , suma de dos vectores. El módulo cuadrado de ε̂ será mínimo cuando ŷ sea la

proyección ortogonal de y sobre el subespacio generado por los vectores columna de X.


En ese caso ŷ pertenece al espacio generado por esos vectores columna y se puede expresar
como combinación lineal de ellos (siendo los β̂i los coecientes de esa combinación lineal)

y ε̂ será ortogonal a ese subespacio (y por lo tanto a ŷ ). Se tendrá por lo tanto que
2 2 2
|y| = |ŷ| + |ε̂| .

Podemos llamar 1 al primer vector columna de la matriz de diseño (es un vector con

todo unos). Como ε̂ es ortogonal a todos los vectores columna de X también lo será al
0
P
vecto 1, con lo que se tendrá que ε̂ · 1 = 0, es decir, εi = 0.
Cuando la matriz de diseño se reduce exclusivamente al vector 1 tenemos un modelo

nulo, sin variables explicativas, que se puede ver con facilidad que se reduce al modelo
P 2
y = ȳ+ε̂, pues el modelo será y = β̂·1+ε̂ y su estimación obliga a minimizar yi − β̂ ,
P 
que derivando nos lleva a que deberá ser yi − β̂ = 0, o lo que es lo mismo, β̂ = ȳ .
Como ŷ se obtiene proyectando y sobre los vectores columna de X tendremos que

−1
ŷ = X β̂ = X X 0 X X 0 y = Hy

La matriz H = X (X 0 X)−1 X 0 se denomina hat matrix y es la matriz de proyección. Los ε̂i


2
son los residuos y la suma de sus cuadrados, |ε̂| , es la RSS. El vector de residuos se puede

poner como ε̂ = y − ŷ = y − Hy = (I − H) y . Como ε̂ pertenece al subespacio ortogonal

al generado por las columnas de X resultará que I −H es la matriz de proyección sobre


2
este subespacio y se tendrá que |ε̂| = y 0 (I − H) y .
ε̂ y
Podemos pensar también que el vector
σ se obtiene por proyección del vector σ sobre el
yi
subespacio de dimensión n − p ortogonal a las columnas de la matriz X . Las variables
σ
son independientes y normales estándar, luego el módulo al cuadrado de su proyección se
|ε̂|2  2
|ε̂|
distribuye según una χ2n−p : ∼ χ2
n−p . Tendremos en consecuencia que E σ2
= n−p.
σ2
De otra forma podemos poner esto como:

!
|ε̂|2
E = σ2
n−p
2
Esto indica que c2 = |ε̂|
σ es un estimador insesgado de σ2.
n−p
ε ∼ N 0, σ 2 I

En nuestro modelo se asume que , y que y = Xβ + ε. A partir de aquí

tenemos la distribución del vector aleatorio y:

6
y ∼ N Xβ, σ 2 I


Sabemos que ŷ = Hy = X (X 0 X)−1 X 0 y = X β̂ , lo que signica que los coecientes

estimados β̂ se pueden obtener por medio de una transformación lineal del vector aleatorio
y : β̂ = (X 0 X)−1 X 0 y . Esto que nos permite calcular fácilmente su distribución, que será:
 −1 2 
β̂ ∼ N β, X 0 X σ (1)

Esto signica que los β̂ son estimadores insesgados, pero en general no van a ser inde-

pendientes pues su matriz de covarianzas no será diagonal. Esta matriz de covarianzas


 
es var β̂ = (X 0 X)−1 σ 2 . Para el cálculo de esta matriz se ha tenido en cuenta el hecho

de que la matriz de covarianzas de y es σ2I .


Conocida la distribución de los β̂ podemos obtener la de ŷ = X β̂ , que será:

ŷ ∼ N Xβ, Hσ 2


Por último, aprovechando que ε̂ = (I − H) y , podemos calcular la distribución de ε̂,


que será:

ε̂ ∼ N 0, σ 2 (I − H)


2.2. Bondad de ajuste: R2 .


La descomposición del vector y como y = ŷ + ε̂ es en realidad una descomposición de

y en suma de dos componentes ortogonales: y = yk + y⊥ , siendo yk = ŷ e y⊥ = ε̂. El

ajuste del modelo será tanto mejor cuanto mayor sea el módulo de la componente paralela
2
frente a la perpendicular. Teniendo en cuenta que |y|2 = yk + |y⊥ |2 se podría denir
2
yk
la medida de ajuste R2 = , que tomaría valores entre 0 y 1. Se tendría también que
|y|2
|y⊥ |2
1− R2 = . Sin embargo en estadística la R2 se dene de una forma ligeramente
|y|2
diferente.

Para ver cómo se hace supongamos primero que tenemos dos modelos anidados con

sus correspondientes matrices de diseño X0 < X1 . Estos modelos dan lugar a las dos

descomposiciones ortogonales y = ŷ0 + ε̂0 e y = ŷ1 + ε̂1 . Como el subespacio generado

por las columnas de X1 contiene al generado por las columnas de X0 resulta que la

descomposición ŷ1 = ŷ0 + (ŷ1 − ŷ0 ) es una descomposición ortogonal del vector ŷ1 . Esto

7
nos lleva a que y = ŷ0 + (ŷ1 − ŷ0 ) + ε̂1 es una descomposición ortogonal del vector y
y a que y − ŷ0 = (ŷ1 − ŷ0 ) + ε̂1 es una descomposición ortogonal del vector y − ŷ0 . La
|ŷ1 − ŷ0 |2
ratio 0 < < 1 puede ser vista como una medida de la mejora en el ajuste que
|y − ŷ0 |2
supone el modelo dado por X1 frente al modelo más reducido dado por X0 . La R usada
2

en estadística es la ratio anterior cuando como modelo reducido se toma el modelo

nulo sin variables explicativas: X0 = 1, con lo que se tiene que ŷ0 = ȳ . La magnitud
2
|y − ŷ0 | es lo que se suele llamar suma total de cuadrados, TSS, que es esencialmente

la varianza total de los datos, parte de la cual, |ŷ1 − ŷ0 |2 , es explicada por el modelo y
2
el resto, |ε̂1 | = RSS , queda sin explicar.

2.3. Signicatividad de los coecientes.


Para cada variable explicativa, xi , del modelo se obtienen al hacer la regresión dos

parámetros esenciales:

β̂i : indica la intensidad del efecto de la variable, cuánto varía en promedio y si se

incrementa en una unidad xi .


 
var β̂i : indica la signicatividad del efecto de la variable xi , es decir, la cons-

tancia o uniformidad de ese efecto, si se produce de forma regular o no.


     
Sabemos que β̂ ∼ N β, (X 0 X)−1 σ 2 , lo que signica que E β̂i = βi y var β̂i =
x−1 2
ii σ , siendo x−1
ii el elemento i-ésimo de la diagonal de (X 0 X)−1 . Esto signica que:

β̂ − βi
qi ∼ N (0, 1) (2)
x−1
ii σ 2

Sin embargo este resultado no puede ser usado para por ejemplo estimar intervalos de

conanza debido a que el valor de σ2 es desconocido. Sin embargo podemos usar el hecho

de que se cumple que:

|ε̂|2
∼ χ2n−p
σ2
para formar el cociente entre las dos variables aleatorias anteriores (tomando la raiz de la

χ2 dividida por sus grados de libertad), que se distribuirá como una t de student, ya que

en ese cociente se elimina el término desconocido σ2 obteniéndose la siguiente expresión:


β̂i −βi/ x−1
ii β̂i − βi
p =q ∼ tn−p (3)
|ε̂|2/n−p
x−1
ii
c2
σ

8
que es idéntica a la ecuación 2 salvo porque se sustituye la σ2 desconocida por su esti-
2
mador c2 = |ε̂| .
σ
n−p
Si la ecuación (3) se eleva al cuadrado se obtiene una variable que sigue una distribución

F:
 2
β̂i − βi
2 ∼ F1,n−p
|ε̂|
x−1
ii n−p

2.4. Teorema de Gauss-Markov.


El estimador β̂OLS es el best linear unbiased estimator (BLUE), es decir, es de entre

todos los estimadores lineales e insesgados de los coecientes, el que tiene menor varianza
 
(para cada coeciente var β̂OLS es mínima).

ε ∼ N 0, σ 2 I

El modelo que se asume es el de que y = Xβ + ε, con , y se esti-

man los coecientes del modelo para obtener y = X β̂ + ε̂. El que el estimador de los

β̂ = Ry . Que sea insesgado signica por su parte


coecientes sea lineal signica que
 
que E β̂ = RE (y) = RXβ = β . Para que esto último ocurra con independencia
del valor real (desconocido) de los coecientes β se deberá vericar que RX = I . De

esto se deduce de forma inmediata que la matriz R verica las propiedades (1), (2) y

(4) de la inversa generalizada de


  X. Por otra parte, dado que β̂ = Ry se tendrá que

var β̂ = Rvar (y) R0 = σ 2 RR0 .


En el caso del estimador OLS se tiene que la matriz R es justamente la inversa ge-

neralizada de X, es decir, R= X + . De este modo resulta ser β̂OLS = X + y . Para otro

estimador β̂ , lineal e insesgado, su matriz R se puede poner como R= X + (R − X + ).


Con ello la varianza de β̂ será:

 
var β̂ 0
 0
 0  0

= RR0 = X + X + + X + R0 − X + + R − X + X + + R − X + R0 − X +

σ2

Veamos que los dos sumandos centrales del sumatorio de la derecha son nulos. Del

hecho de que RX = I se deduce que (R − X + ) X = 0. POr otra parte sabemos que las

columnas de X generan el mismo subespacio que las las de X +, con lo que se tiene

que (R − X +) X +0 = 0. El otro sumando es simpleemnte el transpuesto de éste. La

consecuencia es que:

 
var β̂ 0  0

= RR0 = X + X + + R − X + R0 − X +
σ2

9
Los elementos de la diagonal de la matriz de covarianzas de los estimadores de los

coecientes se expresan como suma de productos escalares de vectores la de las matrices

X+ y (R − X + ), es decir, como suma de dos sumandos positivos. El valor mínimo de esa


suma se alcanzará cuando R − X + = 0, lo que ocurre en el caso del estimador OLS.

3. Modelos anidados.

La comparación entre modelos de regresión para ver cuál se ajusta mejor a los datos

se suele hacer entre modelos anidados, es decir entre un modelo pequeño, ω, con una

matriz de diseño X0 , y un modelo grande, Ω, con una matriz de diseño X1 que amplía

la anterior añadiéndole más columnas (y por lo tanto más variables) de forma que el

modelo ω será un caso particular del Ω en el que los coecientes correspondientes a las

variables añadidas toman el valor cero.

La RSS del modelo Ω, |ε̂1 |2 , será siempre menor que la del modelo ω , |ε̂0 |2 : |ε̂1 |2 < |ε̂0 |2 ,
con lo que su ajuste a los datos será mayor. Sin embargo puede que esa mejora en el ajuste

sea tan pequeña que no compense el incremento en complejidad que supone adoptar el

modelo grande respecto al pequeño.

Como ya se ha indicado, la existencia de dos modelos da lugar a dos descomposiciones

ortogonales: y = ŷ0 + ε̂0 e y = ŷ1 + ε̂1 . Al ser los modelos anidados resultará que

ε̂0 = ε̂1 + (ε̂0 − ε̂1 ) es una descomposición ortogonal de ε̂0 (que además implica que
2 2 2
|ε̂0 | = |ε̂1 | + |ε̂0 − ε̂1 | , o lo que es lo mismo, |ε̂0 − ε̂1 | = |ε̂0 | − |ε̂1 |2 ). Supongamos que
2 2

el modelo pequeño, ω, es cierto. Se tiene entonces que y = ŷ0 + ε̂0 y esto nos conduce a

la siguiente descomposición ortogonal de y:

y = ŷ0 + ε̂0 = ŷ0 + ε̂1 + (ε̂0 − ε̂1 )

Dividiendo esta expresión por σ obtenemos una descomposición ortogonal del conjunto
y
de variables aleatorias independientes y N (0, 1) contenidas en el vector . De acuerdo con
σ
lo visto en el apartado 1.4 los módulos al cuadrado de los términos de la desomposición

se distribuyen como χ2 independientes. Si suponemos que la matriz X0 tiene p columnas

y la matriz X1 tiene q, siendo p<q por supuesto, entonces resultará que:

|ŷ0 |2
∼ χ2p
σ2
|ε̂1 |2
∼ χ2n−q
σ2
|ε̂0 − ε̂1 |2
∼ χ2q−p
σ2

10
Estas variables aleatorias no son directamente utilizables porque el valor de σ 2 es desco-
nocido, pero formando el cociente de dos de las variables anteriores podemos eliminar ese

parámetro desconocido y obtener una variable que sigue una distribución F. Tendremos

entonces que:

|ε̂0 |2 −|ε̂1 |2/q−p


∼ Fq−p,n−q
|ε̂1 |2/n−q

Si el modelo ω es correcto entonces la mejora en el ajuste que supone usar el modelo Ω,


2 2 2
y que viene dada por |ε̂0 − ε̂1 | = |ε̂0 | −|ε̂1 | , es pequeña, con lo que la F anterior adopta

un valor pequeño. Por lo tanto, si esta F adopta un valor lo sucientemente elevado como

para que sea improbable, será necesario rechazar la hipótesis nula de validez del modelo

ω en favor de la de validez del modelo ampliado Ω.


El test t de signicatividad de los coecientes mostrado en el apartado 2.3 es un caso

similar a éste en donde los modelos grande y pequeño son modelos con y sin la variable

que se está testando, con lo que q−p=1 y Fq−p,n−q ≡ F1,n−q ≡ (tn−q )2 .

4. Variables omitidas.

5. Estimador de máxima verosimilitud (MV).

Un modelo lineal de la forma y = Xβ +ε puede ser estimado por máxima verosimilitud


una vez que se especica cómo se distribuyen los términos de error εi . Si aceptamos que

0, σ 2 I

su distribución es ε∼N el resultado que se obtiene por máxima verosimilitud

es idéntico al de mínimos cuadrados. Sin embargo el método MV permite considerar

situaciones más generales en las que la matriz de covarianzas de los εi , Σ, ya no es


2
simplemente σ I , sino que tiene una estructura más general. Esto ocurrirá en situaciones

como las siguientes:

Existe heteroscedasticidad, es decir, la matriz de covarianzas continúa siendo dia-

gonal (luego los términos de error son independientes), pero los elementos de esa

diagonal no son iguales, la varianza no es constante.

Existe correlación entre los términos de error, con lo que la matriz de covarianzas

no es diagonal.

Si aceptamos que nuestro modelo es de la forma y = Xβ + ε con ε ∼ N (0, Σ) entonces

la función de densidad del vector aleatorio y (que contiene n observaciones) será:

11
 
1 1 0 −1
f (y) = exp − (y − Xβ) Σ (y − Xβ)
(2π) /2 |Σ|
n p
2

La correspondiente función de soporte resultará ser:

n 1 1
L = log f (y) = − log 2π − log |Σ| − (y − Xβ)0 Σ−1 (y − Xβ) (4)
2 2 2

Las score equations, ∂L


∂β
= 0, resultan ser
∂L
∂β = X 0 Σ−1 (y − Xβ) = 0, con lo que,

despejando β, llegamos a la siguiente expresión para el estimador de los coecientes del

modelo:

−1
β̂ = X 0 Σ−1 X X 0 Σ−1 y (5)

En el caso habitual de que Σ = σ2I la expresión anterior se reduce a la ya vista

de β̂ = (X 0 X)−1 X 0 y . También en este caso se puede obtener una estimación máximo-


verosímil del parámetro σ2 utilizando la score equation ∂L
∂σ 2
= 0, que aplicada a (4) y

teniendo en cuenta que |Σ| = σ 2n conduce a que:


 0  
y − X β̂ y − X β̂ |ε̂|2
c2 =
σ =
n n

c2 = |ε̂|2
Este es un estimar sesgado, con lo que se suele usar σ n−p , que es insesgado. Con
mayor generalidad, si tuviésemos que Σ = σ 2 W −1 (en donde W es una matriz conocida)

la score equation proporcionaría el siguiente estimador:


 0  
y − X β̂ W y − X β̂
c2 =
σ
n

Se puede encontrar un esquema iterativo de tipo Newton-Raphson para resolver la score


equation ∂L
∂β
= 0. Como acabamos de ver ésta se reduce en el caso general a X 0 Σ−1 y =
X 0 Σ−1 Xβ , que puede ser expresada como X 0 Σ−1 (y − Xβ) = 0, o más concisamente
0
como X f (β) = 0. f (β) = f (β0 ) + f 0 (β − β0 )
Si tomamos 0 ) (β llegaremos a que:

−1
β = β0 − X 0 f 0 (β0 ) X 0 f (β0 ) (6)

En el caso de una regresión ordinaria se tiene que f (β) = y − Xβ y por lo tanto

f 0 (β) = −X , con lo que la ecuación (6) se convierte en:

12
−1
β = β0 + X 0 X X 0 (y − Xβ0 )

La ecuación (5) muestra que β̂ es un estimador lineal, ya que resulta ser de la forma M y .
En consecuencia su varianza se calcula con facilidad si tenemos en cuenta que cov (y) = Σ
y resulta ser:
  −1
cov β̂ = X 0 Σ−1 X

Por otra parte, si se calcula la matriz de segundas derivadas de la función loglik resulta

ser:  

00 ∂L
L = = −X 0 Σ−1 X
∂β ∂β
Los efectos de que Σ 6= σ 2 I , es decir, de que haya heteroscedasticidad o autocorrelación
de los términos de error, son los siguientes:

Los estimadores MCO y MV de β dejan de coincidir.

El estimador MCO de β sigue siendo insesgado, pero ya no tiene varianza mínima,

sino que el estimador de varianza mínima será el de mínimos cuadrados generali-

zados (GLS).

El estimador de la varianza de βOLS ya no es insesgado.

6. Estimador de mínimos cuadrados generalizados (GLS).

Cuando conocemos la matriz de covarianzas Σ (que será simétrica y denida positiva)

y la usamos para calcular el estimador de máxima verosimilitud sustituyendo su valor en

la ecuación (5) se obtiene lo que se denomina estimador GLS (β̂GLS ). Este estimador

es insesgado y es el de mínima varianza de entre los estimadores lineales insesgados (Fox,


 −1 
2008, p. 429). Su distribución es: β̂GLS ∼ N β, X 0 Σ−1 X .

Al ser Σ simétrica y denida positiva tendrá una raíz cuadrada (también simétrica),

de manera que se cumple que Σ = Σ1/2 Σ1/2 y Σ−1 = Σ−1/2 Σ−1/2 . Podemos denominar

S= S 0 a la matriz Σ−1/2 . Si hacemos el cambio de variable x∗ = Sx, y ∗ = Sy resultará



que el estimador OLS de la regresión de y sobre las x∗ vendrá dado por:
−1 −1
β̂ = X 0 S 0 SX X 0 S 0 Sy = X 0 Σ−1 X X 0 Σ−1 y

Con lo que queda claro que el estimador OLS para x∗ e y ∗ coincide con el estimador

GLS para x e y. El nuevo modelo de regresión puede ser expresado como y ∗ = X ∗ β + ε∗ ,

13
siendo ε∗ = Sε. La matriz de covarianzas del nuevo término de error será Σ∗ = var (ε∗ ) =
Svar (ε) S 0 = Σ−1/2 ΣΣ−1/2 = I .
Podemos considerar el caso particular de que haya exclusivamente heteroscedasticidad,

es decir, que la matriz de covarianzas sea diagonal, pero que los valores de esta diago-

nal varíen. El estimador GLS que se obtiene en este caso es el denominado estimador

de mínimos cuadrados ponderados (WLS), ya que en la práctica supone usar los valo-

res de la diagonal de la matriz de covarianzas para ponderar las distintas observaciones

disponibles (es decir las distintas componentes de los vectores xi ), ponderando más aque-
llas observaciones a las que corresponde una menor varianza en el término de error (las

ponderaciones serán las inversas de los valores de la diagonal de la matriz de covarianzas).


 
1/w2
1
..  = σ 2 W −1 ,
 
Si la matriz de covarianzas es Σ = σ2 
 .  siendo W la

1/w2
n
 
w12
..
 
matriz de ponderaciones  .
, que se admite conocida, el estimador WLS
 
wn2
de los coecientes de la regresión será:

−1 −1
β̂W LS = X 0 Σ−1 X X 0 Σ−1 y = X 0 W X X 0W y

En cuanto al estimador del término desconocido σ2 tendremos que será:

 0  
y − X β̂ W y − X β̂ P
e2i wi2
2
σ\
W LS = =
n n
Estos mismos estimadores podrían ser obtenidos usando OLS si en lugar de minimizar

e2i , (ei wi )2 ,
P P
la suma de los residuos al cuadrado, se minimiza la suma ponderada,

sobreponderando los casos con varianza pequeña e infraponderando los casos con varianza

alta.

Lo que tenemos en conclusión es que el estimador WLS es el estimador de máxima

verosimilitud cuando la matriz de covarianzas de los términos de error es diagonal de la

forma Σ = σ 2 W −1 . Esto equivale a un modelo OLS en el que se busca minimizar la suma


(ei wi )2
P
de errores ponderados inversamente a su varianza. Al mismo resultado se llega

ε ∼ N 0, σ 2 W −1

si asumimos un modelo de la forma y = Xβ + ε, con y buscamos un

estimador de los coecientes que sea lineal, insesgado y de mínima varianza. Esto signica

que el estimador WLS será BLUE (y en general lo mismo ocurre para el estimador GLS).

Como en el caso OLS, que el estimador sea lineal signica que se tiene que β̂ = Ry ,

14
 
y que sea insesgado signica que E β̂ = RE (y) = RXβ = β para cualquier valor
 
de β, lo que obliga a que sea RX = I . Se tiene además que var β̂ = Rvar (y) R0 =
 1 +
−1
σ 2 RW −1 R0 . 0
Sabemos que β̂W LS = (X W X) X 0 W y , y llamando Xw+ = W 2 X
se puede comprobar con facilidad que Xw+ = (X 0 W X)−1 X 0 W 1/2 , con lo que resulta

que β̂W LS = Xw W
+ 1/2
y . Para un estimador lineal insesgado arbitrario pondemos poner
R = SW , que se convierte para el estimador WLS en R = Xw+ W 1/2 . Con esta notación
1/2

2 0
la varianza del estimador de los coecientes será var β̂ = σ SS y en el caso particular
  0
del estimador WLS var β̂W LS = σ 2 Xw+ Xw+ . Poniendo S = Xw+ + (S − Xw+ ) se tiene

que:

0 0 0 0
SS 0 = Xw+ Xw+ + S − Xw+ S − Xw+ + Xw+ S − Xw+ + S − Xw+ Xw+
 

Por otra parte restando las ecuaciones RX = I para un estimador general y para
+
el estimador WLS llegamos a que (S − Xw+ ) W 1/2
X = 0. Como Xw+ = W 1/2 X y las

columnas de una matriz y las las de su inversa generalizada generan el mismo subespacio
0
se tendrá que (S − Xw+ ) Xw+ = 0, con lo que resulta nalmente que:

0 0
SS 0 = Xw+ Xw+ + S − Xw+ S − Xw+


La conclusión es que los elementos diagonales de la matriz de covarianzas de los coe-

cientes se expresan como suma de normas de dos vectores. Estas normas son positivas,

luego su valos mínimo se alcanza cuando S − Xw+ = 0, es decir, para el estimador WLS.

Esta misma demostración es válida sin cambios para el estimador GLS, con lo que resulta

que el estimador GLS es BLUE.

En el caso de que haya correlación entre los términos de error (y por lo tanto entre

las variables yi ) estimar la matriz de covarianzas Σ no es tarea sencilla porque hay más

parámetros que observaciones. Lo que se suele hacer es asumir modelos sencillos para las

autocorrelaciones. Normalmente se considera que hay autocorrelación de primer orden,

lo que se traduce en que habrá que estimar un único parámetro, en lugar de todos los de

la matriz de covarianzas.

Referencias

Fox, J. (2008). Applied Regression Analysis and Generalized Linear Models. Thousand
Oaks, California: Sage Publications, Inc.

15

También podría gustarte