Regresion

Regresiones
Pepe
25 de julio de 2014
Índice
1. Preliminares. 2
1.1. Distribuciones útiles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1. Chi-cuadrado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2. t de student. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.3. F de Snedecor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Variables normales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Proyección ortogonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Formas cuadráticas de variables aleatorias normales. . . . . . . . . . . . . 4
2. Regresión lineal OLS. 5

2.1. Estimación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.
2
Bondad de ajuste: R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3. Signicatividad de los coecientes. . . . . . . . . . . . . . . . . . . . . . . 8
2.4. Teorema de Gauss-Markov. . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3. Modelos anidados. 10
4. Variables omitidas. 11
5. Estimador de máxima verosimilitud (MV). 11
6. Estimador de mínimos cuadrados generalizados (GLS). 13
Referencias 15
1
1. Preliminares.
1.1. Distribuciones útiles.

1.1.1. Chi-cuadrado.
Si tenemos n variables aleatorias independientes xi cada una de las cuales se distribuye
como una N (0, 1), con lo que conjuntamente lo harán según una N (0, I), entonces la
2
P
suma de sus cuadrados será una variable aleatoria z= i xi que sigue una distribución
χ2 con n grados de libertad.
2
La χ tiene una distribución asimétrica y sólo toma valores positivos. Verica además
que:
E χ2

= n
var χ2 = 2n

La suma de dos χ2 independientes de n1 y n2 grados de libertad es una χ2 de n 1 + n2

grados de libertad.
Se puede usar la notación χ2n para referirse a una χ2 con n grados de libertad.
1.1.2. t de student.
Si tenemos dos variables aleatorias independientes x e y tales que x sigue una dis-
tribución N (0, 1) e y 2
sigue una χn entonces la variable aleatoria t = √xy sigue una
/n
distribución t de student con n grados de libertad, tn :
)
x ∼ N (0, 1) x
⇒p ∼ tn
y∼ χ2n y/n
La tn es una distribución simétrica y parecida a la N (0, 1), pero con más dispersión.
Esta dsitribución verica que:
E (tn ) = 0
n
var (tn ) =
n−2
Como se puede ver su varianza tiende a 1 (y por tanto se parecerá cada vez más a la
normal estándar) a medida que el número de grados de libertad tiende a innito.
2
1.1.3. F de Snedecor.
Se trata de una distribución asimétrica y que sólo adopta valores positivos que se
obtiene por cociente de dos χ2 independientes.

x/n
Si x ∼ χ2n e y ∼ χ2m son independientes entonces la variable aleatoria Fn,m = se
y/m
distribuye según una F de Snedecor:
)
x ∼ χ2n x/n
⇒ ∼ Fn,m
y ∼ χ2m y/m
1
Se verica trivialmente que si F ∼ Fn,m entonces ∼ Fm,n . Además, si x ∼ tm
F
entonces x
2 ∼ F1,m , con lo que se tiene que una normal estándar al cuadrado se distribuye
según una χ2 y una t al cuadrado se distribuye según una F.
Se verica que:
m
E (Fn,m ) =
m−2
2m2 (m + n − 2)
var (Fn,m ) =
n (m − 2)2 (m − 4)
1.2. Variables normales.

Para variables normales la incorrelación implica independencia. Es decir, si x1 y x2
son normales y están incorreladas (lo que ocurrirá si cov (x1 , x2 ) = 0), entonces serán
independientes.
Si se hace una transformación lineal de variables normales las variables resultantes son
también normales. Es decir, si x1 , . . . , xn son conjuntamente normales, con una distribu-
ción N (µ, Σ) siendo Σ la matriz de covarianzas, y le aplicamos una transformación lineal

dada por una matriz A de dimensiones p × n, de forma que tomando vectores columna
y = A · x, obtenemos p variables aleatorias y1 , . . . , yp que se distribuyen conjuntamente
según una normal:
)
x ∼ N (µ, Σ)
⇒ y ∼ N Aµ, AΣA0

y =A·x
Supongamos como un caso particular que las x1 , . . . , x n son independientes, con lo que
su matriz de covarianzas es σI , y que las p las de la matiz A son p vectores unitarios
3
P
n-dimensionales. Entonces cada yj = ajk xk puede ser vista como la proyección del
vector x = (x1 , . . . , xn ) sobre la dirección dada por el vector la de A (aj1 , . . . , ajn ). La
matriz de covarianzas de las y será σAA0 , que será diagonal si y sólo si las direcciones
de proyección son ortogonales, es decir si la matriz A es ortogonal. La conclusión es
que al proyectar variables normales independientes sobre una serie de direcciones, las
variables proyectadas serán independientes si y sólo si las direcciones de proyección son
ortogonales.
1.3. Proyección ortogonal.

Sea y un vector de Rn . Lo podemos proyectar ortogonalmente sobre un subespacio de
dimensión p. Supongamos que este subespacio está generado por los p vectores lineal-
mente independientes x1 , . . . , x p , que pueden ser agrupados por columnas formando la
matriz X de dimensiones n × p:
 
x11 . . . x1p
. ..
 
X= . .
.

 
xn1 xnp
El resultado de proyectar y sobre los vectores columna de la matriz anterior será:
−1
v = A · y = X X 0X X0 · y
A es la matriz de proyección, que se puede vericar que es cuadrada, n × n, simétrica
(A0 = A), idempotente (A · A = A), y de rango p, la dimensión del subespacio sobre el
que se proyecta.
Al hacer la proyección se obtiene una descomposición ortogonal de y : y = v + (y − v),

donde v pertenece al subespacio generado por los vectores xi e y−v pertenece al subes-
pacio ortogonal a él. Al ser v e y−v ortogonales entre sí se tendrá por el teorema de
2 2 2
Pitágoras que |y| = |v| + |y − v| .
Además, como v = Ay se cumple que |v|2 = (Ay)0 Ay = y 0 A0 Ay = y 0 Ay , debido a la
simetría e idempotencia de A. Se tiene en consecuencia que:
|v|2 = y 0 Ay
1.4. Formas cuadráticas de variables aleatorias normales.

Sean y1 , . . . yn n variables aleatorias normales estandarizadas e independientes, de for-
ma que su distribución conjunta sea N (0, I).
4
Si proyectamos el vector y = (y1 , . . . yn ) sobre un subespacio de dimensión p obtene-
mos p variables aleatorias independientes y que son normales estandarizadas. La suma
de sus cuadrados se distribuye como una χ2 con p grados de libertad. Si proyectamos
sobre distintos subespacios ortogonales los módulos al cuadrado de las proyecciones se
distribuyen como χ2 independientes (jarse en que el módulo al cuadrado de un vector
es un invariante).
2. Regresión lineal OLS.
2.1. Estimación del modelo.

Supongamos que tenemos una variable dependiente y para la que planteamos un mo-
delo que supone que es función lineal de un conjunto de variables explicativas x1 , . . . , x k

de la siguiente manera (en donde el 2º subíndice se reere a la variable):
yi = βo + β1 xi1 + . . . + βk xik + εi
Matricialmente esto se puede poner como:
y = Xβ + ε
siendo X la matriz n × (k + 1) siguiente:
 
1 x11 . . . x1k
. . ..
 
X= . . .
. .

 
1 xn1 xnk
en la que cada columna corresponde a una variable explicativa. Esta matriz X se deno-
mina matriz de diseño.

En este modelo se asume que los términos de error, εi , verican lo siguiente:
son independientes entre sí.
N 0, σ 2

se distribuyen según una
El modelo anterior supone que los valores de las x son jos, con lo que se tendrá que
σ2.
P
E (y|x) = βx y que var (y) =
Lo que intentaremos es estimar los k+1 = p parámetros β = (β0 , β1 , . . . , βk )0 de
forma que se minimice el módulo al cuadrado del término de error. Llamaremos β̂i a los
estimadores obtenidos. Quedará entonces que y = X β̂ + ε̂ y los β̂ los calcularemos de
5
forma que se minimice |ε̂|2 . Llamando ŷ = X β̂ se tiene que podemos descomponer y como
y = ŷ + ε̂ , suma de dos vectores. El módulo cuadrado de ε̂ será mínimo cuando ŷ sea la
proyección ortogonal de y sobre el subespacio generado por los vectores columna de X.

En ese caso ŷ pertenece al espacio generado por esos vectores columna y se puede expresar
como combinación lineal de ellos (siendo los β̂i los coecientes de esa combinación lineal)
y ε̂ será ortogonal a ese subespacio (y por lo tanto a ŷ ). Se tendrá por lo tanto que
2 2 2
|y| = |ŷ| + |ε̂| .
Podemos llamar 1 al primer vector columna de la matriz de diseño (es un vector con
todo unos). Como ε̂ es ortogonal a todos los vectores columna de X también lo será al
0
P
vecto 1, con lo que se tendrá que ε̂ · 1 = 0, es decir, εi = 0.
Cuando la matriz de diseño se reduce exclusivamente al vector 1 tenemos un modelo
nulo, sin variables explicativas, que se puede ver con facilidad que se reduce al modelo
P 2
y = ȳ+ε̂, pues el modelo será y = β̂·1+ε̂ y su estimación obliga a minimizar yi − β̂ ,
P
que derivando nos lleva a que deberá ser yi − β̂ = 0, o lo que es lo mismo, β̂ = ȳ .
Como ŷ se obtiene proyectando y sobre los vectores columna de X tendremos que
−1
ŷ = X β̂ = X X 0 X X 0 y = Hy
La matriz H = X (X 0 X)−1 X 0 se denomina hat matrix y es la matriz de proyección. Los ε̂i

2
son los residuos y la suma de sus cuadrados, |ε̂| , es la RSS. El vector de residuos se puede
poner como ε̂ = y − ŷ = y − Hy = (I − H) y . Como ε̂ pertenece al subespacio ortogonal
al generado por las columnas de X resultará que I −H es la matriz de proyección sobre

2
este subespacio y se tendrá que |ε̂| = y 0 (I − H) y .
ε̂ y
Podemos pensar también que el vector
σ se obtiene por proyección del vector σ sobre el
yi
subespacio de dimensión n − p ortogonal a las columnas de la matriz X . Las variables
σ
son independientes y normales estándar, luego el módulo al cuadrado de su proyección se
|ε̂|2 2
|ε̂|
distribuye según una χ2n−p : ∼ χ2
n−p . Tendremos en consecuencia que E σ2
= n−p.
σ2
De otra forma podemos poner esto como:
!
|ε̂|2
E = σ2
n−p
2
Esto indica que c2 = |ε̂|
σ es un estimador insesgado de σ2.
n−p
ε ∼ N 0, σ 2 I

En nuestro modelo se asume que , y que y = Xβ + ε. A partir de aquí
tenemos la distribución del vector aleatorio y:
6
y ∼ N Xβ, σ 2 I

Sabemos que ŷ = Hy = X (X 0 X)−1 X 0 y = X β̂ , lo que signica que los coecientes
estimados β̂ se pueden obtener por medio de una transformación lineal del vector aleatorio
y : β̂ = (X 0 X)−1 X 0 y . Esto que nos permite calcular fácilmente su distribución, que será:
−1 2
β̂ ∼ N β, X 0 X σ (1)
Esto signica que los β̂ son estimadores insesgados, pero en general no van a ser inde-
pendientes pues su matriz de covarianzas no será diagonal. Esta matriz de covarianzas

es var β̂ = (X 0 X)−1 σ 2 . Para el cálculo de esta matriz se ha tenido en cuenta el hecho
de que la matriz de covarianzas de y es σ2I .

Conocida la distribución de los β̂ podemos obtener la de ŷ = X β̂ , que será:
ŷ ∼ N Xβ, Hσ 2

Por último, aprovechando que ε̂ = (I − H) y , podemos calcular la distribución de ε̂,

que será:
ε̂ ∼ N 0, σ 2 (I − H)

2.2. Bondad de ajuste: R2 .

La descomposición del vector y como y = ŷ + ε̂ es en realidad una descomposición de
y en suma de dos componentes ortogonales: y = yk + y⊥ , siendo yk = ŷ e y⊥ = ε̂. El
ajuste del modelo será tanto mejor cuanto mayor sea el módulo de la componente paralela
2
frente a la perpendicular. Teniendo en cuenta que |y|2 = yk + |y⊥ |2 se podría denir
2
yk
la medida de ajuste R2 = , que tomaría valores entre 0 y 1. Se tendría también que
|y|2
|y⊥ |2
1− R2 = . Sin embargo en estadística la R2 se dene de una forma ligeramente
|y|2
diferente.
Para ver cómo se hace supongamos primero que tenemos dos modelos anidados con
sus correspondientes matrices de diseño X0 < X1 . Estos modelos dan lugar a las dos
descomposiciones ortogonales y = ŷ0 + ε̂0 e y = ŷ1 + ε̂1 . Como el subespacio generado
por las columnas de X1 contiene al generado por las columnas de X0 resulta que la
descomposición ŷ1 = ŷ0 + (ŷ1 − ŷ0 ) es una descomposición ortogonal del vector ŷ1 . Esto
7
nos lleva a que y = ŷ0 + (ŷ1 − ŷ0 ) + ε̂1 es una descomposición ortogonal del vector y
y a que y − ŷ0 = (ŷ1 − ŷ0 ) + ε̂1 es una descomposición ortogonal del vector y − ŷ0 . La
|ŷ1 − ŷ0 |2
ratio 0 < < 1 puede ser vista como una medida de la mejora en el ajuste que
|y − ŷ0 |2
supone el modelo dado por X1 frente al modelo más reducido dado por X0 . La R usada
2
en estadística es la ratio anterior cuando como modelo reducido se toma el modelo
nulo sin variables explicativas: X0 = 1, con lo que se tiene que ŷ0 = ȳ . La magnitud
2
|y − ŷ0 | es lo que se suele llamar suma total de cuadrados, TSS, que es esencialmente
la varianza total de los datos, parte de la cual, |ŷ1 − ŷ0 |2 , es explicada por el modelo y
2
el resto, |ε̂1 | = RSS , queda sin explicar.
2.3. Signicatividad de los coecientes.

Para cada variable explicativa, xi , del modelo se obtienen al hacer la regresión dos
parámetros esenciales:
β̂i : indica la intensidad del efecto de la variable, cuánto varía en promedio y si se
incrementa en una unidad xi .

var β̂i : indica la signicatividad del efecto de la variable xi , es decir, la cons-
tancia o uniformidad de ese efecto, si se produce de forma regular o no.

Sabemos que β̂ ∼ N β, (X 0 X)−1 σ 2 , lo que signica que E β̂i = βi y var β̂i =
x−1 2
ii σ , siendo x−1
ii el elemento i-ésimo de la diagonal de (X 0 X)−1 . Esto signica que:
β̂ − βi
qi ∼ N (0, 1) (2)
x−1
ii σ 2
Sin embargo este resultado no puede ser usado para por ejemplo estimar intervalos de
conanza debido a que el valor de σ2 es desconocido. Sin embargo podemos usar el hecho
de que se cumple que:
|ε̂|2
∼ χ2n−p
σ2
para formar el cociente entre las dos variables aleatorias anteriores (tomando la raiz de la
χ2 dividida por sus grados de libertad), que se distribuirá como una t de student, ya que
en ese cociente se elimina el término desconocido σ2 obteniéndose la siguiente expresión:
√
β̂i −βi/ x−1
ii β̂i − βi
p =q ∼ tn−p (3)
|ε̂|2/n−p
x−1
ii
c2
σ
8
que es idéntica a la ecuación 2 salvo porque se sustituye la σ2 desconocida por su esti-
2
mador c2 = |ε̂| .
σ
n−p
Si la ecuación (3) se eleva al cuadrado se obtiene una variable que sigue una distribución
F:
2
β̂i − βi
2 ∼ F1,n−p
|ε̂|
x−1
ii n−p
2.4. Teorema de Gauss-Markov.

El estimador β̂OLS es el best linear unbiased estimator (BLUE), es decir, es de entre
todos los estimadores lineales e insesgados de los coecientes, el que tiene menor varianza

(para cada coeciente var β̂OLS es mínima).
ε ∼ N 0, σ 2 I

El modelo que se asume es el de que y = Xβ + ε, con , y se esti-
man los coecientes del modelo para obtener y = X β̂ + ε̂. El que el estimador de los
β̂ = Ry . Que sea insesgado signica por su parte

coecientes sea lineal signica que

que E β̂ = RE (y) = RXβ = β . Para que esto último ocurra con independencia
del valor real (desconocido) de los coecientes β se deberá vericar que RX = I . De
esto se deduce de forma inmediata que la matriz R verica las propiedades (1), (2) y
(4) de la inversa generalizada de

X. Por otra parte, dado que β̂ = Ry se tendrá que
var β̂ = Rvar (y) R0 = σ 2 RR0 .

En el caso del estimador OLS se tiene que la matriz R es justamente la inversa ge-
neralizada de X, es decir, R= X + . De este modo resulta ser β̂OLS = X + y . Para otro
estimador β̂ , lineal e insesgado, su matriz R se puede poner como R= X + (R − X + ).

Con ello la varianza de β̂ será:

var β̂ 0
0
0 0

= RR0 = X + X + + X + R0 − X + + R − X + X + + R − X + R0 − X +

σ2
Veamos que los dos sumandos centrales del sumatorio de la derecha son nulos. Del
hecho de que RX = I se deduce que (R − X + ) X = 0. POr otra parte sabemos que las
columnas de X generan el mismo subespacio que las las de X +, con lo que se tiene
que (R − X +) X +0 = 0. El otro sumando es simpleemnte el transpuesto de éste. La
consecuencia es que:

var β̂ 0 0

= RR0 = X + X + + R − X + R0 − X +
σ2
9
Los elementos de la diagonal de la matriz de covarianzas de los estimadores de los
coecientes se expresan como suma de productos escalares de vectores la de las matrices
X+ y (R − X + ), es decir, como suma de dos sumandos positivos. El valor mínimo de esa

suma se alcanzará cuando R − X + = 0, lo que ocurre en el caso del estimador OLS.
3. Modelos anidados.
La comparación entre modelos de regresión para ver cuál se ajusta mejor a los datos
se suele hacer entre modelos anidados, es decir entre un modelo pequeño, ω, con una
matriz de diseño X0 , y un modelo grande, Ω, con una matriz de diseño X1 que amplía
la anterior añadiéndole más columnas (y por lo tanto más variables) de forma que el
modelo ω será un caso particular del Ω en el que los coecientes correspondientes a las
variables añadidas toman el valor cero.
La RSS del modelo Ω, |ε̂1 |2 , será siempre menor que la del modelo ω , |ε̂0 |2 : |ε̂1 |2 < |ε̂0 |2 ,
con lo que su ajuste a los datos será mayor. Sin embargo puede que esa mejora en el ajuste
sea tan pequeña que no compense el incremento en complejidad que supone adoptar el
modelo grande respecto al pequeño.
Como ya se ha indicado, la existencia de dos modelos da lugar a dos descomposiciones
ortogonales: y = ŷ0 + ε̂0 e y = ŷ1 + ε̂1 . Al ser los modelos anidados resultará que
ε̂0 = ε̂1 + (ε̂0 − ε̂1 ) es una descomposición ortogonal de ε̂0 (que además implica que
2 2 2
|ε̂0 | = |ε̂1 | + |ε̂0 − ε̂1 | , o lo que es lo mismo, |ε̂0 − ε̂1 | = |ε̂0 | − |ε̂1 |2 ). Supongamos que
2 2
el modelo pequeño, ω, es cierto. Se tiene entonces que y = ŷ0 + ε̂0 y esto nos conduce a
la siguiente descomposición ortogonal de y:
y = ŷ0 + ε̂0 = ŷ0 + ε̂1 + (ε̂0 − ε̂1 )
Dividiendo esta expresión por σ obtenemos una descomposición ortogonal del conjunto
y
de variables aleatorias independientes y N (0, 1) contenidas en el vector . De acuerdo con
σ
lo visto en el apartado 1.4 los módulos al cuadrado de los términos de la desomposición
se distribuyen como χ2 independientes. Si suponemos que la matriz X0 tiene p columnas
y la matriz X1 tiene q, siendo p<q por supuesto, entonces resultará que:
|ŷ0 |2
∼ χ2p
σ2
|ε̂1 |2
∼ χ2n−q
σ2
|ε̂0 − ε̂1 |2
∼ χ2q−p
σ2
10
Estas variables aleatorias no son directamente utilizables porque el valor de σ 2 es desco-
nocido, pero formando el cociente de dos de las variables anteriores podemos eliminar ese
parámetro desconocido y obtener una variable que sigue una distribución F. Tendremos
entonces que:
|ε̂0 |2 −|ε̂1 |2/q−p

∼ Fq−p,n−q
|ε̂1 |2/n−q
Si el modelo ω es correcto entonces la mejora en el ajuste que supone usar el modelo Ω,

2 2 2
y que viene dada por |ε̂0 − ε̂1 | = |ε̂0 | −|ε̂1 | , es pequeña, con lo que la F anterior adopta
un valor pequeño. Por lo tanto, si esta F adopta un valor lo sucientemente elevado como
para que sea improbable, será necesario rechazar la hipótesis nula de validez del modelo
ω en favor de la de validez del modelo ampliado Ω.

El test t de signicatividad de los coecientes mostrado en el apartado 2.3 es un caso
similar a éste en donde los modelos grande y pequeño son modelos con y sin la variable
que se está testando, con lo que q−p=1 y Fq−p,n−q ≡ F1,n−q ≡ (tn−q )2 .
4. Variables omitidas.
5. Estimador de máxima verosimilitud (MV).
Un modelo lineal de la forma y = Xβ +ε puede ser estimado por máxima verosimilitud

una vez que se especica cómo se distribuyen los términos de error εi . Si aceptamos que
0, σ 2 I

su distribución es ε∼N el resultado que se obtiene por máxima verosimilitud
es idéntico al de mínimos cuadrados. Sin embargo el método MV permite considerar
situaciones más generales en las que la matriz de covarianzas de los εi , Σ, ya no es

2
simplemente σ I , sino que tiene una estructura más general. Esto ocurrirá en situaciones
como las siguientes:
Existe heteroscedasticidad, es decir, la matriz de covarianzas continúa siendo dia-
gonal (luego los términos de error son independientes), pero los elementos de esa
diagonal no son iguales, la varianza no es constante.
Existe correlación entre los términos de error, con lo que la matriz de covarianzas
no es diagonal.
Si aceptamos que nuestro modelo es de la forma y = Xβ + ε con ε ∼ N (0, Σ) entonces
la función de densidad del vector aleatorio y (que contiene n observaciones) será:
11

1 1 0 −1
f (y) = exp − (y − Xβ) Σ (y − Xβ)
(2π) /2 |Σ|
n p
2
La correspondiente función de soporte resultará ser:
n 1 1
L = log f (y) = − log 2π − log |Σ| − (y − Xβ)0 Σ−1 (y − Xβ) (4)
2 2 2
Las score equations, ∂L

∂β
= 0, resultan ser
∂L
∂β = X 0 Σ−1 (y − Xβ) = 0, con lo que,
despejando β, llegamos a la siguiente expresión para el estimador de los coecientes del
modelo:
−1
β̂ = X 0 Σ−1 X X 0 Σ−1 y (5)
En el caso habitual de que Σ = σ2I la expresión anterior se reduce a la ya vista
de β̂ = (X 0 X)−1 X 0 y . También en este caso se puede obtener una estimación máximo-

verosímil del parámetro σ2 utilizando la score equation ∂L
∂σ 2
= 0, que aplicada a (4) y
teniendo en cuenta que |Σ| = σ 2n conduce a que:

0
y − X β̂ y − X β̂ |ε̂|2
c2 =
σ =
n n
c2 = |ε̂|2
Este es un estimar sesgado, con lo que se suele usar σ n−p , que es insesgado. Con
mayor generalidad, si tuviésemos que Σ = σ 2 W −1 (en donde W es una matriz conocida)
la score equation proporcionaría el siguiente estimador:

0
y − X β̂ W y − X β̂
c2 =
σ
n
Se puede encontrar un esquema iterativo de tipo Newton-Raphson para resolver la score

equation ∂L
∂β
= 0. Como acabamos de ver ésta se reduce en el caso general a X 0 Σ−1 y =
X 0 Σ−1 Xβ , que puede ser expresada como X 0 Σ−1 (y − Xβ) = 0, o más concisamente
0
como X f (β) = 0. f (β) = f (β0 ) + f 0 (β − β0 )
Si tomamos 0 ) (β llegaremos a que:
−1
β = β0 − X 0 f 0 (β0 ) X 0 f (β0 ) (6)
En el caso de una regresión ordinaria se tiene que f (β) = y − Xβ y por lo tanto
f 0 (β) = −X , con lo que la ecuación (6) se convierte en:
12
−1
β = β0 + X 0 X X 0 (y − Xβ0 )
La ecuación (5) muestra que β̂ es un estimador lineal, ya que resulta ser de la forma M y .
En consecuencia su varianza se calcula con facilidad si tenemos en cuenta que cov (y) = Σ
y resulta ser:
−1
cov β̂ = X 0 Σ−1 X
Por otra parte, si se calcula la matriz de segundas derivadas de la función loglik resulta
ser:
∂
00 ∂L
L = = −X 0 Σ−1 X
∂β ∂β
Los efectos de que Σ 6= σ 2 I , es decir, de que haya heteroscedasticidad o autocorrelación
de los términos de error, son los siguientes:
Los estimadores MCO y MV de β dejan de coincidir.
El estimador MCO de β sigue siendo insesgado, pero ya no tiene varianza mínima,
sino que el estimador de varianza mínima será el de mínimos cuadrados generali-
zados (GLS).
El estimador de la varianza de βOLS ya no es insesgado.
6. Estimador de mínimos cuadrados generalizados (GLS).
Cuando conocemos la matriz de covarianzas Σ (que será simétrica y denida positiva)
y la usamos para calcular el estimador de máxima verosimilitud sustituyendo su valor en
la ecuación (5) se obtiene lo que se denomina estimador GLS (β̂GLS ). Este estimador
es insesgado y es el de mínima varianza de entre los estimadores lineales insesgados (Fox,

−1
2008, p. 429). Su distribución es: β̂GLS ∼ N β, X 0 Σ−1 X .
Al ser Σ simétrica y denida positiva tendrá una raíz cuadrada (también simétrica),
de manera que se cumple que Σ = Σ1/2 Σ1/2 y Σ−1 = Σ−1/2 Σ−1/2 . Podemos denominar
S= S 0 a la matriz Σ−1/2 . Si hacemos el cambio de variable x∗ = Sx, y ∗ = Sy resultará

∗
que el estimador OLS de la regresión de y sobre las x∗ vendrá dado por:
−1 −1
β̂ = X 0 S 0 SX X 0 S 0 Sy = X 0 Σ−1 X X 0 Σ−1 y
Con lo que queda claro que el estimador OLS para x∗ e y ∗ coincide con el estimador
GLS para x e y. El nuevo modelo de regresión puede ser expresado como y ∗ = X ∗ β + ε∗ ,
13
siendo ε∗ = Sε. La matriz de covarianzas del nuevo término de error será Σ∗ = var (ε∗ ) =
Svar (ε) S 0 = Σ−1/2 ΣΣ−1/2 = I .
Podemos considerar el caso particular de que haya exclusivamente heteroscedasticidad,
es decir, que la matriz de covarianzas sea diagonal, pero que los valores de esta diago-
nal varíen. El estimador GLS que se obtiene en este caso es el denominado estimador
de mínimos cuadrados ponderados (WLS), ya que en la práctica supone usar los valo-
res de la diagonal de la matriz de covarianzas para ponderar las distintas observaciones
disponibles (es decir las distintas componentes de los vectores xi ), ponderando más aque-
llas observaciones a las que corresponde una menor varianza en el término de error (las
ponderaciones serán las inversas de los valores de la diagonal de la matriz de covarianzas).

 
1/w2
1
..  = σ 2 W −1 ,
 
Si la matriz de covarianzas es Σ = σ2 
 .  siendo W la
1/w2
n
 
w12
..
 
matriz de ponderaciones  .
, que se admite conocida, el estimador WLS
 
wn2
de los coecientes de la regresión será:
−1 −1
β̂W LS = X 0 Σ−1 X X 0 Σ−1 y = X 0 W X X 0W y
En cuanto al estimador del término desconocido σ2 tendremos que será:
0
y − X β̂ W y − X β̂ P
e2i wi2
2
σ\
W LS = =
n n
Estos mismos estimadores podrían ser obtenidos usando OLS si en lugar de minimizar
e2i , (ei wi )2 ,
P P
la suma de los residuos al cuadrado, se minimiza la suma ponderada,
sobreponderando los casos con varianza pequeña e infraponderando los casos con varianza
alta.
Lo que tenemos en conclusión es que el estimador WLS es el estimador de máxima
verosimilitud cuando la matriz de covarianzas de los términos de error es diagonal de la
forma Σ = σ 2 W −1 . Esto equivale a un modelo OLS en el que se busca minimizar la suma

(ei wi )2
P
de errores ponderados inversamente a su varianza. Al mismo resultado se llega
ε ∼ N 0, σ 2 W −1

si asumimos un modelo de la forma y = Xβ + ε, con y buscamos un
estimador de los coecientes que sea lineal, insesgado y de mínima varianza. Esto signica
que el estimador WLS será BLUE (y en general lo mismo ocurre para el estimador GLS).
Como en el caso OLS, que el estimador sea lineal signica que se tiene que β̂ = Ry ,
14

y que sea insesgado signica que E β̂ = RE (y) = RXβ = β para cualquier valor

de β, lo que obliga a que sea RX = I . Se tiene además que var β̂ = Rvar (y) R0 =
1 +
−1
σ 2 RW −1 R0 . 0
Sabemos que β̂W LS = (X W X) X 0 W y , y llamando Xw+ = W 2 X
se puede comprobar con facilidad que Xw+ = (X 0 W X)−1 X 0 W 1/2 , con lo que resulta
que β̂W LS = Xw W
+ 1/2
y . Para un estimador lineal insesgado arbitrario pondemos poner
R = SW , que se convierte para el estimador WLS en R = Xw+ W 1/2 . Con esta notación
1/2
2 0
la varianza del estimador de los coecientes será var β̂ = σ SS y en el caso particular
0
del estimador WLS var β̂W LS = σ 2 Xw+ Xw+ . Poniendo S = Xw+ + (S − Xw+ ) se tiene
que:
0 0 0 0
SS 0 = Xw+ Xw+ + S − Xw+ S − Xw+ + Xw+ S − Xw+ + S − Xw+ Xw+

Por otra parte restando las ecuaciones RX = I para un estimador general y para
+
el estimador WLS llegamos a que (S − Xw+ ) W 1/2
X = 0. Como Xw+ = W 1/2 X y las
columnas de una matriz y las las de su inversa generalizada generan el mismo subespacio
0
se tendrá que (S − Xw+ ) Xw+ = 0, con lo que resulta nalmente que:
0 0
SS 0 = Xw+ Xw+ + S − Xw+ S − Xw+

La conclusión es que los elementos diagonales de la matriz de covarianzas de los coe-
cientes se expresan como suma de normas de dos vectores. Estas normas son positivas,
luego su valos mínimo se alcanza cuando S − Xw+ = 0, es decir, para el estimador WLS.
Esta misma demostración es válida sin cambios para el estimador GLS, con lo que resulta
que el estimador GLS es BLUE.
En el caso de que haya correlación entre los términos de error (y por lo tanto entre
las variables yi ) estimar la matriz de covarianzas Σ no es tarea sencilla porque hay más
parámetros que observaciones. Lo que se suele hacer es asumir modelos sencillos para las
autocorrelaciones. Normalmente se considera que hay autocorrelación de primer orden,
lo que se traduce en que habrá que estimar un único parámetro, en lugar de todos los de
la matriz de covarianzas.
Referencias
Fox, J. (2008). Applied Regression Analysis and Generalized Linear Models. Thousand
Oaks, California: Sage Publications, Inc.
15

Regresion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion

Cargado por

Copyright:

Formatos disponibles

Regresiones

1.2. Variables normales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3. Proyección ortogonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4. Formas cuadráticas de variables aleatorias normales. . . . . . . . . . . . . 4

2. Regresión lineal OLS. 5

2.3. Signicatividad de los coecientes. . . . . . . . . . . . . . . . . . . . . . . 8

2.4. Teorema de Gauss-Markov. . . . . . . . . . . . . . . . . . . . . . . . . . . 9

5. Estimador de máxima verosimilitud (MV). 11

6. Estimador de mínimos cuadrados generalizados (GLS). 13

1.1. Distribuciones útiles.

Si tenemos n variables aleatorias independientes xi cada una de las cuales se distribuye

La suma de dos χ2 independientes de n1 y n2 grados de libertad es una χ2 de n 1 + n2

Esta dsitribución verica que:

normal estándar) a medida que el número de grados de libertad tiende a innito.

obtiene por cociente de dos χ2 independientes.

1.2. Variables normales.

también normales. Es decir, si x1 , . . . , xn son conjuntamente normales, con una distribu-

ción N (µ, Σ) siendo Σ la matriz de covarianzas, y le aplicamos una transformación lineal

y = A · x, obtenemos p variables aleatorias y1 , . . . , yp que se distribuyen conjuntamente

según una normal:

su matriz de covarianzas es σI , y que las p las de la matiz A son p vectores unitarios

de proyección son ortogonales, es decir si la matriz A es ortogonal. La conclusión es

variables proyectadas serán independientes si y sólo si las direcciones de proyección son

1.3. Proyección ortogonal.

mente independientes x1 , . . . , x p , que pueden ser agrupados por columnas formando la

A es la matriz de proyección, que se puede vericar que es cuadrada, n × n, simétrica

(A0 = A), idempotente (A · A = A), y de rango p, la dimensión del subespacio sobre el

Al hacer la proyección se obtiene una descomposición ortogonal de y : y = v + (y − v),

Además, como v = Ay se cumple que |v|2 = (Ay)0 Ay = y 0 A0 Ay = y 0 Ay , debido a la

simetría e idempotencia de A. Se tiene en consecuencia que:

1.4. Formas cuadráticas de variables aleatorias normales.

ma que su distribución conjunta sea N (0, I).

mos p variables aleatorias independientes y que son normales estandarizadas. La suma

de sus cuadrados se distribuye como una χ2 con p grados de libertad. Si proyectamos

sobre distintos subespacios ortogonales los módulos al cuadrado de las proyecciones se

distribuyen como χ2 independientes (jarse en que el módulo al cuadrado de un vector

2. Regresión lineal OLS.

2.1. Estimación del modelo.

delo que supone que es función lineal de un conjunto de variables explicativas x1 , . . . , x k

Matricialmente esto se puede poner como:

siendo X la matriz n × (k + 1) siguiente:

mina matriz de diseño.

son independientes entre sí.

estimadores obtenidos. Quedará entonces que y = X β̂ + ε̂ y los β̂ los calcularemos de

proyección ortogonal de y sobre el subespacio generado por los vectores columna de X.

La matriz H = X (X 0 X)−1 X 0 se denomina hat matrix y es la matriz de proyección. Los ε̂i

poner como ε̂ = y − ŷ = y − Hy = (I − H) y . Como ε̂ pertenece al subespacio ortogonal

al generado por las columnas de X resultará que I −H es la matriz de proyección sobre

tenemos la distribución del vector aleatorio y:

Sabemos que ŷ = Hy = X (X 0 X)−1 X 0 y = X β̂ , lo que signica que los coecientes

pendientes pues su matriz de covarianzas no será diagonal. Esta matriz de covarianzas

de que la matriz de covarianzas de y es σ2I .

Por último, aprovechando que ε̂ = (I − H) y , podemos calcular la distribución de ε̂,

2.2. Bondad de ajuste: R2 .

y en suma de dos componentes ortogonales: y = yk + y⊥ , siendo yk = ŷ e y⊥ = ε̂. El

descomposiciones ortogonales y = ŷ0 + ε̂0 e y = ŷ1 + ε̂1 . Como el subespacio generado

en estadística es la ratio anterior cuando como modelo reducido se toma el modelo

2.3. Signicatividad de los coecientes.

β̂i : indica la intensidad del efecto de la variable, cuánto varía en promedio y si se

incrementa en una unidad xi .

tancia o uniformidad de ese efecto, si se produce de forma regular o no.

de que se cumple que:

en ese cociente se elimina el término desconocido σ2 obteniéndose la siguiente expresión:

2.3. Signicatividad de los coecientes. . . . . . . . . . . . . . . . . . . . . . . 8

Esta dsitribución verica que:

normal estándar) a medida que el número de grados de libertad tiende a innito.

su matriz de covarianzas es σI , y que las p las de la matiz A son p vectores unitarios

A es la matriz de proyección, que se puede vericar que es cuadrada, n × n, simétrica

distribuyen como χ2 independientes (jarse en que el módulo al cuadrado de un vector

Sabemos que ŷ = Hy = X (X 0 X)−1 X 0 y = X β̂ , lo que signica que los coecientes

en estadística es la ratio anterior cuando como modelo reducido se toma el modelo

2.3. Signicatividad de los coecientes.

β̂i : indica la intensidad del efecto de la variable, cuánto varía en promedio y si se

tancia o uniformidad de ese efecto, si se produce de forma regular o no.

β̂ = Ry . Que sea insesgado signica por su parte

modelo grande respecto al pequeño.

despejando β, llegamos a la siguiente expresión para el estimador de los coecientes del

Cuando conocemos la matriz de covarianzas Σ (que será simétrica y denida positiva)