Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion
Regresion
Pepe
25 de julio de 2014
Índice
1. Preliminares. 2
1.1. Distribuciones útiles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1. Chi-cuadrado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2. t de student. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.3. F de Snedecor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.
2
Bondad de ajuste: R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3. Modelos anidados. 10
4. Variables omitidas. 11
Referencias 15
1
1. Preliminares.
como una N (0, 1), con lo que conjuntamente lo harán según una N (0, I), entonces la
2
P
suma de sus cuadrados será una variable aleatoria z= i xi que sigue una distribución
χ2 con n grados de libertad.
2
La χ tiene una distribución asimétrica y sólo toma valores positivos. Verica además
que:
E χ2
= n
var χ2 = 2n
Se puede usar la notación χ2n para referirse a una χ2 con n grados de libertad.
1.1.2. t de student.
Si tenemos dos variables aleatorias independientes x e y tales que x sigue una dis-
tribución N (0, 1) e y 2
sigue una χn entonces la variable aleatoria t = √xy sigue una
/n
distribución t de student con n grados de libertad, tn :
)
x ∼ N (0, 1) x
⇒p ∼ tn
y∼ χ2n y/n
La tn es una distribución simétrica y parecida a la N (0, 1), pero con más dispersión.
E (tn ) = 0
n
var (tn ) =
n−2
Como se puede ver su varianza tiende a 1 (y por tanto se parecerá cada vez más a la
2
1.1.3. F de Snedecor.
Se trata de una distribución asimétrica y que sólo adopta valores positivos que se
)
x ∼ χ2n x/n
⇒ ∼ Fn,m
y ∼ χ2m y/m
1
Se verica trivialmente que si F ∼ Fn,m entonces ∼ Fm,n . Además, si x ∼ tm
F
entonces x
2 ∼ F1,m , con lo que se tiene que una normal estándar al cuadrado se distribuye
según una χ2 y una t al cuadrado se distribuye según una F.
Se verica que:
m
E (Fn,m ) =
m−2
2m2 (m + n − 2)
var (Fn,m ) =
n (m − 2)2 (m − 4)
independientes.
Si se hace una transformación lineal de variables normales las variables resultantes son
)
x ∼ N (µ, Σ)
⇒ y ∼ N Aµ, AΣA0
y =A·x
Supongamos como un caso particular que las x1 , . . . , x n son independientes, con lo que
3
P
n-dimensionales. Entonces cada yj = ajk xk puede ser vista como la proyección del
vector x = (x1 , . . . , xn ) sobre la dirección dada por el vector la de A (aj1 , . . . , ajn ). La
matriz de covarianzas de las y será σAA0 , que será diagonal si y sólo si las direcciones
que al proyectar variables normales independientes sobre una serie de direcciones, las
ortogonales.
dimensión p. Supongamos que este subespacio está generado por los p vectores lineal-
matriz X de dimensiones n × p:
x11 . . . x1p
. ..
X= . .
.
xn1 xnp
El resultado de proyectar y sobre los vectores columna de la matriz anterior será:
−1
v = A · y = X X 0X X0 · y
que se proyecta.
pacio ortogonal a él. Al ser v e y−v ortogonales entre sí se tendrá por el teorema de
2 2 2
Pitágoras que |y| = |v| + |y − v| .
|v|2 = y 0 Ay
4
Si proyectamos el vector y = (y1 , . . . yn ) sobre un subespacio de dimensión p obtene-
es un invariante).
yi = βo + β1 xi1 + . . . + βk xik + εi
y = Xβ + ε
1 x11 . . . x1k
. . ..
X= . . .
. .
1 xn1 xnk
en la que cada columna corresponde a una variable explicativa. Esta matriz X se deno-
N 0, σ 2
se distribuyen según una
El modelo anterior supone que los valores de las x son jos, con lo que se tendrá que
σ2.
P
E (y|x) = βx y que var (y) =
Lo que intentaremos es estimar los k+1 = p parámetros β = (β0 , β1 , . . . , βk )0 de
forma que se minimice el módulo al cuadrado del término de error. Llamaremos β̂i a los
5
forma que se minimice |ε̂|2 . Llamando ŷ = X β̂ se tiene que podemos descomponer y como
y = ŷ + ε̂ , suma de dos vectores. El módulo cuadrado de ε̂ será mínimo cuando ŷ sea la
y ε̂ será ortogonal a ese subespacio (y por lo tanto a ŷ ). Se tendrá por lo tanto que
2 2 2
|y| = |ŷ| + |ε̂| .
Podemos llamar 1 al primer vector columna de la matriz de diseño (es un vector con
todo unos). Como ε̂ es ortogonal a todos los vectores columna de X también lo será al
0
P
vecto 1, con lo que se tendrá que ε̂ · 1 = 0, es decir, εi = 0.
Cuando la matriz de diseño se reduce exclusivamente al vector 1 tenemos un modelo
nulo, sin variables explicativas, que se puede ver con facilidad que se reduce al modelo
P 2
y = ȳ+ε̂, pues el modelo será y = β̂·1+ε̂ y su estimación obliga a minimizar yi − β̂ ,
P
que derivando nos lleva a que deberá ser yi − β̂ = 0, o lo que es lo mismo, β̂ = ȳ .
Como ŷ se obtiene proyectando y sobre los vectores columna de X tendremos que
−1
ŷ = X β̂ = X X 0 X X 0 y = Hy
!
|ε̂|2
E = σ2
n−p
2
Esto indica que c2 = |ε̂|
σ es un estimador insesgado de σ2.
n−p
ε ∼ N 0, σ 2 I
En nuestro modelo se asume que , y que y = Xβ + ε. A partir de aquí
6
y ∼ N Xβ, σ 2 I
estimados β̂ se pueden obtener por medio de una transformación lineal del vector aleatorio
y : β̂ = (X 0 X)−1 X 0 y . Esto que nos permite calcular fácilmente su distribución, que será:
−1 2
β̂ ∼ N β, X 0 X σ (1)
Esto signica que los β̂ son estimadores insesgados, pero en general no van a ser inde-
ŷ ∼ N Xβ, Hσ 2
ε̂ ∼ N 0, σ 2 (I − H)
ajuste del modelo será tanto mejor cuanto mayor sea el módulo de la componente paralela
2
frente a la perpendicular. Teniendo en cuenta que |y|2 = yk + |y⊥ |2 se podría denir
2
yk
la medida de ajuste R2 = , que tomaría valores entre 0 y 1. Se tendría también que
|y|2
|y⊥ |2
1− R2 = . Sin embargo en estadística la R2 se dene de una forma ligeramente
|y|2
diferente.
Para ver cómo se hace supongamos primero que tenemos dos modelos anidados con
sus correspondientes matrices de diseño X0 < X1 . Estos modelos dan lugar a las dos
por las columnas de X1 contiene al generado por las columnas de X0 resulta que la
descomposición ŷ1 = ŷ0 + (ŷ1 − ŷ0 ) es una descomposición ortogonal del vector ŷ1 . Esto
7
nos lleva a que y = ŷ0 + (ŷ1 − ŷ0 ) + ε̂1 es una descomposición ortogonal del vector y
y a que y − ŷ0 = (ŷ1 − ŷ0 ) + ε̂1 es una descomposición ortogonal del vector y − ŷ0 . La
|ŷ1 − ŷ0 |2
ratio 0 < < 1 puede ser vista como una medida de la mejora en el ajuste que
|y − ŷ0 |2
supone el modelo dado por X1 frente al modelo más reducido dado por X0 . La R usada
2
nulo sin variables explicativas: X0 = 1, con lo que se tiene que ŷ0 = ȳ . La magnitud
2
|y − ŷ0 | es lo que se suele llamar suma total de cuadrados, TSS, que es esencialmente
la varianza total de los datos, parte de la cual, |ŷ1 − ŷ0 |2 , es explicada por el modelo y
2
el resto, |ε̂1 | = RSS , queda sin explicar.
parámetros esenciales:
β̂ − βi
qi ∼ N (0, 1) (2)
x−1
ii σ 2
Sin embargo este resultado no puede ser usado para por ejemplo estimar intervalos de
conanza debido a que el valor de σ2 es desconocido. Sin embargo podemos usar el hecho
|ε̂|2
∼ χ2n−p
σ2
para formar el cociente entre las dos variables aleatorias anteriores (tomando la raiz de la
χ2 dividida por sus grados de libertad), que se distribuirá como una t de student, ya que
√
β̂i −βi/ x−1
ii β̂i − βi
p =q ∼ tn−p (3)
|ε̂|2/n−p
x−1
ii
c2
σ
8
que es idéntica a la ecuación 2 salvo porque se sustituye la σ2 desconocida por su esti-
2
mador c2 = |ε̂| .
σ
n−p
Si la ecuación (3) se eleva al cuadrado se obtiene una variable que sigue una distribución
F:
2
β̂i − βi
2 ∼ F1,n−p
|ε̂|
x−1
ii n−p
todos los estimadores lineales e insesgados de los coecientes, el que tiene menor varianza
(para cada coeciente var β̂OLS es mínima).
ε ∼ N 0, σ 2 I
El modelo que se asume es el de que y = Xβ + ε, con , y se esti-
man los coecientes del modelo para obtener y = X β̂ + ε̂. El que el estimador de los
esto se deduce de forma inmediata que la matriz R verica las propiedades (1), (2) y
var β̂ 0
0
0 0
= RR0 = X + X + + X + R0 − X + + R − X + X + + R − X + R0 − X +
σ2
Veamos que los dos sumandos centrales del sumatorio de la derecha son nulos. Del
hecho de que RX = I se deduce que (R − X + ) X = 0. POr otra parte sabemos que las
columnas de X generan el mismo subespacio que las las de X +, con lo que se tiene
consecuencia es que:
var β̂ 0 0
= RR0 = X + X + + R − X + R0 − X +
σ2
9
Los elementos de la diagonal de la matriz de covarianzas de los estimadores de los
coecientes se expresan como suma de productos escalares de vectores la de las matrices
3. Modelos anidados.
La comparación entre modelos de regresión para ver cuál se ajusta mejor a los datos
se suele hacer entre modelos anidados, es decir entre un modelo pequeño, ω, con una
matriz de diseño X0 , y un modelo grande, Ω, con una matriz de diseño X1 que amplía
la anterior añadiéndole más columnas (y por lo tanto más variables) de forma que el
modelo ω será un caso particular del Ω en el que los coecientes correspondientes a las
La RSS del modelo Ω, |ε̂1 |2 , será siempre menor que la del modelo ω , |ε̂0 |2 : |ε̂1 |2 < |ε̂0 |2 ,
con lo que su ajuste a los datos será mayor. Sin embargo puede que esa mejora en el ajuste
sea tan pequeña que no compense el incremento en complejidad que supone adoptar el
ortogonales: y = ŷ0 + ε̂0 e y = ŷ1 + ε̂1 . Al ser los modelos anidados resultará que
ε̂0 = ε̂1 + (ε̂0 − ε̂1 ) es una descomposición ortogonal de ε̂0 (que además implica que
2 2 2
|ε̂0 | = |ε̂1 | + |ε̂0 − ε̂1 | , o lo que es lo mismo, |ε̂0 − ε̂1 | = |ε̂0 | − |ε̂1 |2 ). Supongamos que
2 2
el modelo pequeño, ω, es cierto. Se tiene entonces que y = ŷ0 + ε̂0 y esto nos conduce a
Dividiendo esta expresión por σ obtenemos una descomposición ortogonal del conjunto
y
de variables aleatorias independientes y N (0, 1) contenidas en el vector . De acuerdo con
σ
lo visto en el apartado 1.4 los módulos al cuadrado de los términos de la desomposición
|ŷ0 |2
∼ χ2p
σ2
|ε̂1 |2
∼ χ2n−q
σ2
|ε̂0 − ε̂1 |2
∼ χ2q−p
σ2
10
Estas variables aleatorias no son directamente utilizables porque el valor de σ 2 es desco-
nocido, pero formando el cociente de dos de las variables anteriores podemos eliminar ese
parámetro desconocido y obtener una variable que sigue una distribución F. Tendremos
entonces que:
un valor pequeño. Por lo tanto, si esta F adopta un valor lo sucientemente elevado como
para que sea improbable, será necesario rechazar la hipótesis nula de validez del modelo
similar a éste en donde los modelos grande y pequeño son modelos con y sin la variable
4. Variables omitidas.
0, σ 2 I
su distribución es ε∼N el resultado que se obtiene por máxima verosimilitud
gonal (luego los términos de error son independientes), pero los elementos de esa
Existe correlación entre los términos de error, con lo que la matriz de covarianzas
no es diagonal.
11
1 1 0 −1
f (y) = exp − (y − Xβ) Σ (y − Xβ)
(2π) /2 |Σ|
n p
2
n 1 1
L = log f (y) = − log 2π − log |Σ| − (y − Xβ)0 Σ−1 (y − Xβ) (4)
2 2 2
modelo:
−1
β̂ = X 0 Σ−1 X X 0 Σ−1 y (5)
c2 = |ε̂|2
Este es un estimar sesgado, con lo que se suele usar σ n−p , que es insesgado. Con
mayor generalidad, si tuviésemos que Σ = σ 2 W −1 (en donde W es una matriz conocida)
−1
β = β0 − X 0 f 0 (β0 ) X 0 f (β0 ) (6)
12
−1
β = β0 + X 0 X X 0 (y − Xβ0 )
La ecuación (5) muestra que β̂ es un estimador lineal, ya que resulta ser de la forma M y .
En consecuencia su varianza se calcula con facilidad si tenemos en cuenta que cov (y) = Σ
y resulta ser:
−1
cov β̂ = X 0 Σ−1 X
Por otra parte, si se calcula la matriz de segundas derivadas de la función loglik resulta
ser:
∂
00 ∂L
L = = −X 0 Σ−1 X
∂β ∂β
Los efectos de que Σ 6= σ 2 I , es decir, de que haya heteroscedasticidad o autocorrelación
de los términos de error, son los siguientes:
zados (GLS).
la ecuación (5) se obtiene lo que se denomina estimador GLS (β̂GLS ). Este estimador
Al ser Σ simétrica y denida positiva tendrá una raíz cuadrada (también simétrica),
de manera que se cumple que Σ = Σ1/2 Σ1/2 y Σ−1 = Σ−1/2 Σ−1/2 . Podemos denominar
Con lo que queda claro que el estimador OLS para x∗ e y ∗ coincide con el estimador
13
siendo ε∗ = Sε. La matriz de covarianzas del nuevo término de error será Σ∗ = var (ε∗ ) =
Svar (ε) S 0 = Σ−1/2 ΣΣ−1/2 = I .
Podemos considerar el caso particular de que haya exclusivamente heteroscedasticidad,
es decir, que la matriz de covarianzas sea diagonal, pero que los valores de esta diago-
nal varíen. El estimador GLS que se obtiene en este caso es el denominado estimador
de mínimos cuadrados ponderados (WLS), ya que en la práctica supone usar los valo-
disponibles (es decir las distintas componentes de los vectores xi ), ponderando más aque-
llas observaciones a las que corresponde una menor varianza en el término de error (las
1/w2
n
w12
..
matriz de ponderaciones .
, que se admite conocida, el estimador WLS
wn2
de los coecientes de la regresión será:
−1 −1
β̂W LS = X 0 Σ−1 X X 0 Σ−1 y = X 0 W X X 0W y
0
y − X β̂ W y − X β̂ P
e2i wi2
2
σ\
W LS = =
n n
Estos mismos estimadores podrían ser obtenidos usando OLS si en lugar de minimizar
e2i , (ei wi )2 ,
P P
la suma de los residuos al cuadrado, se minimiza la suma ponderada,
sobreponderando los casos con varianza pequeña e infraponderando los casos con varianza
alta.
ε ∼ N 0, σ 2 W −1
si asumimos un modelo de la forma y = Xβ + ε, con y buscamos un
estimador de los coecientes que sea lineal, insesgado y de mínima varianza. Esto signica
que el estimador WLS será BLUE (y en general lo mismo ocurre para el estimador GLS).
Como en el caso OLS, que el estimador sea lineal signica que se tiene que β̂ = Ry ,
14
y que sea insesgado signica que E β̂ = RE (y) = RXβ = β para cualquier valor
de β, lo que obliga a que sea RX = I . Se tiene además que var β̂ = Rvar (y) R0 =
1 +
−1
σ 2 RW −1 R0 . 0
Sabemos que β̂W LS = (X W X) X 0 W y , y llamando Xw+ = W 2 X
se puede comprobar con facilidad que Xw+ = (X 0 W X)−1 X 0 W 1/2 , con lo que resulta
que β̂W LS = Xw W
+ 1/2
y . Para un estimador lineal insesgado arbitrario pondemos poner
R = SW , que se convierte para el estimador WLS en R = Xw+ W 1/2 . Con esta notación
1/2
2 0
la varianza del estimador de los coecientes será var β̂ = σ SS y en el caso particular
0
del estimador WLS var β̂W LS = σ 2 Xw+ Xw+ . Poniendo S = Xw+ + (S − Xw+ ) se tiene
que:
0 0 0 0
SS 0 = Xw+ Xw+ + S − Xw+ S − Xw+ + Xw+ S − Xw+ + S − Xw+ Xw+
Por otra parte restando las ecuaciones RX = I para un estimador general y para
+
el estimador WLS llegamos a que (S − Xw+ ) W 1/2
X = 0. Como Xw+ = W 1/2 X y las
columnas de una matriz y las las de su inversa generalizada generan el mismo subespacio
0
se tendrá que (S − Xw+ ) Xw+ = 0, con lo que resulta nalmente que:
0 0
SS 0 = Xw+ Xw+ + S − Xw+ S − Xw+
cientes se expresan como suma de normas de dos vectores. Estas normas son positivas,
luego su valos mínimo se alcanza cuando S − Xw+ = 0, es decir, para el estimador WLS.
Esta misma demostración es válida sin cambios para el estimador GLS, con lo que resulta
En el caso de que haya correlación entre los términos de error (y por lo tanto entre
las variables yi ) estimar la matriz de covarianzas Σ no es tarea sencilla porque hay más
parámetros que observaciones. Lo que se suele hacer es asumir modelos sencillos para las
lo que se traduce en que habrá que estimar un único parámetro, en lugar de todos los de
la matriz de covarianzas.
Referencias
Fox, J. (2008). Applied Regression Analysis and Generalized Linear Models. Thousand
Oaks, California: Sage Publications, Inc.
15