An Alisis de Regresi On: Oscar Melo

Análisis de Regresión
Oscar Melo
Universidad Nacional de Colombia
2 de abril de 2020
Oscar Melo (UNAL) MLG 2 de abril de 2020 1 / 95

Índice
1 BIBLIOGRAFÍA
2 INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NORMAL
3 ESTIMACIÓN POR MÍNIMOS CUADRADOS
Propiedades Geométricas
Propiedades Básicas de Inferencia
Estructura Ortogonal de la matriz de Diseño
Mı́nimos Cuadrados Generalizados
Mı́nimos Cuadrados con Restricciones Lineales
4 CONTRASTES DE HIPÓTESIS EN MODELOS NORMALES
Cálculo de Regiones e Intervalos de Confianza
5 EL COEFICIENTE DE CORRELACIÓN MÚLTIPLE
Propiedades del Coeficiente de Correlación Múltiple
R 2 -Adjusted

6 TEST GLOBAL DE REGRESIÓN. TABLA ANOVA
7 DISTRIBUCIÓN DE LOS VALORES AJUSTADOS
8 EFECTO DE LA SALIDA DE LAS HIPÓTESIS ORDINARIAS
Efecto del Underfitting
Efecto del Overfitting
Matriz de Dispersión Incorrecta
9 DIAGNOSIS Y VALIDACIÓN DEL MODELO
Transformación de Box-Cox
Observaciones Influyentes A Priori
Observaciones Influyentes A Posteriori
10 SELECCIÓN DEL MEJOR MODELO
Procedimiento de ”Backward Elimination”
Regresión Paso a Paso (Stepwise Regression)

1. Bibliografı́a
Referencias Básicas
McCullagh, P., Nelder, J.A.: Generalized Linear Models. Chapman and Hall, 1989.
Dobson, A. J.: An Introduction to Generalized Linear Models. Chapman and
Hall, 1990.
Agresti, A.: Categorical Data Analysis. Wiley Interscience, 1990.
Fahrmeir, L., Tutz, G.: Multivariate statistical modeling based on generalized linear
models. Springer- Verlag,New York, 1994.
Lindsey, J. K.: Applying Generalized Linear Models. Springer, 1997.

Referencias Complementarias
Draper, N.R., Smith, H.: Applied regression analysis. Wiley, 1981.
Fox, J.: Applied Regression Analysis, Linear Models, and Related Methods. Sage,
1997.
Seber, G.A.F.: Linear Regression Analysis. Wiley, 1977.
Cook, R.D., Weisberg, S.: Residuals and Influence in Regression. Chapman and
Hall, 1982.
Peña, D.: Estadı́stica. Modelos y métodos. Vol. 2, Modelos lineales y series
temporales. Alianza Universidad Textos, 1989.

2. Introducción a los modelos de respuesta normal
Sea un vector de observaciones de n componentes, y t = (y1 , ..., yn ),

realización de un vector aleatorio Y t = (Y1 ..., Yn ), cuyas componentes son
estadı́sticamente independientes y distribuidas con medias
µ t = (µ1 , ..., µn ).
En los modelos lineales ordinarios, las componentes de la respuesta

Y t = (Y1 , ..., Yn ) tienen distribuciones normales, independientes con varianza
constante, con E [Y Y ] = µ y varianza σ 2 .
La componente sistemática del modelo consiste en la especificación de un vector
η , el predictor lineal a partir de un número reducido de parámetros a estimar y
regresores; parámetros β t = (β1 , ..., βp ) y regresores X t = (X1 , ..., Xn ). Esta
especificación responde, en notación matricial a η = X β donde η es n × 1, X es
n × p y β es px 1.
El vector µ está funcionalmente relacionado con el predictor lineal η , a través de la
función de link identidad, en los modelos lineales ordinarios η = µ .

Clasificación de los métodos estadı́sticos de análisis

Una distribución pertenece a la familia exponencial si puede escribirse de
la siguiente manera:
h i
y θ−b(θ)
fY (y , θ, φ) = exp a(φ) + c(y , φ)
donde a(·), b(·) y c(·) son funciones especı́ficas con φ conocido y donde se
denomina al único parámetro θ: parámetro canónico.
En la distribución normal:
" #
1 (y − µ)2
fY (y , θ, φ) = √ exp −
2πσ 2 2σ 2
( " #)
y µ − µ2 /2 1 y 2
= exp − + log(2πσ 2 )
σ2 2 σ2
θ2 µ2
donde a(φ) = φ = σ 2 , b(θ) = = (es decir θ = µ) y
" #2 2
1 y2
c(y , φ) = − + log(2πφ) .
2 φ
En la distribución normal:
y θ − b(θ)
`(θ, φ, y ) = logfY (y , θ, φ) = + c(y , φ)
a(φ)
y θ − θ2 /2 1 y 2

= − + log(2πφ)
φ 2 φ
Las propiedades de los scores se concretan en el caso particular de respuesta

normal.
En la distribución normal, E [Y ] = µ y µ(θ) = b 0 (θ) = θ y θ(µ) = µ. Para la
varianza, V [Y ] = a(φ)b 00 (θ) = φ = σ 2 y V [µ] = 1.
En la distribución normal, E [Y ] = µ y η = g(µ) = µ y por tanto el link es la
identidad, lo que parece razonable porque el predictor lineal puede tomar
cualquier valor real y la media también. La identidad es el link canónico.
n
X (yi − µbi )2
Para la ley normal, D 0 (y , µ
b) = 2`(y , φ, y ) − 2`(b
µ, φ, y ) =
i=1
φ
X n
b) = D 0 (y , µ
D(y , µ b)φ = (yi − µbi )2 .
i=1

3. Estimación por mı́nimos cuadrados
Sea el modelo con variable de respuesta contı́nua,
Y = µ + ε = X β + ε,
donde Y , η = µ son n × 1, X es n × p y β es p × 1. En primera instancia

sin ninguna hipótesis sobre la distribución de la variable Y , ni los errores.
La estimación de los parámetros β puede caracterizarse de manera

genérica como, X X
mı́n M(εk ) = M(Yk − x tk β )
β
k k
M(h) = |h|, da lugar a procedimientos de estimación robusta basados

en la norma 1.
M(h) = h2 , que da lugar al método de los mı́nimos cuadrados.

El método de los mı́nimos cuadrados de entrada no requiere de ninguna
hipótesis sobre la distribución de las observaciones.
La función objetivo a minimizar se suele denominar S(β β ) y se define
X
β ) = kεεk2 = ε t ε =
S(β ε2k
k
La función objetivo a minimizar es
β ) =kεεk2 = ε t ε = (Y
S(β β)t (Y
Y − Xβ Y − Xβ
β)
X
= (Yk − x tk β )2 = Y t Y + β t X t X β − 2β
β tX tY
k
β ) son:
Las condiciones de primer orden de mı́nimo de S(β
β)
∂S(β
∇β S(β
β ) = 0 ←→ = 0 j = 1, ..., p
∂βj

Derivando vectorialmente la expresión se obtienen las bien conocidas
ecuaciones normales,
β)
∂S(β
∇β S(β
β) = 0 ↔ X t X β − 2X
=2X X tY = 0
β
∂β
X t X )−1X t Y
b = βb =(X
Si la matriz de diseño es no singular, es decir de rango p, entonces la

solución es única. Si X no es de pleno rango, existen infinitas soluciones a
las ecuaciones normales,
X t X β =2X
2X X tY
h i
X t X )−1X t Y + I − (X
b =βb = (X X t X )−1X t X w , w ∈ <p
pero todas ellas facilitan un predictor lineal yb = µ

b = Xb idéntico y un
mı́nimo de la función objetivo, por tanto idéntico.

En modelos especı́ficos ANOVA y ANCOVA, las dependencias lineales entre
las columnas de la matriz de diseño pueden eliminarse mediante una
reparametrización, que aconsejablemente debe aplicar el estadı́stico, ya que
la interpretabilidad de los parámetros resultantes depende de ella.
A − = (X
X t X )− es una g-inversa o inversa generalizada y satisface AA −A = A . A −
siempre existe, pero no es única. Si además satisface:
1. A −AA − = A − AA− )t = AA −
2. (AA A−A )t = A −A
3. (A
Entonces A − es única y se denomina inversa de Moore-Penrose o p-inversa y nota

como A + .
Las condiciones de segundo orden de suficiencia de mı́nimo requieren que la

β ) sea definida positiva, es decir,
hessiana de S(β
2
2 ∂ S(β β)
∇β S(β β) > 0 ↔ > 0 i, j = 1, ..., p
∂βi ∂βj

3.1 Propiedades geométricas
∂ 2 S(β

β)
∇β2 S(β
β) > 0 ↔ X TX > 0
= 2X i, j = 1, ..., p
∂βi ∂βj
Si la matriz de diseño X es no singular entonces la hessiana es definida positiva y
el punto que satisfaga las condiciones de primer orden es un mı́nimo global.
Propiedades geométricas
Sea <(XX ) el espacio generado por las columnas de X , <(XX ) = {ηη | η = X β
β,
β ∈ <p } ⊂ <n . Sea µb la solución del problema de minimización
mı́nµ kY − µk2 = µ b.
Entonces se puede demostrar que µ b es la proyección ortogonal de Y y es

única, siendo el operador de proyección, la denominada matriz sombrero,
P = X (X X T X )−1X T , puesto que su aplicación a Y facilita los valores
ajustados o predichos de Y , notados Yb , es decir
Y X T X )−1X T Y = PY .
b = Xb = X (X

Gráficamente,
Y −µ b es perpendicular al espacio engendrado por las columnas de la matriz de

diseño <(X).
Los valores ajustados se notan Yb = µ
b = X βb = PY (son únicos).
Los residuos se definen como las diferencias entre los valores observados y los
valores ajustados: e = Y − Y
b = Y −µ b = Y − Xβ b = (II − P )Y
Y (son únicos).
No confundir los residuos, con los errores: ε = Y − µ = Y − X β
β.

Estimación por mı́nimos cuadrados
La matriz P es simétrica e idempotente y representa la proyección

ortogonal de Y sobre <(X X ). Además I − P también es simétrica e
idempotente y representa la proyección ortogonal de Y sobre el
complemento ortogonal de <(X X ), notado como <(XX )⊥ .
Por tanto cualquier vector Y de <n se puede representar de manera
única como la suma vectorial de una componente de <(X X ) más una
segunda componente de <(X ⊥
X) :
Y = PY + (II − P )Y
Y =µ Y −µ
b + (Y b)
La suma de cuadrados residual (RSS, por las siglas en inglés) es el

β ), es decir S(βb ) donde βb es el
valor mı́nimo que toma la función S(β
estimador por mı́nimos cuadrados de los parámetros del modelo
Y = µ + ε = X β + ε,

Estimación por mı́nimos cuadrados
S(βb ) =kee k2 = e T e = (Y b )T (Y
Y −µ Y −µ
b)
Y − X βb )T (Y
=(Y Y − X βb )
T T
Y T Y + βb X T X βb − 2βb X T Y
=Y
T T
Y T Y + βb (X
=Y X T X βb − X T Y ) − βb X T Y
T
Y T Y − βb X T X βb = ESS(= SCE )
=Y

3.2 Propiedades básicas de inferencia
Y = µ + ε = X β + ε,
donde Y , µ son nx 1, X es nxp de rango p y β es px 1 y los errores no son
sesgados: E (εε) = 0.
En ese caso, si βb es el estimador por mı́nimos cuadrados de β entonces es un

estimador no sesgado:
T −1 T
E βb = E (X X X ) X Y = (X X T X )−1X T E (Y X T X )−1X T X β = β
Y ) = (X
Sea el modelo con variable de respuesta contı́nua, descrito de la forma

anterior, con errores no sesgados y no correlacionados de varianza constante:
E (εε) = 0 y V (εε) = σ 2I n Cov (εi , εj ) = δij σ 2


Teorema de Gauss-Markov
X T X )−1X T Y ,
El estimador lineal no sesgado de mı́nima varianza de β es βb = (X
estimador por mı́nimos cuadrados.
El teorema sigue siendo válido si la matriz de diseño no es de rango completo

(rango inferior a p), en cuyo caso la expresión del estimador por mı́nimos
cuadrados debe contener la inversa generalizada.
En el modelo actual, un estimador no sesgado de σ 2 , notado s 2 es,
eTe Y − X βb )T (Y
(Y Y − X βb ) SCE
s2 = = =
n−p n−p n−p
Sea el modelo con variable de respuesta continua,
Y = µ + ε = X β + ε,
donde Y , µ son n × 1, X es n × p de rango p y β es p × 1 y los errores son

no sesgados, de varianza constante,
independientes y distribuidos
normalmente: ε ∼ Nn 0, σ 2I n o equivalentemente Y ∼ Nn X β β, σ 2I n .
Entonces, el estimador lineal no sesgado de mı́nima varianza de β es
β X T X )−1X T Y , estimador por mı́nimos cuadrados y coincide con el estimador
b = (X
de β por maximización de verosimilitud βbMV .
En ausencia de normalidad, los estimadores por mı́nimos cuadrados no son
eficientes, es decir tienen una varianza superior a la varianza de los estimadores
MV .
En el modelo actual, el estimador no sesgado de σ 2 , notado s 2 es eficiente (de
mı́nima varianza),
eTe (Y b)T (Y
Y − Xβ Y − Xβ
b) SCE
s2 = = =
n−p n−p n−p
Teorema de distribución de los estimadores de los parámetros (Th 3.5 Seber
(1977), pag. 54):
X T X )−1 .

1 βb ∼ Np β , σ 2 (X
T T −1
2 βb − β V −1 βb βb − β = βb − β X TX βb − β /σ 2 ∼ χ2p .
3 X T X )−1X T Y es independiente de s 2 .
βb = (X
4 SCE /σ 2 = (n − p)s 2 /σ 2 ∼ χ2p .

3.3 Estructura ortogonal de la matriz de diseño
Sea el modelo con variable de respuesta continua,
Y = µ + ε = X β + ε,
donde Y , η = µ son n × 1, X es n × p de rango p y β es p × 1 y los errores

son no sesgados de varianza constante,
independientes y distribuidos
normalmente: ε ∼ Nn 0, σ 2I n o equivalentemente Y ∼ Nn X β β, σ 2I n .
Supóngase que la matriz de diseño X se puede dividir en

k grupos de columnas X = (X X 1 , ..., X k ), lo que induce β1
 
una división en el vector de parámetros y que las
β =  ... 
 
columnas son mútuamente ortogonales por grupo, es
decir X T
i X j = 0, ∀i,j , i 6= j.
βk
Entonces, los estimadores por mı́nimos cuadrados tienen una estructura especial
que les hace depender únicamente del bloque correspondiente, de manera que
cambios en la configuración de los otros bloques no afectan a la estimación
(supresión de ellos tampoco).
Estimación MC. Estructura de la matriz de diseño
Supóngase que la matriz de diseño X se puede dividir en k grupos de
columnas X = (X X 1 , ..., X k ), mútuamente ortogonales por grupo.
X T X )−1X T Y
βb =(X
 T −1  T 
X1 X1 0 ··· 0 X1 Y
T  X T
 0 X 2 X2 ··· 0   2Y

= .

.. .. ..   .. 
 .. . . .   . 
0 0 ··· XT k Xk XT
kY
T −1 T
   
X 1 X 1) X 1 Y
(X β̂1
(XX T −1 T 
 2 2 X ) X 2 Y  β̂2 
 
= .. = . 
 .   .. 
T −1
X k X k) X k Y T
(X β̂k
La suma de cuadrados residual toma la forma en este caso particular de,
k
T X T
SCE = ESS = Y T Y − βb X T X βb = Y T Y − βb r X T
r Y
r =1

Si se fija un grupo de los parámetros en cero, β
b = 0, entonces el único
r
cambio en la suma de cuadrados residual viene de la adición del término
T
βb r X T
r Y = 0.
Una propiedad interesante que apunta hacia el criterio óptimo de selección

de una matriz de diseño X fue demostrada por Hotelling:
Dada una matriz de diseño X tal que x T 2

i x i = ci , ∀i , i = 1, ..., p, entonces
2 2
σ b)≥ σ .
V (βb i ) ≥ 2 y si además x T
i x j = 0, ∀i,j , i 6
= j, entonces V (β i
ci ci2
La ortogonalidad de las columnas de la matriz de diseño garantiza la mı́nima

varianza del estimador mı́nimo cuadrático de los parámetros.
Si las columnas de la matriz de diseño tienden a ser linealmente
dependientes, es decir la matriz X T X tiende a la singularidad con lo que su
inversa está mal condicionada (valores propios muy elevados), y por tanto, la
varianza de los estimadores de los parámetros β pueden ser muy poco
eficientes (varianza alta, por tanto baja precisión).

3.4 Caso particular: la regresión lineal simple
Sea el modelo con variable de respuesta contı́nua, Y = µ + ε = X β + ε , donde

Y , η = µ son n × 1, X = (1 x ) es n × 2 de rango 2 y β es 2 × 1 y los errores son
no sesgados de varianza mı́nima, independientes y distribuidos
normalmente
ε ∼ Nn 0, σ 2I n o equivalentemente Y ∼ Nn X β β, σ 2I n .
El modelo ordinario de regresión lineal simple presupone una recta de

relación entre la variable explicativa x asociada al parámetro β2 y la variable
de respuesta Y .
La recta no tiene por qué pasar por el origen, y por tanto, la matriz de
diseño contiene una columna constante con valores 1, a la que se asocia el
denominado término independiente, parámetro β1 .
En resumen y después de haber descrito la particularización de la notación
general al modelo de RLS clásico, lo que se persigue es determinar “de la
mejor manera posible” los coeficientes de la recta de regresión que relaciona
la variable de respuesta Y con la variable explicativa x , Yi = β1 + β2 xi + εi .

Los estimadores por mı́nimos cuadrados ordinarios se obtienen planteando
las ecuaciones normales:
X
Y − Xβ
β ) = (Y
S(β β)T (Y
Y − Xββ) = (Yk − β1 − β2 xk )2
k
β) son: ∇β S(β
Las condiciones de primer orden de mı́nimo de S(β) β ) = 0 si y
solo si
β)
∂S(β X
= 0 = −2 (Yk − β1 − β2 xk )xk
∂β2
k
X X X
Yk xk =βb1 xk + βb2 xk2
k k k
β)
∂S(β X
= 0 = −2 (Yk − β1 − β2 xk )xk
∂β1
k
X X
Yk =nβb1 + βb2 xk
k k
Y =βb1 + βb2 x

Esta última ecuación indica que la recta de regresión siempre pasa por el
punto (x , y ), y dividiendo la primera por el número de observaciones n y
restando la segunda se obtiene:
P P 2 P
k Yk xk k xk k xk 2
− Y x =β 2b − x + β1 b −x
n n n
cov (Y , x )
Cov (Y , x ) =βb2 sx2 → βb2 =
sx2
P 2
SCE e
La estimación de la varianza del modelo resulta: s 2 = = k k.
n−2 n−2
X T X )−1 puede expresarse en

La varianza de los estimadores βb ∼ N2 β , σ 2 (X
este caso particular como:
σ2
V (βb2 ) =
nsx2
σ2 x2

V (βb1 ) = 1+
nsx2 sx2

3.5 Mı́nimos cuadrados generalizados
Sea el modelo con variable de respuesta contı́nua, Y = µ + ε = X β + ε ,

donde Y , η = µ son n × 1, X es n × p de rango p y β es p × 1 y los
errores son no sesgados y correlacionados distribuidos normalmente:
ε ∼ Nn 0, σ 2I n o equivalentemente Y ∼ Nn X β β, σ 2I n , donde W es una

matriz simétrica y definida positiva de dimensión n × n.
β, σ 2I n es simétrica y definida positiva,

Si W en el modelo Y ∼ Nn X β
entonces puede calcularse una matriz no singular K triangular inferior de
dimensión n × n tal que W = KK T . Esta matriz es única, es la
factorización de Cholesky de W . Los elementos de K se pueden determinar
a partir de la factorización de Cholesky o a partir de la descomposición
triangular (vista en el curso de Algebra Lineal),
DLT ) = LD 1/2D 1/2L T = (LD

W = LU = L (DL LD 1/2 )(D
D 1/2L T ) = KK T

La matriz K que aparece en la factorización de W permite calcular las
transformaciones lineales de las observaciones (notado Ye ), la matriz de diseño X
e
y los errores e
ε:
1 Ye = K −1Y .
2 e = K −1X .
X
3 ε = K −1ε .
e
4 K −1Y = K −1η + K −1ε = K −1X β + K −1ε ↔ Ye = X
eβ + e
ε.
Ahora el modelo transformado Ye = X

eβ + e
ε tiene errores no correlacionados
2
de varianza σ ,
V (Y
e ) =V (X
eβ + e
ε) = V (e K −1ε) = K −1 V (εε)(K
ε) = V (K K −1 )T
=σ 2K −1WK −T = σ 2K −1KK T K −T = σ 2I n
Por tanto, se puede emplear los resultados y propiedades para inferencia de

los mı́nimos cuadrados en observaciones no correlacionadas al minimizar
sobre eε . A los estimadores de los parámetros calculados al minimizar se les
denominará βe (beta tilde, no beta sombrero como en los MCO).
e β ) y se define como:
La función objetivo a minimizar es S(β
e β ) = ke 2 T P 2
S(β εk = eε e ε = k εek o bien,
e β) = e
S(β
T
ε eε = (Ye − Xβ e β ) = Ye T Ye + β T X
e β )T (Ye − X eTX e T Ye
βT X
e β − 2β
e β ) son:
e β)
e β ) = 0 ↔ ∂ S(β
∇β S(β =0 i = 1, ..., p
∂βi

ecuaciones normales
e β)
∂ S(β
∇β S(β
e β) = eTX
=2X e β − 2Xe T Ye = 0
β
∂β
eTX e T Ye = (K
−1 T −1 −1 −1 T −1
βe =(X e )−1X K X) K X K X) K Y
(K
−1 T
KK T )−1X KK T )−1Y
T
= X (KK X (KK
X T W −1X )−1X T W −1Y
=(X

Los textos teóricos sobre regresión lineal indican que en general los
estimadores βe no coinciden con los estimadores por mı́nimos
cuadrados ordinarios βb , únicamente coinciden si W = I n .
Resulta fácil de ver, que βe es no sesgado y calcular su varianza:
T −1 −1 T −1
X W X) X W Y
E (βe ) =E (X
T −1 −1 T −1
X W X ) X W Xβ = β
=E (X
eTX
−1 T −1 −1
V (βe ) =σ 2 (X e )−1 = σ 2 (K
K X) K X
T −1
−1
2
X T W −1X )−1
T
=σ (X X (KK
KK ) X = σ 2 (X
T T T T
SCE =Ye Ye − βe X
e X K −1Y )T K −1Y − βe (K
e βe = (K K −1X )T K −1X βe
T
KK T )−1Y − βe X T (KK
Y T (KK
=Y KK T )−1X βe = (Y
Y − X βe )T W −1 (Y
Y − X βe )
Un caso particular de los mı́nimos cuadrados generalizados se da ante errores no
correlacionados, pero de varianza no constante. Por tanto la matriz W es diagonal
(con valores positivos) y simétrica.
Este caso es de especial interés en el curso de modelos lineales, puesto que los
procedimientos habituales de estimación MLG emplean métodos iterativos donde a
cada iteración hay que resolver unos mı́nimos cuadrados ponderados. Veamos con
detalle este caso cuando existe un solo regresor más un término independiente,
p = 2.
Sea el modelo con variable de respuesta contı́nua, Y = µ + ε = X β + ε , donde Y ,

η = µ son n × 1, X es n × 1 y β es 2 × 1 y los errores son no sesgados
y correlacionados

con distribución normal y varianza no constante: ε ∼ Nn 0, σ 2D o Y ∼ Nn X β β, σ 2D ,
D matriz diagonal, definida positiva, de dimensión n × n.
Si
1/w1 0 ··· 0
 
 0 1/w2 ··· 0 
D=
 ... .. .. .. 
. . .

0 0 ··· 1/wn
entonces es simétrica y wi > 0, ∀i entonces puede calcularse una matriz no
singular K triangular inferior de dimensión n × n tal que D = KK T = D 1/2D 1/2 .

La matriz K que aparece en la factorización de D permite calcular las
transformaciones lineales de las observaciones (notado Ye ), la matriz de
diseño X ε:
e y los errores e
1 Ye = K −1Y = D −1/2Y .
2 e = K −1X = D −1/2X .
X
3 ε = K −1ε = D −1/2ε .
e
4 D −1/2Y = D −1/2η + D −1/2ε = D −1/2X β + D −1/2ε ↔ Ye = X
eβ + e
ε.
Ahora el modelo transformado Ye = X

eβ + e
ε tiene los residuos no
2
correlacionados de varianza σ ,
V (Ye ) = σ 2I n
Por tanto, se puede emplear los resultados de propiedades e inferencia de los

mı́nimos cuadrados para observaciones no correlacionadas al minimizar sobre
ε . Al estimador del parámetro calculado al minimizar se le denominará βe
e
(beta tilde, no beta sombrero como en los MCO).

T
ε y se define como, kεεk2 = e εe2k
P
La función objetivo a minimizar es e ε e ε= k
o bien, la función objetivo a minimizar en regresión lineal simple es
n
X
T e β )T (Ye − X
e β) = e
S(β ε eε = (Ye − X eβ ) = wi (Yi − β1 − xi β2 )2
i=1
e β ) son:
e β)
∂ S(β
=0
β
∂β

ecuaciones normales,
e β) n
∂ S(β eTX
e β − 2Xe T Ye = 0 → 2
X
=2X wi (Yi − β1 − xi β2 )xi = 0
∂β2 i=1
Pn
eTX e T Ye = (X
e )−1X wi Yi xi
βe =(X X T D −1X )−1X T D −1Y ; β2 = Pi=1 n 2
i=1 wi xi

Resulta fácil calcular la varianza de βe y la suma de cuadrados residual del
modelo:
T
V (βe ) =σ 2 (Xe Xe )−1 = σ 2 (X
X T D −1X )−1
σ2
V (βe2 ) = Pn 2
i=1 wi xi
T T T
SCE =Ye Ye − βe Xe Xe βe
=(Y β )T D −1 (Y
Y − X β̃ Y − X β̃
β)
n
X 2
= wi Yi − β̃1 − xi β̃2
i=1

Sı́ntesis de la estimación e inferencia por mı́nimos
cuadrados con respuesta normal

3.6 Mı́nimos cuadrados con restricciones lineales
Sea el modelo con variable de respuesta contı́nua, Y = µ + ε = X β + εε, donde

Y , η = µ son n × 1, X es n × p de rango p y β es p × 1 y los errores son no
sesgados y correlacionados de varianza constante: E (εε) = 0 y V (εε) = σ 2I n .
β ) sujeto a un conjunto de
Supongase que se desea calcular el mı́nimo de S(β
restricciones lineales Aβ = c donde A es una matriz q × p de rango q < p.
El método de los mı́nimos cuadrados no requiere de ninguna hipótesis sobre
la distribución de las observaciones, la función objetivo a minimizar se suele
denominar S(β β ) y se define como,
β ) = ε T ε = Y T Y + β T X T X β − 2β
mı́n S(β βT X T Y
sujeto a
Aβ = c
El resultado es un programa de optimización cuadrático con restricciones
lineales de igualdad, a cada una de las cuales se le asocia un multiplicador
de Lagrange λi , cuyo valor es único si la matriz A es de rango completo.
La formulación de la función lagrangiana de manera vectorial es,
β ) − λ T (Aβ
β , λ ) =S(β
L(β Aβ − c )
Y T Y + β T X T X β − 2β
=Y β T X T Y − λ T (Aβ
Aβ − c )
Sea βbi los estimadores por mı́nimos cuadrados con restricciones y sea βb los
estimadores ordinarios por mı́nimos cuadrados.
Las condiciones de primer orden de mı́nimo con restricciones son:
β , λ)
∂L(β
∇β L(β
β , λ) = 0 ↔ =0 i = 1, ..., p
∂βi
β , λ)
∂L(β
∇λ L(β
β , λ) = 0 ↔ =0 i = 1, ..., q
∂λi
β , λ)
∂L(β
∇β L(β
β , λ) = 0 ↔ X T X β − 2X
= 2X X T Y − AT λ = 0
β
∂β
β , λ)
∂L(β
∇λ L(β
β , λ) = 0 ↔ = −(Aβ
Aβ − c ) = 0
∂λλ

1 T −1 T 1 T −1 T
X T X )−1X T Y + (X
βb R =(X X X ) A λ = βb + (X
X X) A λ
2 2
b − c =0
Aβ R
Las condiciones de primer orden de mı́nimo con restricciones son
1
X T X )−1A T λ − c = 0
Aβb + A (X
2
−1
X T X )−1A T

λ = 2 A (X c − Aβb
Por lo tanto,
−1
X T X )−1A T A (X
X T X )−1A T

βb R =βb − (X Aβb − c
Las condiciones de segundo orden de suficiencia de mı́nimo con restricciones

requieren que la hessiana de S(ββ ) respecto los parámetros β proyectada
sobre el espacio ortogonal a las restricciones sea definida positiva, es decir, si
Z es una matriz de dimensión p × (p − q) y rango completo por columnas
que expanden el espacio ortogonal a las restricciones de igualdad entonces,
∂ 2 S(β

β)
Z T ∇2β S(β Z > 0 ↔ ZT
β )Z Z >0 i, j = 1, . . . , p
∂βi ∂βj
∂ 2 S(β

β)
∇2β S(β
β) = = 2X X T X , i, j = 1, . . . , p. Si la matriz de diseño X es
∂βi ∂βj
no singular, entonces la hessiana proyectada es definida positiva:
Z T ∇2β S(β Z = Z T (2X
β )Z X T X )Z
Z > 0. Por tanto, las condiciones de primer
orden de mı́nimo con restricciones, son condiciones suficientes.
Desde un punto de vista formal, la extensión al cálculo de estimadores por
mı́nimos cuadrados con restricciones de igualdad y/o desigualdad no
presenta ningún problema técnico: se formarı́a la función lagrangiana
correspondiente y se determinarı́a el mı́nimo por planteo de las condiciones
de optimalidad de K-T-T.
El cálculo de estimadores por mı́nimos cuadrados con restricciones de
igualdad es fundamental en estadı́stica, puesto que los contrastes de
hipótesis suelen resolverse por esa técnica o sencillamente la comparación
entre modelos jerárquicos habitual en las tablas ANOVA o ANODE.

4. Contrastes de hipótesis en modelos normales
Sea el modelo con variable de respuesta continua y normal,
Y = µ + ε = X β + ε,

son no sesgados y no correlacionados de varianza constante: E (εε) = 0 y
V (εε) = σ 2I n . Los estimadores ordinarios por mı́nimos cuadrados se vienen
notando βb .
Sea el modelo con variable de respuesta continua y normal,
Y = µ + ε = Xβ + ε

son no sesgados y no correlacionados de varianza constante: E (εε) = 0 y
V (εε) = σ 2I n sujeto a un conjunto de restricciones lineales Aβ = c que
definen una hipótesis a contrastar denominada H, donde A es una matriz
q × p de rango q < p.
Los estimadores ordinarios por mı́nimos cuadrados se notarán βb .
H

En una sección anterior se ha ilustrado la relación entre los estimadores
ordinarios por mı́nimos cuadrados y los estimadores ordinarios por mı́nimos
cuadrados restringidos:
h i−1
X T X )−1A T A (X
βb H = βb − (X X T X )−1A T Aβb − c
Sea SCE la suma de cuadrados residual del modelo completo y SCEH

la suma de cuadrados residual del modelo restringido, que tienen por
expresión:
Y − X βb )T (Y
SCE = (Y Y − PY )T (Y
Y − X βb ) = (Y Y − PY ) = Y T (II − P )Y
Y
y
Y − X βb H )T (Y
SCEH = (Y Y − X βb H )
El contraste de la hipótesis H puede realizarse a partir de un

estadı́stico distribuido según la ley de Fisher y relacionado con la
variación de la suma de cuadrados residual y los grados de libertad del
modelo que se justifica en los siguientes puntos y recibe el nombre de
contraste de la varianza incremental.
Contrastes en modelos normales. Varianza incremental
1.
h i h i
SCEH − SCE = Y T Y − (X
X T Y )T β
bH − Y T Y − (X
X T Y )T β
b
T T
X T Y )T β
=(X X T Y )T β
b − (X X T X )β
bH = βb (X X T X )β
b − βbH (X bH
b − βbH )T (X
=(β X T X )(β
b − βbH )
h −1 iT
X T X )−1A T A (X
= (X X T X )−1A T Aβ
(A b − c) X TX )
(X
h −1 i
X T X )−1A T A (X
× (X X T X )−1A T Aβ
(A b − c)
−1 −1
X T X )−1A T
b − c )T A (X X T X )−1A T A (X
X T X )−1A T

Aβ
=(A A (X
× (A
Aβb − c)
−1
X T X )−1A T
b − c )T A (X

Aβ
=(A Aβ
(A b − c)
2.
−1
E [SCEH − SCE ] =σ 2 q + (Aβ X T X )−1A T
Aβ − c )T A (X

Aβ − c )
(Aβ
que se demuestra empleando lemas técnicos sobre las propiedades de esperanzas y
varianzas de formas cuadráticas de variables normales.
Contrastes en modelos normales. Varianza incremental
3. Si la hipótesis H es cierta, entonces se puede demostrar que

−1
X T X )−1A T

(SCEH − SCE )/q Aβ
(A b − c )T A (X Aβ
(A b − c)
0
F = = ∼ F(q,n−p,λ)
SCE /(n − p) qs 2
4 Si c = 0, entonces el estadı́stico F puede expresarse a partir de las matrices de

proyección ortogonales, de manera compacta:
(SCEH − SCE )/q Y T (P

P − P H )Y
Y /q
F = = T
SCE /(n − p) Y (II − P )Y
Y /(n − p)
La justificación del test puede realizarse a partir de la estimación de la varianza del

modelo por la suma de cuadrados residual del modelo restringido SH2 , que tiene por
esperanza matemática usando el resultado del punto 2:
−1
X T X )−1A T

Aβ − c )T A (X

SCEH − SCE (Aβ Aβ − c )
(Aβ
E [SH2 ] = E = σ2 +
q q

h i−1
X T X )−1A T
Pero como la matriz es A (X definida positiva
E [SH2 ]
= σ2
+ δ con δ ≥ 0, facilita una estimación sesgada de la
varianza del modelo ya que,
SCE

2
E (S ) = E = σ2
n−p
Sin embargo, si H es cierta entonces δ = 0 tanto SH2 como s 2 son

estimadores no sesgados de σ 2 , y por tanto, el estadı́stico
SH2
F =
s2
toma un valor alrededor de 1. H es rechazada si el estadı́stico F toma
valores significativamente grandes.

4.1 Cálculo de regiones e intervalos de confianza
Consideración
Un problema habitual en estadı́stica reside en el cálculo de intervalos de confianza
bilaterales para k combinaciones lineales de los parámetros con una probabilidad
1 − α en cada intervalo por separado, implica una probabilidad global simultanea
de veracidad que no es 1 − α, sinó más pequeña del orden 1 − kα.
Por ejemplo con k = 10 intervalos a un nivel habitual α = 0,05 implica

1 − kα = 0,5.
Los intervalos de confianza de Bonferroni son una salida rudimentaria al
problema anterior, que fuerza al calculo de intervalos de confianza
individuales a un nivel α/k, para conseguir una probabilidad simultanea
conjunta de certeza del nivel 1 − α.
El método de Scheffé es más difı́cil de justificar, pero facilita intervalos más
fiables y tiene en cuenta las relaciones entre los parámetros.

Los intervalos de confianza para los coeficientes individuales βi se
obtienen mediante la fórmula habitual:
βbi − βi
t= ∼ t(n−p)
σ
bb
β
i
Por lo tanto,
βbi ± t(n−p),α/2 σ
bb
β
i
s
q
SCE
donde σ β
X T X )−1
b b = s (X ii y s = σ
b= .
i n−p
Además, t(n−p),α/2 es el valor correspondiente al estadı́stico t de
Student para el cálculo de un intervalo de confianza bilateral a un
nivel α con los grados de libertad correspondientes a la estimación de
varianza del modelo (n − p).

Los contrastes de significación se realizarán a partir del cálculo del
βbi − βi
estadı́stico t = ∼ t(n−p) y su comparación con el valor de la
σ
bb
βi
ley t de Student de n − p grados de libertad al nivel de confianza,
unilateral o bilateral, deseado.
Los coeficientes βi son estadı́sticamente dependientes y por tanto los
intervalos de confianza individuales pueden dar una imagen errónea de sus
valores conjuntos

5. Coeficiente de correlacción múltiple
Una medida de la bondad del modelo ajustado a los datos, en los modelos
lineales normales, es el coeficiente de correlación múltiple, R, definido como
el coeficiente de correlación muestral entre los datos yk y los valores
ajustados ybk : P
k (yk − y )(byk − yb)
R=h i1/2
P 2
P 2
k (yk − y ) k (b
y k − y
b )
El estadı́stico R 2 se denomina coeficiente de determinación.

La descomposición de la suma de cuadrados total (SCT ) como suma de
cuadrados explicada (SCM) por el modelo más suma de cuadrados residual
(SCE ) es un resultado conocido y muy útil en modelos lineales que incluyen
término independiente (por simplicidad, supóngase que es el primer
parámetro β1 ).

P 1 P
1 SCT = k
(yk − y )2 donde y = k
yk es la media muestral de las observaciones.
P Pn
2 SCM = y − y )2 y SCE =
(b
k k k k
yk )2 .
(y − b
3 SCT = SCM + SCE es decir
X X X
(yk − y )2 = yk − y )2 +
(b (yk − b
yk )2
k k k
ya que
X X 2
(yk − y )2 = (yk − b yk − y )
yk ) + (b
k k
X X X
= yk − y )2 +
(b yk )2 + 2
(yk − b (yk − b yk − y )
yk )(b
k k k
X X
= yk − y )2 +
(b yk )2
(yk − b
k k
donde,
X X X
(yk − b yk − y ) =
yk )(b (yk − b yk − y
yk )b (yk − b
yk )
k k k
X
= (yk − b
yk )b
yk = (Y b )T Yb
Y −Y
k
Y − PY )T PY = Y T (II − P )PY
=(Y PY = 0

El coeficiente de correlación múltiple puede reescribirse a partir del resultado anterior:
P P
k
yk − b
(yk − y k )(b y) k
(yk − y k )(b
yk − y )
R =h i1/2 = hP i1/2
P 2
P 2
P
(y − y )
k k
y −b
(b
k k
y) (y − y )2
k k
(b
k k
y )2
y −b
P P P
k
(yk − b
yk + b yk − y )
yk − y )(b k
(yk − b yk − y ) +
yk )(b k
yk − y )2
(b
=h i1/2 = hP i1/2
P P P
k
(yk − y )2 k
(b y )2
yk − b k
(yk − y )2 k
(b y )2
yk − b
P P 1/2
yk − y )2
(b y − y )2
(b
=h k
i1/2 = Pk k 2
P P k
(yk − y )
k
(yk − y )2 k
(b y )2
yk − b

El coeficiente de determinación puede reescribirse ahora:
yk − y )2
P
2 (b SCM SCE
R = Pk = =1−
k
(yk − y )
2 SCT SCT
o equivalentemente SCE = (1 − R 2 )SCT .

El test basado en el estadı́stico de Fisher para cualquier hipótesis lineal Aβ = 0: H,
donde A es una matriz q × p de rango q < p puede reescribirse en función del
coeficiente de determinación del modelo completo, R 2 , y del coeficiente de
correlación del modelo bajo la hipótesis nula RH2 (modelo restringido), si la
hipótesis no involucra al forzosamente existente término independiente del modelo
(usualmente parámetro 1, ligado a una columna de la matriz de diseño que
contiene unos en todas las posiciones):
2
2

(SCEH − SCE )/q n − p (1 − RH )SCT − (1 − R )SCT
F = =
SCE /(n − p) q (1 − R 2 )SCT
n − p R 2 − RH2 )
= ∼ F(q,n−p)
q (1 − R 2 )

5.1 Propiedades del coeficiente de correlación múltiple
1 |R| ≤ 1 y si |R| = 1 existe una relación funcional exacta entre la

respuesta y los regresores.
2 R es el coeficiente de correlación lineal simple entre los valores
observados y los valores ajustados.
3 100(1 − R 2 ) representa el % de variabilidad no explicada por el
modelo.

5.2 R 2 − adjusted
Los modelos de regresión lineal ordinarios suelen tener un parámetro

vinculado a un regresor constante, cuya columna en la matriz de diseño
contiene 1 y se denomina término independiente. Arbitrariamente, el
primero de los parámetros suele denotar el término independiente: β1 .
La presencia de término independiente facilita la interpretabilidad del

modelo de regresión ya que permite reescribir el coeficiente de
determinación:
X X 2
SCT = (Yk − Y )2 = Y T Y − 2 Y (Yk ) + nY
k k
T
X 2
Y Y − 2Y
=Y (Yk ) + nY
k
2
Y T Y − nY
=Y

X 2 T X 2
SCM = ybk − yb = Yb Yb − 2 Y (Y
bk ) + nY
k k
T 2 T 2
Y PY − nY = Y X βb − nY
=Y
2
2 Y T X βb − nY SCM SCE
R = 2 = =1−
Y TY − nY SCT SCT
Algunos estadı́sticos prefieren emplear al valorar los modelos de regresión

ordinarios, el denominado coeficiente de determinación ajustado, ajuste que
se refiere a la introducción de los correspondientes grados de libertad de
SCT y SCE , muy relacionado con el estadı́stico Cp de Mallows:

SCE /n − p n−1
Ra2 = 1 − = 1 − (1 − R 2 )
SCT /n − 1 n−p
El coeficiente de determinación ajustado siempre es inferior al coeficiente de
determinación y puede tomar valores negativos. Si R 2 siempre crece al
incrementar el número de regresores, ya que la suma de cuadrados residual
siempre se reduce,Ra2 únicamente sufre un incremento al añadir uno o más
nuevos regresores, si el estadı́stico de Fisher F correspondiente al test de
significación de los nuevos regresores toma un valor superior a 1.
6. Test global de regresión. Tabla de ANOVA
El test global de regresión es un caso particular del contraste de hipótesis

múltiples en modelos con término independiente, donde la hipótesis H a
contrastar es que todos los parámetros son cero, excepto el correspondiente
al término independiente: β2 = 0, ..., βp = 0
(SCEH − SCE )/q (SCT − SCE )/(p − 1)

F = =
SCE /(n − p) SCE /(n − p)
SCM/(p − 1) SCM 0
= = ∼ F(p−1,n−p,λ)
SCE /(n − p) (p − 1)s 2
O bien en función de los coeficientes de determinación del modelo completo

(R 2 ) y del modelo bajo la hipótesis (únicamente con el parámetro β1 , RH2 ):
n − p (R 2 − RH2 ) 0
F = ∼ F(p−1,n−p,λ)
p − 1 (1 − R 2 )

Tabla ANOVA
El contraste global de regresión se ve clarificado si la descomposición de la

varianza se escribe en forma de tabla ANOVA, algo habitual en los paquetes
estadı́sticos:
Descomposición Grados libertad Varianza Contraste

yk − y )2 2 2
/s 2
P
SCM Pk (b p−1 SM = SCM/(p − 1) F = SM
b2 s 2 = SCE /(n − p)
SCE Pk (yk − y )2 n−p
SCT k (yk − y ) n−1 SY2 = SCT /(n − 1)

7. Distribución de los valores ajustados
Sea Yb el valor ajustado para la observación k-ésima que tiene por

k
valores de los regresores x T Tb
k = (1, x2 , ..., xp ) : YK = x k β .
b
1 bk ] = E [xx T βb ] = x T β .
E [Y k k
bk ] = V [xx T βb ] = x T V [βb ]xx k = σ 2x T (X T −1 2

V [Y k X X ) x k = σ pkk , donde pkk es el
2
k k
término diagonal k-ésimo de la matriz de proyección, que por ser
idempotente tiene valores entre 1/n y 1. La varianza del valor ajustado es
mı́nima si se encuentra en el centro de gravedad de los regresores.
3 Se distribuye normalmente.
Si x T = (1, x2 , ..., xp ) son los valores de los regresores que permiten

hacer una prognosis sobre un valor medio ajustado Y b :Yb = x Tβ
b.

Las fórmulas anteriores para la determinación de su esperanza y su varianza
X T X )−1x , pero al no ser un punto
b ] = σ 2x T (X
siguen siendo válidas, V [Y
considerado en la matriz de diseño para la estimación de los parámetros
X T X )−1x puede ser superior a la unidad e incluso arbitrariamente
x T (X
grande.
La precisión de las estimaciones en la extrapolación de un modelo de
regresión a un rango de valores x fuera del rango empleado para la
estimación puede ser muy deficiente.
En la literatura sobre modelos de regresión, la distribución de los valores
ajustados se suele denominar distribución de los valores medios (no se
considera el término de residuo) y los intervalos de confianza se calculan en
base a la ley t de Student de n − p grados de libertad:
b − xT β
Y b − xT β
Y
≈ N(0, 1) → t = ≈ tn−p donde
σby σ
by
p p
σ b x T (X T X )−1 x = s x T (X T X )−1 x
bYb = σ
Con lo que un intervalo de confianza bilateral a un nivel α para el verdadero
valor medio viene determinado por: Y b ± t α/2 σ
n−p b
bY
La predicción de un valor particular no observado Y∗ = x T β
b + ε∗ para quien los
regresores toman por valor x∗T = (1 x2 ... xp ) requiere de la estimación de las
perturbaciones aleatorias, es decir, de la estimación de la varianza de las perturbaciones
aleatorias para predicciones con valores de los regresores x∗T = (1 x2 ... xp ):
Y∗ = x T βb + ε∗ y ε∗ independiente de las perturbaciones aleatorias de las observaciones
empleadas para la estimación εT = (ε1 ... εn )
1 b∗ ] = E [x∗T β − x∗T βb] = x∗T β − x∗T β = 0 es centrada

E [ε∗ ] = E [Y∗ − Y

2 b∗ ] = V [Y∗ ] + V [x∗T βb] = σ2 + x∗T V [βb]x∗ = σ2 1 + x∗T (X T X )−1 x∗
V [ε∗ ] = V [Y∗ − Y
3 Las perturbaciones aleatorias ajustadas estan distribuidas normalmente y son
correlacionadas:
ε=Y −Y b ≈ N 0, σ2 I + X (X T X )X T
Los intervalos de confianza se calculan en base a la ley t de Student de n-p grados de

libertad:
ε ε
≈ N(0, 1) → t = ≈ tn−p donde
σε p σbε p
σ 1 + x T (X T X )−1 x = s 1 + x T (X T X )−1 x
σbε = b

. . . Con lo que un intervalo de confianza bilateral a un nivel α para el
α/2
verdadero valor de la perturbación aleatoria viene determinado por: ±tn−p σ bε
Lo que lleva al cálculo de un intervalo de confianza bilateral a un nivel α

para el verdadero valor de una observación particular venga determinado
por: Yb ± t α/2 σ
bε donde Y b = x T βb
n−p
Los residuos tienen una distribución:
1 E [e] = E [Y − Y
b ] = E [Y ] − E [X β]
b = Xβ − Xβ = 0
2 V [e] = V [(I − P)Y ] = (I − P)T V [Y ](I − P) = σ 2 (I − P)2 = σ 2 (I − P)

8. EFECTO DE LA SALIDA DE LAS HIPÓTESIS
ORDINARIAS
Y = µ + ε = X β + ε, donde Y , η = µ son nx 1 , X es nxp de rango p y β es px 1
y los errores son no sesgados de varianza constante, no correlacionados y distribuidos

normalmente: ε ≈ Nn (0, σ 2 In ) o equivalentemente Y ≈ Nn (X β, σ 2 In )
La hipótesis de normalidad no es forzada en la práctica, ya que en virtud del Teorema

Central del Lı́mite, grosso modo, la suma de un gran número de fuentes de error de
distribución desconocida, pero estadı́sticamente independientes entre ellas y contribución
semejante facilita errores de medida prácticos distribuidos normalmente.
En ausencia de normalidad, los estimadores por mı́nimos cuadrados ordinarios no son
eficientes como se ha detallado en apartados anteriores, sin embargo el test de Fisher para
el contraste de hipótesis por varianza incremental es poco sensible a las desviaciones de la
normalidad, cuyo efecto se transcribe en una reducción de los grados de libertad teóricos
de la ley de Fisher que se debiera emplear para los contrastes (el detalle se omite en estos
apuntes, por el carácter excesivamente técnico del resultado indicado en Seber (1977).

El test de la varianza incremental para el contraste de hipótesis es altamente
sensible a la falta de independencia.
La multicolinealidad de los regresores es un aspecto que no constituye una
salida de las hipótesis ordinarias, pero tiene consecuencias fatales y debe
prevenirse absolutamente:
1 Los estimadores βb por mı́nimos cuadrados ordinarios tendrán varianzas muy

b = σ 2 (X T X )−1 y la matriz XT X está muy mal
altas, ya que V [β]
condicionada si los regresores tienden a la dependencia lineal, resultando
singular en caso de dependencia exacta.
2 Los estimadores βb por mı́nimos cuadrados ordinarios son muy dependientes
entre sı́, estando altamente correlacionados.
El texto de Seber contiene la demostración exhaustiva de los efectos sobre los

estimadores y su distribución ante la salida de las hipótesis ordinarias si se siguen
empleando los estimadores por m.c.o.:
βb = (X T X )−1 X T Y

8.1 Efecto del underfitting
Sea el modelo correcto, Y = X β + Z γ + ε con el resto de hipótesis vigentes y sea

el modelo estimado por mı́nimos cuadrados ordinarios Y = X β + ε,
βb = (X T X )−1 X T Y entonces:
1 βb = (X T X )−1 X T Y es un estimador sesgado de β con sesgo

(X T X )−1 X T Z γ, ahora bien, si los regresores X y Z tienen columnas
ortogonales entonces βb es no sesgado.
2 El estimador habitual de la varianza del modelo es sesgado y sobreestima la
γ T Z T (I − P)Z γ
varianza real: E [s 2 ] = σ 2 + > σ2
n−p
3 Los residuos e son sesgados, pero su varianza no viene alterada.

8.2 Efectos del overfitting
Sea el modelo correcto Y = X β + ε, con el resto de hipótesis vigentes y sea el
modelo estimado por mı́nimos cuadrados ordinarios

β
Y = X β + Z γ + ε = [X Z ] +ε=X ev + ε
γ
, entonces:
1 Los estimadores de βb por mı́nimos cuadrados ordinarios son no sesgados,

pero con una varianza inflada:
(X T X )−1 + B x

βb 2 e T e −1 2
V = σ (X X ) = σ
γ
b x x
donde B es una matriz definida positiva.
2 El estimador habitual de la varianza del modelo es no sesgado: E [s 2 ] = σ 2

8.3 Matriz de dispersión incorrecta
Si se emplean los estimadores por mı́nimos cuadrados ordinarios

βb = (X T X )−1 X T Y , cuando los errores estan correlacionados y no tienen varianza
constante ε ≈ Nn (0, σ 2 W ) entonces:
1 Los estimadores βb = (X T X )−1 X T Y son no sesgados.

2 La varianza de los estimadores ordinarios, no coincide con la varianza de los
estimadores por mı́nimos cuadrados generalizados.
3 La varianza del modelo estimada a partir de la suma de cuadrados residual
del modelo por mı́nimos cuadrados ordinarios es sesgada y tiende a
subestimar la varianza del modelo.

9. DIAGNOSIS Y VALIDACIÓN DEL MODELO
El análisis de los residuos constituye una herramienta práctica y que entra

por los ojos para la validación de las hipótesis aparentemente muy teóricas
de la regresión lineal y por tanto, para garantizar las propiedades estadı́sticas
de los estimadores del modelo asumido:

Y = µ + ε = X β + ε, donde Y , η = µ son nx 1 , X es nxp de rango p y β es px 1
y los errores son no sesgados de varianza constante, no correlacionados y

distribuidos normalmente: ε ≈ Nn (0, σ 2 In ) o equivalentemente Y ≈ Nn (X β, σ 2 In )
Los residuos son las diferencias entre los valores observados y los valores
ajustados por el modelo:
e = Y −Yb = (I − P)Y = (I − P)(X β + ε) = X β − PX β + (I − P)ε = (I − P)ε y de ahı́
que a veces se les denomine errores observados, término que únicamente
debiera emplearse si el modelo es correcto.

Los residuos tienen una distribución:
1 E [e] = E [Y − Y
b ] = E [Y ] − E [X βb] = X β − X β = 0
2 V [e] = V [(I − P)Y ] = (I − P)T V [Y ](I − P) = σ 2 (I − P)2 = σ 2 (I − P)
Aunque los errores ε sean independientes y de varianza constante, los residuos e noson
independientes, ni tienen la misma varianza: V [e] = σ 2 (I − P) I − X (X T X )−1 X T o
bien individualmente, la varianza del residuo i-ésimo es V [ei ] = σ 2 (1 − pii ), donde pii es el
elemento diagonal i-ésimo de la matriz de proyección P.
Para comparar los residuos entre sı́, suele ser más ilustrativo transformarlos, encontrándose
en la literatura y los paquetes estadı́sticos diversas posibilidades:
1 El residuo escalado ci se define como el residuo dividido por el estimador de la

ei
desviación estandar del modelo s, ci = , lo cual no es demasiado incorrecto si no
s
2
existen grandes variaciones en V [ei ] = σ (1 − pii )

Sin embargo, en los residuo estandarizados numerador y denominador son dependientes,
ya que ei se ha empleado para estimar la varianza del modelo b σ 2 = s 2 , lo que puede
solucionarse eliminando la observación i-ésima de los cálculos y estimando una regresión
con los restantes n − 1 datos, lo que darı́a lugar a los estimadores β 2 que podrı́an
b(i) y s(i)
relacionarse formalmente con los estimadores β
b y permiten definir los denominados
residuos estudentizados.
2 El residuo estandarizado di se define como el residuo dividido por su desviación tipo:
ei
di = √
s 1 − pii
ei
3 El residuo estudentizado di se define como ri = √ donde
s(i) 1 − pii
2 =
(n − p)s 2 − ei2 /(1 − pii )
s(i) Los residuos estudentizados siguen una distribución t de
n−p−1
Student con n − p − 1 grados de libertad bajo modelos de respuesta continua sujetos a las
hipótesis ordinarias.

El análisis de los residuos permite concluir si las hipótesis asumidas son correctas
o no son correctas (y por qué no lo son) y se realiza en base a herramientas
gráficas de la estadı́stica descriptiva:
1 Histograma de los residuos: se persigue ver que esten centrados en el cero

y que su distribución sea aproximadamente normal. Un boxplot puede ayudar
a identificar los outliers de los residuos.
2 Tambien se puede emplear un Normal Probability Plot de los residuos
estandarizados o estudentizados (recta de Henry).
Ante desviaciones de la normalidad los contrastes basados en las leyes t de
Student y F de Fisher, se convierten en aproximados, además de perder la
eficiencia de los estimadores, se debe proceder mediante la aplicación de una
transformación adecuada a la variable de respuesta Y .
La potencia de los tests de normalidad es baja, ya que aunque los errores no
sean normales, los residuos son combinación lineal de los errores y en virtud
del Teorema Central del Lı́mite tienden a la normalidad, a pesar de ser
dependientes (para n > 30, no suele ser crucial este último aspecto).
Los residuos suelen estar correlacionados con las observaciones Yi , pero no
con los valores ajustados Ybi , de ahı́ la selección de estos últimos para la
realización de los gráficos indicados. (Ejemplo de Ascombe, Peña pp.
263-264 vol.2).

3. Diagrama bivariante de los residuos (en ordenadas) frente a los valores
ajustados: ei vs Ybi , o mejor di vs Ybi o ri vs Ybi . Estos gráficos suelen
indicar la falta de linealidad (requiere transformación de las observaciones Yi
y/o introducción de nuevos regresores), heterocedasticidad (requiere
transformación de las observaciones Yi ) e identifican valores atı́picos.

Residuals Versus the Fitted Values

La visualización de una banda horizontal de residuos centrada en Y = 0
indica satisfacción de las hipótesis. Los residuos estudentizados tienen una
distribución de referencia y por tanto, la presencia de puntos con valores
negativos o positivos más allá de un cierto nivel de confianza seleccionado
para la distribución de referencia (t de Student de n − p − 1 grados de
libertad) indica un valor atı́pico del residuo o outlier en los residuos.

4. Diagramas bivariantes de los residuos (en ordenadas) frente a cada
uno de los regresores (excepto el término independiente).
Ayudan a identificar si la falta de linealidad (paliable mediante la
transformación de las observaciones Y o mediante la introducción de un
término cuadrático del regresor correspondiente) o la heterocedasticidad
(paliable mediante transformación de Y ) son debidas a algún regresor en
particular. La visualización de una banda horizontal de residuos indica
satisfacción de las hipótesis.

5. Representación de los residuos (en ordenadas) frente a variables
explicativas omitidas en el modelo.
Se emplean para detectar la posible influencia en los residuos de una variable
no incluı́da en el modelo.
Un caso particular consiste en la representación de los residuos en función del
tiempo u orden de los datos; en este caso se pueden calcular los coeficientes
P
i ei ei+k
de autocorrelación observados de los residuos de orden k, r (k) = P 2
i ek
y aplicar el siguiente test para muestras grandes: bajo la hipótesis de
independencia (todos los coeficientes de autocorrelación teórica de orden k
m
X r 2 (k)
igual a cero), entonces el estadı́stico Q = n(n + 2) ≈ χ2m−2
n−k +1
k=1
Un test alternativo es el test de Durbin-Watson, basado en el estadı́stico del

mismo nombre para el contraste de la hipótesis nula que el coeficiente de
autocorrelación de primer orden (r (1)) es cero, cuya justificación y examen
de las tablas correspondientes no es nada trivial.

9.1 Transformación de Box-Cox
 λ
Y −1
La familia Box − Cox es una familia de

 λ 6= 0
transformaciones de variables aleatorias h(Y ) = λ
que se emplean para conseguir 

normalidad o homocedasticidad: logY λ 6= 0
La justificación de la definición viene de una propiedad básica que relaciona
las varianzas de transformaciones de la variables aleatorias y que trasladada
a la notación empleada en la presente sección es:
V [h(Y )] = V [Y ]|h0 (Y )|2
Por tanto, si la varianza de la variable transformada se desea que sea

constante, entonces la derivada de la transformación debe ser inversamente
proporcional a la desviación tı́pica de la variable original.
La constante λ de la transformacion puede estimarse graficamente o por
maxima verosimilitud.

Algunos casos particulares son:
Si la desviacion tipica de Y es proporcional al cuadrado de su media,

2
s ∝ Y , la constante λ = −1 facilita la transformación recı́proca adecuada
para esta situación.
3/2
Si la desviación tı́pica de Y es s ∝ Y , la constante λ = −1/2 facilita la
transformación inversa de la raiz adecuada para esta situación.
Si la desviación tı́pica de Y es proporcional a su media, s ∝ Y , la constante
λ = 0 facilita la transformación logarı́tmica adecuada para esta situación.
Si la desviación tı́pica de Y es proporcional a la raiz cuadrada de su media,
1/2
s ∝ Y , la constante λ = 1/2 facilita la transformacion raiz cuadrada
adecuada para esta situacion.

Observaciones Influyentes A priori y a Posteriori
Resulta fácil desarrollar ejemplos que ponen de manifiesto que existen

observaciones que tienen mucha mayor influencia en las propiedades del modelo
que otras, hasta el extremo que en presencia de 100 valores observados, las
propiedades de los estimadores dependan únicamente de unos pocos de esos
valores.
Este aspecto está relacionado con la fiabilidad del modelo en la realización

de predicciones, y parece más conveniente un modelo que venga avalado por
la totalidad de la muestra empleada para su estimación, que no aquel otro
que sólo dependa de unas pocas observaciones.
El estudio de los valores influyentes a priori determinará la robustez del
diseño de recogida de los datos y el estudio de los valores influyentes a
posteriori determinará la robustez de los parámetros estimados.

No hay que confundir observaciones influyentes con residuos atı́picos: una
observación influyente puede tener o no un residuo estadı́sticamente grande,
y viceversa, un residuo atı́pico no fuerza no implica que la observación
correspondiente sea influyente.
Por ejemplo, en regresión lineal simple se puede introducir una observación muy
atı́pica (residuo muy alto) en el valor medio de la variable explicativa, la
observación no resultará influyente, sin embargo el coeficiente de determinación
se resentirá y disminuirá debido al incremento de la suma de cuadrados residuales.

9.2 Observaciones influyentes a priori
Los puntos x (X ∈ <p ) heterogéneos respecto el centro de gravedad de los valores
de los regresores identifican las observaciones influyentes a priori y corresponden a
valores grandes en la diagonal de la matriz de proyección P = X (X T X )−1 X T
notados pii = xiT (X T X )−1 xi (al ser simétrica e idempotente tiene p vaps 1 y
n − p vaps 0) y se puede demostrar que:
1
1 ≤ pii ≤ 1
n
2 Al tratarse de una matriz
P idempotente y simétrica:
dim(P) = traza(P) = i pii = p
P
pii p
Lo que permite determinar su media p = i = y a partir de otros
n n
estadı́sticos descriptivos calculables, los resultados de Belsley et al., indican
que si las variables explicativas proceden de una distribución normal indican
que pueden considerarse valores influyentes a priori aquellos puntos con
pii > 2p

Los valores Pii suelen denominarse en los paquetes estadı́sticos factores de
anclaje o leverage y miden la distancia entre una observación xi y el centro
de gravedad de las observaciones,
1 Si la observación está muy alejada pii → 1 y V [ei ] = σ 2 (1 − pii ) = 0,

indicando que sea cual sea el valor observado Yi , su residuo es siempre igual
a su valor esperado, cero, por lo que la ecuación de regresión estimada por
mı́nimos cuadrados ordinarios pasará siempre por dicho punto.
2 Si la observación está en el centro de gravedad entonces pii → 1/n y V [ei ]
es máxima, indicando que sea cual sea el valor observado Yi , puede tener
por efecto una reducción drástica del coeficiente de determinación; sin
embargo, nunca será un valor detectado como influyente a priori según los
criterios descritos.

9.3 Observaciones influyentes a posteriori
Una observación influyente a posteriori implica que su inclusión:
1 Modifica el vector de parámetros estimados β.

b
2 Modifica los valores ajustados Y
b.
3 Su valor ajustado es muy bueno cuando se incluye la observación en el
proceso de estimación por mı́nimos cuadrados ordinarios, pero su valor
ajustado es muy malo si se ha omitido la observación en el proceso de
estimación.

La influencia de una observación en la determinación de los estimadores por
mı́nimos cuadrados ordinarios se determina mediante la distancia de Cook.
Una observación muy influyente a priori, puede que no sea influyente a
posteriori (se pueden construir ejemplos fácilmente). Cook propuso una
medida de la influencia a posteriori de una observación muy efectiva, a
través de la distancia de Cook Di
2
(βb − βb(i) )T X T X (βb − βb(i) )

ei pii 1
Di = = √ ≈ Fp,n−p
ps 2 s 1 − pii 1 − pii p
donde βb(i) son los estimadores obtenidos después de la supresión de la

observación i-ésima.

De manera que un criterio para la determinación de las observaciones
influyentes a posteriori consiste en comparar su distancia de Cook Di con el
valor de la ley de Fisher correspondiente al nivel de confianza seleccionado
α α
Fp,n−p : un valor con distancia de Cook elevada, Di > Fp,n−p , denota una
observación influyente a posteriori.
Recordar que la esperanza matemática de una ley de Fisher de p y q grados

de libertad es q/(q − 2) q>2.
Un criterio práctico propuesto por Chatterjee y Hadi (88) justifica un umbral

máximo para la distancia de Cook de 4/(n − p).

10. SELECCIÓN DEL MEJOR MODELO
El establecer una ecuación de regresión para una respuesta Y en términos de

unos predictores o regresores (X1 , ..., Xp ) que pueden ser transformaciones de las
variables explicativas originales (Z1 , ..., Zp ) sintetiza dos criterios opuestos, lo que
se denomina criterio de parsimonia.
1 La ecuación tiene que ser útil para finalidades predictivas, de manera que se
incluı́ran tantos regresores como sea necesario para que los valores ajustados
sean fiables.
2 Los modelos con muchos regresores tienen un alto coste de obtención y
mantenimiento de la información, de manera que el modelo debe incluir el
mı́nimo de regresores necesario.
En la práctica, es inviable la generación y análisis de todos las posibles

ecuaciones de regresión, para la selección de la más conveniente. Falta
indicar que un buen modelo, debe mostrar un análisis de los residuos
satisfactorio y un estudio de los valores influyentes, serı́a deseable la
consecución de modelos sin residuos atı́picos, ni valores influyentes a
posteriori.
Los elementos que se han expuesto hasta el momento y que permiten valorar la
calidad de una ecuación de regresión son:
1 El coeficiente de determinación, R 2 . Se estabiliza cuando el número de

regresores incluı́dos es satisfactorio, aunque puede haber más de la cuenta,
ya que se incrementa (no linealmente) al incrementarse el número de
regresores.
Considerar para facilitar la tarea el coeficiente de determinación ajustado,
2
Radj .
2 La estabilización del estimador clásico de la varianza del modelo, que ante
modelos insatisfactorios recuérdese que se ha visto que es sesgado y por
tanto, debe denominarse residuo cuadrático medio.
3 El análisis de los residuos.
4 El estudio de los valores influyentes a priori y a posteriori.
5 Se va a añadir un último elemento, el denominado Cp de Mallows.

Cp Mallows
La combinación de los 5 puntos anteriores permitirá seleccionar dentro de un
conjunto de ecuaciones de regresión (quizás incluso en el caso hipotético de
todas) la mejor.
SCRp AICp
El Cp Mallows se define como Cp = − (n − 2p) = 2 − n, donde SCRp
s2 s
es la suma de cuadrados residual de un modelo con p regresores y el estimador de
la varianza del modelo procede del modelo maximal (se intenta garantizar ası́ la
ausencia de sesgo).
La esperanza matemática del estadı́stico Cp es el número de parámetros del

modelo: E [Cp ] = p
El procedimiento a seguir consiste en representar en un diagrama bivariante
Cp frente p: los modelos satisfactorios quedarán cerca de la bisectriz, el
modelo con p más bajo, pero sobre la bisectriz resulta el más satisfactorio
bajo el criterio de Mallows. La justificación del procedimiento procede de las
siguientes consideraciones:

Cp Mallows
1 Un modelo no adecuado facilitará una SCRp elevada, con Cp > p. De alguna

manera, el estadı́stico de Mallows se desvı́a de la bisectriz indicando que
existe sesgo en la estimación de la varianza del modelo: un error cuadrático
medio (varianza + sesgo 2 ) distinto de la varianza real del modelo.
2 Un modelo con exceso de regresores ajusta bien los datos y Cp ≈ p , pero p

es mayor que en otro modelo satisfactorio con valor del estadistico de
Mallows sobre la bisectriz de la grafica y menor numero de parametros.

Selección del mejor modelo
Ejemplo: Datos DUNCAN1 resultados del análisis mediante el Cp de Mallows de todos los
modelos posibles para explicar el ‘PRESTIGE’ a partir de los ingresos (INCOME) y la
EDUCATION.

10.1 Procedimiento de “backward elimination”
Procedimiento económico que no requiere del cálculo de un número elevado de

ecuaciones de regresión. Los pasos básicos son:
1 Calcular la ecuación de regresión maximal, es decir, que contenga todos los

regresores disponibles.
2 Para cada regresor se efectúa un test de Fisher de la hipótesis Hi : βi = 0,
sea el valor del estadı́stico de Fisher correspondiente al test de la hipótesis
nula del i-ésimo regresor Fi
3 Se selecciona el regresor tal que el estadı́stico de Fisher correspondiente es
mı́nimo, sea el regresor l-ésimo: Fl = min{F1 , F2 , ...} y se compara con el
valor del correspondiente a un cierto nivel de significación de la ley de Fisher
correspondiente denominado en muchos paquetes estadı́sticos “F to
remove”: F α .
Si Fl < F α entonces se elimina el regresor l-ésimo del modelo. Se repite a
partir del punto 2. Sinó el modelo ya es satisfactorio.

Backward y Forward procedures
Backward Elimination es adecuado para la regresión polinómica y robusto,

una vez eliminada una variable nunca vuelve a aparecer en la ecuación, ni
tampoco ningún modelo alternativo que la contenga, puede dar como
resultado modelos que no son significativamente los mejores.
La construcción de la regresión maximal podı́a ser un inconveniente hace
unos años, por el mal condicionamiento posible de la matriz de diseño
maximal, actualmente los procedimientos de optimización empleados son
muy robustos.
De manera análoga, algunos paquetes estadı́sticos disponen del
procedimiento forward inclusion, que parte del modelo minimal
(únicamente con el término independiente) y va añadiendo regresores
siempre que el test de inclusión basado en el estadı́stico de Fisher resulte
significativo para alguno de los regresores no incluidos hasta el momento.

Forward inclusion es un procedimiento menos robusto que la
backward elimination, ya que a veces un regresor incluı́do en una
etapa anterior, podrı́a ser eliminado por falta de significación. Este
inconveniente lleva directamente al diseño de un procedimiento
hı́brido denominada regresión paso o paso o stepwise regression,
que aparece en todos los paquetes (al menos, los conocidos por la
autora) y cuyo empleo se incentiva en las clases de laboratorio.

10.2 Regresión paso o paso (stepwise regression)
Procedimiento de selección de la mejor ecuación de regresión (mejor modelo), parte de un

conjunto reducido de regresores y lo va engrandeciendo hasta hallar el modelo satisfactorio. Las
etapas pueden resumirse en los siguientes puntos:
1 Seleccionar el regresor más correlacionado con la variable de respuesta Y , sea xm . Calcular

la ecuación de regresión.
2 Para cada regresor i no incluido hasta el momento se calcula el coeficiente de correlación
parcial con la variable de respuesta Y (técnicamente supone calcular la correlación entre
los residuos del modelo actual y los residuos de una ecuación de regresión auxiliar que
especifica como variable de repuesta el regresor i no presente en el modelo y variables
explicativas todos los regresores presentes en el modelo actual).
3 Se selecciona el regresor con coeficiente de correlación parcial más elevado, sea xm y se
recalcula la ecuación de regresión con el modelo incrementado, aceptando el nuevo
regresor xm si el estadı́stico de Fisher para el contraste de la hipótesis nula Hm : βm = 0,
sea Fm es superior a un cierto valor de referencia mı́nima de la ley de Fisher
β
correspondiente denominado ”F to enter”: F .
β
Si Fm > F entonces se incluye el regresor m-ésimo en el modelo.

4 Para cada regresor incluido hasta el momento se efectua un test de Fisher de
la hipótesis Hi : βi = 0, sea el valor del estadı́stico de Fisher correspondiente
al test de la hipótesis nula del i-ésimo regresor Fi .
5 Se selecciona el regresor tal que el estadı́stico de Fisher correspondiente es
mı́nimo, sea el regresor l-ésimo: Fi = minF1 , F2 , ... y se compara con el valor
del correspondiente a un cierto nivel de significación de la ley de Fisher
correspondiente denominado en muchos paquetes estadı́sticos “F to
remove”: F α .
Si Fl < F α entonces se elimina el regresor l-ésimo del modelo. Volver al

punto 2.
6 El procedimiento finaliza cuando ningún regresor satisfaga el criterio de
entrada y ningún regresor satisfaga el criterio de salida. Si los niveles de
significación para la entrada y la salida de regresores estan bien
seleccionados da buenos resultados: α = β = 0,05 es una selección habitual.

An Alisis de Regresi On: Oscar Melo

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

An Alisis de Regresi On: Oscar Melo

Cargado por

Copyright:

Formatos disponibles

Análisis de Regresión

Universidad Nacional de Colombia

Oscar Melo (UNAL) MLG 2 de abril de 2020 1 / 95

Oscar Melo (UNAL) MLG 2 de abril de 2020 2 / 95

Oscar Melo (UNAL) MLG 2 de abril de 2020 3 / 95

Oscar Melo (UNAL) MLG 2 de abril de 2020 4 / 95

Oscar Melo (UNAL) MLG 2 de abril de 2020 5 / 95

Sea un vector de observaciones de n componentes, y t = (y1 , ..., yn ),

En los modelos lineales ordinarios, las componentes de la respuesta

Oscar Melo (UNAL) MLG 2 de abril de 2020 6 / 95

Oscar Melo (UNAL) MLG 2 de abril de 2020 7 / 95

Las propiedades de los scores se concretan en el caso particular de respuesta

Oscar Melo (UNAL) MLG 2 de abril de 2020 9 / 95

Sea el modelo con variable de respuesta contı́nua,

donde Y , η = µ son n × 1, X es n × p y β es p × 1. En primera instancia

La estimación de los parámetros β puede caracterizarse de manera

M(h) = |h|, da lugar a procedimientos de estimación robusta basados

Oscar Melo (UNAL) MLG 2 de abril de 2020 10 / 95

La función objetivo a minimizar es

Oscar Melo (UNAL) MLG 2 de abril de 2020 11 / 95

Si la matriz de diseño es no singular, es decir de rango p, entonces la

pero todas ellas facilitan un predictor lineal yb = µ

Oscar Melo (UNAL) MLG 2 de abril de 2020 12 / 95

Entonces A − es única y se denomina inversa de Moore-Penrose o p-inversa y nota

Las condiciones de segundo orden de suficiencia de mı́nimo requieren que la

Oscar Melo (UNAL) MLG 2 de abril de 2020 13 / 95

Entonces se puede demostrar que µ b es la proyección ortogonal de Y y es

Oscar Melo (UNAL) MLG 2 de abril de 2020 14 / 95

Y −µ b es perpendicular al espacio engendrado por las columnas de la matriz de

Oscar Melo (UNAL) MLG 2 de abril de 2020 15 / 95

La matriz P es simétrica e idempotente y representa la proyección

La suma de cuadrados residual (RSS, por las siglas en inglés) es el

Oscar Melo (UNAL) MLG 2 de abril de 2020 16 / 95

Oscar Melo (UNAL) MLG 2 de abril de 2020 17 / 95

Sea el modelo con variable de respuesta contı́nua,

En ese caso, si βb es el estimador por mı́nimos cuadrados de β entonces es un

Sea el modelo con variable de respuesta contı́nua, descrito de la forma

E (εε) = 0 y V (εε) = σ 2I n Cov (εi , εj ) = δij σ 2

Oscar Melo (UNAL) MLG 2 de abril de 2020 18 / 95

El teorema sigue siendo válido si la matriz de diseño no es de rango completo

Sea el modelo con variable de respuesta continua,

donde Y , µ son n × 1, X es n × p de rango p y β es p × 1 y los errores son

Oscar Melo (UNAL) MLG 2 de abril de 2020 20 / 95

donde Y , η = µ son n × 1, X es n × p de rango p y β es p × 1 y los errores

Supóngase que la matriz de diseño X se puede dividir en

Oscar Melo (UNAL) MLG 2 de abril de 2020 22 / 95

Una propiedad interesante que apunta hacia el criterio óptimo de selección

Dada una matriz de diseño X tal que x T 2

La ortogonalidad de las columnas de la matriz de diseño garantiza la mı́nima

Oscar Melo (UNAL) MLG 2 de abril de 2020 23 / 95

Sea el modelo con variable de respuesta contı́nua, Y = µ + ε = X β + ε , donde

El modelo ordinario de regresión lineal simple presupone una recta de

Oscar Melo (UNAL) MLG 2 de abril de 2020 24 / 95

Oscar Melo (UNAL) MLG 2 de abril de 2020 25 / 95

Oscar Melo (UNAL) MLG 2 de abril de 2020 26 / 95

Sea el modelo con variable de respuesta contı́nua, Y = µ + ε = X β + ε ,

matriz simétrica y definida positiva de dimensión n × n.

β, σ 2I n es simétrica y definida positiva,

DLT ) = LD 1/2D 1/2L T = (LD

Oscar Melo (UNAL) MLG 2 de abril de 2020 27 / 95

Ahora el modelo transformado Ye = X

Por tanto, se puede emplear los resultados y propiedades para inferencia de