Está en la página 1de 95

Análisis de Regresión

Oscar Melo

Universidad Nacional de Colombia

2 de abril de 2020

Oscar Melo (UNAL) MLG 2 de abril de 2020 1 / 95


Índice

1 BIBLIOGRAFÍA
2 INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NORMAL
3 ESTIMACIÓN POR MÍNIMOS CUADRADOS
Propiedades Geométricas
Propiedades Básicas de Inferencia
Estructura Ortogonal de la matriz de Diseño
Mı́nimos Cuadrados Generalizados
Mı́nimos Cuadrados con Restricciones Lineales
4 CONTRASTES DE HIPÓTESIS EN MODELOS NORMALES
Cálculo de Regiones e Intervalos de Confianza
5 EL COEFICIENTE DE CORRELACIÓN MÚLTIPLE
Propiedades del Coeficiente de Correlación Múltiple
R 2 -Adjusted

Oscar Melo (UNAL) MLG 2 de abril de 2020 2 / 95


6 TEST GLOBAL DE REGRESIÓN. TABLA ANOVA
7 DISTRIBUCIÓN DE LOS VALORES AJUSTADOS
8 EFECTO DE LA SALIDA DE LAS HIPÓTESIS ORDINARIAS
Efecto del Underfitting
Efecto del Overfitting
Matriz de Dispersión Incorrecta
9 DIAGNOSIS Y VALIDACIÓN DEL MODELO
Transformación de Box-Cox
Observaciones Influyentes A Priori
Observaciones Influyentes A Posteriori
10 SELECCIÓN DEL MEJOR MODELO
Procedimiento de ”Backward Elimination”
Regresión Paso a Paso (Stepwise Regression)

Oscar Melo (UNAL) MLG 2 de abril de 2020 3 / 95


1. Bibliografı́a

Referencias Básicas
McCullagh, P., Nelder, J.A.: Generalized Linear Models. Chapman and Hall, 1989.
Dobson, A. J.: An Introduction to Generalized Linear Models. Chapman and
Hall, 1990.
Agresti, A.: Categorical Data Analysis. Wiley Interscience, 1990.
Fahrmeir, L., Tutz, G.: Multivariate statistical modeling based on generalized linear
models. Springer- Verlag,New York, 1994.
Lindsey, J. K.: Applying Generalized Linear Models. Springer, 1997.

Oscar Melo (UNAL) MLG 2 de abril de 2020 4 / 95


Referencias Complementarias
Draper, N.R., Smith, H.: Applied regression analysis. Wiley, 1981.
Fox, J.: Applied Regression Analysis, Linear Models, and Related Methods. Sage,
1997.
Seber, G.A.F.: Linear Regression Analysis. Wiley, 1977.
Cook, R.D., Weisberg, S.: Residuals and Influence in Regression. Chapman and
Hall, 1982.
Peña, D.: Estadı́stica. Modelos y métodos. Vol. 2, Modelos lineales y series
temporales. Alianza Universidad Textos, 1989.

Oscar Melo (UNAL) MLG 2 de abril de 2020 5 / 95


2. Introducción a los modelos de respuesta normal

Sea un vector de observaciones de n componentes, y t = (y1 , ..., yn ),


realización de un vector aleatorio Y t = (Y1 ..., Yn ), cuyas componentes son
estadı́sticamente independientes y distribuidas con medias
µ t = (µ1 , ..., µn ).

En los modelos lineales ordinarios, las componentes de la respuesta


Y t = (Y1 , ..., Yn ) tienen distribuciones normales, independientes con varianza
constante, con E [Y Y ] = µ y varianza σ 2 .
La componente sistemática del modelo consiste en la especificación de un vector
η , el predictor lineal a partir de un número reducido de parámetros a estimar y
regresores; parámetros β t = (β1 , ..., βp ) y regresores X t = (X1 , ..., Xn ). Esta
especificación responde, en notación matricial a η = X β donde η es n × 1, X es
n × p y β es px 1.
El vector µ está funcionalmente relacionado con el predictor lineal η , a través de la
función de link identidad, en los modelos lineales ordinarios η = µ .

Oscar Melo (UNAL) MLG 2 de abril de 2020 6 / 95


Clasificación de los métodos estadı́sticos de análisis

Oscar Melo (UNAL) MLG 2 de abril de 2020 7 / 95


Una distribución pertenece a la familia exponencial si puede escribirse de
la siguiente manera:
h i
y θ−b(θ)
fY (y , θ, φ) = exp a(φ) + c(y , φ)

donde a(·), b(·) y c(·) son funciones especı́ficas con φ conocido y donde se
denomina al único parámetro θ: parámetro canónico.
En la distribución normal:
" #
1 (y − µ)2
fY (y , θ, φ) = √ exp −
2πσ 2 2σ 2
( " #)
y µ − µ2 /2 1 y 2
= exp − + log(2πσ 2 )
σ2 2 σ2

θ2 µ2
donde a(φ) = φ = σ 2 , b(θ) = = (es decir θ = µ) y
" #2 2
1 y2
c(y , φ) = − + log(2πφ) .
2 φ
Oscar Melo (UNAL) MLG 2 de abril de 2020 8 / 95
En la distribución normal:

y θ − b(θ)
`(θ, φ, y ) = logfY (y , θ, φ) = + c(y , φ)
a(φ)
y θ − θ2 /2 1 y 2
 
= − + log(2πφ)
φ 2 φ

Las propiedades de los scores se concretan en el caso particular de respuesta


normal.
En la distribución normal, E [Y ] = µ y µ(θ) = b 0 (θ) = θ y θ(µ) = µ. Para la
varianza, V [Y ] = a(φ)b 00 (θ) = φ = σ 2 y V [µ] = 1.
En la distribución normal, E [Y ] = µ y η = g(µ) = µ y por tanto el link es la
identidad, lo que parece razonable porque el predictor lineal puede tomar
cualquier valor real y la media también. La identidad es el link canónico.
n
X (yi − µbi )2
Para la ley normal, D 0 (y , µ
b) = 2`(y , φ, y ) − 2`(b
µ, φ, y ) =
i=1
φ
X n
b) = D 0 (y , µ
D(y , µ b)φ = (yi − µbi )2 .
i=1

Oscar Melo (UNAL) MLG 2 de abril de 2020 9 / 95


3. Estimación por mı́nimos cuadrados

Sea el modelo con variable de respuesta contı́nua,

Y = µ + ε = X β + ε,

donde Y , η = µ son n × 1, X es n × p y β es p × 1. En primera instancia


sin ninguna hipótesis sobre la distribución de la variable Y , ni los errores.

La estimación de los parámetros β puede caracterizarse de manera


genérica como, X X
mı́n M(εk ) = M(Yk − x tk β )
β
k k

M(h) = |h|, da lugar a procedimientos de estimación robusta basados


en la norma 1.
M(h) = h2 , que da lugar al método de los mı́nimos cuadrados.

Oscar Melo (UNAL) MLG 2 de abril de 2020 10 / 95


El método de los mı́nimos cuadrados de entrada no requiere de ninguna
hipótesis sobre la distribución de las observaciones.
La función objetivo a minimizar se suele denominar S(β β ) y se define
X
β ) = kεεk2 = ε t ε =
S(β ε2k
k

La función objetivo a minimizar es

β ) =kεεk2 = ε t ε = (Y
S(β β)t (Y
Y − Xβ Y − Xβ
β)
X
= (Yk − x tk β )2 = Y t Y + β t X t X β − 2β
β tX tY
k

β ) son:
Las condiciones de primer orden de mı́nimo de S(β

β)
∂S(β
∇β S(β
β ) = 0 ←→ = 0 j = 1, ..., p
∂βj

Oscar Melo (UNAL) MLG 2 de abril de 2020 11 / 95


Derivando vectorialmente la expresión se obtienen las bien conocidas
ecuaciones normales,
β)
∂S(β
∇β S(β
β) = 0 ↔ X t X β − 2X
=2X X tY = 0
β
∂β
X t X )−1X t Y
b = βb =(X

Si la matriz de diseño es no singular, es decir de rango p, entonces la


solución es única. Si X no es de pleno rango, existen infinitas soluciones a
las ecuaciones normales,

X t X β =2X
2X X tY
h i
X t X )−1X t Y + I − (X
b =βb = (X X t X )−1X t X w , w ∈ <p

pero todas ellas facilitan un predictor lineal yb = µ


b = Xb idéntico y un
mı́nimo de la función objetivo, por tanto idéntico.

Oscar Melo (UNAL) MLG 2 de abril de 2020 12 / 95


En modelos especı́ficos ANOVA y ANCOVA, las dependencias lineales entre
las columnas de la matriz de diseño pueden eliminarse mediante una
reparametrización, que aconsejablemente debe aplicar el estadı́stico, ya que
la interpretabilidad de los parámetros resultantes depende de ella.

A − = (X
X t X )− es una g-inversa o inversa generalizada y satisface AA −A = A . A −
siempre existe, pero no es única. Si además satisface:

1. A −AA − = A − AA− )t = AA −
2. (AA A−A )t = A −A
3. (A

Entonces A − es única y se denomina inversa de Moore-Penrose o p-inversa y nota


como A + .

Las condiciones de segundo orden de suficiencia de mı́nimo requieren que la


β ) sea definida positiva, es decir,
hessiana de S(β
 2 
2 ∂ S(β β)
∇β S(β β) > 0 ↔ > 0 i, j = 1, ..., p
∂βi ∂βj

Oscar Melo (UNAL) MLG 2 de abril de 2020 13 / 95


3.1 Propiedades geométricas

∂ 2 S(β
 
β)
∇β2 S(β
β) > 0 ↔ X TX > 0
= 2X i, j = 1, ..., p
∂βi ∂βj
Si la matriz de diseño X es no singular entonces la hessiana es definida positiva y
el punto que satisfaga las condiciones de primer orden es un mı́nimo global.

Propiedades geométricas
Sea <(XX ) el espacio generado por las columnas de X , <(XX ) = {ηη | η = X β
β,
β ∈ <p } ⊂ <n . Sea µb la solución del problema de minimización
mı́nµ kY − µk2 = µ b.

Entonces se puede demostrar que µ b es la proyección ortogonal de Y y es


única, siendo el operador de proyección, la denominada matriz sombrero,
P = X (X X T X )−1X T , puesto que su aplicación a Y facilita los valores
ajustados o predichos de Y , notados Yb , es decir

Y X T X )−1X T Y = PY .
b = Xb = X (X

Oscar Melo (UNAL) MLG 2 de abril de 2020 14 / 95


Gráficamente,

Y −µ b es perpendicular al espacio engendrado por las columnas de la matriz de


diseño <(X).
Los valores ajustados se notan Yb = µ
b = X βb = PY (son únicos).
Los residuos se definen como las diferencias entre los valores observados y los
valores ajustados: e = Y − Y
b = Y −µ b = Y − Xβ b = (II − P )Y
Y (son únicos).
No confundir los residuos, con los errores: ε = Y − µ = Y − X β
β.

Oscar Melo (UNAL) MLG 2 de abril de 2020 15 / 95


Estimación por mı́nimos cuadrados

La matriz P es simétrica e idempotente y representa la proyección


ortogonal de Y sobre <(X X ). Además I − P también es simétrica e
idempotente y representa la proyección ortogonal de Y sobre el
complemento ortogonal de <(X X ), notado como <(XX )⊥ .
Por tanto cualquier vector Y de <n se puede representar de manera
única como la suma vectorial de una componente de <(X X ) más una
segunda componente de <(X ⊥
X) :

Y = PY + (II − P )Y
Y =µ Y −µ
b + (Y b)

La suma de cuadrados residual (RSS, por las siglas en inglés) es el


β ), es decir S(βb ) donde βb es el
valor mı́nimo que toma la función S(β
estimador por mı́nimos cuadrados de los parámetros del modelo
Y = µ + ε = X β + ε,

Oscar Melo (UNAL) MLG 2 de abril de 2020 16 / 95


Estimación por mı́nimos cuadrados

S(βb ) =kee k2 = e T e = (Y b )T (Y
Y −µ Y −µ
b)
Y − X βb )T (Y
=(Y Y − X βb )
T T
Y T Y + βb X T X βb − 2βb X T Y
=Y
T T
Y T Y + βb (X
=Y X T X βb − X T Y ) − βb X T Y
T
Y T Y − βb X T X βb = ESS(= SCE )
=Y

Oscar Melo (UNAL) MLG 2 de abril de 2020 17 / 95


3.2 Propiedades básicas de inferencia

Sea el modelo con variable de respuesta contı́nua,

Y = µ + ε = X β + ε,
donde Y , µ son nx 1, X es nxp de rango p y β es px 1 y los errores no son
sesgados: E (εε) = 0.

En ese caso, si βb es el estimador por mı́nimos cuadrados de β entonces es un


estimador no sesgado:
   T −1 T 
E βb = E (X X X ) X Y = (X X T X )−1X T E (Y X T X )−1X T X β = β
Y ) = (X

Sea el modelo con variable de respuesta contı́nua, descrito de la forma


anterior, con errores no sesgados y no correlacionados de varianza constante:

E (εε) = 0 y V (εε) = σ 2I n Cov (εi , εj ) = δij σ 2




Oscar Melo (UNAL) MLG 2 de abril de 2020 18 / 95


Teorema de Gauss-Markov

X T X )−1X T Y ,
El estimador lineal no sesgado de mı́nima varianza de β es βb = (X
estimador por mı́nimos cuadrados.

El teorema sigue siendo válido si la matriz de diseño no es de rango completo


(rango inferior a p), en cuyo caso la expresión del estimador por mı́nimos
cuadrados debe contener la inversa generalizada.
En el modelo actual, un estimador no sesgado de σ 2 , notado s 2 es,

eTe Y − X βb )T (Y
(Y Y − X βb ) SCE
s2 = = =
n−p n−p n−p

Sea el modelo con variable de respuesta continua,

Y = µ + ε = X β + ε,

donde Y , µ son n × 1, X es n × p de rango p y β es p × 1 y los errores son


no sesgados, de varianza constante,
 independientes y distribuidos 
normalmente: ε ∼ Nn 0, σ 2I n o equivalentemente Y ∼ Nn X β β, σ 2I n .
Oscar Melo (UNAL) MLG 2 de abril de 2020 19 / 95
Entonces, el estimador lineal no sesgado de mı́nima varianza de β es
β X T X )−1X T Y , estimador por mı́nimos cuadrados y coincide con el estimador
b = (X
de β por maximización de verosimilitud βbMV .
En ausencia de normalidad, los estimadores por mı́nimos cuadrados no son
eficientes, es decir tienen una varianza superior a la varianza de los estimadores
MV .
En el modelo actual, el estimador no sesgado de σ 2 , notado s 2 es eficiente (de
mı́nima varianza),
eTe (Y b)T (Y
Y − Xβ Y − Xβ
b) SCE
s2 = = =
n−p n−p n−p
Teorema de distribución de los estimadores de los parámetros (Th 3.5 Seber
(1977), pag. 54):

X T X )−1 .

1 βb ∼ Np β , σ 2 (X
 T     T −1  
2 βb − β V −1 βb βb − β = βb − β X TX βb − β /σ 2 ∼ χ2p .

3 X T X )−1X T Y es independiente de s 2 .
βb = (X
4 SCE /σ 2 = (n − p)s 2 /σ 2 ∼ χ2p .

Oscar Melo (UNAL) MLG 2 de abril de 2020 20 / 95


3.3 Estructura ortogonal de la matriz de diseño
Sea el modelo con variable de respuesta continua,

Y = µ + ε = X β + ε,

donde Y , η = µ son n × 1, X es n × p de rango p y β es p × 1 y los errores


son no sesgados de varianza constante,
 independientes y distribuidos 
normalmente: ε ∼ Nn 0, σ 2I n o equivalentemente Y ∼ Nn X β β, σ 2I n .

Supóngase que la matriz de diseño X se puede dividir en


k grupos de columnas X = (X X 1 , ..., X k ), lo que induce β1
 
una división en el vector de parámetros y que las
β =  ... 
 
columnas son mútuamente ortogonales por grupo, es
decir X T
i X j = 0, ∀i,j , i 6= j.
βk

Entonces, los estimadores por mı́nimos cuadrados tienen una estructura especial
que les hace depender únicamente del bloque correspondiente, de manera que
cambios en la configuración de los otros bloques no afectan a la estimación
(supresión de ellos tampoco).
Oscar Melo (UNAL) MLG 2 de abril de 2020 21 / 95
Estimación MC. Estructura de la matriz de diseño
Supóngase que la matriz de diseño X se puede dividir en k grupos de
columnas X = (X X 1 , ..., X k ), mútuamente ortogonales por grupo.
X T X )−1X T Y
βb =(X
 T −1  T 
X1 X1 0 ··· 0 X1 Y
T  X T
 0 X 2 X2 ··· 0   2Y

= .

.. .. ..   .. 
 .. . . .   . 
0 0 ··· XT k Xk XT
kY
T −1 T
   
X 1 X 1) X 1 Y
(X β̂1
(XX T −1 T 
 2 2 X ) X 2 Y  β̂2 
 
= .. = . 
 .   .. 
T −1
X k X k) X k Y T
(X β̂k
La suma de cuadrados residual toma la forma en este caso particular de,
k
T X T
SCE = ESS = Y T Y − βb X T X βb = Y T Y − βb r X T
r Y
r =1

Oscar Melo (UNAL) MLG 2 de abril de 2020 22 / 95


Si se fija un grupo de los parámetros en cero, β
b = 0, entonces el único
r
cambio en la suma de cuadrados residual viene de la adición del término
T
βb r X T
r Y = 0.

Una propiedad interesante que apunta hacia el criterio óptimo de selección


de una matriz de diseño X fue demostrada por Hotelling:

Dada una matriz de diseño X tal que x T 2


i x i = ci , ∀i , i = 1, ..., p, entonces
2 2
σ b)≥ σ .
V (βb i ) ≥ 2 y si además x T
i x j = 0, ∀i,j , i 6
= j, entonces V (β i
ci ci2

La ortogonalidad de las columnas de la matriz de diseño garantiza la mı́nima


varianza del estimador mı́nimo cuadrático de los parámetros.
Si las columnas de la matriz de diseño tienden a ser linealmente
dependientes, es decir la matriz X T X tiende a la singularidad con lo que su
inversa está mal condicionada (valores propios muy elevados), y por tanto, la
varianza de los estimadores de los parámetros β pueden ser muy poco
eficientes (varianza alta, por tanto baja precisión).

Oscar Melo (UNAL) MLG 2 de abril de 2020 23 / 95


3.4 Caso particular: la regresión lineal simple

Sea el modelo con variable de respuesta contı́nua, Y = µ + ε = X β + ε , donde


Y , η = µ son n × 1, X = (1 x ) es n × 2 de rango 2 y β es 2 × 1 y los errores son
no sesgados de varianza mı́nima, independientes y distribuidos
 normalmente
ε ∼ Nn 0, σ 2I n o equivalentemente Y ∼ Nn X β β, σ 2I n .

El modelo ordinario de regresión lineal simple presupone una recta de


relación entre la variable explicativa x asociada al parámetro β2 y la variable
de respuesta Y .
La recta no tiene por qué pasar por el origen, y por tanto, la matriz de
diseño contiene una columna constante con valores 1, a la que se asocia el
denominado término independiente, parámetro β1 .
En resumen y después de haber descrito la particularización de la notación
general al modelo de RLS clásico, lo que se persigue es determinar “de la
mejor manera posible” los coeficientes de la recta de regresión que relaciona
la variable de respuesta Y con la variable explicativa x , Yi = β1 + β2 xi + εi .

Oscar Melo (UNAL) MLG 2 de abril de 2020 24 / 95


Los estimadores por mı́nimos cuadrados ordinarios se obtienen planteando
las ecuaciones normales:
X
Y − Xβ
β ) = (Y
S(β β)T (Y
Y − Xββ) = (Yk − β1 − β2 xk )2
k

β) son: ∇β S(β
Las condiciones de primer orden de mı́nimo de S(β) β ) = 0 si y
solo si
β)
∂S(β X
= 0 = −2 (Yk − β1 − β2 xk )xk
∂β2
k
X X X
Yk xk =βb1 xk + βb2 xk2
k k k
β)
∂S(β X
= 0 = −2 (Yk − β1 − β2 xk )xk
∂β1
k
X X
Yk =nβb1 + βb2 xk
k k

Y =βb1 + βb2 x

Oscar Melo (UNAL) MLG 2 de abril de 2020 25 / 95


Esta última ecuación indica que la recta de regresión siempre pasa por el
punto (x , y ), y dividiendo la primera por el número de observaciones n y
restando la segunda se obtiene:
P P 2  P 
k Yk xk k xk k xk 2
− Y x =β 2b − x + β1 b −x
n n n
cov (Y , x )
Cov (Y , x ) =βb2 sx2 → βb2 =
sx2
P 2
SCE e
La estimación de la varianza del modelo resulta: s 2 = = k k.
n−2 n−2
X T X )−1 puede expresarse en

La varianza de los estimadores βb ∼ N2 β , σ 2 (X
este caso particular como:

σ2
V (βb2 ) =
nsx2
σ2 x2
 
V (βb1 ) = 1+
nsx2 sx2

Oscar Melo (UNAL) MLG 2 de abril de 2020 26 / 95


3.5 Mı́nimos cuadrados generalizados

Sea el modelo con variable de respuesta contı́nua, Y = µ + ε = X β + ε ,


donde Y , η = µ son n × 1, X es n × p de rango p y β es p × 1 y los
errores son no sesgados y correlacionados distribuidos normalmente:
ε ∼ Nn 0, σ 2I n o equivalentemente Y ∼ Nn X β β, σ 2I n , donde W es una
 

matriz simétrica y definida positiva de dimensión n × n.

β, σ 2I n es simétrica y definida positiva,



Si W en el modelo Y ∼ Nn X β
entonces puede calcularse una matriz no singular K triangular inferior de
dimensión n × n tal que W = KK T . Esta matriz es única, es la
factorización de Cholesky de W . Los elementos de K se pueden determinar
a partir de la factorización de Cholesky o a partir de la descomposición
triangular (vista en el curso de Algebra Lineal),

DLT ) = LD 1/2D 1/2L T = (LD


W = LU = L (DL LD 1/2 )(D
D 1/2L T ) = KK T

Oscar Melo (UNAL) MLG 2 de abril de 2020 27 / 95


La matriz K que aparece en la factorización de W permite calcular las
transformaciones lineales de las observaciones (notado Ye ), la matriz de diseño X
e
y los errores e
ε:

1 Ye = K −1Y .
2 e = K −1X .
X
3 ε = K −1ε .
e
4 K −1Y = K −1η + K −1ε = K −1X β + K −1ε ↔ Ye = X
eβ + e
ε.

Ahora el modelo transformado Ye = X


eβ + e
ε tiene errores no correlacionados
2
de varianza σ ,
V (Y
e ) =V (X
eβ + e
ε) = V (e K −1ε) = K −1 V (εε)(K
ε) = V (K K −1 )T
=σ 2K −1WK −T = σ 2K −1KK T K −T = σ 2I n

Por tanto, se puede emplear los resultados y propiedades para inferencia de


los mı́nimos cuadrados en observaciones no correlacionadas al minimizar
sobre eε . A los estimadores de los parámetros calculados al minimizar se les
denominará βe (beta tilde, no beta sombrero como en los MCO).
Oscar Melo (UNAL) MLG 2 de abril de 2020 28 / 95
e β ) y se define como:
La función objetivo a minimizar es S(β
e β ) = ke 2 T P 2
S(β εk = eε e ε = k εek o bien,

e β) = e
S(β
T
ε eε = (Ye − Xβ e β ) = Ye T Ye + β T X
e β )T (Ye − X eTX e T Ye
βT X
e β − 2β

e β ) son:
Las condiciones de primer orden de mı́nimo de S(β

e β)
e β ) = 0 ↔ ∂ S(β
∇β S(β =0 i = 1, ..., p
∂βi

Derivando vectorialmente la expresión se obtienen las bien conocidas


ecuaciones normales
e β)
∂ S(β
∇β S(β
e β) = eTX
=2X e β − 2Xe T Ye = 0
β
∂β
eTX e T Ye = (K
 −1 T −1 −1 −1 T −1
βe =(X e )−1X K X) K X K X) K Y
(K
−1 T
KK T )−1X KK T )−1Y
 T 
= X (KK X (KK
X T W −1X )−1X T W −1Y
=(X

Oscar Melo (UNAL) MLG 2 de abril de 2020 29 / 95


Los textos teóricos sobre regresión lineal indican que en general los
estimadores βe no coinciden con los estimadores por mı́nimos
cuadrados ordinarios βb , únicamente coinciden si W = I n .
Resulta fácil de ver, que βe es no sesgado y calcular su varianza:

 T −1 −1 T −1 
X W X) X W Y
E (βe ) =E (X
 T −1 −1 T −1 
X W X ) X W Xβ = β
=E (X

eTX
 −1 T −1 −1
V (βe ) =σ 2 (X e )−1 = σ 2 (K
K X) K X
T −1
−1
2
X T W −1X )−1
 T
=σ (X X (KK
KK ) X = σ 2 (X

T T T T
SCE =Ye Ye − βe X
e X K −1Y )T K −1Y − βe (K
e βe = (K K −1X )T K −1X βe
T
KK T )−1Y − βe X T (KK
Y T (KK
=Y KK T )−1X βe = (Y
Y − X βe )T W −1 (Y
Y − X βe )
Oscar Melo (UNAL) MLG 2 de abril de 2020 30 / 95
Un caso particular de los mı́nimos cuadrados generalizados se da ante errores no
correlacionados, pero de varianza no constante. Por tanto la matriz W es diagonal
(con valores positivos) y simétrica.
Este caso es de especial interés en el curso de modelos lineales, puesto que los
procedimientos habituales de estimación MLG emplean métodos iterativos donde a
cada iteración hay que resolver unos mı́nimos cuadrados ponderados. Veamos con
detalle este caso cuando existe un solo regresor más un término independiente,
p = 2.

Sea el modelo con variable de respuesta contı́nua, Y = µ + ε = X β + ε , donde Y ,


η = µ son n × 1, X es n × 1 y β es 2 × 1 y los errores son no sesgados
 y correlacionados

con distribución normal y varianza no constante: ε ∼ Nn 0, σ 2D o Y ∼ Nn X β β, σ 2D ,
D matriz diagonal, definida positiva, de dimensión n × n.

Si
1/w1 0 ··· 0
 
 0 1/w2 ··· 0 
D=
 ... .. .. .. 
. . .

0 0 ··· 1/wn
entonces es simétrica y wi > 0, ∀i entonces puede calcularse una matriz no
singular K triangular inferior de dimensión n × n tal que D = KK T = D 1/2D 1/2 .

Oscar Melo (UNAL) MLG 2 de abril de 2020 31 / 95


La matriz K que aparece en la factorización de D permite calcular las
transformaciones lineales de las observaciones (notado Ye ), la matriz de
diseño X ε:
e y los errores e

1 Ye = K −1Y = D −1/2Y .
2 e = K −1X = D −1/2X .
X
3 ε = K −1ε = D −1/2ε .
e
4 D −1/2Y = D −1/2η + D −1/2ε = D −1/2X β + D −1/2ε ↔ Ye = X
eβ + e
ε.

Ahora el modelo transformado Ye = X


eβ + e
ε tiene los residuos no
2
correlacionados de varianza σ ,

V (Ye ) = σ 2I n

Por tanto, se puede emplear los resultados de propiedades e inferencia de los


mı́nimos cuadrados para observaciones no correlacionadas al minimizar sobre
ε . Al estimador del parámetro calculado al minimizar se le denominará βe
e
(beta tilde, no beta sombrero como en los MCO).

Oscar Melo (UNAL) MLG 2 de abril de 2020 32 / 95


T
ε y se define como, kεεk2 = e εe2k
P
La función objetivo a minimizar es e ε e ε= k
o bien, la función objetivo a minimizar en regresión lineal simple es
n
X
T e β )T (Ye − X
e β) = e
S(β ε eε = (Ye − X eβ ) = wi (Yi − β1 − xi β2 )2
i=1

e β ) son:
Las condiciones de primer orden de mı́nimo de S(β

e β)
∂ S(β
=0
β
∂β

Derivando vectorialmente la expresión se obtienen las bien conocidas


ecuaciones normales,
e β) n
∂ S(β eTX
e β − 2Xe T Ye = 0 → 2
X
=2X wi (Yi − β1 − xi β2 )xi = 0
∂β2 i=1
Pn
eTX e T Ye = (X
e )−1X wi Yi xi
βe =(X X T D −1X )−1X T D −1Y ; β2 = Pi=1 n 2
i=1 wi xi

Oscar Melo (UNAL) MLG 2 de abril de 2020 33 / 95


Resulta fácil calcular la varianza de βe y la suma de cuadrados residual del
modelo:

T
V (βe ) =σ 2 (Xe Xe )−1 = σ 2 (X
X T D −1X )−1
σ2
V (βe2 ) = Pn 2
i=1 wi xi

T T T
SCE =Ye Ye − βe Xe Xe βe
=(Y β )T D −1 (Y
Y − X β̃ Y − X β̃
β)
n
X  2
= wi Yi − β̃1 − xi β̃2
i=1

Oscar Melo (UNAL) MLG 2 de abril de 2020 34 / 95


Sı́ntesis de la estimación e inferencia por mı́nimos
cuadrados con respuesta normal

Oscar Melo (UNAL) MLG 2 de abril de 2020 35 / 95


3.6 Mı́nimos cuadrados con restricciones lineales

Sea el modelo con variable de respuesta contı́nua, Y = µ + ε = X β + εε, donde


Y , η = µ son n × 1, X es n × p de rango p y β es p × 1 y los errores son no
sesgados y correlacionados de varianza constante: E (εε) = 0 y V (εε) = σ 2I n .

β ) sujeto a un conjunto de
Supongase que se desea calcular el mı́nimo de S(β
restricciones lineales Aβ = c donde A es una matriz q × p de rango q < p.
El método de los mı́nimos cuadrados no requiere de ninguna hipótesis sobre
la distribución de las observaciones, la función objetivo a minimizar se suele
denominar S(β β ) y se define como,

β ) = ε T ε = Y T Y + β T X T X β − 2β
mı́n S(β βT X T Y

sujeto a
Aβ = c
El resultado es un programa de optimización cuadrático con restricciones
lineales de igualdad, a cada una de las cuales se le asocia un multiplicador
de Lagrange λi , cuyo valor es único si la matriz A es de rango completo.
Oscar Melo (UNAL) MLG 2 de abril de 2020 36 / 95
La formulación de la función lagrangiana de manera vectorial es,

β ) − λ T (Aβ
β , λ ) =S(β
L(β Aβ − c )
Y T Y + β T X T X β − 2β
=Y β T X T Y − λ T (Aβ
Aβ − c )

Sea βbi los estimadores por mı́nimos cuadrados con restricciones y sea βb los
estimadores ordinarios por mı́nimos cuadrados.
Las condiciones de primer orden de mı́nimo con restricciones son:

β , λ)
∂L(β
∇β L(β
β , λ) = 0 ↔ =0 i = 1, ..., p
∂βi
β , λ)
∂L(β
∇λ L(β
β , λ) = 0 ↔ =0 i = 1, ..., q
∂λi

β , λ)
∂L(β
∇β L(β
β , λ) = 0 ↔ X T X β − 2X
= 2X X T Y − AT λ = 0
β
∂β
β , λ)
∂L(β
∇λ L(β
β , λ) = 0 ↔ = −(Aβ
Aβ − c ) = 0
∂λλ

Oscar Melo (UNAL) MLG 2 de abril de 2020 37 / 95


1 T −1 T 1 T −1 T
X T X )−1X T Y + (X
βb R =(X X X ) A λ = βb + (X
X X) A λ
2 2
b − c =0
Aβ R

Las condiciones de primer orden de mı́nimo con restricciones son

1
X T X )−1A T λ − c = 0
Aβb + A (X
2
−1  
X T X )−1A T

λ = 2 A (X c − Aβb

Por lo tanto,
−1  
X T X )−1A T A (X
X T X )−1A T

βb R =βb − (X Aβb − c

Las condiciones de segundo orden de suficiencia de mı́nimo con restricciones


requieren que la hessiana de S(ββ ) respecto los parámetros β proyectada
sobre el espacio ortogonal a las restricciones sea definida positiva, es decir, si
Z es una matriz de dimensión p × (p − q) y rango completo por columnas
que expanden el espacio ortogonal a las restricciones de igualdad entonces,
Oscar Melo (UNAL) MLG 2 de abril de 2020 38 / 95
∂ 2 S(β
 
β)
Z T ∇2β S(β Z > 0 ↔ ZT
β )Z Z >0 i, j = 1, . . . , p
∂βi ∂βj

∂ 2 S(β
 
β)
∇2β S(β
β) = = 2X X T X , i, j = 1, . . . , p. Si la matriz de diseño X es
∂βi ∂βj
no singular, entonces la hessiana proyectada es definida positiva:
Z T ∇2β S(β Z = Z T (2X
β )Z X T X )Z
Z > 0. Por tanto, las condiciones de primer
orden de mı́nimo con restricciones, son condiciones suficientes.
Desde un punto de vista formal, la extensión al cálculo de estimadores por
mı́nimos cuadrados con restricciones de igualdad y/o desigualdad no
presenta ningún problema técnico: se formarı́a la función lagrangiana
correspondiente y se determinarı́a el mı́nimo por planteo de las condiciones
de optimalidad de K-T-T.
El cálculo de estimadores por mı́nimos cuadrados con restricciones de
igualdad es fundamental en estadı́stica, puesto que los contrastes de
hipótesis suelen resolverse por esa técnica o sencillamente la comparación
entre modelos jerárquicos habitual en las tablas ANOVA o ANODE.

Oscar Melo (UNAL) MLG 2 de abril de 2020 39 / 95


4. Contrastes de hipótesis en modelos normales
Sea el modelo con variable de respuesta continua y normal,

Y = µ + ε = X β + ε,

donde Y , η = µ son n × 1, X es n × p de rango p y β es p × 1 y los errores


son no sesgados y no correlacionados de varianza constante: E (εε) = 0 y
V (εε) = σ 2I n . Los estimadores ordinarios por mı́nimos cuadrados se vienen
notando βb .
Sea el modelo con variable de respuesta continua y normal,

Y = µ + ε = Xβ + ε

donde Y , η = µ son n × 1, X es n × p de rango p y β es p × 1 y los errores


son no sesgados y no correlacionados de varianza constante: E (εε) = 0 y
V (εε) = σ 2I n sujeto a un conjunto de restricciones lineales Aβ = c que
definen una hipótesis a contrastar denominada H, donde A es una matriz
q × p de rango q < p.
Los estimadores ordinarios por mı́nimos cuadrados se notarán βb .
H

Oscar Melo (UNAL) MLG 2 de abril de 2020 40 / 95


En una sección anterior se ha ilustrado la relación entre los estimadores
ordinarios por mı́nimos cuadrados y los estimadores ordinarios por mı́nimos
cuadrados restringidos:
h i−1  
X T X )−1A T A (X
βb H = βb − (X X T X )−1A T Aβb − c

Sea SCE la suma de cuadrados residual del modelo completo y SCEH


la suma de cuadrados residual del modelo restringido, que tienen por
expresión:
Y − X βb )T (Y
SCE = (Y Y − PY )T (Y
Y − X βb ) = (Y Y − PY ) = Y T (II − P )Y
Y
y
Y − X βb H )T (Y
SCEH = (Y Y − X βb H )

El contraste de la hipótesis H puede realizarse a partir de un


estadı́stico distribuido según la ley de Fisher y relacionado con la
variación de la suma de cuadrados residual y los grados de libertad del
modelo que se justifica en los siguientes puntos y recibe el nombre de
contraste de la varianza incremental.
Oscar Melo (UNAL) MLG 2 de abril de 2020 41 / 95
Contrastes en modelos normales. Varianza incremental
1.
h i h i
SCEH − SCE = Y T Y − (X
X T Y )T β
bH − Y T Y − (X
X T Y )T β
b
T T
X T Y )T β
=(X X T Y )T β
b − (X X T X )β
bH = βb (X X T X )β
b − βbH (X bH
b − βbH )T (X
=(β X T X )(β
b − βbH )
h −1 iT
X T X )−1A T A (X
= (X X T X )−1A T Aβ
(A b − c) X TX )
(X
h −1 i
X T X )−1A T A (X
× (X X T X )−1A T Aβ
(A b − c)
−1 −1
X T X )−1A T
b − c )T A (X X T X )−1A T A (X
X T X )−1A T
 

=(A A (X
× (A
Aβb − c)
−1
X T X )−1A T
b − c )T A (X


=(A Aβ
(A b − c)
2.
−1
E [SCEH − SCE ] =σ 2 q + (Aβ X T X )−1A T
Aβ − c )T A (X

Aβ − c )
(Aβ
que se demuestra empleando lemas técnicos sobre las propiedades de esperanzas y
varianzas de formas cuadráticas de variables normales.
Oscar Melo (UNAL) MLG 2 de abril de 2020 42 / 95
Contrastes en modelos normales. Varianza incremental

3. Si la hipótesis H es cierta, entonces se puede demostrar que


−1
X T X )−1A T

(SCEH − SCE )/q Aβ
(A b − c )T A (X Aβ
(A b − c)
0
F = = ∼ F(q,n−p,λ)
SCE /(n − p) qs 2

4 Si c = 0, entonces el estadı́stico F puede expresarse a partir de las matrices de


proyección ortogonales, de manera compacta:

(SCEH − SCE )/q Y T (P


P − P H )Y
Y /q
F = = T
SCE /(n − p) Y (II − P )Y
Y /(n − p)

La justificación del test puede realizarse a partir de la estimación de la varianza del


modelo por la suma de cuadrados residual del modelo restringido SH2 , que tiene por
esperanza matemática usando el resultado del punto 2:
−1
X T X )−1A T

Aβ − c )T A (X
 
SCEH − SCE (Aβ Aβ − c )
(Aβ
E [SH2 ] = E = σ2 +
q q

Oscar Melo (UNAL) MLG 2 de abril de 2020 43 / 95


h i−1
X T X )−1A T
Pero como la matriz es A (X definida positiva
E [SH2 ]
= σ2
+ δ con δ ≥ 0, facilita una estimación sesgada de la
varianza del modelo ya que,
SCE
 
2
E (S ) = E = σ2
n−p

Sin embargo, si H es cierta entonces δ = 0 tanto SH2 como s 2 son


estimadores no sesgados de σ 2 , y por tanto, el estadı́stico

SH2
F =
s2
toma un valor alrededor de 1. H es rechazada si el estadı́stico F toma
valores significativamente grandes.

Oscar Melo (UNAL) MLG 2 de abril de 2020 44 / 95


4.1 Cálculo de regiones e intervalos de confianza

Consideración
Un problema habitual en estadı́stica reside en el cálculo de intervalos de confianza
bilaterales para k combinaciones lineales de los parámetros con una probabilidad
1 − α en cada intervalo por separado, implica una probabilidad global simultanea
de veracidad que no es 1 − α, sinó más pequeña del orden 1 − kα.

Por ejemplo con k = 10 intervalos a un nivel habitual α = 0,05 implica


1 − kα = 0,5.
Los intervalos de confianza de Bonferroni son una salida rudimentaria al
problema anterior, que fuerza al calculo de intervalos de confianza
individuales a un nivel α/k, para conseguir una probabilidad simultanea
conjunta de certeza del nivel 1 − α.
El método de Scheffé es más difı́cil de justificar, pero facilita intervalos más
fiables y tiene en cuenta las relaciones entre los parámetros.

Oscar Melo (UNAL) MLG 2 de abril de 2020 45 / 95


Los intervalos de confianza para los coeficientes individuales βi se
obtienen mediante la fórmula habitual:

βbi − βi
t= ∼ t(n−p)
σ
bb
β
i

Por lo tanto,
βbi ± t(n−p),α/2 σ
bb
β
i
s
q
SCE
donde σ β
X T X )−1
b b = s (X ii y s = σ
b= .
i n−p
Además, t(n−p),α/2 es el valor correspondiente al estadı́stico t de
Student para el cálculo de un intervalo de confianza bilateral a un
nivel α con los grados de libertad correspondientes a la estimación de
varianza del modelo (n − p).

Oscar Melo (UNAL) MLG 2 de abril de 2020 46 / 95


Los contrastes de significación se realizarán a partir del cálculo del
βbi − βi
estadı́stico t = ∼ t(n−p) y su comparación con el valor de la
σ
bb
βi
ley t de Student de n − p grados de libertad al nivel de confianza,
unilateral o bilateral, deseado.
Los coeficientes βi son estadı́sticamente dependientes y por tanto los
intervalos de confianza individuales pueden dar una imagen errónea de sus
valores conjuntos

Oscar Melo (UNAL) MLG 2 de abril de 2020 47 / 95


5. Coeficiente de correlacción múltiple

Una medida de la bondad del modelo ajustado a los datos, en los modelos
lineales normales, es el coeficiente de correlación múltiple, R, definido como
el coeficiente de correlación muestral entre los datos yk y los valores
ajustados ybk : P
k (yk − y )(byk − yb)
R=h i1/2
P 2
P 2
k (yk − y ) k (b
y k − y
b )

El estadı́stico R 2 se denomina coeficiente de determinación.


La descomposición de la suma de cuadrados total (SCT ) como suma de
cuadrados explicada (SCM) por el modelo más suma de cuadrados residual
(SCE ) es un resultado conocido y muy útil en modelos lineales que incluyen
término independiente (por simplicidad, supóngase que es el primer
parámetro β1 ).

Oscar Melo (UNAL) MLG 2 de abril de 2020 48 / 95


P 1 P
1 SCT = k
(yk − y )2 donde y = k
yk es la media muestral de las observaciones.
P Pn
2 SCM = y − y )2 y SCE =
(b
k k k k
yk )2 .
(y − b
3 SCT = SCM + SCE es decir
X X X
(yk − y )2 = yk − y )2 +
(b (yk − b
yk )2
k k k

ya que
X X 2
(yk − y )2 = (yk − b yk − y )
yk ) + (b
k k
X X X
= yk − y )2 +
(b yk )2 + 2
(yk − b (yk − b yk − y )
yk )(b
k k k
X X
= yk − y )2 +
(b yk )2
(yk − b
k k

donde,
X X X
(yk − b yk − y ) =
yk )(b (yk − b yk − y
yk )b (yk − b
yk )
k k k
X
= (yk − b
yk )b
yk = (Y b )T Yb
Y −Y
k

Y − PY )T PY = Y T (II − P )PY
=(Y PY = 0

Oscar Melo (UNAL) MLG 2 de abril de 2020 49 / 95


El coeficiente de correlación múltiple puede reescribirse a partir del resultado anterior:
P P
k
yk − b
(yk − y k )(b y) k
(yk − y k )(b
yk − y )
R =h i1/2 = hP i1/2
P 2
P 2
P
(y − y )
k k
y −b
(b
k k
y) (y − y )2
k k
(b
k k
y )2
y −b
P P P
k
(yk − b
yk + b yk − y )
yk − y )(b k
(yk − b yk − y ) +
yk )(b k
yk − y )2
(b
=h i1/2 = hP i1/2
P P P
k
(yk − y )2 k
(b y )2
yk − b k
(yk − y )2 k
(b y )2
yk − b
P P 1/2
yk − y )2
(b y − y )2
(b
=h k
i1/2 = Pk k 2
P P k
(yk − y )
k
(yk − y )2 k
(b y )2
yk − b

Oscar Melo (UNAL) MLG 2 de abril de 2020 50 / 95


El coeficiente de determinación puede reescribirse ahora:

yk − y )2
P
2 (b SCM SCE
R = Pk = =1−
k
(yk − y )
2 SCT SCT

o equivalentemente SCE = (1 − R 2 )SCT .


El test basado en el estadı́stico de Fisher para cualquier hipótesis lineal Aβ = 0: H,
donde A es una matriz q × p de rango q < p puede reescribirse en función del
coeficiente de determinación del modelo completo, R 2 , y del coeficiente de
correlación del modelo bajo la hipótesis nula RH2 (modelo restringido), si la
hipótesis no involucra al forzosamente existente término independiente del modelo
(usualmente parámetro 1, ligado a una columna de la matriz de diseño que
contiene unos en todas las posiciones):
2
 2
 
(SCEH − SCE )/q n − p (1 − RH )SCT − (1 − R )SCT
F = =
SCE /(n − p) q (1 − R 2 )SCT
n − p R 2 − RH2 )
= ∼ F(q,n−p)
q (1 − R 2 )

Oscar Melo (UNAL) MLG 2 de abril de 2020 51 / 95


5.1 Propiedades del coeficiente de correlación múltiple

1 |R| ≤ 1 y si |R| = 1 existe una relación funcional exacta entre la


respuesta y los regresores.
2 R es el coeficiente de correlación lineal simple entre los valores
observados y los valores ajustados.
3 100(1 − R 2 ) representa el % de variabilidad no explicada por el
modelo.

Oscar Melo (UNAL) MLG 2 de abril de 2020 52 / 95


5.2 R 2 − adjusted

Los modelos de regresión lineal ordinarios suelen tener un parámetro


vinculado a un regresor constante, cuya columna en la matriz de diseño
contiene 1 y se denomina término independiente. Arbitrariamente, el
primero de los parámetros suele denotar el término independiente: β1 .

La presencia de término independiente facilita la interpretabilidad del


modelo de regresión ya que permite reescribir el coeficiente de
determinación:
X X 2
SCT = (Yk − Y )2 = Y T Y − 2 Y (Yk ) + nY
k k
T
X 2
Y Y − 2Y
=Y (Yk ) + nY
k
2
Y T Y − nY
=Y

Oscar Melo (UNAL) MLG 2 de abril de 2020 53 / 95


X 2 T X 2
SCM = ybk − yb = Yb Yb − 2 Y (Y
bk ) + nY
k k
T 2 T 2
Y PY − nY = Y X βb − nY
=Y
2
2 Y T X βb − nY SCM SCE
R = 2 = =1−
Y TY − nY SCT SCT

Algunos estadı́sticos prefieren emplear al valorar los modelos de regresión


ordinarios, el denominado coeficiente de determinación ajustado, ajuste que
se refiere a la introducción de los correspondientes grados de libertad de
SCT y SCE , muy relacionado con el estadı́stico Cp de Mallows:
 
SCE /n − p n−1
Ra2 = 1 − = 1 − (1 − R 2 )
SCT /n − 1 n−p
El coeficiente de determinación ajustado siempre es inferior al coeficiente de
determinación y puede tomar valores negativos. Si R 2 siempre crece al
incrementar el número de regresores, ya que la suma de cuadrados residual
siempre se reduce,Ra2 únicamente sufre un incremento al añadir uno o más
nuevos regresores, si el estadı́stico de Fisher F correspondiente al test de
significación de los nuevos regresores toma un valor superior a 1.
Oscar Melo (UNAL) MLG 2 de abril de 2020 54 / 95
6. Test global de regresión. Tabla de ANOVA

El test global de regresión es un caso particular del contraste de hipótesis


múltiples en modelos con término independiente, donde la hipótesis H a
contrastar es que todos los parámetros son cero, excepto el correspondiente
al término independiente: β2 = 0, ..., βp = 0

(SCEH − SCE )/q (SCT − SCE )/(p − 1)


F = =
SCE /(n − p) SCE /(n − p)
SCM/(p − 1) SCM 0
= = ∼ F(p−1,n−p,λ)
SCE /(n − p) (p − 1)s 2

O bien en función de los coeficientes de determinación del modelo completo


(R 2 ) y del modelo bajo la hipótesis (únicamente con el parámetro β1 , RH2 ):

n − p (R 2 − RH2 ) 0
F = ∼ F(p−1,n−p,λ)
p − 1 (1 − R 2 )

Oscar Melo (UNAL) MLG 2 de abril de 2020 55 / 95


Tabla ANOVA

El contraste global de regresión se ve clarificado si la descomposición de la


varianza se escribe en forma de tabla ANOVA, algo habitual en los paquetes
estadı́sticos:

Descomposición Grados libertad Varianza Contraste


yk − y )2 2 2
/s 2
P
SCM Pk (b p−1 SM = SCM/(p − 1) F = SM
b2 s 2 = SCE /(n − p)
SCE Pk (yk − y )2 n−p
SCT k (yk − y ) n−1 SY2 = SCT /(n − 1)

Oscar Melo (UNAL) MLG 2 de abril de 2020 56 / 95


7. Distribución de los valores ajustados

Sea Yb el valor ajustado para la observación k-ésima que tiene por


k
valores de los regresores x T Tb
k = (1, x2 , ..., xp ) : YK = x k β .
b

1 bk ] = E [xx T βb ] = x T β .
E [Y k k

bk ] = V [xx T βb ] = x T V [βb ]xx k = σ 2x T (X T −1 2


V [Y k X X ) x k = σ pkk , donde pkk es el
2
k k
término diagonal k-ésimo de la matriz de proyección, que por ser
idempotente tiene valores entre 1/n y 1. La varianza del valor ajustado es
mı́nima si se encuentra en el centro de gravedad de los regresores.
3 Se distribuye normalmente.

Si x T = (1, x2 , ..., xp ) son los valores de los regresores que permiten


hacer una prognosis sobre un valor medio ajustado Y b :Yb = x Tβ
b.

Oscar Melo (UNAL) MLG 2 de abril de 2020 57 / 95


Las fórmulas anteriores para la determinación de su esperanza y su varianza
X T X )−1x , pero al no ser un punto
b ] = σ 2x T (X
siguen siendo válidas, V [Y
considerado en la matriz de diseño para la estimación de los parámetros
X T X )−1x puede ser superior a la unidad e incluso arbitrariamente
x T (X
grande.
La precisión de las estimaciones en la extrapolación de un modelo de
regresión a un rango de valores x fuera del rango empleado para la
estimación puede ser muy deficiente.
En la literatura sobre modelos de regresión, la distribución de los valores
ajustados se suele denominar distribución de los valores medios (no se
considera el término de residuo) y los intervalos de confianza se calculan en
base a la ley t de Student de n − p grados de libertad:
b − xT β
Y b − xT β
Y
≈ N(0, 1) → t = ≈ tn−p donde
σby σ
by
p p
σ b x T (X T X )−1 x = s x T (X T X )−1 x
bYb = σ
Con lo que un intervalo de confianza bilateral a un nivel α para el verdadero
valor medio viene determinado por: Y b ± t α/2 σ
n−p b
bY
Oscar Melo (UNAL) MLG 2 de abril de 2020 58 / 95
La predicción de un valor particular no observado Y∗ = x T β
b + ε∗ para quien los
regresores toman por valor x∗T = (1 x2 ... xp ) requiere de la estimación de las
perturbaciones aleatorias, es decir, de la estimación de la varianza de las perturbaciones
aleatorias para predicciones con valores de los regresores x∗T = (1 x2 ... xp ):
Y∗ = x T βb + ε∗ y ε∗ independiente de las perturbaciones aleatorias de las observaciones
empleadas para la estimación εT = (ε1 ... εn )

1 b∗ ] = E [x∗T β − x∗T βb] = x∗T β − x∗T β = 0 es centrada


E [ε∗ ] = E [Y∗ − Y
 
2 b∗ ] = V [Y∗ ] + V [x∗T βb] = σ2 + x∗T V [βb]x∗ = σ2 1 + x∗T (X T X )−1 x∗
V [ε∗ ] = V [Y∗ − Y
3 Las perturbaciones aleatorias ajustadas estan distribuidas normalmente y son
correlacionadas: 
ε=Y −Y b ≈ N 0, σ2 I + X (X T X )X T

Los intervalos de confianza se calculan en base a la ley t de Student de n-p grados de


libertad:
ε ε
≈ N(0, 1) → t = ≈ tn−p donde
σε p σbε p
σ 1 + x T (X T X )−1 x = s 1 + x T (X T X )−1 x
σbε = b

Oscar Melo (UNAL) MLG 2 de abril de 2020 59 / 95


. . . Con lo que un intervalo de confianza bilateral a un nivel α para el
α/2
verdadero valor de la perturbación aleatoria viene determinado por: ±tn−p σ bε

Lo que lleva al cálculo de un intervalo de confianza bilateral a un nivel α


para el verdadero valor de una observación particular venga determinado
por: Yb ± t α/2 σ
bε donde Y b = x T βb
n−p

Los residuos tienen una distribución:

1 E [e] = E [Y − Y
b ] = E [Y ] − E [X β]
b = Xβ − Xβ = 0
2 V [e] = V [(I − P)Y ] = (I − P)T V [Y ](I − P) = σ 2 (I − P)2 = σ 2 (I − P)

Oscar Melo (UNAL) MLG 2 de abril de 2020 60 / 95


8. EFECTO DE LA SALIDA DE LAS HIPÓTESIS
ORDINARIAS

Sea el modelo con variable de respuesta contı́nua,

Y = µ + ε = X β + ε, donde Y , η = µ son nx 1 , X es nxp de rango p y β es px 1

y los errores son no sesgados de varianza constante, no correlacionados y distribuidos


normalmente: ε ≈ Nn (0, σ 2 In ) o equivalentemente Y ≈ Nn (X β, σ 2 In )

La hipótesis de normalidad no es forzada en la práctica, ya que en virtud del Teorema


Central del Lı́mite, grosso modo, la suma de un gran número de fuentes de error de
distribución desconocida, pero estadı́sticamente independientes entre ellas y contribución
semejante facilita errores de medida prácticos distribuidos normalmente.
En ausencia de normalidad, los estimadores por mı́nimos cuadrados ordinarios no son
eficientes como se ha detallado en apartados anteriores, sin embargo el test de Fisher para
el contraste de hipótesis por varianza incremental es poco sensible a las desviaciones de la
normalidad, cuyo efecto se transcribe en una reducción de los grados de libertad teóricos
de la ley de Fisher que se debiera emplear para los contrastes (el detalle se omite en estos
apuntes, por el carácter excesivamente técnico del resultado indicado en Seber (1977).

Oscar Melo (UNAL) MLG 2 de abril de 2020 61 / 95


El test de la varianza incremental para el contraste de hipótesis es altamente
sensible a la falta de independencia.
La multicolinealidad de los regresores es un aspecto que no constituye una
salida de las hipótesis ordinarias, pero tiene consecuencias fatales y debe
prevenirse absolutamente:

1 Los estimadores βb por mı́nimos cuadrados ordinarios tendrán varianzas muy


b = σ 2 (X T X )−1 y la matriz XT X está muy mal
altas, ya que V [β]
condicionada si los regresores tienden a la dependencia lineal, resultando
singular en caso de dependencia exacta.
2 Los estimadores βb por mı́nimos cuadrados ordinarios son muy dependientes
entre sı́, estando altamente correlacionados.

El texto de Seber contiene la demostración exhaustiva de los efectos sobre los


estimadores y su distribución ante la salida de las hipótesis ordinarias si se siguen
empleando los estimadores por m.c.o.:

βb = (X T X )−1 X T Y

Oscar Melo (UNAL) MLG 2 de abril de 2020 62 / 95


8.1 Efecto del underfitting

Sea el modelo correcto, Y = X β + Z γ + ε con el resto de hipótesis vigentes y sea


el modelo estimado por mı́nimos cuadrados ordinarios Y = X β + ε,
βb = (X T X )−1 X T Y entonces:

1 βb = (X T X )−1 X T Y es un estimador sesgado de β con sesgo


(X T X )−1 X T Z γ, ahora bien, si los regresores X y Z tienen columnas
ortogonales entonces βb es no sesgado.
2 El estimador habitual de la varianza del modelo es sesgado y sobreestima la
γ T Z T (I − P)Z γ
varianza real: E [s 2 ] = σ 2 + > σ2
n−p
3 Los residuos e son sesgados, pero su varianza no viene alterada.

Oscar Melo (UNAL) MLG 2 de abril de 2020 63 / 95


8.2 Efectos del overfitting
Sea el modelo correcto Y = X β + ε, con el resto de hipótesis vigentes y sea el
modelo estimado por mı́nimos cuadrados ordinarios
 
β
Y = X β + Z γ + ε = [X Z ] +ε=X ev + ε
γ

, entonces:

1 Los estimadores de βb por mı́nimos cuadrados ordinarios son no sesgados,


pero con una varianza inflada:

(X T X )−1 + B x
   
βb 2 e T e −1 2
V = σ (X X ) = σ
γ
b x x

donde B es una matriz definida positiva.

2 El estimador habitual de la varianza del modelo es no sesgado: E [s 2 ] = σ 2

Oscar Melo (UNAL) MLG 2 de abril de 2020 64 / 95


8.3 Matriz de dispersión incorrecta

Si se emplean los estimadores por mı́nimos cuadrados ordinarios


βb = (X T X )−1 X T Y , cuando los errores estan correlacionados y no tienen varianza
constante ε ≈ Nn (0, σ 2 W ) entonces:

1 Los estimadores βb = (X T X )−1 X T Y son no sesgados.


2 La varianza de los estimadores ordinarios, no coincide con la varianza de los
estimadores por mı́nimos cuadrados generalizados.
3 La varianza del modelo estimada a partir de la suma de cuadrados residual
del modelo por mı́nimos cuadrados ordinarios es sesgada y tiende a
subestimar la varianza del modelo.

Oscar Melo (UNAL) MLG 2 de abril de 2020 65 / 95


9. DIAGNOSIS Y VALIDACIÓN DEL MODELO

El análisis de los residuos constituye una herramienta práctica y que entra


por los ojos para la validación de las hipótesis aparentemente muy teóricas
de la regresión lineal y por tanto, para garantizar las propiedades estadı́sticas
de los estimadores del modelo asumido:

Sea el modelo con variable de respuesta contı́nua,


Y = µ + ε = X β + ε, donde Y , η = µ son nx 1 , X es nxp de rango p y β es px 1

y los errores son no sesgados de varianza constante, no correlacionados y


distribuidos normalmente: ε ≈ Nn (0, σ 2 In ) o equivalentemente Y ≈ Nn (X β, σ 2 In )

Los residuos son las diferencias entre los valores observados y los valores
ajustados por el modelo:
e = Y −Yb = (I − P)Y = (I − P)(X β + ε) = X β − PX β + (I − P)ε = (I − P)ε y de ahı́
que a veces se les denomine errores observados, término que únicamente
debiera emplearse si el modelo es correcto.

Oscar Melo (UNAL) MLG 2 de abril de 2020 66 / 95


Los residuos tienen una distribución:

1 E [e] = E [Y − Y
b ] = E [Y ] − E [X βb] = X β − X β = 0
2 V [e] = V [(I − P)Y ] = (I − P)T V [Y ](I − P) = σ 2 (I − P)2 = σ 2 (I − P)

Aunque los errores ε sean independientes y de varianza constante,  los residuos e noson
independientes, ni tienen la misma varianza: V [e] = σ 2 (I − P) I − X (X T X )−1 X T o
bien individualmente, la varianza del residuo i-ésimo es V [ei ] = σ 2 (1 − pii ), donde pii es el
elemento diagonal i-ésimo de la matriz de proyección P.

Para comparar los residuos entre sı́, suele ser más ilustrativo transformarlos, encontrándose
en la literatura y los paquetes estadı́sticos diversas posibilidades:

1 El residuo escalado ci se define como el residuo dividido por el estimador de la


ei
desviación estandar del modelo s, ci = , lo cual no es demasiado incorrecto si no
s
2
existen grandes variaciones en V [ei ] = σ (1 − pii )

Oscar Melo (UNAL) MLG 2 de abril de 2020 67 / 95


Sin embargo, en los residuo estandarizados numerador y denominador son dependientes,
ya que ei se ha empleado para estimar la varianza del modelo b σ 2 = s 2 , lo que puede
solucionarse eliminando la observación i-ésima de los cálculos y estimando una regresión
con los restantes n − 1 datos, lo que darı́a lugar a los estimadores β 2 que podrı́an
b(i) y s(i)
relacionarse formalmente con los estimadores β
b y permiten definir los denominados
residuos estudentizados.
2 El residuo estandarizado di se define como el residuo dividido por su desviación tipo:
ei
di = √
s 1 − pii

ei
3 El residuo estudentizado di se define como ri = √ donde
s(i) 1 − pii

2 =
(n − p)s 2 − ei2 /(1 − pii )
s(i) Los residuos estudentizados siguen una distribución t de
n−p−1
Student con n − p − 1 grados de libertad bajo modelos de respuesta continua sujetos a las
hipótesis ordinarias.

Oscar Melo (UNAL) MLG 2 de abril de 2020 68 / 95


El análisis de los residuos permite concluir si las hipótesis asumidas son correctas
o no son correctas (y por qué no lo son) y se realiza en base a herramientas
gráficas de la estadı́stica descriptiva:

1 Histograma de los residuos: se persigue ver que esten centrados en el cero


y que su distribución sea aproximadamente normal. Un boxplot puede ayudar
a identificar los outliers de los residuos.
2 Tambien se puede emplear un Normal Probability Plot de los residuos
estandarizados o estudentizados (recta de Henry).
Oscar Melo (UNAL) MLG 2 de abril de 2020 69 / 95
Ante desviaciones de la normalidad los contrastes basados en las leyes t de
Student y F de Fisher, se convierten en aproximados, además de perder la
eficiencia de los estimadores, se debe proceder mediante la aplicación de una
transformación adecuada a la variable de respuesta Y .
La potencia de los tests de normalidad es baja, ya que aunque los errores no
sean normales, los residuos son combinación lineal de los errores y en virtud
del Teorema Central del Lı́mite tienden a la normalidad, a pesar de ser
dependientes (para n > 30, no suele ser crucial este último aspecto).
Los residuos suelen estar correlacionados con las observaciones Yi , pero no
con los valores ajustados Ybi , de ahı́ la selección de estos últimos para la
realización de los gráficos indicados. (Ejemplo de Ascombe, Peña pp.
263-264 vol.2).

Oscar Melo (UNAL) MLG 2 de abril de 2020 70 / 95


3. Diagrama bivariante de los residuos (en ordenadas) frente a los valores
ajustados: ei vs Ybi , o mejor di vs Ybi o ri vs Ybi . Estos gráficos suelen
indicar la falta de linealidad (requiere transformación de las observaciones Yi
y/o introducción de nuevos regresores), heterocedasticidad (requiere
transformación de las observaciones Yi ) e identifican valores atı́picos.

Oscar Melo (UNAL) MLG 2 de abril de 2020 71 / 95


Residuals Versus the Fitted Values

Oscar Melo (UNAL) MLG 2 de abril de 2020 72 / 95


Oscar Melo (UNAL) MLG 2 de abril de 2020 73 / 95
La visualización de una banda horizontal de residuos centrada en Y = 0
indica satisfacción de las hipótesis. Los residuos estudentizados tienen una
distribución de referencia y por tanto, la presencia de puntos con valores
negativos o positivos más allá de un cierto nivel de confianza seleccionado
para la distribución de referencia (t de Student de n − p − 1 grados de
libertad) indica un valor atı́pico del residuo o outlier en los residuos.

Oscar Melo (UNAL) MLG 2 de abril de 2020 74 / 95


4. Diagramas bivariantes de los residuos (en ordenadas) frente a cada
uno de los regresores (excepto el término independiente).
Ayudan a identificar si la falta de linealidad (paliable mediante la
transformación de las observaciones Y o mediante la introducción de un
término cuadrático del regresor correspondiente) o la heterocedasticidad
(paliable mediante transformación de Y ) son debidas a algún regresor en
particular. La visualización de una banda horizontal de residuos indica
satisfacción de las hipótesis.

Oscar Melo (UNAL) MLG 2 de abril de 2020 75 / 95


5. Representación de los residuos (en ordenadas) frente a variables
explicativas omitidas en el modelo.
Se emplean para detectar la posible influencia en los residuos de una variable
no incluı́da en el modelo.
Un caso particular consiste en la representación de los residuos en función del
tiempo u orden de los datos; en este caso se pueden calcular los coeficientes
P
i ei ei+k
de autocorrelación observados de los residuos de orden k, r (k) = P 2
i ek
y aplicar el siguiente test para muestras grandes: bajo la hipótesis de
independencia (todos los coeficientes de autocorrelación teórica de orden k
m
X r 2 (k)
igual a cero), entonces el estadı́stico Q = n(n + 2) ≈ χ2m−2
n−k +1
k=1

Un test alternativo es el test de Durbin-Watson, basado en el estadı́stico del


mismo nombre para el contraste de la hipótesis nula que el coeficiente de
autocorrelación de primer orden (r (1)) es cero, cuya justificación y examen
de las tablas correspondientes no es nada trivial.

Oscar Melo (UNAL) MLG 2 de abril de 2020 76 / 95


9.1 Transformación de Box-Cox

 λ
Y −1
La familia Box − Cox es una familia de

 λ 6= 0
transformaciones de variables aleatorias h(Y ) = λ
que se emplean para conseguir 

normalidad o homocedasticidad: logY λ 6= 0
La justificación de la definición viene de una propiedad básica que relaciona
las varianzas de transformaciones de la variables aleatorias y que trasladada
a la notación empleada en la presente sección es:

V [h(Y )] = V [Y ]|h0 (Y )|2

Por tanto, si la varianza de la variable transformada se desea que sea


constante, entonces la derivada de la transformación debe ser inversamente
proporcional a la desviación tı́pica de la variable original.
La constante λ de la transformacion puede estimarse graficamente o por
maxima verosimilitud.

Oscar Melo (UNAL) MLG 2 de abril de 2020 77 / 95


Algunos casos particulares son:

Si la desviacion tipica de Y es proporcional al cuadrado de su media,


2
s ∝ Y , la constante λ = −1 facilita la transformación recı́proca adecuada
para esta situación.
3/2
Si la desviación tı́pica de Y es s ∝ Y , la constante λ = −1/2 facilita la
transformación inversa de la raiz adecuada para esta situación.
Si la desviación tı́pica de Y es proporcional a su media, s ∝ Y , la constante
λ = 0 facilita la transformación logarı́tmica adecuada para esta situación.
Si la desviación tı́pica de Y es proporcional a la raiz cuadrada de su media,
1/2
s ∝ Y , la constante λ = 1/2 facilita la transformacion raiz cuadrada
adecuada para esta situacion.

Oscar Melo (UNAL) MLG 2 de abril de 2020 78 / 95


Observaciones Influyentes A priori y a Posteriori

Resulta fácil desarrollar ejemplos que ponen de manifiesto que existen


observaciones que tienen mucha mayor influencia en las propiedades del modelo
que otras, hasta el extremo que en presencia de 100 valores observados, las
propiedades de los estimadores dependan únicamente de unos pocos de esos
valores.

Este aspecto está relacionado con la fiabilidad del modelo en la realización


de predicciones, y parece más conveniente un modelo que venga avalado por
la totalidad de la muestra empleada para su estimación, que no aquel otro
que sólo dependa de unas pocas observaciones.
El estudio de los valores influyentes a priori determinará la robustez del
diseño de recogida de los datos y el estudio de los valores influyentes a
posteriori determinará la robustez de los parámetros estimados.

Oscar Melo (UNAL) MLG 2 de abril de 2020 79 / 95


No hay que confundir observaciones influyentes con residuos atı́picos: una
observación influyente puede tener o no un residuo estadı́sticamente grande,
y viceversa, un residuo atı́pico no fuerza no implica que la observación
correspondiente sea influyente.
Por ejemplo, en regresión lineal simple se puede introducir una observación muy
atı́pica (residuo muy alto) en el valor medio de la variable explicativa, la
observación no resultará influyente, sin embargo el coeficiente de determinación
se resentirá y disminuirá debido al incremento de la suma de cuadrados residuales.

Oscar Melo (UNAL) MLG 2 de abril de 2020 80 / 95


9.2 Observaciones influyentes a priori
Los puntos x (X ∈ <p ) heterogéneos respecto el centro de gravedad de los valores
de los regresores identifican las observaciones influyentes a priori y corresponden a
valores grandes en la diagonal de la matriz de proyección P = X (X T X )−1 X T
notados pii = xiT (X T X )−1 xi (al ser simétrica e idempotente tiene p vaps 1 y
n − p vaps 0) y se puede demostrar que:

1
1 ≤ pii ≤ 1
n
2 Al tratarse de una matriz
P idempotente y simétrica:
dim(P) = traza(P) = i pii = p
P
pii p
Lo que permite determinar su media p = i = y a partir de otros
n n
estadı́sticos descriptivos calculables, los resultados de Belsley et al., indican
que si las variables explicativas proceden de una distribución normal indican
que pueden considerarse valores influyentes a priori aquellos puntos con
pii > 2p

Oscar Melo (UNAL) MLG 2 de abril de 2020 81 / 95


Los valores Pii suelen denominarse en los paquetes estadı́sticos factores de
anclaje o leverage y miden la distancia entre una observación xi y el centro
de gravedad de las observaciones,

1 Si la observación está muy alejada pii → 1 y V [ei ] = σ 2 (1 − pii ) = 0,


indicando que sea cual sea el valor observado Yi , su residuo es siempre igual
a su valor esperado, cero, por lo que la ecuación de regresión estimada por
mı́nimos cuadrados ordinarios pasará siempre por dicho punto.
2 Si la observación está en el centro de gravedad entonces pii → 1/n y V [ei ]
es máxima, indicando que sea cual sea el valor observado Yi , puede tener
por efecto una reducción drástica del coeficiente de determinación; sin
embargo, nunca será un valor detectado como influyente a priori según los
criterios descritos.

Oscar Melo (UNAL) MLG 2 de abril de 2020 82 / 95


9.3 Observaciones influyentes a posteriori

Una observación influyente a posteriori implica que su inclusión:

1 Modifica el vector de parámetros estimados β.


b
2 Modifica los valores ajustados Y
b.
3 Su valor ajustado es muy bueno cuando se incluye la observación en el
proceso de estimación por mı́nimos cuadrados ordinarios, pero su valor
ajustado es muy malo si se ha omitido la observación en el proceso de
estimación.

Oscar Melo (UNAL) MLG 2 de abril de 2020 83 / 95


La influencia de una observación en la determinación de los estimadores por
mı́nimos cuadrados ordinarios se determina mediante la distancia de Cook.
Una observación muy influyente a priori, puede que no sea influyente a
posteriori (se pueden construir ejemplos fácilmente). Cook propuso una
medida de la influencia a posteriori de una observación muy efectiva, a
través de la distancia de Cook Di

2 
(βb − βb(i) )T X T X (βb − βb(i) )
 
ei pii 1
Di = = √ ≈ Fp,n−p
ps 2 s 1 − pii 1 − pii p

donde βb(i) son los estimadores obtenidos después de la supresión de la


observación i-ésima.

Oscar Melo (UNAL) MLG 2 de abril de 2020 84 / 95


De manera que un criterio para la determinación de las observaciones
influyentes a posteriori consiste en comparar su distancia de Cook Di con el
valor de la ley de Fisher correspondiente al nivel de confianza seleccionado
α α
Fp,n−p : un valor con distancia de Cook elevada, Di > Fp,n−p , denota una
observación influyente a posteriori.

Recordar que la esperanza matemática de una ley de Fisher de p y q grados


de libertad es q/(q − 2) q>2.

Un criterio práctico propuesto por Chatterjee y Hadi (88) justifica un umbral


máximo para la distancia de Cook de 4/(n − p).

Oscar Melo (UNAL) MLG 2 de abril de 2020 85 / 95


10. SELECCIÓN DEL MEJOR MODELO

El establecer una ecuación de regresión para una respuesta Y en términos de


unos predictores o regresores (X1 , ..., Xp ) que pueden ser transformaciones de las
variables explicativas originales (Z1 , ..., Zp ) sintetiza dos criterios opuestos, lo que
se denomina criterio de parsimonia.

1 La ecuación tiene que ser útil para finalidades predictivas, de manera que se
incluı́ran tantos regresores como sea necesario para que los valores ajustados
sean fiables.
2 Los modelos con muchos regresores tienen un alto coste de obtención y
mantenimiento de la información, de manera que el modelo debe incluir el
mı́nimo de regresores necesario.

En la práctica, es inviable la generación y análisis de todos las posibles


ecuaciones de regresión, para la selección de la más conveniente. Falta
indicar que un buen modelo, debe mostrar un análisis de los residuos
satisfactorio y un estudio de los valores influyentes, serı́a deseable la
consecución de modelos sin residuos atı́picos, ni valores influyentes a
posteriori.
Oscar Melo (UNAL) MLG 2 de abril de 2020 86 / 95
Los elementos que se han expuesto hasta el momento y que permiten valorar la
calidad de una ecuación de regresión son:

1 El coeficiente de determinación, R 2 . Se estabiliza cuando el número de


regresores incluı́dos es satisfactorio, aunque puede haber más de la cuenta,
ya que se incrementa (no linealmente) al incrementarse el número de
regresores.
Considerar para facilitar la tarea el coeficiente de determinación ajustado,
2
Radj .
2 La estabilización del estimador clásico de la varianza del modelo, que ante
modelos insatisfactorios recuérdese que se ha visto que es sesgado y por
tanto, debe denominarse residuo cuadrático medio.
3 El análisis de los residuos.
4 El estudio de los valores influyentes a priori y a posteriori.
5 Se va a añadir un último elemento, el denominado Cp de Mallows.

Oscar Melo (UNAL) MLG 2 de abril de 2020 87 / 95


Cp Mallows
La combinación de los 5 puntos anteriores permitirá seleccionar dentro de un
conjunto de ecuaciones de regresión (quizás incluso en el caso hipotético de
todas) la mejor.

SCRp AICp
El Cp Mallows se define como Cp = − (n − 2p) = 2 − n, donde SCRp
s2 s
es la suma de cuadrados residual de un modelo con p regresores y el estimador de
la varianza del modelo procede del modelo maximal (se intenta garantizar ası́ la
ausencia de sesgo).

La esperanza matemática del estadı́stico Cp es el número de parámetros del


modelo: E [Cp ] = p
El procedimiento a seguir consiste en representar en un diagrama bivariante
Cp frente p: los modelos satisfactorios quedarán cerca de la bisectriz, el
modelo con p más bajo, pero sobre la bisectriz resulta el más satisfactorio
bajo el criterio de Mallows. La justificación del procedimiento procede de las
siguientes consideraciones:

Oscar Melo (UNAL) MLG 2 de abril de 2020 88 / 95


Cp Mallows

1 Un modelo no adecuado facilitará una SCRp elevada, con Cp > p. De alguna


manera, el estadı́stico de Mallows se desvı́a de la bisectriz indicando que
existe sesgo en la estimación de la varianza del modelo: un error cuadrático
medio (varianza + sesgo 2 ) distinto de la varianza real del modelo.

2 Un modelo con exceso de regresores ajusta bien los datos y Cp ≈ p , pero p


es mayor que en otro modelo satisfactorio con valor del estadistico de
Mallows sobre la bisectriz de la grafica y menor numero de parametros.

Oscar Melo (UNAL) MLG 2 de abril de 2020 89 / 95


Selección del mejor modelo
Ejemplo: Datos DUNCAN1 resultados del análisis mediante el Cp de Mallows de todos los
modelos posibles para explicar el ‘PRESTIGE’ a partir de los ingresos (INCOME) y la
EDUCATION.

Oscar Melo (UNAL) MLG 2 de abril de 2020 90 / 95


10.1 Procedimiento de “backward elimination”

Procedimiento económico que no requiere del cálculo de un número elevado de


ecuaciones de regresión. Los pasos básicos son:

1 Calcular la ecuación de regresión maximal, es decir, que contenga todos los


regresores disponibles.
2 Para cada regresor se efectúa un test de Fisher de la hipótesis Hi : βi = 0,
sea el valor del estadı́stico de Fisher correspondiente al test de la hipótesis
nula del i-ésimo regresor Fi
3 Se selecciona el regresor tal que el estadı́stico de Fisher correspondiente es
mı́nimo, sea el regresor l-ésimo: Fl = min{F1 , F2 , ...} y se compara con el
valor del correspondiente a un cierto nivel de significación de la ley de Fisher
correspondiente denominado en muchos paquetes estadı́sticos “F to
remove”: F α .
Si Fl < F α entonces se elimina el regresor l-ésimo del modelo. Se repite a
partir del punto 2. Sinó el modelo ya es satisfactorio.

Oscar Melo (UNAL) MLG 2 de abril de 2020 91 / 95


Backward y Forward procedures

Backward Elimination es adecuado para la regresión polinómica y robusto,


una vez eliminada una variable nunca vuelve a aparecer en la ecuación, ni
tampoco ningún modelo alternativo que la contenga, puede dar como
resultado modelos que no son significativamente los mejores.
La construcción de la regresión maximal podı́a ser un inconveniente hace
unos años, por el mal condicionamiento posible de la matriz de diseño
maximal, actualmente los procedimientos de optimización empleados son
muy robustos.
De manera análoga, algunos paquetes estadı́sticos disponen del
procedimiento forward inclusion, que parte del modelo minimal
(únicamente con el término independiente) y va añadiendo regresores
siempre que el test de inclusión basado en el estadı́stico de Fisher resulte
significativo para alguno de los regresores no incluidos hasta el momento.

Oscar Melo (UNAL) MLG 2 de abril de 2020 92 / 95


Forward inclusion es un procedimiento menos robusto que la
backward elimination, ya que a veces un regresor incluı́do en una
etapa anterior, podrı́a ser eliminado por falta de significación. Este
inconveniente lleva directamente al diseño de un procedimiento
hı́brido denominada regresión paso o paso o stepwise regression,
que aparece en todos los paquetes (al menos, los conocidos por la
autora) y cuyo empleo se incentiva en las clases de laboratorio.

Oscar Melo (UNAL) MLG 2 de abril de 2020 93 / 95


10.2 Regresión paso o paso (stepwise regression)

Procedimiento de selección de la mejor ecuación de regresión (mejor modelo), parte de un


conjunto reducido de regresores y lo va engrandeciendo hasta hallar el modelo satisfactorio. Las
etapas pueden resumirse en los siguientes puntos:

1 Seleccionar el regresor más correlacionado con la variable de respuesta Y , sea xm . Calcular


la ecuación de regresión.
2 Para cada regresor i no incluido hasta el momento se calcula el coeficiente de correlación
parcial con la variable de respuesta Y (técnicamente supone calcular la correlación entre
los residuos del modelo actual y los residuos de una ecuación de regresión auxiliar que
especifica como variable de repuesta el regresor i no presente en el modelo y variables
explicativas todos los regresores presentes en el modelo actual).
3 Se selecciona el regresor con coeficiente de correlación parcial más elevado, sea xm y se
recalcula la ecuación de regresión con el modelo incrementado, aceptando el nuevo
regresor xm si el estadı́stico de Fisher para el contraste de la hipótesis nula Hm : βm = 0,
sea Fm es superior a un cierto valor de referencia mı́nima de la ley de Fisher
β
correspondiente denominado ”F to enter”: F .
β
Si Fm > F entonces se incluye el regresor m-ésimo en el modelo.

Oscar Melo (UNAL) MLG 2 de abril de 2020 94 / 95


4 Para cada regresor incluido hasta el momento se efectua un test de Fisher de
la hipótesis Hi : βi = 0, sea el valor del estadı́stico de Fisher correspondiente
al test de la hipótesis nula del i-ésimo regresor Fi .
5 Se selecciona el regresor tal que el estadı́stico de Fisher correspondiente es
mı́nimo, sea el regresor l-ésimo: Fi = minF1 , F2 , ... y se compara con el valor
del correspondiente a un cierto nivel de significación de la ley de Fisher
correspondiente denominado en muchos paquetes estadı́sticos “F to
remove”: F α .

Si Fl < F α entonces se elimina el regresor l-ésimo del modelo. Volver al


punto 2.
6 El procedimiento finaliza cuando ningún regresor satisfaga el criterio de
entrada y ningún regresor satisfaga el criterio de salida. Si los niveles de
significación para la entrada y la salida de regresores estan bien
seleccionados da buenos resultados: α = β = 0,05 es una selección habitual.

Oscar Melo (UNAL) MLG 2 de abril de 2020 95 / 95

También podría gustarte