Está en la página 1de 42

Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A.

– Escuela de Estadística

1. Nociones preliminares relacionadas con vectores de variables aleatorias


Para facilitar la notación y el desarrollo de algunas pruebas se utiliza con frecuencia una escritura del modelo en forma
matricial, la cual requiere establecer algunas definiciones que se presentan a continuación.

1.1 Vectores aleatorios


Sean variables aleatorias con medias y varianzas , respectivamente; y donde
representa la covarianza entre las variables e con . Sea el
vector , el cual definimos como un vector aleatorio de media dada por el vector
y matriz de varianzas – covarianzas ,

Observe que el vector de medias asociado a un vector aleatorio es simplemente el vector formado por las medias de cada
elemento del vector. También, el vector de medias corresponde a la esperanza del vector aleatorio. Observe también que
( es una matriz simétrica) y (los elementos en la diagonal principal de corresponden a las varianzas
de las variables ). Por tanto podemos escribir,

En resumen, la matriz de varianzas-covarianzas asociada a un vector aleatorio es una matriz cuadrada y simétrica de orden
igual al tamaño del vector aleatorio donde la diagonal principal contiene las varianzas asociadas a cada elemento del vector y
por fuera de la diagonal están las covarianzas entre pares de elementos del vector aleatorio.

1.2 Algunas propiedades del valor esperado y la varianza de un vector aleatorio


Sea un vector aleatorio con media (vector de medias) y matriz de varianza – covarianza Sea una matriz
y sea un vector de constantes, entonces:
1.
2.
3.

1
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

4.

1.3 Algunas definiciones básicas en teoría matricial


Sean y matrices de constantes de orden y respectivamente; sea un vector de variables de orden ,
es decir, ; sea un vector de constantes de orden ; y sea la matriz identidad de orden ,
entonces:

1. , la transpuesta de un producto es igual al producto invertido de las traspuestas.


2. es simétrica si
3. es idempotente si
4. Si es simétrica e idempotente, entonces también es simétrica e idempotente.
5. Forma Cuadrática: La función se le llama forma cuadrática de , donde es la

‐ésima componente de la matriz .


6. Matriz definida positiva y semidefinida positiva: La matriz se dice que es:
a) Definida Positiva, si .
b) Semidefinida‐Positiva si .

1.4 Algunas propiedades de derivadas vectoriales o matriciales


Sea una matriz de constantes de orden ; sea un vector de variables de orden , es decir,
; y sea un vector de constantes de orden , entonces:

1. .

2. .

3. , pero si es simétrica, entonces

2
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

1.5 Algunos resultados distribucionales para vectores aleatorios


Sea un vector aleatorio normal ‐variado con media y matriz no singular de var‐cov , es decir, . Sea
una matriz de constantes y sea una forma cuadrática de definida por: , entonces:
1. Si o es una matriz idempotente de rango , entonces

2. donde, es el parámetro de no centralidad de la distribución chi‐cuadrado.


3. Sea . Si es idempotente y de rango , entonces

4. donde, .
5. Sea una matriz y la forma lineal definida por: , entonces la forma cuadrática y
son independientes si

6. donde es la matriz nula de orden .


Nota: Si , entonces y son independientes si
7. Sea una matriz y sea , entonces las dos formas cuadráticas y son independientes si

8. Nota: Si , entonces y son independientes si

3
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

2. Definición modelo de regresión lineal múltiple


Considere el caso en el cual se desea modelar la variabilidad total de una variable respuesta de interés, en función de
relaciones lineales con dos o más variables predictoras o explicatorias, formuladas simultáneamente en un único modelo.
Suponemos en principio que las variables predictoras o explicatorias guardan poca asociación lineal entre sí, es decir, cada
variable predictora aporta información independiente de las demás predictoras presentes en el modelo (hasta cierto grado, la
información aportada por cada una no es redundante). La ecuación del modelo de regresión en este caso es:

Yi = β 0 + β1 X i1 + β 2 X i 2 + + β k X ik + ε i

Este modelo es de primer orden ya que no se presentan efectos de interacción entre las variables predictoras o explicatorias,
donde:

9 β 0 , β1, … , β k Son los parámetros del modelo

9 X i1 , X i 2 , … , X ik , son los valores en la j-ésima observación muestral, de las variables predictoras o explicatorias

consideradas en el modelo.

( )
iid
9 ε i ~ N 0 ,σ 2

Estadísticamente, se establece que la respuesta media está dada por

E ( Y | X 1 , X 2 , … , X k ) = β 0 + β1 X 1 + β 2 X 2 + + βk Xk

la cual representa un hiperplano en un espacio de dimensión k+1, llamado superficie de regresión o superficie de
respuesta.

Similar al modelo de regresión lineal simple, bajo los supuestos de normalidad, independencia y varianza constante de los

(
errores, se tiene que Yi | X i1 , X i 2 , … , X ik ~ N β 0 + β1 X i1 + β 2 X i 2 + )
+ β k X ik ,σ 2 e independientes.

4
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

3. Significado de los coeficientes de regresión en el modelo lineal general


El parámetro β 0 , el intercepto Y del plano, representará la respuesta media de Y cuando en el conjunto de observaciones se

incluye la coordenada ( X1 , X 2 , … , X k ) = ( 0 , 0 ,… , 0 ) , de lo contrario si tal coordenada no es observada, entonces β 0 no

será interpretable. Los parámetros β j , j=1, 2, …, k, indican el cambio en la respuesta media de Y por unidad de incremento

en la respectiva variable X j , cuando las demás predictoras permanecen constantes (sin importar en qué nivel son fijadas

estas últimas). Como los efectos de una predictora sobre la respuesta media no dependen del nivel de las demás, tales
efectos son denominados efectos aditivos. Los parámetros β j , son también llamados coeficientes de regresión parcial

porque reflejan el efecto parcial de una variable predictora sobre la respuesta media en presencia de las demás predictoras
que aparecen en el modelo.

NOTA: El término modelo lineal significa que el modelo es lineal en los parámetros, lo cual no hace referencia a la forma de
la superficie de respuesta.

4. Tipos de variables y de efectos en los modelos


Las variables predictoras o explicatorias pueden ser:
9 Cuantitativas, caso en el cual se supone se miden sin error (o el error es despreciable).
9 Cualitativas o categóricas, en este caso su manejo en el modelo se realiza a través de la definición de variables
indicadoras, las cuales toman valores de 0 ó 1. Por ejemplo, suponga que en un modelo de regresión para el gasto
mensual por familia en actividades recreativas, se tiene entre las variables predictoras o explicatorias el estrato
socioeconómico, definido en cinco niveles, luego, para cada nivel se define una variable indicadora de la siguiente
forma:

⎧1 familia en estrato 1 ⎧1 familia en estrato 2


I1 = ⎨ I2 = ⎨
⎩0 otro caso ⎩0 otro caso
⎧1 familia en estrato 3 ⎧1 familia en estrato 4
I3 = ⎨ I4 = ⎨
⎩0 otro caso ⎩0 otro caso
⎧1 familia en estrato 5
I5 = ⎨
⎩0 otro caso

5
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

En general, una variable cualitativa con c clases se representa mediante c − 1 variables indicadoras, puesto que
cuando en una observación dada, todas las c − 1 primeras indicadoras son iguales a cero, entonces la variable
cualitativa se haya en su última clase. En el ejemplo anterior basta definir las primeras cuatro indicadoras.

En el caso con variables predictoras o explicatorias cuantitativas, existe la llamada regresión polinomial en la que se utilizan
términos cuadráticos y de orden superior de estas variables, como en los diseños experimentales para optimización de
procesos mediante la metodología de superficie de respuesta. A pesar de la naturaleza no lineal de tales superficies de
respuesta, estos modelos son casos del modelo de regresión lineal general. Otros modelos pueden usar funciones de
respuesta curvilíneas, en los cuales se utilizan variables transformadas de forma compleja, para linealización del modelo.

Otros modelos pueden incluir efectos de interacción, es decir cuando los efectos de una variable predictora depende de los
niveles de otras variables predictoras o explicatorias incluidas en el modelo. Por ejemplo, suponga un modelo de regresión con
las variables predictoras o explicatorias X1 y X 2 , que incluye tanto los efectos principales como el de interacción de estas

dos variables. Este modelo corresponde a: Yi = β 0 + β1 X i1 + β 2 X i 2 + β 3 X i1 X i 2 + ε i . El término de interacción es

representado por β 3 X i1 X i 2 . Para expresar el anterior modelo en términos del modelo lineal general, definimos simplemente

X i 3 = X i1 X i 2 y rescribimos el modelo como Yi = β 0 + β1 X i1 + β 2 X i 2 + β 3 X i 3 + ε i .

En este último tipo de modelo los coeficientes de regresión de los términos individuales X j ya no tienen el significado dado

antes, debido a la presencia de la interacción, es decir, ya no representan el cambio en la respuesta media cuando se
incrementa en una unidad la respectiva variable predictora, manteniendo constante a las demás. Para el ejemplo, puede
mostrarse mediante derivación, que cuando X1 se incrementa en una unidad mientras X 2 se deja fija, el cambio en la

respuesta promedio es β1 + β 3 X 2 . Así, los efectos de una variable predictora sobre la respuesta promedio, dado el nivel fijo

de la otra, dependen del nivel en que se halle esta última.

Tenga presente que cualquier modelo que pueda rescribirse en términos del modelo lineal general, puede trabajarse mediante
las técnicas de estimación de mínimos cuadrados, de lo contrario, el modelo se considera no lineal y sólo pueden obtenerse
estimaciones mediante métodos numéricos complejos.

5. Expresión en forma matricial del modelo lineal general y parámetros estimados


El uso del álgebra matricial es la clave para el procedimiento de estimación por mínimos cuadrados. Para ello, note que
cuando se tienen n observaciones para el modelo lineal, Yi = β 0 + β1 X i1 + β 2 X i 2 + + β k X ik + ε i , en realidad se tiene

6
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

un sistema de n ecuaciones con k + 1 incógnitas correspondiendo al intercepto y los k coeficientes de regresión, donde los
Yi y las X ij toman valores conocidos en cada caso. Tal sistema expresado en forma matricial corresponde a:

y = Xβ + ε
donde:
⎡Y1 ⎤ ⎡ β0 ⎤
⎢Y ⎥ ⎢β ⎥
y = ⎢ 2 ⎥ es el vector de respuestas de dimensión n×1, β = ⎢ 1 ⎥ es el vector de parámetros
⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
⎣Yn ⎦ ⎣βk ⎦

⎡1 X11 X12 X1k ⎤


⎢1 X X 22 X 2 k ⎥⎥
X= ⎢ 21
es la matriz de diseño, con los valores de las variables predictoras o explicatorias en cada
⎢ ⎥
⎢ ⎥
⎣1 X n1 X n2 X nk ⎦

observación

⎡ ε1 ⎤
⎢ε ⎥
ε = ⎢ 2 ⎥ es el vector de errores normales independientes con valor esperado E ( ε ) = 0
⎢ ⎥
⎢ ⎥
⎣ε n ⎦
⎡σ 2 0 0⎤
⎢ ⎥
⎢ 0 σ2 0⎥
y matriz de varianzas covarianzas V ( ε ) = σ 2 I n×n =
⎢ ⎥
⎢ 2⎥
⎣0 0 σ ⎦

Por tanto el vector aleatorio y tiene valor esperado Xβ y la misma matriz de varianzas covarianzas de ε .

Para la estimación por mínimos cuadrados se buscan los valores estimados de los parámetros tales que
n
S (β ) = ∑ (Y − β − β k X ik ) = ( y − Xβ ) ( y − Xβ ) sea mínimo. Denotaremos por b al vector de
2 t
i 0 − β1 X i1 − β 2 X i 2 −
i =1

parámetros estimados. Matricialmente, las ecuaciones normales de mínimos cuadrados para el modelo lineal general son:

( ) ( X y) ,
−1
Xt Xb = Xt y y el vector de parámetros estimados es b = Xt X t
cuyos elementos corresponden a los

7
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

estimadores por máxima verosimilitud en el caso del modelo de regresión con errores normales. Matricialmente, hallamos las

solución derivando la forma cuadrática ( y − Xβ ) ( y − Xβ ) con respecto al vector β e igualando a cero:


t

∂S ( β ) ∂
∂β
=
∂β
( y t y − 2y t Xβ + β t X t Xβ ) = −2X t y + 2X t Xβ = 0 y desde que X t X sea invertible, obtenemos como

( )
−1
solución a b = Xt X Xt y .

⎡ b0 ⎤
⎢b ⎥
b = ⎢ 1⎥
⎢ ⎥
⎢ ⎥
⎣ bk ⎦
Siendo la ecuación ajustada igual a
Ŷi = b0 + b1 X i1 + b2 X i 2 + + bk X ik

6. Valores ajustados y residuales


Con los valores ajustados Ŷi se construye el vector de valores ajustados dado por

⎡ Ŷ1 ⎤
⎢ ⎥
⎢Ŷ ⎥
ŷ = Xb = ⎢ 2 ⎥
⎢ ⎥
⎢⎣Ŷn ⎥⎦

Los residuales corresponden a ei = Yi − Yˆi y el vector de residuales es

⎡ e1 ⎤
⎢e ⎥
e = y − yˆ = ⎢ 2 ⎥
⎢ ⎥
⎢ ⎥
⎣ en ⎦

El vector de valores ajustados y el vector de residuales pueden ser también expresados en términos de la matriz

H = X ( X' X ) X' , conocida como la matriz hat o matriz sombrero, la cual es una matriz n × n de proyección ortogonal y
−1

por tanto es idempotente ( H 2 = H ) y simétrica ( H t = H ), así: ŷ = Hy y e = ( I − H ) y .

8
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

7. Estimación de la varianza
Bajo los supuestos de independencia y distribución N ( 0 ,σ 2 ) idéntica para todos los errores del modelo, el estimador

insesgado de la varianza corresponde a:

SSE
σˆ 2 = MSE =
n − k −1

donde la suma de cuadrados del error SSE corresponde a


n n
SSE = ∑ ei2 = ∑ ( yi − ˆyi ) = ( y − yˆ ) ( y − yˆ ) = e t e = y t ( I-H ) y .
2 t

i =1 i =1

8. Algunas propiedades de los estimadores de los parámetros


9 Los estimadores de mínimos cuadrados corresponden a los estimadores de máxima verosimilitud, bajo el modelo
lineal normal.
9 b es un estimador insesgado del vector de parámetros β , es decir,

(
E [ b ] = E ⎡ Xt X ) Xt y ⎤ = β
−1

⎢⎣ ⎥⎦
9 La matriz de varianzas covarianzas de b es

(
V ( b ) = V ⎡ Xt X ) Xt y ⎤ = σ 2 Xt X ( )
−1 −1

⎢⎣ ⎥⎦
Tal matriz (la cual es simétrica) tiene sobre su diagonal principal a las varianzas de los estimadores de los parámetros,

( )
V b j , j = 0 ,1, 2 ,… k y por fuera de su diagonal principal a las covarianzas entre tales estimadores, es decir, el

(
elemento en la posición j ,l es COV b j ,bl . )
( )
−1
9 Una estimación de la anterior matriz es S 2 ( b ) = MSE X t X cuyos elementos en la diagonal principal

( )
corresponden a s 2 b j , estimaciones de las varianzas de los respectivos estimadores b j , en tanto que los

elementos restantes en la matriz son los estimadores de las covarianzas entre los estimadores b j .

9
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

9. Inferencias sobre los parámetros β j del modelo de regresión

Bajo los supuestos del modelo de regresión, podemos hallar los siguientes resultados:
Test de Estadístico de Criterio de Intervalo de confianza
Parámetro
significancia prueba rechazo del (1-α)100%
bj − β j Rechazar si
T0 = ~ t n− k −1
H0 : β j = 0 s2 bj( ) T0 > tα / 2 ,n− k −1
βj
H1 : β j ≠ 0 con significancia
b j ± tα / 2 ,n − k −1 s 2 b j( )
con β j = 0 para el test de
de α
significancia
NOTA: Para otros testes individuales sobre los parámetros, usamos en el cálculo del estadístico de prueba T0 el valor de β j

especificado en H0 y los criterios de rechazo se establecen según la desigualdad (de cola derecha, de cola izquierda o de dos
colas) planteada en la hipótesis alternativa.

10. Inferencias sobre la respuesta media y valores futuros


Suponga que deseamos estimar la respuesta media para X1 = x01 , X 2 = x02 ,… , X k = x0 k . Sea Y0 la respuesta en tal
t
conjunto de valores. Definiendo el vector x 0 = ⎡⎣1, x01 , x02 ,… , x0 k ⎤⎦ podemos escribir Y0 = x0t β + ε , por tanto la respuesta

media en tal punto es μY |x0 = E ⎡⎣Y | x0 ⎤⎦ = x 0t β = β 0 + β1 x01 + β 2 x02 + … + β k x0 k . Este valor es estimado por la

correspondiente respuesta o valor ajustado, Ŷ0 , que puede escribirse como Ŷ0 = x 0t b = x 0t ( X t X ) X t y . Tal estimación
−1

( )
tiene como varianza V Yˆ0 = x0t V ( b ) x0 = σ 2 x0t ( X t X ) x 0 , que es estimada por MSE x0t ( X t X ) x 0 Podemos
−1 −1

demostrar luego, bajo el supuesto de normalidad, los siguientes resultados:

(
Para la respuesta media en el vector x 0 = 1, x01 , x02 ,… , x0 k :
t
) μY |x = x0t β
0

Intervalo de confianza
Tests de hipótesis Estadístico de prueba del (1-α)100%

Ŷ0 − μY |x0
(
ŷ0 ± tα / 2 ,n − k −1 × MSE ⎡ x 0t X t X ) x0 ⎤
-1
T0 = ~ t n− k −1 ⎢⎣ ⎥⎦
(
MSE ⎡ x 0t X t X ) x0 ⎤
−1
H 0 : μY |x0 = c ⎣⎢ ⎦⎥

con Ŷ0 = x'0b y μY |x0 = c con ŷ0 = x 0t b

10
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

Considere ahora el problema de predecir un valor futuro Y0 (no observado en la muestra) de la variable respuesta, en
X1 = x01 , X 2 = x02 ,… , X k = x0 k . Claramente, usando el modelo ajustado, predecimos tal valor por Ŷ0 . En este caso,
notando que el valor futuro y su pronóstico son independientes, obtenemos que la varianza de la diferencia Ŷ0 − Y0 es dada

( ) ( )
por V Yˆ0 − Y0 = V Yˆ0 + V (Y0 ) = σ 2 ⎡1 + x 0t X t X ( ) x 0 ⎤ , que es estimada por MSE ⎡⎢1 + x 0t ( X t X ) x 0 ⎤⎥ . Con esto
−1 −1

⎢⎣ ⎥⎦ ⎣ ⎦
podemos hallar los siguientes resultados:
Para una respuesta futura en el vector x'0 = 1, x01 , x02 ,… , x0 k : Y0 ( )
Intervalo de predicción
Pronóstico Estadístico del (1-α)100%

Ŷ0 − Y0
T0 = ~ t n− k −1
(
ŷ0 ± tα / 2 ,n− k −1 × s MSE ⎡⎢1+x 0t X t X ) x 0 ⎤⎥
-1

(
MSE ⎡⎢1+x 0t X t X ) x0 ⎤⎥
-1

Ŷ0 ⎣ ⎦
⎣ ⎦
con ŷ0 = x 0t b
con Ŷ0 = x 0t b

Los intervalos de predicción estiman los posibles valores para un valor particular de la variable respuesta (no para su media)
en un vector dado x0 . Asumimos que este valor particular es un valor futuro de la variable aleatoria Y, y por tanto, no fue

utilizado en la regresión. Si Y0 es un valor futuro y Ŷ0 = x 0t b es su estimador, entonces estas dos variables aleatorias son

estadísticamente independientes, dado que Y0 no fue utilizado para hallar los parámetros estimados, de ahí el estadístico y

los límites del intervalo de predicción.


Precaución: Debe evitarse hacer extrapolaciones por fuera del rango de experimentación en el espacio de las predictoras.
Dado que es posible que existan ciertas asociaciones entre los niveles observados en las variables predictoras o
explicatorias, no basta con evaluar si cada valor componente del vector x0 se encuentra dentro del rango usado (u

observado) para la correspondiente predictora, sino que es necesario evaluar si x0 pertenece a la región de observación

( ) x 0 < max ( hii ) , con hii el elemento i-ésimo de la matriz hat.


-1
conjunta. Para ello basta con comprobar si x 0t X t X

11
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

11. Análisis de varianza


En las siguiente fórmulas J es una matriz de n × n cuyas entradas son todas iguales a 1, e I es la matriz identidad de
dimensión n × n :
Fuente de Sumas de cuadrados Grados de
Cuadrados medios F0
variación (en términos matriciales) libertad
⎛ 1 ⎞ SSR MSR
Regresión SSR = y t ⎜ H − J ⎟ y k MSR = ~ f k ,n − k −1
⎝ n ⎠ k MSE

SSE
Error SSE = y
t
(I − H) y n − k −1 MSE =
n − k −1

⎛ 1 ⎞
Total SST = y t ⎜ I − J ⎟ y n −1
⎝ n ⎠

NOTAS:
9 La suma de cuadrados totales corresponde a la suma de los cuadrados de las desviaciones de las respuestas,
n
respecto a la respuesta media, es decir, SST = ∑ ( yi − y ) .
2

i =1

9 La suma de cuadrados de la regresión corresponde a la suma de los cuadrados de las desviaciones de los valores
n
ajustados respecto a la media muestral de la respuesta, es decir, SSR = ∑ ( ˆyi − y ) .
2

i =1

9 La suma de cuadrados del error es simplemente la suma de los cuadrados de los residuales del modelo ajustado, es
n
decir SSE = ∑ ei2 .
i =1

9 k es el número de coeficientes (sin considerar el intercepto) en el modelo de regresión ajustado.

Con base en la tabla ANOVA, y bajo los supuestos impuestos sobre los errores, se realiza el test de significancia de la
relación de regresión el cual se enuncia de la siguiente manera:
H 0 : β1 = β 2 = = β k = 0 ( el modelo de regresión no es significativo )
H1 : algún β j ≠ 0 ( existe una relación de regresión significativa con al menos una de las variables )

12
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

MSR
El estadístico de prueba es F0 = ~ f k ,n− k −1 . Se rechaza H0 a una significancia dada α si F0 > fα ,k ,n− k −1 . Es decir,
MSE
se prueba que existe una relación de regresión, sin embargo esto no garantiza que el modelo resulte útil para hacer
predicciones.

12. El coeficiente de determinación múltiple


Denotado por R2 y definido como
SSR SSE
R2 = = 1−
SST SST

mide la proporción de la variabilidad total observada en la respuesta que es explicada por la asociación lineal con el conjunto
de variables X1 , X 2 , … , X k . Por ser una proporción, esta cantidad varía entre 0 y 1, siendo igual a 0 cuando todos los

coeficientes de regresión ajustados son iguales a cero, y es igual a 1 si todas las observaciones caen sobre la superficie de
regresión ajustada.

Aunque es usado como una medida de bondad del ajuste de la función de regresión, es necesario tener presente que:
9 Valores grandes de R2 no implican necesariamente que la superficie ajustada sea útil. Puede suceder que se hayan
observado pocos niveles de las variables predictoras o explicatorias y por tanto la superficie ajustada no sería útil para
hacer extrapolaciones por fuera de tales rangos. Incluso, si esta cantidad es muy cercana a 1, todavía el MSE podría
ser muy grande y por tanto las inferencias tendrían poca precisión.
9 Cuando se agregan más variables explicatorias al modelo, el R2 tiende a no decrecer, aún cuando existan dentro del
grupo de variables, un subconjunto de ellas que no aportan significativamente.
9 Como medida de bondad de ajuste se prefiere usar otros estadísticos que penalicen al modelo por el número de
variables incluidas, entre ellos se tienen el MSE, y el R2 ajustado, estas dos medidas son equivalentes: Entre dos
modelos ajustados se considera mejor el de menor MSE o equivalentemente el de mayor R2 ajustado, dado que éste
último corresponde a:
MSE SST
2
Radj = 1− , donde MST =
MST n −1
El R2 ajustado disminuye cuando en el modelo se ingresan variables explicatorias sin lograr reducir al SSE, y
causando la pérdida de grados de libertad para este último.

13
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

13. Diagnósticos y medidas remediales


13.1 Chequeo de posibles asociaciones
Inicialmente, puede ser de utilidad realizar chequeos gráficos de la naturaleza y la fuerza de las asociaciones entre las
variables predictoras o explicatorias con la variable respuesta, y aún entre predictoras. Una matriz de dispersión es la
herramienta más útil para visualizar rápida y simultáneamente estas relaciones. Si las variables explicatorias se asocian
linealmente a la variable respuesta, los gráficos de dispersión respectivos deben presentar las nubes de puntos tendiendo a
una línea recta. También se puede chequear si existen relaciones de tipo no lineal entre las distintas variables, y la presencia
de observaciones atípicas. Por otra parte, se espera que entre las predictoras no existan relaciones lineales fuertes, pues de lo
contrario, habría información que podría ser redundante en el modelo, y se tendría un problema de multicolinealidad1 lo cual
afecta en la estimación, interpretación, y precisión de los coeficientes de regresión.

A veces es útil también acompañar este análisis gráfico con la matriz de correlaciones que proporciona los coeficientes de
correlación entre la variable respuesta con cada una de las predictoras y también todas las correlaciones entre las predictoras.

En las figuras siguientes se presentan varias presentaciones de las matrices de dispersión para un conjunto de datos sobre
tres variables. En los anexos aparece la programación R con la cual se obtuvieron estas gráficas:

1 Aunque si bien, no se detecten asociaciones lineales fuertes entre pares de variables predictoras o explicatorias, esto no es evidencia suficiente para
afirmar que no existe multicolinealidad. Una de las formas en que este problema se manifiesta es cuando se tiene una función de regresión significativa
y sin embargo los coeficientes individuales de la regresión resultan no significativos.

14
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

13.2 Chequeo sobre los supuestos en los errores


Recordar que en el modelo de regresión se ha impuesto las siguientes tres condiciones sobre el término de error:
9 Los errores son variables aleatorias normales de media cero
9 Los errores se distribuyen con igual varianza
9 Los errores son mutuamente independientes

Ö Para chequear el supuesto de varianza constante, resulta útil un gráfico de residuales versus valores ajustados de la
respuesta. También puede aplicarse el test de Levene Modificado, cuando la varianza de los errores se incrementa o
decrementa con los niveles de una de las variables predictoras o explicatorias.

Ö Se pueden identificar outliers en los gráficos de residuales versus valores ajustados de la respuesta, en especial
cuando se utilizan residuales estandarizados e*i = ei / MSE , o residuales estudentizados

ri = ei / MSE (1 − hii ) .

Ö Para chequear la independencia, si se conoce el orden en que fueron recolectadas las observaciones, es posible
analizar la serie de tiempo de los residuales y aplicar por ejemplo el test de Durbin Watson, también se puede evaluar
gráficamente si hay patrones particulares en la serie de los residuales, aunque no siempre en ésta se identifican
patrones aún cuando exista autocorrelación. En el ámbito de las series de tiempo, existen métodos más efectivos
15
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

para evaluar si la serie de errores es un ruido blanco2, como el test de Lung-Box y las funciones de autocorrelación y
de autocorrelación muestral

Ö El supuesto de normalidad puede chequearse bien sea con el gráfico de probabilidad normal de los residuales y con el
test de normalidad de Shapiro Wilk.

13.3 Carencia de ajuste


La carencia de ajuste también puede ser evaluada y para el modelo de regresión múltiple se quiere saber si
E ( Y | X 1 , X 2 , … , X k ) = β 0 + β1 X 1 + β 2 X 2 + + β k X k es una superficie de respuesta apropiada, es decir,

H 0 : E ( Y | X 1 , X 2 , … , X k ) = β 0 + β1 X 1 + β 2 X 2 + + βk Xk
H1 : E ( Y | X 1 , X 2 , … , X k ) ≠ β 0 + β 1 X 1 + β 2 X 2 + + βk Xk

Para llevar a cabo este test, se necesitan replicaciones de la respuesta en las combinaciones de niveles de las variables
explicatorias. La suma de cuadrados SSE se descompone como en el caso de regresión simple, en
SSE = SSPE + SSLOF , donde SSPE se halla calculando para cada grupo replicado la suma de cuadrados de las
desviaciones de Y alrededor de la media del grupo, donde un grupo replicado consiste de n j observaciones Yij (i-esima

observación replicada en el j-ésimo grupo) obtenidas bajo los mismos valores para cada una de las variables predictoras o
explicatorias. Sea c el número de grupos replicados con distintos conjuntos de niveles para las X’s y sea Y j la media de las

observaciones replicadas para el j-ésimo grupo, entonces la suma de cuadrados para el j-ésimo grupo está dado por
c nj

( )
2
SSPE = ∑ ∑ Yij − Y j con grados de libertad n − c
j =1 i =1

La suma de cuadrados de carencia de ajuste es SSLOF = SSE − SSPE , con grados de libertad c − k − 1 , y el estadístico
de prueba es
SSLOF / ( c − k − 1) MSLOF
F0 = = ~ f c − k −1,n− c
SSPE / ( n − c ) MSPE

2 En series de tiempo, un ruido blanco es un proceso estocástico que se caracteriza por tener media constante igual a cero, varianza constante y los
términos del proceso son incorrelacionados.

16
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

Análisis de varianza
Fuente de Suma de Grados de Cuadrados
variación cuadrados libertad medios f calculada
MSR
F0 =
Regresión SSR k MSR = SSR / k MSE

Error SSE n − k −1 MSE = SSE / ( n − k − 1)

MSLOF
Carencia de ajuste SSLOF c − k −1 MSLOF = SSLOF / ( c − k − 1) F0 = MSPE

Error Puro SSPE n−c MSPE = SSPE / ( n − c )

Total SST n −1

13.4 Medidas remediales


Las medidas remediales descritas en el caso de la regresión simple también son aplicables en la regresión múltiple. Con el fin
de superar las deficiencias del modelo se pueden realizar transformaciones sobre la variable respuesta y/o sobre las variables
predictoras o explicatorias. Las transformaciones sobre la respuesta pueden ayudar en el caso de que los errores no resulten
normales o la varianza no sea constante. Transformaciones sobre las variables predictoras o explicatorias resultan útiles
cuando la superficie de respuesta es curvilínea.

Hay que tener cuidado cuando se transforma la variable respuesta, en particular cuando se usan las llamadas
transformaciones de Box-Cox, las que pueden resultar en nuevas variables carentes de interpretación práctica según el
fenómeno o contexto al cual pertenece la variable respuesta.

Si las desviaciones respecto al supuesto de normalidad son severas, y ninguna transformación resulta útil y/o interpretable,
existe otra alternativa, los llamados modelos lineales generalizados con los cuales se pueden modelar respuestas que no se
distribuyen normales; sin embargo, tales modelos están más allá del alcance de este curso.

14. Sumas de cuadrados extras


Una suma de cuadrados extra mide la reducción marginal en el SSE cuando una o varias variables predictoras o explicatorias
son agregadas al modelo de regresión, dado que las otras predictoras ya fueron agregadas o están en el modelo, o bien, es
una medida del incremento marginal en el SSR cuando una o más predictoras son agregadas al modelo de regresión (Neter,
1996). Por ejemplo, suponga un modelo de regresión múltiple de una respuesta dada sobre tres variables X1 , X 2 , X 3 ,

entonces definamos algunas de las posibles sumas de cuadrados extras:

17
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

SSR ( X1 | X 2 , X 3 ) = SSR ( X1 , X 2 , X 3 ) − SSR ( X 2 , X 3 ) es la suma de cuadrados extras de X1 dado que X 2 y X 3 ya

están en el modelo de regresión, lo cual se interpreta como el incremento marginal en la suma de cuadrados de regresión por
agregar X1 al modelo de regresión múltiple de Y vs. X 2 y X 3 . SSR ( X1 , X 2 , X 3 ) es el SSR del modelo de regresión con

las tras variables X1 , X 2 , X 3 y SSR ( X 2 , X 3 ) es el SSR del modelo de regresión múltiple con sólo las variables X 2 y X 3 .

Los grados de libertad de SSR ( X1 | X 2 , X 3 ) se hallan como la diferencia de los grados de libertad de SSR ( X1 , X 2 , X 3 )

menos los grados de libertad de SSR ( X 2 , X 3 ) , es decir, 3 − 2 = 1 grados de libertad.

SSR ( X1 , X 2 | X 3 ) = SSR ( X1 , X 2 , X 3 ) − SSR ( X 3 ) es la suma de cuadrados extras de X1 y X 2 dado que X 3 ya está

en el modelo de regresión, esto corresponde al incremento marginal en la suma de cuadrados de regresión por agregar
simultáneamente X 1 y X 2 , al modelo de regresión de Y vs. X 3 . Aquí, SSR ( X 3 ) es el SSR del modelo de regresión de

Y vs. X 3 . Los grados de libertad de SSR ( X1 , X 2 | X 3 ) corresponden a la diferencia de los grados de libertad de

SSR ( X1 , X 2 , X 3 ) menos los grados de libertad de SSR ( X 3 ) , es decir, 3 − 1 = 2 .

SSR ( X1 | X 3 ) = SSR ( X1 , X 3 ) − SSR ( X 3 ) es la suma de cuadrados extras de X 1 dado que X 3 está en el modelo de

regresión, o en otras palabras, es el incremento en la suma de cuadrados de la regresión debido a la inclusión de X1 al

modelo de regresión de Y vs. X 3 . Aquí SSR ( X1 , X 3 ) es la suma de cuadrados de la regresión múltiple de Y vs. X 1 y

X 3 . Los grados de libertad de SSR ( X1 | X 3 ) son iguales a la diferencia de los grados de libertad de SSR ( X1 , X 3 )

menos los grados de libertad de SSR ( X 3 ) , es decir, 2 − 1 = 1 .

Ahora defina usted SSR ( X 2 | X 1 ) .

14.1 Descomposición del SSR en sumas de cuadrados extras


La suma de cuadrados de regresión de un modelo dado puede descomponerse en sumas de cuadrados extras. Considere de
nuevo el modelo de regresión múltiple de una respuesta dada sobre tres variables X1 , X 2 , X 3 , la correspondiente suma de

cuadrados de regresión puede descomponerse de las siguientes maneras (éstas son sólo algunas de las posibles
descomposiciones):
SSR ( X 1 , X 2 , X 3 ) = SSR ( X 1 ) + SSR ( X 2 | X1 ) + SSR ( X 3 | X1 , X 2 )

18
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

SSR ( X 1 , X 2 , X 3 ) = SSR ( X 2 ) + SSR ( X 3 | X 2 ) + SSR ( X1 | X 2 , X 3 )

SSR ( X1 , X 2 , X 3 ) = SSR ( X 2 ) + SSR ( X1 , X 3 | X 2 )

Una forma particular de descomposición que puede obtenerse con los paquetes estadísticos, son las sumas de cuadrados de
regresión secuenciales o SS1, que son sumas de cuadrados extras de 1 grado de libertad, en la cual cada variable explicatoria
es agregada secuencialmente, según el orden en que son nombradas en el modelo de regresión completo, por ejemplo , si se
especifica el modelo Y = β 0 + β1 X1 + β 2 X 2 + β 3 X 3 + ε , la descomposición en sumas de cuadrados secuenciales

correspondiente es SSR ( X 1 , X 2 , X 3 ) = SSR ( X 1 ) + SSR ( X 2 | X1 ) + SSR ( X 3 | X1 , X 2 ) :

Fuente SS1 Grados de libertad


X1 SSR ( X1 ) 1

X 2 | X1 SSR ( X 2 | X 1 ) 1

X 3 | X1 , X 2 SSR ( X 3 | X1 , X 2 ) 1

Regresión SSR 3

Otro tipo de sumas de cuadrados extras de 1 grado de libertad que se obtienen en los paquetes estadísticos, son las sumas de
cuadrados de regresión parciales ó SS2 las cuales corresponden a las sumas de cuadrados extras de cada variable
explicatoria en el modelo, dadas las demás. De nuevo considere el modelo Y = β 0 + β1 X1 + β 2 X 2 + β 3 X 3 + ε , las sumas

de cuadrados de parciales corresponden a:


Fuente SS2 Grados de libertad
X1 | X 2 , X 3 SSR ( X1 | X 2 , X 3 ) 1

X 2 | X1 , X 3 SSR ( X 2 | X1 , X 3 ) 1

X 3 | X1 , X 2 SSR ( X 3 | X1 , X 2 ) 1

Observe que la última suma de cuadrados de regresión parcial corresponde a la última suma de cuadrados de regresión
secuencial para el modelo del ejemplo, y además que estas tres sumas de cuadrados extras no constituyen una
descomposición de la suma de cuadrados de la regresión del modelo completo, es decir, no suman el SSR.

19
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

14.2 Prueba de la significancia de coeficientes de regresión individual mediante sumas de cuadrados extras
En la sección 7 se presentó la prueba de hipótesis de significancia de los β j del modelo de regresión mediante el uso del

estadístico T0 = b j / ( )
s 2 b j ~ t n − k −1 bajo la hipótesis nula β j = 0 . Considere j = 1, 2 , … , k , si se eleva al cuadrado

esta variable aleatoria T0 ~ t n − k −1 , se obtiene la variable aleatoria F0 = T02 ~ f1,n− k −1 y puede demostrarse que este

estadístico también corresponde a:

F0 =
(
SSR X j | X1 , X 2 ,… , X j −1 , X j +1, X j + 2 ,… X k )
MSE ( X1 , X 2 ,… , X k )

es decir, la suma de cuadrados parcial SS2 de la respectiva variable X j , dividida por el MSE del modelo de regresión

completo (con todas las predictoras). A un nivel de significancia de α , el criterio de rechazo con este estadístico de la
hipótesis H 0 : β j = 0 en favor de H1 : β j ≠ 0 , es F0 > fα ,1,n− k −1 .

NOTA: En el caso de la regresión lineal simple puede mostrarse que el estadístico F del test de significancia de la regresión
mediante el análisis de varianza es igual al cuadrado del estadístico t de la prueba de significancia de la pendiente de la recta
de regresión.

14.3 Prueba de la significancia de subconjuntos de coeficientes de regresión mediante sumas de cuadrados extras
Considere ahora el caso en el cual se desea probar simultáneamente la significancia de 2 o más coeficientes de la regresión,
por ejemplo, en el modelo Y = β 0 + β1 X1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + ε se desea probar si las variables X 1 , X 2 y

X 5 pueden ser eliminadas del modelo, es decir, se desea probar que:

H 0 : β1 = β 2 = β 5 = 0
H1 : alguno entre β1 , β 2 y β 5 es ≠ 0

Para este tipo de pruebas se requiere formular dos modelos:


Ö El modelo completo, para el ejemplo es Y = β 0 + β1 X1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + ε .

Ö El modelo nulo: es decir, aquel al cual se reduce el modelo completo eliminando las variables explicatorias sobre las
cuales se realiza esta prueba. Para el ejemplo es Y = β 0 + β 3 X 3 + β 4 X 4 + ε

El estadístico de prueba es igual a la razón del cuadrado medio de la diferencia de las sumas de cuadrados del error del
modelo nulo menos la del modelo completo, sobre el cuadrado medio del error del modelo completo. Para el ejemplo, sería:

20
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

⎡⎣ SSE ( X 3 , X 4 ) − SSE ( X1 , X 2 , X 3 , X 4 , X 5 ) ⎤⎦ / ⎡⎣( n − 3) − ( n − 6 ) ⎤⎦


F0 =
MSE ( X1 , X 2 , X 3 , X 4 , X 5 )
⎡⎣ SSE ( X 3 , X 4 ) − SSE ( X1 , X 2 , X 3 , X 4 , X 5 ) ⎤⎦ / 3
=
MSE ( X1 , X 2 , X 3 , X 4 , X 5 )

pero tenemos que:


SSE ( X 3 , X 4 ) − SSE ( X 1 , X 2 , X 3 , X 4 , X 5 ) = SSR ( X1 , X 2 , X 3 , X 4 , X 5 ) − SSR ( X 3 , X 4 )
= SSR ( X1 , X 2 , X 5 | X 3 , X 4 )

por lo tanto el estadístico de la prueba es simplemente la suma de cuadrados extra de regresión de las variables cuya
significancia se prueba, dada las demás variables del modelo, dividida por sus grados de libertad, sobre el cuadrado medio del
error del modelo completo:
SSR ( X1 , X 2 , X 5 | X 3 , X 4 ) / 3
F0 = ~ f
MSE ( X1 , X 2 , X 3 , X 4 , X 5 )
3 ,n − 6

A un nivel de significancia de α , el criterio de rechazo de la hipótesis nula es F0 > fα ,3 ,n− 6 .

NOTA: Recuerde que:


Ö Los grados de libertad de la diferencia de dos sumas de cuadrados es igual a la diferencia de los respectivos grados
de libertad.
Ö Los cuadrados medios se construyen dividiendo la respectiva suma de cuadrados por sus grados de libertad.

Otro ejemplo: En el modelo Y = β 0 + β1 X1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + ε , para probar la hipótesis:

H0 : β2 = β4 = 0
H1 : alguno entre β 2 y β 4 es ≠ 0

SSR ( X 2 , X 4 | X1 , X 3 , X 5 ) / 2
se usa F0 = ~ f y con un nivel de significancia de α , el criterio de rechazo de la
MSE ( X1 , X 2 , X 3 , X 4 , X 5 )
2 ,n − 6

hipótesis nula es F0 > fα ,2 ,n− 6 .

21
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

15. Selección de variables predictoras o explicatorias


En algunos estudios observacionales o exploratorios se parte de un modelo de regresión en el que se considera un conjunto
grande de variables explicatorias potenciales para luego identificar un subconjunto entre tales variables, que resulte
potencialmente útil para construir el modelo de regresión final. Dependiendo de los usos que se deseen dar a un modelo de
regresión variará el subconjunto de variables seleccionadas. Por ejemplo, desde el punto de vista del ajuste, cierto subgrupo
de variables serán útiles, en tanto que desde el punto de vista del pronóstico, otro subconjunto podría resultar ser mejor. Es
necesario pues fijar un criterio de selección del mejor subconjunto de variables.

15.1 Procedimientos de reducción de variables explicatorias mediante todas las regresiones posibles
Este procedimiento consiste en correr las regresiones de la variable respuesta vs. todos los posibles subconjuntos de 1, 2, …,
k variables explicatorias, y comparar tales modelos con base en alguno o varios de los siguientes estadísticos:
2
Ö El Radj : El mejor modelo es aquél con mayor valor en este estadístico.

Ö El MSE : El mejor modelo es aquél con menor valor en este estadístico. Sin embargo usar este criterio equivale a
2
usar el criterio del Radj .

Ö El C p , el mejor modelo es aquél para el cual C p es el más pequeño posible (es decir, el modelo con el menor

número de variables predictoras o explicatorias posible) y tal que la diferencia C p − p es mínima, con p igual al

número de parámetros del modelo considerado, incluyendo el intercepto. Este estadístico es una medida del sesgo en

( )
el modelo de regresión, es decir, de E Yˆi − μi (donde μi es el valor esperado de la respuesta dadas las variables

predictoras del modelo considerado), y es tal que a mayor sesgo, mayor C p . Este estadístico se calcula como:

SSE p
Cp = − ( n − 2 p)
MSE ( X1 , X 2 ,… , X k )

donde SSE p es la suma de cuadrados del error del modelo de regresión con p − 1 ≤ k variables explicatorias y

MSE ( X1 , X 2 ,… , X k ) es la suma de cuadrados medios del error para el modelo de regresión con todas las k

variables. Este criterio enfatiza en el ajuste de cada modelo.

El uso del criterio C p supone que MSE ( X1 , X 2 ,… , X k ) proporciona un estimador insesgado de la varianza σ 2 y

que las relaciones de la respuesta con cada predictora han sido expresadas en el modelo de forma apropiada (lineal,
cuadrática, transformada, etc.) y que las variables menos útiles han sido excluidas.

22
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

Ö El PRESS P o suma de cuadrados de predicción, mide qué también el uso de los valores ajustados por un

submodelo puede predecir las respuestas observadas. Mientras menor sea esta medida, mejor se considera el
modelo. El PRESS es como un SSE, pero en el cual el valor ajustado para cada observación Yi se halla estimando el

submodelo sin considerar dicha observación, tales valores ajustados se denotan por Ŷi ( i ) ; así el PRESS es la suma
n
de cuadrados de los errores de predicción e( i ) = Yi − Yˆi ( i ) , es decir, PRESS P = ∑ e(2i ) . Para cada submodelo, la
i =1

definición del error de predicción implica correr n regresiones separadas (cada una con n − 1 datos) con cada
observación eliminada en cada caso, sin embargo, basta con correr una vez el modelo con todas las observaciones,
hallar sus residuales ordinarios, y los elementos de la diagonal principal de la matriz hat y calcular e( i ) = ei / (1 − hii ) .

Si se usan dos o más criterios de selección de modelos, es posible que cada criterio lleve a modelos distintos. La decisión
final debe basarse en el análisis de residuales y otros diagnósticos, además de complementar con el conocimiento y la
experiencia de personas expertas en el ámbito en el cual está inmerso el problema.

15.2 Procedimientos de reducción de variables mediante selección automática


Básicamente, existen tres procedimientos de selección automática, los cuales son computacionalmente menos costosos que el
procedimiento de selección basado en ajustar todas las regresiones posibles, y operan en forma secuencial:
Ö Forward o selección hacia delante
Ö Backward o selección hacia atrás
Ö Stepwise, una combinación de los dos anteriores

El método forward inicia ajustando todas las regresiones simples posibles, selecciona entre estos modelos el de menor MSE
pero tal que la respectiva variable resulte significativa, luego va agregando variables, una por vez, buscando reducir también
en forma significativa la suma de cuadrados de los errores, lo cual es evaluado a través de pruebas F en las que se involucra
el cálculo de sumas de cuadrados extras de una nueva variable dadas las demás que previamente se ingresaron en el modelo.
Entre varias variables candidatas a ingresar al modelo en un paso dado del algoritmo, se elige aquella que reduzca más
significativamente el SSE. El procedimiento se detiene cuando entre las variables restantes que no han sido ingresadas hasta
el paso previo, ninguna contribuiría significativamente en la reducción del SSE si fuese ingresada.

El método backward, parte del modelo con todas las variables y elimina secuencialmente de a una variable, buscando reducir
el SSE. La variable que se elimina en cada paso, es aquella que no resulta significativa en presencia de las demás variables

23
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

del modelo de regresión que se tiene en ese momento. También se recurre a pruebas F basadas en sumas de cuadrados
extras, y entre varias variables candidatas a salir del modelo, se retira la de menor significancia. El algoritmo se detiene
cuando todas las variables que aún permanecen en el modelo son significativas en presencia de las demás.

El método stepwise, comienza agregando variables, una a la vez, la nueva variable es ingresada según el método forward,
pero una vez ingresada una nueva variable, se evalúa que las demás que ya estaban en el modelo sigan siendo significativas,
es decir, aplica el principio del método backward. Así, en un paso dado puede ingresar una variable y salir otra que en un paso
previo ya había sido ingresada, es más, puede suceder que una misma variable entre, salga y vuelva a ser ingresada en pasos
subsiguientes del algoritmo. El algoritmo se detiene cuando ya no hay más variables para ingresar que contribuyan
significativamente a reducir el SSE, en tanto que todas las que se tienen en el modelo son significativas.

Como se anotó antes en el procedimiento de selección de variables mediante todas las regresiones posibles, el modelo final
no solamente debe ser el resultado de estos algoritmos de selección, también es necesario usar el juicio y el conocimiento
previo que se tenga sobre el problema en el cual se está inmerso.

Cuando una o más variables explicatorias de tipo cualitativas son consideradas en un modelo de regresión mediante un
conjunto de variables indicadoras, en estos procesos de selección de variables se recomienda mantener a éstas juntas, como
un solo grupo, aún si un subconjunto de ellas resulta mejor de acuerdo al criterio de selección empleado. Esta recomendación
también aplica en el caso de modelos en los cuales se incluyen términos polinomiales de una variable, es decir, términos
lineales, cuadráticos, etc. Si un término polinómico de orden m de una variable dada va a ser dejado en el modelo, entonces
todos los términos de orden inferior de esa misma variable también se recomienda dejarlos en el modelo, así no sean
significativos según el criterio de selección aplicado. Similarmente, si se tienen incluidos términos de interacción entre
variables explicatorias, los términos de interacción de menor orden y los términos lineales de las variables involucradas en
tales interacciones, también deben permanecer en el modelo.

16. Problema 1
Cuatro pruebas (X1, X2, X3, X4) para selección de personal son aplicadas a un grupo de 20 aspirantes y se registran los
respectivos puntajes. Después de 2 años de contratación estos 20 empleados son clasificados de acuerdo a la puntuación de
la aptitud (Y) exhibida para el trabajo. Los datos se presentan a continuación:

24
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

Puntuación Prueba 1 Prueba 2 Prueba 3 Prueba 4


Aptitud (Y) (X1) (X2) (X3) (X4)
94 122 121 96 89
71 108 115 98 78
82 120 115 95 90
76 118 117 93 95
111 113 112 109 109
64 112 96 90 88
109 109 129 102 108
104 112 119 106 105
80 115 101 95 88
73 111 95 95 84
127 119 118 107 110
88 112 110 100 87
99 120 89 105 97
80 117 118 99 100
99 109 125 108 95
116 116 122 116 102
100 104 83 100 102
96 110 101 103 103
126 117 120 113 108
58 120 77 80 74

( )
iid
A. En el modelo con todas las variables Y = β 0 + β1 X1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + ε , ε ~ N 0 ,σ 2 :

1. Realice un análisis descriptivo del conjunto de datos, específicamente, sobre las posibles asociaciones entre variables
y la distribución de la variable respuesta:

25
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

TABLA MATRIZ DE CORRELACIÓN ENTRE TODAS LAS VARIABLES (obtenida con el R; también puede calcularse con SAS en el
proc reg opción corr, ver programas anexos)

Y X1 X2 X3 X4
Y 1.000000000 -0.004143458 0.48590256 0.8855698 0.86492903
X1 -0.004143458 1.000000000 0.06814831 -0.1533788 -0.09574832
X2 0.485902561 0.068148309 1.00000000 0.5432310 0.43811642
X3 0.885569796 -0.153378763 0.54323100 1.0000000 0.76438127
X4 0.864929027 -0.095748315 0.43811642 0.7643813 1.00000000

2. Ajuste el modelo y escriba la ecuación ajustada. Cuál es el efecto sobre la respuesta media por unidad de cambio en
X1 cuando los puntajes en las otras pruebas permanecen a un nivel fijo? Estime la matriz de varianzas covarianzas de los
parámetros estimados:
TABLA DE PARÁMETROS ESTIMADOS CON SUMAS DE CUADRADOS TIPO I y TIPO II, Y COEFICIENTES ESTANDARIZADOS (Las sumas de
cuadrados tipo I y II y los coeficientes estandarizados se obtienen respectivamente con las opciones SS1, SS2 y stb
en la declaración model del proc reg)
Parameter Estimates
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Type I SS Type II SS Estimate
Intercept 1 -178.62132 48.61985 -3.67 0.0023 171680 755.58731 0
x1 1 0.52146 0.35950 1.45 0.1675 0.12578 117.78193 0.13055
x2 1 -0.04780 0.14182 -0.34 0.7407 1739.89945 6.36129 -0.03572
x3 1 1.36668 0.34643 3.94 0.0013 4138.42606 871.23508 0.58295
x4 1 0.83250 0.25254 3.30 0.0049 608.37465 608.37465 0.44748
TABLA MATRIZ DE VARIANZAS COVARIANZAS ESTIMADA DE LOS PARÁMETROS ESTIMADOS DEL MODELO (Se obtiene en el SAS con la
opción covb de la declaración model del proc reg)
Covariance of Estimates
Variable Intercept x1 x2 x3 x4
Intercept 2363.8901157 -15.80685715 0.8665382669 -6.844882227 0.3910048375
x1 -15.80685715 0.1292437353 -0.009248809 0.0227520918 -0.002404343
x2 0.8665382669 -0.009248809 0.0201115422 -0.018703335 -0.001316046
x3 -6.844882227 0.0227520918 -0.018703335 0.120017128 -0.060393923
x4 0.3910048375 -0.002404343 -0.001316046 -0.060393923 0.0637741289

3. Determine cuál de las variables predictoras o explicatorias tiene mayor peso sobre la variable respuesta, teniendo en
cuenta los coeficientes con variables estandarizadas (ver tabla de resultados en numeral 2)

4. Interprete el coeficiente de determinación muestral múltiple. Plantee la prueba necesaria para determinar si la
regresión es significa (hipótesis, estadístico de prueba y región crítica) y hágala a un nivel de significancia de 0.05:
TABLA DE ANALISIS DE VARIANZA (resulta por defecto en el proc reg)
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 4 6486.82595 1621.70649 28.97 <.0001
Error 15 839.72405 55.98160
Corrected Total 19 7326.55000
Root MSE 7.48209 R-Square 0.8854
Dependent Mean 92.65000 Adj R-Sq 0.8548
Coeff Var 8.07565

26
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

5. Interprete los coeficientes estimados en términos de las variables del problema y pruebe la significancia individual de
cada parámetro, mediante las pruebas T y las pruebas F parciales (para pruebas T ver tabla de resultados en numeral 2. Las
pruebas F pueden construirse a partir de las sumas de cuadrados SS2 o bien a partir de la relación estadística entre una
distribución t y una distribución F. Constate con los resultados que se dan a continuación):
RESULTADO SAS ARGUMENTO b1:test x1=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B1=0
Test b1 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 1 117.78193 2.10 0.1675
Denominator 15 55.98160

RESULTADO SAS ARGUMENTO b2:test x2=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B2=0
Test b2 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 1 6.36129 0.11 0.7407
Denominator 15 55.98160

RESULTADO SAS ARGUMENTO b3:test x3=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B3=0
Test b3 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 1 871.23508 15.56 0.0013
Denominator 15 55.98160
RESULTADO SAS CON ARGUMENTO b4:test x4=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B4=0
Test b4 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 1 608.37465 10.87 0.0049
Denominator 15 55.98160

6. Pruebe conjuntamente si los puntajes en las pruebas dos y cuatro son significativas para explicar la aptitud para el
trabajo (plantee claramente las hipótesis, estadísticos de prueba, y región crítica).
RESULTADO SAS CON ARGUMENTO b2yb4:test x2,x4; EN EL PROC REG, PARA PRUEBA F H0: B2=B4=0
Test b2yb4 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 2 305.49446 5.46 0.0166
Denominator 15 55.98160

7. Construya los intervalos de confianza del 95% para los parámetros del modelo e interprételos.
TABLA DE INTERVALOS DE CONFIANZA DE LOS PARÁMETROS Y FACTORES DE INFLACIÓN DE VARIANZA (los intervalos se obtiene
con la opción clb y los vif’s con la opción vif en el argumento MODEL del proc reg)
Variance
Variable DF Inflation 95% Confidence Limits
Intercept 1 0 -282.25209 -74.99056
x1 1 1.06015 -0.24481 1.28773
x2 1 1.46954 -0.35008 0.25447
x3 1 2.85778 0.62827 2.10509
x4 1 2.41145 0.29424 1.37077

27
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

8. Determine mediante los gráficos de residuales estudentizados la validez del supuesto de varianza constante, también
evalúe el supuesto de normalidad y posibles outliers (los gráficos de residuales se obtuvieron con el argumento plot del proc
reg y los gráficos de normalidad con el proc univariate sobre los residuales).

28
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

9. De acuerdo a las siguientes gráficas identifique si existen observaciones influenciales (éstas fueron obtenidas
guardando los estadísticos hii (leverage) cookd (distancia de Cook), con las opciones h=hii cookd=cooks de la declaración
output en el proc reg.

29
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

NOTA:
Ö hii elemento i-ésimo de la diagonal principal de la matriz sombrero (H), es conocido como el “leverage de yi sobre

ŷi ”, y es una medida de la influencia potencial de una observación en virtud de su ubicación en el espacio definido
n
por las variables predictoras o explicatorias. Puede mostrarse que ∑h
i =1
ii = p, p = k + 1 , luego como una guía se

usa el tamaño promedio de los hii para identificar posibles puntos influenciales: si hii > 2 p / n el punto i-ésimo tiene

alto leverage.
Ö Las distancia de Cook corresponde a
ri2 V ( ˆyi ) ri2 hii
D i= =
p V ( ei ) p (1 − hii )

donde ri es el i-ésimo residual estudentizado, y la razón hii / (1 − hii ) es una medida de la distancia del vector

observación xi al centroide del resto de los datos. Así, la distancia de Cooks refleja qué tan bien el modelo ajusta a la

i-ésima observación y a la vez da cuenta de cuán lejos está ese punto del resto de los datos. Se considera influencial
aquél punto para el cual Di > 1 .

10. Mediante los valores de los VIF para los parámetros del modelo determine si existen problemas de multicolinealidad y
cuál o cuales variables están involucradas en dicho problema (ver tabla de resultados en el numeral 7, resultados
encabezados por Variance Inflation. Estas cantidades se obtienen con la opción vif de la declaración model del proc reg):

30
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

NOTA:
Ö Cuando hay multicolinealidad, las varianzas de los coeficientes de regresión son infladas, de ahí el nombre de factores
de inflación de varianza.

Ö Puede mostrarse que VIF = 1 / 1 − R 2j ( ) donde 0 < R 2j < 1 es el coeficiente de determinación múltiple de la

regresión de la variable predictora X j sobre el resto de predictoras.

Ö Valores VIF mayores que 10 implican serios problemas con la multicolinealidad.


Ö Cuando la multicolinealidad es fuerte, las ecuaciones de predicción son notoriamente pobres y los valores de los
coeficientes de regresión son muy sensibles a los datos que en particular son usados en el ajuste.

11. Mediante los índices de condición y las proporciones de aporte a la varianza de los coeficientes de regresión, que
aporta el valor propio asociado a cada predictora, determine de nuevo si existen problemas de multicolinealidad.
NOTA:
Ö Los valores propios son calculados para la matriz Xt X . La existencia de una o más dependencias lineales en los
datos es evidenciada porque uno o más valores propios resultan muy pequeños.
Ö Mientras más pequeños son los valores propios λ j , más grande es el índice de condición κ j = λmax / λ j . SAS

calcula la raíz cuadrada de los índices de condición. Si tales raíces son menores que 10 no hay problemas serios de
multicolinealidad, si alguna está entre 10 y 31esto implica multicolinealidad moderada a fuerte, y si alguna excede de
31 la multicolinealidad es severa.
Ö Puede demostrarse que las varianzas de los estimadores de los coeficientes de regresión son función de los VIF, los
cuales a su vez son función de los valores inversos de los λ j , por lo cual, valores pequeños en alguno (s) de los λ j

conlleva a inflación de las varianzas de los estimadores. Debe tenerse en cuenta que los valores propios son
numerados de mayor a menor, es decir λ1 > λ2 > > λp

Ö Las proporciones de descomposición de varianza, π ij también son una medida de multicolinealidad, las cuales

corresponden a la proporción que el i-ésimo valor propio de Xt X aporta a la varianza del coeficiente estimado β̂ j .

Ö Si proporciones altas de varianza para dos o más coeficientes de regresión están asociados con un mismo valor
propio pequeño, entonces hay evidencia de multicolinealidad. Por ejemplo, si π 43 y π 45 son grandes (mayores de

0.5), el cuarto valor propio está asociado con una multicolinealidad que infla las varianzas de β̂ 3 y β̂ 5 , es decir X 3 y

X 5 están involucradas en una relación de multicolinealidad.

Ö Hay controversia acerca de si los datos deben “centrarse” (restarles sus respectivas medias a los valores de cada
variable) para diagnosticar multicolinealidad usando el criterio de los valores propios y de las proporciones de la

31
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

descomposición de varianzas. Si se centran los datos se elimina el mal condicionamiento debido al intercepto del
modelo. Si este parámetro no tiene interpretación física, se recomienda trabajar sobre los datos centrados. Si por el
contrario el intercepto es interpretable, no se recomienda centrar los datos (Montgomer, Peck y Vining, 2002).
RESULTADOS SAS PARA DIAGNÓSTICO DE MULTICOLINEALIDAD CON BASE EN LOS VALORES PROPIOS, ÍNDICES DE CONDICIÓN Y
PROPORCIONES DE DESCOMPOSICIÓN DE VARIANZA CON DATOS SIN CENTRAR (Con opción collin en la declaración model):
Collinearity Diagnostics
Condition
Number Eigenvalue Index
1 4.97778 1.00000
2 0.01151 20.79826
3 0.00810 24.79224
4 0.00192 50.92105
5 0.00068969 84.95525

Collinearity Diagnostics
------------------------Proportion of Variation------------------------
Number Intercept x1 x2 x3 x4
1 0.00004765 0.00006662 0.00045972 0.00009238 0.00019066
2 0.02015 0.03677 0.51781 0.00100 0.01034
3 0.00438 0.02156 0.38292 0.02724 0.29226
4 0.00552 0.06421 0.05578 0.75754 0.67611
5 0.96990 0.87740 0.04303 0.21413 0.02111

RESULTADOS SAS PARA DIAGNÓSTICO DE MULTICOLINEALIDAD CON BASE EN LOS VALORES PROPIOS, ÍNDICES DE CONDICIÓN Y
PROPORCIONES DE DESCOMPOSICIÓN DE VARIANZA CON DATOS CENTRADOS (Con la opción collinoint en la declaración model):

Collinearity Diagnostics (intercept adjusted)


Condition -----------------Proportion of Variation----------------
Number Eigenvalue Index x1 x2 x3 x4
1 2.18694 1.00000 0.00430 0.07741 0.06221 0.06684
2 1.03741 1.45192 0.81249 0.06601 0.00144 0.00060676
3 0.55750 1.98060 0.15032 0.75396 0.02394 0.18993
4 0.21815 3.16621 0.03289 0.10263 0.91242 0.74263

B. Mediante los datos referentes a todas las regresiones posibles conteste a las siguientes preguntas:
Dependent Variable: y

Number in Adjusted
Model R-Square R-Square C(p) MSE
1 0.7842 0.7722 12.2382 87.82341
1 0.7481 0.7341 16.9669 102.53009
1 0.2361 0.1937 83.9747 310.93011
1 0.0000 -.0555 114.8720 407.02357
------------------------------------------------------------
2 0.8693 0.8539 3.1096 56.34251
2 0.8020 0.7787 11.9141 85.33606
2 0.7843 0.7589 14.2339 92.97521
2 0.7623 0.7343 17.1139 102.45921
2 0.7543 0.7254 18.1494 105.86917
2 0.2375 0.1478 85.7922 328.61910
------------------------------------------------------------
3 0.8845 0.8629 3.1136 52.88033
3 0.8693 0.8448 5.1039 59.84412
3 0.8023 0.7653 13.8674 90.50617
3 0.7665 0.7227 18.5629 106.93495
------------------------------------------------------------
4 0.8854 0.8548 5.0000 55.98160

32
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

Number in --------------------------Parameter Estimates--------------------------


Model R-Square Intercept x1 x2 x3 x4
1 0.7842 -116.00248 . . 2.07614 .
1 0.7481 -61.18254 . . . 1.60913
1 0.2361 21.67068 . 0.65029 . .
1 0.0000 94.54007 -0.01655 . . .
------------------------------------------------------------------------------------------------
2 0.8693 -114.98800 . . 1.26567 0.84140
2 0.8020 -182.39183 0.53867 . 2.12464 .
2 0.7843 -116.12648 . 0.00918 2.06741 .
2 0.7623 -70.20439 . 0.17715 . 1.50123
2 0.7543 -98.75357 0.31715 . . 1.62327
2 0.2375 38.37237 -0.14951 0.65371 . .
------------------------------------------------------------------------------------------------
3 0.8845 -176.56157 0.49948 . 1.32222 0.82937
3 0.8693 -114.84530 . -0.01049 1.27488 0.84220
3 0.8023 -183.72547 0.55285 -0.03063 2.15506 .
3 0.7665 -100.67612 0.26237 0.16518 . 1.52023
------------------------------------------------------------------------------------------------
4 0.8854 -178.62132 0.52146 -0.04780 1.36668 0.83250
--------------------------------------------------------------------------------------------------
1. Cuál es el mejor modelo a ajustar según el criterio C(p)?
2. Cuál es el mejor modelo a ajustar según el criterio de R2?
3. Cuál es el mejor modelo a ajustar según el MSE (ó el R2 ajustado)?
4. De acuerdo a los criterios anteriores evaluados en conjunto, Cuál es el mejor modelo? Justifique

C. Realice ahora la selección mediante métodos secuenciales. Use un nivel de significancia de 0.05 para ingresar y de
0.05 para salir del modelo (plantee claramente los modelos en cada paso, las hipótesis, estadísticos de prueba y decisiones
tomadas).
Forward Selection: Step 1

Variable x3 Entered: R-Square = 0.7842 and C(p) = 12.2382

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 5745.72862 5745.72862 65.42 <.0001
Error 18 1580.82138 87.82341
Corrected Total 19 7326.55000

Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -116.00248 25.88120 1764.31494 20.09 0.0003
x3 2.07614 0.25668 5745.72862 65.42 <.0001

Bounds on condition number: 1, 1


--------------------------------------------------------------------------------------------------

33
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

Forward Selection: Step 2

Variable x4 Entered: R-Square = 0.8693 and C(p) = 3.1096

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 6368.72737 3184.36368 56.52 <.0001
Error 17 957.82263 56.34251
Corrected Total 19 7326.55000

Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -114.98800 20.73215 1733.21553 30.76 <.0001
x3 1.26567 0.31886 887.71904 15.76 0.0010
x4 0.84140 0.25303 622.99875 11.06 0.0040

Bounds on condition number: 2.4055, 9.6218


--------------------------------------------------------------------------------------------------
No other variable met the 0.0500 significance level for entry into the model.

Summary of Forward Selection


Variable Number Partial Model
Step Entered Vars In R-Square R-Square C(p) F Value Pr > F
1 x3 1 0.7842 0.7842 12.2382 65.42 <.0001
2 x4 2 0.0850 0.8693 3.1096 11.06 0.0040
--------------------------------------------------------------------------------------------------
Backward Elimination: Step 0

All Variables Entered: R-Square = 0.8854 and C(p) = 5.0000

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 4 6486.82595 1621.70649 28.97 <.0001
Error 15 839.72405 55.98160
Corrected Total 19 7326.55000

Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -178.62132 48.61985 755.58731 13.50 0.0023
x1 0.52146 0.35950 117.78193 2.10 0.1675
x2 -0.04780 0.14182 6.36129 0.11 0.7407
x3 1.36668 0.34643 871.23508 15.56 0.0013
x4 0.83250 0.25254 608.37465 10.87 0.0049

Bounds on condition number: 2.8578, 31.196


--------------------------------------------------------------------------------------------------
Backward Elimination: Step 1

Variable x2 Removed: R-Square = 0.8845 and C(p) = 3.1136

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 3 6480.46466 2160.15489 40.85 <.0001
Error 16 846.08534 52.88033
Corrected Total 19 7326.55000

34
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -176.56157 46.87929 750.10936 14.19 0.0017
x1 0.49948 0.34361 111.73729 2.11 0.1654
x3 1.32222 0.31135 953.69062 18.03 0.0006
x4 0.82937 0.24527 604.62763 11.43 0.0038

Bounds on condition number: 2.4436, 17.631


--------------------------------------------------------------------------------------------------
Backward Elimination: Step 2

Variable x1 Removed: R-Square = 0.8693 and C(p) = 3.1096

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 6368.72737 3184.36368 56.52 <.0001
Error 17 957.82263 56.34251
Corrected Total 19 7326.55000

Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -114.98800 20.73215 1733.21553 30.76 <.0001
x3 1.26567 0.31886 887.71904 15.76 0.0010
x4 0.84140 0.25303 622.99875 11.06 0.0040

Bounds on condition number: 2.4055, 9.6218


--------------------------------------------------------------------------------------------------
All variables left in the model are significant at the 0.0500 level.

Summary of Backward Elimination


Variable Number Partial Model
Step Removed Vars In R-Square R-Square C(p) F Value Pr > F
1 x2 3 0.0009 0.8845 3.1136 0.11 0.7407
2 x1 2 0.0153 0.8693 3.1096 2.11 0.1654
--------------------------------------------------------------------------------------------------
Stepwise Selection: Step 1

Variable x3 Entered: R-Square = 0.7842 and C(p) = 12.2382

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 5745.72862 5745.72862 65.42 <.0001
Error 18 1580.82138 87.82341
Corrected Total 19 7326.55000

Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -116.00248 25.88120 1764.31494 20.09 0.0003
x3 2.07614 0.25668 5745.72862 65.42 <.0001

Bounds on condition number: 1, 1


--------------------------------------------------------------------------------------------------

35
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

Stepwise Selection: Step 2

Variable x4 Entered: R-Square = 0.8693 and C(p) = 3.1096

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 6368.72737 3184.36368 56.52 <.0001
Error 17 957.82263 56.34251
Corrected Total 19 7326.55000

Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -114.98800 20.73215 1733.21553 30.76 <.0001
x3 1.26567 0.31886 887.71904 15.76 0.0010
x4 0.84140 0.25303 622.99875 11.06 0.0040

Bounds on condition number: 2.4055, 9.6218


--------------------------------------------------------------------------------------------------
All variables left in the model are significant at the 0.0500 level.

No other variable met the 0.0500 significance level for entry into the model.

Summary of Stepwise Selection


Variable Variable Number Partial Model
Step Entered Removed Vars In R-Square R-Square C(p) F Value Pr > F
1 x3 1 0.7842 0.7842 12.2382 65.42 <.0001
2 x4 2 0.0850 0.8693 3.1096 11.06 0.0040

--------------------------------------------------------------------------------------------------

D. Ajuste los dos mejores modelos hallados, valide supuestos de los errores (normalidad y varianza constante) y realice
diagnósticos (observaciones influenciales, outliers).

17. Problema 2
Un gran almacén realizó un experimento para investigar los efectos de los gastos por publicidad sobre las ventas semanales
de sus secciones de ropa para caballeros (A), para niños (B) y para damas (C). Se seleccionaron al azar 5 semanas para
observación en cada sección, y un presupuesto para publicidad (X1, en cientos de dólares) se asignó a cada una de las
secciones. Las ventas semanales (en miles de dólares), los gastos de publicidad en cada uno de las tres secciones en cada
una de las cinco semanas del estudio se listan a continuación.
SEC X1 Y
A 5.2 9
A 5.9 10
A 7.7 12
A 7.9 12
A 9.4 14
B 8.2 13
B 9.0 13
B 9.1 12
B 10.5 13
B 10.5 14
C 10.0 18
C 10.3 19

36
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

SEC X1 Y
C 12.1 20
C 12.7 21
C 13.6 22

Si se definen X2 y X3 variables indicadoras que indican respectivamente si se trata de la sección de ropa para niños o la
sección de ropa para damas.
A. Plantee el modelo de regresión apropiado si se espera una diferencia entre las rectas que corresponden a las tres
secciones y especifique los modelos particulares para cada sección.
B. Ajuste el modelo general y halle las ecuaciones de las rectas que relacionan las ventas con la publicidad en cada
sección.
C. Determine si existe diferencia entre las ordenadas en el origen de las rectas correspondientes a las secciones de
caballeros y de damas.
D. Determine si existe diferencia en las pendientes de las rectas correspondientes a las secciones de niños y caballeros.
E. Si se quiere probar que la recta de ventas vs. publicidad es diferente para cada sección, plantee la hipótesis a probar,
el estadístico de prueba y región crítica al nivel de 0.05, realice la prueba y concluya.
F. Determine si el cambio promedio en las ventas semanales por unidad de cambio en el presupuesto en publicidad es
igual para las secciones de niños y de damas
G. De acuerdo a la significancia de los parámetros, se puede decir que el modelo considerado es correcto? ¿Debería
especificarse otro modelo? ¿cuál?
--------------------------------------------------------------------------------------------------
Obs SEC X1 Y X2 X3 X1X2 X1X3
1 A 5.2 9 0 0 0.0 0.0
2 A 5.9 10 0 0 0.0 0.0
3 A 7.7 12 0 0 0.0 0.0
4 A 7.9 12 0 0 0.0 0.0
5 A 9.4 14 0 0 0.0 0.0
6 B 8.2 13 1 0 8.2 0.0
7 B 9.0 13 1 0 9.0 0.0
8 B 9.1 12 1 0 9.1 0.0
9 B 10.5 13 1 0 10.5 0.0
10 B 10.5 14 1 0 10.5 0.0
11 C 10.0 18 0 1 0.0 10.0
12 C 10.3 19 0 1 0.0 10.3
13 C 12.1 20 0 1 0.0 12.1
14 C 12.7 21 0 1 0.0 12.7
15 C 13.6 22 0 1 0.0 13.6

37
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

The REG Procedure


Model: MODEL1
Dependent Variable: Y

Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 5 234.40399 46.88080 211.39 <.0001
Error 9 1.99601 0.22178
Corrected Total 14 236.40000
Root MSE 0.47093 R-Square 0.9916
Dependent Mean 14.80000 Adj R-Sq 0.9869
Coeff Var 3.18199

Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t| Type I SS Type II SS
Intercept 1 3.03177 1.03458 2.93 0.0167 3285.60000 1.90452
X1 1 1.15903 0.14029 8.26 <.0001 193.85859 15.13699
X2 1 6.73167 2.44233 2.76 0.0222 23.72904 1.68483
X3 1 5.24289 2.07240 2.53 0.0322 14.79368 1.41943
X1X2 1 -0.81690 0.27181 -3.01 0.0148 1.88942 2.00324
X1X3 1 -0.16028 0.20677 -0.78 0.4581 0.13326 0.13326

Test b3 Results for Dependent Variable Y


Mean
Source DF Square F Value Pr > F
Numerator 1 1.41943 6.40 0.0322
Denominator 9 0.22178

Test b4 Results for Dependent Variable Y


Mean
Source DF Square F Value Pr > F
Numerator 1 2.00324 9.03 0.0148
Denominator 9 0.22178

Test b2b3b4b5 Results for Dependent Variable Y


Mean
Source DF Square F Value Pr > F
Numerator 4 10.13635 45.70 <.0001
Denominator 9 0.22178

Test b4_b5 Results for Dependent Variable Y


Mean
Source DF Square F Value Pr > F
Numerator 1 1.23746 5.58 0.0425
Denominator 9 0.22178

ANEXO: PROGRAMAS R PARA MATRICES DE DISPERSIÓN


##Simulación de los datos
library(MASS)
mu<-c(28.1,7.18,3.089)
Sigma<-matrix(c(140.54,49.68,1.94,49.68,72.25,3.68,1.94,3.68,0.25),ncol=3,byrow=T)
datos.simulados<-mvrnorm(500,mu=mu,Sigma=Sigma)
##Matriz de dispersion sencilla:
pairs(datos.simulados,labels=c("x1","x2","x3"))
par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de Dispersión",side=3)

38
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

##Matriz de dispersión con histogramas:


panel.hist <- function(x, ...){
usr <- par("usr"); on.exit(par(usr))
#para definir región de graficiación
par(usr = c(usr[1:2], 0, 1.5) )
#para obtener una lista que guarde las
#marcas de clase y conteos en cada una:
h <- hist(x, plot = FALSE)
breaks <- h$breaks;
nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col="cyan", ...)
#para dibujar los histogramas
}
pairs(datos.simulados, panel=panel.smooth,labels=c("x1","x2","x3"),cex = 1.5,
pch = 19, bg="light blue",
diag.panel=panel.hist, cex.labels = 1.5, font.labels=1)
par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de Dispersión con Histogramas",side=3)

##Matriz de dispersión con boxplots:


panel.box <- function(x, ...){
usr <- par("usr",bty='n'); on.exit(par(usr))
par(usr = c(-1,1, min(x)-0.5, max(x)+0.5))
b<-boxplot(x,plot=FALSE)
whisker.i<-b$stats[1,]
whisker.s<-b$stats[5,]
hinge.i<-b$stats[2,]
mediana<-b$stats[3,]
hinge.s<-b$stats[4,]
rect(-0.5, hinge.i, 0.5,mediana,...,col='grey')
segments(0,hinge.i,0,whisker.i,lty=2)
segments(-0.1,whisker.i,0.1,whisker.i)
rect(-0.5, mediana, 0.5,hinge.s,...,col='grey')
segments(0,hinge.s,0,whisker.s,lty=2)
segments(-0.1,whisker.s,0.1,whisker.s)
}
pairs(datos.simulados,panel=panel.smooth,
cex = 1, pch = 19, bg="light blue",
diag.panel=panel.box,labels=c("x1","x2","x3"),cex.labels = 1.5, font.labels=0.8)
par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de Dispersión con Boxplots",side=3)

##Matriz de dispersión con coeficientes de correlacion:


panel.cor <- function(x, y, digits=2, prefix="", cex.cor){
usr <- par("usr"); on.exit(par(usr))
par(usr = c(0, 1, 0, 1))
r <-cor(x, y)
txt <- format(c(r, 0.123456789), digits=digits)[1]
txt <- paste(prefix, txt, sep="")
if(missing(cex.cor))
cex <- 0.4/strwidth(txt)
text(0.5, 0.5, txt, cex = cex)
}
pairs(datos.simulados, lower.panel=panel.smooth,
upper.panel=panel.cor,labels=c("x1","x2","x3"))
par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de dispersión con correlaciones",side=3)
para vif en R
library(car)

39
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

reg<-lm(Y~1+X1+X2+X3+X4,datos)
vif(reg)

ANEXO 2: PROGRAMACIÓN R PARA MATRIZ DE DISPERSIÓN PROBLEMA 1


datos<-data.frame(matrix(scan(),ncol=5,byrow=T))
94 122 121 96 89
71 108 115 98 78
82 120 115 95 90
76 118 117 93 95
111 113 112 109 109
64 112 96 90 88
109 109 129 102 108
104 112 119 106 105
80 115 101 95 88
73 111 95 95 84
127 119 118 107 110
88 112 110 100 87
99 120 89 105 97
80 117 118 99 100
99 109 125 108 95
116 116 122 116 102
100 104 83 100 102
96 110 101 103 103
126 117 120 113 108
58 120 77 80 74

datos<-edit(datos) #nombrar las columnas como Y, X1, X2, X3, X4

panel.hist <- function(x, ...){


usr <- par("usr"); on.exit(par(usr))
#para definir región de graficiación
par(usr = c(usr[1:2], 0, 1.5) )
#para obtener una lista que guarde las
#marcas de clase y conteos en cada una:
h <- hist(x, plot = FALSE)
breaks <- h$breaks;
nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col="cyan", ...)
#para dibujar los histogramas
}

panel.cor <- function(x, y, digits=2, prefix="", cex.cor){


usr <- par("usr"); on.exit(par(usr))
par(usr = c(0, 1, 0, 1))
r <-cor(x, y)
txt <- format(c(r, 0.123456789), digits=digits)[1]
txt <- paste(prefix, txt, sep="")
if(missing(cex.cor))
cex <- 0.4/strwidth(txt)
text(0.5, 0.5, txt, cex = cex)}

pairs(datos,upper.panel=panel.smooth,lower.panel=panel.cor,diag.panel=panel.hist, cex.labels = 1.5, font.labels=1)


par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de Dispersión con Histogramas, y correlaciones",side=3)

##Cálculo de la matriz de correlaciones


cor(datos)

40
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

ANEXO 3: PROGRAMACIÓN SAS PARA PROBLEMA 1


options nodate nocenter nonumber;
goptions reset=global gunit=pct border cback=white colors=(black blue green red) ftitle=swissb ftext=swiss htitle=4
htext=3;
data datos;
input y x1-x4;
obs=_n_;
cards;
94 122 121 96 89
71 108 115 98 78
82 120 115 95 90
76 118 117 93 95
111 113 112 109 109
64 112 96 90 88
109 109 129 102 108
104 112 119 106 105
80 115 101 95 88
73 111 95 95 84
127 119 118 107 110
88 112 110 100 87
99 120 89 105 97
80 117 118 99 100
99 109 125 108 95
116 116 122 116 102
100 104 83 100 102
96 110 101 103 103
126 117 120 113 108
58 120 77 80 74
;
run;

proc reg data=datos corr;


model y=x1-x4/stb clb ss1 ss2 covb vif collin collinoint;
plot student.*(p. x1 x2 x3 x4);
b1:test x1=0;
b2:test x2=0;
b3:test x3=0;
b4:test x4=0;
b2yb4:test x2,x4;
output out=res p=pred r=ei student=ri h=hii cookd=cooks;
run;
quit;

proc univariate data=res normaltest noprint;


var ei ri;
probplot ei ri/normal;
inset normaltest probn;
run;
quit;

proc gplot data=res;


plot (cooks hii)*obs/vref=0;
symbol1 interpol=needle ci=blue cv=red width=3 value=star height=3;
run;
quit;
/*TODAS LAS POSIBLES REGRESIONES*/
proc reg data=datos;
model y=x1-x4/ selection=rsquare adjrsq mse cp b;
run;quit;

41
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística

/*SELECCIÓN SECUENCIAL*/
proc reg data=datos;
model y=x1-x4/selection=forward sle=0.05;
model y=x1-x4/selection=backward sls=0.05;
model y=x1-x4/selection=stepwise sle=0.05 sls=0.05;
run;
quit;

ANEXO 4: PROGRAMACIÓN SAS PARA PROBLEMA 2


data dos;
input SEC $ X1 Y;
X2=(SEC='B');
X3=(SEC='C');
X1X2=X1*X2;
X1X3=X1*X3;
cards;
A 5.2 9
A 5.9 10
A 7.7 12
A 7.9 12
A 9.4 14
B 8.2 13
B 9.0 13
B 9.1 12
B 10.5 13
B 10.5 14
C 10.0 18
C 10.3 19
C 12.1 20
C 12.7 21
C 13.6 22
;
RUN;

PROC PRINT DATA=DOS;RUN;

PROC REG DATA=DOS;


MODEL Y=X1 X2 X3 X1X2 X1X3/SS1 SS2;
b3:test X3=0;
b4:test X1X2=0;
b2b3b4b5:test X2,X3,X1X2,X1X3;
b4_b5:test X1X2=X1X3;
RUN;
QUIT;

Bibliografía
MONTGOMERY, D.C. y PECK, E. A (1992). Introduction to Linear Regression Analysis. John Wiley & Sons.
NETER, N. et. Al. (1996) Applied Linear Statistical Models. Irwin.

42

También podría gustarte