Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
– Escuela de Estadística
Observe que el vector de medias asociado a un vector aleatorio es simplemente el vector formado por las medias de cada
elemento del vector. También, el vector de medias corresponde a la esperanza del vector aleatorio. Observe también que
( es una matriz simétrica) y (los elementos en la diagonal principal de corresponden a las varianzas
de las variables ). Por tanto podemos escribir,
En resumen, la matriz de varianzas-covarianzas asociada a un vector aleatorio es una matriz cuadrada y simétrica de orden
igual al tamaño del vector aleatorio donde la diagonal principal contiene las varianzas asociadas a cada elemento del vector y
por fuera de la diagonal están las covarianzas entre pares de elementos del vector aleatorio.
1
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
4.
1. .
2. .
2
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
4. donde, .
5. Sea una matriz y la forma lineal definida por: , entonces la forma cuadrática y
son independientes si
3
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
Yi = β 0 + β1 X i1 + β 2 X i 2 + + β k X ik + ε i
Este modelo es de primer orden ya que no se presentan efectos de interacción entre las variables predictoras o explicatorias,
donde:
9 X i1 , X i 2 , … , X ik , son los valores en la j-ésima observación muestral, de las variables predictoras o explicatorias
consideradas en el modelo.
( )
iid
9 ε i ~ N 0 ,σ 2
E ( Y | X 1 , X 2 , … , X k ) = β 0 + β1 X 1 + β 2 X 2 + + βk Xk
la cual representa un hiperplano en un espacio de dimensión k+1, llamado superficie de regresión o superficie de
respuesta.
Similar al modelo de regresión lineal simple, bajo los supuestos de normalidad, independencia y varianza constante de los
(
errores, se tiene que Yi | X i1 , X i 2 , … , X ik ~ N β 0 + β1 X i1 + β 2 X i 2 + )
+ β k X ik ,σ 2 e independientes.
4
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
será interpretable. Los parámetros β j , j=1, 2, …, k, indican el cambio en la respuesta media de Y por unidad de incremento
en la respectiva variable X j , cuando las demás predictoras permanecen constantes (sin importar en qué nivel son fijadas
estas últimas). Como los efectos de una predictora sobre la respuesta media no dependen del nivel de las demás, tales
efectos son denominados efectos aditivos. Los parámetros β j , son también llamados coeficientes de regresión parcial
porque reflejan el efecto parcial de una variable predictora sobre la respuesta media en presencia de las demás predictoras
que aparecen en el modelo.
NOTA: El término modelo lineal significa que el modelo es lineal en los parámetros, lo cual no hace referencia a la forma de
la superficie de respuesta.
5
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
En general, una variable cualitativa con c clases se representa mediante c − 1 variables indicadoras, puesto que
cuando en una observación dada, todas las c − 1 primeras indicadoras son iguales a cero, entonces la variable
cualitativa se haya en su última clase. En el ejemplo anterior basta definir las primeras cuatro indicadoras.
En el caso con variables predictoras o explicatorias cuantitativas, existe la llamada regresión polinomial en la que se utilizan
términos cuadráticos y de orden superior de estas variables, como en los diseños experimentales para optimización de
procesos mediante la metodología de superficie de respuesta. A pesar de la naturaleza no lineal de tales superficies de
respuesta, estos modelos son casos del modelo de regresión lineal general. Otros modelos pueden usar funciones de
respuesta curvilíneas, en los cuales se utilizan variables transformadas de forma compleja, para linealización del modelo.
Otros modelos pueden incluir efectos de interacción, es decir cuando los efectos de una variable predictora depende de los
niveles de otras variables predictoras o explicatorias incluidas en el modelo. Por ejemplo, suponga un modelo de regresión con
las variables predictoras o explicatorias X1 y X 2 , que incluye tanto los efectos principales como el de interacción de estas
representado por β 3 X i1 X i 2 . Para expresar el anterior modelo en términos del modelo lineal general, definimos simplemente
En este último tipo de modelo los coeficientes de regresión de los términos individuales X j ya no tienen el significado dado
antes, debido a la presencia de la interacción, es decir, ya no representan el cambio en la respuesta media cuando se
incrementa en una unidad la respectiva variable predictora, manteniendo constante a las demás. Para el ejemplo, puede
mostrarse mediante derivación, que cuando X1 se incrementa en una unidad mientras X 2 se deja fija, el cambio en la
respuesta promedio es β1 + β 3 X 2 . Así, los efectos de una variable predictora sobre la respuesta promedio, dado el nivel fijo
Tenga presente que cualquier modelo que pueda rescribirse en términos del modelo lineal general, puede trabajarse mediante
las técnicas de estimación de mínimos cuadrados, de lo contrario, el modelo se considera no lineal y sólo pueden obtenerse
estimaciones mediante métodos numéricos complejos.
6
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
un sistema de n ecuaciones con k + 1 incógnitas correspondiendo al intercepto y los k coeficientes de regresión, donde los
Yi y las X ij toman valores conocidos en cada caso. Tal sistema expresado en forma matricial corresponde a:
y = Xβ + ε
donde:
⎡Y1 ⎤ ⎡ β0 ⎤
⎢Y ⎥ ⎢β ⎥
y = ⎢ 2 ⎥ es el vector de respuestas de dimensión n×1, β = ⎢ 1 ⎥ es el vector de parámetros
⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥
⎣Yn ⎦ ⎣βk ⎦
observación
⎡ ε1 ⎤
⎢ε ⎥
ε = ⎢ 2 ⎥ es el vector de errores normales independientes con valor esperado E ( ε ) = 0
⎢ ⎥
⎢ ⎥
⎣ε n ⎦
⎡σ 2 0 0⎤
⎢ ⎥
⎢ 0 σ2 0⎥
y matriz de varianzas covarianzas V ( ε ) = σ 2 I n×n =
⎢ ⎥
⎢ 2⎥
⎣0 0 σ ⎦
Por tanto el vector aleatorio y tiene valor esperado Xβ y la misma matriz de varianzas covarianzas de ε .
Para la estimación por mínimos cuadrados se buscan los valores estimados de los parámetros tales que
n
S (β ) = ∑ (Y − β − β k X ik ) = ( y − Xβ ) ( y − Xβ ) sea mínimo. Denotaremos por b al vector de
2 t
i 0 − β1 X i1 − β 2 X i 2 −
i =1
parámetros estimados. Matricialmente, las ecuaciones normales de mínimos cuadrados para el modelo lineal general son:
( ) ( X y) ,
−1
Xt Xb = Xt y y el vector de parámetros estimados es b = Xt X t
cuyos elementos corresponden a los
7
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
estimadores por máxima verosimilitud en el caso del modelo de regresión con errores normales. Matricialmente, hallamos las
∂S ( β ) ∂
∂β
=
∂β
( y t y − 2y t Xβ + β t X t Xβ ) = −2X t y + 2X t Xβ = 0 y desde que X t X sea invertible, obtenemos como
( )
−1
solución a b = Xt X Xt y .
⎡ b0 ⎤
⎢b ⎥
b = ⎢ 1⎥
⎢ ⎥
⎢ ⎥
⎣ bk ⎦
Siendo la ecuación ajustada igual a
Ŷi = b0 + b1 X i1 + b2 X i 2 + + bk X ik
⎡ Ŷ1 ⎤
⎢ ⎥
⎢Ŷ ⎥
ŷ = Xb = ⎢ 2 ⎥
⎢ ⎥
⎢⎣Ŷn ⎥⎦
⎡ e1 ⎤
⎢e ⎥
e = y − yˆ = ⎢ 2 ⎥
⎢ ⎥
⎢ ⎥
⎣ en ⎦
El vector de valores ajustados y el vector de residuales pueden ser también expresados en términos de la matriz
H = X ( X' X ) X' , conocida como la matriz hat o matriz sombrero, la cual es una matriz n × n de proyección ortogonal y
−1
8
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
7. Estimación de la varianza
Bajo los supuestos de independencia y distribución N ( 0 ,σ 2 ) idéntica para todos los errores del modelo, el estimador
SSE
σˆ 2 = MSE =
n − k −1
i =1 i =1
(
E [ b ] = E ⎡ Xt X ) Xt y ⎤ = β
−1
⎢⎣ ⎥⎦
9 La matriz de varianzas covarianzas de b es
(
V ( b ) = V ⎡ Xt X ) Xt y ⎤ = σ 2 Xt X ( )
−1 −1
⎢⎣ ⎥⎦
Tal matriz (la cual es simétrica) tiene sobre su diagonal principal a las varianzas de los estimadores de los parámetros,
( )
V b j , j = 0 ,1, 2 ,… k y por fuera de su diagonal principal a las covarianzas entre tales estimadores, es decir, el
(
elemento en la posición j ,l es COV b j ,bl . )
( )
−1
9 Una estimación de la anterior matriz es S 2 ( b ) = MSE X t X cuyos elementos en la diagonal principal
( )
corresponden a s 2 b j , estimaciones de las varianzas de los respectivos estimadores b j , en tanto que los
elementos restantes en la matriz son los estimadores de las covarianzas entre los estimadores b j .
9
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
Bajo los supuestos del modelo de regresión, podemos hallar los siguientes resultados:
Test de Estadístico de Criterio de Intervalo de confianza
Parámetro
significancia prueba rechazo del (1-α)100%
bj − β j Rechazar si
T0 = ~ t n− k −1
H0 : β j = 0 s2 bj( ) T0 > tα / 2 ,n− k −1
βj
H1 : β j ≠ 0 con significancia
b j ± tα / 2 ,n − k −1 s 2 b j( )
con β j = 0 para el test de
de α
significancia
NOTA: Para otros testes individuales sobre los parámetros, usamos en el cálculo del estadístico de prueba T0 el valor de β j
especificado en H0 y los criterios de rechazo se establecen según la desigualdad (de cola derecha, de cola izquierda o de dos
colas) planteada en la hipótesis alternativa.
media en tal punto es μY |x0 = E ⎡⎣Y | x0 ⎤⎦ = x 0t β = β 0 + β1 x01 + β 2 x02 + … + β k x0 k . Este valor es estimado por la
correspondiente respuesta o valor ajustado, Ŷ0 , que puede escribirse como Ŷ0 = x 0t b = x 0t ( X t X ) X t y . Tal estimación
−1
( )
tiene como varianza V Yˆ0 = x0t V ( b ) x0 = σ 2 x0t ( X t X ) x 0 , que es estimada por MSE x0t ( X t X ) x 0 Podemos
−1 −1
(
Para la respuesta media en el vector x 0 = 1, x01 , x02 ,… , x0 k :
t
) μY |x = x0t β
0
Intervalo de confianza
Tests de hipótesis Estadístico de prueba del (1-α)100%
Ŷ0 − μY |x0
(
ŷ0 ± tα / 2 ,n − k −1 × MSE ⎡ x 0t X t X ) x0 ⎤
-1
T0 = ~ t n− k −1 ⎢⎣ ⎥⎦
(
MSE ⎡ x 0t X t X ) x0 ⎤
−1
H 0 : μY |x0 = c ⎣⎢ ⎦⎥
10
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
Considere ahora el problema de predecir un valor futuro Y0 (no observado en la muestra) de la variable respuesta, en
X1 = x01 , X 2 = x02 ,… , X k = x0 k . Claramente, usando el modelo ajustado, predecimos tal valor por Ŷ0 . En este caso,
notando que el valor futuro y su pronóstico son independientes, obtenemos que la varianza de la diferencia Ŷ0 − Y0 es dada
( ) ( )
por V Yˆ0 − Y0 = V Yˆ0 + V (Y0 ) = σ 2 ⎡1 + x 0t X t X ( ) x 0 ⎤ , que es estimada por MSE ⎡⎢1 + x 0t ( X t X ) x 0 ⎤⎥ . Con esto
−1 −1
⎢⎣ ⎥⎦ ⎣ ⎦
podemos hallar los siguientes resultados:
Para una respuesta futura en el vector x'0 = 1, x01 , x02 ,… , x0 k : Y0 ( )
Intervalo de predicción
Pronóstico Estadístico del (1-α)100%
Ŷ0 − Y0
T0 = ~ t n− k −1
(
ŷ0 ± tα / 2 ,n− k −1 × s MSE ⎡⎢1+x 0t X t X ) x 0 ⎤⎥
-1
(
MSE ⎡⎢1+x 0t X t X ) x0 ⎤⎥
-1
Ŷ0 ⎣ ⎦
⎣ ⎦
con ŷ0 = x 0t b
con Ŷ0 = x 0t b
Los intervalos de predicción estiman los posibles valores para un valor particular de la variable respuesta (no para su media)
en un vector dado x0 . Asumimos que este valor particular es un valor futuro de la variable aleatoria Y, y por tanto, no fue
utilizado en la regresión. Si Y0 es un valor futuro y Ŷ0 = x 0t b es su estimador, entonces estas dos variables aleatorias son
estadísticamente independientes, dado que Y0 no fue utilizado para hallar los parámetros estimados, de ahí el estadístico y
observado) para la correspondiente predictora, sino que es necesario evaluar si x0 pertenece a la región de observación
11
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
SSE
Error SSE = y
t
(I − H) y n − k −1 MSE =
n − k −1
⎛ 1 ⎞
Total SST = y t ⎜ I − J ⎟ y n −1
⎝ n ⎠
NOTAS:
9 La suma de cuadrados totales corresponde a la suma de los cuadrados de las desviaciones de las respuestas,
n
respecto a la respuesta media, es decir, SST = ∑ ( yi − y ) .
2
i =1
9 La suma de cuadrados de la regresión corresponde a la suma de los cuadrados de las desviaciones de los valores
n
ajustados respecto a la media muestral de la respuesta, es decir, SSR = ∑ ( ˆyi − y ) .
2
i =1
9 La suma de cuadrados del error es simplemente la suma de los cuadrados de los residuales del modelo ajustado, es
n
decir SSE = ∑ ei2 .
i =1
Con base en la tabla ANOVA, y bajo los supuestos impuestos sobre los errores, se realiza el test de significancia de la
relación de regresión el cual se enuncia de la siguiente manera:
H 0 : β1 = β 2 = = β k = 0 ( el modelo de regresión no es significativo )
H1 : algún β j ≠ 0 ( existe una relación de regresión significativa con al menos una de las variables )
12
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
MSR
El estadístico de prueba es F0 = ~ f k ,n− k −1 . Se rechaza H0 a una significancia dada α si F0 > fα ,k ,n− k −1 . Es decir,
MSE
se prueba que existe una relación de regresión, sin embargo esto no garantiza que el modelo resulte útil para hacer
predicciones.
mide la proporción de la variabilidad total observada en la respuesta que es explicada por la asociación lineal con el conjunto
de variables X1 , X 2 , … , X k . Por ser una proporción, esta cantidad varía entre 0 y 1, siendo igual a 0 cuando todos los
coeficientes de regresión ajustados son iguales a cero, y es igual a 1 si todas las observaciones caen sobre la superficie de
regresión ajustada.
Aunque es usado como una medida de bondad del ajuste de la función de regresión, es necesario tener presente que:
9 Valores grandes de R2 no implican necesariamente que la superficie ajustada sea útil. Puede suceder que se hayan
observado pocos niveles de las variables predictoras o explicatorias y por tanto la superficie ajustada no sería útil para
hacer extrapolaciones por fuera de tales rangos. Incluso, si esta cantidad es muy cercana a 1, todavía el MSE podría
ser muy grande y por tanto las inferencias tendrían poca precisión.
9 Cuando se agregan más variables explicatorias al modelo, el R2 tiende a no decrecer, aún cuando existan dentro del
grupo de variables, un subconjunto de ellas que no aportan significativamente.
9 Como medida de bondad de ajuste se prefiere usar otros estadísticos que penalicen al modelo por el número de
variables incluidas, entre ellos se tienen el MSE, y el R2 ajustado, estas dos medidas son equivalentes: Entre dos
modelos ajustados se considera mejor el de menor MSE o equivalentemente el de mayor R2 ajustado, dado que éste
último corresponde a:
MSE SST
2
Radj = 1− , donde MST =
MST n −1
El R2 ajustado disminuye cuando en el modelo se ingresan variables explicatorias sin lograr reducir al SSE, y
causando la pérdida de grados de libertad para este último.
13
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
A veces es útil también acompañar este análisis gráfico con la matriz de correlaciones que proporciona los coeficientes de
correlación entre la variable respuesta con cada una de las predictoras y también todas las correlaciones entre las predictoras.
En las figuras siguientes se presentan varias presentaciones de las matrices de dispersión para un conjunto de datos sobre
tres variables. En los anexos aparece la programación R con la cual se obtuvieron estas gráficas:
1 Aunque si bien, no se detecten asociaciones lineales fuertes entre pares de variables predictoras o explicatorias, esto no es evidencia suficiente para
afirmar que no existe multicolinealidad. Una de las formas en que este problema se manifiesta es cuando se tiene una función de regresión significativa
y sin embargo los coeficientes individuales de la regresión resultan no significativos.
14
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
Ö Para chequear el supuesto de varianza constante, resulta útil un gráfico de residuales versus valores ajustados de la
respuesta. También puede aplicarse el test de Levene Modificado, cuando la varianza de los errores se incrementa o
decrementa con los niveles de una de las variables predictoras o explicatorias.
Ö Se pueden identificar outliers en los gráficos de residuales versus valores ajustados de la respuesta, en especial
cuando se utilizan residuales estandarizados e*i = ei / MSE , o residuales estudentizados
ri = ei / MSE (1 − hii ) .
Ö Para chequear la independencia, si se conoce el orden en que fueron recolectadas las observaciones, es posible
analizar la serie de tiempo de los residuales y aplicar por ejemplo el test de Durbin Watson, también se puede evaluar
gráficamente si hay patrones particulares en la serie de los residuales, aunque no siempre en ésta se identifican
patrones aún cuando exista autocorrelación. En el ámbito de las series de tiempo, existen métodos más efectivos
15
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
para evaluar si la serie de errores es un ruido blanco2, como el test de Lung-Box y las funciones de autocorrelación y
de autocorrelación muestral
Ö El supuesto de normalidad puede chequearse bien sea con el gráfico de probabilidad normal de los residuales y con el
test de normalidad de Shapiro Wilk.
H 0 : E ( Y | X 1 , X 2 , … , X k ) = β 0 + β1 X 1 + β 2 X 2 + + βk Xk
H1 : E ( Y | X 1 , X 2 , … , X k ) ≠ β 0 + β 1 X 1 + β 2 X 2 + + βk Xk
Para llevar a cabo este test, se necesitan replicaciones de la respuesta en las combinaciones de niveles de las variables
explicatorias. La suma de cuadrados SSE se descompone como en el caso de regresión simple, en
SSE = SSPE + SSLOF , donde SSPE se halla calculando para cada grupo replicado la suma de cuadrados de las
desviaciones de Y alrededor de la media del grupo, donde un grupo replicado consiste de n j observaciones Yij (i-esima
observación replicada en el j-ésimo grupo) obtenidas bajo los mismos valores para cada una de las variables predictoras o
explicatorias. Sea c el número de grupos replicados con distintos conjuntos de niveles para las X’s y sea Y j la media de las
observaciones replicadas para el j-ésimo grupo, entonces la suma de cuadrados para el j-ésimo grupo está dado por
c nj
( )
2
SSPE = ∑ ∑ Yij − Y j con grados de libertad n − c
j =1 i =1
La suma de cuadrados de carencia de ajuste es SSLOF = SSE − SSPE , con grados de libertad c − k − 1 , y el estadístico
de prueba es
SSLOF / ( c − k − 1) MSLOF
F0 = = ~ f c − k −1,n− c
SSPE / ( n − c ) MSPE
2 En series de tiempo, un ruido blanco es un proceso estocástico que se caracteriza por tener media constante igual a cero, varianza constante y los
términos del proceso son incorrelacionados.
16
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
Análisis de varianza
Fuente de Suma de Grados de Cuadrados
variación cuadrados libertad medios f calculada
MSR
F0 =
Regresión SSR k MSR = SSR / k MSE
MSLOF
Carencia de ajuste SSLOF c − k −1 MSLOF = SSLOF / ( c − k − 1) F0 = MSPE
Total SST n −1
Hay que tener cuidado cuando se transforma la variable respuesta, en particular cuando se usan las llamadas
transformaciones de Box-Cox, las que pueden resultar en nuevas variables carentes de interpretación práctica según el
fenómeno o contexto al cual pertenece la variable respuesta.
Si las desviaciones respecto al supuesto de normalidad son severas, y ninguna transformación resulta útil y/o interpretable,
existe otra alternativa, los llamados modelos lineales generalizados con los cuales se pueden modelar respuestas que no se
distribuyen normales; sin embargo, tales modelos están más allá del alcance de este curso.
17
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
están en el modelo de regresión, lo cual se interpreta como el incremento marginal en la suma de cuadrados de regresión por
agregar X1 al modelo de regresión múltiple de Y vs. X 2 y X 3 . SSR ( X1 , X 2 , X 3 ) es el SSR del modelo de regresión con
las tras variables X1 , X 2 , X 3 y SSR ( X 2 , X 3 ) es el SSR del modelo de regresión múltiple con sólo las variables X 2 y X 3 .
Los grados de libertad de SSR ( X1 | X 2 , X 3 ) se hallan como la diferencia de los grados de libertad de SSR ( X1 , X 2 , X 3 )
en el modelo de regresión, esto corresponde al incremento marginal en la suma de cuadrados de regresión por agregar
simultáneamente X 1 y X 2 , al modelo de regresión de Y vs. X 3 . Aquí, SSR ( X 3 ) es el SSR del modelo de regresión de
Y vs. X 3 . Los grados de libertad de SSR ( X1 , X 2 | X 3 ) corresponden a la diferencia de los grados de libertad de
SSR ( X1 | X 3 ) = SSR ( X1 , X 3 ) − SSR ( X 3 ) es la suma de cuadrados extras de X 1 dado que X 3 está en el modelo de
modelo de regresión de Y vs. X 3 . Aquí SSR ( X1 , X 3 ) es la suma de cuadrados de la regresión múltiple de Y vs. X 1 y
X 3 . Los grados de libertad de SSR ( X1 | X 3 ) son iguales a la diferencia de los grados de libertad de SSR ( X1 , X 3 )
cuadrados de regresión puede descomponerse de las siguientes maneras (éstas son sólo algunas de las posibles
descomposiciones):
SSR ( X 1 , X 2 , X 3 ) = SSR ( X 1 ) + SSR ( X 2 | X1 ) + SSR ( X 3 | X1 , X 2 )
18
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
Una forma particular de descomposición que puede obtenerse con los paquetes estadísticos, son las sumas de cuadrados de
regresión secuenciales o SS1, que son sumas de cuadrados extras de 1 grado de libertad, en la cual cada variable explicatoria
es agregada secuencialmente, según el orden en que son nombradas en el modelo de regresión completo, por ejemplo , si se
especifica el modelo Y = β 0 + β1 X1 + β 2 X 2 + β 3 X 3 + ε , la descomposición en sumas de cuadrados secuenciales
X 2 | X1 SSR ( X 2 | X 1 ) 1
X 3 | X1 , X 2 SSR ( X 3 | X1 , X 2 ) 1
Regresión SSR 3
Otro tipo de sumas de cuadrados extras de 1 grado de libertad que se obtienen en los paquetes estadísticos, son las sumas de
cuadrados de regresión parciales ó SS2 las cuales corresponden a las sumas de cuadrados extras de cada variable
explicatoria en el modelo, dadas las demás. De nuevo considere el modelo Y = β 0 + β1 X1 + β 2 X 2 + β 3 X 3 + ε , las sumas
X 2 | X1 , X 3 SSR ( X 2 | X1 , X 3 ) 1
X 3 | X1 , X 2 SSR ( X 3 | X1 , X 2 ) 1
Observe que la última suma de cuadrados de regresión parcial corresponde a la última suma de cuadrados de regresión
secuencial para el modelo del ejemplo, y además que estas tres sumas de cuadrados extras no constituyen una
descomposición de la suma de cuadrados de la regresión del modelo completo, es decir, no suman el SSR.
19
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
14.2 Prueba de la significancia de coeficientes de regresión individual mediante sumas de cuadrados extras
En la sección 7 se presentó la prueba de hipótesis de significancia de los β j del modelo de regresión mediante el uso del
estadístico T0 = b j / ( )
s 2 b j ~ t n − k −1 bajo la hipótesis nula β j = 0 . Considere j = 1, 2 , … , k , si se eleva al cuadrado
esta variable aleatoria T0 ~ t n − k −1 , se obtiene la variable aleatoria F0 = T02 ~ f1,n− k −1 y puede demostrarse que este
F0 =
(
SSR X j | X1 , X 2 ,… , X j −1 , X j +1, X j + 2 ,… X k )
MSE ( X1 , X 2 ,… , X k )
es decir, la suma de cuadrados parcial SS2 de la respectiva variable X j , dividida por el MSE del modelo de regresión
completo (con todas las predictoras). A un nivel de significancia de α , el criterio de rechazo con este estadístico de la
hipótesis H 0 : β j = 0 en favor de H1 : β j ≠ 0 , es F0 > fα ,1,n− k −1 .
NOTA: En el caso de la regresión lineal simple puede mostrarse que el estadístico F del test de significancia de la regresión
mediante el análisis de varianza es igual al cuadrado del estadístico t de la prueba de significancia de la pendiente de la recta
de regresión.
14.3 Prueba de la significancia de subconjuntos de coeficientes de regresión mediante sumas de cuadrados extras
Considere ahora el caso en el cual se desea probar simultáneamente la significancia de 2 o más coeficientes de la regresión,
por ejemplo, en el modelo Y = β 0 + β1 X1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + β 5 X 5 + ε se desea probar si las variables X 1 , X 2 y
H 0 : β1 = β 2 = β 5 = 0
H1 : alguno entre β1 , β 2 y β 5 es ≠ 0
Ö El modelo nulo: es decir, aquel al cual se reduce el modelo completo eliminando las variables explicatorias sobre las
cuales se realiza esta prueba. Para el ejemplo es Y = β 0 + β 3 X 3 + β 4 X 4 + ε
El estadístico de prueba es igual a la razón del cuadrado medio de la diferencia de las sumas de cuadrados del error del
modelo nulo menos la del modelo completo, sobre el cuadrado medio del error del modelo completo. Para el ejemplo, sería:
20
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
por lo tanto el estadístico de la prueba es simplemente la suma de cuadrados extra de regresión de las variables cuya
significancia se prueba, dada las demás variables del modelo, dividida por sus grados de libertad, sobre el cuadrado medio del
error del modelo completo:
SSR ( X1 , X 2 , X 5 | X 3 , X 4 ) / 3
F0 = ~ f
MSE ( X1 , X 2 , X 3 , X 4 , X 5 )
3 ,n − 6
H0 : β2 = β4 = 0
H1 : alguno entre β 2 y β 4 es ≠ 0
SSR ( X 2 , X 4 | X1 , X 3 , X 5 ) / 2
se usa F0 = ~ f y con un nivel de significancia de α , el criterio de rechazo de la
MSE ( X1 , X 2 , X 3 , X 4 , X 5 )
2 ,n − 6
21
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
15.1 Procedimientos de reducción de variables explicatorias mediante todas las regresiones posibles
Este procedimiento consiste en correr las regresiones de la variable respuesta vs. todos los posibles subconjuntos de 1, 2, …,
k variables explicatorias, y comparar tales modelos con base en alguno o varios de los siguientes estadísticos:
2
Ö El Radj : El mejor modelo es aquél con mayor valor en este estadístico.
Ö El MSE : El mejor modelo es aquél con menor valor en este estadístico. Sin embargo usar este criterio equivale a
2
usar el criterio del Radj .
Ö El C p , el mejor modelo es aquél para el cual C p es el más pequeño posible (es decir, el modelo con el menor
número de variables predictoras o explicatorias posible) y tal que la diferencia C p − p es mínima, con p igual al
número de parámetros del modelo considerado, incluyendo el intercepto. Este estadístico es una medida del sesgo en
( )
el modelo de regresión, es decir, de E Yˆi − μi (donde μi es el valor esperado de la respuesta dadas las variables
predictoras del modelo considerado), y es tal que a mayor sesgo, mayor C p . Este estadístico se calcula como:
SSE p
Cp = − ( n − 2 p)
MSE ( X1 , X 2 ,… , X k )
donde SSE p es la suma de cuadrados del error del modelo de regresión con p − 1 ≤ k variables explicatorias y
MSE ( X1 , X 2 ,… , X k ) es la suma de cuadrados medios del error para el modelo de regresión con todas las k
El uso del criterio C p supone que MSE ( X1 , X 2 ,… , X k ) proporciona un estimador insesgado de la varianza σ 2 y
que las relaciones de la respuesta con cada predictora han sido expresadas en el modelo de forma apropiada (lineal,
cuadrática, transformada, etc.) y que las variables menos útiles han sido excluidas.
22
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
Ö El PRESS P o suma de cuadrados de predicción, mide qué también el uso de los valores ajustados por un
submodelo puede predecir las respuestas observadas. Mientras menor sea esta medida, mejor se considera el
modelo. El PRESS es como un SSE, pero en el cual el valor ajustado para cada observación Yi se halla estimando el
submodelo sin considerar dicha observación, tales valores ajustados se denotan por Ŷi ( i ) ; así el PRESS es la suma
n
de cuadrados de los errores de predicción e( i ) = Yi − Yˆi ( i ) , es decir, PRESS P = ∑ e(2i ) . Para cada submodelo, la
i =1
definición del error de predicción implica correr n regresiones separadas (cada una con n − 1 datos) con cada
observación eliminada en cada caso, sin embargo, basta con correr una vez el modelo con todas las observaciones,
hallar sus residuales ordinarios, y los elementos de la diagonal principal de la matriz hat y calcular e( i ) = ei / (1 − hii ) .
Si se usan dos o más criterios de selección de modelos, es posible que cada criterio lleve a modelos distintos. La decisión
final debe basarse en el análisis de residuales y otros diagnósticos, además de complementar con el conocimiento y la
experiencia de personas expertas en el ámbito en el cual está inmerso el problema.
El método forward inicia ajustando todas las regresiones simples posibles, selecciona entre estos modelos el de menor MSE
pero tal que la respectiva variable resulte significativa, luego va agregando variables, una por vez, buscando reducir también
en forma significativa la suma de cuadrados de los errores, lo cual es evaluado a través de pruebas F en las que se involucra
el cálculo de sumas de cuadrados extras de una nueva variable dadas las demás que previamente se ingresaron en el modelo.
Entre varias variables candidatas a ingresar al modelo en un paso dado del algoritmo, se elige aquella que reduzca más
significativamente el SSE. El procedimiento se detiene cuando entre las variables restantes que no han sido ingresadas hasta
el paso previo, ninguna contribuiría significativamente en la reducción del SSE si fuese ingresada.
El método backward, parte del modelo con todas las variables y elimina secuencialmente de a una variable, buscando reducir
el SSE. La variable que se elimina en cada paso, es aquella que no resulta significativa en presencia de las demás variables
23
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
del modelo de regresión que se tiene en ese momento. También se recurre a pruebas F basadas en sumas de cuadrados
extras, y entre varias variables candidatas a salir del modelo, se retira la de menor significancia. El algoritmo se detiene
cuando todas las variables que aún permanecen en el modelo son significativas en presencia de las demás.
El método stepwise, comienza agregando variables, una a la vez, la nueva variable es ingresada según el método forward,
pero una vez ingresada una nueva variable, se evalúa que las demás que ya estaban en el modelo sigan siendo significativas,
es decir, aplica el principio del método backward. Así, en un paso dado puede ingresar una variable y salir otra que en un paso
previo ya había sido ingresada, es más, puede suceder que una misma variable entre, salga y vuelva a ser ingresada en pasos
subsiguientes del algoritmo. El algoritmo se detiene cuando ya no hay más variables para ingresar que contribuyan
significativamente a reducir el SSE, en tanto que todas las que se tienen en el modelo son significativas.
Como se anotó antes en el procedimiento de selección de variables mediante todas las regresiones posibles, el modelo final
no solamente debe ser el resultado de estos algoritmos de selección, también es necesario usar el juicio y el conocimiento
previo que se tenga sobre el problema en el cual se está inmerso.
Cuando una o más variables explicatorias de tipo cualitativas son consideradas en un modelo de regresión mediante un
conjunto de variables indicadoras, en estos procesos de selección de variables se recomienda mantener a éstas juntas, como
un solo grupo, aún si un subconjunto de ellas resulta mejor de acuerdo al criterio de selección empleado. Esta recomendación
también aplica en el caso de modelos en los cuales se incluyen términos polinomiales de una variable, es decir, términos
lineales, cuadráticos, etc. Si un término polinómico de orden m de una variable dada va a ser dejado en el modelo, entonces
todos los términos de orden inferior de esa misma variable también se recomienda dejarlos en el modelo, así no sean
significativos según el criterio de selección aplicado. Similarmente, si se tienen incluidos términos de interacción entre
variables explicatorias, los términos de interacción de menor orden y los términos lineales de las variables involucradas en
tales interacciones, también deben permanecer en el modelo.
16. Problema 1
Cuatro pruebas (X1, X2, X3, X4) para selección de personal son aplicadas a un grupo de 20 aspirantes y se registran los
respectivos puntajes. Después de 2 años de contratación estos 20 empleados son clasificados de acuerdo a la puntuación de
la aptitud (Y) exhibida para el trabajo. Los datos se presentan a continuación:
24
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
( )
iid
A. En el modelo con todas las variables Y = β 0 + β1 X1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + ε , ε ~ N 0 ,σ 2 :
1. Realice un análisis descriptivo del conjunto de datos, específicamente, sobre las posibles asociaciones entre variables
y la distribución de la variable respuesta:
25
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
TABLA MATRIZ DE CORRELACIÓN ENTRE TODAS LAS VARIABLES (obtenida con el R; también puede calcularse con SAS en el
proc reg opción corr, ver programas anexos)
Y X1 X2 X3 X4
Y 1.000000000 -0.004143458 0.48590256 0.8855698 0.86492903
X1 -0.004143458 1.000000000 0.06814831 -0.1533788 -0.09574832
X2 0.485902561 0.068148309 1.00000000 0.5432310 0.43811642
X3 0.885569796 -0.153378763 0.54323100 1.0000000 0.76438127
X4 0.864929027 -0.095748315 0.43811642 0.7643813 1.00000000
2. Ajuste el modelo y escriba la ecuación ajustada. Cuál es el efecto sobre la respuesta media por unidad de cambio en
X1 cuando los puntajes en las otras pruebas permanecen a un nivel fijo? Estime la matriz de varianzas covarianzas de los
parámetros estimados:
TABLA DE PARÁMETROS ESTIMADOS CON SUMAS DE CUADRADOS TIPO I y TIPO II, Y COEFICIENTES ESTANDARIZADOS (Las sumas de
cuadrados tipo I y II y los coeficientes estandarizados se obtienen respectivamente con las opciones SS1, SS2 y stb
en la declaración model del proc reg)
Parameter Estimates
Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Type I SS Type II SS Estimate
Intercept 1 -178.62132 48.61985 -3.67 0.0023 171680 755.58731 0
x1 1 0.52146 0.35950 1.45 0.1675 0.12578 117.78193 0.13055
x2 1 -0.04780 0.14182 -0.34 0.7407 1739.89945 6.36129 -0.03572
x3 1 1.36668 0.34643 3.94 0.0013 4138.42606 871.23508 0.58295
x4 1 0.83250 0.25254 3.30 0.0049 608.37465 608.37465 0.44748
TABLA MATRIZ DE VARIANZAS COVARIANZAS ESTIMADA DE LOS PARÁMETROS ESTIMADOS DEL MODELO (Se obtiene en el SAS con la
opción covb de la declaración model del proc reg)
Covariance of Estimates
Variable Intercept x1 x2 x3 x4
Intercept 2363.8901157 -15.80685715 0.8665382669 -6.844882227 0.3910048375
x1 -15.80685715 0.1292437353 -0.009248809 0.0227520918 -0.002404343
x2 0.8665382669 -0.009248809 0.0201115422 -0.018703335 -0.001316046
x3 -6.844882227 0.0227520918 -0.018703335 0.120017128 -0.060393923
x4 0.3910048375 -0.002404343 -0.001316046 -0.060393923 0.0637741289
3. Determine cuál de las variables predictoras o explicatorias tiene mayor peso sobre la variable respuesta, teniendo en
cuenta los coeficientes con variables estandarizadas (ver tabla de resultados en numeral 2)
4. Interprete el coeficiente de determinación muestral múltiple. Plantee la prueba necesaria para determinar si la
regresión es significa (hipótesis, estadístico de prueba y región crítica) y hágala a un nivel de significancia de 0.05:
TABLA DE ANALISIS DE VARIANZA (resulta por defecto en el proc reg)
Dependent Variable: y
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 4 6486.82595 1621.70649 28.97 <.0001
Error 15 839.72405 55.98160
Corrected Total 19 7326.55000
Root MSE 7.48209 R-Square 0.8854
Dependent Mean 92.65000 Adj R-Sq 0.8548
Coeff Var 8.07565
26
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
5. Interprete los coeficientes estimados en términos de las variables del problema y pruebe la significancia individual de
cada parámetro, mediante las pruebas T y las pruebas F parciales (para pruebas T ver tabla de resultados en numeral 2. Las
pruebas F pueden construirse a partir de las sumas de cuadrados SS2 o bien a partir de la relación estadística entre una
distribución t y una distribución F. Constate con los resultados que se dan a continuación):
RESULTADO SAS ARGUMENTO b1:test x1=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B1=0
Test b1 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 1 117.78193 2.10 0.1675
Denominator 15 55.98160
RESULTADO SAS ARGUMENTO b2:test x2=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B2=0
Test b2 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 1 6.36129 0.11 0.7407
Denominator 15 55.98160
RESULTADO SAS ARGUMENTO b3:test x3=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B3=0
Test b3 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 1 871.23508 15.56 0.0013
Denominator 15 55.98160
RESULTADO SAS CON ARGUMENTO b4:test x4=0; EN EL PROC REG, PARA PRUEBA F SOBRE H0: B4=0
Test b4 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 1 608.37465 10.87 0.0049
Denominator 15 55.98160
6. Pruebe conjuntamente si los puntajes en las pruebas dos y cuatro son significativas para explicar la aptitud para el
trabajo (plantee claramente las hipótesis, estadísticos de prueba, y región crítica).
RESULTADO SAS CON ARGUMENTO b2yb4:test x2,x4; EN EL PROC REG, PARA PRUEBA F H0: B2=B4=0
Test b2yb4 Results for Dependent Variable y
Mean
Source DF Square F Value Pr > F
Numerator 2 305.49446 5.46 0.0166
Denominator 15 55.98160
7. Construya los intervalos de confianza del 95% para los parámetros del modelo e interprételos.
TABLA DE INTERVALOS DE CONFIANZA DE LOS PARÁMETROS Y FACTORES DE INFLACIÓN DE VARIANZA (los intervalos se obtiene
con la opción clb y los vif’s con la opción vif en el argumento MODEL del proc reg)
Variance
Variable DF Inflation 95% Confidence Limits
Intercept 1 0 -282.25209 -74.99056
x1 1 1.06015 -0.24481 1.28773
x2 1 1.46954 -0.35008 0.25447
x3 1 2.85778 0.62827 2.10509
x4 1 2.41145 0.29424 1.37077
27
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
8. Determine mediante los gráficos de residuales estudentizados la validez del supuesto de varianza constante, también
evalúe el supuesto de normalidad y posibles outliers (los gráficos de residuales se obtuvieron con el argumento plot del proc
reg y los gráficos de normalidad con el proc univariate sobre los residuales).
28
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
9. De acuerdo a las siguientes gráficas identifique si existen observaciones influenciales (éstas fueron obtenidas
guardando los estadísticos hii (leverage) cookd (distancia de Cook), con las opciones h=hii cookd=cooks de la declaración
output en el proc reg.
29
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
NOTA:
Ö hii elemento i-ésimo de la diagonal principal de la matriz sombrero (H), es conocido como el “leverage de yi sobre
ŷi ”, y es una medida de la influencia potencial de una observación en virtud de su ubicación en el espacio definido
n
por las variables predictoras o explicatorias. Puede mostrarse que ∑h
i =1
ii = p, p = k + 1 , luego como una guía se
usa el tamaño promedio de los hii para identificar posibles puntos influenciales: si hii > 2 p / n el punto i-ésimo tiene
alto leverage.
Ö Las distancia de Cook corresponde a
ri2 V ( ˆyi ) ri2 hii
D i= =
p V ( ei ) p (1 − hii )
donde ri es el i-ésimo residual estudentizado, y la razón hii / (1 − hii ) es una medida de la distancia del vector
observación xi al centroide del resto de los datos. Así, la distancia de Cooks refleja qué tan bien el modelo ajusta a la
i-ésima observación y a la vez da cuenta de cuán lejos está ese punto del resto de los datos. Se considera influencial
aquél punto para el cual Di > 1 .
10. Mediante los valores de los VIF para los parámetros del modelo determine si existen problemas de multicolinealidad y
cuál o cuales variables están involucradas en dicho problema (ver tabla de resultados en el numeral 7, resultados
encabezados por Variance Inflation. Estas cantidades se obtienen con la opción vif de la declaración model del proc reg):
30
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
NOTA:
Ö Cuando hay multicolinealidad, las varianzas de los coeficientes de regresión son infladas, de ahí el nombre de factores
de inflación de varianza.
Ö Puede mostrarse que VIF = 1 / 1 − R 2j ( ) donde 0 < R 2j < 1 es el coeficiente de determinación múltiple de la
11. Mediante los índices de condición y las proporciones de aporte a la varianza de los coeficientes de regresión, que
aporta el valor propio asociado a cada predictora, determine de nuevo si existen problemas de multicolinealidad.
NOTA:
Ö Los valores propios son calculados para la matriz Xt X . La existencia de una o más dependencias lineales en los
datos es evidenciada porque uno o más valores propios resultan muy pequeños.
Ö Mientras más pequeños son los valores propios λ j , más grande es el índice de condición κ j = λmax / λ j . SAS
calcula la raíz cuadrada de los índices de condición. Si tales raíces son menores que 10 no hay problemas serios de
multicolinealidad, si alguna está entre 10 y 31esto implica multicolinealidad moderada a fuerte, y si alguna excede de
31 la multicolinealidad es severa.
Ö Puede demostrarse que las varianzas de los estimadores de los coeficientes de regresión son función de los VIF, los
cuales a su vez son función de los valores inversos de los λ j , por lo cual, valores pequeños en alguno (s) de los λ j
conlleva a inflación de las varianzas de los estimadores. Debe tenerse en cuenta que los valores propios son
numerados de mayor a menor, es decir λ1 > λ2 > > λp
Ö Las proporciones de descomposición de varianza, π ij también son una medida de multicolinealidad, las cuales
corresponden a la proporción que el i-ésimo valor propio de Xt X aporta a la varianza del coeficiente estimado β̂ j .
Ö Si proporciones altas de varianza para dos o más coeficientes de regresión están asociados con un mismo valor
propio pequeño, entonces hay evidencia de multicolinealidad. Por ejemplo, si π 43 y π 45 son grandes (mayores de
0.5), el cuarto valor propio está asociado con una multicolinealidad que infla las varianzas de β̂ 3 y β̂ 5 , es decir X 3 y
Ö Hay controversia acerca de si los datos deben “centrarse” (restarles sus respectivas medias a los valores de cada
variable) para diagnosticar multicolinealidad usando el criterio de los valores propios y de las proporciones de la
31
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
descomposición de varianzas. Si se centran los datos se elimina el mal condicionamiento debido al intercepto del
modelo. Si este parámetro no tiene interpretación física, se recomienda trabajar sobre los datos centrados. Si por el
contrario el intercepto es interpretable, no se recomienda centrar los datos (Montgomer, Peck y Vining, 2002).
RESULTADOS SAS PARA DIAGNÓSTICO DE MULTICOLINEALIDAD CON BASE EN LOS VALORES PROPIOS, ÍNDICES DE CONDICIÓN Y
PROPORCIONES DE DESCOMPOSICIÓN DE VARIANZA CON DATOS SIN CENTRAR (Con opción collin en la declaración model):
Collinearity Diagnostics
Condition
Number Eigenvalue Index
1 4.97778 1.00000
2 0.01151 20.79826
3 0.00810 24.79224
4 0.00192 50.92105
5 0.00068969 84.95525
Collinearity Diagnostics
------------------------Proportion of Variation------------------------
Number Intercept x1 x2 x3 x4
1 0.00004765 0.00006662 0.00045972 0.00009238 0.00019066
2 0.02015 0.03677 0.51781 0.00100 0.01034
3 0.00438 0.02156 0.38292 0.02724 0.29226
4 0.00552 0.06421 0.05578 0.75754 0.67611
5 0.96990 0.87740 0.04303 0.21413 0.02111
RESULTADOS SAS PARA DIAGNÓSTICO DE MULTICOLINEALIDAD CON BASE EN LOS VALORES PROPIOS, ÍNDICES DE CONDICIÓN Y
PROPORCIONES DE DESCOMPOSICIÓN DE VARIANZA CON DATOS CENTRADOS (Con la opción collinoint en la declaración model):
B. Mediante los datos referentes a todas las regresiones posibles conteste a las siguientes preguntas:
Dependent Variable: y
Number in Adjusted
Model R-Square R-Square C(p) MSE
1 0.7842 0.7722 12.2382 87.82341
1 0.7481 0.7341 16.9669 102.53009
1 0.2361 0.1937 83.9747 310.93011
1 0.0000 -.0555 114.8720 407.02357
------------------------------------------------------------
2 0.8693 0.8539 3.1096 56.34251
2 0.8020 0.7787 11.9141 85.33606
2 0.7843 0.7589 14.2339 92.97521
2 0.7623 0.7343 17.1139 102.45921
2 0.7543 0.7254 18.1494 105.86917
2 0.2375 0.1478 85.7922 328.61910
------------------------------------------------------------
3 0.8845 0.8629 3.1136 52.88033
3 0.8693 0.8448 5.1039 59.84412
3 0.8023 0.7653 13.8674 90.50617
3 0.7665 0.7227 18.5629 106.93495
------------------------------------------------------------
4 0.8854 0.8548 5.0000 55.98160
32
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
C. Realice ahora la selección mediante métodos secuenciales. Use un nivel de significancia de 0.05 para ingresar y de
0.05 para salir del modelo (plantee claramente los modelos en cada paso, las hipótesis, estadísticos de prueba y decisiones
tomadas).
Forward Selection: Step 1
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 5745.72862 5745.72862 65.42 <.0001
Error 18 1580.82138 87.82341
Corrected Total 19 7326.55000
Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -116.00248 25.88120 1764.31494 20.09 0.0003
x3 2.07614 0.25668 5745.72862 65.42 <.0001
33
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 6368.72737 3184.36368 56.52 <.0001
Error 17 957.82263 56.34251
Corrected Total 19 7326.55000
Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -114.98800 20.73215 1733.21553 30.76 <.0001
x3 1.26567 0.31886 887.71904 15.76 0.0010
x4 0.84140 0.25303 622.99875 11.06 0.0040
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 4 6486.82595 1621.70649 28.97 <.0001
Error 15 839.72405 55.98160
Corrected Total 19 7326.55000
Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -178.62132 48.61985 755.58731 13.50 0.0023
x1 0.52146 0.35950 117.78193 2.10 0.1675
x2 -0.04780 0.14182 6.36129 0.11 0.7407
x3 1.36668 0.34643 871.23508 15.56 0.0013
x4 0.83250 0.25254 608.37465 10.87 0.0049
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 3 6480.46466 2160.15489 40.85 <.0001
Error 16 846.08534 52.88033
Corrected Total 19 7326.55000
34
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -176.56157 46.87929 750.10936 14.19 0.0017
x1 0.49948 0.34361 111.73729 2.11 0.1654
x3 1.32222 0.31135 953.69062 18.03 0.0006
x4 0.82937 0.24527 604.62763 11.43 0.0038
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 6368.72737 3184.36368 56.52 <.0001
Error 17 957.82263 56.34251
Corrected Total 19 7326.55000
Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -114.98800 20.73215 1733.21553 30.76 <.0001
x3 1.26567 0.31886 887.71904 15.76 0.0010
x4 0.84140 0.25303 622.99875 11.06 0.0040
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 5745.72862 5745.72862 65.42 <.0001
Error 18 1580.82138 87.82341
Corrected Total 19 7326.55000
Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -116.00248 25.88120 1764.31494 20.09 0.0003
x3 2.07614 0.25668 5745.72862 65.42 <.0001
35
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 2 6368.72737 3184.36368 56.52 <.0001
Error 17 957.82263 56.34251
Corrected Total 19 7326.55000
Parameter Standard
Variable Estimate Error Type II SS F Value Pr > F
Intercept -114.98800 20.73215 1733.21553 30.76 <.0001
x3 1.26567 0.31886 887.71904 15.76 0.0010
x4 0.84140 0.25303 622.99875 11.06 0.0040
No other variable met the 0.0500 significance level for entry into the model.
--------------------------------------------------------------------------------------------------
D. Ajuste los dos mejores modelos hallados, valide supuestos de los errores (normalidad y varianza constante) y realice
diagnósticos (observaciones influenciales, outliers).
17. Problema 2
Un gran almacén realizó un experimento para investigar los efectos de los gastos por publicidad sobre las ventas semanales
de sus secciones de ropa para caballeros (A), para niños (B) y para damas (C). Se seleccionaron al azar 5 semanas para
observación en cada sección, y un presupuesto para publicidad (X1, en cientos de dólares) se asignó a cada una de las
secciones. Las ventas semanales (en miles de dólares), los gastos de publicidad en cada uno de las tres secciones en cada
una de las cinco semanas del estudio se listan a continuación.
SEC X1 Y
A 5.2 9
A 5.9 10
A 7.7 12
A 7.9 12
A 9.4 14
B 8.2 13
B 9.0 13
B 9.1 12
B 10.5 13
B 10.5 14
C 10.0 18
C 10.3 19
36
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
SEC X1 Y
C 12.1 20
C 12.7 21
C 13.6 22
Si se definen X2 y X3 variables indicadoras que indican respectivamente si se trata de la sección de ropa para niños o la
sección de ropa para damas.
A. Plantee el modelo de regresión apropiado si se espera una diferencia entre las rectas que corresponden a las tres
secciones y especifique los modelos particulares para cada sección.
B. Ajuste el modelo general y halle las ecuaciones de las rectas que relacionan las ventas con la publicidad en cada
sección.
C. Determine si existe diferencia entre las ordenadas en el origen de las rectas correspondientes a las secciones de
caballeros y de damas.
D. Determine si existe diferencia en las pendientes de las rectas correspondientes a las secciones de niños y caballeros.
E. Si se quiere probar que la recta de ventas vs. publicidad es diferente para cada sección, plantee la hipótesis a probar,
el estadístico de prueba y región crítica al nivel de 0.05, realice la prueba y concluya.
F. Determine si el cambio promedio en las ventas semanales por unidad de cambio en el presupuesto en publicidad es
igual para las secciones de niños y de damas
G. De acuerdo a la significancia de los parámetros, se puede decir que el modelo considerado es correcto? ¿Debería
especificarse otro modelo? ¿cuál?
--------------------------------------------------------------------------------------------------
Obs SEC X1 Y X2 X3 X1X2 X1X3
1 A 5.2 9 0 0 0.0 0.0
2 A 5.9 10 0 0 0.0 0.0
3 A 7.7 12 0 0 0.0 0.0
4 A 7.9 12 0 0 0.0 0.0
5 A 9.4 14 0 0 0.0 0.0
6 B 8.2 13 1 0 8.2 0.0
7 B 9.0 13 1 0 9.0 0.0
8 B 9.1 12 1 0 9.1 0.0
9 B 10.5 13 1 0 10.5 0.0
10 B 10.5 14 1 0 10.5 0.0
11 C 10.0 18 0 1 0.0 10.0
12 C 10.3 19 0 1 0.0 10.3
13 C 12.1 20 0 1 0.0 12.1
14 C 12.7 21 0 1 0.0 12.7
15 C 13.6 22 0 1 0.0 13.6
37
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 5 234.40399 46.88080 211.39 <.0001
Error 9 1.99601 0.22178
Corrected Total 14 236.40000
Root MSE 0.47093 R-Square 0.9916
Dependent Mean 14.80000 Adj R-Sq 0.9869
Coeff Var 3.18199
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t| Type I SS Type II SS
Intercept 1 3.03177 1.03458 2.93 0.0167 3285.60000 1.90452
X1 1 1.15903 0.14029 8.26 <.0001 193.85859 15.13699
X2 1 6.73167 2.44233 2.76 0.0222 23.72904 1.68483
X3 1 5.24289 2.07240 2.53 0.0322 14.79368 1.41943
X1X2 1 -0.81690 0.27181 -3.01 0.0148 1.88942 2.00324
X1X3 1 -0.16028 0.20677 -0.78 0.4581 0.13326 0.13326
38
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
39
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
reg<-lm(Y~1+X1+X2+X3+X4,datos)
vif(reg)
40
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
41
Regresión Lineal Múltiple, Estadística II – 3006915 Prof. Nelfi González A. – Escuela de Estadística
/*SELECCIÓN SECUENCIAL*/
proc reg data=datos;
model y=x1-x4/selection=forward sle=0.05;
model y=x1-x4/selection=backward sls=0.05;
model y=x1-x4/selection=stepwise sle=0.05 sls=0.05;
run;
quit;
Bibliografía
MONTGOMERY, D.C. y PECK, E. A (1992). Introduction to Linear Regression Analysis. John Wiley & Sons.
NETER, N. et. Al. (1996) Applied Linear Statistical Models. Irwin.
42