Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión Múltiple
Regresión Múltiple
25/04/2007
Regresin Mltiple
Resumen
El procedimiento de Regresin Mltiple est diseado para construir un modelo estadstico
describiendo el impacto de dos o ms factores cuantitativos X sobre una variable dependiente Y.
El procedimiento incluye una opcin para realizar regresin por pasos, en la cual se selecciona
una de las variables X antes establecidas. El modelo colocado puede ser usado para hacer
predicciones, incluyendo lmites de confianza y lmites de prediccin. Los residuos pueden
tambin ser graficados observando la manera en que influyen.
El procedimiento contiene opciones adicionales para transformar los datos usando una
transformacin Box-Cox o Cochrane-Orcutt. La primera opcin es til para establecer la
variabilidad de los datos, mientras que la segunda es til para manejar datos de series de tiempo,
en los que los residuos exhiben correlacin serial.
Model
(Modelo)
MPG
Highway
(MPG en
Autopista)
Integra
31
Legend
25
90
26
100
26
535i
30
Century
31
LeSabre
28
Roadmaster 25
Riviera
27
DeVille
25
Seville
25
Cavalier
36
Weight
(Peso)
Horsepower
(Caballos
de fuerza)
Wheelbase Drivetrain
(Distancia
entre ejes)
2705
3560
3375
3405
3640
2880
3470
4105
3495
3620
3935
2490
140
200
172
172
208
110
170
180
170
200
295
110
102
115
102
106
109
105
111
116
108
114
111
101
frontal
frontal
frontal
frontal
trasera
frontal
frontal
trasera
frontal
frontal
frontal
frontal
Se desea que un modelo pueda predecir MPG Carretera a partir de Peso, Horsepower,
Wheelbase y Drivetrain.
Regresin Multiple - 1
Datos de entrada
La ventana de dialogo de datos de entrada necesita los nombres de las columnas que contienen la
variable dependiente Y y las variables independientes X:
Variable Dependiente: columna numrica que contiene las n observaciones para la variable
dependiente Y.
Variables Independientes: columnas numricas que contienen los n valores para las
variables independientes X. Pueden ser ingresados los nombres de las columnas o
expresiones STATGRAPHICS.
Ponderaciones: una columna numrica opcional que contiene pesos para ser aplicados a los
cuadrados de los residuos cuando se realice un ajuste de mnimos cuadrados ponderados.
En el ejemplo, note el uso de la expresin Weight^2 para aadir un trmino de segundo orden
que involucra el peso del vehculo. Esto fue aadido despus de examinar la grfica X-Y que
mostr una curvatura significativa con respecto a Peso. El factor categrico Drivetrain ha sido
tambin introducido en el modelo a travs de la expresin booleana Drivetrain=front, la cual
establece una variable indicadora que toma el valor de 1 si es verdadero y 0 si es falso. El
modelo para ser ajustado toma la forma:
MPG Carretera = 0 + 1Peso + 2Peso2 + 3Caballos de fuerza + 4Distancia entre ejes
+ 5X5 (1)
2006 por StatPoint, Inc.
Regresin Multiple - 2
(2)
(3)
(4)
El estadstico t evala la hiptesis nula que corresponde al parmetro del modelo igual a 0,
basado en la suma de cuadrados Tipo 3 (la suma extra de cuadrados atribuible a cada variable
si se ingresa en el modelo). P-Valores grandes (mayores que o iguales a 0.05 si operan a un
2006 por StatPoint, Inc.
Regresin Multiple - 3
Regresin Multiple - 4
Opciones de anlisis
F para Agregar - En una regresin por pasos, las variables sern ingresadas en el modelo a
un paso dado si sus F valores son mayores que o iguales al valor especificado de F para
Agregar.
F para Quitar En una regresin paso por paso, las variables sern eliminadas del modelo a
un paso dado si sus F valores son menores que el valor especificado de F para Quitar.
Mx. Pasos nmero mximo de pasos permitido cuando se hace una regresin por pasos.
Mostrar Desplegar o no los resultados a cada paso cundo se hace una regresin por pasos.
Seleccin descendente Comienza con un modelo que involucra todas las variables
especificadas en el cuadro de dilogo de entrada de datos y elimina una variable a la
vez basndose en su importancia estadstica en el modelo actual. En cada paso, el
algoritmo elimina del modelo la variable que es estadsticamente de menor
importancia. La eliminacin de las variables se basa en una evaluacin F para Quitar.
Si la variable menos significativa tiene un valor F menor que el especificado en el
cuadro de dilogo Resumen del anlisis, ser eliminada del modelo. Cundo todas las
variables restantes tienen valores F grandes, el procedimiento se detiene. Adems, las
variables eliminadas del modelo con anterioridad mediante el procedimiento, pueden
ser reingresadas ms tarde si sus valores F alcanzan el criterio F para Agregar.
CME = 8.19696
Paso 1:
Eliminando variable Drive Train="front" con F para eliminar =0.732595
4 variable(s) en el modelo. 88 g.l. para el error.
R-cuadrado = 72.50% R-cuadrado ajustado = 71.25% CME = 8.17206
Paso 2:
Eliminando variable Horsepower con F para eliminar =2.22011
3 variable(s) en el modelo. 89 g.l. para el error.
R-cuadrado = 71.81% R-cuadrado ajustado = 70.86% CME = 8.28409
Modelo Final seleccionado.
Regresin Multiple - 6
Parmetro
CONSTANTE
Weight
Weight^2
Wheelbase
Estimacin
51.8628
-0.0245435
0.00000236841
0.28345
Anlisis de Varianza
Fuente
Suma de Cuadrados
Modelo
1878.03
Residuo
737.284
Total (Corr.)
2615.31
Error
Estndar
10.2179
0.00506191
8.25606E-7
0.0899993
Gl
3
89
92
Estadstico
T
5.07569
-4.84867
2.86869
3.14947
Cuadrado Medio
626.009
8.28409
Valor-P
0.0000
0.0000
0.0051
0.0022
Razn-F
75.57
Valor-P
0.0000
Regresin Multiple - 7
(5)
Donde los datos se eleven a la potencia 1 despus de correrse una cierta cantidad 2.
Frecuentemente, el parmetro de corrimiento 2 se establece como 0. Esta clase incluye races
cuadradas, logaritmos, recprocos y otras transformaciones comunes, dependiendo de la potencia.
Ejemplos:
Regresin Multiple - 8
1 = -1
Transformacin
Y=Y
Y = Y
Y= Y
Y = 3 Y
Y = ln(Y )
1
Y
Y=
Y=
Descripcin
Cuadrado
Dato sin transformar
Raz cuadrada
Raz cbica
Logaritmo
Inverso de raz cuadrada
Recproco
1
Y
Grfico de Residuos
Rediduo Estudentizado
4.3
2.3
0.3
-1.7
-3.7
20
25
30
35
40
predicho MPG Highway
45
50
Los coches ms pequeos tienden a ser un poco ms variables que los coches mayores. Cuando
se le pide al programa optimizar la transformacin de Box- Cox obtenemos lo siguiente:
Regresin Multiple - 9
Anlisis de Varianza
Fuente
Suma de Cuadrados
Modelo
1568.28
Residuo
620.444
Total (Corr.)
2188.73
Gl
3
89
92
Cuadrado Medio
522.761
6.97128
Razn-F
74.99
Valor-P
0.0000
Aparentemente, un inverso de la raz cuadrada de MPG Carretera mejora las propiedades de los
residuos, como se ilustra en la nueva grfica de residuos:
Regresin Multiple - 10
Rediduo Estudentizado
4.4
2.4
0.4
-1.6
-3.6
20
25
30
35
40
predicho MPG Highway
45
50
Nota: se necesita tener cuidado aqu, debido a que la trasformacin puede verse influenciada
fuertemente por una o dos apariciones. Para simplificar la siguiente discusin, el resto de este
documento tratar con el modelo no transformado.
efecto de componente
12
8
4
0
-4
-8
-12
90
95
100
105
Wheelbase
110
115
120
j (x j x j )
(6)
Regresin Multiple - 11
Regresin Multiple - 12
Panel de Opciones
Razn-F
207.47
9.31
9.92
Valor-P
0.0000
0.0030
0.0022
Regresin Multiple - 13
Regresin Multiple - 14
observado
45
40
35
30
25
20
20
25
30
35
predicho
40
45
50
Si el modelo se ajusta bien, los puntos se deben dispersar aleatoriamente alrededor de la lnea
diagonal. Cualquier cambio en la variabilidad de los valores bajos de Y o de los valores altos de
Y podra indicar la necesidad de transformar la variable dependiente antes de ajustar un modelo a
los datos. En la grfica anterior, la variabilidad incrementa al momento que los valores predichos
se hacen mayores.
Grfica de residuos
Al igual que con todos los modelos estadsticos, es una buena prctica el examinar los residuos.
En una regresin, los residuos son definidos por:
ei = y i y i
(7)
Por ejemplo, los residuos son las diferencias entre los valores de los datos observados y el
modelo ajustado.
El procedimiento Regresin mltiple crea 3 grficas de residuos:
1. contra X.
2. contra el valor predicho Y .
3. contra un nmero de la lista.
Regresin Multiple - 15
Rediduo Estudentizado
4.3
2.3
0.3
-1.7
-3.7
1600
2100
2600
3100
Weight
3600
4100
4600
Rediduo Estudentizado
4.3
2.3
0.3
-1.7
-3.7
20
25
30
35
40
predicho MPG Highway
45
50
La heteroscedasticidad ocurre cuando la variabilidad de los datos cambia segn cambia la media
y puede hacerse necesario transformar los datos antes de ajustar el modelo de regresin.
Regularmente queda en evidencia mediante un patrn de forma embudo en la grfica de
residuos. En la grfica anterior, se puede apreciar que la variabilidad incrementa en millas por
galn cuando los valores predichos son altos, lo que corresponde a coches pequeos. Para los
coches ms pequeos, las millas por galn parecen variar ms que por los coches mayores.
Regresin Multiple - 16
Rediduo Estudentizado
4.3
2.3
0.3
-1.7
-3.7
0
20
40
60
nmero de fila
80
100
Si los datos son arreglados en orden cronolgico, cualquier patrn en los datos puede indicar una
influencia externa. En la grfica anterior, no hay presente una tendencia obvia, an cuando hay
un residuo estandarizado superior a 3.5, indicando que las desviaciones estndar de la curva
ajustada son mayores a 3.5.
Panel de Opciones
Graficar: Los siguientes residuos pueden ser graficados en cada grfica de residuos:
Regresin Multiple - 17
Residuos Atpicos
Una vez que el modelo ha sido ajustado, es til estudiar los residuos para determinar si existe
algn brote que pudiera ser eliminado de los datos. El panel de Residuos Atpicos enlista todas
las observaciones que tienen residuos Studentizados de 2.0 o mayores en valor absoluto.
Residuos Atpicos
Y
Residuo
Fila Y
Predicha Residuo
Estudentizado
31
33.0 40.1526
-7.15265
-2.81
36
20.0
26.9631
-6.96309
-2.62absoluto es mayor que 3 corresponden a puntos
Los residuos estudentizados cuyo valor
39
50.0 43.4269
6.5731
localizados
a ms de 39.53958
desviaciones 2.72
estndar del modelo ajustado, lo que es un evento muy raro
42
46.0 36.4604
3.66
para
una
distribucin
normal.
En
los
datos de muestra, la fila #42 est a ms de 3.5 desviaciones
60
26.0 32.8753
-6.8753
-2.50
73
41.0La fila
35.3266
2.04 que fue enlistado en el conjunto de datos como si
estndar.
#42 es5.67338
un Honda Civic,
alcanzara 46 millas por galn, mientras que el modelo predice menos de 37.
Los puntos pueden ser eliminados del ajuste, mientras se examina cualquiera de las grficas de
residuos, pinchando sobre un punto y despus presionando el botn Excluir/Incluir en la barra de
herramientas de anlisis.
Puntos Influyentes
Al ajustar un modelo de regresin, no todas las observaciones tienen la misma influencia en el
parmetro estimado en el modelo ajustado. Aquellas con valores inusuales de las variables
independientes tienden a tener ms influencia que las otras. El panel Puntos Influyentes despliega
cualquier otra observacin que tenga una alta influencia en el modelo ajustado:
Puntos Influyentes
Distancia de
media de un Mahalanobis
solo punto = 0.0430108
FilaInfluencia
Influencia
DFITS
19
0.134534
13.1566
0.267983
28
0.237072
27.2882
0.835252
Se ponen puntos en esta lista por una
de las siguientes razones:
31
0.154695
15.6643
-1.20009
36
0.0936668
8.41545
-0.843505
0.244866 mide28.5193
1.54944
39 Influencia
qu tanto dista
una observacin de la media de las n observaciones en el
42 espacio
0.0667751
5.5222
0.979671
de variables independientes. A mayor influencia, mayor el impacto del punto sobre
60
0.0298137
1.80729
-0.437436
y .
valores ajustados
puntos en la lista si su influencia es al menos tres veces
83 los 0.10049
9.17701 Se ponen
0.475259
Regresin Multiple - 18
En los datos muestra, las filas #28 y #39 muestran un valor de influencia cerca de 6 veces el de
un punto promedio. Las filas #31 y #39 tienen los mayores valores de DFITS. No se recomienda
remover puntos altamente influyentes en una rutina bsica. Sin embargo, es importante estar
conciente de su impacto en el modelo estimado.
Intervalos de Confianza
El panel Intervalos de Confianza muestra error de estimacin potencial asociado a cada
coeficiente del modelo.
Intervalos de confianza del 95.0% para las estimaciones de los coeficientes
Error
Parmetro
Estimacin
Estndar
Lmite Inferior
Lmite Superior
CONSTANTE
51.8628
10.2179
31.5601
72.1656
Weight
-0.0245435
0.00506191
-0.0346015
-0.0144856
Panel de Opciones
Weight^2
0.00000236841
8.25606E-7
7.27941E-7
0.00000400887
Wheelbase
0.28345
0.0899993
0.104623
0.462277
Matriz de Correlacin
La Matriz de Correlacin despliega estimadores de la correlacin entre los coeficientes
estimados.
Matriz de Correlacin para las estimaciones de los coeficientes
CONSTANTE
Weight Weight^2
CONSTANTE
1.0000
-0.6355 0.7510
Weight
-0.6355
1.0000
-0.9787
Weight^2
0.7510
-0.9787 1.0000
Wheelbase
-0.6832
-0.1232 -0.0566
Wheelbase
-0.6832
-0.1232
-0.0566
1.0000
Esta tabla puede ser de ayuda al determinar que tan bien se han separado los efectos de variables
independientes distintas. Note la alta correlacin entre los coeficientes de Weight y Weight2. Esto
es normal cada vez que se ajuste un polinomio no centrado y simplemente significa que los
coeficientes pudieron cambiar dramticamente si se hubiese seleccionado un polinomio de orden
Regresin Multiple - 19
Informes
El panel Informes crea predicciones usando el modelo ajustado de mnimos cuadrados. Por
defecto, la tabla incluye una lnea para cada fila de la hoja de datos que contiene informacin
completa de las X variables y un valor faltante para la Y variable. Esto le permite aadir filas en
la parte baja de la hoja de datos correspondientes a niveles a los que quiere las predicciones sin
afectar el modelo ajustado.
Por ejemplo, suponga que se desea una prediccin para un carro con un Peso de 3500 y una
Wheelbase de 105. En la fila #94 de la hoja de datos, esos valores seran aadidos pero la
columna MPG Carretera se dejara en blanco. La tabla resultante se muestra a continuacin:
Resultados de la Regresin para MPG Highway
Ajustado Error Est.
Inferior 95.0%
Fila
LC para Pronstico LC para Pronstico
94
24.7357
2.91778
18.9381
Superior 95.0%
LC para Pronstico
30.5333
Inferior 95.0%
Superior 95.0%
LC para la Media LC para la Media
23.7842
25.6872
Se incluyen en la tabla:
Error estndar para Pronstico el error estndar estimado de predecir una nueva
observacin.
Para la fila #94, las miles per gallon predichas son 24.7. Puede esperarse que modelos con esas
caractersticas alcancen entre 18.9 y 30.5 millas por galn manejando en carretera.
Usando el Panel de Opciones, se puede incluir informacin adicional acerca de los valores
predichos y de los residuales de los datos usados para ajustar el modelo.
Panel de Opciones
Regresin Multiple - 20
Grficas de Intervalos
El panel Grficas de Intervalos crea varios tipos interesantes de grficas. La grafica siguiente
muestra cmo las miles per gallon de un automvil pueden predecirse precisamente.
Grfico de MPG Highway con Valores Predichos
50
MPG Highway
45
40
35
30
25
20
20
25
30
35
valor predicho
40
45
50
Regresin Multiple - 21
Panel de Opciones
Graficar Lmites para: tipo de lmites a incluirse. Valores Predichos grafica lmites de
prediccin en el escenario de las variables independientes correspondientes a cada una de las
n observaciones usadas para ajustar el modelo. Medias grafica lmites de confianza para el
valor medio de Y correspondiente a cada una de las n observaciones. Pronsticos grafica
lmites de prediccin para filas de la hoja de datos que tengan valores para Y faltantes.
Medias Predichas grafica lmites de confianza para el valor medio de Y correspondiente a
cada fila de la hoja de datos que tengan valores para Y faltantes.
Datos Autocorrelacionados
Cuando se usan modelos de regresin para ajustar datos registrados a lo largo del tiempo, las
desviaciones del modelo ajustado son frecuentemente dependientes. Esto puede llevar a
estimaciones ineficientes de los coeficientes del modelo de regresin y P-valores que exageren la
significancia estadstica del modelo ajustado.
Como ilustracin, considere los datos siguientes de Neter et al. (1996), contenidos en el archivo
company.sf3:
Quatre
(Ao y trimestre)
company sales
(Ventas de la Compaa,
$ millones)
industry sales
(Ventas de la Industria,
$ millones)
Regresin Multiple - 22
1983: Q1
1983: Q2
1983: Q3
1983: Q4
1984: Q1
1984: Q2
1984: Q3
1984: Q4
1985: Q1
1985: Q2
1985: Q3
1985: Q4
1986: Q1
1986: Q2
1986: Q3
1986: Q4
1987: Q1
1987: Q2
1987: Q3
1987: Q4
20.96
21.40
21.96
21.52
22.39
22.76
23.48
23.66
24.10
24.01
24.54
24.30
25.00
25.64
26.36
26.98
27.52
27.78
28.24
28.78
Hacer regresin de las ventas de las compaa contra las de la industria resulta en un muy buen
ajuste lineal, con una R-Cuadrada muy alta:
Regresin Multiple - 23
Parmetro
CONSTANTE
industry sales
Estimacin
-1.45475
0.176283
Error
Estndar
0.214146
0.00144474
Anlisis de Varianza
Fuente
Suma de Cuadrados
Modelo
110.257
Residuo
0.133302
Total (Corr.)
110.39
Gl
1
18
19
Estadstico
T
-6.79326
122.017
Cuadrada Media
110.257
0.00740568
Valor-P
0.0000
0.0000
Razn-F
14888.14
Valor-P
0.0000
Regresin Multiple - 24
Grfico de Residuos
Rediduo Estudentizado
2.7
1.7
0.7
-0.3
-1.3
-2.3
0
8
12
nmero de fila
16
20
y t = 0 + 1 xt + t
(8)
t = t 1 + u t
(9)
donde || < 1 y ut son muestras independientes de una distribucin normal con media 0 y
desviacin estndar . En tal caso, transformar tanto la variable dependiente como la
independiente de acuerdo a
y t = y t y t 1
(10)
xt = xt xt 1
(11)
lleva al modelo
y t = 0 (1 ) + 1 xt + u t
(12)
Regresin Multiple - 25
Regresin Multiple - 26
Estimacin
0.832561
0.163206
Error
Estndar
1.11118
0.0062571
Anlisis de Varianza
Fuente
Suma de Cuadrados
Modelo
2.89395
Residuo
0.0723123
Total (Corr.)
2.96627
Gl
1
17
18
Estadstico
T
0.749258
26.0834
Valor-P
0.4639
0.0000
Cuadrada Media
2.89395
0.00425367
Razn-F
680.34
Valor-P
0.0000
Guardar Resultados
Los siguientes resultados pueden salvarse en la hoja de datos:
Regresin Multiple - 27
Y = 0 + 1 X 1 + 2 X 2 + ... + k X k
(13)
No ponderada: SSE =
i =1
y i 0 1 xi 2 x 2 ... k x k
(14)
(15)
Coeficientes Estimados
= ( X WX )1 ( X WY )
{}
1
s 2 = MSE ( X WX )
MSE =
SSE
n p
(16)
(17)
(18)
donde es un vector columna que contiene los coeficientes estimados de regresin, X es una
matriz (n, p) que contiene un 1 en la primera columna (si el modelo contiene un trmino
constante) y las configuraciones de las k variables predictoras en las otras columnas, Y es un
2006 por StatPoint, Inc.
Regresin Multiple - 28
Regresin Multiple - 29
Suma de Cuadrados
Modelo
Df
wi y i
SSR = bX WY i =1 n
wi
n-k-1
MSE =
i =1
Residual
SSE = Y WY b X WY
n
SSTO = wi ( y i y )
Total
(corr.)
SSE
n k 1
n-1
i =1
Suma de Cuadrados
Df
Modelo
SSR = b X WY
Residual
SSE = Y WY b X WY
n-k
Total
SSTO = Y WY
Media
Cuadrtica
SSR
MSR =
k
SSE
MSE =
nk
F-Radio
F=
MSR
MSE
R-Cuadrada
SSR
R 2 = 100
%
SSR + SSE
(19)
R-Cuadrada Ajustada
n 1
SSE
2
Radj
= 100 1
%
n p SSR + SSE
(20)
Regresin Multiple - 30
= MSE
(21)
Residuales
ei = y i o 1 x1 ... k x k
(22)
MAE =
i =1
n
ei
(23)
wi
i =1
Estadstico de Durbin-Watson
n
D=
(e
i=2
ei 1 )
ei2
(24)
i =1
D* =
4/n
(25)
se compara con una distribucin normal estndar. Para 100 < n 500, D/4 se compara con
distribucin beta con parmetros
= =
n 1
2
(26)
Para muestras ms pequeas, D/4 se compara con distribucin beta con parmetros que se basan
en la traza de ciertas matrices relacionadas con las matriz X, como lo describen Durbin y Watson
(1951) en la seccin 4 de su clsico paper.
Autocorrelacin Residual Lag 1
n
r1 =
e e
i =2
n
i i 1
ei2
(27)
i =1
Regresin Multiple - 31
hi = diag X i( X WX ) X i wi
h=
(28)
p
n
(29)
Residuales Studentizados
di =
ei wi
(30)
MSEi (1 hi )
Distancia Mahalanobis
n
hi wi / wi
i =1
MDi =
1 hi
n(n 2)
n 1
(31)
DFITS
DFITS i =
di
wi
hi
1 hi
(32)
(33)
(34)
1
Yh t / 2,n p MSE X h ( X WX ) X h
(35)
Regresin Multiple - 32