Cap 09. Regresion Multiple.

9.
REGRESION Y CORRELACION MULTIPLE
9.1. Regresión lineal múltiple

La regresión múltiple consiste en usar más de una variable independiente para
estimar la variable dependiente.
La superficie que mejor se ajusta a un conjunto de datos (X1, X2,...,Xk, Y), es

aquella que minimiza la suma de las distancias al cuadrado de los puntos a la
superficie, medidas en dirección vertical o hacia Y. A esta superficie se le conoce
como la superficie de regresión y a su ecuación se denomina "ecuación de
regresión".
Una buena variable de pronóstico esta relacionada con la variable dependiente.

Una buena variable de pronóstico no está altamente relacionada con ninguna otra
variable independiente (multicolinealidad).
La regresión múltiple se basa en las mismas suposiciones y procedimientos que se

usan en la regresión simple.
El modelo de regresión lineal múltiple es
Yi = 0 + 1Xi1 + 2Xi2 + ... + kXik + i i =1,2,...,n
En términos matriciales es
Y = X + 
 Y1  1 X 11 X 12  X 1k   0   1 
       
Y  1 X 21 X 22  X 2k   
Y  2 X     1     2 
        
       
 Yn   1 X n1 X n2  X nk   k   n 
donde :
 Y es un vector de variables aleatorias observables de (n  1)

  es el vector (k + 1)  1 de los coeficientes de regresión poblacionales.
 X es la matriz de datos de dimensión n (k + 1) de las variables independientes.
  es un vector de (n  1) de errores aleatorios.
9.2. Método de mínimos cuadrados
1
Para realizar el proceso de estimación del vector de parámetros  se obtiene una
muestra aleatoria de datos , (X11, X12,...., X1k, Y1), (X21, X22,...., X2k, Y2),...., (Xn1,
Xn2,...., Xnk, Yn).
El proceso de estimación es similar al mencionado en la regresión lineal simple, la

diferencia es que ahora se tienen k variables independientes.
Es decir:
Y = X + 
 = Y – X
Se desea encontrar el vector de estimadores de mínimos cuadrados ˆ que
minimiza:
n
Q (  )    i2   '   (Y  X )' (Y  X )
i 1
Derivando Q() con respecto a  e igualando a cero, se obtiene:

X´X ˆ = XÝ
Seguidamente se resuelven las ecuaciones y se obtiene el estimador mínimo

cuadrático de :
ˆ = (X´X )-1 XÝ
Por lo tanto, la ecuación de regresión estimada o ajustada esta dada por :

Yˆ  X̂
Los estimadores de los parámetros 0, 1,..., k son denotados por ˆ0 , ˆ1 ,..., ˆk
, respectivamente. También se usan b0, b1, ..., bk.
Notar que cada observación satisface la relación:

Y  X̂  e
donde e es un vector n  1 con elementos definidos por ei  Yi  Yî que reciben el

nombre de residuales. El residual describe el error en el ajuste del modelo en la
i-ésima observación Yi. La suma de estos valores ei es una cantidad mínima y su
raíz cuadrada es denominada el error estándar de estimación se.
9.3. Error estándar de estimación

El error estándar de estimación se define por:
2
n
 (Yi  Yî ) 2
se  i 1
n  k 1
Obsérvese que se2 es la suma de los cuadrados de las desviaciones verticales

(residuales) de los puntos a la superficie de regresión.
Una fórmula equivalente para se es
Y ' Y  ˆ ' X ' Y

se 
n  k 1
Notar que se tiene las mismas unidades que los datos originales. El valor de se es
también conocido como la raíz del cuadrado medio del error (rcme) de la
regresión.
Recordar que el residual es la distancia por encima (+) o por debajo (-) de la
superficie de regresión.
9.4. Prueba de hipótesis de i

î   i , 0
Para la H0: i = i,0 se utiliza t0 
se2C jj
donde Cjj es el j-ésimo elemento de la diagonal de la matriz (X´X)-1 que

corresponde a ̂i y t0 tiene distribución t con nk1 grados de libertad si la H0 es
cierta.
La región de rechazo es |t0| > t1-/2, n-k-1.

Por ejemplo si i = 3, entonces se debe considerar el elemento C33 de la matriz (X
´X)-1
El procedimiento para probar una hipótesis con respecto a  j es parecido al
seguido en el análisis de regresión y correlación simple. Se prueba el valor
hipotético de un coeficiente  j calculando el estadístico t0 y usando n k 1 gl.
î   i ,0
La fórmula general es: t0 
se ( î )
3
A menudo, estaremos interesados en preguntar ¿en realidad Y depende de Xj?
Usualmente esta pregunta se plantea así: ¿Es Xi una variable explicativa de Y?
Y depende de Xi si  i  0; y no depende de Xj si  i = 0.
Nuestra pregunta conduce a establecer hipótesis de la forma:
H0 :  i = 0  Xi no es una variable explicativa significativa
H1 :  i  0  Xi es una variable explicativa significativa
Entonces, cuando la hipótesis nula dice que  i es 0 (  i = 0), se simplifica la
fórmula anterior y se convierte en:
î
t0 
se ( î )
Podemos usar la columna P (P-value) en el recuadro de los coeficientes de la

salida de Minitab para probar si Xi es una variable explicativa significativa:
 Si P <  : Xi si es una variable explicativa significativa
 Si P >  : Xi no es una variable explicativa significativa
9.5. Intervalos de confianza para i

La siguiente fórmula se utiliza para calcular el intervalo de confianza:
î  t1 2,n  k 1 se C jj   i  î  t1 2,n  k 1 se C jj
donde Cjj es el j-ésimo elemento de la diagonal de la matriz (X´X)-1 que

corresponde a ̂i . Por ejemplo si i = 2, entonces se debe considerar el elemento
C22 de la matriz (X´X)-1
Una fórmula equivalente para el intervalo de confianza es:
î  t1 2 , n  k 1 se ( î )   i  î  t1 2 , n  k 1 se ( î )
9.6. Análisis de varianza de la regresión lineal múltiple

Para determinar si el modelo lineal describe adecuadamente los datos, es decir,
si la regresión como un todo es significativa, se usa la prueba del estadístico F0.
Las hipótesis son:

4
H0 : 1 = 2 = 3 = ...=k = 0  Y no depende de las Xi
H1 : Al menos una i  0  Y depende al menos de una Xi
En el caso de la regresión lineal múltiple, se tiene lo siguiente:

2
 n 
n   Yi 
 (Yi  Y ) 2 = ˆ ' X ' Y   i 1  + (Y ' Y  ˆ ' X ' Y )
i 1 n
SCTotal = SCRegresión + SCError

Variación explicada Variación no explicada
Variación total de Y = +
por la regresión o error
n  1 gl = k gl + n  k  1 gl
La prueba estadística para probar la hipótesis nula es:
SCRegresión k CM Regresión CM Regresión

F0   
SC Error (n  k  1) s 2
e CM Error
F0 tiene distribución F1, k, nk1 si la H0 es verdadera.
La regla de decisión es rechazar la H0 si F0 > F1, k, nk1.
En caso contrario no se rechaza la H0.
En caso de rechazarse la Ho, se concluye que la regresión es significativa y que las

variables escogidas como independientes son apropiadas para explicar la variable
dependiente.
La información de las suma de cuadrados, de los grados de libertad y de otras

cantidades mencionadas se presenta en un cuadro denominado la tabla del análisis
de variancia de la regresión lineal múltiple.
TABLA DEL ANOVA DE LA REGRESIÓN LINEAL SIMPLE

Fuente de Grados de Suma de Cuadrado F0
Variabilidad libertad cuadrados medio
2
 nY
Regresión k  i  SC Regresión CM Regresión
 ' X ' Y   i 1 
ˆ k CM Error
n
5
Error nk2 (Y ' Y  ˆ ' X ' Y ) se2
n
Total n1  (Yi  Y ) 2
i 1
La prueba del ANOVA se conoce como la prueba global del modelo de regresión
y las pruebas de cada i son conocidas como pruebas individuales.
9.7. Intervalo de confianza para un valor medio Y/X

Un intervalo de confianza del 100(1)% para un valor medio µY/X para la
respuesta promedio en el punto X01, X02,..., X0k es:
Yˆh  t1 / 2,nk 1 se X h' ( X ´ X ) 1 X h
Yˆh  t1 / 2 ,n k 1 se (Yˆh )
9.8. Intervalo de confianza para un valor individual

Un intervalo de confianza del 100(1)% para el punto X01, X02,..., X0k es:
Yˆh  t1 / 2 ,n k 1 se 1  X h' ( X ´ X ) 1 X h
9.9. Análisis de correlación múltiple

El análisis de correlación es una técnica estadística que consiste en medir la
asociación lineal entre una variable dependiente y dos o más variables
independientes.
El coeficiente de correlación lineal poblacional es denotado por . Mientras que su

estimador correspondiente, denominado coeficiente de correlación muestral, es
denotado por R .
6
El valor del coeficiente de correlación (poblacional o muestral) puede variar de 0 a
+1. Su signo se considera siempre positivo
La fórmula para calcular el valor de R es:

SC Regresión
R
SCTotal
9.10. Coeficiente de determinación R2

El coeficiente de determinación R2 se define como:
SC Regresión
R2 
SCTotal
Es decir, R2 es la proporción de la variación total de Y que es explicada por la

ecuación de regresión múltiple.
R2 mide o juzga la idoneidad del modelo de regresión X.
Es decir, R2 es la proporción de la variación total de la variable dependiente que es

explicada por el modelo de regresión X (o por las variables independientes Xi).
COEFICIENTE DE DETERMINACIÓN AJUSTADO Ra2 : Como se ve en la última

formula, el cálculo del coeficiente muestral de determinación múltiple no
requiere ajuste por los grados de libertad. Como resultado, hay una tendencia a
que R2 se “demasiado grande”, o a sobrestimar el coeficiente real o poblacional.
Este sesgo se elimina si en lugar de ello se calcula el coeficiente muestral de
determinación múltiple ajustado:
 SC ( n  k  1) 
Ra2  1   Error 
 SCTotal (n  1) 
9.11. Problemas especiales de la correlación lineal múltiple

Los siguientes problemas se presentan en la regresión lineal múltiple:
 Multicolinealidad.
 Heterocedasticidad.
 Regresión no lineal.
 Estimadores sesgados.
7
Ejemplo 1.-
Mantenimiento Jardín Habitaciones Antigüedad Miembros

(US) (m2) (N°) (años) (N°)
250 35 3 10 6
360 29 4 1 10
165 36 7 9 3
43 60 6 8 9
92 65 5 8 6
200 30 5 9 5
355 10 6 14 7
290 7 10 9 10
230 21 9 11 11
120 55 2 9 5
73 54 12 11 4
205 48 5 10 1
400 20 5 12 15
320 39 4 10 7
72 60 8 8 6
272 20 5 10 8
94 58 7 10 3
190 40 8 11 11
235 27 9 14 8
139 30 7 9 5
La matriz de datos X es:

1 35 3 10 6
1 29 4 1 10
1 36 7 9 3
1 60 6 8 9
1 65 5 8 6
1 30 5 9 5
1 10 6 14 7
1 7 10 9 10
8
1 21 9 11 11
1 55 2 9 5
1 54 12 11 4
1 48 5 10 1
1 20 5 12 15
1 39 4 10 7
1 60 8 8 6
1 20 5 10 8
1 58 7 10 3
1 40 8 11 11
1 27 9 14 8
1 30 7 9 5
La matriz X’ es:
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
35 29 36 60 65 30 10 7 21 55 54 48 20 39 60 20 58 40 27 30
3 4 7 6 5 5 6 10 9 2 12 5 5 4 8 5 7 8 9 7
10 1 9 8 8 9 14 9 11 9 11 10 12 10 8 10 10 11 14 9
6 10 3 9 6 5 7 10 11 5 4 1 15 7 6 8 3 11 8 5
La matriz X’X es:

20 744 127 193 140
744 33436 4640 6954 4671
127 4640 923 1264 899
193 6954 1264 1997 1356
140 4671 899 1356 1192
La matriz inversa (X’X)-1 es:

2.258587197585 -0.01721182351 -0.0313496955733 -0.0889066217 -0.073041128116
-0.01721182351 0.0002462042423 -3.416027695E-06 0.0003909485 0.0006145806411
-0.03134969557 -3.4160277E-06 0.00950435875448 -0.0027071545 -0.000393123689
-0,08890662169 0.0003909484959 -0.002707154452 0.00882749289 0.0009097802942
-0.07304112812 0.0006145806411 -0.0003931236894 0.00090978029 0.0062708119796
El vector X’Y es:

4105
124289
24786
40135
32341
El vector de estimados de  es :
9
424.73617304316
-4.5718555384585
-14.905697976563
0.2440169570653
6.1261807750031
El reporte de MINITAB es el siguiente:

Correlations: Y, X1, X2, X3, X4
Y X1 X2 X3
X1 -0.812
X2 -0.257 -0.103
X3 0.097 -0.256 0.307
X4 0.537 -0.486 0.064 0.030
Cell Contents: Pearson correlation
Regression Analysis: Y versus X1, X2, X3, X4

The regression equation is
Y = 425 - 4.57 X1 - 14.9 X2 + 0.24 X3 + 6.13 X4
Predictor Coef SE Coef T P
Constant 424.74 79.23 5.36 0.000
X1 -4.5719 0.8272 -5.53 0.000
X2 -14.906 5.140 -2.90 0.011
X3 0.244 4.953 0.05 0.961
X4 6.126 4.175 1.47 0.163
S = 52.72 R-Sq = 80.4% R-Sq(adj) = 75.2%
Analysis of Variance
Source DF SS MS F P
Regression 4 171227 42807 15.40 0.000
Residual Error 15 41689 2779
Total 19 212916
Source DF Seq SS
X1 1 140215
X2 1 24980
X3 1 48
X4 1 5985
Unusual Observations
Obs X1 Y Fit SE Fit Residual St Resid
2 29.0 360.0 294.0 44.4 66.0 2.32R
R denotes an observation with a large standardized residual
Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI
1 259.2 21.8 ( 212.8, 305.6) ( 137.6, 380.8)
2 294.0 44.4 ( 199.4, 388.7) ( 147.1, 440.9)
3 176.4 22.0 ( 129.5, 223.3) ( 54.6, 298.1)
10
4 118.1 26.2 ( 62.3, 173.9) ( -7.4, 243.5)
5 91.7 24.0 ( 40.5, 143.0) ( -31.8, 215.2)
6 245.9 18.7 ( 206.0, 285.7) ( 126.7, 365.1)
7 335.9 29.6 ( 272.7, 399.1) ( 207.0, 464.8)
8 307.1 31.9 ( 239.1, 375.2) ( 175.8, 438.5)
9 264.6 22.6 ( 216.5, 312.8) ( 142.4, 386.9)
10 176.3 27.1 ( 118.5, 234.1) ( 49.9, 302.7)
11 26.2 34.0 ( -46.2, 98.6) (-107.5, 159.9)
12 139.3 25.8 ( 84.4, 194.2) ( 14.3, 264.4)
13 353.6 35.3 ( 278.3, 428.9) ( 218.3, 488.9)
14 232.1 17.4 ( 195.0, 269.3) ( 113.8, 350.5)
15 69.9 23.3 ( 20.2, 119.6) ( -53.0, 192.7)
16 310.2 18.7 ( 270.4, 350.1) ( 191.0, 429.4)
17 76.0 21.3 ( 30.6, 121.5) ( -45.2, 197.3)
18 192.7 23.8 ( 142.0, 243.4) ( 69.4, 316.0)
19 219.6 24.3 ( 167.8, 271.3) ( 95.9, 343.3)
20 216.1 18.5 ( 176.7, 255.4) ( 97.0, 335.1)
Values of Predictors for New Observations

New Obs X1 X2 X3 X4
1 35.0 3.0 10.0 6.0
2 29.0 4.0 1.0 10.0
3 36.0 7.0 9.0 3.0
4 60.0 6.0 8.0 9.0
5 65.0 5.0 8.0 6.0
6 30.0 5.0 9.0 5.0
7 10.0 6.0 14.0 7.0
8 7.0 10.0 9.0 10.0
9 21.0 9.0 11.0 11.0
10 55.0 2.0 9.0 5.0
11 54.0 12.0 11.0 4.0
12 48.0 5.0 10.0 1.0
13 20.0 5.0 12.0 15.0
14 39.0 4.0 10.0 7.0
15 60.0 8.0 8.0 6.0
16 20.0 5.0 10.0 8.0
17 58.0 7.0 10.0 3.0
18 40.0 8.0 11.0 11.0
19 27.0 9.0 14.0 8.0
20 30.0 7.0 9.0 5.0
Ejemplo 2.-
Y = Ingreso anual (miles $)

X1 = Escolaridad (años)
X2 = Experiencia laboral (años)
X3 = Edad (años)
X4 = Sexo (0 = Femenino, 1 = masculino)
11
Y X1 X2 X3 X4
12
5.0 2 9 29 0
9.7 4 18 50 0
28.4 8 21 41 1
8.8 8 12 55 0
21.0 8 14 34 1
26.6 10 16 36 0
25.4 12 16 61 1
23.1 12 9 29 0
22.5 12 18 64 1
19.5 12 5 30 0
21.7 12 7 28 0
24.8 13 9 29 0
30.1 14 12 35 1
24.8 14 17 59 0
28.5 15 19 65 0
26.0 15 6 30 0
38.9 16 17 40 1
22.1 16 1 23 0
33.1 19 10 58 1
48.3 21 17 44 1
El reporte de MINITAB es el siguiente:
Correlations: Y, X1, X2, X3, X4
Y X1 X2 X3
X1 0.841
X2 0.268 -0.115
X3 0.105 0.122 0.676
X4 0.560 0.290 0.456 0.309
Cell Contents: Pearson correlation
Regression Analysis: Y versus X1, X2, X3, X4
The regression equation is

Y = - 0.72 + 1.97 X1 + 1.13 X2 - 0.338 X3 + 2.97 X4
Predictor Coef SE Coef T P

Constant -0.718 1.413 -0.51 0.619
X1 1.96651 0.08170 24.07 0.000
X2 1.12638 0.09570 11.77 0.000
X3 -0.33801 0.03372 -10.02 0.000
X4 2.9707 0.8058 3.69 0.002
13
S = 1.438 R-Sq = 98.3% R-Sq(adj) = 97.8%
Analysis of Variance
Source DF SS MS F P
Regression 4 1789.41 447.35 216.37 0.000
Residual Error 15 31.01 2.07
Total 19 1820.43
Source DF Seq SS
X1 1 1287.32
X2 1 244.77
X3 1 229.22
X4 1 28.10
14

Cap 09. Regresion Multiple.

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cap 09. Regresion Multiple.

Cargado por

Copyright:

Formatos disponibles

9.

REGRESION Y CORRELACION MULTIPLE

9.1. Regresión lineal múltiple

La superficie que mejor se ajusta a un conjunto de datos (X1, X2,...,Xk, Y), es

Una buena variable de pronóstico esta relacionada con la variable dependiente.

La regresión múltiple se basa en las mismas suposiciones y procedimientos que se

El modelo de regresión lineal múltiple es

Yi = 0 + 1Xi1 + 2Xi2 + ... + kXik + i i =1,2,...,n

 Y es un vector de variables aleatorias observables de (n  1)

El proceso de estimación es similar al mencionado en la regresión lineal simple, la

Derivando Q() con respecto a  e igualando a cero, se obtiene:

Seguidamente se resuelven las ecuaciones y se obtiene el estimador mínimo

Por lo tanto, la ecuación de regresión estimada o ajustada esta dada por :

Notar que cada observación satisface la relación:

donde e es un vector n  1 con elementos definidos por ei  Yi  Yˆi que reciben el

9.3. Error estándar de estimación

Obsérvese que se2 es la suma de los cuadrados de las desviaciones verticales

Una fórmula equivalente para se es

Y ' Y  ˆ ' X ' Y

9.4. Prueba de hipótesis de i

donde Cjj es el j-ésimo elemento de la diagonal de la matriz (X´X)-1 que

La región de rechazo es |t0| > t1-/2, n-k-1.

Podemos usar la columna P (P-value) en el recuadro de los coeficientes de la

9.5. Intervalos de confianza para i

ˆi  t1 2,n  k 1 se C jj   i  ˆi  t1 2,n  k 1 se C jj

donde Cjj es el j-ésimo elemento de la diagonal de la matriz (X´X)-1 que

Una fórmula equivalente para el intervalo de confianza es:

î  t1 2 , n  k 1 se ( î )   i  î  t1 2 , n  k 1 se ( î )

9.6. Análisis de varianza de la regresión lineal múltiple

Las hipótesis son:

En el caso de la regresión lineal múltiple, se tiene lo siguiente:

SCTotal = SCRegresión + SCError

La prueba estadística para probar la hipótesis nula es:

SCRegresión k CM Regresión CM Regresión

La regla de decisión es rechazar la H0 si F0 > F1, k, nk1.

En caso contrario no se rechaza la H0.

En caso de rechazarse la Ho, se concluye que la regresión es significativa y que las

La información de las suma de cuadrados, de los grados de libertad y de otras

TABLA DEL ANOVA DE LA REGRESIÓN LINEAL SIMPLE

9.7. Intervalo de confianza para un valor medio Y/X

Yˆh  t1 / 2,nk 1 se X h' ( X ´ X ) 1 X h

Yˆh  t1 / 2 ,n k 1 se (Yˆh )

9.8. Intervalo de confianza para un valor individual

Yˆh  t1 / 2 ,n k 1 se 1  X h' ( X ´ X ) 1 X h

9.9. Análisis de correlación múltiple

El coeficiente de correlación lineal poblacional es denotado por . Mientras que su

La fórmula para calcular el valor de R es:

9.10. Coeficiente de determinación R2

Es decir, R2 es la proporción de la variación total de Y que es explicada por la

R2 mide o juzga la idoneidad del modelo de regresión X.

Es decir, R2 es la proporción de la variación total de la variable dependiente que es

COEFICIENTE DE DETERMINACIÓN AJUSTADO Ra2 : Como se ve en la última

9.11. Problemas especiales de la correlación lineal múltiple

Mantenimiento Jardín Habitaciones Antigüedad Miembros

La matriz de datos X es:

La matriz X’X es:

La matriz inversa (X’X)-1 es:

El vector X’Y es:

El reporte de MINITAB es el siguiente:

Regression Analysis: Y versus X1, X2, X3, X4

Predicted Values for New Observations

Values of Predictors for New Observations

Y = Ingreso anual (miles $)

El reporte de MINITAB es el siguiente: