Está en la página 1de 14

9.

REGRESION Y CORRELACION MULTIPLE

9.1. Regresión lineal múltiple


La regresión múltiple consiste en usar más de una variable independiente para
estimar la variable dependiente.

La superficie que mejor se ajusta a un conjunto de datos (X1, X2,...,Xk, Y), es


aquella que minimiza la suma de las distancias al cuadrado de los puntos a la
superficie, medidas en dirección vertical o hacia Y. A esta superficie se le conoce
como la superficie de regresión y a su ecuación se denomina "ecuación de
regresión".

Una buena variable de pronóstico esta relacionada con la variable dependiente.


Una buena variable de pronóstico no está altamente relacionada con ninguna otra
variable independiente (multicolinealidad).

La regresión múltiple se basa en las mismas suposiciones y procedimientos que se


usan en la regresión simple.

El modelo de regresión lineal múltiple es

Yi = 0 + 1Xi1 + 2Xi2 + ... + kXik + i i =1,2,...,n

En términos matriciales es

Y = X + 

 Y1  1 X 11 X 12  X 1k   0   1 
       
Y  1 X 21 X 22  X 2k   
Y  2 X     1     2 
        
       
 Yn   1 X n1 X n2  X nk   k   n 

donde :

 Y es un vector de variables aleatorias observables de (n  1)


  es el vector (k + 1)  1 de los coeficientes de regresión poblacionales.
 X es la matriz de datos de dimensión n (k + 1) de las variables independientes.
  es un vector de (n  1) de errores aleatorios.
9.2. Método de mínimos cuadrados
1
Para realizar el proceso de estimación del vector de parámetros  se obtiene una
muestra aleatoria de datos , (X11, X12,...., X1k, Y1), (X21, X22,...., X2k, Y2),...., (Xn1,
Xn2,...., Xnk, Yn).

El proceso de estimación es similar al mencionado en la regresión lineal simple, la


diferencia es que ahora se tienen k variables independientes.

Es decir:
Y = X + 
 = Y – X
Se desea encontrar el vector de estimadores de mínimos cuadrados ˆ que
minimiza:
n
Q (  )    i2   '   (Y  X )' (Y  X )
i 1

Derivando Q() con respecto a  e igualando a cero, se obtiene:


X´X ˆ = X´Y

Seguidamente se resuelven las ecuaciones y se obtiene el estimador mínimo


cuadrático de :
ˆ = (X´X )-1 X´Y

Por lo tanto, la ecuación de regresión estimada o ajustada esta dada por :


Yˆ  X̂

Los estimadores de los parámetros 0, 1,..., k son denotados por ˆ0 , ˆ1 ,..., ˆk
, respectivamente. También se usan b0, b1, ..., bk.

Notar que cada observación satisface la relación:


Y  X̂  e

donde e es un vector n  1 con elementos definidos por ei  Yi  Yˆi que reciben el


nombre de residuales. El residual describe el error en el ajuste del modelo en la
i-ésima observación Yi. La suma de estos valores ei es una cantidad mínima y su
raíz cuadrada es denominada el error estándar de estimación se.

9.3. Error estándar de estimación


El error estándar de estimación se define por:

2
n
 (Yi  Yˆi ) 2
se  i 1
n  k 1

Obsérvese que se2 es la suma de los cuadrados de las desviaciones verticales


(residuales) de los puntos a la superficie de regresión.

Una fórmula equivalente para se es

Y ' Y  ˆ ' X ' Y


se 
n  k 1

Notar que se tiene las mismas unidades que los datos originales. El valor de se es
también conocido como la raíz del cuadrado medio del error (rcme) de la
regresión.

Recordar que el residual es la distancia por encima (+) o por debajo (-) de la
superficie de regresión.

9.4. Prueba de hipótesis de i


ˆi   i , 0
Para la H0: i = i,0 se utiliza t0 
se2C jj

donde Cjj es el j-ésimo elemento de la diagonal de la matriz (X´X)-1 que


corresponde a ̂i y t0 tiene distribución t con nk1 grados de libertad si la H0 es
cierta.

La región de rechazo es |t0| > t1-/2, n-k-1.


Por ejemplo si i = 3, entonces se debe considerar el elemento C33 de la matriz (X
´X)-1
El procedimiento para probar una hipótesis con respecto a  j es parecido al
seguido en el análisis de regresión y correlación simple. Se prueba el valor
hipotético de un coeficiente  j calculando el estadístico t0 y usando n k 1 gl.

ˆi   i ,0
La fórmula general es: t0 
se ( ˆi )

3
A menudo, estaremos interesados en preguntar ¿en realidad Y depende de Xj?
Usualmente esta pregunta se plantea así: ¿Es Xi una variable explicativa de Y?
Y depende de Xi si  i  0; y no depende de Xj si  i = 0.
Nuestra pregunta conduce a establecer hipótesis de la forma:
H0 :  i = 0  Xi no es una variable explicativa significativa
H1 :  i  0  Xi es una variable explicativa significativa
Entonces, cuando la hipótesis nula dice que  i es 0 (  i = 0), se simplifica la
fórmula anterior y se convierte en:
ˆi
t0 
se ( ˆi )

Podemos usar la columna P (P-value) en el recuadro de los coeficientes de la


salida de Minitab para probar si Xi es una variable explicativa significativa:
 Si P <  : Xi si es una variable explicativa significativa
 Si P >  : Xi no es una variable explicativa significativa

9.5. Intervalos de confianza para i


La siguiente fórmula se utiliza para calcular el intervalo de confianza:

ˆi  t1 2,n  k 1 se C jj   i  ˆi  t1 2,n  k 1 se C jj

donde Cjj es el j-ésimo elemento de la diagonal de la matriz (X´X)-1 que


corresponde a ̂i . Por ejemplo si i = 2, entonces se debe considerar el elemento
C22 de la matriz (X´X)-1

Una fórmula equivalente para el intervalo de confianza es:

ˆi  t1 2 , n  k 1 se ( ˆi )   i  ˆi  t1 2 , n  k 1 se ( ˆi )

9.6. Análisis de varianza de la regresión lineal múltiple


Para determinar si el modelo lineal describe adecuadamente los datos, es decir,
si la regresión como un todo es significativa, se usa la prueba del estadístico F0.

Las hipótesis son:


4
H0 : 1 = 2 = 3 = ...=k = 0  Y no depende de las Xi
H1 : Al menos una i  0  Y depende al menos de una Xi

En el caso de la regresión lineal múltiple, se tiene lo siguiente:


2
 n 
n   Yi 
 (Yi  Y ) 2 = ˆ ' X ' Y   i 1  + (Y ' Y  ˆ ' X ' Y )
i 1 n

SCTotal = SCRegresión + SCError


Variación explicada Variación no explicada
Variación total de Y = +
por la regresión o error
n  1 gl = k gl + n  k  1 gl

La prueba estadística para probar la hipótesis nula es:

SCRegresión k CM Regresión CM Regresión


F0   
SC Error (n  k  1) s 2
e CM Error
F0 tiene distribución F1, k, nk1 si la H0 es verdadera.

La regla de decisión es rechazar la H0 si F0 > F1, k, nk1.

En caso contrario no se rechaza la H0.

En caso de rechazarse la Ho, se concluye que la regresión es significativa y que las


variables escogidas como independientes son apropiadas para explicar la variable
dependiente.

La información de las suma de cuadrados, de los grados de libertad y de otras


cantidades mencionadas se presenta en un cuadro denominado la tabla del análisis
de variancia de la regresión lineal múltiple.

TABLA DEL ANOVA DE LA REGRESIÓN LINEAL SIMPLE


Fuente de Grados de Suma de Cuadrado F0
Variabilidad libertad cuadrados medio
2
 nY
Regresión k  i  SC Regresión CM Regresión
 ' X ' Y   i 1 
ˆ k CM Error
n

5
Error nk2 (Y ' Y  ˆ ' X ' Y ) se2
n
Total n1  (Yi  Y ) 2
i 1

La prueba del ANOVA se conoce como la prueba global del modelo de regresión
y las pruebas de cada i son conocidas como pruebas individuales.

9.7. Intervalo de confianza para un valor medio Y/X


Un intervalo de confianza del 100(1)% para un valor medio µY/X para la
respuesta promedio en el punto X01, X02,..., X0k es:

Yˆh  t1 / 2,nk 1 se X h' ( X ´ X ) 1 X h

Yˆh  t1 / 2 ,n k 1 se (Yˆh )

9.8. Intervalo de confianza para un valor individual


Un intervalo de confianza del 100(1)% para el punto X01, X02,..., X0k es:

Yˆh  t1 / 2 ,n k 1 se 1  X h' ( X ´ X ) 1 X h

9.9. Análisis de correlación múltiple


El análisis de correlación es una técnica estadística que consiste en medir la
asociación lineal entre una variable dependiente y dos o más variables
independientes.

El coeficiente de correlación lineal poblacional es denotado por . Mientras que su


estimador correspondiente, denominado coeficiente de correlación muestral, es
denotado por R .
6
El valor del coeficiente de correlación (poblacional o muestral) puede variar de 0 a
+1. Su signo se considera siempre positivo

La fórmula para calcular el valor de R es:


SC Regresión
R
SCTotal

9.10. Coeficiente de determinación R2


El coeficiente de determinación R2 se define como:
SC Regresión
R2 
SCTotal

Es decir, R2 es la proporción de la variación total de Y que es explicada por la


ecuación de regresión múltiple.

R2 mide o juzga la idoneidad del modelo de regresión X.

Es decir, R2 es la proporción de la variación total de la variable dependiente que es


explicada por el modelo de regresión X (o por las variables independientes Xi).

COEFICIENTE DE DETERMINACIÓN AJUSTADO Ra2 : Como se ve en la última


formula, el cálculo del coeficiente muestral de determinación múltiple no
requiere ajuste por los grados de libertad. Como resultado, hay una tendencia a
que R2 se “demasiado grande”, o a sobrestimar el coeficiente real o poblacional.
Este sesgo se elimina si en lugar de ello se calcula el coeficiente muestral de
determinación múltiple ajustado:
 SC ( n  k  1) 
Ra2  1   Error 
 SCTotal (n  1) 

9.11. Problemas especiales de la correlación lineal múltiple


Los siguientes problemas se presentan en la regresión lineal múltiple:
 Multicolinealidad.
 Heterocedasticidad.
 Regresión no lineal.
 Estimadores sesgados.

7
Ejemplo 1.-

Mantenimiento Jardín Habitaciones Antigüedad Miembros


(US) (m2) (N°) (años) (N°)
250 35 3 10 6
360 29 4 1 10
165 36 7 9 3
43 60 6 8 9
92 65 5 8 6
200 30 5 9 5
355 10 6 14 7
290 7 10 9 10
230 21 9 11 11
120 55 2 9 5
73 54 12 11 4
205 48 5 10 1
400 20 5 12 15
320 39 4 10 7
72 60 8 8 6
272 20 5 10 8
94 58 7 10 3
190 40 8 11 11
235 27 9 14 8
139 30 7 9 5

La matriz de datos X es:


1 35 3 10 6
1 29 4 1 10
1 36 7 9 3
1 60 6 8 9
1 65 5 8 6
1 30 5 9 5
1 10 6 14 7
1 7 10 9 10
8
1 21 9 11 11
1 55 2 9 5
1 54 12 11 4
1 48 5 10 1
1 20 5 12 15
1 39 4 10 7
1 60 8 8 6
1 20 5 10 8
1 58 7 10 3
1 40 8 11 11
1 27 9 14 8
1 30 7 9 5

La matriz X’ es:
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
35 29 36 60 65 30 10 7 21 55 54 48 20 39 60 20 58 40 27 30
3 4 7 6 5 5 6 10 9 2 12 5 5 4 8 5 7 8 9 7
10 1 9 8 8 9 14 9 11 9 11 10 12 10 8 10 10 11 14 9
6 10 3 9 6 5 7 10 11 5 4 1 15 7 6 8 3 11 8 5

La matriz X’X es:


20 744 127 193 140
744 33436 4640 6954 4671
127 4640 923 1264 899
193 6954 1264 1997 1356
140 4671 899 1356 1192

La matriz inversa (X’X)-1 es:


2.258587197585 -0.01721182351 -0.0313496955733 -0.0889066217 -0.073041128116
-0.01721182351 0.0002462042423 -3.416027695E-06 0.0003909485 0.0006145806411
-0.03134969557 -3.4160277E-06 0.00950435875448 -0.0027071545 -0.000393123689
-0,08890662169 0.0003909484959 -0.002707154452 0.00882749289 0.0009097802942
-0.07304112812 0.0006145806411 -0.0003931236894 0.00090978029 0.0062708119796

El vector X’Y es:


4105
124289
24786
40135
32341

El vector de estimados de  es :

9
424.73617304316
-4.5718555384585
-14.905697976563
0.2440169570653
6.1261807750031

El reporte de MINITAB es el siguiente:


Correlations: Y, X1, X2, X3, X4
Y X1 X2 X3
X1 -0.812
X2 -0.257 -0.103
X3 0.097 -0.256 0.307
X4 0.537 -0.486 0.064 0.030
Cell Contents: Pearson correlation

Regression Analysis: Y versus X1, X2, X3, X4


The regression equation is
Y = 425 - 4.57 X1 - 14.9 X2 + 0.24 X3 + 6.13 X4
Predictor Coef SE Coef T P
Constant 424.74 79.23 5.36 0.000
X1 -4.5719 0.8272 -5.53 0.000
X2 -14.906 5.140 -2.90 0.011
X3 0.244 4.953 0.05 0.961
X4 6.126 4.175 1.47 0.163
S = 52.72 R-Sq = 80.4% R-Sq(adj) = 75.2%
Analysis of Variance
Source DF SS MS F P
Regression 4 171227 42807 15.40 0.000
Residual Error 15 41689 2779
Total 19 212916
Source DF Seq SS
X1 1 140215
X2 1 24980
X3 1 48
X4 1 5985

Unusual Observations
Obs X1 Y Fit SE Fit Residual St Resid
2 29.0 360.0 294.0 44.4 66.0 2.32R
R denotes an observation with a large standardized residual

Predicted Values for New Observations


New Obs Fit SE Fit 95.0% CI 95.0% PI
1 259.2 21.8 ( 212.8, 305.6) ( 137.6, 380.8)
2 294.0 44.4 ( 199.4, 388.7) ( 147.1, 440.9)
3 176.4 22.0 ( 129.5, 223.3) ( 54.6, 298.1)
10
4 118.1 26.2 ( 62.3, 173.9) ( -7.4, 243.5)
5 91.7 24.0 ( 40.5, 143.0) ( -31.8, 215.2)
6 245.9 18.7 ( 206.0, 285.7) ( 126.7, 365.1)
7 335.9 29.6 ( 272.7, 399.1) ( 207.0, 464.8)
8 307.1 31.9 ( 239.1, 375.2) ( 175.8, 438.5)
9 264.6 22.6 ( 216.5, 312.8) ( 142.4, 386.9)
10 176.3 27.1 ( 118.5, 234.1) ( 49.9, 302.7)
11 26.2 34.0 ( -46.2, 98.6) (-107.5, 159.9)
12 139.3 25.8 ( 84.4, 194.2) ( 14.3, 264.4)
13 353.6 35.3 ( 278.3, 428.9) ( 218.3, 488.9)
14 232.1 17.4 ( 195.0, 269.3) ( 113.8, 350.5)
15 69.9 23.3 ( 20.2, 119.6) ( -53.0, 192.7)
16 310.2 18.7 ( 270.4, 350.1) ( 191.0, 429.4)
17 76.0 21.3 ( 30.6, 121.5) ( -45.2, 197.3)
18 192.7 23.8 ( 142.0, 243.4) ( 69.4, 316.0)
19 219.6 24.3 ( 167.8, 271.3) ( 95.9, 343.3)
20 216.1 18.5 ( 176.7, 255.4) ( 97.0, 335.1)

Values of Predictors for New Observations


New Obs X1 X2 X3 X4
1 35.0 3.0 10.0 6.0
2 29.0 4.0 1.0 10.0
3 36.0 7.0 9.0 3.0
4 60.0 6.0 8.0 9.0
5 65.0 5.0 8.0 6.0
6 30.0 5.0 9.0 5.0
7 10.0 6.0 14.0 7.0
8 7.0 10.0 9.0 10.0
9 21.0 9.0 11.0 11.0
10 55.0 2.0 9.0 5.0
11 54.0 12.0 11.0 4.0
12 48.0 5.0 10.0 1.0
13 20.0 5.0 12.0 15.0
14 39.0 4.0 10.0 7.0
15 60.0 8.0 8.0 6.0
16 20.0 5.0 10.0 8.0
17 58.0 7.0 10.0 3.0
18 40.0 8.0 11.0 11.0
19 27.0 9.0 14.0 8.0
20 30.0 7.0 9.0 5.0

Ejemplo 2.-

Y = Ingreso anual (miles $)


X1 = Escolaridad (años)
X2 = Experiencia laboral (años)
X3 = Edad (años)
X4 = Sexo (0 = Femenino, 1 = masculino)

11
Y X1 X2 X3 X4

12
5.0 2 9 29 0
9.7 4 18 50 0
28.4 8 21 41 1
8.8 8 12 55 0
21.0 8 14 34 1
26.6 10 16 36 0
25.4 12 16 61 1
23.1 12 9 29 0
22.5 12 18 64 1
19.5 12 5 30 0
21.7 12 7 28 0
24.8 13 9 29 0
30.1 14 12 35 1
24.8 14 17 59 0
28.5 15 19 65 0
26.0 15 6 30 0
38.9 16 17 40 1
22.1 16 1 23 0
33.1 19 10 58 1
48.3 21 17 44 1

El reporte de MINITAB es el siguiente:

Correlations: Y, X1, X2, X3, X4

Y X1 X2 X3
X1 0.841
X2 0.268 -0.115
X3 0.105 0.122 0.676
X4 0.560 0.290 0.456 0.309

Cell Contents: Pearson correlation

Regression Analysis: Y versus X1, X2, X3, X4

The regression equation is


Y = - 0.72 + 1.97 X1 + 1.13 X2 - 0.338 X3 + 2.97 X4

Predictor Coef SE Coef T P


Constant -0.718 1.413 -0.51 0.619
X1 1.96651 0.08170 24.07 0.000
X2 1.12638 0.09570 11.77 0.000
X3 -0.33801 0.03372 -10.02 0.000
X4 2.9707 0.8058 3.69 0.002

13
S = 1.438 R-Sq = 98.3% R-Sq(adj) = 97.8%

Analysis of Variance

Source DF SS MS F P
Regression 4 1789.41 447.35 216.37 0.000
Residual Error 15 31.01 2.07
Total 19 1820.43

Source DF Seq SS
X1 1 1287.32
X2 1 244.77
X3 1 229.22
X4 1 28.10

14

También podría gustarte