Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Lineal Multiple 3
Regresion Lineal Multiple 3
ndice
INTRODUCCIN .................................................................................................. 2 EL MODELO DE REGRESIN LINEAL MLTIPLE........................................ 5 HIPTESIS............................................................................................................. 6 ESTIMACIN DE LOS PARMETROS POR MNIMOS CUADRADOS........ 7 VARIANZA RESIDUAL ..................................................................................... 11 CONTRASTE DE REGRESIN ......................................................................... 13 COEFICIENTE DE DETERMINACIN R2 ....................................................... 16 DIAGNOSIS Y VALIDACIN DE UN MODELO DE REGRESIN LINEAL MLTIPLE ........................................................................................................... 17
VIII.1. Multicolinealidad .................................................................................................. 17 VIII.2. Anlisis de residuos .............................................................................................. 18 VIII.3. Valores de influencia (leverage) ........................................................................... 20 VIII.4. Contrastando las hiptesis bsicas ........................................................................ 21 VIII.5. Homocedasticidad ................................................................................................. 22 VIII.6. Errores que deben de evitarse ............................................................................... 23
IX. X.
I.
Introduccin
En el capitulo anterior se ha estudiado el modelo de regresin lineal simple, donde se analizaba la influencia de una variable explicativa X en los valores que toma otra variable denominada dependiente (Y). En la regresin lineal mltiple vamos a utilizar ms de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar ms informacin en la construccin del modelo y, consecuentemente, realizar estimaciones ms precisas.
Al tener ms de una variable explicativa (no se debe de emplear el trmino independiente) surgirn algunas diferencias con el modelo de regresin lineal simple.
Una cuestin de gran inters ser responder a la siguiente pregunta: de un vasto conjunto de variables explicativas: x1, x2, , xk, la variable dependiente Y. cules son las que ms influyen en
En definitiva, y al igual que en regresin lineal simple, vamos a considerar que los valores de la variable dependiente Y han sido generados por una combinacin lineal de los valores de una o ms variables explicativas y un trmino aleatorio: y = b0 + b1 x1 + b2 x2 + ... + bk xk + u Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores observados y los pronosticados sea mnima, es decir, que se va a minimizar la varianza residual.
Esta ecuacin recibe el nombre de hiperplano, pues cuando tenemos dos variables explicativas, en vez de recta de regresin tenemos un plano:
A A
Linear Regression
e + 1,41 * a_espald
A A A A A A A A A A A A A A AA A A A A A
A A
Registr o 1 2 3 4 5 6 7 8
estatura l_roxto X1 158 152 168 159 158 164 156 167 X6 39 38 43 40 41 40 41 44
pie X2 36 34 39 36 36 36 36 37
d_crneo X5 55 55 54.5 57 57 54 56 58
peso Y 43 45 48 49 50 51 52 52
En base a estos datos, vamos a construir un modelo para predecir el peso de una persona (Y). Esto equivale a estudiar la relacin existente entre este conjunto de variables x1 ,..., x5 y la variable peso (Y).
En primer lugar tenemos que la variable dependiente es el peso; y las variables que vamos a utilizar para predecir el peso reciben el nombre de variables independientes o explicativas.
En la prctica deberemos de elegir cuidadosamente qu variables vamos a considerar como explicativas. Algunos criterios que deben de cumplir sern los siguientes:
Tener sentido numrico. No deber de haber variables repetidas o redundantes Las variables introducidas en el modelo debern de tener una cierta justificacin terica. La relacin entre variables explicativas en el modelo y casos debe de ser como mnimo de 1 a 10. La relacin de las variables explicativas con la variable dependiente debe de ser lineal, es decir, proporcional.
II.
El modelo de regresin lineal mltiple es idntico al modelo de regresin lineal simple, con la nica diferencia de que aparecen ms variables explicativas:
Siguiendo con nuestro ejemplo, si consideramos el peso como variable dependiente y como posibles variables explicativas:
estatura pie l_brazo a_espald d_craneo El modelo que deseamos construir es: peso = b0 + b1 estatura + b2 pie + b3 l _ brazo + b4 a _ espald + b5 d _ craneo
Al igual que en regresin lineal simple, los coeficientes b van a indicar el incremento en el peso por el incremento unitario de la correspondiente variable explicativa. Por lo tanto, estos coeficientes van a tener las correspondientes unidades de medida.
III.
Hiptesis
Para realizar un anlisis de regresin lineal mltiple se hacen las siguientes consideraciones sobre los datos:
Y = X * B +U
b) Homocedasticidad: todas las perturbaciones tienen las misma varianza:
V (ui ) = 2
c) Independencia: las perturbaciones aleatorias son independientes entre s:
E (ui u j ) = 0, i j
d) Normalidad: la distribucin de la perturbacin aleatoria tiene distribucin
normal: U N (0, 2 )
e) Las variables explicativas Xk se obtienen sin errores de medida.
Si admitimos que los datos presentan estas hiptesis entonces el teorema de Gauss-Markov establece que el mtodo de estimacin de mnimos cuadrados va a producir estimadores ptimos, en el sentido que los parmetros estimados van a estar centrados y van a ser de mnima varianza.
IV.
Min ( y j y j ) 2
Donde:
y j = b0 + b1 * x1,1 + b2 * x2, j + ...bk * xk , j
u1 y1 y1 u y y 2 2 2 u = . = . = y y . . un yn yn
Por lo tanto:
y1 1 x1,1 y 1 x 1, 2 2 u = yn 1 x1,n
. . . .
. .
xk ,1 b0 xk , 2 b1 * . = y X *b . xk ,n bk
Es decir:
(b) = ( y j y j ) 2 = u * u
Por tanto, la varianza residual es una funcin del vector de parmetros b y la condicin para que tenga un mnimo ser:
(b) =0 b
(b) = ( y j y j ) 2 = u * u = y * y y * x * b b * x * y + b * x * x * b
(b ) ( y X * b ) * ( y X * b ) = 2 * X * Y + 2 * X * X * B = b b
Multiplicando por ( X * X ) 1
( X * X ) 1 X * Y = ( X * X ) 1 X * X * B
( X * X ) 1 X * Y = I * B
B = ( X * X ) 1 * X * Y
Adems
X *Y = X * X * B
X *Y X * X * B = 0
X * (Y X * B ) = 0
X *U = 0
Es decir, los residuos obtenidos del modelo estimado por mnimos cuadrados no van a estar correlacionados con las variables explicativas.
Nota
Es importante observar que si las variables explicativas X estn muy correlacionadas entre si, la matriz ( X * X ) va a tener el determinante con valor cero o muy cercano a cero. Si hay al menos una variable que puede ser expresada como combinacin lineal del resto (ingresos mensuales, ingresos anuales) el determinante de esta matriz es cero y dicha matriz ser singular y por lo tanto no tendr inversa.
Si no hay variables que sean combinacin lineal de las dems, pero estn fuertemente correlacionadas, el determinante no ser cero pero tendr un valor muy prximo a cero; este caso va a producir una inestabilidad en la solucin del estimador, en general, se va a producir un aumento en su varianza.
A los problemas provocados por la fuerte correlacin entre las variables explicativas se les llama multicolinealidad.
10
V.
Varianza residual
Al igual que en el caso de regresin lineal simple, vamos a descomponer la variabilidad de la variable dependiente Y en dos componentes o fuentes de variabilidad: una componente va a representar la variabilidad explicada por el modelo de regresin y la otra componente va a representar la variabilidad no explicada por el modelo y, por tanto, atribuida a factores aleatorios.
n * 2 = ( yi Y ) 2
Es decir, la variabilidad de Y es la suma cuadrtica de los valores que toma la variable respecto a la media de la variable.
Sumando y restando el valor pronosticado por el modelo de regresin obtenemos la siguiente expresin:
) ) ( y y) = ( y y) + ( y y )
2 2 i i i i
Es decir, que la suma de cuadrados de la variable Y respecto a su media se puede descomponer en trminos de la varianza residual. De esta expresin se deduce que la distancia de Y a su media se descompone como la distancia de Y a su estimacin ms la distancia de su estimacin a la media.
VT = VE + VNE
11
Dividiendo la variabilidad total entre sus grados de libertad obtenemos la varianza de la variable dependiente Y :
SY2 =
VT n 1
Dividiendo la variabilidad no explicada entre sus grados de libertad obtenemos la varianza residual de la variable dependiente Y :
2 SR =
VNE n (k + 1)
Tabla resumen
( y y) ( y y) ) ( y y)
2 2
VT n 1 VNE n k 1
n-k-1
2 SR =
12
VI.
Contraste de regresin
Como estamos sacando conclusiones de una muestra de un conjunto mucho ms amplio de datos, a veces este conjunto ser infinito, es obvio que distintas muestras van a dar distintos valores de los parmetros.
Un caso de especial inters es asignar una medida de probabilidad a la siguiente afirmacin o hiptesis: H 0 b1 = b2 = ... = bk = 0
Nota La hiptesis nula es que todos los coeficientes menos b0 son nulos y la hiptesis alternativa o complementaria es que existe al menos uno que es distinto de 0, puede haber varios que sean nulos, pero al menos existe uno distinto de cero.
Se denomina contraste de regresin al estudio de la posibilidad de que el modelo de regresin sea nulo, es decir, los valores de las variables explicativas X no van a influir en la variable Peso.
13
Construccin del contraste Si los residuos siguen una distribucin normal y b1 = b2 = ... = bk = 0 , tenemos que:
VT
2 n 1
VE
12
VNE
2 n ( k +1)
Por tanto:
VE VNE
n (k + 1)
VE F1, n ( k +1) 2 SR
Es decir, el cociente entre la varianza explicada y la varianza no explicada ser aproximadamente 1. Adems, al seguir una distribucin F, podemos asignar una
medida de probabilidad (p-value) a la hiptesis de que la varianza explicada es igual a la varianza no explicada.
En caso contrario la varianza no explicada ser muy inferior a la varianza explicada y, por lo tanto, este cociente tendr un valor muy superior a 1.
Nota
En general si el p-value es menor de 0.05 se acepta que el modelo de regresin es significativo; en caso contrario no podemos hablar de regresin, pues el modelo sera nulo.
14
Si aceptamos que el modelo de regresin es significativo, es habitual mostrar el p-value; por ejemplo:
Encontramos que este modelo de regresin es estadsticamente significativo con un p-value de 0.0003
15
VII.
Coeficiente de determinacin R2
Vamos a construir un coeficiente (estadstico) que mida la bondad del ajuste del
2 modelo. Si bien la varianza residual ( S R ) nos indica cmo estn de cerca las
estimaciones respecto de los puntos, esta varianza est influida por la varianza de la variable dependiente, la cual, a su vez, est influida por su unidad de medida. Por lo tanto, una medida adecuada es la proporcin de la varianza explicada (VE) entre la varianza total (VT); de este modo, definimos el coeficiente de determinacin R 2 :
VE VT VNE VNE = = 1 VT VT VT
R2 =
Por ser cociente de sumas de cuadrados, este coeficiente ser siempre positivo. Si todos los puntos estn sobre la recta de regresin, la varianza no explicada ser 0, y por lo tanto:
R2 =
0 VE = 1 =1 VT VT
Este coeficiente es muy importante pues determina qu porcentaje (en tantos por uno) de la varianza de la variable dependiente es explicado por el modelo de regresin.
Adems, a diferencia de la varianza residual, este coeficiente es adimensional; esto quiere decir que no est afectado por transformaciones lineales de las variables; por ello, si cambiamos las unidades de medida, el coeficiente de determinacin permanecer invariante.
16
1 x1 + 2 x2 + ... + k xk + 0 = 0
Este problema se detecta fcilmente: Solicitando el determinante de la matriz de varianzas-covarianzas, que estar cercano a cero. Calculando el cociente entre el primer y ltimo autovalor de la matriz de varianzas-covarianzas que ser mayor de 50. Calculando para cada variable el coeficiente de determinacin ( R 2 ) de dicha variable con el resto. La solucin es eliminar del modelo aquellas variables explicativas que dependen unas de otras. En general, los mtodos de seleccin de variables solucionan automticamente este problema.
ANOVAb Model 1 Sum of Squares 3485,401 775,265 4260,667 df 6 20 26 Mean Square 580,900 38,763 F 14,986 Sig. ,000a
a. Predictors: (Constant), l_roxto Longitud de rodilla a tobillo, d_crneo, a_espald, l_ brazo, pie, estatura b. Dependent Variable: peso
17
Coefficientsa Unstandardized Coefficients B Std. Error -133,261 43,985 -,354 ,445 2,187 1,248 ,821 ,621 1,067 ,660 1,093 ,922 -,003 ,841 Standardized Coefficients Beta -,283 ,489 ,317 ,335 ,157 -,001 Collinearity Statistics Tolerance VIF ,072 ,117 ,159 ,212 ,517 ,212 13,882 8,574 6,307 4,724 1,933 4,724
Model 1
(Constant) estatura pie l_brazo a_espald d_crneo l_roxto Longitud de rodilla a tobillo
La columna denominada tolerancia es: 1 R2 Donde la variable correspondiente entra como variable dependiente y el resto de las variables explicativas actan como regresoras.
Es interesante observar que si bien el contraste de regresin es significativo, ninguna de las variables explicativas lo es.
Los residuos son variables aleatorias que siguen (?) una distribucin normal. Los residuos tienen unidades de medida y, por tanto no se puede determinar si es grande o pequeo a simple vista.
18
Zui =
1 ui * 1 hii SR
Se considera que un residuo tiene un valor alto, y por lo tanto puede influir negativamente en el anlisis, si su residuo estandarizado es mayor de 3 en valor absoluto.
Zui 3
Para evitar la dependencia entre numerador y denominador de la expresin anterior, tambin se utilizan los residuos estudentizados.
SZui =
1 ui * (i ) 1 hii S R
El anlisis descriptivo y el histograma de los residuos nos indicarn si existen casos que no se adapten bien al modelo lineal.
Residuals Statisticsa Predicted Value Residual Std. Predicted Value Std. Residual Minimum 23,9527 -31,69022 -1,860 -,939 Maximum 138,1509 117,84905 2,627 3,492 Mean 71,2963 ,00000 ,000 ,000 Std. Deviation 25,44848 29,60339 1,000 ,877 N 27 27 27 27
19
Podemos observar que hay un caso que tiene un residuo anormal, pues su valor tipificado es 3.49.
Se considera que una observacin es influyente a priori si su inclusin en el anlisis modifica sustancialmente el sentido del mismo. Una observacin puede ser influyente si es un outlayer respecto a alguna de las variables explicativas:
20
l (i ) =
Este estadstico mide la distancia de un punto a la media de la distribucin. Valores cercanos a 2/n indican casos que pueden influir negativamente en la estimacin del modelo introduciendo un fuerte sesgo en el valor de los estimadores.
Para verificar esta hiptesis se suele utilizar el histograma de los residuos y en caso necesario el test de Kolgomorov Smirnov.
One-Sample Kolmogorov-Smirnov Test ZRE_1 Standardized Residual 27 ,0000000 ,87705802 ,117 ,117 -,105 ,609 ,852
N Normal Parameters a,b Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed)
En este caso no se detecta falta de normalidad, el pvalue del test KS es de 0.852, por lo tanto se concluye que:
21
VIII.5. Homocedasticidad
La hiptesis de homocedasticidad establece que la variabilidad de los residuos es independiente de las variables explicativas. En general, la variabilidad de los residuos estar en funcin de las variables explicativas, pero como las variables explicativas estn fuertemente correlacionadas con la variable dependiente, bastara con examinar el grfico de valores pronosticados versus residuos al cuadrado.
Existe una familia de transformaciones denominada Box-CCOS que se realizan sobre la variable dependiente encaminadas a conseguir homocedasticidad. La transformacin ms habitual para conseguir homocedasticidad es:
Y = log(Y )
En cualquier caso, es conveniente examinar detenidamente las implicaciones de realizar este tipo de transformaciones, pues en muchas ocasiones es peor el remedio que la enfermedad, ya que la variable dependiente puede llegar a perder el sentido.
22
Errores que son fciles pasar por alto al realizar un modelo de regresin lineal mltiple son los siguientes:
No controlar el factor tamao. Si hay un factor de ponderacin, no tenerlo en cuenta. Al calcular los grados de libertad en los contrastes de hiptesis. No incluir una variable relevante en el modelo. Incluir una variable irrelevante. Especificar una relacin lineal que no lo es.
23
IX.
Seleccin de las variables regresoras Los procedimientos para seleccionar las variables regresoras son los siguientes: Eliminacin progresiva. Introduccin progresiva. Regresin paso a paso (Stepwise Regression).
Este ltimo mtodo es una combinacin de los procedimientos anteriores. Parte del modelo sin ninguna variable regresora y en cada etapa se introduce la ms significativa, pero en cada etapa examina si todas las variables introducidas en el modelo deben de permanecer. Termina el algoritmo cuando ninguna variable entra o sale del modelo.
24
X.
Ejemplo 1
Statistics l_roxto Longitud de rodilla a tobillo 27 0 43,0926 43,0000 3,15630 ,632 ,448 1,044 ,872 38,00 52,00
N Mean Median Std. Deviation Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Minimum Maximum
Valid Missing
estatura 27 0 168,7963 168,0000 10,22089 ,173 ,448 -1,016 ,872 152,00 189,00
peso 27 0 63,8889 65,0000 12,80124 ,187 ,448 -,658 ,872 43,00 91,00
pie 27 0 38,9815 39,0000 2,86384 ,303 ,448 -,855 ,872 34,00 45,00
l_brazo 27 0 73,4815 73,0000 4,93707 ,427 ,448 -,605 ,872 66,00 83,00
a_espald 27 0 45,8519 46,0000 4,02113 -,249 ,448 ,075 ,872 36,00 53,00
d_crneo 27 0 57,2407 57,0000 1,84167 ,178 ,448 -,740 ,872 54,00 61,00
25
Model Summaryb Model 1 R R Square ,904a ,818 Adjusted R Square ,763 Std. Error of the Estimate 6,22602 DurbinWatson 2,274
a. Predictors: (Constant), l_roxto Longitud de rodilla a tobillo, d_crneo, a_ espald, l_brazo, pie, estatura b. Dependent Variable: peso
ANOVAb Model 1 Sum of Squares 3485,401 775,265 4260,667 df 6 20 26 Mean Square 580,900 38,763 F 14,986 Sig. ,000a
a. Predictors: (Constant), l_roxto Longitud de rodilla a tobillo, d_crneo, a_espald, l_ brazo, pie, estatura b. Dependent Variable: peso
26
Coefficientsa Unstandardized Coefficients B Std. Error -133,261 43,985 -,354 ,445 2,187 1,248 ,821 ,621 1,067 ,660 1,093 ,922 -,003 ,841 Standardized Coefficients Beta -,283 ,489 ,317 ,335 ,157 -,001 Collinearity Statistics Tolerance VIF ,072 ,117 ,159 ,212 ,517 ,212 13,882 8,574 6,307 4,724 1,933 4,724
Model 1
(Constant) estatura pie l_brazo a_espald d_crneo l_roxto Longitud de rodilla a tobillo
Residuals Statisticsa Predicted Value Residual Std. Predicted Value Std. Residual Minimum 44,1230 -8,21203 -1,707 -1,319 Maximum 88,5975 11,34415 2,134 1,822 Mean 63,8889 ,00000 ,000 ,000 Std. Deviation 11,57816 5,46058 1,000 ,877 N 27 27 27 27
27
a. Predictors: (Constant), pie b. Predictors: (Constant), pie, a_espald c. Dependent Variable: peso
ANOVAc Model 1 Sum of Squares 3076,382 1184,285 4260,667 3382,065 878,602 4260,667 df 1 25 26 2 24 26 Mean Square 3076,382 47,371 1691,032 36,608 F 64,942 Sig. ,000a
46,192
,000b
a. Predictors: (Constant), pie b. Predictors: (Constant), pie, a_espald c. Dependent Variable: peso
Coefficientsa Unstandardized Coefficients B Std. Error -84,173 18,421 3,798 ,471 -87,250 16,228 2,213 ,687 1,415 ,490 Standardized Coefficients Beta ,850 ,495 ,444 Collinearity Statistics Tolerance VIF 1,000 ,363 ,363 1,000 2,753 2,753
Model 1 2
28
a Collinearity Diagnostics
Variance Proportions Condition Dimension Eigenvalue (Constant) pie a_espald Index a 1 1,997 Residuals Statistics ,00 1,000 ,00 2 ,003 27,778 1,00 Std. Deviation 1,00 Minimum Maximum Mean N 2 Predicted Value 1 2,995 1,000 ,00 ,00 ,0027 43,3520 87,3214 63,8889 11,40524 2 ,004 27,747 ,83 ,02 ,2227 Residual -10,25595 12,53056 ,00000 5,81312 3 ,001 50,270 ,17 ,98 ,7827 Std. Predicted Value -1,801 2,055 ,000 1,000 Std. Residual Variable: peso a. Dependent -1,695 2,071 ,000 ,961 27 Model 1
a. Dependent Variable: peso
29
Histogram
Frequency
30
31