Está en la página 1de 6

Probabilidades y Estadstica

Regresin Lineal Mltiple


Modelo Lineal General Se tienen las variables predictoras o explicativas x1 , x2 ,..., xk , las cuales pueden tener alguna influencia sobre la variable respuesta Y .Suponer que el modelo tiene la siguiente forma:

Yi = 0 + 1 xi1 + 2 xi 2 + ... + k xik + i

i = 1,2,..., n

Donde Yi es la i-sima observacin de la respuesta para un conjunto de valores fijos xi1 , xi 2 ,..., xik de las k variables de predictoras.

i corresponde al error aleatorio.


Como se puede ver, e modelo tiene k variables de regresin, definiendo un hiperplano en el espacio de dimensin k. Adems, se tienen m= k+1 parmetros lineales desconocidos (coeficientes de regresin).

Estimacin de los parmetros del modelo


Debido a que la cantidad de variables y parmetros del modelo puede ser muy grande, es de gran utilidad utilizar la notacin matricial para trabajar con ste. Entonces, el modelo general queda:

Y = X +
Donde:

Y1 Y Y = 2 , M Yn

1 x11 1 x 21 X= M M 1 xn1

x12 x22 M xn 2

L x1k L x2 k , M M L xnk

0 = 1, M k

1 = 2 M k

Notar que X es una matriz de n m , y es un vector de m filas, donde m=k+1. Para la estimacin de los coeficientes de regresin por mnimos cuadrados, se tiene:

L = T = (Y X ) (Y X )
T

es la solucin para en las ecuaciones: El estimador de mnimos cuadrados


L =0
Resolviendo, se obtiene:

= XT Y XT X
Finalmente:

= XT X = X Y

XT Y

Por lo tanto, la ecuacin estimada de regresin es:

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

es el vector de n 1 que contiene a los valores estimados para la respuesta promedio correspondientes Donde Y a los n puntos de observacin de las variables de prediccin.

proporciona el vector de residuos. Notar que la diferencia entre los vectores Y e Y Anlisis de Varianza
Se definen la Hiptesis Nula H 0 : 1 = 2 = ... = k = 0 contra la hiptesis alternativa H 1 : j 0 para algn j = 1,2,..., k La hiptesis H 0 establece que todos los coeficientes excepto 0 son iguales a cero. Con ello se plantea que no existe ninguna relacin igual a la especificada por el modelo entre la variable respuesta y el conjunto de variables predictoras. Por lo tanto, si se rechaza H 0 , quiere decir que existe evidencia suficiente para afirmar que existe relacin significativa entre al menos una de las variables predictoras y la variable respuesta. Al igual que en el caso de regresin lineal, la suma de cuadrados totales es igual a la suma de cuadrados de la regresin ms la suma de cuadrados de los errores, es decir:

SCT = SCR + SCE


Donde:

SCT = Y

( Y ) Y
i

T X T Y ( Yi ) SCR = n T T T X Y SCE = Y Y

Entonces, la tabla ANOVA queda de la siguiente forma:


Fuente de Variacin Regresin Grados de Libertad k=m-1 Sumas de Cuadrados Cuadrados Medios F

T X T Y ( Yi ) n

SCR m 1

SCR m 1

SCE nm

Error

n-m

T XT Y YTY

S2 =

SCE nm

Total

n-1

Y
La hiptesis nula se rechaza si F > F1 ;m1;mn

( Y ) Y
i

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

Coeficiente de Determinacin Mltiple


Al igual que en el caso de regresin simple R 2 , el coeficiente de determinacin intenta reflejar la cantidad de variabilidad en los datos que es explicada por el modelo de regresin. Este coeficiente se calcula:

R2 =

SCR SCE = 1 SCT SCT

Pruebas para los parmetros individuales


El anlisis ANOVA permite reunir evidencia acerca de si al menos uno de los coeficientes de regresin es distinto de cero, lo cual indicara relacin entre la variable de regresin correspondiente y la variable respuesta. Por otra parte, tambin es posible realizar pruebas para cada coeficiente de manera individual. Para un coeficiente j , j = 1,2,..., k , se plantean las siguientes hiptesis:

H0 : j = 0
H1 : j 0

es: Se tiene que un estimador de la varianza del estimador j = c s2 s2 j ( j +1)

( )

, j = 0,1,..., k

Donde c( j +1) es el elemento de la diagonal j+1 de la matriz XT X Se define el estadstico T =

s j

( )
2 ;n m

Entonces, H 0 se rechaza si T > t

Intervalos de Confianza para los Coeficientes


Se puede verificar que un intervalo de confianza del (1 ) 100% para el parmetro j es:

t j j 1 ,n m s j

( )

, j = 0,1,..., k

Intervalos de Confianza para la Respuesta Promedio


Suponer que se desea predecir la respuesta promedio cuando las k variables predictoras toman valores especficos x1 , x2 ,..., xk . El vector de valores para estas k variables se define de la siguiente forma:

XT 1 x1 P =[

x2 L xk ]

Entonces, la respuesta promedio estimada es:

= XTB Y P P + x + x + ... + x = 0 1 1 2 2 k k est dada por: Es posible demostrar que Var Y P = 2 XT (XT X )1 X Var Y P P P
Edmundo Pea Rozas, Juan Garcs Seguel

( )

( )

Probabilidades y Estadstica

es: Por lo tanto, una estimacin de Var Y P = s 2 XT XT X s2 Y P P

( )

( )

XP

Donde s 2 es la varianza de los residuos y X es la matriz original de valores x. Entonces, un intervalo de confianza del 100(1 )% para la respuesta promedio en x1 , x2 ,..., xk est definido por:

p t1 / 2;nm s Y y P

( )

Intervalos de Confianza para una Respuesta Particular


Suponer que se desea estimar una respuesta particular para x1 , x2 ,..., xk . , la prediccin tambin est dada por la expresin:
T Y particular = X particular B

+ x + x + ... + x = 0 1 1 2 2 k k Sin embargo, la varianza de Y particular se define por:


2 T T Var Y particular = 1 + X particular X X

X particular

Una estimacin de esta varianza es:


2 T T s2 Y particular = s 1 + X particular X X

X particular

Por lo tanto, un intervalo de confianza del 100(1 )% para la prediccin de una respuesta real en x1 , x2 ,..., xk est definido por:

particular t1 / 2;nm s Y y particular

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

Ejemplo: En una planta productiva, uno de los tems de costo ms importantes es el uso de agua. Por ello, los ingenieros desean predecir el consumo de agua, en funcin de otras variables. Se cuenta con una muestra de 17 observaciones.
Nmero de Produccin (Miles Das de Trabajo personas en el de Toneladas) en el mes mes 7107 6373 6796 9208 14792 14564 11964 13526 12656 14119 16691 14571 13619 14575 14556 18573 15618 21 22 22 20 25 23 20 23 20 20 22 19 22 22 21 21 22 129 141 153 166 193 189 175 186 190 187 195 206 198 192 191 200 200 Consumo de agua (Galones) 3067 2828 2891 2994 3082 3898 3502 3060 3211 3286 3542 3125 3022 2922 3950 4488 3295

Temperatura (F) 58,8 65,2 70,9 77,4 79,3 81 71,9 63,9 54,5 39,5 44,5 43,6 56 64,7 73 78,9 79,4

Se definen entonces las variables:

Y : Consumo de agua (galones/mes)

x1 : Temperatura Exterior promedio mensual (Grados Fahrenheit)


x2 : Produccin de la planta (miles de toneladas al mes) x3 : Das de Trabajo en el mes. x4 : Nmero de trabajadores que laboraron en el mes.
Aplicando la herramienta del anlisis de regresin que proporciona el programa MS Excel, se obtiene el siguiente modelo ajustado:

Edmundo Pea Rozas, Juan Garcs Seguel

Probabilidades y Estadstica

= 6360,3373 + 13,8689 x + 0,2117 x - 126,6903x - 21,8179 x Y 1 2 3 4


Ahora, analizando la adecuacin del modelo, se tiene que: El coeficiente de determinacin R 2 = 0,7670 , en otras palabras, un 76% de la variabilidad del consumo de agua es explicada por el modelo de regresin. Se obtiene tambin la siguiente tabla ANOVA:
Fuente de Variacin Regresin Residuos Total Grados de libertad 4 12 16 Suma de cuadrados 2448834,01 743797,52 3192631,53 Promedio de los cuadrados 61983,12663 F Valor - P

612208,5025 9,87701873 0,00089576

A partir del anlisis de varianza, se puede concluir que al menos uno de los coeficientes de regresin es significativamente distinto de cero. Analizando los coeficientes de forma individual, se tiene observa lo siguiente:
Coeficiente Estimador Puntual 6360,33733 13,8688644 0,21170294 -126,690357 -21,8179635 Error tpico 1314,39161 5,15981506 0,04554312 48,0223383 7,2845197 Estadstico t 4,838997198 2,687860753 4,648407002 -2,638154687 -2,995113533 Valor -P 0,000405742 0,019747815 0,000561988 0,021647374 0,011167649

0 1 2 3 4

Se tiene que, si se utiliza un nivel de significancia del 5% en las pruebas de hiptesis para los coeficientes individuales, existe evidencia para afirmar que todos ellos tienen valores distintos de cero, por lo tanto s ayudan a predecir el comportamiento de la variable respuesta. Es posible tambin obtener intervalos de un 95% de confianza para los coeficientes individuales, los cuales se detallan a continuacin:
Coeficiente Lmite Inferior 3496,524023 2,626593142 0,112473013 -231,3220437 -37,68956849 Lmite Superior 9224,15064 25,1111356 0,31093286 -22,0586701 -5,94635855

0 1 2 3 4

Edmundo Pea Rozas, Juan Garcs Seguel

También podría gustarte