Está en la página 1de 17

Regresin mltiple

Muchos problemas de regresin involucran ms de una variable regresiva. Tales modelos se denominan de regresin mltiple. La regresin mltiple es una de las tcnicas estadsticas mas ampliamente utilizadas. Este captulo presenta las tcnicas bsicas de la estimacin de parmetros, de la estimacin del intervalo de confianza y de la verificacin de la suficiencia del modelo para la regresin mltiple. Presentamos tambin algunos problemas encontrados con frecuencia en el uso prctico de la regresin mltiple, incluyendo la construccin del modelo y la seleccin de variables, la autocorrelacin en los errores, y la multicolinearidad y la dependencia casi lineal entre los regresores. Variable independiente (regresiva o regresora) Variable dependiente (Respuesta)

15-1 Modelos de regresin mltiple


(Independiente)
El modelo de regresin que involucra ms de un variable regresadora se llama modelo de regresin mltiple. Como un ejemplo, supngase la vida eficaz de una herramienta de corte depende de la velocidad y del ngulo de corte. Un modelo de regresin mltiple que podr describir esta relacin es Y= vida de la herramienta X1= rapidez de corte X2=ngulo de corte

(15-1)

Donde y representa la vida de la herramienta, x1, la rapidez de corte y, x2, el ngulo de corte. Este es un modelo de regresin lineal mltiple con dos regresores. El trmino lineal se emplea debido a que la ecuacin 15-1 es la funcin lineal de los parmetros desconocidos 0, 1 y 2. Ntese que el modelo describe un plano en el espacio bidimensional x1, x2. Parmetro 0 define la ordenada al origen del plano. Unas veces llamados a 1 y 2 coeficientes de regresin parciales, Porque 1 mide el cambio esperado en y por un cambio unitario en x1 cuando x2 se mantiene constante, y 2 cambio esperado en y por cambio unitario x2 cuando x1 se mantiene constante. En General la variable dependiente o respuesta y puede relacionarse con k variables independientes. El modelo de regresin mltiple (lineal) Coeficientes de regresin (15-2)

Se denomina modelos de regresin lineal mltiple con k variables independientes. Los parmetros j, j= 0, 1, . . . , k, se llaman coeficientes de regresin . Este modelo describe un hiperplano en el espacio k-dimensional de las variables regresoras {xj}. El parmetro j representa el cambio esperado en la respuesta y por cambio unitario en xj todas las variables independientes restantes xj (ij) se mantienen constantes. Los parmetros j, j = 1, 2, . . . , k, se denominan algunas veces coeficientes de regresin parciales, porque ellos describen el efecto parcial de una variable independiente cuando las otras variables independientes en el modelo se mantienen constantes. Los modelos de regresin lineal mltiple se utilizan a menudo como funciones de aproximacin. Esto es, la verdadera relacin funcional entre y y x1, x2,. Se desconoce, aunque sobre ciertos intervalos de las variablwes independientes ..

En general, cualquier modelo de regresin que es lineal en los parmetros (los parmetros ) es un modelo de regresin lineal, sin importar la forma de la superficie que genera.

15-2 Estimacin de parmetros


El mtodo de mnimos cuadrados puede utilizarse para estimar los coeficientes de regresin en la ecuacin 15-2. Supngase que se disponen n > k observaciones, y dejese que xij denoten la observacin isima o el nivel de la variable xj. Los datos aparecn en la tabla 15.1 suponemos que el termino del error en el modelo tiene E()= 0, V()= y que las { j} son variable aleatorias no correlacionadas E(e)= valor esperado del error= 0 Podemos describir el modelo, ecuacin 15-2, en trminos de las observaciones como V(E)= varianza del error=

(15-7) La funcin de mnimos cuadrados es

(15.8) La funcin L se minimizara con respecto a 0, 1, . . . , k. los estimadores de mnimos cuadrados de 0, 1, . . . , k debe satisfacerse

(15-10)

Ecuaciones normales de mnimos cuadrados

Ntese que hay p = k + 1 ecuaciones normales, una para cada una de los coeficientes de regresin desconocidos. Las solucin para las ecuaciones normales sern los estimadores de mnimos cuadrados de los coeficientes de regresin, 0, 1, . . . , k. Es ms simple resolver las ecuaciones normales si ellas se expresan en notacin de matriz. Daremos ahora un desarrollo matricial de las ecuaciones normales que es afin al desarrollo de la ecuacin 1510. El modelo en trminos de las observaciones, ecuaciones 15-7, puede expresarse en notacin matricial como K= numero de variables independientes Donde Y= vector (n X 1) obs. X=matriz (x X p) de los niveles de las variables ind. Filas B= vector ( p x 1) E= vector ( n x 1 ) E= errores aleatorios columnas

En general y es un vector (n X 1) de las observaciones, X es un matriz (x X p) de los niveles de las variables independientes, es un vector (p X 1) de los coeficientes de regresin, y es un vector (n X 1) de los errores aleatorios. Deseamos encontrar el vector de los estimadores de mnimos cuadrados, , que minimice

Ntese que L puede expresarse como

(15-11) Puesto Xy es una matriz de (1 X 1), o un escalar, y su transpuesta (Xy )= y X es el mismo escalar. Los estimadores de mnimos cuadrados deben satisfacer

Que se simplifica a

Estas ec. Son las ec. Normales de mnimos cuadrados y son idnticos

(15-12)

Las ecuaciones 15-12 son las ecuaciones normales de mnimos cuadrados. Ellas son idnticas a las ecuaciones 15-10. Para resolver las ecuaciones normales, multiplquense ambos lados de la ecuacin 15-12 por la inversa de XX. De tal modo, el estimador de mnimos cuadrados de es = Estimador de mnimos cuadrados Es fcil ver que la forma matricial de las ecuaciones normales es idntica a la de la forma escalar. Al escribir completa loa ecuacin 15-12 obtenemos

Si se efecta la multiplicacin matricial indicada, resultara la forma escalar de las ecuaciones normales (esto es, la ecuacin 15-10). En esta forma es fcil ver que XX es una matriz simtrica (p X p) y Xy es un vector columna (p X 1). Advirtase la estructura especial de la matriz XX. los elementos de la diagonal XX son las sumas de cuadrados de los elementos en las columnas de Xy son las sumas de los productos cruzados de las columnas de X y las observaciones {yi}. El modelo de regresin ajustado es

En notacin escalar, el modelo ajustado es

La diferencia entre la observacin yi y el valor ajustado yi es un residuo, digamos i=yi-yi. El vector (n X 1) de los residuos se denota mediante (15-15) La diferencia entre las observaciones y1 y el valor ajustado I es un residuo digamos eI= y1-I . El vector (nx1) de los residuos se denota mediante

Nuestro problema consiste en decidir cul de los planos posibles que podemos dibujar ser el que mejor se ajuste. Para hacer esto, de nuevo utilizaremos el criterio de mnimos cuadrados y localizaremos el plano que minimice la suma de los cuadrados de los errores, es decir las distancias desde los puntos alrededor del plano a los puntos correspondientes sobre el plano. Ejemplo. A partir de un estudio experimental acerca de la estabilizacin de arcilla muy plstica se observo que el contenido de agua para moldeo con densidad optima dependa linealmente de los porcentajes de cal y puzolana mezclados con la arcilla. Se tuvieron as los resultados de la siguiente tabla. Ajuste una ecuacin de la forma = 0+1X1+2X2 a los datos de dicha tabla
Estas Forma tridimensional con ejes Y, x1, x2 (plano) Grafica de 10 puntos de una muestra y el plano alrededor del cual estos puntos parecen ocuparse

Contenido de % de agua (y) 27.5 28.0 28.8 29.1 30.0 31.0 32.0

Porcentaje de cal (X1) 2.0 3.5 4.5 2.5 8.5 10.5 13.5

porcentaje de puzolana (X2) 18.0 16.5 10.5 2.5 9.0 4.5 1.5

Y 27.5 28 28.8 29.1 30 31 32 206.4

x1 2 3.5 4.5 2.5 8.5 10.5 13.5 45

x2 18 16.5 10.5 2.5 9 4.5 1.5 62.5

Y=y- -1.985 -1.486 -0.686 -0.386 0.514 1.514 2.515 0

X1= x1-x1 -4.428 -2.929 -1.929 -3.928 2.071 4.071 7.072 0

X2= x2-x2 9.072 7.572 1.571 -6.429 0.071 -4.429 -7.428 0

YX1 8.789 4.352 1.323 1.516 1.064 6.163 17.186 40.996

YX2 -18.01 -11.25 -1.077 2.481 0.0364 -6.705 -18.68 -53.21

X2

X2

X1 X2 -40.17 -22.178 -3.03 25.253 0.147 -18.03 -52.53 -110.54

19.6 8.579 3.721 15.42 4.289 16.57 50.01 118.2

82.3 57.33 2.468 41.33 0.005 19.61 55.17 258.3

Esta ecuacin se puede obtener por medio de la tabla con la sig. Formula
    

    por eliminacin se tiene: 1=0.257004 2=-0.096026  

   De este modo 


Esta ecuacion describe la relacion que existe entre el porcentaje de cal, porcentaje de puzolana y el porcentaje de agua Ejemplo 15.1 Montgomery y Peck (1982) describen el empleo de un modelo de regreseion para relacionar la cantidad de tiempo requerido por un vendedor de ruta (chofer) para abastecer una maquina vendedora de refrescos con el numero de latas que incluye la misma, y la distancia del vehiculo de servicio a la ubicacion de la maquina. Este modelo se empleo para el diseo de la ruta, el programa y el despacho de vehiculos. La tabla presenta 25 observaciones respecto al tiempo de entrega tomadas del mismo estudio descrito por Montgomery y Peck.(Notese que esto es una expansion del conjunto de datos empleados en el ejemplo anterior donde solo se empleo el numero de latas almacenadas como regresor.) Ajustaremos el modelo de regresin lineal mltiple:   Tabla 15-2 Datos del tiempo de entrega para el ejemplo Numero de Tiempo de entrega Numero de latas observaciones (min.)(y) X1 1 9.95 2 2 24.45 8 3 31.75 11 4 35.00 10 5 25.02 8 6 16.86 4 7 14.38 2 8 9.60 2 9 24.35 9 10 27.50 8 11 17.08 4 12 37.00 11 13 41.95 12 Distancias (pies) X2 50 110 120 550 295 200 375 52 100 300 412 400 500

14 15 16 17 18 19 20 21 22 23 24 25

11.66 21.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.63 22.13 21.15

2 4 4 20 1 10 15 15 16 17 6 5

360 205 400 600 585 540 250 290 510 590 100 400

Los estimadores de minimos cuadrados se encuentra de la ecuacion =(XX)-1XY A estos datos. La matriz X y el vector y para este modelo son 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 8 11 10 8 4 2 2 9 8 4 11 12 2 4 4 20 1 10 15 15 16 17 6 5 50 110 120 550 295 200 375 52 100 300 412 400 500 360 205 400 600 585 540 250 290 510 590 100 400 9.95 24.95 31.75 35.00 25.02 16.86 14.38 9.60 24.35 27.50 17.08 37.00 31.95 11.66 26.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.63 22.13 21.15

X=

y=

La matriz XX es XX= 1 2 50 25 206 8294 1 8 110 .. .. .. 1 5 400

1 1 . . . 1

2 8 . . . 5

50 110 . . . 400

= y el vector Xy es Xy=

206 8294 2396 77177 77177 3531848 9.95 24.45 . . . 21.15

1 2 50

1 8 110

1 5 400

725.82 8008.37 274811.31

-1 0 25 206 8294 752.82 1 = 206 2396 77177 8008.37 2 8294 77177 3531848 274811.31

.214653 = -0.00749 -0.00340

-0.0007491 0.001671 -0.000019

-0.000.340 -0.000019 0.0000015

752.82 8008.37 274811.31

2.26379143 0 = 2.74426964 1 0.01252781 2

Tabla 15-3 Observaciones, valores ajustados y residuos para el ejemplo Numero de Y1 Valores ajustados Residuales observaciones de y1 = y1 - 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 9.95 24.45 31.75 35.00 25.02 16.86 14.38 9.60 24.35 27.50 17.08 37.00 41.95 11.66 21.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.63 22.13 21.15 8.38 25.60 33.95 36.60 27.91 15.75 12.45 8.40 28.21 27.98 18.40 37.46 41.46 12.26 15.81 18.25 64.67 12.34 36.47 46.56 47.06 52.56 56.31 19.98 21.00 1.57 -1.15 -2.20 -1.60 -2.89 1.11 1.93 1.20 -3.86 -0.48 -1.32 -0.46 0.49 -0.60 5.84 -0.36 4.33 -2.04 -1.54 0.03 -2.18 1.56 0.32 2.15 0.15

Por lo tanto el modelo de regresin ajustado es = 2.26379+2.74427 X1+0.01253 X2+ Notese que hemos redondeado los coeficientes de regresin hasta cinco lugares. La tabla 15-3 muestra los valores ajustado de y y los residuales. Los valores ajustados y los residuales se calculan con la misma precision que los datos originales. Calcular los valores ajustado de y los residuales

b) Estimaremos la varianza del error (2) para el problema de la regresin mltiple en el ejemplo 15-3

Puede mostrarse que


  

MSE= Media cuadratica para el error SSE= Suma de cuadrados de los errores o residuos n-p= Grados de libertad asociados n= No. de elementos p= No. de tratamientos (variables)

 

(X Y)= 2.26379143

2.74426964

0.01252781

725.82 80008.37 274811.31

= 27062.7775

Por consiguiente la suma de cuadrados del error es


      

La estimacin de 2 (la varianza del error) es:




Puede mostrarse que el valor esperado de MSE es 2


Intervalos de confianza en regresin lineal mltiple Con frecuencia es necesaria construir estimaciones de intervalos de confianza para los coeficientes de regresin { j}, para esto se requiere que los errores {ej} se distribuyen de forma normal e independiente con media cero y varianza En consecuencia, un intervalo de confianza del 100(1-) % por ciento para el coeficiente de regresin j= o, 1,. . . k es.

Ejemplo c) Construir un intervalo de confianza del 95% respecto al parmetro 1, para nuestro ejemplo, ntese que la estimacin puntual es 1 es 1=2.14427, y que el element de la diagonal de corresponde a 1 es cii=0.001671

Conclusin: el intervalo de confianza de 95% para el coeficiente de regresin de 1se encuentre entre:2.55029 y 2.93825 Estimacin del intervalo de confianza de la respuesta media Se puede establecer un intervalo de confianza para la respuesta media en determinado punto particular, digamos X0, X01, . . . Xok
1 Xo X01 X02 X03

La respuesta media estimada en ese punto es La varianza de Yo (variable de respuesta)


Por lo tanto, un intervalo de confianza del 100(1-)% respecto a la respuesta media en el punto X0, X01, . . . Xok es

Ejemplo: el embotellador de refrescos en nuestro ejemplo le gustara construir un intervalo de confianza del 95% respecto al tiempo de entrega media para una salida que requiere x1=8 latas y donde la distancia X2=275 pies.
1 Xo X01 X02 X03
Xo 1 8 275

Respuesta media esperada:

La varianza de se estima mediante:

Por lo tanto un intervalo de confianza del 95%en el tiempo de entrega media es.

Conclusin: se estima que el tiempo promedio de entrega para una salida se encuentra entre 26.66 y 28.66 min. Con un nivel de confianza del 95% Prediccin de nuevas observaciones El modelo de regresin puede utilizar para predecir observaciones futuras respecto y que corresponde a valores particulares de las variables independientes, digamos X0, X01, . . . Xok, una estimacin puntual de la observacin futura Yo en el punto X0, X01, . . . Xok es Un intervalo de prediccin del 100(1-) % para esta observacin futura es

Ejemplo: Supngase que el embotellador de refrescos de nuestro ejemplo desea construir un intervalo de prediccin del 95% en el tiempo de entrega; X1=8 latas y X2= 275 pies Conclusin.El intervalo de prediccin en el tiempo con un nivel de confianza del 95% est entre 22.51 y 32.51min este intervalo es ms ancho ya que toma en cuenta tanto el error estndar del estimador mas el error muestra.

Pruebas de hiptesis en la regresin lineal mltiple En regresin lineal mltiple , ciertos tipos de hiptesis respecto a los parmetros del modelo son o tipos de al medir la suficiencia del modelo, seguiremos requiriendo la suposicin normalidad en los errores prueba de significacin de regresin, esta prueba es para determinar si hay una relacin lineal entre la variable dependiente y un subconjunto de las variables dependientes las hiptesis apropiadas son:
Al menos de las siguientes variables independientes el rechazo de implica que el menos una de las variables independientes

Anlisis de la varianza para la significacin de la regresin en la regresin mltiple Grados fuente de Suma de Media Fo de variabilidad cuadrados cuadrtica libertad regresin Error Total SSR= SSE= SYY= K= MSR= n-k-1= MSE= n-1= MSR MSE

SYY (suma total de los cuadrados) SYY= SSR+SSE El procedimiento prueba para es calcular Se rechaza si si

SSE=SYY-SSR SYY=

Ejemplo: Probaremos la significancia de la regresin de nuestro problema 15.1


Al menos para una de las variables independientes


SYY=27177.9515-

SSR=27062.7775-

SSE=SYY-SSR=6105.9447-5990.7712=115.1735
Regin de rechazo

Puesto que si

Regin aceptada

Conclusin.- se rechaza ya que Por lo tanto el tiempo de entrega se relaciona con el volumen de entrega o con la distancia o con ambos, sin embargo notamos que esto no necesariamente implica que la relacin encontrada, es apropiada para predecir. El tiempo de entrega con o con la funcin del volumen y la distancia. Se requieren pruebas adicionales de la suficiencia del modelo Pruebas de coeficientes individuales de regresin. Con frecuencia estamos interesados en probar hiptesis respecto a los coeficientes individuales de regresin, tales pruebas serian tiles en la determinacin del valor de cada una de las variables independientes en el modelo de regresin. Por ejemplo, el modelo podra ser ms eficaz con la inclusin de variables adicionales, o quizs con la omisin de una o mas variables ya en el modelo. La adicin de una variable al modelo de regresin siempre ocasiona que SSR aumente y que SSE disminuya, adems, aadir una variable sin importancia al modelo puede incrementar el error de MSE aminorando de este la utilidad del modelo. La hiptesis para probar la significacin de cualquier coeficiente de regresin individual, Bj, son Ho: Bj= 0 si Ho: Bj= 0 no se rechaza (se acepta), entonces esto indica que Xjpuede ser eliminada del modelo. Hi: Bj0 La estadstica de prueba para esta hiptesis es to= Bj/2 Cjj La hiptesis nula Ho: Bj= 0 se rechaza si l to l> t /2, n-k-1 Ejemplo. Probar el coeficiente individual de regresin B2 con un nivel de confianza del 95% Ho: B2= 0 Hi: B20 to= Bj/2 C33 = 0.01253/(5.2352)(.000015) =4.4767 si t .25, 22 = 2.074

Entonces 4.4767>2.074 Conclusin: concluimos que la variable X2 (distancia) contribuye de manera significativa al modelo. Ntese que esta prueba mide la contribucin parcial de X2 dado que X1 esta en el modelo. 15.6 MEDIDAS DE ADECUACION DEL MODELO Es posible utilizar diversas tcnicas para medir la adecuacin del modelo de regresin mltiple. Esta seccin presentara varias de estas tcnicas. La validacin del modelo es una parte importante del proceso de construccin del modelo de regresin mltiple. Un buen artculo respecto a este tema es Snee (1977). Vase tambin en Montgomery and Peck (1982, capitulo 10). 15.6.1 coeficiente de determinacin mltiple El coeficiente de determinacin mltiple R2 se define como
2

R es una medida del grado de reduccin en la variabilidad de y obtenida mediante el empleo de las variables regresivas X1, X2. Xk. Como en el caso de la regresin lineal simple, debemos tener 0 R2 1. Sin embargo un valor grande de R2, independientemente si la variable adicional es o no estadsticamente significativa. De tal modo, es posible en modelos que tienen grandes valores de R2 producir predicciones pobres de nuevas observaciones o estimaciones de la respuesta media. La raz cuadrada positiva de R2 es el coeficiente de correlacin mltiple entre Y y el conjunto de variables regresoras X1, X2. Xk. esto es R es una medida de la asociacin lineal entre Y y X1, X2. Xk. cuando k=1, esto es vuelve la correlacion simple entre Y y x. Ejemplo el coeficiente de determinacin mltiple para el modelo de regresin estimado en el ejemplo 15.1 es Esto alrededor del 98.11 porciento de la variabilidad en el tiempo de entrega y ha sido explicada cuando se emplean las dos variables regresoras, esto es volumen de entrega (x1) y distancia (x2). En el ejemplo 14.7 se desarrollo un modelo que relaciona y con x1. El valor de R2 en este modelo es R2 =.963954. Observaciones 15 y 17. O cualquier otra razn para descartar o modificar estos dos. Por tanto al aadir la variable x2 al modelo se incremento R2 de .963954 a puntos. 15.6.2 ANALISIS RESIDUAL Los residuos del modelo de regresin mltiple estimado. Definidos por yi - Yi, desempean un importante papel al juzgar la suficiencia del modelo del mismo modo que lo hacen en regresin lineal simple. Como se noto en la seccin 14.5.1. Hay varias graficas residuales que son a menudo tiles. Estas se ilustran en el ejemplo 15.9. Tambin resulta til graficar los residuos contra variables que no estn presentes en el modelo pero que son posibles candidatas para incluirlas. Los patrones de estas graficas, similares a los de la figura 14.5, indican que el modelo puede mejorarse agregando la variable candidata
    

   

Ejemplo 15.9 los residuos para el modelo estimado en el ejemplo 15.1 se muestran en la tabla 15.3 estos residuos se grafican en papel de probabilidad normal en la figura 15.2. No se manifiestan de manera evidente, desviaciones importantes con respecto a la normalidad, aunque los dos residuos mas grandes k 1 2 3 4 5 6 7 8 9 e -3.9 -2.9 -2.2 -2.2 -2 -1.6 -1.5 -1.3 -1.2 Fk=(k.5)/n 0.02 0.06 0.1 0.14 0.18 0.22 0.26 0.3 0.34 0.38 0.42 0.46 0.5 0.54 0.58 0.62 0.66 0.7 0.74 0.78 0.82 0.86 0.9 0.94 0.98 % 2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98 15-3 Grafica residual contra y

10 -0.6 11 -0.5 12 -0.5 13 -0.4 14 0.03 15 0.15 16 0.32 17 0.49 18 1.11 19 1.2 20 1.56 21 1.57 22 1.93 23 2.15 24 4.33 25 5.82

Los residuos se grafican contra y en la figura 15-3 y contra x1 y x2 en las figuras 15-4 y 15-5 respectivamente. Los dos residuos mas grandes e15 y e17 son evidentes. En la fiugra 15-4 hay cierta indicacion de que el modelo subpredice el tiempo en las salidas con volumenes de entrega pequeos (X16 latas) y volumenes de entrega grandes (X215 latas), y sobre predice el tiempo en salidas con volumenes de entrega intermedios (7x114 latas). La misma impresion se obtiene de la figura 15-3. Es posible que la reaccin entre el tiempo y el volumen de entrega no sea lineal (lo que requiere que un trmino que involucra a x12 por ejemplo se agregue al modelo), o que otras variables

regresoras no presentes en el modelo afecten la respuesta. Veremos mas adelante que una tercera variable regresora se requiere para modelar en forma adecuada estos datos.

Figura 15-4 Grafica residual contra x1

Figura 15-2 Grafica residual contra x2

También podría gustarte