Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Multiple
Regresion Multiple
Muchos problemas de regresin involucran ms de una variable regresiva. Tales modelos se denominan de regresin mltiple. La regresin mltiple es una de las tcnicas estadsticas mas ampliamente utilizadas. Este captulo presenta las tcnicas bsicas de la estimacin de parmetros, de la estimacin del intervalo de confianza y de la verificacin de la suficiencia del modelo para la regresin mltiple. Presentamos tambin algunos problemas encontrados con frecuencia en el uso prctico de la regresin mltiple, incluyendo la construccin del modelo y la seleccin de variables, la autocorrelacin en los errores, y la multicolinearidad y la dependencia casi lineal entre los regresores. Variable independiente (regresiva o regresora) Variable dependiente (Respuesta)
(15-1)
Donde y representa la vida de la herramienta, x1, la rapidez de corte y, x2, el ngulo de corte. Este es un modelo de regresin lineal mltiple con dos regresores. El trmino lineal se emplea debido a que la ecuacin 15-1 es la funcin lineal de los parmetros desconocidos 0, 1 y 2. Ntese que el modelo describe un plano en el espacio bidimensional x1, x2. Parmetro 0 define la ordenada al origen del plano. Unas veces llamados a 1 y 2 coeficientes de regresin parciales, Porque 1 mide el cambio esperado en y por un cambio unitario en x1 cuando x2 se mantiene constante, y 2 cambio esperado en y por cambio unitario x2 cuando x1 se mantiene constante. En General la variable dependiente o respuesta y puede relacionarse con k variables independientes. El modelo de regresin mltiple (lineal) Coeficientes de regresin (15-2)
Se denomina modelos de regresin lineal mltiple con k variables independientes. Los parmetros j, j= 0, 1, . . . , k, se llaman coeficientes de regresin . Este modelo describe un hiperplano en el espacio k-dimensional de las variables regresoras {xj}. El parmetro j representa el cambio esperado en la respuesta y por cambio unitario en xj todas las variables independientes restantes xj (ij) se mantienen constantes. Los parmetros j, j = 1, 2, . . . , k, se denominan algunas veces coeficientes de regresin parciales, porque ellos describen el efecto parcial de una variable independiente cuando las otras variables independientes en el modelo se mantienen constantes. Los modelos de regresin lineal mltiple se utilizan a menudo como funciones de aproximacin. Esto es, la verdadera relacin funcional entre y y x1, x2,. Se desconoce, aunque sobre ciertos intervalos de las variablwes independientes ..
En general, cualquier modelo de regresin que es lineal en los parmetros (los parmetros ) es un modelo de regresin lineal, sin importar la forma de la superficie que genera.
(15.8) La funcin L se minimizara con respecto a 0, 1, . . . , k. los estimadores de mnimos cuadrados de 0, 1, . . . , k debe satisfacerse
(15-10)
Ntese que hay p = k + 1 ecuaciones normales, una para cada una de los coeficientes de regresin desconocidos. Las solucin para las ecuaciones normales sern los estimadores de mnimos cuadrados de los coeficientes de regresin, 0, 1, . . . , k. Es ms simple resolver las ecuaciones normales si ellas se expresan en notacin de matriz. Daremos ahora un desarrollo matricial de las ecuaciones normales que es afin al desarrollo de la ecuacin 1510. El modelo en trminos de las observaciones, ecuaciones 15-7, puede expresarse en notacin matricial como K= numero de variables independientes Donde Y= vector (n X 1) obs. X=matriz (x X p) de los niveles de las variables ind. Filas B= vector ( p x 1) E= vector ( n x 1 ) E= errores aleatorios columnas
En general y es un vector (n X 1) de las observaciones, X es un matriz (x X p) de los niveles de las variables independientes, es un vector (p X 1) de los coeficientes de regresin, y es un vector (n X 1) de los errores aleatorios. Deseamos encontrar el vector de los estimadores de mnimos cuadrados, , que minimice
(15-11) Puesto Xy es una matriz de (1 X 1), o un escalar, y su transpuesta (Xy )= y X es el mismo escalar. Los estimadores de mnimos cuadrados deben satisfacer
Que se simplifica a
Estas ec. Son las ec. Normales de mnimos cuadrados y son idnticos
(15-12)
Las ecuaciones 15-12 son las ecuaciones normales de mnimos cuadrados. Ellas son idnticas a las ecuaciones 15-10. Para resolver las ecuaciones normales, multiplquense ambos lados de la ecuacin 15-12 por la inversa de XX. De tal modo, el estimador de mnimos cuadrados de es = Estimador de mnimos cuadrados Es fcil ver que la forma matricial de las ecuaciones normales es idntica a la de la forma escalar. Al escribir completa loa ecuacin 15-12 obtenemos
Si se efecta la multiplicacin matricial indicada, resultara la forma escalar de las ecuaciones normales (esto es, la ecuacin 15-10). En esta forma es fcil ver que XX es una matriz simtrica (p X p) y Xy es un vector columna (p X 1). Advirtase la estructura especial de la matriz XX. los elementos de la diagonal XX son las sumas de cuadrados de los elementos en las columnas de Xy son las sumas de los productos cruzados de las columnas de X y las observaciones {yi}. El modelo de regresin ajustado es
La diferencia entre la observacin yi y el valor ajustado yi es un residuo, digamos i=yi-yi. El vector (n X 1) de los residuos se denota mediante (15-15) La diferencia entre las observaciones y1 y el valor ajustado I es un residuo digamos eI= y1-I . El vector (nx1) de los residuos se denota mediante
Nuestro problema consiste en decidir cul de los planos posibles que podemos dibujar ser el que mejor se ajuste. Para hacer esto, de nuevo utilizaremos el criterio de mnimos cuadrados y localizaremos el plano que minimice la suma de los cuadrados de los errores, es decir las distancias desde los puntos alrededor del plano a los puntos correspondientes sobre el plano. Ejemplo. A partir de un estudio experimental acerca de la estabilizacin de arcilla muy plstica se observo que el contenido de agua para moldeo con densidad optima dependa linealmente de los porcentajes de cal y puzolana mezclados con la arcilla. Se tuvieron as los resultados de la siguiente tabla. Ajuste una ecuacin de la forma = 0+1X1+2X2 a los datos de dicha tabla
Estas Forma tridimensional con ejes Y, x1, x2 (plano) Grafica de 10 puntos de una muestra y el plano alrededor del cual estos puntos parecen ocuparse
Contenido de % de agua (y) 27.5 28.0 28.8 29.1 30.0 31.0 32.0
Porcentaje de cal (X1) 2.0 3.5 4.5 2.5 8.5 10.5 13.5
porcentaje de puzolana (X2) 18.0 16.5 10.5 2.5 9.0 4.5 1.5
X2
X2
Esta ecuacin se puede obtener por medio de la tabla con la sig. Formula
De este modo
Esta ecuacion describe la relacion que existe entre el porcentaje de cal, porcentaje de puzolana y el porcentaje de agua Ejemplo 15.1 Montgomery y Peck (1982) describen el empleo de un modelo de regreseion para relacionar la cantidad de tiempo requerido por un vendedor de ruta (chofer) para abastecer una maquina vendedora de refrescos con el numero de latas que incluye la misma, y la distancia del vehiculo de servicio a la ubicacion de la maquina. Este modelo se empleo para el diseo de la ruta, el programa y el despacho de vehiculos. La tabla presenta 25 observaciones respecto al tiempo de entrega tomadas del mismo estudio descrito por Montgomery y Peck.(Notese que esto es una expansion del conjunto de datos empleados en el ejemplo anterior donde solo se empleo el numero de latas almacenadas como regresor.) Ajustaremos el modelo de regresin lineal mltiple: Tabla 15-2 Datos del tiempo de entrega para el ejemplo Numero de Tiempo de entrega Numero de latas observaciones (min.)(y) X1 1 9.95 2 2 24.45 8 3 31.75 11 4 35.00 10 5 25.02 8 6 16.86 4 7 14.38 2 8 9.60 2 9 24.35 9 10 27.50 8 11 17.08 4 12 37.00 11 13 41.95 12 Distancias (pies) X2 50 110 120 550 295 200 375 52 100 300 412 400 500
14 15 16 17 18 19 20 21 22 23 24 25
11.66 21.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.63 22.13 21.15
2 4 4 20 1 10 15 15 16 17 6 5
360 205 400 600 585 540 250 290 510 590 100 400
Los estimadores de minimos cuadrados se encuentra de la ecuacion =(XX)-1XY A estos datos. La matriz X y el vector y para este modelo son 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 8 11 10 8 4 2 2 9 8 4 11 12 2 4 4 20 1 10 15 15 16 17 6 5 50 110 120 550 295 200 375 52 100 300 412 400 500 360 205 400 600 585 540 250 290 510 590 100 400 9.95 24.95 31.75 35.00 25.02 16.86 14.38 9.60 24.35 27.50 17.08 37.00 31.95 11.66 26.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.63 22.13 21.15
X=
y=
1 1 . . . 1
2 8 . . . 5
50 110 . . . 400
= y el vector Xy es Xy=
1 2 50
1 8 110
1 5 400
-1 0 25 206 8294 752.82 1 = 206 2396 77177 8008.37 2 8294 77177 3531848 274811.31
Tabla 15-3 Observaciones, valores ajustados y residuos para el ejemplo Numero de Y1 Valores ajustados Residuales observaciones de y1 = y1 - 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 9.95 24.45 31.75 35.00 25.02 16.86 14.38 9.60 24.35 27.50 17.08 37.00 41.95 11.66 21.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.63 22.13 21.15 8.38 25.60 33.95 36.60 27.91 15.75 12.45 8.40 28.21 27.98 18.40 37.46 41.46 12.26 15.81 18.25 64.67 12.34 36.47 46.56 47.06 52.56 56.31 19.98 21.00 1.57 -1.15 -2.20 -1.60 -2.89 1.11 1.93 1.20 -3.86 -0.48 -1.32 -0.46 0.49 -0.60 5.84 -0.36 4.33 -2.04 -1.54 0.03 -2.18 1.56 0.32 2.15 0.15
Por lo tanto el modelo de regresin ajustado es = 2.26379+2.74427 X1+0.01253 X2+ Notese que hemos redondeado los coeficientes de regresin hasta cinco lugares. La tabla 15-3 muestra los valores ajustado de y y los residuales. Los valores ajustados y los residuales se calculan con la misma precision que los datos originales. Calcular los valores ajustado de y los residuales
b) Estimaremos la varianza del error (2) para el problema de la regresin mltiple en el ejemplo 15-3
MSE= Media cuadratica para el error SSE= Suma de cuadrados de los errores o residuos n-p= Grados de libertad asociados n= No. de elementos p= No. de tratamientos (variables)
(X Y)= 2.26379143
2.74426964
0.01252781
= 27062.7775
Intervalos de confianza en regresin lineal mltiple Con frecuencia es necesaria construir estimaciones de intervalos de confianza para los coeficientes de regresin { j}, para esto se requiere que los errores {ej} se distribuyen de forma normal e independiente con media cero y varianza En consecuencia, un intervalo de confianza del 100(1-) % por ciento para el coeficiente de regresin j= o, 1,. . . k es.
Ejemplo c) Construir un intervalo de confianza del 95% respecto al parmetro 1, para nuestro ejemplo, ntese que la estimacin puntual es 1 es 1=2.14427, y que el element de la diagonal de corresponde a 1 es cii=0.001671
Conclusin: el intervalo de confianza de 95% para el coeficiente de regresin de 1se encuentre entre:2.55029 y 2.93825 Estimacin del intervalo de confianza de la respuesta media Se puede establecer un intervalo de confianza para la respuesta media en determinado punto particular, digamos X0, X01, . . . Xok
1 Xo X01 X02 X03
Por lo tanto, un intervalo de confianza del 100(1-)% respecto a la respuesta media en el punto X0, X01, . . . Xok es
Ejemplo: el embotellador de refrescos en nuestro ejemplo le gustara construir un intervalo de confianza del 95% respecto al tiempo de entrega media para una salida que requiere x1=8 latas y donde la distancia X2=275 pies.
1 Xo X01 X02 X03
Xo 1 8 275
Por lo tanto un intervalo de confianza del 95%en el tiempo de entrega media es.
Conclusin: se estima que el tiempo promedio de entrega para una salida se encuentra entre 26.66 y 28.66 min. Con un nivel de confianza del 95% Prediccin de nuevas observaciones El modelo de regresin puede utilizar para predecir observaciones futuras respecto y que corresponde a valores particulares de las variables independientes, digamos X0, X01, . . . Xok, una estimacin puntual de la observacin futura Yo en el punto X0, X01, . . . Xok es Un intervalo de prediccin del 100(1-) % para esta observacin futura es
Ejemplo: Supngase que el embotellador de refrescos de nuestro ejemplo desea construir un intervalo de prediccin del 95% en el tiempo de entrega; X1=8 latas y X2= 275 pies Conclusin.El intervalo de prediccin en el tiempo con un nivel de confianza del 95% est entre 22.51 y 32.51min este intervalo es ms ancho ya que toma en cuenta tanto el error estndar del estimador mas el error muestra.
Pruebas de hiptesis en la regresin lineal mltiple En regresin lineal mltiple , ciertos tipos de hiptesis respecto a los parmetros del modelo son o tipos de al medir la suficiencia del modelo, seguiremos requiriendo la suposicin normalidad en los errores prueba de significacin de regresin, esta prueba es para determinar si hay una relacin lineal entre la variable dependiente y un subconjunto de las variables dependientes las hiptesis apropiadas son:
Al menos de las siguientes variables independientes el rechazo de implica que el menos una de las variables independientes
Anlisis de la varianza para la significacin de la regresin en la regresin mltiple Grados fuente de Suma de Media Fo de variabilidad cuadrados cuadrtica libertad regresin Error Total SSR= SSE= SYY= K= MSR= n-k-1= MSE= n-1= MSR MSE
SYY (suma total de los cuadrados) SYY= SSR+SSE El procedimiento prueba para es calcular Se rechaza si si
SSE=SYY-SSR SYY=
SYY=27177.9515-
SSR=27062.7775-
SSE=SYY-SSR=6105.9447-5990.7712=115.1735
Regin de rechazo
Puesto que si
Regin aceptada
Conclusin.- se rechaza ya que Por lo tanto el tiempo de entrega se relaciona con el volumen de entrega o con la distancia o con ambos, sin embargo notamos que esto no necesariamente implica que la relacin encontrada, es apropiada para predecir. El tiempo de entrega con o con la funcin del volumen y la distancia. Se requieren pruebas adicionales de la suficiencia del modelo Pruebas de coeficientes individuales de regresin. Con frecuencia estamos interesados en probar hiptesis respecto a los coeficientes individuales de regresin, tales pruebas serian tiles en la determinacin del valor de cada una de las variables independientes en el modelo de regresin. Por ejemplo, el modelo podra ser ms eficaz con la inclusin de variables adicionales, o quizs con la omisin de una o mas variables ya en el modelo. La adicin de una variable al modelo de regresin siempre ocasiona que SSR aumente y que SSE disminuya, adems, aadir una variable sin importancia al modelo puede incrementar el error de MSE aminorando de este la utilidad del modelo. La hiptesis para probar la significacin de cualquier coeficiente de regresin individual, Bj, son Ho: Bj= 0 si Ho: Bj= 0 no se rechaza (se acepta), entonces esto indica que Xjpuede ser eliminada del modelo. Hi: Bj0 La estadstica de prueba para esta hiptesis es to= Bj/2 Cjj La hiptesis nula Ho: Bj= 0 se rechaza si l to l> t /2, n-k-1 Ejemplo. Probar el coeficiente individual de regresin B2 con un nivel de confianza del 95% Ho: B2= 0 Hi: B20 to= Bj/2 C33 = 0.01253/(5.2352)(.000015) =4.4767 si t .25, 22 = 2.074
Entonces 4.4767>2.074 Conclusin: concluimos que la variable X2 (distancia) contribuye de manera significativa al modelo. Ntese que esta prueba mide la contribucin parcial de X2 dado que X1 esta en el modelo. 15.6 MEDIDAS DE ADECUACION DEL MODELO Es posible utilizar diversas tcnicas para medir la adecuacin del modelo de regresin mltiple. Esta seccin presentara varias de estas tcnicas. La validacin del modelo es una parte importante del proceso de construccin del modelo de regresin mltiple. Un buen artculo respecto a este tema es Snee (1977). Vase tambin en Montgomery and Peck (1982, capitulo 10). 15.6.1 coeficiente de determinacin mltiple El coeficiente de determinacin mltiple R2 se define como
2
R es una medida del grado de reduccin en la variabilidad de y obtenida mediante el empleo de las variables regresivas X1, X2. Xk. Como en el caso de la regresin lineal simple, debemos tener 0 R2 1. Sin embargo un valor grande de R2, independientemente si la variable adicional es o no estadsticamente significativa. De tal modo, es posible en modelos que tienen grandes valores de R2 producir predicciones pobres de nuevas observaciones o estimaciones de la respuesta media. La raz cuadrada positiva de R2 es el coeficiente de correlacin mltiple entre Y y el conjunto de variables regresoras X1, X2. Xk. esto es R es una medida de la asociacin lineal entre Y y X1, X2. Xk. cuando k=1, esto es vuelve la correlacion simple entre Y y x. Ejemplo el coeficiente de determinacin mltiple para el modelo de regresin estimado en el ejemplo 15.1 es Esto alrededor del 98.11 porciento de la variabilidad en el tiempo de entrega y ha sido explicada cuando se emplean las dos variables regresoras, esto es volumen de entrega (x1) y distancia (x2). En el ejemplo 14.7 se desarrollo un modelo que relaciona y con x1. El valor de R2 en este modelo es R2 =.963954. Observaciones 15 y 17. O cualquier otra razn para descartar o modificar estos dos. Por tanto al aadir la variable x2 al modelo se incremento R2 de .963954 a puntos. 15.6.2 ANALISIS RESIDUAL Los residuos del modelo de regresin mltiple estimado. Definidos por yi - Yi, desempean un importante papel al juzgar la suficiencia del modelo del mismo modo que lo hacen en regresin lineal simple. Como se noto en la seccin 14.5.1. Hay varias graficas residuales que son a menudo tiles. Estas se ilustran en el ejemplo 15.9. Tambin resulta til graficar los residuos contra variables que no estn presentes en el modelo pero que son posibles candidatas para incluirlas. Los patrones de estas graficas, similares a los de la figura 14.5, indican que el modelo puede mejorarse agregando la variable candidata
Ejemplo 15.9 los residuos para el modelo estimado en el ejemplo 15.1 se muestran en la tabla 15.3 estos residuos se grafican en papel de probabilidad normal en la figura 15.2. No se manifiestan de manera evidente, desviaciones importantes con respecto a la normalidad, aunque los dos residuos mas grandes k 1 2 3 4 5 6 7 8 9 e -3.9 -2.9 -2.2 -2.2 -2 -1.6 -1.5 -1.3 -1.2 Fk=(k.5)/n 0.02 0.06 0.1 0.14 0.18 0.22 0.26 0.3 0.34 0.38 0.42 0.46 0.5 0.54 0.58 0.62 0.66 0.7 0.74 0.78 0.82 0.86 0.9 0.94 0.98 % 2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98 15-3 Grafica residual contra y
10 -0.6 11 -0.5 12 -0.5 13 -0.4 14 0.03 15 0.15 16 0.32 17 0.49 18 1.11 19 1.2 20 1.56 21 1.57 22 1.93 23 2.15 24 4.33 25 5.82
Los residuos se grafican contra y en la figura 15-3 y contra x1 y x2 en las figuras 15-4 y 15-5 respectivamente. Los dos residuos mas grandes e15 y e17 son evidentes. En la fiugra 15-4 hay cierta indicacion de que el modelo subpredice el tiempo en las salidas con volumenes de entrega pequeos (X16 latas) y volumenes de entrega grandes (X215 latas), y sobre predice el tiempo en salidas con volumenes de entrega intermedios (7x114 latas). La misma impresion se obtiene de la figura 15-3. Es posible que la reaccin entre el tiempo y el volumen de entrega no sea lineal (lo que requiere que un trmino que involucra a x12 por ejemplo se agregue al modelo), o que otras variables
regresoras no presentes en el modelo afecten la respuesta. Veremos mas adelante que una tercera variable regresora se requiere para modelar en forma adecuada estos datos.