P. 1
Regresión múltiple

Regresión múltiple

|Views: 20.093|Likes:
Publicado porodel007

More info:

Categories:Types, Maps
Published by: odel007 on Apr 12, 2010
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOCX, PDF, TXT or read online from Scribd
See more
See less

10/29/2013

pdf

text

original

Regresión múltiple

Muchos problemas de regresión involucran más de una variable regresiva. Tales modelos se denominan de regresión múltiple. La regresión múltiple es una de las técnicas estadísticas mas ampliamente utilizadas. Este capítulo presenta las técnicas básicas de la estimación de parámetros, de la estimación del intervalo de confianza y de la verificación de la suficiencia del modelo para la regresión múltiple. Presentamos también algunos problemas encontrados con frecuencia en el uso práctico de la regresión múltiple, incluyendo la construcción del modelo y la selección de variables, la autocorrelación en los errores, y la multicolinearidad y la dependencia casi lineal entre los regresores. Variable independiente (regresiva o regresora) Variable dependiente (Respuesta)

15-1 Modelos de regresión múltiple
(Independiente)
El modelo de regresión que involucra más de un variable regresadora se llama modelo de regresión múltiple. Como un ejemplo, supóngase la vida eficaz de una herramienta de corte depende de la velocidad y del ángulo de corte. Un modelo de regresión múltiple que podrá describir esta relación es Y= vida de la herramienta X1= rapidez de corte X2=ángulo de corte

(15-1)

Donde y representa la vida de la herramienta, x1, la rapidez de corte y, x2, el ángulo de corte. Este es un modelo de regresión lineal múltiple con dos regresores. El término ³lineal´ se emplea debido a que la ecuación 15-1 es la función lineal de los parámetros desconocidos 0, 1 y 2. Nótese que el modelo describe un plano en el espacio bidimensional x1, x2. Parámetro 0 define la ordenada al origen del plano. Unas veces llamados a 1 y 2 coeficientes de regresión parciales, Porque 1 mide el cambio esperado en y por un cambio unitario en x1 cuando x2 se mantiene constante, y 2 cambio esperado en y por cambio unitario x2 cuando x1 se mantiene constante. En General la variable dependiente o respuesta y puede relacionarse con k variables independientes. El modelo de regresión múltiple (lineal) Coeficientes de regresión (15-2)

Se denomina modelos de regresión lineal múltiple con k variables independientes. Los parámetros j, j= 0, 1, . . . , k, se llaman coeficientes de regresión . Este modelo describe un hiperplano en el espacio k-dimensional de las variables regresoras {xj}. El parámetro j representa el cambio esperado en la respuesta y por cambio unitario en xj todas las variables independientes restantes xj (ij) se mantienen constantes. Los parámetros j, j = 1, 2, . . . , k, se denominan algunas veces coeficientes de regresión parciales, porque ellos describen el efecto parcial de una variable independiente cuando las otras variables independientes en el modelo se mantienen constantes. Los modelos de regresión lineal múltiple se utilizan a menudo como funciones de aproximación. Esto es, la verdadera relación funcional entre y y x1, x2,«. Se desconoce, aunque sobre ciertos intervalos de las variablwes independientes «««..

En general, cualquier modelo de regresión que es lineal en los parámetros (los parámetros ) es un modelo de regresión lineal, sin importar la forma de la superficie que genera.

15-2 Estimación de parámetros
El método de mínimos cuadrados puede utilizarse para estimar los coeficientes de regresión en la ecuación 15-2. Supóngase que se disponen n > k observaciones, y dejese que xij denoten la observación iésima o el nivel de la variable xj. Los datos aparecn en la tabla 15.1 suponemos que el termino del error en el modelo tiene E( )= 0, V( )= ² y que las { j} son variable aleatorias no correlacionadas E(e)= valor esperado del error= 0 Podemos describir el modelo, ecuación 15-2, en términos de las observaciones como V(E)= varianza del error= ²

(15-7) La función de mínimos cuadrados es

(15.8) La función L se minimizara con respecto a 0, 1, . . . , k. los estimadores de mínimos cuadrados de 0, 1, . . . , k debe satisfacerse

(15-10)

Ecuaciones normales de mínimos cuadrados

Nótese que hay p = k + 1 ecuaciones normales, una para cada una de los coeficientes de regresión desconocidos. Las solución para las ecuaciones normales serán los estimadores de mínimos cuadrados de los coeficientes de regresión, 0, 1, . . . , k. Es más simple resolver las ecuaciones normales si ellas se expresan en notación de matriz. Daremos ahora un desarrollo matricial de las ecuaciones normales que es afin al desarrollo de la ecuación 1510. El modelo en términos de las observaciones, ecuaciones 15-7, puede expresarse en notación matricial como K= numero de variables independientes Donde Y= vector (n X 1) obs. X=matriz (x X p) de los niveles de las variables ind. Filas B= vector ( p x 1) E= vector ( n x 1 ) E= errores aleatorios columnas

En general y es un vector (n X 1) de las observaciones, X es un matriz (x X p) de los niveles de las variables independientes, es un vector (p X 1) de los coeficientes de regresión, y es un vector (n X 1) de los errores aleatorios. Deseamos encontrar el vector de los estimadores de mínimos cuadrados, , que minimice

Nótese que L puede expresarse como

(15-11) Puesto ¶X¶y es una matriz de (1 X 1), o un escalar, y su transpuesta ( ¶X¶y )¶= y µX escalar. Los estimadores de mínimos cuadrados deben satisfacer es el mismo

Que se simplifica a

Estas ec. Son las ec. Normales de mínimos cuadrados y son idénticos

(15-12)

Las ecuaciones 15-12 son las ecuaciones normales de mínimos cuadrados. Ellas son idénticas a las ecuaciones 15-10. Para resolver las ecuaciones normales, multiplíquense ambos lados de la ecuación 15-12 por la inversa de X¶X. De tal modo, el estimador de mínimos cuadrados de es ¶= Estimador de mínimos cuadrados Es fácil ver que la forma matricial de las ecuaciones normales es idéntica a la de la forma escalar. Al escribir completa loa ecuación 15-12 obtenemos

Si se efectúa la multiplicación matricial indicada, resultara la forma escalar de las ecuaciones normales (esto es, la ecuación 15-10). En esta forma es fácil ver que X¶X es una matriz simétrica (p X p) y X¶y es un vector columna (p X 1). Adviértase la estructura especial de la matriz X¶X. los elementos de la diagonal X¶X son las sumas de cuadrados de los elementos en las columnas de X¶y son las sumas de los productos cruzados de las columnas de X y las observaciones {yi}. El modelo de regresión ajustado es

En notación escalar, el modelo ajustado es

La diferencia entre la observación yi y el valor ajustado yi es un residuo, digamos i=yi-yi. El vector (n X 1) de los residuos se denota mediante (15-15) es un residuo digamos eI= y1- I . El

La diferencia entre las observaciones y1 y el valor ajustado vector (nx1) de los residuos se denota mediante

I

Nuestro problema consiste en decidir cuál de los planos posibles que podemos dibujar será el que mejor se ajuste. Para hacer esto, de nuevo utilizaremos el criterio de mínimos cuadrados y localizaremos el plano que minimice la suma de los cuadrados de los errores, es decir las distancias desde los puntos alrededor del plano a los puntos correspondientes sobre el plano. Ejemplo. A partir de un estudio experimental acerca de la estabilización de arcilla muy plástica se observo que el contenido de agua para moldeo con densidad optima dependía linealmente de los porcentajes de cal y puzolana mezclados con la arcilla. Se tuvieron así los resultados de la siguiente tabla. Ajuste una ecuación de la forma = 0+ 1X1+ 2X2 a los datos de dicha tabla
Estas Forma tridimensional con ejes Y, x1, x2 (plano) Grafica de 10 puntos de una muestra y el plano alrededor del cual estos puntos parecen ocuparse

Contenido de % de agua (y) 27.5 28.0 28.8 29.1 30.0 31.0 32.0

Porcentaje de cal (X1) 2.0 3.5 4.5 2.5 8.5 10.5 13.5

porcentaje de puzolana (X2) 18.0 16.5 10.5 2.5 9.0 4.5 1.5

Y 27.5 28 28.8 29.1 30 31 32 206.4

x1 2 3.5 4.5 2.5 8.5 10.5 13.5 45

x2 18 16.5 10.5 2.5 9 4.5 1.5 62.5

Y=y-1.985 -1.486 -0.686 -0.386 0.514 1.514 2.515 0

X1= x1-x1 -4.428 -2.929 -1.929 -3.928 2.071 4.071 7.072 0

X2= x2-x2 9.072 7.572 1.571 -6.429 0.071 -4.429 -7.428 0

YX1 8.789 4.352 1.323 1.516 1.064 6.163 17.186 40.996

YX2 -18.01 -11.25 -1.077 2.481 0.0364 -6.705 -18.68 -53.21

X2

1

X2

2

X1 X2 -40.17 -22.178 -3.03 25.253 0.147 -18.03 -52.53 -110.54

19.6 8.579 3.721 15.42 4.289 16.57 50.01 118.2

82.3 57.33 2.468 41.33 0.005 19.61 55.17 258.3

Esta ecuación se puede obtener por medio de la tabla con la sig. Formula 
      
   

por eliminación se tiene: 
 

1=0.257004 2=-0.096026 

   

De este modo 

Esta ecuacion describe la relacion que existe entre el porcentaje de cal, porcentaje de puzolana y el porcentaje de agua Ejemplo 15.1 Montgomery y Peck (1982) describen el empleo de un modelo de regreseion para relacionar la cantidad de tiempo requerido por un vendedor de ruta (chofer) para abastecer una maquina vendedora de refrescos con el numero de latas que incluye la misma, y la distancia del vehiculo de servicio a la ubicacion de la maquina. Este modelo se empleo para el diseño de la ruta, el programa y el despacho de vehiculos. La tabla presenta 25 observaciones respecto al tiempo de entrega tomadas del mismo estudio descrito por Montgomery y Peck.(Notese que esto es una expansion del conjunto de datos empleados en el ejemplo anterior donde solo se empleo el numero de latas almacenadas como regresor.) Ajustaremos el modelo de regresión lineal múltiple:  

Tabla 15-2 Datos del tiempo de entrega para el ejemplo Numero de Tiempo de entrega Numero de latas observaciones (min.)(y) X1 1 9.95 2 2 24.45 8 3 31.75 11 4 35.00 10 5 25.02 8 6 16.86 4 7 14.38 2 8 9.60 2 9 24.35 9 10 27.50 8 11 17.08 4 12 37.00 11 13 41.95 12

Distancias (pies) X2 50 110 120 550 295 200 375 52 100 300 412 400 500

14 15 16 17 18 19 20 21 22 23 24 25

11.66 21.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.63 22.13 21.15

2 4 4 20 1 10 15 15 16 17 6 5

360 205 400 600 585 540 250 290 510 590 100 400

Los estimadores de minimos cuadrados se encuentra de la ecuacion =(X´X)-1X´Y A estos datos. La matriz X y el vector y para este modelo son 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 8 11 10 8 4 2 2 9 8 4 11 12 2 4 4 20 1 10 15 15 16 17 6 5 50 110 120 550 295 200 375 52 100 300 412 400 500 360 205 400 600 585 540 250 290 510 590 100 400 9.95 24.95 31.75 35.00 25.02 16.86 14.38 9.60 24.35 27.50 17.08 37.00 31.95 11.66 26.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.63 22.13 21.15

X=

y=

La matriz X´X es X´X= 1 2 50 25 206 8294 1 8 110 «.. «.. «.. 1 5 400

1 1 . . . 1

2 8 . . . 5

50 110 . . . 400

= y el vector X´y es X´y=

206 8294 2396 77177 77177 3531848 9.95 24.45 . . . 21.15

1 2 50

1 8 110

« « «

1 5 400

=

725.82 8008.37 274811.31

0 1 2

-1 25 206 8294 752.82 = 206 2396 77177 8008.37 8294 77177 3531848 274811.31

.214653 = -0.00749 -0.00340 2.26379143 = 2.74426964 0.01252781

-0.0007491 0.001671 -0.000019

-0.000.340 -0.000019 0.0000015

752.82 8008.37 274811.31

0 1 2

Tabla 15-3 Observaciones, valores ajustados y residuos para el ejemplo Numero de Y1 Valores ajustados Residuales observaciones de y1 = y1 - 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 9.95 24.45 31.75 35.00 25.02 16.86 14.38 9.60 24.35 27.50 17.08 37.00 41.95 11.66 21.65 17.89 69.00 10.30 34.93 46.59 44.88 54.12 56.63 22.13 21.15 8.38 25.60 33.95 36.60 27.91 15.75 12.45 8.40 28.21 27.98 18.40 37.46 41.46 12.26 15.81 18.25 64.67 12.34 36.47 46.56 47.06 52.56 56.31 19.98 21.00 1.57 -1.15 -2.20 -1.60 -2.89 1.11 1.93 1.20 -3.86 -0.48 -1.32 -0.46 0.49 -0.60 5.84 -0.36 4.33 -2.04 -1.54 0.03 -2.18 1.56 0.32 2.15 0.15

Por lo tanto el modelo de regresión ajustado es = 2.26379+2.74427 X1+0.01253 X2+ Notese que hemos redondeado los coeficientes de regresión hasta cinco lugares. La tabla 15-3 muestra los valores ajustado de y y los residuales. Los valores ajustados y los residuales se calculan con la misma precision que los datos originales. Calcular los valores ajustado de y los residuales

b) Estimaremos la varianza del error ( 2) para el problema de la regresión múltiple en el ejemplo 15-3 MSE= Media cuadratica para el error SSE= Suma de cuadrados de los errores o residuos n-p= Grados de libertad asociados n= No. de elementos p= No. de tratamientos (variables)

Puede mostrarse que     

(X Y)= 2.26379143

2.74426964

0.01252781

725.82 80008.37 274811.31

= 27062.7775

Por consiguiente la suma de cuadrados del error es 
  
2   

La estimación de

(la varianza del error) es: 

Puede mostrarse que el valor esperado de MSE es

2

Intervalos de confianza en regresión lineal múltiple Con frecuencia es necesaria construir estimaciones de intervalos de confianza para los coeficientes de regresión { j}, para esto se requiere que los errores {ej} se distribuyen de forma normal e independiente con media cero y varianza ² En consecuencia, un intervalo de confianza del 100(1- ) % por ciento para el coeficiente de regresión j= o, 1,. . . k es.

Ejemplo c) Construir un intervalo de confianza del 95% respecto al parámetro 1, para nuestro ejemplo, nótese que la estimación puntual es 1 es 1=2.14427, y que el elementó de la diagonal de corresponde a 1 es cii=0.001671

Conclusión: el intervalo de confianza de 95% para el coeficiente de regresión de 1se encuentre entre:2.55029 y 2.93825 Estimación del intervalo de confianza de la respuesta media Se puede establecer un intervalo de confianza para la respuesta media en determinado punto particular, digamos X0, X01, . . . Xok
1 Xo X01 X02 X03

La respuesta media estimada en ese punto es La varianza de Yo (variable de respuesta)

Por lo tanto, un intervalo de confianza del 100(1- )% respecto a la respuesta media en el punto X0, X01, . . . Xok es

Ejemplo: el embotellador de refrescos en nuestro ejemplo le gustaría construir un intervalo de confianza del 95% respecto al tiempo de entrega media para una salida que requiere x1=8 latas y donde la distancia X2=275 pies.
1 Xo X01 X02 X03
Xo 1 8 275

Respuesta media esperada:

La varianza de

se estima mediante:

Por lo tanto un intervalo de confianza del 95%en el tiempo de entrega media es.

Conclusión: se estima que el tiempo promedio de entrega para una salida se encuentra entre 26.66 y 28.66 min. Con un nivel de confianza del 95% Predicción de nuevas observaciones El modelo de regresión puede utilizar para predecir observaciones futuras respecto y que corresponde a valores particulares de las variables independientes, digamos X0, X01, . . . Xok, una estimación puntual de la observación futura Yo en el punto X0, X01, . . . Xok es Un intervalo de predicción del 100(1- ) % para esta observación futura es

Ejemplo: Supóngase que el embotellador de refrescos de nuestro ejemplo desea construir un intervalo de predicción del 95% en el tiempo de entrega; X1=8 latas y X2= 275 pies Conclusión.El intervalo de predicción en el tiempo con un nivel de confianza del 95% está entre 22.51 y 32.51min este intervalo es más ancho ya que toma en cuenta tanto el error estándar del estimador mas el error muestra.

Pruebas de hipótesis en la regresión lineal múltiple En regresión lineal múltiple , ciertos tipos de hipótesis respecto a los parámetros del modelo son o tipos de al medir la suficiencia del modelo, seguiremos requiriendo la suposición normalidad en los errores prueba de significación de regresión, esta prueba es para determinar si hay una relación lineal entre la variable dependiente y un subconjunto de las variables dependientes ««« las hipótesis apropiadas son:

Al menos de las siguientes variables independientes el rechazo de que el menos una de las variables independientes

implica

Análisis de la varianza para la significación de la regresión en la regresión múltiple Grados fuente de Suma de Media Fo de variabilidad cuadrados cuadrática libertad regresión Error Total SSR= SSE= SYY= K= MSR= n-k-1= MSE= n-1= MSR MSE

SYY (suma total de los cuadrados) SYY= SSR+SSE El procedimiento prueba para Se rechaza si si es calcular

SSE=SYY-SSR SYY= -

Ejemplo: Probaremos la significancia de la regresión de nuestro problema 15.1

Al menos para una de las variables independientes

SYY=27177.9515SSR=27062.7775SSE=SYY-SSR=6105.9447-5990.7712=115.1735
Región de rechazo

Región aceptada

Puesto que si

Conclusión.- se rechaza ya que Por lo tanto el tiempo de entrega se relaciona con el volumen de entrega o con la distancia o con ambos, sin embargo notamos que esto no necesariamente implica que la relación encontrada, es apropiada para predecir. El tiempo de entrega con o con la función del volumen y la distancia. Se requieren pruebas adicionales de la suficiencia del modelo Pruebas de coeficientes individuales de regresión. Con frecuencia estamos interesados en probar hipótesis respecto a los coeficientes individuales de regresión, tales pruebas serian útiles en la determinación del valor de cada una de las variables independientes en el modelo de regresión. Por ejemplo, el modelo podría ser más eficaz con la inclusión de variables adicionales, o quizás con la omisión de una o mas variables ya en el modelo. La adición de una variable al modelo de regresión siempre ocasiona que SSR aumente y que SSE disminuya, además, añadir una variable sin importancia al modelo puede incrementar el error de MSE aminorando de este la utilidad del modelo. La hipótesis para probar la significación de cualquier coeficiente de regresión individual, Bj, son Ho: Bj= 0 si Ho: Bj= 0 no se rechaza (se acepta), entonces esto indica que Xjpuede ser eliminada del modelo. Hi: Bj0 La estadística de prueba para esta hipótesis es La hipótesis nula Ho: Bj= 0 se rechaza si l to l> t Ho: B2= 0 Hi: B20 to= Bj/¥
2

to= Bj/¥

2

Cjj

/2, n-k-1

Ejemplo. Probar el coeficiente individual de regresión B2 con un nivel de confianza del 95% C33 = 0.01253/¥(5.2352)(.000015) =4.4767 si t .25, 22 = 2.074

Entonces 4.4767>2.074 Conclusión: concluimos que la variable X2 (distancia) contribuye de manera significativa al modelo. Nótese que esta prueba mide la contribución parcial de X2 dado que X1 esta en el modelo. 15.6 MEDIDAS DE ADECUACION DEL MODELO Es posible utilizar diversas técnicas para medir la adecuación del modelo de regresión múltiple. Esta sección presentara varias de estas técnicas. La validación del modelo es una parte importante del proceso de construcción del modelo de regresión múltiple. Un buen artículo respecto a este tema es Snee (1977). Véase también en Montgomery and Peck (1982, capitulo 10). 15.6.1 coeficiente de determinación múltiple El coeficiente de determinación múltiple R2 se define como
2

R es una medida del grado de reducción en la variabilidad de y obtenida mediante el empleo de las variables regresivas X1, X2«. Xk. Como en el caso de la regresión lineal simple, debemos tener 0” R2 ” 1. Sin embargo un valor grande de R2, independientemente si la variable adicional es o no estadísticamente significativa. De tal modo, es posible en modelos que tienen grandes valores de R2 producir predicciones pobres de nuevas observaciones o estimaciones de la respuesta media. La raíz cuadrada positiva de R2 es el coeficiente de correlación múltiple entre Y y el conjunto de variables regresoras X1, X2«. Xk. esto es R es una medida de la asociación lineal entre Y y X1, X2«. Xk. cuando k=1, esto es vuelve la correlacion simple entre Y y x. Ejemplo el coeficiente de determinación múltiple para el modelo de regresión estimado en el ejemplo 15.1 es Esto alrededor del 98.11 porciento de la variabilidad en el tiempo de entrega y ha sido explicada cuando se emplean las dos variables regresoras, esto es volumen de entrega (x1) y distancia (x2). En el ejemplo 14.7 se desarrollo un modelo que relaciona y con x1. El valor de R2 en este modelo es R2 =.963954. Observaciones 15 y 17. O cualquier otra razón para descartar o modificar estos dos. Por tanto al añadir la variable x2 al modelo se incremento R2 de .963954 a puntos. 15.6.2 ANALISIS RESIDUAL Los residuos del modelo de regresión múltiple estimado. Definidos por yi - Yi, desempeñan un importante papel al juzgar la suficiencia del modelo del mismo modo que lo hacen en regresión lineal simple. Como se noto en la sección 14.5.1. Hay varias graficas residuales que son a menudo útiles. Estas se ilustran en el ejemplo 15.9. También resulta útil graficar los residuos contra variables que no están presentes en el modelo pero que son posibles candidatas para incluirlas. Los patrones de estas graficas, similares a los de la figura 14.5, indican que el modelo puede mejorarse agregando la variable candidata 
       

Ejemplo 15.9 los residuos para el modelo estimado en el ejemplo 15.1 se muestran en la tabla 15.3 estos residuos se grafican en papel de probabilidad normal en la figura 15.2. No se manifiestan de manera evidente, desviaciones importantes con respecto a la normalidad, aunque los dos residuos mas grandes k 1 2 3 4 5 6 7 8 9 e -3.9 -2.9 -2.2 -2.2 -2 -1.6 -1.5 -1.3 -1.2 Fk=(k.5)/n 0.02 0.06 0.1 0.14 0.18 0.22 0.26 0.3 0.34 0.38 0.42 0.46 0.5 0.54 0.58 0.62 0.66 0.7 0.74 0.78 0.82 0.86 0.9 0.94 0.98 % 2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98 15-3 Grafica residual contra y

10 -0.6 11 -0.5 12 -0.5 13 -0.4 14 0.03 15 0.15 16 0.32 17 0.49 18 1.11 19 1.2 20 1.56 21 1.57 22 1.93 23 2.15 24 4.33 25 5.82

Los residuos se grafican contra y en la figura 15-3 y contra x1 y x2 en las figuras 15-4 y 15-5 respectivamente. Los dos residuos mas grandes e15 y e17 son evidentes. En la fiugra 15-4 hay cierta indicacion de que el modelo subpredice el tiempo en las salidas con volumenes de entrega pequeños (X1”6 latas) y volumenes de entrega grandes (X2•15 latas), y sobre predice el tiempo en salidas con volumenes de entrega intermedios (7”x1”14 latas). La misma impresion se obtiene de la figura 15-3. Es posible que la reacción entre el tiempo y el volumen de entrega no sea lineal (lo que requiere que un término que involucra a x12 por ejemplo se agregue al modelo), o que otras variables

regresoras no presentes en el modelo afecten la respuesta. Veremos mas adelante que una tercera variable regresora se requiere para modelar en forma adecuada estos datos.

Figura 15-4 Grafica residual contra x1

Figura 15-2 Grafica residual contra x2

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->