Está en la página 1de 45
Capitulo 13 OBJETIVOS A\terminar este capitulo pod uno Deseribir fa relacién entre diversas variables independientes y una variable dependiente, utlizando la ecuacién de regresién miitipe, Calcular e interpretar el error estandar ‘miltiple de estimacién y el coeticiente de detorminacion. TRES Interpretar una matriz de correlacién, cuatro Establecer y explicar una tabla ANOVA. ealizar una prueba de hipdtesis para determinar si los coeficlentes de regre- sion son diferentes de cero. seis Realizar una prueba de hipétesis para cada uno de los coeficientes de regre Al trabajar con gente que mancja maguinaria de alo refinamiento, l departamento de produecién necesith saber la edad, tiempo de servicio, apttud pans ls mecdnica, © culifcacin previa en el oficio como mecénic opertrio, son importantes para determinar el abajo en las mlquinas, ¢Cudnaas variable dependientes¢independientes exiten? (Vease el Objetve 1 y el Ejercicio 2 be sedenomina coeficiente de regrein. Anlisis de regresién y correlacién muitiples 473 I Introduccién En el capitulo anterior se describis la relacién que existe entre dos conjuntos de medi- das con escalizacion de intervalo o de razén, Una se denotaba como variable indepen: diente, y la otra, como variable dependiente. Se observ6 que si la relacion entre las dos variables es lineal, la ecuacion de regresion ¥’ = a+ bX sirve para pronosticar la varia ble dependiente, ¥, con base en la variable independiente, X. Ademas, el coeficiente de cortelacién es una medida que fue analizada y que indica si la relacién es intensa, moderada o débil. Un coeficiente cercano a mas 0 menos 1.00 muestra una relacién lineal muy fuerte entre X y Y. Un coeficiente cercano a 0 (por éjemplo, -0.12, 0 bien +0.12) sefala que la relacion es muy debi El uso de una variable independiente para predecir la variable dependiente no toma en cuenta la relacién de otras variables con la citada variable dependiente. En este capitulo se amplia el estudio de la correlacion y la regresién, examinando la in fluencia de dos o mas variables independientes sobre la variable dependiente. Esto se denomina andlisis de regresién y correlacién multiples. Se presentard primero el analisis de regresién muiliple al desarrollar y explicar el uso de la ecuacion de regre sin multiple, asi como del error estandar multiple de estimacion. Después se media la fuerza de la relacion entre las variables independientes y la variable dependiente, util zando el coeficionte multiple de determinacién. Por ultimo, se presentaran y analizaran varias aplicaciones de computadora con aplicacién de MINITAB y Excel 1 Anilisis de regresion miltiple Recuérdese del Capitulo 12 que la ecuacién de regresién lineal que implica una varia bie independiente tiene la forma Y’ = @.+ BX. El caso de regresién multiple amplia la ‘ecuacién para que inciuya variables independientes adicionales. Para dos variables independientes, la forma general de la ecuat ECUACION DE REGRESION MULTIPLE (CON DOS VARIABLES INDEPENDIENTES + BAX, + BX. [13-1] donde: X,, X,_ son las dos variables independientes. @ es laintercepcion Y, 0 sea, la ordenada del punto de interseccién con el je ¥. el cambio neto en ¥ para cada cambio unitario en X,, manteniondo X, constante (0 sea sin cambios). Se denomina coeficiente de regresion parcial, o bien, coeficiente de regresién neta, o mas brevemente, coefi- iente de regresion bes el cambio neto en Y para cada cambio unitario en X,, manteniendo X, constante, También se le conoce como costficiente de rogresién parcial, simplemente, coeficiente de regresion, ara ilustrar la interpretacién de ay de los dos coeficiontes de regresién, supéngase que las millas recorridas por galén de com- bustible por un vehiculo automotor estan di rectamente relacionadas con el octanaje de la gasolina que se utlice (X,),e inversamen- te con el peso del automovil (X.). Considé: rese que la ecuacién de regresion miitiple es Y= 63 + 0.2%, + (-0.001)X,, El valor de a igual a 6.3 indica que el plano de re- gresion intercepta al eje ¥ en 6.3, cuando tanto X, como X, son iguales a cero. Desde 474 b negate indica una relacn inversa Ejemplo Capitulo 13 luego que no tiene sentido ser propietario de un automévil que no tiene peso (igual a cero) y usar gasolina sin numero de octano. Es importante recordar que una ecuacién de regresion no es eficaz fuera del intervalo de los valores muestrales. La b, de 0.2 seftala que por cada incremento de 1 en el octanaje del combustible, el automévil recorreria dos décimos de milla m4s por galén, sin importar el peso de! vehiculo; esto es, tal peso se mantiene constante. El valor b, de ~0.001 indica que por cada incremento de una libra en el peso del automévil, el nimero de millas recorridas or galén disminuye en 0.0001, sin considerar el octanaje de la gasolina que se esté utiizando, Como ejemplo, un automévil con gasolina de octangje 92 en el tanque, y que pesa 2.000 libras, recorreria en promedio 22.7 millas por galén, lo cual se obtiene de: Yost bX, + BX = 6.3 + 0.2(92) + (-0.001)2 000 2.7 millas por galén Se puede aumentar el numero de variables independientes. Para tres de tales variables, denotadas por X,, Xy X, la ecuacién general de regresién multiple es: BCUACION DE REGRESION MULTIPLE CON TRES VARIABLES INDEPENDIENTES Y= @*+ OXON + OX, [13-2] Esto puede ampliarse para cualquier numero de variables independientes (k), siendo la ecuacién general de regresién multiple: [ RCUACION DF REGRESTON MULTIPLE 7 ‘CON F VARIABLES INDEPENDIENTES + BX BX + ByXet a + BXETS-3] ‘Segun se mostré en el Capitulo 12, el método de minimos cuadrados para caleular 4, by, by, etc., minimiza la suma de los cuadrados de las desviaciones verticales con respecto a la inea recta. Lo mismo se cumple para la regresién miltiple. Sin embargo, afin de obtener a, b, y 0.2 la ecuacién de regresién multiple, la abundancia de caleu- los resulta muy tediosa, aun utilizando una calculadora. Como ejemplo, para dos varia- bles independientes es necesario resolver simultaneamente, tres ecuaciones que son: LY =na+ BUX, + BEX, BX,Y= AEX ADEN! + DEX, THY = AEX, + BLK.) + BEXE Se dispone de muchos paquetes programaticos de computacién para realizar los calcu- los y presentar los resultados. Los paquetes MINITAB, SAS y SPSS son tres de los mas utilizados. El formato de la salida os estandar. Se comenzara el analisis de la regresin multiple, describiendo una situacion que implica tres variables independien- tes. La empresa Salsberry Realty vende casas en la costa este de Estados Unidos. Una, de las preguntas que los posibles compradores hacen con mas frecuencia es: Si adquirimos este inmueble, .cuainto tendriamos que pagar por su calefaccion duran- te el invierno? Se ha pedido al departamento de investigacién de la compafifa que elabore algunos lineamientos con respecto a costes de calelaccién para casas Solucién Andlisis de regresién y correlacién muélriples 475 Lnifamiliares, Se consider6 que tres variables estén relacionadas con tales costos: (1) la temperatura exterior media diaria, (2) el numero de pulgadas de aislamiento térmico en el desvan, y (3) la antigdiedad det calefactor. Para investigar, dicho depar- tamento seleccioné una muestra aleatoria de 20 inmuebles vendidos recientemente, Luego determind el costo de calentar una casa en enero pasado, y también la tern- peratura externa durante dicho mes en la region, el numero de pulgadas de aislante en el desvan, y la antigledad del sistema calorifico. La informacién muestral se presenta en la Tabla 13-1 Tabla 13-1 Factores en el costo decalefaccion en ener pars una muestra de 20 casas Aisiamionto —_Antiggedad fxteror—eneldesvan del calefactor mecia('F) __(pulgadas) (eos) 38 29 96 60 65 30 10 at 55 48 20 3 6 16 2 20 7 9 58 8 190 40 9 235 a Ey 139 20 Determine la ecuacién de regresién miltiple. Qué variable o variables son la varia ble independiente? ,Qué variable o variables son la variable dependiente? Analice los coeficientes de regresién. zQué indica el que algunos sean positives y otros negatives? {Cual es el valor de la intercepcién? {Cual es el costo calculado de calefaccion para una casa donde la temperatura extorior media os de 30 °F, hay 5 pulg de aislamiento en el desvan 0 alico, y el calefactor tiene 10 afios de uso? El sistema programatico MINITAB para Estadistica genera el resultado que se indica, on la pagina 476. La variable dependiente es el costo de calefaacion en enero, Exis- ten ties variables independientes, las cuales son la temperatura exterior media, el nlimero de pulgadas de aislamiento en el desvan y la antiguledad del calefactor. LLa forma general de la ecuacién de regresién multiple con tres variables inde- pendientes es Y= a + b,X, + b.X.+ byX,. En este caso la ecuacién de regresion multiple es Y’ = 427 — 4.58X, ~ 14.80X, + 6.10X,. El valor de la intercepcién es 427, Esta es la ordenada del punto donde la grafica de la ecuacién de regresién cruza el aje ¥. Los coeficientes de regresion para la temperatura exterior media y el grosor del aislamiento en el atico, son negativos. 476 tab Capitulo 13 Esto no es de sorprender. A medida que aumente la temperatura exterior, disminuiré el costo de calentar una casa. Por lo tanto, se espera una relacién inversa. Por cada grado que ascienda la temperatura media exterior, se cuenta con que el costo de la Calofaccion baje $4.58 (délares) al mes. Asi que sila temperatura media en Boston 5 25 °F, yen Filadeltia es 35 °F, sin cambio en los demas elementos, es de esperar que el costo sea menor en $45.80 en Filadeltia Regression Analysie et 90 Insulation 5 3.12 0.007 analyeie of Variance rota 5 212916 La variable “aistamiento térmico del desvan "también muestra una relaciGn inver- ‘sa. Cuanto mas aistamiento se ponga en el atico, tanto menor sera el costo de calentar una casa, Ast quo es ldgico que el signo para este coeficiente sea negativo. Por cada pulgada adicional de aislamiento, se espera que el costo de la calelaccién de un inmue- blo disminuya $14.80 al mes, sin importar la temperatura exterior ola antiguedad det sistema de caletaccisn La variable “caletactor’ muestra una relacion directa. A medida que aumente la antigiedad del sistema calorific, se eleva también el costo de la calefaccion, Para Cada ano adicional del calefactor, es de esperar que el costo se incremente en $6.10 al mes, Puede calcularse que el costo de calentar una cass i la temperatura exterior me- dia para el mes es 30 °F hay cinco pulgadas de aislamiento en el desvan, y el calefac- tortiene 10 aos de antiguedad. Estos valores se introducen en la ecuacion de regresin, y el costo calculado es ¥’ = 427 — 4.58X, — 14.8X, + 6.10X; = 427 — 4.58(30) ~ 14.8(5) +6.10(10) = 276.60. Se concluye que el casto caleulado de la calotaccion es $276.60 para un mes. | Andlisis de regresion y correlacién multiples La rstapistica ! ENACCION + Muchos entudioe indican qe wna mujer ganar cerca del 70% de lo gue percbinia wn hombre por realizar el mismo tubsjo. Los investgadores del Instituto de Investigacin Sacial de la Universe de Michigan alrededor de una rvcra parte de exe diferencia s puede explicar por Factores sociale tales como discepancias nla educaciin, nivel de 2 studio interrupcianes de trabajo, Los dos trcos cxplcados por dichos fictre: 477 AUTO EXAMEN 13-1 ‘Ala ingeniera de control de calidad de una industria (Bethel Steoi) Ie interesa calcular la resistencia a la tensién de un alambre de acero, con base en su didmetro exterior y la cantidad de moliodeno contenida en el metal. Como experimento, selecciona 25 tramos. de alambre, mide su diémetro exterir y determina el contenido de molibdeno. Después, mide la resistencia a la tensién de cada troz0. Los resultados de los primeros cuatro ramos fueron: Resistencia Alatension exter ‘tepuig. om) ¥ % a 1 oa 6 8 ° 02 5 c 6 oa 8 D 2 oa 7 Considere que la ecuacién de cagresion miltiple es: Y’ =-0.5 + 20%, + 1%, 4) Con base en la ecuacién, jcudl es la resistencia pronosticada a la tension de un alambre de acero que tenga un didmetro exterior de 0.95 mm y 6.4 unidades de ‘molibdeno? 1b). Interprete el valor de 6, en la ecuacién. Ejercicios El director de mercadotecnia de una compania (Reeves Wholesale) esta estudiando las ventas mensuales en las seis regiones de la empresa. Se seleccionaron tres variables inde. Pendlentes para pronosticar las ventas: poblacién regional, ingreso per cApitay tasa regional {de dosempleo, Se calculd que la ecuacion de regresion es (en dolares) Y’ =64 100 + 0.994X; + 9.6X, 11 600X, 4) ¢Cuall a el nombre completo de la ecuacién? ') Explique que significa el niimero 64 100. ©}. {Cua es el total estimado de ventas mensuales para I regién IV? Tal region cuenta con 796 000 habitantas, un ingreso per cépita de 6 940 dolares y la tasa de desempleo es de 6.0%. En Thompson Machine Works se adquirioron varias maquinas nuevas de alto refinamiento, En el departamento de produccion ae requiré cierta orientacion con respecto a la capacta cion necesaria para un operario.,Es la edad un factor? ¢€ importante ol tiempo de servicio ‘como mecanico operario? A fin de explorar atin mas los factores necesarios para evaluat el trabajo con las nuevas maquinas, se considerafon cuatro variables: .X, = Tiempo durante el cual el abrero ha sido operador de maquina. .X. = Puntuacion en la prueba de aptitudes mecénicas, 1X, = Puntuacion en el trabajo anterior. X, = Edad El trabajo con la nueva maquina se denota por Y. Fueron seleccionados al azar 30 operarios. Se recopilaron datos para cada uno y se ‘ogists su labor con las nuevas maquinas. Algunos de los resultados son: 478 Capitulo 13 “aie conte untuaion el Serottices aging, . fay Ronn te 2 we ws Sin ons 1s 2 wo om ‘Suponga que la eouacion es: 1.6 + 0.4%, + 0.286%, + 0.112%, + 0.002%, {Cual es el nombre completo de la ecuacion? {.Cuantas variables dependientes hay? ,Cuantas variables independiantes? {{Cémo se denomina al niimero 0.286? onforme la edad aumenta en un afo, :en cuanto se eleva el rencimiento estimado con la nueva maquina? ©) Carl Knox solicité trabajar en una de las nuevas maquinas. Ha sido mecéinico operario durante seis anos, yalcanz6 una puntuacién de 260 en Ia prueba de aptiudes mecéini- cas. Tiene una calticacion previa de 97 en su rendimiento en eloficio y 35 afios de eda Valorice el trabajo de Carl con la nueva maquina, 3. Se estudié una muestra de personas senectas viudas para determinar su grado de satistac- ‘ion en su vida actual. Se utiiz6 un indice especial, denominado indice de Salistaccién, para ‘medir esta cualidad. Se estudiaron sels factores, que son: edad en el momento del primer ‘matrimonio (X),Ingreso arwal (X,), numero de hjos vives (X;), valor de los bienes poseidos (UX), estado de salud expresado como indice (X,) y numero promedio de actividades sock les por semana, como jugar al boiche y baila, (X;) Supéngase que la ecuacidn de regresién multiple es: soee Y'= 16.24 + 0.017, + 0.0028X, + 42X, + 0.0012X, + 0.19X, + 26.8X, 2) {Cual es el indice estimado de salistaccién de una persona que se cas6 por primera vez 8 los 18 afos, tiene un ingreso anuel de $26 500 (delaras), tres hijos vivos, bientes por ‘$156 000, un indice de estado de salud de 141, y 25 actividades sociales por semana en ppromedio? +) Qué proporcionaria més satistaccién: un ingreso adicional de $10 000 al ani Actividades sociales mas por semana’? 4. Celiulon,tabricante de un nuevo tipo de aistante térmico para casas, desea elaborar lines ‘ientos para constiuctores y consumidores en io que se retire a los efectos en el consumo dde gas natural (1) del grueso del aislante en el desvan de una casa, y (2) dela temperatura exletior.En el laboratoro se variaron el espesor del aislamiento y la temperatura, Algunos de los resuitados son: dos Consumo mensual _Espesor “Temperatura ‘degas natural dolaisiamiento exterior (pies eabicos, ‘pulgades}, cP Y % x 203 6 «0 269 2 0 221 8 “9 Con base en Ios resultados muestrales, la ecuacién de regresién es: 62.65 ~1.86x, -0.52X, 2) ¢Cuanto gas natural esperan consumit los duefios de casas al es sinstalanaislamion- to.de 6 pulg y la temperatura exterior es de 40 °F? Andlisis de regrsién y correlacién multiples 479 1) {Qué efecto tendria sobre el consumo mensual de gas natural instalar7 pulg de aislante fon vez de 6 (considerando que la temperatura exterior permanece en 40 °F)? €). LPor que son negativas los coeticientes de rogresion b, y b.? (ES esto légico? I Error estandar miltiple de estimacién \Volviendo al ejemplo de la empresa Salsberry Realty, se determind que el costo caleu- lado de la calefaccion en una casa durante el mes de enero, donde la temperatura media exterior era 30 °F, que tenia aislamiento de 5 pulg en el desvan y un sistema calefactor con 10 afios de antigiedad, era de $276.60 (ddlares). Se esperaria encon- ‘rar cierto error aleatorio en este caiculo. Algunas veces costara mas la calefaccién de Un inmusble con estos datos estadisticos, y otras veces menos. El error en esta estima- ion puede medirse por medio del error estandar milltiple de estimacién. El “error estandar’, como se le denomina normalmente, se denota por s,..... Los subindices indican que se consideran tres variables independientes para calcular el valor de Y. Recuerdese de! Capitulo 12 que el error estandar de estimacién describe la varia cién con respecto a la linea de regresiOn, Un error estandar pequefo indicaba que los puntos estaban cerca de tal recta, mientras que un valor grande sefialaba que los puntos estaban esparcidos alrededor de aquélla. El mismo concepto es verdad en la regresién multiple, Si se tienen dos variables independientes, puede considerarse la variaci6n respecto de un plano de regresién. Si hay mas de dos variables independien- tes, no se tiene una interpretacién geomeétrica de la ecuacién, pero el error estandar sigue siendo una medida del “error” o la variabilidad en la prediccién. La formula para calcular el error estandar es similar a a que se utilizé en el capitulo anterior. Véase la formula (12-6) en la pagina 448. El numerador es la suma de las diferencias cuadraticas entre los valores calculados y reales de la variable dependien- te, En el denominador se ajusta porque se estan considerando diversas variables, esto es, k variables independientes. BOY tag Vasey 04 | | ERROR ESTANDAR MULTIPLE DE FSTIMACION 8,040.4 Yes la observacion. Y” es el valor estimado a partir de la ecuacién de regresién. es el ndmero de observaciones en la muestra, kes. el nlimero de variables independiontes. En el ejemplo de Salsberry Realty, De nuevo se empleara el problema de Salsberry Realty como ejemplo. La primera ‘casa tenia una temperatura exterior media de 35 °F, 3 pulg de aislamiento térmico en ol desvan y un sistema caloriico con 6 afos de antiguedad. Introduciendo estos valores en la ecuacion de regresion, el costo calculado de calefaccion es $258.90 (delares), determinado por 427 — 4.58(35) ~ 14.80(3) + 6.10(6). Los valores Y’ para las otras, casas se encontraron en forma similar y se presentan en la Tabla 13-2. El.cosio real de calefaccién para la primera casa es $250, en contraste con el costo calculado de $258.90. Esto es, el error en la prediccién es -$8.90, obtenido por (S250 ~ $258.90). La diferencia entre el costo real y el costo calculado de la calefaccién se llama residuo. Para encontrar el error estandar multiple de estimacién, se determina el 480 Capitulo 13 ‘esiduo para cada una de las casas en la muestra, se eleva dicho residuo al cuadrado, y después se suman los residues cuadratizados. El total se muestra en la esquina inferior derecha de la Tabla 13-2. Tabla 13-2 Cileulos necesarios para el error estindar multiple de estimacion Temperatura Aistamiento Antigiedad costo cosa (FD (pulgadas) (aos) yen were 1 3% 3 6 $280 5880-890 79.21 2 2 4 10 36020598 at? 409056 3 26 7 a 1517682 118219971 4 fa 6 9 43 1130-7530 567009 5 65 5 6 2 © 9190-010 6 20 5 5 200 ABI. 46.10. 2 125.21 ? 10 6 7 355 335.10 19.90 $96.01 8 7 0 10 790 5078-1798 zt aM 9 a 8 1 v0 26472-3472 1205.48, 10 55 2 5 120 176.00 S600 3 136.00 " 54 2 4 73 28484852 2168.11 2 8 5 1 205 199266578 492175 3 20 5 15 aon 95200 47.4 221841 a 9 4 7 320 ate 88.12 7 765.13 8 ®0 e 6 m2 7040160286 6 20 5 @ = a2 3020-3820 1489.28 7 sa 7 a oh 76081794 2TH 8 40 e n 190 19280-28025 9 a ® @ 25211605 257.92 2 0 7 6 139 21680-7780 _ 600825 Tota! 169558 En este problema, n= 20 k= dar multiple de estimacion es: (tres variables independientes), asi que el error estan- Parva a ena seh Vo n=(k+1) V20-(8 +1) 05, Syua= {Cémo se interpreta el 51.057 Es el tipico “error” que se comete cuando se aplica esta ecuacion para pronosticar el costo, Primero, las unidades son las mismas que las de la variable dependiente, asi que el error estandar se presenta en délares. Segundo, silos errores se distribuyen de forma normal, aproximadamente 68% de los residuos deberia ser menor que + 51.05. y cerca de 95% debetia ser inferior a+ 2(51.08), 0 bien + 102.10. Refiérase a la segunda columna de la derecha en la Tabla 13-2, con el encabezado (Y — Y’). De los 20 residuos presentados en esta columna, 14 son meno- res que + 51.08 y todos son inferiores a + 102.10, valor que esta muy cerca de los lineamientos de 68% y 95%. En el Capitulo 12 s0 utiiz6 0! error esténdar de estimacién para elaborar intervalos de confianza y de predicciones. No se detallardn estos procedimientos para la regre- ‘si6n multiple, pero estan disponibles en los sistemas programaticos (software) para Estadistica, como MINITAB. Homorcedastcidad Antocorelacén Anilisis de regresiin y corvelacién muideiples 481 1 Consideraciones acerca de la regresi6n y la correlacién multiples ‘Antes de continuar con el andlisis de la correlacion multiple, se enunciardn las consideraciones basicas, tanto de la regresion multiple como de la correlacién multiple. Segun se observe en varios de los capftulos anteriores, es necesario identificar tales consideraciones porque sino se cumplen integramente, los re- sultados podrian presentar un sesgo. Por ejemplo, al seleccionar tuna muestra se supone que todos los elementos de la poblacién tienen una posibilidad de ser seleccionados. Si la investigacién se relaciona con todas las personas que esquian, pero no se toma en cuenta a aqudllas de mas de 40 afios porque se estima ‘que son “demasiado grandes de edad”, se estarian sesgando las respuestas hacia los esquiadores mas jévenes. Sin embargo, debe mencionarse que en la practica real, apegarse en forma estticta a las siguientes consideraciones no siempre es posible en los problemas de regresién y correlacién multiples, relacionados con el cambiante medio de la adminis- tracién. Pero las técnicas estadisticas que se analizan en este capitulo parecen funcio: nar bien, aun cuando una o mas de las suposiciones que siguen no se tomen en cuenta. Incluso si los valores en la ecuacién de regresion multiple quedan ligeramente “fuera las estimaciones basadas en la ecuacién estarén mas acordes que cualquier otra esti macién que pudiera realizarse. ‘Cada una de las consideraciones siguientes se analizara con mas detalle confor- me se avance en este capitulo. 1. Las variables independientes y las variables dependientes tienen una relacién Ii- neal 2. Lavariable dependiente es continua y al menos con escalizacion de intervalo. 3. Lavariacion en la diferencia entre los valores real y pronosticado es la misma para todos los valores ajustados de Y. Estoes, (Y -Y’) debe ser aproximadamente igual para todos los valores de Y. Cuando tal sea el caso, las diferencias presentan homoscedasticidad. 4. Los residues, calculados de Y—¥, estan distribuidos en forma normal con media igual a0. Las observaciones sucesivas de la variable dependiente no estan correlacionadas. Si tal consideracién no se cumple, la situacion se denomina autocorrelaci6n. Tal autocorrelacién ocurre con frecuencia cuando se recopilan datos sucesivamente €en intervalos de tiempo, Se dispone de pruebas estadisticas para detectar la homoscedasticidad y la autocorrelacidn. Para quienes estén interesados, tales pruebas se describen en textos mas avanzados, como Applied Linear Regression Models, por Neter, Kutner. Nachtscheim y Wasserman (4a. ed., 1996, publicada por Richard D. Irwin, Inc}. 1 Tabla ANOVA Como se mencioné antes, son laboriosos los calculos relacionados con la regresién multiple. Por fortuna se dispone de muchos sistemas programaticos de computacién para realizar tales calculos. La mayoria da salida a la informacién en un formato estan- darizado. El cuadro que sigue, proveniente del sistema MINITAB, presentado anterior. mente, es tipico. Incluye la ecuacién de regresion, el error estandar de estimacion, el Coeficiente de determinacién y una tabla de andiisis de variancia. Ya se ha descrito ol significado de los términos de los coeficientes de regresién en la ecuacion ¥ = 427 ~ 4.58%, ~ 14.8%, + 6.10X,, Mas adelante, en este capitulo, se analizaran las columnas “Cost”, StOev"y“T” (es decir, razén f), Ahora se estudiara la tabla de andlisis de variancia, 482 tab Capitulo 13 Regression Analysis 427 = 4.58 Torp ~ 14.8 Insul + 6.10 age ren 4.5827 5.93 00 age 6.101 52 0.1de 5 = 51.05 Resq = 80.4% R-sa(aaj) = 76.78 Error 41695 otal 212916 Primero, la atencién se debe centrar en la tabla de andlisis de variancia. Es seme- jante a la tabla ANOVA descrita en el Capitulo 10, En tal capitulo la variacién estaba dividida en dos componentes: la debida a los tratamientos y la correspondiente al error aleatorio. Aqui el total también se divide en dos componentes: el explicado por la regre- sién, esto es, las variables independientes, y el error, 0 variacién no explicada, Estas dos categorias se identifican en la columna “SOURCE” (fuente) de la tabla de analisis, de variancia. En el ejemplo existen 20 observaciones, asi que n= 20. EI numero fotalde grados de libertad es n~ 1, 8s decir, 20 ~ 1 = 19. El nimero de grados de libertad en la fila “Regression” es el numero de variables independientes. Sea kel numero de varia- bles independientes, asi que k= 3. Los grados de libertad en el renglén “Error” son n— (ka 1)=20-(+1)= 16, El encabezado "SS", en la parte central de la tabla ANOVA, se refiere a la suma de cuadrados, o sea la variacién. Variacién total = 8S total = $(Y— Y= 212916 = SSE = 3(Y— Vy’ = 41 695 Variacién de regresiGn = SSR = SS total - SSE = 212 916 ~ 41 695 = 171 220 Error de variacié La columna con el encabezado *MS" (de mean square, es decir, cuadrado medio) se obtiene dividiendo ol término SS entre el término af. Asi que MSR, la regresion cuadrada media, es igual a SSRVk, y MSE es igual a SSE/In — (k + 1)] El formato general de la tabla ANOVA es: source 4 ss F Regression ——K ‘sh Eo n-iket) SSE Total 1 $$ 1a El coeficiente de determinacién mailtiple, F®, es la porcién de la variacién expl cada por la ragresion, Equivale a la suma de cuadrados segun la regresién, dividida contre la suma de cuadrados total Anilisis de regresi6n y covrelacion midsiples 483 ssh 171.220 SStotal 212916 = 0.806 El error esténdar miltiple de estimacién también puede obtenerse directamente a par- tir de la tabla ANOVA. SSE_ [41695 Von-(k+1) V [(20-(+1)) Sy 1.05; Estos valores, R= 0.804 y s,,..= 51.05, aparecen en la salida MINITAB. AUTOEXAMEN 13 Rofiérase ala 4) ;Qué tan grande era a muestra? ) ¢Cuantas variables independientos existen? ©) Calcule el coeficiente de determinacién mitiple. )Evalie el ertor estdndar miitiple de estimacion, 1 Ejercicios 5. Rofiérase a la siguiente tabla ANOVA 4) :Qué tan grande era la muestra? ) {.Cuantas variables indepenciantes hay? @) Calcule el coeficiente de determinacién moitiple, 4} Determine el error esténdar maitiple de estimacion 6, Refidrase @ la siguiente tabla ANOVA gression 5 60 12 1.714 Ereor 20 a9 7 2) (Qué tan grande era la muestra? b) ¢Cuantas variables independientes se tienen? ©) Galcule el coeticiente de determinacion multiple. 4) Oblenga el error estandar multiple de estimacién. 484 Capitulo 13 1 Evaluacién de la ecuacién de regresion Anteriormente, en este capitulo, se describié un problema en el que una empresa (Salsberry Realty) desarrollé —usando técnicas de regresién multipie— una ecuacién para expresar el costo de calentar una casa durante el mes de enero, con base en la temperatura media, el nimero de pulgadas de aislamiento en el desvan y la antigiie- dad del calotactor. La ecuacién pareci razonable, pero se desea verificar que el coeti- Ciente multiple de determinacién es significativamente mayor de cero, evaluar los coeticientes de regresién para ver los que no son iguales a cero, y verificar que se cumplan las consideraciones de regresion Uso de un diagrama de dispersién Hay tres variables independientes denotadas por X,, X. y X;.La variable dependiente, el costo de la calefaccién, se designa por ¥. Para visualizar las relaciones entre la variable dependionte y cada una de las variables independientes se trazaron los si: guientes diagramas de dispersion 8 2 16 10 Temperatura exterior ANslamionto (pulgadas) Antgiiedaa De las tres variables independientes, la asociacién mas fuerte es entre el costo de la calefaccién y la temperatura exterior media. Las relaciones entre el costo y la tempe- ralura, asi como entre el costo y el aisiamiento, son inversas. Esto es, a medida que aumenta la variable independiente disminuye la variable dependiente. La relacion entre el costo de calefaccién y la antiguedad del sistema calorifico es directa. A medida que el calefactor tiene mas afos de servicio cuesta mas calentar la casa. Matriz de correlacién Una matriz de correlacién es uti! para analizar los factores implicados en el costo de la, calefacci6n de una casa, Matriz de correlacién Matriz que contiene los coeficientes de correlacion entre todos los pares de variables. A continuacién se presenta la matriz de correlacién para el problema de Salsberry Realty. La matriz se desarrol con aplicacién del sistema Excel Caractrésicas eta dvaribucn B Anélisis de regresion y correlacin muileiples 485 El costo es la variable dependiente, Y. Se esté particularmente interesado en las variables independientes que tienen una fuerte correlacién con la variable dependiente. Tal vez se desee desarroliar una ecuacién de regresién multiple mas simple, emplean- do menos variables independientes; la matriz de correlacién ayuda a identiicar cuales pueden ser relativamente mas importantes. Como se indica en el listado, la temperatu- ra tiene la correlacién mas fuerte con el costo: ~0.81 1509. El signo negativo indica la relacién inversa que se esperaba. La antiguedad tiene una correlacién mas intensa con el costo que el aislamiento y, de nuevo como se esperaba, la cortelacién entre el costo y la antigedad de! calefactor es directa. Vale 0.5367276. Un segundo uso de la matriz de correlacion es para verificar si existe multicoli- nealidad. 1 Mutticotineatidad Correlacién entre las variables independientes, I La mutticolinealidad puede distorsionar el error estandar de estimacién y, por lo tanto, llevar a conclusiones incorrectas en cuanto a qué variables independientes son esta- disticamente significativas. En este caso, la correlacion entre la antiguedad del termosistema y la temperatura es la mas fuerte, pero no lo suficientemente grande para ‘causar un problema. Un método practico comin es que las correlaciones entre las variables independientes entre -0.70 y 0.70 no ocasionan dificultades. El remedio usual para la multicolinealidad es eliminar una de las variables independientes que estan fuertemente correlacionadas, y redeterminar la ecuacién de regresion, Prueba global: Probar si es valido el modelo de regresién multiple Se puede poner a prueba la capacidad de las variables independientes X,, X- ... para explicar el comportamiento de la variable dependiente Y. A tin de plantear esto en. forma de pregunta, quedaria: Puede la variable dependiente ser estimada sin apoyar- se en las variables independientes? La prueba utiizada se conoce como prueba glo- bal. Basicamente investiga si es posible que todas las variables independientes tengan coeficientes de regresion neta iguales a cero. En otras palabras, {podria la cantidad de variacion explicada, F®, ocurrir al azar? Para relacionar esta pregunta con el problema del costo de la calefaccién, se pro- bard si las variables independientes (cantidad de material termoaislante en el desvan, temperatura exterior diaria media y antiguedad del calefactor) son capaces de evaluar en forma efectiva los costos de calefaccion de una casa. Recuérdese que en la prueba de una hip6tesis primero se establecen las hipétesis nula y alternativa. En el problema del costo de la calefaccion existen tres variables indepenaientes. No olvidar que ,, 8. y B, son coeficientes muestrales de regresion neta, Los coeficientes correspondientes en la poblaci6n tienen los simbolos B, By Bs ‘Ahora se probard si los coeficientes de regresién neta en la poblacién valen cero. La hipotesis nula es: He: By = Bo = By La hipotes's alternativa es: H,: No todas las f} son iguales a 0 Si la hipétesis nula es verdadera, ello implica que todos los coeficientes de regresién son cero y, l6gicamente, no son de utlidad al calcular la variable dependiente (costo de lacaletaccion). Si éste fuera el caso, se tendria que buscar otras variables independien- tes —o bien adoptar un enfoque diferente— para predecir los costos de calefaccion de una casa Con el fin de probar la hipétesis nula de que todos los coeficientes de regresion ‘multiple valen cero, se emplea la distribucién F que se presento en el Capitulo 11. Se sard e! nivel de signficancia de 0.05. Recuérdense las siguientes caracteristicas de la distribucion F: 1. Tiene sesgo positivo, con el valor ertico para el nivel 0.05 localizado en la extremi- dad de la derecha. El valor critico es el punto que separa la region donde H, se acepta, de la region en la que se rechaza 486 tab Capitulo 13 2. Se elabora conociendo el numero de grados de libertad en el numerador y el nd ‘mero de tales grados en el denominador. Los grados de libertad para el numerador y el denominador pueden localizarse en el resumen computarizado de la tabla de analisis de variancia. Esa parte de la tabla se presenta a continuacién. EI nimero superior en la columna marcada "DF" es 3, lo que indica que hay 3 grados de libertad (gl) en el numerador. El numero central en dicha ccolumna (16) indica que hay 16 gl en el denominador. Tal cifra 16 se obtiene de n—(k+ 1) =20~ (3+ 1) = 16. E1 3 corresponde al numero de variables independiente. Rearoesi 3 71220 51073 21.91 00 El valor de F se calcula dividiendo el término MSR entre el MSE: SSRIK ‘SSE/In=(k+1)] 171.220/8 220183 91.90 41 695/(20 ~ (3+ 1)] El valor oritico de F se obtiene del Apéndice G. Utiizando la tabla para el nivel 0.05, se va en direccién horizontal hasta 3 gl en el numerador; luego hacia abajo, hasta llegar a 16 glen el denominador, y se lee ahi el valor crtico, que es 3.24. La region donde Hse acepta y la region donde H, se rechaza se muestran en el siguiente diagrama Distribucion a=, 16) / a | — ps erate, nity so acon | 824 Escala de F Continuando con la prueba global, la regla de decision es: Aceptar la hipétesis nula de que todos los coeficientes de regresién son 0 si ol valor calculado de F es menor que 0 igual a 3.24. Sila F-calculada es mayor que 3.24, se rechazar H, y se acepta la hipétesis alternativa, H, El valor calculado de F es 21.90, que esta en la regién de rechazo. Por lo tanto, se descarta la hipdtesis nula de que todos los coeficientes de regresién miitiple valen cero. El valor p es 0.000 de la tabla de andlisis de variancia que se present antes, asi ue es muy poco probable que H, sea verdadera, Se acepta la hipétesis alternativa, lo ue indica que no todos los coeficientes de regresién son nulos. Desde un punto de Vista practico, esto significa que las variables independientes (cantidad de aislamiento, etc.) tienen la capacidad de expiicar la variacién en la variable dependiente (costo de calefaccién). Era de esperar esta decisién, Es légico que la temperatura exterior, el grosor de aislamiento térmico y la antighedad del calefactor tengan mucho que ver con los costos de calefaccién. La prueba global asegura que asi os, Andlisis de regresin y corvelacién muileiples 487 Evaluacién de los coeficientes de regresién individuales Hasta ahora se ha mostrado que algunos de los coeficientes de regresion, pero no necesariamente todos, no son iguales a cero y, por Io tanto, son utiles pata prediccio- nes. E! siguiente paso consiste en probar las variables ingividualmente para determinat ‘cudles coeficientes de regresién podrian ser 0 y cuales no. ‘Por qué es importante saber si es posible que cualquiera de las § sea igual a 0? Siuna f puede ser nula, ello implica que tal variable independiente en particular no es de ningun valor para explicar cualquier variacién en el valor dependiente. Si hay coefi- lentes para los cuales no se puede rechazar H,, puede ser desoable eliminarlos de la ‘ecuacién de regresién. ‘Ahora se realizardn tres pruebas de hip6tesis: para la temperatura, para el aisla: mmiento térmico y para la antiguedad del sistema de calefaccién, Pata la. antigliedad del caletactor Para la temporatura Para e! aislamiento (0 tiempo de uso) HB, =0 Hh: B= 0 His B= 0 H:B.20 A: B.20 Ap, #0 Se probard la hipétesis al nivel 0.08. La forma en que se enuncia la hipétesis alternatt- va indica que la prueba es de dos colas. El valor estadistico de prueba es la distribucién tde Student con n—(k+ 1) grados de libertad. EI numero de observaciones muestrales es n, y hay 20 casas en el estudio, asi que = 20. El niimero de variables independientes es k, que en este caso corres- ponde a 3, Por lo tanto, hay n— (k+ 1) = 20 ~ (3 + 1) = 16 grados de libertad. El valor ertico para tse presenta en el Apendice F. Para una prueba de dos colas, con 16 gradas de libertad y utlizando el nivel de signficancia de 0.05, se rechaza H, si es menor que ~2.120, o mayor que 2.120. | sistema MINITAB produjo el resultado siguiente: constant 427.19 59.60 1 ‘La columna con el encabezado “Goef" da la ecuacién de regresion multiple Y’ = 427.19 — 4,5827X, ~ 14.831X, + 6.101X, Interpretacién del término ~4.5827X, en la ecuacién: Para cada grado que aumente la temperatura, se espera que el costo de caletaccién disminuya cerca de $4.58 (dola- res), manteniendo constantes las otras dos variables. La columna en a salida MINITAB, con el encabezado "StDev’, indica la desviacién estandar del coeficiente de regresion muestral. Recuérdese que Salsberry Realty se- leccioné una muestra de 20 casas a lo largo de la costa oriental de Estados Unidos. Si se fuera a seleccionar aleatoriamente una segunda muestra y se calcularan los coef lentes de regresién de tal muestra, los valores no serian exactamente iguales. Sin embargo, si se repitiera el proceso de muestreo muchas veces, seria posible disehar una distribucion de muestreo de los coeficientes de regresion. La columna marcada ‘StDev" expresa la variabilidad de estos coeficientes de regresiOn. La distribucién de muestreo de Coef/StDey sigue la distribucién tcon n— (k+ 1) grados de libertad. Porlo tanto, pueden probarse las variables independientes en forma individual a fin de deter: rminar si los coeficientes de regresién neta son diferentes de cero, La razén tcalculada es -5.93 para la temperatura, y 3.12 para el aislamiento. Ambos valores f estan en la region de rechazo, a la izquierda de ~2.120. Asi que se concluye que los coeficientes de regresién para las variables temperatura y aislamiento no son iguales a cero. La razén t calculada para la antigedad de! sistema de calefaccién es 1.52, asi que se concluye que B, podria ser igual a 0. La variable independiente “antiguedad del sistema calorifico’ no es un elemento significativo de prediccién para el costo de la calefaccién. Se puede eliminar del analisi. 488 Capitulo 13 En el Autoexamen 13-3 se volvié a correr el problema de regresion multiple api cando MINITAB, pero sélo se incluyeron dos variables, “temperatura” y “aislamiento’ Estas dos variables explicaron el 77.6% de la variacién en el costo de calefaccion. Usando las tres variables temperatura, aislamionto térmico y antigUedad del sistema calefactor— se explicé un total de 80.4% de la variacion, La variable adicional aumento F® sélo en 2.8%, lo que es un incremento muy pequefio para la adicién de una variable independiente. En este punto se debe desarrollar también una estrategia para eliminar variables independientes. En ol caso de Salsberry Realty existian tres de tales variables, y una (la antigdedad) tenia un coeficiente de regresién que no era diferente de cero. Es claro que se debe eliminar esta variable. Asi que se la suprime y se vuelve a formular la ecuacién de regresion. Sin embargo, en algunos casos puede no ser tan evidente qué variable debe suprimirse, Para explicar lo anterior, supéngase que se desarrollé una ecuacién de regresién ‘miitiple basada en cinco variables independientes. Se realizé la prueba global y se encontré que algunos de los coeticientes de regresiGn eran diferentes de cero. A conti- ‘uacién se probaron individualmente los costiciontes do regresién y se hallé que tres, eran signiticativos y dos no lo eran. El procedimiento preferido es eliminar la variable independiente con el valor t absolut mas pequeno, 0 el valor pmas grande, y reestruc- turacién la ecuacion de regresién con las cuatro variables restantes. Después, en la nueva ecuacién con cuatro variables independientes, se realizan la prueba global y las pruebas individuales. Si atin hay coeficientes do regrosién que no son importantes, se suprime de nuevo la variable con el valor f absolute mas pequefo, A fin de describir el proceso de otra manera, debe eliminarse s6io una variable a la vez. Cuando se supri- me una variable, es necesario volver a constiuir la ecuacidn de regresién y revisar las variables restantes, fo AUTOEXAMEN 13-3 Los datos de regresion y correlacién multiples para el problema anterior del costo de calefaccién se volvieron a correr en la computadora utlizando séla las das primeras va- fables indepenciontes significativas: temperatura y termoais'amiento. (Véase el sigulen: te resultado MINITAB,) 4) _LCuales la nueva ecuacién de regresién multiple? (La temperatura os X,,y el aisle Imiento, X:) b) {Cua es el coeficiente de determinacién miiple? Interprétel. 6) {Como se puede expresar que estas dos variables independientes gon vallosas para predecir los costos de caletaccién? 9) {Cua es el valor p correspondionte al alslamianto? Interprételo, 490,29 “4 4.738 4.930 egreseion 1956259728. Error yr 2807 ota. 9 ztagie Variables independientes cualitativas Las tres variables utlizadas en el problema de Salsberry Realty fueron cuantitativas; es decir, numéricas en su naluraleza. Frecuentemente se desea usar variables de escala LA ESTADISTICA EN ACCION En anon eis a regres mile sha tsedo en una variead de procedimicnos legals Es patiarmenee sl cain donde alga discriminaciin po sero sera ora supsngase qu wa suelo nla Compan son injsos pata ls personas lel exo Femenine. A Bn de th pyar sug a demandane presenta dios que misting hombres, En epee, Inempressargumenta aque los suelo se Basen ml experiencia hablidades y qu sue empeades, en promo, tebsjadores masclins Dehecho la compatia pode argumentar aerate debe cement Mio de us exientes, Anélisis de regresién y correlaciém miltiples 489 ‘nominal en el andlisis —tales como el género sexual, sila casa tiene piscina o si el ‘equipo deportvo actuante era el local o el visitanto—. A tales variables se les denomina variables cuailtaivas, porque describen una caracteristica en particular, como género ‘masoulino o femenino. Para uilizar una variable cualtatva, en el analisis de rogresién, se emplea un esquema de variables fieticias, en el que una de las dos posibles con: diciones se codifica como 0 y la otra como t Variable ficticia_Variabie en la que existen solo dos posibles resultados. Para el analisis, uno de los resultados se codiica como 1 y el otro come 0. Por ejemplo, podria ser de interés estimar el sueldo de un ejecutivo (0 una ejecuti- va) con base en los afios de experiencia en el trabajo y si tiene titulo de graduado en universidad, Lo de “graduado en universidad” puede tomarse como solo una de dos Condiciones: i 0 no, Asi que se considera una variable cualitatva, 2Se puede ullizar una variable cualilativa con mas de dos posibles resultados? Si, peto el esquema de codificacion se vuelve mas complejo y requerid una serie de ‘variables ticticias. Para explicarlo mejor, supéngase que una compafia comercial esta estudiando sus ventas y su relaciin eon los gastos de publicidad por timestre durante ios itimos cinco afios. Sean las ventas la variable dependiente, y los gastos de publici- dad, la primera variable independiente, X,. Para incu la informacion cualitativa re pecto al trimestro, se necositaran tros variables independientes adicionales. Para la, variable X,, las cinco observaciones que se refieren al primer periodo trimestral de ceada uno de los cinco aos, se codifican como 1, y los otros trimestres, como 0. Igual mente, para X, las cinco observaciones que se refieren al segundo trimesire se codit- can como 1, y los otfos trimestres como 0. Para X,, las cinco observaciones referentos al tercer periodo lrimestral se codifican como 1, y los otfos trimestres, como 0. Una ‘observacién que no se relaciona con ninguno de los primeros tres trimestros se debe relerir al cuarto timestre, asi que no es necesaria una variable independiente distinta que se refiera a este periodo, Supéngase que en el ejemplo de la empresa Salsberry Realty se agrega la varia- bie independiente “cochera’, Para las casas que no tienen garaje se utliza el O; para las que si Io tionen so usa el 1, La variable “cochera’ so denotaré como X,. Los datos rovenientes de la Tabla 19-3 se infroducen en el sistema MINITAB. Tabla 13-3. Costos de caleficcién, remperatura,aslamienco térmico y cochera ancsa para cna mostra de 20 casas Costo(en délaros), Temperatura ("F), Aistamionto (pul, Cocnera, % Xe % 35 3 ° a a 1 2% ? ° a 5 ° 65 5 ° 200 Py 5 ° 355 0 6 1 290 7 10 1 230 a1 8 ° 120 55 2 ° 7 sa ° 6 1 39 4 1 ca 8 ° 20 5 1 sa 1 ° 190 0 8 1 236 7 ° ° 30 A 7 ° 490 tab Capitulo 13 El resultado de MINITAB es: cost = 394-3 3 Insul + 77.4 Garage en -3.9628 ° Garage 71.43 ° analys variance {Cudl es el efecto de la variable “cochera"? ,Debe incluirse en el andlisis? Para mostrar el efecto de la variable, supéngase que se tienen dos casas exactamente igua- les, una junto a la otra, en Buffalo, Nueva York; una tiene garaje, y la otra no, Ambos inmuebies tienen 3 pulg de aisiamiento térmico y la temperatura media en enero en Buffalo es 20 °F. Para la casa sin cochera anexa, X, se suslituye por cero en la ecuacién de ragresion. Ei costo estimado de calefaccién es $280.90 (d6lares), obtenido de: 304 ~ 3.96X, ~ 11.3X, + 77.4%, = 394 — 9.96(20) — 11.3(3) + 77.4(0) = 280.90 Para la casa con garaje, X, se sustituye por 1 en la eouacién de regresién. El costo de calefaccién caiculado es asi: $385.30, que se obtiene por: Y’ = 994 ~ 3.96%, ~ 11.9%. + 77.4X, 394 ~ 3.96(20) ~ 11.3(3) + 77.4(1) = 358.30 La diferencia entre los costos estimados de la calefaccién es $77.40 (que provienen de: $858.80 ~ $280.90). Por lo tanto, se espera que el costo de calentar una casa con garaje sea $77.40 mayor que el costo de una casa equivalente sin cochera. Se ha demostrado que la diferencia entre los dos tipos de casas es $77.40, pero 2es significativa la diferencia? Se realiza la siguiente prucba de hipotesis: Hype=0 H,B.20 La informacion necesaria para responder ala pregunta anterior puede encontrarse en la salida MINITAB precedente. La razén tcalculada es 3.40. Existen tres variables inde: pendientes en el andlisis, asi que hay n= (k + 1) = 20 ~ (8+ 1) = 18 grados de libertad, Del Apéndice F. el valor critco es 2.120. La regla de decision, usando una prueba de dos colas y el nivel de signficancia de 0.05, es rechazar H, sila tcalculada esta a la izquierda de ~2.120 0a la derecha de 2.120, Puesto que el valor calculado de 3.40 esta Anilisis de regresién y correlacién muiltiples 491 a la derecha de 2.120, se rechaza la hipétesis nula. Se concluye que el coeticiente de Tegtesion no es cero. La variable independiente ‘cochera’ debe incluirse en el andlisis. I Ejercicios 7. Refiérase a la siguiente informacién: prediccisn coat constants 20.00 x 1.00 x, 12.00 x 15.00 Fuenre a Rearesién 3 otal 2 stpev 10.00 8.00 5.00 2) Complete la tabla ANOVA, ») Efectie una prueba global de hipétesis ut 1 el nivel de signficancia de 0.05. ¢Pue- de concluitse que cualquiera de los coeficientes netos de regresion son diferentes de ) Realice una prueba de hipdtesis para cada uno de los coeficientes de regresién. Se puede eliminar alguna de las variables? 8. Refiérase a ia siguiente informacion: Prediccisn coot constants -150 2ove % “25 x 300 x v.60 Regreaién 5 Reror 1 ‘total 20 sebew 90 500 30 200 0.15 2500.0 2000.0 2) Complete la tabla ANOVA, +5) Realice una prueba global de hipétesis utiizando el nivel de signficancia de 0.05. Se ‘puede conclu que cualquiera de los coefcientes netos de regresién son diferentes do coro? 6) Efectde una prueba de hipétes's para cada uno de los coeficientes de regresién. Es posible eliminar alguna de las variables? I Analisis de residuos En una seccién anterior se describieron las consideraciones necesarias para el andii- sis de regresién y correlacién. Tales consideraciones son: 1. Existe una relacién lineal entre la variable dependiente y las variables indepen- dientes. 2. La variable dependiente tiene escalizacién de intervalo o de razén, 492 Capitulo 13 3, Las observaciones sucesivas de la variable dependiente no estén correlacionadas. 4. Las diferencias entre los valores reales y los valores estimados —esto es, los resi- duos— estan distribuidos en forma normal 5. La variacion en los residuos es la misma para todos los valores ajustados de ¥- Esto es, la distribucion de (Y - Y’) es la misma para todos los valores de Las dos ultimas consideraciones se pueden verificar al graficar los residuos. Esto es, se desea confirmar que los residues siguen una distribucion normal y que tienen la misma variacién, ya sea grande 0 pequefio el valor de Y. En la Tabla 13-4 se presentan los datos necesarios. La columna con el encabezado “Costo real” es el costo original de caletaccion, presentado por primera vez en la Tabla 13-1. La siguiente columna, marca- da ‘Costo estimado”, es el costo de calentar la casa, como se calculé a partir de la ecuacién de regresidn, Esto también se conoce como valor ajustado, y es ¥’.Elvvalor de la primera casa se encuentra sustituyondo en la ecuacién de regresién los valores reales de las tres variables. Por ejemplo, de la Tabla 13-3, para la primera casa la temperatura exterior media era 35 °F, tenia 3 pulg de aislamiento en el desvan, y no contaba con cochera. El costo real de calefaccién fue $250 (délares), y el costo estima- do de tal accién es $221.08, que se obtiene por: Y’ = 393.67 ~ 3.96(35) ~ 11.33(3) + 77.43(0) = 221.08 El residuo se encuentra en la ultima columna, y es 28,92, obtenido por 250 221.08. Los residuos para los otros 19 valores se calculan en forma semejante. Tabla 13-4 Resumen de osios reals coxos estmados y esiduos pra el problema de Salsberry Rely Costoreal, Coste Etimado, cosa Y ¥ 250 221.08 stage 171.80 aca 79.62 21822 969 5 39008 200 54 18321 4367 22437 335.25, ari 543 235.25, e668 220.06 18478 195.56 Se puede usar la titima columna, los residuos, para verificar la suposicién de nor- malidad. EI Diagrama 13-1 es una representacion de tallo y hoja, y el Diagrama 13-2 es Un histograma de los residuos. Ambos diagramas indican que la distribucién de los, Homoscedastcidad Anilisis de regresién y correlacin milriples 493 residuos es en cierto modo normal, como lo requieren las consideraciones. Para inter- pretar el histograma que figura en el Diagrama 13-2, obsérvese que se elabora de forma que los residuos se integran en clases: de ~70 a ~50, con un punto medio de ~60; de ~50 a ~30, con un punto medio de -40, y asi sucesivamente, Los detalles de las primeras tres clases son: Punto Residuos Conte De 70 0-50) 6325, 96.06 e-0a-0) 0 4500, 4008 321, 206 be-20a-10 122 | | | | | | a a er re Diageama 13-2. Hise sma de los residues Las consideraciones para el analisis de regresién también requieren que los resi- duos permanezean constantes para todos los valores de Y’. Recuérdese que a esta condicién se la denomina homoscedasticidad, Para vorificar sihay homoscedasticidad, los residuos se grafican contra los valores ajustados de Y (véase el Diagrama 13-3). Debido a que no hay mas variacion respecto a valores grandes de Y que respecto a valores pequefios de Y, puede concluirse que esta consideracion se cumple. ‘A continuacién se presentan dos ejemplos donde el requisito de homoscedasticidad no se cumple. Obsérvese que en el primer ejemplo, la grafica de residuos tiene forma de embudo. Esto es, a medida que aumentan los valores ajustados de Y sucede lo mismo con la variacién en los residues. En e! segundo ejemplo hay un modelo para dichos residuos, los cuales parecen tomar la forma de un polinomio, 0 de ecuacion de segundo grado. 494 Capitulo 13 Ejempio 1 Ejempio 2 {Qué problemas son causados por los residuos que no muestran homoscedas- ticidad? Las desviaciones estandares de los coeficientes de regresién serian subesti- madas (muy pequefias), ocasionando que posibles variables independientes parozean ser signficativas cuando tal vez no lo sean. El remedio para esta condiciones seleccio- naar otras variables independientes o transformar algunas de las variables. Para una exposicién mas detallada del analisis de residuos, constitense textos avanzados, como Applied Linear Regression Models, de Neter, Kutner, Nachtsheim y Wasserman (Richard D. Irwin, 1996) 4004 . | 300 ° . . zo} 8 ae ec . 1004 . ae T T -50 ° 50 Residues Diagrama 13-3 Valores sjustados de ¥”y esiduos I Resumen del capitulo |. Elanalisis de regresién y correlacién miiiples se basa en las siguientes consideraciones: ‘A. Existo una relacin lineal entre as variables independientes yla variable de pendiente. La variable dependiente es continua y escalizada por interval. C. La variacion residual es la misma para todos los valores ajustados de ¥. D. Los residuos estan distribuidos en forma normal E_ Las observaciones sucesivas dela variable dependiante no estan correlacionadas. |. La forma general dela ecuacion de regresion miiple es: 8+ BX + BoM + + OX, 113-3) donde ¥"es ol valor estimado, aes a ordenada del punto de interseccién con eleje ¥, las lterales 6 son os coeficientes de regresion muestra, y las X epresentan los valores do las diversas variables independiontes, ‘A. Puede haber cualquier nimero de variables independientes, B. El ciiterio de minimos cuadrados se uliza pata desarrollar la ecuacin. C. Se necesita una computacora para determinar ay los diversos valores b II Existen dos medidas de la efectivdad de la ecuacion de regresion Aniliss de regresion y correlacion multiples 495 A. Elertor estandar multiple de estimacién es semejante a la desviacién estandar. 1. Se mide en las mismas unidades que la variable dependiente 2. Es.ificil doterminar qué es un valor grande y qué es un valor pequeto del error cestandar. B. El costicionte de determinacién puede variar de 0 a 1 1. Muestra a fraccién de la variacin en Y que se explica por medio del conjunto de variables indepenciontes. 2. No indica la direccién de la rolacién, IV. La tabla ANOVA da la variacion en la variable dependiente explicada por la ecuacion de regresion. \V._ Una matriz de correlacion muestra todos los posibles coeficentes de correlacién simple entre pares de variables. Vi. Se usa una prueba global para investiga si cualesquiera de las variables independents tienen coeficentes de regresion significativos, ‘A. La hipdtesis nula es: Todos los coeticientes de regresién son cero, BB. La hipotesis alternativa es: Al menos un coeliciente de regresion no es cero. C. El valor estadistico de prueba es la distribucion F con k (el numero de variables independientes) y n— (k+ 1) grados de libertad, donde nes el tamafo de la muestra VIL_La prucba para variables individuales determina cuales variables independientes tienen cosficientes de regresién distntos de cer. ‘A. Las variables que tienen coeficientes de regresién nulos usualmente se eliminan del analisis. B. El valor estadistico de prueba es la dstibucién ton n~ (K+ 1) grados de libertad, Las variabes ficticias son empleadas para representar las variables cualitatvas, y pueden adoptar sélo una de las dos posibles condiciones. IX. Un residue es la diferencia entre el valor real de Vy l valor pronosticado de Y" ‘A. Los esiduos deben distribuirse de forma aproximadamente normal. Los histogramas ¥yl0s diagramas de tao y hoja son utiles para verficar esta condicion, B. Una gratica de los residuos y los valores V correspondientes sive para mostrar que no hay tendencias 0 paulas en los residues. 1 Simbologia siusoLo ‘SIGNIFICADO FORMA EXPRESIVA > Coeficiente de regresién para la primera sub 1 variable independiente & Coeficiente de regresion para cualquier © sub k Variable independiente ; Error estandar maiiple de estimacién 5 Sub y punto 1, 2 I Ejercicios del capitulo 8. Una ecuacién de regresién mittile produce los siguientes resultados parcialos: Fuente Suma decuadredos of Rogresion 750 4 Ener 500 35 2) {ual es el tamafio de muestra total? ) {Cudntas variables independientes se estan considerando? ©) Calcule el coefcionte de determinacion 9) Determine el error estandar de estimacisn, ©) Prube la hipstesis de que ninguno de los cosficientes de regresién es igual a cero. Sea = 0.05 496 Capitulo 13 10. En una ecuacién de regresién maitiple se consideran dos variables independientes, y tamafio de la muestra es 25. Los coeficientes de regresion y los errores estandares son ‘como sigue: 2676s, =056 0880 5,=0.71 b Reale una prueba de hipétesis para determinar si una vatiable independiente tiene un ‘coeficiente igual a cero. ,Consideraria eliminar alguna variable de la ecuacién de regre- sign? Use el nivel da signieancia de 0.08. 11. Se obtuvo el siguiontelistado. analysis of variance Regression 5 200 20 Bevor 20 40 2 otal 23 uo Predictor cost stpev t-atio constant, 2.00 1.50 2.00 % 4-00 aloo 1.33 x 300 0.20 15.00 x 0.20 005 4.00 x 2.50 roo 2.50 x 3.00 4000.75, 4) {Cudl es eltamato de la muestra? 4) Oblenga of valor de Fe. ©) Calcule el error estandar mattiple de estimacién. 4) Foalico una prueba global do hipétesis para determinar si alguno do los coeticientos do regresion es significatvo, Utiice el nivel de signticancia de 0.05, {8} Pruebe en forma individual los cosficientes de regresion, ;Consideraria omitir alguna 0 algunas variables? Si es asi, ,cual 0 cules? Use el nivel de signficancia de 0.05. 42, En una ecuacién de regresién miliple k= 5 y n = 20, el valor MSE es 6.10, y el SS total 1519.68. AI nivel do signficancia de 0205, se puede conciuir quo ninguno do los coeficientes {e regresion es igual a 0? 19. La gerente distrital de Jasons, una gran cadena de tiendas de ventas al menudeo con des- ‘cuento, investiga por qué clertos establecimientos en su regién tienen mejores resultados ‘quo otros. Ella cree que hay tres faclores relacionados con las ventas totales: el nimero de ‘competidares en la region, la poblacion en el area circundante y la cantidad de dinero gasta- {da en publicidad. De su cistito,formado por varios cientos de tiendas, selecciona una mues- tra aleatoria de 30 tienda, Para cada una recoplé la siguiente informacion Y-= ventas fotales del timo afio (en miles de délares) x ‘numero de competidores en la regi. 1X: poblacién dela zona (en millones). 1X, = gasto en publicidad (en miles de déiares) Los datos muestrales se cortieron on el sistema programatico MINITAB, con os resultados ‘ave siguen: Anélisis de regresién y correlacin mudeiples 497 4 SOURCE oF 5s us Rearession 3 3050.00 762.50 Error 26 2200.00 4.62 otal 29° 5250.00 Predictor coet stoev — t-Hatlo Constant, 14,00 7.00 2.00 x =1.00 0.70 1.49 x 30.00, 5.20 3.77 % 0.20 0.08 2.50 42) ¢Cuales son las ventas estimadas para el establecimiento Byrne Store, que tiene cuatro ‘ompetidores, una poblacién regional de 0.4 (400 000) y gastos de publicidad de 30 ($30 1000)? 1b) Calcule el valor R= ©) Evalie el error estandar miitiple de estimacién 4) Realice una prueba global de hipstesis para determinar si algunos de los coefcientes de Fegresién ne son iguales a cero. Use el nivel de signicancia de 0.05. ©) Efectde pruebas de hipotesis para determinar cuales de las variables independientes lienen coeficientes de regresion significativos. Qué variables consideraria eiminar? Use elnivel de signficancia de 0.05, Supéngase que el gerente de ventas de una gran compaia cistribuidora de partes para auloméviles, desea calcular desde abril fas ventas anuales totales de una region. Segun las vontas regionaios, también pueden estimarse las ventas totalos de la compania. Si, con bbase en la experiencia, se encuentra que los estimados de abril de las ventas anuaies son razonablemente exactos, entonces en afios futuros podria utilizarse el prondstico de abril para revisar los planes de produccién y mantener el inventario correcto en las tiendas al menudeo. ‘Varios factores parecen estar relacionados con las ventas, incluyendo el nimero de tiendas al menudeo en la region que almacena las partes comercializadas por la compania, ‘21 nimero de automoviles registrados en la zona hasta abril 1, y el ingreso personal total ‘para el primer tnmestra del ato. Finalmente se seleccionaron cinco variables Independie tes como las mas importantes (de acuerdo con el gerente de ventas). Después se recopila- ron datos para un afo reciente. También se registraron las ventas anuales totales en ese ano ‘segin cada region. Obsérvese en la tabla anexa que para la region 1 se tuvieron 1 799 liendas al menudeo que almacenan las partes de auto de la empresa, que hubo 9 270 000, auloméviles reqstrados en la cogién hasta ol t de abr, y que las ventas para ese aro fueron por $37 702 000 (dolares) Antigiedad Namero promedio Ventas, Numero de automévilesIngreso "de los anvales —detiendas registrados personal automéviles, Numero de (mde) damonudeo, _“(milones)._“(mmac), (anos) supervisores: ¥ % x % a x 37.702 1738 oar 354 35 80 24.196 1221 588 607 50 50 82.055, 1846 Bat 681 44 70 120 3at 202 40 50 1096 1031 338 38 70 2200 1162 8, 4a 130 1687 2.96 3 4 150 zat 628 163 59 110 9 a 49 88. 160 1427 ww92 153 4a a0 Noa: ma nia millones de dares, y mma miles de millones de dans, 498 Capitulo 13 EI sistema programatico MINITAB se usd para generar el siguiente resultado: ‘a)Considere la matriz de correlacion que sigue. {Qué variable inica tiene la correlacién mas fuerte con la variable dependiente? Las correlaciones entre las variables indepen- lentes, "lendas” e "ingreso’ y entre automduiles” y “endas” son bastante fuertes. :Po~ dia ser esto un problema? {Como se denomina a esta condicién? sales outlets care income age cutlets 0.899, cars 0.605, 0.775, income 0.964 0.025, 0.409 age 90.323 -0.489 0,407 0.249 bosses 0.286 0.183 0.395 0.155 0.291 'b) Se obtuvo la siguiente ecuacion de regresién usando las cinco variables independientes, {Qué porcentaje de la variacién es explicada por la ecuacién de regresion? ‘The regression equation is + 2.04 age - 0.034 bosses Predictor cove sepew tratio constant -19.672 5.422 2.63 outlets ~0. 000629 0.002638 -0.24 cars ar99 0.5520 as income 0.40994 0.04385 9.35 bosses -0.0244 0.1880 0.18 Regression 5 1593.81 318.76 Reror 4 9.08 227 otal 8 1602.89 (6) Realice una prusba global de hipétesis para determina’ sino son cero algunos de los coolcientes de regresién. Utiice nivel de signficancia de 0.05. }_Efecide una prueba de hipétesis en cada una de las variables independientes, ;Consi- draria eliminar “tiendas”y "jefes"? Use el nivel de signticancia de 0.05. ©) Se volvé a realizar la regresién segin se muestra en el lstado que sigue, eliminando “tiendas”y “etes”. Calcul el coeficiente de determinacién. ,Cuanto ha cambiado FP con respecto al andlsis anterior? Anéliss de regresion y correlacién miitiples 499 ‘The vagression equation te sales = -18.9 + 1.61 cars + 0.400 incone + 1.96 age Predictor Coot sebev constant 18.924 3.636 care 1.6129 0.1979 Income 0.40031 9.01569 age 1.9637 0.5846 Analysis of variance source be ss xs Regression 3 1593.66 832.22 Error 6 9.23 15a ‘otal 8 1602.89 1) A continuacién se presenta un histograma y un diagrama de tallo y hoja para los resi- ‘duos. Paroce razonable la hipétesis de normalidad”” Histogram of residual 1 Stem-and-leaf of resisual W = 10 Leaf unit ~ 0.20 Midpoint count 0 440 o 28 ° 68 a 1 9) A continuacién se presenta una gréfiea de los valores ajustadas de ¥ (es decir, ¥) y los residuos. :Advierte algunos incumplimientos de las consideraciones? Residuos (Y- 7) 8 16 24 92 40Y ‘Austad 15. El administrador de un nuevo programa paralegal en Seagate Technical College desea esti- ‘mar el promedio de califcaciones en cicho programa, Consider® que el promedio de caliica- ciones en bachillerato (GPA, de Grade Point Average), la puntuacién en expresién oral en el Examen de Aptiud Académica Superior (SAT, de Scholastic Aptitude Test), y las calficacio- ‘nes de matemalticas en ol SAT, serian buenos predictores (0 elementos de predicciin) del GPA paralegal. Los datos para nueve estudiantes son’ Capitulo 13 GPA Expresiénoral Matemsticas GPA Estudiante Gachilersto SAT ‘SAT Paraleg 1 325 20) 410 a2 2 180 290 210 168 a 200 420 410 358 4 381 500 600 392 5 313, 500 430 3.00 6 2et 430 460 2082 7 220 20 490 165 8 aaa 530 480 230 9 263 469 440 233 ‘Se utii26e! sistema programatico MINITAB para generar el siguiente resultado: 4) Se obluvo la matriz de correlacién siguiente. ZQué variable tiene la correlacion més fuerte con la variable dependiente? Algunas de las correlaciones entre las variables in 268 7 Py 1 386 55 1 air % 1 197 x ° 06 “4 ° a8 a 1 287 1 ° maa 6s 1 26 25 ° 318 0 1 207 2 ° 228 80 1 328 R ° ‘Nour av = ler de dlls 4) Desarolle una matriz de corrlacién. {Qué variable independiente tiene la corelacién mas fuerte con la variable dependiente? ;Parece que habra algunos problemas con la ‘multicolinealida? 1) Detormine la ecuacién de regresién. ,Qué sueldo estimaria usted para un profesor con Cinco aiios de experiencia, una calificacién de 60 dada por el crector y sin maestria? 9) Realice una prueba global de hipétesis para determinar s algunos de os coeficientes de regresion netos diferen de cero, Utlice el nivel de signficancia de 0.05, 0) Realice una prueba de hipotes's para los coeficientes de reoresién. ; Consideraria elim- ar cualesquiera de las variables independientes? Use el nivel de signficancia de 0.05. 8) Sisu conciusién para la parte (4) fue suprimir una o mas variables independientes, efec> tie de nuevo ol analisis sin esas variablos, ‘Determine los residuos para la ecuacién de la parte (2). Utlice un diagrama de tallo y hoja o un histograma para verifcar que la distrbucién de los residuos es aproximada- ‘mente normal 9) Grafique los residuos calculadios en la parte (f) en un diagrama de dispersion con los residuos en el eje ¥, y ios valores ¥en el eje X. cMuestra la grafica algunos incurnpi- mientos de las consideraciones de regresion? El gerente de ventas cstrital de un importante fabricante de automéviles esté estudiando las ventas. Especificamente le gustaria determinar qué factores afectan al nimero de autos vendldos en una distibuidora. Para investigar, selecciona al azar 12 distribuidores. De ellos ‘obtiene el nimero de vehiculos vendidas el itimo mes, los minutos de publicidad radiotonica ‘comprados en dicho periodo, el nimero de vendedores de tiempo completo empleados en ia distribuidora, y si ésta se localiza en la ciudad o no. La informacién es la siguiente: Aniliss de regresin y correlacin mlsiples 503 ‘Automaviles Fuerza Publicidad deventas Chidad % * % 127 18 10 st 161 25 4 si 138 15 18 No 180 % ” si 159 2 14 si 102 15 a) 14a 23 2 si 163 24 6 si 139 7 2 No 106 18 0 No 18 16 2 Si 49 25 " 8 4) Desarrolle una matriz de correlacién. ;Qué variable independiente tiene la correlacién ‘mas fuerte con la variable dependiente? ;Parece que habré algunos problemas con la ‘multicoinealidad? 1b) Determine la ecuacion de regresion. ,Cusintos autos esperaria que se vendieran en una d

También podría gustarte