Está en la página 1de 11
eas Pern ran Eur) Seer) ene seer eee situacién en la que pence Sere independiente: foresrs Pear omatty ns Regresion multiple dependiente, algunos loves pueda ver esto como algo PUEsT ras describe (y publica) el nuevo sindvom Jorma de vida decadente, decides exp ra qué asp Quieres observar todas las variables que forman pan ‘A EN ESCENA lu rodilla BMW, y probar gue es, efecivamente, resultado de wna tos de dicho esto de vida son tos cavesantes del problema, ede los valores CHICC, tanto individualmente come en su conjuto. ¢Cémo combinartas todas estas medidas mules en um analss dela vegrsion? 2 tesntate ames, nuestra ini toe puta se adentré en la medicina del comportamien: to al examinar las relaciones entre el sindrome de la rola igida y un cierto ntimero de factores relaciona: ddos eon la forma de vida de los yuppis. Se te puede hhaber ocucrido que estaba simplificando las cosas en ‘exceso al considerar cinco variables y reunirlas en un linico valor total. Puedes recordar que el grado de eyuppinezs estaba codilcad a través del valor CHIGC, detinido asi COCHES: Nimero de coches europeos + Numero de vehfeulos no matriculados - Numero de vehicu: Jos todo terreno. HERMOSURA: Niimero de clubs de tenis, esqui y sdumnasios de los que se es socio. INGRESOS: Ingresos totals en unidades de 10 00S, COCINA: Consumo total de vinagre balssmico (li tos) + nsimera de clases de mostaza presentes en el refrigerador. CHAQUETAS: Noimero total de etiquetas de Gucci, Lacoste y Saint Laurent en los arn Mirando detenidamente la causa de la dolencta, 3 parece que algunas de estas variables pueden jugar un papel mayor que olras en el desarro- To del mal. COCHES es un primer canclidat pues fue reconoelde por pit evidente a ver entre las conde totes de BMW y parece estar relacionado con los cam bios de marcha répides y los frenazos bruscos, La varia ble HERMOSURA podria agravar la situackén, a pesat del titulo, a causa de los retorcimientos y estuerzos de roullla que producen el tenis, el squash 0 el esqus. Las CHAQUETAS podsian también 108 ‘sar peoblemas, silos indlviduos se ponen conjuntos con pantalones de cuero ajustados demasiado a menudo, de manera que se obs- ‘ruya la circulacin en las extremidades inferiores. Pero, en cambio, INGRESOS y COCINA no parecen tener de mnasiada inglucncia, 2Qué efecto produce afiadir gran cantidad de varia bles exira en el valor conjunto? En primer lugar, re nit, codificar y analizar todos estos datos superpuestos tiene un coste més elevado.! Segundo, por debajo de ddeterminado nivel es posible que s6lo aporten tuido a la prediccion, reduciendo la sensibilidad del andliss Quisiétamos no perder de vista la contribucién de cada variable individual al mismo tiempo que hiendo la prediccién conjunta dela variable d rniente Dor todas las variables (0, como veremos, todas las va riables contribuyendo de forma significative ala predic ién). Aunque aparentemente complicado, el método realidad una generalizacién sencilla de la regre- sin simple al caso de varias variables. No hay que sor prendetse, pues, que lleve el nombre de regresion miiltiple. La regresicn multiple rata de la relaciin Yin entre una variable dependiente y varias (mas de una) variables independiente. CALCULOS DE LA REGRESION MULTIPLE EI primer paso en la regresién maltple es crear ana nueva ecuacién de regresién que abarque tela las va tables independientes de interés, La nuestra sera algo J= y+ by COCHES + by HERMOSURA + 6, INGRESOS + b, CHAQUETAS + 5, COCINA iacaacas aaa REGRESION MOLTIPLE 109 Esto es bastante més largo que lo que tenfamnos an- tes, pero no es esendialmente distinto, Un paso siguien: te sazonable seria representar Ios datos. No obstante, pavle ha conseguide aparecer con un papel de graficos de scis dimensiones, por lo que, de momento, pasare tnos por alto este punto, Aun ast, supondremos que, al menos por atora, que hemos representade la relacisn entre ¢] ROM y cada una de las variables independien: {es tomadas tuna 2 una, una Tinea ms @ menos recta seria el resultado final Poulemas proceder, entonces, a introducir todo el montén en el ordenador y presionar el botdes que pone Sregresian miitiplex, Observa que «todo el monté Consiste en una serle de 20 puntos en este papel gréfico de ses dimensiones, no para cada tno de los 20 yuppis objeto de estudio. Cada dato viene descrita asu vee por sels valores correspondientes al ROM y a ada una de jas cinco variables independientes. El ordenador caleu In ahora, exactamente igual que antes, el valor de las b correpondientes a la yeta mejor ajustada, donde «la me- jore esté definida como la combinacién de valores que dan como eesultado la menor summa de euadrados de las desvigciones entre los datos ajustados y los reales. La cexpresion que debemos minimizar esi? ROM, tby + 6, CO, +5, HE, + ING, +2, +2, COC)P (on) Llamaremos a esta suma, igual que antes, La suma de los cuadrados {residual} 0 SC, Por supuesto, se pueden sacar dos sumas més a pat tir de los datos, suma de los cuadrados (regresién) 0 Sey ¥ Suma de los cuadrados (total) 0 SC, Leeann #8, COC, +0 CHYP « 2) Aunque la férmula se parece muchisimo a SC, de tales de impresidn, como la barra en la parte superior de ROM en lugar del subindice , es toda la diferencia ‘que existe. La SC,., sa diferencia entre los datos indi Viduales, ROM, y los valores ajustados; la SC, ¢s la di- Ferencia entre los datos ajustados y la gran media ROM aiustada, Finalmente, la $C, | representa la diferencia entte los verdaderos Valores y Ia gram medio: SCq= S[ROM, - ROM] (3) ¥. naturalmente, podemos reunirlo tod, tal como hicimos en fa regresin simple, y obtendeemos una ta- bla de ANOVA (abla 13-1). Heemos visto varias diferencias entre los mimeros de Sta tabla y las tablas que se obtienen con la regresin simple en el capitulo anterior. in efecto, slo la suma de euadadtos total (4756,0) y las gl (19) som los mis: ‘os. .Cémo una diferencia tan pequelia puede dar I fr a otra tan grande? Tomemos las cosas de una en loa y estudigmoslas made Mediade Procedencia cuadrados_gl_cuadrados Fp Mas rey Regresin 4280-5 856,025.17 0,003 Anis dele variancia Residual «47614 34.0 es pred de Total 475619 ROMa pair de cinco variables 1. Suma de cuadrados. Si bien la suma de cuadrados total coincide con la de antes, la summa de cuadrados que resulta de la regresién, en. realidad, ha aumentado un poco, de 3892 a 4280, Esto es realmente comprensible, En la regresién simple sumabamos, sin ms, los cinco valores para obtener algo que denominamos CHIC. Aqut hemos dado tna estimacién de la contribucin de cada vatiable por separado, por Jo que el ajuste global refleja de ina forma més recta el valor pronosticado de cada variable. {Ast ¥ez, esto mejora un poco el ajuste general, aumentando la suma de cuadrados (regresion) y disminuyyenda la suma de cuadrados (residual) cen Ia misma canta. 2. Grados de libertad. Ahora, el ndmeto de gh ‘obtentdo a parti de la regresion ha pasado de 1.5, como es comprensible. Hemos dado valores aproximados de seis pardmettos, en ugar de dos, como antes: uno representa la fordenada en el origen. Los gl globales siguen, siendo 19, con 5 gl correspondientes a los de cada variable. Entonees, como Jos gl totales deben seguir siendo iguales al rximero de datos -1, los gl del residual bajan hasta 14. 3. Media de ls cuadrados yrazén F. Finalmente, la A par dee Independerc hus pee coeficiente di nuestra aportacién de aire calieme al calentanieno generat de la aumisfera, ‘media de los cuadrados se obtiene a partir de la sua de los cuadrados y los gl. Como la surva Ue Tos cuadrados (regresién) hace uso de 5 gl, la ‘media de cuadrados correspondiente ha squedado dividida por un factor peéxime a4, aunque haya mejorado el ajuste. Asi pues, finalmente tenemos una razén F mentor, ahora con 5 y 14 gl pero sigue siendo ampliamente signiticativa Signiticativa 0 no, éta es una de las muchas inter: pretaciones de la ética protestante del trabajo: «No se ‘consigue algo a cambio nadan, El coste de intvodcir las variables de forma indlividualizada fue la pérdda de gl lo que reduciria el ajuste a un nivel carente de signifi ‘aci6n mientras mejora realmente la suma de cuadea. dos. Al intraducir nuevas variables en la regresién, ANOVA, o condequiera que sea, se puede perder po tei eno ae pantcpen en una gran prporeén Podemos proceder ahora a dar el timo paso y cal cular el coeficiente de correlacisn: [a0 V aas0 +476 ~ 110 Figura 3-1 Parte proporcional REGRESION ¥ CORRELACION de a variancia Ce {sombreada) Ja regresiin de los valores CHICC respecto de la / regresion méiltple 3892 de variables: \ individualizadas. {Los nfimeros representan la correspondiente a suma de cuadrados cHicc simple Sumade Media de Procedencia coadrados_gl_condeados Fp | ANOVA de Coches | le regresiin Rearesion 1 3405.0 454 08: ddelas variables Residual 18 750 individualizadas Hermosura Regresién 1622.0 1 1622.0 9,31 ~0.38. Residual «3134018 174.3 Ingresos Regesion 643.01 281 0.36 Residual 4113.0 13 Chaguetas Regresion 1 2145 085 0.21 095 022 Como era de esperar, esto ha aumentado debide a aque la suma de cuzdrados (regresi6n) es mayor. Obser va la &:recibe el nombte de coeficiente de correla- ion miiltiple, para distinguirlo de la correlacién sim ple. Pero la interpretacién es la misma, I cagfsonte de corelaisn mutiple (R} ve obtiene a partir de la f6rmula de a regresi6n mip, y su ‘cuadrado () indica la parte proporcional de varianca inducia por todas las variables independientes individualizadas. Como siempre, una interpretacién grifica exhibe ae tividades de las sumas de cuadrados, Bn la figura 13-1 hemos representado la parte proporcional de la summa total de cuadrados que salen de la regresion y de la par te residual. Como ya sabemos, existe alguna pequedia diferencia, siempre favorable ala regresién miitiple De momento, esto es suliciente, Tienes todo el dere- cho a pensar que 1 gran negocio esté en que no hemos hhecho mucho mas que mejorar un poquito el ajuste 476 | { 4280 CHIC, miitipie aproximando cada uno de los eoeficientes, pero al sig nifcativo coste de los gl. Sin embargo, no hemos explo tado todavia las interrelaciones concretas ene las va- Hiables RELACIONES ENTRE VARIABLES INDIVIDUALIZADAS. Volvamos un poco hacia atris y tomemos las variables de una en una y hagamos una regresién simple, como ya hemos dicho. Si nos permites una pequeia licencia posta, los ANOVA lnudividuales (con sus coeticentes Ae correlacién respectivos) tendrian un aspecto como el de la abla 13-2. Estos datos nos dan mucha mas in formacién acerca de lo que ocutte realmente que la que tenfamos antes. En primer lugar, observa que la suma ‘otal de cuadrados siempre es 4756, Pero los COCHES solos dan casi toda la summa de cuadrados y tienen el coeficiente de correlacién simple correspondiente més alto. Esto es como deberra ser; fueron las observaciones dlinicas sobre coches las primeras que nos pusieron s0- bre la pista de esta dolenca, La HERMOSURA viene a continuacién, pero tiene una correlacién simple nega iva; presumiblemente, si haces suficiente ejerccio, ts indisculos pueden acusar el temendo esfuerzo asociado ala rodilla BMW. Le sguen los INGRESOS, que todavia son significativos; con toda seguridad tienes que ser rico para adquirir coches y todas las cosas que permiten Tle var un estilo de vida de yuppi. Las tiltimas, COCINA y CHAQUETAS, no som significativas, por lo que prescin- lremos de ellas en sucesivas consideraciones. ‘Aunque confesamos que hemos amafiado estos da- tos para no tener complicaciones marginales, la estrate ala de observae primero las correlaciones simples y apar tar de la cireulacién las variables insignificantes no es mala en absoluto, La ventaja consiste en que, como ve remos, un gran miimero de variables exige mucstras tam bien muy grandes, por lo que es de gran ayuda reducir dle entrada el miro de las variables, La desventaja cs {que podemos engaiiarnos con las correlaciones simples, tanto en un sentido come en ott. ‘A primera vista, puedes pensar que podriamos si mar todas estas sumas de cuadrados para realizar una regresién miltiple, Esto no es posible, desgraciadamen te. Silo hieiéramas, la suma de cuadrados correspon Le

También podría gustarte