eas
Pern ran
Eur)
Seer)
ene
seer eee
situacién en la que
pence
Sere
independiente:
foresrs
Pear omatty
ns
Regresion multiple
dependiente,
algunos
loves pueda
ver esto como algo
PUEsT
ras describe (y publica) el nuevo sindvom
Jorma de vida decadente, decides exp
ra qué asp
Quieres observar todas las variables que forman pan
‘A EN ESCENA
lu rodilla BMW, y probar gue es, efecivamente, resultado de wna
tos de dicho esto de vida son tos cavesantes del problema,
ede los valores CHICC, tanto individualmente come en su
conjuto. ¢Cémo combinartas todas estas medidas mules en um analss dela vegrsion?
2 tesntate ames, nuestra ini toe
puta se adentré en la medicina del comportamien:
to al examinar las relaciones entre el sindrome de la
rola igida y un cierto ntimero de factores relaciona:
ddos eon la forma de vida de los yuppis. Se te puede
hhaber ocucrido que estaba simplificando las cosas en
‘exceso al considerar cinco variables y reunirlas en un
linico valor total.
Puedes recordar que el grado de eyuppinezs estaba
codilcad a través del valor CHIGC, detinido asi
COCHES: Nimero de coches europeos + Numero
de vehfeulos no matriculados - Numero de vehicu:
Jos todo terreno.
HERMOSURA: Niimero de clubs de tenis, esqui y
sdumnasios de los que se es socio.
INGRESOS: Ingresos totals en unidades de 10 00S,
COCINA: Consumo total de vinagre balssmico (li
tos) + nsimera de clases de mostaza presentes en el
refrigerador.
CHAQUETAS: Noimero total de etiquetas de Gucci,
Lacoste y Saint Laurent en los arn
Mirando detenidamente la causa de la dolencta, 3
parece que algunas de estas variables
pueden jugar un papel mayor que olras en el desarro-
To del mal. COCHES es un primer canclidat
pues fue reconoelde por pit
evidente
a ver entre las conde
totes de BMW y parece estar relacionado con los cam
bios de marcha répides y los frenazos bruscos, La varia
ble HERMOSURA podria agravar la situackén, a pesat
del titulo, a causa de los retorcimientos y estuerzos de
roullla que producen el tenis, el squash 0 el esqus. Las
CHAQUETAS podsian también
108
‘sar peoblemas, silos
indlviduos se ponen conjuntos con pantalones de cuero
ajustados demasiado a menudo, de manera que se obs-
‘ruya la circulacin en las extremidades inferiores. Pero,
en cambio, INGRESOS y COCINA no parecen tener de
mnasiada inglucncia,
2Qué efecto produce afiadir gran cantidad de varia
bles exira en el valor conjunto? En primer lugar, re
nit, codificar y analizar todos estos datos superpuestos
tiene un coste més elevado.! Segundo, por debajo de
ddeterminado nivel es posible que s6lo aporten tuido a
la prediccion, reduciendo la sensibilidad del andliss
Quisiétamos no perder de vista la contribucién de cada
variable individual al mismo tiempo que
hiendo la prediccién conjunta dela variable d
rniente
Dor todas las variables (0, como veremos, todas las va
riables contribuyendo de forma significative ala predic
ién). Aunque aparentemente complicado, el método
realidad una generalizacién sencilla de la regre-
sin simple al caso de varias variables. No hay que sor
prendetse, pues, que lleve el nombre de regresion
miiltiple.
La regresicn multiple rata de la relaciin Yin entre
una variable dependiente y varias (mas de una)
variables independiente.
CALCULOS DE LA REGRESION MULTIPLE
EI primer paso en la regresién maltple es crear ana
nueva ecuacién de regresién que abarque tela las va
tables independientes de interés, La nuestra sera algo
J= y+ by COCHES + by HERMOSURA + 6,
INGRESOS + b, CHAQUETAS + 5, COCINA
iacaacas aaaREGRESION MOLTIPLE 109
Esto es bastante més largo que lo que tenfamnos an-
tes, pero no es esendialmente distinto, Un paso siguien:
te sazonable seria representar Ios datos. No obstante,
pavle ha conseguide aparecer con un papel de graficos
de scis dimensiones, por lo que, de momento, pasare
tnos por alto este punto, Aun ast, supondremos que, al
menos por atora, que hemos representade la relacisn
entre ¢] ROM y cada una de las variables independien:
{es tomadas tuna 2 una, una Tinea ms @ menos recta
seria el resultado final
Poulemas proceder, entonces, a introducir todo el
montén en el ordenador y presionar el botdes que pone
Sregresian miitiplex, Observa que «todo el monté
Consiste en una serle de 20 puntos en este papel gréfico
de ses dimensiones, no para cada tno de los 20 yuppis
objeto de estudio. Cada dato viene descrita asu vee por
sels valores correspondientes al ROM y a ada una de
jas cinco variables independientes. El ordenador caleu
In ahora, exactamente igual que antes, el valor de las b
correpondientes a la yeta mejor ajustada, donde «la me-
jore esté definida como la combinacién de valores que
dan como eesultado la menor summa de euadrados de las
desvigciones entre los datos ajustados y los reales. La
cexpresion que debemos minimizar esi?
ROM, tby + 6, CO, +5, HE, + ING, +2,
+2, COC)P
(on)
Llamaremos a esta suma, igual que antes, La suma
de los cuadrados {residual} 0 SC,
Por supuesto, se pueden sacar dos sumas més a pat
tir de los datos, suma de los cuadrados (regresién) 0
Sey ¥ Suma de los cuadrados (total) 0 SC,
Leeann
#8, COC, +0 CHYP
«
2)
Aunque la férmula se parece muchisimo a SC, de
tales de impresidn, como la barra en la parte superior
de ROM en lugar del subindice , es toda la diferencia
‘que existe. La SC,., sa diferencia entre los datos indi
Viduales, ROM, y los valores ajustados; la SC, ¢s la di-
Ferencia entre los datos ajustados y la gran media ROM
aiustada, Finalmente, la $C,
| representa la diferencia
entte los verdaderos Valores y Ia gram medio:
SCq= S[ROM, - ROM]
(3)
¥. naturalmente, podemos reunirlo tod, tal como
hicimos en fa regresin simple, y obtendeemos una ta-
bla de ANOVA (abla 13-1).
Heemos visto varias diferencias entre los mimeros de
Sta tabla y las tablas que se obtienen con la regresin
simple en el capitulo anterior. in efecto, slo la suma
de euadadtos total (4756,0) y las gl (19) som los mis:
‘os. .Cémo una diferencia tan pequelia puede dar I
fr a otra tan grande? Tomemos las cosas de una en
loa y estudigmoslas
made Mediade
Procedencia cuadrados_gl_cuadrados Fp Mas
rey
Regresin 4280-5 856,025.17 0,003 Anis dele variancia
Residual «47614 34.0 es pred de
Total 475619 ROMa pair
de cinco variables
1. Suma de cuadrados. Si bien la suma de cuadrados
total coincide con la de antes, la summa de
cuadrados que resulta de la regresién, en.
realidad, ha aumentado un poco, de 3892 a
4280, Esto es realmente comprensible, En la
regresién simple sumabamos, sin ms, los cinco
valores para obtener algo que denominamos
CHIC. Aqut hemos dado tna estimacién de la
contribucin de cada vatiable por separado, por
Jo que el ajuste global refleja de ina forma més
recta el valor pronosticado de cada variable.
{Ast ¥ez, esto mejora un poco el ajuste general,
aumentando la suma de cuadrados (regresion) y
disminuyyenda la suma de cuadrados (residual)
cen Ia misma canta.
2. Grados de libertad. Ahora, el ndmeto de gh
‘obtentdo a parti de la regresion ha pasado de
1.5, como es comprensible. Hemos dado
valores aproximados de seis pardmettos, en
ugar de dos, como antes: uno representa la
fordenada en el origen. Los gl globales siguen,
siendo 19, con 5 gl correspondientes a los
de cada variable. Entonees, como
Jos gl totales deben seguir siendo iguales al
rximero de datos -1, los gl del residual bajan
hasta 14.
3. Media de ls cuadrados yrazén F. Finalmente, la
A par dee
Independerc
hus pee
coeficiente di
nuestra aportacién de
aire calieme al
calentanieno generat
de la aumisfera,
‘media de los cuadrados se obtiene a partir de la
sua de los cuadrados y los gl. Como la surva
Ue Tos cuadrados (regresién) hace uso de 5 gl, la
‘media de cuadrados correspondiente ha
squedado dividida por un factor peéxime a4,
aunque haya mejorado el ajuste. Asi pues,
finalmente tenemos una razén F mentor, ahora
con 5 y 14 gl pero sigue siendo ampliamente
signiticativa
Signiticativa 0 no, éta es una de las muchas inter:
pretaciones de la ética protestante del trabajo: «No se
‘consigue algo a cambio nadan, El coste de intvodcir las
variables de forma indlividualizada fue la pérdda de gl
lo que reduciria el ajuste a un nivel carente de signifi
‘aci6n mientras mejora realmente la suma de cuadea.
dos. Al intraducir nuevas variables en la regresién,
ANOVA, o condequiera que sea, se puede perder po
tei eno ae pantcpen en una gran prporeén
Podemos proceder ahora a dar el timo paso y cal
cular el coeficiente de correlacisn:
[a0
V aas0 +476 ~110
Figura 3-1
Parte proporcional
REGRESION ¥ CORRELACION
de a variancia Ce
{sombreada)
Ja regresiin de los
valores CHICC
respecto de la /
regresion méiltple 3892
de variables: \
individualizadas.
{Los nfimeros
representan la
correspondiente a
suma de cuadrados cHicc
simple
Sumade Media de
Procedencia coadrados_gl_condeados Fp
| ANOVA de Coches
| le regresiin Rearesion 1 3405.0 454 08:
ddelas variables Residual 18 750
individualizadas
Hermosura
Regresién 1622.0 1 1622.0 9,31 ~0.38.
Residual «3134018 174.3
Ingresos
Regesion 643.01 281 0.36
Residual 4113.0 13
Chaguetas
Regresion 1 2145 085 0.21
095 022
Como era de esperar, esto ha aumentado debide a
aque la suma de cuzdrados (regresi6n) es mayor. Obser
va la &:recibe el nombte de coeficiente de correla-
ion miiltiple, para distinguirlo de la correlacién sim
ple. Pero la interpretacién es la misma,
I cagfsonte de corelaisn mutiple (R} ve obtiene a
partir de la f6rmula de a regresi6n mip, y su
‘cuadrado () indica la parte proporcional de
varianca inducia por todas las variables
independientes individualizadas.
Como siempre, una interpretacién grifica exhibe ae
tividades de las sumas de cuadrados, Bn la figura 13-1
hemos representado la parte proporcional de la summa
total de cuadrados que salen de la regresion y de la par
te residual. Como ya sabemos, existe alguna pequedia
diferencia, siempre favorable ala regresién miitiple
De momento, esto es suliciente, Tienes todo el dere-
cho a pensar que
1 gran negocio esté en que no hemos
hhecho mucho mas que mejorar un poquito el ajuste
476
|
{ 4280
CHIC,
miitipie
aproximando cada uno de los eoeficientes, pero al sig
nifcativo coste de los gl. Sin embargo, no hemos explo
tado todavia las interrelaciones concretas ene las va-
Hiables
RELACIONES ENTRE VARIABLES
INDIVIDUALIZADAS.
Volvamos un poco hacia atris y tomemos las variables
de una en una y hagamos una regresién simple, como
ya hemos dicho. Si nos permites una pequeia licencia
posta, los ANOVA lnudividuales (con sus coeticentes
Ae correlacién respectivos) tendrian un aspecto como
el de la abla 13-2. Estos datos nos dan mucha mas in
formacién acerca de lo que ocutte realmente que la que
tenfamos antes. En primer lugar, observa que la suma
‘otal de cuadrados siempre es 4756, Pero los COCHES
solos dan casi toda la summa de cuadrados y tienen el
coeficiente de correlacién simple correspondiente més
alto. Esto es como deberra ser; fueron las observaciones
dlinicas sobre coches las primeras que nos pusieron s0-
bre la pista de esta dolenca, La HERMOSURA viene a
continuacién, pero tiene una correlacién simple nega
iva; presumiblemente, si haces suficiente ejerccio, ts
indisculos pueden acusar el temendo esfuerzo asociado
ala rodilla BMW. Le sguen los INGRESOS, que todavia
son significativos; con toda seguridad tienes que ser rico
para adquirir coches y todas las cosas que permiten Tle
var un estilo de vida de yuppi. Las tiltimas, COCINA y
CHAQUETAS, no som significativas, por lo que prescin-
lremos de ellas en sucesivas consideraciones.
‘Aunque confesamos que hemos amafiado estos da-
tos para no tener complicaciones marginales, la estrate
ala de observae primero las correlaciones simples y apar
tar de la cireulacién las variables insignificantes no es
mala en absoluto, La ventaja consiste en que, como ve
remos, un gran miimero de variables exige mucstras tam
bien muy grandes, por lo que es de gran ayuda reducir
dle entrada el miro de las variables, La desventaja cs
{que podemos engaiiarnos con las correlaciones simples,
tanto en un sentido come en ott.
‘A primera vista, puedes pensar que podriamos si
mar todas estas sumas de cuadrados para realizar una
regresién miltiple, Esto no es posible, desgraciadamen
te. Silo hieiéramas, la suma de cuadrados correspon
Le