Está en la página 1de 55

RegresinLinealMltiple

SantiagodelaFuenteFernndez
RegresinLinealMltiple

SantiagodelaFuenteFernndez
RegresinLinealMltiple
REGRESINLINEALMLTIPLE

Lastcnicasderegresinlinealmltiplepartende(k+1)variablescuantitativas,siendoYlavariable
derespuestay ( X1 , X2 , LL , Xk ) lasvariablesexplicativas.

Setratadeextenderalas'k'variableslastcnicasdelaregresinlinealsimple.Enestalnea,la
variableYsepuedeexpresarmedianteunafuncinlinealdelasvariables ( X1 , X2 , LL , Xk )

Y = 0 + 1 X1 + 2 X2 + L + k Xk

Paraello,dispondremosdeunamodelodeprobabilidad(laNormal).Elestadsticofijalosvaloresde
lasvariablesregresoras X ki yobtiene'alazar'loscorrespondientesvalores Yi

Modelo: Y = 0 + 1 X1 + 2 X2 + L + k Xk + U

Sealamuestraaleatoria: Yi = 0 + 1 X1 i + 2 X2 i + L + K XK i + ui (i = 1, 2, L ,n)

Yi N(0 + 1 X1 + 2 X2 + L + k Xk , 2 ) independie ntes , (i = 1, 2, L ,n)

ui N(0, 2 ) independientes, (i = 1,2, L ,n)

Y1 1X11 LXk 1 0 u1

Y2 1X12 LXk 2 1 u2

Enformamatricial: M = MMLM M + M

M MMLM M M

yn 1X1n LXk n k un

Y = X + U siendoX='matrizdeldiseo'.

Lashiptesiscomunesentrelasregresioneslinealymltipleson:

a) Normalidad: ui N(0, 2 )
b) Linealidad: E (u i ) = 0
c) Homocedasticidad: Var (u i ) = 0
d) Independencia: u i sonindependientes (i = 1, 2, L ,n)

Requisitosadicionalesdelaregresinmltiple:

a) n>k+1.Elmodelodependede(k+2)parmetros.Paraquelaregresintengasignificado
debehaberunnmerosuficientededatos.

b) NingunadelasvariablesexplicativasXescombinacinlinealdelasotras(Colinealidad).Si
algunadelas Xi escombinacinlinealexactadealgunadelasotras Xi ,elmodelopuede
simplificarseconmenosvariablesexplicativas.Tambinhayqueconsiderarsialgunadelas
Xi estfuertementecorrelacionadaconotras.

SantiagodelaFuenteFernndez1
RegresinLinealMltiple
ESTIMACINDELOSPARMETROS

Sealamuestraaleatoria: Yi = 0 + 1 X1 i + 2 X2 i + L + K XK i + ui (i = 1, 2, L ,n)

Enformamatricial: Y = X + U siendoX='matrizdeldiseo'.

Y X1 X2 XK
Datos
Lanubedepuntosestenun
espaciodedimensin(k+1).
1 Y1 X 11 X 21 X k1
Esdifcildevisualizarparak>2

2 Y2 X 12 X 22 X k2 = [X' X ] 1 X' Y

dondeX'eslamatriztranspuesta
M M M M M
deldiseo

n Yn X 1n X 2n X kn

n X2 n X X ... Xi1Xik
n
n X Y
i1 i1 i2 i1 i
i=n1 i=1
n
i=1
n i=n1
Xi2Xi1 X2i2
donde, X' X = i=1 ... Xi2Xik , X' Y = Xi2Yi

i=1 i=1 i=1
M M ... M M
n n n
n
Xik Xi1 Xik Xi2 ... X2ik Xik Yi
i=1 i=1 i=1 i=1

Cadaunodeloscoeficientes i representaelefectodelavariableindependientesobrelavariable
explicada.Esdecir,elvalorestimado i indicalavariacinqueexperimentalavariable
dependientecuandolavariableindependiente X i varaenunaunidadytodaslasdems
permanecenconstantes.

Cuandoelmodelotienetrminoindependiente,lasmatricesanterioressesimplificanconlas
siguientesexpresiones:

n n
n
nY
Xi2 ... Xik i
n i=1
n
i=1
n ni=1
X i2
X' X = Xi2 ... Xi2Xik , X' Y = Xi2Yi
2

i=1 i=1 i=1 i=1


M M ... M M
n n n
n
Xik Xik Xi2 ... X2ik Xik Yi
i=1 i=1 i=1 i=1

[
u i = Yi Yi = Yi 0 + 1 X1 i + 2 X2 i + L + K XK i ]
= SR2 =
1 n
u2i
n k 1 i=1

SantiagodelaFuenteFernndez2
RegresinLinealMltiple
Enunprincipio,paraestimarlavarianzadelerroraleatorioU,parecerazonableutilizarlavarianzade
loserroresdeprediccin,tambindenominadosresiduosdelmodelo.
1 n
2 = u2i .Sinembargo,esteestimadoressesgado E ( 2 ) 2 ,
Esdecir,parecerazonableutilizar
n i =1
1 n
portanto,seutilizacomoestimador SR2 = u2i .
n k 1 i=1

DEMOSTRACIN( Y = X + U = [X' X ] 1 X' Y )

Y = X + U .Elcorrespondientemodeloajustadoser Y = X ,conlocual, U = Y Y = Y X

DenominandoSalasumadeloscuadradosdelosresiduos:

u1
u
S = U' U = [ u1 , u2 , LL , un ]
n
2 = u ( U' matriztranspuestade U )
M i=1 i

un
[ '
][ ]
S = Y X Y X = Y' Y ' X' Y Y' X + ' X' X B = Y' Y ' X' Y ' X' Y + ' X' X B = Y' Y 2 ' X' Y + ' X' X B
14444244443
un escalar es igual a su transpuesto
' X' Y=X' Y

ParaminimizarSseaplicaelcriteriomnimocuadrtico,derivandorespectode :

S
= 2 X' Y + 2 X' X B = 0 X' X B = X' Y a [X' X]1 (X' X ) B = [X' X]1 X' Y a B = [X' X ]1 X' Y

DISTRIBUCINDE

a) Lasestimacionesdelosparmetrosvienendadaporlaexpresin = [X' X ] 1 X' Y (siendoX'la


matriztranspuestadeldiseo).

b) ElvectordeobservacionesYsedistribuyesegnunanormalmultivariantedemedia X yde
matrizdevarianzasycovarianzas 2 I ,esdecir, Y N( X , 2 I) .

c) escombinacinlinealdelascomponentesdelvectorY,porloquesedistribuyesegnuna
variablealeatorianormal,dondesumediaymatrizdevarianzasycovarianzasser:

( )
E ( ) = E [X' X ] 1 X' Y = [X' X ] 1 X'E (Y) = [X' X ] 1 X' X = esunestimadorinsesgadode

( )
Var ( ) = Var [X' X ] 1 X' Y = [X' X ] 1 X' [Var (Y)] X [X' X ] 1 = [X' X ] 1 X' 2 X [X' X ] 1 = 2 [X' X ] 1

(
dedonde, N , 2 [X' X ] 1 )

SantiagodelaFuenteFernndez3
RegresinLinealMltiple
[
Conelajustedemnimoscuadrados: u i = Yi Yi = Yi 0 + 1 X1 i + 2 X2 i + L + K XK i ]
( )
i N , 2 q i +1, i +1 ,donde q i +1, i +1 sonloselementosdeladiagonalprincipal [X' X ] 1 .

Anlogamente,lacovarianzaentre i y j ser 2 q i +1 , i +1

1 n
Laestimacindelavarianzaresidual 2 sehacemediante S2R = u2i ,pudindose
n k 1 i=1
comprobarqueelestimadoresinsesgado: E S2R = 2 [ ]
(
Deformaqueestimaremoslavarianzade i N , 2 q i +1, i +1 mediante S 2R q i +1, i +1 . )
(n k 1) S2R
Sedemuestraque n2k1
2

i i
Seobtiene N(0,1) .
q i +1, i +1
N(0,1)
ComolavariabletStudentconkgradosdelibertadsedefine: tk =
1 2
k
k
i i
q i +1 , i +1 i i
resultaque, t = = tnk1
1 (n k 1) SR2 SR q i +1, i +1
(n k 1)

d) CONTRASTEDEHIPTESIS[tStudent]

Nosplanteamossilavariable X i influyesobrelavariablederespuestaY.Enotraspalabras,siel
valordelparmetroenlapoblacinesceroono.

Paraello,seestablecelahiptesisnula H0 : i = 0 frentealahiptesisalternativa H1: i 0 .


i i i
Elestadsticoobservado t = ,bajolahiptesisnularesulta, t =
SR q i +1, i +1 SR q i +1, i +1
estadstico
experimental
647
4 48 4 estadstico
terico
i 6474 8
Seaceptalahiptesisnula H0 cuando t .Encasocontrario,serechaza.
SR q i +1, i +1 ; (nk 1)
2

Si n > 30 ,seaceptalahiptesisnula H0 cuando t 2 .Encasocontrario,seaceptalahiptesis


alternativa H1 ,concluyendoquelavariable Xi isimainfluyeenlarespuesta.

SantiagodelaFuenteFernndez4
RegresinLinealMltiple
CLCULODELCOEFICIENTEDECORRELACINPARCIAL

Enunmodeloderegresinlinealmltiple, Y = 0 + 1 X1 + 2 X2 + L + k Xk ,sepuedecalcular
fcilmenteelcoeficientedecorrelacinparcialentrelavariablederespuestaYyunavariable
regresoraX,controladoporelrestodevariablesregresoras.Paraelloseutilizaelcontraste
individualdelatrespectoalavariableX,yquesedefinecomo:

i
ti = i = 1, 2,...,k ,
SR q i +1, i +1

t2i
Obtenindoselasiguienterelacin: R2Y iC =
t2i + n (k + 1)

donde C = {1, 2, ... , i 1, i + 1, ... ,k } conjuntodendicesdetodaslasvariablesregresorasexceptoel


ndiceisimo.

e) INTERVALOSDECONFIANZADELOSPARMETROS i
Lasestimacionesdelosparmetrosvienendadaporlaexpresin = [X' X ] 1 X' Y (siendoX'la
matriztranspuestadeldiseo).

n
(yi yi ) 2
( )
Porotraparte, i N , 2 q i +1, i +1 ,dondelavarianzaresidual 2 seestimapor SR2 = i=1
n k 1
,

donde q i +1, i +1 sonloselementosdeladiagonalprincipal [X' X ] 1 .


[
IC1 (i ) = i t / 2 , (nk 1) SR q i +1 , i +1 ]

CONTRASTEDEHIPTESISINTERVALOSDECONFIANZA

Hiptesisnula H0 : i = 0 X i noinfluyeenY
Hiptesisalternativa H1: i 0 X i influyeenY

Seaceptalahiptesisnula H0 , X i noinfluyeenY,conunniveldeconfianza (1 ) cuandoel


ceroseencuentraenelintervalodeconfianza.

Encasocontrario,cuandoelceronocaeenelintervalodeconfianza,seaceptalahiptesis
alternativa H1 ,yenconsecuencia, X i influyeenY.

EstecontrasteesequivalentealcontrastedelatStudentparacada i

SantiagodelaFuenteFernndez5
RegresinLinealMltiple
f) INTERVALODECONFIANZAPARALAVARIANZADELOSRESIDUOS


(n k 1) S2 (n k 1) S2 SCR SCR
IC = 2 R
; 2 R
= 2 ; 2
2
1 , (nk1)
2 , (nk1) 1 , (nk1)
2 2 , (nk1) 2

DESCOMPOSICINDELAVARIABILIDAD
=0
6447 448
[ ]
n n 2 n n n
SCT = ( Yi Y ) 2 = ( Yi Y i) + ( Yi Y ) = ( Yi Y i) 2 + ( Yi Y ) 2 + 2 ( Yi Yi ).( Yi Y )
i=1 i=1 i=1 i=1 i=1

n n n
( Yi Y ) 2 = ( Yi Y i) 2 + ( Yi Y ) 2
i=1 i=1 i=1
1 4243 1 4243 1 4243
SCT SCE SCR
suma cuadrados total suma cuadrados exp licada suma cuadrados residual
(n1) grados libertad k grados libertad (nk1) grados libertad

n n

n n n ( Yi Y i) 2 ( Yi Y ) 2
( Yi Y ) 2 = ( Yi Y i) 2 + ( Yi Y ) 2 1 = i=1
n
+ i=1
n
i=1 i=1 i=1
( Yi Y ) 2
( Yi Y ) 2
i=1 i=1
1 4243 1 4243
SCR / SCT R =SCE / SCT
2

Unavezestimadoelmodeloesconvenienteobtenerunamedidaacercadelabondaddelajuste
realizado.UnestadsticoquefacilitaestamedidaeselCoeficientedeDeterminacin( R2 ),quese
n

SCE
( Yi Y i) 2
define: R2 = i =1
= n
SCT
( Yi Y ) 2
i =1

ElCoeficientedeDeterminacinpermite,adems,seleccionarentremodelosclsicosquetenganel
mismonmeroderegresores,yaquelacapacidadexplicativadeunmodeloesmayorcuantoms
elevadoseaelvalorquetomeestecoeficiente.

Porotraparte,elvalorcoeficientededeterminacincrececonelnmeroderegresoresdelmodelo.
Porello,silosmodelosquesecomparantienendistintonmeroderegresores,nopuede
establecersecomparacinentresus R2 .

Enestecasodebeemplearseelcoeficientededeterminacincorregido R 2 ,quedepurael
incrementoqueexperimentaelcoeficientededeterminacincuandoelnmeroderegresoreses
mayor.

SCR n k 1 n1
R 2 = 1
SCT n 1
=1 1R
2
[ ]
n k 1

SantiagodelaFuenteFernndez6
RegresinLinealMltiple
ANLISISDELAVARIANZA:TABLAANOVA

Variacin Sumacuadrados Gradoslibertad Mediacuadrtica FSnedecor


n
SCE
Explicada SCE = ( Yi Y i) 2 k
i=1 k SCE / k
F=
n
SCR SCR / (n k 1)
Residual SCR = ( Yi Y ) 2 nk 1
i=1 n k 1
n
Total SCT = ( Yi Y ) 2 n1
i=1

CONTRASTEDEHIPTESIS:

Hiptesisnula H0 : 1 = 2 = LL = k = 0 elmodelonoesexplicativo
Hiptesisalternativa H1: al menos un i 0 elmodeloesexplicativo

Aunniveldeconfianza (1 ) serechaza H0 si F F ; k , (nk1)

FSnedecorCOEFICIENTEDEDETERMINACIN
n

SCE
( Yi Y i) 2
Elcoeficientededeterminacinsedefine: R2 = i=1
= n
SCT
( Yi Y ) 2
i=1
Deotraparte,ladistribucinFSnedecor:

SCE / k SCE SCT n k 1 1 n k 1 1 nk 1 1 nk 1


F= = = R2 = R2 = R2 =
SCR / (n k 1) SCT SCR k SCR k SCT SCE k 1 R2 k
SCT SCT

R2 n k 1 R2 n k 1
= a F =
1 R2 k 1 R2 k

RESUMENDECONTRASTES

ContrasteConjunto ContrastesIndividuales
Conclusin
FSnedecor tStudent
Modeloexplicativo Todaslas Xi sonexplicativas Tomamostodaslas Xi
Modeloexplicativo Algunas Xi sonexplicativas Nosquedamosconlas Xi explicativas
Modeloexplicativo Ninguna Xi esexplicativa PosibleMulticolinealidad(revisarelModelo)
Modelonoexplicativo Todaslas Xi sonexplicativas PosibleMulticolinealidad(revisarelModelo)
Modelonoexplicativo Algunas Xi sonexplicativas PosibleMulticolinealidad(revisarelModelo)
Modelonoexplicativo Ninguna Xi esexplicativa ElModelonoexplicaY

SantiagodelaFuenteFernndez7
RegresinLinealMltiple
PREDICCINENELMODELODEREGRESIN

UnavezestimadoyvalidadoelModelo,unadesusaplicacionesmsimportantesconsisteenpoder
realizarprediccionesacercadelvalorquetomaralavariabledependienteenelfuturooparauna
unidadextramuestral.

Estaprediccinsepuederealizartantoparaunvalorindividualcomoparaunvalormedio,o
esperado,delavariabledependiente,siendoposibleefectuarunaprediccinpuntualopor
intervalos.Suclculoserealizamediantelassiguientesexpresiones:

IntervalodeconfianzaparaunvalormediodeYparalosvalores ( X10 , X20 , LL , Xk 0 ) delas


variablesexplicativas.

Y0 = 0 + 1 X10 + 2 X20 + L + K XK 0

1

X 10
IC E(Y0 ) = Y 0 t / 2 , (nk 1) S R (1 X 10 X 20 L X k 0 ) (X' X) 1 X 20

M

XK0

IntervalodeconfianzaparaunvalorindividualdeYparalosvalores ( X 10 , X 20 , L L , X k 0 ) delas
variablesexplicativas.

1

X 10
IC Y0 = Y0 t / 2 , (nk 1) SR 1 + (1 X 10 X 20 L X k 0 ) (X' X) 1 X 20

M

XK0

MATRIZDECOVARIANZAS
2y S yx 1 S yx 2 S yx 1 = Sx 1 y

Lamatrizdevarianzascovarianzassedefine: VC = Sx 1 y 2x1 Sx 1 x 2 S yx 2 = Sx 2 y
Sx y
2 Sx 2 x 1 2x2 Sx 1 x 2 = Sx 2 x 1

Loscoeficientes ( 1 , 2 ) vienendados,respectivamente,consignonegativo () ,porelcocientede


losadjuntos (S yx 1 , S yx 2 ) entreeladjuntode 2y :

VC yx 1 VC yx 2
1 = 2 = 0 = Y 1 X1 2 X2
VC y VC y

2x1 Sx 1 x 2 Sx 1 y Sx 1 x 2 Sx y 2x1
donde, VC y = VC = VC y x 2 = 1
Sx 2 x 1 2x2 y x 1
Sx 2 y 2x2 Sx 2 y S2x 2 x 1

SantiagodelaFuenteFernndez8
RegresinLinealMltiple
CV
Coeficientededeterminacinmltiple: R = ryx 1x 2 = 1
2 2

2y C yy

Coeficientesdecorrelacinparcial: VC yx 1 VC yx 2
ryx 1 .x 2 = ryx 2 .x 1 =
VC2 = VC yy VC = VCx 1x 1 VC = VCx 2 x 2


x1 x2
VC yy VCx 1x 1 VC yy VCx 2 x 2
y

MATRIZDECORRELACIONES

Lamatrizdecorrelacionesdelasvariablesexplicativas Rx estformadaporloscoeficientesde
correlacinlinealsimple:
S yx 1
ryx 1 =
1 ryx 1 ryx 2 ryx 1 = rx 1 y y x 1
r = r
Rx = rx 1 y 1 rx 1x 2 donde yx 2 x 2 y
rx y rx x 1 rx x = rx x S yx 2
2 2 1 1 2 2 1
ryx 2 =
y x 2

ryx 1 ryx 2 rx 1 x 2
ryx 1 .x 2 =
(1 ryx2 2 )(1 rx21x 2 )

Coeficientesdecorrelacinparcial:
ryx 2 ryx 1 rx 2 x 1
ryx 2 .x 1 =
(1 ryx2 1 )(1 rx22 x 1 )

ryx2 1 + ryx2 2 2 ryx 1 ryx 2 rx 1x 2


Coeficientededeterminacinmltiple: R = r 2 2
=
1 rx21x 2
yx 1 x 2

SantiagodelaFuenteFernndez9
RegresinLinealMltiple
Ejercicio1.Sepretendenestimarlosgastosenalimentacindeunafamiliaenbasealainformacin
queproporcionanlasvariablesregresoras'ingresosmensualesy'nmerodemiembrosdela
familia'.Paraelloserecogeunamuestraaleatoriasimplede15familias,cuyosresultadossefacilitan
enlatablaadjunta.(Elgastoeingresoseexpresanencienmileuros).

GastoAlimentacin Ingresos Tamao


0,43 2,10 3
0,31 1,10 4
0,32 0,90 5
0,46 1,60 4
1,25 6,20 4
0,44 2,30 3
0,52 1,80 6
0,29 1,00 5
1,29 8,90 3
0,35 2,40 2
0,35 1,20 4
0,78 4,70 3
0,43 3,50 2
0,47 2,90 3
0,38 1,40 4

Solucin:Enformamatricial: Y = X + U , = [X' X ] 1 X' Y ,dondeX'matriztranspuesta

0,43 12,13

0,31 11,14
0,32 10,95

0,46 11,64
1,25 16,24

0,44 12,33

0,52 11,86 0 u1

Y = 0,29 = X + U = 115 1 + u2
u
1,29 18,93 2 3
0,35 12,42

0,35 11,24
0,78 14,73

0,43 13,52

0,47 12,93
0,38 11,44

AplicandoelcriteriodelosmnimoscuadradosordinariosMCO,lafuncinquemejorseajustaalos
datoseslaqueminimizalavarianzadelerrorU,loqueconllevaaunsistemadeecuaciones
normales:

SantiagodelaFuenteFernndez 10
RegresinLinealMltiple
15 Y = N + 15 X + 15 X
i=1
i 0 1 1i
i=1
2 2i
i=1
15
15 15 15
ecuacionesnormalesMCO X1i Yi = 0 X1i + 1 X12i + 2 X1i X2i
i=1 i=1 i=1 i=1

15 15 15 15
= +
i=1 2i i 0 i=1 2i 1 i=1 1i 2i 2 i=1 X2i
X Y X X X + 2

Conestosdatos,seobtiene:

Yi X1i X2i X12i X22i X1i X2i X1i Yi X2i Yi


0,43 2,1 3 4,41 9 6,3 0,903 1,29
0,31 1,1 4 1,21 16 4,4 0,341 1,24
0,32 0,9 5 0,81 25 4,5 0,288 1,6
0,46 1,6 4 2,56 16 6,4 0,736 1,84
1,25 6,2 4 38,44 16 24,8 7,750 5
0,44 2,3 3 5,29 9 6,9 1,012 1,32
0,52 1,8 6 3,24 36 10,8 0,936 3,12
0,29 1 5 1 25 5 0,29 1,45
1,29 8,9 3 79,21 9 26,7 11,481 3,87
0,35 2,4 2 5,76 4 4,8 0,84 0,7
0,35 1,2 4 1,44 16 4,8 0,42 1,4
0,78 4,7 3 22,09 9 14,1 3,666 2,34
0,43 3,5 2 12,25 4 7 1,505 0,86
0,47 2,9 3 8,41 9 8,7 1,363 1,41
0,38 1,4 4 1,96 16 5,6 0,532 1,52
15 15 15 15 15 15 15 15
Yi = 8,07 X1i = 42 X2i = 55 X12i = 188,08 X22i = 219 X1i X2i = 140,8 X1i Yi = 32,063 X2i Yi = 28,96
i =1 i=1 i=1 i=1 i =1 i =1 i =1 i =1

15 15 15

Yi = N0 + 1 X1i + 2 X2i
i=1 i=1 i=1
150 + 42 1 + 552 = 8,07
15 15 15 15

conlocual, X1i Yi = 0 X1i + 1 X1i + 2 X1i X2i 42 0 + 188,08 1 + 140,08 2 = 32,063
2

i=1 i=1 i=1 i=1


550 + 140,08 1 + 219 2 = 28,96
2
15 15 15 15
X2i Yi = 0 X2i + 1 X1i X2i + 2 X2i
i=1 i=1 i=1 i=1

enformamatricial,
[X 'X ] 1
6444 47X 'X
4444 8 644444 7444448 647 X 'Y
4
8
154255 0 8,07 0 1,36 0,092 0,282 8,07

42188,08140,8 1 = 32,063 1 = 0,0920,0160,013 32,063
55140,8219 28,96 0,2820,0130,067 28,96
2 2

0 0,16

1 = 0,149 Y = 0,16 + 0,149 X1 + 0,077 X2 + Re siduo (Modeloregresinlineal)
0,077
2

SantiagodelaFuenteFernndez 11
RegresinLinealMltiple
Apartirdelaecuacin Yi = 0 + 1 X1i + 2 X2i seobtienenlasprediccionesyresiduosasociados
ui = Yi Yi alasobservacionesmuestrales.Deestemodo,paralaprimeraobservacin
( Y1 = 0,43 ; X11 = 2,1 ; X21 = 3 ),setiene:

Y = 0,16 + 0,149 (2,1) + 0,077 (3) = 0,3839



u1 = Y1 Y1 = 0,43 0,3839 = 0,0461

Enestalnea,considerandotodoslospuntosmuestrales,seobtiene:

Predicciones: Yi Residuos: ui = Yi Yi u2i = (Yi Yi ) 2


0,3839 0,046 0,0021
0,3119 0,002 0,0000 dedonde,lasumade
0,3591 0,039 0,0015 cuadradosRESIDUAL,es
0,3864 0,074 0,0054 decir,lavariabilidaddeY
1,0718 0,178 0,0318 respectoalarectaajustada
0,4137 0,026 0,0007 ser:
0,5702 0,050 0,0025
0,374 0,084 0,0071 15
SCR = (Y1 Y1 ) 2 = 0,0721
1,3971 0,107 0,0115 i=1
0,3516 0,002 0,0000
0,3268 0,023 0,0005 SCR 0,0721
0,7713 0,009 0,0001 SR2 = = = 0,006
15 2 1 12
0,5155 0,086 0,0073
0,5031 0,033 0,0011
SR = 0,006 = 0,0775
0,3566 0,023 0,0005
15
(Y1 Y1 ) 2 = 0,0721
i=1

INTERVALOSDECONFIANZAPARAMTROSDELMODELO (1 ) = 0,90

Intervalodeconfianzaparalavarianza

n k 1 = 15 2 1 = 12 SR2 = 0,006 SR2 = 0,0721 20,05, 12 = 21,026 20 ,95, 12 = 5,226



(n k 1) SR2 (n k 1) SR2 SCR 0,0721 0,0721
= [0,0034 ; 0,0138 ]
SCR
IC = 2 ; 2 = 2 ; 2 = ;
2 21,026 5,226
, (nk1) 1 , (nk1) , (nk1) 1 , (nk1)
2 2 2 2

0,0034 2 0,0138

) Lavarianzadelosestimadoresdelmodelo N , 2 [X' X ] 1 : ( )
q i +1, i +1 elemento de [X'X ] 1 SR2 q i +1, i +1
644474448 644444744444 8
1,36 0,00816

Var ( i ) = 2 [X' X ]1 SR2 [X' X ]1 = (0,006) 0,016 = 0,000096
0,067 0,0004

SantiagodelaFuenteFernndez 12
RegresinLinealMltiple

Var(0 ) = 0,00816 = 0,00816 = 0,0903


0
dedondesededuce, Var(1 ) = 0,000096 1 = 0,000096 = 0,0098
Var( ) = 0,0004 = 0,0004 = 0,02
2 1

Intervalodeconfianzaparalosparmetros: IC1 (i ) = i t / 2 , (nk1) SR [ q i +1, i +1 ]


0 = 0,160 1 = 0,149 2 = 0,077 t0 ,05 , 12 = 1,782

[
IC1 ( 0 ) = 0,160 (1,782) ]
0,00816 = [ 0,321 ; 0,001 ]

[ ]
IC1 (1 ) = 0,149 (1,782) 0,000096 = [ 0,1315 ; 0,1665 ] (Ingreso)

[
IC1 ( 2 ) = 0,077 (1,782) ]
0,0004 = [ 0,0414 ; 0,1126 ] (Tamao)

ContrastedeHiptesisindividualpara X 2 (tamaofamiliar)

Nosplanteamossilavariable X 2 (tamao)influyesobrelavariablederespuestaY(gastos).En
otraspalabras,sielvalordelparmetroenlapoblacinesceroono.

Paraello,seestablecelahiptesisnula H0 : 2 = 0 frentealahiptesisalternativa H1: 2 0 .


2
Elestadsticoobservado t = 2 2 ,bajolahiptesisnularesulta: t =
SR q33 SR q33
Portanto,

2 = 0,077 SR q33 = (0,0775) 0,0004 = 0,00155 t0 ,05 , 12 = 1,782

2 0,077
Elestadsticoexperimental t = = = 49,67
SR q33 0,00155

Siendo t > t 0 ,05 , 12 serechazalahiptesisnula,afirmando,conun90%defiabilidad,queel


nmerodemiembrosdelafamiliainfluyeenlosgastosdealimentacin.

*ObsrvesequeenelIntervalodeConfianzapara 2 : IC1 (2 ) = [ 0,0414 ; 0,1126 ] elcerono


seencuentraenelintervalo,conloqueserechazalahiptesisnula H0 : 2 = 0 ,concluyendoque
elnmerodemiembrosdelafamilia(tamao)siinfluyeenlosgastosdealimentacin(Y).

SantiagodelaFuenteFernndez 13
RegresinLinealMltiple
MODELOLINEALDEREGRESINMLTIPLE:HERRAMIENTASDESOFTWARE

EXCELYLAREGRESINMLTIPLE

Sepuedeutilizarelanlisisdelaregresinlinealmltipleparaestimarelgastodefamiliasen
alimentacin(Y)basndoseenlasvariablesX1='Ingresosmensuales'yX2='nmerodemiembrosde
lafamilia'.

ExceldisponedeanlisisdeRegresinpara
ajustarelmodeloderegresinmltiple,
simultneamenteproporcionalas
estimacionesdelosparmetros,la
contrastacinindividual,yelanlisisdelos
residuos.

EnelmenHerramientas,tenemosel
dilogoAnlisisdedatos,dondeelegimos
Regresin,obtenindoseuncuadrode
dilogoquepermiterealizarunajustepara
laregresinmltiple.

LosCamposdeEntradatienenlasfuncionalidades:

RangoYdeentrada:Introducirlareferencia
correspondientealrangodedatosdependientes.Elrango
debeestarformadoporunanicacolumna.

RangoXdeentrada:Introducirlareferencia
correspondientealrangodedatosindependientes.Excel
ordenarlasvariablesindependientesdeesterangoen
ordenascendentedeizquierdaaderecha.Elnmero
mximodevariablesindependienteses16.

SantiagodelaFuenteFernndez 14
RegresinLinealMltiple

Rtulos:Activarestacasillacuandolaprimerafilaolaprimeracolumnadelrango(orangos)deentrada
tienenrtulos.Noactivarenelcasodequeelrangodeentradacarezcadertulos.Excelgeneralos
rtulosdedatoscorrespondientesparalatabladeresultados.

Niveldeconfianza:Activarestaparaincluirmsnivelesdeconfianzaenlatabladeresmenesde
resultados.Introducirelniveldeconfianzaaaplicarademsdelnivelpredeterminadodel95%.

Constanteigualacero:Activarestacasillaparaquelalneaderegresinpaseporelorigen.
Rangodesalida:Introducirlareferenciacorrespondientealaceldasuperiorizquierdadelatablade
resultados.Dejarporlomenossietecolumnasdisponiblesparalatabladeresultadossumarios,donde
aparecen:tabladeanlisis,nmeroobservaciones,coeficientes,errortpicodelpronsticoY,valoresde
R2yerrortpicodecoeficientes.

Enunahojanueva:Hacerclicenestaopcinparainsertarunahojanuevaenellibroactualypegarlos
resultados,comenzandoporlaceldaA1delanuevahojadeclculo.Paradarunnombrealanuevahoja
declculo,anotarloenelcuadro.

Enunlibronuevo:Hacerclicparacrearunnuevolibroypegarlosresultadosenunahojanuevadellibro
creado.Sideseaincorporarlaopcingrficatienequeteclearestaopcin.

Residuos:Activarestacasillaparaincluirlosresiduosenlatabladeresultados.

Residuosestndares:Activarestacasillaparaincluirresiduosestndaresenlatabladeresultadosde
residuos.

Grficosderesiduos:Siactivaestacasillasegeneraungrficoporcadavariableindependientefrenteal
residuo.

Curvaderegresinajustada:Siactivaestacasillasegeneraungrficoconlosvalorespronosticados
frentealosvaloresobservados.

Trazadodeprobabilidadnormal:Activandoestacasillasegeneraungrficoconprobabilidadnormal.

Finalmente,conlasopcionesactivadasenlafiguraanterior,enlatabladeresultadosaparecenlos
estadsticosderegresin,cuadrodeanlisisdelavarianzadelmodelo,estimadores,contrastesde
significacindeFSnedecorydetStudentconsuspvaloresasociados,intervalosdeconfianzapara
losparmetrosyparalasprediccionesal90%y95%,yresiduos.

SantiagodelaFuenteFernndez 15
RegresinLinealMltiple

Lasiguientefigurapresentaelgrficodecadavariableindependiente(X1,X2)contralosresiduos,lo
queseutilizaparadetectarelproblemadenolinealidad,heteroscedasticidad,yautocorrelacinen
elmodelodelajuste.
Lomejoresquetodaslasgrficaspresentenunaestructuraaleatoriadepuntos.

Lafiguraadjuntapresentaelgrficopara
detectarlahiptesisdenormalidadenel
modelo.
Lagrficaidealesladiagonaldelprimer
cuadrante.

SantiagodelaFuenteFernndez 16
RegresinLinealMltiple
Lassiguientesgrficasvisualizancadavariableindependientecontralosvalorespredichos,loque
sirveparadetectarproblemasdeheteroscedasticidad.
Loidealesquetodaslasgrficaspresentenunaestructuraaleatoriadepuntos.

SPSSYLAREGRESINMLTIPLE_______________________________________________________

CondatosintroducidosenSPSS,intentamosajustarunmodelomedianteMnimosCuadrados
Ordinarios(MCO).

Paraello,seeligeenelMenAnalizar/Regresin/Lineal,comoseindicaenlafiguraadjunta.

EnelcuadrodelaRegresinlinealseintroducelavariabledependiente(Y)ylasvariables
independientesingresos(X1)ytamaofamiliar(X2).Enelbotn[Opciones]:

SantiagodelaFuenteFernndez 17
RegresinLinealMltiple
Enlasopciones[EstadsticosyGrficos],seprocedecomoapareceenlasseleccionesadjuntas.

Enelbotn[Grficos]seseleccionaresiduoscontravalorespredichos.AlpulsarAceptarseobtiene
elajustedelmodelo.

EnelVisordeSPPS,elajustedelModelo:

Respectoalaautocorrelacin,elestadsticodeDurbinWatsonde1,177nodejaclarolapresenciao
n
(ui u i1 ) 2 DW 2 si = 0
i =2
nodeautocorrelacin: DW = n
2(1 ) DW 0 si = 1
u2i DW 4 si = 1
i =1

Elanlisisdelavarianzaindicaqueelmodeloderegresinessignificativo(pvaloraproximadamente
cero,F2,12=113,141,pvalor<0,001).Portanto,serechazalahiptesisnuladequelavariabilidad
observadaenlavariablerespuestaseaexplicadaporelazar,admitiendoquehayalgntipode
asociacinentrelavariabledependienteylasindependientes.

SantiagodelaFuenteFernndez 18
RegresinLinealMltiple
ElModeloestimadosera: Y = 0,16 + 0,149 X 1 + 0,077 X 2

Enlafiguradelhistogramadelos
residuosseobservaqueseajustabien
aunadistribucinnormal.

Enlafigurasepresentaelgrficodenormalidadque
seajustamuybienaladiagonaldelprimercuadrante.

Enelgrficoderesiduostipificadoscontra
valorespredichosexistendudassobrela
aleatoriedadporquelospuntosse
concentransiguiendorectasparalelas,lo
quepermitevislumbrarproblemasde
heteroscedasticidad.

SantiagodelaFuenteFernndez 19
RegresinLinealMltiple
ANLISISDELAVARIANZA:TABLAANOVA

n n n
( Yi Y ) 2 = ( Yi Y i) 2 + ( Yi Y ) 2
i=1 i=1 i=1
1 4243 1 4243 1 4243
Descomposicindelavariabilidad: SCT SCE SCR
suma cuadrados total suma cuadrados explicada suma cuadrados residual
(n1) grados libertad k grados libertad (nk1) grados libertad

Variacin SumadeCuadrados Gr.libertad Mediacuadrtica FSnedecor


15 SCE
Explicada SCE = ( Yi Y ) 2 = 1,3595 2 = 0,6797 SCE / 2
i=1 2 F= = 113,28
SCR /(15 2 1)
15 SCR
Residual SCR = ( Yi Y i) 2 = 0,0721 1521 = 0,006
i=1 15 2 1
15 SCT
Total SCT = ( Yi Y ) 2 = 1,4316 151 = 0,1023
i=1 15 1

Clculos
Yi (Yi Y) 2 Yi u2i = (Yi Yi ) 2 (Yi Y) 2
0,43 0,011664 0,3839 0,0021 0,0237
0,31 0,051984 0,3119 0,0000 0,0511
0,32 0,047524 0,3591 0,0015 0,0320
0,46 0,006084 0,3864 0,0054 0,0230
1,25 0,506944 1,0718 0,0318 0,2849
0,44 0,009604 0,4137 0,0007 0,0155
0,52 0,000324 0,5702 0,0025 0,0010
0,29 0,061504 0,374 0,0071 0,0269
1,29 0,565504 1,3971 0,0115 0,7381
0,35 0,035344 0,3516 0,0000 0,0347
0,35 0,035344 0,3268 0,0005 0,0446
0,78 0,058564 0,7713 0,0001 0,0544
0,43 0,011664 0,5155 0,0073 0,0005
0,47 0,004624 0,5031 0,0011 0,0012
0,38 0,024964 0,3566 0,0005 0,0329
15 15 15 15
Yi = 8,07 SCT = (Yi Y) 2 = 1,4316 SCR = (Yi Yi ) 2 = 0,0721 SCE = (Yi Y) 2 = 1,3646
i =1 i=1 i=1 i =1

Aunniveldeconfianza (1 ) serechazalahiptesisnula, H0 : 1 = 2 = 0 (elmodelonoes


explicativo),cuando Fk , (nk1) F ; k , (nk1)

SCE / 2
F2 , 12 = = 113,28 > 3,8853 = F0 ,05; 2 , 12
SCR /(15 2 1)

As,pues,serechazalahiptesisnula,elcontrasteconjuntodelaFSnedecorindicaclaramentela
influenciadelmodeloenlavariablerespuesta.

SantiagodelaFuenteFernndez 20
RegresinLinealMltiple
Clculodeloscoeficientesdecorrelacin(mltipleysimple)

Estimadoelmodeloesconvenienteobtenerunamedidaacercadelabondaddelajusterealizado.

UnestadsticoquefacilitaestamedidaeselCoeficientedeDeterminacin( R2 ),quesedefine:

SCE
( Yi Y i) 2
1,3595
R2 = =
i=1
n = = 0,9496
SCT 1,4316
( Yi Y ) 2

i=1

CoeficientedeCorrelacinmltiple: R = 0,9496 = 0,9745

CoeficientedeDeterminacincorregido SCR n k 1 0,006


R2 = 1 =1 = 0,9413
porelnmerodegradosdelibertad SCT n 1 0,1023

CoeficientedeCorrelacinmltiplecorregido: R = 0,9413 = 0,9702

Coeficientedecorrelacinsimpleentrelas
variables(Gasto,Ingreso):

Cov(Gasto, Ingreso)
(Gasto, Ingreso) = = 0,9424
Gasto Ingreso

Tambinsepuedecalcularelcoeficientededeterminacindelaregresin(Gasto,Ingreso).Latabla
ANOVAdelmodeloser:

SCE 1,272
R2 = = = 0,8882
SCT 1,432
(Gasto, Ingreso) = R = 0,8882 = 0,9424

Cov(Gasto, Tamao)
Anlogamente, (Gasto, Tamao) = = 0,126
Gasto Tamao

CoeficientesdeCorrelacinparcial:

Coeficientedecorrelacinsimpleentre(Gasto,Ingreso): (Gasto, Ingreso) = 0,942

SantiagodelaFuenteFernndez 21
RegresinLinealMltiple
Coeficientecorrelacinparcialentrevariables(Gasto,Ingreso): (Gasto, Ingreso; Tamao) = 0,974

1 0,149
mediantelaexpresin: tingreso = = = 15,05
2
S . q i +1, 1 +1
R
0,000096

15,052 t2ingreso
Elcoeficientededeterminacin, R (Gasto,Ingreso; Tamao) = 2
2
= = 0,9496
tingreso + n (k + 1) 15,052 + 12

Coeficientedecorrelacin.EstecoeficientemidelarelacinentrelasvariablesGastoeIngresolibres
delainfluenciadelavariableTamao.

Anlogamente,elCoeficientecorrelacinparcialentelasvariables(Gasto,Tamao):

(Gasto, Tamao; Ingreso) = 0,741

Estimacindelamediacondicionada

Supongamosquesetratadeestimarelgastomediodeunafamiliaconunosingresosdetreintamil
euros (X1 = 3) concuatromiembrosfamiliares (X2 = 4)

Aplicandoelmodeloderegresin: Y0 = 0,160 + 0,149 (3) + 0,077(4) = 0,595

1

IC E(Y0 ) = Y0 t / 2 , (nk1) SR (1 X 1 X2 ) (X' X) 1 X1
X
2

1,36 0,092 0,282


1
1

IC E(Y0 ) = (0,595) (1,782) (0,075) (1 3 4) 0,0920,0160,013 3 = [0,557 ; 0,633]
0,2820,0130,067 4

SR = 0,006 = 0,0775 t0 ,05; 12 = 1,782 1 = 0,90

154255 1,36 0,092 0,282



X' X = 42188,08140,8 [X' X] 1
= 0,0920,0160,013
55140,8219 0,2820,0130,067

1,36 0,092 0,282 1 1



(1 3 4) 0,0920,0160,013 3 = ( 0,044 0,008 0,025) 3 = 0,08
0,2820,0130,067 4 4

SantiagodelaFuenteFernndez 22
RegresinLinealMltiple
Ejercicio2.Partiendodelainformacin:

yj x1 j x2 j
1 2 17
3 1 15
4 3 13
6 4 10
7 5 9
10 8 8
15 7 6
16 9 5
18 11 3
20 12 4

(a) Estimarelmodeloderegresin
(b) Obtenerunamedidadefiabilidaddelajustelineal
(c) QupartedelavariabilidaddeYquedaexplicadaatravsdelplanoderegresin?
(d) Calcularloscoeficientesdecorrelacinlinealsimple

(a) Enformamatricial: Y = X + U , = [X' X ] 1 X' Y ,dondeXmatriztranspuesta

1 1217

3 1115
4 1313

6 1410
7 159 0 u1

Y= = X + U = 1 + u2
10 188 u
2 3
15 176
16 195

18 1113
20 1124

Loscoeficientes estimadosbajolacondicinmnimocuadrtica,vienendadospor: = X' X [ ] 1 X' Y


1 2 17
1 1 15

1 3 13

1 1 1 1 1 1 1 1 1 1 1 4 10
10 62 90
1 5 9
[X' X] = 2 1 3 4 5 8 7 9 11 12

= 62 514 405 X' X = 30294 0
17 15 13 10 9 8 6 5 3 4 1 8 8
90 405 1014
1 7 6

1 9 5
1 11 3

1 12 4

SantiagodelaFuenteFernndez 23
RegresinLinealMltiple
Advirtasequecuandolamatrizessingular,esdecir,cuando X' X = 0 ,noexistematrizinversay,
Enconsecuencia,lasestimacionesdeloscoeficientes quedanindeterminadas.
Estoocurreporqueexistemulticolinealidadentre X1 y X2 ,estoes,queexisteunarelacinlineal
entreestasvariables.Paraellosecalculalaregresinde X1 sobre X2 ysucorrespondiente
coeficientedecorrelacinlinealser1.

10 62 90 10 62 90 357171 26418 21150


[X' X] = 62 514 405 Adj [X' X] = Adj 62 514 405 = 26418 2040
1530
90 405 1014 90 405 1014 21150 1530 1296

10 62 90 357171 26418 21150 11,7902 0,8721 0,6982


[X' X] = 62 514 405 =
26418 1530 = 0,8721 0,0505
1 1
2040 0,0673
30294
90 405 1014 21150 1530 1296 0,6982 0,0505 0,0428

1
3

4

1 1 1 1 1 1 1 1 1 1 6 100
7
Deotraparte, [X' Y ] = 2 1 3 4 5 8 7 9 11 12 = 843

17 15 13 10 9 8 6 5 3 4 10 621
15

16
18

20

0 357171 26418 21150 100 10,32


= 1 = [X' X ] 1 X' Y = 26418 1530 843 = 0,93
1
2040
30294
2 21150 1530 1296 621 0,67

Elmodeloderegresinser: y = 10,32 + 0,93 x1 0,67 x 2

Tambinsepodahaberrealizadoteniendoencuentalasecuacionesnormalesmnimo
cuadrticas:
10 Y = N + 10 X + 10 X
i=1
i 0 1 1i
i=1
2 2i
i=1
10
10 10 10
ecuacionesnormalesMCO X1i Yi = 0 X1i + 1 X12i + 2 X1i X2i
i=1 i=1 i=1 i=1

10 10 10 10
= +
i=1 2i i 0 i=1 2i 1 i=1 1i 2i 2 i=1 X2i
X Y X X X + 2

Conestosdatos,seobtiene:

SantiagodelaFuenteFernndez 24
RegresinLinealMltiple
TablaI
Yi X1i X2i Yi2 X12i X22i X1i X2i X1i Yi X2i Yi
1 2 17 1 4 289 34 2 17
3 1 15 9 1 225 15 3 45
4 3 13 16 9 169 39 12 52
6 4 10 36 16 100 40 24 60
7 5 9 49 25 81 45 35 63
10 8 8 100 64 64 64 80 80
15 7 6 225 49 36 42 105 90
16 9 5 256 81 25 45 144 80
18 11 3 324 121 9 33 198 54
20 12 4 400 144 16 48 240 80

100 62 90 1416 514 1014 405 843 621

10 10 10

Yi = N0 + 1 X1i + 2 X2i
i=1 i=1 i=1
10 0 + 62 1 + 90 2 = 100
10 10 10 10

conlocual, X1i Yi = 0 X1i + 1 X12i + 2 X1i X2i 62 0 + 514 1 + 405 2 = 843
i=1 i=1 i=1 i=1
90 0 + 405 1 + 1014 2 = 621
2
10 10 10 10
X2i Yi = 0 X2i + 1 X1i X2i + 2 X2i
i=1 i=1 i=1 i=1

enformamatricial,
[X 'X ] 1
64447 X 'X
444 8 6444444 4 74444444 8 67 8
X 'Y

106290 0 100 0

357171 26418 21150 100

1
62514405 1 = 843
1 =
26418 2040 1530 843
904051014 621 30294 621
2 2
21150 1530 1296

0 10,32

= 0,93 Y = 10,32 + 0,93 X 0,67 X + Re siduo (Modeloregresinlineal)
1 1 2

2

0,67

(b) Lafiabilidaddelajustesereflejamediante R2 coeficientededeterminacinlineal:

Apartirdelaecuacin Yi = 0 + 1 X1i + 2 X2i seobtienenlasprediccionesyresiduosasociados


ui = Yi Yi alasobservacionesmuestrales.

Deestemodo,paralaprimeraobservacin( Y1 = 1 ; X11 = 2 ; X21 = 17 ),setiene:

Y1 = 10,32 + 0,93 (2) 0,67 (17) = 0,79



u1 = Y1 Y1 = 1 0,79 = 0,21

Enestalnea,considerandotodoslospuntosmuestrales,seobtiene:

SantiagodelaFuenteFernndez 25
RegresinLinealMltiple

Yi Yi ui = Yi Yi (Yi Y) 2 u2i = (Yi Yi ) 2 (Yi Y) 2


1 0,79 0,21 81 0,0441 84,8241
3 1,2 1,8 49 3,24 77,44 10
4 4,4 0,4 36 0,16 31,36 SCT = (Yi Y) 2 = 416
i=1
6 7,34 1,34 16 1,7956 7,0756
7 8,94 1,94 9 3,7636 1,1236 10
10 12,4 2,4 0 5,76 5,76 SCR = (Y1 Y1 ) 2 = 21,7266
i=1
15 12,81 2,19 25 4,7961 7,8961
16 15,34 0,66 36 0,4356 28,5156 10
18 18,54 0,54 64 0,2916 72,9316 SCE = (Yi Y) 2 = 394,3666
i=1
20 18,8 1,2 100 1,44 77,44
100 416 21,7266 394,3666

10

SCE
( Yi Y i) 2
394,3666
R2 = i=1
= 10 = = 0,948 coeficientededeterminacinlineal
SCT 416
( Yi Y ) 2
i=1

Coeficientededeterminacinlinealcorregidopor SCR n k 1 21,7266 / 7


R2 = 1 =1 = 0,933
elnmerodegradosdelibertad SCT n 1 416 / 9

(c) LapartedevariabilidadcontenidaenYquequedaexplicadaporelmtodoesprecisamente
R2 = 0,948 = 94 ,8% ,queessuficientementealta.

(d) Paracalcularloscoeficientesdecorrelacinlinealsimple,serecurrealatablaI,paracalcular
medias,varianzasycovarianzas
10 10
yi 100 y2i 1416
y= i=1
= = 10 2y = i=1
y2 = 102 = 41,6
N 10 N 10
10 10
x1i 62 x12i 514
x1 = i=1
= = 6,2 2x1 = i=1
x12 = 6,22 = 12,96
N 10 N 10
10 10
x2i 90 x22i 1014 2
x2 = i=1
= =9 2x2 = i=1
x22 = 9 = 20,4
N 10 N 10
10
x 1i y i 843
m1y = i=1
x1 y = (6,2).10 = 22,3
N 10
10
x 2i y i 621
m2 y = i=1
x2 y = 9 .10 = 27,9
N 10
10
x 1i x 2 i 405
m12 = i=1
x1 x2 = (6,2). 9 = 15,3
N 10

SantiagodelaFuenteFernndez 26
RegresinLinealMltiple

Loscoeficientesdecorrelacinlinealsimplesern:

m1y 22,3
r1y = = = 0,96
x 1 y 12,96 41,6

m2 y 27,9
r2 y = = = 0,96
x 2 y 20,4 41,6

m12 15,3
r12 = = = 0,94
x 1 x 2 12,96 20,4

PrcticaenSPSS____________________________________________________________________

EnelVisordeSPSS,sereflejanlosresultados:

SantiagodelaFuenteFernndez 27
RegresinLinealMltiple

Ejercicio3.Elgerentedeunaempresaestudialasposiblesrelacionesentrebeneficiosanuales,
gastosenpublicidadanualesyhorasextraordinariasanualesdelosempleados.Paraelloutiliza
datos,deestastresvariables,proporcionadasporalgunasempresasdelsector.Sedeseasaber:

Beneficios GastosPublicidad Horasextras


(millones) (millones) (100horas)
1,3 0,3 4
3,5 1,5 9
2,8 0,7 6
3 1,1 7,5
3,3 1,2 8
4 2 7
3,7 2 8

a) Matrizdevarianzascovarianzas.
b) Matrizdecorrelacin.
c) Quporcentajedelavarianzadelosbeneficiosexplicaraunafuncinlinealdelosgastosen
publicidad?
d) Quporcentajedelavarianzadelosbeneficiosexplicaraunafuncinlinealdelashoras
extraordinariasanualesdelosempleados?
e) Establecerunarelacinlinealqueexpliqueanualmentelosbeneficiosmediantelosgastosen
publicidadyhorasextras.
f) Hallarelcoeficientedecorrelacinmltiple.Quporcentajedelavarianzadebeneficiosqueda
explicadoporelmodelolinealobtenidoenelapartadoanterior?
g) Siunaempresadestina900.000eurosapublicidadysusempleadosrealizan500horas
extraordinariasalao,culseralaestimacindelosbeneficiosdedichaempresa?
h) Coeficientesdecorrelacinparcialdebeneficioscongastosenpublicidadydebeneficioscon
horasextrasdelosempleados.
g)Coeficientedecorrelacinmltiple.

SantiagodelaFuenteFernndez 28
RegresinLinealMltiple
2
y S yx 1 S yx 2 S yx 1 = Sx 1 y
S = S
a) Lamatrizdevarianzascovarianzasvienedefinida: VC = Sx 1 y 2
x1 Sx 1 x 2 yx 2 x2y

Sx y 2x2 Sx x = Sx x
2 Sx 2 x 1 1 2 2 1

Yi X1i X2i Yi2 X12i X22i Yi X1i Yi X2i X1i X2i Tablaoperaciones
1,3 0,3 4 1,69 0,09 16 0,39 5,2 1,2
3,5 1,5 9 12,25 2,25 81 5,25 31,5 13,5
2,8 0,7 6 7,84 0,49 36 1,96 16,8 4,2
3 1,1 7,5 9 1,21 56,25 3,3 22,5 8,25
3,3 1,2 8 10,89 1,44 64 3,96 26,4 9,6
4 2 7 16 4 49 8 28 14
3,7 2 8 13,69 4 64 7,4 29,6 16
21,6 8,8 49,5 71,36 13,48 366,25 30,26 160 66,75

7 7
yi 21,6 y2i 71,36
y= i=1
= = 3,0857 2y = i=1
y2 = 3,08572 = 0,6727
N 7 N 7
7 7
x1i 8,8 x12i 13,48
x1 = i=1
= = 1,2571 2x1 = i=1
x12 = 1,25712 = 0,3454
N 7 N 7
7 7
x2i 49,5 x22i 366,25
x2 = i=1
= = 7,0714 2x2 = i=1
x22 = 7,07142 = 2,3167
N 7 N 7
7
yi x1i 30,26
S yx 1 = i=1
y x1 = (3,0867).(1,2571) = 0,4438
N 7
7
y i x 2i 160
S yx 2 = i=1
y x2 = (3,0867).(7,0714) = 1,0369
N 7
7
x1i x2i 66,75
Sx 1 x 2 = i=1
x1 x2 = (1,2571). (7,0714) = 0,6462
N 7

0,6727 0,4438 1,0369


Enconsecuencia,lamatrizdevarianzascovarianzas: VC = 0,4438 0,3454 0,6462
1,0369 0,6462 2,3167

b)Lamatrizdecorrelacionesdelasvariablesexplicativas Rx estformadaporloscoeficientesde
correlacinlinealsimple:
1 ryx 1 ryx 2 ryx 1 = rx 1 y

Rx = rx 1 y 1 rx 1x 2 donde ryx 2 = rx 2 y
rx y rx x 1 rx x = rx x
2 2 1 1 2 2 1

S yx 1 0,4438 S yx 2 1,0369
ryx 1 = = = 0,9207 ryx 2 = = = 0,8306
y x 1 0,6727 0,3454 y x 2 0,6727 2,3167

SantiagodelaFuenteFernndez 29
RegresinLinealMltiple
Sx 1 x 2 0,6462
rx 1 x 2 = = = 0,7224
x 1 x 2 0,3454 2,3167

1 0,9207 0,8306
Portanto,lamatrizdelascorrelacionesser: Rx = 0,9207 1 0,7224
0,8306 0,7224 1

NOTA.Enlaregresinlinealmltiplesurgeelproblemadequeexistaunacorrelacinlinealsimple
perfectaentredos(omsvariables)explicativas,yaqueestoimplicaqueuna(oms)columna(s)de
lamatrizXdeobservacionessoncombinacinlinealdeotra(s),conloqueelrangodeestamatrizX
sereduce.

Enunprincipioelrangode [X' X ]esp(nmerodevariablesexplicativas),perosiexistealguna


combinacinlinealentrelascolumnasdeX,entonceselrangoesmenorquep,conloqueel
determinantede X' X = 0 ,loqueimpidecalcularlamatrizinversa [X' X ] 1 ,yenconsecuenciael
vectordecoeficientes = [X' X ] 1 X' Y quedaindeterminado.

Analizandolamatrizdelascorrelaciones Rx sedecidesiexisteonomulticolinealidad:

S Rx = 0 a Existemulticolinealidad
S Rx 0 a Existecuasimulticolinealidadomulticolinealidadimperfecta

Encasodemulticolinealidadserequieremodificarelmodeloorealizaralgntipodetransformacin
quelaelimine.

c) Serequierehallarelcoeficientededeterminacinentre (Y , X1 ) : R2yx 1 = ryx2 1 = 0,92072 = 0,8477


Esdecir,el84,77%delavarianzadelosbeneficios(Y)quedaexplicadoporunafuncinlinealdel
gastoenpublicidad (X1 )

d) Serequierehallarelcoeficientededeterminacinentre (Y , X2 ) : R2yx 2 = ryx2 2 = 0,83062 = 0,6899


Esdecir,el68,99%delavarianzadelosbeneficios(Y)quedaexplicadoporunafuncinlinealdelas
horasextrasdelosempleados (X2 )

e) Hayquedeterminarelplanoderegresindelosbeneficios(Y)sobreelgastoenpublicidad (X1 ) y
lashorasextrasdelosempleados (X2 )

Yi = 0 + 1 X1i + 2 X2i

Setienecomoreferencialamatrizdelasvarianzascovarianzas:

2y S yx 1 S yx 2 0,6727 0,4438 1,0369



VC = Sx 1 y 2x1 Sx 1x 2 = 0,4438 0,3454 0,6462
Sx y Sx 2 x 1 2x2 1,0369 0,6462 2,3167
2

SantiagodelaFuenteFernndez 30
RegresinLinealMltiple
Loscoeficientes ( 1 , 2 ) ,respectivamente,consignonegativo () ,vienendadosporelcocientede
losadjuntos (S yx 1 , S yx 2 ) entreeladjuntode 2y :

VC yx 1 VC yx 2
1 = 2 = 0 = Y 1 X1 2 X2
VC y VC y

0,4438 0,6462 0,4438 0,3454


1,0369 2,3167 0,3581 1,0369 0,6462 0,0714
1 = () = = 0,9360 2 = () = = 0,1866
0,3454 0,6462 0,3826 0,3454 0,6462 0,3826
0,6462 2,3167 0,6462 2,3167

0 = Y 1 X1 2 X2 = 3,0857 (0,9360)(1,2571) (0,1866)(7,0714) = 0,5895

Laecuacindelplanoderegresines: Y = 0,5895 + 0,936 X1 + 0,1866 X2

Otraformadeenfocarlasituacin,desdelaTabladeoperaciones,mediantelasecuacionesMCO:

N0 + 1 X1i + 2 X2i = Yi
7 7 7

i=1 i=1 i=1


7 0 + 8,8 1 + 49,5 2 = 21,6
7 7 7 7

conlocual, 0 X1i + 1 X1i + 2 X1i X2i = X1i Yi 8,8 0 + 13,48 1 + 66,75 2 = 30,26
2

i=1 i=1 i=1 i=1


49,5 0 + 66,75 1 + 366,25 2 = 160
7 7 7 7

0 X2i + 1 X1i X2i + 2 X2i = X2i Yi
2

i=1 i=1 i=1 i=1

enformamatricial,
[X 'X ] 1
644447 X 'X
44448 6444444 7444444 8 647X 'Y
48
7 8,8 49,5 0 21,6 0,6181 0,6085
0 3,6687 21,6

0,8648 0,2412
8,8 13,48 66,75 1 = 30,26 1 = 0,6181 30,26
49,566,75 366,25 160 160
2 2 0,6085 0,2412 0,1289

0 0,5895

= 0,9360 Y = 0,5895 + 0,936 X + 0,1866 X (Modeloregresinlineal)
1 1 2

2 0,1866

Conelmodeloderegresin,apartirdelaecuacin, Y = 0,5895 + 0,936 X1 + 0,1866 X2 ,seobtienen


lasprediccionesyresiduosasociados ui = Yi Yi alasobservacionesmuestrales.

Deestemodo,paralaprimeraobservacin( Y1 = 1,3 ; X11 = 0,3 ; X21 = 4 ),setiene:

Y1 = 0,5895 + 0,936 (0,3) + 0,1866 (4) = 1,6167



u1 = Y1 Y1 = 1,3 1,6167 = 0,3167

SantiagodelaFuenteFernndez 31
RegresinLinealMltiple
Considerandotodoslospuntosmuestrales,seobtiene:
Yi X1i X2i Yi ui = Yi Yi (Yi Y) 2 u2i = (Yi Yi ) 2 (Yi Y) 2 7
1,3 0,3 4 1,6167 0,3167 3,1887 0,1003 2,1580 SCT = (Yi Y) 2 = 4 ,7086
3,5 1,5 9 3,6729 0,1729 0,1716 0,0299 0,3448 i=1

2,8 0,7 6 2,3643 0,4357 0,0816 0,1898 0,5204 7


3 1,1 7,5 3,0186 0,0186 0,0073 0,0003 0,0045 SCR = (Y1 Y1 ) 2 = 0 ,4479
i=1
3,3 1,2 8 3,2055 0,0945 0,0459 0,0089 0,0144
4 2 7 3,7677 0,2323 0,8359 0,0540 0,4651 7
3,7 2 8 3,9543 0,2543 0,3774 0,0647 0,7545 SCE = (Yi Y) 2 = 4 ,2616
i=1
21,6 8,8 49,5 4,7086 0,4479 4,2616
7

SCE
( Yi Y i) 2
4 ,2616
R =
2
= 7
i=1
= = 0,9051 coeficientededeterminacinlineal
SCT ( Y Y ) 2 4 ,7086
i
i=1

SCR 0,4479
SR2 = = = 0,112 varianzaresidual
n k 1 4

Coeficientededeterminacinlinealcorregido SCR n k 1 0,4479 / 4


R2 = 1 =1 = 0,8573
porelnmerodegradosdelibertad SCT n 1 4 ,7086 / 6

h) ElcoeficientedecorrelacinparcialentrelosBeneficios(Y)yelGastoenPublicidad (X1 ) sepuede


obtenermediantelaexpresin:

VC yx 1
ryx 1 .x 2 =
VC yy VCx 1x 1

VCij sonlosadjuntosdelamatrizdelasvarianzascovarianzas:

2y S yx 1 S yx 2 0,6727 0,4438 1,0369



VC = Sx 1 y 2
x1 Sx 1x 2 = 0,4438 0,3454 0,6462
Sx y Sx 2 x 1 2x2 1,0369 0,6462 2,3167
2

0,4438 0,6462
VC yx 1 = = 0,3581
1,0369 2,3167

0,3454 0,6462 0,6727 1,0369


VC yy = = 0,3826 VCx 1x 1 = = 0,4833
0,6462 2,3167 1,0369 2,3167

VC yx 1 0,3581
ElcoeficientedecorrelacinparcialentreYe X1: ryx 1 .x 2 = = = 0,833
VC yy VCx 1x 1 (0,3826)(0,4833)

SantiagodelaFuenteFernndez 32
RegresinLinealMltiple
# ElcoeficientedecorrelacinparcialentrelosBeneficios(Y)yelGastoenPublicidad (X1 ) sepuede
obtenertambinmediantelaexpresin:

ryx 1 ryx 2 rx 1 x 2
ryx 1 .x 2 =
(1 ryx2 2 )(1 rx21x 2 )

1 ryx 1 ryx 2 1 0,9207 0,8306


Dondelos rij sonloselementosdelamatrizde
Rx = rx 1 y 1 rx 1x 2 = 0,9207 1 0,7224
correlacionessimples Rx delavariableexplicativa
rx y rx x 1 0,8306 0,7224 1
2 2 1

ryx 1 ryx 2 rx 1 x 2 0,9207 (0,8306)(0,7224)


conlocual, ryx 1 .x 2 = = = 0,833
(1 r )(1 r
2
yx 2
2
x1x 2 ) (1 0,83062 )(1 0,72242 )

ryx 2 ryx 1 rx 2 x 1 0,8306 (0,9207)(0,7224)


Anlogamente, ryx 2 .x 1 = = = 0,613
(1 r )(1 r
2
yx 1
2
x 2x1 ) (1 0,92072 )(1 0,72242 )

# Tambin,losCoeficientesdecorrelacinparcialsecalculanmediantelaexpresin:

i
ti =
SR2 . q i +1 , 1 +1

t2i
R2 (Y , X1 ; X2 ) = coeficientededeterminacinparcial
t2i + n (k + 1)

setena:

1 0,936
tgastos _ publi = = = 3,0075
2
S . q i +1, 1 +1
R
(0,112) (0,8648)

Elcoeficientededeterminacinparcial:
t2gasto _ publi 3,00752
ryx2 1 .x 2 = R2 (Beneficios , Gastos _ Publi;Horas extras) = = = 0,6933
t2gasto _ publi + n (k + 1) 3,00752 + 4
Elcoeficientedecorrelacinparcial:

ryx 1 .x 2 = R(Beneficios , Gastos _ Publi;Horas extras) = 0,6933 = 0,833

2 0,1866
Anlogamente, thoras _ extras = = = 1,5530
2
S . q i +1, 1 +1
R
(0,112) (0,1289)
SantiagodelaFuenteFernndez 33
RegresinLinealMltiple

Elcoeficientededeterminacinparcial:
2
thoras 1,5532
r2
= R (Beneficios ,Horas extras; Gastos _ Publi) =
2 _ extras
=
= 0,37615
_ extras + n (k + 1) 1,5532 + 4
yx 2 . x 1 2
thoras
Elcoeficientedecorrelacinparcial:

ryx 2 .x 1 = R(Beneficios ,Horas extras; Gastos _ Publi) = 0,37615 = 0,6133

f) ElCoeficientedecorrelacinmltiplevienedefinidopor:

CV ryx2 1 + ryx2 2 2ryx 1 ryx 2 rx 1x 2


ryx2 1 x 2 = 1 R2 = ryx2 1x 2 =
2y C yy 1 rx21x 2

2y S yx 1 S yx 2 0,6727 0,4438 1,0369



matrizdevarianzascovarianzas: VC = Sx 1 y 2
x1 Sx 1x 2 = 0,4438 0,3454 0,6462
Sx y Sx 2 x 1 2x2 1,0369 0,6462 2,3167
2

0,6727 0,4438 1,0369


0,3454 0,6462
CV = 0,4438 0,3454 0,6462 = 0,0245 VC yy = = 0,3826
0,6462 2,3167
1,0369 0,6462 2,3167

CV 0,0245
ryx2 1x 2 = R2 = 1 =1 = 0,905 ,obien,
C yy
2
y (0,6727)(0,3826)

ryx2 1 + ryx2 2 2ryx 1 ryx 2 rx 1x 2 0,92072 + 0,83062 2. 0,9207. 0,8306. 0,7224


R =r2 2
= = = 0,905
1 rx21x 2 1 0,72242
yx 1 x 2

SantiagodelaFuenteFernndez 34
RegresinLinealMltiple
GuaPrcticaenSPSS________________________________________________________________

Estimaciones

Ofrecelasestimacionesdeloscoeficientesderegresinparcialnoestandarizados(B)y
estandarizados(Beta),juntoconlaspruebasdesignificacinindividualesparacontrastarlas
hiptesisdequeelvalorpoblacionaldeesoscoeficientesescero.

Enlacolumnaencabezadapor[Coeficientesnoestandarizados]seencuentranloscoeficientes i
queformanpartedelaecuacinenpuntuacionesdirectas:
Beneficios = 0,590 + 0,936 (Gastos _ Publicidad) + 0,187 (Horas _ extras)

Estoscoeficientesnoestandarizadosseinterpretanenlostrminosyaconocidos.Sealarqueestos
coeficientesnosonindependientesentres.Dehecho,recibenelnombredecoeficientesen
regresinparcialporqueelvalorconcretoestimadoparacoeficienteseajustateniendoencuentala
presenciadelrestodevariablesindependientes.Conviene,portanto,interpretarlosconcautela.

Elsignodelcoeficientederegresinparcialdeunavariablepuedenoserelmismoqueeldel
coeficientedecorrelacinsimpleentreesavariableyladependiente.Estoseproducealosajustes
quesellevanacaboparaobtenerlamejorecuacinposible.Aunqueexistendiferentes
explicacionesparajustificarelcambiodesignodeuncoeficientederegresin,unadelasquedeben
SantiagodelaFuenteFernndez 35
RegresinLinealMltiple
desermsseriamenteconsideradaseslaqueserefierealapresenciadeunaltogradodeasociacin
entrealgunadelasvariablesindependientes(Colinealidad).

# LosCoeficientesBetaestnbasadosenlaspuntuacionestpicasy,portanto,sondirectamente
comparablesentres.Indicanlacantidaddecambio,enpuntuacionestpicas,queseproducirenla
variabledependienteporcadacambiodeunaunidadenlacorrespondientevariableindependiente
(manteniendoconstanteselrestodevariablesindependientes).

Estoscoeficientesproporcionanunapistamuytilsobrelaimportanciarelativadecadavariable
independienteenlaecuacinderegresin.Engeneral,unavariabletienetantomspeso
(importancia)enlaecuacinderegresincuantomayor(envalorabsoluto)essucoeficientede
regresinestandarizado.

ObservandoloscoeficientesBetadelejercicio,lavariableGastos_Publicidadeslamsimportante.

# Pruebasdesignificacin

Laspruebastysusnivelescrticos(ltimasdoscolumnasdelatabla)sirvenparacontrastarla
hiptesisnuladequeuncoeficientederegresinvale0enlapoblacin.Nivelescrticos(Sig)muy
pequeos(generalmentemenoresque0,05)indicanquedebemosrechazarlahiptesisnula.
Uncoeficientedeceroindicaausenciaderelacinlineal,demodoqueloscoeficientes
significativamentedistintosdeceroinformansobrequvariablessonrelevantesenlaecuacinde
regresin.

Observandoelnivelcrticoasociadoacadapruebat,lasdosvariablesutilizadas
(Gastos_Publicidad,Horas_extras)tienencoeficientessignificativamentedistintosdecero(en
todas,Sig<0,05).Portanto,lasdosvariablesindependientescontribuyensignificativamentea
explicarloqueocurreconlavariabledependiente(Beneficios).

Ajustedelmodelo

Muestraelcoeficientedecorrelacinmltiple,sucuadradocorregidoynocorregido,yelerrortpico
delosresiduos.TambinincluyelatablaresumendeANOVA,quecontienealestadsticoFdeFisher
Snedecorparacontrastarlahiptesisnuladequeelcoeficientedecorrelacinmltiple Ryx 1x 2 = 0

R2 = 0,905 coeficientedeterminacinmltiple

R 2 = 0,905 coeficientedeterminacinmltiple
corregido

ElestadsticoFcontrastalahiptesisnuladeque
elvalorpoblacionalde Ryx 1x 2 escero.

Enconsecuencia,permitedecidirsiexisterelacinlinealsignificativaentrelavariabledependientey
elconjuntodevariablesindependientestomadasjuntas.
Elvalordeunnivelcrtico(Sig<0,05)indicaqueexisterelacinlinealsignificativa,pudiendoafirmar
queelhiperplanodefinidoporlaecuacinderegresinofreceunbuenajustealanubedepuntos.

SantiagodelaFuenteFernndez 36
RegresinLinealMltiple
SCE = 7 (Y Y) 2 = 4 ,261 gl = k = 2
i
i=1
7
Enestecaso, SCR = (Y1 Y1 ) 2 = 0,448 gl = n k 1 = 7 2 1 = 4
i=1
7
SCT = (Yi Y) 2 = 4 ,709 gl = n 1 = 7 1 = 6
i=1

SCE
( Yi Y i) 2
4 ,261
R2 = =
i=1
7 = = 0,905 coeficientededeterminacinmltiple
SCT 4 ,709
( Yi Y ) 2
i=1

SCR 0,448
SR2 = = = 0,112 varianzaresidual
nk 1 4

SCR n k 1 0,448 / 4
R2 = 1 =1 = 0,857 coeficientededeterminacinmltiplecorregido
SCT n 1 4 ,709 / 6

SCE k 4 ,261 / 2
F= = = 19,023 estadsticoobservadoFdeFisherSnedecor
SCR n k 1 0,448 / 4

AdvirtaselarelacinentreelcoeficientededeterminacinmltipleyelestadsticoF:

n k 1 R
2
0,905
F = 2
=2 = 19,023
k 1 R (1 0,905)

H0 : 1 = 2 = 0
ContrastedelaHiptesisnula 19,023 > 6,9443 = F0 ,05; 2 ,4
Se rechaza H 0 si F F ; k , (nk 1 )

Intervalosdeconfianza

Situadosenlatabla[Coeficientesderegresin],permitiendoqueademsdeobtenerunaestimacin
puntualdeloscoeficientesderegresinparcial,sepuedaobtenerelintervalodeconfianzapara
estoscoeficientes.

Estosintervalosinformansobreloslmitesenqueseencuentraelvalorpoblacionaldecada
coeficiente.Loslmitesseobtienensumandoyrestando1,96(SPSStrabajapordefectoconunnivel
designificacin0,95)errorestpicosalvalordelcorrespondientecoeficientederegresin.

Unaamplitudgrandeenlosintervalosdeconfianzaindicaquelasestimacionesobtenidassonpoco
precisasy,probablemente,inestables(coasquepuedeocurrir,porejemplo,cuandoexisten
problemasdecolinealidad).

SantiagodelaFuenteFernndez 37
RegresinLinealMltiple

Matrizdecovarianzas

Muestraunamatrizconlascovarianzasycorrelacionesexistentesentreloscoeficientesderegresin
parcial.

Descriptivos

Ofrecelamediayladesviacintpicadecadavariableyelnmerodecasosutilizadosenelanlisis.

Adems,ofrecelamatrizdecorrelacionesentreelconjuntodevariablesutilizadasenelanlisis,
Enlamatrizdecorrelaciones,cadacoeficientedecorrelacinapareceacompaadodesu
correspondientenivelcrtico(quepermitedecidirsobrelahiptesisdequeelcoeficientede
correlacinvale0enlapoblacin)ydelnmerodecasossobreelquesehacalculadocada
coeficiente.

Lgicamente,enladiagonaldelamatrizdecorrelacionesaparecenunos,pueslarelacinentre
unavariableyellamismaesperfecta.

SantiagodelaFuenteFernndez 38
RegresinLinealMltiple

Correlacionesparcialysemiparcial

Estaopcinpermiteobtenerloscoeficientesdecorrelacinparcialysemiparcialentrelavariable
dependienteycadavariableindependiente

Uncoeficientedecorrelacinparcialexpresaelgradoderelacinexistenteentredosvariablestras
eliminardeambaselefectodebidoatercerasvariables.Esdecir,loscoeficientesdecorrelacin
parcialexpresanelgradoderelacinexistenteentrecadavariableindependienteylavariable
dependientetraseliminardeambaselefectodebidoalrestodevariablesindependientesincluidas
enlaecuacin.

Uncoeficientedecorrelacinsemiparcialexpresaelgradoderelacinexistenteentredosvariables
traseliminardeunadeellaselefectodebidoatercerasvariables.Esdecir,estoscoeficientes
expresanelgradoderelacinexistenteentrelavariabledependienteylapartedecadavariable
independientequenoestexplicadaporelrestodevariablesindependientes.

Conloscoeficientesdecorrelacinparcialysemiparcial,aparecenlascorrelacionesdeordencero,es
decir,loscoeficientesdecorrelacincalculadossintenerencuentalapresenciadetercerasvariables
(setratadelosmismoscoeficientesqueaparecenenlatablaanteriordecorrelaciones).

Comparandoentresestoscoeficientes(deordencero,parcialysemiparcial),pueden
encontrarsepautasderelacininteresantes:Enlosdatosdelatablaseobserva,porejemplo:

LarelacinentrelavariabledependienteBeneficiosylavariableindependiente
Gastos_Publicitariosvale0,921.

Aleliminardelasvariables(Beneficios,Gastos_Publicitarios)elefectoatribuiblealas
Horas_extras,larelacinbajaa0,833(parcial).

CuandoelefectoatribuibleaHoras_extrasseeliminaslodelavariableBeneficios,larelacin
bajaa0,464(semiparcial).

Anlisisqueindicaquelarelacinentrelasvariables(Beneficios,Horas_extras)tienemuchomenor
pesoenlarelacin.

Colinealidad

Existeunacolinealidadperfectacuandounadelasvariablesindependientesserelacionadeforma
perfectamentelinealconunaomsdelrestodelasvariablesindependientesdelaecuacin.

Sedicequeexisteunacolinealidadparcial,osimplemente,colinealidad,cuandoentrelasvariables
independientesdeunaecuacinexistencorrelacionesaltas.

SantiagodelaFuenteFernndez 39
RegresinLinealMltiple
Lacolinealidadesunproblema,porqueenelcasodecolinealidadperfecta,noesposibleestimarlos
coeficientesdelaecuacinderegresin;yenelcasodecolinealidadparcial,aumentaeltamaode
losresiduostipificadosyestoproducecoeficientesderegresinmuyinestables(pequeoscambios
enlosdatos,comoquitaroaadiruncaso,producecambiosmuygrandesenloscoeficientesde
regresin).Estaesunadelasrazonesdeencontrarseconcoeficientesconsignocambiado:
<correlacionespositivaspuedentransformarseencoeficientesderegresinnegativos(incluso
significativamentenegativos)>.Curiosamente,lamedidadeajuste R2 nosealteraporlapresencia
decolinealidad,perolosefectosatribuidosalasvariablesindependientespuedenserengaosos.

Alevaluarlaexistenciaonodecolinealidad,ladificultadestribaendeterminarculeselgrado
mximoderelacinpermisibleentrelasvariablesindependientes.Sobreestacuestinnoexisteun
consensogeneralizado,aunquepuedeservirdegualapresenciadeindiciosquesepueden
encontrarenlosresultadosdeunanlisisderegresin(aunqueestosindiciospuedentenersu
origenenotrascausas):

ElestadsticoFqueevalaelajustegeneraldelaecuacinderegresinessignificativo,perono
loesningunodeloscoeficientesderegresinparcial.

Loscoeficientesderegresinparcialestandarizados(coeficientesBeta)estninfladostantoen
positivocomoennegativo(almismotiempo,adoptanvaloresmayoresque1ymenoresque1)

Existenvaloresdetoleranciapequeos(prximosa0,01).Latoleranciadeunavariable
independienteeslaproporcindevarianzadeesavariablequenoestasociada(queno
depende)delrestodevariablesindependientesincluidasenlaecuacin.Porejemplo,una
variableconunatoleranciade0,01esunavariablequecomparteel99%desuvarianzaconel
restodevariablesindependientes,loquesignificaquesetratadeunavariableredundantecasi
porcompleto.

Loscoeficientesdecorrelacinestimadossonmuygrandes(porencimade0,90envalor
absoluto).

SPSSofrecelaposibilidaddeobteneralgunosestadsticosquepuedenayudaradiagnosticarla
presenciadecolinealidad.Setratadeestadsticosorientativosque,aunquepuedenservirdeayuda
paradeterminarsiexistemayoromenorgradodecolinealidad,nopermitentomarunadecisin
clarasobrelapresenciaonodecolinealidad.
Losestadsticosdecolinealidadserecogenenlatabladecoeficientesderegresinparcialya
analizadaanteriormente,peroahoracontieneninformacinadicionalsobrelosnivelesdetolerancia
ysusinversos(FIV).

Elniveldetoleranciadeunavariableseobtienerestandoa1elcoeficientededeterminacin
mltiple (1 R2 ) queresultaalregresaresavariablesobreelrestodevariablesindependientes.

Valoresdetoleranciamuypequeosindicanqueesavariablepuedeserexplicadaporuna
combinacinlinealdelrestodevariables,loquesignificaqueexistecolinealidad.

SantiagodelaFuenteFernndez 40
RegresinLinealMltiple
Losfactoresdeinflacindelavarianza(FIV)sonlosinversosdelosnivelesdetolerancia.Reciben
estenombreporquesonutilizadosenelclculodelasvarianzasdeloscoeficientesderegresin.

CuantomayoreselFIVdeunavariable,mayoreslavarianzadelcorrespondientecoeficientede
regresin.Deah,queunodelosproblemasdelapresenciadecolinealidad(toleranciaspequeas,
FIVsgrandes)sealainestabilidaddelasestimacionesdeloscoeficientesderegresin.

LasiguientetabladelVisordeSPSSmuestralasolucinresultantedeaplicarunanlisisde
componentesprincipalesalamatrizestandarizadanocentradadeproductoscruzadosdelas
variablesindependientes:

LosAutovaloresinformansobrecuntasdimensionesofactoresdiferentessubyacenenelconjunto
devariablesindependientesutilizadas.
Lapresenciadevariosautovaloresprximosaceroindicaquelasvariablesindependientesestn
muyrelacionadasentres(colinealidad).Enestecaso,noexisteelproblema.

Losndicesdecondicinsonlarazcuadradadelcocienteentreelautovalormsgrande(2,889)y
cadaunodelrestodelosautovalores(porejemplo, 2,889 0,097 = 5,453 ).
Encondicionesdenocolinealidad,estosndicesnodebensuperarelvalorde15.ndicesmayores
que15indicanunposibleproblema,ndicesmayoresque30informandeunserioproblemade
colinealidad.

LasProporcionesdelavarianzarecogenlaproporcindevarianzadecadacoeficientederegresin
parcialqueestexplicadaporcadadimensinofactor.Encondicionesdenocolinealidad,cada
dimensin(factor)sueleexplicargranpartedelavarianzadeunsolocoeficiente(exceptoenloque
serefierealcoeficiente 0 oconstante,quesiempreapareceasociadoaunodelosotros
coeficientes.Enelejercicio,eltrminoconstanteapareceasociadoalasHoras_extras.

LaColinealidadesunproblemacuandounadimensinofactorconunndicedecondicinalto,
contribuyeaexplicargranpartedelavarianzadeloscoeficientesdedosomsvariables.

Cuandoenunconjuntodedatossedetectalapresenciadecolinealidad,hayqueaplicaralgn
tipodeactuacin:

(a) Aumentareltamaodelamuestra(estilcuandoexistenpocoscasosenrelacinconel
nmerodevariables).

(b) Crearindicadoresmltiplescombinandovariables(promediandovariables,efectuandoun
anlisisdecomponentesprincipalesparareducirlasvariablesaunconjuntodecomponentes
independientesyaplicardespuselanlisisderegresinsobreesoscomponentes.

(c) Excluirvariablesredundantes(variablesquecorrelacionanmuyaltoconotras),quedandocon
lasqueseconsideranmsimportantes.

(d) Utilizarunatcnicadeestimacinsesgada,comolaregresinridge.

SantiagodelaFuenteFernndez 41
RegresinLinealMltiple
Residuos:DurbinWatson

Elanlisisdelosresiduosproporcionainformacincrucialsobreelcumplimientodevariossupuestos
delmodeloderegresinlineal:independencia,homocedasticidad,normalidadylinealidad.

ElestadsticodeDurbinWatson(1951)proporcionainformacinsobreelgradodeindependencia
existenteentreellos:

DW 0 si = 1
n
(ui u i1 ) 2
DW = i=2
n
2(1 ) DW 2 si = 0
u2i DW 4 si = 1

i=1

ElestadsticodeDurbinWatsonoscilaentre0y4,tomaelvalor2cuandolosresiduosson
independientes.Losvaloresmenoresque2indicanautocorrelacinpositivaylosmayoresque2
autocorrelacinnegativa.Sepuedeasumirindependenciaentrelosresiduoscuando 1,5 DW 2,5

DW=1,933,valorqueseencuentraentre1,5y2,5,sepuedeasumirquelosresiduosson
independientes.

Diagnsticosporcaso

Valoresatpicosamsde...Conestaopcin,SPSSindicalosvaloresqueproducenunerrorgrande,
concretamenteamsdenvecesladesviacintpicadelavariableresiduos.Enestecaso,si
introducimos2o3desviacionestpicasnoseobtieneningnvaloratpico(pudieraocurrirqueal
poner1,5desviacionestpicas,sexistiera).

Laformadeprocederesseleccionar[CambioenR2]y[Valoresatpicosamsde...],elModelo
indicaelnmerodepasosdadosparaconstruirelmodeloderegresin(pasosquesean).Tambin
indicasienalgunodelospasossehaeliminadoalgunavariablepreviamenteseleccionada;enel
ejemploquenosocupanoseeliminaningunavariable.

LatablarecogeelvalordeR2encadapaso,elcambioexperimentadoporR2encadapaso,yel
estadsticoFysusignificacin.ElestadsticoFpermitecontrastarlahiptesisdequeelcambioenR2
valeceroenlapoblacin.

Alseleccionarlaprimeravariable(Modelo1),elvalordeR2es0,905.Lgicamente,enelprimer
paso, R2cambio = R2 .Alcontrastarlahiptesisdequeelvalorpoblacionalde R2cambio esceroseobtiene
SantiagodelaFuenteFernndez 42
RegresinLinealMltiple
unestadsticoFde19,023que,con2y4gradosdelibertad,tieneunaprobabilidadasociadade
0,009(comoestevaloresmenorque0,05),pudiendoafirmarquelaproporcindevarianza
explicadaporlavariableGastos_Publicidad(variableseleccionadaenelprimerpaso)es
significativamentedistintadecero.

Lasvariablesqueaparecenpermitenobtenerdistintosgrficosdedispersin.Lasvariables
precedidasporunasteriscosonvariablescreadasporSPSS.

Todaslasvariablespuedencrearseenlaopcin[Guardar]
marcandolasopcionespertinentesdelrecuadro

DEPENDNT:Variabledependientedelaecuacinderegresin.

ZPRED(pronsticostipificados):pronsticosdivididosporsudesviacintpica.Sonpronsticos
transformadosenpuntuacionesz(mediaceroydesviacintpica1)

ZRESID(residuostipificados):residuosdivididosporsudesviacintpica.Eltamaodecada
residuotipificadoindicaelnmerodedesviacionestpicasquesealejadesumedia,demodo
que,siestnnormalmentedistribuidos(cosaqueseasumeenelanlisisderegresin).El95%
deestosresiduosseencontrarenelrango[1,96,1,96],loquepermiteidentificarfcilmente
casosconresiduosgrandes.

SantiagodelaFuenteFernndez 43
RegresinLinealMltiple
DRESID(residuoseliminadosocorregidos):residuosobtenidosalefectuarlospronsticos
eliminandodelaecuacinderegresinelcasosobreelqueseefectaelpronstico.Elresiduo
correspondienteacadacasoseobtieneapartirdelpronsticoefectuadoconunaecuacinde
regresinenlaquenosehaincluidoesecaso.Sonmuytilesparadetectarpuntosdeinfluencia
(casoscongranpesoenlaecuacinderegresin).

ADJPRED(pronsticoscorregidos):pronsticosefectuadosconunaecuacinderegresinenla
quenoseincluyeelcasopronosticado(verresiduoseliminadosocorregidos).Diferencias
importantesentrePREDyADJPREDdelatanlapresenciadepuntosdeinfluencia(casoscongran
pesoenlaecuacinderegresin).

SRESID(residuosestudentizados):residuosdivididosporsudesviacintpica,basadastaen
cmodeprximoseencuentrauncasoasu(s)medias(s)enla(s)variable(s)independiente(s).
Aligualqueocurreenlosresiduosestandarizados(alosqueseparecenmucho),los
estudentizadosestnescaladosenunidadesdedesviacintpica.Sedistribuyensegnel
modelodeprobabilidadtStudentcon(np1)gradosdelibertad(pserefierealnmerode
variablesindependientes).Conmuestrasgrandes,aproximadamenteel95%deestosresiduos
deberaencontrarseenelrango[2,2].

SDRESID(residuoscorregidosestudentizados):residuoscorregidosdivididosporsudesviacin
tpica.tilestambinparadetectarpuntosdeinfluencia.

Algunasdeestasvariablespermitendetectarpuntosdeinfluencia,pero,entretodas,haydos
variables(ZPRED,ZRESID)cuyodiagramadedispersininformasobreelsupuestode
homocedasticidadoigualdaddevarianzas.

Elsupuestodeigualdaddevarianzasimplicaquelavariacindelosresiduosdebedeseruniforme
entodoelrangodevalorespronosticados.O,loqueeslomismo,queeltamaodelosresiduoses
independientedeltamaodelospronsticos,dedondesedesprendequeeldiagramadedispersin
nodebemostrarningunapautadeasociacinentrelosresiduosylospronsticos.
Paraobtenerundiagramadedispersinconlasvariables(ZPRED,ZRESID):

Eneldiagramadedispersinseobservaqueaunquelosresiduosylospronsticosparecenser
independientes(lanubedepuntosnosigueningunapautadeasociacinclara,nilinealnideningn
otrotipo),noestclaroquelasvarianzasseanhomogneas.Msbien,parecequeamedidaquevan
aumentandoelvalordelospronsticosvadisminuyendoladispersindelosresiduos.

SantiagodelaFuenteFernndez 44
RegresinLinealMltiple
Lospronsticosmenoresquelamedia(conpuntuacintpicapordebajodecero)estnms
concentradosquelospronsticosmayoresquelamedia(conpuntuacintpicamayorquecero).

Cuandoundiagramadedispersindelatalapresenciadevarianzasheterogneas,puedeutilizarse
unatransformacindelavariabledependientepararesolverelproblema(talcomouna
transformacinlogartmicaounatransformacinrazcuadrada).Noobstante,alutilizaruna
transformacindelavariabledependiente,debecuidarseelproblemadeinterpretacinqueaade
elcambiodeescala.

Eldiagramadedispersindelasvariables(ZPRED,ZRESID)poseelautilidadadicionaldepermitir
detectarrelacionesdetiponolinealentrelasvariables.Cuandolarelacinesnolineal,eldiagrama
puedecontenerindiciossobreotrotipodefuncindeajuste(losresiduosestandarizadospodranen
lugardeestarhomogneamentedispersosseguiruntrazadocurvilneo).

Normalidad

ElrecuadrodeGrficosdelosresiduostipificadoscontienedosopcionesqueinformansobreel
gradoenquelosresiduostipificadosseaproximanaunadistribucinnormal:HistogramayGrfico
deprobabilidadnormal.

HISTOGRAMA:Ofreceunhistogramadelosresiduostipificadosconunacurvanormal
superpuesta.Lacurvaseconstruyetomandounamediadeceroyunadesviacintpicadeuno.
Esdecir,lamismamediaylamismadesviacintpicaquelosresiduostpicostipificados.

Enelhistogramadelejercicioseobservaquelapartecentralacumulamscasosdelosque
existenenunacurvanormal.Ladistribucinesalgoasimtricaaladerecha.Ladistribucinde
losresiduosnopareceseguirelmodelodeprobabilidadnormal,demodoquelosresultadosdel
anlisisdebendeinterpretarseconcautela.

GRFICOSDELOSRESIDUOSTIPIFICADOS.Permiteobtenerundiagramadeprobabilidad
normal.Enelejedeabscisasestarepresentadalaprobabilidadacumuladaquecorresponde
acadaresiduotipificado.Eldeordenadasrepresentalaprobabilidadacumuladatericaque
correspondeacadadesviacintpicaenunacurvanormalN(0,1).

SantiagodelaFuenteFernndez 45
RegresinLinealMltiple

Lospuntosnoseencuentranalineadossobre
ladiagonaldelgrfico,indicandoelposible
incumplimientodelsupuestodenormalidad.

EnelGrficodevaloresobservadosfrentea
lospredichos(DEPENDNT,ZPRED),los
valoressedebenalinearenladiagonaldel
cuadrante,sihubieramuchadispersin,
implicaraquenoseverificanlashiptesisde
homocedasticidad.

Enestecasoexisteigualdaddevarianzas.

SeleccionandolaopcinGenerartodoslosgrficos
parciales,SPSSmuestralagrficadelavariable
dependientefrenteatodaslasvariablesindependientes,
comprobandosiexistelinealidadentrelasvariables.

Observandolosgrficos,sepodraimaginaruncomportamientolineal.

SantiagodelaFuenteFernndez 46
RegresinLinealMltiple

Pulsandoelbotn[Guardar]seabreunabanicode
opciones.
Todosloscasoscontribuyenalaobtencindelarecta
deregresin,peronotodoslohacenconlamisma
fuerza.Lospuntosdeinfluenciasoncasosque
afectandeformaimportantealvalordelaecuacin
deregresin.
Lapresenciadepuntosdeinfluencianotieneporqu
constituirunproblemaenregresin,dehecholo
normalesqueenunanlisisderegresinnotodos
loscasostenganlamismaimportancia(desdeel
puntodevistaestadstico).Noobstante,elanalista
debedeserconscientedetalespuntos,porque,
entreotrascosas,podratratarsedecasoscon
valoreserrneos.Siendoconscientesdesiexisteno
nopuntosdeinfluenciaesposiblecorregirelanlisis.

SemarcantodaslasopcionesdelosrecuadrosDistanciasyEstadsticosdeinfluencia(todasestas
opcionescreanvariablesnuevasenelarchivodedatos).

Distancias

Esterecuadrorecogetresmedidasqueexpresanelgradoenquecadacasosealejadelosdems.

Mahalanobis.Mideelgradodedistanciamientodecadacasorespectodelospromediosdel
conjuntodevariablesindependientes.Enregresinsimple,estadistanciaseobtieneelevandoal
cuadradolapuntuacintpicadecadacasoenlavariableindependiente.

Enregresinmltipleseobtienemultiplicandopor(n1)elvalordeinfluenciadecadacaso.

Cook.Mideelcambioqueseproduceenlasestimacionesdeloscoeficientesderegresinalir
eliminandocadacasodelaecuacinderegresin.UnadistanciadeCookgrandeindicaqueese
casotieneunpesoconsiderableenlaestimacindeloscoeficientesderegresin.

ParaevaluarestasdistanciaspuedeutilizarseladistribucinFcon(p+1)y(np1)gradosde
libertad,dondepeselnmerodevariablesindependientesyneltamaodelamuestra.

Engeneral,uncasoconunadistanciadeCooksuperiora1debedeserrevisado.

Valoresdeinfluencia.Representanunamedidadelainfluenciapotencialdecadacaso.
Respectoalasvariablesindependientes,unvalordeinfluenciaesunamedidanormalizadadel
gradodedistanciamientodeunpuntodelcentrodesudistribucin.Lospuntosmuyalejados
puedeninfluirdeformamuyimportanteenlaecuacinderegresin,peronotienenporqu
hacerlonecesariamente.

Conmsde6variablesyalmenos20casos,seconsideraqueunvalordeinfluenciadebedeser
revisadossiesmayorque(3p/n).Losvaloresdeinfluenciatienenunmximode(n1)/n.

Comoreglageneral,paraorientardecisiones,losvaloresmenoresque0,2seconsideranpoco
problemticos;losvalorescomprendidosentre0,2y0,5seconsideranarriesgados;ylosvalores
mayoresque0,5debieranevitarse.

SantiagodelaFuenteFernndez 47
RegresinLinealMltiple
Estadsticosdeinfluencia

Esterecuadrocontienevariosestadsticosquecontribuyenaprecisarlaposiblepresenciadepuntos
deinfluencia.

DfBetas(diferenciaenlasbetas).Mideelcambioqueseproduceenloscoeficientesde
regresinestandarizados(betas)comoconsecuenciadeireliminandocadacasodelaecuacin
deregresin.SPSScreaenelEditordedatostantasvariablesnuevascomocoeficientesbeta
tienelaecuacinderegresin,esdecir,tantoscomovariablesindependientesmsuno(el
correspondientealaconstantedelaecuacin).

DfBetastipificadas.EselcocienteentreDfBetasysuerrortpico.
Generalmente,unvalormayorque 2 n delatalapresenciadeunposiblepuntodeinfluencia.
ElSPSScreaenelEditordedatostantasvariablesnuevascomocoeficientesBetatienela
ecuacinderegresin.

DfAjuste(diferenciaenelajuste).Mideelcambioqueseproduceenelpronsticodeuncaso
cuandoesecasoeseliminadodelaecuacinderegresin.

DfAjustetipificado.EselcocienteentreDfAjusteysuerrortpico.
Generalmente,seconsideranpuntosdeinfluencialoscasosenlosqueDfAjustetipificadoes
mayorque 2 (p n) ,siendopelnmerodevariablesindependientesyneltamaodela
muestra.

Raznentrelascovarianzas(RV).Indicaenqumedidalamatrizdeproductoscruzados(base
delanlisisderegresin)cambiaconlaeliminacindecadacaso.
Seconsideraqueuncasoesunpuntodeinfluenciasi RV > 3 + p n

Crearcoeficientesdelosestadsticos.ElSPSSofreceunatablaresumenqueincluye,paratodos
losestadsticosdelrecuadroDistancias,elvalormnimo,elmximolamedia,ladesviacintpica
yelnmerodecasos.Latablatambinrecogeinformacinsobrelospronsticosylosresiduos.

Sealarquelospuntosdeinfluencianotienenporqutenerresiduosespecialmentegrandes,el
problemaquepresentannoesprecisamentelafaltadeajuste.Apesardeello,esconveniente

SantiagodelaFuenteFernndez 48
RegresinLinealMltiple
examinarlosporsudesproporcionadainfluenciasobrelaecuacinderegresin.Comostospuntos
sondistintosdelosdems,convieneprecisarenqusondistintos.

Unavezidentificadosyexaminados,sepuedeneliminardelanlisissimplementeporqueentorpecen
elajuste,oporquesupresenciaproducemedidasdeajusteinfladas.

Valorespronosticados

Elobjetivoprincipaldelanlisiseseldepoderefectuarpronsticosencasosnuevos.Sehan
utilizadoloscoeficientesderegresinparcial(B)paraconstruirlarectaderegresin:

Y = 0,5895 + 0,936 X1 + 0,1866 X2

Conocidoslospesosdelaecuacinderegresin,sepuedeutilizarlaopcindelmen
Transformar/Calcularvariableparaobtenerlospronsticosquelaecuacinasignaacadacaso.Pero
estonoesnecesarioporqueelsubcuadroGuardarnuevasvariablescontieneopcionesrelacionadas
conlospronsticos:

Lasopcionesdeesterecuadrogeneran,enelEditordedatos,cuatronuevasvariables,quereciben
automticamenteunnombreseguidodeunnmerodeserie(nombre_#).Porejemplo,laprimera
vezquesesolicitanduranteunasesinlospronsticostipificados,lanuevavariableconlos
pronsticostipificadosrecibeelnombredezpr_1.Sisevuelvenasolicitarpronsticostipificados
durantelamismasesin,lanuevavariablerecibeelnombredezpr_2,yassucesivamente.

Notipificados.Pronsticosquesederivandelaecuacinderegresinenpuntuacionesdirectas,
recibenelnombre:pre_#.

Tipificados.Pronsticosconvertidosenpuntuacionestpicas(restandoacadapronsticola
mediadelospronsticosydividiendoladiferenciaporladesviacintpicadelospronsticos),
recibenelnombre:zpr_#.

Corregidos.Pronsticoquecorrespondeacadacasocuandolaecuacinderegresinseobtiene
sinincluiresecaso,nombre:adj_#.

E.T.delpronsticopromedio.Errortpicodelospronsticoscorrespondientesaloscasosque
tienenelmismovalorenlasvariablesindependientes,nombre:sep_#.

# Alefectuarunpronsticohaydossituacionesdiferentes:

c Efectuarunpronsticoindividual Yi parauncasoconcreto Xi
d Pronosticarparacadacasolamediadelospronsticos Y0 correspondientesatodosloscasos
conelmismovalor X 0 enlas(s)variable(s)independiente(s).Aestamediasellamapronstico
promedio.

Alefectuarunpronsticoindividualparaundeterminadovalorde Xi ,elerrordeestimacino
variacinresidual (Y Yi ) puedecontenerdosfuentesdeerror:

1. Ladiferenciaentreelvalorobservadoenlavariabledependiente Yi ylamediapoblacional
correspondientea X 0 ( Y / X 0 ).

SantiagodelaFuenteFernndez 49
RegresinLinealMltiple

2. Ladiferenciaentreelpronsticoparaesecaso (Y o Y ) ylamediapoblacionalcorrespondientea
i 0

X 0 ( Y / X 0 ).

Enunpronsticoindividualentranenjuegolasdosfuentesdeerror,mientrasqueenunpronstico
promediosloentralasegundafuentedeerror.Enconsecuencia,paraunvalordadode X 0 ,elerror
tpicodelpronsticopromediosermenoroigualqueelerrortpicodelvalorindividual.

Portanto,alconstruirintervalosdeconfianzaparalospronsticos,laamplituddelintervalo
cambiardependiendodelerrortpicoquesetomecomoreferencia.

Intervalosdepronstico.Lasopcionesdelrecuadropermitenobtenerdostiposdeintervalos:

~Media:Intervalodeconfianzabasadoenloserrorestpicosdelospronsticospromedio.

~Individuos:Intervalodeconfianzabasadoenloserrorestpicosdelospronsticosindividuales.

LaopcinIntervalodeconfianzak%permiteestablecerelniveldeconfianzaconelquese
construyenlosintervalosdeconfianza.

Cadaunadelasopciones(mediaeindividuos)generaenelEditordedatosdosnuevasvariablescon
ellmiteinferiorysuperiordelintervalo.Estasnuevasvariablesrecibenlossiguientesnombres:

lmci_#:lmiteinferiorICpronsticomedio umci_#:lmitesuperiorICpronsticomedio
lici_#:lmiteinferiorICpronsticoindividual uici_#:lmitesuperiorICpronsticoindividual

SantiagodelaFuenteFernndez 50
RegresinLinealMltiple

CRITERIOSDESELECCINDEVARIABLES

LosmtodosporpasosqueincluyeelSPSSparalaseleccinde
variablessebasanendoscriteriosestadsticos:

1. Criteriodesignificacin(ProbabilidaddeF,valordeF)
2. Criteriodetolerancia

1. Criteriodesignificacin.Sloincorporaalmodeloderegresinaquellasvariablesque
contribuyendeformasignificativaalajustedelmodelo.
Lacontribucinindividualdeunavariablealajustedelmodeloseestablececontrastando,apartir
delcoeficientedecorrelacinparcial,lahiptesisdeindependenciaentreesavariableylavariable
dependiente.Paradecidirsisemantieneoserechazaesahiptesisdeindependencia,elSPSS
incluyedoscriteriosdeseleccin:

ProbabilidaddeF.Unavariablepasaaformarpartedelmodeloderegresinsielnivelcrtico
asociadoasucoeficientedecorrelacinparcialalcontrastarlahiptesisdeindependenciaes
menorque0,05(probabilidaddeentrada).Yquedafueradelmodeloderegresinlinealsiel
nivelcrticoesmayorque0,10(probabilidaddesalida).

ValordeF.Unavariablepasaaformarpartedelmodeloderegresinlinealsielvalordel
estadsticoFutilizadoparacontrastarlahiptesisdeindependenciaesmayorque3,84(valorde
entrada).YquedafueradelmodeloderegresinlinealsielvalordelestadsticoFesmenorque
2,71(valordesalida).

LasopcionesdelrecuadroCriteriosdelmtodoporpasospermiteseleccionarunodelosdos
criteriosdesignificacindisponibles,ascomomodificarlasprobabilidadesdeentradaysalida.

2. Criteriodetolerancia.Superadoelniveldesignificacin,unavariablesolopasaaformarparte
delmodelosisuniveldetoleranciaesmayorqueelnivelestablecidopordefecto(esteniveles
mayorque0,0001,peropuedecambiarsemediantesintaxis)y,siadems,ancorrespondindoleun
coeficientedecorrelacinparcialsignificativamentedistintodecero,suincorporacinalmodelo
hacequealgunadelasvariablespreviamenteseleccionadaspaseatenerunniveldetoleranciapor
debajodelestablecidopordefecto.

Unaformaintuitivadecomprenderyvalorarelefectoresultantedeaplicarestoscriteriosde
seleccinconsisteenobservarelcambioquesevaproduciendoenelcoeficientededeterminacin
R2 amedidaquesevanincorporando(oeliminando)variablesalmodelo.

Estecambiosepuededefinircomo R2cambio = R2 R2i ,donde R2i serefierealcoeficientede


determinacinobtenidocontodaslasvariablesindependientesexceptolaisima.

Uncambiograndeen R2 indicaqueesavariablecontribuyedeformaimportanteaexplicarloque
ocurreconlavariabledependiente.

Paraobtenerlosvaloresde R2cambio ysusignificacin(elgradoenqueelcambioobservadoen


R2 difieredecero)hayquemarcarlaopcinCambioenRcuadradodelbotn[Estadsticos].
SantiagodelaFuenteFernndez 51
RegresinLinealMltiple

MTODOSDESELECCINDEVARIABLES

Existendiferentesmtodosparaseleccionarlas
variablesindependientesquedebeincluirun
modeloderegresin,perolosquemayor
aceptacinsonlosmtodosdeseleccinpor
pasos(stepwise).Conestosmtodos,se
seleccionaenprimerlugarlamejorvariable(con
algncriterioestadstico);acontinuacin,la
mejordelasrestantes;yassucesivamentehasta
quenoquedenvariables.

TodaslasopcionesseencuentrandisponiblesenelmendelbotndespegableMtodo.

Dosdelosmtodospermitenincluiroexcluir,enunsolopaso,todaslasvariablesindependientes
seleccionadas:

Introducir:Construyelaecuacinderegresinutilizandotodaslasvariablesseleccionadasenla
listadeIndependientes.Eselmtodoutilizadopordefecto.

Eliminar:EliminaenunsolopasotodaslasvariablesdelalistadeIndependientesyofrecelos
coeficientesderegresinquecorresponderanacadavariableenelcasodequepasarana
formarpartedelaecuacinderegresin.

Elrestodeseleccindevariablessonmtodosporpasos,estoes,mtodosquevanincorporandoo
eliminandovariablespasoapasodependiendoquestascumplanonoloscriteriosdeseleccin:

Haciadelante:Lasvariablesseincorporanalmodeloderegresinunaauna.

Enelprimerpasoseseleccionalavariableindependiente,queademsdesuperarloscriterios
deentrada,msaltocorrelaciona(positivaonegativamente)conladependiente.

Enlossiguientespasosseutilizacomocriteriodeseleccinelcoeficientedecorrelacinparcial:

<<Vansiendoseleccionadasunaaunalasvariablesque,ademsdesuperarloscriteriosde
entrada,poseenelcoeficientedecorrelacinmsaltoenvalorabsoluto(larelacinseparcializa
controlandoelefectodelasvariablesindependientespreviamenteseleccionadas).

Laseleccindevariablessedetienecuandonoquedanvariablesquesuperenelcriteriode
entrada(utilizarcomocriteriodeentradaeltamao,envalorabsoluto,delcoeficientede
correlacinparcial,esequivalenteaseleccionarlavariableconmenorprobabilidaddeFomayor
valordeF)>>.

Haciaatrs:Comienzaincluyendoenelmodelotodaslasvariablesseleccionadasenlalista
Independientesyluegoprocedeaeliminarlasunaauna.

Laprimeravariableeliminadaesaquellaque,ademsdecumplirloscriteriosdesalida,poseel
coeficientederegresinmsbajoenvalorabsoluto.

Encadapasosucesivosevaneliminandolasvariablesconcoeficientesderegresinno
significativos,siempreenordeninversoaltamaodesunivelcrtico.
SantiagodelaFuenteFernndez 52
RegresinLinealMltiple

Laeliminacindevariablessedetienecuandonoquedanvariablesenelmodeloquecumplan
loscriteriosdesalida.

Pasossucesivos:EsunmtodomezcladelosmtodosHaciadelanteyHaciaatrs.

ComoelmtodoHaciadelante,enelprimerpasocomienzaseleccionandolavariable
independienteque,ademsdesuperarloscriteriosdeentrada,msaltocorrelaciona(envalor
absoluto)conlavariabledependiente.

Acontinuacin,seleccionalavariableindependienteque,ademsdesuperarloscriteriosde
entrada,poseeelcoeficientedecorrelacinparcialmsalto(envalorabsoluto).

Cadavezqueseincorporaunanuevavariablealmodelo,lasvariablespreviamente
seleccionadasson,aligualqueenelmtodoHaciaatrs,evaluadasnuevamentepara
determinarsisiguencumpliendoonoloscriteriosdesalida.Sialgunavariableseleccionada
cumpleloscriteriosdesalida,eseliminadadelmodelo.

Elprocesosedetienecuandonoquedenvariablesquesuperenelcriteriodeentradaylas
variablesseleccionadasnoverifiquenloscriteriosdesalida.

SantiagodelaFuenteFernndez 53

También podría gustarte