Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Multiple PDF
Regresion Multiple PDF
SantiagodelaFuenteFernndez
RegresinLinealMltiple
SantiagodelaFuenteFernndez
RegresinLinealMltiple
REGRESINLINEALMLTIPLE
Lastcnicasderegresinlinealmltiplepartende(k+1)variablescuantitativas,siendoYlavariable
derespuestay ( X1 , X2 , LL , Xk ) lasvariablesexplicativas.
Setratadeextenderalas'k'variableslastcnicasdelaregresinlinealsimple.Enestalnea,la
variableYsepuedeexpresarmedianteunafuncinlinealdelasvariables ( X1 , X2 , LL , Xk )
Y = 0 + 1 X1 + 2 X2 + L + k Xk
Paraello,dispondremosdeunamodelodeprobabilidad(laNormal).Elestadsticofijalosvaloresde
lasvariablesregresoras X ki yobtiene'alazar'loscorrespondientesvalores Yi
Modelo: Y = 0 + 1 X1 + 2 X2 + L + k Xk + U
Sealamuestraaleatoria: Yi = 0 + 1 X1 i + 2 X2 i + L + K XK i + ui (i = 1, 2, L ,n)
Y1 1X11 LXk 1 0 u1
Y2 1X12 LXk 2 1 u2
Enformamatricial: M = MMLM M + M
M MMLM M M
yn 1X1n LXk n k un
Y = X + U siendoX='matrizdeldiseo'.
Lashiptesiscomunesentrelasregresioneslinealymltipleson:
a) Normalidad: ui N(0, 2 )
b) Linealidad: E (u i ) = 0
c) Homocedasticidad: Var (u i ) = 0
d) Independencia: u i sonindependientes (i = 1, 2, L ,n)
Requisitosadicionalesdelaregresinmltiple:
a) n>k+1.Elmodelodependede(k+2)parmetros.Paraquelaregresintengasignificado
debehaberunnmerosuficientededatos.
b) NingunadelasvariablesexplicativasXescombinacinlinealdelasotras(Colinealidad).Si
algunadelas Xi escombinacinlinealexactadealgunadelasotras Xi ,elmodelopuede
simplificarseconmenosvariablesexplicativas.Tambinhayqueconsiderarsialgunadelas
Xi estfuertementecorrelacionadaconotras.
SantiagodelaFuenteFernndez1
RegresinLinealMltiple
ESTIMACINDELOSPARMETROS
Sealamuestraaleatoria: Yi = 0 + 1 X1 i + 2 X2 i + L + K XK i + ui (i = 1, 2, L ,n)
Enformamatricial: Y = X + U siendoX='matrizdeldiseo'.
Y X1 X2 XK
Datos
Lanubedepuntosestenun
espaciodedimensin(k+1).
1 Y1 X 11 X 21 X k1
Esdifcildevisualizarparak>2
2 Y2 X 12 X 22 X k2 = [X' X ] 1 X' Y
dondeX'eslamatriztranspuesta
M M M M M
deldiseo
n Yn X 1n X 2n X kn
n X2 n X X ... Xi1Xik
n
n X Y
i1 i1 i2 i1 i
i=n1 i=1
n
i=1
n i=n1
Xi2Xi1 X2i2
donde, X' X = i=1 ... Xi2Xik , X' Y = Xi2Yi
i=1 i=1 i=1
M M ... M M
n n n
n
Xik Xi1 Xik Xi2 ... X2ik Xik Yi
i=1 i=1 i=1 i=1
Cadaunodeloscoeficientes i representaelefectodelavariableindependientesobrelavariable
explicada.Esdecir,elvalorestimado i indicalavariacinqueexperimentalavariable
dependientecuandolavariableindependiente X i varaenunaunidadytodaslasdems
permanecenconstantes.
Cuandoelmodelotienetrminoindependiente,lasmatricesanterioressesimplificanconlas
siguientesexpresiones:
n n
n
nY
Xi2 ... Xik i
n i=1
n
i=1
n ni=1
X i2
X' X = Xi2 ... Xi2Xik , X' Y = Xi2Yi
2
[
u i = Yi Yi = Yi 0 + 1 X1 i + 2 X2 i + L + K XK i ]
= SR2 =
1 n
u2i
n k 1 i=1
SantiagodelaFuenteFernndez2
RegresinLinealMltiple
Enunprincipio,paraestimarlavarianzadelerroraleatorioU,parecerazonableutilizarlavarianzade
loserroresdeprediccin,tambindenominadosresiduosdelmodelo.
1 n
2 = u2i .Sinembargo,esteestimadoressesgado E ( 2 ) 2 ,
Esdecir,parecerazonableutilizar
n i =1
1 n
portanto,seutilizacomoestimador SR2 = u2i .
n k 1 i=1
Y = X + U .Elcorrespondientemodeloajustadoser Y = X ,conlocual, U = Y Y = Y X
DenominandoSalasumadeloscuadradosdelosresiduos:
u1
u
S = U' U = [ u1 , u2 , LL , un ]
n
2 = u ( U' matriztranspuestade U )
M i=1 i
un
[ '
][ ]
S = Y X Y X = Y' Y ' X' Y Y' X + ' X' X B = Y' Y ' X' Y ' X' Y + ' X' X B = Y' Y 2 ' X' Y + ' X' X B
14444244443
un escalar es igual a su transpuesto
' X' Y=X' Y
ParaminimizarSseaplicaelcriteriomnimocuadrtico,derivandorespectode :
S
= 2 X' Y + 2 X' X B = 0 X' X B = X' Y a [X' X]1 (X' X ) B = [X' X]1 X' Y a B = [X' X ]1 X' Y
DISTRIBUCINDE
b) ElvectordeobservacionesYsedistribuyesegnunanormalmultivariantedemedia X yde
matrizdevarianzasycovarianzas 2 I ,esdecir, Y N( X , 2 I) .
c) escombinacinlinealdelascomponentesdelvectorY,porloquesedistribuyesegnuna
variablealeatorianormal,dondesumediaymatrizdevarianzasycovarianzasser:
( )
E ( ) = E [X' X ] 1 X' Y = [X' X ] 1 X'E (Y) = [X' X ] 1 X' X = esunestimadorinsesgadode
( )
Var ( ) = Var [X' X ] 1 X' Y = [X' X ] 1 X' [Var (Y)] X [X' X ] 1 = [X' X ] 1 X' 2 X [X' X ] 1 = 2 [X' X ] 1
(
dedonde, N , 2 [X' X ] 1 )
SantiagodelaFuenteFernndez3
RegresinLinealMltiple
[
Conelajustedemnimoscuadrados: u i = Yi Yi = Yi 0 + 1 X1 i + 2 X2 i + L + K XK i ]
( )
i N , 2 q i +1, i +1 ,donde q i +1, i +1 sonloselementosdeladiagonalprincipal [X' X ] 1 .
Anlogamente,lacovarianzaentre i y j ser 2 q i +1 , i +1
1 n
Laestimacindelavarianzaresidual 2 sehacemediante S2R = u2i ,pudindose
n k 1 i=1
comprobarqueelestimadoresinsesgado: E S2R = 2 [ ]
(
Deformaqueestimaremoslavarianzade i N , 2 q i +1, i +1 mediante S 2R q i +1, i +1 . )
(n k 1) S2R
Sedemuestraque n2k1
2
i i
Seobtiene N(0,1) .
q i +1, i +1
N(0,1)
ComolavariabletStudentconkgradosdelibertadsedefine: tk =
1 2
k
k
i i
q i +1 , i +1 i i
resultaque, t = = tnk1
1 (n k 1) SR2 SR q i +1, i +1
(n k 1)
d) CONTRASTEDEHIPTESIS[tStudent]
Nosplanteamossilavariable X i influyesobrelavariablederespuestaY.Enotraspalabras,siel
valordelparmetroenlapoblacinesceroono.
SantiagodelaFuenteFernndez4
RegresinLinealMltiple
CLCULODELCOEFICIENTEDECORRELACINPARCIAL
Enunmodeloderegresinlinealmltiple, Y = 0 + 1 X1 + 2 X2 + L + k Xk ,sepuedecalcular
fcilmenteelcoeficientedecorrelacinparcialentrelavariablederespuestaYyunavariable
regresoraX,controladoporelrestodevariablesregresoras.Paraelloseutilizaelcontraste
individualdelatrespectoalavariableX,yquesedefinecomo:
i
ti = i = 1, 2,...,k ,
SR q i +1, i +1
t2i
Obtenindoselasiguienterelacin: R2Y iC =
t2i + n (k + 1)
e) INTERVALOSDECONFIANZADELOSPARMETROS i
Lasestimacionesdelosparmetrosvienendadaporlaexpresin = [X' X ] 1 X' Y (siendoX'la
matriztranspuestadeldiseo).
n
(yi yi ) 2
( )
Porotraparte, i N , 2 q i +1, i +1 ,dondelavarianzaresidual 2 seestimapor SR2 = i=1
n k 1
,
[
IC1 (i ) = i t / 2 , (nk 1) SR q i +1 , i +1 ]
CONTRASTEDEHIPTESISINTERVALOSDECONFIANZA
Hiptesisnula H0 : i = 0 X i noinfluyeenY
Hiptesisalternativa H1: i 0 X i influyeenY
Encasocontrario,cuandoelceronocaeenelintervalodeconfianza,seaceptalahiptesis
alternativa H1 ,yenconsecuencia, X i influyeenY.
EstecontrasteesequivalentealcontrastedelatStudentparacada i
SantiagodelaFuenteFernndez5
RegresinLinealMltiple
f) INTERVALODECONFIANZAPARALAVARIANZADELOSRESIDUOS
(n k 1) S2 (n k 1) S2 SCR SCR
IC = 2 R
; 2 R
= 2 ; 2
2
1 , (nk1)
2 , (nk1) 1 , (nk1)
2 2 , (nk1) 2
DESCOMPOSICINDELAVARIABILIDAD
=0
6447 448
[ ]
n n 2 n n n
SCT = ( Yi Y ) 2 = ( Yi Y i) + ( Yi Y ) = ( Yi Y i) 2 + ( Yi Y ) 2 + 2 ( Yi Yi ).( Yi Y )
i=1 i=1 i=1 i=1 i=1
n n n
( Yi Y ) 2 = ( Yi Y i) 2 + ( Yi Y ) 2
i=1 i=1 i=1
1 4243 1 4243 1 4243
SCT SCE SCR
suma cuadrados total suma cuadrados exp licada suma cuadrados residual
(n1) grados libertad k grados libertad (nk1) grados libertad
n n
n n n ( Yi Y i) 2 ( Yi Y ) 2
( Yi Y ) 2 = ( Yi Y i) 2 + ( Yi Y ) 2 1 = i=1
n
+ i=1
n
i=1 i=1 i=1
( Yi Y ) 2
( Yi Y ) 2
i=1 i=1
1 4243 1 4243
SCR / SCT R =SCE / SCT
2
Unavezestimadoelmodeloesconvenienteobtenerunamedidaacercadelabondaddelajuste
realizado.UnestadsticoquefacilitaestamedidaeselCoeficientedeDeterminacin( R2 ),quese
n
SCE
( Yi Y i) 2
define: R2 = i =1
= n
SCT
( Yi Y ) 2
i =1
ElCoeficientedeDeterminacinpermite,adems,seleccionarentremodelosclsicosquetenganel
mismonmeroderegresores,yaquelacapacidadexplicativadeunmodeloesmayorcuantoms
elevadoseaelvalorquetomeestecoeficiente.
Porotraparte,elvalorcoeficientededeterminacincrececonelnmeroderegresoresdelmodelo.
Porello,silosmodelosquesecomparantienendistintonmeroderegresores,nopuede
establecersecomparacinentresus R2 .
Enestecasodebeemplearseelcoeficientededeterminacincorregido R 2 ,quedepurael
incrementoqueexperimentaelcoeficientededeterminacincuandoelnmeroderegresoreses
mayor.
SCR n k 1 n1
R 2 = 1
SCT n 1
=1 1R
2
[ ]
n k 1
SantiagodelaFuenteFernndez6
RegresinLinealMltiple
ANLISISDELAVARIANZA:TABLAANOVA
CONTRASTEDEHIPTESIS:
Hiptesisnula H0 : 1 = 2 = LL = k = 0 elmodelonoesexplicativo
Hiptesisalternativa H1: al menos un i 0 elmodeloesexplicativo
FSnedecorCOEFICIENTEDEDETERMINACIN
n
SCE
( Yi Y i) 2
Elcoeficientededeterminacinsedefine: R2 = i=1
= n
SCT
( Yi Y ) 2
i=1
Deotraparte,ladistribucinFSnedecor:
R2 n k 1 R2 n k 1
= a F =
1 R2 k 1 R2 k
RESUMENDECONTRASTES
ContrasteConjunto ContrastesIndividuales
Conclusin
FSnedecor tStudent
Modeloexplicativo Todaslas Xi sonexplicativas Tomamostodaslas Xi
Modeloexplicativo Algunas Xi sonexplicativas Nosquedamosconlas Xi explicativas
Modeloexplicativo Ninguna Xi esexplicativa PosibleMulticolinealidad(revisarelModelo)
Modelonoexplicativo Todaslas Xi sonexplicativas PosibleMulticolinealidad(revisarelModelo)
Modelonoexplicativo Algunas Xi sonexplicativas PosibleMulticolinealidad(revisarelModelo)
Modelonoexplicativo Ninguna Xi esexplicativa ElModelonoexplicaY
SantiagodelaFuenteFernndez7
RegresinLinealMltiple
PREDICCINENELMODELODEREGRESIN
UnavezestimadoyvalidadoelModelo,unadesusaplicacionesmsimportantesconsisteenpoder
realizarprediccionesacercadelvalorquetomaralavariabledependienteenelfuturooparauna
unidadextramuestral.
Estaprediccinsepuederealizartantoparaunvalorindividualcomoparaunvalormedio,o
esperado,delavariabledependiente,siendoposibleefectuarunaprediccinpuntualopor
intervalos.Suclculoserealizamediantelassiguientesexpresiones:
Y0 = 0 + 1 X10 + 2 X20 + L + K XK 0
1
X 10
IC E(Y0 ) = Y 0 t / 2 , (nk 1) S R (1 X 10 X 20 L X k 0 ) (X' X) 1 X 20
M
XK0
IntervalodeconfianzaparaunvalorindividualdeYparalosvalores ( X 10 , X 20 , L L , X k 0 ) delas
variablesexplicativas.
1
X 10
IC Y0 = Y0 t / 2 , (nk 1) SR 1 + (1 X 10 X 20 L X k 0 ) (X' X) 1 X 20
M
XK0
MATRIZDECOVARIANZAS
2y S yx 1 S yx 2 S yx 1 = Sx 1 y
Lamatrizdevarianzascovarianzassedefine: VC = Sx 1 y 2x1 Sx 1 x 2 S yx 2 = Sx 2 y
Sx y
2 Sx 2 x 1 2x2 Sx 1 x 2 = Sx 2 x 1
VC yx 1 VC yx 2
1 = 2 = 0 = Y 1 X1 2 X2
VC y VC y
2x1 Sx 1 x 2 Sx 1 y Sx 1 x 2 Sx y 2x1
donde, VC y = VC = VC y x 2 = 1
Sx 2 x 1 2x2 y x 1
Sx 2 y 2x2 Sx 2 y S2x 2 x 1
SantiagodelaFuenteFernndez8
RegresinLinealMltiple
CV
Coeficientededeterminacinmltiple: R = ryx 1x 2 = 1
2 2
2y C yy
Coeficientesdecorrelacinparcial: VC yx 1 VC yx 2
ryx 1 .x 2 = ryx 2 .x 1 =
VC2 = VC yy VC = VCx 1x 1 VC = VCx 2 x 2
x1 x2
VC yy VCx 1x 1 VC yy VCx 2 x 2
y
MATRIZDECORRELACIONES
Lamatrizdecorrelacionesdelasvariablesexplicativas Rx estformadaporloscoeficientesde
correlacinlinealsimple:
S yx 1
ryx 1 =
1 ryx 1 ryx 2 ryx 1 = rx 1 y y x 1
r = r
Rx = rx 1 y 1 rx 1x 2 donde yx 2 x 2 y
rx y rx x 1 rx x = rx x S yx 2
2 2 1 1 2 2 1
ryx 2 =
y x 2
ryx 1 ryx 2 rx 1 x 2
ryx 1 .x 2 =
(1 ryx2 2 )(1 rx21x 2 )
Coeficientesdecorrelacinparcial:
ryx 2 ryx 1 rx 2 x 1
ryx 2 .x 1 =
(1 ryx2 1 )(1 rx22 x 1 )
SantiagodelaFuenteFernndez9
RegresinLinealMltiple
Ejercicio1.Sepretendenestimarlosgastosenalimentacindeunafamiliaenbasealainformacin
queproporcionanlasvariablesregresoras'ingresosmensualesy'nmerodemiembrosdela
familia'.Paraelloserecogeunamuestraaleatoriasimplede15familias,cuyosresultadossefacilitan
enlatablaadjunta.(Elgastoeingresoseexpresanencienmileuros).
0,43 12,13
0,31 11,14
0,32 10,95
0,46 11,64
1,25 16,24
0,44 12,33
0,52 11,86 0 u1
Y = 0,29 = X + U = 115 1 + u2
u
1,29 18,93 2 3
0,35 12,42
0,35 11,24
0,78 14,73
0,43 13,52
0,47 12,93
0,38 11,44
AplicandoelcriteriodelosmnimoscuadradosordinariosMCO,lafuncinquemejorseajustaalos
datoseslaqueminimizalavarianzadelerrorU,loqueconllevaaunsistemadeecuaciones
normales:
SantiagodelaFuenteFernndez 10
RegresinLinealMltiple
15 Y = N + 15 X + 15 X
i=1
i 0 1 1i
i=1
2 2i
i=1
15
15 15 15
ecuacionesnormalesMCO X1i Yi = 0 X1i + 1 X12i + 2 X1i X2i
i=1 i=1 i=1 i=1
15 15 15 15
= +
i=1 2i i 0 i=1 2i 1 i=1 1i 2i 2 i=1 X2i
X Y X X X + 2
Conestosdatos,seobtiene:
15 15 15
Yi = N0 + 1 X1i + 2 X2i
i=1 i=1 i=1
150 + 42 1 + 552 = 8,07
15 15 15 15
conlocual, X1i Yi = 0 X1i + 1 X1i + 2 X1i X2i 42 0 + 188,08 1 + 140,08 2 = 32,063
2
enformamatricial,
[X 'X ] 1
6444 47X 'X
4444 8 644444 7444448 647 X 'Y
4
8
154255 0 8,07 0 1,36 0,092 0,282 8,07
42188,08140,8 1 = 32,063 1 = 0,0920,0160,013 32,063
55140,8219 28,96 0,2820,0130,067 28,96
2 2
0 0,16
1 = 0,149 Y = 0,16 + 0,149 X1 + 0,077 X2 + Re siduo (Modeloregresinlineal)
0,077
2
SantiagodelaFuenteFernndez 11
RegresinLinealMltiple
Apartirdelaecuacin Yi = 0 + 1 X1i + 2 X2i seobtienenlasprediccionesyresiduosasociados
ui = Yi Yi alasobservacionesmuestrales.Deestemodo,paralaprimeraobservacin
( Y1 = 0,43 ; X11 = 2,1 ; X21 = 3 ),setiene:
Enestalnea,considerandotodoslospuntosmuestrales,seobtiene:
INTERVALOSDECONFIANZAPARAMTROSDELMODELO (1 ) = 0,90
Intervalodeconfianzaparalavarianza
0,0034 2 0,0138
) Lavarianzadelosestimadoresdelmodelo N , 2 [X' X ] 1 : ( )
q i +1, i +1 elemento de [X'X ] 1 SR2 q i +1, i +1
644474448 644444744444 8
1,36 0,00816
Var ( i ) = 2 [X' X ]1 SR2 [X' X ]1 = (0,006) 0,016 = 0,000096
0,067 0,0004
SantiagodelaFuenteFernndez 12
RegresinLinealMltiple
[
IC1 ( 0 ) = 0,160 (1,782) ]
0,00816 = [ 0,321 ; 0,001 ]
[ ]
IC1 (1 ) = 0,149 (1,782) 0,000096 = [ 0,1315 ; 0,1665 ] (Ingreso)
[
IC1 ( 2 ) = 0,077 (1,782) ]
0,0004 = [ 0,0414 ; 0,1126 ] (Tamao)
ContrastedeHiptesisindividualpara X 2 (tamaofamiliar)
Nosplanteamossilavariable X 2 (tamao)influyesobrelavariablederespuestaY(gastos).En
otraspalabras,sielvalordelparmetroenlapoblacinesceroono.
2 0,077
Elestadsticoexperimental t = = = 49,67
SR q33 0,00155
SantiagodelaFuenteFernndez 13
RegresinLinealMltiple
MODELOLINEALDEREGRESINMLTIPLE:HERRAMIENTASDESOFTWARE
EXCELYLAREGRESINMLTIPLE
Sepuedeutilizarelanlisisdelaregresinlinealmltipleparaestimarelgastodefamiliasen
alimentacin(Y)basndoseenlasvariablesX1='Ingresosmensuales'yX2='nmerodemiembrosde
lafamilia'.
ExceldisponedeanlisisdeRegresinpara
ajustarelmodeloderegresinmltiple,
simultneamenteproporcionalas
estimacionesdelosparmetros,la
contrastacinindividual,yelanlisisdelos
residuos.
EnelmenHerramientas,tenemosel
dilogoAnlisisdedatos,dondeelegimos
Regresin,obtenindoseuncuadrode
dilogoquepermiterealizarunajustepara
laregresinmltiple.
LosCamposdeEntradatienenlasfuncionalidades:
RangoYdeentrada:Introducirlareferencia
correspondientealrangodedatosdependientes.Elrango
debeestarformadoporunanicacolumna.
RangoXdeentrada:Introducirlareferencia
correspondientealrangodedatosindependientes.Excel
ordenarlasvariablesindependientesdeesterangoen
ordenascendentedeizquierdaaderecha.Elnmero
mximodevariablesindependienteses16.
SantiagodelaFuenteFernndez 14
RegresinLinealMltiple
Rtulos:Activarestacasillacuandolaprimerafilaolaprimeracolumnadelrango(orangos)deentrada
tienenrtulos.Noactivarenelcasodequeelrangodeentradacarezcadertulos.Excelgeneralos
rtulosdedatoscorrespondientesparalatabladeresultados.
Niveldeconfianza:Activarestaparaincluirmsnivelesdeconfianzaenlatabladeresmenesde
resultados.Introducirelniveldeconfianzaaaplicarademsdelnivelpredeterminadodel95%.
Constanteigualacero:Activarestacasillaparaquelalneaderegresinpaseporelorigen.
Rangodesalida:Introducirlareferenciacorrespondientealaceldasuperiorizquierdadelatablade
resultados.Dejarporlomenossietecolumnasdisponiblesparalatabladeresultadossumarios,donde
aparecen:tabladeanlisis,nmeroobservaciones,coeficientes,errortpicodelpronsticoY,valoresde
R2yerrortpicodecoeficientes.
Enunahojanueva:Hacerclicenestaopcinparainsertarunahojanuevaenellibroactualypegarlos
resultados,comenzandoporlaceldaA1delanuevahojadeclculo.Paradarunnombrealanuevahoja
declculo,anotarloenelcuadro.
Enunlibronuevo:Hacerclicparacrearunnuevolibroypegarlosresultadosenunahojanuevadellibro
creado.Sideseaincorporarlaopcingrficatienequeteclearestaopcin.
Residuos:Activarestacasillaparaincluirlosresiduosenlatabladeresultados.
Residuosestndares:Activarestacasillaparaincluirresiduosestndaresenlatabladeresultadosde
residuos.
Grficosderesiduos:Siactivaestacasillasegeneraungrficoporcadavariableindependientefrenteal
residuo.
Curvaderegresinajustada:Siactivaestacasillasegeneraungrficoconlosvalorespronosticados
frentealosvaloresobservados.
Trazadodeprobabilidadnormal:Activandoestacasillasegeneraungrficoconprobabilidadnormal.
Finalmente,conlasopcionesactivadasenlafiguraanterior,enlatabladeresultadosaparecenlos
estadsticosderegresin,cuadrodeanlisisdelavarianzadelmodelo,estimadores,contrastesde
significacindeFSnedecorydetStudentconsuspvaloresasociados,intervalosdeconfianzapara
losparmetrosyparalasprediccionesal90%y95%,yresiduos.
SantiagodelaFuenteFernndez 15
RegresinLinealMltiple
Lasiguientefigurapresentaelgrficodecadavariableindependiente(X1,X2)contralosresiduos,lo
queseutilizaparadetectarelproblemadenolinealidad,heteroscedasticidad,yautocorrelacinen
elmodelodelajuste.
Lomejoresquetodaslasgrficaspresentenunaestructuraaleatoriadepuntos.
Lafiguraadjuntapresentaelgrficopara
detectarlahiptesisdenormalidadenel
modelo.
Lagrficaidealesladiagonaldelprimer
cuadrante.
SantiagodelaFuenteFernndez 16
RegresinLinealMltiple
Lassiguientesgrficasvisualizancadavariableindependientecontralosvalorespredichos,loque
sirveparadetectarproblemasdeheteroscedasticidad.
Loidealesquetodaslasgrficaspresentenunaestructuraaleatoriadepuntos.
SPSSYLAREGRESINMLTIPLE_______________________________________________________
CondatosintroducidosenSPSS,intentamosajustarunmodelomedianteMnimosCuadrados
Ordinarios(MCO).
Paraello,seeligeenelMenAnalizar/Regresin/Lineal,comoseindicaenlafiguraadjunta.
EnelcuadrodelaRegresinlinealseintroducelavariabledependiente(Y)ylasvariables
independientesingresos(X1)ytamaofamiliar(X2).Enelbotn[Opciones]:
SantiagodelaFuenteFernndez 17
RegresinLinealMltiple
Enlasopciones[EstadsticosyGrficos],seprocedecomoapareceenlasseleccionesadjuntas.
Enelbotn[Grficos]seseleccionaresiduoscontravalorespredichos.AlpulsarAceptarseobtiene
elajustedelmodelo.
EnelVisordeSPPS,elajustedelModelo:
Respectoalaautocorrelacin,elestadsticodeDurbinWatsonde1,177nodejaclarolapresenciao
n
(ui u i1 ) 2 DW 2 si = 0
i =2
nodeautocorrelacin: DW = n
2(1 ) DW 0 si = 1
u2i DW 4 si = 1
i =1
Elanlisisdelavarianzaindicaqueelmodeloderegresinessignificativo(pvaloraproximadamente
cero,F2,12=113,141,pvalor<0,001).Portanto,serechazalahiptesisnuladequelavariabilidad
observadaenlavariablerespuestaseaexplicadaporelazar,admitiendoquehayalgntipode
asociacinentrelavariabledependienteylasindependientes.
SantiagodelaFuenteFernndez 18
RegresinLinealMltiple
ElModeloestimadosera: Y = 0,16 + 0,149 X 1 + 0,077 X 2
Enlafiguradelhistogramadelos
residuosseobservaqueseajustabien
aunadistribucinnormal.
Enlafigurasepresentaelgrficodenormalidadque
seajustamuybienaladiagonaldelprimercuadrante.
Enelgrficoderesiduostipificadoscontra
valorespredichosexistendudassobrela
aleatoriedadporquelospuntosse
concentransiguiendorectasparalelas,lo
quepermitevislumbrarproblemasde
heteroscedasticidad.
SantiagodelaFuenteFernndez 19
RegresinLinealMltiple
ANLISISDELAVARIANZA:TABLAANOVA
n n n
( Yi Y ) 2 = ( Yi Y i) 2 + ( Yi Y ) 2
i=1 i=1 i=1
1 4243 1 4243 1 4243
Descomposicindelavariabilidad: SCT SCE SCR
suma cuadrados total suma cuadrados explicada suma cuadrados residual
(n1) grados libertad k grados libertad (nk1) grados libertad
Clculos
Yi (Yi Y) 2 Yi u2i = (Yi Yi ) 2 (Yi Y) 2
0,43 0,011664 0,3839 0,0021 0,0237
0,31 0,051984 0,3119 0,0000 0,0511
0,32 0,047524 0,3591 0,0015 0,0320
0,46 0,006084 0,3864 0,0054 0,0230
1,25 0,506944 1,0718 0,0318 0,2849
0,44 0,009604 0,4137 0,0007 0,0155
0,52 0,000324 0,5702 0,0025 0,0010
0,29 0,061504 0,374 0,0071 0,0269
1,29 0,565504 1,3971 0,0115 0,7381
0,35 0,035344 0,3516 0,0000 0,0347
0,35 0,035344 0,3268 0,0005 0,0446
0,78 0,058564 0,7713 0,0001 0,0544
0,43 0,011664 0,5155 0,0073 0,0005
0,47 0,004624 0,5031 0,0011 0,0012
0,38 0,024964 0,3566 0,0005 0,0329
15 15 15 15
Yi = 8,07 SCT = (Yi Y) 2 = 1,4316 SCR = (Yi Yi ) 2 = 0,0721 SCE = (Yi Y) 2 = 1,3646
i =1 i=1 i=1 i =1
SCE / 2
F2 , 12 = = 113,28 > 3,8853 = F0 ,05; 2 , 12
SCR /(15 2 1)
As,pues,serechazalahiptesisnula,elcontrasteconjuntodelaFSnedecorindicaclaramentela
influenciadelmodeloenlavariablerespuesta.
SantiagodelaFuenteFernndez 20
RegresinLinealMltiple
Clculodeloscoeficientesdecorrelacin(mltipleysimple)
Estimadoelmodeloesconvenienteobtenerunamedidaacercadelabondaddelajusterealizado.
UnestadsticoquefacilitaestamedidaeselCoeficientedeDeterminacin( R2 ),quesedefine:
SCE
( Yi Y i) 2
1,3595
R2 = =
i=1
n = = 0,9496
SCT 1,4316
( Yi Y ) 2
i=1
Coeficientedecorrelacinsimpleentrelas
variables(Gasto,Ingreso):
Cov(Gasto, Ingreso)
(Gasto, Ingreso) = = 0,9424
Gasto Ingreso
Tambinsepuedecalcularelcoeficientededeterminacindelaregresin(Gasto,Ingreso).Latabla
ANOVAdelmodeloser:
SCE 1,272
R2 = = = 0,8882
SCT 1,432
(Gasto, Ingreso) = R = 0,8882 = 0,9424
Cov(Gasto, Tamao)
Anlogamente, (Gasto, Tamao) = = 0,126
Gasto Tamao
CoeficientesdeCorrelacinparcial:
SantiagodelaFuenteFernndez 21
RegresinLinealMltiple
Coeficientecorrelacinparcialentrevariables(Gasto,Ingreso): (Gasto, Ingreso; Tamao) = 0,974
1 0,149
mediantelaexpresin: tingreso = = = 15,05
2
S . q i +1, 1 +1
R
0,000096
15,052 t2ingreso
Elcoeficientededeterminacin, R (Gasto,Ingreso; Tamao) = 2
2
= = 0,9496
tingreso + n (k + 1) 15,052 + 12
Coeficientedecorrelacin.EstecoeficientemidelarelacinentrelasvariablesGastoeIngresolibres
delainfluenciadelavariableTamao.
Anlogamente,elCoeficientecorrelacinparcialentelasvariables(Gasto,Tamao):
Estimacindelamediacondicionada
Supongamosquesetratadeestimarelgastomediodeunafamiliaconunosingresosdetreintamil
euros (X1 = 3) concuatromiembrosfamiliares (X2 = 4)
1
IC E(Y0 ) = Y0 t / 2 , (nk1) SR (1 X 1 X2 ) (X' X) 1 X1
X
2
SantiagodelaFuenteFernndez 22
RegresinLinealMltiple
Ejercicio2.Partiendodelainformacin:
yj x1 j x2 j
1 2 17
3 1 15
4 3 13
6 4 10
7 5 9
10 8 8
15 7 6
16 9 5
18 11 3
20 12 4
(a) Estimarelmodeloderegresin
(b) Obtenerunamedidadefiabilidaddelajustelineal
(c) QupartedelavariabilidaddeYquedaexplicadaatravsdelplanoderegresin?
(d) Calcularloscoeficientesdecorrelacinlinealsimple
1 1217
3 1115
4 1313
6 1410
7 159 0 u1
Y= = X + U = 1 + u2
10 188 u
2 3
15 176
16 195
18 1113
20 1124
SantiagodelaFuenteFernndez 23
RegresinLinealMltiple
Advirtasequecuandolamatrizessingular,esdecir,cuando X' X = 0 ,noexistematrizinversay,
Enconsecuencia,lasestimacionesdeloscoeficientes quedanindeterminadas.
Estoocurreporqueexistemulticolinealidadentre X1 y X2 ,estoes,queexisteunarelacinlineal
entreestasvariables.Paraellosecalculalaregresinde X1 sobre X2 ysucorrespondiente
coeficientedecorrelacinlinealser1.
1
3
4
1 1 1 1 1 1 1 1 1 1 6 100
7
Deotraparte, [X' Y ] = 2 1 3 4 5 8 7 9 11 12 = 843
17 15 13 10 9 8 6 5 3 4 10 621
15
16
18
20
Tambinsepodahaberrealizadoteniendoencuentalasecuacionesnormalesmnimo
cuadrticas:
10 Y = N + 10 X + 10 X
i=1
i 0 1 1i
i=1
2 2i
i=1
10
10 10 10
ecuacionesnormalesMCO X1i Yi = 0 X1i + 1 X12i + 2 X1i X2i
i=1 i=1 i=1 i=1
10 10 10 10
= +
i=1 2i i 0 i=1 2i 1 i=1 1i 2i 2 i=1 X2i
X Y X X X + 2
Conestosdatos,seobtiene:
SantiagodelaFuenteFernndez 24
RegresinLinealMltiple
TablaI
Yi X1i X2i Yi2 X12i X22i X1i X2i X1i Yi X2i Yi
1 2 17 1 4 289 34 2 17
3 1 15 9 1 225 15 3 45
4 3 13 16 9 169 39 12 52
6 4 10 36 16 100 40 24 60
7 5 9 49 25 81 45 35 63
10 8 8 100 64 64 64 80 80
15 7 6 225 49 36 42 105 90
16 9 5 256 81 25 45 144 80
18 11 3 324 121 9 33 198 54
20 12 4 400 144 16 48 240 80
10 10 10
Yi = N0 + 1 X1i + 2 X2i
i=1 i=1 i=1
10 0 + 62 1 + 90 2 = 100
10 10 10 10
conlocual, X1i Yi = 0 X1i + 1 X12i + 2 X1i X2i 62 0 + 514 1 + 405 2 = 843
i=1 i=1 i=1 i=1
90 0 + 405 1 + 1014 2 = 621
2
10 10 10 10
X2i Yi = 0 X2i + 1 X1i X2i + 2 X2i
i=1 i=1 i=1 i=1
enformamatricial,
[X 'X ] 1
64447 X 'X
444 8 6444444 4 74444444 8 67 8
X 'Y
106290 0 100 0
357171 26418 21150 100
1
62514405 1 = 843
1 =
26418 2040 1530 843
904051014 621 30294 621
2 2
21150 1530 1296
0 10,32
= 0,93 Y = 10,32 + 0,93 X 0,67 X + Re siduo (Modeloregresinlineal)
1 1 2
2
0,67
Enestalnea,considerandotodoslospuntosmuestrales,seobtiene:
SantiagodelaFuenteFernndez 25
RegresinLinealMltiple
10
SCE
( Yi Y i) 2
394,3666
R2 = i=1
= 10 = = 0,948 coeficientededeterminacinlineal
SCT 416
( Yi Y ) 2
i=1
(c) LapartedevariabilidadcontenidaenYquequedaexplicadaporelmtodoesprecisamente
R2 = 0,948 = 94 ,8% ,queessuficientementealta.
(d) Paracalcularloscoeficientesdecorrelacinlinealsimple,serecurrealatablaI,paracalcular
medias,varianzasycovarianzas
10 10
yi 100 y2i 1416
y= i=1
= = 10 2y = i=1
y2 = 102 = 41,6
N 10 N 10
10 10
x1i 62 x12i 514
x1 = i=1
= = 6,2 2x1 = i=1
x12 = 6,22 = 12,96
N 10 N 10
10 10
x2i 90 x22i 1014 2
x2 = i=1
= =9 2x2 = i=1
x22 = 9 = 20,4
N 10 N 10
10
x 1i y i 843
m1y = i=1
x1 y = (6,2).10 = 22,3
N 10
10
x 2i y i 621
m2 y = i=1
x2 y = 9 .10 = 27,9
N 10
10
x 1i x 2 i 405
m12 = i=1
x1 x2 = (6,2). 9 = 15,3
N 10
SantiagodelaFuenteFernndez 26
RegresinLinealMltiple
Loscoeficientesdecorrelacinlinealsimplesern:
m1y 22,3
r1y = = = 0,96
x 1 y 12,96 41,6
m2 y 27,9
r2 y = = = 0,96
x 2 y 20,4 41,6
m12 15,3
r12 = = = 0,94
x 1 x 2 12,96 20,4
PrcticaenSPSS____________________________________________________________________
EnelVisordeSPSS,sereflejanlosresultados:
SantiagodelaFuenteFernndez 27
RegresinLinealMltiple
Ejercicio3.Elgerentedeunaempresaestudialasposiblesrelacionesentrebeneficiosanuales,
gastosenpublicidadanualesyhorasextraordinariasanualesdelosempleados.Paraelloutiliza
datos,deestastresvariables,proporcionadasporalgunasempresasdelsector.Sedeseasaber:
a) Matrizdevarianzascovarianzas.
b) Matrizdecorrelacin.
c) Quporcentajedelavarianzadelosbeneficiosexplicaraunafuncinlinealdelosgastosen
publicidad?
d) Quporcentajedelavarianzadelosbeneficiosexplicaraunafuncinlinealdelashoras
extraordinariasanualesdelosempleados?
e) Establecerunarelacinlinealqueexpliqueanualmentelosbeneficiosmediantelosgastosen
publicidadyhorasextras.
f) Hallarelcoeficientedecorrelacinmltiple.Quporcentajedelavarianzadebeneficiosqueda
explicadoporelmodelolinealobtenidoenelapartadoanterior?
g) Siunaempresadestina900.000eurosapublicidadysusempleadosrealizan500horas
extraordinariasalao,culseralaestimacindelosbeneficiosdedichaempresa?
h) Coeficientesdecorrelacinparcialdebeneficioscongastosenpublicidadydebeneficioscon
horasextrasdelosempleados.
g)Coeficientedecorrelacinmltiple.
SantiagodelaFuenteFernndez 28
RegresinLinealMltiple
2
y S yx 1 S yx 2 S yx 1 = Sx 1 y
S = S
a) Lamatrizdevarianzascovarianzasvienedefinida: VC = Sx 1 y 2
x1 Sx 1 x 2 yx 2 x2y
Sx y 2x2 Sx x = Sx x
2 Sx 2 x 1 1 2 2 1
Yi X1i X2i Yi2 X12i X22i Yi X1i Yi X2i X1i X2i Tablaoperaciones
1,3 0,3 4 1,69 0,09 16 0,39 5,2 1,2
3,5 1,5 9 12,25 2,25 81 5,25 31,5 13,5
2,8 0,7 6 7,84 0,49 36 1,96 16,8 4,2
3 1,1 7,5 9 1,21 56,25 3,3 22,5 8,25
3,3 1,2 8 10,89 1,44 64 3,96 26,4 9,6
4 2 7 16 4 49 8 28 14
3,7 2 8 13,69 4 64 7,4 29,6 16
21,6 8,8 49,5 71,36 13,48 366,25 30,26 160 66,75
7 7
yi 21,6 y2i 71,36
y= i=1
= = 3,0857 2y = i=1
y2 = 3,08572 = 0,6727
N 7 N 7
7 7
x1i 8,8 x12i 13,48
x1 = i=1
= = 1,2571 2x1 = i=1
x12 = 1,25712 = 0,3454
N 7 N 7
7 7
x2i 49,5 x22i 366,25
x2 = i=1
= = 7,0714 2x2 = i=1
x22 = 7,07142 = 2,3167
N 7 N 7
7
yi x1i 30,26
S yx 1 = i=1
y x1 = (3,0867).(1,2571) = 0,4438
N 7
7
y i x 2i 160
S yx 2 = i=1
y x2 = (3,0867).(7,0714) = 1,0369
N 7
7
x1i x2i 66,75
Sx 1 x 2 = i=1
x1 x2 = (1,2571). (7,0714) = 0,6462
N 7
b)Lamatrizdecorrelacionesdelasvariablesexplicativas Rx estformadaporloscoeficientesde
correlacinlinealsimple:
1 ryx 1 ryx 2 ryx 1 = rx 1 y
Rx = rx 1 y 1 rx 1x 2 donde ryx 2 = rx 2 y
rx y rx x 1 rx x = rx x
2 2 1 1 2 2 1
S yx 1 0,4438 S yx 2 1,0369
ryx 1 = = = 0,9207 ryx 2 = = = 0,8306
y x 1 0,6727 0,3454 y x 2 0,6727 2,3167
SantiagodelaFuenteFernndez 29
RegresinLinealMltiple
Sx 1 x 2 0,6462
rx 1 x 2 = = = 0,7224
x 1 x 2 0,3454 2,3167
1 0,9207 0,8306
Portanto,lamatrizdelascorrelacionesser: Rx = 0,9207 1 0,7224
0,8306 0,7224 1
NOTA.Enlaregresinlinealmltiplesurgeelproblemadequeexistaunacorrelacinlinealsimple
perfectaentredos(omsvariables)explicativas,yaqueestoimplicaqueuna(oms)columna(s)de
lamatrizXdeobservacionessoncombinacinlinealdeotra(s),conloqueelrangodeestamatrizX
sereduce.
Analizandolamatrizdelascorrelaciones Rx sedecidesiexisteonomulticolinealidad:
S Rx = 0 a Existemulticolinealidad
S Rx 0 a Existecuasimulticolinealidadomulticolinealidadimperfecta
Encasodemulticolinealidadserequieremodificarelmodeloorealizaralgntipodetransformacin
quelaelimine.
e) Hayquedeterminarelplanoderegresindelosbeneficios(Y)sobreelgastoenpublicidad (X1 ) y
lashorasextrasdelosempleados (X2 )
Yi = 0 + 1 X1i + 2 X2i
Setienecomoreferencialamatrizdelasvarianzascovarianzas:
SantiagodelaFuenteFernndez 30
RegresinLinealMltiple
Loscoeficientes ( 1 , 2 ) ,respectivamente,consignonegativo () ,vienendadosporelcocientede
losadjuntos (S yx 1 , S yx 2 ) entreeladjuntode 2y :
VC yx 1 VC yx 2
1 = 2 = 0 = Y 1 X1 2 X2
VC y VC y
Otraformadeenfocarlasituacin,desdelaTabladeoperaciones,mediantelasecuacionesMCO:
N0 + 1 X1i + 2 X2i = Yi
7 7 7
enformamatricial,
[X 'X ] 1
644447 X 'X
44448 6444444 7444444 8 647X 'Y
48
7 8,8 49,5 0 21,6 0,6181 0,6085
0 3,6687 21,6
0,8648 0,2412
8,8 13,48 66,75 1 = 30,26 1 = 0,6181 30,26
49,566,75 366,25 160 160
2 2 0,6085 0,2412 0,1289
0 0,5895
= 0,9360 Y = 0,5895 + 0,936 X + 0,1866 X (Modeloregresinlineal)
1 1 2
2 0,1866
SantiagodelaFuenteFernndez 31
RegresinLinealMltiple
Considerandotodoslospuntosmuestrales,seobtiene:
Yi X1i X2i Yi ui = Yi Yi (Yi Y) 2 u2i = (Yi Yi ) 2 (Yi Y) 2 7
1,3 0,3 4 1,6167 0,3167 3,1887 0,1003 2,1580 SCT = (Yi Y) 2 = 4 ,7086
3,5 1,5 9 3,6729 0,1729 0,1716 0,0299 0,3448 i=1
SCE
( Yi Y i) 2
4 ,2616
R =
2
= 7
i=1
= = 0,9051 coeficientededeterminacinlineal
SCT ( Y Y ) 2 4 ,7086
i
i=1
SCR 0,4479
SR2 = = = 0,112 varianzaresidual
n k 1 4
VC yx 1
ryx 1 .x 2 =
VC yy VCx 1x 1
VCij sonlosadjuntosdelamatrizdelasvarianzascovarianzas:
0,4438 0,6462
VC yx 1 = = 0,3581
1,0369 2,3167
VC yx 1 0,3581
ElcoeficientedecorrelacinparcialentreYe X1: ryx 1 .x 2 = = = 0,833
VC yy VCx 1x 1 (0,3826)(0,4833)
SantiagodelaFuenteFernndez 32
RegresinLinealMltiple
# ElcoeficientedecorrelacinparcialentrelosBeneficios(Y)yelGastoenPublicidad (X1 ) sepuede
obtenertambinmediantelaexpresin:
ryx 1 ryx 2 rx 1 x 2
ryx 1 .x 2 =
(1 ryx2 2 )(1 rx21x 2 )
# Tambin,losCoeficientesdecorrelacinparcialsecalculanmediantelaexpresin:
i
ti =
SR2 . q i +1 , 1 +1
t2i
R2 (Y , X1 ; X2 ) = coeficientededeterminacinparcial
t2i + n (k + 1)
setena:
1 0,936
tgastos _ publi = = = 3,0075
2
S . q i +1, 1 +1
R
(0,112) (0,8648)
Elcoeficientededeterminacinparcial:
t2gasto _ publi 3,00752
ryx2 1 .x 2 = R2 (Beneficios , Gastos _ Publi;Horas extras) = = = 0,6933
t2gasto _ publi + n (k + 1) 3,00752 + 4
Elcoeficientedecorrelacinparcial:
2 0,1866
Anlogamente, thoras _ extras = = = 1,5530
2
S . q i +1, 1 +1
R
(0,112) (0,1289)
SantiagodelaFuenteFernndez 33
RegresinLinealMltiple
Elcoeficientededeterminacinparcial:
2
thoras 1,5532
r2
= R (Beneficios ,Horas extras; Gastos _ Publi) =
2 _ extras
=
= 0,37615
_ extras + n (k + 1) 1,5532 + 4
yx 2 . x 1 2
thoras
Elcoeficientedecorrelacinparcial:
f) ElCoeficientedecorrelacinmltiplevienedefinidopor:
CV 0,0245
ryx2 1x 2 = R2 = 1 =1 = 0,905 ,obien,
C yy
2
y (0,6727)(0,3826)
SantiagodelaFuenteFernndez 34
RegresinLinealMltiple
GuaPrcticaenSPSS________________________________________________________________
Estimaciones
Ofrecelasestimacionesdeloscoeficientesderegresinparcialnoestandarizados(B)y
estandarizados(Beta),juntoconlaspruebasdesignificacinindividualesparacontrastarlas
hiptesisdequeelvalorpoblacionaldeesoscoeficientesescero.
Enlacolumnaencabezadapor[Coeficientesnoestandarizados]seencuentranloscoeficientes i
queformanpartedelaecuacinenpuntuacionesdirectas:
Beneficios = 0,590 + 0,936 (Gastos _ Publicidad) + 0,187 (Horas _ extras)
Estoscoeficientesnoestandarizadosseinterpretanenlostrminosyaconocidos.Sealarqueestos
coeficientesnosonindependientesentres.Dehecho,recibenelnombredecoeficientesen
regresinparcialporqueelvalorconcretoestimadoparacoeficienteseajustateniendoencuentala
presenciadelrestodevariablesindependientes.Conviene,portanto,interpretarlosconcautela.
Elsignodelcoeficientederegresinparcialdeunavariablepuedenoserelmismoqueeldel
coeficientedecorrelacinsimpleentreesavariableyladependiente.Estoseproducealosajustes
quesellevanacaboparaobtenerlamejorecuacinposible.Aunqueexistendiferentes
explicacionesparajustificarelcambiodesignodeuncoeficientederegresin,unadelasquedeben
SantiagodelaFuenteFernndez 35
RegresinLinealMltiple
desermsseriamenteconsideradaseslaqueserefierealapresenciadeunaltogradodeasociacin
entrealgunadelasvariablesindependientes(Colinealidad).
# LosCoeficientesBetaestnbasadosenlaspuntuacionestpicasy,portanto,sondirectamente
comparablesentres.Indicanlacantidaddecambio,enpuntuacionestpicas,queseproducirenla
variabledependienteporcadacambiodeunaunidadenlacorrespondientevariableindependiente
(manteniendoconstanteselrestodevariablesindependientes).
Estoscoeficientesproporcionanunapistamuytilsobrelaimportanciarelativadecadavariable
independienteenlaecuacinderegresin.Engeneral,unavariabletienetantomspeso
(importancia)enlaecuacinderegresincuantomayor(envalorabsoluto)essucoeficientede
regresinestandarizado.
ObservandoloscoeficientesBetadelejercicio,lavariableGastos_Publicidadeslamsimportante.
# Pruebasdesignificacin
Laspruebastysusnivelescrticos(ltimasdoscolumnasdelatabla)sirvenparacontrastarla
hiptesisnuladequeuncoeficientederegresinvale0enlapoblacin.Nivelescrticos(Sig)muy
pequeos(generalmentemenoresque0,05)indicanquedebemosrechazarlahiptesisnula.
Uncoeficientedeceroindicaausenciaderelacinlineal,demodoqueloscoeficientes
significativamentedistintosdeceroinformansobrequvariablessonrelevantesenlaecuacinde
regresin.
Observandoelnivelcrticoasociadoacadapruebat,lasdosvariablesutilizadas
(Gastos_Publicidad,Horas_extras)tienencoeficientessignificativamentedistintosdecero(en
todas,Sig<0,05).Portanto,lasdosvariablesindependientescontribuyensignificativamentea
explicarloqueocurreconlavariabledependiente(Beneficios).
Ajustedelmodelo
Muestraelcoeficientedecorrelacinmltiple,sucuadradocorregidoynocorregido,yelerrortpico
delosresiduos.TambinincluyelatablaresumendeANOVA,quecontienealestadsticoFdeFisher
Snedecorparacontrastarlahiptesisnuladequeelcoeficientedecorrelacinmltiple Ryx 1x 2 = 0
R2 = 0,905 coeficientedeterminacinmltiple
R 2 = 0,905 coeficientedeterminacinmltiple
corregido
ElestadsticoFcontrastalahiptesisnuladeque
elvalorpoblacionalde Ryx 1x 2 escero.
Enconsecuencia,permitedecidirsiexisterelacinlinealsignificativaentrelavariabledependientey
elconjuntodevariablesindependientestomadasjuntas.
Elvalordeunnivelcrtico(Sig<0,05)indicaqueexisterelacinlinealsignificativa,pudiendoafirmar
queelhiperplanodefinidoporlaecuacinderegresinofreceunbuenajustealanubedepuntos.
SantiagodelaFuenteFernndez 36
RegresinLinealMltiple
SCE = 7 (Y Y) 2 = 4 ,261 gl = k = 2
i
i=1
7
Enestecaso, SCR = (Y1 Y1 ) 2 = 0,448 gl = n k 1 = 7 2 1 = 4
i=1
7
SCT = (Yi Y) 2 = 4 ,709 gl = n 1 = 7 1 = 6
i=1
SCE
( Yi Y i) 2
4 ,261
R2 = =
i=1
7 = = 0,905 coeficientededeterminacinmltiple
SCT 4 ,709
( Yi Y ) 2
i=1
SCR 0,448
SR2 = = = 0,112 varianzaresidual
nk 1 4
SCR n k 1 0,448 / 4
R2 = 1 =1 = 0,857 coeficientededeterminacinmltiplecorregido
SCT n 1 4 ,709 / 6
SCE k 4 ,261 / 2
F= = = 19,023 estadsticoobservadoFdeFisherSnedecor
SCR n k 1 0,448 / 4
AdvirtaselarelacinentreelcoeficientededeterminacinmltipleyelestadsticoF:
n k 1 R
2
0,905
F = 2
=2 = 19,023
k 1 R (1 0,905)
H0 : 1 = 2 = 0
ContrastedelaHiptesisnula 19,023 > 6,9443 = F0 ,05; 2 ,4
Se rechaza H 0 si F F ; k , (nk 1 )
Intervalosdeconfianza
Situadosenlatabla[Coeficientesderegresin],permitiendoqueademsdeobtenerunaestimacin
puntualdeloscoeficientesderegresinparcial,sepuedaobtenerelintervalodeconfianzapara
estoscoeficientes.
Estosintervalosinformansobreloslmitesenqueseencuentraelvalorpoblacionaldecada
coeficiente.Loslmitesseobtienensumandoyrestando1,96(SPSStrabajapordefectoconunnivel
designificacin0,95)errorestpicosalvalordelcorrespondientecoeficientederegresin.
Unaamplitudgrandeenlosintervalosdeconfianzaindicaquelasestimacionesobtenidassonpoco
precisasy,probablemente,inestables(coasquepuedeocurrir,porejemplo,cuandoexisten
problemasdecolinealidad).
SantiagodelaFuenteFernndez 37
RegresinLinealMltiple
Matrizdecovarianzas
Muestraunamatrizconlascovarianzasycorrelacionesexistentesentreloscoeficientesderegresin
parcial.
Descriptivos
Ofrecelamediayladesviacintpicadecadavariableyelnmerodecasosutilizadosenelanlisis.
Adems,ofrecelamatrizdecorrelacionesentreelconjuntodevariablesutilizadasenelanlisis,
Enlamatrizdecorrelaciones,cadacoeficientedecorrelacinapareceacompaadodesu
correspondientenivelcrtico(quepermitedecidirsobrelahiptesisdequeelcoeficientede
correlacinvale0enlapoblacin)ydelnmerodecasossobreelquesehacalculadocada
coeficiente.
Lgicamente,enladiagonaldelamatrizdecorrelacionesaparecenunos,pueslarelacinentre
unavariableyellamismaesperfecta.
SantiagodelaFuenteFernndez 38
RegresinLinealMltiple
Correlacionesparcialysemiparcial
Estaopcinpermiteobtenerloscoeficientesdecorrelacinparcialysemiparcialentrelavariable
dependienteycadavariableindependiente
Uncoeficientedecorrelacinparcialexpresaelgradoderelacinexistenteentredosvariablestras
eliminardeambaselefectodebidoatercerasvariables.Esdecir,loscoeficientesdecorrelacin
parcialexpresanelgradoderelacinexistenteentrecadavariableindependienteylavariable
dependientetraseliminardeambaselefectodebidoalrestodevariablesindependientesincluidas
enlaecuacin.
Uncoeficientedecorrelacinsemiparcialexpresaelgradoderelacinexistenteentredosvariables
traseliminardeunadeellaselefectodebidoatercerasvariables.Esdecir,estoscoeficientes
expresanelgradoderelacinexistenteentrelavariabledependienteylapartedecadavariable
independientequenoestexplicadaporelrestodevariablesindependientes.
Conloscoeficientesdecorrelacinparcialysemiparcial,aparecenlascorrelacionesdeordencero,es
decir,loscoeficientesdecorrelacincalculadossintenerencuentalapresenciadetercerasvariables
(setratadelosmismoscoeficientesqueaparecenenlatablaanteriordecorrelaciones).
Comparandoentresestoscoeficientes(deordencero,parcialysemiparcial),pueden
encontrarsepautasderelacininteresantes:Enlosdatosdelatablaseobserva,porejemplo:
LarelacinentrelavariabledependienteBeneficiosylavariableindependiente
Gastos_Publicitariosvale0,921.
Aleliminardelasvariables(Beneficios,Gastos_Publicitarios)elefectoatribuiblealas
Horas_extras,larelacinbajaa0,833(parcial).
CuandoelefectoatribuibleaHoras_extrasseeliminaslodelavariableBeneficios,larelacin
bajaa0,464(semiparcial).
Anlisisqueindicaquelarelacinentrelasvariables(Beneficios,Horas_extras)tienemuchomenor
pesoenlarelacin.
Colinealidad
Existeunacolinealidadperfectacuandounadelasvariablesindependientesserelacionadeforma
perfectamentelinealconunaomsdelrestodelasvariablesindependientesdelaecuacin.
Sedicequeexisteunacolinealidadparcial,osimplemente,colinealidad,cuandoentrelasvariables
independientesdeunaecuacinexistencorrelacionesaltas.
SantiagodelaFuenteFernndez 39
RegresinLinealMltiple
Lacolinealidadesunproblema,porqueenelcasodecolinealidadperfecta,noesposibleestimarlos
coeficientesdelaecuacinderegresin;yenelcasodecolinealidadparcial,aumentaeltamaode
losresiduostipificadosyestoproducecoeficientesderegresinmuyinestables(pequeoscambios
enlosdatos,comoquitaroaadiruncaso,producecambiosmuygrandesenloscoeficientesde
regresin).Estaesunadelasrazonesdeencontrarseconcoeficientesconsignocambiado:
<correlacionespositivaspuedentransformarseencoeficientesderegresinnegativos(incluso
significativamentenegativos)>.Curiosamente,lamedidadeajuste R2 nosealteraporlapresencia
decolinealidad,perolosefectosatribuidosalasvariablesindependientespuedenserengaosos.
Alevaluarlaexistenciaonodecolinealidad,ladificultadestribaendeterminarculeselgrado
mximoderelacinpermisibleentrelasvariablesindependientes.Sobreestacuestinnoexisteun
consensogeneralizado,aunquepuedeservirdegualapresenciadeindiciosquesepueden
encontrarenlosresultadosdeunanlisisderegresin(aunqueestosindiciospuedentenersu
origenenotrascausas):
ElestadsticoFqueevalaelajustegeneraldelaecuacinderegresinessignificativo,perono
loesningunodeloscoeficientesderegresinparcial.
Loscoeficientesderegresinparcialestandarizados(coeficientesBeta)estninfladostantoen
positivocomoennegativo(almismotiempo,adoptanvaloresmayoresque1ymenoresque1)
Existenvaloresdetoleranciapequeos(prximosa0,01).Latoleranciadeunavariable
independienteeslaproporcindevarianzadeesavariablequenoestasociada(queno
depende)delrestodevariablesindependientesincluidasenlaecuacin.Porejemplo,una
variableconunatoleranciade0,01esunavariablequecomparteel99%desuvarianzaconel
restodevariablesindependientes,loquesignificaquesetratadeunavariableredundantecasi
porcompleto.
Loscoeficientesdecorrelacinestimadossonmuygrandes(porencimade0,90envalor
absoluto).
SPSSofrecelaposibilidaddeobteneralgunosestadsticosquepuedenayudaradiagnosticarla
presenciadecolinealidad.Setratadeestadsticosorientativosque,aunquepuedenservirdeayuda
paradeterminarsiexistemayoromenorgradodecolinealidad,nopermitentomarunadecisin
clarasobrelapresenciaonodecolinealidad.
Losestadsticosdecolinealidadserecogenenlatabladecoeficientesderegresinparcialya
analizadaanteriormente,peroahoracontieneninformacinadicionalsobrelosnivelesdetolerancia
ysusinversos(FIV).
Elniveldetoleranciadeunavariableseobtienerestandoa1elcoeficientededeterminacin
mltiple (1 R2 ) queresultaalregresaresavariablesobreelrestodevariablesindependientes.
Valoresdetoleranciamuypequeosindicanqueesavariablepuedeserexplicadaporuna
combinacinlinealdelrestodevariables,loquesignificaqueexistecolinealidad.
SantiagodelaFuenteFernndez 40
RegresinLinealMltiple
Losfactoresdeinflacindelavarianza(FIV)sonlosinversosdelosnivelesdetolerancia.Reciben
estenombreporquesonutilizadosenelclculodelasvarianzasdeloscoeficientesderegresin.
CuantomayoreselFIVdeunavariable,mayoreslavarianzadelcorrespondientecoeficientede
regresin.Deah,queunodelosproblemasdelapresenciadecolinealidad(toleranciaspequeas,
FIVsgrandes)sealainestabilidaddelasestimacionesdeloscoeficientesderegresin.
LasiguientetabladelVisordeSPSSmuestralasolucinresultantedeaplicarunanlisisde
componentesprincipalesalamatrizestandarizadanocentradadeproductoscruzadosdelas
variablesindependientes:
LosAutovaloresinformansobrecuntasdimensionesofactoresdiferentessubyacenenelconjunto
devariablesindependientesutilizadas.
Lapresenciadevariosautovaloresprximosaceroindicaquelasvariablesindependientesestn
muyrelacionadasentres(colinealidad).Enestecaso,noexisteelproblema.
Losndicesdecondicinsonlarazcuadradadelcocienteentreelautovalormsgrande(2,889)y
cadaunodelrestodelosautovalores(porejemplo, 2,889 0,097 = 5,453 ).
Encondicionesdenocolinealidad,estosndicesnodebensuperarelvalorde15.ndicesmayores
que15indicanunposibleproblema,ndicesmayoresque30informandeunserioproblemade
colinealidad.
LasProporcionesdelavarianzarecogenlaproporcindevarianzadecadacoeficientederegresin
parcialqueestexplicadaporcadadimensinofactor.Encondicionesdenocolinealidad,cada
dimensin(factor)sueleexplicargranpartedelavarianzadeunsolocoeficiente(exceptoenloque
serefierealcoeficiente 0 oconstante,quesiempreapareceasociadoaunodelosotros
coeficientes.Enelejercicio,eltrminoconstanteapareceasociadoalasHoras_extras.
LaColinealidadesunproblemacuandounadimensinofactorconunndicedecondicinalto,
contribuyeaexplicargranpartedelavarianzadeloscoeficientesdedosomsvariables.
Cuandoenunconjuntodedatossedetectalapresenciadecolinealidad,hayqueaplicaralgn
tipodeactuacin:
(a) Aumentareltamaodelamuestra(estilcuandoexistenpocoscasosenrelacinconel
nmerodevariables).
(b) Crearindicadoresmltiplescombinandovariables(promediandovariables,efectuandoun
anlisisdecomponentesprincipalesparareducirlasvariablesaunconjuntodecomponentes
independientesyaplicardespuselanlisisderegresinsobreesoscomponentes.
(c) Excluirvariablesredundantes(variablesquecorrelacionanmuyaltoconotras),quedandocon
lasqueseconsideranmsimportantes.
(d) Utilizarunatcnicadeestimacinsesgada,comolaregresinridge.
SantiagodelaFuenteFernndez 41
RegresinLinealMltiple
Residuos:DurbinWatson
Elanlisisdelosresiduosproporcionainformacincrucialsobreelcumplimientodevariossupuestos
delmodeloderegresinlineal:independencia,homocedasticidad,normalidadylinealidad.
ElestadsticodeDurbinWatson(1951)proporcionainformacinsobreelgradodeindependencia
existenteentreellos:
DW 0 si = 1
n
(ui u i1 ) 2
DW = i=2
n
2(1 ) DW 2 si = 0
u2i DW 4 si = 1
i=1
ElestadsticodeDurbinWatsonoscilaentre0y4,tomaelvalor2cuandolosresiduosson
independientes.Losvaloresmenoresque2indicanautocorrelacinpositivaylosmayoresque2
autocorrelacinnegativa.Sepuedeasumirindependenciaentrelosresiduoscuando 1,5 DW 2,5
DW=1,933,valorqueseencuentraentre1,5y2,5,sepuedeasumirquelosresiduosson
independientes.
Diagnsticosporcaso
Valoresatpicosamsde...Conestaopcin,SPSSindicalosvaloresqueproducenunerrorgrande,
concretamenteamsdenvecesladesviacintpicadelavariableresiduos.Enestecaso,si
introducimos2o3desviacionestpicasnoseobtieneningnvaloratpico(pudieraocurrirqueal
poner1,5desviacionestpicas,sexistiera).
Laformadeprocederesseleccionar[CambioenR2]y[Valoresatpicosamsde...],elModelo
indicaelnmerodepasosdadosparaconstruirelmodeloderegresin(pasosquesean).Tambin
indicasienalgunodelospasossehaeliminadoalgunavariablepreviamenteseleccionada;enel
ejemploquenosocupanoseeliminaningunavariable.
LatablarecogeelvalordeR2encadapaso,elcambioexperimentadoporR2encadapaso,yel
estadsticoFysusignificacin.ElestadsticoFpermitecontrastarlahiptesisdequeelcambioenR2
valeceroenlapoblacin.
Alseleccionarlaprimeravariable(Modelo1),elvalordeR2es0,905.Lgicamente,enelprimer
paso, R2cambio = R2 .Alcontrastarlahiptesisdequeelvalorpoblacionalde R2cambio esceroseobtiene
SantiagodelaFuenteFernndez 42
RegresinLinealMltiple
unestadsticoFde19,023que,con2y4gradosdelibertad,tieneunaprobabilidadasociadade
0,009(comoestevaloresmenorque0,05),pudiendoafirmarquelaproporcindevarianza
explicadaporlavariableGastos_Publicidad(variableseleccionadaenelprimerpaso)es
significativamentedistintadecero.
Lasvariablesqueaparecenpermitenobtenerdistintosgrficosdedispersin.Lasvariables
precedidasporunasteriscosonvariablescreadasporSPSS.
Todaslasvariablespuedencrearseenlaopcin[Guardar]
marcandolasopcionespertinentesdelrecuadro
DEPENDNT:Variabledependientedelaecuacinderegresin.
ZPRED(pronsticostipificados):pronsticosdivididosporsudesviacintpica.Sonpronsticos
transformadosenpuntuacionesz(mediaceroydesviacintpica1)
ZRESID(residuostipificados):residuosdivididosporsudesviacintpica.Eltamaodecada
residuotipificadoindicaelnmerodedesviacionestpicasquesealejadesumedia,demodo
que,siestnnormalmentedistribuidos(cosaqueseasumeenelanlisisderegresin).El95%
deestosresiduosseencontrarenelrango[1,96,1,96],loquepermiteidentificarfcilmente
casosconresiduosgrandes.
SantiagodelaFuenteFernndez 43
RegresinLinealMltiple
DRESID(residuoseliminadosocorregidos):residuosobtenidosalefectuarlospronsticos
eliminandodelaecuacinderegresinelcasosobreelqueseefectaelpronstico.Elresiduo
correspondienteacadacasoseobtieneapartirdelpronsticoefectuadoconunaecuacinde
regresinenlaquenosehaincluidoesecaso.Sonmuytilesparadetectarpuntosdeinfluencia
(casoscongranpesoenlaecuacinderegresin).
ADJPRED(pronsticoscorregidos):pronsticosefectuadosconunaecuacinderegresinenla
quenoseincluyeelcasopronosticado(verresiduoseliminadosocorregidos).Diferencias
importantesentrePREDyADJPREDdelatanlapresenciadepuntosdeinfluencia(casoscongran
pesoenlaecuacinderegresin).
SRESID(residuosestudentizados):residuosdivididosporsudesviacintpica,basadastaen
cmodeprximoseencuentrauncasoasu(s)medias(s)enla(s)variable(s)independiente(s).
Aligualqueocurreenlosresiduosestandarizados(alosqueseparecenmucho),los
estudentizadosestnescaladosenunidadesdedesviacintpica.Sedistribuyensegnel
modelodeprobabilidadtStudentcon(np1)gradosdelibertad(pserefierealnmerode
variablesindependientes).Conmuestrasgrandes,aproximadamenteel95%deestosresiduos
deberaencontrarseenelrango[2,2].
SDRESID(residuoscorregidosestudentizados):residuoscorregidosdivididosporsudesviacin
tpica.tilestambinparadetectarpuntosdeinfluencia.
Algunasdeestasvariablespermitendetectarpuntosdeinfluencia,pero,entretodas,haydos
variables(ZPRED,ZRESID)cuyodiagramadedispersininformasobreelsupuestode
homocedasticidadoigualdaddevarianzas.
Elsupuestodeigualdaddevarianzasimplicaquelavariacindelosresiduosdebedeseruniforme
entodoelrangodevalorespronosticados.O,loqueeslomismo,queeltamaodelosresiduoses
independientedeltamaodelospronsticos,dedondesedesprendequeeldiagramadedispersin
nodebemostrarningunapautadeasociacinentrelosresiduosylospronsticos.
Paraobtenerundiagramadedispersinconlasvariables(ZPRED,ZRESID):
Eneldiagramadedispersinseobservaqueaunquelosresiduosylospronsticosparecenser
independientes(lanubedepuntosnosigueningunapautadeasociacinclara,nilinealnideningn
otrotipo),noestclaroquelasvarianzasseanhomogneas.Msbien,parecequeamedidaquevan
aumentandoelvalordelospronsticosvadisminuyendoladispersindelosresiduos.
SantiagodelaFuenteFernndez 44
RegresinLinealMltiple
Lospronsticosmenoresquelamedia(conpuntuacintpicapordebajodecero)estnms
concentradosquelospronsticosmayoresquelamedia(conpuntuacintpicamayorquecero).
Cuandoundiagramadedispersindelatalapresenciadevarianzasheterogneas,puedeutilizarse
unatransformacindelavariabledependientepararesolverelproblema(talcomouna
transformacinlogartmicaounatransformacinrazcuadrada).Noobstante,alutilizaruna
transformacindelavariabledependiente,debecuidarseelproblemadeinterpretacinqueaade
elcambiodeescala.
Eldiagramadedispersindelasvariables(ZPRED,ZRESID)poseelautilidadadicionaldepermitir
detectarrelacionesdetiponolinealentrelasvariables.Cuandolarelacinesnolineal,eldiagrama
puedecontenerindiciossobreotrotipodefuncindeajuste(losresiduosestandarizadospodranen
lugardeestarhomogneamentedispersosseguiruntrazadocurvilneo).
Normalidad
ElrecuadrodeGrficosdelosresiduostipificadoscontienedosopcionesqueinformansobreel
gradoenquelosresiduostipificadosseaproximanaunadistribucinnormal:HistogramayGrfico
deprobabilidadnormal.
HISTOGRAMA:Ofreceunhistogramadelosresiduostipificadosconunacurvanormal
superpuesta.Lacurvaseconstruyetomandounamediadeceroyunadesviacintpicadeuno.
Esdecir,lamismamediaylamismadesviacintpicaquelosresiduostpicostipificados.
Enelhistogramadelejercicioseobservaquelapartecentralacumulamscasosdelosque
existenenunacurvanormal.Ladistribucinesalgoasimtricaaladerecha.Ladistribucinde
losresiduosnopareceseguirelmodelodeprobabilidadnormal,demodoquelosresultadosdel
anlisisdebendeinterpretarseconcautela.
GRFICOSDELOSRESIDUOSTIPIFICADOS.Permiteobtenerundiagramadeprobabilidad
normal.Enelejedeabscisasestarepresentadalaprobabilidadacumuladaquecorresponde
acadaresiduotipificado.Eldeordenadasrepresentalaprobabilidadacumuladatericaque
correspondeacadadesviacintpicaenunacurvanormalN(0,1).
SantiagodelaFuenteFernndez 45
RegresinLinealMltiple
Lospuntosnoseencuentranalineadossobre
ladiagonaldelgrfico,indicandoelposible
incumplimientodelsupuestodenormalidad.
EnelGrficodevaloresobservadosfrentea
lospredichos(DEPENDNT,ZPRED),los
valoressedebenalinearenladiagonaldel
cuadrante,sihubieramuchadispersin,
implicaraquenoseverificanlashiptesisde
homocedasticidad.
Enestecasoexisteigualdaddevarianzas.
SeleccionandolaopcinGenerartodoslosgrficos
parciales,SPSSmuestralagrficadelavariable
dependientefrenteatodaslasvariablesindependientes,
comprobandosiexistelinealidadentrelasvariables.
Observandolosgrficos,sepodraimaginaruncomportamientolineal.
SantiagodelaFuenteFernndez 46
RegresinLinealMltiple
Pulsandoelbotn[Guardar]seabreunabanicode
opciones.
Todosloscasoscontribuyenalaobtencindelarecta
deregresin,peronotodoslohacenconlamisma
fuerza.Lospuntosdeinfluenciasoncasosque
afectandeformaimportantealvalordelaecuacin
deregresin.
Lapresenciadepuntosdeinfluencianotieneporqu
constituirunproblemaenregresin,dehecholo
normalesqueenunanlisisderegresinnotodos
loscasostenganlamismaimportancia(desdeel
puntodevistaestadstico).Noobstante,elanalista
debedeserconscientedetalespuntos,porque,
entreotrascosas,podratratarsedecasoscon
valoreserrneos.Siendoconscientesdesiexisteno
nopuntosdeinfluenciaesposiblecorregirelanlisis.
SemarcantodaslasopcionesdelosrecuadrosDistanciasyEstadsticosdeinfluencia(todasestas
opcionescreanvariablesnuevasenelarchivodedatos).
Distancias
Esterecuadrorecogetresmedidasqueexpresanelgradoenquecadacasosealejadelosdems.
Mahalanobis.Mideelgradodedistanciamientodecadacasorespectodelospromediosdel
conjuntodevariablesindependientes.Enregresinsimple,estadistanciaseobtieneelevandoal
cuadradolapuntuacintpicadecadacasoenlavariableindependiente.
Enregresinmltipleseobtienemultiplicandopor(n1)elvalordeinfluenciadecadacaso.
Cook.Mideelcambioqueseproduceenlasestimacionesdeloscoeficientesderegresinalir
eliminandocadacasodelaecuacinderegresin.UnadistanciadeCookgrandeindicaqueese
casotieneunpesoconsiderableenlaestimacindeloscoeficientesderegresin.
ParaevaluarestasdistanciaspuedeutilizarseladistribucinFcon(p+1)y(np1)gradosde
libertad,dondepeselnmerodevariablesindependientesyneltamaodelamuestra.
Engeneral,uncasoconunadistanciadeCooksuperiora1debedeserrevisado.
Valoresdeinfluencia.Representanunamedidadelainfluenciapotencialdecadacaso.
Respectoalasvariablesindependientes,unvalordeinfluenciaesunamedidanormalizadadel
gradodedistanciamientodeunpuntodelcentrodesudistribucin.Lospuntosmuyalejados
puedeninfluirdeformamuyimportanteenlaecuacinderegresin,peronotienenporqu
hacerlonecesariamente.
Conmsde6variablesyalmenos20casos,seconsideraqueunvalordeinfluenciadebedeser
revisadossiesmayorque(3p/n).Losvaloresdeinfluenciatienenunmximode(n1)/n.
Comoreglageneral,paraorientardecisiones,losvaloresmenoresque0,2seconsideranpoco
problemticos;losvalorescomprendidosentre0,2y0,5seconsideranarriesgados;ylosvalores
mayoresque0,5debieranevitarse.
SantiagodelaFuenteFernndez 47
RegresinLinealMltiple
Estadsticosdeinfluencia
Esterecuadrocontienevariosestadsticosquecontribuyenaprecisarlaposiblepresenciadepuntos
deinfluencia.
DfBetas(diferenciaenlasbetas).Mideelcambioqueseproduceenloscoeficientesde
regresinestandarizados(betas)comoconsecuenciadeireliminandocadacasodelaecuacin
deregresin.SPSScreaenelEditordedatostantasvariablesnuevascomocoeficientesbeta
tienelaecuacinderegresin,esdecir,tantoscomovariablesindependientesmsuno(el
correspondientealaconstantedelaecuacin).
DfBetastipificadas.EselcocienteentreDfBetasysuerrortpico.
Generalmente,unvalormayorque 2 n delatalapresenciadeunposiblepuntodeinfluencia.
ElSPSScreaenelEditordedatostantasvariablesnuevascomocoeficientesBetatienela
ecuacinderegresin.
DfAjuste(diferenciaenelajuste).Mideelcambioqueseproduceenelpronsticodeuncaso
cuandoesecasoeseliminadodelaecuacinderegresin.
DfAjustetipificado.EselcocienteentreDfAjusteysuerrortpico.
Generalmente,seconsideranpuntosdeinfluencialoscasosenlosqueDfAjustetipificadoes
mayorque 2 (p n) ,siendopelnmerodevariablesindependientesyneltamaodela
muestra.
Raznentrelascovarianzas(RV).Indicaenqumedidalamatrizdeproductoscruzados(base
delanlisisderegresin)cambiaconlaeliminacindecadacaso.
Seconsideraqueuncasoesunpuntodeinfluenciasi RV > 3 + p n
Crearcoeficientesdelosestadsticos.ElSPSSofreceunatablaresumenqueincluye,paratodos
losestadsticosdelrecuadroDistancias,elvalormnimo,elmximolamedia,ladesviacintpica
yelnmerodecasos.Latablatambinrecogeinformacinsobrelospronsticosylosresiduos.
Sealarquelospuntosdeinfluencianotienenporqutenerresiduosespecialmentegrandes,el
problemaquepresentannoesprecisamentelafaltadeajuste.Apesardeello,esconveniente
SantiagodelaFuenteFernndez 48
RegresinLinealMltiple
examinarlosporsudesproporcionadainfluenciasobrelaecuacinderegresin.Comostospuntos
sondistintosdelosdems,convieneprecisarenqusondistintos.
Unavezidentificadosyexaminados,sepuedeneliminardelanlisissimplementeporqueentorpecen
elajuste,oporquesupresenciaproducemedidasdeajusteinfladas.
Valorespronosticados
Elobjetivoprincipaldelanlisiseseldepoderefectuarpronsticosencasosnuevos.Sehan
utilizadoloscoeficientesderegresinparcial(B)paraconstruirlarectaderegresin:
Conocidoslospesosdelaecuacinderegresin,sepuedeutilizarlaopcindelmen
Transformar/Calcularvariableparaobtenerlospronsticosquelaecuacinasignaacadacaso.Pero
estonoesnecesarioporqueelsubcuadroGuardarnuevasvariablescontieneopcionesrelacionadas
conlospronsticos:
Lasopcionesdeesterecuadrogeneran,enelEditordedatos,cuatronuevasvariables,quereciben
automticamenteunnombreseguidodeunnmerodeserie(nombre_#).Porejemplo,laprimera
vezquesesolicitanduranteunasesinlospronsticostipificados,lanuevavariableconlos
pronsticostipificadosrecibeelnombredezpr_1.Sisevuelvenasolicitarpronsticostipificados
durantelamismasesin,lanuevavariablerecibeelnombredezpr_2,yassucesivamente.
Notipificados.Pronsticosquesederivandelaecuacinderegresinenpuntuacionesdirectas,
recibenelnombre:pre_#.
Tipificados.Pronsticosconvertidosenpuntuacionestpicas(restandoacadapronsticola
mediadelospronsticosydividiendoladiferenciaporladesviacintpicadelospronsticos),
recibenelnombre:zpr_#.
Corregidos.Pronsticoquecorrespondeacadacasocuandolaecuacinderegresinseobtiene
sinincluiresecaso,nombre:adj_#.
E.T.delpronsticopromedio.Errortpicodelospronsticoscorrespondientesaloscasosque
tienenelmismovalorenlasvariablesindependientes,nombre:sep_#.
# Alefectuarunpronsticohaydossituacionesdiferentes:
c Efectuarunpronsticoindividual Yi parauncasoconcreto Xi
d Pronosticarparacadacasolamediadelospronsticos Y0 correspondientesatodosloscasos
conelmismovalor X 0 enlas(s)variable(s)independiente(s).Aestamediasellamapronstico
promedio.
Alefectuarunpronsticoindividualparaundeterminadovalorde Xi ,elerrordeestimacino
variacinresidual (Y Yi ) puedecontenerdosfuentesdeerror:
1. Ladiferenciaentreelvalorobservadoenlavariabledependiente Yi ylamediapoblacional
correspondientea X 0 ( Y / X 0 ).
SantiagodelaFuenteFernndez 49
RegresinLinealMltiple
2. Ladiferenciaentreelpronsticoparaesecaso (Y o Y ) ylamediapoblacionalcorrespondientea
i 0
X 0 ( Y / X 0 ).
Enunpronsticoindividualentranenjuegolasdosfuentesdeerror,mientrasqueenunpronstico
promediosloentralasegundafuentedeerror.Enconsecuencia,paraunvalordadode X 0 ,elerror
tpicodelpronsticopromediosermenoroigualqueelerrortpicodelvalorindividual.
Portanto,alconstruirintervalosdeconfianzaparalospronsticos,laamplituddelintervalo
cambiardependiendodelerrortpicoquesetomecomoreferencia.
Intervalosdepronstico.Lasopcionesdelrecuadropermitenobtenerdostiposdeintervalos:
~Media:Intervalodeconfianzabasadoenloserrorestpicosdelospronsticospromedio.
~Individuos:Intervalodeconfianzabasadoenloserrorestpicosdelospronsticosindividuales.
LaopcinIntervalodeconfianzak%permiteestablecerelniveldeconfianzaconelquese
construyenlosintervalosdeconfianza.
Cadaunadelasopciones(mediaeindividuos)generaenelEditordedatosdosnuevasvariablescon
ellmiteinferiorysuperiordelintervalo.Estasnuevasvariablesrecibenlossiguientesnombres:
lmci_#:lmiteinferiorICpronsticomedio umci_#:lmitesuperiorICpronsticomedio
lici_#:lmiteinferiorICpronsticoindividual uici_#:lmitesuperiorICpronsticoindividual
SantiagodelaFuenteFernndez 50
RegresinLinealMltiple
CRITERIOSDESELECCINDEVARIABLES
LosmtodosporpasosqueincluyeelSPSSparalaseleccinde
variablessebasanendoscriteriosestadsticos:
1. Criteriodesignificacin(ProbabilidaddeF,valordeF)
2. Criteriodetolerancia
1. Criteriodesignificacin.Sloincorporaalmodeloderegresinaquellasvariablesque
contribuyendeformasignificativaalajustedelmodelo.
Lacontribucinindividualdeunavariablealajustedelmodeloseestablececontrastando,apartir
delcoeficientedecorrelacinparcial,lahiptesisdeindependenciaentreesavariableylavariable
dependiente.Paradecidirsisemantieneoserechazaesahiptesisdeindependencia,elSPSS
incluyedoscriteriosdeseleccin:
ProbabilidaddeF.Unavariablepasaaformarpartedelmodeloderegresinsielnivelcrtico
asociadoasucoeficientedecorrelacinparcialalcontrastarlahiptesisdeindependenciaes
menorque0,05(probabilidaddeentrada).Yquedafueradelmodeloderegresinlinealsiel
nivelcrticoesmayorque0,10(probabilidaddesalida).
ValordeF.Unavariablepasaaformarpartedelmodeloderegresinlinealsielvalordel
estadsticoFutilizadoparacontrastarlahiptesisdeindependenciaesmayorque3,84(valorde
entrada).YquedafueradelmodeloderegresinlinealsielvalordelestadsticoFesmenorque
2,71(valordesalida).
LasopcionesdelrecuadroCriteriosdelmtodoporpasospermiteseleccionarunodelosdos
criteriosdesignificacindisponibles,ascomomodificarlasprobabilidadesdeentradaysalida.
2. Criteriodetolerancia.Superadoelniveldesignificacin,unavariablesolopasaaformarparte
delmodelosisuniveldetoleranciaesmayorqueelnivelestablecidopordefecto(esteniveles
mayorque0,0001,peropuedecambiarsemediantesintaxis)y,siadems,ancorrespondindoleun
coeficientedecorrelacinparcialsignificativamentedistintodecero,suincorporacinalmodelo
hacequealgunadelasvariablespreviamenteseleccionadaspaseatenerunniveldetoleranciapor
debajodelestablecidopordefecto.
Unaformaintuitivadecomprenderyvalorarelefectoresultantedeaplicarestoscriteriosde
seleccinconsisteenobservarelcambioquesevaproduciendoenelcoeficientededeterminacin
R2 amedidaquesevanincorporando(oeliminando)variablesalmodelo.
Uncambiograndeen R2 indicaqueesavariablecontribuyedeformaimportanteaexplicarloque
ocurreconlavariabledependiente.
MTODOSDESELECCINDEVARIABLES
Existendiferentesmtodosparaseleccionarlas
variablesindependientesquedebeincluirun
modeloderegresin,perolosquemayor
aceptacinsonlosmtodosdeseleccinpor
pasos(stepwise).Conestosmtodos,se
seleccionaenprimerlugarlamejorvariable(con
algncriterioestadstico);acontinuacin,la
mejordelasrestantes;yassucesivamentehasta
quenoquedenvariables.
TodaslasopcionesseencuentrandisponiblesenelmendelbotndespegableMtodo.
Dosdelosmtodospermitenincluiroexcluir,enunsolopaso,todaslasvariablesindependientes
seleccionadas:
Introducir:Construyelaecuacinderegresinutilizandotodaslasvariablesseleccionadasenla
listadeIndependientes.Eselmtodoutilizadopordefecto.
Eliminar:EliminaenunsolopasotodaslasvariablesdelalistadeIndependientesyofrecelos
coeficientesderegresinquecorresponderanacadavariableenelcasodequepasarana
formarpartedelaecuacinderegresin.
Elrestodeseleccindevariablessonmtodosporpasos,estoes,mtodosquevanincorporandoo
eliminandovariablespasoapasodependiendoquestascumplanonoloscriteriosdeseleccin:
Haciadelante:Lasvariablesseincorporanalmodeloderegresinunaauna.
Enelprimerpasoseseleccionalavariableindependiente,queademsdesuperarloscriterios
deentrada,msaltocorrelaciona(positivaonegativamente)conladependiente.
Enlossiguientespasosseutilizacomocriteriodeseleccinelcoeficientedecorrelacinparcial:
<<Vansiendoseleccionadasunaaunalasvariablesque,ademsdesuperarloscriteriosde
entrada,poseenelcoeficientedecorrelacinmsaltoenvalorabsoluto(larelacinseparcializa
controlandoelefectodelasvariablesindependientespreviamenteseleccionadas).
Laseleccindevariablessedetienecuandonoquedanvariablesquesuperenelcriteriode
entrada(utilizarcomocriteriodeentradaeltamao,envalorabsoluto,delcoeficientede
correlacinparcial,esequivalenteaseleccionarlavariableconmenorprobabilidaddeFomayor
valordeF)>>.
Haciaatrs:Comienzaincluyendoenelmodelotodaslasvariablesseleccionadasenlalista
Independientesyluegoprocedeaeliminarlasunaauna.
Laprimeravariableeliminadaesaquellaque,ademsdecumplirloscriteriosdesalida,poseel
coeficientederegresinmsbajoenvalorabsoluto.
Encadapasosucesivosevaneliminandolasvariablesconcoeficientesderegresinno
significativos,siempreenordeninversoaltamaodesunivelcrtico.
SantiagodelaFuenteFernndez 52
RegresinLinealMltiple
Laeliminacindevariablessedetienecuandonoquedanvariablesenelmodeloquecumplan
loscriteriosdesalida.
Pasossucesivos:EsunmtodomezcladelosmtodosHaciadelanteyHaciaatrs.
ComoelmtodoHaciadelante,enelprimerpasocomienzaseleccionandolavariable
independienteque,ademsdesuperarloscriteriosdeentrada,msaltocorrelaciona(envalor
absoluto)conlavariabledependiente.
Acontinuacin,seleccionalavariableindependienteque,ademsdesuperarloscriteriosde
entrada,poseeelcoeficientedecorrelacinparcialmsalto(envalorabsoluto).
Cadavezqueseincorporaunanuevavariablealmodelo,lasvariablespreviamente
seleccionadasson,aligualqueenelmtodoHaciaatrs,evaluadasnuevamentepara
determinarsisiguencumpliendoonoloscriteriosdesalida.Sialgunavariableseleccionada
cumpleloscriteriosdesalida,eseliminadadelmodelo.
Elprocesosedetienecuandonoquedenvariablesquesuperenelcriteriodeentradaylas
variablesseleccionadasnoverifiquenloscriteriosdesalida.
SantiagodelaFuenteFernndez 53