Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresin:conjuntodetcnicasquesonusadas
conjuntodetcnicasquesonusadas
paraestablecerunarelacinentreunavariable
paraestablecerunarelacinentreunavariable
cuantitativallamadavariable
variabledependiente
yunao
msvariablesindependientes,llamadaspredictoras.
Estasdebenserporlogeneralcuantitativas,sin
embargousarpredictorasquesoncualitativases
permisible.
Modeloderegresin.Ecuacinquerepresentala
Ecuacinquerepresentala
relacinentrelasvariables.
Paraestimarlaecuacindelmodelosedebetener
unamuestradeentrenamiento.
unamuestradeentrenamiento.
1
Ejemplo
NACION%INMUNIZACIONTASA_mor
1"Bolivia"77118
2"Brazil"6965
3"Cambodia"32184
4"Canada"858
5"China"9443
6"Czech_Republic"9912
7"Egypt"8955
8"Ethiopia"13208
9"Finland"957
10"France"959
11"Greece"549
12"India"89124
13"Italy"9510
14"Japan"876
15"Mexico"9133
16"Poland"9816
17"Russian_Federation"7332
18"Senegal"47145
19"Turkey"7687
20"United_Kingdom"909
20"United_Kingdom"909
2
EjemplodeunalineadeRegresion
EjemplodeunalineadeRegresion
Usosdelanlisisderegresin:
a)Prediccin
b)Descripcin
c)Control
d)Seleccindevariables
Seleccindevariables
ElmodelodeRegr esinLinealsimple
Y =a + b X +e
Considerandolamuestra(Xi,Yi) parai=1,n
Yi = a+ bX
Xi+ei
Suposicionesdelmodelo:
LavariablepredictoraXesnoaleatoria
Loserroresei sonvariablesaleatoriasconmedia0yvarianza
constante s2.
Loserroresy(ij=1,n)sonindependientesentresi
ei ej j=1,n)sonindependientesentresi
6
Q(a,b ) = e
i=1
2
(
y
a
b
x
)
i
i
i=1
Derivandoseobtieneunpardeecuaciones
normalesparaelmodelo,cuyasolucionproduce
n
n
xiyi - xi yi
i=1 i=1
= i=1
b
n
n
2
nxi - (xi)2
i=1
i=1
Oequivalentemente
Oequivalentemente
b =
S xy
S xx
a = y - bx
7
1.2.2Inter pr etacindeloscoeficientesde
r egr esinestimados
)
Lapendiente b indicaelcambiopromedioenlavariablede
respuestacuandolavariablepredictoraaumentaenunaunidad
adicional.
)
Elintercepto a indicaelvalorpromediodelavariablede
respuestacuandolavariablepredictoravale0.Sinembargo
carecedeinterpretacinprcticasiesirrazonableconsiderar
queelrangodevaloresdexincluyeacero.
)
)
a
b)esunestimadorinsegadodea.Esdecir,E()=a
b)esunestimadorinsegadode
2
)
s
b
a
c)Lavarianzadeesyladees
Sxx
1
x2
s ( +
)
2
Sxx
ri = 0
a) Lasumadelosresidualeses0.Esdecir,
i=1
n
b)
rixi = 0
i
=1
ri yi = 0
c)
i
=1
10
1.2.5Estimacindelavarianzadelerror
Unestimadorinsesgadodees:
s2
n
s2 =
n
2
(yi - yi) ri
i
i
=1
n- 2
=1
n- 2
s2 estambienllamadoelcuadradomediodelerror
estambienllamadoelcuadradomediodelerror
(MSE)
11
1.2.6Descomposicindelasumadecuadrados
total
Ladesviaciondeunvalorobservadoconrespectoa
lamediasepuedeescribircomo:
)
)
(yi - y)= (yi - yi)+ (yi - y)
n
( yi - y)2 =
i=1
)
(yi - yi)2+
i=1
(yi - y)
i
=1
SST=SSE+SSR
Sepuedededucirque
SSR = b
n
2
2
(
x
x
)
i
i=1
12
1.2.7ElCoeficientedeDeter minacin R2
Esunamedidadelabondaddeajustedelmodelo
SSR
R =
*100 %
SST
2
R
Unmodeloderegresionconmayoroiguala75%sepuede
considerarbastanteaceptable.
2
R
Nota:Elvalordeesafectadoporlapresenciadevalores
Elvalordeesafectadoporlapresenciadevalores
anormales.
13
14
LassumasdecuadradossonformascuadrticasdelvectoraleatorioY
yporlotantosedistribuyencomounaJi
yporlotantosedistribuyencomounaJicuadrado.
Sepuedenestablecerlossiguientesresultados:
SST
i)(JiCuadradonocentralconn
Cuadradonocentralconn1g.l)
2
~
c
'
(n-1
)
s2
ii)
SSE
2
~
c
(
n-2)
s2
Equivalentemente
(n -2)s2
~ c (2n- 2)
SSR
s2
iii)(JiCuadradonocentralcon1g.l)
Cuadradonocentralcon1g.l)
~ c '(21)
Podemosmostrarque:
16
1.3.1Inferenciaacercadelapendienteyel
interceptousandolapruebat.
Lapendientederegresinsedistribuyecomounanormalcon
s2
media b yvarianza Sxx
Unintervalodeconfianzadel100(1a)%paralapendiente
Unintervalodeconfianzadel100(1
poblacional b esdelaforma:
)
(b - t(n - 2,a /2)
s )
s
,b + t(n- 2,a /2)
)
Sxx
Sxx
Sxx
17
1 x2 )
1 x2
)
(a - t(n - 2,a /2)s +
,a + t(n - 2,a /2)s +
)
n Sxx
n Sxx
18
Pr uebasdehiptesispar alapendienteb
alapendiente
(asumiendoquesuvalor esb*)
es
CasoICasoIICasoIII
Ho: b=b*Ho: b=b*Ho:
*Ho: b=b*
Ha: b<b*Ha: bb*Ha:
*Ha: b>b*
Pr uebaEstadstica
t =
)
b -b *
s
Sxx
~t(n- 2)
RegladeDecisin
RechazarHo,RechazarHoRechazarHo
RechazarHo,RechazarHoRechazarHo
sitcal<t(a,n2)
si|tcal |>t(a
a/2,n2)sitcal>t(a,n2)
*UnPvaluecercanoacerosugiererechazarlahiptesisnula.
valuecercanoacerosugiererechazarlahiptesisnula.
19
TabladeAnlisisdeVar ianza
________________________________________________________________
FuentedeVar iacing.l.SumasdeCuadr adosCuadr adosMediosF
________________________________________________________________
Debidoa
MSR
laRegresion1SSRMSR=SSR/1
Errorn2SSEMSE=SSE/(n
2SSEMSE=SSE/(n2) MSE
Totaln1SST
________________________________________________________________
SerechazaralahiptesisnulaHo:b=0sielPvaluedela
SerechazaralahiptesisnulaHo:
pruebadeFesmenorde0.05
21
E(Y
/x=x0)= a + bx0
Yo =a + bxo
ElestimadornaturalesComolasYssedistribuyen
normalmente,entoncestambinsedistribuyenormalmentecon
Yo
mediaE(Y/X=xo)yvarianzaiguala:
2
(
x
x
)
1
0
)= s ( +
Var (Y
)
0
2
Sxx
22
Inter valodeconfianza(cont)
Unintervalodeconfianzadel100(1a)%paraelvalor medio
Unintervalodeconfianzadel100(1
delasys dadoquex=x0 esdelaforma:
2
(
x
x
)
1
0
+ bx0 t(a /2,n- 2)s +
a
Sxx
Trabajandoconladiferencia
)= 0
E(Y0 - Y
0
Y0 -Y0 setiene
2
(
x
x
)
1
0
Var (Y0 -Y0)= s (1+ +
)
2
Sxx
LuegoelintervalodeprediccinparaunvalorindividualdeY
LuegoelintervalodeprediccinparaunvalorindividualdeY
dadox=x0
2
esdelaforma
1 (x0 - x)
+
Sxx
23
1.4Anlisisder esiduales
Losresiduales,sonestimacionesdeloserroresdelmodeloysirven
paraestablecersilassuposicionesdelmodelosecumplenypara
explorarelporqudeunmalajustedelmodelo.Podemosver:
Siladistribucindeloserroresesnormalysinoutliers.
Silavarianzadeloserroresesconstanteysiserequieren
transformacionesdelasvariables.
Silarelacinentrelasvariablesesefectivamentelinealo
presentaalgntipodecurvatura
Sihaydependenciadeloserrores,especialmenteenelcasode
quelavariablepredictoraseatiempo.
quelavariablepredictoraseatiempo.
24
Tiposder esiduales
i)ResidualEstandar izado,sedivideelresidualentrela
desviacinestndardelerror.Esdecir,
)
yi - yi
ii)ResidualEstudentizado,sedivideelresidualentresu
desviacinestndarestimada.Esdecir,
)
yi - yi
1 (xi - x)2
s (1- )
Sxx
25
26
1.4.2Cotejandoquelavar ianzaseaconstante
Seplotealosresidualesestandarizadosversuslosvalores
ajustadosoversuslavariablepredictoraX.
Silospuntosdelplotcaenenunafranjahorizontalalrededorde0
entonceslavarianzaesconstante.
Silospuntossiguenalgnpatrnentoncessedicequela
varianzanoesconstante.
Nota:Sedebetenercuidadoconlapresenciadeoutliers.
:Sedebetenercuidadoconlapresenciadeoutliers.
27
1.4.3Cotejandosiloser r or esestan
cor r elacionados.
Cuandolavariablepredictoraestiempo,puedeocurrirque
loserroresestencorrelacionadossecuecialmenteentresi.
Pr uebadeDur binWatson,mideelgradodecorrelacindeunerrorconelanteriory
,mideelgradodecorrelacindeunerrorconelanteriory
elposterioral.
Estadstico
n
(ei - ei
)2
-1
D=
= 2
n
2
ei
i
=1
Dvaraentre0y4.
SiDestacercade0loserroresestncorrelacionadospositivamente.
SiDestcercade4entonceslacorrelacinesnegativa.
LadistribucindeDessimtricaconrespectoa2.Asqueunvalorde
Dcercanoa2indicaquenohaycorrelacindeloserrores.
28
1.5ElCoeficientedeCor r elacin
MideelgradodeasociacnlinealentrelasvariablesXyYyse
definecomo:
Cov( X,Y)
r =
s xs y
a) - 1 r 1
b)LamediacondicionaldeYdadoXes,
E(Y
/X)=a + bx
sy
donde:y
a =m y - bm x
b =r
s x
c)LavarianzacondicionaldelasYdadoX,estdadopor
s y2/ x =s y2(1- r 2)
Sientonces(perfectarelacinlineal).
r = 1
s y2/ x =0
29
Coeficientedecor r elacinmuestr al
Considerandounamuestradenpares(x
pares(xi,y
i)
r =
Sxy
SxxSyy
Notarque:
) Sxx
r = b
Syy
)2
r 2 =
b Sxx SSR
=
Syy
SST
Elcuadradodelcoeficientedecorrelacinesigualalcoeficiente
Elcuadradodelcoeficientedecorrelacinesigualalcoeficiente
dedeterminacin.
30