Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis de RegresionRes
Analisis de RegresionRes
8! -ara cada valor de x, la varian'a de es la constante 2 "llamada varian'a del error.! 9! Los valores del t+rmino de error son independientes! 2! -ara un valor fi(o de x% la distribucin muestral de y es normal% por)ue sus valores dependen de los de !
:! -ara un valor fi(o x% es posible predecir el valor de y! ;! -ara un valor fi(o x% es posible estimar el valor promedio de y
- gina 5
ANLISIS DE REGRESIN
5
Ejemplo 1 La revista Motor Trend presenta con frecuencia datos de rendimiento para automviles% )ue compara el tama<o del motor en pulgadas c1bicas de despla'amiento "pcd. # las millas por galn "mpg. estimadas para oc$o modelos representativos de automviles subcompactos modelo 5=>9!
tama<o del motor "pcd. x coc$es compactos ,$evrolet ,avalier 565 Datsun Nissan Stan'a 563 Dodge Bmni =; Cord Escort => 4a'da :6: 566 -l#mout$ Dori'on =; Renault AllianceAEncore >2 *o#ota ,orolla 566
Graficando los datos de la tabla en el ?diagrama de dispersin@ podemos observar la coleccin de los oc$o pares de datos (x,y) como muestra de una poblacin de pares% donde las medidas pulgadas c1bicas de despla'amiento "pcd. ? x pueden tomar cual)uier valor en el rango de valores )ue se e&tiende de >2 a 566! -ara cada pcd posible $a# muc$os milla(es asociados con ella! -or e(emplo para un tama<o del motor de =; $a# un gran n1mero de milla(es asociados% uno por cada coc$e cu#o tama<o sea =; pcd! Asumamos )ue e&iste una relacin lineal para la poblacin de pares de datos de pcd # mpg! "Se entiende por relacin lineal cuando la variable y tiene una tendencia a crecer o decrecer% cuando la variable & aumenta.!
=3
553
563
583
ANLISIS DE REGRESIN
/samos el modelo pro"a"il#sti!o siguiente para e&plicar el comportamiento de los milla(es para las oc$o medidas de tama<o de motor% este se llama modelo de regresin lineal% # e&presa la relacin lineal entre tama<o de motor "&. # millas por galn "#.! Modelo de regresin lineal
y = 0 + 1 x +
1 E pendiente
x = variable independiente E Error aleatorio La e&presin 0 + 1 x se denomina !omponente determin#sti!a del modelo de regresin
lineal! La muestra de pares de datos se usar para estimar los par metros 0 y1 de la componente determinFstica! La diferencia principal entre un modelo pobabilFstico # uno determinFstico es la inclusin de un t+rmino de error aleatorio en el modelo probabilFstico! En el e(emplo los diferentes rendimientos para un mismo tama<o de motor se atribu#en al t+rmino de error en el modelo de regresin!
y =
b3 E b5E
para un valor particular de &! Galor predic$o de y Estimador puntual de 0 !"ordenada al origen.
Estimador puntual de
1. "pendiente.
SS x = x
2
( x)
n
SS y = y
2
( y)
n
SS xy = xy
( x )( y )
n
- gina 8
ANLISIS DE REGRESIN
b1 =
SS xy SS x
b0 = y b1 x
Donde0 SS E suma de cuadrados b5 E pendiente b3 E ordenada al origen n E n1mero de pares de datos En la tabla incluimos las sumatorias )ue utili'aremos para el c lculo de las frmulas!
coc$es compactos tama<o del motor "pcd. & ,$evrolet ,avalier 565 Datsun Nissan Stan'a 563 Dodge Bmni =; Cord Escort => 4a'da :6: 566 -l#mout$ Dori'on =; Renault AllianceAEncore >2 *o#ota ,orolla 566 S/4AS >:6 4edia 53;!;2 millasAgaln "mpg.% # 83 85 89 6; 6= 89 8> 86 622 85!>;2 &K6 59:95 59933 =93= =:39 59>>9 =93= ;662 59>>9 =992: #K6 =33 =:5 552: ;6= >95 552: 5999 5369 >655 &# 8:83 8;63 86=> 6:9: 828> 86=> 8683 8=39 6;6:9
,alculando b3 # b5 tenemos0 SS& E 52;2!23 SS# E >6!>> SS&# E H656!62 b5 E H3!589;6 b3 E 9:!8=3== La ecuacin de prediccin de mFnimos cuadrados es0 0.37472 x y = 4!.3 0 = b0 + b1 x. EI y
Error
- gina 9
ANLISIS DE REGRESIN Los errores se denominan frecuentemente residuales! -odemos observar en la gr fica de regresin los errores indicados por segmentos verticales!
OE3!333
H53 H63 H6 H5 3 5 6
4arcador Normal
H8!3SLEH98!6:
53
Crecuencia
Residual
N1mero de Bbservacin
Distograma de Residuales
8 6 5 3 H62 H63 H52 H53 H2 3 2 53 52 63 53 3 H53 H63
923
A(uste
233
223
- gina 2
ANLISIS DE REGRESIN Al usar el criterio de mFnimos cuadrados para obtener la recta )ue me(or se a(uste a nuestros datos% podemos obtener el valor mFnimo para la suma de cuadrados del error "SSE.
SSE = SS y b1 SS xy
2 A la varian'a de los errores e se le llama ,arian-a residual siendo denotada por s e % se encuentra dividiendo SSE entre nH6
S e2 =
SSE n2
La raF' cuadrada positiva de la varian'a residual se llama error est%ndar de estima!in # se denota por Se! Aplicando las frmulas en obtenemos la suma de cuadrados del error% la varian'a residual # el error est ndar de la estimacin0 SSE E >6!>>H"H3!589;6."H656!62. E29!6>9=
S e2 =
Se
E
"4.2#4 = .047" !
8!33;
Ejemplo . /na firma de renta de coc$es recab los datos ad(untos sobre los costos de mantenimiento y% # las millas recorridas x para siete de sus automviles! Automvil A P , D E C G 4illas recorridas x en miles 22 6; 8: 96 :2 9> 6= ,ostos de manteniH miento y "dlares. 6== 5:3 652 622 823 6;2 63;
Encuentre0
1.
c. /na estimacin puntual para la varian'a del error 2 ! d. /na estimacin puntual para el costo promedio del mantenimiento de un coc$e con 8:%333 millas recorridas! e. -rediga el costo para un coc$e con 6=%333 millas recorridas!
Automvil A P , D E C G Suma 4edia x 22 6; 8: 96 :2 9> 6= 836 98!59 y 6== 5:3 652 622 823 6;2 63; 5;:5 625!2; &K6 8362 ;6= 56=: 5;:9 9662 6839 >95 595>9 #K6 >=935 62:33 9:662 :2362 566233 ;2:62 96>9= 9:;662 &# 5:992 9863 ;;93 53;53 66;23 58633 :338 >55:>
- gina ;
ANLISIS DE REGRESIN SS& E 5529!>: SS# E 6963;!;5 SS&# E 25=8!98 b5 E 9!9=;3 b3 E2;!22:; SSE E >26!;3 2 Se E 5;3!29 # E 2;!22:; Q 9!9=;& a. b. c. d. e. b3 E2;!22:; b5 E 9!9=;3 2 Se E 5;3!29 2;!22:; Q 9!9=;"8:. E 65=!99 usd 2;!22:; Q 9!9=;"6=. E 5>;!=: usd
serFa id+ntica a 0 % como se muestra en la figura! Siendo este el caso el modelo no serFa apropiado!
seguros
de
)ue
la
pendiente
de
la
ecuacin
de
regresin
,on el propsito de determinar si la pendiente de la regresin poblacional es diferente de cero% separemos SS# en dos componentes% SSE # SSR! *enemos la siguiente relacin0 SS# E SSE Q SSR Donde0 SSE E Suma de cuadrados del error SSR E Suma de cuadrados de la regresin SSE E SS#Hb5SS&# SSR E b5SS#
- gina >
ANLISIS DE REGRESIN
-rueba de $iptesis utili'ando la distribucin C Si fuera cierta H 0 $ 1 = 0 % el estadFstico C servirFa como estadFstico de prueba0 C est definido como0
F=
SSR S e2
,on gl E "5%nH6.% se puede usar el estadFstico C para determinar si 1 es diferente de cero! Si la pendiente de la ecuacin de regresin poblacional es diferente de cero% entonces la ecuacin se puede usar con propsitos de prediccin! Ejemplo 0 -ara los datos del e(emplo 5 $aga una prueba para determinar si 1 0 % usando
= 0.0"
H 0 $ 1 = 0 H 1 $ 1 0
S e2 = .047"
La suma de cuadrados para la regresin SSR se calcula mediante0 SSR E b5SS&# E "H656!62."H3!589;. E6>!2=35 Dallamos el estadFstico de prueba C0
F=
Se encuentra el valor crFtico F &1, n 2% = C3!32"5%:. E 2!==! ,omo C E 8!5:R2!==% no = 4!.3## 0.1347 x no debe usarse rec$a'amos H 0 $ 1 = 0 ! ,oncluimos )ue la ecuacin y con propsitos de prediccin% # no tenemos evidencia )ue apo#e )ue el modelo lineal es correcto para nuestros datos! -rueba de $iptesis utili'ando la distribucin t Btra manera de reali'ar la prueba de $iptesis H 0 $ 1 = 0 es usando la distribucin t! El estadFstico de prueba es0
t=
Ejemplo 1 /sando los datos del e(emplo 5% $aga una prueba para determinar si 1 0 usando la prueba de t # = 0.0" !
H 0 $ 1 = 0 H 1 $ 1 0
- gina =
ANLISIS DE REGRESIN
t=
b1 E Se SSx
Los valores crFticos t .02" para gl E : son 2.447 ! ,omo St!362 R t no rec$a'amos H 0 $ 1 ! -or tanto no tenemos evidencia )ue sugiera )ue el modelo lineal es apropiado para nuestros datos! An%lisis de !orrela!in
=0
Establece si e&iste una relacin entre las variables # responde a la pregunta%@LMu+ tan evidente es esta relacinNT! La correlacin es una prueba f cil # r pida para eliminar factores )ue no influ#en en la prediccin% para una respuesta dada! $oe&i!iente de $orrela!in de Pearson Es una medida de la fuer'a de la relacin lineal entre dos variables x y y! Es un n1mero entre H5 # 5 /n valor positivo indica )ue cuando una variable aumenta2 la otra variable aumenta /n valor negativo indica )ue cuando una variable aumenta2 la otra disminu+e Si las dos variables no est n relacionadas% el coeficiente de correlacin se apro&ima a 3!
- gina 53
ANLISIS DE REGRESIN
Sin Correlacin
25 20 15 Y
Correlacin Positiva
10 5 0 0 5 10 X 15 20 25 25 20 15 Y 10 5
Correlacin Negativa
10 5 0 0 5 10 X 15 20 25
0 0 5 10 X 15 20 25
Ejemplo 3 En un esfuer'o por determinar la relacin entre el pago anual de los empleados # el n1mero de faltas al traba(o por causa de enfermedad% una corporacin grande estudi los registros personales de una muestra de doce empleados! Los datos pareados aparecen en la siguiente tabla!
Empleado 5 6 8 9 2 : ; > = 53 55 56 -ago anual "miles de dlares. 52!; 5;!6 58!> 69!6 52 56!; 58!> 5>!; 53!> 55!> 62!9 5;!6 Inasistencias 9 8 : 2 8 56 2 5 56 55 6 9
- gina 55
& 52!; 5;!6 58!> 69!6 52 56!; 58!> 5>!; 53!> 55!> 62!9 5;!6 5=:!8
# 9 8 : 2 8 56 2 5 56 55 6 9 :>
&K6 69:!9= 6=2!>9 5=3!99 2>2!:9 662!33 5:5!6= 5=3!99 89=!:= 55:!:9 58=!69 :92!5: 6=2!>9 8995!;5
&# :6!> 25!: >6!> 565!3 92!3 526!9 :=!3 5>!; 56=!: 56=!> 23!> :>!> =>6!8
Diagrama de dispersin
59 56 53 > : 9 6 3 3 2 53 52 63 62 Pago anual 4miles usd5
En el diagrama de dispersin observamos )ue al aumentar x, y disminu#e% por lo cual la correlacin es negativa! ,omparando el coeficiente de correlacin calculado% con la tabla de correlaciones observamos )ue !:: I !2>% por lo cual la correlacin entre las variables es fuerte!
Inasisten!ias
83
- gina 56
ANLISIS DE REGRESIN
- gina 58
ANLISIS DE REGRESIN
- gina 52
ANLISIS DE REGRESIN An%lisis de resultados de la ta"la de E6!el Anali'ando los resultados de E&cel% tenemos los siguiente0 En la seccin (stad)sticas de 'a regresin vemos )ue el coeficiente de correlacin E !2>;8 comparando este valor con la tabla de correlaciones observamos )ue el valor !2>;8 R !;5 lo cual indica una relacin d+bil entre las variables! En la gr fica ?de regresin a(ustada@ observamos )ue la correlacin es negativa #a )ue al aumentar *% + disminu#e7 ,abe mencionar )ue el coeficiente de correlacin calculado por el sistema siempre es positivo% por lo cual debemos basarnos la gr fica de regresin para determinar el signo! Ecuacin de la regresin0 -ara obtener la ecuacin de regresin usamos los coeficientes de los renglones Intercepcin y varia,'e *-% estos son 9:!8=3= # S 3!589; respectivamente% siendo la ecuacin de regresin0 # E 9:!8=3=H 3!589;O 5! la suma de cuadrados de la regresin SSR E 6>!2=35% la suma de cuadrados de los residuos o error SSE E 29!6>3:% El promedio de los cuadrados de la regresin )ue es la varian'a residual el valor de C dividiendo SSRA S e
2
menor )ue el valor C "3!562R 8!5:.% por lo )ue no tenemos evidencia para rec$a'ar la D 30 1 = 0 % en consecuencia el modelo de regresin no es apropiado! An lisis de residuos0 muestra los pronsticos # residuos para cada observacin% asF como el gr fico de residuales% en el cual observamos inconsistencias #a )ue la ma#orFa de los puntos se encuentran en la regin positiva!
- gina 5;
ANLISIS DE REGRESIN AN7LISIS DE REGRESIN M8L9IPLE En ocasiones la informacin de una variable independiente no es suficiente% por e(emplo en el caso de los autos compactos adem s de tener la variable del tama<o del motor% podrFamos tener otras variables% )ue nos permitan tener ma#or informacin como por e(emplo el peso del coc$e% el tipo de recorrido% el tama<o de las llantas% estos factores tambi+n influ#en sobre la ra'n del consumo de gasolina! ,uando se usa m s de una variable independiente para predecir los valores de una variable dependiente% el proceso se llama an lisis de regresin m1ltiple% inclu#e el uso de ecuaciones lineales # no lineales% en este estudio nos ocuparemos de las ecuaciones de regresin lineales! Ejemplo : 4uc$os programas de estudios prem+dicos usan los promedios de las calificaciones del 4,A* de los estudiantes egresados como un indicador de la calidad de sus programas! Las variables )ue se sabe influencian esos promedios del 4,A*" y) son0 la combinacin de las calificaciones del SA* en matem ticas # en oratoria "x-. # el G-A (x.) de los prospectos a m+dicos! La tabla muestra las medidas de x-, x. # y de seis estudiantes )ue $an cursado un programa de premedicina # )ue $an presentado el 4,A* ,alificacin SA* "O5. 5633 5823 5333 5623 5962 5893 ,alificacin proH medio del 4,A* "J. 56!9 58!8 =!6 53!: 58!6 55!6
Estudiante 5 6 8 9 2 :
,on esta informacin podemos encontrar una ecuacin lineal )ue nos permita predecir el promedio de calificaciones del 4,A* para un estudiante si se conocen su G-A # su calificacin combinada del SA*! = b0 + b1 x1 + b2 x 2 . Es posible La ecuacin lineal para los datos del e(emplo tiene la forma y encontrar los valores de b3% b5% # b6 usando el m+todo de mFnimos cuadrados% al igual )ue en el m+todo de regresin lineal simple! El m+todo en este caso re)uiere resolver tres ecuaciones lineales con tres incgnitas% estas ecuaciones% conocidas como ecuaciones normales% son0
y = nb
1
+ b1 ( x1 ) + b2 ( x 2 )
0 1 1 2 1 2 2 2
x y = b ( x ) + b ( x ) + b ( x )
y = b0 ( x 2 ) + b1 ( x1 x 2 ) + b2
( x )
2 2
- gina 5>
ANLISIS DE REGRESIN La siguiente tabla organi'a los c lculos para obtener las ecuaciones0
O5 5633 5823 5333 5623 5962 5893 ;2:2 O6 8!> 8!9 6!= 8!8 8!= 8!5 63!9 J 56!9 58!8 =!6 53!: 58!6 55!6 :=!= O5K6 5993333 5>66233 5333333 52:6233 6383:62 5;=2:33 =:25662 O6K6 59!99 55!2: >!95 53!>= 52!65 =!:5 ;3!56 O5O6 92:3 92=3 6=33 9562 222;!2 9529 62>>:!2 O5J 59>>3 5;=22 =633 58623 5>>53 5233> >=538 O6J 9;!56 92!66 6:!:> 89!=> 25!9> 89!;6 693!6
! . = !b0 + 7,"!"b1 + 20.4b2 # ,103 = 7"!"b0 + ,!"1,22"b1 + 2",##!."b2 240.2 = 20.4b0 + 2",##!."b1 + 70.12b2
Resolviendo el sistema de ecuaciones lineales obtenemos0 b3 E H6!28;% b5E3!332962% b6 E 6!5:5! La ecuacin de regresin es0
"0
(y y SSE = ) = 2.2403
ANLISIS DE REGRESIN
H 0 $ 1 = 2 = 0
H1 $ 1 0 o 2 0
El valor del estadFstico C se encuentra dividiendo 4SR entre 4SE!
F =
Puscando el valor crFtico para F &1, n 2% = F0.0" (1,4 ) E;!;5! ,omo ;!;5 I ;!63 no podemos rec$a'ar D3% lo cual nos indica )ue podrFa ser arriesgado utili'ar la ecuacin de regresin con propsitos predictivos!
R2 =
SSR SST
R2 =
Esto significa )ue apro&imadamente el >8V de la variacin en el promedio de las calificaciones se atribu#e a la variacin de las variables independientes # solamente el 5;V de la variacin de la variable dependiente no se atribu#e a eso!
- gina 63
ANLISIS DE REGRESIN Ejemplo = La tabla enlista el consumo de combustible en millas por galn ba(o condiciones normales de mane(o% los pesos de los coc$es en libras # la capacidad del motor en cc para seis coc$es deportivos modelo 5==3!
C(che de)(rti*( Ca)acidad +es ( Che*r(,et "73" -agiar ./0S "344 1ercedes 02en3 "00 S4 2174 +(rs che 11 3!00 1as errati 22# 27 0 21W 32"i 24 4
C(ns um( 3330 401" 2#!" 3320 3020 3100 17, 1#,7 1!," 17 1"," 22
a. Determine una ecuacin de regresin para predecir el promedio de consumo de combustible usando la capacidad del motor # el peso% # calcule el coeficiente de determinacin R6! /na ve' capturados los datos de las variables en 4initab seleccionamos S9A9>REGRESIN>REGRESIN # se presenta la siguiente pantalla
Seleccionamos la variable de respuesta "response) )ue corresponde a la ,olumna 8 /$, # las variables de prediccin (predictors)0 /- y /.. - gina 65
ANLISIS DE REGRESIN
Damos ,lic en el Icono 0rap1s, # en la opcin gr ficos de residuos ? residua' p'ots de(amos la opcin )ue el sistema da por de fault0 ? 2egu'ar. # seleccionamos la opcin residua' vs. "its y norma' p'ot o" residua's. *ambi+n e&isten otras opciones de gr ficos )ue podemos usar en caso de ser necesario!
- gina 66
Regression Anal+sis
*$e regression e)uation is ,8 E 53%= H 3%33323 ,5 Q 3%336;3 ,6 -redictor ,oef StDev ,onstant 53%=5 56%=3 ,5 H3%3339=: 3%33586= ,6 3%336;36 3%339=>6 S E 6%>32 RHS) E =%5V * 3%>2 3%9:3 H3%8; 3%;89 3%29 3%:62
RHS)"ad(. E 3%3V
Anal#sis of Gariance Source DC SS Regression 6 6%8:> Residual Error 8 68%:32 *otal 2 62%=;8 4S 5%5>9 ;%>:> C 3%52 3%>::
Anali'ando los resultados tenemos0 De la tabla resultante podemos determinar )ue la ecuacin de Regresin es J E 53!= S 3!33323O5Q!336;3O6 Donde O5 representa el tama<o del motor "capacidad. # O6 el peso del coc$e% J representa el rendimiento predic$o para el consumo del combustible! El coeficiente de determinacin RHS) o R6 es =!5V # esto indica )ue el =!5V de la variacin en el consumo de combustible se atribu#e a la capacidad # al peso! El =3!=V no se atribu#e a estas variables!
- gina 68
ANLISIS DE REGRESIN E&aminando el valor del estadFstico C"CE3!52.% )ue es significativo al nivel - E 3!>:: concluimos )ue el modelo no es adecuado para fines de predicciWn en un nivel = 0.0"
Normal Score
H5
H6
H5
Residual
Residual
5 3 H5 H6 5; 5> 5=
Citted Galue
Anali'ando los gr ficos anteriores% podemos observar en el grafico de probabilidad )ue las observaciones aparentan ser normales! Sin embargo en el gr fico de residuales observamos una tendencia #a )ue la ma#orFa de los puntos se encuentran a ba(o del cero!
- gina 69