Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis de RegresionRes
Analisis de RegresionRes
Pgina 1
ANLISIS DE REGRESIN
1
Ejemplo 1:
La revista Motor Trend presenta con frecuencia datos de rendimiento para automviles, que
compara el tamao del motor en pulgadas cbicas de desplazamiento (pcd) y las millas por galn
(mpg) estimadas para ocho modelos representativos de automviles subcompactos modelo 1984.
millas/galn (mpg), y
30
31
34
27
29
34
38
32
Diagrama de dispersin
39
37
35
m 33
p 31
g 29
27
25
80
90
100
110
pcd
ddci
d
120
130
ANLISIS DE REGRESIN
Usamos el modelo probabilstico siguiente para explicar el comportamiento de los millajes para
las ocho medidas de tamao de motor, este se llama modelo de regresin lineal, y expresa la
relacin lineal entre tamao de motor (x) y millas por galn (y).
Modelo de regresin lineal
y 0 1 x
Donde
y = variable dependiente
0 ordenada al origen
1 = pendiente
x = variable independiente
= Error aleatorio
La expresin 0 1 x se denomina componente determinstica del modelo de regresin lineal.
La muestra de pares de datos se usar para estimar los parmetros 0 y 1 de la componente
determinstica.
La diferencia principal entre un modelo pobabilstico y uno determinstico es la inclusin de un
trmino de error aleatorio en el modelo probabilstico. En el ejemplo los diferentes rendimientos
para un mismo tamao de motor se atribuyen al trmino de error en el modelo de regresin.
b0 =
b1=
SS x x
2
SS y y
2
SS xy xy
x y
n
Pgina 3
ANLISIS DE REGRESIN
b1
SS xy
SS x
b0 y b1 x
Donde:
SS = suma de cuadrados
b1 = pendiente
b0 = ordenada al origen
n = nmero de pares de datos
En la tabla incluimos las sumatorias que utilizaremos para el clculo de las frmulas.
coches compactos
tamao del motor (pcd) x
Chevrolet Cavalier
121
Datsun Nissan Stanza
120
Dodge Omni
97
Ford Escort
98
Mazda 626
122
Plymouth Horizon
97
Renault Alliance/Encore
85
Toyota Corolla
122
SUMAS
862
Media
107.75
millas/galn (mpg), y
30
31
34
27
29
34
38
32
255
31.875
x^2
14641
14400
9409
9604
14884
9409
7225
14884
94456
y^2
900
961
1156
729
841
1156
1444
1024
8211
xy
3630
3720
3298
2646
3538
3298
3230
3904
27264
Calculando b0 y b1 tenemos:
SSx = 1575.50
SSy = 82.88
SSxy = -212.25
b1 = -0.13472
b0 = 46.39099
La ecuacin de prediccin de mnimos cuadrados es:
y b0 b1 x. => y 46.39099 0.37472 x
y =46.391 -0.1347x
40
30
20
10
Lineal (Y)
0
0
Error
50
100
150
Variable X
Pgina 4
ANLISIS DE REGRESIN
Qu tan normales
son los residuales?
Tabla de Residuales
20
Residual
Residual
10
0
-10
-20
-2
3.0SL=43.26
X=0.000
-3.0SL=-43.26
10
Nmero de Observacin
Histograma de Residuales
10
Residual
Ignrese
para grupos
pequeos de
informacin
(<30)
Marcador Normal
Frecuencia
Histograma curva de
campana?
-1
50
40
30
20
10
0
-10
-20
-30
-40
-50
0
-10
-20
0
-25 -20 -15 -10 -5 0 5 10 15
450
500
Ajuste
550
Buscar
Buscarlas
lasinconsistencias
inconsistencias
mayores
mayores
Pgina 5
Aleatorio
alrededor de
cero, sin
tendencias?
Al usar el criterio de mnimos cuadrados para obtener la recta que mejor se ajuste a nuestros
datos, podemos obtener el valor mnimo para la suma de cuadrados del error (SSE)
SSE SS y b1 SS xy
2
A la varianza de los errores e se le llama varianza residual siendo denotada por s e , se encuentra
dividiendo SSE entre n-2
S e2
SSE
n2
S e2
Se
54.2849
9.0475
6
3.007
Ejemplo 2: Una firma de renta de coches recab los datos adjuntos sobre los costos de
mantenimiento y, y las millas recorridas x para siete de sus automviles.
Automvil
Encuentre:
A
B
C
D
E
F
G
Millas recorridas x
en miles
55
27
36
42
65
48
29
x
55
27
36
42
65
48
29
302
43.14
y
299
160
215
255
350
275
207
1761
251.57
x^2
3025
729
1296
1764
4225
2304
841
14184
y^2
89401
25600
46225
65025
122500
75625
42849
467225
xy
16445
4320
7740
10710
22750
13200
6003
81168
ANLISIS DE REGRESIN
SSx = 1154.86
SSy = 24207.71
SSxy = 5193.43
b1 = 4.4970
b0 =57.5567
SSE = 852.70
S e2 = 170.54
y = 57.5567 + 4.497x
a)
b)
c)
d)
e)
b0 =57.5567
b1 = 4.4970
S e2 = 170.54
57.5567 + 4.497(36) = 219.44 usd
57.5567 + 4.497(29) = 187.96 usd
seguros
de
que
la
pendiente
de
la
ecuacin
de
regresin
Pgina 8
ANLISIS DE REGRESIN
SSR
S e2
0.05
H 0 : 1 0
H 1 : 1 0
S e2 9.0475
La suma de cuadrados para la regresin SSR se calcula mediante:
SSR = b1SSxy = (-212.25)(-0.1347) =28.5901
Hallamos el estadstico de prueba F:
SSR 28.5901
3.16
=
S e2
9.0475
b1
, donde gl = n-2
Se SSx
Ejemplo 4: Usando los datos del ejemplo 1, haga una prueba para determinar si 1 0 usando la
prueba de t y 0.05 .
H 0 : 1 0
H 1 : 1 0
Pgina 9
ANLISIS DE REGRESIN
b1
=
Se SSx
0.1347
1.7775
9.0475 1575.5
Los valores crticos t .025 para gl = 6 son 2.447 . Como t.025 < t no rechazamos H 0 : 1 0 .
Por tanto no tenemos evidencia que sugiera que el modelo lineal es apropiado para nuestros datos.
Anlisis de correlacin
Establece si existe una relacin entre las variables y responde a la pregunta,Qu tan evidente es
esta relacin?".
La correlacin es una prueba fcil y rpida para eliminar factores que no influyen en la prediccin,
para una respuesta dada.
Coeficiente de Correlacin de Pearson
SSxy
SSxSSy
Pgina 10
ANLISIS DE REGRESIN
Ejemplo 5: En un esfuerzo por determinar la relacin entre el pago anual de los empleados y el
nmero de faltas al trabajo por causa de enfermedad, una corporacin grande estudi los registros
personales de una muestra de doce empleados. Los datos pareados aparecen en la siguiente
tabla.
Empleado
1
2
3
4
5
6
7
8
9
10
11
12
Pago anual
(miles de dlares)
15.7
17.2
13.8
24.2
15
12.7
13.8
18.7
10.8
11.8
25.4
17.2
Inasistencias
4
3
6
5
3
12
5
1
12
11
2
4
Pgina 11
ANLISIS DE REGRESIN
Determine el coeficiente de correlacin e interprete el resultado.
Empleado
1
2
3
4
5
6
7
8
9
10
11
12
SUMATORIA
SSxy =
SSx =
SSy =
r
x
15.7
17.2
13.8
24.2
15
12.7
13.8
18.7
10.8
11.8
25.4
17.2
196.3
y
4
3
6
5
3
12
5
1
12
11
2
4
68
x^2
246.49
295.84
190.44
585.64
225.00
161.29
190.44
349.69
116.64
139.24
645.16
295.84
3441.71
y^2
16
9
36
25
9
144
25
1
144
121
4
16
550
xy
62.8
51.6
82.8
121.0
45.0
152.4
69.0
18.7
129.6
129.8
50.8
68.8
982.3
-130.06667
230.569167
164.666667
SSxy
= -0.6675
SSxSSy
Inasistencias
Diagrama de dispersin
14
12
10
8
Serie1
6
4
2
0
Lineal (Serie1)
10
15
20
25
30
Pgina 12
ANLISIS DE REGRESIN
Pgina 13
menor que el valor F (0.125< 3.16), por lo que no tenemos evidencia para rechazar la H 0:
1 0 , en consecuencia el modelo de regresin no es apropiado.
Anlisis de residuos: muestra los pronsticos y residuos para cada observacin, as como
el grfico de residuales, en el cual observamos inconsistencias ya que la mayora de los
puntos se encuentran en la regin positiva.
ANLISIS DE REGRESIN
ANLISIS DE REGRESIN MULTIPLE
En ocasiones la informacin de una variable independiente no es suficiente, por ejemplo en el caso
de los autos compactos adems de tener la variable del tamao del motor, podramos tener otras
variables, que nos permitan tener mayor informacin como por ejemplo el peso del coche, el tipo
de recorrido, el tamao de las llantas, estos factores tambin influyen sobre la razn del consumo
de gasolina.
Cuando se usa ms de una variable independiente para predecir los valores de una variable
dependiente, el proceso se llama anlisis de regresin mltiple, incluye el uso de ecuaciones
lineales y no lineales, en este estudio nos ocuparemos de las ecuaciones de regresin lineales.
Ejemplo 6 Muchos programas de estudios premdicos usan los promedios de las calificaciones del
MCAT de los estudiantes egresados como un indicador de la calidad de sus programas. Las
variables que se sabe influencian esos promedios del MCAT(y) son: la combinacin de las
calificaciones del SAT en matemticas y en oratoria (x1) y el GPA (x2) de los prospectos a mdicos.
La tabla muestra las medidas de x1, x2 y y de seis estudiantes que han cursado un programa de
premedicina y que han presentado el MCAT
Estudiante
1
2
3
4
5
6
Calificacin
SAT (X1)
1200
1350
1000
1250
1425
1340
GPA (X2)
3.8
3.4
2.9
3.3
3.9
3.1
Con esta informacin podemos encontrar una ecuacin lineal que nos permita predecir el promedio
de calificaciones del MCAT para un estudiante si se conocen su GPA y su calificacin combinada
del SAT.
La ecuacin lineal para los datos del ejemplo tiene la forma y b0 b1 x1 b2 x 2 . Es posible
encontrar los valores de b0, b1, y b2 usando el mtodo de mnimos cuadrados, al igual que en el
mtodo de regresin lineal simple. El mtodo en este caso requiere resolver tres ecuaciones
lineales con tres incgnitas, estas ecuaciones, conocidas como ecuaciones normales, son:
b1 x1 b2 x 2
y nb
x y b x b x b x
1
2
1
2
2
y b0 x 2 b1 x1 x 2 b2 x 22
Pgina 18
X2
3.8
3.4
2.9
3.3
3.9
3.1
20.4
Y
12.4
13.3
9.2
10.6
13.2
11.2
69.9
X1^2
1440000
1822500
1000000
1562500
2030625
1795600
9651225
X2^2
14.44
11.56
8.41
10.89
15.21
9.61
70.12
X1X2
4560
4590
2900
4125
5557.5
4154
25886.5
X1Y
14880
17955
9200
13250
18810
15008
89103
X2Y
47.12
45.22
26.68
34.98
51.48
34.72
240.2
y y
SSE y y
SST
12.9950
2.2403
glT gl R gl E
glT n 1
gl R k
gl E n ( k 1)
donde:
k = nmero de variables independientes
Clculo de cuadrados medios:
ANLISIS DE REGRESIN
SSR 10.7547
5.3773
gl R
2
SSE 2.2403
MSE
0.7468
gl E
3
MSR
Donde:
MSR= Cuadrado medio de la regresin
MSE= Cuadrado medio del error.
Prueba de hiptesis
Para determinar si el modelo lineal describe adecuadamente los datos, se usa la prueba F.
Para los datos del ejemplo las hiptesis son:
H 0 : 1 2 0
H 1 : 1 0 o 2 0
El valor del estadstico F se encuentra dividiendo MSR entre MSE.
MSR 5.3773
7.20
MSE 0.7468
R2
SSR
SST
R2
10.7547
0.8276 82.8%
12.995
Pgina 20
ANLISIS DE REGRESIN
Ejemplo 7 La tabla enlista el consumo de combustible en millas por galn bajo condiciones
normales de manejo, los pesos de los coches en libras y la capacidad del motor en cc
para seis coches deportivos modelo 1990.
Cons umo
3330
4015
2865
3320
3020
3100
17,9
18,7
16,5
17
15,5
22
ANLISIS DE REGRESIN
Damos Clic en el Icono Graphs, y en la opcin grficos de residuos residual plots dejamos la
opcin que el sistema da por de fault: Regular. y seleccionamos la opcin residual vs. fits y
normal plot of residuals. Tambin existen otras opciones de grficos que podemos usar en caso de
ser necesario.
Pgina 22
ANLISIS DE REGRESIN
En la opcin Resultados Results seleccionamos el circulo: Regresin equation....
Regression Analysis
The regression equation is
C3 = 10,9 - 0,00050 C1 + 0,00270 C2
Predictor
Coef
StDev
Constant
10,91
12,90
C1
-0,000496 0,001329
C2
0,002702 0,004982
S = 2,805
R-Sq = 9,1%
T
P
0,85 0,460
-0,37 0,734
0,54 0,625
R-Sq(adj) = 0,0%
Analysis of Variance
Source
DF
SS
Regression
2
2,368
Residual Error 3
23,605
Total
5
25,973
MS
1,184
7,868
F
P
0,15 0,866
Pgina 23
ANLISIS DE REGRESIN
Examinando el valor del estadstico F(F=0.15), que es significativo al nivel P = 0.866 concluimos
que el modelo no es adecuado para fines de prediccin en un nivel 0.05
Normal Score
-1
-2
-1
Residual
Residual
2
1
0
-1
-2
17
18
19
Fitted Value
Analizando los grficos anteriores, podemos observar en el grafico de probabilidad que las
observaciones aparentan ser normales. Sin embargo en el grfico de residuales observamos una
tendencia ya que la mayora de los puntos se encuentran a bajo del cero.
Pgina 24