Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Caso Regresion 1
Caso Regresion 1
Regresin lineal
simple
9.1 Introduccin
Uno de los aspectos ms relevantes de la Estadstica es el anlisis de la relacin
o dependencia entre variables. Frecuentemente resulta de inters conocer el
efecto que una o varias variables pueden causar sobre otra, e incluso predecir
en mayor o menor grado valores en una variable a partir de otra. Por ejemplo,
supongamos que la altura de los padres influyen significativamente en la de los
hijos. Podramos estar interesados en estimar la altura media de los hijos cuyos
padres presentan una determinada estatura.
Los mtodos de regresin estudian la construccin de modelos para explicar
o representar la dependencia entre una variable respuesta o dependiente (Y ) y
la(s) variable(s) explicativa(s) o dependiente(s), X . En este Tema abordaremos
el modelo de regresin lineal, que tiene lugar cuando la dependencia es de tipo
lineal, y daremos respuesta a dos cuestiones bsicas:
Es significativo el efecto que una variable X causa sobre otra Y ? Es
significativa la dependencia lineal entre esas dos variables?.
De ser as, utilizaremos el modelo de regresin lineal simple para explicar
y predecir la variable dependiente (Y ) a partir de valores observados en
la independiente (X).
Ejemplo 9.1. El inventor de un nuevo material aislante quiere determinar
la magnitud de la compresin (Y ) que se producir en una pieza de 2 pulgadas
de espesor cuando se somete a diferentes cantidades de presin (X). Para ello
prueba 5 piezas de material bajo diferentes presiones. Los pares de valores
observados (x, y) se muestran en la siguiente tabla:
Pieza
1
2
3
4
5
Presin (x)
1
2
3
4
5
i
Compresin (y)
1
1
2
2
4
ii
102
99
99
96
96
93
93
90
90
87
0
0,01
0,02
0,03
87
0,87
0,04
a)
10
(X 1000)
1
0,8
0,6
0,4
0,2
1,27
1,47
1,67
0
0
c)
1,07
b)
10
12
10
d)
iii
independiente no sea perfecta, sino que est sujeta a incertidumbre. Por ejemplo,
en el consumo de gasolina de un vehculo (Y ) influyen la velocidad (X) y una
serie de factores como el efecto conductor, el tipo de carretera, las condiciones
ambientales, etc, que quedaran englobados en el error.
Lo que en primer lugar sera deseable en un modelo de regresin es que
estos errores aleatorios sean en media cero para cualquier valor x de X, es decir,
E[/X = x] = E[] = 0, y por lo tanto:
E[Y /X = x] = 0 + 1 x + E[/X = x] = 0 + 1 x
En dicha expresin se observa que:
La media de Y, para un valor fijo x, vara linealmente con x.
como Y = 0 + 1 X.
El parmetro 0 es la ordenada al origen del modelo (punto de corte con
el eje Y) y 1 la pendiente, que puede interpretarse como el incremento de
la variable dependiente por cada incremento en una unidad de la variable
independiente. Estos parmetros son desconocidos y habr que estimarlos
de cara a realizar predicciones.
Adems de la hpotesis establecida sobre los errores de que en media han de
ser cero, se establecen las siguientes hiptesis:
ii) La varianza de es constante para cualquier valor de x, es decir,
V ar(/X = x) = 2
iii) La distribucin de es normal, de media 0 y desviacin .
iv) Los errores asociados a los valores de Y son independientes unos de otros.
En consecuencia, la distribucin de Y para x fijo es normal, con varianza
constante 2 , y media que vara linealmente con x, dada por 0 + 1 x. Adems
los valores de Y son independientes entre s.
iv
todas las rectas la que mejor se ajuste a los datos observados, es decir, buscamos
aquellos valores de 0 y 1 que hagan mnimos los errores de estimacin. Para
n
X
e2i =
i=1
n
X
i=1
yi ( 0 + 1 xi )2
SSxy
SSxx
y 1 x
siendo:
n
n
X
X
(xi x)(yi y) =
xi yi nx y,
SSxy
SSxx
n
n
X
X
2
=
(xi x)2 =
x2i nx = n 2x
i=1
i=1
i=1
i=1
Pn 2
SSE
SSyy 1 SSxy
i=1 ei
=
=
=
n2
n2
n2
Ejemplo 9.2. Para los datos del Ejemplo 9.1. referentes a la cantidad
de compresion (Y ) de un material aislante a diferentes niveles de presin (X),
vamos a determinar la recta de regresin.
SSxy = 7, SSxx = 10
luego
SSxy
= 0.7
SSxx
y 1 x = 0.1
v
La recta de regresin de Y sobre X es por tanto:
Y = 0.1 + 0.7X
Unilateral a la izquierda
H0 : 1 = b1
H1 : 1 < b1
Contraste
Estadstico de contraste
t=
Regin de rechazo
t < ta,n2
Bilateral
H0 : 1 = b1
H1 : 1 6= b1
^ 2
1 b1
^ 2
, con sR =
sR /SSxx
Unilateral a la derecha
H0 : 1 = b1
H1 : 1 > b1
SSyy 1 SSxy
n2
t > t1a,n2
= 0.7
^ 2
sR
SSxx
t =
t0.975,3
SSyy 1 SSxy
= 0.367
n2
10
0
p 1
= 3.7
s2 /SSxx
3.18
vi
SSxy
SSxx
r= p
=p
1
SSxx SSyy
SSyy
vii
El coeficiente de determinacin
Segn hemos visto, el coeficiente de correlacin lineal puede interpretarse como
una medida de la bondad del ajuste del modelo lineal, concretamente, un valor
del coeficiente igual a 1 o -1 indica dependencia lineal exacta, en cuyo caso
el ajuste es perfecto. No obstante, para cuantificar la bondad del ajuste de
un modelo, lineal o no, se utiliza una medida que se denomina coeficiente de
determinacin lineal R2 , que es la proporcin de variabilidad de la variable Y
que queda explicada por el modelo de entre toda la presente, y cuya expresin
es:
n
P
(y i y)2
SSE
i=1
2
R = P
=1
,
n
2
SSyy
(y i y)
i=1
y = 0 + 1x
y, por otro lado,
E[Y /X = x] = 0 + 1 x,
viii
2
1
x)
(x
y t1/2,n2 , sR
+
n
SSxx
Ejemplo 9.4. Para los datos del Ejemplo 9.1,
Pieza
1
2
3
4
5
Presn (x)
1
2
3
4
5
Compresin (y)
1
1
2
2
4
(6
3)
1
x)
1
y t1/2,n2 sR
= 4.1 3.18 0.6
+
+
= [2.1, 6.1]
n
SSxx
5
10
9.7 Ejercicios
1. Se supone que el alargamiento de un cable de acero est relacionado linealmente con la intensidad de la fuerza aplicada. Cinco especmenes idnticos
de cable dieron los resultados siguientes:
Fuerza (X)
Alargamiento (Y )
1.0
3
1.5
3.5
2
5.4
2.5
6.9
3
8.4
ix
(b) Predice el alargamiento para una fuerza de 2.2. En qu medida es
fiable tal prediccin?.
(c) Contrastar al 5% si la fuerza aplicada influye significativamente sobre
el alargamiento.
(d) Obtener un intervalo de confianza al 95% para el valor que se predice
en el alargamiento para una fuerza de 2.2
2. Las bodegas modernas utilizan vehculos guiados computarizados y automatizados para el manejo de materiales. En consecuencia, la disposicin fsica de la bodega debe disearse con cuidado a modo de evitar el
congestionamiento de los vehculos y optimar el tiempo de respuesta. En
The journal of Engineering for Industry (agosto 1993) se estudi el diseo
ptimo de una bodega automatizada. La disposicin empleada supone que
los vehculos no se bloquean entre s cuando viajan dentro de la bodega,
es decir, no hay congestionamiento. La validez de este supuesto se verific simulando por ordenador las operaciones de la bodega. En cada
simulacin se vari el nmero de vehculos y se registr el tiempo de congestionamiento (tiempo total que un vehculo bloquea a otro). Los datos
se muestran en la tabla de abajo. Los investigadores estn interesados en
conocer la relacin entre el tiempo de congestionamiento (Y) y el nmero
de vehculos (X).
X
Y
1
0
2
0
3
0.02
4
0.01
5
0.01
6
0.01
7
0.03
8
0.03
9
0.02
10
0.04
3
115000
6
147000
9
239000
12
356000
15
579000
18
,
864000
182
198
232
210
191
194
200
220
148
138
249
220
276
219
213
161
241
210
480
313
3
25.5
5
23.4
10
18.2
15
14.2
20
11
30
6.7
40
4.1
50
2.5
60
1.5
75
0.7
90
0.4
(a) Realiza una nube de puntos de las dos variables. La teora cintica de
este tipo de reacciones nos indica que la evolucin de la concentracin
del ster en funcin del tiempo se rige por Ct = C0 ekt , donde C0
es la concentracin inicial. Qu transformacin de los datos nos
lleva a un modelo lineal?. Realiza esta transformacin y obtn la
concentracin inicial C0 y la velocidad k de desaparicin del ster.
(b) Suponemos ahora que nos comunican que la concentracin inicial
del ster es C0 = 3.102 (M ). Cmo incorporar esta informacin a
nuestro anlisis anterior?. Obtn el nuevo valor de k.
6. Para analizar la degradacin de la seal emitida por una antena, se tomaron
los siguientes datos: la frecuencia de la seal en el momento de ser emitida
(X) y la frecuencia de la seal al ser recibida (Y). Los resultados medidos
en Megahercios fueron:
262
226
xi
X
Y
1.75
1.56
1.8
1.45
1.78
1.75
2.01
0.84
2.48
2.02
2.58
2.41
2.98
2.75
2.65
1.44
2.01
1.55
3.87
2.02