Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2012
1 Modelo de regresión lineal
vemos que los puntos parecen estar bastante próximos a una recta, y podemos
aceptar que la relación entre las variables es “aproximadamente lineal”. Podemos
2
pensar que para cada valor de x, el valor de y es función lineal de x más un
término aleatorio.
Yi = 0 + 1 xi + i (1)
3
Calculando las derivadas respecto de b0 y de b1 , e igualando ambas a
cero, se obtiene un sistema de dos ecuaciones, al resolver el mismo se llega a
la siguiente solución.
b1 = Sxy ; b0 = y xb1
Sxx
donde x e y son las medias de las xi y las yi ; y:
X
n
2
X
n
Sxx = (xi x) ; Syy = (yi y)2 ;
i=1 i=1
y
X
n X
n
Sxy = (xi x) (yi y) = xi yi nx y:
i=1 i=1
y
b = 0:0119 ; b1 = 0:0011 :
0
yb = 0:0119 + 0:0011x
Srr X n
2
s2r = ; con Srr = ri2 = Syy Sxx b1 :
n 2 i=1
4
La suma de cuadrados de los residuos: Srr puede considerarse como una
medida de la variación de las yi que no es explicada por el modelo, obviamente
Srr Syy . Entonces el cociente Srr =Syy sería la proporción de la variabilidad
total que no es explicada por el modelo, y 0 Srr =Syy 1
Es conveniente de…nir un número que represente la proporción de la vari-
abilidad total de las yi que si es explicada por el modelo, este número es el
coe…ciente de determinación:
Srr
r2 = 1
Syy
El número
Sxy
R= p
Sxx Syy
se llama coe…ciente de correlación entre x e y. Está entre -1 y 1; si jRj = 1;
los puntos están exactamente sobre una recta, cuya pendiente tiene el signo
de R: También es una medida de la bondad de un ajuste lineal. En nuestro
ejemplo, R = 0:9946:
1 x2 2
var(b0 ) = 2
+ ; var(b1 ) = ;
n Sxx Sxx
5
Entonces bajo las suposiciones del modelo (2) podemos decir que b0 y
b son estimadores insesgados de los parámetros
1 0 y 1 y que tienen las
varianzas calculadas.
Pero si podemos suponer que los i tienen distribución normal, es decir
que el modelo ahora sería:
Yi = 0 + 1 xi + i
donde
2
i s N(0; ) e independientes (4)
Entonces, también las variables aleatorias Yi tienen distribución normal,
y los estadísticos:
b b
T0 = q0 0
y T1 = 1
p 1
sr 1
+ x2 sr = Sxx
n Sxx
A partir de T1 , planteamos
b1
P( t =2 p 1 t =2 ) =1
sr = Sxx
donde también t =2 se busca en la tabla de Student para n 2 grados de
libertad, y …nalmente se llega al intervalo
p p
b1 t =2 sr = Sxx ; b1 + t =2 sr = Sxx
6
Para los datos del ejemplo, si elegimos
q 1 q para 10 grados de
= 0:95,
libertad t0:025 = 2:228 , dt(b0 ) = sr n + Sxx = 0:0180 12
1 x 2 1 3002
+ 228800 = 0:0124
y el intervalo para 0
( 0:0119
0:0276; 0:0119 0:0276) = ( 0:0395; 0:0157)
p p
de la misma manera dt(b1 ) = sr = Sxx = 0:0180= 228800 = 0:000038 y el
intervalo para 1
EY0 = 0 + 1 x0 :
7
Si deseamos construir un intervalo de con…anza para EY0 deberemos encon-
trar el estadístico adecuado, es facil ver que
y0 = E(b0 + b1 x0 ) =
Eb 0 + 1 x0
En nuestro ejemplo,
r
1 (260 300)2
yb0 = 0:2741; + = 0:30054; t0:025 = 2:228
12 228800
y el intervalo de 95% de con…anza para EY0 resulta
(0:2620; 0:2861)
esto signi…ca que tenemos un 95% de con…anza de que este intervalo con-
tenega el valor verdadero (desconocido) de EY0 ; que es el valor medio de las
respuestas correspondientes a la concentración x0 :
Si observamos la forma del intervalo (5), vemos que la longitud es:
s
1 (x0 x)2
L = 2t =2 sr +
n Sxx
8
esta longitud es mínima cuando x0 es igual a x, y aumenta cuando x0 se aleja
de x . En la siguiente …gura se gra…ca la recta de regresión estimada, y dos
lineas curvas que representan los límites de los intervalos de con…anza para
la media de Y , dados los posibles valores de x. Se puede ver como varía la
longitud de los intervalos de con…anza.
9
que y0 = 0 + 1 x0 + , y parece lógico predecir ese valor con el valor sobre
la recta estimada, o “valor ajustado”
yb0 = b0 + b1 x0
este es el mismo valor que usamos para estimar la EY0 . Pero si pretendemos
construir un intervalo de predicción, las cosas cambian un poco. El error
de predicción es la diferencia entre el valor que puede tomar una variable
aleatoria Y0 y el valor ajustado yb0 ; podemos ver que el valor esperado del
error de predicción es:
E (Y0 yb0 ) = 0
y la varianza del error de predicción es:
2 1 (x0 x)2
var(Y0 yb0 ) = var(Y0 ) + var(b
y0 ) = 1+ +
n Sxx
En nuestro ejemplo:
r
1 (260 300)2
yb0 = 0:2741; 1+ + = 1:04419; t0:025 = 2:228
12 228800
y el intervalo de predicción es:
(0:2322; 0:3160)
esto signi…ca que tenemos un 95% de con…anza de que ese intervalo contenga
a la posible respuesta y0 correspondiente a una concentración x0 = 260.
Vemos que la longitud de este intervalo de predicción para y0 es mayor que
10
la del intervalo de con…anza para EY0 que construimos antes ( para el mismo
x0 = 260 ). Esto es lógico porque para predecir el valor que tome la variable
aleatoria tengo más incerteza que para estimar su media. En general vemos
que la longitud de (6) es
s
1 (x0 x)2
L = 2t =2 sr 1 + +
n Sxx
11
Práctica 6
12
(a) Gra…que los puntos, ¿parece razonable el modelo de regresión li-
neal?
(b) Estime la ecuación de la recta y utilícela para dar una estimación
puntual de la concentración de monóxido de carbono, correspon-
diente a un volumen de tránsito de 180 automóviles por hora y
calcule el residuo correspondiente.
(c) Estime la desviación estándar de observaciones alrededor de la
recta verdadera.
(d) ¿Qué porcentaje de la variación muestral en concentración de
monóxido de carbono puede atribuirse al modelo?
(a) Gra…que los puntos para ver si se pueden ajustar por un modelo
de regresión lineal
(b) Enuncie las hipótesis del modelo y estime los parámetros 0 y 1
13
(c) En los casos en que sea posible, construya intervalos de 90% de
con…anza para el tiempo medio de extracción correspondiente a
las presiones 20, 60, 200 y 540. Compare las longitudes de los
intervalos
(d) Construya, cuando sea posible, intervalos de predicción para los
tiempos de extracción correspondientes a los valores de presión
anteriores. Compare las longitudes de estos intervalos con los
anteriores.
6. Se realizó un experimento con el …n de estudiar el efecto de una nueva
droga en bajar la frecuencia cardiaca. La variable independiente es la
dosis (mg) de la droga y la dependiente es la diferencia de la frecuencia
cardiaca antes y después de la administración del medicamento (lati-
dos/min). Se puede suponer que para cada dosis, la distribución de la
reducción de la frecuencia cardíaca es normal y la varianza es la misma
para cualquier dosis. Los siguientes datos son los valores observados en
13 ratas de laboratorio: SXX = 11:375; SY Y = 201:0769; SXY = 45
dosis 0.50 0.75 1.00 1.25 1.50 1.75 2.00
reduc 10 9 13 12 14 12 15
14
(a) Gra…que los puntos. Enuncie un modelo lineal y estime la recta
de regresión.
(b) ¿Qué porcentaje en la variación de los tiempos de ruptura puede
atribuirse a la relación lineal con la presión aplicada?
(c) Si se va a hacer una nueva prueba con una presión de 18 kg=mm2 ,
estime el tiempo medio de ruptura del acero mediante un intervalo
de con…anza
(d) Construya un intervalo para predecir el tiempo de ruptura de un
muestra de acero a la que se aplica esa presión.
15