Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Contenidos
) El objeto del an´alisis de regresi´on
) La especificaci´on de un modelo de regresi´on lineal simple
) Estimadores de m´ınimos cuadrados: construcci´on y propiedades
) Inferencias sobre el modelo de regresi´on:
) Inferencia sobre la pendiente
) Inferencia sobre la varianza
) Estimaci´on de una respuesta promedio
) Predicci´on de una nueva respuesta
. Regresi´on lineal
simple
Objetivos de aprendizaje
) Saber construir un modelo de regresi´on lineal simple que
describa c ´om o influye una variable X sobre otra variable Y
) Saber obtener estimaciones puntuales de los par´ametros de
dicho modelo
) Saber contruir intervalos de confianza y resolver contrastes sobre
dichos par´ametros
) Saber estimar el valor promedio de Y para un valor de X
) Saber predecir futuros de la variable respuesta, Y
. Regresi´on lineal
simple
Referencias en la bibliograf´ıa
) Meyer, P. “Probabilidad y aplicaciones estad´ısticas”(1992)
) Cap´ıtulo
) Newbold, P. “Estad´ıstica para los negocios y la econom´ıa”(1997)
) Cap´ıtulo 10
) P en˜a, D. “Regresi´on y an´alisis de experimentos”(2005)
) Cap´ıtulo 5
Introducci´on
Ejemplos
) Estudiar c ´om o influye la estatura del padre sobre la estatura del
hijo.
f (x ) = β0 + β1x
10 10
6 6
2 2
Y
Y
-2 -2
-6 -6
-2 -1 0 1 2 -2 -1 0 1 2
X X
Tipos de relacion
) No lineal: Cuando la funci´on f (x) no es lineal. Por
ejemplo,
f (x ) = log (x ), f (x ) = x 2 + 3, . . .
2
Relación no lineal
1
0
Y
-1
-2
-3
-4
-2 -1 0 2
1
Tipos de relaci´on
) Ausencia de relaci´on: Cuando f (x) =
0.
2,5
Ausencia de relación
1,5
0,5
Y
-0,5
-1,5
-2,5
-2 -1 0 1 2
X
Medidas de dependencia
lineal
El coeficiente de correlaci´on lineal
Una medida de la dependencia lineal que no depende de las unidades
de medida es el coeficiente de correlaci´on lineal:
cov (x, y )
r(x,y) = cor (x, y ) = sx sy
donde
: Σn Σn
n−1 n−
1
) -1≤ cor (x, y ) ≤ 1
) cor (x, y ) = cor (y,
)x cor
) (ax + b, cy + d ) = cor (x, y ) para cualesquiera valores a, b,
El modelo de regresi´on lineal
simple
El modelo de regresi´on lineal simple supone
que,
yi = β0 + β1xi + ui
donde:
) yi representa el valor de la variable respuesta para la observaci´on i-
´esima.
) xi representa el valor de la variable explicativa para la observaci´on i-´esima.
) ui representa el error para la observaci´on i-´esima que se asume normal,
ui ∼ N(0, σ)
40
20
0
26 31 36 41 46 51 56
Volumen
ei = yi − yˆi
Valor observado
Dato (y)
Recta de
regresión
estimada
f (x ) = β0 + β1x
E [ui ] = 0
Var (ui ) = σ2
E [ui uj ] = 0
60
Costos
40
20
0
26 31 36 41 46 51 56
Volumen
24
Y
14
-6
-5 -3 -1 1 3 5
X
Hip´otesis del modelo de regresi´on lineal
simple
Homocedasticidad
La dispersi´on de los datos debe ser constante para que los datos
sean homoced´asticos.
Plot of Costos vs Volumen
80
60
Costos 20
26 31 36 41 46 56
51
Normalidad
) Se asume que los datos son normales a priori.
yi
0 1x
Estimadores de m´ınimos
cuadrados
Gauss propuso en 1809 el m´etodo de m´ınimos cuadrados para obtener
los valores βˆ0 y βˆ1 que mejor se ajustan a los datos:
Σn ei
2
= ˆ
2
(yi − yˆi ) = yi − β 0 +
i =1 i =1 i =1
βˆ1xi
ei
yi
y ˆi ˆ
ˆ xi
0 1
Estimadores de m´ınimos
cuadrados
El resultado que se obtiene
es:
β =
yˆ ˆ0 ˆ1 x
y
Pendiente
ˆ1
ˆ0 y ˆ1 x
x
Estimadores de m´ınimos
cuadrados
Ejercicio 4.1
Los datos de la producci´on de trigo en toneladas (X ) y el precio del kilo
de harina en pesetas (Y ) en la d´ecada de los 80 en Espan˜a fueron:
Producci´on de trigo 30 28 32 25 25 25 22 24 40
35
Precio de la harina 25 30 27 40 42 40 50 45 25
30por el m´etodo de m´ınimos cuadrados
Ajusta la recta de regresi´on
Resultados
X10
xi y i − 9734 − 10 × 28,6 ×
i =1
βˆ1 = = 35,4 = −1,3537
X10nx¯y¯ 8468 − 10 ×
x i2 − 2
28,6 2
nx¯
i =1
yˆ = 74,116 −
1,3537x
Estimadores de m´ınimos
cuadrados
Ejercicio 4.1
Los datos de la producci´on de trigo en toneladas (X ) y el precio del kilo
de harina en pesetas (Y ) en la d´ecada de los 80 en Espan˜a fueron:
Producci´on de trigo 30 28 32 25 25 25 22 24 40
35
Precio de la harina 25 30 27 40 42 40 50 45 25
30por el m´etodo de m´ınimos cuadrados
Ajusta la recta de regresi´on
Resultados
X10
xi y i − 9734 − 10 × 28,6 ×
i =1
βˆ1 = = 35,4 = −1,3537
X10nx¯y¯ 8468 − 10 ×
x i2 − 2
28,6 2
nx¯
i =1
yˆ = 74,116 −
1,3537x
Estimadores de m´ınimos
cuadrados 50
Plot of Fitted Model
45
Precio en ptas.
40
35
30
25
22 25 28 31 34 37 40
Produccion en kg.
Analysis of Variance
Correlation Coefficient = -
0,84714 R-squared = 71,7647
percent
Estimaci´on de la
varianza
Regression Analysis - Linear model: Y = a + b*X
Analysis of Variance
ˆ1 − β1
sβ
2 ~ t n−2
sR
(n − X
1)s2
) Aumenta el taman˜o de la
muestra.
Contrastes sobre la
pendiente
Usando el resultado anterior podemos resolver contrastes sobre β1. En particular,
si el verdadero valor de β1 es cero entonces Y no depende linealmente de X .
Por tanto, es de especial inter´es el contraste:
H0 : β1 = 0
H1 : β1 /= 0
La regi´on de rechazo de la β
hip´otesis
ˆ nula es:
√ 2 2 > tn−2,α/2
1
sR /(n — 1)sX
−1,3537
q − 1
−2,306 ≤
β 25,99
≤ 9×32,04 2,306
−2,046 ≤ β1 ≤ −0,661
Standard
Parameter Estimate Error Statistic P-Value
Analysis of Variance
H0 : β0 = 0
H1 : β0 /= 0
La regi´on de rechazo de la hip´otesis nula es:
r > n−2,α/2
2 1 +
t
s R n βˆ0 (n−1)sX 2
x¯2
Equivalentemente, si el cero est´a fuera del intervalo de confianza para β0
de nivel 1 — α, rechazamos la hip´otesis nula a ese nivel. El p-valor es:
p-valor = 2 βˆ0
tn
Pr > r x¯2
−
2 sR2 n 1 + (n−1)s2X
Inferencia para el
intercepto
Ejercicio 4.4
1. Calcula un intervalo de confianza al 95 % para el intercepto de la recta
de regresi´on obtenida en el ejercicio 4.1.
2. Contrasta la hip´otesis de que la recta de regresi´on pasa por el
origen, usando un nivel de significaci´on de 0.05.
Resultados
10 9×32,04
˛r “ X ” ˛ = ˛r “ ” ˛ = 8,484 >
10 2,306
p-valor= 2 Pr(t > (8n−,41)8s23) =
Inferencia para el
intercepto
2
ˆ
0
1 x
s2R (n 1)s2 x2
n s 21
X (n 1)s2
R
n
X
Regression Analysis - Linear model: Y = a + b*X
Dependent variable: Precio en ptas.
Independent variable: Produccion en kg.
Standard T
Parameter Estimate Error Statistic P-Value
Analysis of Variance
45
Precio en ptas.
40
35
30
25
22 25 28 31 34 37 40
Produccion en kg.