Diapositva Regresion

ESTADISTICA GENERAL
Tema: Regresiónn lineal

simple
Docente: Mg.Lic. Santos Eduardo Alavan Huamán

. Regresión lineal
simple
Contenidos
) El objeto del análisis de regresión
) La especificación de un modelo de regresión lineal simple
) Estimadores de m´ınimos cuadrados: construcción y propiedades
) Inferencias sobre el modelo de regresión:
) Inferencia sobre la pendiente
) Inferencia sobre la varianza
) Estimación de una respuesta promedio
) Predicción de una nueva respuesta
simple
Objetivos de aprendizaje
) Saber construir un modelo de regresión lineal simple que
describa c óm o influye una variable X sobre otra variable Y
) Saber obtener estimaciones puntuales de los parámetros de
dicho modelo
) Saber contruir intervalos de confianza y resolver contrastes sobre
dichos parámetros
) Saber estimar el valor promedio de Y para un valor de X
) Saber predecir futuros de la variable respuesta, Y
simple
Referencias en la bibliograf´ıa
) Meyer, P. “Probabilidad y aplicaciones estad´ısticas”(1992)
) Cap´ıtulo
) Newbold, P. “Estad´ıstica para los negocios y la econom´ıa”(1997)
) Cap´ıtulo 10
) P enã, D. “Regresión y análisis de experimentos”(2005)
) Cap´ıtulo 5
Introducción
Un modelo de regresión es un modelo que permite describir cómo

influye una variable X sobre otra variable Y .
) X: Variable independiente o explicativa o exógena

) Y: Variable dependiente o respuesta o endógena
El objetivo es obtener estimaciones razonables de Y para distintos

valores de X a partir de una muestra de n pares de valores (x1, y1), . . . , (xn,
yn).
Introducción
Ejemplos
) Estudiar c óm o influye la estatura del padre sobre la estatura del
hijo.
) Estimar el precio de una vivienda en función de su superficie.
) Predecir el volumen de ventas en función a horas de publicidad
) Aproximar la calificación obtenida en una materia seguń el nu´mero

de horas de estudio semanal.
) Prever el tiempo de computación de un programa en función de

la velocidad del procesador.
Introducción
Tipos de r e l a c i o n
) Lineal: Cuando la función f (x) es lineal,
f (x ) = β0 + β1x
) Si β1 > 0 hay relación lineal positiva.

) Si β1 < 0 hayRelación
relación lineal negativa.
lineal positiva Relación lineal negativa
10 10
6 6
2 2
Y
Y
-2 -2
-6 -6
-2 -1 0 1 2 -2 -1 0 1 2
X X
Los datos tienen un aspecto

Introducción
Tipos de relacion
) No lineal: Cuando la función f (x) no es lineal. Por
ejemplo,
f (x ) = log (x ), f (x ) = x 2 + 3, . . .
2
Relación no lineal
1
0
Y
-1
-2
-3
-4
-2 -1 0 2
1
Los datos no tienen un aspecto

recto.
Introducción
Tipos de relación
) Ausencia de relación: Cuando f (x) =
0.
2,5
Ausencia de relación
1,5
0,5
Y
-0,5
-1,5
-2,5
-2 -1 0 1 2
X
Medidas de dependencia
lineal
El coeficiente de correlación lineal
Una medida de la dependencia lineal que no depende de las unidades
de medida es el coeficiente de correlación lineal:
cov (x, y )
r(x,y) = cor (x, y ) = sx sy
donde
: Σn Σn
(xi − x¯)2 (yi − y¯)2

s2 = i=1
y s2 = i=1
x y
n−1 n−
1
) -1≤ cor (x, y ) ≤ 1
) cor (x, y ) = cor (y,
)x cor
) (ax + b, cy + d ) = cor (x, y ) para cualesquiera valores a, b,
El modelo de regresión lineal
simple
El modelo de regresión lineal simple supone
que,
yi = β0 + β1xi + ui
donde:
) yi representa el valor de la variable respuesta para la observación i-
ésima.
) xi representa el valor de la variable explicativa para la observación i-ésima.
) ui representa el error para la observación i-ésima que se asume normal,
ui ∼ N(0, σ)
) β0 y β1 son los coeficientes de regresión:

) β0 : intercepto
) β1 : pendiente
Los parámetros que hay que estimar son: β0, β1 y σ.

El objetivo es obtener estimaciones βˆ0 y βˆ1 de β0 y β1 para calcular la
simple recta
de regresión:
yˆ = βˆ0 + βˆ1x
que se ajuste lo mejor posible a los datos.

Ejemplo: Supongamos que la recta de regresión del ejemplo anterior
es:
Costo = −15,65 + 1,29 Volumen

80
Plot of Fitted Model

60
Costos
40
20
0
26 31 36 41 46 51 56
Volumen
Se estima que una empresa que produce 25 mil unidades tendrá un

costo:
costo = −15,65 + 1,29 × 25 = 16,6 mil euros

La diferencia entre cada valor yi de la variable respuesta y su estimación
simple
yˆ se llama residuo:
i
ei = yi − yî
Valor observado
Dato (y)
Recta de
regresión
estimada
Ejemplo (cont.): Indudablemente, una empresa determinada que haya

producido exactamente 25 mil unidades no va a tener un gasto de
exactamente 16,6 mil euros. La diferencia entre el costo estimado y el
real es el residuo. Si por ejemplo el costo real de la empresa es de 18
mil euros, el residuo es:
ei = 18 − 16,6 = 1,4mil euros

Hipótesis del modelo de regresión lineal
simple
) Linealidad: La relación existente entre X e Y es lineal,
f (x ) = β0 + β1x
) Homogeneidad: El valor promedio del error es cero,
E [ui ] = 0
) Homocedasticidad: La varianza de los errores es constante,
Var (ui ) = σ2
) Independencia: Las observaciones son independientes,
E [ui uj ] = 0
) Normalidad: Los errores siguen una distribución normal,

simple
Linealidad
Los datos deben ser razonablemante rectos.
80
60
Costos
40
20
0
26 31 36 41 46 51 56
Volumen
Si no, la recta de regresión no representa la estructura de los

datos.
34
24
Y
14
-6
-5 -3 -1 1 3 5
X
simple
Homocedasticidad
La dispersión de los datos debe ser constante para que los datos
sean homocedásticos.
Plot of Costos vs Volumen
80
60
Costos 20
26 31 36 41 46 56
51
Si no se cumple, los datos son heteroced

ásticos.
simple
Independencia
) Los datos deben ser independientes.
) Una observación no debe dar información sobre las demás.
) Habitualmente, se sabe por el tipo de datos si son adecuados o no
para el análisis.
) En general, las series temporales no cumplen la hipótesis
de independencia.
Normalidad
) Se asume que los datos son normales a priori.
yi
 0   1x
Estimadores de m´ınimos
cuadrados
Gauss propuso en 1809 el método de m´ınimos cuadrados para obtener
los valores βˆ0 y βˆ1 que mejor se ajustan a los datos:
yî = βˆ0 + βˆ1xi
El método consiste en minimizar la suma de los cuadrados de las

distancias verticales entre los datos y las estimaciones, es decir,
minimizar la nsuma de los residuos al cuadrado,
Σ Σn
2
Σn ei
2
= ˆ
2
(yi − yî ) = yi − β 0 +
i =1 i =1 i =1
βˆ1xi
ei
yi
y î   ˆ
ˆ xi
0 1
cuadrados
El resultado que se obtiene
es:
β =
yˆ  ˆ0  ˆ1 x
y
Pendiente
ˆ1
 ˆ0  y  ˆ1 x
x
cuadrados
Ejercicio 4.1
Los datos de la producción de trigo en toneladas (X ) y el precio del kilo
de harina en pesetas (Y ) en la década de los 80 en Espanã fueron:
Producción de trigo 30 28 32 25 25 25 22 24 40
35
Precio de la harina 25 30 27 40 42 40 50 45 25
30por el método de m´ınimos cuadrados
Ajusta la recta de regresión
Resultados
X10
xi y i − 9734 − 10 × 28,6 ×
i =1
βˆ1 = = 35,4 = −1,3537
X10nx¯y¯ 8468 − 10 ×
x i2 − 2
28,6 2
nx¯
i =1
La recta de regresión es:
yˆ = 74,116 −
1,3537x
cuadrados
Ejercicio 4.1
Los datos de la producción de trigo en toneladas (X ) y el precio del kilo
de harina en pesetas (Y ) en la década de los 80 en Espanã fueron:
Producción de trigo 30 28 32 25 25 25 22 24 40
35
Precio de la harina 25 30 27 40 42 40 50 45 25
30por el método de m´ınimos cuadrados
Ajusta la recta de regresión
Resultados
X10
xi y i − 9734 − 10 × 28,6 ×
i =1
βˆ1 = = 35,4 = −1,3537
X10nx¯y¯ 8468 − 10 ×
x i2 − 2
28,6 2
nx¯
i =1
La recta de regresión es:
yˆ = 74,116 −
1,3537x
cuadrados 50
45
Precio en ptas.
40
35
30
25
22 25 28 31 34 37 40
Produccion en kg.
Regression Analysis - Linear model: Y = a +

b*X
Dependent variable: Precio en ptas.

Independent variable: Produccion en
kg. Standar T
Parameter Estimate d Statistic P-Value
Error
ˆ0 Intercept
Slope
74,1151
-1,35368
8,73577
0,3002
8,4841
-4,50924
0,0000
0,0020
ˆ
1
Analysis of Variance
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 528,475 1 528,475 20,33 0,0020

Residual 207,925 8 25,9906
Total (Corr.) 736,4 9
Correlation Coefficient = -
0,84714 R-squared = 71,7647
percent
Estimación de la
varianza
Regression Analysis - Linear model: Y = a + b*X

Independent variable: Produccion en
kg.
Standard T
Parameter Estimate Error Stati
st
Intercept 74,1151 8,73577 8,48

Slope -1,35368 0,3002 -4,509
Source Sum of Squares Df Mean Squar
Model 528,475 1 528,47

Residual 207,925 8 25,990

Inferencias sobre el modelo de regresion
) Hasta ahora s ó lo hemos obtenido estimaciones puntuales de

los coeficientes de regresión.
) Usando intervalos de confianza podemos obtener una medida de la

precisión de dichas estimaciones.
) Usando contrastes de hipótesis podemos comprobar si un

determinado valor puede ser el auténtico valor del par
ámetro.
Inferencia para la
pendiente
El estimador βˆ1 sigue una distribución normal porque es una combinación lineal de
normales,
Σn (x i − Σn
βˆ1 = yi =
x¯) wi y i
i =1 (n − i
1)s2X =1
donde yi = β0 + β1xi + ui , que cumple que yi ∼ N β0 + β1xi , σ2 .
Además, βˆ1 es un estimador insesgado

n de β1,
h i
(xi −
E βˆ1 x¯)
(n − E [yi ] = β1
i =1
= 1)s X2
y su varianza
es,
h i 2
=Σ
n (xi − x¯)
Var σ2
Var [yi ] =
X
βˆ1 X
r
Po ,
tanto
Intervalo de confianza para la
pendiente
Queremos ahora obtener el intervalo de confianza para β1 de nivel−1 α.
Como σ es desconocida, la estimamos con Rs . El resultado b
2 2
cuando la varianza es desconocida es:

ásico
ˆ1 − β1
sβ
2 ~ t n−2
sR
(n − X
1)s2
que nos permite obtener el intervalo de confianza para β1:

s 2
sR
βˆ1 ± tn−2,α/2 (n −
X
1)s2
La longitud del intervalo disminuirá
si:
) Aumenta el tamanõ de la
muestra.
Contrastes sobre la
pendiente
Usando el resultado anterior podemos resolver contrastes sobre β1. En particular,
si el verdadero valor de β1 es cero entonces Y no depende linealmente de X .
Por tanto, es de especial interés el contraste:
H0 : β1 = 0
H1 : β1 /= 0
La región de rechazo de la β
hipótesis
ˆ nula es:
√ 2 2 > tn−2,α/2
1
sR /(n — 1)sX
Equivalentemente, si el cero está fuera del intervalo de confianza para β1 de nivel
1— α, rechazamos la hipótesis nula a ese nivel. El p-valor del

contraste es: !
p-valor = 2 β 1̂
t n−2 > √ 2 2
Pr sR /(n — X
1)s
Inferencia para la
pendiente
Ejercicio 4.3
1. Calcula un intervalo de confianza al 95 % para la pendiente de la recta
de regresión obtenida en el ejercicio 4.1.
2. Contrasta la hipótesis de que el precio de la harina depende linealmente
de la producción de trigo, usando un nivel de significación de 0.05.
Resultados
1. t n−2,α/2 = t 8,0,025 = 2,306
−1,3537
q − 1
−2,306 ≤
β 25,99
≤ 9×32,04 2,306
−2,046 ≤ β1 ≤ −0,661
2. Como el intervalo no contiene al cero, rechazamos que β1 = 0 al nivel 0.05. De

hecho:
˛
˛p R βˆ1 X ˛ −1,3537 ˛
9×32,04 = 4,509 > 2,306
= q ˛
p-valor= 2 Pr(˛t8 > 42, 5 0 9 ) ˛ 25,99
Inferencia para la
pendiente
s2 ˆ
(n 1)s2 s2 /(n 1)s2

Independent variable: Produccion en kg.
Standard
Parameter Estimate Error Statistic P-Value
Intercept 74,1151 8,4841 0,0000

Slope 8,73577 -4,50924 0,0020
-1,35368 0,3002
Model 528,475 1 528,475 20,33 0,0020

Residual 207,925 8 25,9906
Correlation Coefficient = -0,84714

R-squared = 71,7647 percent
Standard Error of Est. = 5,0981
Inferencia para el
intercepto ˆ
El estimador
lineal de β 0 sigue una distribución normal porque es una combinación
normales,
ˆ Σn 1
β 0= — x¯w y
i =1
n i
donde wi = (xi — x¯) /ns2 Xy donde yi = β0 + β1xi i + ui , que cumple que
y i ∼ N β0 + β1xi , σ . Además, ˆβ0 es un

2
estimador insesgado de β0, n

h i 1
E βˆ0 = — E [yi ] = β0
i n
=1 x¯wi
y su varianza
es,
h i n
1 2 1 x¯2
Var βˆ = +
n — x¯wi Var [yi ] = σ2 n (n —
i X
0 =1 1)s2
Contrastes sobre el
intercepto
Usando el resultado anterior podemos resolver contrastes sobre β0. En particular, si
el verdadero valor de β0 es cero entonces la recta de regresión pasa por el
origen. Por tanto, es de especial interés el contraste:
H0 : β0 = 0
H1 : β0 /= 0
La región de rechazo de la hipótesis nula es:
r > n−2,α/2
2 1 +
t
s R n βˆ0 (n−1)sX 2
x¯2
Equivalentemente, si el cero está fuera del intervalo de confianza para β0
de nivel 1 — α, rechazamos la hipótesis nula a ese nivel. El p-valor es:
p-valor = 2 βˆ0
tn
Pr > r x¯2
−
2 sR2 n 1 + (n−1)s2X
Inferencia para el
intercepto
Ejercicio 4.4
1. Calcula un intervalo de confianza al 95 % para el intercepto de la recta
de regresión obtenida en el ejercicio 4.1.
2. Contrasta la hipótesis de que la recta de regresión pasa por el
origen, usando un nivel de significación de 0.05.
Resultados
1. t n−2,α/2 = t 8,0,025 = 2,306

74,1151 − β0
−2,306 ≤ r “ ” ≤ 2,306 ⇔ 53,969 ≤ β0 ≤
94,261
25,99 1 + 28,62
10 9×32,04
2. Como el intervalo no contiene al cero, rechazamos que β0 = 0 al nivel 0.05. De

hecho: ˛
˛ βˆ0 ˛ 74,1151 ˛
˛r “ X ” ˛ = ˛r “ ” ˛ = 8,484 >
10 2,306
p-valor= 2 Pr(t > (8n−,41)8s23) =
Inferencia para el
intercepto
2
ˆ
0
1 x
s2R  (n 1)s2  x2
n s 21 

X   (n 1)s2 
 R
n
X 

Independent variable: Produccion en kg.
Standard T
Parameter Estimate Error Statistic P-Value
Intercept 74,1151 8,4841 0,0000

Slope 8,73577 -4,50924 0,0020
-1,35368 0,3002
Model 528,475 1 528,475 20,33 0,0020

Residual 207,925 8 25,9906
Correlation Coefficient = -0,84714

R-squared = 71,7647 percent
Standard Error of Est. = 5,0981
Estimación de una respuesta promedio y predicción de
una nueva respuesta
Se distiguen dos tipos de problemas:
1.Estimar el valor medio de la variable Y para cierto valor X = x0.

2.Predecir el valor que tomará la variable Y para cierto valor X = x0.
Por ejemplo, en el ejercicio 4.1:
3. ¿Cuál será el precio medio del kg. de harina para los anõs en
que se producen 30 ton. de trigo?
4. Si un determinado a nõ se producen 30 ton. de trigo, ¿cuál ser
á el precio del kg. de harina?
En ambos casos el valor estimado es:
yˆ0 = βˆ0 + βˆ1x0
= y¯ + βˆ1 (x0 — x¯)
Pero la precisión de las estimaciones es

Estimación de una respuesta promedio y predicción de
una nueva respuesta
En rojo se muestran los intervalos para las medias estimadas y en rosa

los intervalos de predicción. Se observa que la amplitud de estos u
´ltimos es considerablemente mayor.

50
45
Precio en ptas.
40
35
30
25
22 25 28 31 34 37 40
Produccion en kg.

Diapositva Regresion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Diapositva Regresion

Cargado por

Copyright:

Formatos disponibles

ESTADISTICA GENERAL

Tema: Regresiónn lineal

Docente: Mg.Lic. Santos Eduardo Alavan Huamán

Un modelo de regresi´on es un modelo que permite describir c´omo

) X: Variable independiente o explicativa o ex´ogena

El objetivo es obtener estimaciones razonables de Y para distintos

) Estimar el precio de una vivienda en funci´on de su superficie.

) Predecir el volumen de ventas en función a horas de publicidad

) Aproximar la calificaci´on obtenida en una materia segu´n el nu´mero

) Prever el tiempo de computaci´on de un programa en funci´on de

) Si β1 > 0 hay relaci´on lineal positiva.

Los datos tienen un aspecto

Los datos no tienen un aspecto

(xi − x¯)2 (yi − y¯)2

) β0 y β1 son los coeficientes de regresi´on:

Los par´ametros que hay que estimar son: β0, β1 y σ.

que se ajuste lo mejor posible a los datos.

Costo = −15,65 + 1,29 Volumen

Plot of Fitted Model

Se estima que una empresa que produce 25 mil unidades tendr´a un

costo = −15,65 + 1,29 × 25 = 16,6 mil euros

Ejemplo (cont.): Indudablemente, una empresa determinada que haya

ei = 18 − 16,6 = 1,4mil euros

) Homogeneidad: El valor promedio del error es cero,

) Homocedasticidad: La varianza de los errores es constante,

) Independencia: Las observaciones son independientes,

) Normalidad: Los errores siguen una distribuci´on normal,

Si no, la recta de regresi´on no representa la estructura de los

Si no se cumple, los datos son heteroced

yˆi = βˆ0 + βˆ1xi

El m´etodo consiste en minimizar la suma de los cuadrados de las

La recta de regresi´on es:

La recta de regresi´on es:

Regression Analysis - Linear model: Y = a +

Dependent variable: Precio en ptas.

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 528,475 1 528,475 20,33 0,0020

Total (Corr.) 736,4 9

Dependent variable: Precio en ptas.

Intercept 74,1151 8,73577 8,48

Source Sum of Squares Df Mean Squar

Model 528,475 1 528,47

Total (Corr.) 736,4 9

) Hasta ahora s ´o lo hemos obtenido estimaciones puntuales de

) Usando intervalos de confianza podemos obtener una medida de la

) Usando contrastes de hip´otesis podemos comprobar si un

donde yi = β0 + β1xi + ui , que cumple que yi ∼ N β0 + β1xi , σ2 .

Adem´as, βˆ1 es un estimador insesgado

cuando la varianza es desconocida es:

que nos permite obtener el intervalo de confianza para β1:

Equivalentemente, si el cero est´a fuera del intervalo de confianza para β1 de nivel

1— α, rechazamos la hip´otesis nula a ese nivel. El p-valor del

1. t n−2,α/2 = t 8,0,025 = 2,306

2. Como el intervalo no contiene al cero, rechazamos que β1 = 0 al nivel 0.05. De

Dependent variable: Precio en ptas.

Intercept 74,1151 8,4841 0,0000

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 528,475 1 528,475 20,33 0,0020

Total (Corr.) 736,4 9

Correlation Coefficient = -0,84714

donde wi = (xi — x¯) /ns2 Xy donde yi = β0 + β1xi i + ui , que cumple que

y i ∼ N β0 + β1xi , σ . Adem´as, ˆβ0 es un

estimador insesgado de β0, n