Clase 1 y 2 - Regresion Lineal Simple 06 y 13-12-2021

Estadística II
Regresión Lineal Simple
M.Sc. Sandra González C.

Diapositivas
Ejemplo 1:
 Los siguientes datos son las ganancias y los gastos de publicidad de una
empresa (en miles USD)
X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
a) Calcule la media y la varianza de la publicidad

b) Calcule la media y la varianza de la ganancia
c) Calcule la covarianza y correlación de la ganacia y la publicidad
d) Realice el diagrama de dispersión de la publicidad vs la ganancia
e) Comente los resultados
X (Publicidad) 5 10 7 4 2 3 6 8 9 4
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
X (Publicidad) 5 10 7 4 2 3 6 8 9 4
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
X (Publicidad) 5 10 7 4 2 3 6 8 9 4
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
Regresion Lineal Simple
Modelo de regresión lineal simple:
Yi=b0 + b1xi+ ei donde 𝜀𝑖 ~𝑁(0, 𝜎 2 ) cov 𝜀𝑖 , 𝜀𝑗 = 0 i≠ 𝑗
Y (Variable respuesta, o variable ha ser explicada)
X (Variable de explicación)
Función respuesta o parte sistematica del
modelo
Regresion Lineal Simple
El modelo condicional:
𝐸 𝑦𝑖 𝑋 = 𝑥𝑖 = 𝐵0 + 𝐵1 𝑥𝑖
𝜀𝑖 ~𝑁(0, 𝜎 2 ) cov 𝜀𝑖 , 𝜀𝑗 = 0 i≠ 𝑗
• 𝐸 𝑦𝑖 𝑋 = 𝑥𝑖 es también denominado: Función de respuesta o parte sistemática del

modelo
• Los valores de 𝐵0 , 𝐵1 son desconocidos, pero estadísticamente estimables
• El hecho de que la varianza del error 𝜎 2 sea constante, es un supuesto fuertes y hace
que el modelo utilizado sea considerado como homocedástico.
• El modelo a estimar es: 𝑦ෝ𝑖 =𝐵

෢𝑜 + 𝐵
෢1 𝑥𝑖 donde 𝑒𝑖 = 𝑦𝑖 − 𝑦ෝ𝑖
Estimación por el método de Mínimos
Cuadrados Ordinarios
El modelo lineal de regresión se construye utilizando la técnica de estimación de
Mínimos Cuadrados Ordinarios
Buscar 𝜷 ෡ 𝟏 de tal manera que se minimice la cantidad σ𝑛𝑖=1 𝑒𝑖2

෡𝟎 , 𝜷
Se comprueba que para lograr dicho resultado basta con elegir:

𝑺𝒙𝒚 σ(𝑥𝑖 − 𝑥)ҧ 2 σ 𝑥𝑖2
෡𝟏 =
𝜷
𝑺𝒙𝒙 𝑆𝑥𝑥 = = − 𝑥ҧ 2
𝑛 𝑛
෡𝟎 = 𝒚 ෡ 𝟏𝒙 ത 2 σ 𝑦𝑖2
σ(𝑦𝑖 − 𝑦)
𝜷 ഥ−𝜷 ഥ 𝑆𝑦𝑦 = = − 𝑦ത 2
𝑛 𝑛
σ(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
ത σ 𝑥𝑖 𝑦𝑖
𝑆𝑥𝑦 = = − 𝑥ҧ 𝑦ത
𝑛 𝑛
Ejemplo 2:
X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
a) Determine los estimadores de Mínimos cuadrados para un modelo de Regresión

Lineal Simple.
b) Escriba la ecuación de regresión lineal simple que mejor modele los datos
c) Estime el valor de y para x= $7
d) Estime el valor de y para x= $20
Supuestos del modelo
 Linealidad
 E(𝜀𝑖 )=0 - Homogeneidad
 V(𝜀𝑖 )= 𝜎 2 (constante), este supuesto hace que el modelo sea considerado como
homocedástico.
 cov 𝜀𝑖 , 𝜀𝑗 = 0 i≠ 𝑗 Independencia lineal de los errores
 Normalidad de los errores

Regresión lineal simple
1. Linealidad
2. Homocedasticidad
Var (𝑒𝑖 ) = 𝜎 2 i=1,….,n

3. Homogeneidad
Los errores tienen valor esperado nulo : 𝐸 𝑒𝑖 = 0
Esto significa que el ajuste que se va ha hacer está centrado en los datos.
4. Independencia
Los errores son variables aleatorias independientes.
5. Normalidad
• Los errores tienen una distribución normal 𝜀𝑖 ~𝑁(0, 𝜎 2 ) . Es decir,

Se distribuyen siguiendo una campana de Gauss.
Esta suposición es perfectamente razonable en virtud del teorema de limite

central.
• Como consecuencia :
𝑦𝑖 ~ 𝑁(𝐵0 + 𝐵1 𝑥𝑖 , 𝜎 2 )
• Observación: Bajo la hipótesis de la normalidad, la incorrelación y la

independencia de los errores son equivalentes.
Sumas cuadráticas
 Existen tres sumas cuadráticas importantes en un modelo de regresión
 Suma Cuadrática del Error (SCE) mide la variabilidad de los valores observados
alrededor de la recta cuya ecuación es Ŷi = b0 + b1Xi
n n 2
SCE =  ei2 = ( yi − yˆ i )
i =1 i =1
 Suma Cuadrática Total (SCT) mide la variabilidad de la respuesta

2
( )
n
SCT =  yi − y
i =1
 Suma Cuadrática de Regresión (SCR)

2
( )
n
SCR =  yˆi − y
i =1
Prueba Global del modelo
Tabla Anova
Tabla de Análisis de Varianza (ANOVA)
Fuentes de Grados de Sumas Medias Estadístico F

variación Libertad cuadráticas Cuadráticas
Regresión 1 SCR 𝑆𝐶𝑅 𝑀𝐶𝑅

𝑀𝐶𝑅 =
1 𝑀𝐶𝐸
Error n-2 SCE 𝑆𝐶𝐸
𝑀𝐶𝐸 =
𝑛−2
Total n-1 SCT
Coeficiente de Determinación

𝑆𝐶𝑅
𝑅2 =
𝑆𝐶𝑇
0 ≤ 𝑅2 ≤ 1
𝑅2 indica la proporción de variabilidad de Y, explicada a través del modelo por las variables
de explicación; o si trabajamos con la potencia de explicación del modelo 𝑅2 x(100%), se
cambia el valor de proporción a porcentaje
• Un valor cercano a cero indica que no se capto casi nada de la variación total de Y,
• Un valor cercano a uno señala que casi 100% de la variabilidad fue captada
• Lo que interesa de un modelo es que capte la mayor variación, entonces es preferible que
sea cercano a 1
Ejemplo 3:
X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
➢ Determine la tabla ANOVA del modelo y el coeficiente de determinación del

mismo
➢ Interprete los resultados
X (Publicidad) 5 10 7 4 2 3 6 8 9 4
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
n n 2
SCE =  ei2 = ( yi − yˆ i )
i =1 i =1
2
( )
n
SCT =  yi − y
i =1
2
( )
n
SCR =  yˆi − y
i =1
Regresión 1 SCR 𝑆𝐶𝑅 𝑀𝐶𝑅
𝑀𝐶𝑅 =
1 𝑀𝐶𝐸
Error n-2 SCE 𝑆𝐶𝐸
𝑀𝐶𝐸 =
𝑛−2
Total n-1 SCT

Regresión
Error
Total
Relacion entre el coeficiente de correlacion (𝑟𝑥𝑦 ) y el
coeficiente de determinacion (𝑅2 )
 Se puede probar que en Regresión Lineal Simple la relación entre el

coeficiente de correlación de X e Y y el coeficiente de determinación de
este modelo, viene dado por:
𝑟𝑥𝑦 = ± 𝑅2
Téngase en cuenta que el coeficiente de correlación si puede ser negativo,

debiendo escogerse su signo como positivo, si la relación entre la variable
de explicación y la variable ha ser explicada es creciente. Negativo si tal
relación es decreciente.
Ejemplo 4:
X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
➢ Determine el coeficiente de correlación utilizando el coeficiente de determinación

(formula alternativa).
➢ Compare los resultados del coeficiente de correlación que encontró con los datos
puntuales y el que encontró con la formula alternativa.
Prueba Global del modelo de Regresión
Prueba de
Hipotesis para 𝛽1
𝐻𝑜 : 𝛽1 = 0
vs
𝐻1 : 𝛽1 ≠ 0
Con (1-𝛼) 100% de confianza rechace 𝐻𝑜 en favor de 𝐻1 si el estadístico de

prueba
𝑀𝐶𝑅
𝐹𝑜 = > 𝐹(𝛼,𝑝−1,𝑛−𝑝)
𝑀𝐶𝐸
Para regresión lineal simple p=2 y n la cantidad de datos de la muestra.

Ejemplo 4:
X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
➢ Realice la prueba global del modelo, con

Estimación
 El modelo de regresión lineal simple es un supuesto acerca de
la relación entre x e y.
 Si los resultados tienen una relación estadísticamente

significativa entre x e y, y si el ajuste que proporciona la
ecuación de regresión parece bueno, ésta podría utilizarse
para estimaciones y predicciones.
ESTIMACIÓN
 Error Estándar de Estimación:
Es la raíz cuadrada de la Media Cuadrática del Error
𝑆𝑒 = 𝑀𝐶𝐸
 Estimación Puntual: Para un valor 𝑥𝑜 , reemplazamos el valor en el modelo encontrado.
 Estimación por intervalo:
El intervalo de (1-𝛼)100% de confianza para la estimación individual es:

1 (𝑥𝑜 − 𝑥)ҧ 2
𝑦ො𝑜 ± 𝑡𝛼 ,𝑛−2 𝑠𝑒 1+ + 𝑛
2 𝑛 σ𝑖=1 𝑥𝑖 2 − 𝑛𝑥ҧ 2
Si la muestra es grande (n≥ 30) se puede sustituir 𝑡𝛼 ,𝑛−2 por Z. Para un 95% de continua
2
Z=1,96∼ 2 quedando:
1 (𝑥𝑜 − 𝑥)ҧ 2
𝑦ො𝑜 ± 2 𝑠𝑒 1+ + 𝑛
𝑛 σ𝑖=1 𝑥𝑖 2 − 𝑛𝑥ҧ 2
Ejemplo :
X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
a) Estime el valor de y para x= $7 , además encuentre un intervalo de confianza para

la estimación, utilizando una confianza del 95%
b) Estime el valor de y para x= $20, además encuentre un intervalo de confianza para
la estimación, utilizando una confianza del 95%
1 (𝑥𝑜 − 𝑥)ҧ 2
𝑦ො𝑜 ± 𝑡𝛼 ,𝑛−2 𝑠𝑒 1+ + 𝑛
2 𝑛 σ𝑖=1 𝑥𝑖 2 − 𝑛𝑥ҧ 2
b) Calcular con 95% de
confianza el valor de 𝑡𝛼 , 𝑛 − 2,
2
utilizando la siguiente tabla
Observaciones:
 Una función de regresión deberá interpretarse como una aproximación útil del
comportamiento en el mundo real en la región en la cual existen los datos.
 Un análisis de regresión con un error estándar de estimación pequeño significa que todos
los puntos de datos se ubican muy cerca de la línea de regresión . Si el error estándar de
la estimación es grande, los datos son considerados dispersos de la línea de regresión
ajustada.
 En regresión lineal no conviene predecir valores de Y para cualquier X mas allá de los X
recopilados en los datos muestrales, realmente depende que tan bueno es el modelo
para tomar este riesgo.
 La extrapolación mas allá de los datos requiere una suposición de que la naturaleza de X
y Y no cambia. Para extrapolar datos es preferible utilizar técnicas de Series de Tiempo
(Modelos Autorregresivos).

Clase 1 y 2 - Regresion Lineal Simple 06 y 13-12-2021

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 1 y 2 - Regresion Lineal Simple 06 y 13-12-2021

Cargado por

Copyright:

Formatos disponibles

Estadística II

Regresión Lineal Simple

M.Sc. Sandra González C.

a) Calcule la media y la varianza de la publicidad

Yi=b0 + b1xi+ ei donde 𝜀𝑖 ~𝑁(0, 𝜎 2 ) cov 𝜀𝑖 , 𝜀𝑗 = 0 i≠ 𝑗

Y (Variable respuesta, o variable ha ser explicada)

• 𝐸 𝑦𝑖 𝑋 = 𝑥𝑖 es también denominado: Función de respuesta o parte sistemática del

• Los valores de 𝐵0 , 𝐵1 son desconocidos, pero estadísticamente estimables

• El modelo a estimar es: 𝑦ෝ𝑖 =𝐵

Buscar 𝜷 ෡ 𝟏 de tal manera que se minimice la cantidad σ𝑛𝑖=1 𝑒𝑖2

Se comprueba que para lograr dicho resultado basta con elegir:

a) Determine los estimadores de Mínimos cuadrados para un modelo de Regresión

 E(𝜀𝑖 )=0 - Homogeneidad

 cov 𝜀𝑖 , 𝜀𝑗 = 0 i≠ 𝑗 Independencia lineal de los errores

 Normalidad de los errores

Var (𝑒𝑖 ) = 𝜎 2 i=1,….,n

• Los errores tienen una distribución normal 𝜀𝑖 ~𝑁(0, 𝜎 2 ) . Es decir,

Esta suposición es perfectamente razonable en virtud del teorema de limite

• Observación: Bajo la hipótesis de la normalidad, la incorrelación y la

 Suma Cuadrática Total (SCT) mide la variabilidad de la respuesta

 Suma Cuadrática de Regresión (SCR)

Tabla de Análisis de Varianza (ANOVA)

Fuentes de Grados de Sumas Medias Estadístico F

Regresión 1 SCR 𝑆𝐶𝑅 𝑀𝐶𝑅

➢ Determine la tabla ANOVA del modelo y el coeficiente de determinación del

Fuentes de Grados de Sumas Medias Estadístico F

 Se puede probar que en Regresión Lineal Simple la relación entre el

Téngase en cuenta que el coeficiente de correlación si puede ser negativo,

➢ Determine el coeficiente de correlación utilizando el coeficiente de determinación

Con (1-𝛼) 100% de confianza rechace 𝐻𝑜 en favor de 𝐻1 si el estadístico de

Para regresión lineal simple p=2 y n la cantidad de datos de la muestra.

➢ Realice la prueba global del modelo, con

 Si los resultados tienen una relación estadísticamente

El intervalo de (1-𝛼)100% de confianza para la estimación individual es:

a) Estime el valor de y para x= $7 , además encuentre un intervalo de confianza para

También podría gustarte