Está en la página 1de 36

Estadística II

Regresión Lineal Simple

M.Sc. Sandra González C.


Diapositivas
Ejemplo 1:
 Los siguientes datos son las ganancias y los gastos de publicidad de una
empresa (en miles USD)

X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12

a) Calcule la media y la varianza de la publicidad


b) Calcule la media y la varianza de la ganancia
c) Calcule la covarianza y correlación de la ganacia y la publicidad
d) Realice el diagrama de dispersión de la publicidad vs la ganancia
e) Comente los resultados
X (Publicidad) 5 10 7 4 2 3 6 8 9 4

Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
X (Publicidad) 5 10 7 4 2 3 6 8 9 4

Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
X (Publicidad) 5 10 7 4 2 3 6 8 9 4

Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
Regresion Lineal Simple
Modelo de regresión lineal simple:

Yi=b0 + b1xi+ ei donde 𝜀𝑖 ~𝑁(0, 𝜎 2 ) cov 𝜀𝑖 , 𝜀𝑗 = 0 i≠ 𝑗

Y (Variable respuesta, o variable ha ser explicada)

X (Variable de explicación)
Función respuesta o parte sistematica del
modelo
Regresion Lineal Simple
El modelo condicional:
𝐸 𝑦𝑖 𝑋 = 𝑥𝑖 = 𝐵0 + 𝐵1 𝑥𝑖

𝜀𝑖 ~𝑁(0, 𝜎 2 ) cov 𝜀𝑖 , 𝜀𝑗 = 0 i≠ 𝑗

• 𝐸 𝑦𝑖 𝑋 = 𝑥𝑖 es también denominado: Función de respuesta o parte sistemática del


modelo

• Los valores de 𝐵0 , 𝐵1 son desconocidos, pero estadísticamente estimables

• El hecho de que la varianza del error 𝜎 2 sea constante, es un supuesto fuertes y hace
que el modelo utilizado sea considerado como homocedástico.

• El modelo a estimar es: 𝑦ෝ𝑖 =𝐵


෢𝑜 + 𝐵
෢1 𝑥𝑖 donde 𝑒𝑖 = 𝑦𝑖 − 𝑦ෝ𝑖
Estimación por el método de Mínimos
Cuadrados Ordinarios
El modelo lineal de regresión se construye utilizando la técnica de estimación de
Mínimos Cuadrados Ordinarios

Buscar 𝜷 ෡ 𝟏 de tal manera que se minimice la cantidad σ𝑛𝑖=1 𝑒𝑖2


෡𝟎 , 𝜷

Se comprueba que para lograr dicho resultado basta con elegir:


𝑺𝒙𝒚 σ(𝑥𝑖 − 𝑥)ҧ 2 σ 𝑥𝑖2
෡𝟏 =
𝜷
𝑺𝒙𝒙 𝑆𝑥𝑥 = = − 𝑥ҧ 2
𝑛 𝑛

෡𝟎 = 𝒚 ෡ 𝟏𝒙 ത 2 σ 𝑦𝑖2
σ(𝑦𝑖 − 𝑦)
𝜷 ഥ−𝜷 ഥ 𝑆𝑦𝑦 = = − 𝑦ത 2
𝑛 𝑛
σ(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
ത σ 𝑥𝑖 𝑦𝑖
𝑆𝑥𝑦 = = − 𝑥ҧ 𝑦ത
𝑛 𝑛
Ejemplo 2:
 Los siguientes datos son las ganancias y los gastos de publicidad de una
empresa (en miles USD)

X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12

a) Determine los estimadores de Mínimos cuadrados para un modelo de Regresión


Lineal Simple.
b) Escriba la ecuación de regresión lineal simple que mejor modele los datos
c) Estime el valor de y para x= $7
d) Estime el valor de y para x= $20
Supuestos del modelo
 Linealidad

 E(𝜀𝑖 )=0 - Homogeneidad

 V(𝜀𝑖 )= 𝜎 2 (constante), este supuesto hace que el modelo sea considerado como
homocedástico.

 cov 𝜀𝑖 , 𝜀𝑗 = 0 i≠ 𝑗 Independencia lineal de los errores

 Normalidad de los errores


Regresión lineal simple
1. Linealidad
Regresión lineal simple
2. Homocedasticidad

Var (𝑒𝑖 ) = 𝜎 2 i=1,….,n


Regresión lineal simple

3. Homogeneidad
Los errores tienen valor esperado nulo : 𝐸 𝑒𝑖 = 0

Esto significa que el ajuste que se va ha hacer está centrado en los datos.

4. Independencia
Los errores son variables aleatorias independientes.
Regresión lineal simple

5. Normalidad

• Los errores tienen una distribución normal 𝜀𝑖 ~𝑁(0, 𝜎 2 ) . Es decir,


Se distribuyen siguiendo una campana de Gauss.

Esta suposición es perfectamente razonable en virtud del teorema de limite


central.

• Como consecuencia :
𝑦𝑖 ~ 𝑁(𝐵0 + 𝐵1 𝑥𝑖 , 𝜎 2 )

• Observación: Bajo la hipótesis de la normalidad, la incorrelación y la


independencia de los errores son equivalentes.
Sumas cuadráticas
 Existen tres sumas cuadráticas importantes en un modelo de regresión
 Suma Cuadrática del Error (SCE) mide la variabilidad de los valores observados
alrededor de la recta cuya ecuación es Ŷi = b0 + b1Xi
n n 2

SCE =  ei2 = ( yi − yˆ i )
i =1 i =1

 Suma Cuadrática Total (SCT) mide la variabilidad de la respuesta


2

( )
n
SCT =  yi − y
i =1

 Suma Cuadrática de Regresión (SCR)


2

( )
n
SCR =  yˆi − y
i =1
Prueba Global del modelo
Tabla Anova

Tabla de Análisis de Varianza (ANOVA)

Fuentes de Grados de Sumas Medias Estadístico F


variación Libertad cuadráticas Cuadráticas

Regresión 1 SCR 𝑆𝐶𝑅 𝑀𝐶𝑅


𝑀𝐶𝑅 =
1 𝑀𝐶𝐸
Error n-2 SCE 𝑆𝐶𝐸
𝑀𝐶𝐸 =
𝑛−2
Total n-1 SCT
Coeficiente de Determinación

𝑆𝐶𝑅
𝑅2 =
𝑆𝐶𝑇

0 ≤ 𝑅2 ≤ 1

𝑅2 indica la proporción de variabilidad de Y, explicada a través del modelo por las variables
de explicación; o si trabajamos con la potencia de explicación del modelo 𝑅2 x(100%), se
cambia el valor de proporción a porcentaje

• Un valor cercano a cero indica que no se capto casi nada de la variación total de Y,
• Un valor cercano a uno señala que casi 100% de la variabilidad fue captada
• Lo que interesa de un modelo es que capte la mayor variación, entonces es preferible que
sea cercano a 1
Ejemplo 3:
 Los siguientes datos son las ganancias y los gastos de publicidad de una
empresa (en miles USD)

X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12

➢ Determine la tabla ANOVA del modelo y el coeficiente de determinación del


mismo
➢ Interprete los resultados
X (Publicidad) 5 10 7 4 2 3 6 8 9 4

Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12

n n 2

SCE =  ei2 = ( yi − yˆ i )
i =1 i =1
2

( )
n
SCT =  yi − y
i =1
2

( )
n
SCR =  yˆi − y
i =1
Fuentes de Grados de Sumas Medias Estadístico F
variación Libertad cuadráticas Cuadráticas
Regresión 1 SCR 𝑆𝐶𝑅 𝑀𝐶𝑅
𝑀𝐶𝑅 =
1 𝑀𝐶𝐸
Error n-2 SCE 𝑆𝐶𝐸
𝑀𝐶𝐸 =
𝑛−2
Total n-1 SCT

Fuentes de Grados de Sumas Medias Estadístico F


variación Libertad cuadráticas Cuadráticas
Regresión

Error

Total
Relacion entre el coeficiente de correlacion (𝑟𝑥𝑦 ) y el
coeficiente de determinacion (𝑅2 )

 Se puede probar que en Regresión Lineal Simple la relación entre el


coeficiente de correlación de X e Y y el coeficiente de determinación de
este modelo, viene dado por:

𝑟𝑥𝑦 = ± 𝑅2

Téngase en cuenta que el coeficiente de correlación si puede ser negativo,


debiendo escogerse su signo como positivo, si la relación entre la variable
de explicación y la variable ha ser explicada es creciente. Negativo si tal
relación es decreciente.
Ejemplo 4:
 Los siguientes datos son las ganancias y los gastos de publicidad de una
empresa (en miles USD)

X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12

➢ Determine el coeficiente de correlación utilizando el coeficiente de determinación


(formula alternativa).
➢ Compare los resultados del coeficiente de correlación que encontró con los datos
puntuales y el que encontró con la formula alternativa.
Prueba Global del modelo de Regresión
Prueba de
Hipotesis para 𝛽1
𝐻𝑜 : 𝛽1 = 0
vs
𝐻1 : 𝛽1 ≠ 0

Con (1-𝛼) 100% de confianza rechace 𝐻𝑜 en favor de 𝐻1 si el estadístico de


prueba

𝑀𝐶𝑅
𝐹𝑜 = > 𝐹(𝛼,𝑝−1,𝑛−𝑝)
𝑀𝐶𝐸

Para regresión lineal simple p=2 y n la cantidad de datos de la muestra.


Ejemplo 4:
 Los siguientes datos son las ganancias y los gastos de publicidad de una
empresa (en miles USD)

X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12

➢ Realice la prueba global del modelo, con


Estimación
 El modelo de regresión lineal simple es un supuesto acerca de
la relación entre x e y.

 Si los resultados tienen una relación estadísticamente


significativa entre x e y, y si el ajuste que proporciona la
ecuación de regresión parece bueno, ésta podría utilizarse
para estimaciones y predicciones.
ESTIMACIÓN
 Error Estándar de Estimación:
Es la raíz cuadrada de la Media Cuadrática del Error
𝑆𝑒 = 𝑀𝐶𝐸
 Estimación Puntual: Para un valor 𝑥𝑜 , reemplazamos el valor en el modelo encontrado.
 Estimación por intervalo:

El intervalo de (1-𝛼)100% de confianza para la estimación individual es:


1 (𝑥𝑜 − 𝑥)ҧ 2
𝑦ො𝑜 ± 𝑡𝛼 ,𝑛−2 𝑠𝑒 1+ + 𝑛
2 𝑛 σ𝑖=1 𝑥𝑖 2 − 𝑛𝑥ҧ 2

Si la muestra es grande (n≥ 30) se puede sustituir 𝑡𝛼 ,𝑛−2 por Z. Para un 95% de continua
2
Z=1,96∼ 2 quedando:
1 (𝑥𝑜 − 𝑥)ҧ 2
𝑦ො𝑜 ± 2 𝑠𝑒 1+ + 𝑛
𝑛 σ𝑖=1 𝑥𝑖 2 − 𝑛𝑥ҧ 2
Ejemplo :
 Los siguientes datos son las ganancias y los gastos de publicidad de una
empresa (en miles USD)

X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12

a) Estime el valor de y para x= $7 , además encuentre un intervalo de confianza para


la estimación, utilizando una confianza del 95%
b) Estime el valor de y para x= $20, además encuentre un intervalo de confianza para
la estimación, utilizando una confianza del 95%
1 (𝑥𝑜 − 𝑥)ҧ 2
𝑦ො𝑜 ± 𝑡𝛼 ,𝑛−2 𝑠𝑒 1+ + 𝑛
2 𝑛 σ𝑖=1 𝑥𝑖 2 − 𝑛𝑥ҧ 2
b) Calcular con 95% de
confianza el valor de 𝑡𝛼 , 𝑛 − 2,
2
utilizando la siguiente tabla
Observaciones:
 Una función de regresión deberá interpretarse como una aproximación útil del
comportamiento en el mundo real en la región en la cual existen los datos.

 Un análisis de regresión con un error estándar de estimación pequeño significa que todos
los puntos de datos se ubican muy cerca de la línea de regresión . Si el error estándar de
la estimación es grande, los datos son considerados dispersos de la línea de regresión
ajustada.

 En regresión lineal no conviene predecir valores de Y para cualquier X mas allá de los X
recopilados en los datos muestrales, realmente depende que tan bueno es el modelo
para tomar este riesgo.

 La extrapolación mas allá de los datos requiere una suposición de que la naturaleza de X
y Y no cambia. Para extrapolar datos es preferible utilizar técnicas de Series de Tiempo
(Modelos Autorregresivos).

También podría gustarte