Documentos de Académico
Documentos de Profesional
Documentos de Cultura
X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
X (Publicidad) 5 10 7 4 2 3 6 8 9 4
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
X (Publicidad) 5 10 7 4 2 3 6 8 9 4
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
Regresion Lineal Simple
Modelo de regresión lineal simple:
X (Variable de explicación)
Función respuesta o parte sistematica del
modelo
Regresion Lineal Simple
El modelo condicional:
𝐸 𝑦𝑖 𝑋 = 𝑥𝑖 = 𝐵0 + 𝐵1 𝑥𝑖
𝜀𝑖 ~𝑁(0, 𝜎 2 ) cov 𝜀𝑖 , 𝜀𝑗 = 0 i≠ 𝑗
• El hecho de que la varianza del error 𝜎 2 sea constante, es un supuesto fuertes y hace
que el modelo utilizado sea considerado como homocedástico.
𝟎 = 𝒚 𝟏𝒙 ത 2 σ 𝑦𝑖2
σ(𝑦𝑖 − 𝑦)
𝜷 ഥ−𝜷 ഥ 𝑆𝑦𝑦 = = − 𝑦ത 2
𝑛 𝑛
σ(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
ത σ 𝑥𝑖 𝑦𝑖
𝑆𝑥𝑦 = = − 𝑥ҧ 𝑦ത
𝑛 𝑛
Ejemplo 2:
Los siguientes datos son las ganancias y los gastos de publicidad de una
empresa (en miles USD)
X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
V(𝜀𝑖 )= 𝜎 2 (constante), este supuesto hace que el modelo sea considerado como
homocedástico.
3. Homogeneidad
Los errores tienen valor esperado nulo : 𝐸 𝑒𝑖 = 0
Esto significa que el ajuste que se va ha hacer está centrado en los datos.
4. Independencia
Los errores son variables aleatorias independientes.
Regresión lineal simple
5. Normalidad
• Como consecuencia :
𝑦𝑖 ~ 𝑁(𝐵0 + 𝐵1 𝑥𝑖 , 𝜎 2 )
SCE = ei2 = ( yi − yˆ i )
i =1 i =1
( )
n
SCT = yi − y
i =1
( )
n
SCR = yˆi − y
i =1
Prueba Global del modelo
Tabla Anova
0 ≤ 𝑅2 ≤ 1
𝑅2 indica la proporción de variabilidad de Y, explicada a través del modelo por las variables
de explicación; o si trabajamos con la potencia de explicación del modelo 𝑅2 x(100%), se
cambia el valor de proporción a porcentaje
• Un valor cercano a cero indica que no se capto casi nada de la variación total de Y,
• Un valor cercano a uno señala que casi 100% de la variabilidad fue captada
• Lo que interesa de un modelo es que capte la mayor variación, entonces es preferible que
sea cercano a 1
Ejemplo 3:
Los siguientes datos son las ganancias y los gastos de publicidad de una
empresa (en miles USD)
X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
n n 2
SCE = ei2 = ( yi − yˆ i )
i =1 i =1
2
( )
n
SCT = yi − y
i =1
2
( )
n
SCR = yˆi − y
i =1
Fuentes de Grados de Sumas Medias Estadístico F
variación Libertad cuadráticas Cuadráticas
Regresión 1 SCR 𝑆𝐶𝑅 𝑀𝐶𝑅
𝑀𝐶𝑅 =
1 𝑀𝐶𝐸
Error n-2 SCE 𝑆𝐶𝐸
𝑀𝐶𝐸 =
𝑛−2
Total n-1 SCT
Error
Total
Relacion entre el coeficiente de correlacion (𝑟𝑥𝑦 ) y el
coeficiente de determinacion (𝑅2 )
𝑟𝑥𝑦 = ± 𝑅2
X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
𝑀𝐶𝑅
𝐹𝑜 = > 𝐹(𝛼,𝑝−1,𝑛−𝑝)
𝑀𝐶𝐸
X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
Si la muestra es grande (n≥ 30) se puede sustituir 𝑡𝛼 ,𝑛−2 por Z. Para un 95% de continua
2
Z=1,96∼ 2 quedando:
1 (𝑥𝑜 − 𝑥)ҧ 2
𝑦ො𝑜 ± 2 𝑠𝑒 1+ + 𝑛
𝑛 σ𝑖=1 𝑥𝑖 2 − 𝑛𝑥ҧ 2
Ejemplo :
Los siguientes datos son las ganancias y los gastos de publicidad de una
empresa (en miles USD)
X 5 10 7 4 2 3 6 8 9 4
(Publicidad)
Y
(Ganancia) 15 24 18 13 9 11 16 21 22 12
Un análisis de regresión con un error estándar de estimación pequeño significa que todos
los puntos de datos se ubican muy cerca de la línea de regresión . Si el error estándar de
la estimación es grande, los datos son considerados dispersos de la línea de regresión
ajustada.
En regresión lineal no conviene predecir valores de Y para cualquier X mas allá de los X
recopilados en los datos muestrales, realmente depende que tan bueno es el modelo
para tomar este riesgo.
La extrapolación mas allá de los datos requiere una suposición de que la naturaleza de X
y Y no cambia. Para extrapolar datos es preferible utilizar técnicas de Series de Tiempo
(Modelos Autorregresivos).