Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística Regresión
2-8-2022
Natalia SALABERRY
Facultad
Taller de Ciencias Económicas
de Programación
En muchos casos, un análisis requiere de analizar conjuntamente más de una
variable dado que, existe una asociación entre las mismas. Un caso que
podemos considerar es, por ejemplo, el comportamiento del incremento de las
ventas de un producto y el dinero destinado a campañas publicitarias. O que
el consumo de un individuo esta determinado por su nivel de ingreso, entre
muchos otros ejemplos. Entonces, mediante un análisis de regresión lineal,
se propone una función lineal que permita estimar el valor promedio de, por
ejemplo, el consumo a partir del conocimiento del nivel de ingreso de un
individuo.
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Modelo de Regresión Lineal Simple
Busca determinar la relación entre una variable aleatoria en base a los valores
de otra/s variable/s con la/s cual/es presenta dependencia estadística
(relación no determinística). Veremos el caso de solo dos variables aleatorias.
Variable 𝑌𝑖 = 𝛽0 + 𝛽1 ∗ 𝑋𝑖 Variable
dependiente independiente o
o explicada Ordenada Pendiente explicativa
(aleatoria) al origen (toma valores fijos)
Cuanto varía Y ante
variación de una unidad
de X
Dado que es una recta, se tiene pares de puntos (𝑌1 , 𝑋1 ), (𝑌2 , 𝑋2 ),…, (𝑌𝑛 , 𝑋𝑛 )
Entonces podemos graficarlos
3
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Modelo de Regresión Lineal Simple
𝒊 = 𝛽0 + 𝛽1 ∗ 𝑋𝑖 + ε
𝒀
Donde:
𝒊 son los valores estimados de Y
𝒀
𝜷𝟎 es la ordenada al origen
𝛃𝟏 es la pendiente de la recta: nos indica en cuanto varía Y ante el incremento
de una unidad en X.
𝑖 de 𝑌𝑖
ε Término de Error Aleatorio: en cuanto difiere 𝑌
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Modelo de Regresión Lineal Simple
E(Y|x)=E(𝛽0 + 𝛽1 ∗ 𝑋 + ε)= 𝛽0 + 𝛽1 ∗ 𝑋
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
𝑌 = 341,47 + 228,16 ∗ 𝑋
Verdadera recta de
regresión para nuestro
ejemplo
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Estimación de parámetros del modelo: Método Mínimos Cuadrados
𝑛 𝑛
𝒀𝒊 𝜖𝑖2 = 𝒀𝒊 − (𝛽0 + 𝛽1 ∗ 𝑋𝑖 ) 2
𝑖=1 𝑖=1
𝜺𝒊
𝒊
𝒀
Suma cuadrada de las desviaciones
(diferencia entre valor estimado y verdadero
valor)
Para tener un buen ajuste del modelo, entonces debemos minimizar esta
función. Es decir, hallar los valores de 𝛽𝑖 tal que hagan mínima la diferencia.
Estas diferencia no es otra cosa que la distancia entre los puntos y la recta
(𝜺𝒊 )
La obtención de los
𝛽𝑖 estimados requiere resolver un sistema de ecuaciones 8
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Objetivo
𝑛
𝑚𝑖𝑛 (𝑌𝑖 − (𝛽0 + 𝛽1 𝑋))2
𝑖=1
𝑛 𝑛
𝑌𝑖 = 𝑛𝛽መ0 + ( 𝑋𝑖 ) ∗ 𝛽መ1 (𝐴)
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
𝑌𝑖 𝑋𝑖 = ( 𝑋𝑖 ) ∗ 𝛽መ0 + ( 𝑋𝑖2 ) ∗ 𝛽መ1
𝑖=1 𝑖=1 𝑖=1
Resolución
σ𝑛𝑖=1 𝑌𝑖 𝑛𝛽0 (σ𝑛𝑖=1 𝑋𝑖 ) ∗ 𝛽1
𝐷𝑖𝑣𝑖𝑑𝑖𝑒𝑛𝑑𝑜 𝑝𝑜𝑟 𝑛 𝑙𝑎 𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝐴 𝑠𝑒 𝑜𝑏𝑡𝑖𝑒𝑛𝑒 = + ⇒
𝑛 𝑛 𝑛
⇒ 𝑌ത = 𝛽0 + 𝑋ത 𝛽1 ⇒ 𝜷
𝟎 = 𝒀
ഥ−𝑿
ഥ𝜷𝟏
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Resolución
∆𝛽1
መ
𝛽1 =
∆
𝑛
𝑛 𝑋𝑖
∆= 𝑛
𝑖=1
𝑛
∆= 𝑛 σ𝑛𝑖=1 𝑋𝑖2 - σ𝑛𝑖=1 𝑋𝑖 σ𝑛𝑖=1 𝑋𝑖 = 𝑛 σ𝑛𝑖=1 𝑋𝑖2 − ( σ𝑛𝑖=1 𝑋𝑖 ) 2 (1)
𝑋𝑖 𝑋𝑖2
𝑖=1 𝑖=1
𝑛 2
( σ𝑖=1 𝑋𝑖 ) 𝑛
𝐷𝑖𝑣𝑖𝑑𝑖𝑒𝑛𝑑𝑜 𝑝𝑜𝑟 𝑛 𝑙𝑎 𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 1 𝑠𝑒 𝑜𝑏𝑡𝑖𝑒𝑛𝑒 𝑋𝑖2 −
𝑖=1 𝑛
𝑛
𝑞𝑢𝑒 𝑝𝑢𝑒𝑑𝑒 𝑠𝑒𝑟 𝑟𝑒 𝑒𝑥𝑝𝑟𝑒𝑠𝑎𝑑𝑜 𝑐𝑜𝑚𝑜 ത 2
(𝑋𝑖 −𝑋)
𝑖=1
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Resolución
𝑛
𝑛 𝑌𝑖
∆𝛽1 = 𝑖=1 ∆𝛽መ1 = 𝑛 σ𝑛𝑖=1 𝑌𝑖 𝑋𝑖 - σ𝑛𝑖=1 𝑋𝑖 σ𝑛𝑖=1 𝑌𝑖 (2)
𝑛 𝑛
𝑋𝑖 𝑌𝑖 𝑋𝑖
𝑖=1 𝑖=1
σ𝑛𝑖=1 𝑋𝑖 σ𝑛𝑖=1 𝑌𝑖
𝑛
𝐷𝑖𝑣𝑖𝑑𝑖𝑒𝑛𝑑𝑜 𝑝𝑜𝑟 𝑛 𝑙𝑎 𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 2 𝑠𝑒 𝑜𝑏𝑡𝑖𝑒𝑛𝑒 𝑌𝑖 𝑋𝑖 −
𝑖=1 𝑛
𝑛
𝑞𝑢𝑒 𝑝𝑢𝑒𝑑𝑒 𝑠𝑒𝑟 𝑟𝑒 𝑒𝑥𝑝𝑟𝑒𝑠𝑎𝑑𝑜 𝑐𝑜𝑚𝑜 (𝑌𝑖 𝑋𝑖 − 𝑋ത 𝑌)
ത
𝑖=1
𝑛
entonces = 𝑌𝑖 𝑋𝑖 − n𝑋ത 𝑌ത
𝑖=1
11
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Resolución
1
∆𝛽 σ𝑛 തത
𝑖=1 𝑌𝑖 𝑋𝑖 − n𝑋𝑌 𝑆𝑋𝑌
𝛽መ1 = = σ𝑛 2 −n𝑋
ത 2 =
∆ 𝑖=1 𝑋𝑖 𝑆𝑋𝑋
𝛽መ0 = 𝑌ത − 𝛽መ1 𝑋ത
12
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Para nuestro ejemplo
X Y X*Y X^2 Y^2 n 10
24 5.298 127.152 576 28.068.804 Media X 23,20
32 8.100 259.200 1.024 65.610.000 Media Y 5.634,80
14 4.506 63.084 196 20.304.036 Sxy 104.406,40
23 4.816 110.768 529 23.193.856 Sxx 457,60
35 8.768 306.880 1.225 76.877.824 Syy 27.716.145,60
28 6.486 181.608 784 42.068.196 Beta1 228,16
14 3.022 42.308 196 9.132.484 Beta 0 341,47
19 5.676 107.844 361 32.216.976
25 5.524 138.100 625 30.514.576
18 4.152 74.736 324 17.239.104
232 56.348 1.411.680 5.840 345.225.856
𝑆𝑋𝑌 = σ𝑛𝑖=1 𝑌𝑖 𝑋𝑖 − 𝑛𝑋𝑌=1411680 – 10*23,20*5634,80=104406,4
σ
𝑆𝑋𝑋 = σ𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋ത 2=5840 – 10* 23,22 =457,6
𝑆𝑋𝑌 104406,4
𝛽መ1 = = =228,16
𝑆𝑋𝑋 457,6
𝑌 = 341,47 + 228,16 ∗ 𝑋
𝛽መ0 = 𝑌ത − 𝛽መ1 𝑋=
ത 5634,8 − 228,16 ∗ 23,2 = 341,47
13
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Medida de Bondad de Ajuste Absoluta
Varianza Residual
Esta es una medida absoluta de que tan bien se ajusta la recta de regresión
estimada a las medias de las observaciones de la variable respuesta.
𝑺𝑪𝑬
𝑺𝟐 =
𝒏−𝟐
En general, cuanto menor sea su valor, mejor ajuste del modelo. Entonces,
buscamos que sea lo más chico posible.
S= 𝑺𝟐
14
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Medida de Bondad de Ajuste Absoluta
Desviaciones en la estimación
𝒀𝒊
𝒀𝒊 − 𝒀𝒊
𝜺𝒊
𝒊 𝒀𝒊 − 𝑌ത
𝒀
𝒀𝒊 − 𝑌ത
𝒀𝒊
𝒀𝒊 − 𝑌ത es la desviación total
𝒀𝒊 − 𝒀𝒊 es la desviación que no está explicada por la regresión, siendo la magnitud del
error
15
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Medidas de Bondad de Ajuste Relativas
SCT (Suma de Cuadrados Total)=SCE + SCR
Esta medida considera los desvíos de cada observación respecto del
promedio de la variable (la variable a estimar), sin considerar la relación que
ésta tiene con la variable .
𝑺𝑪𝑻 = 𝑆𝑌𝑌 = σ𝑛𝑖=1(𝑌𝑖 −𝑌)
ത 2
SCR (Suma de Cuadrados de la regresión)
Medida de cuanta variación de Y es explicada por el modelo.
𝑺𝑪𝑹 = σ𝑛𝑖=1 𝜺2𝑖 = σ𝑛𝑖=1(𝒀
𝒊 − 𝑌)
ത 2
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Continuando con el ejemplo
X Y X*Y X^2 Y^2 Yi estimados SCT= (Yi - Y raya) ^2 SCR= (Yi est - Y raya)^2
24 5.298 127.152 576 28.068.804 5.817,3 113.434,24 33.316,7
32 8.100 259.200 1.024 65.610.000 7.642,6 6.077.211,04 4.031.322,6
14 4.506 63.084 196 20.304.036 3.535,7 1.274.189,44 4.406.135,7
23 4.816 110.768 529 23.193.856 5.589,2 670.433,44 2.082,3
35 8.768 306.880 1.225 76.877.824 8.327,1 9.816.942,24 7.248.468,0
28 6.486 181.608 784 42.068.196 6.730,0 724.541,44 1.199.401,8
14 3.022 42.308 196 9.132.484 3.535,7 6.826.723,84 4.406.135,7
19 5.676 107.844 361 32.216.976 4.676,5 1.697,44 918.292,0
25 5.524 138.100 625 30.514.576 6.045,5 12.276,64 168.665,9
18 4.152 74.736 324 17.239.104 4.448,4 2.198.695,84 1.407.631,2
232 56.348 1.411.680 5.840 345.225.856 56.348,0 27.716.145,6 23.821.451,8
n 10
𝒊 − 𝑌ത )2
𝑺𝑪𝑹 = σ𝑛𝑖=1(𝒀
Media X 23,20 SCR 23.821.451,8
Media Y 5.634,80 𝑌 = 341,47 + 228,16 ∗ 𝑋
Sxy 104.406,40 SCT 27.716.145,6 𝑺𝑪𝑻 = 𝑆𝑌𝑌 = σ𝑛𝑖=1(𝑌𝑖 −𝑌ത )2
Sxx 457,60
Syy 27.716.145,60 SCE 3.894.693,76 𝑺𝑪𝑬 = SCT –SCR= σ𝑛𝑖=1(𝑌𝑖 −
𝒀𝒊 )2
Beta1 228,16
Beta 0 341,47
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Medidas de Bondad de Ajuste Relativas
Coeficiente de Determinación
Brinda una medida de la proporción de variación de Y que puede ser
explicada por el modelo. Cuanto mayor sea su valor, mejor ajuste del modelo.
Siempre será mayor que 0 y menor que 1
𝑆𝐶𝐸 𝑆𝐶𝑅
𝑟2 = 1 − =
𝑆𝐶𝑇 𝑆𝐶𝑇
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
19
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Coeficiente de 𝑆𝑋𝑌
correlación muestral 𝑟= con -1 < r < 1
𝑆𝑋𝑋 𝑆𝑌𝑌
• -1 < r < 1
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
3894693,8
𝜎ො 2 = 𝑆 2 = = 486836,72
10 − 2
σ= 𝑆 = 2382145,18 = 697,74
𝑆𝐶𝑅 23821451,8
𝑟2 = = = 0,8594=86% El modelo presenta buen ajuste
𝑆𝐶𝑇 27716145,6
104406,4 104406,4
𝑟= = =0,93=93%
457,6 27716145,6 21,3915871313935∗5264,61257833851
Existe una relación lineal y positiva entre X e Y. Además se cumple que Sxy>0
21
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso
Facultad
Taller de Ciencias Económicas
de Programación
23
Estadística – R. Del
M. Conocchiari - M. SperanzaNatalia Salaberry
Rosso