Documentos de Académico
Documentos de Profesional
Documentos de Cultura
REGRESIÓN LINEAL
Una función de regresión lineal es simple cuando las variaciones en la variable independiente provocan
variaciones proporcionales en la variable dependiente.
Y=f(x)
Donde:
Y: variable dependiente
X: Variable independiente
Por ejemplo: Podemos estar interesados en predecir el consumo promedio de un conjunto en base al ingreso
de las mismas. Y: Consum; X: Ingreso.
El análisis de regresión simple consiste en estimar la función de regresión poblacional (F:D:P) que responde
a la siguiente expresión.
𝑌𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
Donde:
Y: Variable dependiente
X: Variable independiente
𝐵0 : Intercepto
𝐵1 : Coeficiente de pendiente
𝜀𝑖 : Cerro aleatorio
Con base en la función de regresión muestral (F.R.M. )
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖
1
La interpretación del coeficiente de correlación puede ilustrarse mediante los siguientes gráficos
Ejemplo 01
Data Ingreso
Con los siguientes datos correspondientes al ingreso (x) y al consumo (y) de 6 familias que se dan a
continuación.
2
Consumo Ingreso
(y) (x)
30 35
35 40
30 38
50 55
35 42
50 60
Se pide representar los datos en un diagrama de dispersión
Resolución
45
Consumo y
40
35
30
35 40 45 50 55 60
Ingreso x
Ejemplo 02 (Laboratorio)
Venta de automóviles
Se piensa que, si aumentan el porcentaje de comisión pagada al vendedor de automóviles, aumenta la venta.
Estudio sobre 15 concesionarios similares
X Comisiones pagadas a vendedores de autos en un mes (%)
Y Ganancias netas por ventas, en el mismo mes (Millones de $)
obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X 3.6 5.2 5.3 7.3 5 5.2 3 3.1 3.2 7.5 8.3 6.1 4.9 5.8 7.1
Y 11.28 14.74 18.46 20.01 12.43 15.37 9.59 11.26 8.05 27.91 24.62 18.8 13.87 12.11 23.68
3
Ejemplo:
Data Ingreso
Con los siguientes datos correspondientes al ingreso (x) y al consumo (y) de 6 familias que se dan a
continuación.
Consumo Ingreso
(y) (x)
30 35
35 40
30 38
50 55
35 42
50 60
Determinar la recta de la regresión de mínimo cuadrática y graficarlas.
Resolución
Consumo y Ingreso x xy x2
30 35 1050 1225
35 40 1400 1600
30 38 1140 1444
50 55 2750 3025
35 42 1470 1764
50 60 3000 3600
230 270 10810 12658
6(10810)−(270)(230)
𝛽̂1 = 2
= 0.90551181 =0.9055
6(12.658)−(270)
4
Calculando
𝛽̂1= ¿?
Como
Me (x)=45
Me(y)=38.33333333
Calculando
𝛽̂𝑜 = 38.3333 – 0.9055(45)
𝛽̂𝑜 = -2.4142
-Hallando los intercepto graficar la regresión estimada: Los puntos que pasan por los ejes X e Y
5
Gráfica de dispersión de Y vs. Ingreso x
55
50
45
Y
40
35
30
35 40 45 50 55 60
Ingreso x
Ejemplo (Laboratorio)
Venta de automóviles
Se piensa que, si aumentan el porcentaje de comisión pagada al vendedor de automóviles, aumenta la venta.
Estudio sobre 15 concesionarios similares
X Comisiones pagadas a vendedores de autos en un mes (%)
Y Ganancias netas por ventas, en el mismo mes (Millones de $)
obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X 3.6 5.2 5.3 7.3 5 5.2 3 3.1 3.2 7.5 8.3 6.1 4.9 5.8 7.1
Y 11.28 14.74 18.46 20.01 12.43 15.37 9.59 11.26 8.05 27.91 24.62 18.8 13.87 12.11 23.68
Ejemplo (Laboratorio)
obs x y
1 67 481
2 52 292
3 56 357
4 66 396
5 65 345
6 80 469
7 77 425
8 65 393
9 68 346
10 66 401
6
11 70 267
12 59 368
13 58 295
14 52 391
15 64 487
16 72 481
17 57 374
18 59 367
19 70 469
20 63 252
7
Coeficiente de determinación (r2)
Si todas las líneas coinciden con la con la línea de regresión, obtendríamos el ajuste perfecto, lo que raras
veces ocurre.
El coeficiente de determinación (r2) es una medida de resumen que nos dice qué tan exactamente la línea
de regresión estimada se ajusta a los datos observados.
El coeficiente de determinación se expresa de la siguiente manera.
El coeficiente de determinación muestral es ampliamente utilizada como una medida de bondad de ajuste
de una línea de regresión. Es decir el r2 mide la proporción o porcentaje de la variación total en Y explicada
por el modelo de regresión.
a) Es una cantidad positiva
b) Sus límites son: 0≤ 𝑟 2 ≤ 1
Si 𝑟 2 = 1, quiere decir que el ajuste es perfecto
Si 𝑟 2 = 0, quiere decir que no hay relación entre la variable dependiente y la variable independiente.
c) Cuanto más se acerca 𝑟 2 a 1, tanto más alto será el grado de la linealidad entre las variables.
d) Si 𝑟 2 ≥ 0.75 hay seguridad en las predicciones con la ecuación de la regresión lineal estimada.
Ejemplo:
Data Ingreso
Calcular el coeficiente de determinación (r2) e interpretar.
Determinar el consumo esperado para una familia si su ingreso es de $55.00.
8
Resolución
101.6
𝑟 2 = 0.90552 = 0.96
86.67
[6(10810)−(270)(230)]2 (2760)2
𝑟 2 = [6(12658)−2702 ][6(9250)−2302 ] =(3048)(2600) = 0.96
Interpretación:
Quiere decir que el 96% de las variaciones del consumo promedio está explicado por el ingreso.
Trabajo encargado
9
ANALISIS DE REGRESIÓN LINEAL SIMPLE CON R
Laboratorio
1.Con los siguientes datos correspondientes al ingreso (x) y al consumo (y) de 6 familias que se dan a
continuación.
(y) (x)
30 35
35 40
30 38
50 55
35 42
50 60
Resolución
Cargando la data Sol
Sol<-read.table(file.choose(),head=TRUE)
attach(Sol)
Sol
#Sol
# y x
#1 30 35
#2 35 40
#3 30 38
#4 50 55
#5 35 42
#6 50 60
dim(Sol)
#> dim(Sol)
#[1] 6 2
10
b.Se pide representar los datos en un diagrama de dispersión
Sol(y~x)
Rta: existe una relación positiva entre la variable consumo e ingreso, a menos ingreso menos consumo y a
más ingreso mayor consumo.
plot(y~x,xlab="x=Ingreso",ylab = "y=Consumo",col="Blue")
Sol.m1<-lm(y~x)
Sol.m1
summary(Sol.m1)
11
#Call:
#lm(formula = y ~ x)
#Residuals:
# 1 2 3 4 5 6
#0.7218 1.1942 -1.9948 2.6115 -0.6168 -1.9160
#Coefficients:
# Estimate Std. Error t value Pr(>|t|)
#(Intercept) -2.41470 4.17612 -0.578 0.594111
#x 0.90551 0.09092 9.959 0.000571 ***
---
#Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Respuesta:
y= -2.41470 + 0.90551x
El intercepto = -2.41470
Pendiente = 0.90551
Sol.m1<-lm(y~x)
plot(y~x, xlab = "Ingreso=x",ylab = "Consumo=y",col="Red")
abline(Sol.m1, col="Blue")
12
c. Calcular el coeficiente de determinación (r2) e interpretar.
summary(Sol.m1)
#Call:
#lm(formula = y ~ x)
#Residuals:
# 1 2 3 4 5 6
#0.7218 1.1942 -1.9948 2.6115 -0.6168 -1.9160
#Coefficients:
# Estimate Std. Error t value Pr(>|t|)
#(Intercept) -2.41470 4.17612 -0.578 0.594111
#x 0.90551 0.09092 9.959 0.000571 ***
---
#Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Respuesta.
R2= 0.9612
Interpretación:
Quiere decir que el 96.12% de las variaciones del ingreso promedio está explicado por la consumo.
summary(Sol.m1)
#Remplazando si X=50
y= -2.41470 + 0.90551x
-2.41470 + 0.90551*50
[1] 42.8608
points(50,42.8608,pch=15,col="blue")
13
Tarea
Trabajar con los data grasa
y=peso x=edad
14