Está en la página 1de 14

ANALISIS DE REGRESIÓN LINEAL SIMPLE

Kuncewitz Cerrón Salvatierra

REGRESIÓN LINEAL

Teniendo ya conocimiento de la intensidad de la correlación entre las variables, manifestada a través


del diagrama de dispersión, y el coeficiente de correlación, podemos ensayar el ajuste de un modelo
estadístico que se adapte mejor a las n observaciones; lo que lleva por nombre regresión. Uno de los
procedimientos muy comunes en el ajuste regresivo es el método de los mínimos cuadrados, que produce
estimaciones con menor error cuadrático promedio

Una función de regresión lineal es simple cuando las variaciones en la variable independiente provocan
variaciones proporcionales en la variable dependiente.
Y=f(x)
Donde:
Y: variable dependiente
X: Variable independiente
Por ejemplo: Podemos estar interesados en predecir el consumo promedio de un conjunto en base al ingreso
de las mismas. Y: Consum; X: Ingreso.

El análisis de regresión simple consiste en estimar la función de regresión poblacional (F:D:P) que responde
a la siguiente expresión.

𝑌𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
Donde:
Y: Variable dependiente
X: Variable independiente
𝐵0 : Intercepto
𝐵1 : Coeficiente de pendiente
𝜀𝑖 : Cerro aleatorio
Con base en la función de regresión muestral (F.R.M. )

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝑒𝑖

Elección de una relación funcional

El siguiente es un gráfico de dispersión que muestra estos datos.

1
La interpretación del coeficiente de correlación puede ilustrarse mediante los siguientes gráficos

Ejemplo 01
Data Ingreso

Con los siguientes datos correspondientes al ingreso (x) y al consumo (y) de 6 familias que se dan a
continuación.

2
Consumo Ingreso
(y) (x)
30 35
35 40
30 38
50 55
35 42
50 60
Se pide representar los datos en un diagrama de dispersión

Resolución

Gráfica de dispersión de Consumo y vs. Ingreso x


50

45
Consumo y

40

35

30

35 40 45 50 55 60
Ingreso x

Ejemplo 02 (Laboratorio)
Venta de automóviles
Se piensa que, si aumentan el porcentaje de comisión pagada al vendedor de automóviles, aumenta la venta.
Estudio sobre 15 concesionarios similares
X Comisiones pagadas a vendedores de autos en un mes (%)
Y Ganancias netas por ventas, en el mismo mes (Millones de $)

obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X 3.6 5.2 5.3 7.3 5 5.2 3 3.1 3.2 7.5 8.3 6.1 4.9 5.8 7.1
Y 11.28 14.74 18.46 20.01 12.43 15.37 9.59 11.26 8.05 27.91 24.62 18.8 13.87 12.11 23.68

b). Estimando la recta mínima cuadrado


Calculando

3
Ejemplo:
Data Ingreso

Con los siguientes datos correspondientes al ingreso (x) y al consumo (y) de 6 familias que se dan a
continuación.
Consumo Ingreso
(y) (x)
30 35
35 40
30 38
50 55
35 42
50 60
Determinar la recta de la regresión de mínimo cuadrática y graficarlas.

Resolución

Consumo y Ingreso x xy x2
30 35 1050 1225
35 40 1400 1600
30 38 1140 1444
50 55 2750 3025
35 42 1470 1764
50 60 3000 3600
230 270 10810 12658

6(10810)−(270)(230)
𝛽̂1 = 2
= 0.90551181 =0.9055
6(12.658)−(270)

4
Calculando
𝛽̂1= ¿?

Como
Me (x)=45
Me(y)=38.33333333

Calculando
𝛽̂𝑜 = 38.3333 – 0.9055(45)
𝛽̂𝑜 = -2.4142

Entonces la línea estimada esta dada por


𝑦̂ =𝛽̂𝑜 +𝛽̂𝑜 x

𝑦̂0 = -2.412 +0.9055x

-Hallando los intercepto graficar la regresión estimada: Los puntos que pasan por los ejes X e Y

Cuando x es igual a cero entonces estará dado por:


Y= -2.4142 + 0.9055x
Y= -2.4142 + 0.9055(0)
Y= -2.4142
Entonces P1= (0, -2.4142)
Cuando y=0
Entonces x estará dado por:
Y= -24142 + 0.9055x
0=24142 + 0.9055x
X=2.6662
Entonces p2= (2.6662, 0)

5
Gráfica de dispersión de Y vs. Ingreso x
55

50

45
Y

40

35

30

35 40 45 50 55 60
Ingreso x

Ejemplo (Laboratorio)
Venta de automóviles
Se piensa que, si aumentan el porcentaje de comisión pagada al vendedor de automóviles, aumenta la venta.
Estudio sobre 15 concesionarios similares
X Comisiones pagadas a vendedores de autos en un mes (%)
Y Ganancias netas por ventas, en el mismo mes (Millones de $)
obs 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X 3.6 5.2 5.3 7.3 5 5.2 3 3.1 3.2 7.5 8.3 6.1 4.9 5.8 7.1
Y 11.28 14.74 18.46 20.01 12.43 15.37 9.59 11.26 8.05 27.91 24.62 18.8 13.87 12.11 23.68

a).Determinar la recta de regresión mínimo cuadrática y graficarla

Ejemplo (Laboratorio)

DATOS DEL CLUB DE SALUD


Datos correspondientes a 20 empleados del club de salud de una empresa
X pulsasiones or minuto en reposo
Y tiempo en correr 1 milla ( reg)
Fuente: S. Chatterjee - A. Hadi: " Sentivity Analysis in Linear Regression"

obs x y
1 67 481
2 52 292
3 56 357
4 66 396
5 65 345
6 80 469
7 77 425
8 65 393
9 68 346
10 66 401

6
11 70 267
12 59 368
13 58 295
14 52 391
15 64 487
16 72 481
17 57 374
18 59 367
19 70 469
20 63 252

a).Representar los datos en un diagrama de dispersión


b).Determinar la recta de regresión mínimo cuadrática y graficarla

7
Coeficiente de determinación (r2)

Consideramos ahora la bondad de ajuste de la línea de regresión ajustada al conjunto de datos.

Si todas las líneas coinciden con la con la línea de regresión, obtendríamos el ajuste perfecto, lo que raras
veces ocurre.
El coeficiente de determinación (r2) es una medida de resumen que nos dice qué tan exactamente la línea
de regresión estimada se ajusta a los datos observados.
El coeficiente de determinación se expresa de la siguiente manera.

El coeficiente de determinación muestral es ampliamente utilizada como una medida de bondad de ajuste
de una línea de regresión. Es decir el r2 mide la proporción o porcentaje de la variación total en Y explicada
por el modelo de regresión.
a) Es una cantidad positiva
b) Sus límites son: 0≤ 𝑟 2 ≤ 1
Si 𝑟 2 = 1, quiere decir que el ajuste es perfecto
Si 𝑟 2 = 0, quiere decir que no hay relación entre la variable dependiente y la variable independiente.
c) Cuanto más se acerca 𝑟 2 a 1, tanto más alto será el grado de la linealidad entre las variables.
d) Si 𝑟 2 ≥ 0.75 hay seguridad en las predicciones con la ecuación de la regresión lineal estimada.

Ejemplo:
Data Ingreso
Calcular el coeficiente de determinación (r2) e interpretar.
Determinar el consumo esperado para una familia si su ingreso es de $55.00.

8
Resolución

Calcular el coeficiente de determinación (r2) e interpretar

101.6
𝑟 2 = 0.90552 = 0.96
86.67

O también se puede calcular mediante la siguiente formula que se da a continuación.

[6(10810)−(270)(230)]2 (2760)2
𝑟 2 = [6(12658)−2702 ][6(9250)−2302 ] =(3048)(2600) = 0.96

Interpretación:
Quiere decir que el 96% de las variaciones del consumo promedio está explicado por el ingreso.

Trabajo encargado

a) Calcular e interpretar el coeficiente de determinación de las datas


a). Venta de automóviles
b).DATOS DEL CLUB DE SALUD

9
ANALISIS DE REGRESIÓN LINEAL SIMPLE CON R

Laboratorio

1.Con los siguientes datos correspondientes al ingreso (x) y al consumo (y) de 6 familias que se dan a
continuación.
(y) (x)
30 35
35 40
30 38
50 55
35 42
50 60

a) Cuál es el tamaño de muestra.


b) Se pide representar los datos en un diagrama de dispersión
c) Determinar la recta de recesión mínimo cuadrática y graficarla
d) Calcular el coeficiente de determinación (r2) e interpretar
e) Determinar el consumo esperado para una familia si su ingreso es de $55.00

Resolución
Cargando la data Sol

Sol<-read.table(file.choose(),head=TRUE)
attach(Sol)
Sol

#Sol
# y x
#1 30 35
#2 35 40
#3 30 38
#4 50 55
#5 35 42
#6 50 60

a. Cuál es el tamaño de muestra.

dim(Sol)

#> dim(Sol)
#[1] 6 2

Rta: La data contiene 6 observaciones y dos variables

10
b.Se pide representar los datos en un diagrama de dispersión

Sol(y~x)

Rta: existe una relación positiva entre la variable consumo e ingreso, a menos ingreso menos consumo y a
más ingreso mayor consumo.

plot(y~x,xlab="x=Ingreso",ylab = "y=Consumo",col="Blue")

c). Determinar la recta de recesión mínimo cuadrática y graficarla

Sol.m1<-lm(y~x)
Sol.m1
summary(Sol.m1)

11
#Call:
#lm(formula = y ~ x)

#Residuals:
# 1 2 3 4 5 6
#0.7218 1.1942 -1.9948 2.6115 -0.6168 -1.9160

#Coefficients:
# Estimate Std. Error t value Pr(>|t|)
#(Intercept) -2.41470 4.17612 -0.578 0.594111
#x 0.90551 0.09092 9.959 0.000571 ***
---
#Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

#Residual standard error: 2.049 on 4 degrees of freedom


#Multiple R-squared: 0.9612, Adjusted R-squared: 0.9515
#F-statistic: 99.19 on 1 and 4 DF, p-value: 0.0005709

Respuesta:
y= -2.41470 + 0.90551x
El intercepto = -2.41470
Pendiente = 0.90551

Sol.m1<-lm(y~x)
plot(y~x, xlab = "Ingreso=x",ylab = "Consumo=y",col="Red")
abline(Sol.m1, col="Blue")

12
c. Calcular el coeficiente de determinación (r2) e interpretar.

summary(Sol.m1)

#Call:
#lm(formula = y ~ x)

#Residuals:
# 1 2 3 4 5 6
#0.7218 1.1942 -1.9948 2.6115 -0.6168 -1.9160

#Coefficients:
# Estimate Std. Error t value Pr(>|t|)
#(Intercept) -2.41470 4.17612 -0.578 0.594111
#x 0.90551 0.09092 9.959 0.000571 ***
---
#Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

#Residual standard error: 2.049 on 4 degrees of freedom


#Multiple R-squared: 0.9612, Adjusted R-squared: 0.9515
#F-statistic: 99.19 on 1 and 4 DF, p-value: 0.0005709

Respuesta.
R2= 0.9612

Interpretación:
Quiere decir que el 96.12% de las variaciones del ingreso promedio está explicado por la consumo.

e).Determinar el consumo esperado para una familia si su ingreso es de $55.00

summary(Sol.m1)

#Remplazando si X=50
y= -2.41470 + 0.90551x
-2.41470 + 0.90551*50

[1] 42.8608

La coordenada de los puntos serán (50; 42.8608)

points(50,42.8608,pch=15,col="blue")

13
Tarea
Trabajar con los data grasa
y=peso x=edad

grasas <- read.table('http://verso.mat.uam.es/~joser.berrendero/datos/EdadPesoGra


sas.txt', header = TRUE)
names(grasas)

a) Cuál es el tamaño de muestra.


b) Se pide representar los datos en un diagrama de dispersión
c) Determinar la recta de recesión mínimo cuadrática y graficarla
d) Calcular el coeficiente de determinación (r2) e interpretar
e) Determinar el peso cuando la persona tiene 60; 70 años respectivamente.

14