Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Carrera: Software
I. GUIA APE 2
2.1. Título
Regresión Lineal
2.2. Objetivos
2.2.1. Objetivo General:
Realizar un análisis de regresión lineal y correlación utilizando una tabla de datos teóricos
o experimentales, con el fin de comprender la relación entre dos variables y extraer
conclusiones significativas.
2.2.2. Objetivos Específicos.
• Desarrollar modelos de regresión lineal que describan la relación entre las
variables. Esto implicará la formulación de ecuaciones lineales y el cálculo de
los coeficientes de regresión.
• Calcular el coeficiente de correlación para determinar la fuerza y la dirección
de la relación entre las variables. Esto permitirá comprender si la relación es
positiva, negativa o nula.
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
La regresión lineal es un método estadístico utilizado para modelar la relación entre una
variable dependiente y una o más variables independientes al encontrar la línea que minimiza
la suma de los cuadrados de las diferencias entre los valores observados y los predichos. En
términos más profundos, busca establecer la ecuación de una línea recta que mejor se ajusta
a los datos, permitiendo prever o entender la variación en la variable dependiente en función
de las variables independientes. La regresión lineal es esencial en análisis de datos,
inferencia estadística y toma de decisiones en diversos campos, desde ciencias sociales
hasta ciencias físicas [1].
En resumen, la regresión lineal es una herramienta poderosa para modelar relaciones entre
variables, pero su interpretación y evaluación efectiva requieren una comprensión profunda
de los coeficientes, la ordenada al origen y la calidad general del ajuste del modelo [1].
Estas fórmulas proporcionan una base matemática para entender cómo se derivan los
parámetros de la regresión lineal y cómo se mide la calidad del ajuste del modelo [1].
Ejercicio 1
115.55 1,098,000
112.85 949,600
114.38 785,300
112.53 1,093,700
110.38 1,523,500
Tabla 1. Muestra de 10 registros de la Bolsa de Valores de Nueva York (NYSE).
Solución:
X Y ̅
𝑿𝒊 − 𝒙 𝒀𝒊 ̅ )𝟐
(𝑿𝒊 − 𝒙 ̅ )𝟐
(𝒀𝒊 − 𝒚 (𝑿𝒊 − 𝒙
̅)(𝒀𝒊
̅
−𝒚 ̅)
−𝒚
2,163,600 125.84 562,990 13.03 316,957,740,100 169.7809 7,335,759.7
2,386,400 119.98 785,790 7.17 617,465,924,100 51.4089 5,634,114.3
2,489,500 114.95 888,890 2.14 790,125,432,100 4.5796 1,902,224.6
2,006,300 116.62 405,690 3.81 164,584,376,100 14.5161 1,545,678.9
1,408,600 114.97 - 2.16 36,867,840,100 4.6656 -414,741.6
192,010
1,098,000 115.55 - 2.74 252,616,812,100 7.5076 -1,377,151.4
502,610
949,600 112.85 - 0.04 423,814,020,100 0.0016 -26,040.4
651,010
785,300 114.38 - 1.57 664,730,396,100 2.4649 -1,280,036.7
815,310
1,093,700 112.53 - -0.28 256,957,748,100 0.0784 141,934.8
506,910
1,523,500 110.38 -77,110 -2.43 5,945,952,100 5.9049 187,377.3
16,006,100 1,128.05 3,530,066,241 260.9085 13,649,119.5
Tabla 2. Cálculos para la regresión lineal y la correlación de los datos.
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
n=10
X media:
16006,100
̅=
𝒙 = 𝟏, 𝟔𝟎𝟎, 𝟔𝟏𝟎
10
Y media:
1,128.05
̅=
𝒚 = 𝟏𝟏𝟐, 𝟖𝟎𝟓
10
𝑦 = 𝑏1𝑥 + 𝑏0
̅)(𝒀𝒊 − 𝒚
∑(𝑿𝒊 − 𝒙 ̅)
𝒃𝟏 = 𝟐
̅)
∑(𝑿𝒊 − 𝒙
13,649,119.5
𝑏1 = = 𝟑. 𝟗𝟓𝟑𝟖𝟗𝐱𝟏𝟎−𝟔
3,530,066,241
̅ − 𝒃𝟏𝒙
𝒃𝒐 = 𝒚 ̅
𝑏𝑜 = 112,805 − 6,328635873x10−6
𝒃𝒐 = 𝟏𝟎𝟗. 𝟓𝟏𝟔𝟓
Coeficiente de correlación:
̅)(𝒀𝒊 − 𝒚
∑(𝑿𝒊 − 𝒙 ̅)
𝒓=
̅)𝟐 ∗ ∑(𝒀𝒊 − 𝒚
√∑(𝑿𝒊 − 𝒙 ̅ )𝟐
13,649,119.5
𝑟=
√3,530,066,241 ∗ 260.9085
13,649,119.5
𝑟=
√921,024,287,839.95
𝒓 = 𝟎. 𝟓𝟔𝟕𝟔𝟔𝟐𝟒
Comprobación en R
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
Estos resultados podrían ser de interés para analistas del mercado de valores que buscan
entender la relación entre el volumen de comercio y los cambios de precio. Pero, dado que la
correlación no es fuerte y no estadísticamente significativa, debería considerarse una de las
muchas métricas en un análisis más amplio del mercado de valores [2].
Ejercicio 2
- Calculamos x media:
- Calculamos y media:
= (−1723.56)(−60.009) + (−1673.56)(−59.635)
+ (−1631.56)(−59.25) + (−1553.56)(−58.37)
+ (−1003.56)(−48.388) + (−353.56)(−30.792) + (1089.44)(23.768)
+ (2718.44)(104.53) + (4131.44)(188.15) = 1537412.95
𝑆𝐶𝑥𝑦
𝑟=
√𝑆𝐶𝑥𝑥 𝑆𝐶𝑦𝑦
1537412.95
=
√(37624725.224)(35400.4225)
= 0.9887705
Ejercicio 3
Este conjunto de datos proporciona una interesante visión sobre la relación entre la
temperatura ambiental y el consumo de helado. Compuesto por 10 observaciones, explora
cómo varía el consumo de helado en función de las fluctuaciones de temperatura. Con
temperaturas que oscilan entre los 25.75 y 34.45 grados Celsius, y un consumo de helado
correspondiente [3].
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
Solución:
Variable Independiente (X): Temperatura
n=10
X media = 29.235
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
Y media: = 295.397
𝑦 = 𝑏1 𝑥 + 𝑏0
640.72105
𝑏1 =
76.62565
𝑏1 = 8.3617
𝑏0 = 𝑦̅ − 𝑏1 𝑥̅
𝑦 = 𝑏1 𝑥 + 𝑏0
𝑦 = 8.36𝑥 + 50.94
Coeficiente de Correlación.
640.72105
𝒓=
√76.62 ∗ 6481.98
640.72105
𝒓=
704.7597
𝒓 = 0.90913
Comprobación en R.
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
Ejercicio 4
Solución:
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
N=10.
X media:
25.1
𝑀𝑒𝑑ⅈ𝑎:
10
𝑀𝑒𝑑ⅈ𝑎: 2.51
220
𝑀𝑒𝑑ⅈ𝑎:
10
𝑀𝑒𝑑ⅈ𝑎: 22
𝑦 = 𝑏1𝑥 + 𝑏0
Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑦)
𝑏1 =
Σ(𝑥ⅈ − 𝑥 )2
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
𝑏1 = 3.76
𝑏0 = (𝑦 − 𝑏1𝑥 )
𝑏0 = 22 − 3.76 ⋅ 2.51
𝑏0 = 12.91
Coeficiente de correlación:
Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑦)
𝑏1 =
√Σ(𝑥ⅈ − 𝑥 )2 ⋅ Σ(𝑦ⅈ − 𝑦)
82.675053
𝑟=
√6.21131 ⋅ 80.01
R=-0.963476
Comprobación en R:
Ejercicio 5
En determinado barrio se desea saber si existe alguna relación entre la edad de los vecinos
y la “percepción de inseguridad en el barrio”, medida en una escala del 0-10 donde el 0
presenta “totalmente seguro” y el 10 representa “totalmente inseguro”. Se realiza un pequeño
pre-test con 10 individuos, obteniendo los siguientes datos:
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
Edad Inseguridad
34 4.5
27 3
65 7
20 3.5
53 8
49 5
42 4
31 4
55 5.5
61 7.5
Tabla 7. representación de datos del ejercicio
Solución:
Edad:
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
34 + 27 + 65 + 20 + 53 + 49 + 42 + 31 + 55 + 61
𝑀𝑒𝑑ⅈ𝑎 𝑒𝑑𝑎𝑑 =
10
447
𝑀𝑒𝑑ⅈ𝑎 𝑒𝑑𝑎𝑑 =
10
Percepción de inseguridad:
𝑚𝑒𝑑ⅈ𝑎 = 5.3
Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑦)
𝑏1 =
Σ (𝑥ⅈ − 𝑥 )2
Calculo b0:
𝑏1 = −0.66
Coeficiente de Correlación:
𝑟 = 0.87
Comprobación en R:
Ejercicio 6
Se dispone de una muestra de datos de distintos modelos de automóviles de los años 70,
tomados del conjunto de datos mtcars en R. Este conjunto incluye información sobre el peso
de los automóviles (en miles de libras) y su eficiencia de combustible, medida en millas por
galón (mpg). Se busca explorar la relación entre el peso del automóvil y su eficiencia de
combustible [4].
Solución:
La variable independiente es el peso del automóvil (wt). Esta es la variable que se presume
influencia o determina la otra variable. En este contexto, se considera que el peso del
automóvil es un factor que podría afectar su eficiencia de combustible.
Primero calcularemos la media de del peso del automóvil y luego la media de la medida
en millas por galón.
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
(𝑥 − 𝑥̅ ) (𝑦 − 𝑦̅) (𝑥 − 𝑥̅ )2 (𝑦 − 𝑦̅)2 (𝑥 − 𝑥̅ ) ∗
wt(x) mpg(y) (𝑦 − 𝑦̅)
Mazda RX4 2,620 21 -0,37 0,5 0,1369 0,25 0
Mazda RX4 Wag 2,875 21 -0,115 0,5 0,013225 0,25 0
Datsun 710 2,320 22,8 -0,67 2,3 0,4489 5,29 -2
Hornet 4 Drive 3,215 21,4 0,225 0,9 0,050625 0,81 0
Hornet
0,45 -1,8 0,2025 3,24 -1
Sportabout 3,440 18,7
Valiant 3,460 18,1 0,47 -2,4 0,2209 5,76 -1
Sumatoria 17,930 123 -0,01 0 1,07305 15,6 -3,519
Tabla 10. representación de datos
Calculo b1:
Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑦)
𝑏1 =
Σ (𝑥ⅈ − 𝑥 )2
−3,519
𝑏1 =
1,073
𝑏1 = −3,279
Calculo b0:
𝑏0 = 𝑦 − 𝑏1𝑥
𝑏0 = 30,305
𝑦 = 𝑏0 + 𝑏1 𝑥
𝑦 = 30,305 − 3,279𝑥
b) Cálculo del coeficiente de correlación
Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑥𝑦)
𝑟=
√Σ(𝑥ⅈ − 𝑥 )2 ⋅ Σ(𝑦ⅈ − 𝑦)2
−3,519
𝑟=
√1,073 ⋅ 15,6
𝑟 = −0,86
Con este ejercicio, procedemos hacer el cálculo en R para comprobar los cálculos hechos
con la formula ejecutando el siguiente código:
Comprobación en R:
# Cargar el conjunto de datos mtcars
> data(mtcars)
> # Ver las primeras filas del conjunto de datos para entender su estruc
tura
> head(mtcars[c("mpg", "wt")])
mpg wt
Mazda RX4 21.0 2.620
Mazda RX4 Wag 21.0 2.875
Datsun 710 22.8 2.320
Hornet 4 Drive 21.4 3.215
Hornet Sportabout 18.7 3.440
Valiant 18.1 3.460
> x <- c(2.620,2.875,2.320,3.215,3.440,3.460)
> y <- c(21.0,21.0,22.8,21.4,18.7,18.1)
> # Ajuste lineal entre el peso del automóvil (wt) y las millas por galó
n (mpg)
> ajuste_lineal <- lm(y ~ x)
> print(ajuste_lineal)
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept) x
30.300 -3.279
> # Extraer la pendiente y el intercepto de la línea de mejor ajuste
> pendiente <- coef(ajuste_lineal)["x"]
> intercepto <- coef(ajuste_lineal)["(Intercept)"]
> # Mostrar la ecuación de la línea
> cat("Ecuación de la línea: mpg = ", intercepto, " + ", pendiente, "* w
t\n")
Ecuación de la línea: mpg = 30.3002 + -3.279488 * wt
> # Calcular y mostrar el coeficiente de correlación de Pearson
> coef_correlacion <- cor(y, x)
> cat("Coeficiente de correlación de Pearson: ", coef_correlacion, "\n")
Coeficiente de correlación de Pearson: -0.8601028
Como podemos observar, los cálculos hechos con la fórmula y en R solo tienen una
pequeña diferencia entre las cifras decimales, sin embargo, ambos cálculos son correctos.
Ejercicio 7
rm medv
1 6,575 24
2 6,421 21,6
3 7,185 34,7
4 6,998 33,4
5 7,147 36,2
6 6,430 28,7
Tabla 11. representación de datos del ejercicio
En el análisis realizado con el conjunto de datos Boston para estudiar la relación entre el
número medio de habitaciones por vivienda (rm) y el valor medio de las viviendas ocupadas
por sus propietarios (medv) [5]:
La variable dependiente es el valor medio de las viviendas (medv). Esta es la variable que
estamos tratando de predecir o explicar. Aquí, estamos interesados en cómo varía el valor de
las viviendas en función del número de habitaciones que tienen.
Por lo tanto, en este análisis, se investiga si y cómo el número medio de habitaciones en una
vivienda (variable independiente) afecta al valor medio de las viviendas (variable
dependiente) en el área de Boston [5].
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
Primero calcularemos la media de del peso del automóvil y luego la media de la medida en
millas por galón.
(𝑥 − 𝑥̅ ) (𝑦 − 𝑦̅) (𝑥 − 𝑥̅ )2 (𝑦 − 𝑦̅)2 (𝑥 − 𝑥̅ ) ∗
rm (x) medv (y) (𝑦 − 𝑦̅)
1 6,575 24 -0,215 -5,77 0,046 33,29 1,241
2 6,421 21,6 -0,369 -8,17 0,136 66,75 3,015
3 7,185 34,7 0,395 4,93 0,156 24,30 1,947
4 6,998 33,4 0,208 3,63 0,043 13,18 0,755
5 7,147 36,2 0,357 6,43 0,127 41,34 2,296
6 6,430 28,7 -0,360 -1,07 0,130 1,14 0,3852
Sumatoria 40,756 178,6 0,016 -0,020 0,639 180,013 9,638
Tabla 12. representación de datos del ejercicio
Calculo b1:
Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑦)
𝑏1 =
Σ (𝑥ⅈ − 𝑥 )2
9,638
𝑏1 =
0,639
𝑏1 = 15,09
Calculo b0:
𝑏0 = 𝑦 − 𝑏1𝑥
𝑏0 = −72,73
𝑦 = 𝑏0 + 𝑏1 𝑥
𝑦 = −72,73 + 15,09𝑥
a) Cálculo del coeficiente de correlación
Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑥𝑦)
𝑟=
√Σ(𝑥ⅈ − 𝑥 )2 ⋅ Σ(𝑦ⅈ − 𝑦)2
9,638
𝑟=
√0,639 ⋅ 180,013
𝑟 = 0,89
Con este ejercicio, procedemos hacer el cálculo en R para comprobar los cálculos hechos
con la formula ejecutando el siguiente código:
Comprobación en R:
#Ejercicio 7
> # Cargar el paquete y el conjunto de datos Boston
> library(MASS)
> data(Boston)
> # Ver las primeras filas del conjunto de datos para entender
su estructura
> head(Boston[c("rm", "medv")])
rm medv
1 6.575 24.0
2 6.421 21.6
3 7.185 34.7
4 6.998 33.4
5 7.147 36.2
6 6.430 28.7
> # Definir variables x e y para el ajuste lineal
> x <- c(6.575,6.421,7.185,6.998,7.147,6.430)
> y <- c(24,21.6,34.7,33.4,36.2,28.7)
> # Ajuste lineal entre el número medio de habitaciones por vivienda
(rm) y el valor medio de las viviendas (medv)
> ajuste_lineal <- lm(y ~ x)
> print(ajuste_lineal)
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept) x
-72.74 15.09
> # Extraer la pendiente y el intercepto de la línea de mejor ajuste
> pendiente <- coef(ajuste_lineal)["x"]
> intercepto <- coef(ajuste_lineal)["(Intercept)"]
> # Mostrar la ecuación de la línea
> cat("Ecuación de la línea: medv = ", intercepto, " + ", pendiente, "* rm\n")
Ecuación de la línea: medv = -72.74246 + 15.09115 * rm
> # Calcular y mostrar el coeficiente de correlación de Pearson
> coef_correlacion <- cor(x, y)
> cat("Coeficiente de correlación de Pearson: ", coef_correlacion, "\n")
Coeficiente de correlación de Pearson: 0.8989013
>
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
Como podemos observar, los cálculos hechos con la fórmula y en R solo tienen una pequeña
diferencia entre las cifras decimales, sin embargo, ambos cálculos son correctos [5].
Ejercicio 8
El conjunto de datos "airquality" contiene mediciones diarias de la calidad del aire en Nueva
York, incluyendo niveles de ozono, radiación solar, velocidad del viento y temperatura.
Calcularemos el coeficiente de correlación entre la velocidad del viento y la temperatura para
cuantificar la relación lineal entre estas dos variables. Crearemos un modelo de regresión
lineal simple con Temp como variable dependiente y Wind como variable independiente.
(𝑥 − 𝑥̅ ) (𝑦 − 𝑦̅) (𝑥 − 𝑥̅ )2 (𝑦 − 𝑦̅)2 (𝑥 − 𝑥̅ ) ∗
Wind (x) Temp (y) (𝑦 − 𝑦̅)
1 7.4 67 -4.05 0.83 16.4 0.69 -3.37
2 8.0 72 -3.45 5.83 11.9 34.03 -20.13
3 12.6 74 1.15 7.83 1.32 61.36 9.01
4 11.5 62 0.05 -4.17 0.0025 17.36 -0.21
5 14.3 56 2.85 -10.17 8.12 103.36 -28.98
6 14.9 66 3.45 -0.17 11.9 0.03 -0.58
Sumatoria 49.66 216.83 -44.25
Tabla 14. Tabla de datos del ejercicio 8
𝑆𝐶𝑥𝑦 −44.25
𝑟= = = −0.4264
√𝑆𝐶𝑥𝑥 𝑆𝐶𝑦𝑦 √(49.66)(216.83)
Calculo b1:
Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑦)
𝑏1 =
Σ (𝑥ⅈ − 𝑥 )2
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
−44.25
𝑏1 =
49.66
𝑏1 = −0.891
Calculo b0:
𝑏0 = 𝑦 − 𝑏1𝑥
𝑏0 = 76.37
𝑦 = 𝑏0 + 𝑏1 𝑥
𝑦 = −0.891 + 76.37𝑥
Comparación con R
#Ejercicio 8
> # Cargar el paquete y el conjunto de datos airquality
head(airquality)
airqualitySubset <- airquality[1:6, c("Wind", "Temp")]
correlationCoefficient <- cor(airqualitySubset$Wind, airqualitySubset$Temp)
print(paste("Coeficiente de correlación:", correlationCoefficient))
# Construir un modelo de regresión lineal simple
modelo <- lm(Temp ~ Wind, data = airqualitySubset)
# Ver el resumen del modelo
summary(modelo)
Ejercicio 9
Se proporciona un subconjunto del conocido conjunto de datos “iris”, el cual consta de una
muestra de 8 registros seleccionados al azar. Estos datos incluyen dos variables principales:
la longitud del pétalo (x) y el ancho del pétalo (y) de las flores de iris. Se pide analizar cómo
la longitud del pétalo puede influir en el ancho del mismo [6].
Solución:
𝟏𝟏. 𝟔 𝟏. 𝟗
̅=
𝒙 = 𝟏. 𝟒𝟓 ̅=
𝒚 = 𝟎. 𝟐𝟑𝟕𝟓
𝟖 𝟖
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
̅)(𝒀𝒊 − 𝒚
∑(𝑿𝒊 − 𝒙 ̅)
𝒃𝟏 = 𝟐
̅)
∑(𝑿𝒊 − 𝒙
0.045
𝑏1 = = 0.45
0.1
̅ − 𝒃𝟏𝒙
𝒃𝒐 = 𝒚 ̅
𝑏𝑜 = 0.2375 − (0.45)(1.45)
𝒃𝒐 = −𝟎. 𝟒𝟏𝟓
𝒚 = 𝟎. 𝟒𝟓𝒙 − 𝟎. 𝟒𝟏𝟓
Coeficiente de correlación:
̅)(𝒀𝒊 − 𝒚
∑(𝑿𝒊 − 𝒙 ̅)
𝒓=
̅)𝟐 ∗ ∑(𝒀𝒊 − 𝒚
√∑(𝑿𝒊 − 𝒙 ̅ )𝟐
0.045
𝑟=
√0.1 ∗ 0.03875
𝑟 = 0.722
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
Comprobación en R:
En términos prácticos, esto indica que por cada aumento de una unidad en la longitud del
pétalo, se espera, en promedio, un aumento de 0.45 unidades en la anchura del pétalo. Este
resultado puede interpretarse como una indicación de que las flores de iris con pétalos más
largos tienden a tener pétalos más anchos, aunque esta afirmación debe tomarse con cautela
debido al tamaño muy limitado de la muestra [6].
Ejercicio 10:
La base de datos lynx contiene números anuales de captura de linces en Canadá durante
1821-1934. Dado que es una serie temporal, para hacer un ejercicio de regresión lineal
simple, podríamos intentar predecir el número de linces capturados en función del año [6].
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
(𝑥 − 𝑥̅ ) (𝑦 − 𝑦̅) (𝑥 − 𝑥̅ )2 (𝑦 − 𝑦̅)2 (𝑥 − 𝑥̅ ) ∗
Año(x) Linces(y) (𝑦 − 𝑦̅)
1 1821 269 -2.5 -788.00 6.25 620944.0 1970.00
2 1822 321 -1.5 -736.00 2.25 541696.0 1104.00
3 1823 585 -0.5 -472.00 0.25 222784.0 236.00
4 1824 871 0.5 -186.00 0.25 34596.0 -93.00
5 1825 1475 1.5 418.00 2.25 174724.0 627.00
6 1826 2821 2.5 1764.00 6.25 3111696.0 4410.00
Sumatoria 17.5 4706440.0 8254.00
Tabla 18. Tabla de datos del ejercicio 10
𝑆𝐶𝑥𝑦 8254
𝑟= = = 0.9095
√𝑆𝐶𝑥𝑥 𝑆𝐶𝑦𝑦 √(17.5)(4706440)
Calculo b1:
Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑦)
𝑏1 =
Σ (𝑥ⅈ − 𝑥 )2
8254
𝑏1 =
17.5
𝑏1 = 471.7
Calculo b0:
𝑏0 = 𝑦 − 𝑏1𝑥
𝑏0 = −859009.8
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
𝑦 = 𝑏0 + 𝑏1 𝑥
𝑦 = −859009.8 + 471.7𝑥
Comparación con R
#Ejercicio 10
# Cargar los datos de lynx
data(lynx)
# Convertir la serie temporal a un marco de datos
years <- time(lynx)
captures <- as.numeric(lynx)
lynx_df <- data.frame(Year = years, Lynx = captures)
Ejercicio 11:
Temperatura 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
Azúcar 8.1 7.8 8.5 9.8 9.5 8.9 8.6 10. 9.3 9.2 10.5
convertida 2
Tabla 19 Datos del ejercicio 11
∑11
𝑛=11 𝑥𝑛 16.5
𝑥= = = 1.5
11 11
∑11
𝑛=11 𝑦𝑛 100.4
𝑦= = = 9.127
11 11
∑11
𝑛=1(𝑥𝑖 − 𝑥 )(𝑦𝑖 − 𝑦)
𝑏1 =
∑11
𝑛=1(𝑥𝑖 − 𝑥 )
2
1.99
𝑏1 = = 1.80
1.1
𝑏0 = 𝑦 − 𝑏1𝑥
𝑏0 = 9.127 − (1.80)(1.5)
𝑏0 = 6.413
𝑦 = 1.80𝑥 + 6.413
∑11
𝑛=1(𝑥𝑖 −𝑥)(𝑦𝑖 −𝑦)
𝑟=
√∑11 2 11
𝑛=1(𝑥𝑖 −𝑥) ⋅∑𝑛=1(𝑦𝑖 −𝑦)
2
1.99
𝑟=
√1.1 ⋅ 7.2024
1.99
𝑟= = 0.707
2.8147
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
Comprobación es R:
#Ejercicio 1-------------------------------------------------------------------
'Se realizó un estudio sobre la cantidad de azúcar convertida en cierto
proceso a distintas temperaturas. Calcular la recta de regresión y su
coeficiente de correlación. Los datos se codificaron y registraron como
sigue:'
Tem_x <- c(1.0, 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2.0)
Azu_y <- c(8.1, 7.8, 8.5, 9.8, 9.5, 8.9, 8.6, 10.2, 9.3, 9.2, 10.5)
b1 <- cov(Tem_x,Azu_y)/var(Tem_x)
b0 <- media_y-b1*media_x
r <- cov(Tem_x,Azu_y)/sqrt(var(Tem_x)*var(Azu_y))
Ejercicio 12:
Cantidad de lluvia 4.3 4.5 5.9 5.6 6.1 5.2 3.8 2.1 7.5
Partículas 126 121 116 118 114 118 132 141 108
eliminadas
Tabla 22 Datos del Ejercicio 12
Solución:
∑9𝑛=1 𝑥𝑛 45
𝑥= = =5
9 9
∑9𝑛=1 𝑦𝑛 1094
𝑥= = = 121.56
9 9
∑9𝑛=1(𝑥𝑖 − 𝑥 )(𝑦𝑖 − 𝑦)
𝑏1 =
∑9𝑛=1(𝑥𝑖 − 𝑥 )2
−121.8
𝑏1 = = −6.323
19.26
𝑏0 = 𝑦 − 𝑏1𝑥
𝑏0 = 121.56 − (−6.323)(5)
𝑏0 = 153.175
𝑦 = −6.323𝑥 + 153.175
∑9𝑛=1(𝑥𝑖 − 𝑥 )(𝑦𝑖 − 𝑦)
𝑟=
√∑9𝑛=1(𝑥𝑖 − 𝑥 )2 ⋅ ∑9𝑛=1(𝑦𝑖 − 𝑦)2
−121.8
𝑟=
√19.26 ⋅ 804.224
−121.8
𝑟= = −0.978
124.456
Comprobación en R:
#Ejercicio 2-----------------------------------------------------------------------
'Un estudio sobre la cantidad de lluvia y la de contaminación del aire
eliminada. Calcular la recta de regresión y su coeficiente de correlación.
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
Lluvia_x <- c(4.3, 4.5, 5.9, 5.6, 6.1, 5.2, 3.8, 2.1, 7.5)
Part_y <- c(126, 121, 116, 118, 114, 118, 132, 141, 108)
b1 <- cov(Lluvia_x,Part_y)/var(Lluvia_x)
b0 <- y_media-b1*x_media
r <- cov(Lluvia_x,Part_y)/sqrt(var(Lluvia_x)*var(Part_y))
Ejercicio 13:
Solución:
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
𝟓𝟔𝟎 𝟐. 𝟗𝟗
̅=
𝒙 = 𝟕𝟎 ̅=
𝒚 = 𝟎. 𝟑𝟕𝟑𝟕
𝟖 𝟖
175.4460
𝑏1 = = 𝟎. 𝟎𝟏𝟎𝟒
16800.0
𝑏𝑜 = 𝑦̅ − 𝑏1𝑥̅
𝑏𝑜 = 0.3737 − (0.0104)(70)
𝒃𝒐 = −𝟎. 𝟑𝟓𝟒𝟑
𝒚 = 𝟎. 𝟎𝟏𝟎𝟒𝒙 − 𝟎. 𝟑𝟓𝟒𝟑
Coeficiente de correlación:
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR
̅)(𝒀𝒊 − 𝒚
∑(𝑿𝒊 − 𝒙 ̅)
𝒓=
̅)𝟐 ∗ ∑(𝒀𝒊 − 𝒚
√∑(𝑿𝒊 − 𝒙 ̅ )𝟐
175.4460
𝑟=
√16800 ∗ 2.9439
𝑟 = 0.7889
Comprobación en R:
2.3. Conclusiones
2.4. Recomendaciones
2.5. Bibliografía
[1] L. Ambalina, “Los 10 mejores conjuntos de datos abiertos para la regresión lineal,”
HackerNoon, Oct. 27, 2020. https://hackernoon.com/es/los-10-mejores-conjuntos-de-datos-
de-regresion-para-proyectos-de-aprendizaje-automatico-ce4i3wuu
[3] D. Amesquita, “4 ejemplos de uso de regresión lineal en la vida real,” Statologos, Aug. 26,
2022. https://statologos.com/regresion-lineal-ejemplos-de-la-vida-real/
[5] Josep, “Guía completa de regresión lineal: definición, fórmulas y ejemplos,” Conectando
Ideas, Mar. 26, 2023. https://conectandoideas.net/guia-completa-de-regresion-lineal-
definicion-formulas-y-ejemplos/