Está en la página 1de 39

UNIVERSIDAD TÉCNICA DE AMBATO

FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL


CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

UNIVERSIDAD TÉCNICA DE AMBATO

Facultad de Ingeniería en Sistemas, Electrónica e Industrial

Título: Guía Ape 2

Carrera: Software

Nivel y Paralelo: Tercero A

Alumnos participantes: Alban Melanie, Álvarez Freddy,

Chimborazo William, Giler David,

Guangasi Aracelly, Loor Steeven,

Soriano Rafael, Alison Salas.

Asignatura: Probabilidad y Estadística

Docente: Ing. Bolívar Morales

I. GUIA APE 2
2.1. Título
Regresión Lineal
2.2. Objetivos
2.2.1. Objetivo General:
Realizar un análisis de regresión lineal y correlación utilizando una tabla de datos teóricos
o experimentales, con el fin de comprender la relación entre dos variables y extraer
conclusiones significativas.
2.2.2. Objetivos Específicos.
• Desarrollar modelos de regresión lineal que describan la relación entre las
variables. Esto implicará la formulación de ecuaciones lineales y el cálculo de
los coeficientes de regresión.
• Calcular el coeficiente de correlación para determinar la fuerza y la dirección
de la relación entre las variables. Esto permitirá comprender si la relación es
positiva, negativa o nula.
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

• Interpretar los resultados del análisis de regresión y correlación para obtener


conclusiones significativas sobre la relación entre las variables estudiadas.
Esto puede incluir la predicción de valores futuros y la evaluación de la
importancia de la relación en el contexto de la investigación o el problema
planteado.
2.3. Desarrollo

La regresión lineal es un método estadístico utilizado para modelar la relación entre una
variable dependiente y una o más variables independientes al encontrar la línea que minimiza
la suma de los cuadrados de las diferencias entre los valores observados y los predichos. En
términos más profundos, busca establecer la ecuación de una línea recta que mejor se ajusta
a los datos, permitiendo prever o entender la variación en la variable dependiente en función
de las variables independientes. La regresión lineal es esencial en análisis de datos,
inferencia estadística y toma de decisiones en diversos campos, desde ciencias sociales
hasta ciencias físicas [1].

En el contexto de la regresión lineal, es fundamental comprender el papel de los coeficientes


(β) en la ecuación. Estos coeficientes indican la magnitud y dirección de la influencia de cada
variable independiente en la variable dependiente. Por ejemplo, un coeficiente positivo implica
que a medida que la variable independiente aumenta, la variable dependiente también tiende
a aumentar, y viceversa para un coeficiente negativo [1].

Además, la interpretación de la ordenada al origen (0β0) es crucial. Representa el valor


esperado de la variable dependiente cuando todas las variables independientes son cero. En
algunos casos, esta interpretación puede carecer de significado práctico, pero en otros, puede
ofrecer información valiosa sobre el punto de partida del modelo [1].

En términos de evaluación del modelo, se utilizan métricas como el coeficiente de


determinación (2R2), que indica la proporción de la variabilidad en la variable dependiente
explicada por el modelo. Un 2R2 cercano a 1 sugiere un buen ajuste, mientras que valores
más bajos pueden indicar que el modelo no explica adecuadamente la variabilidad observada.

Además, es esencial realizar diagnósticos de residuos para evaluar la validez de las


suposiciones del modelo. Los residuos, o las diferencias entre los valores observados y
predichos, deben cumplir con condiciones como la normalidad y la homocedasticidad para
garantizar la validez de las inferencias realizadas a través del modelo [1].
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

En resumen, la regresión lineal es una herramienta poderosa para modelar relaciones entre
variables, pero su interpretación y evaluación efectiva requieren una comprensión profunda
de los coeficientes, la ordenada al origen y la calidad general del ajuste del modelo [1].

Se representa por la ecuación lineal:

𝑦 = 𝐵0 + 𝐵1𝑥1 + 𝐵2𝑥2 + ⋯ + 𝐵𝑛𝑋𝑛 + 𝐸

Ecuación 1. Ecuación de regresión lineal

∑(𝑥𝑖 ⋅ 𝑥̅ )(𝑦𝑖 ⋅ 𝑦̅)


𝒃𝟏 =
∑(𝑥ⅈ ⋅ 𝑥̅ )2
Ecuación 2. Coeficiente de regresión lineal

∑(𝑥𝑖 ⋅ 𝑥̅ )(𝑦ⅈ ⋅ 𝑦̅)


𝒓=
√𝛴 (𝑥𝑖 − 𝑥̅ )2 ⋅ ∑(𝑦ⅈ ⋅ 𝑦̅)2

Ecuación 3. Coeficiente de determinación

Estas fórmulas proporcionan una base matemática para entender cómo se derivan los
parámetros de la regresión lineal y cómo se mide la calidad del ajuste del modelo [1].

2.4. Ejercicios de aplicación

Ejercicio 1

Se proporciona un conjunto de datos seleccionados de la Bolsa de Valores de Nueva York


(NYSE) que consta de una muestra de 10 registros. Estos datos incluyen dos variables
principales: el precio de cierre de las acciones y el volumen de acciones negociadas. Analizar
cómo el volumen de acciones negociadas puede influir en el precio de cierre de las acciones.

Precio de Cierre (USD) Volumen de Acciones Negociadas


125.84 2,163,600
119.98 2,386,400
114.95 2,489,500
116.62 2,006,300
114.97 1,408,600
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

115.55 1,098,000
112.85 949,600
114.38 785,300
112.53 1,093,700
110.38 1,523,500
Tabla 1. Muestra de 10 registros de la Bolsa de Valores de Nueva York (NYSE).

Solución:

Variable Independiente (X): Volumen de Acciones Negociadas

Variable Dependiente (Y): Precio de Cierre (USD)

X Y ̅
𝑿𝒊 − 𝒙 𝒀𝒊 ̅ )𝟐
(𝑿𝒊 − 𝒙 ̅ )𝟐
(𝒀𝒊 − 𝒚 (𝑿𝒊 − 𝒙
̅)(𝒀𝒊
̅
−𝒚 ̅)
−𝒚
2,163,600 125.84 562,990 13.03 316,957,740,100 169.7809 7,335,759.7
2,386,400 119.98 785,790 7.17 617,465,924,100 51.4089 5,634,114.3
2,489,500 114.95 888,890 2.14 790,125,432,100 4.5796 1,902,224.6
2,006,300 116.62 405,690 3.81 164,584,376,100 14.5161 1,545,678.9
1,408,600 114.97 - 2.16 36,867,840,100 4.6656 -414,741.6
192,010
1,098,000 115.55 - 2.74 252,616,812,100 7.5076 -1,377,151.4
502,610
949,600 112.85 - 0.04 423,814,020,100 0.0016 -26,040.4
651,010
785,300 114.38 - 1.57 664,730,396,100 2.4649 -1,280,036.7
815,310
1,093,700 112.53 - -0.28 256,957,748,100 0.0784 141,934.8
506,910
1,523,500 110.38 -77,110 -2.43 5,945,952,100 5.9049 187,377.3
16,006,100 1,128.05 3,530,066,241 260.9085 13,649,119.5
Tabla 2. Cálculos para la regresión lineal y la correlación de los datos.
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

n=10

X media:

16006,100
̅=
𝒙 = 𝟏, 𝟔𝟎𝟎, 𝟔𝟏𝟎
10

Y media:

1,128.05
̅=
𝒚 = 𝟏𝟏𝟐, 𝟖𝟎𝟓
10

𝑦 = 𝑏1𝑥 + 𝑏0

̅)(𝒀𝒊 − 𝒚
∑(𝑿𝒊 − 𝒙 ̅)
𝒃𝟏 = 𝟐
̅)
∑(𝑿𝒊 − 𝒙

13,649,119.5
𝑏1 = = 𝟑. 𝟗𝟓𝟑𝟖𝟗𝐱𝟏𝟎−𝟔
3,530,066,241

̅ − 𝒃𝟏𝒙
𝒃𝒐 = 𝒚 ̅

𝑏𝑜 = 112,805 − (3.95389x10−6 )(1,600,610)

𝑏𝑜 = 112,805 − 6,328635873x10−6

𝒃𝒐 = 𝟏𝟎𝟗. 𝟓𝟏𝟔𝟓

𝒚 = 𝟑. 𝟗𝟓𝟑𝟖𝟗𝐱𝟏𝟎−𝟔 𝒙 + 𝟏𝟎𝟗. 𝟓𝟏𝟔𝟓

Coeficiente de correlación:

̅)(𝒀𝒊 − 𝒚
∑(𝑿𝒊 − 𝒙 ̅)
𝒓=
̅)𝟐 ∗ ∑(𝒀𝒊 − 𝒚
√∑(𝑿𝒊 − 𝒙 ̅ )𝟐

13,649,119.5
𝑟=
√3,530,066,241 ∗ 260.9085

13,649,119.5
𝑟=
√921,024,287,839.95

𝒓 = 𝟎. 𝟓𝟔𝟕𝟔𝟔𝟐𝟒

Comprobación en R
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Ilustración 1.Comprobación del ejercicio 1 de regresión lineal en R.

El coeficiente de correlación de aproximadamente 0.568 indica una correlación moderada.


Esto implica que, aunque hay alguna relación entre las dos variables, no es extremadamente
fuerte. Es importante recordar que la correlación no implica causalidad.

Estos resultados podrían ser de interés para analistas del mercado de valores que buscan
entender la relación entre el volumen de comercio y los cambios de precio. Pero, dado que la
correlación no es fuerte y no estadísticamente significativa, debería considerarse una de las
muchas métricas en un análisis más amplio del mercado de valores [2].

Ejercicio 2

En astronomía se denomina año sideral al número de años terrestres que un planeta se


demora en completar una revolución alrededor del Sol y depende de la distancia entre los
dos astros. En la tabla se muestra la distancia promedio; el año sideral para los planetas del
Sistema Solar. Emplear los datos para determinar un modelo de regresión que relacione las
dos variables, tomando como variable dependiente al año sideral. (Pala realizar la
transformación adecuada refiérase a la tercera ley de Kepler) [2].
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Ilustración 2. Tabla de datos del Ejercicio 2

- Calculamos x media:

58 + 108 + 150 + 228 + 778 + 1428 + 2871 + 4500 + 5913


𝑥̂ = = 1781,56
9

- Calculamos y media:

0.241 + 0.615 + 1.000 + 1.880 + 11.862 + 29.458 + 84.018 + 164.780 + 248.400


𝑦̂ =
9
= 60,25

- Calculamos todas las sumatorias de los valores para las fórmulas:

∑(𝑥 − 𝑥̂ )(𝑦 − 𝑦̂)

= (−1723.56)(−60.009) + (−1673.56)(−59.635)
+ (−1631.56)(−59.25) + (−1553.56)(−58.37)
+ (−1003.56)(−48.388) + (−353.56)(−30.792) + (1089.44)(23.768)
+ (2718.44)(104.53) + (4131.44)(188.15) = 1537412.95

∑(𝑥 − 𝑥̂ )2 = (−1723.56)2 + (−1673.56)2 + (−1631.56)2 + (−1553.56)2

+ (−1003.56)2 + (−353.56)2 + 1089.442 + 2718.442 + 4131.442


= 37624725,224

∑(𝑦 − 𝑦̂)2 = (−60.009)2 + (−59.635)2 + (−59.25)2 + (−58.37)2 + (−48.388)2

+ (−30.792)2 + 23.7682 + 104.532 + 188.152 = 35400,4225


- Calculamos b1:
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

∑(𝑥 − 𝑥̂ )(𝑦 − 𝑦̂) 1537412.95


𝑏1 = 2
= = 0.04086
∑(𝑥 − 𝑥̂ ) 37624725.224
𝑏0 = 𝑦̂ − 𝑏1𝑥̂ = 60.25 − (0.04086)(1781.56) = −12.5445
Regresión lineal: −12.5445 + 0.04086𝑥

- Calculamos el coeficiente de correlación:

𝑆𝐶𝑥𝑦
𝑟=
√𝑆𝐶𝑥𝑥 𝑆𝐶𝑦𝑦
1537412.95
=
√(37624725.224)(35400.4225)
= 0.9887705

Ilustración 3. Desarrollo del Ejercicio 2 en Software R

Ejercicio 3

Este conjunto de datos proporciona una interesante visión sobre la relación entre la
temperatura ambiental y el consumo de helado. Compuesto por 10 observaciones, explora
cómo varía el consumo de helado en función de las fluctuaciones de temperatura. Con
temperaturas que oscilan entre los 25.75 y 34.45 grados Celsius, y un consumo de helado
correspondiente [3].
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Temperatura Consumo de Helado


28.23 270.67
30.73 316.29
29.04 295.07
28.17 266.37
26.35 278.43
29.69 315.84
26.56 277.43
33.38 331.97
34.45 333.84
25.75 268.06
Tabla 3. Conjunto de datos para la relación entre la temperatura ambiental y el consumo de
helado.

Solución:
Variable Independiente (X): Temperatura

Variable Dependiente (Y): Consumo de Helado

N x y xi - X yi - Y (xi - X)2 (yi - Y)2 (xi - X)(yi - Y)


1 28.23 270.67 -1.005 -24.727 1.010025 611.424529 24.850635
2 30.73 316.29 1.495 20.893 2.235025 436.517449 31.235035
3 29.04 295.07 -0.195 -0.327 0.038025 0.106929 0.063765
4 28.17 266.37 -1.065 -29.027 1.134225 842.566729 30.913755
5 26.35 278.43 -2.885 -16.967 8.323225 287.879089 48.949795
6 29.69 315.84 0.455 20.443 0.207025 417.916249 9.301565
7 26.56 277.43 -2.675 -17.967 7.155625 322.813089 48.061725
8 33.38 331.97 4.145 36.573 17.181025 1337.58433 151.595085
9 34.45 333.84 5.215 38.443 27.196225 1477.86425 200.480245
10 25.75 268.06 -3.485 -27.337 12.145225 747.311569 95.269445
Total 29.235 295.397 76.62565 6481.98421 640.72105

Tabla 4. Cálculos para la regresión lineal y la concurrencia.

n=10
X media = 29.235
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Y media: = 295.397

𝑦 = 𝑏1 𝑥 + 𝑏0

∑(𝑥𝑖 ⋅ 𝑥̅ )(𝑦𝑖 ⋅ 𝑦̅)


𝒃𝟏 =
∑(𝑥ⅈ ⋅ 𝑥̅ )2

640.72105
𝑏1 =
76.62565

𝑏1 = 8.3617

𝑏0 = 𝑦̅ − 𝑏1 𝑥̅

𝑏0 = 295.39 − 8.36 ∗29.24


𝑏0 = 295.39 − 244.4464
𝑏0 = 50.9436

𝑦 = 𝑏1 𝑥 + 𝑏0
𝑦 = 8.36𝑥 + 50.94

Coeficiente de Correlación.

∑(𝑥𝑖 ⋅ 𝑥̅ )(𝑦ⅈ ⋅ 𝑦̅)


𝒓=
√𝛴 (𝑥𝑖 − 𝑥̅ )2 ⋅ ∑(𝑦ⅈ ⋅ 𝑦̅)2

640.72105
𝒓=
√76.62 ∗ 6481.98

640.72105
𝒓=
704.7597

𝒓 = 0.90913

Comprobación en R.
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Ilustración 3.Comprobación del ejercicio 3 de regresión lineal y concurrencia

Ejercicio 4

Hay datos que examinan el rendimiento de diferentes modelos de automóviles en cuanto a


millas por galón (MPG) y el tamaño del motor en litros. El objetivo de esta investigación es
analizar cómo el tamaño del motor puede influir en el rendimiento de un automóvil [3].

Rendimiento Tamaño del motor


22.5 2.0
25.1 1.8
18.3 3.2
20.2 2.5
16.8 4.0
23.5 1.6
19.7 2.8
17.9 3.5
21.4 2.2
24.8 1.5
Tabla 5. Muestra de 10 registros de rendimiento de un motor.

Solución:
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Variable Independiente (X): Tamaño del motor (Litros)

Variable Dependiente (Y): Rendimiento (MPG)

x y 𝑥ⅈ − 𝑥 𝑦ⅈ − 𝑦 (𝑥ⅈ − 𝑥 )2 (𝑦ⅈ − 𝑦)2 (𝑥ⅈ − 𝑥 )(𝑦ⅈ


− 𝑥𝑦)
2.0 22.5 -0.41 2.08 0.1681 3.06 0.51408
1.8 25.1 -0.61 -2.12 0.3721 17.01 6.329421
3.2 18.3 0.79 -2.52 0.62241 7.32 4.55596
2.5 20.2 0.09 -3.62 0.0081 0.27 0.00216
4.0 16.8 1.59 -0.22 2.5281 18.81 47.5535
1.6 23.5 -0.81 -0.72 0.6561 7.32 4.802652
2.8 19.7 0.39 0.98 0.1521 2.40 0.36504
3.5 17.9 1.09 3.08 1.2141 10.24 12.43238
2.2 21.4 -0.21 4.38 0.0261 0.42 0.01096
1.5 24.8 -0.91 4.68 0.4641 13.16 6.10705
Tabla 6. Cálculos para la regresión lineal y la correlación de los datos

N=10.

X media:

25.1
𝑀𝑒𝑑ⅈ𝑎:
10

𝑀𝑒𝑑ⅈ𝑎: 2.51

220
𝑀𝑒𝑑ⅈ𝑎:
10

𝑀𝑒𝑑ⅈ𝑎: 22

𝑦 = 𝑏1𝑥 + 𝑏0

Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑦)
𝑏1 =
Σ(𝑥ⅈ − 𝑥 )2
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

𝑏1 = 3.76

𝑏0 = (𝑦 − 𝑏1𝑥 )

𝑏0 = 22 − 3.76 ⋅ 2.51

𝑏0 = 12.91

Coeficiente de correlación:

Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑦)
𝑏1 =
√Σ(𝑥ⅈ − 𝑥 )2 ⋅ Σ(𝑦ⅈ − 𝑦)

82.675053
𝑟=
√6.21131 ⋅ 80.01

R=-0.963476

Comprobación en R:

Ilustración 4. Comprobación del ejercicio en R

Ejercicio 5

En determinado barrio se desea saber si existe alguna relación entre la edad de los vecinos
y la “percepción de inseguridad en el barrio”, medida en una escala del 0-10 donde el 0
presenta “totalmente seguro” y el 10 representa “totalmente inseguro”. Se realiza un pequeño
pre-test con 10 individuos, obteniendo los siguientes datos:
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Edad Inseguridad
34 4.5
27 3
65 7
20 3.5
53 8
49 5
42 4
31 4
55 5.5
61 7.5
Tabla 7. representación de datos del ejercicio

- ¿Qué puntuación sobre la inseguridad en el barrio obtendría un individuo de 25 años?


¿Y un individuo de 70?
- Estudiar la correlación de las variables e interpretar los coeficientes.

x y (𝑥ⅈ − 𝑥 ) (𝑦ⅈ − 𝑦) (𝑥ⅈ − 𝑥 )2 (𝑦ⅈ − 𝑦)2 (𝑥ⅈ − 𝑥 )(𝑦ⅈ


− 𝑦)
34 4.5 9.7 -0.7 94.09 0.49 914.673
27 3 16.6 -2.2 275.56 4.84 4592.56
65 7 -21.3 1.8 453.69 3.24 9614.269
20 3.5 23.7 -1.7 561.69 2.89 13316.89
53 8 -9.3 2.8 86.49 7.84 860.49
49 5 -5.3 -0.2 28.09 0.04 140.89
42 4 1.7 -1.2 2.89 1.44 4.913
31 4 12.7 -1.2 161.29 1.44 2044.09
55 5.5 -11.3 0.3 127.69 0.09 1438.09
61 7.5 -17.3 2.3 299.29 5.29 4882.29
Tabla 8. Datos obtenidos de regresión lineal

Solución:

Edad:
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

34 + 27 + 65 + 20 + 53 + 49 + 42 + 31 + 55 + 61
𝑀𝑒𝑑ⅈ𝑎 𝑒𝑑𝑎𝑑 =
10

447
𝑀𝑒𝑑ⅈ𝑎 𝑒𝑑𝑎𝑑 =
10

𝑀𝑒𝑑ⅈ𝑎 𝑒𝑑𝑎𝑑 = 44.7

Percepción de inseguridad:

4.5 + 3 + 7 + 3.5 + 8 + 5 + 4 + 4 + 5.5 + 7.5


𝑚𝑒𝑑ⅈ𝑎 =
10

𝑚𝑒𝑑ⅈ𝑎 = 5.3

Calculo b1 y b0 para regresión lineal.

Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑦)
𝑏1 =
Σ (𝑥ⅈ − 𝑥 )2

Calculo b0:

𝑏1 = −0.66

Coeficiente de Correlación:

Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑥𝑦)


𝑟=
√Σ(𝑥ⅈ − 𝑥 )2 ⋅ Σ(𝑦ⅈ − 𝑦)2

𝑟 = 0.87

Comprobación en R:

Ilustración 5. Comprobación en R del ejercicio


UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Ejercicio 6

Se dispone de una muestra de datos de distintos modelos de automóviles de los años 70,
tomados del conjunto de datos mtcars en R. Este conjunto incluye información sobre el peso
de los automóviles (en miles de libras) y su eficiencia de combustible, medida en millas por
galón (mpg). Se busca explorar la relación entre el peso del automóvil y su eficiencia de
combustible [4].

a) Calcule la Recta de Regresión


b) Calcule el Coeficiente de Correlación

Modelos de Autos mpg wt


Mazda RX4 2,62 21
Mazda RX4 Wag 2,875 21
Datsun 710 2,32 22,8
Hornet 4 Drive 3,215 21,4
Hornet Sportabout 3,44 18,7
Valiant 3,46 18,1
Tabla 9. Representación de datos del ejercicio

Solución:

En el ejercicio propuesto utilizando el conjunto de datos mtcars de R, donde se explora la


relación entre el peso del automóvil (wt) y las millas por galón (mpg):

La variable independiente es el peso del automóvil (wt). Esta es la variable que se presume
influencia o determina la otra variable. En este contexto, se considera que el peso del
automóvil es un factor que podría afectar su eficiencia de combustible.

La variable dependiente es la eficiencia de combustible medida en millas por galón (mpg).


Esta es la variable que estamos tratando de explicar o predecir. En este análisis, se busca
entender cómo cambia la eficiencia de combustible en función del peso del automóvil.

a) Cálculo de la Recta de Regresión

Primero calcularemos la media de del peso del automóvil y luego la media de la medida
en millas por galón.
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

2,62 + 2,875 + 2,32 + 3,215 + 3,44 + 3,46


𝑥̅ = = 2,99
6

21 + 21 + 22,8 + 21,4 + 18,7 + 18,1


𝑦̅ = = 20,5
6

Seguidamente en una tabla procedemos a calcular valores que nos ayudaran a


reemplazarlos en las fórmulas correspondientes:

(𝑥 − 𝑥̅ ) (𝑦 − 𝑦̅) (𝑥 − 𝑥̅ )2 (𝑦 − 𝑦̅)2 (𝑥 − 𝑥̅ ) ∗
wt(x) mpg(y) (𝑦 − 𝑦̅)
Mazda RX4 2,620 21 -0,37 0,5 0,1369 0,25 0
Mazda RX4 Wag 2,875 21 -0,115 0,5 0,013225 0,25 0
Datsun 710 2,320 22,8 -0,67 2,3 0,4489 5,29 -2
Hornet 4 Drive 3,215 21,4 0,225 0,9 0,050625 0,81 0
Hornet
0,45 -1,8 0,2025 3,24 -1
Sportabout 3,440 18,7
Valiant 3,460 18,1 0,47 -2,4 0,2209 5,76 -1
Sumatoria 17,930 123 -0,01 0 1,07305 15,6 -3,519
Tabla 10. representación de datos

Calculo b1:

Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑦)
𝑏1 =
Σ (𝑥ⅈ − 𝑥 )2

−3,519
𝑏1 =
1,073

𝑏1 = −3,279

Calculo b0:

𝑏0 = 𝑦 − 𝑏1𝑥

𝑏0 = 20,5 − (−3,279 ∗ 2,99)

𝑏0 = 30,305

En base a esto tenemos que la recta de regresión es:


UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

𝑦 = 𝑏0 + 𝑏1 𝑥

𝑦 = 30,305 − 3,279𝑥
b) Cálculo del coeficiente de correlación
Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑥𝑦)
𝑟=
√Σ(𝑥ⅈ − 𝑥 )2 ⋅ Σ(𝑦ⅈ − 𝑦)2

−3,519
𝑟=
√1,073 ⋅ 15,6

𝑟 = −0,86

Con este ejercicio, procedemos hacer el cálculo en R para comprobar los cálculos hechos
con la formula ejecutando el siguiente código:
Comprobación en R:
# Cargar el conjunto de datos mtcars
> data(mtcars)
> # Ver las primeras filas del conjunto de datos para entender su estruc
tura
> head(mtcars[c("mpg", "wt")])
mpg wt
Mazda RX4 21.0 2.620
Mazda RX4 Wag 21.0 2.875
Datsun 710 22.8 2.320
Hornet 4 Drive 21.4 3.215
Hornet Sportabout 18.7 3.440
Valiant 18.1 3.460
> x <- c(2.620,2.875,2.320,3.215,3.440,3.460)
> y <- c(21.0,21.0,22.8,21.4,18.7,18.1)
> # Ajuste lineal entre el peso del automóvil (wt) y las millas por galó
n (mpg)
> ajuste_lineal <- lm(y ~ x)
> print(ajuste_lineal)
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept) x
30.300 -3.279
> # Extraer la pendiente y el intercepto de la línea de mejor ajuste
> pendiente <- coef(ajuste_lineal)["x"]
> intercepto <- coef(ajuste_lineal)["(Intercept)"]
> # Mostrar la ecuación de la línea
> cat("Ecuación de la línea: mpg = ", intercepto, " + ", pendiente, "* w
t\n")
Ecuación de la línea: mpg = 30.3002 + -3.279488 * wt
> # Calcular y mostrar el coeficiente de correlación de Pearson
> coef_correlacion <- cor(y, x)
> cat("Coeficiente de correlación de Pearson: ", coef_correlacion, "\n")
Coeficiente de correlación de Pearson: -0.8601028

Ilustración 6. Comprobación en R del ejercicio


UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Como podemos observar, los cálculos hechos con la fórmula y en R solo tienen una
pequeña diferencia entre las cifras decimales, sin embargo, ambos cálculos son correctos.

Ejercicio 7

El conjunto de datos Boston incluye información detallada sobre diferentes características de


las viviendas en los suburbios de Boston. Entre estas características, se encuentra el número
medio de habitaciones por vivienda (rm) y el valor medio de las viviendas ocupadas por sus
propietarios (medv). Se busca explorar cómo el número de habitaciones en una vivienda
puede influir en su valor de mercado [5].

a) Calcule la Recta de Regresión


b) Calcule el Coeficiente de Correlación

rm medv
1 6,575 24
2 6,421 21,6
3 7,185 34,7
4 6,998 33,4
5 7,147 36,2
6 6,430 28,7
Tabla 11. representación de datos del ejercicio

En el análisis realizado con el conjunto de datos Boston para estudiar la relación entre el
número medio de habitaciones por vivienda (rm) y el valor medio de las viviendas ocupadas
por sus propietarios (medv) [5]:

La variable independiente es el número medio de habitaciones por vivienda (rm). Esta es la


variable que se utiliza para predecir o explicar la otra variable. En este contexto, se considera
que el número de habitaciones en una vivienda podría influir en su valor de mercado [5].

La variable dependiente es el valor medio de las viviendas (medv). Esta es la variable que
estamos tratando de predecir o explicar. Aquí, estamos interesados en cómo varía el valor de
las viviendas en función del número de habitaciones que tienen.

Por lo tanto, en este análisis, se investiga si y cómo el número medio de habitaciones en una
vivienda (variable independiente) afecta al valor medio de las viviendas (variable
dependiente) en el área de Boston [5].
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Primero calcularemos la media de del peso del automóvil y luego la media de la medida en
millas por galón.

6,575 + 6,421 + 7,185 + 6,998 + 7,147 + 6,430


𝑥̅ = = 6,79
6

24 + 21,6 + 34,7 + 33,4 + 36,2 + 28,7


𝑦̅ = = 29,77
6

Seguidamente en una tabla procedemos a calcular valores que nos ayudaran a


reemplazarlos en las fórmulas correspondientes:

(𝑥 − 𝑥̅ ) (𝑦 − 𝑦̅) (𝑥 − 𝑥̅ )2 (𝑦 − 𝑦̅)2 (𝑥 − 𝑥̅ ) ∗
rm (x) medv (y) (𝑦 − 𝑦̅)
1 6,575 24 -0,215 -5,77 0,046 33,29 1,241
2 6,421 21,6 -0,369 -8,17 0,136 66,75 3,015
3 7,185 34,7 0,395 4,93 0,156 24,30 1,947
4 6,998 33,4 0,208 3,63 0,043 13,18 0,755
5 7,147 36,2 0,357 6,43 0,127 41,34 2,296
6 6,430 28,7 -0,360 -1,07 0,130 1,14 0,3852
Sumatoria 40,756 178,6 0,016 -0,020 0,639 180,013 9,638
Tabla 12. representación de datos del ejercicio

Calculo b1:

Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑦)
𝑏1 =
Σ (𝑥ⅈ − 𝑥 )2

9,638
𝑏1 =
0,639

𝑏1 = 15,09

Calculo b0:

𝑏0 = 𝑦 − 𝑏1𝑥

𝑏0 = 29,77 − (15,09 ∗ 6,79)

𝑏0 = −72,73

En base a esto tenemos que la recta de regresión es:


UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

𝑦 = 𝑏0 + 𝑏1 𝑥

𝑦 = −72,73 + 15,09𝑥
a) Cálculo del coeficiente de correlación
Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑥𝑦)
𝑟=
√Σ(𝑥ⅈ − 𝑥 )2 ⋅ Σ(𝑦ⅈ − 𝑦)2

9,638
𝑟=
√0,639 ⋅ 180,013

𝑟 = 0,89

Con este ejercicio, procedemos hacer el cálculo en R para comprobar los cálculos hechos
con la formula ejecutando el siguiente código:
Comprobación en R:
#Ejercicio 7
> # Cargar el paquete y el conjunto de datos Boston
> library(MASS)
> data(Boston)
> # Ver las primeras filas del conjunto de datos para entender
su estructura
> head(Boston[c("rm", "medv")])
rm medv
1 6.575 24.0
2 6.421 21.6
3 7.185 34.7
4 6.998 33.4
5 7.147 36.2
6 6.430 28.7
> # Definir variables x e y para el ajuste lineal
> x <- c(6.575,6.421,7.185,6.998,7.147,6.430)
> y <- c(24,21.6,34.7,33.4,36.2,28.7)
> # Ajuste lineal entre el número medio de habitaciones por vivienda
(rm) y el valor medio de las viviendas (medv)
> ajuste_lineal <- lm(y ~ x)
> print(ajuste_lineal)
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept) x
-72.74 15.09
> # Extraer la pendiente y el intercepto de la línea de mejor ajuste
> pendiente <- coef(ajuste_lineal)["x"]
> intercepto <- coef(ajuste_lineal)["(Intercept)"]
> # Mostrar la ecuación de la línea
> cat("Ecuación de la línea: medv = ", intercepto, " + ", pendiente, "* rm\n")
Ecuación de la línea: medv = -72.74246 + 15.09115 * rm
> # Calcular y mostrar el coeficiente de correlación de Pearson
> coef_correlacion <- cor(x, y)
> cat("Coeficiente de correlación de Pearson: ", coef_correlacion, "\n")
Coeficiente de correlación de Pearson: 0.8989013
>
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Como podemos observar, los cálculos hechos con la fórmula y en R solo tienen una pequeña
diferencia entre las cifras decimales, sin embargo, ambos cálculos son correctos [5].

Ejercicio 8

El conjunto de datos "airquality" contiene mediciones diarias de la calidad del aire en Nueva
York, incluyendo niveles de ozono, radiación solar, velocidad del viento y temperatura.
Calcularemos el coeficiente de correlación entre la velocidad del viento y la temperatura para
cuantificar la relación lineal entre estas dos variables. Crearemos un modelo de regresión
lineal simple con Temp como variable dependiente y Wind como variable independiente.

Wind 7.4 8.0 12.6 11.5 14.3 14.9


Temp. 67 72 74 62 56 66
Tabla 13. Tabla de datos del ejercicio

(𝑥 − 𝑥̅ ) (𝑦 − 𝑦̅) (𝑥 − 𝑥̅ )2 (𝑦 − 𝑦̅)2 (𝑥 − 𝑥̅ ) ∗
Wind (x) Temp (y) (𝑦 − 𝑦̅)
1 7.4 67 -4.05 0.83 16.4 0.69 -3.37
2 8.0 72 -3.45 5.83 11.9 34.03 -20.13
3 12.6 74 1.15 7.83 1.32 61.36 9.01
4 11.5 62 0.05 -4.17 0.0025 17.36 -0.21
5 14.3 56 2.85 -10.17 8.12 103.36 -28.98
6 14.9 66 3.45 -0.17 11.9 0.03 -0.58
Sumatoria 49.66 216.83 -44.25
Tabla 14. Tabla de datos del ejercicio 8

• Determinar el coeficiente de correlación lineal y analizar el resultado.


• 𝑥̅ = 11.45
• 𝑦̅ = 66.17

𝑆𝐶𝑥𝑦 −44.25
𝑟= = = −0.4264
√𝑆𝐶𝑥𝑥 𝑆𝐶𝑦𝑦 √(49.66)(216.83)

• Determinar el modelo lineal simple

Calculo b1:

Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑦)
𝑏1 =
Σ (𝑥ⅈ − 𝑥 )2
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

−44.25
𝑏1 =
49.66

𝑏1 = −0.891

Calculo b0:

𝑏0 = 𝑦 − 𝑏1𝑥

𝑏0 = 66.17 − (−0.891 ∗ 11.45)

𝑏0 = 76.37

En base a esto tenemos que la recta de regresión es:

𝑦 = 𝑏0 + 𝑏1 𝑥

𝑦 = −0.891 + 76.37𝑥
Comparación con R

#Ejercicio 8
> # Cargar el paquete y el conjunto de datos airquality
head(airquality)
airqualitySubset <- airquality[1:6, c("Wind", "Temp")]
correlationCoefficient <- cor(airqualitySubset$Wind, airqualitySubset$Temp)
print(paste("Coeficiente de correlación:", correlationCoefficient))
# Construir un modelo de regresión lineal simple
modelo <- lm(Temp ~ Wind, data = airqualitySubset)
# Ver el resumen del modelo
summary(modelo)

Ilustración 7. Comprobación en R Ejercicio 8


UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Ilustración 8. Comprobación en R Ejercicio 8

Ejercicio 9

Se proporciona un subconjunto del conocido conjunto de datos “iris”, el cual consta de una
muestra de 8 registros seleccionados al azar. Estos datos incluyen dos variables principales:
la longitud del pétalo (x) y el ancho del pétalo (y) de las flores de iris. Se pide analizar cómo
la longitud del pétalo puede influir en el ancho del mismo [6].

Longitud del pétalo (x) Ancho del pétalo (y)


1.4 0.2
1.4 0.2
1.3 0.2
1.5 0.2
1.4 0.2
1.7 0.4
1.4 0.3
1.5 0.2
Tabla 15. Tabla de datos del ejercicio

Solución:

Se identifica a la variable independiente como la longitud del pétalo y la variable dependiente


como el ancho del pétalo.

𝟏𝟏. 𝟔 𝟏. 𝟗
̅=
𝒙 = 𝟏. 𝟒𝟓 ̅=
𝒚 = 𝟎. 𝟐𝟑𝟕𝟓
𝟖 𝟖
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

n 𝑥𝑖 𝑦𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 (𝑥𝑖 − 𝑥 )2 (𝑦𝑖 − 𝑦)2 (𝑥𝑖 − 𝑥 )(𝑦𝑖 − 𝑦)


1 1.4 0.2 -0.05 -0.0375 0.0025 0.001406 0.001875
2 1.4 0.2 -0.05 -0.0375 0.0025 0.001406 0.001875
3 1.3 0.2 -0.15 -0.0375 0.0225 0.001406 0.005625
4 1.5 0.2 0.05 -0.0375 0.0025 0.001406 -0.001875
5 1.4 0.2 -0.05 -0.0375 0.0025 0.001406 0.001875
6 1.7 0.4 0.25 0.1625 0.0625 0.026406 0.040625
7 1.4 0.3 -0.05 0.0625 0.0025 0.003906 -0.003125
8 1.5 0.2 0.05 -0.0375 0.0025 0.001406 -0.001875
∑ 11.6 1.9 -0.1 1.6625 0.1 0.03875 0.045
Tabla 16: Tabla de cálculos. Ejercicio 9

̅)(𝒀𝒊 − 𝒚
∑(𝑿𝒊 − 𝒙 ̅)
𝒃𝟏 = 𝟐
̅)
∑(𝑿𝒊 − 𝒙

0.045
𝑏1 = = 0.45
0.1

̅ − 𝒃𝟏𝒙
𝒃𝒐 = 𝒚 ̅

𝑏𝑜 = 0.2375 − (0.45)(1.45)

𝒃𝒐 = −𝟎. 𝟒𝟏𝟓

𝒚 = 𝟎. 𝟒𝟓𝒙 − 𝟎. 𝟒𝟏𝟓

Coeficiente de correlación:

̅)(𝒀𝒊 − 𝒚
∑(𝑿𝒊 − 𝒙 ̅)
𝒓=
̅)𝟐 ∗ ∑(𝒀𝒊 − 𝒚
√∑(𝑿𝒊 − 𝒙 ̅ )𝟐

0.045
𝑟=
√0.1 ∗ 0.03875

𝑟 = 0.722
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Comprobación en R:

Ilustración 9: Comprobación en R. Ejercicio 9

El análisis realizado sobre un subconjunto seleccionado del conjunto de datos iris,


específicamente con 8 observaciones enfocándose en la longitud y la anchura de los pétalos
de las flores de iris, revela una relación interesante entre estas dos variables. El coeficiente
de la pendiente b1 en la regresión lineal se calculó como 0.45, lo que sugiere una relación
positiva moderada entre la longitud del pétalo (variable independiente x) y su anchura
(variable dependiente y) [6].

En términos prácticos, esto indica que por cada aumento de una unidad en la longitud del
pétalo, se espera, en promedio, un aumento de 0.45 unidades en la anchura del pétalo. Este
resultado puede interpretarse como una indicación de que las flores de iris con pétalos más
largos tienden a tener pétalos más anchos, aunque esta afirmación debe tomarse con cautela
debido al tamaño muy limitado de la muestra [6].

Ejercicio 10:

La base de datos lynx contiene números anuales de captura de linces en Canadá durante
1821-1934. Dado que es una serie temporal, para hacer un ejercicio de regresión lineal
simple, podríamos intentar predecir el número de linces capturados en función del año [6].
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Año 1821 1822 1823 1824 1825 1826


Linces. 269 321 585 871 1475 2821
Tabla 17. Tabla de datos del ejercicio 10

(𝑥 − 𝑥̅ ) (𝑦 − 𝑦̅) (𝑥 − 𝑥̅ )2 (𝑦 − 𝑦̅)2 (𝑥 − 𝑥̅ ) ∗
Año(x) Linces(y) (𝑦 − 𝑦̅)
1 1821 269 -2.5 -788.00 6.25 620944.0 1970.00
2 1822 321 -1.5 -736.00 2.25 541696.0 1104.00
3 1823 585 -0.5 -472.00 0.25 222784.0 236.00
4 1824 871 0.5 -186.00 0.25 34596.0 -93.00
5 1825 1475 1.5 418.00 2.25 174724.0 627.00
6 1826 2821 2.5 1764.00 6.25 3111696.0 4410.00
Sumatoria 17.5 4706440.0 8254.00
Tabla 18. Tabla de datos del ejercicio 10

• Determinar el coeficiente de correlación lineal y analizar el resultado.


• 𝑥̅ = 1823.5
• 𝑦̅ = 1057

𝑆𝐶𝑥𝑦 8254
𝑟= = = 0.9095
√𝑆𝐶𝑥𝑥 𝑆𝐶𝑦𝑦 √(17.5)(4706440)

• Determinar el modelo lineal simple

Calculo b1:

Σ(𝑥ⅈ − 𝑥 )(𝑦ⅈ − 𝑦)
𝑏1 =
Σ (𝑥ⅈ − 𝑥 )2

8254
𝑏1 =
17.5

𝑏1 = 471.7

Calculo b0:

𝑏0 = 𝑦 − 𝑏1𝑥

𝑏0 = 1057 − (471.7 ∗ 1823.5)

𝑏0 = −859009.8
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

En base a esto tenemos que la recta de regresión es:

𝑦 = 𝑏0 + 𝑏1 𝑥

𝑦 = −859009.8 + 471.7𝑥
Comparación con R

#Ejercicio 10
# Cargar los datos de lynx
data(lynx)
# Convertir la serie temporal a un marco de datos
years <- time(lynx)
captures <- as.numeric(lynx)
lynx_df <- data.frame(Year = years, Lynx = captures)

# Tomar las primeras 6 observaciones


lynx_subset <- lynx_df[1:6, ]

# Calcular el coeficiente de correlación de Pearson


correlation_coefficient <- cor(lynx_subset$Year, lynx_subset$Lynx)
print(paste("Coeficiente de correlación:", correlation_coefficient))
# Construir un modelo de regresión lineal simple
modelo <- lm(Lynx ~ Year, data = lynx_subset)
# Ver el resumen del modelo
summary(modelo)

Ilustración 10 Comprobación con R Ejercicio10


UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Ilustración 11 Comprobación con R Ejercicio10

Ejercicio 11:

Se realizó un estudio sobre la cantidad de azúcar convertida en cierto proceso a distintas


temperaturas. Calcular la recta de regresión y su coeficiente de correlación. Los datos se
codificaron y registraron como sigue:

Temperatura 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
Azúcar 8.1 7.8 8.5 9.8 9.5 8.9 8.6 10. 9.3 9.2 10.5
convertida 2
Tabla 19 Datos del ejercicio 11

∑11
𝑛=11 𝑥𝑛 16.5
𝑥= = = 1.5
11 11

∑11
𝑛=11 𝑦𝑛 100.4
𝑦= = = 9.127
11 11

𝑥𝑖 𝑦𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 (𝑥𝑖 − 𝑥 )2 (𝑦𝑖 − 𝑦)2 (𝑥𝑖 − 𝑥 )(𝑦𝑖 − 𝑦)


1.0 8.1 -0.5 -1.02 0.25 1.0404 0.51
1.1 7.8 -0.4 -1.32 0.16 1.7424 0.528
1.2 8.5 -0.3 -0.62 0.09 0.3844 0.186
1.3 9.8 -0.2 0.68 0.04 0.4624 -0.136
1.4 9.5 -0.1 0.38 0.01 0.1444 -0.038
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

1.5 8.9 0 -0.22 0 0.0484 0


1.6 8.6 0.1 -0.52 0.01 0.2704 -0.052
1.7 10.2 0.2 1.08 0.04 1.1664 0.216
1.8 9.3 0.3 0.18 0.09 0.0324 0.054
1.9 9.2 0.4 0.08 0.16 0.0064 0.032
2.0 10.5 0.5 1.38 0.25 1.9044 0.69

∑ 1.1 ∑ 7.2024 ∑ 1.99

Tabla 20 Cálculos del ejercicio 11

∑11
𝑛=1(𝑥𝑖 − 𝑥 )(𝑦𝑖 − 𝑦)
𝑏1 =
∑11
𝑛=1(𝑥𝑖 − 𝑥 )
2

1.99
𝑏1 = = 1.80
1.1

𝑏0 = 𝑦 − 𝑏1𝑥

𝑏0 = 9.127 − (1.80)(1.5)

𝑏0 = 6.413

𝑦 = 1.80𝑥 + 6.413

Ahora calculamos el coeficiente de correlación:

∑11
𝑛=1(𝑥𝑖 −𝑥)(𝑦𝑖 −𝑦)
𝑟=
√∑11 2 11
𝑛=1(𝑥𝑖 −𝑥) ⋅∑𝑛=1(𝑦𝑖 −𝑦)
2

1.99
𝑟=
√1.1 ⋅ 7.2024

1.99
𝑟= = 0.707
2.8147
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Comprobación es R:

#Ejercicio 1-------------------------------------------------------------------
'Se realizó un estudio sobre la cantidad de azúcar convertida en cierto
proceso a distintas temperaturas. Calcular la recta de regresión y su
coeficiente de correlación. Los datos se codificaron y registraron como
sigue:'

Tem_x <- c(1.0, 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2.0)
Azu_y <- c(8.1, 7.8, 8.5, 9.8, 9.5, 8.9, 8.6, 10.2, 9.3, 9.2, 10.5)

media_x <- mean(Tem_x)


media_y <- mean(Azu_y)

b1 <- cov(Tem_x,Azu_y)/var(Tem_x)

b0 <- media_y-b1*media_x

funcion <- b1*Tem_x+b0

plot(Tem_x,Azu_y,xlab = "Temperatura",ylab = "Azucar convertida")


lines(Tem_x,funcion,col="blue")

r <- cov(Tem_x,Azu_y)/sqrt(var(Tem_x)*var(Azu_y))

cat("Promedio x: ", media_x)


cat("Promedio y: ", media_y)
cat("b1: ", b1)
cat("b0: ", b0)
cat("r: ", r)
Tabla 21 Código del Ejercicio 11 en R
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Ilustración 12 Comprobación Ejercicio 11

Ejercicio 12:

Un estudio sobre la cantidad de lluvia y la de contaminación del aire eliminada. Calcular la


recta de regresión y su coeficiente de correlación. Se produjo los siguientes datos:

Cantidad de lluvia 4.3 4.5 5.9 5.6 6.1 5.2 3.8 2.1 7.5
Partículas 126 121 116 118 114 118 132 141 108
eliminadas
Tabla 22 Datos del Ejercicio 12

Solución:

∑9𝑛=1 𝑥𝑛 45
𝑥= = =5
9 9

∑9𝑛=1 𝑦𝑛 1094
𝑥= = = 121.56
9 9

𝑥𝑖 𝑦𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 (𝑥𝑖 − 𝑥 )2 (𝑦𝑖 − 𝑦)2 (𝑥𝑖 − 𝑥 )(𝑦𝑖 − 𝑦)


4.3 126 -0.7 4.44 0.49 19.7136 -3.108
4.5 121 -0.5 -0.56 0.25 0.3136 0.28
5.9 116 0.9 -5.56 0.81 30.9136 -5.004
5.6 118 0.6 -3.56 0.36 12.6736 -2.136
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

6.1 114 1.1 -7.56 1.21 57.1536 -8.316


5.2 118 0.2 -3.56 0.04 12.6736 -0.712
3.8 132 -1.2 10.44 1.44 108.9936 -12.528
2.1 141 -2.9 19.44 8.41 377.9136 -56.376
7.5 108 2.5 -13.56 6.25 183.8736 -33.9
19.26 804.224 -121.8
Tabla 23 Cálculos del Ejercicio 12

∑9𝑛=1(𝑥𝑖 − 𝑥 )(𝑦𝑖 − 𝑦)
𝑏1 =
∑9𝑛=1(𝑥𝑖 − 𝑥 )2

−121.8
𝑏1 = = −6.323
19.26

𝑏0 = 𝑦 − 𝑏1𝑥

𝑏0 = 121.56 − (−6.323)(5)

𝑏0 = 153.175

𝑦 = −6.323𝑥 + 153.175

Calculamos el coeficiente de correlación:

∑9𝑛=1(𝑥𝑖 − 𝑥 )(𝑦𝑖 − 𝑦)
𝑟=
√∑9𝑛=1(𝑥𝑖 − 𝑥 )2 ⋅ ∑9𝑛=1(𝑦𝑖 − 𝑦)2

−121.8
𝑟=
√19.26 ⋅ 804.224

−121.8
𝑟= = −0.978
124.456

Comprobación en R:

#Ejercicio 2-----------------------------------------------------------------------
'Un estudio sobre la cantidad de lluvia y la de contaminación del aire
eliminada. Calcular la recta de regresión y su coeficiente de correlación.
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Se produjo los siguientes datos:'

Lluvia_x <- c(4.3, 4.5, 5.9, 5.6, 6.1, 5.2, 3.8, 2.1, 7.5)
Part_y <- c(126, 121, 116, 118, 114, 118, 132, 141, 108)

x_media <- mean(Lluvia_x)


y_media <- mean(Part_y)

b1 <- cov(Lluvia_x,Part_y)/var(Lluvia_x)

b0 <- y_media-b1*x_media

funcion <- b1*Lluvia_x+b0

plot(Lluvia_x,Part_y,xlab = "Cantidad de lluvia diaria",ylab = "Particulas eliminadas")


lines(Lluvia_x,funcion,col="blue")

r <- cov(Lluvia_x,Part_y)/sqrt(var(Lluvia_x)*var(Part_y))

cat("Promedio x: ", x_media)


cat("Promedio y: ", y_media)
cat("b1: ", b1)
cat("b0: ", b0)
cat("r: ", r)

Tabla 24 Código del Ejercicio 12 en R


UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Ilustración 13 Comprobación del Ejercicio 12

Ejercicio 13:

Se proporciona un subconjunto del conjunto de datos “pressure”, que incluye mediciones de


la presión del vapor en función de la temperatura. Este subconjunto consta de las primeras 8
observaciones del conjunto de datos completo. En estos datos, se consideran dos variables
principales: la temperatura (x) y la presión del vapor (y). Se solicita analizar cómo la
temperatura puede influir en la presión del vapor. Para ello, se realizará un cálculo de
correlación y un modelo de regresión lineal para comprender la relación entre estas dos
variables [6].

Temperatura (x) Presión del vapor (y)


0 0.0002
20 0.0012
40 0.0060
60 0.0300
80 0.0900
100 0.2700
120 0.7500
140 1.8500
Tabla 25: Datos de la base de datos "Pressure" de R

Solución:
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

Se identifica a la variable independiente como la presión del vapor y la variable dependiente


como la temperatura.

𝟓𝟔𝟎 𝟐. 𝟗𝟗
̅=
𝒙 = 𝟕𝟎 ̅=
𝒚 = 𝟎. 𝟑𝟕𝟑𝟕
𝟖 𝟖

n 𝑥𝑖 𝑦𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 (𝑥𝑖 − 𝑥 )2 (𝑦𝑖 − 𝑦)2 (𝑥𝑖 − 𝑥 )(𝑦𝑖 − 𝑦)


0 0.0 0.0002 -70.0 -0.3745 4900.0 0.1402 26.2132
1 20.0 0.0012 -50.0 -0.3735 2500.0 0.1395 18.6737
2 40.0 0.0060 -30.0 -0.3687 900.0 0.1359 11.0602
3 60.0 0.0300 -10.0 -0.3447 100.0 0.1188 3.4468
4 80.0 0.0900 10.0 -0.2847 100.0 0.0810 -2.8468
5 100.0 0.2700 30.0 -0.1047 900.0 0.0110 -3.1402
6 120.0 0.7500 50.0 0.3753 2500.0 0.1409 18.7662
7 140.0 1.8500 70.0 1.4753 4900.0 2.1766 103.2728
∑ 560.0 2.9974 0.0 0.0000 16800.0 2.9439 175.4460
Tabla 26: Cálculos del ejercicio 13

∑(𝑋ⅈ − 𝑥̅ )(𝑌ⅈ − 𝑦̅)


𝑏1 =
∑(𝑋ⅈ − 𝑥̅ )2

175.4460
𝑏1 = = 𝟎. 𝟎𝟏𝟎𝟒
16800.0

𝑏𝑜 = 𝑦̅ − 𝑏1𝑥̅

𝑏𝑜 = 0.3737 − (0.0104)(70)

𝒃𝒐 = −𝟎. 𝟑𝟓𝟒𝟑

𝒚 = 𝟎. 𝟎𝟏𝟎𝟒𝒙 − 𝟎. 𝟑𝟓𝟒𝟑

Coeficiente de correlación:
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

̅)(𝒀𝒊 − 𝒚
∑(𝑿𝒊 − 𝒙 ̅)
𝒓=
̅)𝟐 ∗ ∑(𝒀𝒊 − 𝒚
√∑(𝑿𝒊 − 𝒙 ̅ )𝟐

175.4460
𝑟=
√16800 ∗ 2.9439

𝑟 = 0.7889

Comprobación en R:

Ilustración 14: Comprobación del ejercicio 13 en R

2.3. Conclusiones

• Se logró formular un modelo de regresión lineal que describe efectivamente la


relación entre las variables estudiadas. Los coeficientes de regresión
calculados proporcionan una comprensión clara de cómo una variable
dependiente varía en relación con la variable independiente.
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

• Los resultados obtenidos son relevantes en el contexto de los ejercicios


planteados. La relación entre las variables es significativa y puede utilizarse
para informar decisiones, políticas o investigaciones futuras en este campo.
• La interpretación de los resultados de regresión y correlación son significativos
sobre cómo las variables se influyen mutuamente. Esto no solo confirma o
refuta suposiciones previas sobre su relación, sino que también proporciona
una base para predecir cómo cambios en una variable podrían impactar en la
otra.

2.4. Recomendaciones

• El modelo de regresión lineal desarrollado puede ser utilizado para la


predicción de valores futuros dentro del rango de los datos analizados. Esto
puede ayudar en la planificación y toma de decisiones en [área específica de
aplicación].
• La cautela es aconsejable al aplicar el modelo para extrapolar predicciones
fuera del rango de datos observados.
• Se recomienda realizar un análisis de validación adicional con un conjunto de
datos más amplio o diferente para confirmar la robustez del modelo de
regresión lineal.

2.5. Bibliografía

[1] L. Ambalina, “Los 10 mejores conjuntos de datos abiertos para la regresión lineal,”
HackerNoon, Oct. 27, 2020. https://hackernoon.com/es/los-10-mejores-conjuntos-de-datos-
de-regresion-para-proyectos-de-aprendizaje-automatico-ce4i3wuu

[2] P. Y. Estadística, “Regresión lineal,” Probabilidad Y Estadística, Mar. 10, 2023.


https://www.probabilidadyestadistica.net/regresion-lineal/

[3] D. Amesquita, “4 ejemplos de uso de regresión lineal en la vida real,” Statologos, Aug. 26,
2022. https://statologos.com/regresion-lineal-ejemplos-de-la-vida-real/

[4] “T-Test, Chi-Square, ANOVA, Regression, Correlation...” https://datatab.es/tutorial/linear-


regression
UNIVERSIDAD TÉCNICA DE AMBATO
FACULTAD DE INGENIERÍA EN SISTEMAS, ELECTRÓNICA E INDUSTRIAL
CARRERA DE: INGENIERIA EN SOFTWARE
Cdla. Universitaria (Predios Huachi) / Casilla 334/
Telefax: 03-2851894 – 2411537, Correo Electrónico: carrera.sistemas@uta.edu.ec
AMBATO-ECUADOR

[5] Josep, “Guía completa de regresión lineal: definición, fórmulas y ejemplos,” Conectando
Ideas, Mar. 26, 2023. https://conectandoideas.net/guia-completa-de-regresion-lineal-
definicion-formulas-y-ejemplos/

También podría gustarte