Está en la página 1de 14

República Bolivariana de Venezuela

Ministerio del Poder Popular para la Educación Superior

Universidad Centroccidental “Lisandro Alvarado”

Decanato de Ciencias y Tecnología

Ingeniería de Producción

Regresión lineal
simple

Estudiante:

Yulimar Adán C.I. 27.736.798

Materia: Estadísticas 2

Profesor: Nora Monsalve

Barquisimeto 2023
Introducción
consideramos la situación en la que el valor medio de una variable aleatoria y está
relacionada con otra variable x. Al medir tanto y como x para cada unidad experimental,
con lo cual se generan datos bivariados, se puede usar la información dada por x para
estimar el valor promedio de y, para predecir valores de y para valores de x asignados
previamente.
El objetivo es crear una ecuación de predicción que exprese y como función de estas
variables independientes. A continuación, si se pueden medir las variables independientes,
se pueden sustituir estos valores en la ecuación de predicción y obtener la predicción para
la respuesta. Donde que utilizamos la ecuación de una recta para describir la relación
entre X y Y, describimos la fuerza de la relación usando el coeficiente de correlación r.
Se empieza por suponer que la variable de interés, y, está linealmente relacionada a una
variable independiente x. Para describir la relación lineal, se puede usar el modelo
determinista. Este modelo describe una relación determinista entre la variable de interés
y, a veces llamada variable de respuesta, y la variable independiente x, denominada
variable de pronóstico. Esto es, la ecuación lineal determina un valor exacto de y cuando
se da el valor de x.
12.9 Un experimento químico. Con el uso de un procedimiento químico llamado
polarografía diferencial de pulsos, un químico midió la máxima corriente generada (en
microamperes) cuando una solución que contenía una cantidad determinada de níquel (en
partes por mil millones, ppmm) se agregó a un regulador:
a. Use el método de entrada de datos en su calculadora para calcular las sumas de
cuadrados preliminares y productos cruz, Sxx, Syy y Sxy.
b. Calcule la recta de regresión de mínimos cuadrados
c. Grafique los puntos y la recta ajustada. ¿Le parece razonable la suposición de una
relación lineal?
d. Use la recta de regresión para predecir la máxima corriente generada cuando una
solución, que contenga 100 ppmm de níquel, se agregue al regulador.
e. Construya la tabla ANOVA para la regresión lineal.
El problema nos indica cual es la variable de interés y (variable de respuesta), variable
independiente x, variable de pronóstico.
Cálculos para los datos de la tabla 12.1

Nº de muestra X= Ni (ppmm) Y= Corriente máxima (mA) X*Y X² Y²

1 19,1 0,095 1,8145 364,81 0,009025


2 38,2 0,174 6,6468 1459,24 0,030276
3 57,3 0,256 14,6688 3283,29 0,065536
4 76,2 0,348 26,5176 5806,44 0,121104
5 95 0,429 40,755 9025 0,184041
6 114 0,5 57 12996 0,25
7 131 0,58 75,98 17161 0,3364
8 150 0,651 97,65 22500 0,423801
9 170 0,722 122,74 28900 0,521284
Total 850,8 3,755 443,7727 101495,78 1,941467

Procedemos a calcular las sumas de cuadrados (estimadores de mínimos cuadrados de a


y b):
𝑛=9
∑(𝑋)2
𝑆𝑥𝑥 = ∑ 𝑋 2 −
𝑛
𝑺𝒙𝒙 = 𝟐𝟏𝟎𝟔𝟔, 𝟖𝟐
(∑ 𝑋) (∑ 𝑌)
𝑆𝑥𝑦 = ∑ 𝑋 × 𝑌 −
𝑛
𝑺𝒙𝒚 = 𝟖𝟖, 𝟖𝟎

∑(𝑌)2
2
𝑆𝑦𝑦 = ∑𝑌 −
𝑛
𝑺𝒚𝒚 = 𝟎, 𝟑𝟕𝟒𝟕𝟗𝟕𝟓𝟓𝟔

b. Calcule la recta de regresión de mínimos cuadrados


∑𝑌
𝑌̅ =
𝑛
𝑌̅ = 94,533333
∑𝑋
𝑋̅ =
𝑛
𝑋̅ = 0,4172
𝑆𝑥𝑦
𝑏= = 0,00421516
𝑆𝑥𝑥
𝑎 = 𝑌̅ − 𝑏(𝑋̅) = 0,018749024
𝑌 = 𝑎 + 𝑏(𝑋)
Sustituyendo obtenemos la recta de regresión
𝒀 = 𝟎, 𝟎𝟏𝟖𝟕𝟒𝟗𝟎𝟐𝟒 + 𝟎, 𝟎𝟎𝟒𝟐𝟏𝟓𝟏𝟔(𝑿)
c. Grafique los puntos y la recta ajustada. ¿Le parece razonable la suposición de una
relación lineal?

Los datos se ajustan muy bien a lo largo de la recta.


d. Use la recta de regresión para predecir la máxima corriente generada cuando una
solución, que contenga 100 ppmm de níquel, se agregue al regulador.
En este lo que se hace sustituir en valor de X= 100 ppmm, en ecuación regresión de
mínimos cuadrados.
𝑌 = 𝑎 + 𝑏(𝑋)
𝒀 = 𝟎, 𝟎𝟏𝟖𝟕𝟒𝟗𝟎𝟐𝟒 + 𝟎, 𝟎𝟎𝟒𝟐𝟏𝟓𝟏𝟔(𝟏𝟎𝟎)
𝒀 = 𝟎, 𝟒𝟒𝟎𝟐𝟔𝟓𝟏𝟎𝟏
Cuando se tiene níquel que contiene 100 ppmm, la máxima corriente generada es
𝟎, 𝟒𝟒𝟎𝟐𝟔𝟓𝟏𝟎𝟏
e. Construya la tabla ANOVA para la regresión lineal.
Fuente Df SS MS

Regresión 𝑺𝑺𝑹
1 𝑴𝑺𝑹

Error 𝑺𝑺𝑬
n-2 MSE

Total 𝑺𝑺𝑻
n-1

Fuente Df SS MS
Regresión 1 𝟐 SSR
(𝑺𝒙𝒚 )
𝑺𝒙𝒙

Error n-2 (𝑺𝒙𝒚 )


𝟐 𝑺𝑺𝑬
𝑺𝒚𝒚 − 𝒏−𝟐
𝑺𝒙𝒙

Total n-1 𝑺𝒚𝒚 𝑺𝑺𝑻


𝒏−𝟏
Resultados de la tabla ANOVA

Fuente df SS MS
Regresion 1 0,374306417 0,374306417
Error n-2 0,000491138 7,01626E-05
Total n-1 0,374797556 0,046849694
Resultados con Minitab
Este nos da resultados redondeados a diferencia de excell.

Análisis de regresión: Y= Corriente máxima (mA) vs. X= Ni (ppmm)

Análisis de Varianza

Fuente GL SC Ajust. MC Ajust. Valor F Valor p


Regresión 1 0,374306 0,374306 5334,84 0,000
X= Ni (ppmm) 1 0,374306 0,374306 5334,84 0,000
Error 7 0,000491 0,000070
Total 8 0,374798

Resumen del modelo

R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0,0083763 99,87% 99,85% 99,75%

Coeficientes

Término Coef EE del coef. Valor T Valor p VIF


Constante 0,01875 0,00613 3,06 0,018
X= Ni (ppmm) 0,004215 0,000058 73,04 0,000 1,00

Ecuación de regresión

Y= Corriente máxima (mA) = 0,01875 + 0,004215 X= Ni (ppmm)

Ajustes y diagnósticos para observaciones poco comunes

Y= Corriente Resid
Obs máxima (mA) Ajuste Resid est.
9 0,72200 0,73533 -0,01333 -2,02 R
12.21 El costo de volar ¿Cómo está relacionado el costo de un viaje en avión con la
duración del viaje? La tabla siguiente muestra el promedio de la tarifa en primera clase, pagada por
clientes de American Airlines en cada una de las 18 rutas aéreas de mayor movimiento en Estados
Unidos.

a. Si usted desea estimar el costo de un vuelo, basado en la distancia recorrida, ¿cuál variable es la
variable de respuesta y cuál es la variable independiente de predicción?

b. Suponga que hay una relación lineal entre costo y distancia. Calcule la recta de regresión de
mínimos cuadrados que describa el costo como una función lineal de la distancia.

c. Grafique los puntos y la recta de regresión. ¿Le parece que la recta ajusta los datos?
d. Use las pruebas estadísticas y medidas apropiadas para explicar la utilidad del modelo de
regresión para predecir el costo.

Tenemos un total de datos de 18 rutas.

a. considerando que
La variable de respuesta es Y= Costo en $

La variable independiente de predicción X= distancia (Millas)

Ruta Distancia (Millas) costo ($) X² Y² Y*X


Dallas–Austin 178 125 31684 15625 22250
Houston–Dallas 232 123 53824 15129 28536
Chicago–Detroit 238 148 56644 21904 35224
Chicago–San Luis 262 136 68644 18496 35632
Chicago–Cleveland 301 129 90601 16641 38829
Chicago–Atlanta 593 162 351649 26244 96066
Nueva York–Miami 1092 224 1192464 50176 244608
Nueva York–San Juan 1608 264 2585664 69696 424512
Nueva York–Chicago 714 287 509796 82369 204918
Chicago–Denver 901 256 811801 65536 230656
Dallas–Salt Lake 1005 365 1010025 133225 366825
Nueva York–Dallas 1374 459 1887876 210681 630666
Chicago–Seattle 1736 424 3013696 179776 736064
Los Ángeles–Chicago 1757 361 3087049 130321 634277
Los Ángeles–Atlanta 1946 309 3786916 95481 601314
Nueva York–Los Ángeles 2463 444 6066369 197136 1093572
Los Ángeles–Honolulu 2556 323 6533136 104329 825588
Nueva York–San Francisco 2574 513 6625476 263169 1320462
Tolales 21530 5052 37763314 1695934 7569999
b. Calcule la recta de regresión de mínimos cuadrados que describa el costo como una
función lineal de la distancia.
Procedemos a calcular las sumas de cuadrados (estimadores de mínimos cuadrados de a,
b)
∑(𝑋)2
𝑆𝑥𝑥 = ∑ 𝑋 2 −
𝑛
𝑺𝒙𝒙 = 𝟏𝟐𝟎𝟏𝟏𝟎𝟒𝟏, 𝟕𝟖
(∑ 𝑋) (∑ 𝑌)
𝑆𝑥𝑦 = ∑ 𝑋 × 𝑌 −
𝑛
𝑺𝒙𝒚 = 𝟏𝟓𝟐𝟕𝟐𝟒𝟓, 𝟔𝟔𝟕

∑(𝑌)2
𝑆𝑦𝑦 = ∑ 𝑌 2 −
𝑛
𝑺𝒚𝒚 = 𝟐𝟕𝟖𝟎𝟎𝟔
∑𝑌
𝑌̅ =
𝑛
̅ = 𝟐𝟖𝟎, 𝟔𝟔𝟔𝟔𝟔𝟔𝟕
𝒀
∑𝑋
𝑋̅ =
𝑛
̅ = 𝟏𝟏𝟗𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏
𝐗
𝑆𝑥𝑦
𝑏= = 0,127153472
𝑆𝑥𝑥
𝑎 = 𝑌̅ − 𝑏(𝑋̅)
𝑎 = 280,6666667 − 0,127153472(1196,111111)
𝑎 = 128,5769858
𝑌 = 𝑎 + 𝑏(𝑋)
Sustituyendo obtenemos la recta de regresión
𝒀 = 𝟏𝟐𝟖, 𝟓𝟕𝟔𝟗𝟖𝟓𝟖 + 𝟎, 𝟏𝟐𝟕𝟏𝟓𝟑𝟒𝟕𝟐(𝑿)
C. Grafique los puntos y la recta de regresión. ¿Le parece que la recta ajusta los datos?

Los datos están muy alejados de la recta, por lo tanto, tiene un costo muy variable.

d. Use las pruebas estadísticas y medidas apropiadas para explicar la utilidad del modelo
de regresión para predecir el costo.
Este problema tiene la peculiaridad de que nos pide suponer a la variable de respuesta
(Y), y la variable independiente de predicción (X), ya habiéndola supuesto confirmamos
con la prueba de hipótesis.
Estableciendo
El estimador b tiene una distribución normal en muestreo repetido con media
𝐸(𝑏) = 𝛽
y error estándar dado por

𝜎2
𝑆𝐸 = √
𝑆𝑥𝑥

Donde 𝜎 2 es la varianza del error aleatorio 𝜖. Como el valor de 𝜎 2 se estima con


𝜎 2 = 𝑀𝑆𝐸, se pueden basar inferencias en la estadística dada por
𝑏−𝛽
𝑡=
𝑀𝑆𝐸

𝑆𝑥𝑥
Que tiene una distribución t con df (n =2), los grados de libertad asociados con MSE.
𝑺𝑺𝑬
𝑴𝑺𝑬 =
𝒏−𝟐
2
(Sxy )
Syy − S
xx
MSE =
n−2
Sustituyendo

(1527245,667)2
278006 − 12011041,78
MSE = = 83811,4106
18 − 2
PRUEBA DE HIPÓTESIS RESPECTO A LA PENDIENTE DE UNA RECTA

Pruebe al nivel de significancia de 5%.

1. Hipótesis nula: 𝐻𝑜 : 𝛽 = 𝛽𝑜

2. Hipótesis alternativa: 𝐻𝑎 : 𝛽 ≠ 𝛽𝑜

Prueba de dos colas.


𝑡 > 𝑡𝑎/2 𝑜 𝑡 < 𝑡𝑎/2

y el valor observado de la estadística de prueba se calcula como


𝐛−𝛃 𝟎, 𝟏𝟐𝟕𝟏𝟓𝟑𝟒𝟕𝟐 − 𝟎
𝐭= = = 𝟏, 𝟓𝟐𝟐𝟏𝟖𝟒𝟐
𝐌𝐒𝐄 𝟖𝟑𝟖𝟏𝟏, 𝟒𝟏𝟎𝟔
√ √
𝐒𝐱𝐱 𝟏𝟐𝟎𝟏𝟏𝟎𝟒𝟏, 𝟕𝟖
Con (n -2) =8 grados de libertad. Con ∝= 0,05, se puede rechazar 𝐻𝑜 cuando
𝑡 > 2.1199 𝑜 𝑡 < −2.1199 Como el valor observado de la estadística de prueba cae en la región
de aceptación: 𝐻𝑎 es aceptada y se puede concluir que no hay una relación lineal significativa entre
las distancias y el costo del pasaje en $.

Esto sucede porque como se puede ver en la gráfica los datos no se comportan de una manera
lineal.

A continuación, se procede a agregar más preguntas para complementar el tema

e. Encuentre una estimación de intervalo de confianza de 95% de la pendiente b para los datos de
las distancias.

UN INTERVALO DE CONFIANZA (1−∝)100% 𝑝𝑎𝑟𝑎 𝛽

𝑏 ± 𝑡∝ (𝑆𝐸)
2
Donde 𝑡∝ está basada en (n -2) grados de libertad
2
𝑠2 𝑀𝑆𝐸
𝑆𝐸 = √ =√
𝑆𝑥𝑥 𝑆𝑥𝑥

83811,4106
0,127153472 ± 2.1199√
12011041,78

El intervalo de confianza de 95% resultante es:

(0,30423637; −0,04992942)
f. El análisis de varianza de la prueba F
Calculamos 𝑴𝑺𝑹
2
(Sxy )
MSR =
Sxx
(1527245,667)2
MSR = = 194194,589
12011041,78

MSR 194194,589
F= = = 2,31704237
MSE 83811,4106
t 2 = (1,5221842)2 = 2,31704237 = F
Esto no es por casualidad y resulta del hecho de que el cuadrado de una estadística t con df
grados de libertad tiene la misma distribución que una estadística F con grados de libertad 1 en el
numerador y df en el denominado

g. Medir la fuerza de la relación: el coeficiente de determinación


2
𝑆𝑆𝑅
2
(𝑆𝑥𝑦 )
𝑟 = =
𝑆𝑆𝑇 𝑆𝑥𝑥 𝑆𝑦𝑦

(1527245,667)2
r2 = = 0,6985 ó 69.85%
(12011041,78)(278006)
Se interpreta como el porcentaje de reducción en la variación de la distancia. El modelo
de regresión está funcionando muy bien.
h. intervalos de confianza y predicción (1−∝)100%
Para estimar el valor promedio de y cuando 𝑥 = 𝑥0
1 (𝑥0 − 𝑥̅ )2
𝑌̅ ± 𝑡∝ √𝑀𝑆𝐸 [ + ]
2 𝑛 𝑆𝑥𝑥

Estimar el promedio de los costos para una distancia de 1500, con un intervalo de confianza de
95%.

Y = 128,5769858 + 0,127153472(1500)
Y = 319,307194
𝑡∝ = 2,1199
2

MSE = 83811,4106
𝑆𝑥𝑥 = 12011041,78
̅ = 1196,111111
X
Sustituyendo

1 (1500 − 1196,111111)2
319,307194 ± 2,1199√83811,4106 [ + ]
18 12011041,78

319,307194 ± 154,339558
164,967636; 473,646752
Nuestros resultados indican que el promedio de los costos en $ para una distancia de 1,500 estará
entre 164,967636 𝑦 473,646752
h. Gráficas residuales (minitab)

Resultados con Minitab


conclusiones
La regresión lineal nos permite predecir el comportamiento de una variable (RESPUESTA Y) a
partir de otra (INDEPENDIENTE X). También nos permite conocer que tan confiable es y se verifica
a través de una prueba de hipótesis entre otras.

En los ejercicios presentados se muestra como en el ejercicio 12.9 los datos esta ajustados casi
perfectamente a la a la recta, mientras que en la segunda los datos independientes están mas
alejados de la recta, también cabe mencionar que en los ejercicios se coloca una tabla de minitab
para verificar los datos de la recta de regresión lineal y el primero se realiza completo en un Excel
totalmente detallado enviado a parte.

La utilización de esos programas nos enseña una forma más fácil de encontrar los valores de una
manera más rápida y sencilla.

También podría gustarte