Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ingeniería de Producción
Regresión lineal
simple
Estudiante:
Materia: Estadísticas 2
Barquisimeto 2023
Introducción
consideramos la situación en la que el valor medio de una variable aleatoria y está
relacionada con otra variable x. Al medir tanto y como x para cada unidad experimental,
con lo cual se generan datos bivariados, se puede usar la información dada por x para
estimar el valor promedio de y, para predecir valores de y para valores de x asignados
previamente.
El objetivo es crear una ecuación de predicción que exprese y como función de estas
variables independientes. A continuación, si se pueden medir las variables independientes,
se pueden sustituir estos valores en la ecuación de predicción y obtener la predicción para
la respuesta. Donde que utilizamos la ecuación de una recta para describir la relación
entre X y Y, describimos la fuerza de la relación usando el coeficiente de correlación r.
Se empieza por suponer que la variable de interés, y, está linealmente relacionada a una
variable independiente x. Para describir la relación lineal, se puede usar el modelo
determinista. Este modelo describe una relación determinista entre la variable de interés
y, a veces llamada variable de respuesta, y la variable independiente x, denominada
variable de pronóstico. Esto es, la ecuación lineal determina un valor exacto de y cuando
se da el valor de x.
12.9 Un experimento químico. Con el uso de un procedimiento químico llamado
polarografía diferencial de pulsos, un químico midió la máxima corriente generada (en
microamperes) cuando una solución que contenía una cantidad determinada de níquel (en
partes por mil millones, ppmm) se agregó a un regulador:
a. Use el método de entrada de datos en su calculadora para calcular las sumas de
cuadrados preliminares y productos cruz, Sxx, Syy y Sxy.
b. Calcule la recta de regresión de mínimos cuadrados
c. Grafique los puntos y la recta ajustada. ¿Le parece razonable la suposición de una
relación lineal?
d. Use la recta de regresión para predecir la máxima corriente generada cuando una
solución, que contenga 100 ppmm de níquel, se agregue al regulador.
e. Construya la tabla ANOVA para la regresión lineal.
El problema nos indica cual es la variable de interés y (variable de respuesta), variable
independiente x, variable de pronóstico.
Cálculos para los datos de la tabla 12.1
∑(𝑌)2
2
𝑆𝑦𝑦 = ∑𝑌 −
𝑛
𝑺𝒚𝒚 = 𝟎, 𝟑𝟕𝟒𝟕𝟗𝟕𝟓𝟓𝟔
Regresión 𝑺𝑺𝑹
1 𝑴𝑺𝑹
Error 𝑺𝑺𝑬
n-2 MSE
Total 𝑺𝑺𝑻
n-1
Fuente Df SS MS
Regresión 1 𝟐 SSR
(𝑺𝒙𝒚 )
𝑺𝒙𝒙
Fuente df SS MS
Regresion 1 0,374306417 0,374306417
Error n-2 0,000491138 7,01626E-05
Total n-1 0,374797556 0,046849694
Resultados con Minitab
Este nos da resultados redondeados a diferencia de excell.
Análisis de Varianza
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
0,0083763 99,87% 99,85% 99,75%
Coeficientes
Ecuación de regresión
Y= Corriente Resid
Obs máxima (mA) Ajuste Resid est.
9 0,72200 0,73533 -0,01333 -2,02 R
12.21 El costo de volar ¿Cómo está relacionado el costo de un viaje en avión con la
duración del viaje? La tabla siguiente muestra el promedio de la tarifa en primera clase, pagada por
clientes de American Airlines en cada una de las 18 rutas aéreas de mayor movimiento en Estados
Unidos.
a. Si usted desea estimar el costo de un vuelo, basado en la distancia recorrida, ¿cuál variable es la
variable de respuesta y cuál es la variable independiente de predicción?
b. Suponga que hay una relación lineal entre costo y distancia. Calcule la recta de regresión de
mínimos cuadrados que describa el costo como una función lineal de la distancia.
c. Grafique los puntos y la recta de regresión. ¿Le parece que la recta ajusta los datos?
d. Use las pruebas estadísticas y medidas apropiadas para explicar la utilidad del modelo de
regresión para predecir el costo.
a. considerando que
La variable de respuesta es Y= Costo en $
∑(𝑌)2
𝑆𝑦𝑦 = ∑ 𝑌 2 −
𝑛
𝑺𝒚𝒚 = 𝟐𝟕𝟖𝟎𝟎𝟔
∑𝑌
𝑌̅ =
𝑛
̅ = 𝟐𝟖𝟎, 𝟔𝟔𝟔𝟔𝟔𝟔𝟕
𝒀
∑𝑋
𝑋̅ =
𝑛
̅ = 𝟏𝟏𝟗𝟔, 𝟏𝟏𝟏𝟏𝟏𝟏
𝐗
𝑆𝑥𝑦
𝑏= = 0,127153472
𝑆𝑥𝑥
𝑎 = 𝑌̅ − 𝑏(𝑋̅)
𝑎 = 280,6666667 − 0,127153472(1196,111111)
𝑎 = 128,5769858
𝑌 = 𝑎 + 𝑏(𝑋)
Sustituyendo obtenemos la recta de regresión
𝒀 = 𝟏𝟐𝟖, 𝟓𝟕𝟔𝟗𝟖𝟓𝟖 + 𝟎, 𝟏𝟐𝟕𝟏𝟓𝟑𝟒𝟕𝟐(𝑿)
C. Grafique los puntos y la recta de regresión. ¿Le parece que la recta ajusta los datos?
Los datos están muy alejados de la recta, por lo tanto, tiene un costo muy variable.
d. Use las pruebas estadísticas y medidas apropiadas para explicar la utilidad del modelo
de regresión para predecir el costo.
Este problema tiene la peculiaridad de que nos pide suponer a la variable de respuesta
(Y), y la variable independiente de predicción (X), ya habiéndola supuesto confirmamos
con la prueba de hipótesis.
Estableciendo
El estimador b tiene una distribución normal en muestreo repetido con media
𝐸(𝑏) = 𝛽
y error estándar dado por
𝜎2
𝑆𝐸 = √
𝑆𝑥𝑥
(1527245,667)2
278006 − 12011041,78
MSE = = 83811,4106
18 − 2
PRUEBA DE HIPÓTESIS RESPECTO A LA PENDIENTE DE UNA RECTA
1. Hipótesis nula: 𝐻𝑜 : 𝛽 = 𝛽𝑜
2. Hipótesis alternativa: 𝐻𝑎 : 𝛽 ≠ 𝛽𝑜
Esto sucede porque como se puede ver en la gráfica los datos no se comportan de una manera
lineal.
e. Encuentre una estimación de intervalo de confianza de 95% de la pendiente b para los datos de
las distancias.
𝑏 ± 𝑡∝ (𝑆𝐸)
2
Donde 𝑡∝ está basada en (n -2) grados de libertad
2
𝑠2 𝑀𝑆𝐸
𝑆𝐸 = √ =√
𝑆𝑥𝑥 𝑆𝑥𝑥
83811,4106
0,127153472 ± 2.1199√
12011041,78
(0,30423637; −0,04992942)
f. El análisis de varianza de la prueba F
Calculamos 𝑴𝑺𝑹
2
(Sxy )
MSR =
Sxx
(1527245,667)2
MSR = = 194194,589
12011041,78
MSR 194194,589
F= = = 2,31704237
MSE 83811,4106
t 2 = (1,5221842)2 = 2,31704237 = F
Esto no es por casualidad y resulta del hecho de que el cuadrado de una estadística t con df
grados de libertad tiene la misma distribución que una estadística F con grados de libertad 1 en el
numerador y df en el denominado
(1527245,667)2
r2 = = 0,6985 ó 69.85%
(12011041,78)(278006)
Se interpreta como el porcentaje de reducción en la variación de la distancia. El modelo
de regresión está funcionando muy bien.
h. intervalos de confianza y predicción (1−∝)100%
Para estimar el valor promedio de y cuando 𝑥 = 𝑥0
1 (𝑥0 − 𝑥̅ )2
𝑌̅ ± 𝑡∝ √𝑀𝑆𝐸 [ + ]
2 𝑛 𝑆𝑥𝑥
Estimar el promedio de los costos para una distancia de 1500, con un intervalo de confianza de
95%.
Y = 128,5769858 + 0,127153472(1500)
Y = 319,307194
𝑡∝ = 2,1199
2
MSE = 83811,4106
𝑆𝑥𝑥 = 12011041,78
̅ = 1196,111111
X
Sustituyendo
1 (1500 − 1196,111111)2
319,307194 ± 2,1199√83811,4106 [ + ]
18 12011041,78
319,307194 ± 154,339558
164,967636; 473,646752
Nuestros resultados indican que el promedio de los costos en $ para una distancia de 1,500 estará
entre 164,967636 𝑦 473,646752
h. Gráficas residuales (minitab)
En los ejercicios presentados se muestra como en el ejercicio 12.9 los datos esta ajustados casi
perfectamente a la a la recta, mientras que en la segunda los datos independientes están mas
alejados de la recta, también cabe mencionar que en los ejercicios se coloca una tabla de minitab
para verificar los datos de la recta de regresión lineal y el primero se realiza completo en un Excel
totalmente detallado enviado a parte.
La utilización de esos programas nos enseña una forma más fácil de encontrar los valores de una
manera más rápida y sencilla.