Está en la página 1de 11

Regresión lineal simple y Correlación

La administración de una embotelladora de refrescos desea desarrollar un método para


asignar costos de entrega a los clientes. Aunque es claro que un aspecto del costo se relaciona
con el tiempo de viaje en una ruta específica, otro tipo de costos refleja el tiempo requerido
para descargar las cajas de refresco en el punto de entrega. Se seleccionó una muestra de 20
clientes de las rutas de cierto territorio y se midió el tiempo de entrega y número de cajas
entregadas.

Tiempo de Tiempo de
Número de Número de
Cliente entrega Cliente entrega
cajas cajas
(minutos) (minutos)
1 52 32.1 11 161 43.0
2 64 34.8 12 184 49.4
3 73 36.2 13 202 57.2
4 85 37.8 14 218 56.8
5 95 37.8 15 243 60.6
6 103 39.7 16 254 61.2
7 116 38.5 17 267 58.2
8 121 41.9 18 275 63.1
9 143 44.2 19 287 65.6
10 157 47.1 20 298 67.3

Suponga que se desea desarrollar un modelo para predecir el tiempo de entrega basado en el
número de cajas entregadas.
a) Construya un diagrama de dispersión
b) Calcule el coeficiente de correlación y explique su significado.
c) Prueba de hipótesis para el coeficiente de correlación poblacional
d) Determine el modelo de predicción (recta de mínimos cuadrados)
e) Interprete la pendiente y el intercepto
f) ¿Existe evidencia de una relación lineal entre el tiempo de entrega y el número de cajas
entregadas?
g) Pronostique el tiempo de entrega promedio para un cliente que recibe 150 cajas de
refresco.
h) ¿Sería adecuado usar el modelo para predecir el tiempo de entrega para un cliente que
recibe 500 cajas de refresco? ¿Por qué?
i) Calcule el error estándar. ¿Cuál es su conclusión?
j) Calcule el coeficiente de determinación y explique su significado.
k) Realice un análisis residual. ¿Se cumplen los supuestos del modelo de regresión?
Justifique.
l) Establezca un intervalo de confianza del 95% para la pendiente.
m) Establezca un intervalo de confianza del 95% del tiempo promedio de entrega para
clientes que reciben 150 cajas de refresco.
n) Establezca un intervalo de predicción del 95% del tiempo de entrega para un cliente
individual que recibe 150 cajas de refresco.
a) Diagrama de dispersión

menú gráficos/ diagrama de dispersión

El diagrama de dispersión muestra que la relación entra las dos variables (tiempo de entrega
y el número de cajas) puede ser considerada como lineal con pendiente positiva, lo que indica
que a mayor número de cajas mayor tiempo de entrega.

b) coeficiente de correlación y su significado

Menús estadísticos/resúmenes/matriz de correlaciones

> cor(EjemClase[,c("XNumCajas","YTiempoEntre")], use="complete")


XNumCajas YTiempoEntre
XNumCajas 1.0000000 0.9857744
YTiempoEntre 0.9857744 1.0000000

El coeficiente de correlación de Pearson es r=0.9857, lo que indica que el tipo de relación


entre el número de cajas y el tiempo de entrega es positivo, es decir, es directa. Como
r=0.9857 es cercano a 1, podemos concluir que el grado de asociación entre las variables es
fuerte. Por lo tanto, es razonable suponer que existe una relación lineal (positiva y fuerte)
entre el número de cajas y el tiempo de entrega de las mismas.

c) Prueba de hipótesis para el coeficiente de correlación poblacional

Ahora bien, debido a que los cálculos para el coeficiente de correlación se basan en una
muestra aleatoria, se espera que varíen de una muestra a otra. Esto plantea preguntas de
significancia del coeficiente de correlación poblacional 𝜌 (rho). La significancia de r será
tratada mediante una prueba de hipótesis del coeficiente de correlación poblacional 𝜌. Las
hipótesis a probar son:
𝐻0 : 𝜌 = 0 vs 𝐻1 : 𝜌 ≠ 0
𝐻0 : No existe correlación lineal vs 𝐻1 : existe correlación lineal.

Menús estadísticos/resúmenes/Test de correlación

> with(EjemClase, cor.test(XNumCajas, YTiempoEntre,


alternative="two.sided", method="pearson"))

Pearson's product-moment correlation


data: XNumCajas and YTiempoEntre
t = 24.884, df = 18, p-value = 2.152e-15
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9636012 0.9944783
sample estimates:
cor
0.9857744

Como el 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0.00 … 02152 ≤∝= 0.05 se rechaza 𝐻0 (no existe correlación lineal).
Por lo tanto, concluimos que existe evidencia suficiente para asumir que existe correlación
entre el número de cajas y el tiempo de entrega.

d) La ecuación de regresión de predicción (recta de mínimos cuadrados)

Menús estadísticos/ajuste de modelos/regresión lineal

> RegModel.1 <- lm(YTiempoEntre~XNumCajas, data=EjemClase)


> summary(RegModel.1)
Call: lm(formula = YTiempoEntre ~ XNumCajas, data = EjemClase)

Residuals:
Min 1Q Median 3Q Max
-4.3788 -0.4173 0.3620 1.0186 4.0802

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 24.834531 1.054219 23.56 5.61e-15 ***
XNumCajas 0.140026 0.005627 24.88 2.15e-15 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.987 on 18 degrees of freedom


Multiple R-squared: 0.9718, Adjusted R-squared: 0.9702
F-statistic: 619.2 on 1 and 18 DF, p-value: 2.152e-15
La ecuación de la recta de ajuste por mínimos cuadrados para la muestra de clientes de las
rutas de cierto territorio queda entonces:

𝑦̂ = 24.83 + 0.14𝑥
Es decir,
𝑡𝑖𝑒𝑚𝑝𝑜 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 𝑑𝑒 𝑒𝑛𝑡𝑟𝑒𝑔𝑎 = 24.83 + 0.14(𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑗𝑎𝑠)

En la siguiente gráfica se puede observar la recta de ajuste por mínimos cuadrados en el


diagrama de dispersión.

e) Interprete la pendiente y el intercepto

𝛽0 = 24.83 es el intercepto. Es el valor estimado de 𝑌 cuando 𝑋 = 0. En otras palabras, es


el tiempo estimado de entrega cuando se entregan cero cajas. Observe que 𝑋 = 0 está fuera
del rango de valores incluidos en la muestra y, por lo tanto, no se debe emplear para estimar
el tiempo de entrega. Por lo tanto, no hay interpretación práctica para el intercepto.

𝛽1 = 0.14 es la pendiente. Es el cambio promedio en 𝑦̂ por cada cambio de una unidad (ya
sea aumento o reducción) de la variable independiente 𝑋. En este caso significa que por cada
caja adicional de refrescos que deba entregar, el repartidos incrementará el tiempo requerido
para descargar las cajas de refresco en el punto de entrega en aproximadamente 0.14 minutos.

f) Pronostique el tiempo de entrega promedio para un cliente que recibe 150 cajas de
refresco.

Si un repartidor descarga 150 cajas de refresco, debería tardarse 45.83 minutos. El cuál se
determinó a partir de la ecuación de ajuste:

𝑦̂ = 24.83 + 0.14(150) = 45.83


g) ¿Sería adecuado usar el modelo para predecir el tiempo de entrega para un cliente
que recibe 500 cajas de refresco? ¿Por qué?

No, como X=500 está fuera del rango de valores incluidos en la muestra, no se debe emplear
para estimar el tiempo de entrega. Los pedidos de cajas varían de 52 a 298, por lo que las
estimaciones se deben hacer dentro de ese rango.

h). El error estándar de estimación

Si el error estándar de estimación es pequeño, significa que los datos están relativamente
cercanos a la recta de regresión, y la ecuación de regresión sirve para predecir con poco error.
Si el error estándar de estimación es grande, significa que los datos están muy dispersos
respecto de la recta de regresión, y la ecuación de regresión no proporcionará una estimación
precisa de 𝑌.

Para este ejemplo, el valor del error estándar es 1.987. Podemos concluir que es un valor
pequeño por lo que la ecuación de regresión proporcionará una buena estimación del tiempo
de entrega de las cajas de refresco.

i). El coeficiente de determinación y su significado.

El coeficiente de determinación ajustado, obtenidos con el software, es 𝑅 2 = 0.9702. Para


interpretar mejor el coeficiente de determinación, conviértalo a porcentajes. Así, se dice que
97.12% de la variación en el tiempo requerido para descargar las cajas de refresco se explica,
o está representado por la variación del número de cajas.

El 97% del comportamiento (variación) del tiempo de entrega, puede explicarse por medio
del correspondiente comportamiento (variación) en el número de cajas mediante la ecuación
de regresión. Esto significa que alrededor de 3% de la variación en el tiempo de descarga se
debe al azar o a posibles variables, desconocidas para el investigador (administración de la
embotelladora), que influyen en el tiempo de entrega.

j) Análisis residual. Verificación de los supuestos del modelo.

Para el término del error 𝜀 se hicieron las siguientes suposiciones:


1.- Tienen distribución normal con media igual a cero.
2.- La varianza es la misma para todos los valores de 𝑥 (Homocedasticidad).
3.- Los valores de 𝜀 son independientes.

Para obtener y guardar los residuales


Menú modelos/ añadir las estadísticas de las observaciones a los datos
Gran parte del análisis residual se basa en examinar las gráficas de los residuales.
Menú modelos/graficas/gráficas básicas de diagnóstico.

El siguiente enlace es para saber cómo interpretar cada gráfica:


https://www.statology.org/diagnostic-plots-in-r/
 Normalidad

Gráfica de probabilidad normal

Esta gráfica se utiliza para determinar si los residuos del modelo de regresión se distribuyen
normalmente. Si los puntos en este gráfico caen aproximadamente a lo largo de una línea
diagonal recta, entonces podemos asumir que los residuos se distribuyen normalmente.

Nótese que los residuales se grafican en el eje vertical. Los residuales no caen exactamente
en una línea recta, lo que indica que puede haber algunos problemas con la suposición de
normalidad, o que puede haber uno o más valores atípicos en los datos.

Prueba estadística de normalidad.

𝐻0 : 𝐿𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙


Vs
𝐻1 : 𝐿𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝑛𝑜 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙

Nota. Esta prueba se verifica con los residuales no escalados.

Menú estadísticos/resúmenes/test de normalidad (shapiro-wilk).

Shapiro-Wilk normality test Lilliefors (Kolmogorov-Smirnov)


normality test
data: residuals.RegModel.1
W = 0.9062, p-value = 0.05398 data: residuals.RegModel.1
D = 0.18081, p-value = 0.08566

En las pruebas de Shapiro-Wilk y de Kolmogorov se cumple el supuesto de normalidad


excepto para un nivel de significancia 𝛼 = 0.10
 Homocedasticidad

Grafico para verificar homocedasticidad

El grafico de escala-ubicación

La gráfica no muestra un patrón fuerte, por lo que podemos asumir el supuesto de


homocedasticidad. Los residuales grandes se destacan con claridad. Lo que indica que hay
una ligera tendencia en el modelo a sobreestimar con tiempos de entrega largos.

Para saber cómo interpretar un gráfico de residuales vs localización:


https://www.statology.org/scale-location-plot/

 Independencia

Prueba estadística para verificar independencia.

𝐻0 : 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠 (𝜌 = 0)


vs
𝐻1 : 𝑙𝑜𝑠 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝑛𝑜 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠 (𝜌 ≠ 0)

Menú modelos/diagnósticos numericos/test de Durbin Watson.

Durbin-Watson test

data: TiempoEntrega ~ NumCajas


DW = 1.7936, p-value = 0.464
alternative hypothesis: true autocorrelation is not 0

Como el estadístico Durbin Watson 𝑤 = 1.8 está entre 1.5 y 2.5 concluimos que los residuos
son independientes, o sea existe suficiente evidencia para concluir que no existe algún patrón
en los residuales.
k) ¿Existe evidencia de una relación lineal entre el tiempo de entrega y el número de
cajas entregadas?

𝐻0 : 𝛽1 = 0 vs 𝐻0 : 𝛽1 ≠ 0

Menú estadísticos/ajuste de modelos/regresión lineal


Menú modelos/ test de hipótesis/ Tabla ANOVA (secuencial tipo 1)

Call:lm(formula = TiempoEntrega ~ NumCajas, data = ejemplo)

Residuals:
Min 1Q Median 3Q Max
-4.3788 -0.4173 0.3620 1.0186 4.0802

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 24.834531 1.054219 23.56 5.61e-15 ***
NumCajas 0.140026 0.005627 24.88 2.15e-15 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.987 on 18 degrees of freedom


Multiple R-squared: 0.9718, Adjusted R-squared: 0.9702
F-statistic: 619.2 on 1 and 18 DF, p-value: 2.152e-15

Analysis of Variance Table

Response: TiempoEntrega
Df Sum Sq Mean Sq F value Pr(>F)
NumCajas 1 2443.47 2443.47 619.2 2.152e-15 ***
Residuals 18 71.03 3.95
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

En la tablas anteriores se tiene que 𝑣𝑎𝑙𝑜𝑟 𝑝 ≈ 0 < 𝛼 = 0.05. por lo que se rechaza 𝐻0 : 𝛽1 =
0, eso implica que se rechaza la hipótesis de no linealidad con un nivel de significancia del
5%. Así la relación entre el número de cajas y el tiempo de entrega es estadísticamente lineal.

Aunque la prueba t para 𝐻0 : 𝛽1 = 0 equivale a la prueba F en la regresión lineal simple, la


prueba t es algo más adaptable, porque se podría usar para probar hipótesis alternativas
unilaterales, mientras que la prueba F sólo considera la alternativa bilateral. Los programas
de cómputo para regresión producen, en forma rutinaria, tanto el análisis de varianza, como
el estadístico t. La utilidad real del análisis de varianza está en los modelos de regresión
múltiple.
l) Establezca un intervalo de confianza del 95% para la pendiente.

Menú modelos/ intervalos de confianza

> Confint(RegModel.1, level=0.95)


Estimate 2.5 % 97.5 %
(Intercept) 24.8345309 22.6196998 27.0493621
NumCajas 0.1400263 0.1282039 0.1518487

El intervalo del 95% para la pendiente es


0.13 ≤ 𝛽1 ≤ 0.15

m) Estimación por intervalo de la respuesta media. Establezca un intervalo de


confianza del 95% del tiempo promedio de entrega para clientes que reciben 150 cajas
de refresco.

Sea 𝑥0 el valor o el nivel de la variable regresora para el que se desea estimar la respuesta
media, es decir, 𝐸(𝑦|𝑥0 ).

Menú modelos/ prediction intervals… HH/ (confidence interval for mean)

> .NewData # Newdata


NumCajas
1 150

> predict(RegModel.1, newdata=.NewData, interval="confidence",


level=.95, se.fit=FALSE)

fit lwr upr


1 45.83848 44.87606 46.8009

El intervalo de confianza del 95% para el tiempo medio cuando 𝑥 = 150 es:
44.88 ≤ 𝐸(𝑦|𝑥 = 150) ≤ 46.80

A un nivel de confianza del 95% se espera que el tiempo promedio de entrega de entrega
para los clientes que pide 150 cajas este entre 44.88 y 46.80 minutos.
n) Estimación por intervalo para una observación futura (predicción). Establezca un
intervalo de predicción del 95% del tiempo de entrega para un cliente que recibirá 150
cajas de refresco.

En vez de estimar el tiempo promedio de una entrega de 150 cajas, ahora se está interesado
en predecir la respuesta particular y que observaríamos si alguna vez se realiza la entrega de
150 cajas.

Menú modelos/ prediction intervals… HH/ (prediction interval for individual)

> .NewData # Newdata


NumCajas
1 150

> predict(RegModel.1, newdata=.NewData, interval="prediction",


level=.95, se.fit=FALSE)
fit lwr upr
1 45.83848 41.55546 50.1215

El intervalo de predicción del 95% del tiempo de entrega cuando 𝑥 = 150 es:
41.56 ≤ 𝑦0 ≤ 50.12

A un nivel de predicción del 95% se espera que el tiempo de entrega para un cliente que pide
150 cajas de refresco este entre 41.55 y 50. 12 minutos.

Menú modelos/ confidence interval plot

También podría gustarte