Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tiempo de Tiempo de
Número de Número de
Cliente entrega Cliente entrega
cajas cajas
(minutos) (minutos)
1 52 32.1 11 161 43.0
2 64 34.8 12 184 49.4
3 73 36.2 13 202 57.2
4 85 37.8 14 218 56.8
5 95 37.8 15 243 60.6
6 103 39.7 16 254 61.2
7 116 38.5 17 267 58.2
8 121 41.9 18 275 63.1
9 143 44.2 19 287 65.6
10 157 47.1 20 298 67.3
Suponga que se desea desarrollar un modelo para predecir el tiempo de entrega basado en el
número de cajas entregadas.
a) Construya un diagrama de dispersión
b) Calcule el coeficiente de correlación y explique su significado.
c) Prueba de hipótesis para el coeficiente de correlación poblacional
d) Determine el modelo de predicción (recta de mínimos cuadrados)
e) Interprete la pendiente y el intercepto
f) ¿Existe evidencia de una relación lineal entre el tiempo de entrega y el número de cajas
entregadas?
g) Pronostique el tiempo de entrega promedio para un cliente que recibe 150 cajas de
refresco.
h) ¿Sería adecuado usar el modelo para predecir el tiempo de entrega para un cliente que
recibe 500 cajas de refresco? ¿Por qué?
i) Calcule el error estándar. ¿Cuál es su conclusión?
j) Calcule el coeficiente de determinación y explique su significado.
k) Realice un análisis residual. ¿Se cumplen los supuestos del modelo de regresión?
Justifique.
l) Establezca un intervalo de confianza del 95% para la pendiente.
m) Establezca un intervalo de confianza del 95% del tiempo promedio de entrega para
clientes que reciben 150 cajas de refresco.
n) Establezca un intervalo de predicción del 95% del tiempo de entrega para un cliente
individual que recibe 150 cajas de refresco.
a) Diagrama de dispersión
El diagrama de dispersión muestra que la relación entra las dos variables (tiempo de entrega
y el número de cajas) puede ser considerada como lineal con pendiente positiva, lo que indica
que a mayor número de cajas mayor tiempo de entrega.
Ahora bien, debido a que los cálculos para el coeficiente de correlación se basan en una
muestra aleatoria, se espera que varíen de una muestra a otra. Esto plantea preguntas de
significancia del coeficiente de correlación poblacional 𝜌 (rho). La significancia de r será
tratada mediante una prueba de hipótesis del coeficiente de correlación poblacional 𝜌. Las
hipótesis a probar son:
𝐻0 : 𝜌 = 0 vs 𝐻1 : 𝜌 ≠ 0
𝐻0 : No existe correlación lineal vs 𝐻1 : existe correlación lineal.
Como el 𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 0.00 … 02152 ≤∝= 0.05 se rechaza 𝐻0 (no existe correlación lineal).
Por lo tanto, concluimos que existe evidencia suficiente para asumir que existe correlación
entre el número de cajas y el tiempo de entrega.
Residuals:
Min 1Q Median 3Q Max
-4.3788 -0.4173 0.3620 1.0186 4.0802
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 24.834531 1.054219 23.56 5.61e-15 ***
XNumCajas 0.140026 0.005627 24.88 2.15e-15 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
𝑦̂ = 24.83 + 0.14𝑥
Es decir,
𝑡𝑖𝑒𝑚𝑝𝑜 𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑜 𝑑𝑒 𝑒𝑛𝑡𝑟𝑒𝑔𝑎 = 24.83 + 0.14(𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑗𝑎𝑠)
𝛽1 = 0.14 es la pendiente. Es el cambio promedio en 𝑦̂ por cada cambio de una unidad (ya
sea aumento o reducción) de la variable independiente 𝑋. En este caso significa que por cada
caja adicional de refrescos que deba entregar, el repartidos incrementará el tiempo requerido
para descargar las cajas de refresco en el punto de entrega en aproximadamente 0.14 minutos.
f) Pronostique el tiempo de entrega promedio para un cliente que recibe 150 cajas de
refresco.
Si un repartidor descarga 150 cajas de refresco, debería tardarse 45.83 minutos. El cuál se
determinó a partir de la ecuación de ajuste:
No, como X=500 está fuera del rango de valores incluidos en la muestra, no se debe emplear
para estimar el tiempo de entrega. Los pedidos de cajas varían de 52 a 298, por lo que las
estimaciones se deben hacer dentro de ese rango.
Si el error estándar de estimación es pequeño, significa que los datos están relativamente
cercanos a la recta de regresión, y la ecuación de regresión sirve para predecir con poco error.
Si el error estándar de estimación es grande, significa que los datos están muy dispersos
respecto de la recta de regresión, y la ecuación de regresión no proporcionará una estimación
precisa de 𝑌.
Para este ejemplo, el valor del error estándar es 1.987. Podemos concluir que es un valor
pequeño por lo que la ecuación de regresión proporcionará una buena estimación del tiempo
de entrega de las cajas de refresco.
El 97% del comportamiento (variación) del tiempo de entrega, puede explicarse por medio
del correspondiente comportamiento (variación) en el número de cajas mediante la ecuación
de regresión. Esto significa que alrededor de 3% de la variación en el tiempo de descarga se
debe al azar o a posibles variables, desconocidas para el investigador (administración de la
embotelladora), que influyen en el tiempo de entrega.
Esta gráfica se utiliza para determinar si los residuos del modelo de regresión se distribuyen
normalmente. Si los puntos en este gráfico caen aproximadamente a lo largo de una línea
diagonal recta, entonces podemos asumir que los residuos se distribuyen normalmente.
Nótese que los residuales se grafican en el eje vertical. Los residuales no caen exactamente
en una línea recta, lo que indica que puede haber algunos problemas con la suposición de
normalidad, o que puede haber uno o más valores atípicos en los datos.
El grafico de escala-ubicación
Independencia
Durbin-Watson test
Como el estadístico Durbin Watson 𝑤 = 1.8 está entre 1.5 y 2.5 concluimos que los residuos
son independientes, o sea existe suficiente evidencia para concluir que no existe algún patrón
en los residuales.
k) ¿Existe evidencia de una relación lineal entre el tiempo de entrega y el número de
cajas entregadas?
𝐻0 : 𝛽1 = 0 vs 𝐻0 : 𝛽1 ≠ 0
Residuals:
Min 1Q Median 3Q Max
-4.3788 -0.4173 0.3620 1.0186 4.0802
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 24.834531 1.054219 23.56 5.61e-15 ***
NumCajas 0.140026 0.005627 24.88 2.15e-15 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Response: TiempoEntrega
Df Sum Sq Mean Sq F value Pr(>F)
NumCajas 1 2443.47 2443.47 619.2 2.152e-15 ***
Residuals 18 71.03 3.95
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En la tablas anteriores se tiene que 𝑣𝑎𝑙𝑜𝑟 𝑝 ≈ 0 < 𝛼 = 0.05. por lo que se rechaza 𝐻0 : 𝛽1 =
0, eso implica que se rechaza la hipótesis de no linealidad con un nivel de significancia del
5%. Así la relación entre el número de cajas y el tiempo de entrega es estadísticamente lineal.
Sea 𝑥0 el valor o el nivel de la variable regresora para el que se desea estimar la respuesta
media, es decir, 𝐸(𝑦|𝑥0 ).
El intervalo de confianza del 95% para el tiempo medio cuando 𝑥 = 150 es:
44.88 ≤ 𝐸(𝑦|𝑥 = 150) ≤ 46.80
A un nivel de confianza del 95% se espera que el tiempo promedio de entrega de entrega
para los clientes que pide 150 cajas este entre 44.88 y 46.80 minutos.
n) Estimación por intervalo para una observación futura (predicción). Establezca un
intervalo de predicción del 95% del tiempo de entrega para un cliente que recibirá 150
cajas de refresco.
En vez de estimar el tiempo promedio de una entrega de 150 cajas, ahora se está interesado
en predecir la respuesta particular y que observaríamos si alguna vez se realiza la entrega de
150 cajas.
El intervalo de predicción del 95% del tiempo de entrega cuando 𝑥 = 150 es:
41.56 ≤ 𝑦0 ≤ 50.12
A un nivel de predicción del 95% se espera que el tiempo de entrega para un cliente que pide
150 cajas de refresco este entre 41.55 y 50. 12 minutos.