Ejemplo.m1 Summary (Ejemplo.m1)

#### Instalando paquetes
install.packages("nortest")
install.packages("fastGraph")
install.packages("car")
#### Cargando archivo de datos

#### "Ejemplo de RML.xlsxx"
ejemplo.data<-read.delim("clipboard")
#### Obtener el diagrama de dispersión

pairs(Y ~ X1 + X2 + X3 + X4 + X5,
data = ejemplo.data,lower.panel = NULL)
> ejemplo.m1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data = ejemplo.data)

> summary(ejemplo.m1)
Call:
lm(formula = Y ~ X1 + X2 + X3 + X4 + X5, data = ejemplo.data)
Residuals:
Min 1Q Median 3Q Max
-15.2743 -5.2617 0.5032 4.1198 15.3213
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.91518 10.70604 6.250 1.91e-07 ***
X1 -0.17211 0.07030 -2.448 0.01873 *
X2 -0.25801 0.25388 -1.016 0.31546
X3 -0.87094 0.18303 -4.758 2.43e-05 ***
X4 0.10412 0.03526 2.953 0.00519 **
X5 1.07705 0.38172 2.822 0.00734 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.165 on 41 degrees of freedom
Multiple R-squared: 0.7067, Adjusted R-squared: 0.671
F-statistic: 19.76 on 5 and 41 DF, p-value: 5.594e-10
Modelo de regresión lineal múltiple:

Y = 66.91518 – 0.17211X1 – 0.25801X2 – 0.87094X3 + 0.10412X4 + 1.07705X5
Variable no significativa X2:

H0: β2 = 0 variable no significativa α = 5% no se rechaza la H0
H1: β2 ≠ 0 variable significativa pvalor = 31.546%
Conclusión: no se rechaza la H0, es decir, la variable no es significativa.
Y = 66.91518 – 0.17211X1 – 0*X2 – 0.87094X3 + 0.10412X4 + 1.07705X5
vif(ejemplo.m1)
X1 X2 X3 X4 X5
2.284129 3.675420 2.774943 1.937160 1.107542
Ninguno de los factores de Inflación variable (VIF) de las variables independientes tiene un valor mayor que 10
Conclusión: NO HAY MULTICOLINEALIDAD
ejemplo.m3 <- lm(Y ~ X1 + X3 + X4 + X5, data = ejemplo.data)

summary(ejemplo.m3)
Call:
lm(formula = Y ~ X1 + X3 + X4 + X5, data = ejemplo.data)
Residuals:
Min 1Q Median 3Q Max
-14.6765 -6.0522 0.7514 3.1664 16.1422
Coefficients:
(Intercept) 62.10131 9.60489 6.466 8.49e-08 ***
X1 -0.15462 0.06819 -2.267 0.02857 *
X3 -0.98026 0.14814 -6.617 5.14e-08 ***
X4 0.12467 0.02889 4.315 9.50e-05 *** = 0.0000950
X5 1.07844 0.38187 2.824 0.00722 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Variable no significativa:
H0: β5 = 0 variable no significativa α = 5%
H1: β5 ≠ 0 variable significativa pvalor = 0.722% SE RECHAZA LA H0
Conclusión: la variable es significativa
Modelo de regresión múltiple lineal:

Y = 62.10131 - 0. 15462X1 - 0.98026X3 + 0.12467 + 1.07844
r2 = 0.6993
Como r2 ≤ 0.70, se puede afirmar que el modelo no tiene un gran ajuste.
Las variaciones de la variable dependiente son explicadas en 69,93% por las variaciones de las variables
dependientes
Regresion <- cbind(ejemplo.data$X1, ejemplo.data$X3, ejemplo.data$X4, ejemplo.data$X5)

ejemplo.m2 <- lm(Y ~ Regresion, data = ejemplo.data)
anova(ejemplo.m2)
Analysis of Variance Table
Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
Regresion 4 5019.9 1254.97 24.424 1.717e-10 ***
Residuals 42 2158.1 51.38
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
H0: el modelo no se significativo α=5%

H1: el modelo es significativo pvalor = 0.00000001717% se rechaza la H0
Conclusión:
El modelo es significativo
#### Valor crítico

#### Para el constraste de la significacion del modelo
library(fastGraph)
shadeDist(qf(0.05, 4, 42, lower.tail=F), "df", 4, 42, lower.tail=F)
Fc=24.424
predict(ejemplo.m3, data.frame(X1 = 50.7, X3 = 11.0, X4 = 41.1, X5 = 19.9), level = 0.95,

+ interval = "confidence")
fit lwr (limite inferior) upr (limite superior)
1 70.06409 67.95378 72.1744
#### Intervalo de confianza del 95% para del valor de Y, cuando se sabe que:
#### X1 = 54.1, X3 = 8.0, X4 = 15.1 y X5 = 20.0
predict(ejemplo.m3, data.frame(X1 = 54.1, X3 =8.0, X4 = 15.1, X5 = 20.0), level = 0.95,
interval = "prediction")
fit lwr upr
1 69.3457 54.6277 84.0637
41. El director administrativo de una universidad privada está intentando desarrollar un sistema diseñado para
identificar que atributos personales son esenciales para avanzar gerencialmente. A 15 empleados de la
universidad privada que han sido ascendidos recientemente se les practica una serie de pruebas (calificadas
en una escala de 0 a 100) para determinar sus habilidades comunicativas (X1), la habilidad para relacionarse
con otros (X2) y la habilidad para tomar decisiones (X3). Se desea establecer un modelo que explique la
calificación del trabajo (Y) del empleado en términos de las variables anteriores. Los datos recolectados son
los siguientes:
Y X1 X2 X3
80 50 72 22
75 51 74 19
84 42 79 22
62 42 71 17
92 59 85 25
75 45 73 17
63 48 75 16
69 39 73 19
68 40 71 20
87 55 80 30
92 48 83 33
82 45 80 20
74 45 75 18
80 61 75 20
62 59 70 15
a) Obtenga el modelo lineal estimado que explique la calificación del trabajo (Y) del empleado en términos de X 1,
X2 y X3. Interprete el coeficiente que acompaña a la variable X 2.

#### Estimar el modelo de regresión lineal múltiple.

ejemplo.m1 <- lm(Y ~ X1 + X2 + X3, data = ejemplo.data)
summary(ejemplo.m1)
Coefficients:
(Intercept) -34.8233 25.9319 -1.343 0.2064
X1 0.1328 0.1817 0.731 0.4799
X2 1.1450 0.4150 2.759 0.0186 *
X3 0.8621 0.3735 2.308 0.0414 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Modelo lineal estimado:

Calificación del trabajador = -34.8233 + 0.1328*habilidades comunicativas + 1.145*habilidad para relacionarse
con otros + 0.8621*habilidad para tomar decisiones
Y = -34.8233 + 0.1328X1 + 1.1450X2 + 0.8621X3
Interpretación del coeficiente que acompaña a la variable X2:

β2 = 1.145; por cada punto adicional en la calificación de la habilidad para relacionarse con otros, la
calificación del trabajador aumenta en 1.145
Y = -34.8233 + 0.1328X1 + 1.1450X2 + 0.8621X3

Y = 0 + 0*X1 + 1.145X2 + 0*0.8621 -> Y=1.145X2
X2 = 1 -> Y = 1.145
X2 = 2 -> Y = 2.29
X2 = 3 -> Y = 3.435
β3 = 0.8621; por cada punto adicional en la calificación de la habilidad para tomar decisiones, la calificación
del trabajador aumenta en 0.8621
β0 = -34.8233 NO SE INTERPRETA EN ESTE CASO¡¡¡

Y = -34.8233 + 0*X1 + 0*X2 + 0*X3 -> Y = -34.8233
b) ¿Cuál es el nivel de explicación que se consigue con el modelo estimado?

F-statistic: 18.2 on 3 and 11 DF, p-value: 0.0001419
Las variaciones de la variable dependiente son explicadas en 83.23% por las variaciones de las variables
dependientes
c) Con 5% de significación, ¿el modelo global es el adecuado?
#### Para tabla de ANOVA

#### Probar si el modelo es significativo
Regresion <- cbind(ejemplo.data$X1, ejemplo.data$X2,ejemplo.data$X3)
anova(ejemplo.m2)
Response: Consumo
Regresion 2 0.032036 0.0160180 253.65 2.942e-07 ***
Residuals 7 0.000442 0.0000632
Método del pvalor:

H0: el modelo no es significativo α=5%
H1: el modelo es significativo pvalor= 0.00002942% Se rechaza la hipótesis nula
Método de puntos críticos:

#### Valor crítico
library(fastGraph)
Fc=263.65
Conclusión: el modelo es significativo
d) Con 5% de significación, ¿qué variables son significativas para el modelo? ¿Cuál es el modelo que se propone
a partir de estas pruebas?
Coefficients:
(Intercept) -34.8233 25.9319 -1.343 0.2064
X1 0.1328 0.1817 0.731 0.4799
X2 1.1450 0.4150 2.759 0.0186 *
X3 0.8621 0.3735 2.308 0.0414 *
Habilidad para relacionarse con otros (X2) y habilidad para tomar decisiones (X3): Variable significativa
Conclusión: la variable habilidad para relacionarse con otros es significativa
Variable significativa:
Conclusión: la variable habilidad para tomar decisiones es significativa
Habilidades comunicativas (X1): Variable no significativa

H0: β1 = 0 variable no significativa α = 5% NO SE RECHAZA LA H0
Conclusión: la variable habilidades comunicativas NO es significativa
Modelo lineal propuesto: Y = -34.8233 + 1.1450X2 + 0.8621X3
e) Compruebe el cumplimiento del supuesto de no multicolinealidad
#### Evaluar la presencia de multicolinealidad.

library(car)
vif(ejemplo.m1)
X1 X2 X3
1.067276 2.324280 2.255175
Interpretación: Ninguno de los factores de Inflación variable (VIF) de las variables independientes tienen un
valor mayor que 10, por lo tanto, NO existe multicolinealidad
f) Con el modelo propuesto luego de las pruebas individuales estime la Calificación en el trabajo de un empleado
que tiene 55 puntos en su prueba de habilidades comunicativas, 78 puntos en habilidad para relacionarse con
otros y 35 puntos en la toma de decisiones.
#### Intervalo de confianza del 95% para el valor medio de Y, cuando se sabe que:
#### X1 = 55, X2 = 78, X3 = 35
predict(ejemplo.m1, data.frame(X1 = 55, X2 = 78, X3 = 35), level = 0.95, interval = "prediction")
fit (Ajuste lwr (limite inferior) upr (limite superior)

1 91.96278 77.04655 106.879
La calificación en el trabajo seria de 91.96378
g) Realice la estimación para el promedio de la evaluación en el trabajo para las personas con los indicadores de
la parte “f” pero mediante un intervalo de confianza del 90%.
#### X1 = 55, X2 = 78, X3 = 35
predict(ejemplo.m1, data.frame(X1 = 55, X2 = 78, X3 = 35), level = 0.90, interval = "confidence")
fit lwr upr

1 91.96278 83.17847 100.7471
42. Se hizo un estudio de mercado sobre el consumo de helados durante la primavera y el verano (kg per cápita
por semana), el precio por kg de helado (dólares), el ingreso mensual del consumidor (dólares) y la temperatura
(grados farenheit), obteniéndose los siguientes datos:
Consumo Precio Ingreso Temperatura
0.387 1.33 359 63
0.375 1.37 358 61
0.394 1.30 360 65
0.428 1.25 370 69
0.407 1.28 366 68
0.345 1.39 357 55
0.328 1.40 357 47
0.289 1.43 352 42
0.269 1.45 343 32
0.258 1.46 343 23
a) Encuentre la ecuación de regresión que explique el consumo en términos del precio, ingreso y temperatura.

ejemplo.m1 <- lm(Consumo ~ Precio + Ingreso + Temperatura, data = ejemplo.data)
summary(ejemplo.m1)
Coefficients:
(Intercept) 0.6357983 0.5019503 1.267 0.25223
Precio -0.3418664 0.1193339 -2.865 0.02862 *
Ingreso 0.0001869 0.0011430 0.164 0.87546
Temperatura 0.0021438 0.0005696 3.764 0.00936 **
Ecuación de regresión: Consumo = 0.6358 – 0.3419*Precio + 0.0002*Ingreso + 0.0021*Temperatura
b) ¿Cuáles de las variables seleccionaría usted, para considerarlas en la regresión? Use α = 0.05.
Precio y temperatura:
Conclusión: la variable precio es significativa
Conclusión: la variable temperatura es significativa
Ingreso:
Variable no significativa:
Conclusión: la variable NO es significativa
c) Para la ecuación obtenida con las variables seleccionadas en (b):
#### Estimar el modelo de regresión lineal múltiple con las variables seleccionadas
ejemplo.m1 <- lm(Consumo ~ Precio + Temperatura, data = ejemplo.data)
summary(ejemplo.m1)
i) ¿Qué porcentaje de las variaciones observadas en el consumo se deben a las variaciones en las variables
predictoras seleccionadas? ¿Qué significa este porcentaje?

El 98.64% de las variaciones observadas en el consume se deben a las variaciones en el precio y la
temperature.
Como r2 > 0.70, es decir 0.9864>0.70, se puede afirmar que el modelo tiene un gran ajuste.
ii) Analice la significación del modelo. Use α = 0.05.

Regresion <- cbind(ejemplo.data$Precio, ejemplo.data$Temperatura)
ejemplo.m2 <- lm(Consumo ~ Regresion, data = ejemplo.data)
anova(ejemplo.m2)
Response: Consumo
Regresion 2 0.032036 0.0160180 253.65 2.942e-07 ***
Residuals 7 0.000442 0.0000632
Método de pvalor:
H0: el modelo no se significativo α=5%
H1: el modelo es significativo pvalor = 0.00002942% se rechaza la H0
Conclusión:

#### Valor crítico
library(fastGraph)
GRADOS DE LIBERTAD: 2 y 7
Grado de libertad numerador = 3 -1 = 2
Grado de libertad denominador = 10 - 3 = 7
Fc = 253.65
Conclusión:
iii) Halle el intervalo del 98% de confianza para el coeficiente de la temperatura.
#### Obtener los intervalos de confianza al 98% para los coeficientes de

#### regresión del modelo.
confint(ejemplo.m1, level = 0.98)
1% 99 %
(Intercept) 0.2615725234 1.165373991
Precio -0.6358998298 -0.068057934
Temperatura 0.0008932161 0.003500304
Temperatura: < 0.0008932161; 0.003500304 >
1. La gerente distrital de una cadena de tiendas de ventas al menudeo con descuento, está investigando por qué
ciertos establecimientos de su región tienen mejor desempeño que otros. Cree que tres factores están
relacionados con las ventas totales. Para despejar sus dudas, seleccionó una muestra aleatoria de 30 tiendas,
para las cuales recolectó la información que sigue.
Y: ventas totales del último año (en miles de dólares)
X1: número de competidores de la región.
X2: población (en millones)
X3: gasto en publicidad (en miles de dólares)
Los datos se procesaron con el MINITAB obteniéndose los siguientes resultados:
a) Realice una prueba de la significación del modelo. Use α = 0.05.

b) Interprete los coeficientes del modelo estimado.
c) Halle intervalos del 90% de confianza para los coeficientes del modelo.
d) ¿Cuál será la venta estimada para una tienda que tiene 4 competidores, población de 400000 y gastos de
publicidad de $30000?
e) Calcule e interprete el valor de R2.
f) ¿Qué variables consideraría eliminar del modelo? Use α = 0.05.
2. El gerente de operaciones financieras de R&D Bank desea realizar un estudio para estimar el monto de préstamo
(en miles de soles) que puede brindar a sus clientes en función de:
X1: El ingreso mensual del solicitante (en miles de soles).

X2: La edad (en años) del solicitante.
X3: El tiempo (en años) que viene laborando el solicitante.
Con base a una muestra se procesan los datos con Minitab obteniéndose los siguientes resultados:
a) Pruebe la significancia del modelo completo. Use =0.03.
b) ¿Qué porcentaje de variación del monto de préstamo es explicado por la variación de los predictores?
c) Halle e interprete un intervalo del 97% de confianza para  1.
d) ¿Considera usted que alguna(s) variable(s) deben ser eliminadas? ¿Cuál(es)? Presente todo su
procedimiento con =0.03.
45. Una empresa se especializa en la venta de productos para techos y recubrimientos de paredes a minoristas
en reparación de casas. El gerente desea estudiar los efectos de diversas variables sobre el valor de las tejas
americanas vendidas (miles de dólares). Para lo cual considero una muestra de 20 distritos y determinó:
 Gastos en publicidad (X1) (en miles de dólares)

 Número de cuentas activas (X2)
 Número de marcas de competidores(X3)
 Calificación del potencial del mercado (X4)
 Ventas (Y) (en miles de dólares)
Y X1 X2 X3 X4
79.3 5.5 31 10 8
200.1 2.5 55 8 6
163.2 8 67 12 9
200.1 3 50 7 16
146 3 38 8 15
177.7 2.9 71 12 17
30.9 8 30 12 8
291.9 9 56 5 10
160 4 42 8 4
339.4 6.5 73 5 16
159.6 5.5 60 11 7
86.3 5 44 12 12
237.5 6 50 6 6
107.2 5 39 10 4
155 3.5 55 10 4
291.4 8 70 6 14
100.2 6 40 11 6
135.8 4 50 11 8
223.3 7.5 62 9 13
195 7 59 9 11
#### Cargando archivo de datos "Ejemplo de RML.xlsxx"

#### Obtener el diagrama de dispersión

pairs(Y ~ X1 + X2 + X3 + X4, data = ejemplo.data, lower.panel = NULL)
Evaluando la multicolinealidad:
library(car)
vif(ejemplo.m1)
X1 X2 X3 X4
1.053975 1.345821 1.106960 1.292495
Conclusión: como ninguna variable tiene un valor VIF >10, entonces no hay multicolinealidad
a) Ajuste una ecuación de regresión lineal considerando todas las variables predictoras. Interprete el coeficiente
correspondiente a la variable X1.

ejemplo.m1 <- lm(Y ~ X1 + X2 + X3 + X4, data = ejemplo.data)
summary(ejemplo.m1)
Coefficients:
(Intercept) 179.83283 13.19834 13.625 7.48e-10 ***
X1 1.52133 0.94707 1.606 0.129
X2 3.45875 0.16474 20.996 1.56e-12 ***
X3 -21.37583 0.81500 -26.228 6.02e-14 ***
X4 0.01254 0.48722 0.026 0.980
Ecuación de regresión lineal: Y = 179.83283 + 1.52133X1 + 3.45875X2 – 21.37583 + 0.01254X4
Interpretación de X1: Gastos en publicidad (en miles de dólares)

Por cada mil dólares de incremento de gastos en publicidad, las ventas de productos para techos y
recubrimientos de paredes a minoristas en reparación de casas se incrementan en 1521.33 dólares.
PROBAR SI EL MODELO ES SIGNIFICATIVO:

Regresion <- cbind(ejemplo.data$X1, ejemplo.data$X2, ejemplo.data$X3, ejemplo.data$X4)
anova(ejemplo.m2)
método de pvalor:
H0: El modelo no es significativo: β1=β2=β3=…=βn = 0 α=5%
H1: El modelo es significativo al menos un βi ≠ 0 pvalor = 0% se rechaza la H0
Response: Y
Regresion 4 112520 28130.0 434.88 2.604e-15 *** 0.000000000000002607 (pvalor)
Residuals 15 970 64.7
Df: degree free

#### Valor crítico
library(fastGraph)
434.88
Conclusión:
En ambos casos se rechaza la hipótesis nula, es decir, el modelo es significativo.
EVALUANDO EL SUPUESTO DE NORMALIDAD

#### Verificar el supuesto de normalidad de los errores del modelo
library(nortest)
ad.test(residuals(ejemplo.m1))
Anderson-Darling normality test
data: residuals(ejemplo.m1)
A = 0.18155, p-value = 0.9004
H0: Los errores del modelo se ajustan a una distribución normal α=5% No se rechaza la H0
H1: Los errores del modelo NO se ajustan a una distribución normal pvalor=90.04%
Conclusión:
No se rechaza la hipótesis nula, es decir, los errores del modelo se ajustan a una distribución normal.
EVALUANDO EL SUPUESTO DE NORMALIDAD MEDIANTE GRÁFICO

#### Gráfico Q-Q Normal
qqnorm(residuals(ejemplo.m1))
qqline(residuals(ejemplo.m1))
b) ¿Qué parte de las ventas no está siendo explicada por las variables predictoras?

r2 = 0.9915
Las variaciones de la variable venta de productos para techos y recubrimientos de paredes a minoristas en
reparación de casas son explicadas en 99.15% por las variaciones de las variables independientes (Gastos en
publicidad, Número de cuentas activas, Número de marcas de competidores, Calificación del potencial del
mercado).
1-r2 = 1- 0.9915 = 0.0385: Respuesta a la pregunta

El 3.85% de las variaciones de la variable venta de productos para techos y recubrimientos de paredes a
minoristas en reparación de casas NO son explicadas por las variaciones de las variables independientes
(Gastos en publicidad, Número de cuentas activas, Número de marcas de competidores, Calificación del
potencial de mercado).
c) Estime las ventas correspondientes a un distrito donde la empresa tiene un gasto de 3000 dólares en
publicidad, 30 cuentas activas, 9 marcas competidoras y una calificación del potencial del mercado de 10
puntos. Utilice una confianza del 98%.
Ventas = 179.83283 + 1.52133*gastos en publicidad + 3.45875*número de cuentas activas – 21.37583*número

de marcas de competidores + 0.01254*calificación del mercado potencial
Reemplazando:
Ventas = 179.83283 + 1.52133*3 + 3.45875*30 -21.37583*9 + 0.01254*10 = 95.90225
Las ventas tendrían un valor de $95902.25
#### Intervalo de confianza del 98% para del valor de Y, cuando se sabe que:
#### X1 = 3, X2 = 30, X3 = 9 y X4 = 10
predict(ejemplo.m1, data.frame(X1 = 3, X2 = 30, X3 = 9, X4 = 10), level = 0.98, interval = "prediction")
fit lwr (límite inferior) upr (límite superior)

1 95.90226 71.99148 119.813
Se estima las ventas en $95902.26
d) ¿Cuáles de las variables seleccionaría usted, para considerarlas en la ecuación de regresión? Use un nivel de
significancia α = 0.02.
Coefficients:
(Intercept) 179.83283 13.19834 13.625 7.48e-10 ***
X1 1.52133 0.94707 1.606 0.129
X2 3.45875 0.16474 20.996 1.56e-12 ***
X3 -21.37583 0.81500 -26.228 6.02e-14 ***
X4 0.01254 0.48722 0.026 0.980
Número de cuentas activas (X2) y Número de marcas de competidores (X3): Variable significativa:
H1: β2 ≠ 0 variable significativa pvalor = 0% SE RECHAZA LA H0
Conclusión: la variable precio es significativa

H1: β3 ≠ 0 variable significativa pvalor = 0% SE RECHAZA LA H0
Conclusión: la variable temperatura es significativa
Gastos en publicidad (X1) y calificación del potencial de mercado (X4): Variable no significativa:
Conclusión: la variable gastos en publicidad NO es significativa

H1: β4 ≠ 0 variable significativa pvalor = 98%
Conclusión: la variable calificación del potencial de mercado NO es significativa
Seleccionaría las variables Número de cuentas activas (X2) y Número de marcas de competidores (X3) para
considerarlas en la ecuación de regresión.
Y = B0 + B2*X2+B3*X3

ejemplo.m2 <- lm(Y ~ X2 + X3, data = ejemplo.data)
summary(ejemplo.m2)
Coefficients:
(Intercept) 187.6826 12.2382 15.34 2.18e-11 ***
X2 3.4964 0.1497 23.36 2.34e-14 ***
X3 -21.5218 0.8166 -26.36 3.16e-15 ***
Ecuanion de regresión propuesto:

Ventas = 187.6826 + 3.4964*número de cuentas activas – 21.5218*número de marcas de competidores
Comparando modelos:
Coeficiente de determinacion anterior:
Coeficiente de determinacion posterior:

F-statistic: 839.3 on 2 and 17 DF, p-value: < 2.2e-16
Conclusión
Como r2 anterior > r2 posterior: 0.9915 > 0.9900: el mayor número de variables hace que se incremente de manera
ficticia el valor de r2 múltiple
46. Una empresa que vende por correo suministros para computadoras personales, software y hardware posee
un almacén central para la distribución de los productos ordenados. Actualmente, la administración se
encuentra examinando el proceso de distribución desde el almacén y está interesada en estudiar los factores
que afectan los costos de distribución del almacén. Para dicho propósito se ha seleccionado una muestra de
24 meses y se han obtenido, los costos de distribución del almacén (en miles de dólares), las ventas (miles de
dólares) y el número de pedidos recibidos. A continuación se presentan los resultados:
Mes Costo de distribución Ventas Número de
(miles de dólares) (miles de dólares) Pedidos
Y X1 X2
1 52.95 386 4015
2 71.66 446 3806
3 85.58 512 5309
4 63.69 401 4262
5 72.81 457 4296
6 68.44 458 4097
7 52.46 301 3213
8 70.77 484 4809
9 82.03 517 5237
10 74.39 503 4732
11 70.84 535 4413
12 54.08 353 2921
13 62.98 372 3977
14 72.30 328 4428
15 58.99 408 3964
16 79.38 491 4582
17 94.44 527 5582
18 59.74 444 3450
19 90.50 623 5079
20 93.24 596 5735
21 69.33 463 4269
22 53.71 389 3708
23 89.18 547 5387
24 66.80 415 4161
a) Estime una ecuación de regresión lineal múltiple considerando todas las variables predictoras. Interprete el
coeficiente de la variable “Número de pedidos”.



ejemplo.m1 <- lm(Y ~ X1 + X2, data = ejemplo.data)
summary(ejemplo.m1)
Coefficients:
(Intercept) -2.728247 6.157880 -0.443 0.6623
X1 0.047114 0.020328 2.318 0.0306 *
X2 0.011947 0.002249 5.313 2.87e-05 *** :0.0000287
Ecuación de regresión múltiple lineal:

Costo de distribución = -2.728247 + 0.047114*Ventas + 0.011947*Número de pedidos
Y = -2.728247 + 0.047114X1 + 0.011947X2
Interpretación del coeficiente de la variable “Número de pedidos”:
β2 = 0.011947: por unidad de pedido adicional recibido por la empresa, el costo de distribución del almacén se
incrementa en 11.947 dólares
Y = 0 + 0*X1 + 0.011947X2
X2 = 1 -> Y= 0.011947: Y = 11.947
X2 = 2 -> Y= 0.023894: Y = 23.894
X2 = 3 -> Y = 0.035841: Y = 35.841
Interpretación del coeficiente de la variable “Ventas”:

β1 = 0.047114: por cada mil dólares adicionales en ventas, el costo de distribución del almacén se incrementa
en 47.114 dólares
Y = 0 + 0.047114X1 + 0*X2
b) ¿Cuáles de las variables seleccionaría usted, para considerarlas en el modelo de regresión? Use α=0.05.
Ventas (X1):
Conclusión: la variable ventas es significativa
Número de pedidos (X2):

Conclusión: la variable número de pedidos es significativa
Seleccionaría ambas variables ya que son significativas
c) Con las variables seleccionadas en b) realice lo siguiente:

c.1) ¿Qué porcentaje de las variaciones observadas en el costo de distribución del almacén se deben a las
variaciones en las variables predictoras o independientes seleccionadas? ¿Qué significa este porcentaje?

 Las variaciones de la variable dependiente son explicadas en 87.59% por las variaciones de las
variables independientes (predictoras).
 Las variaciones del costo de distribución son explicadas en 87.59% por las variaciones de las ventas
y el número de pedidos.
Como r2 > 0.70, se puede afirmar que el modelo tiene un gran ajuste.
c.2) Con 99% de confianza ¿Cuál sería el costo promedio de distribución del almacén considerando 550 mil dólares
de ventas y 5500 pedidos?
#### X1 = 550, X2 = 5500
predict(ejemplo.m1, data.frame(X1 = 550, X2 =5500 ), level = 0.99, interval = "confidence")
Ecuación de regresión múltiple lineal:

Costo de distribución = -2.728247 + 0.047114*Ventas + 0.011947*Número de pedidos
Y = -2.728247 + 0.047114*X1 + 0.011947*X2
Reemplazando:
Y = -2.728247 + 0.047114*550 + 0.011947*5500 = 88.892953
Costo de distribución del almacén = 88.892953: $88,892.95
Fit (ajuste) lwr (limite inferior) upr (limite superior)

1 88.89248 83.84133 93.94362
El costo promedio de distribucion del almacen seria de $88,982.48 8Se contesta con el resultado de Rstudio)
c.3) Con las variables seleccionadas para el modelo compruebe el cumplimiento del supuesto de normalidad de los
residuos. Use α = 0.05.
#### Verificar el supuesto de normalidad de los errores del modelo

library(nortest)
ad.test(residuals(ejemplo.m1))
Anderson-Darling normality test
data: residuals(ejemplo.m1)
A = 0.16714, p-value = 0.9282
Hipótesis por contrastar

H0: Los errores del modelo se ajustan a una distribución normal α=5% No se rechaza H0
H1: Los errores del modelo no se ajustan a una distribución normal pvalor=92.82%
Conclusión: Los errores del modelo se ajustan a una distribución normal, se cumple el supuesto de normalidad

Ejemplo.m1 Summary (Ejemplo.m1)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ejemplo.m1 Summary (Ejemplo.m1)

Cargado por

Copyright:

Formatos disponibles

#### Instalando paquetes

#### Cargando archivo de datos

#### Obtener el diagrama de dispersión

> ejemplo.m1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data = ejemplo.data)

Modelo de regresión lineal múltiple:

Variable no significativa X2:

Y = 66.91518 – 0.17211X1 – 0*X2 – 0.87094X3 + 0.10412X4 + 1.07705X5

ejemplo.m3 <- lm(Y ~ X1 + X3 + X4 + X5, data = ejemplo.data)

Residual standard error: 7.168 on 42 degrees of freedom

Modelo de regresión múltiple lineal:

Regresion <- cbind(ejemplo.data$X1, ejemplo.data$X3, ejemplo.data$X4, ejemplo.data$X5)

Analysis of Variance Table

H0: el modelo no se significativo α=5%

#### Valor crítico

predict(ejemplo.m3, data.frame(X1 = 50.7, X3 = 11.0, X4 = 41.1, X5 = 19.9), level = 0.95,

#### Cargando archivo de datos

#### Estimar el modelo de regresión lineal múltiple.

Modelo lineal estimado:

Interpretación del coeficiente que acompaña a la variable X2:

Y = -34.8233 + 0.1328X1 + 1.1450X2 + 0.8621X3

β0 = -34.8233 NO SE INTERPRETA EN ESTE CASO¡¡¡

b) ¿Cuál es el nivel de explicación que se consigue con el modelo estimado?

Residual standard error: 4.691 on 11 degrees of freedom

c) Con 5% de significación, ¿el modelo global es el adecuado?

#### Para tabla de ANOVA

Método del pvalor:

Método de puntos críticos:

Conclusión: el modelo es significativo

Habilidades comunicativas (X1): Variable no significativa

Modelo lineal propuesto: Y = -34.8233 + 1.1450X2 + 0.8621X3

e) Compruebe el cumplimiento del supuesto de no multicolinealidad

#### Evaluar la presencia de multicolinealidad.

fit (Ajuste lwr (limite inferior) upr (limite superior)

La calificación en el trabajo seria de 91.96378

fit lwr upr

#### Estimar el modelo de regresión lineal múltiple.

Ecuación de regresión: Consumo = 0.6358 – 0.3419*Precio + 0.0002*Ingreso + 0.0021*Temperatura

c) Para la ecuación obtenida con las variables seleccionadas en (b):

Residual standard error: 0.007947 on 7 degrees of freedom

ii) Analice la significación del modelo. Use α = 0.05.

#### Para tabla de ANOVA

Analysis of Variance Table

Método de puntos críticos:

iii) Halle el intervalo del 98% de confianza para el coeficiente de la temperatura.

#### Obtener los intervalos de confianza al 98% para los coeficientes de

Temperatura: < 0.0008932161; 0.003500304 >

Los datos se procesaron con el MINITAB obteniéndose los siguientes resultados:

a) Realice una prueba de la significación del modelo. Use α = 0.05.

X1: El ingreso mensual del solicitante (en miles de soles).

 Gastos en publicidad (X1) (en miles de dólares)

#### Cargando archivo de datos "Ejemplo de RML.xlsxx"

#### Obtener el diagrama de dispersión

#### Estimar el modelo de regresión lineal múltiple.

Interpretación de X1: Gastos en publicidad (en miles de dólares)

PROBAR SI EL MODELO ES SIGNIFICATIVO:

#### Para tabla de ANOVA

Analysis of Variance Table

Método de puntos críticos:

EVALUANDO EL SUPUESTO DE NORMALIDAD

Anderson-Darling normality test

EVALUANDO EL SUPUESTO DE NORMALIDAD MEDIANTE GRÁFICO

Residual standard error: 8.043 on 15 degrees of freedom

1-r2 = 1- 0.9915 = 0.0385: Respuesta a la pregunta

Ecuación de regresión: Consumo = 0.6358 – 0.3419Precio + 0.0002Ingreso + 0.0021*Temperatura

Ventas = 179.83283 + 1.52133gastos en publicidad + 3.45875número de cuentas activas – 21.37583*número