Está en la página 1de 18

#### Instalando paquetes

install.packages("nortest")
install.packages("fastGraph")
install.packages("car")

#### Cargando archivo de datos


#### "Ejemplo de RML.xlsxx"
ejemplo.data<-read.delim("clipboard")

#### Obtener el diagrama de dispersión


pairs(Y ~ X1 + X2 + X3 + X4 + X5,
data = ejemplo.data,lower.panel = NULL)

> ejemplo.m1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data = ejemplo.data)


> summary(ejemplo.m1)

Call:
lm(formula = Y ~ X1 + X2 + X3 + X4 + X5, data = ejemplo.data)

Residuals:
Min 1Q Median 3Q Max
-15.2743 -5.2617 0.5032 4.1198 15.3213

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.91518 10.70604 6.250 1.91e-07 ***
X1 -0.17211 0.07030 -2.448 0.01873 *
X2 -0.25801 0.25388 -1.016 0.31546
X3 -0.87094 0.18303 -4.758 2.43e-05 ***
X4 0.10412 0.03526 2.953 0.00519 **
X5 1.07705 0.38172 2.822 0.00734 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.165 on 41 degrees of freedom
Multiple R-squared: 0.7067, Adjusted R-squared: 0.671
F-statistic: 19.76 on 5 and 41 DF, p-value: 5.594e-10

Modelo de regresión lineal múltiple:


Y = 66.91518 – 0.17211X1 – 0.25801X2 – 0.87094X3 + 0.10412X4 + 1.07705X5

Variable no significativa X2:


H0: β2 = 0 variable no significativa α = 5% no se rechaza la H0
H1: β2 ≠ 0 variable significativa pvalor = 31.546%
Conclusión: no se rechaza la H0, es decir, la variable no es significativa.

Y = 66.91518 – 0.17211X1 – 0*X2 – 0.87094X3 + 0.10412X4 + 1.07705X5

vif(ejemplo.m1)
X1 X2 X3 X4 X5
2.284129 3.675420 2.774943 1.937160 1.107542

Ninguno de los factores de Inflación variable (VIF) de las variables independientes tiene un valor mayor que 10
Conclusión: NO HAY MULTICOLINEALIDAD

ejemplo.m3 <- lm(Y ~ X1 + X3 + X4 + X5, data = ejemplo.data)


summary(ejemplo.m3)

Call:
lm(formula = Y ~ X1 + X3 + X4 + X5, data = ejemplo.data)

Residuals:
Min 1Q Median 3Q Max
-14.6765 -6.0522 0.7514 3.1664 16.1422

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 62.10131 9.60489 6.466 8.49e-08 ***
X1 -0.15462 0.06819 -2.267 0.02857 *
X3 -0.98026 0.14814 -6.617 5.14e-08 ***
X4 0.12467 0.02889 4.315 9.50e-05 *** = 0.0000950
X5 1.07844 0.38187 2.824 0.00722 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.168 on 42 degrees of freedom


Multiple R-squared: 0.6993, Adjusted R-squared: 0.6707
F-statistic: 24.42 on 4 and 42 DF, p-value: 1.717e-10

Variable no significativa:
H0: β5 = 0 variable no significativa α = 5%
H1: β5 ≠ 0 variable significativa pvalor = 0.722% SE RECHAZA LA H0
Conclusión: la variable es significativa

Modelo de regresión múltiple lineal:


Y = 62.10131 - 0. 15462X1 - 0.98026X3 + 0.12467 + 1.07844
r2 = 0.6993
Como r2 ≤ 0.70, se puede afirmar que el modelo no tiene un gran ajuste.
Las variaciones de la variable dependiente son explicadas en 69,93% por las variaciones de las variables
dependientes

Regresion <- cbind(ejemplo.data$X1, ejemplo.data$X3, ejemplo.data$X4, ejemplo.data$X5)


ejemplo.m2 <- lm(Y ~ Regresion, data = ejemplo.data)
anova(ejemplo.m2)

Analysis of Variance Table

Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
Regresion 4 5019.9 1254.97 24.424 1.717e-10 ***
Residuals 42 2158.1 51.38
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

H0: el modelo no se significativo α=5%


H1: el modelo es significativo pvalor = 0.00000001717% se rechaza la H0
Conclusión:
El modelo es significativo

#### Valor crítico


#### Para el constraste de la significacion del modelo
library(fastGraph)
shadeDist(qf(0.05, 4, 42, lower.tail=F), "df", 4, 42, lower.tail=F)

Fc=24.424

predict(ejemplo.m3, data.frame(X1 = 50.7, X3 = 11.0, X4 = 41.1, X5 = 19.9), level = 0.95,


+ interval = "confidence")
fit lwr (limite inferior) upr (limite superior)
1 70.06409 67.95378 72.1744

#### Intervalo de confianza del 95% para del valor de Y, cuando se sabe que:
#### X1 = 54.1, X3 = 8.0, X4 = 15.1 y X5 = 20.0
predict(ejemplo.m3, data.frame(X1 = 54.1, X3 =8.0, X4 = 15.1, X5 = 20.0), level = 0.95,
interval = "prediction")
fit lwr upr
1 69.3457 54.6277 84.0637
41. El director administrativo de una universidad privada está intentando desarrollar un sistema diseñado para
identificar que atributos personales son esenciales para avanzar gerencialmente. A 15 empleados de la
universidad privada que han sido ascendidos recientemente se les practica una serie de pruebas (calificadas
en una escala de 0 a 100) para determinar sus habilidades comunicativas (X1), la habilidad para relacionarse
con otros (X2) y la habilidad para tomar decisiones (X3). Se desea establecer un modelo que explique la
calificación del trabajo (Y) del empleado en términos de las variables anteriores. Los datos recolectados son
los siguientes:

Y X1 X2 X3
80 50 72 22
75 51 74 19
84 42 79 22
62 42 71 17
92 59 85 25
75 45 73 17
63 48 75 16
69 39 73 19
68 40 71 20
87 55 80 30
92 48 83 33
82 45 80 20
74 45 75 18
80 61 75 20
62 59 70 15

a) Obtenga el modelo lineal estimado que explique la calificación del trabajo (Y) del empleado en términos de X 1,
X2 y X3. Interprete el coeficiente que acompaña a la variable X 2.

#### Cargando archivo de datos


#### "Ejemplo de RML.xlsxx"
ejemplo.data<-read.delim("clipboard")

#### Estimar el modelo de regresión lineal múltiple.


ejemplo.m1 <- lm(Y ~ X1 + X2 + X3, data = ejemplo.data)
summary(ejemplo.m1)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -34.8233 25.9319 -1.343 0.2064
X1 0.1328 0.1817 0.731 0.4799
X2 1.1450 0.4150 2.759 0.0186 *
X3 0.8621 0.3735 2.308 0.0414 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Modelo lineal estimado:


Calificación del trabajador = -34.8233 + 0.1328*habilidades comunicativas + 1.145*habilidad para relacionarse
con otros + 0.8621*habilidad para tomar decisiones
Y = -34.8233 + 0.1328X1 + 1.1450X2 + 0.8621X3

Interpretación del coeficiente que acompaña a la variable X2:


β2 = 1.145; por cada punto adicional en la calificación de la habilidad para relacionarse con otros, la
calificación del trabajador aumenta en 1.145

Y = -34.8233 + 0.1328X1 + 1.1450X2 + 0.8621X3


Y = 0 + 0*X1 + 1.145X2 + 0*0.8621 -> Y=1.145X2
X2 = 1 -> Y = 1.145
X2 = 2 -> Y = 2.29
X2 = 3 -> Y = 3.435
β3 = 0.8621; por cada punto adicional en la calificación de la habilidad para tomar decisiones, la calificación
del trabajador aumenta en 0.8621

β0 = -34.8233 NO SE INTERPRETA EN ESTE CASO¡¡¡


Y = -34.8233 + 0*X1 + 0*X2 + 0*X3 -> Y = -34.8233

b) ¿Cuál es el nivel de explicación que se consigue con el modelo estimado?

Residual standard error: 4.691 on 11 degrees of freedom


Multiple R-squared: 0.8323, Adjusted R-squared: 0.7866
F-statistic: 18.2 on 3 and 11 DF, p-value: 0.0001419

Las variaciones de la variable dependiente son explicadas en 83.23% por las variaciones de las variables
dependientes

c) Con 5% de significación, ¿el modelo global es el adecuado?

#### Para tabla de ANOVA


#### Probar si el modelo es significativo
Regresion <- cbind(ejemplo.data$X1, ejemplo.data$X2,ejemplo.data$X3)
ejemplo.m2 <- lm(Y ~ Regresion, data = ejemplo.data)
anova(ejemplo.m2)

Response: Consumo
Df Sum Sq Mean Sq F value Pr(>F)
Regresion 2 0.032036 0.0160180 253.65 2.942e-07 ***
Residuals 7 0.000442 0.0000632

Método del pvalor:


H0: el modelo no es significativo α=5%
H1: el modelo es significativo pvalor= 0.00002942% Se rechaza la hipótesis nula

Método de puntos críticos:


#### Valor crítico
#### Para el constraste de la significacion del modelo
library(fastGraph)
shadeDist(qf(0.05, 2, 7, lower.tail=F), "df", 2, 7, lower.tail=F)

Fc=263.65

Conclusión: el modelo es significativo

d) Con 5% de significación, ¿qué variables son significativas para el modelo? ¿Cuál es el modelo que se propone
a partir de estas pruebas?

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -34.8233 25.9319 -1.343 0.2064
X1 0.1328 0.1817 0.731 0.4799
X2 1.1450 0.4150 2.759 0.0186 *
X3 0.8621 0.3735 2.308 0.0414 *

Habilidad para relacionarse con otros (X2) y habilidad para tomar decisiones (X3): Variable significativa
H0: β2 = 0 variable no significativa α = 5%
H1: β2 ≠ 0 variable significativa pvalor = 1.86% SE RECHAZA LA H0
Conclusión: la variable habilidad para relacionarse con otros es significativa

Variable significativa:
H0: β3 = 0 variable no significativa α = 5%
H1: β3 ≠ 0 variable significativa pvalor = 4.14% SE RECHAZA LA H0
Conclusión: la variable habilidad para tomar decisiones es significativa

Habilidades comunicativas (X1): Variable no significativa


H0: β1 = 0 variable no significativa α = 5% NO SE RECHAZA LA H0
H1: β1 ≠ 0 variable significativa pvalor = 47.99%
Conclusión: la variable habilidades comunicativas NO es significativa

Modelo lineal propuesto: Y = -34.8233 + 1.1450X2 + 0.8621X3

e) Compruebe el cumplimiento del supuesto de no multicolinealidad

#### Evaluar la presencia de multicolinealidad.


library(car)
vif(ejemplo.m1)

X1 X2 X3
1.067276 2.324280 2.255175

Interpretación: Ninguno de los factores de Inflación variable (VIF) de las variables independientes tienen un
valor mayor que 10, por lo tanto, NO existe multicolinealidad

f) Con el modelo propuesto luego de las pruebas individuales estime la Calificación en el trabajo de un empleado
que tiene 55 puntos en su prueba de habilidades comunicativas, 78 puntos en habilidad para relacionarse con
otros y 35 puntos en la toma de decisiones.

#### Intervalo de confianza del 95% para el valor medio de Y, cuando se sabe que:
#### X1 = 55, X2 = 78, X3 = 35
predict(ejemplo.m1, data.frame(X1 = 55, X2 = 78, X3 = 35), level = 0.95, interval = "prediction")

fit (Ajuste lwr (limite inferior) upr (limite superior)


1 91.96278 77.04655 106.879

La calificación en el trabajo seria de 91.96378

g) Realice la estimación para el promedio de la evaluación en el trabajo para las personas con los indicadores de
la parte “f” pero mediante un intervalo de confianza del 90%.

#### Intervalo de confianza del 95% para el valor medio de Y, cuando se sabe que:
#### X1 = 55, X2 = 78, X3 = 35
predict(ejemplo.m1, data.frame(X1 = 55, X2 = 78, X3 = 35), level = 0.90, interval = "confidence")

fit lwr upr


1 91.96278 83.17847 100.7471

42. Se hizo un estudio de mercado sobre el consumo de helados durante la primavera y el verano (kg per cápita
por semana), el precio por kg de helado (dólares), el ingreso mensual del consumidor (dólares) y la temperatura
(grados farenheit), obteniéndose los siguientes datos:
Consumo Precio Ingreso Temperatura
0.387 1.33 359 63
0.375 1.37 358 61
0.394 1.30 360 65
0.428 1.25 370 69
0.407 1.28 366 68
0.345 1.39 357 55
0.328 1.40 357 47
0.289 1.43 352 42
0.269 1.45 343 32
0.258 1.46 343 23

a) Encuentre la ecuación de regresión que explique el consumo en términos del precio, ingreso y temperatura.

#### Estimar el modelo de regresión lineal múltiple.


ejemplo.m1 <- lm(Consumo ~ Precio + Ingreso + Temperatura, data = ejemplo.data)
summary(ejemplo.m1)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.6357983 0.5019503 1.267 0.25223
Precio -0.3418664 0.1193339 -2.865 0.02862 *
Ingreso 0.0001869 0.0011430 0.164 0.87546
Temperatura 0.0021438 0.0005696 3.764 0.00936 **

Ecuación de regresión: Consumo = 0.6358 – 0.3419*Precio + 0.0002*Ingreso + 0.0021*Temperatura

b) ¿Cuáles de las variables seleccionaría usted, para considerarlas en la regresión? Use α = 0.05.

Precio y temperatura:
Variable significativa:
H0: β1 = 0 variable no significativa α = 5%
H1: β1 ≠ 0 variable significativa pvalor = 2.862% SE RECHAZA LA H0
Conclusión: la variable precio es significativa

Variable significativa:
H0: β3 = 0 variable no significativa α = 5%
H1: β3 ≠ 0 variable significativa pvalor = 0.936% SE RECHAZA LA H0
Conclusión: la variable temperatura es significativa

Ingreso:
Variable no significativa:
H0: β2 = 0 variable no significativa α = 5% NO SE RECHAZA LA H0
H1: β2 ≠ 0 variable significativa pvalor = 87.546%
Conclusión: la variable NO es significativa

c) Para la ecuación obtenida con las variables seleccionadas en (b):

#### Estimar el modelo de regresión lineal múltiple con las variables seleccionadas
ejemplo.m1 <- lm(Consumo ~ Precio + Temperatura, data = ejemplo.data)
summary(ejemplo.m1)

i) ¿Qué porcentaje de las variaciones observadas en el consumo se deben a las variaciones en las variables
predictoras seleccionadas? ¿Qué significa este porcentaje?

Residual standard error: 0.007947 on 7 degrees of freedom


Multiple R-squared: 0.9864, Adjusted R-squared: 0.9825
F-statistic: 253.6 on 2 and 7 DF, p-value: 2.942e-07
El 98.64% de las variaciones observadas en el consume se deben a las variaciones en el precio y la
temperature.

Como r2 > 0.70, es decir 0.9864>0.70, se puede afirmar que el modelo tiene un gran ajuste.

ii) Analice la significación del modelo. Use α = 0.05.

#### Para tabla de ANOVA


#### Probar si el modelo es significativo
Regresion <- cbind(ejemplo.data$Precio, ejemplo.data$Temperatura)
ejemplo.m2 <- lm(Consumo ~ Regresion, data = ejemplo.data)
anova(ejemplo.m2)

Analysis of Variance Table

Response: Consumo
Df Sum Sq Mean Sq F value Pr(>F)
Regresion 2 0.032036 0.0160180 253.65 2.942e-07 ***
Residuals 7 0.000442 0.0000632

Método de pvalor:
H0: el modelo no se significativo α=5%
H1: el modelo es significativo pvalor = 0.00002942% se rechaza la H0
Conclusión:
El modelo es significativo

Método de puntos críticos:


#### Valor crítico
#### Para el constraste de la significacion del modelo
library(fastGraph)
shadeDist(qf(0.05, 2, 7, lower.tail=F), "df", 2, 7, lower.tail=F)

GRADOS DE LIBERTAD: 2 y 7
Grado de libertad numerador = 3 -1 = 2
Grado de libertad denominador = 10 - 3 = 7

Fc = 253.65

Conclusión:
El modelo es significativo

iii) Halle el intervalo del 98% de confianza para el coeficiente de la temperatura.

#### Obtener los intervalos de confianza al 98% para los coeficientes de


#### regresión del modelo.
confint(ejemplo.m1, level = 0.98)

1% 99 %
(Intercept) 0.2615725234 1.165373991
Precio -0.6358998298 -0.068057934
Temperatura 0.0008932161 0.003500304

Temperatura: < 0.0008932161; 0.003500304 >

1. La gerente distrital de una cadena de tiendas de ventas al menudeo con descuento, está investigando por qué
ciertos establecimientos de su región tienen mejor desempeño que otros. Cree que tres factores están
relacionados con las ventas totales. Para despejar sus dudas, seleccionó una muestra aleatoria de 30 tiendas,
para las cuales recolectó la información que sigue.
Y: ventas totales del último año (en miles de dólares)
X1: número de competidores de la región.
X2: población (en millones)
X3: gasto en publicidad (en miles de dólares)

Los datos se procesaron con el MINITAB obteniéndose los siguientes resultados:

a) Realice una prueba de la significación del modelo. Use α = 0.05.


b) Interprete los coeficientes del modelo estimado.
c) Halle intervalos del 90% de confianza para los coeficientes del modelo.
d) ¿Cuál será la venta estimada para una tienda que tiene 4 competidores, población de 400000 y gastos de
publicidad de $30000?
e) Calcule e interprete el valor de R2.
f) ¿Qué variables consideraría eliminar del modelo? Use α = 0.05.

2. El gerente de operaciones financieras de R&D Bank desea realizar un estudio para estimar el monto de préstamo
(en miles de soles) que puede brindar a sus clientes en función de:

X1: El ingreso mensual del solicitante (en miles de soles).


X2: La edad (en años) del solicitante.
X3: El tiempo (en años) que viene laborando el solicitante.

Con base a una muestra se procesan los datos con Minitab obteniéndose los siguientes resultados:
a) Pruebe la significancia del modelo completo. Use =0.03.
b) ¿Qué porcentaje de variación del monto de préstamo es explicado por la variación de los predictores?
c) Halle e interprete un intervalo del 97% de confianza para  1.
d) ¿Considera usted que alguna(s) variable(s) deben ser eliminadas? ¿Cuál(es)? Presente todo su
procedimiento con =0.03.

45. Una empresa se especializa en la venta de productos para techos y recubrimientos de paredes a minoristas
en reparación de casas. El gerente desea estudiar los efectos de diversas variables sobre el valor de las tejas
americanas vendidas (miles de dólares). Para lo cual considero una muestra de 20 distritos y determinó:

 Gastos en publicidad (X1) (en miles de dólares)


 Número de cuentas activas (X2)
 Número de marcas de competidores(X3)
 Calificación del potencial del mercado (X4)
 Ventas (Y) (en miles de dólares)

Y X1 X2 X3 X4
79.3 5.5 31 10 8
200.1 2.5 55 8 6
163.2 8 67 12 9
200.1 3 50 7 16
146 3 38 8 15
177.7 2.9 71 12 17
30.9 8 30 12 8
291.9 9 56 5 10
160 4 42 8 4
339.4 6.5 73 5 16
159.6 5.5 60 11 7
86.3 5 44 12 12
237.5 6 50 6 6
107.2 5 39 10 4
155 3.5 55 10 4
291.4 8 70 6 14
100.2 6 40 11 6
135.8 4 50 11 8
223.3 7.5 62 9 13
195 7 59 9 11
#### Instalando paquetes
install.packages("nortest")
install.packages("fastGraph")
install.packages("car")

#### Cargando archivo de datos "Ejemplo de RML.xlsxx"


ejemplo.data<-read.delim("clipboard")

#### Obtener el diagrama de dispersión


pairs(Y ~ X1 + X2 + X3 + X4, data = ejemplo.data, lower.panel = NULL)

Evaluando la multicolinealidad:
library(car)
vif(ejemplo.m1)

X1 X2 X3 X4
1.053975 1.345821 1.106960 1.292495

Conclusión: como ninguna variable tiene un valor VIF >10, entonces no hay multicolinealidad

a) Ajuste una ecuación de regresión lineal considerando todas las variables predictoras. Interprete el coeficiente
correspondiente a la variable X1.

#### Estimar el modelo de regresión lineal múltiple.


ejemplo.m1 <- lm(Y ~ X1 + X2 + X3 + X4, data = ejemplo.data)
summary(ejemplo.m1)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 179.83283 13.19834 13.625 7.48e-10 ***
X1 1.52133 0.94707 1.606 0.129
X2 3.45875 0.16474 20.996 1.56e-12 ***
X3 -21.37583 0.81500 -26.228 6.02e-14 ***
X4 0.01254 0.48722 0.026 0.980
Ecuación de regresión lineal: Y = 179.83283 + 1.52133X1 + 3.45875X2 – 21.37583 + 0.01254X4

Interpretación de X1: Gastos en publicidad (en miles de dólares)


Por cada mil dólares de incremento de gastos en publicidad, las ventas de productos para techos y
recubrimientos de paredes a minoristas en reparación de casas se incrementan en 1521.33 dólares.

PROBAR SI EL MODELO ES SIGNIFICATIVO:

#### Para tabla de ANOVA


#### Probar si el modelo es significativo
Regresion <- cbind(ejemplo.data$X1, ejemplo.data$X2, ejemplo.data$X3, ejemplo.data$X4)
ejemplo.m2 <- lm(Y ~ Regresion, data = ejemplo.data)
anova(ejemplo.m2)

método de pvalor:
H0: El modelo no es significativo: β1=β2=β3=…=βn = 0 α=5%
H1: El modelo es significativo al menos un βi ≠ 0 pvalor = 0% se rechaza la H0

Analysis of Variance Table

Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
Regresion 4 112520 28130.0 434.88 2.604e-15 *** 0.000000000000002607 (pvalor)
Residuals 15 970 64.7
Df: degree free

Método de puntos críticos:


#### Valor crítico
#### Para el constraste de la significacion del modelo
library(fastGraph)
shadeDist(qf(0.05, 4, 15, lower.tail=F), "df", 4, 15, lower.tail=F)

434.88

Conclusión:
En ambos casos se rechaza la hipótesis nula, es decir, el modelo es significativo.

EVALUANDO EL SUPUESTO DE NORMALIDAD


#### Verificar el supuesto de normalidad de los errores del modelo
library(nortest)
ad.test(residuals(ejemplo.m1))

Anderson-Darling normality test

data: residuals(ejemplo.m1)
A = 0.18155, p-value = 0.9004

H0: Los errores del modelo se ajustan a una distribución normal α=5% No se rechaza la H0
H1: Los errores del modelo NO se ajustan a una distribución normal pvalor=90.04%
Conclusión:
No se rechaza la hipótesis nula, es decir, los errores del modelo se ajustan a una distribución normal.

EVALUANDO EL SUPUESTO DE NORMALIDAD MEDIANTE GRÁFICO


#### Gráfico Q-Q Normal
qqnorm(residuals(ejemplo.m1))
qqline(residuals(ejemplo.m1))

b) ¿Qué parte de las ventas no está siendo explicada por las variables predictoras?

Residual standard error: 8.043 on 15 degrees of freedom


Multiple R-squared: 0.9915, Adjusted R-squared: 0.9892
F-statistic: 434.9 on 4 and 15 DF, p-value: 2.604e-15

r2 = 0.9915
Las variaciones de la variable venta de productos para techos y recubrimientos de paredes a minoristas en
reparación de casas son explicadas en 99.15% por las variaciones de las variables independientes (Gastos en
publicidad, Número de cuentas activas, Número de marcas de competidores, Calificación del potencial del
mercado).

1-r2 = 1- 0.9915 = 0.0385: Respuesta a la pregunta


El 3.85% de las variaciones de la variable venta de productos para techos y recubrimientos de paredes a
minoristas en reparación de casas NO son explicadas por las variaciones de las variables independientes
(Gastos en publicidad, Número de cuentas activas, Número de marcas de competidores, Calificación del
potencial de mercado).

c) Estime las ventas correspondientes a un distrito donde la empresa tiene un gasto de 3000 dólares en
publicidad, 30 cuentas activas, 9 marcas competidoras y una calificación del potencial del mercado de 10
puntos. Utilice una confianza del 98%.

Ventas = 179.83283 + 1.52133*gastos en publicidad + 3.45875*número de cuentas activas – 21.37583*número


de marcas de competidores + 0.01254*calificación del mercado potencial
Reemplazando:
Ventas = 179.83283 + 1.52133*3 + 3.45875*30 -21.37583*9 + 0.01254*10 = 95.90225

Las ventas tendrían un valor de $95902.25

#### Intervalo de confianza del 98% para del valor de Y, cuando se sabe que:
#### X1 = 3, X2 = 30, X3 = 9 y X4 = 10
predict(ejemplo.m1, data.frame(X1 = 3, X2 = 30, X3 = 9, X4 = 10), level = 0.98, interval = "prediction")

fit lwr (límite inferior) upr (límite superior)


1 95.90226 71.99148 119.813

Se estima las ventas en $95902.26

d) ¿Cuáles de las variables seleccionaría usted, para considerarlas en la ecuación de regresión? Use un nivel de
significancia α = 0.02.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 179.83283 13.19834 13.625 7.48e-10 ***
X1 1.52133 0.94707 1.606 0.129
X2 3.45875 0.16474 20.996 1.56e-12 ***
X3 -21.37583 0.81500 -26.228 6.02e-14 ***
X4 0.01254 0.48722 0.026 0.980

Número de cuentas activas (X2) y Número de marcas de competidores (X3): Variable significativa:
H0: β2 = 0 variable no significativa α = 2%
H1: β2 ≠ 0 variable significativa pvalor = 0% SE RECHAZA LA H0
Conclusión: la variable precio es significativa

H0: β3 = 0 variable no significativa α = 2%


H1: β3 ≠ 0 variable significativa pvalor = 0% SE RECHAZA LA H0
Conclusión: la variable temperatura es significativa

Gastos en publicidad (X1) y calificación del potencial de mercado (X4): Variable no significativa:
H0: β1 = 0 variable no significativa α = 2% NO SE RECHAZA LA H0
H1: β1 ≠ 0 variable significativa pvalor = 12.9%
Conclusión: la variable gastos en publicidad NO es significativa

H0: β4 = 0 variable no significativa α = 2% NO SE RECHAZA LA H0


H1: β4 ≠ 0 variable significativa pvalor = 98%
Conclusión: la variable calificación del potencial de mercado NO es significativa

Seleccionaría las variables Número de cuentas activas (X2) y Número de marcas de competidores (X3) para
considerarlas en la ecuación de regresión.

Y = B0 + B2*X2+B3*X3

#### Estimar el modelo de regresión lineal múltiple.


ejemplo.m2 <- lm(Y ~ X2 + X3, data = ejemplo.data)
summary(ejemplo.m2)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 187.6826 12.2382 15.34 2.18e-11 ***
X2 3.4964 0.1497 23.36 2.34e-14 ***
X3 -21.5218 0.8166 -26.36 3.16e-15 ***

Ecuanion de regresión propuesto:


Ventas = 187.6826 + 3.4964*número de cuentas activas – 21.5218*número de marcas de competidores

Comparando modelos:
Coeficiente de determinacion anterior:
Residual standard error: 8.043 on 15 degrees of freedom
Multiple R-squared: 0.9915, Adjusted R-squared: 0.9892
F-statistic: 434.9 on 4 and 15 DF, p-value: 2.604e-15

Coeficiente de determinacion posterior:


Residual standard error: 8.181 on 17 degrees of freedom
Multiple R-squared: 0.99, Adjusted R-squared: 0.9888
F-statistic: 839.3 on 2 and 17 DF, p-value: < 2.2e-16

Conclusión
Como r2 anterior > r2 posterior: 0.9915 > 0.9900: el mayor número de variables hace que se incremente de manera
ficticia el valor de r2 múltiple

46. Una empresa que vende por correo suministros para computadoras personales, software y hardware posee
un almacén central para la distribución de los productos ordenados. Actualmente, la administración se
encuentra examinando el proceso de distribución desde el almacén y está interesada en estudiar los factores
que afectan los costos de distribución del almacén. Para dicho propósito se ha seleccionado una muestra de
24 meses y se han obtenido, los costos de distribución del almacén (en miles de dólares), las ventas (miles de
dólares) y el número de pedidos recibidos. A continuación se presentan los resultados:
Mes Costo de distribución Ventas Número de
(miles de dólares) (miles de dólares) Pedidos
Y X1 X2
1 52.95 386 4015
2 71.66 446 3806
3 85.58 512 5309
4 63.69 401 4262
5 72.81 457 4296
6 68.44 458 4097
7 52.46 301 3213
8 70.77 484 4809
9 82.03 517 5237
10 74.39 503 4732
11 70.84 535 4413
12 54.08 353 2921
13 62.98 372 3977
14 72.30 328 4428
15 58.99 408 3964
16 79.38 491 4582
17 94.44 527 5582
18 59.74 444 3450
19 90.50 623 5079
20 93.24 596 5735
21 69.33 463 4269
22 53.71 389 3708
23 89.18 547 5387
24 66.80 415 4161

a) Estime una ecuación de regresión lineal múltiple considerando todas las variables predictoras. Interprete el
coeficiente de la variable “Número de pedidos”.

#### Instalando paquetes


install.packages("nortest")
install.packages("fastGraph")
install.packages("car")

#### Cargando archivo de datos


#### "Ejemplo de RML.xlsxx"
ejemplo.data<-read.delim("clipboard")

#### Estimar el modelo de regresión lineal múltiple.


ejemplo.m1 <- lm(Y ~ X1 + X2, data = ejemplo.data)
summary(ejemplo.m1)

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.728247 6.157880 -0.443 0.6623
X1 0.047114 0.020328 2.318 0.0306 *
X2 0.011947 0.002249 5.313 2.87e-05 *** :0.0000287

Ecuación de regresión múltiple lineal:


Costo de distribución = -2.728247 + 0.047114*Ventas + 0.011947*Número de pedidos
Y = -2.728247 + 0.047114X1 + 0.011947X2
Interpretación del coeficiente de la variable “Número de pedidos”:
β2 = 0.011947: por unidad de pedido adicional recibido por la empresa, el costo de distribución del almacén se
incrementa en 11.947 dólares

Y = 0 + 0*X1 + 0.011947X2
X2 = 1 -> Y= 0.011947: Y = 11.947
X2 = 2 -> Y= 0.023894: Y = 23.894
X2 = 3 -> Y = 0.035841: Y = 35.841

Interpretación del coeficiente de la variable “Ventas”:


β1 = 0.047114: por cada mil dólares adicionales en ventas, el costo de distribución del almacén se incrementa
en 47.114 dólares

Y = 0 + 0.047114X1 + 0*X2

b) ¿Cuáles de las variables seleccionaría usted, para considerarlas en el modelo de regresión? Use α=0.05.

Ventas (X1):
H0: β1 = 0 variable no significativa α = 5%
H1: β1 ≠ 0 variable significativa pvalor = 3.06% SE RECHAZA LA H0
Conclusión: la variable ventas es significativa

Número de pedidos (X2):


H0: β2 = 0 variable no significativa α = 5%
H1: β2 ≠ 0 variable significativa pvalor = 0.00% SE RECHAZA LA H0
Conclusión: la variable número de pedidos es significativa

Seleccionaría ambas variables ya que son significativas

c) Con las variables seleccionadas en b) realice lo siguiente:


c.1) ¿Qué porcentaje de las variaciones observadas en el costo de distribución del almacén se deben a las
variaciones en las variables predictoras o independientes seleccionadas? ¿Qué significa este porcentaje?

Residual standard error: 4.766 on 21 degrees of freedom


Multiple R-squared: 0.8759, Adjusted R-squared: 0.8641
F-statistic: 74.13 on 2 and 21 DF, p-value: 3.043e-10

 Las variaciones de la variable dependiente son explicadas en 87.59% por las variaciones de las
variables independientes (predictoras).
 Las variaciones del costo de distribución son explicadas en 87.59% por las variaciones de las ventas
y el número de pedidos.

Como r2 > 0.70, se puede afirmar que el modelo tiene un gran ajuste.

c.2) Con 99% de confianza ¿Cuál sería el costo promedio de distribución del almacén considerando 550 mil dólares
de ventas y 5500 pedidos?

#### Intervalo de confianza del 99% para el valor medio de Y, cuando se sabe que:
#### X1 = 550, X2 = 5500
predict(ejemplo.m1, data.frame(X1 = 550, X2 =5500 ), level = 0.99, interval = "confidence")

Ecuación de regresión múltiple lineal:


Costo de distribución = -2.728247 + 0.047114*Ventas + 0.011947*Número de pedidos
Y = -2.728247 + 0.047114*X1 + 0.011947*X2
Reemplazando:
Y = -2.728247 + 0.047114*550 + 0.011947*5500 = 88.892953
Costo de distribución del almacén = 88.892953: $88,892.95

Fit (ajuste) lwr (limite inferior) upr (limite superior)


1 88.89248 83.84133 93.94362
El costo promedio de distribucion del almacen seria de $88,982.48 8Se contesta con el resultado de Rstudio)
c.3) Con las variables seleccionadas para el modelo compruebe el cumplimiento del supuesto de normalidad de los
residuos. Use α = 0.05.

#### Verificar el supuesto de normalidad de los errores del modelo


library(nortest)
ad.test(residuals(ejemplo.m1))

Anderson-Darling normality test

data: residuals(ejemplo.m1)
A = 0.16714, p-value = 0.9282

Hipótesis por contrastar


H0: Los errores del modelo se ajustan a una distribución normal α=5% No se rechaza H0
H1: Los errores del modelo no se ajustan a una distribución normal pvalor=92.82%

Conclusión: Los errores del modelo se ajustan a una distribución normal, se cumple el supuesto de normalidad

También podría gustarte