Documentos de Académico
Documentos de Profesional
Documentos de Cultura
install.packages("nortest")
install.packages("fastGraph")
install.packages("car")
Call:
lm(formula = Y ~ X1 + X2 + X3 + X4 + X5, data = ejemplo.data)
Residuals:
Min 1Q Median 3Q Max
-15.2743 -5.2617 0.5032 4.1198 15.3213
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.91518 10.70604 6.250 1.91e-07 ***
X1 -0.17211 0.07030 -2.448 0.01873 *
X2 -0.25801 0.25388 -1.016 0.31546
X3 -0.87094 0.18303 -4.758 2.43e-05 ***
X4 0.10412 0.03526 2.953 0.00519 **
X5 1.07705 0.38172 2.822 0.00734 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.165 on 41 degrees of freedom
Multiple R-squared: 0.7067, Adjusted R-squared: 0.671
F-statistic: 19.76 on 5 and 41 DF, p-value: 5.594e-10
vif(ejemplo.m1)
X1 X2 X3 X4 X5
2.284129 3.675420 2.774943 1.937160 1.107542
Ninguno de los factores de Inflación variable (VIF) de las variables independientes tiene un valor mayor que 10
Conclusión: NO HAY MULTICOLINEALIDAD
Call:
lm(formula = Y ~ X1 + X3 + X4 + X5, data = ejemplo.data)
Residuals:
Min 1Q Median 3Q Max
-14.6765 -6.0522 0.7514 3.1664 16.1422
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 62.10131 9.60489 6.466 8.49e-08 ***
X1 -0.15462 0.06819 -2.267 0.02857 *
X3 -0.98026 0.14814 -6.617 5.14e-08 ***
X4 0.12467 0.02889 4.315 9.50e-05 *** = 0.0000950
X5 1.07844 0.38187 2.824 0.00722 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Variable no significativa:
H0: β5 = 0 variable no significativa α = 5%
H1: β5 ≠ 0 variable significativa pvalor = 0.722% SE RECHAZA LA H0
Conclusión: la variable es significativa
Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
Regresion 4 5019.9 1254.97 24.424 1.717e-10 ***
Residuals 42 2158.1 51.38
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Fc=24.424
#### Intervalo de confianza del 95% para del valor de Y, cuando se sabe que:
#### X1 = 54.1, X3 = 8.0, X4 = 15.1 y X5 = 20.0
predict(ejemplo.m3, data.frame(X1 = 54.1, X3 =8.0, X4 = 15.1, X5 = 20.0), level = 0.95,
interval = "prediction")
fit lwr upr
1 69.3457 54.6277 84.0637
41. El director administrativo de una universidad privada está intentando desarrollar un sistema diseñado para
identificar que atributos personales son esenciales para avanzar gerencialmente. A 15 empleados de la
universidad privada que han sido ascendidos recientemente se les practica una serie de pruebas (calificadas
en una escala de 0 a 100) para determinar sus habilidades comunicativas (X1), la habilidad para relacionarse
con otros (X2) y la habilidad para tomar decisiones (X3). Se desea establecer un modelo que explique la
calificación del trabajo (Y) del empleado en términos de las variables anteriores. Los datos recolectados son
los siguientes:
Y X1 X2 X3
80 50 72 22
75 51 74 19
84 42 79 22
62 42 71 17
92 59 85 25
75 45 73 17
63 48 75 16
69 39 73 19
68 40 71 20
87 55 80 30
92 48 83 33
82 45 80 20
74 45 75 18
80 61 75 20
62 59 70 15
a) Obtenga el modelo lineal estimado que explique la calificación del trabajo (Y) del empleado en términos de X 1,
X2 y X3. Interprete el coeficiente que acompaña a la variable X 2.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -34.8233 25.9319 -1.343 0.2064
X1 0.1328 0.1817 0.731 0.4799
X2 1.1450 0.4150 2.759 0.0186 *
X3 0.8621 0.3735 2.308 0.0414 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Las variaciones de la variable dependiente son explicadas en 83.23% por las variaciones de las variables
dependientes
Response: Consumo
Df Sum Sq Mean Sq F value Pr(>F)
Regresion 2 0.032036 0.0160180 253.65 2.942e-07 ***
Residuals 7 0.000442 0.0000632
Fc=263.65
d) Con 5% de significación, ¿qué variables son significativas para el modelo? ¿Cuál es el modelo que se propone
a partir de estas pruebas?
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -34.8233 25.9319 -1.343 0.2064
X1 0.1328 0.1817 0.731 0.4799
X2 1.1450 0.4150 2.759 0.0186 *
X3 0.8621 0.3735 2.308 0.0414 *
Habilidad para relacionarse con otros (X2) y habilidad para tomar decisiones (X3): Variable significativa
H0: β2 = 0 variable no significativa α = 5%
H1: β2 ≠ 0 variable significativa pvalor = 1.86% SE RECHAZA LA H0
Conclusión: la variable habilidad para relacionarse con otros es significativa
Variable significativa:
H0: β3 = 0 variable no significativa α = 5%
H1: β3 ≠ 0 variable significativa pvalor = 4.14% SE RECHAZA LA H0
Conclusión: la variable habilidad para tomar decisiones es significativa
X1 X2 X3
1.067276 2.324280 2.255175
Interpretación: Ninguno de los factores de Inflación variable (VIF) de las variables independientes tienen un
valor mayor que 10, por lo tanto, NO existe multicolinealidad
f) Con el modelo propuesto luego de las pruebas individuales estime la Calificación en el trabajo de un empleado
que tiene 55 puntos en su prueba de habilidades comunicativas, 78 puntos en habilidad para relacionarse con
otros y 35 puntos en la toma de decisiones.
#### Intervalo de confianza del 95% para el valor medio de Y, cuando se sabe que:
#### X1 = 55, X2 = 78, X3 = 35
predict(ejemplo.m1, data.frame(X1 = 55, X2 = 78, X3 = 35), level = 0.95, interval = "prediction")
g) Realice la estimación para el promedio de la evaluación en el trabajo para las personas con los indicadores de
la parte “f” pero mediante un intervalo de confianza del 90%.
#### Intervalo de confianza del 95% para el valor medio de Y, cuando se sabe que:
#### X1 = 55, X2 = 78, X3 = 35
predict(ejemplo.m1, data.frame(X1 = 55, X2 = 78, X3 = 35), level = 0.90, interval = "confidence")
42. Se hizo un estudio de mercado sobre el consumo de helados durante la primavera y el verano (kg per cápita
por semana), el precio por kg de helado (dólares), el ingreso mensual del consumidor (dólares) y la temperatura
(grados farenheit), obteniéndose los siguientes datos:
Consumo Precio Ingreso Temperatura
0.387 1.33 359 63
0.375 1.37 358 61
0.394 1.30 360 65
0.428 1.25 370 69
0.407 1.28 366 68
0.345 1.39 357 55
0.328 1.40 357 47
0.289 1.43 352 42
0.269 1.45 343 32
0.258 1.46 343 23
a) Encuentre la ecuación de regresión que explique el consumo en términos del precio, ingreso y temperatura.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.6357983 0.5019503 1.267 0.25223
Precio -0.3418664 0.1193339 -2.865 0.02862 *
Ingreso 0.0001869 0.0011430 0.164 0.87546
Temperatura 0.0021438 0.0005696 3.764 0.00936 **
b) ¿Cuáles de las variables seleccionaría usted, para considerarlas en la regresión? Use α = 0.05.
Precio y temperatura:
Variable significativa:
H0: β1 = 0 variable no significativa α = 5%
H1: β1 ≠ 0 variable significativa pvalor = 2.862% SE RECHAZA LA H0
Conclusión: la variable precio es significativa
Variable significativa:
H0: β3 = 0 variable no significativa α = 5%
H1: β3 ≠ 0 variable significativa pvalor = 0.936% SE RECHAZA LA H0
Conclusión: la variable temperatura es significativa
Ingreso:
Variable no significativa:
H0: β2 = 0 variable no significativa α = 5% NO SE RECHAZA LA H0
H1: β2 ≠ 0 variable significativa pvalor = 87.546%
Conclusión: la variable NO es significativa
#### Estimar el modelo de regresión lineal múltiple con las variables seleccionadas
ejemplo.m1 <- lm(Consumo ~ Precio + Temperatura, data = ejemplo.data)
summary(ejemplo.m1)
i) ¿Qué porcentaje de las variaciones observadas en el consumo se deben a las variaciones en las variables
predictoras seleccionadas? ¿Qué significa este porcentaje?
Como r2 > 0.70, es decir 0.9864>0.70, se puede afirmar que el modelo tiene un gran ajuste.
Response: Consumo
Df Sum Sq Mean Sq F value Pr(>F)
Regresion 2 0.032036 0.0160180 253.65 2.942e-07 ***
Residuals 7 0.000442 0.0000632
Método de pvalor:
H0: el modelo no se significativo α=5%
H1: el modelo es significativo pvalor = 0.00002942% se rechaza la H0
Conclusión:
El modelo es significativo
GRADOS DE LIBERTAD: 2 y 7
Grado de libertad numerador = 3 -1 = 2
Grado de libertad denominador = 10 - 3 = 7
Fc = 253.65
Conclusión:
El modelo es significativo
1% 99 %
(Intercept) 0.2615725234 1.165373991
Precio -0.6358998298 -0.068057934
Temperatura 0.0008932161 0.003500304
1. La gerente distrital de una cadena de tiendas de ventas al menudeo con descuento, está investigando por qué
ciertos establecimientos de su región tienen mejor desempeño que otros. Cree que tres factores están
relacionados con las ventas totales. Para despejar sus dudas, seleccionó una muestra aleatoria de 30 tiendas,
para las cuales recolectó la información que sigue.
Y: ventas totales del último año (en miles de dólares)
X1: número de competidores de la región.
X2: población (en millones)
X3: gasto en publicidad (en miles de dólares)
2. El gerente de operaciones financieras de R&D Bank desea realizar un estudio para estimar el monto de préstamo
(en miles de soles) que puede brindar a sus clientes en función de:
Con base a una muestra se procesan los datos con Minitab obteniéndose los siguientes resultados:
a) Pruebe la significancia del modelo completo. Use =0.03.
b) ¿Qué porcentaje de variación del monto de préstamo es explicado por la variación de los predictores?
c) Halle e interprete un intervalo del 97% de confianza para 1.
d) ¿Considera usted que alguna(s) variable(s) deben ser eliminadas? ¿Cuál(es)? Presente todo su
procedimiento con =0.03.
45. Una empresa se especializa en la venta de productos para techos y recubrimientos de paredes a minoristas
en reparación de casas. El gerente desea estudiar los efectos de diversas variables sobre el valor de las tejas
americanas vendidas (miles de dólares). Para lo cual considero una muestra de 20 distritos y determinó:
Y X1 X2 X3 X4
79.3 5.5 31 10 8
200.1 2.5 55 8 6
163.2 8 67 12 9
200.1 3 50 7 16
146 3 38 8 15
177.7 2.9 71 12 17
30.9 8 30 12 8
291.9 9 56 5 10
160 4 42 8 4
339.4 6.5 73 5 16
159.6 5.5 60 11 7
86.3 5 44 12 12
237.5 6 50 6 6
107.2 5 39 10 4
155 3.5 55 10 4
291.4 8 70 6 14
100.2 6 40 11 6
135.8 4 50 11 8
223.3 7.5 62 9 13
195 7 59 9 11
#### Instalando paquetes
install.packages("nortest")
install.packages("fastGraph")
install.packages("car")
Evaluando la multicolinealidad:
library(car)
vif(ejemplo.m1)
X1 X2 X3 X4
1.053975 1.345821 1.106960 1.292495
Conclusión: como ninguna variable tiene un valor VIF >10, entonces no hay multicolinealidad
a) Ajuste una ecuación de regresión lineal considerando todas las variables predictoras. Interprete el coeficiente
correspondiente a la variable X1.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 179.83283 13.19834 13.625 7.48e-10 ***
X1 1.52133 0.94707 1.606 0.129
X2 3.45875 0.16474 20.996 1.56e-12 ***
X3 -21.37583 0.81500 -26.228 6.02e-14 ***
X4 0.01254 0.48722 0.026 0.980
Ecuación de regresión lineal: Y = 179.83283 + 1.52133X1 + 3.45875X2 – 21.37583 + 0.01254X4
método de pvalor:
H0: El modelo no es significativo: β1=β2=β3=…=βn = 0 α=5%
H1: El modelo es significativo al menos un βi ≠ 0 pvalor = 0% se rechaza la H0
Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
Regresion 4 112520 28130.0 434.88 2.604e-15 *** 0.000000000000002607 (pvalor)
Residuals 15 970 64.7
Df: degree free
434.88
Conclusión:
En ambos casos se rechaza la hipótesis nula, es decir, el modelo es significativo.
data: residuals(ejemplo.m1)
A = 0.18155, p-value = 0.9004
H0: Los errores del modelo se ajustan a una distribución normal α=5% No se rechaza la H0
H1: Los errores del modelo NO se ajustan a una distribución normal pvalor=90.04%
Conclusión:
No se rechaza la hipótesis nula, es decir, los errores del modelo se ajustan a una distribución normal.
b) ¿Qué parte de las ventas no está siendo explicada por las variables predictoras?
r2 = 0.9915
Las variaciones de la variable venta de productos para techos y recubrimientos de paredes a minoristas en
reparación de casas son explicadas en 99.15% por las variaciones de las variables independientes (Gastos en
publicidad, Número de cuentas activas, Número de marcas de competidores, Calificación del potencial del
mercado).
c) Estime las ventas correspondientes a un distrito donde la empresa tiene un gasto de 3000 dólares en
publicidad, 30 cuentas activas, 9 marcas competidoras y una calificación del potencial del mercado de 10
puntos. Utilice una confianza del 98%.
#### Intervalo de confianza del 98% para del valor de Y, cuando se sabe que:
#### X1 = 3, X2 = 30, X3 = 9 y X4 = 10
predict(ejemplo.m1, data.frame(X1 = 3, X2 = 30, X3 = 9, X4 = 10), level = 0.98, interval = "prediction")
d) ¿Cuáles de las variables seleccionaría usted, para considerarlas en la ecuación de regresión? Use un nivel de
significancia α = 0.02.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 179.83283 13.19834 13.625 7.48e-10 ***
X1 1.52133 0.94707 1.606 0.129
X2 3.45875 0.16474 20.996 1.56e-12 ***
X3 -21.37583 0.81500 -26.228 6.02e-14 ***
X4 0.01254 0.48722 0.026 0.980
Número de cuentas activas (X2) y Número de marcas de competidores (X3): Variable significativa:
H0: β2 = 0 variable no significativa α = 2%
H1: β2 ≠ 0 variable significativa pvalor = 0% SE RECHAZA LA H0
Conclusión: la variable precio es significativa
Gastos en publicidad (X1) y calificación del potencial de mercado (X4): Variable no significativa:
H0: β1 = 0 variable no significativa α = 2% NO SE RECHAZA LA H0
H1: β1 ≠ 0 variable significativa pvalor = 12.9%
Conclusión: la variable gastos en publicidad NO es significativa
Seleccionaría las variables Número de cuentas activas (X2) y Número de marcas de competidores (X3) para
considerarlas en la ecuación de regresión.
Y = B0 + B2*X2+B3*X3
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 187.6826 12.2382 15.34 2.18e-11 ***
X2 3.4964 0.1497 23.36 2.34e-14 ***
X3 -21.5218 0.8166 -26.36 3.16e-15 ***
Comparando modelos:
Coeficiente de determinacion anterior:
Residual standard error: 8.043 on 15 degrees of freedom
Multiple R-squared: 0.9915, Adjusted R-squared: 0.9892
F-statistic: 434.9 on 4 and 15 DF, p-value: 2.604e-15
Conclusión
Como r2 anterior > r2 posterior: 0.9915 > 0.9900: el mayor número de variables hace que se incremente de manera
ficticia el valor de r2 múltiple
46. Una empresa que vende por correo suministros para computadoras personales, software y hardware posee
un almacén central para la distribución de los productos ordenados. Actualmente, la administración se
encuentra examinando el proceso de distribución desde el almacén y está interesada en estudiar los factores
que afectan los costos de distribución del almacén. Para dicho propósito se ha seleccionado una muestra de
24 meses y se han obtenido, los costos de distribución del almacén (en miles de dólares), las ventas (miles de
dólares) y el número de pedidos recibidos. A continuación se presentan los resultados:
Mes Costo de distribución Ventas Número de
(miles de dólares) (miles de dólares) Pedidos
Y X1 X2
1 52.95 386 4015
2 71.66 446 3806
3 85.58 512 5309
4 63.69 401 4262
5 72.81 457 4296
6 68.44 458 4097
7 52.46 301 3213
8 70.77 484 4809
9 82.03 517 5237
10 74.39 503 4732
11 70.84 535 4413
12 54.08 353 2921
13 62.98 372 3977
14 72.30 328 4428
15 58.99 408 3964
16 79.38 491 4582
17 94.44 527 5582
18 59.74 444 3450
19 90.50 623 5079
20 93.24 596 5735
21 69.33 463 4269
22 53.71 389 3708
23 89.18 547 5387
24 66.80 415 4161
a) Estime una ecuación de regresión lineal múltiple considerando todas las variables predictoras. Interprete el
coeficiente de la variable “Número de pedidos”.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.728247 6.157880 -0.443 0.6623
X1 0.047114 0.020328 2.318 0.0306 *
X2 0.011947 0.002249 5.313 2.87e-05 *** :0.0000287
Y = 0 + 0*X1 + 0.011947X2
X2 = 1 -> Y= 0.011947: Y = 11.947
X2 = 2 -> Y= 0.023894: Y = 23.894
X2 = 3 -> Y = 0.035841: Y = 35.841
Y = 0 + 0.047114X1 + 0*X2
b) ¿Cuáles de las variables seleccionaría usted, para considerarlas en el modelo de regresión? Use α=0.05.
Ventas (X1):
H0: β1 = 0 variable no significativa α = 5%
H1: β1 ≠ 0 variable significativa pvalor = 3.06% SE RECHAZA LA H0
Conclusión: la variable ventas es significativa
Las variaciones de la variable dependiente son explicadas en 87.59% por las variaciones de las
variables independientes (predictoras).
Las variaciones del costo de distribución son explicadas en 87.59% por las variaciones de las ventas
y el número de pedidos.
Como r2 > 0.70, se puede afirmar que el modelo tiene un gran ajuste.
c.2) Con 99% de confianza ¿Cuál sería el costo promedio de distribución del almacén considerando 550 mil dólares
de ventas y 5500 pedidos?
#### Intervalo de confianza del 99% para el valor medio de Y, cuando se sabe que:
#### X1 = 550, X2 = 5500
predict(ejemplo.m1, data.frame(X1 = 550, X2 =5500 ), level = 0.99, interval = "confidence")
data: residuals(ejemplo.m1)
A = 0.16714, p-value = 0.9282
Conclusión: Los errores del modelo se ajustan a una distribución normal, se cumple el supuesto de normalidad