Problemas Bloque 1

Estadı́stica Empresarial
Problemas Bloque 1: Regresión
Problema 1: Se dispone de datos correspondientes a Y = “precios en euros” de 100 vivien-

das y sus caracterı́sticas: X1 = “superficie en m2 ”, X2 = “edad de la vivienda”, X3 =
“buenas vistas (1 = ’Sı́’ y 0 = ’No’)”, X4 = “número de plazas de garaje”, X5 = “número
de dormitorios” y X6 = “número de cuartos de baño”.
a) Para la regresión de Y frente a las variables X1 , X2 , ..., X6 , se sabe que la observación
con mayor residual estudentizado es la 38 con t38 = 3.8 y, además, tenemos la siguiente
tabla que nos muestra las observaciones con mayor “leverage”, ¿Qué podrı́amos decir de la
observación 38?
Row Leverage DFITS
--------------------------------
6 0.100549 -0.548886
11 0.15576 0.894118
12 0.108364 -0.554416
20 0.0589026 -0.545707
38 0.167861 1.962470
44 0.154132 0.835235
58 0.105883 0.702488
63 0.203285 0.926891
95 0.056569 0.536579
-----------------------------------
En lo que sigue trabajaremos siempre sin la observación 38 y supondremos que los plots de
residuos de los modelos ajustados son correctos.
b) Repetimos la regresión de Y frente a esas 6 variables explicativas. ¿Es la regresión
globalmente significativa? ¿Qué variables son significativas a nivel α = 0.05?
Source Sum of Squares Standard T

---------------------------- Parameter Estimate Error Statistic
Model 3.25493E11 --------------------------------------------
Residual 1.16648E11 CONSTANT 47354.6 24453.7 1.9365
---------------------------- superficie 1054.82 132.921 7.93573
Total (Corr.) 4.42141E11 edad -2705.33 898.555 -3.01075
vistas 34128.5 10031.3 3.40221
garajes 44452.4 13814.6 3.21778
dormitorios 6620.58 6156.46 1.07539
ba~
nos 18769.7 8588.74 2.18538
--------------------------------------------
c) ¿Son razonables los signos de los coeficientes? Comenta brevemente dichos signos. ¿Es
razonable que el “número de dormitorios” no sea una variable significativa para explicar el
precio? ¿A qué puede ser debido?
d) La siguiente tabla nos proporciona las sumas de cuadrados secuenciales (en el orden
que aparecen en la tabla):
Source Sum of Squares Df Mean Square F-Ratio P-Value
-------------------------------------------------------------------------
superficie 2.67123E11 1 2.67123E11 210.68 0.0000
edad 5.2571E9 1 5.2571E9 4.15 0.0446
vistas 3.03854E10 1 3.03854E10 23.96 0.0000
garajes 1.25881E10 1 1.25881E10 9.93 0.0022
dormitorios 4.08405E9 1 4.08405E9 3.22 0.0760
ba~
nos 6.05543E9 1 6.05543E9 4.78 0.0314
-------------------------------------------------------------------------
¿Pueden suponerse simultanemente nulos (en presencia del resto de las variables) los coefi-
cientes de las variables X5 y X6 ?
Finalmente, tras aplicar un método de selección de variables, ajustamos el siguiente Modelo
Final:
Standard T
Parameter Estimate Error Statistic P-Value
-------------------------------------------------------------------------
CONSTANT 57056.4 22747.8 2.50822 0.0139
superficie 1069.83 132.297 8.08657 0.0000
edad -2308.43 819.947 -2.81534 0.0059
vistas 35336.2 9976.61 3.5419 0.0006
garajes 43470.3 13796.0 3.15094 0.0022
ba~
nos 21476.8 8218.45 2.61324 0.0105
-------------------------------------------------------------------------

-------------------------------------------------------------------------
Model 3.24027E11 5 6.48053E10 51.03 0.0000
Residual 1.18114E11 93 1.27005E9
-------------------------------------------------------------------------
e) Usando este último modelo, ¿Se puede afirmar que por cada año de antigüedad se
deprecia la vivienda en promedio en más de 2000 euros?
f) Obtén un intervalo de confianza de garantı́a 95% para la diferencia de precio medio
entre viviendas con las mismas caracterı́sticas dependiendo de que éstas tengan o no buenas
vistas?
g) Disponemos de un piso de 150m2 , 2 baños, 2 plazas de garaje, 8 años de antigüedad y
con buenas vistas. Usando el ajuste del modelo final y la opción “Report” de STATGRAPHICS
obtenemos la siguiente tabla:
Lower 95.0% CL Upper 95.0% CL Lower 95.0% CL Upper 95.0% CL

for Forecast for Forecast for Mean for Mean
-----------------------------------------------------------------
287267.0 441320.0 333884.0 394704.0
-----------------------------------------------------------------
Da una cota inferior de garantı́a 90% para el precio al que deberı́amos vender dicha vivienda si
consideramos que el modelo ajustado es adecuado para describir las condiciones de mercado.
h) Una vivienda de 210m2 , 3 baños, 2 plazas de garaje, 2 años de antigüedad y con buenas
vistas ha sido vendida por 300000 euros. Ante una sospecha de fraude (pago en dinero negro
para evadir impuestos), se realiza un nuevo ajuste del Modelo Final añadiendo a la matriz
los datos correspondientes a esta nueva vivienda (caso n.100). Tras el ajuste, obtenemos
estos resultados para la vivienda investigada:
Unusual Residuals
--------------------------------------------------------------
Row Y Predicted Y Residual(ei) Residual(ti)
--------------------------------------------------------------
100 300000.0 438010.0 -138010.0 -4.22
--------------------------------------------------------------
¿Existe evidencia estadı́stica para afirmar que esta vivienda ha tenido un precio anormal-
mente bajo?
Problema 2: Tenemos datos relativos a 447 empleados en puestos administrativos o direc-
tivos dentro de una empresa americana. Consideramos, las variables Y = “salario actual
(en dolares)”, X1 = “edad”, X2 = “nivel educativo (años totales en el sistema educativo)”,
X3 = “experiencia previa en otras empresas (en meses)”, X4 = “salario inicial (en dolares)”,
X5 = “tiempo en la empresa (en meses)”, X6 = “categorı́a laboral (1 = “Directivos” y 0 =
“Administrativos”)” y X7 = “sexo (1 = “Hombre” y 0 = “Mujer”)”.
a) Inicialmente, se hace una regresión simple de Y frente a sólo la variable X1 . El
resultado de esta regresión aparece en la siguiente tabla:
Standard T
-----------------------------------------------------------------------------
Intercept 45291.8 3646.48 12.4207 0.0000
Slope -218.579 72.827 -3.00134 0.0028
-----------------------------------------------------------------------------

-----------------------------------------------------------------------------
Model 2.72724E9 *** ********* 9.01 0.0028
Residual 1.34726E11 *** *********
-----------------------------------------------------------------------------
Lack-of-Fit 3.84236E10 41 ********* 3.93 0.0000
Pure Error 9.63025E10 *** *********
-----------------------------------------------------------------------------
Total (Corr.) 1.37453E11 ***
Completa la tabla anterior. ¿Es esta regresión satisfactoria?

b) Introducimos el resto de variables explicativas obteniendose:
Standard T
-----------------------------------------------------------------------------
CONSTANT -6548.13 3843.84 -1.70354 0.0892
edad -59.9681 49.5614 -1.20998 0.2269
educ 503.226 169.923 2.9615 0.0032
exp_prev_mes -18.5589 6.08379 -3.05054 0.0024
sal_ini 1.35229 0.0749022 18.0541 0.0000
tiem_empr_mes 156.572 32.7985 4.77377 0.0000
cat_lab 11131.9 1393.91 7.9861 0.0000
sexo 1566.21 807.167 1.94037 0.0530
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
Model 1.16343E11 7 1.66204E10 345.63 0.0000
Residual 2.11105E10 439 4.80878E7
-----------------------------------------------------------------------------
Total (Corr.) 1.37453E11 446
¿Sorprende el hecho de que ahora la variable X1 = “edad” no sea significativa y en el apartado

anterior sı́ lo fuera claramente? Da una posible explicación de este hecho.
c) Tras realizar un procedimiento de selección de variables “backward” vemos que el
modelo que este método elige contiene todas las variables salvo a la variable X1 y el R2 de
este modelo reducido es igual a 0.8459. Usa el principio de la “suma-extra” de cuadrados
para ver si la variable “edad” es significativa a nivel α = 0.05 en presencia del resto de
variables?
d) Al realizar el plot de residuales para la regresión Y = β0 + β2 X2 + ... + β7 X7 + ε
obtenemos el gráfico que aparece a la figura de la izquierda. ¿Qué problema o problemas
puede presentar esta regresión? En el gráfico de la derecha aparece el plot de residuales
para el mismo modelo cuando la variable respuesta es log(Y ). ¿Corrige esa transformación
el problema apuntado anteriormente?
Residual Plot Residual Plot

8 6
Studentized residual
Studentized residual
Case 165
4
4
2
0 0
-2
-4
-4
-8 -6
0 3 6 9 12 15 9.6 10 10.4 10.8 11.2 11.6 12
(X 10000)
predicted salario predicted log(salario)
En lo que sigue trabajaremos con el siguiente Modelo Final: log(Y ) = β0 + β2 X2 + ... +

β7 X7 + ε (nótese que no aparece la variable X1 ). El ajuste de este modelo aparece en las
tablas:
Standard T
-----------------------------------------------------------------------------
CONSTANT 9.26783 0.0791005 117.165 0.0000
educ 0.0265554 0.00403353 6.58365 0.0000
exp_prev_mes -0.000700234 0.000090011 -7.77942 0.0000
sal_ini 0.0000236332 0.00000178572 13.2346 0.0000
tiem_empr_mes 0.00333482 0.000776098 4.29691 0.0000
cat_lab 0.272395 0.033228 8.19776 0.0000
sexo 0.113443 0.0185159 6.12679 0.0000
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
Model 62.4781 6 10.413 379.96 0.0000
Residual 12.0584 440 0.0274054
-----------------------------------------------------------------------------
Total (Corr.) 74.5365 446
e) Da una estimación del factor por el que se multiplica el salario dependiendo de que el
empleado sea hombre respecto a que sea mujer, suponiendo los mismos valores en las otras
variables. ¿Tenemos evidencia estadı́stica para afirmar que los sueldos son significativamente
mayores en hombres que en mujeres para los mismos valores en las otras variables?
f) Tras hacer la regresión se comprobó que el empleado 165 tenı́a un residual studentizado
t165 = 5.57. ¿Existe evidencia estadı́stica para confirmar que el salario de este empleado es
anormalmente alto? ¿Cambiarı́a la respuesta si se sabe previamente que este empleado es el
informático encargado de tramitar las nóminas?
Problema 3: En un estudio con 20 familias pertenecientes a un área metropolitana en 1993
se midieron las variables: “Gasto en comida en 1000$” (Y ), “Ingresos anuales en 1000$”
(X1 ) y “Número de miembros en la familia” (X2 ). Los datos obtenidos fueron:
Y X1 X2
5.2 28 3
5.1 26 3
.. .. ..
. . .
20.0 112 6
2.9 26 2
La tabla ANOVA y de coeficientes estimados fueron:
Model Sum of Squares df Mean Square F
Regression 386.313 2 193.156 121.470
Residual 27.033 17 1.590
Total 413.346 19
Coeffic. Std. Error
Intercept -1.118 0.655
Ingresos anuales (1000$) 0.148 0.016
Tamaño familia 0.793 0.244
a) Si el coeficiente de determinación de la regresión Y = β0 + β1 X1 + ε fue R2 = 0.894, y

utilizando el principio de la “suma extra de cuadrados”, ¿Hasta qué punto resultó interesante
añadir la variable X2 ? (Se sabe que en ambos casos el plot de residuales era razonable)
b) Responder a la pregunta anterior utilizando sólo la tabla de coeficientes estimados.
¿Se puede recuperar a partir de esta tabla el valor del estadı́stico usado en el apartado a)?.
c) Para un número fijo de miembros de una familia, ¿Se puede suponer qué un incremento
en los ingresos de 1000$ aumenta los gastos en alimentación en más de 140$?
Si X es la matriz de diseño para la regresión Y = β0 + β1 X1 + β2 X2 + ε, se sabe que
 
0.2697 −0.0027 −0.0335
(X ′ X)−1 =  −0.0027 0.0002 −0.0017  .
−0.0335 −0.0017 0.0376
d) Utilizando el modelo con X1 y X2 , dar un intervalo de confianza al 95% para el gasto
medio en alimentación de una familia de 2 personas e ingresos iguales a 30.000$.
e) La observción octava era la observación que tenı́a mayor residual. Obtén (h88 ) y e8,−8
teniendo en cuenta que
obs X1 X2 Y Yb resid. estandarizado resid. studentizado
8 40000$ 3 4.90 7.18 -2.51 -3.07
¿Existe evidencia estadı́stica de que la observación 8 sea un outlier?
f) Se observó un valor del estadı́stico de Durbin Watson de 2.616. ¿Qué se puede concluir
a partir de este valor?
Problema 4: En una fábrica de ladrillos se lleva a cabo un experimento para comprobar

los factores de los que depende la resistencia a la rotura de los mismos. Se llevan a cabo
ensayos experimentales sometiendo a los ladrillos a distintas temperaturas en su cocción
(580, 600, 620 y 640 o C) [T EM P ], durante distintos tiempos de cocción (5, 10 y 15 minutos)
[T IEM P O] y formando la masa con mezcla de cal en distintas proporciones (10, 20 y 30 %)
[CAL]. Se tomaron dos observaciones por cada combinación de niveles de estas tres variables
(es decir, se consideraron dos réplicas) y se anotó la resistencia resultante [RESIST ]. Los
resultados fueron:
CAL TIEMPO TEMP RESIST
----------------------------
10 5 580 8.36
10 5 580 12.55
10 5 600 9.79
10 5 600 10.87
10 5 620 10.32
10 5 620 20.50
10 5 640 12.42
10 5 640 13.70
10 10 580 20.13
10 10 580 12.53
10 10 600 29.46
.
.
.
30 15 620 153.87
30 15 620 162.45
30 15 640 153.82
30 15 640 92.63
----------------------------
a) A partir de la información en la siguiente tabla (incompleta), realizar un test para ver

si la regresión de RESIST frente a CAL, T IEM P O y T EM P es significativa.

-----------------------------------------------------------------------
Model 104167,0
Residual 46627,0
-----------------------------------------------------------------------
Total (Corr.) 150794,0 71
b) Usando las réplicas, se lleva a cabo un test de falta de ajuste obteniendose:
Residual Sum of Squares

---------------------------------------
Lack of Fit 24822
Pure Error 21805
Total Error 46627
---------------------------------------
¿Existe algún problema serio de falta de ajuste?
Se cuenta con el siguiente ajuste obtenido con las tres variables:
Standard T
-----------------------------------------------------------------------------
CONSTANT -193,432 84,9187 -2,27785 0,0259
CAL 0,219375 0,377958 0,580421 0,5635
TIEMPO 9,21492 0,755916 12,1904 0,0000
TEMP 0,23795 0,138011 1,72414 0,0892
-----------------------------------------------------------------------------
c) ¿Podemos afirmar que la proporción de cal (al menos en los niveles estudiados en el
experimento) no afecta significativamente a la resistencia media del ladrillo?.
d)¿Puede suponerse que aumentar el tiempo de cocción en 5 minutos (dejando fijas las
demas variables) aumenta la resistencia media del ladrillo en más de 5 × 9 = 45 unidades?.
e) Al examinar el plot de residuales advertimos que la observación con mayor residual es
la número 24 con un residual estudentizado igual a 4.23. ¿Es dicha observación un outlier?.
f) Si [39.13, 52.62] es un intervalo de confianza al 95% para la resistencia media de los
ladrillos fabricados usando un 20% de cal en la masa trás 10 minutos de cocción a 600 o C,
se pide construir un intervalo de confianza al 95% para la predicción de la resistencia del
próximo ladrillo obtenido en esas condiciones.
g) En vista del resultado de los contrastes en la tabla de coeficientes estimados, se decide
hacer un test para ver si las variables T EM P y CAL no aportan nada significativo a la
regresión en presencia de la variable T IEM P O. Realizar dicho test para estas variables
de forma simultanea sabiendo que la variabilidad explicada por la regresión (= SSR) del
modelo que explica RESIST sólo en función del T IEM P O es igual a 101897.627.
Problema 5: El departamento de una empresa analiza unas variables medidas con fre-
cuencia trimestral desde el segundo trimestre de 1997 hasta el fin de 2006 (39 trimestres).
Las variables analizadas son Y = “Ganancias de la empresa en el trimestre (% respecto a
la inversión total)”, X1 = “Nivel de Ingresos”, X2 = “Ganancias en el trimestre anterior”,
X3 = “Potencial de mercado ” y X4 = “Índice de precios”.
El resultado de la regresión simple de Y frente a X2 fue el siguiente:
Standard T
-----------------------------------------------------------------------
CONSTANT 0,041685 0,101382 0,41117 0,6833
X_2 0,998265 0,010917 91,4351 0,0000
-----------------------------------------------------------------------
con un R2 = 0.9978.
a) Usando la tabla anterior, ¿podemos afirmar que la regresión Y frente a X2 es signi-
ficativa?
Se realiza también una regresión con todas las variables obteniéndose:
Standard T
-----------------------------------------------------------------------------
CONSTANT -10,4726 6,02175 -1,73913 0,0911
X_1 0,767461 0,133927 5,73046 0,0000
X_2 0,123865 0,142384 0,869936 0,3904
X_3 1,33056 0,509293 2,61256 0,0133
X_4 -0,75424 0,160727 -4,69269 0,0000
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
Model 3,77795 4 0,944489 4354,25 0,0000
Residual 0,007375 34 0,000216912
-----------------------------------------------------------------------------
b) Obtén un intervalo de confianza de garantı́a 95% para β2 . ¿Es la variable X2 signi-

ficativa? ¿Contradice el resultado de este último contraste lo obtenido en a)?
c) Los autovalores de la matriz de correlaciones de las variables explicativas X1 , ..., X4
son 3.944, 0.047, 0.006 y 0.002 y el ajuste X2 = β0 + β1 X1 + β3 X3 + β4 X4 + ε tiene un
R2 = 0.9971. ¿Presenta algún tipo de problema la regresión con las 4 variables?
Se realiza un proceso de selección de variables “Forward” obteniéndose el Modelo Final:
Standard T
-----------------------------------------------------------------------------
CONSTANT -13,3101 5,04423 -2,63869 0,0123
X_1 0,845559 0,0990369 8,53781 0,0000
X_3 1,62735 0,376822 4,3186 0,0001
X_4 -0,834883 0,130844 -6,38076 0,0000
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
Model 3,77779 3 1,25926 5846,04 0,0000
Residual 0,00753915 35 0,000215404
-----------------------------------------------------------------------------
d) Realiza el test H0 : β2 = 0 en presencia de las variables X1 , X3 y X4 utilizando el

principio de la suma extra de cuadrados.
e) Utilizando el Modelo Final, ¿podemos afirmar a nivel α = 0.05 que un aumento en
el “potencial de mercado” de 1 décima (0.1 unidades) provoca un incremento en el beneficio
trimestral (si el resto de variables explicativas permanecen fijas) superior a 0.15 unidades?
f) Suponer que un determinado trimestre se sabı́a que X1 = 6, X3 = 13 y X4 = 4.6.
Completa la siguiente tabla obtenida usando la opción report del Statgraphics:
Fitted Stnd. Error Lower 95,0% CL Upper 95,0% CL Lower 95,0% CL Upper 95,0% CL
Value for Forecast for Forecast for Forecast for Mean for Mean
---------------------------------------------------------------------------------
****** 0,0184443 9,04079 9,11568 ******* 9,10091
---------------------------------------------------------------------------------
¿Entre qué lı́mites oscilarán las ganacias de la empresa (en %) en ese trimestre con una
garantı́a del 95%.
g) ¿El hecho de que los datos hayan sido tomados de forma secuencial en el tiempo puede
haber introducido algún problema relativo a las hipótesis habituales del modelo de regresión?
¿Qué estadı́stico necesitarı́amos para chequear esa hipótesis?
Problema 6: En el articulo “The Value and Limitations of High-Speed Turbo-Exhausters
for Removal of Tar-Fog from Carburetted Water-Gas” en Soc. Chemical Industry J. (1946) se
presentaban datos relativos a 32 experimentos donde se miden Y =“Contenido de alquitrán
(gramos/100 pies3 )” de una corriente de gas en función de X1 = “Velocidad del rotor (rpm)”
y X2 = “Temperatura de entrada del gas (o F)”.
Y=Alq X1=Vel X2=Tem
--------------------------
1 60.0 2400 54.5
2 61.0 2450 56.0
3 65.0 2450 58.5
4 30.5 2500 43.0
...
31 24.5 3600 58.0
32 26.5 3900 61.0
--------------------------
a) Se ajusta el modelo Y = β0 + β1 X1 + ε y se observa que el residual más extremo
corresponde a la observación 14 con un residual studentizado igual a −4.02. ¿Podemos
considerar esa observación como atı́pica a nivel α = 0.05? Sabemos que h14 14 = 0.36, ¿qué
más se puede decir de la observación 14?
En todo lo que sigue supondremos que la observación 14 ha sido eliminada del análisis.
b) El ajuste del modelo anterior (sin la observación 14) proporciona estos resultados:
Standard
Parameter Estimate Error Source Sum of Squares
-------------------------------------- ---------------------------------
Intercept 112,518 16,4859 Model 2580,57
Slope -0,0239153 0,0054673 Residual 3911,17
-------------------------------------- ---------------------------------
Total (Corr.) 6491,74
Prediction Limits Confidence Limits

X_1 Predicted Y Lower Upper Lower Upper
--------------------------------------------------------------------------
3000,0 ******* 16,6396 ******* ******* 45,0388
--------------------------------------------------------------------------
(Intervalos de confianza al 95 por ciento)
Usando este modelo ajustado, obtén un intervalo de confianza al 95% para el contenido de
alquitrán medio que se obtiene cuando la velocidad del rotor es de 3000 rpm.
c) Usando el modelo ajustado en b), ¿podemos suponer que incrementar la velocidad en
100 rpm disminuye el contenido de alquitrán en más de 2 gramos/100 pies3 ?
d) El R2 del modelo Y = β0 + β1 X1 + β2 X2 + ε es R12 = 0.8487 y el del modelo Y =
β0 +β1 X1 +β2 X2 +β3 X12 +β4 X22 +β5 X1 ·X2 +ε es R22 = 0.9319. ¿Merece la pena introducir las
variables con los términos cuadráticos X12 y X22 y el producto cruzado X1 · X2 si ya tenemos
en el modelo las variables X1 y X2 ?
e) Se ha llevado a cabo un método “forward” de selección de variables partiendo del
modelo Y = β0 + β1 X1 + β2 X2 + β3 X12 + β4 X22 + β5 X1 · X2 + ε y vemos que el modelo
resultante contiene las siguientes variables:
Standard T
-----------------------------------------------------------------------------
CONSTANT 328,62 47,8407 6,86905 0,0000
X1 -0,192343 0,0321396 -5,9846 0,0000
X1^2 0,000021 0,0000051 4,08578 0,0004
X1*X2 0,000546 0,0000450 12,1294 0,0000
-----------------------------------------------------------------------------
Obtén una representación gráfica aproximada de la estimación del contenido de alquitrán
dependiendo de la “velocidad” cuando la temperatura del gas es 60 o F. ¿Con qué velocidad
estimamos que se obtendrı́a un menor contenido de alquitrán para una temperatura del gas
de 60 o F?
Problema 7: Con el objetivo de elaborar una ecuación que permitiese predecir el coste
de construcción de futuras centrales nucleares en EE.UU., se tomaron datos de algunas de
ellas. Se midieron las variables que se relacionan a continuación: Y (-var. respuesta-, coste
de construcción en millones de dólares de 1976), X1 (fecha de publicación del permiso de
construcción), X2 (tiempo entre la petición y el permiso de operación), X3 (tiempo entre el
permiso de operación y el permiso de construcción) y X4 (capacidad de la red de la planta
nuclear, en MW).
a) A partir de las siguientes tablas, realizar el test de significación de la regresión y decir
qué variables son significativas.
Sum of Mean
Source DF Squares Square F Value
Model 4 28295.36141 7073.84035 81.60

Error 62 5374.80658 86.69043
Correct Total 66 33670.16799
Std Error of
Parameter Estimate Estimate
INTERCEPT -2.82821480 4.67487191

X1 0.88326662 0.06900162
X2 0.43175527 0.10796932
X3 -11.38045445 11.89367001
X4 -1.01173076 2.84899812
b) El programa nos da las descomposiciones en sumas de cuadrados secuencial (Type I)

y parcial (Type III):
Source DF Type I SS Mean Square
X1 1 25824.24605 25824.24605
X2 1 2386.32278 2386.32278
X3 1 73.86014 73.86014
X4 1 10.93243 10.93243
Source DF Type III SS Mean Square
X1 1 14204.83454 14204.83454
X2 1 1386.26332 1386.26332
X3 1 79.37040 79.37040
X4 1 10.93243 10.93243
¿Podrı́as saber cuál era cada descomposición (secuencial ó parcial) a la vista de los valores
de la tablas anteriores?
c) Usando la información anterior, realizar un test para ver si las variables X3 y X4
aportan algo en presencia de X1 y X2 .
d) ¿Se puede afirmar qué la central nuclear se abarata en al menos 10 millones de dólares
si la construimos con una potencia -capacidad- superior en 10 MW?
e) ¿Es el signo del coeficiente de X4 lógico?. ¿Qué problema puede presentar esta re-
gresión? ¿Donde más se puede ver este problema?
Problema 8: Se está realizando un estudio sobre la calidad de los vinos de la variedad Pinot
Noir. Se tienen 38 muestras de vinos que son evaluadas por un panel de expertos atendiendo
a los siguientes aspectos: Clarity, Aroma, Body, Flavor y Oakiness. Las valoraciones
se realizan promediando las puntuaciones otorgadas por los expertos a cada muestra de
vino. Finalmente, los expertos realizan también una valoración global de la calidad de cada
muestra (Quality). El propósito del estudio es ajustar un modelo de regresión múltiple
para estudiar los factores sensoriales que influyen en la variable Quality. Además, los vinos
provienen de tres regiones distintas, información que está recogida en las variables Region1
(1 si el vino pertenece a la región 1 y 0 en el resto de los casos) y Region2 (1 si el vino
pertenece a la región 2 y 0 en el resto de los casos). Los siguientes resultados corresponden
al Modelo Completo:
Parameter Estimate Std.Error t-Statistic
Constant 8,78695 2,19076 4,01092
Clarity 0,0170503 1,45627 0,0117083
Aroma 0,0890119 0,252497 0,352527
Body 0,0796715 0,267716 0,297597
Flavor 1,11723 0,240256 4,65016
Oakiness -0,34644 0,233011 -1,4868
Region1 -0,972587 0,51017 -1,9064
Region2 -2,48544 0,588681 -4,22205
Source Sum of Squares Df Mean Square F-Ratio

Model 129,648 7 18,5212 22,10
Residual 25,1401 30 0,838005
Total (Corr.) 154,788 37
a) ¿Qué variables resultan significativas en este análisis a nivel 0.05? ¿Se puede concluir
directamente que al menos 4 de las 7 variables regresoras podrı́an eliminarse directamente
sin una pérdida de información importante?
b) Selecciona el modelo o modelos más adecuados utilizando la información contenida
en la tabla siguiente [Nota: la nomenclatura de las variables sigue el orden de la tabla del
Modelo Completo].
2
MSE R2 R Cp Variables
2,14852 50,0308 48,6427 58,2985 B
1,61593 62,4174 61,3735 35,4190 D
1,49874 66,1112 64,1747 30,5963 DE
0,99107 77,5904 76,3099 9,39286 DG
0,91344 79,9359 78,1655 7,06061 DEG
0,80038 82,4192 80,8679 2,47367 DFG
0,76793 83,6281 81,6436 2,24066 DEFG
0,82457 82,4206 80,2898 4,47096 BDFG
0,78891 83,6906 81,1423 4,12516 CDEFG
0,79160 83,6349 81,0778 4,22813 ADEFG
c) Aplicando el método de selección de variables “Stepwise”, se obtiene el siguiente Mod-

elo Reducido:
Parameter Estimate Std. Error t-Statistic p-value
CONSTANT 8,31768 1,01002 8,23518 0,0000
Flavor 1,11555 0,173847 6,41683 0,0000
Region1 -1,22337 0,400332 -3,05588 0,0043
Region2 -2,75685 0,449464 -6,13364 0,0000
Utiliza el principio de la “suma extra de cuadrados” para realizar un test que permita ver si
los coeficientes de las variables que hemos dejado fuera pueden suponerse estadı́sticamente
nulos sabiendo que el R2 de este nuevo ajuste es de 0.8242.
d) Representa gráficamente el ajuste obtenido con el Modelo Reducido. ¿Serı́a cor-
recto ajustar un modelo utilizando directamente la variable Region con valores 1, 2 y 3?
e) Dando por bueno el Modelo Reducido, obtén un intervalo de confianza de garantı́a
95% para la diferencia en Quality media para dos vinos con la misma puntuación en Flavor
dependiendo de que sea de la zona 2 ó 3.
Problema 9: Se construyen una serie de ı́ndices de calidad de vida para cada una de las
50 provincias españolas considerando diferentes aspectos (X1 =“Renta”; X2 =“Sanidad”,...,
X8 =“Habitabilidad”) y posteriormente se elabora un ı́ndice global de Y =“Bienestar”. Todas
estás variables son indicadores entre 1 (nivel más bajo) y el 10 (nivel más alto). Para intentar
determinar la relación entre este ı́ndice global y los ı́ndices parciales se considera un modelo
de regresión múltiple cuyo ajuste arroja los siguientes resultados:
REGRESIÓN 1:
Standard T
Parameter Estimate Error Statistic P-Value Var.Inflact.Fact.
--------------------------------------------------------------------------------
CONSTANT -0.81529 0.479117 -1.70165 0.0964
A=RENTA 0.0311394 0.081888 0.380268 0.7057 VIF: 3.94
B=SANIDAD 0.0469637 0.046063 1.01955 0.3139 VIF: 1.28
C=SERVICIOS 0.150124 0.0712628 2.10662 0.0413 VIF: 2.64
D=INSTRUCCION 0.549613 0.149348 3.6801 0.0007 VIF: 12.77
E=OCIO_CULTURA 0.384846 0.12021 3.20146 0.0026 VIF: 8.23
F=EMPLEO 0.227622 0.0816838 2.78662 0.0080 VIF: 4.11
G=VIVIENDA 0.0833657 0.0665643 1.25241 0.2175 VIF: 2.49
H=HABITABILIDAD -0.348077 0.312007 -1.1156 0.2711 VIF: 42.72
--------------------------------------------------------------------------------
--------------------------------------------------------------------------------
Model 233.011
Residual
--------------------------------------------------------------------------------
Total (Corr.) 254.5
a) Completa la tabla de ANOVA. ¿Es significativa la regresión?

b) En esta regresión, el residual más grande se encontró para los datos correspondientes
a la provincia de Cuenca con un residual studentizado ti = −3.20. ¿Se puede considerar que
dicha provincia tiene un comportamiento anómalo?
Se lleva a cabo una selección de variables tipo “backward” llegando al modelo:
REGRESIÓN 2:
Standard T
-----------------------------------------------------------------------------
CONSTANT -0,225654 0,28976 -0,778761 0,4401
INSTRUCCION 0,494074 0,0561267 8,80284 0,0000
OCIO_CULTURA 0,351146 0,0597465 5,87727 0,0000
EMPLEO 0,154811 0,0569322 2,71922 0,0092
-----------------------------------------------------------------------------
-----------------------------------------------------------------------------
Model 229,512 3 76,5039 140,83 0,0000
Residual 24,9884 46 0,543227
-----------------------------------------------------------------------------
Total (Corr.) 254,5 49
[Nota: Los plot de residuales de los dos modelos presentados son razonables.]
c) Hacer un test global para ver si las variables “Renta”, “Sanidad”, “Servicios”, “Vivienda”
y “Habitabilidad” aportan algo estadı́sticamente significativo a la regresión en presencia del
resto de variables explicativas.
d) Usando las tablas asociadas a la Regresión 2, ¿se puede afirmar que aumentar el
nivel de “Empleo” de una provincia en 1 punto (y dejando fijas el resto de las variables)
aumenta en promedio el ı́ndice de “Bienestar” en más de 0.15 puntos.
El resultado de un método “forward” de selección de variables fue:
REGRESIÓN 3:
Standard T
-----------------------------------------------------------------------------
CONSTANT -0,39913 0,335159 -1,19087 0,2396
HABITABILIDAD 0,982609 0,0541991 18,1296 0,0000
-----------------------------------------------------------------------------

-----------------------------------------------------------------------------
Model 222,07 1 222,07 328,68 0,0000
Residual 32,4304 48 0,675634
-----------------------------------------------------------------------------
Total (Corr.) 254,5 49
e) ¿Qué opinión te merece el signo negativo de la variable “Habitabilidad” en el mod-

elo completo? ¿A qué crees que puede ser debido? ¿Hay alguna otra manifestación del
mismo fenomeno en la información que se ofrece? ¿Este fenómeno podrı́a haberse detectado
mediante el plot de residuales?
Se dispone de los siguientes gráficos [Nota: Las letras A, B, C,..., y H se refieren a las
variables en el estudio tal como aparecen en la tabla de Regresión 1].:
Mallows' Cp Plot for BIENESTAR Adjusted R-Squared Plot for BIENESTAR
20 94
adjusted R-Squared
H GH
15
91
DE CDEF
DEG DEF DEFG
Cp
10
DE DEG
DEF DEFG 88 GH
5 CDEF H
0 85
0 1 2 3 4 5 6 0 1 2 3 4 5 6
Number of Coefficients Number of Coefficients
f) La regresiones obtenidas a partir de los métodos secuenciales para la selección de
modelos, “backward” y “forward”, son diferentes, ¿son estos resultados contradictorios?
Con las gráficas de que se dispone, ¿qué modelo o modelos elegirı́as como modelos finales
razonables (salvando la cuestión del análisis residual)?, ¿por qué?
Problema 10: Para producir vigas metálicas disponemos de 3 tipos distintos de aleaciones
1, 2, 3 a los que se puede añadir una cantidad X1 de un nuevo mineral que creemos sirve
para aumentar la resistencia.
Y X Z1 Z2 W1 W2
65 35 1 0 35 0
45 15 1 0 15 0
55 35 1 0 35 0 Y= resistencia
35 15 1 0 15 0
45 25 1 0 25 0 X1=cantidad de nuevo mineral a~
nadido
35 15 1 0 15 0
65 45 1 0 45 0 Z1= 1 si aleación 1 y 0 resto aleaciones
85 45 0 1 0 45
95 55 0 1 0 55 Z2= 1 si aleación 2 y 0 resto aleaciones
95 55 0 1 0 55
95 45 0 1 0 45 W1=X1*Z1
85 35 0 1 0 35
55 15 0 1 0 15 W2=X1*Z2
75 25 0 1 0 25
65 35 0 0 0 0
75 25 0 0 0 0
75 25 0 0 0 0
75 35 0 0 0 0
85 45 0 0 0 0
55 15 0 0 0 0
75 45 0 0 0 0
Tenemos los siguientes modelos ajustados:
-------------------------------------------------------------------------
* MODELO 1:
--------------------------------------------------------------------------
Sum of Mean
Source DF Squares Square F Value Prob>F
Model 1 4618.26241 4618.26241 35.838 0.0001

Error 19 2448.40426 128.86338
C Total 20 7066.66667
Root MSE 11.35180 R-square 0.6535

Dep Mean 68.33333 Adj R-sq 0.6353
C.V. 16.61239
Parameter Standard T for H0:

Variable DF Estimate Error Parameter=0 Prob > |T|
INTERCEP 1 31.289894 6.66523129 4.694 0.0002

X1 1 1.135638 0.18969920 5.987 0.0001
-------------------------------------------------------------------------
* MODELO 2:
-------------------------------------------------------------------------
Sum of Mean
Model 3 6422.04082 2140.68027 56.454 0.0001

Error 17 644.62585 37.91917
C Total 20 7066.66667

Dep Mean 68.33333 Adj R-sq 0.8927
C.V. 9.01149

INTERCEP 1 44.897959 4.29836259 10.445 0.0001

X1 1 0.847619 0.11242652 7.539 0.0001
Z1 1 -18.013605 3.35362096 -5.371 0.0001
Z2 1 5.374150 3.38805722 1.586 0.1311
-------------------------------------------------------------------------
* MODELO 3:
-------------------------------------------------------------------------
Sum of Mean
Model 5 6486.51003 1297.30201 33.542 0.0001

Error 15 580.15664 38.67711
C Total 20 7066.66667

Dep Mean 68.33333 Adj R-sq 0.8905
C.V. 9.10111

INTERCEP 1 52.980769 7.70177234 6.879 0.0001

X1 1 0.596154 0.22817831 2.613 0.0196
Z1 1 -29.271092 9.76438185 -2.998 0.0090
Z2 1 -5.012019 10.41003051 -0.481 0.6371
W1 1 0.371588 0.30940757 1.201 0.2484
W2 1 0.310096 0.28331502 1.095 0.2910
(Nota: Los plots de residuales son correctos para el segundo y tercer modelo).
a) Comentar lo que se pretende modelizar con cada modelo y dar el modelo más adecuado.
b) Realiza los tests necesarios para responder a las siguientes preguntas:
(i) ¿El aumento de la resistencia para una misma cantidad de nuevo mineral
añadido se puede suponer el mismo para las tres aleaciones?
(ii) Si consideramos las aleaciones sin añadir el nuevo mineral ¿ Existen diferen-
cias significativas entre la resistencia de la aleación 2 y la 3?
c) A partir del modelo que se considere mas correcto obtener un intervalo de confianza
al 95% para la diferencia entre las resistencias esperadas entre las aleaciones 1 y 3 cuando
hemos añadido 25 unidades del nuevo material (X1 = 25).

Problemas Bloque 1

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Problemas Bloque 1

Cargado por

Copyright:

Formatos disponibles

Estadı́stica Empresarial

Problemas Bloque 1: Regresión

Problema 1: Se dispone de datos correspondientes a Y = “precios en euros” de 100 vivien-

Source Sum of Squares Standard T

Source Sum of Squares Df Mean Square F-Ratio P-Value

Lower 95.0% CL Upper 95.0% CL Lower 95.0% CL Upper 95.0% CL

Source Sum of Squares Df Mean Square F-Ratio P-Value

Completa la tabla anterior. ¿Es esta regresión satisfactoria?

¿Sorprende el hecho de que ahora la variable X1 = “edad” no sea signiﬁcativa y en el apartado

Residual Plot Residual Plot

En lo que sigue trabajaremos con el siguiente Modelo Final: log(Y ) = β0 + β2 X2 + ... +

a) Si el coeﬁciente de determinación de la regresión Y = β0 + β1 X1 + ε fue R2 = 0.894, y

Problema 4: En una fábrica de ladrillos se lleva a cabo un experimento para comprobar

a) A partir de la información en la siguiente tabla (incompleta), realizar un test para ver

Source Sum of Squares Df Mean Square F-Ratio P-Value

Residual Sum of Squares

b) Obtén un intervalo de conﬁanza de garantı́a 95% para β2 . ¿Es la variable X2 signi-

d) Realiza el test H0 : β2 = 0 en presencia de las variables X1 , X3 y X4 utilizando el

Prediction Limits Confidence Limits

Model 4 28295.36141 7073.84035 81.60

INTERCEPT -2.82821480 4.67487191

b) El programa nos da las descomposiciones en sumas de cuadrados secuencial (Type I)

Source DF Type I SS Mean Square

Source DF Type III SS Mean Square

Source Sum of Squares Df Mean Square F-Ratio

c) Aplicando el método de selección de variables “Stepwise”, se obtiene el siguiente Mod-

a) Completa la tabla de ANOVA. ¿Es signiﬁcativa la regresión?

Source Sum of Squares Df Mean Square F-Ratio P-Value

e) ¿Qué opinión te merece el signo negativo de la variable “Habitabilidad” en el mod-

Tenemos los siguientes modelos ajustados:

Model 1 4618.26241 4618.26241 35.838 0.0001

Root MSE 11.35180 R-square 0.6535

Parameter Standard T for H0:

INTERCEP 1 31.289894 6.66523129 4.694 0.0002

Model 3 6422.04082 2140.68027 56.454 0.0001

Root MSE 6.15785 R-square 0.9088

Parameter Standard T for H0:

INTERCEP 1 44.897959 4.29836259 10.445 0.0001

Model 5 6486.51003 1297.30201 33.542 0.0001

Root MSE 6.21909 R-square 0.9179

Parameter Standard T for H0:

INTERCEP 1 52.980769 7.70177234 6.879 0.0001

También podría gustarte