Está en la página 1de 16

Estadı́stica Empresarial

Problemas Bloque 1: Regresión

Problema 1: Se dispone de datos correspondientes a Y = “precios en euros” de 100 vivien-


das y sus caracterı́sticas: X1 = “superficie en m2 ”, X2 = “edad de la vivienda”, X3 =
“buenas vistas (1 = ’Sı́’ y 0 = ’No’)”, X4 = “número de plazas de garaje”, X5 = “número
de dormitorios” y X6 = “número de cuartos de baño”.
a) Para la regresión de Y frente a las variables X1 , X2 , ..., X6 , se sabe que la observación
con mayor residual estudentizado es la 38 con t38 = 3.8 y, además, tenemos la siguiente
tabla que nos muestra las observaciones con mayor “leverage”, ¿Qué podrı́amos decir de la
observación 38?
Row Leverage DFITS
--------------------------------
6 0.100549 -0.548886
11 0.15576 0.894118
12 0.108364 -0.554416
20 0.0589026 -0.545707
38 0.167861 1.962470
44 0.154132 0.835235
58 0.105883 0.702488
63 0.203285 0.926891
95 0.056569 0.536579
-----------------------------------

En lo que sigue trabajaremos siempre sin la observación 38 y supondremos que los plots de
residuos de los modelos ajustados son correctos.
b) Repetimos la regresión de Y frente a esas 6 variables explicativas. ¿Es la regresión
globalmente significativa? ¿Qué variables son significativas a nivel α = 0.05?

Source Sum of Squares Standard T


---------------------------- Parameter Estimate Error Statistic
Model 3.25493E11 --------------------------------------------
Residual 1.16648E11 CONSTANT 47354.6 24453.7 1.9365
---------------------------- superficie 1054.82 132.921 7.93573
Total (Corr.) 4.42141E11 edad -2705.33 898.555 -3.01075
vistas 34128.5 10031.3 3.40221
garajes 44452.4 13814.6 3.21778
dormitorios 6620.58 6156.46 1.07539
ba~
nos 18769.7 8588.74 2.18538
--------------------------------------------

c) ¿Son razonables los signos de los coeficientes? Comenta brevemente dichos signos. ¿Es
razonable que el “número de dormitorios” no sea una variable significativa para explicar el
precio? ¿A qué puede ser debido?
d) La siguiente tabla nos proporciona las sumas de cuadrados secuenciales (en el orden
que aparecen en la tabla):
Source Sum of Squares Df Mean Square F-Ratio P-Value
-------------------------------------------------------------------------
superficie 2.67123E11 1 2.67123E11 210.68 0.0000
edad 5.2571E9 1 5.2571E9 4.15 0.0446
vistas 3.03854E10 1 3.03854E10 23.96 0.0000
garajes 1.25881E10 1 1.25881E10 9.93 0.0022
dormitorios 4.08405E9 1 4.08405E9 3.22 0.0760
ba~
nos 6.05543E9 1 6.05543E9 4.78 0.0314
-------------------------------------------------------------------------

¿Pueden suponerse simultanemente nulos (en presencia del resto de las variables) los coefi-
cientes de las variables X5 y X6 ?
Finalmente, tras aplicar un método de selección de variables, ajustamos el siguiente Modelo
Final:
Standard T
Parameter Estimate Error Statistic P-Value
-------------------------------------------------------------------------
CONSTANT 57056.4 22747.8 2.50822 0.0139
superficie 1069.83 132.297 8.08657 0.0000
edad -2308.43 819.947 -2.81534 0.0059
vistas 35336.2 9976.61 3.5419 0.0006
garajes 43470.3 13796.0 3.15094 0.0022
ba~
nos 21476.8 8218.45 2.61324 0.0105
-------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value


-------------------------------------------------------------------------
Model 3.24027E11 5 6.48053E10 51.03 0.0000
Residual 1.18114E11 93 1.27005E9
-------------------------------------------------------------------------

e) Usando este último modelo, ¿Se puede afirmar que por cada año de antigüedad se
deprecia la vivienda en promedio en más de 2000 euros?
f) Obtén un intervalo de confianza de garantı́a 95% para la diferencia de precio medio
entre viviendas con las mismas caracterı́sticas dependiendo de que éstas tengan o no buenas
vistas?
g) Disponemos de un piso de 150m2 , 2 baños, 2 plazas de garaje, 8 años de antigüedad y
con buenas vistas. Usando el ajuste del modelo final y la opción “Report” de STATGRAPHICS
obtenemos la siguiente tabla:

Lower 95.0% CL Upper 95.0% CL Lower 95.0% CL Upper 95.0% CL


for Forecast for Forecast for Mean for Mean
-----------------------------------------------------------------
287267.0 441320.0 333884.0 394704.0
-----------------------------------------------------------------

Da una cota inferior de garantı́a 90% para el precio al que deberı́amos vender dicha vivienda si
consideramos que el modelo ajustado es adecuado para describir las condiciones de mercado.
h) Una vivienda de 210m2 , 3 baños, 2 plazas de garaje, 2 años de antigüedad y con buenas
vistas ha sido vendida por 300000 euros. Ante una sospecha de fraude (pago en dinero negro
para evadir impuestos), se realiza un nuevo ajuste del Modelo Final añadiendo a la matriz
los datos correspondientes a esta nueva vivienda (caso n.100). Tras el ajuste, obtenemos
estos resultados para la vivienda investigada:
Unusual Residuals
--------------------------------------------------------------
Row Y Predicted Y Residual(ei) Residual(ti)
--------------------------------------------------------------
100 300000.0 438010.0 -138010.0 -4.22
--------------------------------------------------------------

¿Existe evidencia estadı́stica para afirmar que esta vivienda ha tenido un precio anormal-
mente bajo?
Problema 2: Tenemos datos relativos a 447 empleados en puestos administrativos o direc-
tivos dentro de una empresa americana. Consideramos, las variables Y = “salario actual
(en dolares)”, X1 = “edad”, X2 = “nivel educativo (años totales en el sistema educativo)”,
X3 = “experiencia previa en otras empresas (en meses)”, X4 = “salario inicial (en dolares)”,
X5 = “tiempo en la empresa (en meses)”, X6 = “categorı́a laboral (1 = “Directivos” y 0 =
“Administrativos”)” y X7 = “sexo (1 = “Hombre” y 0 = “Mujer”)”.
a) Inicialmente, se hace una regresión simple de Y frente a sólo la variable X1 . El
resultado de esta regresión aparece en la siguiente tabla:

Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept 45291.8 3646.48 12.4207 0.0000
Slope -218.579 72.827 -3.00134 0.0028
-----------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value


-----------------------------------------------------------------------------
Model 2.72724E9 *** ********* 9.01 0.0028
Residual 1.34726E11 *** *********
-----------------------------------------------------------------------------
Lack-of-Fit 3.84236E10 41 ********* 3.93 0.0000
Pure Error 9.63025E10 *** *********
-----------------------------------------------------------------------------
Total (Corr.) 1.37453E11 ***

Completa la tabla anterior. ¿Es esta regresión satisfactoria?


b) Introducimos el resto de variables explicativas obteniendose:

Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -6548.13 3843.84 -1.70354 0.0892
edad -59.9681 49.5614 -1.20998 0.2269
educ 503.226 169.923 2.9615 0.0032
exp_prev_mes -18.5589 6.08379 -3.05054 0.0024
sal_ini 1.35229 0.0749022 18.0541 0.0000
tiem_empr_mes 156.572 32.7985 4.77377 0.0000
cat_lab 11131.9 1393.91 7.9861 0.0000
sexo 1566.21 807.167 1.94037 0.0530
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 1.16343E11 7 1.66204E10 345.63 0.0000
Residual 2.11105E10 439 4.80878E7
-----------------------------------------------------------------------------
Total (Corr.) 1.37453E11 446

¿Sorprende el hecho de que ahora la variable X1 = “edad” no sea significativa y en el apartado


anterior sı́ lo fuera claramente? Da una posible explicación de este hecho.
c) Tras realizar un procedimiento de selección de variables “backward” vemos que el
modelo que este método elige contiene todas las variables salvo a la variable X1 y el R2 de
este modelo reducido es igual a 0.8459. Usa el principio de la “suma-extra” de cuadrados
para ver si la variable “edad” es significativa a nivel α = 0.05 en presencia del resto de
variables?
d) Al realizar el plot de residuales para la regresión Y = β0 + β2 X2 + ... + β7 X7 + ε
obtenemos el gráfico que aparece a la figura de la izquierda. ¿Qué problema o problemas
puede presentar esta regresión? En el gráfico de la derecha aparece el plot de residuales
para el mismo modelo cuando la variable respuesta es log(Y ). ¿Corrige esa transformación
el problema apuntado anteriormente?

Residual Plot Residual Plot


8 6
Studentized residual

Studentized residual

Case 165
4
4
2
0 0
-2
-4
-4
-8 -6
0 3 6 9 12 15 9.6 10 10.4 10.8 11.2 11.6 12
(X 10000)
predicted salario predicted log(salario)

En lo que sigue trabajaremos con el siguiente Modelo Final: log(Y ) = β0 + β2 X2 + ... +


β7 X7 + ε (nótese que no aparece la variable X1 ). El ajuste de este modelo aparece en las
tablas:

Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 9.26783 0.0791005 117.165 0.0000
educ 0.0265554 0.00403353 6.58365 0.0000
exp_prev_mes -0.000700234 0.000090011 -7.77942 0.0000
sal_ini 0.0000236332 0.00000178572 13.2346 0.0000
tiem_empr_mes 0.00333482 0.000776098 4.29691 0.0000
cat_lab 0.272395 0.033228 8.19776 0.0000
sexo 0.113443 0.0185159 6.12679 0.0000
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 62.4781 6 10.413 379.96 0.0000
Residual 12.0584 440 0.0274054
-----------------------------------------------------------------------------
Total (Corr.) 74.5365 446

e) Da una estimación del factor por el que se multiplica el salario dependiendo de que el
empleado sea hombre respecto a que sea mujer, suponiendo los mismos valores en las otras
variables. ¿Tenemos evidencia estadı́stica para afirmar que los sueldos son significativamente
mayores en hombres que en mujeres para los mismos valores en las otras variables?
f) Tras hacer la regresión se comprobó que el empleado 165 tenı́a un residual studentizado
t165 = 5.57. ¿Existe evidencia estadı́stica para confirmar que el salario de este empleado es
anormalmente alto? ¿Cambiarı́a la respuesta si se sabe previamente que este empleado es el
informático encargado de tramitar las nóminas?
Problema 3: En un estudio con 20 familias pertenecientes a un área metropolitana en 1993
se midieron las variables: “Gasto en comida en 1000$” (Y ), “Ingresos anuales en 1000$”
(X1 ) y “Número de miembros en la familia” (X2 ). Los datos obtenidos fueron:
Y X1 X2
5.2 28 3
5.1 26 3
.. .. ..
. . .
20.0 112 6
2.9 26 2
La tabla ANOVA y de coeficientes estimados fueron:
Model Sum of Squares df Mean Square F
Regression 386.313 2 193.156 121.470
Residual 27.033 17 1.590
Total 413.346 19
Coeffic. Std. Error
Intercept -1.118 0.655
Ingresos anuales (1000$) 0.148 0.016
Tamaño familia 0.793 0.244

a) Si el coeficiente de determinación de la regresión Y = β0 + β1 X1 + ε fue R2 = 0.894, y


utilizando el principio de la “suma extra de cuadrados”, ¿Hasta qué punto resultó interesante
añadir la variable X2 ? (Se sabe que en ambos casos el plot de residuales era razonable)
b) Responder a la pregunta anterior utilizando sólo la tabla de coeficientes estimados.
¿Se puede recuperar a partir de esta tabla el valor del estadı́stico usado en el apartado a)?.
c) Para un número fijo de miembros de una familia, ¿Se puede suponer qué un incremento
en los ingresos de 1000$ aumenta los gastos en alimentación en más de 140$?
Si X es la matriz de diseño para la regresión Y = β0 + β1 X1 + β2 X2 + ε, se sabe que
 
0.2697 −0.0027 −0.0335
(X ′ X)−1 =  −0.0027 0.0002 −0.0017  .
−0.0335 −0.0017 0.0376
d) Utilizando el modelo con X1 y X2 , dar un intervalo de confianza al 95% para el gasto
medio en alimentación de una familia de 2 personas e ingresos iguales a 30.000$.
e) La observción octava era la observación que tenı́a mayor residual. Obtén (h88 ) y e8,−8
teniendo en cuenta que
obs X1 X2 Y Yb resid. estandarizado resid. studentizado
8 40000$ 3 4.90 7.18 -2.51 -3.07
¿Existe evidencia estadı́stica de que la observación 8 sea un outlier?
f) Se observó un valor del estadı́stico de Durbin Watson de 2.616. ¿Qué se puede concluir
a partir de este valor?

Problema 4: En una fábrica de ladrillos se lleva a cabo un experimento para comprobar


los factores de los que depende la resistencia a la rotura de los mismos. Se llevan a cabo
ensayos experimentales sometiendo a los ladrillos a distintas temperaturas en su cocción
(580, 600, 620 y 640 o C) [T EM P ], durante distintos tiempos de cocción (5, 10 y 15 minutos)
[T IEM P O] y formando la masa con mezcla de cal en distintas proporciones (10, 20 y 30 %)
[CAL]. Se tomaron dos observaciones por cada combinación de niveles de estas tres variables
(es decir, se consideraron dos réplicas) y se anotó la resistencia resultante [RESIST ]. Los
resultados fueron:
CAL TIEMPO TEMP RESIST
----------------------------
10 5 580 8.36
10 5 580 12.55
10 5 600 9.79
10 5 600 10.87
10 5 620 10.32
10 5 620 20.50
10 5 640 12.42
10 5 640 13.70
10 10 580 20.13
10 10 580 12.53
10 10 600 29.46
.
.
.
30 15 620 153.87
30 15 620 162.45
30 15 640 153.82
30 15 640 92.63
----------------------------

a) A partir de la información en la siguiente tabla (incompleta), realizar un test para ver


si la regresión de RESIST frente a CAL, T IEM P O y T EM P es significativa.

Source Sum of Squares Df Mean Square F-Ratio P-Value


-----------------------------------------------------------------------
Model 104167,0
Residual 46627,0
-----------------------------------------------------------------------
Total (Corr.) 150794,0 71
b) Usando las réplicas, se lleva a cabo un test de falta de ajuste obteniendose:

Residual Sum of Squares


---------------------------------------
Lack of Fit 24822
Pure Error 21805
Total Error 46627
---------------------------------------
¿Existe algún problema serio de falta de ajuste?
Se cuenta con el siguiente ajuste obtenido con las tres variables:
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -193,432 84,9187 -2,27785 0,0259
CAL 0,219375 0,377958 0,580421 0,5635
TIEMPO 9,21492 0,755916 12,1904 0,0000
TEMP 0,23795 0,138011 1,72414 0,0892
-----------------------------------------------------------------------------

c) ¿Podemos afirmar que la proporción de cal (al menos en los niveles estudiados en el
experimento) no afecta significativamente a la resistencia media del ladrillo?.
d)¿Puede suponerse que aumentar el tiempo de cocción en 5 minutos (dejando fijas las
demas variables) aumenta la resistencia media del ladrillo en más de 5 × 9 = 45 unidades?.
e) Al examinar el plot de residuales advertimos que la observación con mayor residual es
la número 24 con un residual estudentizado igual a 4.23. ¿Es dicha observación un outlier?.
f) Si [39.13, 52.62] es un intervalo de confianza al 95% para la resistencia media de los
ladrillos fabricados usando un 20% de cal en la masa trás 10 minutos de cocción a 600 o C,
se pide construir un intervalo de confianza al 95% para la predicción de la resistencia del
próximo ladrillo obtenido en esas condiciones.
g) En vista del resultado de los contrastes en la tabla de coeficientes estimados, se decide
hacer un test para ver si las variables T EM P y CAL no aportan nada significativo a la
regresión en presencia de la variable T IEM P O. Realizar dicho test para estas variables
de forma simultanea sabiendo que la variabilidad explicada por la regresión (= SSR) del
modelo que explica RESIST sólo en función del T IEM P O es igual a 101897.627.
Problema 5: El departamento de una empresa analiza unas variables medidas con fre-
cuencia trimestral desde el segundo trimestre de 1997 hasta el fin de 2006 (39 trimestres).
Las variables analizadas son Y = “Ganancias de la empresa en el trimestre (% respecto a
la inversión total)”, X1 = “Nivel de Ingresos”, X2 = “Ganancias en el trimestre anterior”,
X3 = “Potencial de mercado ” y X4 = “Índice de precios”.
El resultado de la regresión simple de Y frente a X2 fue el siguiente:

Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------
CONSTANT 0,041685 0,101382 0,41117 0,6833
X_2 0,998265 0,010917 91,4351 0,0000
-----------------------------------------------------------------------
con un R2 = 0.9978.
a) Usando la tabla anterior, ¿podemos afirmar que la regresión Y frente a X2 es signi-
ficativa?
Se realiza también una regresión con todas las variables obteniéndose:

Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -10,4726 6,02175 -1,73913 0,0911
X_1 0,767461 0,133927 5,73046 0,0000
X_2 0,123865 0,142384 0,869936 0,3904
X_3 1,33056 0,509293 2,61256 0,0133
X_4 -0,75424 0,160727 -4,69269 0,0000
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 3,77795 4 0,944489 4354,25 0,0000
Residual 0,007375 34 0,000216912
-----------------------------------------------------------------------------

b) Obtén un intervalo de confianza de garantı́a 95% para β2 . ¿Es la variable X2 signi-


ficativa? ¿Contradice el resultado de este último contraste lo obtenido en a)?
c) Los autovalores de la matriz de correlaciones de las variables explicativas X1 , ..., X4
son 3.944, 0.047, 0.006 y 0.002 y el ajuste X2 = β0 + β1 X1 + β3 X3 + β4 X4 + ε tiene un
R2 = 0.9971. ¿Presenta algún tipo de problema la regresión con las 4 variables?
Se realiza un proceso de selección de variables “Forward” obteniéndose el Modelo Final:

Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -13,3101 5,04423 -2,63869 0,0123
X_1 0,845559 0,0990369 8,53781 0,0000
X_3 1,62735 0,376822 4,3186 0,0001
X_4 -0,834883 0,130844 -6,38076 0,0000
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 3,77779 3 1,25926 5846,04 0,0000
Residual 0,00753915 35 0,000215404
-----------------------------------------------------------------------------

d) Realiza el test H0 : β2 = 0 en presencia de las variables X1 , X3 y X4 utilizando el


principio de la suma extra de cuadrados.
e) Utilizando el Modelo Final, ¿podemos afirmar a nivel α = 0.05 que un aumento en
el “potencial de mercado” de 1 décima (0.1 unidades) provoca un incremento en el beneficio
trimestral (si el resto de variables explicativas permanecen fijas) superior a 0.15 unidades?
f) Suponer que un determinado trimestre se sabı́a que X1 = 6, X3 = 13 y X4 = 4.6.
Completa la siguiente tabla obtenida usando la opción report del Statgraphics:
Fitted Stnd. Error Lower 95,0% CL Upper 95,0% CL Lower 95,0% CL Upper 95,0% CL
Value for Forecast for Forecast for Forecast for Mean for Mean
---------------------------------------------------------------------------------
****** 0,0184443 9,04079 9,11568 ******* 9,10091
---------------------------------------------------------------------------------

¿Entre qué lı́mites oscilarán las ganacias de la empresa (en %) en ese trimestre con una
garantı́a del 95%.
g) ¿El hecho de que los datos hayan sido tomados de forma secuencial en el tiempo puede
haber introducido algún problema relativo a las hipótesis habituales del modelo de regresión?
¿Qué estadı́stico necesitarı́amos para chequear esa hipótesis?
Problema 6: En el articulo “The Value and Limitations of High-Speed Turbo-Exhausters
for Removal of Tar-Fog from Carburetted Water-Gas” en Soc. Chemical Industry J. (1946) se
presentaban datos relativos a 32 experimentos donde se miden Y =“Contenido de alquitrán
(gramos/100 pies3 )” de una corriente de gas en función de X1 = “Velocidad del rotor (rpm)”
y X2 = “Temperatura de entrada del gas (o F)”.
Y=Alq X1=Vel X2=Tem
--------------------------
1 60.0 2400 54.5
2 61.0 2450 56.0
3 65.0 2450 58.5
4 30.5 2500 43.0
...
31 24.5 3600 58.0
32 26.5 3900 61.0
--------------------------
a) Se ajusta el modelo Y = β0 + β1 X1 + ε y se observa que el residual más extremo
corresponde a la observación 14 con un residual studentizado igual a −4.02. ¿Podemos
considerar esa observación como atı́pica a nivel α = 0.05? Sabemos que h14 14 = 0.36, ¿qué
más se puede decir de la observación 14?
En todo lo que sigue supondremos que la observación 14 ha sido eliminada del análisis.
b) El ajuste del modelo anterior (sin la observación 14) proporciona estos resultados:
Standard
Parameter Estimate Error Source Sum of Squares
-------------------------------------- ---------------------------------
Intercept 112,518 16,4859 Model 2580,57
Slope -0,0239153 0,0054673 Residual 3911,17
-------------------------------------- ---------------------------------
Total (Corr.) 6491,74

Prediction Limits Confidence Limits


X_1 Predicted Y Lower Upper Lower Upper
--------------------------------------------------------------------------
3000,0 ******* 16,6396 ******* ******* 45,0388
--------------------------------------------------------------------------
(Intervalos de confianza al 95 por ciento)
Usando este modelo ajustado, obtén un intervalo de confianza al 95% para el contenido de
alquitrán medio que se obtiene cuando la velocidad del rotor es de 3000 rpm.
c) Usando el modelo ajustado en b), ¿podemos suponer que incrementar la velocidad en
100 rpm disminuye el contenido de alquitrán en más de 2 gramos/100 pies3 ?
d) El R2 del modelo Y = β0 + β1 X1 + β2 X2 + ε es R12 = 0.8487 y el del modelo Y =
β0 +β1 X1 +β2 X2 +β3 X12 +β4 X22 +β5 X1 ·X2 +ε es R22 = 0.9319. ¿Merece la pena introducir las
variables con los términos cuadráticos X12 y X22 y el producto cruzado X1 · X2 si ya tenemos
en el modelo las variables X1 y X2 ?
e) Se ha llevado a cabo un método “forward” de selección de variables partiendo del
modelo Y = β0 + β1 X1 + β2 X2 + β3 X12 + β4 X22 + β5 X1 · X2 + ε y vemos que el modelo
resultante contiene las siguientes variables:
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 328,62 47,8407 6,86905 0,0000
X1 -0,192343 0,0321396 -5,9846 0,0000
X1^2 0,000021 0,0000051 4,08578 0,0004
X1*X2 0,000546 0,0000450 12,1294 0,0000
-----------------------------------------------------------------------------
Obtén una representación gráfica aproximada de la estimación del contenido de alquitrán
dependiendo de la “velocidad” cuando la temperatura del gas es 60 o F. ¿Con qué velocidad
estimamos que se obtendrı́a un menor contenido de alquitrán para una temperatura del gas
de 60 o F?
Problema 7: Con el objetivo de elaborar una ecuación que permitiese predecir el coste
de construcción de futuras centrales nucleares en EE.UU., se tomaron datos de algunas de
ellas. Se midieron las variables que se relacionan a continuación: Y (-var. respuesta-, coste
de construcción en millones de dólares de 1976), X1 (fecha de publicación del permiso de
construcción), X2 (tiempo entre la petición y el permiso de operación), X3 (tiempo entre el
permiso de operación y el permiso de construcción) y X4 (capacidad de la red de la planta
nuclear, en MW).
a) A partir de las siguientes tablas, realizar el test de significación de la regresión y decir
qué variables son significativas.
Sum of Mean
Source DF Squares Square F Value

Model 4 28295.36141 7073.84035 81.60


Error 62 5374.80658 86.69043
Correct Total 66 33670.16799
Std Error of
Parameter Estimate Estimate

INTERCEPT -2.82821480 4.67487191


X1 0.88326662 0.06900162
X2 0.43175527 0.10796932
X3 -11.38045445 11.89367001
X4 -1.01173076 2.84899812

b) El programa nos da las descomposiciones en sumas de cuadrados secuencial (Type I)


y parcial (Type III):

Source DF Type I SS Mean Square

X1 1 25824.24605 25824.24605
X2 1 2386.32278 2386.32278
X3 1 73.86014 73.86014
X4 1 10.93243 10.93243

Source DF Type III SS Mean Square

X1 1 14204.83454 14204.83454
X2 1 1386.26332 1386.26332
X3 1 79.37040 79.37040
X4 1 10.93243 10.93243

¿Podrı́as saber cuál era cada descomposición (secuencial ó parcial) a la vista de los valores
de la tablas anteriores?
c) Usando la información anterior, realizar un test para ver si las variables X3 y X4
aportan algo en presencia de X1 y X2 .
d) ¿Se puede afirmar qué la central nuclear se abarata en al menos 10 millones de dólares
si la construimos con una potencia -capacidad- superior en 10 MW?
e) ¿Es el signo del coeficiente de X4 lógico?. ¿Qué problema puede presentar esta re-
gresión? ¿Donde más se puede ver este problema?

Problema 8: Se está realizando un estudio sobre la calidad de los vinos de la variedad Pinot
Noir. Se tienen 38 muestras de vinos que son evaluadas por un panel de expertos atendiendo
a los siguientes aspectos: Clarity, Aroma, Body, Flavor y Oakiness. Las valoraciones
se realizan promediando las puntuaciones otorgadas por los expertos a cada muestra de
vino. Finalmente, los expertos realizan también una valoración global de la calidad de cada
muestra (Quality). El propósito del estudio es ajustar un modelo de regresión múltiple
para estudiar los factores sensoriales que influyen en la variable Quality. Además, los vinos
provienen de tres regiones distintas, información que está recogida en las variables Region1
(1 si el vino pertenece a la región 1 y 0 en el resto de los casos) y Region2 (1 si el vino
pertenece a la región 2 y 0 en el resto de los casos). Los siguientes resultados corresponden
al Modelo Completo:
Parameter Estimate Std.Error t-Statistic
Constant 8,78695 2,19076 4,01092
Clarity 0,0170503 1,45627 0,0117083
Aroma 0,0890119 0,252497 0,352527
Body 0,0796715 0,267716 0,297597
Flavor 1,11723 0,240256 4,65016
Oakiness -0,34644 0,233011 -1,4868
Region1 -0,972587 0,51017 -1,9064
Region2 -2,48544 0,588681 -4,22205

Source Sum of Squares Df Mean Square F-Ratio


Model 129,648 7 18,5212 22,10
Residual 25,1401 30 0,838005
Total (Corr.) 154,788 37

a) ¿Qué variables resultan significativas en este análisis a nivel 0.05? ¿Se puede concluir
directamente que al menos 4 de las 7 variables regresoras podrı́an eliminarse directamente
sin una pérdida de información importante?
b) Selecciona el modelo o modelos más adecuados utilizando la información contenida
en la tabla siguiente [Nota: la nomenclatura de las variables sigue el orden de la tabla del
Modelo Completo].
2
MSE R2 R Cp Variables
2,14852 50,0308 48,6427 58,2985 B
1,61593 62,4174 61,3735 35,4190 D
1,49874 66,1112 64,1747 30,5963 DE
0,99107 77,5904 76,3099 9,39286 DG
0,91344 79,9359 78,1655 7,06061 DEG
0,80038 82,4192 80,8679 2,47367 DFG
0,76793 83,6281 81,6436 2,24066 DEFG
0,82457 82,4206 80,2898 4,47096 BDFG
0,78891 83,6906 81,1423 4,12516 CDEFG
0,79160 83,6349 81,0778 4,22813 ADEFG

c) Aplicando el método de selección de variables “Stepwise”, se obtiene el siguiente Mod-


elo Reducido:
Parameter Estimate Std. Error t-Statistic p-value
CONSTANT 8,31768 1,01002 8,23518 0,0000
Flavor 1,11555 0,173847 6,41683 0,0000
Region1 -1,22337 0,400332 -3,05588 0,0043
Region2 -2,75685 0,449464 -6,13364 0,0000

Utiliza el principio de la “suma extra de cuadrados” para realizar un test que permita ver si
los coeficientes de las variables que hemos dejado fuera pueden suponerse estadı́sticamente
nulos sabiendo que el R2 de este nuevo ajuste es de 0.8242.
d) Representa gráficamente el ajuste obtenido con el Modelo Reducido. ¿Serı́a cor-
recto ajustar un modelo utilizando directamente la variable Region con valores 1, 2 y 3?
e) Dando por bueno el Modelo Reducido, obtén un intervalo de confianza de garantı́a
95% para la diferencia en Quality media para dos vinos con la misma puntuación en Flavor
dependiendo de que sea de la zona 2 ó 3.
Problema 9: Se construyen una serie de ı́ndices de calidad de vida para cada una de las
50 provincias españolas considerando diferentes aspectos (X1 =“Renta”; X2 =“Sanidad”,...,
X8 =“Habitabilidad”) y posteriormente se elabora un ı́ndice global de Y =“Bienestar”. Todas
estás variables son indicadores entre 1 (nivel más bajo) y el 10 (nivel más alto). Para intentar
determinar la relación entre este ı́ndice global y los ı́ndices parciales se considera un modelo
de regresión múltiple cuyo ajuste arroja los siguientes resultados:

REGRESIÓN 1:
Standard T
Parameter Estimate Error Statistic P-Value Var.Inflact.Fact.
--------------------------------------------------------------------------------
CONSTANT -0.81529 0.479117 -1.70165 0.0964
A=RENTA 0.0311394 0.081888 0.380268 0.7057 VIF: 3.94
B=SANIDAD 0.0469637 0.046063 1.01955 0.3139 VIF: 1.28
C=SERVICIOS 0.150124 0.0712628 2.10662 0.0413 VIF: 2.64
D=INSTRUCCION 0.549613 0.149348 3.6801 0.0007 VIF: 12.77
E=OCIO_CULTURA 0.384846 0.12021 3.20146 0.0026 VIF: 8.23
F=EMPLEO 0.227622 0.0816838 2.78662 0.0080 VIF: 4.11
G=VIVIENDA 0.0833657 0.0665643 1.25241 0.2175 VIF: 2.49
H=HABITABILIDAD -0.348077 0.312007 -1.1156 0.2711 VIF: 42.72
--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
--------------------------------------------------------------------------------
Model 233.011
Residual
--------------------------------------------------------------------------------
Total (Corr.) 254.5

a) Completa la tabla de ANOVA. ¿Es significativa la regresión?


b) En esta regresión, el residual más grande se encontró para los datos correspondientes
a la provincia de Cuenca con un residual studentizado ti = −3.20. ¿Se puede considerar que
dicha provincia tiene un comportamiento anómalo?
Se lleva a cabo una selección de variables tipo “backward” llegando al modelo:

REGRESIÓN 2:
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -0,225654 0,28976 -0,778761 0,4401
INSTRUCCION 0,494074 0,0561267 8,80284 0,0000
OCIO_CULTURA 0,351146 0,0597465 5,87727 0,0000
EMPLEO 0,154811 0,0569322 2,71922 0,0092
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 229,512 3 76,5039 140,83 0,0000
Residual 24,9884 46 0,543227
-----------------------------------------------------------------------------
Total (Corr.) 254,5 49

[Nota: Los plot de residuales de los dos modelos presentados son razonables.]
c) Hacer un test global para ver si las variables “Renta”, “Sanidad”, “Servicios”, “Vivienda”
y “Habitabilidad” aportan algo estadı́sticamente significativo a la regresión en presencia del
resto de variables explicativas.
d) Usando las tablas asociadas a la Regresión 2, ¿se puede afirmar que aumentar el
nivel de “Empleo” de una provincia en 1 punto (y dejando fijas el resto de las variables)
aumenta en promedio el ı́ndice de “Bienestar” en más de 0.15 puntos.
El resultado de un método “forward” de selección de variables fue:

REGRESIÓN 3:

Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -0,39913 0,335159 -1,19087 0,2396
HABITABILIDAD 0,982609 0,0541991 18,1296 0,0000
-----------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value


-----------------------------------------------------------------------------
Model 222,07 1 222,07 328,68 0,0000
Residual 32,4304 48 0,675634
-----------------------------------------------------------------------------
Total (Corr.) 254,5 49

e) ¿Qué opinión te merece el signo negativo de la variable “Habitabilidad” en el mod-


elo completo? ¿A qué crees que puede ser debido? ¿Hay alguna otra manifestación del
mismo fenomeno en la información que se ofrece? ¿Este fenómeno podrı́a haberse detectado
mediante el plot de residuales?
Se dispone de los siguientes gráficos [Nota: Las letras A, B, C,..., y H se refieren a las
variables en el estudio tal como aparecen en la tabla de Regresión 1].:
Mallows' Cp Plot for BIENESTAR Adjusted R-Squared Plot for BIENESTAR
20 94

adjusted R-Squared
H GH
15
91
DE CDEF
DEG DEF DEFG
Cp

10
DE DEG
DEF DEFG 88 GH
5 CDEF H

0 85
0 1 2 3 4 5 6 0 1 2 3 4 5 6
Number of Coefficients Number of Coefficients
f) La regresiones obtenidas a partir de los métodos secuenciales para la selección de
modelos, “backward” y “forward”, son diferentes, ¿son estos resultados contradictorios?
Con las gráficas de que se dispone, ¿qué modelo o modelos elegirı́as como modelos finales
razonables (salvando la cuestión del análisis residual)?, ¿por qué?
Problema 10: Para producir vigas metálicas disponemos de 3 tipos distintos de aleaciones
1, 2, 3 a los que se puede añadir una cantidad X1 de un nuevo mineral que creemos sirve
para aumentar la resistencia.

Y X Z1 Z2 W1 W2
65 35 1 0 35 0
45 15 1 0 15 0
55 35 1 0 35 0 Y= resistencia
35 15 1 0 15 0
45 25 1 0 25 0 X1=cantidad de nuevo mineral a~
nadido
35 15 1 0 15 0
65 45 1 0 45 0 Z1= 1 si aleación 1 y 0 resto aleaciones
85 45 0 1 0 45
95 55 0 1 0 55 Z2= 1 si aleación 2 y 0 resto aleaciones
95 55 0 1 0 55
95 45 0 1 0 45 W1=X1*Z1
85 35 0 1 0 35
55 15 0 1 0 15 W2=X1*Z2
75 25 0 1 0 25
65 35 0 0 0 0
75 25 0 0 0 0
75 25 0 0 0 0
75 35 0 0 0 0
85 45 0 0 0 0
55 15 0 0 0 0
75 45 0 0 0 0

Tenemos los siguientes modelos ajustados:

-------------------------------------------------------------------------
* MODELO 1:
--------------------------------------------------------------------------
Sum of Mean
Source DF Squares Square F Value Prob>F

Model 1 4618.26241 4618.26241 35.838 0.0001


Error 19 2448.40426 128.86338
C Total 20 7066.66667

Root MSE 11.35180 R-square 0.6535


Dep Mean 68.33333 Adj R-sq 0.6353
C.V. 16.61239

Parameter Standard T for H0:


Variable DF Estimate Error Parameter=0 Prob > |T|

INTERCEP 1 31.289894 6.66523129 4.694 0.0002


X1 1 1.135638 0.18969920 5.987 0.0001

-------------------------------------------------------------------------
* MODELO 2:
-------------------------------------------------------------------------
Sum of Mean
Source DF Squares Square F Value Prob>F

Model 3 6422.04082 2140.68027 56.454 0.0001


Error 17 644.62585 37.91917
C Total 20 7066.66667

Root MSE 6.15785 R-square 0.9088


Dep Mean 68.33333 Adj R-sq 0.8927
C.V. 9.01149

Parameter Standard T for H0:


Variable DF Estimate Error Parameter=0 Prob > |T|

INTERCEP 1 44.897959 4.29836259 10.445 0.0001


X1 1 0.847619 0.11242652 7.539 0.0001
Z1 1 -18.013605 3.35362096 -5.371 0.0001
Z2 1 5.374150 3.38805722 1.586 0.1311
-------------------------------------------------------------------------
* MODELO 3:
-------------------------------------------------------------------------
Sum of Mean
Source DF Squares Square F Value Prob>F

Model 5 6486.51003 1297.30201 33.542 0.0001


Error 15 580.15664 38.67711
C Total 20 7066.66667

Root MSE 6.21909 R-square 0.9179


Dep Mean 68.33333 Adj R-sq 0.8905
C.V. 9.10111

Parameter Standard T for H0:


Variable DF Estimate Error Parameter=0 Prob > |T|

INTERCEP 1 52.980769 7.70177234 6.879 0.0001


X1 1 0.596154 0.22817831 2.613 0.0196
Z1 1 -29.271092 9.76438185 -2.998 0.0090
Z2 1 -5.012019 10.41003051 -0.481 0.6371
W1 1 0.371588 0.30940757 1.201 0.2484
W2 1 0.310096 0.28331502 1.095 0.2910

(Nota: Los plots de residuales son correctos para el segundo y tercer modelo).

a) Comentar lo que se pretende modelizar con cada modelo y dar el modelo más adecuado.
b) Realiza los tests necesarios para responder a las siguientes preguntas:

(i) ¿El aumento de la resistencia para una misma cantidad de nuevo mineral
añadido se puede suponer el mismo para las tres aleaciones?
(ii) Si consideramos las aleaciones sin añadir el nuevo mineral ¿ Existen diferen-
cias significativas entre la resistencia de la aleación 2 y la 3?

c) A partir del modelo que se considere mas correcto obtener un intervalo de confianza
al 95% para la diferencia entre las resistencias esperadas entre las aleaciones 1 y 3 cuando
hemos añadido 25 unidades del nuevo material (X1 = 25).

También podría gustarte