Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En lo que sigue trabajaremos siempre sin la observación 38 y supondremos que los plots de
residuos de los modelos ajustados son correctos.
b) Repetimos la regresión de Y frente a esas 6 variables explicativas. ¿Es la regresión
globalmente significativa? ¿Qué variables son significativas a nivel α = 0.05?
c) ¿Son razonables los signos de los coeficientes? Comenta brevemente dichos signos. ¿Es
razonable que el “número de dormitorios” no sea una variable significativa para explicar el
precio? ¿A qué puede ser debido?
d) La siguiente tabla nos proporciona las sumas de cuadrados secuenciales (en el orden
que aparecen en la tabla):
Source Sum of Squares Df Mean Square F-Ratio P-Value
-------------------------------------------------------------------------
superficie 2.67123E11 1 2.67123E11 210.68 0.0000
edad 5.2571E9 1 5.2571E9 4.15 0.0446
vistas 3.03854E10 1 3.03854E10 23.96 0.0000
garajes 1.25881E10 1 1.25881E10 9.93 0.0022
dormitorios 4.08405E9 1 4.08405E9 3.22 0.0760
ba~
nos 6.05543E9 1 6.05543E9 4.78 0.0314
-------------------------------------------------------------------------
¿Pueden suponerse simultanemente nulos (en presencia del resto de las variables) los coefi-
cientes de las variables X5 y X6 ?
Finalmente, tras aplicar un método de selección de variables, ajustamos el siguiente Modelo
Final:
Standard T
Parameter Estimate Error Statistic P-Value
-------------------------------------------------------------------------
CONSTANT 57056.4 22747.8 2.50822 0.0139
superficie 1069.83 132.297 8.08657 0.0000
edad -2308.43 819.947 -2.81534 0.0059
vistas 35336.2 9976.61 3.5419 0.0006
garajes 43470.3 13796.0 3.15094 0.0022
ba~
nos 21476.8 8218.45 2.61324 0.0105
-------------------------------------------------------------------------
e) Usando este último modelo, ¿Se puede afirmar que por cada año de antigüedad se
deprecia la vivienda en promedio en más de 2000 euros?
f) Obtén un intervalo de confianza de garantı́a 95% para la diferencia de precio medio
entre viviendas con las mismas caracterı́sticas dependiendo de que éstas tengan o no buenas
vistas?
g) Disponemos de un piso de 150m2 , 2 baños, 2 plazas de garaje, 8 años de antigüedad y
con buenas vistas. Usando el ajuste del modelo final y la opción “Report” de STATGRAPHICS
obtenemos la siguiente tabla:
Da una cota inferior de garantı́a 90% para el precio al que deberı́amos vender dicha vivienda si
consideramos que el modelo ajustado es adecuado para describir las condiciones de mercado.
h) Una vivienda de 210m2 , 3 baños, 2 plazas de garaje, 2 años de antigüedad y con buenas
vistas ha sido vendida por 300000 euros. Ante una sospecha de fraude (pago en dinero negro
para evadir impuestos), se realiza un nuevo ajuste del Modelo Final añadiendo a la matriz
los datos correspondientes a esta nueva vivienda (caso n.100). Tras el ajuste, obtenemos
estos resultados para la vivienda investigada:
Unusual Residuals
--------------------------------------------------------------
Row Y Predicted Y Residual(ei) Residual(ti)
--------------------------------------------------------------
100 300000.0 438010.0 -138010.0 -4.22
--------------------------------------------------------------
¿Existe evidencia estadı́stica para afirmar que esta vivienda ha tenido un precio anormal-
mente bajo?
Problema 2: Tenemos datos relativos a 447 empleados en puestos administrativos o direc-
tivos dentro de una empresa americana. Consideramos, las variables Y = “salario actual
(en dolares)”, X1 = “edad”, X2 = “nivel educativo (años totales en el sistema educativo)”,
X3 = “experiencia previa en otras empresas (en meses)”, X4 = “salario inicial (en dolares)”,
X5 = “tiempo en la empresa (en meses)”, X6 = “categorı́a laboral (1 = “Directivos” y 0 =
“Administrativos”)” y X7 = “sexo (1 = “Hombre” y 0 = “Mujer”)”.
a) Inicialmente, se hace una regresión simple de Y frente a sólo la variable X1 . El
resultado de esta regresión aparece en la siguiente tabla:
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
Intercept 45291.8 3646.48 12.4207 0.0000
Slope -218.579 72.827 -3.00134 0.0028
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -6548.13 3843.84 -1.70354 0.0892
edad -59.9681 49.5614 -1.20998 0.2269
educ 503.226 169.923 2.9615 0.0032
exp_prev_mes -18.5589 6.08379 -3.05054 0.0024
sal_ini 1.35229 0.0749022 18.0541 0.0000
tiem_empr_mes 156.572 32.7985 4.77377 0.0000
cat_lab 11131.9 1393.91 7.9861 0.0000
sexo 1566.21 807.167 1.94037 0.0530
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 1.16343E11 7 1.66204E10 345.63 0.0000
Residual 2.11105E10 439 4.80878E7
-----------------------------------------------------------------------------
Total (Corr.) 1.37453E11 446
Studentized residual
Case 165
4
4
2
0 0
-2
-4
-4
-8 -6
0 3 6 9 12 15 9.6 10 10.4 10.8 11.2 11.6 12
(X 10000)
predicted salario predicted log(salario)
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 9.26783 0.0791005 117.165 0.0000
educ 0.0265554 0.00403353 6.58365 0.0000
exp_prev_mes -0.000700234 0.000090011 -7.77942 0.0000
sal_ini 0.0000236332 0.00000178572 13.2346 0.0000
tiem_empr_mes 0.00333482 0.000776098 4.29691 0.0000
cat_lab 0.272395 0.033228 8.19776 0.0000
sexo 0.113443 0.0185159 6.12679 0.0000
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 62.4781 6 10.413 379.96 0.0000
Residual 12.0584 440 0.0274054
-----------------------------------------------------------------------------
Total (Corr.) 74.5365 446
e) Da una estimación del factor por el que se multiplica el salario dependiendo de que el
empleado sea hombre respecto a que sea mujer, suponiendo los mismos valores en las otras
variables. ¿Tenemos evidencia estadı́stica para afirmar que los sueldos son significativamente
mayores en hombres que en mujeres para los mismos valores en las otras variables?
f) Tras hacer la regresión se comprobó que el empleado 165 tenı́a un residual studentizado
t165 = 5.57. ¿Existe evidencia estadı́stica para confirmar que el salario de este empleado es
anormalmente alto? ¿Cambiarı́a la respuesta si se sabe previamente que este empleado es el
informático encargado de tramitar las nóminas?
Problema 3: En un estudio con 20 familias pertenecientes a un área metropolitana en 1993
se midieron las variables: “Gasto en comida en 1000$” (Y ), “Ingresos anuales en 1000$”
(X1 ) y “Número de miembros en la familia” (X2 ). Los datos obtenidos fueron:
Y X1 X2
5.2 28 3
5.1 26 3
.. .. ..
. . .
20.0 112 6
2.9 26 2
La tabla ANOVA y de coeficientes estimados fueron:
Model Sum of Squares df Mean Square F
Regression 386.313 2 193.156 121.470
Residual 27.033 17 1.590
Total 413.346 19
Coeffic. Std. Error
Intercept -1.118 0.655
Ingresos anuales (1000$) 0.148 0.016
Tamaño familia 0.793 0.244
c) ¿Podemos afirmar que la proporción de cal (al menos en los niveles estudiados en el
experimento) no afecta significativamente a la resistencia media del ladrillo?.
d)¿Puede suponerse que aumentar el tiempo de cocción en 5 minutos (dejando fijas las
demas variables) aumenta la resistencia media del ladrillo en más de 5 × 9 = 45 unidades?.
e) Al examinar el plot de residuales advertimos que la observación con mayor residual es
la número 24 con un residual estudentizado igual a 4.23. ¿Es dicha observación un outlier?.
f) Si [39.13, 52.62] es un intervalo de confianza al 95% para la resistencia media de los
ladrillos fabricados usando un 20% de cal en la masa trás 10 minutos de cocción a 600 o C,
se pide construir un intervalo de confianza al 95% para la predicción de la resistencia del
próximo ladrillo obtenido en esas condiciones.
g) En vista del resultado de los contrastes en la tabla de coeficientes estimados, se decide
hacer un test para ver si las variables T EM P y CAL no aportan nada significativo a la
regresión en presencia de la variable T IEM P O. Realizar dicho test para estas variables
de forma simultanea sabiendo que la variabilidad explicada por la regresión (= SSR) del
modelo que explica RESIST sólo en función del T IEM P O es igual a 101897.627.
Problema 5: El departamento de una empresa analiza unas variables medidas con fre-
cuencia trimestral desde el segundo trimestre de 1997 hasta el fin de 2006 (39 trimestres).
Las variables analizadas son Y = “Ganancias de la empresa en el trimestre (% respecto a
la inversión total)”, X1 = “Nivel de Ingresos”, X2 = “Ganancias en el trimestre anterior”,
X3 = “Potencial de mercado ” y X4 = “Índice de precios”.
El resultado de la regresión simple de Y frente a X2 fue el siguiente:
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------
CONSTANT 0,041685 0,101382 0,41117 0,6833
X_2 0,998265 0,010917 91,4351 0,0000
-----------------------------------------------------------------------
con un R2 = 0.9978.
a) Usando la tabla anterior, ¿podemos afirmar que la regresión Y frente a X2 es signi-
ficativa?
Se realiza también una regresión con todas las variables obteniéndose:
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -10,4726 6,02175 -1,73913 0,0911
X_1 0,767461 0,133927 5,73046 0,0000
X_2 0,123865 0,142384 0,869936 0,3904
X_3 1,33056 0,509293 2,61256 0,0133
X_4 -0,75424 0,160727 -4,69269 0,0000
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 3,77795 4 0,944489 4354,25 0,0000
Residual 0,007375 34 0,000216912
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -13,3101 5,04423 -2,63869 0,0123
X_1 0,845559 0,0990369 8,53781 0,0000
X_3 1,62735 0,376822 4,3186 0,0001
X_4 -0,834883 0,130844 -6,38076 0,0000
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 3,77779 3 1,25926 5846,04 0,0000
Residual 0,00753915 35 0,000215404
-----------------------------------------------------------------------------
¿Entre qué lı́mites oscilarán las ganacias de la empresa (en %) en ese trimestre con una
garantı́a del 95%.
g) ¿El hecho de que los datos hayan sido tomados de forma secuencial en el tiempo puede
haber introducido algún problema relativo a las hipótesis habituales del modelo de regresión?
¿Qué estadı́stico necesitarı́amos para chequear esa hipótesis?
Problema 6: En el articulo “The Value and Limitations of High-Speed Turbo-Exhausters
for Removal of Tar-Fog from Carburetted Water-Gas” en Soc. Chemical Industry J. (1946) se
presentaban datos relativos a 32 experimentos donde se miden Y =“Contenido de alquitrán
(gramos/100 pies3 )” de una corriente de gas en función de X1 = “Velocidad del rotor (rpm)”
y X2 = “Temperatura de entrada del gas (o F)”.
Y=Alq X1=Vel X2=Tem
--------------------------
1 60.0 2400 54.5
2 61.0 2450 56.0
3 65.0 2450 58.5
4 30.5 2500 43.0
...
31 24.5 3600 58.0
32 26.5 3900 61.0
--------------------------
a) Se ajusta el modelo Y = β0 + β1 X1 + ε y se observa que el residual más extremo
corresponde a la observación 14 con un residual studentizado igual a −4.02. ¿Podemos
considerar esa observación como atı́pica a nivel α = 0.05? Sabemos que h14 14 = 0.36, ¿qué
más se puede decir de la observación 14?
En todo lo que sigue supondremos que la observación 14 ha sido eliminada del análisis.
b) El ajuste del modelo anterior (sin la observación 14) proporciona estos resultados:
Standard
Parameter Estimate Error Source Sum of Squares
-------------------------------------- ---------------------------------
Intercept 112,518 16,4859 Model 2580,57
Slope -0,0239153 0,0054673 Residual 3911,17
-------------------------------------- ---------------------------------
Total (Corr.) 6491,74
X1 1 25824.24605 25824.24605
X2 1 2386.32278 2386.32278
X3 1 73.86014 73.86014
X4 1 10.93243 10.93243
X1 1 14204.83454 14204.83454
X2 1 1386.26332 1386.26332
X3 1 79.37040 79.37040
X4 1 10.93243 10.93243
¿Podrı́as saber cuál era cada descomposición (secuencial ó parcial) a la vista de los valores
de la tablas anteriores?
c) Usando la información anterior, realizar un test para ver si las variables X3 y X4
aportan algo en presencia de X1 y X2 .
d) ¿Se puede afirmar qué la central nuclear se abarata en al menos 10 millones de dólares
si la construimos con una potencia -capacidad- superior en 10 MW?
e) ¿Es el signo del coeficiente de X4 lógico?. ¿Qué problema puede presentar esta re-
gresión? ¿Donde más se puede ver este problema?
Problema 8: Se está realizando un estudio sobre la calidad de los vinos de la variedad Pinot
Noir. Se tienen 38 muestras de vinos que son evaluadas por un panel de expertos atendiendo
a los siguientes aspectos: Clarity, Aroma, Body, Flavor y Oakiness. Las valoraciones
se realizan promediando las puntuaciones otorgadas por los expertos a cada muestra de
vino. Finalmente, los expertos realizan también una valoración global de la calidad de cada
muestra (Quality). El propósito del estudio es ajustar un modelo de regresión múltiple
para estudiar los factores sensoriales que influyen en la variable Quality. Además, los vinos
provienen de tres regiones distintas, información que está recogida en las variables Region1
(1 si el vino pertenece a la región 1 y 0 en el resto de los casos) y Region2 (1 si el vino
pertenece a la región 2 y 0 en el resto de los casos). Los siguientes resultados corresponden
al Modelo Completo:
Parameter Estimate Std.Error t-Statistic
Constant 8,78695 2,19076 4,01092
Clarity 0,0170503 1,45627 0,0117083
Aroma 0,0890119 0,252497 0,352527
Body 0,0796715 0,267716 0,297597
Flavor 1,11723 0,240256 4,65016
Oakiness -0,34644 0,233011 -1,4868
Region1 -0,972587 0,51017 -1,9064
Region2 -2,48544 0,588681 -4,22205
a) ¿Qué variables resultan significativas en este análisis a nivel 0.05? ¿Se puede concluir
directamente que al menos 4 de las 7 variables regresoras podrı́an eliminarse directamente
sin una pérdida de información importante?
b) Selecciona el modelo o modelos más adecuados utilizando la información contenida
en la tabla siguiente [Nota: la nomenclatura de las variables sigue el orden de la tabla del
Modelo Completo].
2
MSE R2 R Cp Variables
2,14852 50,0308 48,6427 58,2985 B
1,61593 62,4174 61,3735 35,4190 D
1,49874 66,1112 64,1747 30,5963 DE
0,99107 77,5904 76,3099 9,39286 DG
0,91344 79,9359 78,1655 7,06061 DEG
0,80038 82,4192 80,8679 2,47367 DFG
0,76793 83,6281 81,6436 2,24066 DEFG
0,82457 82,4206 80,2898 4,47096 BDFG
0,78891 83,6906 81,1423 4,12516 CDEFG
0,79160 83,6349 81,0778 4,22813 ADEFG
Utiliza el principio de la “suma extra de cuadrados” para realizar un test que permita ver si
los coeficientes de las variables que hemos dejado fuera pueden suponerse estadı́sticamente
nulos sabiendo que el R2 de este nuevo ajuste es de 0.8242.
d) Representa gráficamente el ajuste obtenido con el Modelo Reducido. ¿Serı́a cor-
recto ajustar un modelo utilizando directamente la variable Region con valores 1, 2 y 3?
e) Dando por bueno el Modelo Reducido, obtén un intervalo de confianza de garantı́a
95% para la diferencia en Quality media para dos vinos con la misma puntuación en Flavor
dependiendo de que sea de la zona 2 ó 3.
Problema 9: Se construyen una serie de ı́ndices de calidad de vida para cada una de las
50 provincias españolas considerando diferentes aspectos (X1 =“Renta”; X2 =“Sanidad”,...,
X8 =“Habitabilidad”) y posteriormente se elabora un ı́ndice global de Y =“Bienestar”. Todas
estás variables son indicadores entre 1 (nivel más bajo) y el 10 (nivel más alto). Para intentar
determinar la relación entre este ı́ndice global y los ı́ndices parciales se considera un modelo
de regresión múltiple cuyo ajuste arroja los siguientes resultados:
REGRESIÓN 1:
Standard T
Parameter Estimate Error Statistic P-Value Var.Inflact.Fact.
--------------------------------------------------------------------------------
CONSTANT -0.81529 0.479117 -1.70165 0.0964
A=RENTA 0.0311394 0.081888 0.380268 0.7057 VIF: 3.94
B=SANIDAD 0.0469637 0.046063 1.01955 0.3139 VIF: 1.28
C=SERVICIOS 0.150124 0.0712628 2.10662 0.0413 VIF: 2.64
D=INSTRUCCION 0.549613 0.149348 3.6801 0.0007 VIF: 12.77
E=OCIO_CULTURA 0.384846 0.12021 3.20146 0.0026 VIF: 8.23
F=EMPLEO 0.227622 0.0816838 2.78662 0.0080 VIF: 4.11
G=VIVIENDA 0.0833657 0.0665643 1.25241 0.2175 VIF: 2.49
H=HABITABILIDAD -0.348077 0.312007 -1.1156 0.2711 VIF: 42.72
--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
--------------------------------------------------------------------------------
Model 233.011
Residual
--------------------------------------------------------------------------------
Total (Corr.) 254.5
REGRESIÓN 2:
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -0,225654 0,28976 -0,778761 0,4401
INSTRUCCION 0,494074 0,0561267 8,80284 0,0000
OCIO_CULTURA 0,351146 0,0597465 5,87727 0,0000
EMPLEO 0,154811 0,0569322 2,71922 0,0092
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 229,512 3 76,5039 140,83 0,0000
Residual 24,9884 46 0,543227
-----------------------------------------------------------------------------
Total (Corr.) 254,5 49
[Nota: Los plot de residuales de los dos modelos presentados son razonables.]
c) Hacer un test global para ver si las variables “Renta”, “Sanidad”, “Servicios”, “Vivienda”
y “Habitabilidad” aportan algo estadı́sticamente significativo a la regresión en presencia del
resto de variables explicativas.
d) Usando las tablas asociadas a la Regresión 2, ¿se puede afirmar que aumentar el
nivel de “Empleo” de una provincia en 1 punto (y dejando fijas el resto de las variables)
aumenta en promedio el ı́ndice de “Bienestar” en más de 0.15 puntos.
El resultado de un método “forward” de selección de variables fue:
REGRESIÓN 3:
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -0,39913 0,335159 -1,19087 0,2396
HABITABILIDAD 0,982609 0,0541991 18,1296 0,0000
-----------------------------------------------------------------------------
adjusted R-Squared
H GH
15
91
DE CDEF
DEG DEF DEFG
Cp
10
DE DEG
DEF DEFG 88 GH
5 CDEF H
0 85
0 1 2 3 4 5 6 0 1 2 3 4 5 6
Number of Coefficients Number of Coefficients
f) La regresiones obtenidas a partir de los métodos secuenciales para la selección de
modelos, “backward” y “forward”, son diferentes, ¿son estos resultados contradictorios?
Con las gráficas de que se dispone, ¿qué modelo o modelos elegirı́as como modelos finales
razonables (salvando la cuestión del análisis residual)?, ¿por qué?
Problema 10: Para producir vigas metálicas disponemos de 3 tipos distintos de aleaciones
1, 2, 3 a los que se puede añadir una cantidad X1 de un nuevo mineral que creemos sirve
para aumentar la resistencia.
Y X Z1 Z2 W1 W2
65 35 1 0 35 0
45 15 1 0 15 0
55 35 1 0 35 0 Y= resistencia
35 15 1 0 15 0
45 25 1 0 25 0 X1=cantidad de nuevo mineral a~
nadido
35 15 1 0 15 0
65 45 1 0 45 0 Z1= 1 si aleación 1 y 0 resto aleaciones
85 45 0 1 0 45
95 55 0 1 0 55 Z2= 1 si aleación 2 y 0 resto aleaciones
95 55 0 1 0 55
95 45 0 1 0 45 W1=X1*Z1
85 35 0 1 0 35
55 15 0 1 0 15 W2=X1*Z2
75 25 0 1 0 25
65 35 0 0 0 0
75 25 0 0 0 0
75 25 0 0 0 0
75 35 0 0 0 0
85 45 0 0 0 0
55 15 0 0 0 0
75 45 0 0 0 0
-------------------------------------------------------------------------
* MODELO 1:
--------------------------------------------------------------------------
Sum of Mean
Source DF Squares Square F Value Prob>F
-------------------------------------------------------------------------
* MODELO 2:
-------------------------------------------------------------------------
Sum of Mean
Source DF Squares Square F Value Prob>F
(Nota: Los plots de residuales son correctos para el segundo y tercer modelo).
a) Comentar lo que se pretende modelizar con cada modelo y dar el modelo más adecuado.
b) Realiza los tests necesarios para responder a las siguientes preguntas:
(i) ¿El aumento de la resistencia para una misma cantidad de nuevo mineral
añadido se puede suponer el mismo para las tres aleaciones?
(ii) Si consideramos las aleaciones sin añadir el nuevo mineral ¿ Existen diferen-
cias significativas entre la resistencia de la aleación 2 y la 3?
c) A partir del modelo que se considere mas correcto obtener un intervalo de confianza
al 95% para la diferencia entre las resistencias esperadas entre las aleaciones 1 y 3 cuando
hemos añadido 25 unidades del nuevo material (X1 = 25).