Está en la página 1de 24

Estadística 1o

Grados impartidos en Paseo del Cauce


Problemas de los temas 14 y 15
Problema 1 La siguiente tabla muestra el peso  (en 1000 lbs.) y el consumo de gasolina
en autopista  (en millas/galón) para 13 vehículos:
Vehículos X Y
--------------------------
Chevrolet Camaro 3.5 30
Dodge Neon 2.6 32
Honda Accord 3.2 30
Lincoln Continental 3.9 24
Oldsmobile Aurora 4.0 26
Pontiac Grand Am 3.1 30
Mitsubishi Eclipse 3.2 33
BMW 3-Series 3.2 27
Honda Civic 2.4 37
Toyota Camry 3.2 32
Hyundai Accent 2.3 37
Mazda Protégé 2.5 34
Cadillac DeVille 4.0 26
--------------------------
a) Calcula la correlación entre las variables  e  y realiza un gráfico de dispersión para
estas dos variables. ¿Qué conclusión se obtiene de este estudio?
Posteriormente, se realiza una regresión con estas variables obtiendose:
Standard T
Parameter Estimate Error Statistic
-----------------------------------------------------------------
Intercept 50,5654 ******* 17,3044
Slope -6,31023 ******* -6,93545
-----------------------------------------------------------------
Analysis of Variance
---------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio
---------------------------------------------------------------------
Model 165,279 ** ******* ******
Residual ******* ** 3,43613
---------------------------------------------------------------------
Total (Corr.) 203,077 **

b) Completa las tablas anteriores y realiza el test de significación de la regresión.


c) Explica como se podría interpretar el estimador de la pendiente en esta regresión.
d) Calcula el 2 de esta regresión y comparalo con el cuadrado del coeficiente de corre-
lación obtenido en el apartado a).
Problema 2 En un estudio realizado en Inglaterra se midió el consumo semanal de gas na-
tural en m3 para 52 viviendas. Se consideró que la temperatura media semanal en el exterior
tenía una importancia clave en el consumo de gas. Por tanto, como variable respuesta se
mide  =“Consumo semanal de gas (en m3 )" y como variable explicativa  =“Temperatura
media exterior semanal (en o C)". La covarianza muestral (corregida) de estas dos variables,
 e  , es igual a −238, sus varianzas (corregidas) son 2 = 812 y 2 = 145 y sus medias
son ̄ = 491 y ̄ = 411. Se sabe, también, que el MSE del ajuste del modelo de regresión
 =  0 +  1  +  es igual a 076.

a) ¿Cuánto vale el coeficiente 2 de dicho ajuste? Realiza el test de significación de la


regresión. ¿Qué conclusión se extrae de dicho test?

b) Obtén los estimadores mínimos cuadráticos ̂ 0 y ̂ 1 e interpreta el significado del


coeficiente ̂ 1 .

c) Suponiendo que las hipótesis habituales del modelo de regresión se cumplen, ¿Tene-
mos evidencia estadística que permita afirmar que una disminución de la temperatura
semanal media en 1 o C aumenta el consumo de gas en más de 0.25 m3 ?

d) Obtén un intervalo de predicción de garantía 90% para el consumo en una semana en


la que la temperatura exterior promedio sea igual a 6.5 o C.

Problema 3 En un estudio de ingeniería ambiental acerca de cierta reacción química, in-


teresa conocer la concentración de ciertas soluciones en función del tiempo. Se fijaron 6
valores diferentes para el tiempo y se observó la concentración de 18 soluciones, 3 para cada
uno de los valores de tiempo fijados. Con esos datos se ajustó un modelo de regresión lineal
simple con la variable “Concen” como respuesta y “Tiempo” como variable regresora que
arrojó los gráficos y resultados que se muestran.

a) Completar la tabla ANOVA y efectuar un contraste de significación de la regresión.

b) Con este modelo, ¿puede afirmarse que un incremento de 2 unidades en el tiempo


supone un incremento de más de 0.45 unidades en la concentración?

c) Utilizando el modelo que se ofrece, dar un intervalo de predicción del 90% para un
tiempo igual a 10.

d) A la vista de los resultados, ¿hay problemas con alguna de las hipótesis del modelo?
En caso de detectarse problemas con las hipótesis especificar con cuáles y proponer
posibles soluciones. ¿Existen problemas con alguna de las observaciones presentes en
el modelo? Justificar.

e) Teniendo en cuenta las respuestas al apartado d), ¿qué validez crees que tienen las
conclusiones extraídas en los apartados b) y c)?
Problema 4 Se sospecha que en una empresa las remuneraciones son función lineal de los
años de formación que posee cada empleado. Para ver si esto es cierto se toma una muestra
de empleados y se obtienen los datos que se muestran más abajo. Se decide ajustar el modelo
 =  0 +  1  +  donde  son las remuneraciones anuales en miles de euros y  son los
años de formación.
Años de Formación Número de Individuos Ingresos Anuales (en miles de )
8 6 14 16 18 20 22 24
12 6 20 24 28 32 36 40
14 4 22 28 38 50
16 6 24 30 38 42 50 56
18 6 26 34 44 52 56 64

Parameter Estimate St. Error T-Statistic


Intercept  735011 −0317455
Slope  0523864 509038

Residual Plot Normal Probability Plot


2,7 99,9
Studentized residual

99
1,7
95
percentage

0,7 80
50
-0,3 20
5
-1,3
1
-2,3 0,1
8 10 12 14 16 18 -2,3 -1,3 -0,3 0,7 1,7 2,7
Formacion SRESIDUALS
a) Sabiendo que 2 = 0499 y  = 2532, construir la tabla ANOVA y hacer un test
de significación de la regresión en el modelo. Especificar claramente las hipótesis del
test y las conclusiones obtenidas del mismo.
b) Con este modelo, ¿puede afirmarse que 4 años más de formación suponen un incremento
medio de menos de 11000 anuales?
c) Utilizando el modelo que se ofrece y sabiendo que  = 3548633, dar un intervalo de
confianza del 95% para los ingresos medios de los empleados con 15 años de formación.
d) A la vista de los resultados, ¿hay problemas con alguna de las hipótesis del modelo?
En caso de detectarse problemas con las hipótesis, especificar con cuáles y proponer
posibles soluciones. ¿Existen problemas con alguna de las observaciones presentes en
el modelo? Justificar.
e) Teniendo en cuenta las respuestas al apartado d), ¿qué validez crees que tienen las
conclusiones extraídas en los apartados b) y c)?
Problema 5 La cromatografía es una técnica que se usa para detectar pequeñas cantidades
de una sustancia. En un experimento llevado a cabo con un cromatógrafo de gas se tomaron
cinco medidas para cada una de las cuatro piezas de que se disponía, y que contenían
la sustancia en cuestión en diferentes cantidades conocidas. El objetivo del experimento
era calibrar el cromatógrafo relacionando la medida que daba con la cantidad de sustancia
que se sabía contenía cada pieza. Los datos obtenidos y el ajuste de la regresión simple
fueron los siguientes: (X = cantidad de sustancia que tiene la pieza; Y = lectura que da el
cromatógrafo).
X Y X Y
Analysis of Variance
0.25 6.55 5.00 211 Source DF Sum of Squares M.S. F Val Pr.F
0.25 7.98 5.00 204 Model ?? 2759068.3592 ????? ????? ????
0.25 6.54 5.00 212
Error ?? ????? ?????
0.25 6.37 5.00 213
Total ?? 2760533.891
0.25 7.96 5.00 205 s =1268.98 R2 = ????
1.00 29.7 20.00 929 Parameter Estimates
1.00 30.0 20.00 905
Variable Estim. St. Err. t Val. Pr.|T|
1.00 30.1 20.00 928
INTERCEPT -14.410 2.614 ???? ????
1.00 29.5 20.00 919 X 46.628 0.253 ???? ????
1.00 29.1 20.00 922

2
Studentized residual

-1

-2
-100 100 300 500 700 900 1100
predicted Y
a) Completa las cantidades que faltan en las tablas (señaladas como ???????) y efectúa
un test de significación de la regresión.
b) Una forma de evaluar el cromatógrafo es comprobar si podría dar lectura 0 para una
pieza que no contenga la sustancia. Con este modelo, ¿el cromatógrafo podría dar
lectura 0 para una pieza que contenga cantidad 0 de sustancia? Dar el p-valor del
contraste apropiado.
c) Dar un intervalo de predicción del 90% cuando la cantidad de sustancia de la pieza es
de 3 unidades.
d) ¿Qué puedes decir sobre cada una de las hipótesis del modelo? Razonar la respuesta.
¿Existen problemas con alguna de las observaciones presentes en el modelo? Justificar.
e) Teniendo en cuenta las respuestas al apartado d), ¿qué validez crees que tienen las
conclusiones extraídas en los apartados b) y c)?
Problema 6 Los nostálgicos de la fotografía analógica consideran que la fase de revelado de
una película o negativo en fotografía es determinante para conseguir la gama tonal requerida
en el positivo (copia en papel). Con el objeto de calibrar el revelado de una película que
sigue existiendo en el mercado, un ingeniero aficionado a la fotografía realiza un experimento
cuyo objetivo es determinar cuáles han de ser el tiempo de revelado y la temperatura del
compuesto revelador para conseguir una densidad de 01 en la base del negativo (la parte
que no es expuesta a ninguna luz). Utilizando un densitómetro establece que esa densidad se
alcanza cuando la concentración de sales de plata en el compuesto revelador es una constante
. De esta forma se realizan 12 ensayos en los que se controla la temperatura en C () y
se mide el tiempo en minutos ( ) necesario para alcanzar esa concentración. Se realizaron
dos análisis de regresión cuyos resultados aparecen bajo los epígrafes Modelo 1 y Modelo 2.
Modelo 1 Dependent Variable: TIEMPO Independent variable: TEMPERATURA
Dependent variable: TIEMPO

Analysis of Variance 2.2

Source DF Sum of Sq. M.S. F Val Pr.F 1.6

Model ?? 300.512 ????? ????? ?????


1.0
Error ?? ????? ?????
Residuals

Total ?? 309.166 0.4

R2 = ???? -0.2

Parameter Estimates
-0.8
Variable DF Estim. St. Err. t Val. Pr.|T|
INTCT. 1 42.585 ???? 29.088 ???? -1.4
6 10 14 18 22 26

TEMP. 1 -1.449 ???? -18.635 ???? Predicted Values

Modelo 2 Dependent Variable: log(TIEMPO) Independent variable: TEMPERATURA


Dependent variable: LOG(TIEMPO)

Analysis of Variance 0.03

Source DF S.S. M.S. F Val Pr.F 0.02

Model 1 1.24444 1.24444 6752.6 0.0001


0.01
Error 10 0.00184 0.00018
Residuals

Total 11 1.24629 0.00

R2 0.9985 -0.01

Parameter Estimates
-0.02
Variable DF Estim. St. Err. t Val. Pr.|T|
INTCT. 1 4.4319 0.0213 207.44 0.0001 -0.03
2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4

TEMP. 1 -0.0932 0.0011 -82.17 0.0001 Predicted Values


a) En las tablas del Modelo 1 completar las casillas que aparecen como ???????.

b) Si consideramos el Modelo 1, ¿se puede afirmar que un aumento de 10 C en la tempe-


ratura supone una reducción superior a 12 minutos en el tiempo necesario para alcanzar
la concentración ?

c) Explica por qué se procede a ajustar un nuevo modelo, el Modelo 2. Comenta los
resultados del ajuste de ambos modelos y el grado de satisfacción con cada uno de
ellos.

d) Utilizando el modelo más adecuado, ¿cuál sería la temperatura que tendríamos que
utilizar para acortar el tiempo de revelado a 8 minutos en media?

Problema 7 En un artículo de Narula y Wellington en Technometrics en 1977 se presentan


datos sobre precios de venta de un determinado artículo y de impuestos pagados por dicho
artículo en 24 almacenes situados en diferentes condados. Se decide estudiar si existe una
relación lineal entre ambas variables para lo que se ajusta un modelo de regresión lineal simple
con "Impuestos” como variable explicativa y "Precio de venta” como respuesta. Parte de
los resultados obtenidos en dicho análisis aparece a continuación.

a) Completar las tablas. ¿Qué porcentaje de la variabilidad del precio de venta es expli-
cado por los impuestos?

b) Las autoridades de un condado afirmaban que estaban seguras de que un aumento de


2 unidades en los impuestos supondría un aumento menor que 7 unidades en el precio.
Valorar estadísticamente dicha afirmación mediante el p-valor apropiado.

c) Las autoridades de ese mismo condado decidieron establecer un valor de 5 unidades


para los impuestos. Dar una cota superior del 95% para el precio promedio del artículo
en el condado.

d) ¿Qué puedes decir sobre cada una de las hipótesis del modelo? Razonar la respuesta.
¿Existen problemas con alguna de las observaciones presentes en el modelo? Justificar.

2,5
Analysis of Variance
Source DF Sum of Sq. M.S. F Val Pr.F 1,5
Studentized residual

Model ?? ????? ????? 72.56 ?????


Error ?? ????? 8.76775 ???? 0,5

Total ?? ?????
-0,5
 = 57563  = 64049
Parameter Estimates -1,5
Variable Estim. St. Err. t Val. Pr.|T|
Intercept 13.3202 ???? 5.17948 ???? -2,5
26 29 32 35 38 41 44
Impuestos 3.32437 0.390276 ???? ???? predicted Precio
Problema 8 En un estudio con 20 familias realizado en 1993 se midieron las variables
“gasto anual en alimentación en 1000$” (Gasto) e “ingresos anuales en 1000$” (Ingresos).
Los datos obtenidos para esas familias fueron:

Familia Gasto Ingresos


1 5.2 28
2 5.1 26
.. .. ..
. . .
19 20.0 112
20 2.9 26

Se ajustó el modelo regresión Gasto =  0 +  1 Ingresos +  obteniéndose:

Source Sum of Squares Df Mean Square F-Ratio P-Value


Model ??????? ?? ??????? ?????? ??????
Residual 43,773 ?? ???????
Total (Corr.) 413,346 ??

Standard T
Parameter Estimate Error Statistic P-Value
Intercept -0,411999 0,763767 ????????? ??????
Slope ??????? 0,0149345 12,3278 ??????

a) Completa las tablas anteriores dando las acotaciones para los -valores que permiten
las tablas de las que dispones. Justifica estadísticamente si los ingresos de una familia
son útiles para explicar sus gastos en alimentación.

b) Realiza el test 0 :  0 = 0 y explica cómo se debe interpretar el resultado de dicho


test para el ajuste que acabamos de realizar.

c) ¿Podemos afirmar que un incremento en los ingresos de una familia en más de 1000$
implican un incremento en los gastos en alimentación superior a 120$?

d) Se ha usado el paquete Statgraphics para dar una predicción del gasto en alimentación
de familias con ingresos anuales de 10000$ obteniéndose:

95,00% 95,00%
Predicted Prediction Limits Confidence Limits
Y Lower Upper Lower Upper
??????? -2,10801 ?????? 0,0959181 ??????

¿Cuál sería el valor de dicha predicción? Proporciona un intervalo de confianza al 95%


para el gasto promedio en alimentación de las familias con ingresos de 10000$.
Problema 9 En un estudio sobre el precio de 24 casas vendidas en Erie, Pennsylvania,
se consideraron las variables:  = “Precio de venta de la vivienda1000 en $” y 1 =
“Impuestos a pagar por la vivienda100 en $”. Los impuestos que se deben pagar (1 )
dependen de donde este situada la vivienda (zona rural, urbana,...), de la superficie útil
disponible, de los vados que tengan los garajes, etc. Se realiza una regresión de la variable
 frente a 1 obteniendose los siguientes resultados:
Standard
Parameter Estimate Error
-------------------------------------------------
CONSTANT 13,3202 2,57172
x1 3,32437 0,390276
-------------------------------------------------

Source Sum of Squares


------------------------------------
Model 636,156
Residual 192,891
------------------------------------
Total (Corr.) 829,046

Summary Statistics:
x1 y
----------------------------------------------------
Count 24 24
Average 6,40492 34,6125
Variance 2,50274 36,0455
----------------------------------------------------
a) Completa la tabla ANOVA y realiza el test de significación de la regresión.
b) Usando la regresión anterior, ¿podemos afirmar que una vivienda que tiene que pagar
en impuestos 100$ más que otra vivienda también la diferencia en sus precios de venta
debe ser, en promedio, superior a 3000$?
c) Da una estimación del precio medio que debe valer una vivienda por la que se pagan
unos impuestos iguales a 750$ y obtén un intervalo de confianza de garantia 95% para
dicho precio medio. Da también un intervalo de confianza de garantia 95% para el
precio de una vivienda por la que se han pagado 750$ de impuestos.

Problema 10 Una comisión federal revisa anualmente las concentraciones de alquitrán (en
mg), nicotina (en mg), peso (en g) y monóxido de carbono emitido (en mg) para cigarrillos en
USA. Así, se cuenta con mediciones de estas cuatro variables para 25 marcas de tabaco. Un
resumen de estas variables aparece en la siguiente tabla (con medias y varianzas corregidas):
Todos Sin obs. 3
---------------- ----------------
Media Varianza Media Varianza
------------------------------------------------------------
Alquitrán (tar) 12.21 33.20 11.48 19.49
Nicotina (nic) 0.88 0.13 0.83 0.07
Peso (wei) 9.97 0.01 0.96 0.01
Monoxido Carbono (CO) 12.53 22.46 12.07 17.99
------------------------------------------------------------
Usando los datos de estas 25 marcas se realiza una regresión lineal multiple obteniéndose el
ajuste
CO = 3:20219 + 0:962574 tar 2:63166 nic 0:130482 wei:
En este ajuste se observa que la marca “BullDurham" (observación número 3), con valores
tar=29.8, nic=2.03, wei=1.16 y CO=23.5, presentaba un residual bastante grande y un
“leverage" h3;3 = 0:507. Además, el plot de residuales asociado era el siguiente:
Residual Plot
4,4
Studentized residual

2,4

0,4

-1,6
BullDurham
-3,6
0 5 10 15 20 25 30
Alquitran

Teniendo en cuenta esta información, se decide ajustar un modelo de regresión sin la obser-
vación 3 obteniéndose el ajuste:
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -0.551698 2.97128 -0.185677 0.8546
tar 0.88758 0.195482 4.54048 0.0002
nic 0.51847 3.25233 0.159415 0.8749
wei 2.07934 3.17842 0.654207 0.5204
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 386.846 3 128.949 95.86 0.0000
Residual 26.9039 20 1.3452
-----------------------------------------------------------------------------
Total (Corr.) 413.75 23

a) ¿Qué se puede decir de h3;3 ? Obtén el DFFIT de la observación 3 y comenta si esta


observación es de in‡uencia.

Se tiene la siguiente información relativa a otros ajustes realizados con estos datos y en los
que ya no se ha tenido en cuenta la observación 3 (cigarillo marca “BullDurham"):
Ajuste R-squared P-Value (F-test signif.)
------------------------------- --------- ------------------------
CO = 1.41285 + 0.928126*tar 0.933 0.000
CO = -0.23818 + 14.86*nic 0.866 0.000
nic = 0.165275 + 0.0577409*tar 0.921 0.000
------------------------------- --------- ------------------------
b) ¿Sorprende que la variable “nicotina" sea significativa por si sola para explicar el
“monóxido de carbono" y no sea significativa en el modelo con tres variables explica-
tivas? Justifica tu respuesta.
c) Dando por definitivo el ajuste dado por la regresión simple CO = 141285 + 0928126 ∗ tar
¿podemos suponer a nivel  = 005 que un incremento de más de 1 mg en la cantidad
de alquitrán aumenta en promedio la cantidad de monóxido de carbono en más de 0.9
mg?
d) Usando también la regresión simple del apartado anterior, obtén un intervalo de confian-
za de garantía 95% para la cantidad media de monóxido de carbono emitida por un
cigarillo con un contenido de 11 mg de alquitrán.

Problema 11 En el articulo “The Value and Limitations of High-Speed Turbo-Exhausters


for Removal of Tar-Fog from Carburetted Water-Gas" en Soc. Chemical Industry J. (1946) se
presentaban datos relativos a 32 experimentos donde se miden  =“Contenido de alquitrán
(gramos/100 pies3 )" de una corriente de gas en función de 1 = “Velocidad del rotor (rpm)"
y 2 = “Temperatura de entrada del gas (o F)".
Y=Alq X1=Vel X2=Tem
1 60.0 2400 54.5
2 61.0 2450 56.0
3 65.0 2450 58.5
4 30.5 2500 43.0
...
31 24.5 3600 58.0
32 26.5 3900 61.0
a) Se ajusta el modelo  =  0 +  2 2 +  y se observa que el residual más extremo
corresponde a la observación 14 con un residual studentizado igual a -4.02 y que 14 14 =
036, ¿qué se puede decir de la observación 14?

En todo lo que sigue supondremos que la observación 14 ha sido eliminada del análisis. El
ajuste del modelo sin esta observación nos proporciona las siguientes tablas:
Parameter Estimate Source Sum of Squares
-------------------------- ----------------------------------
Intercept 112,518 Model 2580,57
Slope -0,02392 Residual 3911,17
-------------------------- ----------------------------------
Total (Corr.) 6491,74

Variable X2: Average = 58,4677 Variance (Corr.) = 48,2156

b) Obtén un intervalo de confianza al 95% para el contenido de alquitrán medio que se


obtendría si la temperatura de entrada del gas fuese 60 o F.
c) Usando el modelo ajustado en a), ¿podemos suponer que incrementar la temperatura
en 10 o F disminuye el contenido de alquitrán en más de 0.2 gramos/100 pies3 ?
Se decide incluir términos adicionales en el modelo. El modelo resultante contiene las siguien-
tes variables:
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 328,62 47,8407 6,86905 0,0000
X1 -0,192343 0,0321396 -5,9846 0,0000
X1^2 0,000021 0,0000051 4,08578 0,0004
X1*X2 0,000546 0,0000450 12,1294 0,0000
-----------------------------------------------------------------------------

d) Usando este último modelo, haz una representación gráfica aproximada de la estimación
del contenido de alquitrán dependiendo de la “velocidad" cuando la temperatura del
gas es 60 o F. ¿Con qué velocidad estimamos que se obtendría un menor contenido de
alquitrán para una temperatura del gas de 60 o F?
Soluciones a los problemas de los temas 14 y 15
Problema 1 a) El coeficiente de correlación se obtiene como:
P13
( − ̄)( − ̄)
corr( ) = qP =1 qP = −0 9022
13 2 13 2
=1 ( − ̄) =1 ( − ̄)

El gráfico de dispersión es el siguiente:


39

36

33
Y

30

27

24
2,3 2,6 2,9 3,2 3,5 3,8 4,1
X

A la vista de este gráfico y el valor negativo podemos pensar que las variables  e  sí
que parecen tener un cierto grado de asociación lineal decreciente. Es decir, pesos mayores
de un vehículo llevan a menores valores de millas recorridas por galón (consumos de gasolina
mayores).
b) Las tablas completas son las siguientes:
Parámetro Estimado Error T
---------------------------------------------
Intercept 50,5654 2,92211 17,3044
Pendiente -6,31023 0,909852 -6,93545
---------------------------------------------

Fuente Suma de Cuadrados Gl Cuadrado Medio Razón-F


--------------------------------------------------------------------------
Modelo 165,279 1 165,279 48,10
Residuo 37,7974 11 3,43613
--------------------------------------------------------------------------
Total (Corr.) 203,077 12

Como el -valor del  -test de significación es pequeño ( (“111 ”  481) ' 0), la
regresión es claramente significativa.
c) El c
 1 = −631023 se puede interpretar afirmando que estimamos que un incremento
de 1000 lbs en el peso de un vehículo (1 unidad) reduce la distancia recorrida por el vehículo
por galón de gasolina repostado en 6.31023 millas.
d) El 2 de la regresión vale 2 = SSRSS(Total)=165.279/203.077=0.8139. Si calcu-
lamos corr(  )2 = (−0 9022)2 = 08139 vemos que coincide con dicho 2 .
Problema 2 a) El coeficiente de determinación 2 se puede obtener como el cuadrado del
coeficiente de correlación
µ ¶2 µ ¶2
2 2 cov( ) −238
 = corr( ) = = √ √ = 048
 ·  812 145
Alternativamente, tenemos (Total) = (52 − 1)2 = 7395 y  = ( − 2) =
076(52 − 2) = 38. Luego,
 7395 − 38 3595
2 = = = ' 048 (errores de redondeo).
(Total) 7395 7395
Para realizar el test de significación de la regresión usamos  =  = 3595076 =
4730  150;001 = 717. La regresión es significativa y podemos afirmar que la “temper-
atura" sirve para explicar el “consumo".
b) Los coeficientes estimados de la regresión son

b1 =  = (52 − 1) · cov( ) = −238 = −0293



 (52 − 1)2 812
y b1 · ̄ = 411 − (−0293) · 491 = 555. Por cada aumento en la temperatura
b0 = ̄ − 
promedio semanal de 1o C estimamos que el consumo semanal de gas se reduce en 0.293 m3 .
c) Precisamos del test
½ ½
0 : − 1 ≤ 025 0 :  1 ≥ −025
o, equivalentemente, el test 
1 : − 1  025 1 :  1  −025
El estadístico de contraste es
c
 − (−025)  c − (−025) −0293 − (−025)
= 1 = 1q = q = −101  −52−2;01 = −129
c1 )
s.e.(  076
 (52−1)812

Tenemos un -valor mayor que 0.1 y no se puede hacer tal afirmación a la vista de estos
datos.
d) Obtenemos un intervalo al 90% para la predicción de nuevas observaciones cuando
 = 0 = 65 usando
∙ s µ ¶¸
1 ( − ̄)2
c0 + c
  1 · 0 ± −2;012  1 + +
0
=
 
∙ s µ ¶¸
1 (65 − 491)2
= 364 ± 168 076 1 + + = [216 512] m3 
52 (52 − 1) · 812
Problema 3 a) Para completar la tabla ANOVA de este estudio tendremos en cuenta que

 −  =  , que los grados de libertad totales son  − 1 donde  es el número de
observaciones en el estudio, que los grados de libertad del modelo son  donde  es el número
de variables en el modelo y que  =  

y  = −−1 . Así tenemos
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 127054 1 127054 4370  001
Residual 46518 16 029074
Total 173572 17
donde el  −  =  (116  4370) ha sido acotado con las tablas de la distribución  .
Teniendo en cuenta este  −  el modelo es significativo rechazándose la hipótesis nula
 1 = 0.
b) Dado que estamos considerando un modelo lineal, un incremento de más de 045
unidades en la concentración por cada 2 unidades de incremento en el tiempo es equivalente
a un incremento de 0225 unidades por cada unidad de incremento en el tiempo. Así para
decidir si podemos asegurar esto o no efectuamos el siguiente contraste de hipótesis:
0 :  1 = 0225
1 :  1  0225
El estadístico de contraste es
b1 −  ∗
 0245971 − 0225
0 = ³ ´1 = = 0565
 b1 00372092

y el  −  =  (16  0565) está entre 025 y 04 según las tablas de la distribución 
con lo que no puede rechazarse la hipótesis nula y por tanto no puede asegurarse la hipótesis
alternativa.
c) El intervalo de predicción en un punto 0 es
v à !
u
u 1 (0 − ) 2
0 ∈ b0 ± −−12 t 1 + +
 

La predicción b0 en 0 es
b0 + 
b0 =  b1 0 = −19318 + 0245971 · 10 = 052791

Y sustituyendo el intervalo queda


v à !
u
u 1 (10 − 11)2
0 ∈ 052791 ± 1746t029074 · 1 + +
18 210
0 ∈ 052791 ± 1746 · 055523
−044152 ≤ 0 ≤ 14973
d) A la vista del gráfico de residuales ofrecido es bastante claro que existen problemas
con las dos hipótesis fundamentales del modelo, la de linealidad y la de homogeneidad de la
varianza, puesto que hay una clara curvatura en los residuales y además son más dispersos
cuanto mayor es el valor estimado. Una posible solución sería efectuar una transformación
de la variable respuesta.
No parece haber problemas con las observaciones del modelo, ya que ninguno de los
residuales se sale de la banda [−3 3] y solamente uno sale de la banda [−2 2] lo que no es
extraño dado que en torno a un 5% de observaciones (18 · 005 = 09) puede salirse de dicha
banda.
e) Obviamente, si no se cumplen las hipótesis fundamentales del modelo ninguna de las
inferencias que se hagan tendrán validez ya que estas inferencias están basadas en dichas
hipótesis.
Problema 4 a) Para completar la tabla ANOVA de este estudio tendremos en cuenta que
2 = 

con lo que 1 − 2 = 

, que los grados de libertad totales son  − 1 donde  es
el número de observaciones en el estudio, que los grados de libertad del modelo son  donde
 es el número de variables en el modelo y que  =  

y  = −−1 . Así tenemos

Source Sum of Squares Df Mean Square F-Ratio P-Value


Model 252343 1 252343 2591  001
Residual 253200 26 973846
Total 505543 27
donde el  −  =  (126  2591) ha sido acotado con las tablas de la distribución  .
Teniendo en cuenta este  −  el modelo es significativo rechazándose la hipótesis nula
 1 = 0.
b) Dado que estamos considerando un modelo lineal, un incremento de 11000 en los
ingresos por cada 4 años de formación es equivalente a un incremento de 275 unidades en los
ingresos (recordar que están en miles de euros) por cada años de formación. Así para decidir
si podemos asegurar o no que 4 años suponen un incremento de menos de 275 unidades en
los ingresos efectuamos el siguiente contraste de hipótesis:
0 :  1 = 275
1 :  1  275
El estadístico de contraste es
b1 −  ∗
 26667 − 275
0 = ³ ´1 = = −015901
 b1 0523864
³ ´ ³ ´
donde b1 =  b1 · −  b1 . El − de este contraste será  (26  −015901) =
 (26  015901) que es superior a 04 según las tablas de la distribución  con lo que no
puede rechazarse la hipótesis nula y por tanto no puede asegurarse la hipótesis alternativa.
c) El intervalo de confianza para la respuesta media en un punto 0 es
v à !
u
u 1 ( − ) 2
 (0 ) ∈ b0 ± −−12 t
0
+
 

La predicción b0 en 0 es
b0 + 
b0 =  b1 0 = −23333 + 26667 · 15 = 37667

Debemos calcular además la media 


8 · 6 + 12 · 6 + 14 · 4 + 16 · 6 + ·18 · 6
= = 135714
28
Y sustituyendo el intervalo queda
v à !
u
u 1 (15 − 135714)2
 (0 ) ∈ 37667 ± 2056t973846 · +
28 3548633
 (0 ) ∈ 37667 ± 2056 · 20095
33535 ≤  (0 ) ≤ 41799
d) A la vista del gráfico de residuales ofrecido es bastante claro que existen problemas
con la hipótesis de homogeneidad de la varianza, puesto que los residuales son más dispersos
cuanto mayor es el valor estimado. Una posible solución sería efectuar una transformación
de la variable respuesta. No parece haber problemas con la linealidad del modelo ni con la
normalidad de las observaciones.
Tampoco parece haber problemas con las observaciones del modelo, ya que ninguno de
los residuales se sale de la banda [−3 3] y posiblemente uno o dos salen de la banda [−2 2]
lo que no es extraño dado que en torno a un 5% de observaciones (28 · 005 = 14) puede
salirse de dicha banda.
e) Obviamente, si no se cumple alguna de las hipótesis fundamentales del modelo ninguna
de las inferencias que se hagan tendrán validez ya que estas inferencias están basadas en
dichas hipótesis.

Problema 5 Se trata de un ajustar un modelo de regresión lineal simple entre la variable


respuesta  = Lectura del cromatógrafo y la variable regresora o independiente  = Canti-
dad de sustancia. se dispone de  = 20 observaciones realizadas en grupos de 5 sobre cuatro
niveles distintos de la variable .
a) Las tablas completas de Análisis de la Varianza y Estimación de Parámetros serían:

Analysis of Variance
Source DF Sum of Squares M.S. F Val Pr.F
Model 1 2759068.3592 2759068.3592 33887.69 0.0001
Error 18 1465.5318 81. 418
Total 19 2760533.891
R2 = 0.9994

Parameter Estimates
Variable DF Estim. St. Err. t Val. Pr.|T|
INTERCEPT 1 -14.410 2.614 -5.512 0.0001
X 1 46.628 0.253 184.3 0.0001
Al Tratarse de un modelo de regresión simple, el test de significación de la regresión puede
efectuarse o bien a partir de la tabla ANOVA o bien a partir de la línea correspondiente
a la pendiente de la recta en la tabla de coeficientes individuales. En cualquiera de los
dos casos se rechaza la hipótesis nula 0 :  1 = 0 al ser el p-valor 00001 con lo que la
regresión es significativa. Como comentario cabe señalar que, al tratarse de una regresión
altamente significativa, si el estudio de la adecuación del modelo a realizar posteriormente no
detecta ningún tipo de violación de las hipótesis, nos permitiría decir que el modelo estimado
aporta una explicación de la  como función lineal de la  que recoge más del 999% de la
variabilidad.
b) La lectura que daría el cromatógrafo para una pieza que contenga cantidad 0 de
sustancia será  0 +  1 · 0 =  0 con lo que debemos efectuar el test
½
0 :  0 = 0
1 :  0 6= 0
El estadístico de contraste es
b0 −  ∗
 −14410 − 0
0 = ³ ´0 = = −5512
 b0 2614

y, utilizando las tablas, el  −  =  (|18 |  |−5512|) = 2 (18  5512) es menor que
2 · 00005 = 0001 con lo que se rechaza la hipótesis nula a los niveles habituales y puede
afirmarse que el cromatógrafo no dará lectura 0 para una pieza que contenga cantidad 0 de
sustancia.
c) El intervalo de predicción en un punto 0 es
v à !
u
u 1 ( − )2
0 ∈ b0 ± −−12 t 1 + +
0
 

La predicción b0 en 0 es
b0 + 
b0 =  b1 0 = −14410 + 46628 · 3 = 125474
Y sustituyendo el intervalo queda
v à !
u
u 1 (3 − 65625)2
0 ∈ 125474 ± 1734t81418 · 1 + +
20 126898
0 ∈ 125474 ± 1734 · 929
10936 ≤ 0 ≤ 14158
d) A la vista del gráfico de residuales ofrecido es bastante claro que existen problemas
con las dos hipótesis fundamentales del modelo, la de linealidad y la de homogeneidad de la
varianza, puesto que hay una clara curvatura en los residuales y además son más dispersos
cuanto mayor es el valor estimado. Una posible solución sería efectuar una transformación
de la variable respuesta.
No parece haber problemas con las observaciones del modelo, ya que ninguno de los resid-
uales estudentizados se sale de la banda [−2 2]. No disponemos de diagnósticos de influencia
que nos permitan decidir sobre si hay puntos de influencia, aunque dada la estructura de las
observaciones no parece que vaya a ser el caso.
e) Obviamente, si no se cumplen las hipótesis fundamentales del modelo ninguna de las
inferencias que se hagan tendrán validez ya que estas inferencias están basadas en dichas
hipótesis.
Problema 6 En el primer apartado se considera un modelo de regresión lineal simple entre
la variable respuesta  = Tiempo en minutos y la variable regresora o independiente  =
Temperatura. Se dispone de  = 12 observaciones.
a) Las tablas completas de Análisis de la Varianza y Estimación de Parámetros serían:
Analysis of Variance
Source DF Sum of Sq. M.S. F Val Pr.F
Model 1 300.512 300.512 347.252 0.0001
Error 10 8.654 0.8654
Total 11 309.166
R2 = 0.972
Parameter Estimates
Variable DF Estim. St. Err. t Val. Pr.|T|
INTCT. 1 42.585 1.464 29.088 0.0001
TEMP. 1 -1.449 0.0777 -18.635 0.0001
b) Al tratarse de un modelo de regresión simple, el test de significación de la regresión
puede efectuarse o bien a partir de la tabla ANOVA o bien a partir de la línea correspondiente
a la pendiente de la recta en la tabla de coeficientes individuales. En cualquiera de los dos
casos se rechaza la hipótesis nula 0 :  1 = 0 al ser el p-valor  00001 con lo que la regresión
es significativa. Como comentario cabe señalar que, al tratarse de una regresión altamente
significativa, si el estudio de la adecuación del modelo a realizar posteriormente no detecta
ningún tipo de violación de las hipótesis, nos permitiría decir que el modelo estimado aporta
una explicación de la  como función lineal de la  que recoge el 972% de la variabilidad.
c) Que en el Modelo 1 se produzca una reducción superior a 12 minutos en el tiempo
necesario para alcanzar la concentración si hay un aumento de 10 C en la temperatura, es
equivalente a que la pendiente de la recta de regresión de dicho modelo sea menor que −12.
Por tanto debemos efectuar el siguiente test en el Modelo 1
½
0 :  1 ≥ −12
1 :  1  −12

El estadístico de contraste es
b1 −  ∗
 −1449 − (−12)
0 = ³ ´1 = = −32046
 b1 00777

y, utilizando las tablas, el  −  =  (10  −32046) =  (10  32046) está entre 0005
y 00025 con lo que se rechaza la hipótesis nula a los niveles habituales y puede afirmarse
que un aumento de 10 C en la temperatura supone una reducción superior a 12 minutos en
el tiempo necesario para alcanzar la concentración (suponiendo validez a este modelo).
d) A la vista del análisis residual del Modelo 1 es claro que no existe una relación lineal
entre el Tiempo y la Temperatura ya que existe una curvatura en los residuales lo que
indica una violación de la primera hipótesis del modelo (linealidad). Procede, por tanto,
efectuar algún tipo de transformación de variables. En el Modelo 2 se ha optado por una
transfomación logarítmica de la variable respuesta, lo que da lugar a un análisis residual
en el que no se observa nada significativo, tratandose, por tanto, de un plot nulo. Esto
quiere decir que el segundo modelo es aceptable puesto que se pueden dar por válidas las
hipótesis fundamentales del modelo (linealidad y homogeneidad de la varianza). Nótese que
esto implica que la relación entre las variables originales (Tiempo y Temperatura) no es
lineal sino exponencial ya que

log ( ) =  0 +  1   ⇔   =  0 ·  1  

Es conveniente señalar también que esto invalida el resultado obtenido en el apartado


anterior y que es el segundo modelo el que debería utlizarse para contrastar hipótesis sobre
los parámetros.
e) Del análisis residual es claro que el modelo más adecuado es el Modelo 2. La tempe-
ratura  que tendríamos que utilizar para acortar el tiempo de revelado a 8 minutos en
media se calcula de la forma siguiente:
b0 + 
log(8) =  b1  = 44319 − 00932
log(8) − 44319
 = = 25241
−00932

Problema 7 a) La tabla ANOVA completa es la siguiente:

Source DF Sum od Sq. M.S. F Val Pr.F


Model 1 636.188 636.188 72.56  001
Error 22 192.891 8.768 [No existe]
Total 23 829.078

Hemos usado que  = 7256 =  = 876775 para obtener  =


636188 = 1. Usando que 876775 =  = (24 − 2) obtenemos  =
1928905 y (Total) =  +  = 8290784. Los grados de libertad se obtienen
facilmente usando que  = 24. Para acotar el -valor utilizamos que  [“122 ”  7256] 
001 ya que 122;001 = 795.
La tabla de coeficientes completa es:

Variable Estim. St. Err. t Val Pr. |T|


INTCT. 13.3202 2.571725 5.17948 0.001
IMP. 3.32437 0.390276 8.517998 0.001

Para completar esta tabla se usó que  = b s.e.(b ). El -valor de la variable “Im-
puestos” se obtiene como  (|“22 ”|  |8517998|) = 2 ×  (“22 ”  8517998)  2 × 00005 =
0001 ya que 22;00005 = 795. De forma análoga se obtiene un -valor  0001 para el
“intercept”.
La variabilidad del “precio de venta” que es explicada por la variable “impuestos” se
obtiene mediante el
 636188
2 = = = 076734
(Total) 8290764
(es decir, se explica un 76734% de la variabilidad).
b) Debemos realizar el test
½
0 :  1 ≥ 72 = 35
1 :  1  72 = 35

(el modelo nos diría que el incremento medio de la variable respuesta  es 2 ·  1 si incre-
mentamos la  en 2 unidades). Como

c
 1 − 35 332437 − 35
= = = −045
c1 )
s.e.( 0390276

tenemos el -valor=  (“22 ”  −045) =  (“22 ”  045) ∈ [025 04]. Esta acotación se
obtiene usando que 22;025 = 0686 y 22;04 = 0256. El -valor es grande y no se puede
rechazar 0 . Por tanto, no queda probada estadísticamente la afirmación de las autoridades
del condado.
c) Nos piden una cota de confianza del 95% para la respuesta media cuando  = 0 = 5.
La predicción de la respuesta para ese valor de la  será
c0 + c
b0 =   1 0 = 133202 + 332437 · 5 = 29942
y la cota pedida ( = 005) es
s µ ¶ s µ ¶
1 (0 − ) 2 1 (5 − 6405)2
b0 + 22;005  + = 29942 + 1717 8768 +
  24 57563
= 31343
d) Respecto a la hipótesis de linealidad no detectamos una curvatura demasiado clara en
el plot de residuales. Tampoco se puede ver que los residuales tengan dispersiones claramente
mayores en unas partes del gráfico que en otras y, por tanto, no detectamos problemas graves
de heterogeneidad de la varianza. La hipótesis de normalidad no puede ser validada porque
no contamos con el plot de normalidad de los residuos. Tampoco tenemos herramientas para
valorar la hipótesis de independencia de los errores. Existe una observación con residual
estudentizado fuera de la banda [−2 2]. No obstante, tampoco se sale de las bandas [−3 3]
y un 5% de los residuales estudentizados no es raro que estén fuera de la banda [−2 2].
Tampoco tenemos información que nos permita valorar si alguna observación ha sido punto
de influencia.
A la vista de los comentarios anteriores, los datos que estamos ajustando podrían verificar
las hipótesis habituales del modelo de regresión lineal aunque nos faltan los resultados de
algunas herramientas importantes de validación del modelo.
Problema 8 Comenzamos completando las tablas.
a) Tenemos:
Source SS Df MS  -ratio -valor
Model 369.573 1 369.573 151.963  001
Residual 43.773 18 2.432
Total 413.346 19
Parameter Estimate Stand. Err. -statistic -value
Intercept -0.411999 0.763767 -0.5394  05
Slope 0.1841095 0.014935 12.3287  0001
Para obtener la primera tabla hemos usado que  = ( ) −  = 413346 −
43773 = 369575 y que los grados de libertad del  son −2 = 20−2 = 18. De esta forma
obtenemos  = 1 = 369575,  = 18 = 2432 y  =  =
151963. La acotación del -valor es debida a que  = 151963  118;001 = 829. Como
consecuencia, vemos que la regresión es significativa y se justifica estadísticamente que los
ingresos de la familia sean útiles para explicar sus gastos en alimentación.
Para la segunda tabla hemos usado que  =  b s.e.(
b ), donde 
b es el estimador y
b ) es su error estandard. En la acotación de los -valores partimos de que  (18 
s.e.(
05394) ∈ [025 04] para tener
 (|18 |  | − 05394|) = 2 ×  (18  05394) ∈ [05 08]
y, análogamente,  (|18 |  |123287|)  0001 ya que 123287  18;00005 = 3922.
b) Tal como hemos visto en el apartado anterior, el test 0 :  0 = 0 tenía un -valor
grande (mayor que 0.5). Con dicho -valor se debe aceptar la hipótesis nula 0 y no tenemos
evidencia estadística para rechazar que  0 pueda ser 0. Por tanto, dando por válido el
modelo de regresión, el valor medio de la respuesta  puede ser igual a 0 cuando la variable
explicativa  toma el valor 0. Esto diría que el gasto medio de una familia sin ingresos
(ingresos= 0) sería igual a 0 (sin ingresos no se puede consumir). Hay que asegurarse de no
estar extrapolando al hacer esta interpretación. Es decir, necesitaríamos contar con valores
de la variable explicativa ingresos próximos al 0 en nuestro conjunto de datos.
c) El parámetro  1 se interpreta como el incremento medio en la respuesta  si incre-
mentamos la variable explicativa  en una unidad (aquí, una unidad sería un incremento
en los ingresos de 1000$ y las unidades de la respuesta también son 1000$). Por tanto, nos
piden realizar el test ½
0 :  1 ≤ 012

1 :  1  012
Usamos
c
 1 − 012 01841095 − 012
= = = 4292453  18;0001 = 361
c1 )
( 00149354

Con un -valor tan pequeño (menor que 0001), se rechaza 0 y queda probado estadísti-
camente que los incrementos en ingresos en más de 1000$ implican incrementos en los gastos
superiores a 120$ en promedio.
d) Para obtener la predicción evaluamos la recta ajustada en  = 10 (10 unidades son
10000$) obteniendose:

b = c c1 · 10 = −0411999 + 01841095 · 10 = 1429096


0 + 

Es decir, estimamos que el gasto en alimentación será de 1429096$.


Nos piden también un intervalo de confianza para la respuesta media (gasto promedio).
Dicho intervalo de confianza está centrado en la predicción 1429096 y su extremo inferior es
el 00959181 (debemos usar el “Confidence Lower" y no el “Prediction Lower" que es el
extremo inferior del intervalo de predicción). Por tanto, el extremo superior es 1429096 +
(1429096 − 00959181) = 2762274. Es decir, el gasto promedio en alimentación de las
familias con ingresos de 10000$estará entre 959181$ y 2762274$ con una garantía del 95%.

Problema 9 a) La tabla ANOVA completa es la siguiente:


------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio
------------------------------------------------------------------
Model 636,156 1 636,156 72,56
Residual 192,891 22 8,76775
------------------------------------------------------------------
Total (Corr.) 829,046 23

Usando que 122;001 = 7945 vemos que la regresión es significativa.


½
0 :  1 ≤ 3
b) Haremos el contraste 
1 :  1  3
No podemos hacer la afirmación que aparece en el enunciado porque
c
1 − 3 33236 − 3
= ³ ´= = 0829  23;01 = 1319
s.e. c
1 03902

c) El estimador para  [ |1 = 75] es 133202 + 332437 · 75 = 382555, y un intervalo


de confianza 95% para  [ |1 = 75] es (367206 397904), que se obtiene a partir de
⎛ s ⎞
µ 2

⎝ [ \ 1 (75 − 1 ) ⎠
|1 = 75] ± 22;0052  +
 1 1
à s µ ¶!
1 (75 − 640492)2
= 382555 ± 2074 876775 + 
24 575630

La predicción del precio de venta de una casa hipotética cuyos impuestos son de 750 $
también es 38.2516, pero el intervalo de predicción es
à s µ ¶!
1 (75 − 640492)2
382555 ± 2074 876775 1 + +
24 575630
= (319253 445857)

Se está usando que 1 1 = (24 − 1)250274 = 575630

Problema 10 a) El DFFIT de la observación tercera se puede obtener a partir de

̂3 = 320219 + 096257 · 298 − 263166 · 203 − 0130482 · 116 = 26393

̂3−3 = −05517 + 08876 · 298 + 05185 · 203 + 20793 · 116 = 29362


y que
̂3 − ̂3−3 26393 − 29362
  3 = p = √ = −3596
−3 · 33 1345 · 0507
La observación tercera es claramente de influencia. Vemos 33 = 0507  2·(3+1)25 = 032
(medida potencial de influencia) y que su DFFIT es alto (medida efectiva de influencia).
Nótese que los coeficientes del ajuste cambian bastante dependiendo de que la observación
3 esté presente o no y la forma defectuosa del plot de residuales.
b) No sorprende que la variable “nicotina" sea significativa por si sola y no lo sea en el
modelo con tres variables explicativas dado que existen relaciones claras entre las variables ex-
plicativas. Gran parte de la información que la variable “nicotina" explica puede
√ ser recogidas
por otras variables explicativas. Por ejemplo, la correlación corr(nic tar) = 0921 = 0960
es bastante próxima a 1.
c) Trabajando en la regresión simple resultante, nos piden realizar el test
½
0 :  1 ≤ 09
1 :  1  09
Obtenemos el valor del estadístico  apropiado para este contraste

̂ 1 − 09 0928126 − 09


= q = q = 0530
 126
 44827

Nótese que el  ha cambiado. Se obtiene usando que  = (Total) − (Total) ·
0933 = 27721 y que  = (24 − 2) = 126. El valor de  se obtiene a partir de
varianza corregida (sin obs. 3) mediante  = ( − 1) · Var(tar) = (24 − 1)1949 = 44827.
No se puede hacer la afirmación del enunciado dado que  = 0530 ≤ 24−2;005 = 1717.
d) En este apartado debemos realizar un intervalo de confianza para la respuesta media.
Dicho intervalo estará centrado en torno a ̂ = 141285 + 0928126 · 11 = 1162. El intervalo
de confianza pedido es
" s µ ¶# " s µ ¶#
1 (11 − )2 1 (11 − 1148)2
̂ ± 24−2;0052  + = 1162 ± 2074 126 + 
  24 44827

Es decir, con una garantía del 95% estrá dentro del intervalo [11145 12099].

Problema 11 a) La observación 14 tiene un residual grande porque el residual studentizado


se sale de las bandas [−3 3] También vemos que 14 14 = 036  2( +1) = 2·232 = 0125.
Luego la observación 14 es un posible punto de influencia (diagnóstico potencial).
b) Usando esa regresión simple, la predicción de  cuando 2 = 0 = 60 o F será
̂0 = ̂ 0 + ̂ 1 · 60 = 112518 − 002392 · 60 = 111083. El intervalo de confianza para la
respuesta media pedido es:
" s µ ¶ #
1 (0 − ̄)2
̂0 ± −−12  + =
  
" s µ ¶ #
1 (60 − 5847)2
111083 ± 290052 134868 + = [10671 11545]
31 (31 − 1)4822
2
Hemos usado que  = ( − 2) = 39111729 = 13487 y que   = ( − 1) .
c) Debemos realizar el test ½
0 :  2 ≥ −002
1 :  2  −002
usando el estadístico

̂ 2 − (−002) −002392 + 002


= q = q = −0013
 13487
  (31−1)4822

Como −2902 = −08542  −0013 tenemos que el -valor de este contraste será mayor que
0.2 y no podemos rechazar 0 . Por tanto, no se puede hacer tal afirmación.
d) El modelo ajustado será b = 32862 − 01923 · 1 + 0000021 · 12 + 000054 · 1 · 2 
Por tanto, si 2 = 60 tenemos la parábola b =  (1 ) := 32862 + (60 · 000054 − 01923)1 +
000002121 = 32862 − 015951 + 000002121 
Para minimizar esta parábola como función de 1 derivamos e igualamos a 0. Así, tenemos

 0 (1 ) = −01595 + 2 · 00000211 = 0

Luego el mínimo se tiene para una velocidad de 1 = 01595(2 · 0000021) = 379809 (rpm)
(nótese que es mínimo porque  00 (379809) = 2 · 0000021  0).

También podría gustarte