Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Problemas Regresión - Eso-Regresa
Problemas Regresión - Eso-Regresa
c) Suponiendo que las hipótesis habituales del modelo de regresión se cumplen, ¿Tene-
mos evidencia estadística que permita afirmar que una disminución de la temperatura
semanal media en 1 o C aumenta el consumo de gas en más de 0.25 m3 ?
c) Utilizando el modelo que se ofrece, dar un intervalo de predicción del 90% para un
tiempo igual a 10.
d) A la vista de los resultados, ¿hay problemas con alguna de las hipótesis del modelo?
En caso de detectarse problemas con las hipótesis especificar con cuáles y proponer
posibles soluciones. ¿Existen problemas con alguna de las observaciones presentes en
el modelo? Justificar.
e) Teniendo en cuenta las respuestas al apartado d), ¿qué validez crees que tienen las
conclusiones extraídas en los apartados b) y c)?
Problema 4 Se sospecha que en una empresa las remuneraciones son función lineal de los
años de formación que posee cada empleado. Para ver si esto es cierto se toma una muestra
de empleados y se obtienen los datos que se muestran más abajo. Se decide ajustar el modelo
= 0 + 1 + donde son las remuneraciones anuales en miles de euros y son los
años de formación.
Años de Formación Número de Individuos Ingresos Anuales (en miles de )
8 6 14 16 18 20 22 24
12 6 20 24 28 32 36 40
14 4 22 28 38 50
16 6 24 30 38 42 50 56
18 6 26 34 44 52 56 64
99
1,7
95
percentage
0,7 80
50
-0,3 20
5
-1,3
1
-2,3 0,1
8 10 12 14 16 18 -2,3 -1,3 -0,3 0,7 1,7 2,7
Formacion SRESIDUALS
a) Sabiendo que 2 = 0499 y = 2532, construir la tabla ANOVA y hacer un test
de significación de la regresión en el modelo. Especificar claramente las hipótesis del
test y las conclusiones obtenidas del mismo.
b) Con este modelo, ¿puede afirmarse que 4 años más de formación suponen un incremento
medio de menos de 11000 anuales?
c) Utilizando el modelo que se ofrece y sabiendo que = 3548633, dar un intervalo de
confianza del 95% para los ingresos medios de los empleados con 15 años de formación.
d) A la vista de los resultados, ¿hay problemas con alguna de las hipótesis del modelo?
En caso de detectarse problemas con las hipótesis, especificar con cuáles y proponer
posibles soluciones. ¿Existen problemas con alguna de las observaciones presentes en
el modelo? Justificar.
e) Teniendo en cuenta las respuestas al apartado d), ¿qué validez crees que tienen las
conclusiones extraídas en los apartados b) y c)?
Problema 5 La cromatografía es una técnica que se usa para detectar pequeñas cantidades
de una sustancia. En un experimento llevado a cabo con un cromatógrafo de gas se tomaron
cinco medidas para cada una de las cuatro piezas de que se disponía, y que contenían
la sustancia en cuestión en diferentes cantidades conocidas. El objetivo del experimento
era calibrar el cromatógrafo relacionando la medida que daba con la cantidad de sustancia
que se sabía contenía cada pieza. Los datos obtenidos y el ajuste de la regresión simple
fueron los siguientes: (X = cantidad de sustancia que tiene la pieza; Y = lectura que da el
cromatógrafo).
X Y X Y
Analysis of Variance
0.25 6.55 5.00 211 Source DF Sum of Squares M.S. F Val Pr.F
0.25 7.98 5.00 204 Model ?? 2759068.3592 ????? ????? ????
0.25 6.54 5.00 212
Error ?? ????? ?????
0.25 6.37 5.00 213
Total ?? 2760533.891
0.25 7.96 5.00 205 s =1268.98 R2 = ????
1.00 29.7 20.00 929 Parameter Estimates
1.00 30.0 20.00 905
Variable Estim. St. Err. t Val. Pr.|T|
1.00 30.1 20.00 928
INTERCEPT -14.410 2.614 ???? ????
1.00 29.5 20.00 919 X 46.628 0.253 ???? ????
1.00 29.1 20.00 922
2
Studentized residual
-1
-2
-100 100 300 500 700 900 1100
predicted Y
a) Completa las cantidades que faltan en las tablas (señaladas como ???????) y efectúa
un test de significación de la regresión.
b) Una forma de evaluar el cromatógrafo es comprobar si podría dar lectura 0 para una
pieza que no contenga la sustancia. Con este modelo, ¿el cromatógrafo podría dar
lectura 0 para una pieza que contenga cantidad 0 de sustancia? Dar el p-valor del
contraste apropiado.
c) Dar un intervalo de predicción del 90% cuando la cantidad de sustancia de la pieza es
de 3 unidades.
d) ¿Qué puedes decir sobre cada una de las hipótesis del modelo? Razonar la respuesta.
¿Existen problemas con alguna de las observaciones presentes en el modelo? Justificar.
e) Teniendo en cuenta las respuestas al apartado d), ¿qué validez crees que tienen las
conclusiones extraídas en los apartados b) y c)?
Problema 6 Los nostálgicos de la fotografía analógica consideran que la fase de revelado de
una película o negativo en fotografía es determinante para conseguir la gama tonal requerida
en el positivo (copia en papel). Con el objeto de calibrar el revelado de una película que
sigue existiendo en el mercado, un ingeniero aficionado a la fotografía realiza un experimento
cuyo objetivo es determinar cuáles han de ser el tiempo de revelado y la temperatura del
compuesto revelador para conseguir una densidad de 01 en la base del negativo (la parte
que no es expuesta a ninguna luz). Utilizando un densitómetro establece que esa densidad se
alcanza cuando la concentración de sales de plata en el compuesto revelador es una constante
. De esta forma se realizan 12 ensayos en los que se controla la temperatura en C () y
se mide el tiempo en minutos ( ) necesario para alcanzar esa concentración. Se realizaron
dos análisis de regresión cuyos resultados aparecen bajo los epígrafes Modelo 1 y Modelo 2.
Modelo 1 Dependent Variable: TIEMPO Independent variable: TEMPERATURA
Dependent variable: TIEMPO
R2 = ???? -0.2
Parameter Estimates
-0.8
Variable DF Estim. St. Err. t Val. Pr.|T|
INTCT. 1 42.585 ???? 29.088 ???? -1.4
6 10 14 18 22 26
R2 0.9985 -0.01
Parameter Estimates
-0.02
Variable DF Estim. St. Err. t Val. Pr.|T|
INTCT. 1 4.4319 0.0213 207.44 0.0001 -0.03
2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4
c) Explica por qué se procede a ajustar un nuevo modelo, el Modelo 2. Comenta los
resultados del ajuste de ambos modelos y el grado de satisfacción con cada uno de
ellos.
d) Utilizando el modelo más adecuado, ¿cuál sería la temperatura que tendríamos que
utilizar para acortar el tiempo de revelado a 8 minutos en media?
a) Completar las tablas. ¿Qué porcentaje de la variabilidad del precio de venta es expli-
cado por los impuestos?
d) ¿Qué puedes decir sobre cada una de las hipótesis del modelo? Razonar la respuesta.
¿Existen problemas con alguna de las observaciones presentes en el modelo? Justificar.
2,5
Analysis of Variance
Source DF Sum of Sq. M.S. F Val Pr.F 1,5
Studentized residual
Total ?? ?????
-0,5
= 57563 = 64049
Parameter Estimates -1,5
Variable Estim. St. Err. t Val. Pr.|T|
Intercept 13.3202 ???? 5.17948 ???? -2,5
26 29 32 35 38 41 44
Impuestos 3.32437 0.390276 ???? ???? predicted Precio
Problema 8 En un estudio con 20 familias realizado en 1993 se midieron las variables
“gasto anual en alimentación en 1000$” (Gasto) e “ingresos anuales en 1000$” (Ingresos).
Los datos obtenidos para esas familias fueron:
Standard T
Parameter Estimate Error Statistic P-Value
Intercept -0,411999 0,763767 ????????? ??????
Slope ??????? 0,0149345 12,3278 ??????
a) Completa las tablas anteriores dando las acotaciones para los -valores que permiten
las tablas de las que dispones. Justifica estadísticamente si los ingresos de una familia
son útiles para explicar sus gastos en alimentación.
c) ¿Podemos afirmar que un incremento en los ingresos de una familia en más de 1000$
implican un incremento en los gastos en alimentación superior a 120$?
d) Se ha usado el paquete Statgraphics para dar una predicción del gasto en alimentación
de familias con ingresos anuales de 10000$ obteniéndose:
95,00% 95,00%
Predicted Prediction Limits Confidence Limits
Y Lower Upper Lower Upper
??????? -2,10801 ?????? 0,0959181 ??????
Summary Statistics:
x1 y
----------------------------------------------------
Count 24 24
Average 6,40492 34,6125
Variance 2,50274 36,0455
----------------------------------------------------
a) Completa la tabla ANOVA y realiza el test de significación de la regresión.
b) Usando la regresión anterior, ¿podemos afirmar que una vivienda que tiene que pagar
en impuestos 100$ más que otra vivienda también la diferencia en sus precios de venta
debe ser, en promedio, superior a 3000$?
c) Da una estimación del precio medio que debe valer una vivienda por la que se pagan
unos impuestos iguales a 750$ y obtén un intervalo de confianza de garantia 95% para
dicho precio medio. Da también un intervalo de confianza de garantia 95% para el
precio de una vivienda por la que se han pagado 750$ de impuestos.
Problema 10 Una comisión federal revisa anualmente las concentraciones de alquitrán (en
mg), nicotina (en mg), peso (en g) y monóxido de carbono emitido (en mg) para cigarrillos en
USA. Así, se cuenta con mediciones de estas cuatro variables para 25 marcas de tabaco. Un
resumen de estas variables aparece en la siguiente tabla (con medias y varianzas corregidas):
Todos Sin obs. 3
---------------- ----------------
Media Varianza Media Varianza
------------------------------------------------------------
Alquitrán (tar) 12.21 33.20 11.48 19.49
Nicotina (nic) 0.88 0.13 0.83 0.07
Peso (wei) 9.97 0.01 0.96 0.01
Monoxido Carbono (CO) 12.53 22.46 12.07 17.99
------------------------------------------------------------
Usando los datos de estas 25 marcas se realiza una regresión lineal multiple obteniéndose el
ajuste
CO = 3:20219 + 0:962574 tar 2:63166 nic 0:130482 wei:
En este ajuste se observa que la marca “BullDurham" (observación número 3), con valores
tar=29.8, nic=2.03, wei=1.16 y CO=23.5, presentaba un residual bastante grande y un
“leverage" h3;3 = 0:507. Además, el plot de residuales asociado era el siguiente:
Residual Plot
4,4
Studentized residual
2,4
0,4
-1,6
BullDurham
-3,6
0 5 10 15 20 25 30
Alquitran
Teniendo en cuenta esta información, se decide ajustar un modelo de regresión sin la obser-
vación 3 obteniéndose el ajuste:
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT -0.551698 2.97128 -0.185677 0.8546
tar 0.88758 0.195482 4.54048 0.0002
nic 0.51847 3.25233 0.159415 0.8749
wei 2.07934 3.17842 0.654207 0.5204
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 386.846 3 128.949 95.86 0.0000
Residual 26.9039 20 1.3452
-----------------------------------------------------------------------------
Total (Corr.) 413.75 23
Se tiene la siguiente información relativa a otros ajustes realizados con estos datos y en los
que ya no se ha tenido en cuenta la observación 3 (cigarillo marca “BullDurham"):
Ajuste R-squared P-Value (F-test signif.)
------------------------------- --------- ------------------------
CO = 1.41285 + 0.928126*tar 0.933 0.000
CO = -0.23818 + 14.86*nic 0.866 0.000
nic = 0.165275 + 0.0577409*tar 0.921 0.000
------------------------------- --------- ------------------------
b) ¿Sorprende que la variable “nicotina" sea significativa por si sola para explicar el
“monóxido de carbono" y no sea significativa en el modelo con tres variables explica-
tivas? Justifica tu respuesta.
c) Dando por definitivo el ajuste dado por la regresión simple CO = 141285 + 0928126 ∗ tar
¿podemos suponer a nivel = 005 que un incremento de más de 1 mg en la cantidad
de alquitrán aumenta en promedio la cantidad de monóxido de carbono en más de 0.9
mg?
d) Usando también la regresión simple del apartado anterior, obtén un intervalo de confian-
za de garantía 95% para la cantidad media de monóxido de carbono emitida por un
cigarillo con un contenido de 11 mg de alquitrán.
En todo lo que sigue supondremos que la observación 14 ha sido eliminada del análisis. El
ajuste del modelo sin esta observación nos proporciona las siguientes tablas:
Parameter Estimate Source Sum of Squares
-------------------------- ----------------------------------
Intercept 112,518 Model 2580,57
Slope -0,02392 Residual 3911,17
-------------------------- ----------------------------------
Total (Corr.) 6491,74
d) Usando este último modelo, haz una representación gráfica aproximada de la estimación
del contenido de alquitrán dependiendo de la “velocidad" cuando la temperatura del
gas es 60 o F. ¿Con qué velocidad estimamos que se obtendría un menor contenido de
alquitrán para una temperatura del gas de 60 o F?
Soluciones a los problemas de los temas 14 y 15
Problema 1 a) El coeficiente de correlación se obtiene como:
P13
( − ̄)( − ̄)
corr( ) = qP =1 qP = −0 9022
13 2 13 2
=1 ( − ̄) =1 ( − ̄)
36
33
Y
30
27
24
2,3 2,6 2,9 3,2 3,5 3,8 4,1
X
A la vista de este gráfico y el valor negativo podemos pensar que las variables e sí
que parecen tener un cierto grado de asociación lineal decreciente. Es decir, pesos mayores
de un vehículo llevan a menores valores de millas recorridas por galón (consumos de gasolina
mayores).
b) Las tablas completas son las siguientes:
Parámetro Estimado Error T
---------------------------------------------
Intercept 50,5654 2,92211 17,3044
Pendiente -6,31023 0,909852 -6,93545
---------------------------------------------
Como el -valor del -test de significación es pequeño ( (“111 ” 481) ' 0), la
regresión es claramente significativa.
c) El c
1 = −631023 se puede interpretar afirmando que estimamos que un incremento
de 1000 lbs en el peso de un vehículo (1 unidad) reduce la distancia recorrida por el vehículo
por galón de gasolina repostado en 6.31023 millas.
d) El 2 de la regresión vale 2 = SSRSS(Total)=165.279/203.077=0.8139. Si calcu-
lamos corr( )2 = (−0 9022)2 = 08139 vemos que coincide con dicho 2 .
Problema 2 a) El coeficiente de determinación 2 se puede obtener como el cuadrado del
coeficiente de correlación
µ ¶2 µ ¶2
2 2 cov( ) −238
= corr( ) = = √ √ = 048
· 812 145
Alternativamente, tenemos (Total) = (52 − 1)2 = 7395 y = ( − 2) =
076(52 − 2) = 38. Luego,
7395 − 38 3595
2 = = = ' 048 (errores de redondeo).
(Total) 7395 7395
Para realizar el test de significación de la regresión usamos = = 3595076 =
4730 150;001 = 717. La regresión es significativa y podemos afirmar que la “temper-
atura" sirve para explicar el “consumo".
b) Los coeficientes estimados de la regresión son
Tenemos un -valor mayor que 0.1 y no se puede hacer tal afirmación a la vista de estos
datos.
d) Obtenemos un intervalo al 90% para la predicción de nuevas observaciones cuando
= 0 = 65 usando
∙ s µ ¶¸
1 ( − ̄)2
c0 + c
1 · 0 ± −2;012 1 + +
0
=
∙ s µ ¶¸
1 (65 − 491)2
= 364 ± 168 076 1 + + = [216 512] m3
52 (52 − 1) · 812
Problema 3 a) Para completar la tabla ANOVA de este estudio tendremos en cuenta que
− = , que los grados de libertad totales son − 1 donde es el número de
observaciones en el estudio, que los grados de libertad del modelo son donde es el número
de variables en el modelo y que =
y = −−1 . Así tenemos
Source Sum of Squares Df Mean Square F-Ratio P-Value
Model 127054 1 127054 4370 001
Residual 46518 16 029074
Total 173572 17
donde el − = (116 4370) ha sido acotado con las tablas de la distribución .
Teniendo en cuenta este − el modelo es significativo rechazándose la hipótesis nula
1 = 0.
b) Dado que estamos considerando un modelo lineal, un incremento de más de 045
unidades en la concentración por cada 2 unidades de incremento en el tiempo es equivalente
a un incremento de 0225 unidades por cada unidad de incremento en el tiempo. Así para
decidir si podemos asegurar esto o no efectuamos el siguiente contraste de hipótesis:
0 : 1 = 0225
1 : 1 0225
El estadístico de contraste es
b1 − ∗
0245971 − 0225
0 = ³ ´1 = = 0565
b1 00372092
y el − = (16 0565) está entre 025 y 04 según las tablas de la distribución
con lo que no puede rechazarse la hipótesis nula y por tanto no puede asegurarse la hipótesis
alternativa.
c) El intervalo de predicción en un punto 0 es
v à !
u
u 1 (0 − ) 2
0 ∈ b0 ± −−12 t 1 + +
La predicción b0 en 0 es
b0 +
b0 = b1 0 = −19318 + 0245971 · 10 = 052791
La predicción b0 en 0 es
b0 +
b0 = b1 0 = −23333 + 26667 · 15 = 37667
Analysis of Variance
Source DF Sum of Squares M.S. F Val Pr.F
Model 1 2759068.3592 2759068.3592 33887.69 0.0001
Error 18 1465.5318 81. 418
Total 19 2760533.891
R2 = 0.9994
Parameter Estimates
Variable DF Estim. St. Err. t Val. Pr.|T|
INTERCEPT 1 -14.410 2.614 -5.512 0.0001
X 1 46.628 0.253 184.3 0.0001
Al Tratarse de un modelo de regresión simple, el test de significación de la regresión puede
efectuarse o bien a partir de la tabla ANOVA o bien a partir de la línea correspondiente
a la pendiente de la recta en la tabla de coeficientes individuales. En cualquiera de los
dos casos se rechaza la hipótesis nula 0 : 1 = 0 al ser el p-valor 00001 con lo que la
regresión es significativa. Como comentario cabe señalar que, al tratarse de una regresión
altamente significativa, si el estudio de la adecuación del modelo a realizar posteriormente no
detecta ningún tipo de violación de las hipótesis, nos permitiría decir que el modelo estimado
aporta una explicación de la como función lineal de la que recoge más del 999% de la
variabilidad.
b) La lectura que daría el cromatógrafo para una pieza que contenga cantidad 0 de
sustancia será 0 + 1 · 0 = 0 con lo que debemos efectuar el test
½
0 : 0 = 0
1 : 0 6= 0
El estadístico de contraste es
b0 − ∗
−14410 − 0
0 = ³ ´0 = = −5512
b0 2614
y, utilizando las tablas, el − = (|18 | |−5512|) = 2 (18 5512) es menor que
2 · 00005 = 0001 con lo que se rechaza la hipótesis nula a los niveles habituales y puede
afirmarse que el cromatógrafo no dará lectura 0 para una pieza que contenga cantidad 0 de
sustancia.
c) El intervalo de predicción en un punto 0 es
v à !
u
u 1 ( − )2
0 ∈ b0 ± −−12 t 1 + +
0
La predicción b0 en 0 es
b0 +
b0 = b1 0 = −14410 + 46628 · 3 = 125474
Y sustituyendo el intervalo queda
v à !
u
u 1 (3 − 65625)2
0 ∈ 125474 ± 1734t81418 · 1 + +
20 126898
0 ∈ 125474 ± 1734 · 929
10936 ≤ 0 ≤ 14158
d) A la vista del gráfico de residuales ofrecido es bastante claro que existen problemas
con las dos hipótesis fundamentales del modelo, la de linealidad y la de homogeneidad de la
varianza, puesto que hay una clara curvatura en los residuales y además son más dispersos
cuanto mayor es el valor estimado. Una posible solución sería efectuar una transformación
de la variable respuesta.
No parece haber problemas con las observaciones del modelo, ya que ninguno de los resid-
uales estudentizados se sale de la banda [−2 2]. No disponemos de diagnósticos de influencia
que nos permitan decidir sobre si hay puntos de influencia, aunque dada la estructura de las
observaciones no parece que vaya a ser el caso.
e) Obviamente, si no se cumplen las hipótesis fundamentales del modelo ninguna de las
inferencias que se hagan tendrán validez ya que estas inferencias están basadas en dichas
hipótesis.
Problema 6 En el primer apartado se considera un modelo de regresión lineal simple entre
la variable respuesta = Tiempo en minutos y la variable regresora o independiente =
Temperatura. Se dispone de = 12 observaciones.
a) Las tablas completas de Análisis de la Varianza y Estimación de Parámetros serían:
Analysis of Variance
Source DF Sum of Sq. M.S. F Val Pr.F
Model 1 300.512 300.512 347.252 0.0001
Error 10 8.654 0.8654
Total 11 309.166
R2 = 0.972
Parameter Estimates
Variable DF Estim. St. Err. t Val. Pr.|T|
INTCT. 1 42.585 1.464 29.088 0.0001
TEMP. 1 -1.449 0.0777 -18.635 0.0001
b) Al tratarse de un modelo de regresión simple, el test de significación de la regresión
puede efectuarse o bien a partir de la tabla ANOVA o bien a partir de la línea correspondiente
a la pendiente de la recta en la tabla de coeficientes individuales. En cualquiera de los dos
casos se rechaza la hipótesis nula 0 : 1 = 0 al ser el p-valor 00001 con lo que la regresión
es significativa. Como comentario cabe señalar que, al tratarse de una regresión altamente
significativa, si el estudio de la adecuación del modelo a realizar posteriormente no detecta
ningún tipo de violación de las hipótesis, nos permitiría decir que el modelo estimado aporta
una explicación de la como función lineal de la que recoge el 972% de la variabilidad.
c) Que en el Modelo 1 se produzca una reducción superior a 12 minutos en el tiempo
necesario para alcanzar la concentración si hay un aumento de 10 C en la temperatura, es
equivalente a que la pendiente de la recta de regresión de dicho modelo sea menor que −12.
Por tanto debemos efectuar el siguiente test en el Modelo 1
½
0 : 1 ≥ −12
1 : 1 −12
El estadístico de contraste es
b1 − ∗
−1449 − (−12)
0 = ³ ´1 = = −32046
b1 00777
y, utilizando las tablas, el − = (10 −32046) = (10 32046) está entre 0005
y 00025 con lo que se rechaza la hipótesis nula a los niveles habituales y puede afirmarse
que un aumento de 10 C en la temperatura supone una reducción superior a 12 minutos en
el tiempo necesario para alcanzar la concentración (suponiendo validez a este modelo).
d) A la vista del análisis residual del Modelo 1 es claro que no existe una relación lineal
entre el Tiempo y la Temperatura ya que existe una curvatura en los residuales lo que
indica una violación de la primera hipótesis del modelo (linealidad). Procede, por tanto,
efectuar algún tipo de transformación de variables. En el Modelo 2 se ha optado por una
transfomación logarítmica de la variable respuesta, lo que da lugar a un análisis residual
en el que no se observa nada significativo, tratandose, por tanto, de un plot nulo. Esto
quiere decir que el segundo modelo es aceptable puesto que se pueden dar por válidas las
hipótesis fundamentales del modelo (linealidad y homogeneidad de la varianza). Nótese que
esto implica que la relación entre las variables originales (Tiempo y Temperatura) no es
lineal sino exponencial ya que
Para completar esta tabla se usó que = b s.e.(b ). El -valor de la variable “Im-
puestos” se obtiene como (|“22 ”| |8517998|) = 2 × (“22 ” 8517998) 2 × 00005 =
0001 ya que 22;00005 = 795. De forma análoga se obtiene un -valor 0001 para el
“intercept”.
La variabilidad del “precio de venta” que es explicada por la variable “impuestos” se
obtiene mediante el
636188
2 = = = 076734
(Total) 8290764
(es decir, se explica un 76734% de la variabilidad).
b) Debemos realizar el test
½
0 : 1 ≥ 72 = 35
1 : 1 72 = 35
(el modelo nos diría que el incremento medio de la variable respuesta es 2 · 1 si incre-
mentamos la en 2 unidades). Como
c
1 − 35 332437 − 35
= = = −045
c1 )
s.e.( 0390276
tenemos el -valor= (“22 ” −045) = (“22 ” 045) ∈ [025 04]. Esta acotación se
obtiene usando que 22;025 = 0686 y 22;04 = 0256. El -valor es grande y no se puede
rechazar 0 . Por tanto, no queda probada estadísticamente la afirmación de las autoridades
del condado.
c) Nos piden una cota de confianza del 95% para la respuesta media cuando = 0 = 5.
La predicción de la respuesta para ese valor de la será
c0 + c
b0 = 1 0 = 133202 + 332437 · 5 = 29942
y la cota pedida ( = 005) es
s µ ¶ s µ ¶
1 (0 − ) 2 1 (5 − 6405)2
b0 + 22;005 + = 29942 + 1717 8768 +
24 57563
= 31343
d) Respecto a la hipótesis de linealidad no detectamos una curvatura demasiado clara en
el plot de residuales. Tampoco se puede ver que los residuales tengan dispersiones claramente
mayores en unas partes del gráfico que en otras y, por tanto, no detectamos problemas graves
de heterogeneidad de la varianza. La hipótesis de normalidad no puede ser validada porque
no contamos con el plot de normalidad de los residuos. Tampoco tenemos herramientas para
valorar la hipótesis de independencia de los errores. Existe una observación con residual
estudentizado fuera de la banda [−2 2]. No obstante, tampoco se sale de las bandas [−3 3]
y un 5% de los residuales estudentizados no es raro que estén fuera de la banda [−2 2].
Tampoco tenemos información que nos permita valorar si alguna observación ha sido punto
de influencia.
A la vista de los comentarios anteriores, los datos que estamos ajustando podrían verificar
las hipótesis habituales del modelo de regresión lineal aunque nos faltan los resultados de
algunas herramientas importantes de validación del modelo.
Problema 8 Comenzamos completando las tablas.
a) Tenemos:
Source SS Df MS -ratio -valor
Model 369.573 1 369.573 151.963 001
Residual 43.773 18 2.432
Total 413.346 19
Parameter Estimate Stand. Err. -statistic -value
Intercept -0.411999 0.763767 -0.5394 05
Slope 0.1841095 0.014935 12.3287 0001
Para obtener la primera tabla hemos usado que = ( ) − = 413346 −
43773 = 369575 y que los grados de libertad del son −2 = 20−2 = 18. De esta forma
obtenemos = 1 = 369575, = 18 = 2432 y = =
151963. La acotación del -valor es debida a que = 151963 118;001 = 829. Como
consecuencia, vemos que la regresión es significativa y se justifica estadísticamente que los
ingresos de la familia sean útiles para explicar sus gastos en alimentación.
Para la segunda tabla hemos usado que = b s.e.(
b ), donde
b es el estimador y
b ) es su error estandard. En la acotación de los -valores partimos de que (18
s.e.(
05394) ∈ [025 04] para tener
(|18 | | − 05394|) = 2 × (18 05394) ∈ [05 08]
y, análogamente, (|18 | |123287|) 0001 ya que 123287 18;00005 = 3922.
b) Tal como hemos visto en el apartado anterior, el test 0 : 0 = 0 tenía un -valor
grande (mayor que 0.5). Con dicho -valor se debe aceptar la hipótesis nula 0 y no tenemos
evidencia estadística para rechazar que 0 pueda ser 0. Por tanto, dando por válido el
modelo de regresión, el valor medio de la respuesta puede ser igual a 0 cuando la variable
explicativa toma el valor 0. Esto diría que el gasto medio de una familia sin ingresos
(ingresos= 0) sería igual a 0 (sin ingresos no se puede consumir). Hay que asegurarse de no
estar extrapolando al hacer esta interpretación. Es decir, necesitaríamos contar con valores
de la variable explicativa ingresos próximos al 0 en nuestro conjunto de datos.
c) El parámetro 1 se interpreta como el incremento medio en la respuesta si incre-
mentamos la variable explicativa en una unidad (aquí, una unidad sería un incremento
en los ingresos de 1000$ y las unidades de la respuesta también son 1000$). Por tanto, nos
piden realizar el test ½
0 : 1 ≤ 012
1 : 1 012
Usamos
c
1 − 012 01841095 − 012
= = = 4292453 18;0001 = 361
c1 )
( 00149354
Con un -valor tan pequeño (menor que 0001), se rechaza 0 y queda probado estadísti-
camente que los incrementos en ingresos en más de 1000$ implican incrementos en los gastos
superiores a 120$ en promedio.
d) Para obtener la predicción evaluamos la recta ajustada en = 10 (10 unidades son
10000$) obteniendose:
La predicción del precio de venta de una casa hipotética cuyos impuestos son de 750 $
también es 38.2516, pero el intervalo de predicción es
à s µ ¶!
1 (75 − 640492)2
382555 ± 2074 876775 1 + +
24 575630
= (319253 445857)
Nótese que el ha cambiado. Se obtiene usando que = (Total) − (Total) ·
0933 = 27721 y que = (24 − 2) = 126. El valor de se obtiene a partir de
varianza corregida (sin obs. 3) mediante = ( − 1) · Var(tar) = (24 − 1)1949 = 44827.
No se puede hacer la afirmación del enunciado dado que = 0530 ≤ 24−2;005 = 1717.
d) En este apartado debemos realizar un intervalo de confianza para la respuesta media.
Dicho intervalo estará centrado en torno a ̂ = 141285 + 0928126 · 11 = 1162. El intervalo
de confianza pedido es
" s µ ¶# " s µ ¶#
1 (11 − )2 1 (11 − 1148)2
̂ ± 24−2;0052 + = 1162 ± 2074 126 +
24 44827
Es decir, con una garantía del 95% estrá dentro del intervalo [11145 12099].
Como −2902 = −08542 −0013 tenemos que el -valor de este contraste será mayor que
0.2 y no podemos rechazar 0 . Por tanto, no se puede hacer tal afirmación.
d) El modelo ajustado será b = 32862 − 01923 · 1 + 0000021 · 12 + 000054 · 1 · 2
Por tanto, si 2 = 60 tenemos la parábola b = (1 ) := 32862 + (60 · 000054 − 01923)1 +
000002121 = 32862 − 015951 + 000002121
Para minimizar esta parábola como función de 1 derivamos e igualamos a 0. Así, tenemos
Luego el mínimo se tiene para una velocidad de 1 = 01595(2 · 0000021) = 379809 (rpm)
(nótese que es mínimo porque 00 (379809) = 2 · 0000021 0).