Problemas Con Dos Factores PDF

Análisis de la Varianza
1. En una fábrica de automóviles se utiliza una misma planta para el ensamblaje de tres modelos
distintos (A, B y C). Para determinar si los modelos reciben el mismo tratamiento, se ha
realizado un control de calidad a una muestra tomada para cada modelo. El número de
defectos encontrados para cinco vehı́culos del modelo A son 5, 4, 6, 6 y 7; para seis vehı́culos
del modelo B son 7, 8, 6, 7, 6 y 5; y para ocho vehı́culos del modelo C: 9, 7, 8, 9, 10, 11, 10 y
10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos.
2. Una empresa debe elegir entre cinco procedimientos para fabricar un cierto producto quı́mico.
Se sospecha que existen diferencias entre ellos aunque pequeñas. Para detectar estas diferen-
cias se pretende realizar un experimento a gran escala con el mismo número de observaciones
en cada grupo. Para determinar este tamaño muestral se ha realizado un experimento piloto
con 6 observaciones de cada método y los resultados (medias de cada grupo) han sido los
siguientes:
METODO 1 2 3 4 5
Media 425.6 423.2 418.8 430.2 422.2
y la varianza residual ŝ2R = 198.5.
(a) ¿ Cúal debe ser el tamaño muestral del experimento a gran escala para que el contraste
de análisis de la varianza sea significativo con α = 0.01 si el coeficiente de determinación
es igual al del experimento piloto?.
(b) Dar un intervalo de confianza (α = 0.05) para la previsión del rendimiento realizado
mediante el método D (Nota: Se pide un intervalo para una observación, no para la
media.).
(c) El método A es el procedimiento habitual y el método D es el que se sospecha propor-
ciona mejor rendimiento. Una hipótesis que se pretende contrastar es H0 : µD = µA ,
frente a la hipótesis alternativa H1 : µD > µA . ¿ Qué condición debe cumplir la difer-
encia entre las medias muestrales de los dos métodos para rechazar H0 con α = 0.01?
3. Se ha realizado un experimento para estudiar el efecto de un único factor con I niveles

en la variable respuesta y con un número diferente de observaciones en cada tratamiento:
n1 , n2 , ..., nI siendo el total n = n1 + n2 + · · · + nI . Llamando yij a la observación j del
tratamiento i, i = 1, ..., I, j = 1, 2, ..., ni e ȳi• la media del tratamiento i. Se desea estimar
la media general ¿cuál de los dos estimadores siguientes
P
I P
ni
P
I
yij ȳi•
i=1 j=1 i=1
y •• = , ỹ•• =
n I
tiene mı́nima varianza? Realiza la comprobación para el caso I = 5, con ni = 3, 2, 3, 5, 6 el
número de observaciones en cada tratamiento. Asumir que las observaciones son independi-
entes y que se cumple la hipótesis de homocedasticidad.
1
4. Considere la comparación de dos tratamientos en poblaciones normales. Demuestre que el
contraste t para comparar dos medias es análogo al contraste de la F en Análisis de la
Varianza (suponga n1 = n2 ).
5. Cinco tipos (A, B, C, D y E) de material sintético se han sometido a un ensayo de desgaste.
Para cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviación
tı́pica corregida en cada caso es la siguiente:
A B C D E
media xi 14.1 16.3 13.5 14.8 15.3
d. tı́pica ŝi 1.3 1.2 1.4 1.2 1.5
(a) Contrastar (α = 0.05) la hipótesis
H0 : µ A = µ B = µ C = µ D = µ E
frente a la hipótesis alternativa,
H1 : Alguna media es distinta a las demás.

(b) Indicar con nivel de confianza 0.95 el material con desgaste menor y qué materiales
tienen desgaste medio, distinto.
(c) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental.
6. Se desea comprobar el efecto de un tratamiento térmico sobre la resistencia de un nuevo

material. Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1 ,
T2 y T3 obteniendo como medida de resistencia superficial los valores siguientes:
T1 T2 T3
2.65 4.31 4.81
2.67 3.96 5.32
2.46 4.64 4.93
1.90 4.74 5.49
2.62 4.00 4.45
(a) Contrastar mediante el test de análisis de la varianza si existen diferencias significativas

entre los tratamientos térmicos (α = 0.01).
(b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dos
tratamientos. Si la relación entre la resistencia y la temperatura es lineal, es de esperar
que la media del tratamiento 2 verifique : H0 : µ2 = 21 (µ1 + µ3 ). Hacer el contraste
bilateral de esta hipótesis con α = 0.05. (Nota.- Usar la distribución de y 2 −(y 1 +y 3 )/2,
donde y i es la media de los datos correspondientes al tratamiento Ti ).
7. En el modelo de análisis de la varianza para contrastar la igualdad de medias de I grupos,

con n1 , n2 , ..., nI observaciones en cada grupo; indicar, justificando la respuesta, si ȳ•• , ȳi• y
eij son independientes. Calcular los coeficientes de correlación.
2
8. Explicar detalladamente la descomposición de la variabilidad en el modelo básico de análisis
de la varianza para comparar I tratamientos. Obtener el estadı́stico F de contraste, indi-
cando en cada paso las hipótesis utilizadas.
9. Demostrar que en el modelo para la comparación de las medias de K tratamientos con el

mismo número de observaciones, la varianza residual estimada (b s2R ) es igual a la media de
las varianzas muestrales corregidas de cada tratamiento. Utilizando esta relación, demostrar
que el estimador sb2R es insesgado y obtener su distribución de probabilidad. Suponer que
se cumplen las hipótesis de normalidad, independencia y homocedasticidad, y dar por de-
mostrado que la varianza muestral corregida sb2 , en una muestra aleatoria simple de tamaño
n de una distribución normal, es un estimador centrado de la varianza de la distribución σ 2 ,
y que (n − 1)bs2 /σ 2 se distribuye como una χ2 con n − 1 grados de libertad).
10. Explicar la descomposición de la variabilidad en el modelo básico de comparación de K

tratamientos (modelo con un factor ). Demostrar que si todos los tratamientos tienen la
misma media
VE
χ2K−1 .
σ2
Indicar en cada paso las hipótesis requeridas. Nota.- Tener en cuenta que si X1 , X2 , ..., Xn
son variables
P aleatorias independientes con distribución normal de media µ y varianza σ 2 , y
X = Xi /n,
X n 2
Xi − X
χ2n−1 .
i=1
σ
11. Un fabricante sospecha que los lotes de materia prima recibidos de un proveedor difieren
significativamente de su contenido en calcio. Elige al azar 5 lotes diferentes y un quı́mico
hace cinco determinaciones del contenido en calcio de cada lote. Los resultados obtenidos
han sido
Lote 1 Lote 2 Lote 3 Lote 4 Lote 5
23.46 23.59 23.51 23.28 23.29
23.48 23.46 23.64 23.40 23.46
23.56 23.42 23.46 23.37 23.37
23.39 23.49 23.52 23.46 23.32
23.40 23.50 23.49 23.29 23.38
La tabla de análisis de la varianza se proporciona a continuación. Comparar mediante el
método de Bonferroni las medias de los cinco tratamientos con nivel de significación total
αT = 0.10.
Análisis de la varianza
Fuente Variabilidad g.l. Var. Media F Nivel crı́tico
Lote 0.096976 4 0.024244 5.54 0.0036
Residuos 0.08760 20 0.00438
Total 0.184576 24
3
4
Diseño de experimentos
1. En una planta piloto se obtiene un nuevo producto mediante un proceso quı́mico. Con el
fin de mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres
temperaturas diferentes. Los resultados del experimento son
Temperatura
0
Catalizador 20 300 400
A 115 125 130 140 110 120
B 115 105 135 145 100 110
(a) Contrastar si los factores Temperatura y Catalizador tienen efectos significativos. (α =

0.05)
(b) ¿Qué tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garan-
tizar una probabilidad de error tipo I total, αT = 0.03?
2. Se pretende estudiar el efecto que produce los factores (1) Porcentaje de algodón (10%, 20%
y 30%) (2) Tipo de confección (A y B) en la resistencia al desgaste de ciertos tejidos de fibra
sintética. Se ha realizado el siguiente diseño con tres replicaciones
10% 20% 30%

115 120 126
A 112 135 118
133 139 142
107 110 132
B 114 102 114
108 117 125
(a) Construir la tabla de Análisis de la Varianza y contrastar la influencia de los dos factores
y la presencia de la interacción.
(b) Hacer un contraste de diferencia de medias y decidir el tratamiento más adecuado para
conseguir la mayor resistencia al desgaste.
3. Cierto Organismo Público (O.P.) encargado de certificar la composición de aleaciones de

metales preciosos, debe seleccionar entre dos Laboratorios al más capacitado para la realiza-
ción de futuros análisis de gran precisión. Para tomar la decisión les somete a la siguiente
prueba: Prepara tres aleaciones A, B y C que contienen proporciones distintas de oro.
De cada una de ellas envı́a cuatro muestras a cada uno de los dos laboratorios. Ası́ pues,
cada laboratorio recibe un lote de 12 muestras (codificadas) ordenadas aleatoriamente sin
conocer como han sido obtenidas. Los resultados recibidos por el O.P. son (entre paréntesis
las medias de las casillas):
1
Aleac. A Aleac. B Aleac. C
10.96 11.03 10.95 11.00 11.07 11.01
Lab. I 11.08 11.01 11.04 10.97 10.97 11.03
(11.02) (10.99) (11.02)
10.97 10.96 10.97 10.96 11.02 11.00
Lab. II 10.94 10.95 10.97 10.98 11.01 11.01
(10.955) (10.97) (11.01)
(a) Determinar si existen diferencias entre los resultados de los laboratorios y si éstos han
encontrado diferencias entre las aleaciones.
(b) Aceptando que los datos cumplen la hipótesis de normalidad, indicar si podemos aceptar
que verifican el resto de las hipótesis del modelo y en caso negativo que medidas se deben
adoptar para analizar los datos.
(c) Realizar un test de razón de varianzas para contrastar que las varianzas de los dos
laboratorios son iguales, sabiendo que las tres aleaciones tienen composición distinta.
Interpretar el resultado.
(d) El O.P. conoce exáctamente el porcentaje en oro de la aleación A (11 %), de la B
(11.02 %) y de la C (11.04 %). Con esta información comparar los resultados de los
laboratorios.
4. Complete la tabla ADEVA siguiente y diga de que diseño se trata.
Suma de Cuad. G.L. Varianzas

Factor 1 20 2
Factor 2 5 1.25
Factor 3 10
Int. Segundo orden
Int. Tercer orden 0.25
TOTAL 44 29
5. Se ha realizado un diseño factorial sin replicación con tres factores A, B, C con 5, 5 y 4

niveles respectivamente. Si la interacción de tercer orden es nula, obtener la descomposición
de la variabilidad e indicar los grados de libertad de cada término.
6. Para estudiar el efecto de tres factores (A,B,C) en el tiempo de fraguado del hormigón se ha
realizado un experimento factorial completo a dos niveles con tres replicaciones (24 datos en
total). Los resultados de la estimación han sido:
Media A B AB C AC BC ABC
92.5 2.4 3.3 8.5 15.0 -1.4 2.65 0.72
Teniendo en cuenta que la varianza residual obtenida es ŝ2R = 18.8, indicar qué efectos son
significativos para un nivel de significación α = 0.05.
2
7. Una caracterı́stica de la calidad de la gasolina es su ı́ndice de octanos. Una refinerı́a de
petróleo tiene cinco fórmulas que pueden emplearse para la obtención de gasolina con plomo
o sin plomo.
(a) Para determinar que fórmula proporciona mayor ı́ndice de octanos, con cada una de
ellas se ha repetido 10 veces en el laboratorio el proceso de fabricación de gasolina con
plomo. Si el coeficiente de determinación del análisis de la varianza de los resultados
es igual a 0.20, contrastar con α = 0.05 si existen diferencias entre las cinco fórmulas
para este tipo de gasolina.
(b) Los valores medios (ȳi• ) para cada fórmula son:
Fórmula 1 2 3 4 5
Media 89.2 90.1 90.7 90.5 89.5
Contrastar con α = 0.05 que fórmulas proporcionan ı́ndices de octanos significativa-
mente distintos y cuales no.
(c) Debido a los problemas medio-ambientales gran parte de la producción futura debe
estar libre de plomo. Para determinar que fórmula de las anteriores produce mejores
resultados en cuanto al ı́ndice de octanos , se realizo un diseño experimental similar
al anterior (cinco fórmulas, 10 observaciones en cada fórmula) para la obtención de
gasolina sin plomo. El coeficiente de determinación en este caso es igual a 0.25 y el
ı́ndice medio para cada fórmula es,
Fórmula 1 2 3 4 5
Media 88.0 89.5 88.5 90.2 89.8
Contrastar (α = 0.05) si existe interacción entre los factores tipo de gasolina (con y sin
plomo) y fórmula.
8. Para estudiar la influencia de la temperatura y la presión sobre el rendimiento de un proceso
quı́mico se ha realizado un experimento con 5 valores de presión y 4 valores de temperatura.
Los resultados se muestran en la tabla siguiente.
Temperatura
10 20 30 40 Medias
1 65,58 96,71 124,20 156,63 110,71
2 66,32 101,5 130,37 161,38 114,89
Presión 3 74,42 99,81 134,63 160,59 117,36
4 80,24 104,11 138,42 166,96 122,43
5 79,61 112,14 143,58 170,68 126,50
Medias 73,24 102,85 134,24 163,19 118,38
(a) Considere solamente el efecto de la presión y estudie si es significativo (α = 0, 05),

sabiendo que las varianzas muestrales corregidas para los datos correspondientes a cada
s21 = 149, 85; b
presión son b s22 = 164, 62; b
s23 = 143, 95; b
s24 = 145, 11; b
s25 = 154, 94.
3
(b) Incorpore el efecto de la temperatura en un modelo adecuado para los datos. Interprete
el resultado.
(c) Calcule un intervalo de confianza al 95% para la varianza del error experimental de los
modelos de los dos apartados anteriores. Interprete las diferencias.
9. Se desea estudiar la fuerza de percusión de una perforadora en función de la VELOCIDAD

de giro (baja y alta) y de un coeficiente mecánico que denominaremos RATIO (0.15, 0.30,
0.45 y 0.60). Se ha experimentado en las ocho posibles combinaciones de ambos factores,
replicando cada experimento dos veces. Los resultados se muestran en la tabla siguiente
0.15 0.30 0.45 0.60 Media

270 245 260 275
Vel. Baja 266.875
278 249 272 286
283 285 286 294
Vel. Alta 286.125
286 280 287 288
Media 279.25 264.75 276.25 285.75 276.5
Las variabilidades explicadas por el RATIO, la VELOCIDAD y la interacción RAT x VEL

son respectivamente 925, 1482.25 y 418,75 y la Variabilidad Total es 3034.
(a) Completa la tabla de análisis de la varianza e indica qué efectos son significativos para
α = 0.05.
(b) Interpreta el resultado, indicando cómo influye el RATIO y la VELOCIDAD en la fuerza
de la perforadora. Dibuja el gráfico que permite interpretar la interacción. Proporciona
el intervalo de confianza para la media de la combinación RATIO 0.30, y VELOCIDAD
baja.
(c) Cada tratamiento tiene dos observaciones, llamando Dij = |Yij1 − Yij2 | , al valor abso-
luto de la diferencia de estas observaciones, demuestra que
Dij2
→ χ21
2σ 2
P2 P4 2
2 Dij
y que SD = i=1 j=1
16
es un estimador centrado de la varianza del modelo factorial.
(d) Supón que la varianza de las observaciones a velocidad baja es σ 21 y de las observaciones
a velocidad alta es σ 22 . Utilizando el resultado del apartado 3, realiza el siguiente
contraste con nivel de significación 0.05,
H0 : σ 21 = σ 22
H1 : σ 21 6= σ 22
4
10. Cuando un lenguaje de alto nivel es compilado, el tiempo de ejecución depende del compi-
lador. Un ingeniero de software desea comparar tres compiladores (A, B y C), para ello ha
seleccionado 5 programas muy distintos, cada uno de los cuales ha sido compilado por los
tres compiladores. Los tiempos de CPU se proporcionan a continuación:
1 2 3 4 5 Medias
A 122.9 147.4 189.6 200.9 307.3 193.6
B 113.8 135.1 173.8 199.3 296.6 183.7
C 131.2 152.8 192.7 219.8 318.9 203.1
Medias 122.7 145.1 185.3 206.7 307.6
La variabilidad total es 62899.2, y las variabilidades explicadas por el tipo de compilador y

tipo de programa son 937.2 y 61868.9, respectivamente. Da un intervalo de confianza (95%)
para la diferencia de las medias entre los dos compiladores más rápidos.
11. Se ha realizado el análisis de la varianza de un diseño con un único factor a 10 niveles con 6
observaciones para cada nivel. El nivel crı́tico que muestra la tabla ADEVA es p = 0.5832.
Los niveles crı́ticos de los contrastes individuales de igualdad de medias son mayores de 0.05
para todas las parejas excepto para la comparación entre los niveles 3 y 7 que ha sido igual a
0.0405. ¿Es posible este resultado? ¿Qué se puede concluir del análisis? ¿Qué procedimiento
sugiere para realizar los contrastes individuales?
12. Se ha realizado un diseño factorial sin replicación con tres factores A, B, C con 5, 5 y 4
niveles respectivamente. Si la interacción de tercer orden es nula, obtener la descomposición
de la variabilidad e indicar los grados de libertad de cada término.
13. Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros
totales correspondientes a efectos principales e interacciones de orden 2, 3 y 4.
14. Un ingeniero ha estudiado el efecto que tienen 5 niveles de iluminación en una operación
de ensamblado. El departamento en el que se ha experimentado tiene cuatro estaciones de
trabajo, que representan una fuente potencial de variabilidad. Para cada estación de trabajo
y nivel de iluminación se ejecutó la operación de ensamblado, midiendo la holgura en micras.
Los resultados fueron:
ESTAC. ILUMINACION
1 2 3 4 5 ȳi•
1 131 116 88 75 104 102.8
2 92 96 97 70 75 86.0
3 128 129 99 94 105 111.0
4 121 107 84 89 86 97.4
ȳ•j 118 112 92 82 92.5 ȳ•• = 99.3
(a) Contrastar (α = 0.05) si la iluminación o la estación de trabajo influye en los resultados

del ensamblado.
5
(b) Comparar los niveles de iluminación y los niveles de las estaciones de trabajo. Indicar
en cada caso cuales se pueden considerar distintos y cuales no.
(c) Calcular la varianza teórica del valor medio previsto para cada observación.
(d) Explicar por qué no se debe contrastar la hipótesis
H0 : µ1 = µ2 = ... = µm
del modelo básico de análisis

de
la varianza (un factor), mediante contrastes de la t de
m
Student a cada uno de los pares de muestras.
2
15. Se realiza un experimento para estudiar la influencia de 2 factores en el rendimiento de un

proceso, donde el factor que se encuentra a 3 niveles (Alto, medio y bajo) es la temperatura,
el otro factor, catalizador, tiene dos niveles: catalizador I y II. Los datos del experimento
se muestran en la siguiente tabla:
Alto Medio Bajo

CI 279 172 176 174 277 130 397 348 434
(215.6) (193.6) (393)
CII 253 238 387 252 367 323 417 427 423
(292.6) (314) (422.3)
(Nota: Los números entre parentesis son las medias de las casillas)
(a) Contrastar con α = 0.05 que efectos son significativos. Interprete el resultado.
(b) Determinar el intervalo con el 99% de confianza para la varianza del error experimental.
(c) Dar un intervalo para una observación realizada en condiciones óptimas. Si se realizan
10 experimentos en estas condiciones, determinar el intervalo que con probabilidad
igual al 95% contiene a todas ellas. Utilice la aproximación
zα + 1 −1
tαg = zα (1 − )
4g
donde g son los grados de libertad de la t y zα el valor de la normal estándar, tal que
P (Z ≥ zα ) = α
16. Un laboratorio de Análisis Clı́nicos ha adquirido un nuevo equipo (B) para medir el coles-
terol en la sangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide
analizar muestras de 5 enfermos que previamente han sido analizadas con otro equipo (A),
dando como resultado
Enfermo 1 2 3 4 5 Media
Equipo A 215 305 247 221 286 254.8
Equipo B 224 312 251 232 295 262.8
6
Contrastar con α = 0.05 existen diferencias entre los dos equipos.
17. Para estudiar el consumo de aceite de un motor se prueban 4 motores distintos con 3 tipos
de aceites obteniendo 12 medidas de consumo. Se ha obtenido:
Variabilidad explicada por aceite = 100
Variabilidad explicada por motor = 80

Variabilidad Total = 220
Se pide escribir la tabla ADEVA correspondiente, y obtener conclusiones.
18. Para determinar el consumo de energı́a eléctrica para usos domésticos se ha medido el con-
sumo medio por persona en las distintas estaciones del año en siete comunidades autónomas
para 1989, habiéndose obtenido los siguientes resultados:
COMUNIDAD INVIERNO PRIMAVERA VERANO OTOÑO MEDIAS
1 13.1 11.4 10.6 11.5 11.65
2 13.4 12.1 11.1 12.0 12.15
3 13.8 12.1 11.4 12.9 12.55
4 14.0 12.8 11.7 12.6 12.77
5 14.4 12.6 12.5 13.4 13.22
6 14.8 13.4 13.0 14.0 13.80
7 15.6 14.2 14.1 14.4 14.57
MEDIAS 14.16 12.66 12.06 12.97 12.96
(a) Analizar si el factor estación del año es influyente, sabiendo que ŝ2y = 1.53.(No consid-
erar el factor Comunidad).
(b) Razonar estadı́sticamente cuál es la estación de mayor consumo y la de menor, uti-
lizando el análisis anterior. Calcular los intervalos de confianza para el consumo medio
de cada estación del año.
(c) Sabiendo que la variabilidad explicada por el factor comunidad es 23.62, construir una
nueva tabla de la varianza, con dos factores, y decidir qué factor es significativo.
(d) Utilizar los resultados del apartado anterior para realizar un contraste de igualdad de
medias del efecto estación y comparar los resultados con los del apartado 2, justificando
las diferencias encontradas.
( NOTA: Utilizar α = 0.05 en todos los contrastes )
19. Se realiza un experimento para estudiar si la presencia de fluorita reduce el coste de fabri-
cación de clinker de cemento en tres tipos diferentes de mezcla. Los resultados del mismo
(en miles de pesetas por Tm) se muestran en la siguiente tabla:
7
FLUORITA MI MII MIII y i•
0% 15.4 10.6 17.8 14.6
1% 10.3 5.5 10.9 8.9
2% 7.4 1.2 8.1 5.5
3% 10.7 6.5 9.6 8.9
4% 13.5 11.6 15.5 13.5
y 11.4 7.1 12.4
5 X
X 3
e2ij = 10.2 ȳ•• = 10.3
i=1 j=1
(a) Determinar si el tipo de mezcla y el nivel de fluorita añadido influyen significativamente

en el coste de fabricación. Se supone que no existe interacción entre los dos factores.
(b) Contrastar que porcentaje de fluorita produce el menor coste del clinker.
20. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes

resultados: V T = 232, V E(factor) = 156, V E(bloque) = 15 y V NE = 61. El número de
niveles del factor es 5 y el número de bloques 8. Construir la tabla ADEVA. ¿ Cuál serı́a
el resultado del análisis si no se tiene en cuenta el efecto de los bloques ? Indicar en qué
circunstancias es preferible cada uno de los modelos.
21. Se ha realizado un experimento con tres factores, (A, B y C), con 4, 3, y 5 niveles, sin
replicaciones. El modelo propuesto no incluye las interacciones de orden 3, por lo que la
variabilidad explicada por estas interacciones se pretende utilizar para estimar la varianza
residual. Los resultados proporcionan para la variabilidad explicada por las interacciones de
orden 3 un valor igual a 234.5; que es muy superior a lo esperado. Debido a ésto se repitió
por completo el experimento, obteniéndose para este segundo experimento un valor de 158.7
(para la variabilidad explicada por la interacciones de orden 3). Proponer un procedimiento
para contrastar si se ha producido un cambio significativo en esta variabilidad de uno a otro
experimento, indicando las hipótesis en las que se basa el contraste. (Dejar el resultado del
contraste indicado en función de los valores crı́ticos de la tabla correspondiente.)
22. En un modelo de análisis de la varianza se ha observado que la desviación tı́pica (ŝi ) y la

media (y i ) de las observaciones de cada tratamiento están relacionadas linealmente, ŝi = ky i ,
donde k es una constante. ¿ Cuál de las siguientes transformaciones es la más adecuada para
corregir la heterocedasticidad ? z = log y, z = y 2 o z = ky
23. La oxidación es una etapa de la fabricación de chips y consiste en añadir una capa de
óxido sobre la placa silicio (oblea). Se está experimentando con 6 tratamientos (Ti ) para
seleccionar el que proporciona un mayor espesor de óxido en un mismo tiempo de proceso.
Una caracterı́stica que influye en el espesor es el acabado superficial de la oblea, por lo que
se tomaron 5 tipos distintos de acabado (Oj ). De cada tipo (Oj ) se tomaron 6 obleas y se
asignaron aleatoriamente a los tratamientos. En la tabla se proporciona el espesor obtenido
en cada oblea y las medias por filas y columnas.
8
T1 T2 T3 T4 T5 T6
O1 85.60 90.90 93.00 80.50 85.20 88.90 87.35
O2 89.30 91.50 93.60 83.20 87.80 91.00 89.40
O3 84.70 87.50 90.90 81.00 83.20 86.30 85.60 VT = 465.1
O4 87.60 90.50 95.60 84.60 87.60 91.10 89.50
O5 87.30 93.10 94.90 82.70 86.70 88.70 88.90
86.90 90.70 93.60 82.40 86.10 89.20 88.15
(a) Contrastar si el tipo de oblea y el tratamiento influyen en el espesor del óxido. Elegir el
tipo de oblea y tratamiento más adecuado, indicando si son significativamente distintos
del resto.
(b) Para fijar los seis tratamientos, se seleccionaron dos temperaturas (t1 , t2 ) y tres presiones
(p1 , p2 , p3 ) y se combinaron de forma que T1 = (t1 , p1 ), T2 = (t1 , p2 ), T3 = (t1 , p3 )
T4 = (t2 , p1 ), T5 = (t2 , p2 ) y T6 = (t2 , p3 ). Calcular las variabilidades explicadas por la
temperatura, la presión y su interacción (t × p).
(c) Indicar si sus efectos son significativos, suponiendo nulas las interacciones de los factores
O × t, O × p y O × t × p.
24. Demostrar que en un modelo de bloques aleatorizados, µ̂, α̂i y β̂ j son independientes.
25. Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos

muelles de acero. En una etapa del proceso el muelle caliente se sumerge en aceite templado.
Se han estudiado tres factores, A (temperatura del acero antes de la inmersión, con tres
niveles), B (temperatura del baño de aceite, dos niveles) y C (concentración de carbono en
el acero, dos niveles). El experimento se ha replicado tres veces. En la tabla se muestra la
media y la varianza (corregida) para los tres datos de cada tratamiento.
A B C yi ŝ2i
1 1 1 40.2 0.25
1 1 2 61.1 2.68
1 2 1 35.9 2.43
1 2 2 57.1 4.44
2 1 1 49.0 3.49
2 1 2 70.3 7.77
2 2 1 46.7 5.08
2 2 2 67.6 1.03
3 1 1 41.9 4.27
3 1 2 62.7 11.41
3 2 1 37.1 1.33
3 2 2 60.3 6.13
(a) Dar un intervalo del 95 % de confianza para la varianza del error experimental, σ 2 .
(b) Indicar si los efectos principales de A, B y C son significativamente distintos de cero.
9
(c) Dado σ 2 , construir un intervalo que cumpla que la probabilidad de que ŝ2i (la varianza
muestral corregida de un tratamiento) esté contenido en él sea igual a 0.95. Sustituir σ 2
por su estimador y con ayuda de este intervalo, discutir si se puede rechazar la hipótesis
de homocedasticidad de las observaciones.
26. Estimar por máxima verosimilitud los parámetros µ, αi y β j del modelo de bloques aleator-
izados. Obtener la distribución de estos estimadores, indicando su media y varianza.
27. Explicar por qué en un modelo de dos factores con interacción es necesario poner las condi-
ciones
I
X J
X I
X J
X
αi = 0, β j = 0, (αβ)ij = 0 para todo j, y (αβ)ij = 0 para todo i.
i=1 j=1 i=1 j=1
¿Se podrı́an haber puesto otras condiciones distintas a las anteriores? Justificar la respuesta.
28. La calidad de un producto quı́mico despues de un largo periodo de almacenamiento depende

del conservante empleado y de las caracterı́sticas de almacenamiento. Se ha estudiado el
efecto de cuatro conservantes distintos (columnas) y cinco almacenamientos (filas) sobre la
degradación del producto:
1 2 3 4 Medias
1 15.1 11.0 18.8 10.3 13.8
2 8.1 4.3 11.8 3.8 7.0
3 15.3 11.5 15.6 9.2 12.9
4 8.0 4.4 11.0 5.8 7.3
5 13.5 9.3 15.8 18.2 14.2
Medias 12.0 8.1 14.6 9.46 11.04
La tabla de análisis de la varianza para los datos anteriores es:
Suma de Grados de S. Cuadrados Nivel

F
Cuadrados Libertad Medios Crı́tico
Almacen. 205.488 4 51.372 10.03 0.0008
Conserv. 123.676 3 41.225 8.05 0.0033
Residuos 61.484 12 5.123
Total 390.648 19
(a) Elegir con α = 0.05 el conservante y el almacenamiento que producen menor degradación.
(b) El análisis de los residuos muestra como atı́pica la observación y54 = 18.2. Un examen
quı́mico confirma el resultado anómalo por lo que se recomienda eliminar la observación.
Según el modelo de dos factores sin interacción, la predicción de la observación yIJ
(eliminada) es:
SI∗ S∗J S∗∗
ybIJ = + −
(J − 1) (I − 1) (I − 1)(J − 1)
10
donde I = 5, J = 4, SI∗ es la suma de las observaciones de la fila I (sin incluir la elimi-
nada), S∗J es la suma de las observaciones de la columna J (sin incluir la eliminada), y
S∗∗ es la suma de las observaciones restantes no incluidas en la fila I ni en la columna
J. Obtener la distribución (media y varianza) del error de predicción eIJ = yIJ − ybIJ .
(c) Cuando, como en el caso anterior, falta una observación se recomienda el siguiente pro-
cedimiento: sustituir la observación faltante por su predicción y aplicar los contrastes
habituales teniendo en cuenta que los residuos tienen un grado de libertad menos. La
nueva descomposición de la variabilidad es: VT=339.63, VE(Conservantes)=166.02,
VE(Almacenamiento)=164.02 y VNE=9.59. Contestar al apartado 1 con esta modifi-
cación e interpretar las diferencias.
29. Una instalación tı́pica de almacenamiento de combustible en una Estación de Servicio (gaso-
linera) está formada por un tanque enterrado de gran capacidad, al que se encuentran
conectados distintos surtidores. La cantidad total de gasolina suministrada en un dı́a se
puede determinar midiendo directamente la variación que se ha producido en el tanque de
almacenamiento (Y1j ) o por la suma de los suministros de los distintos surtidores (Y2j ). La
comparación de ambas medidas permite determinar pérdidas en la instalación enterrada y
otras anomalı́as. En el proceso de comparación es necesario tener en cuenta que las medidas
están afectadas por errores aleatorios. Durante 20 dı́as se han tomado los valores anteriores
en un gasolinera:
Dı́a→ 1 2 3 4 5 6 7 8 9 10
Y1j 4116,2 5627,0 2820,4 2521,8 2973,5 2834,9 2335,7 2590,8 2182,7 2621,4
Y2j 4143,6 5632,0 2868,1 2477,7 2955,4 2851,9 2312,7 2630,6 2208,9 2635,9
Dı́a→ 11 12 13 14 15 16 17 18 19 20
Y1j 4323,6 1880,7 2131,4 3349,6 2545,0 2247,3 1817,5 1461,3 1646,5 1955,4
Y2j 4305,4 1877,9 2159,2 3366,7 2566,1 2281,4 1854,6 1461,5 1607,3 1956,4
(a) Llamando Dj = Y1j − Y2j a la diferencia en las medidas de un mismo dı́a, contrastar
con α = 0.05
H0 : µD = 0
H1 : µD 6= 0
donde Dj tiene distribución N(µD , σ D ). Calcular el nivel crı́tico del contraste aproxi-
mando la distribución t de Student por la normal.
(b) Los datos anteriores pueden ser analizados mediante un modelo de bloques aleatorizados
tomando el tipo de medida (tanque, surtidores) como un factor y los dı́as como bloques.
Demostrar con caracter general que en el modelo de bloques aleatorizados si el factor
tiene dos niveles la varianza residual cumple:
1
sb2R = sb2D
2
donde sb2D es la estimación de σ 2D del apartado 1.
(c) Teniendo en cuenta lo anterior, demostrar que el contraste correspondiente al factor en
el modelo de bloques aleatorizados es equivalente al contraste del apartado 1.
11
30. Una forma alternativa de la ecuación del modelo para comparar I tratamientos es
yij = µ + τ i + uij , i = 1, 2, ..., I; j = 1, 2, ..., m
donde
µ es la media global
2 , ..., τ I son los parámetros que determinan los efectos de cada tratamiento, cumplen
τ 1 , τP
que Ii=1 τ i = 0
uij son variables aleatorias independientes con idéntica distribución normal de media cero y
varianza σ 2 .
(a) Obtener el estimador máximo verosı́mil de τ i , indicar su distribución de probabilidad,

media y varianza.
P
(b) Calcular la esperanza de la variabilidad explicada (V E = m Ii=1 b τ 2i ) cuando los
parámetros τ i no son todos nulos.
(c) Calcular la correlación entre b
τ i y un residuo eij cualquiera (del mismo o diferente
tratamiento). Que implicación tiene este resultado en el contraste de análisis de la
varianza.
31. Un ingeniero está estudiando métodos para mejorar ciertas propiedades mecánicas de una
aleación metálica. Los dos factores que considera más importantes son la cantidad de Man-
ganeso y la temperatura de templado. Se diseña un experimento empleando tres niveles
para el factor manganeso y dos para la temperatura, en total 3×2 = 6 tratamientos. Se
dispone de 6 hornos diferentes para realizar la fundición. Cada horno requiere un operador
y se disponen de seis operadores cada uno de los cuales es capaz de manejar los seis hornos.
Diseñar un experimento que con 36 observaciones permita estudiar las diferencias entre los
seis tratamientos y que tenga en cuenta el tipo de horno y el operador como variables blo-
ques. Construir la tabla de análisis de la varianza, indicando los grados de libertadad de
cada variabilidad, separando en ella el factor manganeso, el factor temperatura y su inter-
acción. (Los bloques y los factores no interaccionan). (Nota: no es necesario indicar en la
tabla como se obtienen las distintas variabilidades).
32. Una asociación de consumidores para comprobar la utilidad de ciertos compuestos que según
sus fabricantes reducen el consumo de gasolina de los automóviles realizó el siguiente exper-
imento: eligió al azar 9 vehı́culos nuevos de distintas marcas con cilindrada similar y con
cada uno de ellos recorrió tres veces un mismo trayecto con conductores distintos. Además
en cada uno de estos tres trayectos empleó un tratamiento diferente para la gasolina:

 A: Gasolina con Cyber-Gas
Tratamiento B: Gasolina con Consumin

C: Gasolina sin aditivo
En la tabla siguiente se muestra el consumo en litros de gasolina en cada uno de los recorridos
y el tipo de tratamiento (letra latina).
12
Número Conductores Media
Vehı́culo 1 2 3 fila
1 15,5 (A) 15,6 (B) 16,6 (C) 15,90
2 13,0 (B) 13,3 (A) 13,0 (C) 13,10
3 11,8 (B) 13,1 (C) 12,5 (A) 12,47 
4 14,4 (A) 14,8 (C) 15,0 (B) 14,73  A:13,89
Media de
5 12,4 (B) 14,3 (A) 14,1 (C) 13,60 B:13,42
Tratam. 
6 15,6 (C) 15,3 (A) 14,7 (B) 15,20 C:14,18
7 12,7 (C) 12,0 (B) 12,0 (A) 12,23
8 14,2 (C) 14,0 (B) 15,1 (A) 14,43
9 12,6 (A) 13,5 (C) 12,3 (B) 12,80
Media Media Total
Columna 13,58 13,99 13,92 13,83
El análisis de los datos se realiza con el siguiente modelo
yijk = µ + αi + β j + γ k + uijk
dónde yijk representa el consumo en litros, µ la media global; αi , i = 1, 2, ..., 9 y β j , j =
1, 2, 3 los efectos correspondientes a los vehı́culos (filas) y los conductores (columnas). La
estimación e interpretación de estos parámetros es similar al modelo de bloques aleatorizados.
Además se incluye los parámetros
P3 γ k , k = 1, 2, 3 que miden el efecto de los tratamientos (tipo
de aditivo) y cumplen k=1 γ k = 0. Por último, uijk la componente aleatoria son variables
aleatorias independientes con distribución normal de media cero y varianza σ 2 para todas
las observaciones.
(a) Obtener razonadamente los estimadores máximo verosı́miles de γ k .

(b) La tabla del análisis de la varianza del modelo anterior es
Suma de Grados de
Cuadrados Libertad Varianza F p-Valor
Tratamiento 2,67 2 1,31 6,7 0,0091
Vehı́culo 40,2 8 5,02 25,7 0,0000
Conductor 0,876 2 0,438 2,2 0,1428
Residual 2,73 14 0,195

Total 46,4 26
¿Reducen los aditivos el consumo de gasolina? ¿ Existen diferencias significativas entre
Cyber-gas (A) y Consumin (B)? (Realizar los contrastes con nivel de significación 0.05).
(c) Demostrar que el diseño anterior, independientemente de los valores numéricos (yijk )
obtenidos, es un diseño ortogonal, es decir que cumple:
VT = VE(Vehı́culos) + VE(Conductores) + VE(Tratamientos) + VNE
(Nota.- Es suficiente con demostrar la ortogonalidad del vector correspondiente a los
tratamientos con respecto a los otros tres).
13
33. Un informático quiere comparar los tiempos de ejecución de tres programas realizados en
lenguajes diferentes que realizan el mismo proceso. Para hacer la comparación utilizan 4
ordenadores con microprocesadores distintos. Los tiempos requeridos por cada programa en
cada ordenador han sido:
ORDENADOR PROGRAMA
↓ A B C ȳi•
1 1,36 2,23 1,54 1,71
2 0,97 0,70 0,76 0,81
3 1,79 1,74 1,84 1,79
4 0,64 0,69 0,74 0,69
ȳ•j 1,19 1,34 1,22 1,25
¿Existen diferencias significativas en los tiempos requeridos por los 3 programas?
34. Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20%
de la variabilidad total está explicada por la interacción de los dos factores y el 40% de
la variabilidad total es debida a la variabilidad residual. Determinar el número de replica-
ciones necesarias en cada tratamiento para que la interacción sea significativa con α = 0.01.
(Explicar el procedimiento de cálculo, dejando el resultado indicado en función de las tablas).
35. Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (cien-
cias, letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el
número de incorrecciones gramaticales en artı́culos cientı́ficos enviados a publicación. Para
cada combinación de niveles de los factores se han elegido al azar tres profesores. En la tabla
se proporciona el número de fallos detectados en artı́culos de 15 páginas
Letras Ciencias
Hombre 8, 6, 13 22, 28, 33
Mujer 5, 10, 6 12, 14, 9
Contrastar con nivel de significación 0.05 si los efectos principales y la interacción son sig-
nificativos. Tener en cuenta que P (F1,8 ≤ 5.32) = 0.95, siendo F1,8 la distribución F con
grados de libertad 1 y 8. Interpretar los resultados.
36. Un alumno, como trabajo de la asignatura de estadı́stica, ha comparado tres marcas distintas
(A,B,C) de palomitas de maı́z precocinadas. Cada marca puede prepararse friendolas en
una sartén (método 1) o en el horno microondas (método 2). El alumno ha realizado un
diseño factorial completo 3×2 con cinco replicaciones en cada uno de los seis tratamientos.
La variable respuesta medida es el porcentaje de granos de maı́z que no se han inflado
adecuadamente. Los resultados del experimento se muestran en la tabla, en cada tratamiento
14
se proporciona la media y entre paréntesis la desviación tı́pica corregida para las cinco
replicaciones. Contrastar si la interacción entre los dos factores es significativa.
A B C
5.5 3.6 7.5
Sartén
(1,4) (1,8) (2,5)
3.8 3.4 4.3
Horno
(1,3) (0,9) (1,3)
37. Se ha realizado un experimento con dos factores, A (temperatura con tres niveles), B (con-
centración con cuatro niveles). El experimento se ha replicado 5 veces. En la tabla se
muestra la media y la varianza (corregida) para los 5 datos de cada tratamiento.
A B yi ŝ2i
1 1 240 1.2
1 2 261 1.6
1 3 235 1.4
1 4 257 2.4
2 1 249 1.4
2 2 270 5.7
2 3 246 5.8
2 4 267 1.7
3 1 241 4.2
3 2 262 9.4
3 3 237 1.3
3 4 260 6.1
Escribir la tabla de análisis de la varianza.
38. Se desea estudiar la influencia de 2 factores en el error de medida de un equipo de visión
artificial. Un factor F es la distancia focal, para el que se han fijado 4 niveles y el otro factor
L es el nivel de iluminación con 2 niveles. Además se dispone de 2 equipos diferentes para
realizar las medidas. Se ha tomado un patrón y se ha medido en las combinaciones indicadas
en la tabla, donde yijk es el error obtenido al situar la distancia focal i, con iluminación j y
el equipo k.
F −→ 1 2 3 4 1 2 3 4
L −→ 1 1 1 1 2 2 2 2
Equipo 1 y111 y211 y311 y411 y121 y221 y321 y421
Equipo 2 y112 y212 y312 y412 y122 y222 y322 y422
Construir la tabla de análisis de la varianza, que incluya los efectos principales debidos a la
distancia focal (F ), la iluminación (L) y el equipo, y además la interacción F ×L, suponiendo
que son nulas el resto de interacciones.
39. Cierta industria de lentes para gafas desea comparar dos tipos de recubrimiento antireflec-
tante A, B. Los dos tipos tienen idéntico aspecto y prestaciones, pero antes de decidirse por
15
uno u otro desean comprobar si el tipo de recubrimiento influye en el desgaste que sufre la
lente. Para ello construyen gafas con una lente de cada tipo que distribuyen entre 10 per-
sonas seleccionadas al azar que habitualmente utilizan gafas. Al cabo de seis meses miden
el desgaste y se obtienen los valores que se indican en la tabla.
Persona Lente A Lente B

1 6.7 6.9
2 5.0 5.8
3 3.6 4.1
4 6.2 7.0
5 5.9 7.0
6 4.0 4.6
7 5.2 5.5
8 4.5 5.0
9 4.4 4.3
10 4.1 4.8
¿Qué tipo de recubrimiento recomendarı́a a los fabricantes con el criterio de mı́nimo des-
gaste?.
40. Demuestre que en un modelo en bloques aleatorizados, con I niveles para el factor y J niveles
para el bloque, con modelo
yij = µ+αi+ β j +uij ,el valor esperado de la variabilidad explicada por el factor es: E[V E(α)] =
P
(I − 1)σ 2 + J Ji=1 α2i ,siendo σ 2 la varianza del error experimental.
41. Se desea comprobar si el orden en el que aparecen las preguntas de un examen test influye
en resultado obtenido por el alumno. Se han preparado dos examenes, el Test A tiene
las preguntas en orden de dificultad creciente y el Test B a la inversa. Se ha elegido una
muestra aleatoria de 20 alumnos y se han emparejado según su habilidad, de forma que los
dos alumnos de cada pareja han demostrado durante el curso una habilidad similar. De
cada pareja, un alumno se ha asignado aleatoriamente al Test A y el otro al Test B. Los
resultados finales del ejercicio han sido (cada pareja es una columna)
Test A: 83 82 95 92 91 60 89 69 70 72
Test B: 76 62 70 74 52 63 48 80 76 74
¿Es evidente que las puntuaciones del Test B son mas bajas que las del Test A?
42. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los si-guientes

resultados: V T = 129, V E(factor) = 38, 5 y V E(bloque) = 82, 5. El número de niveles del
factor es 4 y el número de bloques 4. Construir la tabla de análisis de la varianza y hacer
los contrastes correspondientes con nivel de significación 0,05.
16
43. Se ha estudiado la influencia de la cantidad de cierto aditivo en la opacidad de un material
plástico que se puede fabricar por tres métodos de extrusión. El objetivo es conseguir el
tratamiento con opacidad mı́nima. Cada tratamiento se ha replicado 5 veces, los valores
medios y las desviaciones tı́picas corregidas para cada caso se proporcionan en la tabla 1.
La tabla 2 corresponde al análisis de la varianza. Se ha comprobado que se verifican las
condiciones de normalidad y homocedasticidad.
Método Aditivo Medias Desv. Tı́p.

1 1 9.5 0.83
1 2 9.3 0.67
2 1 10.0 1.53 (TABLA 1)
2 2 8.1 0.77
3 1 11.5 0.78
3 2 6.0 1.23
Suma de
cuadrad. g.l. Var. F p-valor
Extrus. 2.210 2 1.105 1.072 0.358
Aditivo 47.636 1 47.636 46.2 0.000 (TABLA 2)
Interac. 37.572 2 18.786 18.2 0.000
Residual 24.728 24 1.030
Total 112.146 29
(a) A la vista de los resultados de las dos tablas indica qué método de extrusión es acon-
sejable para conseguir la opacidad mı́nima.
(b) Da un intervalo del 95% de confianza para la opacidad media en las condiciones óptimas.
(c) Sea
di = y i1 − y i2
la diferencia entre las medias observadas en los dos niveles del factor aditivos para el
método de extrusión i. Calcula el valor esperado y la varianza de di en términos de los
parámetros del modelo factorial.
(d) Si E(di) = 0 para los tres métodos, obtén la distribución de probabilidad de
5 d21 + d22 + d23

× .
2 σ2
44. Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 o C y 320 o C)
en la duración de cierto componente. Para cada combinación de horno y temperatura se
ha replicado el experimento 3 veces. En la tabla siguiente se proporcionan las medias y
desviaciones tı́picas de los datos de cada tratamiento.
17
Temperatura o C
o
290 C 320 o C
Media Desv. T. Media Desv. T.
Horno 1 245.6 8.50 180.0 2.65
Horno 2 191.0 15.39 144.0 2.65
Horno 3 187.0 4.58 134.3 8.62
Suma Grados
Fuente Cuadrado Libertad Varianza F p-valor
Horno 9646.3 2 4823.2 69.1 0.000
Temp. 13667.6 1 13667.6 195.9 0.000
HxT 274.8 2 137.4 1.97 0.182
Residual 837.3 12 69.8
Total 24426 17
Seleccionar el horno y la temperatura que proporcionan máxima duración, haciendo los con-
trastes de igualdad de medias con nivel de significación 0.01.
18
Modelos de regresión lineal
1. La tabla muestra los mejores tiempos mundiales en Juegos Olı́mpicos hasta 1976 en carrera
masculina para distintas distancias.
y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795
x: distancia (m) 100 200 400 800 1500 5000 10000 42196
(a) Estimar la regresión lineal de y sobre x y calcular la varianza residual y el coeficiente

de correlación.
(b) Obtener intervalos de confianza para la pendiente y varianza residual (α = 0.01).
(c) Analizar si la relación lineal es adecuada, transformando las variables si es necesario.
(d) Supóngase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.
Estimar el tiempo previsto para el record olı́mpico en dicha carrera, dando un intervalo
de confianza con α = 0.05.
2. Estimar por mı́nimos cuadrados los parámetros a y b de la ecuación y = a + bx2 con la

muestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).
3. Dada la recta de regresión ŷ = 3 + 5(x − 2) con r = 0.8, sˆR = 1, construir un intervalo de

confianza del 95% para la pendiente si n = 100.
4. Dado el modelo estimado con n = 25 datos, ŷ = 2 + 3(x − 4), ŝR = 5, con desviación tı́pica
del coeficiente de regresión S(βˆ1 ) = 0.5, calcular la desviación tı́pica de la predicción del
valor medio de y cuando x = 20.
5. Sir Francis Galton (1877) estudió la relación entre la estatura de una persona (y) y la estatura
de sus padres (x) obteniendo las siguientes conclusiones:
(a) Existı́a una correlación positiva entre las dos variables.

(b) Las estaturas de los hijos cuyos padres medı́an más que la media era, en promedio,
inferior a la de sus progenitores, mientras que los padres con estatura inferior a la
media en promedio tenı́an hijos más altos que ellos, calificando este hecho como de
”regresión” a la media.
Contrastar (α = 0.05) estas dos conclusiones con la ecuación ŷ = 17.8 + 0.91x resultante de
estimar un modelo de regresión lineal entre las variables (en cm.) descritas anteriormente
para una muestra de tamaño 100 si la desviación tı́pica (estimada) de β̂ 1 es 0.04.
6. La ley de Hubble sobre la expansión del universo establece que dadas dos galaxias la ve-
locidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y H
la constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxias
respecto a la Via Láctea. Se pide:
1
Galaxia Distancia Velocidad
(millones años luz) (103 Km/s)
Virgo 22 1.21
Pegaso 68 3.86
Perseo 108 5.15
Coma Berenices 137 7.56
Osa Mayor 1 255 14.96
Leo 315 19.31
Corona Boreal 390 21.56
Géminis 405 23.17
Osa Mayor 2 700 41.83
Hidra 1100 61.14
Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.
Nota: Obsérvese que según el modelo de Hubble la regresión debe pasar por el origen.
Tómese 1 año luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.
(a) Estimar por regresión la constante de Hubble.

(b) Como T = d/v = d/Hd = 1/H, la inversa de la constante de Hubble representa la
edad estimada del Universo. Construir un intervalo de confianza del 95% para dicha
edad .
7. Para establecer la relación entre el alargamiento en mm (Y ) producido en un cierto material

plástico sometido a tracción y la fuerza aplicada en toneladas por cm2 (X) se realizaron 10
experimentos cuyos resultados se muestran en la tabla
xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70
yi 23 20 33 45 67 52 86 74 98 102
Tabla: Alargamiento yi (mm) producidos por la fuerza xi (Tm/cm2 ).
(a) Ajustar el modelo de regresión lineal E(Y |x) = β 0 + β 1 x y contrastar (α = 0.01) la

hipótesis de que, en promedio, por cada Tm/cm2 de fuerza aplicada es de esperar un
alargamiento de 50 milı́metros, sabiendo que la desviación tı́pica residual vale 10.55.
(b) Si el lı́mite de elasticidad se alcanza cuando x = 2.2 Tm/cm2 , construir un intervalo
de confianza al 95% para el alargamiento medio esperado en ese punto.
(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nula
debe ser nulo también, estimar el nuevo modelo E [Y |x] = βx con los datos anteriores
¿Cuál es el sesgo del estimador del parámetro de la pendiente si se estima según el
modelo del apartado 1?
2
8. La ecuación de regresión entre las ventas de un producto y y su precio x es ŷ = 320 − 1.2x,
ŝR = 2 y ŝy = 4. Si el número de datos ha sido n = 50, contrastar H0 : β 1 = −1 frente a la
alternativa H1 : β 1 < −1.
9. Se estudia la relación entre el tiempo de reparación (minutos) de ordenadores personales y
el número de unidades reparadas en ese tiempo por un equipo de mantenimiento con los
resultados mostrados en la siguiente tabla
unidades reparadas 1 3 4 6 7 9 10
tiempo de reparación 23 49 74 96 109 149 154
Se pide:
(a) Construir la recta de regresión para prever el tiempo de reparación y utilizarla para
construir un intervalo de confianza (α = 0.01) para el tiempo medio de reparación de
8 unidades.
(b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparación para un lote
de 14 unidades.
(c) Si los tiempos de reparación fuesen medias de 10 datos. ¿Cual serı́a la recta de regresión?
10. Se realiza una regresión múltiple con tres regresores y se encuentra un coeficiente de cor-
relación de 0.5 entre los residuos de la regresión y uno de los regresores. Interpretar este
resultado.
11. La matriz de varianzas de tres variables estandarizadas es la siguiente
 
1 0.8 0.6
 0.8 1 0.2 
0.6 0.2 1
Calcular la ecuación de regresión de la primera variable respecto a las otras dos.
12. Dos variables x1 y x2 tienen la siguiente matriz de varianzas

1 0.5
0.5 1
y las regresiones simples con y son ŷ = 0.75x1 ; ŷ = 0.6x2 . Calcular la regresión múltiple
entre y y las dos variables x1 , x2 sabiendo que la variable y tiene media cero y varianza
unidad.
13. Se realiza la regresión entre la variable dependiente y y tres regresores x1 , x2 y x3 . Posterior-
mente se decide realizar la regresión entre la variable y y los tres regresores estandarizados.
Explicar cuáles son las diferencias entre los resultados de una regresión y otra en cuanto a
los coeficientes estimados β̂ i , los residuos y el coeficiente de determinación, justificando la
respuesta.
3
14. La matriz de varianzas de las variables X1 , X2 e Y es
 
25 27 14
 27 36 19.2 
14 19.2 16
Siendo X 1 = 30, X 2 = 40, Y = 100 y el número de datos n = 10.
Se pide:
(a) Realizar la regresión simple entre Y (variable dependiente) y X1 , dando el intervalo de

confianza para la pendiente de la recta con α = 0.05. Hacer lo mismo con Y y X2 .
(b) Realizar la regresión múltiple entre Y (variable dependiente) y X1 , X2 , en desviaciones
a la media.
(c) Indicar si los coeficientes de la regresión anterior son significativos.
(d) Calcular R2 para los tres modelos, comentar los resultados obtenidos e indicar qué
modelo eligirı́a y por qué.
15. Para establecer la relación entre el voltaje de unas baterı́as y la temperatura de fun-
cionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguiente
tabla
Baterı́a 1 2 3 4 5 6 7 8
Temperatura 10 10 20 20 30 30 40 40
Voltaje 7.2 7.7 7.3 7.4 7.7 9.4 9.3 10.8
Se pide:
(a) Contrastar la hipótesis (α = 0.05) de que no existe relación lineal entre el voltaje y la
temperatura.
(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterı́as de Cadmio y las 2,4, 6 y 8 con
baterı́as de Zinc. Introducir en el análisis anterior una variable cualitativa que tenga
en cuenta los dos tipos de baterı́as y contrastar si es significativa al 95%.
(c) Dar un intervalo de confianza para el voltaje de una baterı́a de Cadmio que va a trabajar
a 35◦ centı́grados. (Utilizar el modelo estimado en el apartado 2).
(d) Comprobar que se cumplen las hipótesis del modelo construido en los apartados ante-
riores.
16. ¿Cómo disminuirá la varianza teórica de los estimadores β̂ en el modelo de regresión lineal
al replicar las observaciones? (Por replicar se entiende el obtener un nuevo vector Y de la
variable respuesta manteniendo las X fijas).
4
17. Se ha estimado un modelo de regresión para la estatura (y) de un grupo de adultos y sus
estaturas a los 7 (x1 ) y 14 (x2 ) años. La desviación tı́pica residual obtenida es 5 cm y la
desviación tı́pica del coeficiente de x1 (estatura a los 7 años) resulta 2.4, siendo este efecto
no significativo al 95%. Sin embargo, un segundo modelo de regresión que incluya sólo a
esta variable (x1 ) conduce a una desviación tı́pica residual de 7 cm y a un coeficiente de
regresión de 2 con desviación tı́pica de 1. ¿Qué podemos concluir con estos resultados de la
correlación entre x1 y x2 ?
18. Se dispone de una muestra de 100 automóviles con información respecto a su consumo
(litros/100 km), peso (kg), potencia (CV), tipo de motor (I=inyección, NI=no inyección) y
nacionalidad (1=USA, 2=Alemania, 3=Japón, 4=Francia). Escribir la ecuación del modelo
de regresión lineal del consumo respecto al resto de las variables e interpretar el significado
de cada uno de los parámetros del modelo.
19. Teniendo en cuenta que mediante variables cualitativas cualquier modelo de diseño experi-
mental puede escribirse como un modelo de regresión, determinar la matriz V = X(X T X)−1 X T
de proyección y la varianza de un residuo eij para el modelo básico de análisis de la varianza
yij = µi + uij , i = 1, ..., I ; j = 1, ..., ni
Aplicarlo al caso de 3 grupos (I = 3), con 5 observaciones en el primer grupo, 4 en el segundo

y 3 en el tercero.
20. La variable y se relaciona con las variables x1 y x2 según el modelo E(y) = β 0 + β 1 x1 + β 2 x2 ;
no obstante se estima el siguiente modelo de regresión que no incluye la variable x2
ŷi = β̂ 0 + β̂ 1 x1i .
Justificar en qué condiciones el estimador β̂ 1 es centrado.

21. Se efectúa una regresión con dos variables explicativas E[y] = β 0 + β 1 x1 + β 2 x2 . La matriz
de varianzas de x1 y x2 es

2 1
1 3
¿Cuál de los dos estimadores β̂ 1 y β̂ 2 tendrá menor varianza?

22. Se estudia la relación entre los costes de fabricación totales en miles de pesetas (Y ), de 25
libros técnicos, la tirada en miles de ejemplares producidos (T ) y el número de páginas del
libro (N), encontrandose la relación
Y = 1400 + 900T + 4N
(a) Sabiendo que las desviaciones tı́picas (sin corregir por grados de libertad) de T y N
son 1.5 miles de ejemplares y 200 páginas respectivamente, y ŝR = 600, calcular un
intervalo de confianza del 90% para los efectos de T y N suponiendo que las variables
están incorreladas. Interpretar el resultado.
5
(b) Si el coeficiente de correlación entre las variables T y N es −0.5, ¿Puede admitirse la
hipótesis de que el coste asociado a la tirada es de 1.100.000 ptas. cada mil unidades?
(α = 0.05).
(c) Sabiendo que la desviación tı́pica (sin corregir por grados de libertad) de los costes de
fabricación es 2200 miles de pesetas, calcular el coeficiente de correlación múltiple y el
estadı́stico F para contrastar que ambas variables no influyen. Interpretar el resultado.
(d) Para estudiar cuánto encarecen los gráficos el precio se introduce en el modelo una
variable ficticia Z que toma el valor 1 en libros con gráficos y 0 en el resto, obteniéndose
el nuevo modelo estimado siguiente (desviaciones tı́picas entre paréntesis)
Y = 1080 + 520Z + 840T + 3.8N
(100) (16) (0.97)
Interpretar el resultado.
23. Demostrar que el coeficiente de correlación múltiple en el modelo general de regresión es

igual al coeficiente de correlación lineal entre la variable observada y y la prevista ŷ.
24. Para 11 provincias españolas se conocen los siguientes datos:
Y = número de mujeres conductoras dividido por el número de hombres conductores.
X1 = porcentaje de mujeres que trabajan sobre el total de trabajadores de la provincia.
X2 = porcentaje de población que trabaja en el sector agrı́cola.
Si se denomina X = (1 X1 X2 ) a la matriz de regresores (1 es un vector de unos) se sabe que
   
5.1 −0.12 −0.05 −0.06
(X T X)−1 =  −0.12 30.8 0.08  (X T Y ) =  0.05 
−0.05 0.08 0.001 −9.45
X
n
ŝR = 0.03; (yi − y)2 = 0.0645
i=1
Se pide:
(a) Estimar el modelo de regresión y realizar los contrastes individuales (α = 0.05). Inter-
pretar la regresión.
(b) Calcular el coeficiente de determinación R2 y realizar el contraste de que las dos vari-
ables no influyen mediante el test F (α = 0.05).
(c) Se introducen dos nuevas variables en la regresión: X3 que representa el porcentaje
de población que trabaja en los servicios, y X4 el porcentaje de población que trabaja
en otras actividades distintas de agricultura y servicios. Explicar razonadamente cómo
será la regresión al introducir estas dos nuevas variables y los efectos de cada una de
ellas.
6
25. Con los datos de la tabla, se pide:
x -2 -2 -1 -1 0 0 1 1 2 2 3 3
y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6
(a) Estimar un modelo de regresión simple con y como variable dependiente y x como
regresor. Indicar si el modelo es apropiado, justificando la respuesta.
(b) Estimar el modelo
yi = β 0 + β 1 xi + β 2 x2i + ui
y realizar el contraste H0 : β 2 = 0.
(c) El resultado de la estimación del modelo que incluye el término x3 es,
ŷi = 2.81 + 0.80xi - 0.06x2i - 0.035x3i
(0.05) (0.048) (0.019) (0.010)
con ŝR = 0.113 (entre paréntesis las desviaciones tı́picas de los estimadores). Realizar
el contraste general de regresión con α = 0.01. Seleccionar entre los tres el modelo más
adecuado, justificando la respuesta.
26. En un modelo de regresión simple se ha obtenido un coeficiente de correlación igual a −0.8.

Si el número de observaciones es n = 150, ȳ = 22 y la variabilidad total es 320. Construir
un intervalo de confianza al 95% para el valor medio de la variable dependiente (y) cuando
x (regresor) es igual a x̄. (Aproximar la distribución t de Student correspondiente por una
distribución normal, si Z N(0, 1), P (Z ≤ 1.96) = 0.975).
27. En una planta piloto se obtiene un nuevo producto mediante un proceso quı́mico. Con el
fin de mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres
temperaturas diferentes. Los resultados del experimento son
Temperatura
0
Catalizador 20 300 400
A 115 125 130 140 110 120
B 115 105 135 145 100 110
(a) Contrastar si los factores Temperatura y Catalizador tienen efectos significativos. (α =

0.05)
(b) ¿Qué tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garan-
tizar una probabilidad de error tipo I total, αT = 0.03?
(c) Estimar y contrastar el modelo de regresión simple entre el rendimiento y la tempera-
tura. ¿Qué conclusiones obtiene? Proponga un modelo de regresión que subsane las
deficiencias encontradas.
7
28. El modelo de regresion múltiple se puede escribir en notación matricial
Y = Xβ + U
donde U es el vector de variables aleatorias que cumple las hipótesis de normalidad, inde-
pendencia y homocedasticidad. Deducir razonadamente la distribución, media y matriz de
varianzas del vector de residuos e = Y − X β̂.
29. La empresa de bebidas gaseosas CIBELES quiere determinar la influencia sobre la presión
interna (yi ) en los botes de refresco de dos variables continuas (x1 , x2 ) y del tipo de bebida
(NARANJA=1, LIMON=2 y COLA=3). Para distintos valores de x1 y x2 y 20 botes de
cada sabor, ha medido la presión interna. El tipo de bebida se representa por las variables z1 ,
z2 y z3 qué identifican el sabor NARANJA, LIMON y COLA, respectivamente. El modelo
estimado de regresión de y con respecto a x1 , x2 , z2 y z3 es:
ŷ = 19.4 + 77.2x1 − 50.8x2 + 2.95z2 + 5.52z3 ; ŝR = 4.32

donde  
0.1772 −0.6909 −0.5043 −0.0605 −0.0896
 −0.6909 5.8085 0.2541 0.1478 0.2444 
 
T
(X X) −1
=
 −0.5043 0.2541 5.0070 −0.0680 0.1216 

 −0.0605 0.1478 −0.0680 0.1049 0.0546 
−0.0896 0.2444 0.1216 0.0546 0.1127
(a) Realizar los contrastes individuales con α = 0.01, indicando las variables que influyen
significativamente en la presión. Interpretar el resultado explicando el significado de
cada parámetro.
(b) Si se realiza una regresión entre la presión interna (yi ) y las dos variables continuas x1
y x2 se obtiene el siguiente modelo de regresión
ŷ = 23.86 + 65.1x1 − 56.3x2 ; ŝR = 4.78.
Contrastar (α = 0.01) conjuntamente que el tipo de bebida no influye. (H0 : α2 = α3 =

0 frente a H1 : α2 ó α3 es distinto de cero).
(c) ¿Existe diferencia significativa en las presiones internas de los botes de LIMON y
COLA? (α = 0.01)
30. Estimar por máxima verosimilitud los parámetros β 1 y β 2 del modelo
yi = β 1 x1i + β 2 x22i + ui ; ui N(0, σ).
¿En qué condiciones los estimadores obtenidos por máxima verosimilitud son iguales que los
obtenidos por mı́nimos cuadrados?
31. Obtener la relación entre el coeficiente de determinación R2 y el coeficiente de determinación

2
corregido R . ¿ Que ventajas presenta el segundo frente al primero ?
8
32. Con el fin de reducir el tiempo de secado se han realizado 20 ensayos con cementos de
distintas caracterı́sticas. El ajuste por mı́nimos cuadrados de la ecuación de regresión entre
el tiempo de secado y una de las variables x1 es
ŷ = 17.1 + 2.9x1 , ŝR = 12.8, R2 = 0.37
(a) Obtener el intervalo de confianza al 95% para el parámetro de la pendiente de la recta

e indicar si su efecto es significativo.
(b) Incluir en el modelo de regresión otra variable independiente x2 , sabiendo que su var-
ianza muestral es s22 = 9.2, la covarianza entre las dos variables independientes es
s12 = −3.35 y la covarianza entre el tiempo de secado y la nueva variable s2y = 9.55.
Realizar los contrastes individuales para los parámetros de x1 y x2 .
(c) Un estudio teórico del problema indica que el efecto de las dos variables es igual y que
por tanto, la ecuación de regresión deberı́a ser
ŷ = b̂0 + b̂1 (x1 + x2 ).
Con la información de los apartados anteriores, obtener b̂1 y contrastar si la pendiente

de la recta es significativamente distinta de cero.
33. En el análisis de regresión simple entre dos variables, se considera como importante desde
el punto de vista práctico, una correlación entre las dos variables igual o superior a r = 0.1.
Determinar el número mı́nimo de observaciones con las que se debe estimar el modelo de
regresión para que una correlación igual a 0.1, implique que el regresor tiene un efecto
significativo sobre la variable dependiente. (Aproximar la distribución t de Student corre-
spondiente por una distribución normal, si Z N(0, 1), P (Z ≤ 1.96) = 0.975).
34. Interpretar geométricamente el problema de estimación por mı́nimos cuadrados en regresión

múltiple. Demostrar que los residuos del modelo se obtienen mediante la expresión e =
P Y , donde Y es el vector correspondiente a la variable dependiente y P es una matriz de
dimensión n × n. Determinar P en términos de la matriz X de los regresores. A partir de
la expresión anterior, obtener la distribución de probabilidad de los residuos, la media y la
matriz de varianzas.
35. Una de las etapas de fabricación de circuitos impresos requiere perforar las placas y recubrir
los orificios con una lámina de cobre mediante electrólisis. Una caracterı́stica esencial del
proceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluar
el efecto de 7 variables, X1 : Concentración de Cobre, X2 : Concentración de Cloruro, X3 :
Concentración de Ácido, X4 : Temperatura, X5 : Intensidad, X6 : Posición y X7 : Superficie
de la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales y
los resultados de cada experimento se muestran en la tabla.
9
X1 X2 X3 X4 X5 X6 X7 Y
1 1 -1 1 1 1 -1 2.13
1 -1 1 1 1 -1 -1 2.15
-1 1 1 1 -1 -1 -1 1.67
1 1 1 -1 -1 -1 1 1.53
1 1 -1 -1 -1 1 -1 1.49
1 -1 -1 -1 1 -1 1 1.78
-1 -1 -1 1 -1 1 1 1.80
-1 -1 1 -1 1 1 -1 1.93
-1 1 -1 1 1 -1 1 2.19
1 -1 1 1 -1 1 1 1.61
-1 1 1 -1 1 1 1 1.70
-1 -1 -1 -1 -1 -1 -1 1.43
Responder a las siguientes preguntas aplicando el modelo de regresión múltiple, teniendo en

cuenta que X T X = 12I8 , donde I8 es la matriz identidad de 8 × 8.
(a) Estimar el modelo de regresión múltiple

yi = β 0 + β 1 x1i + β 2 x2i + β 3 x3i + β 4 x4i + β 5 x5i + β 6 x6i + β 7 x7i + ui .
Obtener la descomposición de la variabilidad del modelo y realizar el contraste

H0 : β 1 = β 2 = β 3 = β 4 = β 5 = β 6 = β 7 = 0
frente a la hipótesis alternativa H1 : algún β j es distinto de cero.
(NOTA.: X T Y = (21.41, −0.03, 0.01, −0.23, 1.69, 2.35, −0.09, −0.19)T )
(b) Realizar cada uno de los contrastes individuales e indicar qué variables tienen efecto
significativo.
(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar el
modelo y contrastar sus coeficientes. Interpretar los resultados del experimento.
36. Una medida crı́tica de calidad en la fundición de llantas de aluminio por inyección es la
porosidad. Se ha realizado un diseño experimental para analizar la porosidad (Y ) en función
de la temperatura (T ) del aluminio lı́quido y de la presión (P ) con que éste se inyecta al
molde. Se han realizado n=16 experimentos y el modelo obtenido ha sido
ŷ =2.84 + 0.59 T - 0.031 P

(.048) (.048) (.048)
+ 0.26 T2 + 0.30 P 2 - 0.22 T P
(.048) (.048) (.068)
Entre paréntesis se proporciona la desviación tı́pica estimada para cada uno de las estima-
2
ciones de los parámetros del modelo. Además ŝR = 0.137 y R = 0.9267. Las condiciones
experimentales se eligieron de forma que los cinco regresores utilizados en el modelo están
incorrelados.
10
(a) Realizar el contraste F general de regresión y los contrastes individuales de todos los
coeficientes del modelo, indicando cuál es significativamente distinto de cero.
(b) Demostrar que si los regresores estan incorrelados, al eliminar alguno del modelo,
las estimaciones de los restantes no varı́an. Además, si se elimina el regresor j, con
parámetro estimado β̂ j , la variabilidad no explicada del nuevo modelo V NE1 es igual
2
a V NE0 + ns2j β̂ j , donde V NE0 es la variabilidad no explicada del modelo con todos
2
los regresores. Obtener ŝR y R para el modelo que únicamente incluye los parámetros
significativos.
(c) Determinar en qué condiciones de presión y temperatura la porosidad es mı́nima según
el modelo anterior y dar un intervalo para predicción de la porosidad media en estas
condiciones. (Si t es la temperatura medida en grados centı́grados (0 C) y p la presión
en kg/cm2 , P
T = (t − 650)/10
P P y P = (pP− 975)/25. En P estas unidades se cumple que ni=1 Ti = 0,
n n 2 n 2 n
i=1 Pi = 0, i=1 Ti = 8, i=1 Pi = 8, i=1 Ti Pi = 0)
37. Demostrar que cuando todos los regresores están incorrelados,

Pk el coeficiente de determinación
2 2
de un modelo de regresión múltiple cumple R = j=1 rj , donde k es el número de regresores
y rj el coeficiente de correlación entre el regresor j y la variable dependiente.
38. Explicar el concepto de multicolinealidad en regresión múltiple, cómo se identifica y cuáles

son sus efectos sobre (a) los estimadores β̂ i , (b) los residuos y (c) las predicciones.
39. Demostrar que en un modelo de regresión simple y y el estimador de la pendiente β̂ 1 son

independientes. Utilizar esta propiedad para calcular la varianza de β̂ 0 = y − β̂ 1 x.
40. La masa M de un cristal de hielo depositado en una cámara a temperatura (-5o C) y humedad
relativa constante crece según la ecuación M = αT β , donde T es el tiempo y α y β son
parámetros desconocidos. La relación anterior se linealiza con la transformación logarı́tmica,
estimándose el siguiente modelo
log M = log α + β log T + u
donde el término añadido u son los errores experimentales, que se consideran aleatorios e
independientes con distribución normal, N(0,σ 2 ). Diez cristales del mismo tamaño y forma se
introdujeron en una cámara, extrayéndose secuencialmente según unos tiempos previamente
establecidos. Para determinar la influencia del tipo de cámara, se repitió exáctamente el
experimento en una segunda cámara. Los valores de ŝR para la cámara 1 y 2 son 0.64 y
0.50, respectivamente. Los modelos estimados para cada cámara, X T X y (X T X)−1 son:

log M1 = −7.30 + 2.40 log T T 10.00 46.66
X X=
log M2 = −5.74 + 2.03 log T 46.66 218.9

T −1 18.27 −3.89
(X X) =
−3.89 0.835
11
(a) Contrastar con nivel de significación 0.05 si los dos modelos tienen la misma pendiente.
Lo mismo para la ordenada en el origen. (NOTA.- Aceptar que la varianza de los
dos modelos es la misma y estimarla como el promedio de las dos varianzas residuales
calculadas.)
(b) Un modelo de regresión múltiple Y = Xβ + U, se replica, es decir se obtienen dos
vectores de variables respuesta Y1 , Y2, para los mismo regresores (matriz X). Demostrar
que si β̂ 1 y β̂ 2 son los resultados de la estimación de β utilizando por separado la variable
Y1 e Y2 ; entonces el estimador de β con todos los datos es (β̂ 1 + β̂ 2 )/2.
(c) Estimar un único modelo con los datos de las dos cámaras. Sabiendo que Y T Y = 306.8,
donde Y = log M, dar un intervalo de confianza al 99% para los dos parámetros.
41. El molibdeno se añade a los aceros para evitar su oxidación, pero en instalaciones nucleares
presenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Se
ha realizado un experimento para determinar el grado de oxidación del acero en función del
porcentaje de molibdeno. Además se ha tenido en cuenta el efecto del tipo de refrigerante
utilizado (R1 , R2 ). Los resultados se muestran en la tabla.
Molibdeno (%)
Refrig. 0.5% 1% 1.5% 2% Medias
R1 26.2 23.4 20.3 23.3 23.3
R2 34.8 31.7 29.4 26.9 30.7
R1 33.2 31.3 28.6 29.3 30.6
R2 43.0 40.0 31.7 33.3 37.0
Media 34.3 31.6 27.5 28.2 30.4
(a) Escribir un modelo de regresión que incluya el porcentaje de molibdeno y el tipo de re-
frigerante como regresores; estimar el modelo e indicar qué parámetros son significativos
(α = 0.05)).
(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalación
y los correspondientes a las dos últimas en otra distinta. Escribir un nuevo modelo que
incluya este aspecto. Comprobar que este nuevo regresor está incorrelado con los dos
anteriores. Estimar el nuevo modelo.
(c) Demostrar que en un modelo con los regresores incorrelados, la eliminación de uno
de ellos no influye en el valor de los estimadores β̂ i , (i 6= 0) restantes. ¿ Influye en
la varianza residual y en los contrastes ? Explicar este efecto en función de que el
parámetro β del regresor eliminado sea o no nulo.
42. Demostrar que en un modelo de regresión múltiple estimado por máxima verosimilitud, los
residuos cumplen
X n
ej xij = 0,
j=1
donde [xi1, xi2, ..., xin, ] es cualquier regresor del modelo. Obtener la distribución conjunta
del vector de residuos. Si σ 2 es la varianza teórica de la componente aleatoria del modelo,
indicar en que circuntancias la varianza de un residuo es mayor que σ 2 .
12
43. Se dispone de una muestra de 86 vehı́culos, de los cuales 31 son japoneses (J), 41 norteame-
ricanos (N) y 14 europeos (E). La media y desviación tı́pica del consumo de gasolina (en litros
cada 100 Km) para los coches japoneses es y J = 9.1781, b sJ = 1.42, para los norteamericanos
y N = 9.7274, b
sN = 1.25 y para los europeos y E = 10.64, b sE = 1.36.
(a) Suponiendo que los vehı́culos escogidos son muestras aleatorias independientes y que
pueden aplicarse las hipótesis de normalidad y homocedasticidad, contrastar la hipótesis
de que el lugar de fabricación no influye en el consumo de combustible. ¿Existe algún
grupo con un consumo significativamente menor que los otros dos?
(b) Los coches tienen caracterı́sticas muy diferentes (peso, potencia,...) que deben ser
tenidas en cuenta para hacer la comparación anterior. Con esa finalidad, se ha ajustado
el siguiente modelo de regresión:
yb = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE sb2R = 0.506, R2 = 75.7%
donde (X T X)−1 es:

 
4.791e − 1 5.054e − 2 −3.794e − 1 −9.157e − 2 −4.682e − 2
 5.054e − 2 1.595e − 1 −1.931e − 1 −3.443e − 3 −1.262e − 2 
 
 −3.794e − 1 −1.931e − 1 4.646e − 1 5.210e − 2 2.865e − 2 
 
 −9.157e − 2 −3.443e − 3 5.210e − 2 6.667e − 2 2.744e − 2 
−4.682e − 2 −1.262e − 2 2.865e − 2 2.744e − 2 9.759e − 2
dónde la variable dependiente es el consumo, Pot (potencia) está expresada en unidades
de 100 Cv, el Peso en Toneladas, ZJ toma el valor 1 si el coche es japonés y cero en
los demás, y ZE toma el valor 1 para los coches europeos y cero en los demás. Realizar
el contraste general de regresión para el modelo anterior e interpretar los coeficientes
estimados.
(c) Con el modelo de regresión anterior realizar los tres contrastes siguientes:
(c.1) No existe diferencia en el consumo de los coches japoneses y europeos.
(c.2) No existe diferencia en el consumo de los coches japoneses y norteamericanos.
(c.3) No existe diferencia en el consumo de los coches europeos y norteamericanos.
Comparar los resultados con los obtenidos en el apartado 1, explicar a qué se deben las
diferencias y justificar cuál es el modelo más adecuado para hacer las comparaciones.
44. El modelo de regresión múltiple con n observaciones y k + 1 variables independientes (in-

cluyendo la constante β 0 ) se puede escribir en notación matricial como
Y = Xβ + U,
donde U es el vector de variables aleatorias que cumple las hipótesis de normalidad, inde-
pendencia y homocedasticidad y la matriz de los regresores X es de dimensión n × (k + 1).
Demostrar que si se transforma linealmente la matriz X, esto es, W = XA, donde A es
cualquier matriz cuadrada de dimensión (k + 1) × (k + 1) y rango máximo, entonces la
regresión de Y con la nueva W proporciona las mismas predicciones y los mismos residuos.
Justificar geométricamente este resultado.
13
45. La resistencia a la tracción (y) de una aleación metálica en función de la temperatura de
templado (x) se ha ajustado con una ecuación de regresión para 30 observaciones resultando:
ŷ = 276.1 + 1.9x, ŝR = 15.7, R2 = 0.43
Se puede concluir con una confianza del 95% que la temperatura de templado tiene efecto
significativo en la resistencia a la tracción.
46. En Cosby Creek, una ciudad al sur de las montañas Apalaches, se ha hecho un estudio para
determinar cómo el pH y otras medidas de acidificación del agua se ven afectadas durante
las tormentas. En concreto se han obtenido 17 datos durante cada una de las tres tormentas
monitorizadas para un total de 19 variables, aunque en este análisis se analizarán solo 2, el
pH y el denominado Weak Acidity (WA). Se ha estimado el modelo de regresión múltiple
del valor pH con respecto a la variable WA y para cada una de las tres tormentas. Las
tormentas se representan con las variables ficticias z1 , z2 y z3 que identifican respectivamente
la tormenta 1, 2 y 3. El modelo estimado de regresión de y con respecto a WA, z1 , z2 y z3
es:
c = 5.77 − 0, 00008W A + 0, 998z1 + 1, 65z2 − 0, 005z1 W A − 0, 008z2W A,
pH R2 = 0, 866
(0,000727) (0,4664) (0,4701) (0,0014) (0,0016)
Entre paréntesis las deviaciones tı́picas estimadas de los estimadores de los parámetros cor-
respondientes.
(a) Realice el contraste general de regresión y los contrastes individuales con α = 0, 05

indicando las variables que influyen significativamente en el pH. Interprete el significado
de cada parámetro.
(b) Proporcione sendos intervalos de confianza al 95% para los parámetros de las interac-
ciones z1 W A y z2 W A. ¿Qué conclusiones pueden extraerse? ¿Se puede simplificar el
modelo?
47. Dos becarios del Departamento de Ciencias Sociales están interesados en el estudio de la
Tasa de Mortalidad Infantil (TMI). Para ello, han recogido en 107 paı́ses dicha magnitud
ası́ como la alfabetización (A), el PIB y la población (Pob) en cada uno de ellos.
Las medias y desviaciones tı́picas corregidas de estas 4 variables son:
TMI A PIB Pob

Media 42.67 78.34 5831.4 48501
DT corregida 38.3 22.88 6537.24 147.991
(a) Si el coeficiente de correlación entre TMI y A vale -0.9005 estime el modelo de regresión
simple en el que TMI es la variable respuesta y A la variable explicativa y contraste si
la pendiente estimada es significativa.
(b) Los becarios han estimado un modelo de regresión múltiple en que la variable depen-
diente es TMI y las variables independientes son A, PIB y Pob. Observando que la
diagnosis del modelo es inadecuada. Estime el modelo de regresión múltiple entre TMI
(variable dependiente) y los regresores A, log(PIB) y log(Pob). Para ello se proporciona:
14
 
0.0259 −0.0499 0.0001
e ′ X)
(X e −1 = 10−3 −0.0499 0.3186 0.0007
0.0001 0.0007 0.0004
 
−8.3651
e ′ Ye ) = 104 −1.7007
(X
5.1293
siendo Xe la matriz de estos 3 últimos regresores en desviaciones a la media e Ye el vector

respuesta en desviaciones a la media. ¿Son significativos los coeficientes estimados?
c. Para el modelo del apartado anterior realice el contraste general de regresión. ¿En-
cuentra contradicciones entre el resultado de los contrastes individuales del apartado 2
y el del apartado 3? Justifique la respuesta.
d. Los paı́ses objeto del estudio se pueden clasificar en desarrollados y no desarrollados.
Para ello se introduce la variable cualitativa Z que toma valor 0 si el paı́s es desarrollado
y 1 si no lo es. El modelo resultante se presenta a continuación:
T MI = 138.2 − 1.1A − 9.6 log(P IB) + 3.3Z con sb2R = 196.3
Todos los coeficientes estimados resultan significativos. Interprete dichos coeficientes y elija
de manera razonada el mejor modelo de entre los propuestos en el segundo y cuarto apartados
NOTA: Utilice α = 0.05 para todos los contrastes que sean necesarios.
48. Se ha realizado la regresión entre la anchura y la longitud del pie en centı́metros con datos
de chicos y chicas de cuarto curso de la enseñanza secundaria. En la tabla se proporciona el
resultado de la regresión. En el modelo se ha incluido una variable cualitativa que toma el
valor 1 si la observación corresponde a una chica y 0 si es a un chico. Interpreta el resultado
del análisis.
Multiple Regression Analysis

-----------------------------------------------------------------------------
Dependent variable: Anch
-----------------------------------------------------------------------------
Standard T
Parameter Estimate Error Statistic P-Value
-----------------------------------------------------------------------------
CONSTANT 4,29977 1,12692 3,81551 0,0005
Long 0,21311 0,048554 4,38913 0,0001
Chica -0,272394 0,127844 -2,13067 0,0402
-----------------------------------------------------------------------------
Analysis of Variance
15
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Model 4,60164 2 2,30082 16,41 0,0000
Residual 4,90599 35 0,140171
-----------------------------------------------------------------------------
Total (Corr.) 9,50763 37
R-squared = 48,3994 percent
49. Según la ecuación de los gases ideales, la presión ejercida por un gas a volumen y temperatura
constante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimar
el peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se va
soltando poco a poco gas, variando la presión, pero manteniendo la temperatura constante.
En la tabla adjunta se proporcionan mediciones de la presión (con respecto a la atmosférica)
y de la masa del gas para el árgon.
Presión (psi) Masa (g)

52 1, 028
49 0, 956
44 0, 88
39 0, 793
34 0, 725
29 0, 645
25 0, 593
21 0, 526
19 0, 5
19 0, 442
11 0, 373
0 0, 21
(a) Para estimar el peso molecular del árgon a partir de los datos, se propone el siguiente
modelo de regresión
Pi = αmi + ui , con ui ∼ N(0, σ 2 ).

Obtener el estimador de máxima verosimilitud del parámetro α
(b) Realizar el contraste H0 : α = 50 frente a H1 : α 6= 50 con nivel de significación 0.05.
(c) Para el modelo del apartado 1, obtener un intervalo de predicción para la presión cuando
la masa es igual a 1 gramo.
(d) Se considera también el modelo alternativo
Pi = β 0 + β 1 mi + ui con ui ∼ N(0, σ 2 ).
16
Obtener la varianza del estimador de E[Ph |mh ], es decir del valor medio de la presión Ph
para una masa dada mh con ambos modelos. Si el modelo verdadero fuese el del primer
apartado, ¿qué efecto tendrı́a sobre la predicción adoptar el modelo alternativo?
50. Se ha estimado un modelo de regresión con dos variables independientes y 150 observaciones
obteniéndose la siguiente ecuación:
ybi = −1.17 + 0.025 log x1 + 0.59 log x2 , sb2R = 2.48
La matriz de varianzas estimada de bb = [βb ,β

1
b ]T para el modelo propuesto es
2
−1
T 2 .253 .201
X̃ X̃ sbR = .
.201 .288
realiza el contraste general de regresión con α = 0.05:
H0 : β 1 = β 2 = 0
H1 : algún β i es distinto de cero
51. En el modelo de regresión

yi = β 0 + β 1 X1i + β 2 X2i + ui
con las hipótesis habituales, explicar como se contrasta
H0 : β1 = β2
H1 : β 1 6= β 2
52. Demostrar que en el modelo de regresión múltiple con k regresores y constante, el estadı́stico
que contrasta H0 : β 0 = β 1 = β 2 = · · · = β k = 0 frente a H1 : algún β i 6= 0, si H0 es cierta
es:
Y TV Y n−k−1
F = T
Fk+1,n−k−1
Y (I − V )Y k + 1
donde V = X(X T X)−1 X T e I es la matriz identidad de dimensión n × n.
53. En la tabla siguiente se muestra el resultado de un experimento para relacionar el calor

generado en el proceso de endurecimiento del 13 muestras de cemento en función de su
composición. Los regresores Xi corresponden al porcentaje de 4 componentes de la mezcla.
17
Fila Regresores Calor Modelo II
X1 X2 X3 X4 Y Residuo vii
1 7 26 6 60 78.5 -1.574 0.25
2 1 29 15 52 74.3 1.049 0.26
3 11 56 8 20 104.3 -1.515 0.12
4 11 31 8 47 87.6 -1.658 0.24
5 7 52 6 33 95.9 -1.393 0.08
6 11 55 9 22 109.2 4.048 0.11
7 3 71 17 6 102.7 -1.302 0.36
8 1 31 22 44 72.5 -2.075 0.24
9 2 54 18 22 93.1 1.825 0.18
10 21 47 4 26 115.9 1.362 0.55
11 1 40 23 34 83.8 3.264 0.18
12 11 66 9 12 113.3 0.863 0.20
13 10 68 8 12 109.4 -2.893 0.21
Modelo I Modelo II
Desv. Tı́p. Desv. Tı́p.
Parámetros Estimación Estimadas t Parámetros Estimación Estimadas t
Constante 62.4 70.1 0.89 Constante 52.6 2.28 23.0
X1 1.55 0.74 2.08 X1 1.46 0.12 12.1
X2 0.51 0.72 0.70 X2 0.66 0.045 14.4
X3 0.10 0.75 0.13
X4 -0.14 0.71 -0.20
Análisis de la Varianza Análisis de la Varianza

Varia- Grados Varia- Grados
Fuentes bilidad Lib. Var. F Fuentes bilidad Lib. Var. F
Explic. 2667.9 4 667.0 111.5 Explic. 2657.8 2 1328.9 229.5
Residual 47.8 8 5.98 Residual 57.9 10 5.8
Total 2715.7 12 Total 2715.7 12
En las tablas se proporcionan dos modelos de regresión lineal, con las estimaciones de los
parámetros, las desviaciones tı́picas estimadas de éstos y los estadı́sticos t de los contrastes
individuales. Debajo se incluyen las tablas de análisis de la varianza de cada modelo.
(a) Realizar los contrastes H0 : β i = 0 frente H1 : β i 6= 0 para los distintos parámetros en

los dos modelos. Realizar el contraste conjunto H0 : β 3 = β 4 = 0 frente H1 : alguno de
los dos es 6= 0. ¿Se puede concluir con éstos datos que X4 no influye significativamente
en el calor Y ?
(b) Estimar el modelo de regresión simple del calor Y y la variable explicativa X4 ¿Influye
significativamente X4 en el calor Y ? Analizar este resultado e interpretarlo teniendo
en cuenta el resultado del apartado anterior.
(c) En la tabla superior se muestran los residuos del modelo II y los elementos de la
diagonal de la matriz V = X(X T X)−1 X T . Indicar los residuos con mayor y menor
varianza, justificando la respuesta. Si se vuelve a repetir los experimentos en estas dos
18
condiciones, dar un intervalo para la predicción de los nuevos valores de la variable
dependiente (usar α = 0.05).
54. En un estudio de regresión simple con 35 observaciones ha resultado el siguiente modelo
ŷ = 0.12 + 7.6 log(x), ŝR = 1.2, R2 = 0.37
Obtener el intervalo de confianza al 95% para el parámetro de la pendiente e indicar si su

efecto es significativo.(El percentil 0.975 de la distribución t de Student con 33 grados de
libertad es 2.03)
55. Los datos siguientes corresponden a la pérdida (P) por abrasión en gr/h y su medida de
dureza (D) en grados Shore para 15 gomas de caucho de alta resistencia a la tensión (A) y
otras 15 gomas de caucho con resistencia a la tensión baja (B):
A D 75 55 61 66 71 71 81 86
A D 53 60 64 68 79 81 56
A P 128 206 175 154 136 112 55 45
A P 221 166 164 113 82 32 228
B D 45 68 83 88 59 71 80 82
B D 89 51 59 65 74 81 86
B P 372 196 97 64 249 219 186 155
B P 114 341 340 283 267 215 148
Escribir el modelo estadı́stico, indicar los parámetros y explicar el procedimiento de esti-

mación para estudiar con estos datos simultáneamente el efecto de la dureza y de la resisten-
cia a la tensión (alta o baja) en las pérdidas por abrasión. Indicar cómo contrastar con el
modelo propuesto que “las gomas de caucho con baja resistencia a la tracción tienen por
término medio mayor pérdida que las gomas con resistencia a la tracción baja.” (Nota.- No
se pide ningún cálculo numérico, los datos se presentan para ilustrar y describir el problema
de forma precisa).
56. Sea x1 la altura del tronco de un árbol y x2 el diámetro del mismo en su parte inferior. El
volumen y del tronco de árbol puede ser calculado aproximadamente con el modelo
yi = αx1i x22i + ui ,
según el cual, el volumen del tronco es proporcional al volumen de un cono con las medidas
x1i , x2i , siendo α el parámetro (desconocido) de proporcionalidad, más una componente
de error aleatorio ui . La tabla siguiente contiene los datos (en metros y metros cúbicos)
correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.
19
Obs. x1i x2i x1i x22i yi Obs. x1i x2i x1i x22i yi
1 10,1 0,117 0,14 0,062 9 19,8 0,297 1,75 0,821
2 11,3 0,13 0,19 0,085 10 26,8 0,328 2,90 1,280
3 20,4 0,142 0,41 0,204 11 21 0,351 2,60 1,034
4 14,9 0,193 0,56 0,227 12 27,4 0,376 3,90 1,679
5 23,8 0,218 1,13 0,47 13 29 0,389 4,40 2,073
6 19,5 0,236 1,09 0,484 14 27,4 0,427 5,00 2,022
7 21,6 0,257 1,43 0,623 15 31,7 0,594 11,2 4,630
8 22,9 0,269 1,66 0,722
(a) Estimar α por máxima verosimilitud suponiendo que las variables ui tienen distribución
normal de media cero, con la misma varianza e independientes.
(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalo
de predicción de su volumen (95% de confianza). La varianza residual del modelo es
0,0058.
(c) En el análisis de los residuos se observa que la varianza de los errores crece con el
volumen del tronco. Para obtener homocedasticidad se propone el siguiente modelo
transformado utilizando logaritmos neperianos,
log yi = β 0 + β 1 log x1i + β 2 log x2i + ui
El resultado de la estimación es:

Parámetro Estimación  
0, 1250 0, 0212 −0, 0317
β0 -1,45 cb =  0, 0212
y Mβ 0, 0082 −0, 0051 
β1 1,14
−0, 0317 −0, 0051 0, 0042
β2 1,86
siendo Mcb = b s2R (X T X)−1 (X es la matriz de los regresores transformados según el

β
modelo) La transformación logarı́tmica del modelo inicial (αx1i x22i ) implicarı́a que β 1 =
1 y β 2 = 2. Contrastar (nivel de significación 0.05) si estos dos valores son aceptables.
(d) Con este modelo, dar un intervalo de predicción (95% de confianza) para el volumen
del tronco del apartado 2 si la varianza residual es 0,0031.
57. La cantidad máxima yi de cierto compuesto disuelta en un litro de agua a temperatura xi

sigue el modelo de regresión simple,
yi = β 0 + β 1 xi + ui ,
dónde ui cumple las hipótesis de normalidad, homocedasticidad (Var(ui ) = σ 2 ) e indepen-

dencia. Una muestra de n disoluciones diferentes han proporcionado los valores (yi , xi ).
Además se han medido las cantidades disueltas y1′ , y2′ , ..., ym′
en otra muestra de m disolu-
ciones que se encontraban a la misma temperatura x0 . El valor x0 es desconocido. Estimar
por máxima verosimilitud los parámetros β 0 , β 1 , σ 2 y x0 utilizando las n + m observaciones.
20
58. Explicar en qué consiste el problema de la multicolinealidad en el modelo de regresión: cómo
se detecta, cómo se puede corregir y cuáles son sus efectos.
59. Ciertas propiedades del acero se mejoran sumergiéndolo a alta temperatura (T0 = 1525
o
F ) en un baño templado de aceite (t0 = 95 o F ). Para determinar la influencia de las
temperaturas del acero y del baño de aceite en las propiedades finales del material se han
elegido tres valores de la temperatura del acero y tres del baño de aceite,
 
 1450 o F  70 o F
Temperatura acero (T ) 1525 o F Temperatura aceite (t) 95 o F
 o 
1600 F 120 o F
y se han realizado los siguientes experimentos:
x1i 0 0 0 0 -1 1 -1 1 0 0 -1 1
x2i 0 0 0 0 -1 -1 1 1 -1 1 0 0
yi 49.2 49.4 47.0 49.5 28.2 88.6 54.9 31.3 59.2 43.6 41.9 58.0
dónde se ha utilizado la siguiente transformación (para simplificar cálculos)
Ti − 1525 ti − 95
x1i = y x2i = .
75 25
Estimar el modelo de regresión
yi = β 0 + β 1 x1i + β 2 x2i + β 3 x1i x2i + ui
e indicar qué parámetros son significativos para nivel de significación 0.05, teniendo en
cuenta que la desviación tı́pica residual es b
sR = 9.6. Estimar y contrastar el modelo anterior
empleando las variables originales Ti y ti .
60. Se ha ajustado un modelo de regresión para estudiar el efecto de la velocidad de corte (x1 )
y el caudal de refrigerante (x2 ) en la duración (y) de una herramienta de corte. Las tres
variables se han transformado mediante el logaritmo neperiano y el modelo estimado ha sido:
log y = 18, 30 − 5, 050 log x1 − 3, 750 log x2

(1,65) (0,19) (0,34)
(entre paréntesis se proporcionan las desviaciones tı́picas estimadas de los coeficientes estima-
dos del modelo). El número de observaciones es 32 y la desviación tı́pica residual b sR = 0, 24.
Obtener los intervalos de confianza (99%) para los tres parámetros de la ecuación de re-
gresión. El coeficiente de determinación es R2 = 0, 96, realizar el contraste conjunto de los
parámetros correspondientes a las dos variables explicativas.
61. Se ha ajustado el siguiente modelo de regresión múltiple con una muestra de 86 vehı́culos, de
los cuales 31 son japoneses , 41 norteamericanos y 14 europeos, dónde la variable dependiente
es el consumo, y los regresores: Pot (potencia) está expresada en unidades de 100 Cv, el
21
Peso en Toneladas, ZJ toma el valor 1 si el coche es japonés y cero en los demás, y ZE toma
el valor 1 para los coches europeos y cero en los demás.
yb = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE sb2R = 0.506, R2 = 75.7%
 
4.791e − 1 5.054e − 2 −3.794e − 1 −9.157e − 2 −4.682e − 2
 5.054e − 2 1.595e − 1 −1.931e − 1 −3.443e − 3 −1.262e − 2 
 
(X T X)−1 = 
 −3.794e − 1 −1.931e − 1 4.646e − 1 5.210e − 2 2.865e − 2 

 −9.157e − 2 −3.443e − 3 5.210e − 2 6.667e − 2 2.744e − 2 
−4.682e − 2 −1.262e − 2 2.865e − 2 2.744e − 2 9.759e − 2
Dar el intervalo de confianza para el consumo previsto de un coche norteamericano con una
potencia de 120 Cv y 1600 Kg de peso.
62. El modelo de regresión múltiple que relaciona el calor generado en el proceso de endurec-
imiento (variable dependiente) de 13 muestras de cemento en función de su composición
x1 , x2 , x3 y x4 , es
ybi = 62.4 + 1.55 x1i + 0.51 x2i + 0.10 x3i − 0.14 x4i
(70.1) (0.74) (0.72) (0.75) (0.71)
(entre paréntesis la desviación tı́pica estimada de las estimaciones de los parámetros). Abajo
se proporciona el coeficiente de determinación R2 de los 15 modelos de regresión diferentes
que se obtienen según los regresores elegidos.
R2 Variables en el Modelo
53.3948 x1
66.6268 x2
28.5873 x3
67.4542 x4
97.8678 x1 , x2
54.8167 x1 , x3
97.2471 x1 , x4
84.7025 x2 , x3
68.0060 x2 , x4
93.5290 x3 , x4
98.2285 x1 , x2 , x3
98.2335 x1 , x2 , x4
98.1281 x1 , x3 , x4
97.2820 x2 , x3 , x4
98.2376 x1 , x2 , x3 , x4
¿Qué variables influyen significativamente en el calor generado? Justificar la respuesta. ¿Qué

modelo seleccionarı́as para predecir el calor generado?
63. Se desea estudiar la relación entre el sueldo de 100 personas, en función del número de
años que llevan trabajando y el sector al que pertenecen, pudiéndose dividir el sector en
22
S=servicios, I=industria, A=agricultura. Escribir el modelo de regresión entre el sueldo
(variable respuesta) y el resto de las variables. Se estima este modelo de regresión obteniendo
una varianza residual sb2R = 0.25. Con el objetivo de contrastar si el sector influye en el sueldo
se estima otro modelo de regresión que no contiene ninguna variable de sector, para este
′
modelo se obtiene una varianza residual b sR2 = 0.4. Contrastar si el sector influye en el sueldo
que perciben los empleados (α = 0.05).
64. En un modelo de regresión múltiple Y = Xβ+U se realiza la transformación de los regresores
Z = XA, donde X es la matriz de los regresores, y A una matriz cuadrada de rango máximo.
Calcular la estimación de los coeficientes del nuevo modelo Y = Zβ N + U en función de los
antiguos.
65. Se ha estimado el siguiente modelo de regresión entre la variable y y los regresores x1 , x2 y
x3 ,
ŷ = 61.1 + 46.1 log x1 + 83.1 log x2 + 27.9 log x3 , ŝR = 5.49
Teniendo en cuenta que el número de observaciones es n = 60 y que
 
0.1939 −0.0892 −0.0887 −0.1534
 −0.0892 0.1924 −0.0125 0.0010 
(X T X)−1 =  −0.0887 −0.0125

0.2093 −0.0066 
−0.1534 0.0010 −0.0066 0.2613
Dar un intervalo de confianza para los 4 parámetros de la ecuación de regresión y para la
varianza del modelo (α = 0.05).
66. Se ha estimado un modelo de regresión múltiple para explicar el consumo de combustible
de automóviles en función del peso, la potencia y el lugar de fabricación. La muestra es de
86 vehı́culos, de los cuales 31 son japoneses (J), 41 norteamericanos (N) y 14 europeos (E).
yb = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE , sb2R = 0.506, R2 = 75.7%
 
4.791e − 1 5.054e − 2 −3.794e − 1 −9.157e − 2 −4.682e − 2
 5.054e − 2 1.595e − 1 −1.931e − 1 −3.443e − 3 −1.262e − 2 
 
(X T X)−1 =  −3.794e − 1 −1.931e − 1 4.646e − 1 5.210e − 2 2.865e − 2 

 −9.157e − 2 −3.443e − 3 5.210e − 2 6.667e − 2 2.744e − 2 
−4.682e − 2 −1.262e − 2 2.865e − 2 2.744e − 2 9.759e − 2
La variable dependiente, el consumo, está medida en litros cada 100 km, Pot es la potencia
y está expresada en unidades de 100 Cv, el Peso en Toneladas, ZJ toma el valor 1 si el coche
es japonés y cero en los demás, y ZE toma el valor 1 para los coches europeos y cero en
los demás. Realizar el contraste general de regresión y los contrastes individuales para el
modelo anterior. Interpretar el resultado.
67. En una muestra de 31 árboles se ha medido la altura (x1i ), el diámetro del árbol a un metro
de altura sobre el suelo (x2i ) y el volumen de madera del tronco (yi ) y se ha estimado el
siguiente modelo de regresión
log(yi ) = β 0 + β 1 log(x1i ) + β 2 log(x2i ) + ui .
Los resultados se muestran en las tablas siguientes:
23
Análisis de regresión múltiple
Variable dependiente: Log(Volumen)
Regresor Estimación Desviación tı́pica Estadı́stico t Nivel crı́tico
Ordenada en el origen -6,63162 0,79979 -8,2917 0,0
Log(Altura) 1,11712 0,20444 -5,4644 0,0
Log(Diámetro) 1,98265 0,07501 26,4316 0,0
Análisis de la varianza
Fuente Suma de cuadrados G. de L. Varianzas Cociente F Nivel crı́tico
Modelo 8,12323 2 4,06161 613,19 0,0
Residual 0,18546 28 0,00662
Total 8,30869 30
Aproximando el volumen del árbol por el de un tronco cónico, el volumen debe ser propor-
cional a kx1i x22i y tomando logaritmos
log(k) + log(x1i ) + 2 log(x2i ).
Realizar los siguientes contrastes de hipótesis con nivel de significación 0,05:

′
H0 : β 1 = 1 H0 : β 2 = 2
.
H1 : β 1 6= 1 H1′ : β 2 6= 2
68. En la tabla siguiente se presenta la estimación de la regresión entre el resultado en la prueba
del salto de longitud de 34 atletas y los tiempos de estos mismos atletas en las pruebas de
100 metros lisos, 110 metros valla, 400 metros y 1500 metros.
Coeficientes
b
β Desv. T. t p-valor
i
Constante 17.9 2.12 8.45 0.000
X1 (100 m) -.462 .266 -1.73 0.093
X2 (110 m) -.181 .124 -1.45 0.155
X3 (400 m) -3.39E-02 .070 -.485 0.631
X4 (1500 m) -4.47E-03 .004 -1.03 0.312
La variabilidad total de los datos es 4.613, la variabilidad explicada 2.199 y la variabilidad

residual 2.413. Realizar el contraste general de regresión, e interpretar el resultado del
contraste y los contrastes individuales de la tabla.
24

Problemas Con Dos Factores PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Problemas Con Dos Factores PDF

Cargado por

Copyright:

Formatos disponibles

Análisis de la Varianza

y la varianza residual ŝ2R = 198.5.

3. Se ha realizado un experimento para estudiar el efecto de un único factor con I niveles

(a) Contrastar (α = 0.05) la hipótesis

H1 : Alguna media es distinta a las demás.

6. Se desea comprobar el efecto de un tratamiento térmico sobre la resistencia de un nuevo

(a) Contrastar mediante el test de análisis de la varianza si existen diferencias significativas

7. En el modelo de análisis de la varianza para contrastar la igualdad de medias de I grupos,

9. Demostrar que en el modelo para la comparación de las medias de K tratamientos con el

10. Explicar la descomposición de la variabilidad en el modelo básico de comparación de K

(a) Contrastar si los factores Temperatura y Catalizador tienen efectos significativos. (α =

10% 20% 30%

3. Cierto Organismo Público (O.P.) encargado de certificar la composición de aleaciones de

4. Complete la tabla ADEVA siguiente y diga de que diseño se trata.

Suma de Cuad. G.L. Varianzas

5. Se ha realizado un diseño factorial sin replicación con tres factores A, B, C con 5, 5 y 4

(a) Considere solamente el efecto de la presión y estudie si es significativo (α = 0, 05),

9. Se desea estudiar la fuerza de percusión de una perforadora en función de la VELOCIDAD

0.15 0.30 0.45 0.60 Media

Las variabilidades explicadas por el RATIO, la VELOCIDAD y la interacción RAT x VEL

La variabilidad total es 62899.2, y las variabilidades explicadas por el tipo de compilador y

(a) Contrastar (α = 0.05) si la iluminación o la estación de trabajo influye en los resultados

del modelo básico de análisis

15. Se realiza un experimento para estudiar la influencia de 2 factores en el rendimiento de un

Alto Medio Bajo

Variabilidad explicada por aceite = 100

Variabilidad explicada por motor = 80

( NOTA: Utilizar α = 0.05 en todos los contrastes )

(a) Determinar si el tipo de mezcla y el nivel de fluorita añadido influyen significativamente

20. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes

22. En un modelo de análisis de la varianza se ha observado que la desviación tı́pica (ŝi ) y la

25. Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos

28. La calidad de un producto quı́mico despues de un largo periodo de almacenamiento depende

La tabla de análisis de la varianza para los datos anteriores es:

Suma de Grados de S. Cuadrados Nivel

yij = µ + τ i + uij , i = 1, 2, ..., I; j = 1, 2, ..., m

(a) Obtener el estimador máximo verosı́mil de τ i , indicar su distribución de probabilidad,

(a) Obtener razonadamente los estimadores máximo verosı́miles de γ k .

Residual 2,73 14 0,195

¿Existen diferencias significativas en los tiempos requeridos por los 3 programas?

Persona Lente A Lente B

42. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los si-guientes

Método Aditivo Medias Desv. Tı́p.

5 d21 + d22 + d23

(a) Estimar la regresión lineal de y sobre x y calcular la varianza residual y el coeficiente

2. Estimar por mı́nimos cuadrados los parámetros a y b de la ecuación y = a + bx2 con la

3. Dada la recta de regresión ŷ = 3 + 5(x − 2) con r = 0.8, sˆR = 1, construir un intervalo de

(a) Existı́a una correlación positiva entre las dos variables.

(a) Estimar por regresión la constante de Hubble.

7. Para establecer la relación entre el alargamiento en mm (Y ) producido en un cierto material

(a) Ajustar el modelo de regresión lineal E(Y |x) = β 0 + β 1 x y contrastar (α = 0.01) la

Siendo X 1 = 30, X 2 = 40, Y = 100 y el número de datos n = 10.

(a) Realizar la regresión simple entre Y (variable dependiente) y X1 , dando el intervalo de

Aplicarlo al caso de 3 grupos (I = 3), con 5 observaciones en el primer grupo, 4 en el segundo

Justificar en qué condiciones el estimador β̂ 1 es centrado.

¿Cuál de los dos estimadores β̂ 1 y β̂ 2 tendrá menor varianza?

23. Demostrar que el coeficiente de correlación múltiple en el modelo general de regresión es

26. En un modelo de regresión simple se ha obtenido un coeficiente de correlación igual a −0.8.

(a) Contrastar si los factores Temperatura y Catalizador tienen efectos significativos. (α =

ŷ = 19.4 + 77.2x1 − 50.8x2 + 2.95z2 + 5.52z3 ; ŝR = 4.32

ŷ = 23.86 + 65.1x1 − 56.3x2 ; ŝR = 4.78.

Contrastar (α = 0.01) conjuntamente que el tipo de bebida no influye. (H0 : α2 = α3 =

30. Estimar por máxima verosimilitud los parámetros β 1 y β 2 del modelo