Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4. Predecir la distancia por carretera entre dos ciudades cuya distancia en lnea recta
es 25. Calcular un intervalo de prediccin al 90 %. Repetir el apartado si la distancia
(LR) es 50.
DC LR DC LR DC LR
100 7 90 5 160 6 120 1 280 8 210 6
60 5 50 0 290 0 220 0 310 2 260 5
290 4 230 0 400 5 280 2 60 5 40 8
170 2 150 2 140 2 120 1 250 7 210 7
180 4 110 4 110 7 90 8 260 5 180 0
190 7 110 8 250 6 190 0 330 1 280 0
160 3 140 6 90 5 80 3
1
2 Modelos estadsticos aplicados. Juan Vilar
Este mdulo proporciona la correlacin de doce ajustes. Con los datos de este problema
los ajustes doble recproco y multiplicativo mejoran ligeramente (en correlacin) a la
regresin lineal y habra que evaluar la conveniencia de trabajar con ellos. Para calcular
el ajuste de alguno de estos modelos linealizablesse utiliza el apartado de opciones en
resumen del procedimiento.
Este mdulo tambin proporciona las observaciones con residuos grandes (residuos
atipicos), las observaciones inuyentes (puntos influyentes) y diferentes grcos que
permiten evaluar la bondad del ajuste y el cumplimiento de las hiptesis bsicas.
Y = 40 + 10 5X + ";
1. Generacin de la muestra.
5. Hacer predicciones para X = 10; 20; 30; 40; 50; 100: Calcular intervalos de conanza
y de prediccin.
- Crear la variable valor_x = 5; 8; 12; 15; 20; 22; 25; 27; 30; 33:
Introducir codes = x.
Igual que en el problema anterior el anlisis de regresin se realiza en
Predicciones
xi y^i xi y^i xi y^i xi y^i xi y^i
1 210 623 3 370 839 5 540 055 7 700 271 9 860 487
2 290 731 4 450 947 6 620 163 8 780 379 10 940 595
La varianza residual es
75
X
1 80250 61
s^2R = e2i = = 1090 94 ) s^R = 100 485:
n 2 73
i=1
(n 2) s^2R 2 2 73 1090 94
2 n 2 ) 73 00 05 2
2
73 00 95 )
80250 62
540 3245 2
940 0592 )
80250 62 80250 62
850 325 = 2
= 1470 735:
940 0592 540 3245
Intervalo de conanza para ^ 1
^1 1 80 108 1
tn 2 ) t73 00 05 t73 00 95 )
(^ 1 ) 00 4286
80 108 1
10 6664 10 6664 )
00 4286
1 2 80 108 00 4286 10 6664 = 80 108 00 7142 = 70 3938; 80 8222 :
6 Modelos estadsticos aplicados. Juan Vilar
El coeciente de correlacin es
sxy 640 6995
r= = 0 = 00 9113:
sx sy 2 82484 250 1313
En el siguiente grco se representa la nube de puntos y la recta ajustada
de donde
Tabla ANOVA
Fuentes de Suma de Grados Varianzas F test p value
variacin cuadrados libertad
scE (modelo) 39;3430 34 1 s^2e = 39;3430 34 F = 3570 86 00 0000
scR (Residual) 80250 61 73 s^2R = 1090 94 s^R = 100 48
scG (Global) 47;3680 95 74 s^2y = 6400 12 s^y = 250 30
Contraste de regresin.
s^2e 39;3430 34
d^reg = = = 3570 86 F1;73
s^2R 1090 94
) p valorreg = P (F1;73 > 3570 86) = 00 0000:
Contraste de linealidad. Dado que para cada valor de x se dispone de varias obser-
vaciones de Y; se puede hacer el contraste
75
X
scR1 = (yi: y^i )2 = 2;7650 84:
i=1
75
X
scR2 = (yi yi )2 = 5;2590 77:
i=1
X75 75
X
scR = e2i = (yi y^i )2 = 2;7650 84 + 52590 77 = 8;0250 61:
i=1 i=1
Tabla ANOVA
Fuentes de Suma de Grados Varianzas F test p value
variacin cuadrados libertad
scE (modelo) 39;3430 34 1 s^2e = 39;3430 34 Freg = 3570 86 00 0000
scR1 2;7650 84 8 s^2R;1 = 3450 731
scR2 5;2590 77 65 s^2R;2 = 800 919 Flin = 40 27 00 0004
scR (Residual) 80250 61 73 s^2R = 1090 94 s^R = 100 48
scG (Global) 47;3680 95 74 s^2y = 6400 12 s^y = 250 30
Predicciones.
Calcular intervalos de conanza al 90 % para el tiempo medio de impresin
de los trabajos que tienen 6 y 12 hojas respectivamente.
Calcular intervalos de prediccin al 90 % para el tiempo de impresin de un
trabajo que tiene 6 hojas. Calcular el intervalo de prediccin para el tiempo
de impresin de un trabajo de 12 hojas.
La prediccin para Y =X = 6 es
La varianza de prediccin es
s^2R 1090 94
V ar (^
yt ) = + s^2R = 0 + 1090 94 = 1110 4635 )
nh 72 1651
yt ) = 100 5576:
(^
10 Modelos estadsticos aplicados. Juan Vilar
Su valor de inuencia es
! !
2 2
1 xq x 1 12 50 44
hq = 1+ = 1+
n sR 75 20 82484
1
= 1 + 20 32222 = 00 08523
75
1
) nq = = 110 7323 (nmero de observaciones equivalente):
hq
La varianza de m
^ q es
s^2R 1090 94
V ar (m
^ q) = = 0 = 90 3707:
nq 11 7323
) (m^ q ) = 30 0612:
La prediccin de Y =X = 12 es
s^2R 1
V ar (^
yq ) = + s^2R = 1090 94 +1 = 1190 31:
nq 110 7323
) (^yq ) = 100 923:
1. Ajustar una recta de regresin que explique el precio en funcin del nmero de
pginas e interpretar los resultados.
Problema 4.5. La resistencia del cemento (r) depende, entre otras cosas, del tiempo
de secado del cemento (t). En un experimento se obtuvo la resistencia de bloques de
cemento con diferente tiempo de secado los resultados fueron los siguientes (Hald, A.
(1952) Statistical theory with engneering applications. Wiley & Sons). En base a esta
muestra,
4. Estudiar el modelo paramtrico propuesto por A. Hald que estudiba la relacin del
logaritmo de la resistencia del cemento sobre la inversa del tiempo de secado.
ao Y X ao Y X ao Y X
1920 1;006 50 5 1945 747 90 7 1970 476 120 7
1925 1;162 40 8 1950 732 90 6 1975 386 110 5
1930 1;479 70 8 1955 683 80 9 1980 368 110 4
1935 805 80 2 1960 686 110 4
1940 795 80 6 1965 493 100 6
Problema 4.8. El siguiente conjunto de datos era tomado sobre grupos de tra-
bajadoras de Inglaterra y Gals en el perodo de 1970-72. Cada grupo est formado por
trabajadores de la misma profesin (mdicos, trabajadores textiles, decoradores,...etc,) y
en cada uno de los veinticinco grupos muestrados se han observado dos variables: el ndice
estandarizado de consumo de cigarrillos y el ndice de muertes por cncer de pulmn.
(Occupational mortality: the registar generals decennial supplement for England and
Wales, 1970-72, series Ds, n.1, London:HMSO,149).
x y x y x y
77 84 102 88 133 146
137 116 91 104 115 128
117 123 104 129 105 115
94 128 107 86 87 79
116 155 112 96 91 85
102 101 113 144 100 120
111 118 110 139 76 60
93 113 125 113 66 51
88 104
1. Para cada uno de los cuatro conjuntos de datos, calcular la recta de regresin de Y
frente a X y el coeciente de correlacin.
2. Para cada uno de los cuatro casos, dibujar la grca de Y frente a X y la grca
de los residuos frente a las predicciones. Qu conclusiones se deducen?
Prcticas y problemas de regresin lineal simple. 15
X1 = X2 = X3 Y1 Y2 Y3 X4 Y4
10 80 04 90 14 70 46 8 60 58
8 60 95 80 14 60 77 8 50 76
13 70 58 80 74 120 74 8 70 71
9 80 81 80 77 70 11 8 80 84
11 80 33 90 26 70 81 8 80 47
14 90 96 80 10 80 84 8 70 04
6 70 24 60 13 60 08 8 50 25
4 40 26 30 10 50 39 8 50 56
12 100 84 90 13 80 15 8 70 91
7 40 82 70 26 60 42 8 60 89
5 50 68 40 74 50 73 19 120 50
Problema 4.10. Los datos de la tabla adjunta muestran la cantidad de ozono reg-
istrada (Y ) y su presin parcial (X) para cada capa de altitud. Cada capa tiene aprox-
imadamente un kilmetro de altura. Por conveniencia las capas se han escalado a un
intervalo de -7 a +7.
2. Ajustar una funcin de regresin lineal del ozono frente a la capa. Calcular la tabla
ANOVA y los contrastes de regresin y de linealidad. Conclusiones.
X Y X Y X Y X Y X Y
30 0 990 971 180 8 990 942 460 8 990 863 120 3 990 956 250 8 990 858
40 7 990 979 180 9 990 932 460 8 990 811 710 3 990 821 180 8 990 975
80 3 990 982 210 7 990 908 580 1 990 877 120 5 990 972 300 6 990 987
90 3 990 971 210 9 990 970 620 3 990 798 120 6 990 889 360 2 990 958
90 9 990 957 220 8 990 985 700 6 990 855 150 9 990 961 390 8 990 909
110 0 990 961 240 2 990 933 710 1 990 788 160 7 990 982 440 3 990 859
830 2 990 830 830 6 990 718 990 5 990 642 1110 2 990 658
1. Analizar estos datos e investigar la relacin entre estas dos variables para predecir
Y en funcin de X. Es adecuado el ajuste lineal?
1. Hacer una grca de los datos. Existe relacin entre estas dos variables?
2. Se puede explicar el consumo de gas por una relacin lineal con la diferencia de
temperatura?.
Altura Peso Altura Peso Altura Peso Altura Peso Altura Peso
135 26 141 28 149 46 148 32 149 32
146 33 136 28 147 36 149 34 141 32
153 55 154 36 152 47 141 29
154 50 151 48 140 33 164 47
139 32 155 36 143 42 146 37
131 25 137 31 146 35 137 34
149 44 143 36 133 31 135 30
Problema 4.15. El contenido en hierro de las escorias de los altos hornos puede
ser determinada por una prueba qumica en laboratorio o, de forma ms barata y rpida,
por un test magntico. Se est interesado en estudiar la relacin entre los resultados
del test qumico y del test magntico. En particular, se desea saber si a partir de los
resultados del test magntico (X) se pueden estimar los resultados del test qumico (Y )
sobre el contenido del hierro. Para ello, se han realizado los dos test a un conjunto de
lotes recogidos secuencialmente en el tiempo. Los resultados obtenidos son los de la tabla
adjunta.
Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag
24 25 18 19 17 12 21 18 20 21 25 16
16 22 20 10 19 15 24 22 24 18 15 16
24 17 21 23 16 15 15 20 24 20 16 26
18 21 20 20 15 15 20 21 23 25 27 28
18 20 21 19 15 15 20 21 29 20 27 28
10 13 15 15 13 17 25 25 27 18 30 30
14 16 16 16 24 18 27 22 23 19 29 32
16 14 15 16 22 16 22 18 19 16 26 28
25 28 25 36 32 40 28 33 25 33
Problema 4.16. Utilizando los datos del chero problema-4-16 que contiene datos
de variables de coches.
1. Estudiar la regresin lineal entre la variable mpg (miles per galon: inversa del con-
sumo) y la regresora accel (aceleracin). Existe un ajuste mejor que el lineal?
Problema 4.18. Para las compaas de seguros de hogar tiene inters estimar el
coste de reemplazar algunos objetos. Una de estas compaas estaba interesada en estimar
el coste de reemplazar una coleccin de 1554 libros a partir de una muestra de 100 libros.
El coste de los cien libros muestrales se obtena de los catlogos de las editoriales y si
algn libro estaba descatalogado su valor se calculaba utilizando el precio de un libro de
similares caractersticas. Los precios estn en peniques.
Prcticas y problemas de regresin lineal simple. 19
Dado que el valor de los libros era muy variable, en un intento de conseguir una mayor
exactitud, se utiliz como regresora para explicar el precio de un libro el ancho del lomo
del mismo (medido en milmetros). El ancho total de los 1.554 libros era de 25.182 mm.
Los datos de los cien libros se encuentran en el chero problema-4-18. En base a
estos datos, se pide:
Problema 4.20. Los datos de la tabla adjunta son el conjunto clsico de datos del
test psicolgico de Strong sobre retencin de memoria. Los datos se tomaban de la siguiente
manera: un conjunto de individuos memorizaban una lista de objetos inconexos y pasado
un tiempo la recordaba. La variable p indica el porcentage de retencin de memoria en
promedio y la variable t es el tiempo transcurrido. El objetivo del estudio era explicar la
variable p en funcin de t:
t p t p t p t p
1 00 84 60 00 54 720 00 36 10080 00 08
5 00 71 120 00 47 1440 00 26
15 00 61 240 00 45 2880 00 20
30 00 56 480 00 38 5760 00 16
2. Estudiar analtica y gracmente un modelo del tipo p = exp( t) que sugiere una
prdida geomtrica de la memoria.
Problema 4.22. En los sitemas productivos de ovejas tiene un gran inters controlar
las necesidades energticas de cada animal ya que inuyen en la prediccin de la produccin
de carne. Por ello, se ha tomado una muestra de 64 ovejas australianas y, a cada una de
ellas, se le control su peso x (en kilogramos), y sus necesidades energticas diarias Y
medidas en Mcal/da. Los resultados de la muestra se presentan en el chero problema-
4-22. En base a estos datos muestrales:
2. Estimar la media de consumo energtico de las ovejas que pesan 30, 40, 50 y 60 Kgr.
Calcular intervalos de conanza al 90 % para estos valores. Hacer el mismo clculo
pero considerando la prediccin del consumo energtico de una oveja de ese peso.
Calcular intervalos de prediccin.
Problema 4.24. El chero problema-4-24 contiene datos relativos al peso del cuer-
po (X; en kilogramos) y el peso del cerebro (Y; en gramos) de 28 especies de animales. En
base a estos datos:
1. Se observa en esta nube algn dato atpico?
2. Transformar los datos para que se pueda hacer una grca de los mismos. Realizar
la grca de los datos transformados.
3. Ajustar un modelo de regresin lineal a los datos transformados. Es el ajuste
adecuado? Interpretarlo.
4. En el modelo transformado Existen datos atpicos?.
Problema 4.25. La dureza de los rboles es difcil de medir directamente, sin em-
bargo la densidad si es relativamente fcil de medir. Por ello es de gran inters disponer
de un modelo que permita predecir la dureza de un rbol a partir de su densidad. Por este
motivo se ha tomado una muestra de 36 eucaliptos australianos y se les midi su densidad
(X) y su dureza (Y ). Los resultados obtenidos son los de la tabla adjunta.