Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Practica 4 2006 PDF
Practica 4 2006 PDF
Practica 4 2006 PDF
4. Predecir la distancia por carretera entre dos ciudades cuya distancia en línea recta
es 25. Calcular un intervalo de predicción al 90 %. Repetir el apartado si la distancia
(LR) es 50.
DC LR DC LR DC LR
100 7 90 5 160 6 120 1 280 8 210 6
60 5 50 0 290 0 220 0 310 2 260 5
290 4 230 0 400 5 280 2 60 5 40 8
170 2 150 2 140 2 120 1 250 7 210 7
180 4 110 4 110 7 90 8 260 5 180 0
190 7 110 8 250 6 190 0 330 1 280 0
160 3 140 6 90 5 80 3
1
2 Modelos estadísticos aplicados. Juan Vilar
Este módulo proporciona la correlación de doce ajustes. Con los datos de este problema
los ajustes “doble recíproco” y “multiplicativo” mejoran ligeramente (en correlación) a la
regresión lineal y habría que evaluar la conveniencia de trabajar con ellos. Para calcular
el ajuste de alguno de estos modelos “linealizables”se utiliza el apartado de opciones en
resumen del procedimiento.
Este módulo también proporciona las observaciones con residuos grandes (residuos
atipicos), las observaciones in‡uyentes (puntos influyentes) y diferentes grá…cos que
permiten evaluar la bondad del ajuste y el cumplimiento de las hipótesis básicas.
Y = 40 + 10 5X + ";
1. Generación de la muestra.
5. Hacer predicciones para X = 10; 20; 30; 40; 50; 100: Calcular intervalos de con…anza
y de predicción.
- Crear la variable valor_x = 5; 8; 12; 15; 20; 22; 25; 27; 30; 33:
Introducir codes = x.
Igual que en el problema anterior el análisis de regresión se realiza en
En este problema se puede hacer una tabla ANOVA más completa y el contraste de
linealidad en la opción contraste de falta de ajuste.
El desarrollo del resto del problema es análogo al anterior y como se dispone de un
número relativamente grande de observaciones se puede hacer un estudio más completo
acerca del cumplimiento de las hipótesis del modelo.
4 Modelos estadísticos aplicados. Juan Vilar
Predicciones
xi y^i xi y^i xi y^i xi y^i xi y^i
1 210 623 3 370 839 5 540 055 7 700 271 9 860 487
2 290 731 4 450 947 6 620 163 8 780 379 10 940 595
La varianza residual es
75
X
1 80250 61
s^2R = e2i = = 1090 94 ) s^R = 100 485:
n 2 73
i=1
(n 2) s^2R 2 2 73 1090 94
2 n 2 ) 73 00 05 2
2
73 00 95 )
80250 62
540 3245 2
940 0592 )
80250 62 80250 62
850 325 = 2
= 1470 735:
940 0592 540 3245
Intervalo de con…anza para ^ 1
^1 1 80 108 1
tn 2 ) t73 00 05 t73 00 95 )
(^ 1 ) 00 4286
80 108 1
10 6664 10 6664 )
00 4286
1 2 80 108 00 4286 10 6664 = 80 108 00 7142 = 70 3938; 80 8222 :
6 Modelos estadísticos aplicados. Juan Vilar
El coe…ciente de correlación es
sxy 640 6995
r= = 0 = 00 9113:
sx sy 2 82484 250 1313
En el siguiente grá…co se representa la nube de puntos y la recta ajustada
de donde
Tabla ANOVA
Fuentes de Suma de Grados Varianzas F test p value
variación cuadrados libertad
scE (modelo) 39;3430 34 1 s^2e = 39;3430 34 F = 3570 86 00 0000
scR (Residual) 80250 61 73 s^2R = 1090 94 s^R = 100 48
scG (Global) 47;3680 95 74 s^2y = 6400 12 s^y = 250 30
Contraste de regresión.
s^2e 39;3430 34
d^reg = = = 3570 86 F1;73
s^2R 1090 94
) p valorreg = P (F1;73 > 3570 86) = 00 0000:
Contraste de linealidad. Dado que para cada valor de x se dispone de varias obser-
vaciones de Y; se puede hacer el contraste
75
X
scR1 = (yi: y^i )2 = 2;7650 84:
i=1
75
X
scR2 = (yi yi )2 = 5;2590 77:
i=1
X75 75
X
scR = e2i = (yi y^i )2 = 2;7650 84 + 52590 77 = 8;0250 61:
i=1 i=1
Tabla ANOVA
Fuentes de Suma de Grados Varianzas F test p value
variación cuadrados libertad
scE (modelo) 39;3430 34 1 s^2e = 39;3430 34 Freg = 3570 86 00 0000
scR1 2;7650 84 8 s^2R;1 = 3450 731
scR2 5;2590 77 65 s^2R;2 = 800 919 Flin = 40 27 00 0004
scR (Residual) 80250 61 73 s^2R = 1090 94 s^R = 100 48
scG (Global) 47;3680 95 74 s^2y = 6400 12 s^y = 250 30
Predicciones.
“Calcular intervalos de con…anza al 90 % para el tiempo medio de impresión
de los trabajos que tienen 6 y 12 hojas respectivamente.
Calcular intervalos de predicción al 90 % para el tiempo de impresión de un
trabajo que tiene 6 hojas. Calcular el intervalo de predicción para el tiempo
de impresión de un trabajo de 12 hojas”.
La predicción para Y =X = 6 es
La varianza de predicción es
s^2R 1090 94
V ar (^
yt ) = + s^2R = 0 + 1090 94 = 1110 4635 )
nh 72 1651
yt ) = 100 5576:
(^
10 Modelos estadísticos aplicados. Juan Vilar
Su valor de in‡uencia es
! !
2 2
1 xq x 1 12 50 44
hq = 1+ = 1+
n sR 75 20 82484
1
= 1 + 20 32222 = 00 08523
75
1
) nq = = 110 7323 (número de observaciones equivalente):
hq
La varianza de m
^ q es
s^2R 1090 94
V ar (m
^ q) = = 0 = 90 3707:
nq 11 7323
) (m^ q ) = 30 0612:
La predicción de Y =X = 12 es
s^2R 1
V ar (^
yq ) = + s^2R = 1090 94 +1 = 1190 31:
nq 110 7323
) (^yq ) = 100 923:
1. Ajustar una recta de regresión que explique el precio en función del número de
páginas e interpretar los resultados.
Problema 4.5. “La resistencia del cemento (r) depende, entre otras cosas, del tiempo
de secado del cemento (t). En un experimento se obtuvo la resistencia de bloques de
cemento con diferente tiempo de secado los resultados fueron los siguientes (Hald, A.
(1952) “Statistical theory with engneering applications. Wiley & Sons). En base a esta
muestra,
4. Estudiar el modelo paramétrico propuesto por A. Hald que estudiba la relación del
logaritmo de la resistencia del cemento sobre la inversa del tiempo de secado.”
Problema 4.7. “Se llevó a cabo un estudio para determinar la relación entre el
número de años de experiencia (X) y el salario mensual, en miles de pesetas, (Y ) entre los
informáticos de una región española. Se tomó una muestra aleatoria de 17 informáticos y
se obtuvieron los siguientes datos
Problema 4.8. “El siguiente conjunto de datos era tomado sobre grupos de tra-
bajadoras de Inglaterra y Galés en el período de 1970-72. Cada grupo está formado por
trabajadores de la misma profesión (médicos, trabajadores textiles, decoradores,...etc,) y
en cada uno de los veinticinco grupos muestrados se han observado dos variables: el índice
estandarizado de consumo de cigarrillos y el índice de muertes por cáncer de pulmón.
(Occupational mortality: the registar general’s decennial supplement for England and
Wales, 1970-72, series Ds, n.1, London:HMSO,149).
x y x y x y
77 84 102 88 133 146
137 116 91 104 115 128
117 123 104 129 105 115
94 128 107 86 87 79
116 155 112 96 91 85
102 101 113 144 100 120
111 118 110 139 76 60
93 113 125 113 66 51
88 104
1. Para cada uno de los cuatro conjuntos de datos, calcular la recta de regresión de Y
frente a X y el coe…ciente de correlación.
2. Para cada uno de los cuatro casos, dibujar la grá…ca de Y frente a X y la grá…ca
de los residuos frente a las predicciones. ¿Qué conclusiones se deducen?”
Prácticas y problemas de regresión lineal simple. 15
X1 = X2 = X3 Y1 Y2 Y3 X4 Y4
10 80 04 90 14 70 46 8 60 58
8 60 95 80 14 60 77 8 50 76
13 70 58 80 74 120 74 8 70 71
9 80 81 80 77 70 11 8 80 84
11 80 33 90 26 70 81 8 80 47
14 90 96 80 10 80 84 8 70 04
6 70 24 60 13 60 08 8 50 25
4 40 26 30 10 50 39 8 50 56
12 100 84 90 13 80 15 8 70 91
7 40 82 70 26 60 42 8 60 89
5 50 68 40 74 50 73 19 120 50
Problema 4.10. “Los datos de la tabla adjunta muestran la cantidad de ozono reg-
istrada (Y ) y su presión parcial (X) para cada capa de altitud. Cada capa tiene aprox-
imadamente un kilómetro de altura. Por conveniencia las capas se han escalado a un
intervalo de -7 a +7.
2. Ajustar una función de regresión lineal del ozono frente a la capa. Calcular la tabla
ANOVA y los contrastes de regresión y de linealidad. Conclusiones.
3. Analizar detenidamente los residuos. ¿Se veri…can las hipótesis estructurales del
modelo? ¿Son los datos homocedásticos?
Problema 4.11. “El …chero problema-4-11 contiene once variables de 200 datos.
La primera variable se corresponde con el vector de predicción de un ajuste lineal sim-
ple y las restantes diez variables se correponden con diferentes vectores de residuos del
16 Modelos estadísticos aplicados. Juan Vilar
Problema 4.12. “En 34 lotes de 120 libras de cacahuetes se observó el nivel medio
de a‡atoxin (partes por billón) (X) y el porcentaje de cacahuetes no contaminados (Y ) :
X Y X Y X Y X Y X Y
30 0 990 971 180 8 990 942 460 8 990 863 120 3 990 956 250 8 990 858
40 7 990 979 180 9 990 932 460 8 990 811 710 3 990 821 180 8 990 975
80 3 990 982 210 7 990 908 580 1 990 877 120 5 990 972 300 6 990 987
90 3 990 971 210 9 990 970 620 3 990 798 120 6 990 889 360 2 990 958
90 9 990 957 220 8 990 985 700 6 990 855 150 9 990 961 390 8 990 909
110 0 990 961 240 2 990 933 710 1 990 788 160 7 990 982 440 3 990 859
830 2 990 830 830 6 990 718 990 5 990 642 1110 2 990 658
1. Analizar estos datos e investigar la relación entre estas dos variables para predecir
Y en función de X. ¿Es adecuado el ajuste lineal?
Problema 4.13. “En quince casas de la ciudad de Milton Keynes se observó durante
un período de tiempo la diferencia de temperatura promedio (en grados centígrados) entre
la temperatura en la calle y la temperatura en casa, y el consumo de gas diario en kWh.
1. Hacer una grá…ca de los datos. ¿Existe relación entre estas dos variables?
2. ¿Se puede explicar el consumo de gas por una relación lineal con la diferencia de
temperatura?.
Problema 4.14. “Se midió la altura (en centímetros) y el peso (en kilogramos) de
treinta chicas de once años del Heaton Meiddle School de Bradford. Estudiar estos datos
y la relación entre ambas variables.
Prácticas y problemas de regresión lineal simple. 17
Altura Peso Altura Peso Altura Peso Altura Peso Altura Peso
135 26 141 28 149 46 148 32 149 32
146 33 136 28 147 36 149 34 141 32
153 55 154 36 152 47 141 29
154 50 151 48 140 33 164 47
139 32 155 36 143 42 146 37
131 25 137 31 146 35 137 34
149 44 143 36 133 31 135 30
2. En la regresión lineal de peso frente a altura, ¿se observa alguna observación atípica?.
Problema 4.15. “El contenido en hierro de las escorias de los altos hornos puede
ser determinada por una prueba química en laboratorio o, de forma más barata y rápida,
por un test magnético. Se está interesado en estudiar la relación entre los resultados
del test químico y del test magnético. En particular, se desea saber si a partir de los
resultados del test magnético (X) se pueden estimar los resultados del test químico (Y )
sobre el contenido del hierro. Para ello, se han realizado los dos test a un conjunto de
lotes recogidos secuencialmente en el tiempo. Los resultados obtenidos son los de la tabla
adjunta.
Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag
24 25 18 19 17 12 21 18 20 21 25 16
16 22 20 10 19 15 24 22 24 18 15 16
24 17 21 23 16 15 15 20 24 20 16 26
18 21 20 20 15 15 20 21 23 25 27 28
18 20 21 19 15 15 20 21 29 20 27 28
10 13 15 15 13 17 25 25 27 18 30 30
14 16 16 16 24 18 27 22 23 19 29 32
16 14 15 16 22 16 22 18 19 16 26 28
25 28 25 36 32 40 28 33 25 33
Problema 4.16. “Utilizando los datos del …chero problema-4-16 que contiene datos
de variables de coches.
1. Estudiar la regresión lineal entre la variable mpg (miles per galon: inversa del con-
sumo) y la regresora accel (aceleración). ¿Existe un ajuste mejor que el lineal?
Problema 4.18. “Para las compañías de seguros de hogar tiene interés estimar el
coste de reemplazar algunos objetos. Una de estas compañías estaba interesada en estimar
el coste de reemplazar una colección de 1554 libros a partir de una muestra de 100 libros.
El coste de los cien libros muestrales se obtenía de los catálogos de las editoriales y si
algún libro estaba descatalogado su valor se calculaba utilizando el precio de un libro de
similares características. Los precios están en peniques.
Prácticas y problemas de regresión lineal simple. 19
Dado que el valor de los libros era muy variable, en un intento de conseguir una mayor
exactitud, se utilizó como regresora para explicar el precio de un libro el ancho del lomo
del mismo (medido en milímetros). El ancho total de los 1.554 libros era de 25.182 mm.
Los datos de los cien libros se encuentran en el …chero problema-4-18. En base a
estos datos, se pide:
Problema 4.19. “El …chero problema-4-19 contiene datos de dos nubes de pun-
tos bidimensionales ((x; Y1 ) y (x; Y2 )). Estos datos son debidos a Wampler y los generó
por simulación para comprobar cuando un determinado programa estadístico realiza con
exactitud el ajuste por mínimos cuadrados.
Problema 4.20. “Los datos de la tabla adjunta son el conjunto clásico de datos del
test psicológico de Strong sobre retención de memoria. Los datos se tomaban de la siguiente
manera: un conjunto de individuos memorizaban una lista de objetos inconexos y pasado
un tiempo la recordaba. La variable p indica el porcentage de retención de memoria en
promedio y la variable t es el tiempo transcurrido. El objetivo del estudio era explicar la
variable p en función de t:
t p t p t p t p
1 00 84 60 00 54 720 00 36 10080 00 08
5 00 71 120 00 47 1440 00 26
15 00 61 240 00 45 2880 00 20
30 00 56 480 00 38 5760 00 16
2. Estudiar analítica y gra…cámente un modelo del tipo p = exp( t) que sugiere una
pérdida geométrica de la memoria.
Problema 4.22. “En los sitemas productivos de ovejas tiene un gran interés controlar
las necesidades energéticas de cada animal ya que in‡uyen en la predicción de la producción
de carne. Por ello, se ha tomado una muestra de 64 ovejas australianas y, a cada una de
ellas, se le controló su peso x (en kilogramos), y sus necesidades energéticas diarias Y
medidas en Mcal/día. Los resultados de la muestra se presentan en el …chero problema-
4-22. En base a estos datos muestrales:
2. Estimar la media de consumo energético de las ovejas que pesan 30, 40, 50 y 60 Kgr.
Calcular intervalos de con…anza al 90 % para estos valores. Hacer el mismo cálculo
pero considerando la predicción del consumo energético de una oveja de ese peso.
Calcular intervalos de predicción.”
Problema 4.23. “El …chero problema-4-23 contiene dos conjuntos de datos bidi-
mensionales en los que no existe una relación lineal pero si es fácil encontrar la relación
existente entre las dos variables.
El primer conjunto tiene 25 observaciones de molinos de viento para la producción
de energía eléctrica, la variable X1 mide la velocidad del viento y la variable Y 1 mide la
corriente eléctrica obtenida.
El segundo conjunto tiene 19 observaciones relativas a la producción del papel, la
variable X2 mide la resistencia del papel fabricado y la variable Y 2 mide la proporción de
madera en la pulpa a partir de la cual se obtiene el papel.
Problema 4.24. “El …chero problema-4-24 contiene datos relativos al peso del cuer-
po (X; en kilogramos) y el peso del cerebro (Y; en gramos) de 28 especies de animales. En
base a estos datos:
1. ¿Se observa en esta nube algún dato atípico?
2. Transformar los datos para que se pueda hacer una grá…ca de los mismos. Realizar
la grá…ca de los datos transformados.
3. Ajustar un modelo de regresión lineal a los datos transformados. ¿Es el ajuste
adecuado? Interpretarlo.
4. En el modelo transformado ¿Existen datos atípicos?”.
Problema 4.25. “La dureza de los árboles es difícil de medir directamente, sin em-
bargo la densidad si es relativamente fácil de medir. Por ello es de gran interés disponer
de un modelo que permita predecir la dureza de un árbol a partir de su densidad. Por este
motivo se ha tomado una muestra de 36 eucaliptos australianos y se les midió su densidad
(X) y su dureza (Y ). Los resultados obtenidos son los de la tabla adjunta.