Está en la página 1de 21

Capítulo 1

Prácticas y problemas de regresión
lineal simple.



1.1. Problemas de regresión lineal simple con ordenador.

Problema 4.1.
“Los datos de la tabla adjunta proporcionan la distancia en línea recta (LR) y por
carretera (DC) entre veinte pares de puntos geográ…cos (localidades) de She¢ eld.

1. ¿Existe una relación lineal entre las dos variables?

2. ¿Es su…cientemente bueno el modelo de regresión lineal que explica la variable de
interés DC en función de la variable regresora LR?. Estimar el modelo de regresión
lineal. Calcular intervalos de con…anza al 90 % para los parámetros del modelo.

3. Calcular la tabla ANOVA del modelo. Conclusiones que se obtienen.

4. Predecir la distancia por carretera entre dos ciudades cuya distancia en línea recta
es 25. Calcular un intervalo de predicción al 90 %. Repetir el apartado si la distancia
(LR) es 50.

5. ¿Existe un modelo linealizable mejor?













1
DC LR DC LR DC LR
0
10 7
0
6 5
0
29 4
0
17 2
0
18 4
0
19 7
0
16 3
0
9 5
0
5 0
0
23 0
0
15 2
0
11 4
0
11 8
0
14 6
0
16 6
0
29 0
0
40 5
0
14 2
0
11 7
0
25 6
0
9 5
0
12 1
0
22 0
0
28 2
0
12 1
0
9 8
0
19 0
0
8 3
0
28 8
0
31 2
0
6 5
0
25 7
0
26 5
0
33 1
0
21 6
0
26 5
0
4 8
0
21 7
0
18 0
0
28 0
2 Modelos estadísticos aplicados. Juan Vilar

Desarrollo del Problema 4.1.
En primer lugar se representa la grá…ca de dispersión de la nube de puntos que permite
tener una primera idea acerca de la forma del modelo de regresión. Se utiliza el siguiente
módulo de Statgraphics

graficos > graficos de dispersion > grafico x-y

Un estudio detallado del modelo lineal simple ajustado se obtiene en

dependencia > regresion simple

Dentro de este módulo, en el apartado resumen del procedimiento, se obtiene
la recta de regresión estimada (estimación de los coe…cientes de 0 y 1; desviaciones
típicas, lo que permite calcular intervalos de con…anza de los mismos y test de la t). Este
apartado también proporciona la tabla ANOVA y los coe…cientes de determinación. En
este problema el coe…ciente de correlación es r = 0
0
969, y se concluye que el ajuste lineal
es bueno.
El apartado predicciones permite calcular predicciones e intervalos de con…anza de
la media condicionada y de predicción para una observación determinada.

Si la recta de regresión se quiere comparar con otros modelos “linealizables” se puede
hacer en el apartado comparacion de modelos alternativos

Este módulo proporciona la correlación de doce ajustes. Con los datos de este problema
los ajustes “doble recíproco” y “multiplicativo” mejoran ligeramente (en correlación) a la
regresión lineal y habría que evaluar la conveniencia de trabajar con ellos. Para calcular
el ajuste de alguno de estos modelos “linealizables”se utiliza el apartado de opciones en
resumen del procedimiento.
Este módulo también proporciona las observaciones con residuos grandes (residuos
atipicos), las observaciones in‡uyentes (puntos influyentes) y diferentes grá…cos que
permiten evaluar la bondad del ajuste y el cumplimiento de las hipótesis básicas.

Problema 4.2. (Datos simulados)
“Este problema consta de dos partes. En un primer apartado se simula un conjunto de
datos bidimensionales (xi; yi) que siguen un modelo de regresión lineal simple con diseño
…jo. En el segundo apartado se estudia el modelo de regresión que mejor se ajusta a los
datos simulados en el apartado anterior.
La variable regresora X toma los valores 5; 8; 12; 15; 20; 22; 25; 27; 30 y 33: Para cada
valor de X se tienen 15 observaciones de la variable respuesta Y; en total, 150 observaciones.
Los valores se generan a partir del modelo matemático
Y = 40 + 1
0
5X + ";
donde " sigue una distribución N 0; 10
2
:
Se seguirán los siguientes pasos:
Prácticas y problemas de regresión lineal simple. 3

1. Generación de la muestra.

2. Hacer un estudio estadístico básico de la variable condicionada Y =X:

3. Calcular la recta de regresión ajustada a las observaciones simuladas: estimación de
los parámetros, tabla ANOVA, contraste de regresión y de linealidad, intervalos de
con…anza. ¿Se obtienen resultados congruentes, la recta de regresión ajustada está
próxima a la recta generadora de las observaciones?

4. Contrastar las hipótesis estructurales del modelo. ¿Existen datos atípicos?

5. Hacer predicciones para X = 10; 20; 30; 40; 50; 100: Calcular intervalos de con…anza
y de predicción.

6. Estudiar otros modelos linealizables.

Desarrollo del Problema 4.2.
Para generar la muestra por simulación se siguen los siguientes pasos:

- Crear la variable valor_x = 5; 8; 12; 15; 20; 22; 25; 27; 30; 33:

- Generar la variable x = rep(15; valor_x):

- Generar la variable recta = 40 + 1; 5 x:

- Generar la variable error = rnormal(150; 0; 10):

- Obtener la variable respuesta y = recta + error .

La muestra (simulada) se representa en un grá…co bidimensional según el análisis

graficos > graficos de dispersion > grafico x-y

Como se dispone de varias observaciones de la respuesta para cada valor de X se debe
hacer un análisis estadístico de la variable condicionada Y =X: Para ello se utiliza el módulo

descripcion > datos numericos > analisis de subgrupo

Introducir codes = x.
Igual que en el problema anterior el análisis de regresión se realiza en

dependencia > regresion simple

En este problema se puede hacer una tabla ANOVA más completa y el contraste de
linealidad en la opción contraste de falta de ajuste.
El desarrollo del resto del problema es análogo al anterior y como se dispone de un
número relativamente grande de observaciones se puede hacer un estudio más completo
acerca del cumplimiento de las hipótesis del modelo.
.
i
i=1
x
i
=

2;818

x
2

=

37
0
5733

s
2
x
=

7
0
9797

sx

=

2
0
82484

i=1
yi

=

4;321
0
7

y

=

57
0
6227

i=1
y
i
=

296;397

y
2

=

3;951
0
96

s
2
y
=

631
0
586

sy

=

25
0
1313

i=1
xiyi

=

28;362
0
5

xy

=

378
0
167

sxy

=

64
0
6995


s
x
=

64
0
6995

7
0
9797
=

8
0
108:

2

4 Modelos estadísticos aplicados. Juan Vilar

1.2. Problema resuelto de regresión lineal simple.

Problema 4.3.
“Los datos de la tabla adjunta muestran el tiempo de impresión (Y ) de trabajos que
se han imprimido en impresoras de la marca PR. Se está interesado en estudiar la relación
existente entre la variable de interés “tiempo de impresión de un trabajo” y la variable
explicativa (X) “número de páginas del trabajo” Utilizando estos datos ajustar un modelo
de regresión”.
























Solución Problema 4.3.
Se calculan los estadísticos básicos de las variables X e Y;
n

=

75

Pn
=1
xi

=

408

x = 5
0
44

P
n 2

Pn

P
n 2

Pn

Las estimaciones de los parámetros de la recta de regresión son
^1 =
s
xy

Datos de las impresoras
x y x y x y

1
0 0 0
24 56 17 33 17 81
0 0 0
28 07 23 16 19 41
0 0
22 53 14 70

2
0 0
29 92 17 14
0 0
37 25 31 90
0 0
31 80 41 72
0
24 59

3
0 0
28 86 30 01
0 0
44 73 44 43
0 0
41 32 34 16
0
28 79

4
0 0 0
29 03 45 00 53 52
0 0 0
54 38 47 63 30 11
0 0
44 34 48 95

5
0 0
52 55 69 50
0 0
55 61 52 98
0 0
65 70 40 11
0 0
45 21 46 63

6
0 0
65 39 57 48
0 0
62 85 69 09
0 0
71 44 57 29
0
50 42

7
0 0 0
85 33 66 73 68 17
0 0 0
78 94 61 07 76 71
0 0 0
78 34 88 25 64 84

8
0 0
83 82 75 38
0 0
69 40 84 42
0 0
80 68 60 79
0 0
100 08 74 79

9
0 0
82 90 105 73
0 0
102 13 119 82
0 0
93 93 102 30

10
0 0 0
79 82 90 83 89 00
0 0 0
83 81 71 79 76 20
0
76 30

y Se calculan las predicciones ^i
La suma de cuadrados de los residuos (scR) se obtiene como
X X
y^i) =
X
i
X X X X
i i
s^
2
R
=

1

X
e
2
i
=

8025
0
61

s

ns
2
x
=

109
0
94

75 7
0
9797
=

0
0
1837

)

(^1)

=

0
0
4286:

s
2


n
1+

x
2


s
2
x
=

109
0
94


75
1+

5
0
44
2

7
0
9797
=

6
0
9022

)

(^0)

=

2
0
6272

s
2

n 2 )
2

s
2

2
54
0
3245
=

147
0
735:

) t73 0
0
05
8
0
108

0
0
4286
t
73

0
0
95

)

1
0
6664
8
0
108

0
0
4286
1
0
6664

)

Prácticas y problemas de regresión lineal simple. 5

^0 = y ^1x = 57
0
6227 8
0
108 5
0
44 = 13
0
515









75
e
2

=

75
(yi
2
75
yi 13
0
515 + 8
0
108xi
2
= 8025
0
61:

i=1 i=1 i=1

Una forma alternativa, más sencilla, de calcular scR es
75

e
2
=
75

y
2


^0
75

yi + ^1
75

xiyi
!

= 8025
0
61:

i=1 i=1 i=1 i=1

La varianza residual es


n 2

75

i=1


73
=

109
0
94

)

^R

=

10
0
485:


Las varianzas de los parámetros son

V ar(^1) =
^
R

V ar(^0) =
^
R

Intervalos de con…anza (al 90 %) y contrastes de hipótesis sobre los parámetros del
modelo son:

Intervalo de con…anza para
2


(n

2) ^
R
2
2

73
0
0
05
73

109
0
94

2
73
0
0
95 )

54
0
3245
8025
0
62

85
0
325 =
8025
0
62

94
0
0592
Intervalo de con…anza para ^1
94
0
0592 )
2
8025
0
62


^1 1
(^1)
t
n

2
1

1

1 2 8
0
108 0
0
4286 1
0
6664 = 8
0
108 0
0
7142 = 7
0
3938; 8
0
8222 :
Predicciones
xi
1
2
y^i
0
21 623
0
29 731
xi
3
4
y^i
0
37 839
0
45 947
xi
5
6
y^i
0
54 055
0
62 163
xi
7
8
y^i
0
70 271
0
78 379
xi
9
10
y^i
0
86 487
0
94 595
) t73 0
0
05
13
0
515

2
0
6272
t
73

0
0
95

)

1
0
6664
13
0
515

2
0
6272
1
0
6664

)

(^1)
jH0

=
0 4286
=

18
0
917

(^0)
jH0

=
2 6272
=

5
0
144

r =
sxy

2 82484 25
0
1313
=

0
0
9113:

6 Modelos estadísticos aplicados. Juan Vilar

Intervalo de con…anza para ^0

^0 0
(^0)
t
n

2
0

0

0 2 13
0
515 2
0
6272 1
0
6664 = 13
0
515 4
0
378 = 9
0
137; 17
0
893 :

Contraste

de

hipótesis

para
^1 (H0 : 1 =0 frente H0 : 1 6= 0)

d1 =
^
1

1 ^1 8
0
108
(^1)
=

0

tn 2
) p valor = P jt73j > 18
0
917 = 0
0
0000
) Se
rechaza
H0:

Contraste

de

hipótesis

para
^0 (H0 : 0 =0 frente H0 : 0 6= 0)

d0 =
^
0

0 ^0 13
0
515
(^0)
=

0

tn 2
) p valor = P jt73j > 5
0
144 = 0
0
0000
) Se
rechaza
H0:

El coe…ciente de correlación es
64
0
6995
sxsy
=

0

En el siguiente grá…co se representa la nube de puntos y la recta ajustada




















Figura 4.1. Nube de observaciones y recta ajustada.
X
X
X
i
y
y

Prácticas y problemas de regresión lineal simple. 7

El grá…co de residuos frente a las predicciones se observa en el siguiente grá…co,




















Figura 4.2. Grá…co de residuos.


Cálculo de la tabla ANOVA del modelo.

scR =


scG =


scE =

de donde
75

i=1
75

i=1
75

i=1
e
2
= 8;025
0
61;


(yi y)
2
= 75 s
2
= 75 631
0
586 = 47;368
0
95;


(^i y)
2
= scG scR = 47;368
0
95 8;025
0
61 = 39;343
0
34;











Contraste de regresión.

H0;reg : “el modelo de regresión lineal ajustado no es in‡uyente”
H1 : “el modelo ajustado es in‡uyente”
Tabla ANOVA
Fuentes de
variación
Suma de
cuadrados
Grados
libertad
Varianzas F test p value
scE (modelo)
0
39;343 34
1
2 0
s^ = 39;343 34
e
0
F = 357 86
0
0 0000
scR (Residual)
0
8025 61
73
2 0
s^ = 109 94
R
0
s^R = 10 48

scG (Global)
0
47;368 95
74
2 0
s^ = 640 12
y
0
s^y = 25 30

s
e
^

109
0
94
=

357
0
86

^
s
e
s
2

X X X X
i
y y
X
X
y
X X
i
y
s
2

^

80
0
919
=

4
0
27

^
s
2

s
2


8 Modelos estadísticos aplicados. Juan Vilar

Si

H
0;reg
es

correcto

^
2

0:

El

estadístico

del

contraste

es

d
reg

dreg =
^
2

^
R
=

39;343
0
34
F1;73
) p valorreg = P (F1;73 > 357
0
86) = 0
0
0000:

Se rechaza H0;reg y se asume que el modelo ajustado es signi…cativo.

Contraste de linealidad. Dado que para cada valor de x se dispone de varias obser-
vaciones de Y; se puede hacer el contraste

H0;lin : “el modelo lineal es adecuado”
H1 : “el modelo de regresión no es lineal”
Se descompone scR en dos términos:

scR =
75
e
2
=
75
(yi ^i)
2
=
75
(yi: ^i)
2
+
75
(yi yi)
2
:

i=1 i=1 i=1 i=1

scR1 =


scR2 =
75

i=1
75

i=1
(yi: ^i)
2
= 2;765
0
84:


(yi yi)
2
= 5;259
0
77:

scR =
75
e
2
=
75
(yi ^i)
2
= 2;765
0
84 + 5259
0
77 = 8;025
0
61:

i=1 i=1

La nueva tabla ANOVA, más completa, es














Si

H
0;lin
es

correcto

^
R;1
0:

El

estadístico

del

contraste

es

d
lin

dlin =
^
R;1
^
R;2
=

345
0
731
F8;65
) p valorlineal = P (F8;65 > 4
0
27) = 0
0
0004
Tabla ANOVA
Fuentes de
variación
Suma de
cuadrados
Grados
libertad
Varianzas F test p value
scE (modelo)
0
39;343 34
1
2 0
s^ = 39;343 34
e
0
Freg = 357 86

0
0 0000
scR1
0
2;765 84
8
2 0
s^ = 345 731
R;1

scR2
0
5;259 77
65
2 0
s^ = 80 919
R;2
0
Flin = 4 27

0
0 0004
scR (Residual)
0
8025 61
73
2 0
s^ = 109 94
R
0
s^R = 10 48

scG (Global)
0
47;368 95
74
2 0
s^ = 640 12
y
0
s^y = 25 30

^

n
1+

xt

75
1+

75
1

+

0
0
1982
2

=

0
0
013857:

ht
=

72
0
1651

(número

de

observaciones

equivalente):

^

nt
=

109
0
94

72
0
1651
=

1
0
5235:

^
s
2

^
y
nh
+

s^
2
R

=
72
0
1651
+

109
0
94

=

111
0
4635

)

y
s
2

y

Prácticas y problemas de regresión lineal simple. 9

Se rechaza H0;lin y se deduce que el modelo lineal no es el que mejor se ajusta a la
nube de observaciones.


Predicciones.
“Calcular intervalos de con…anza al 90 % para el tiempo medio de impresión
de los trabajos que tienen 6 y 12 hojas respectivamente.
Calcular intervalos de predicción al 90 % para el tiempo de impresión de un
trabajo que tiene 6 hojas. Calcular el intervalo de predicción para el tiempo
de impresión de un trabajo de 12 hojas”.

Para xt = 6; el estimador de mt = E(Y =X = 6) es

mt = 13
0
515 + 8
0
108 xt = 13
0
515 + 8
0
108 6 = 62
0
163:

El valor de in‡uencia (leverage) es

ht =
1



sX

x
2
!

=
1


6 5
0
44
2
0
82484
2
!

=
1

) nt =
1


La varianza del estimador mt

V ar (mt) =
^
R

) (mt) = 1
0
2343:

Un intervalo de con…anza al 90 % para mt es
mt 62
0
163
1
0
2343
t
73

)

mt 2 62
0
163 t73 0
0
95 1
0
2343 )
mt 2 62
0
163 1
0
6664 1
0
2343 = 62
0
163 2
0
0568 = 60
0
106; 64
0
219 :

La predicción para Y =X = 6 es

^t = 13
0
515 + 8
0
108 xt = 13
0
515 + 8
0
108 6 = 62
0
163:

La varianza de predicción es

V ar (^t) =
^
R
109
0
94

(^t) = 10
0
5576:
^

n
1+

xq

75
1+

75
1

+

2
0
3222
2

=

0
0
08523

hq
=

11
0
7323

(número

de

observaciones

equivalente):

^

nq
=

109
0
94

11
0
7323
=

9
0
3707:

^
s
2

^
y
nq
+

s^
2
R

=

109
0
94
11
0
7323
+1

=

119
0
31:

y
s
2

y

10 Modelos estadísticos aplicados. Juan Vilar

Un intervalo de predicción al 90 % para yt es

yt 2 62
0
163 t73 0
0
95 10
0
5576 )
yt 2 62
0
163 1
0
6664 10
0
5576 = 62
0
163 17
0
593 = 44
0
569; 79
0
756 :


Análogamente, se realizan los cálculos para xq = 12:
El estimador de mt = E (Y =X = 12) es

mq = 13
0
515 + 8
0
108 12 = 110
0
811:

Su valor de in‡uencia es

hq =
1



sR

x
2
!

=
1


12 5
0
44
2
0
82484
2
!

=
1

) nq =
1


La varianza de mq es

V ar (mq) =
^
R

) (mq) = 3
0
0612:

Un intervalo de con…anza al 90 % para mq es

mq 2 110
0
811 t73 0
0
95 3
0
0612 )
mq 2 110
0
811 1
0
6664 3
0
0612 = 110
0
811 5
0
1011 = 105
0
709; 115
0
912 :


La predicción de Y =X = 12 es

^q = 13
0
515 + 8
0
108 12 = 110
0
811:



V ar (^q) =
^
R
1

) (^q) = 10
0
923:

Un intervalo de predicción al 90 % para yq es

yq 2 110
0
811 t73 0
0
95 10
0
923 )
yq 2 110
0
811 1
0
6664 10
0
923 = 110
0
811 18
0
202 = 92
0
609; 129
0
013 :
Prácticas y problemas de regresión lineal simple. 11

En la tabla adjunta se pueden comparar las longitudes de los intervalos calculados
Longitudes de los intervalos calculados
Int. Con…anza
de (E (Y =x))
Int. Predicción
de (Y =x)
núm. equivalente
de observaciones
xt = 6
0
2 0568
0
17 593
0
72 1651
xq = 12
0
5 1011
0
18 202
0
11 7323

i=1
Xi

=

4;330;

P12

i=1
Yi

=

54
0
4;

P12


i=1
Y
i
=

290
0
62;

P12

12 Modelos estadísticos aplicados. Juan Vilar

1.3. Problemas propuestos de regresión lineal simple.

Problema 4.4. (este problema se puede resolver utilizando calculadora)
“En la tabla adjunta se presentan el número de páginas y el precio de doce libros
técnicos:








Con estos datos se obtiene: (X el número de páginas e Y el precio):
P
12 2
i=1
X
i
=

1;714;700;

P
12 2
i=1
XiYi

=

20;663:


1. Ajustar una recta de regresión que explique el precio en función del número de
páginas e interpretar los resultados.

2. Construir la tabla ANOVA asociada. ¿Es el ajuste adecuado?

3. Calcular intervalos de con…anza al 90 % para los parámetros del modelo.

4. Calcular un intervalo de con…anza al 90 % para el precio de un libro de 500 páginas.”

Problema 4.5. “La resistencia del cemento (r) depende, entre otras cosas, del tiempo
de secado del cemento (t). En un experimento se obtuvo la resistencia de bloques de
cemento con diferente tiempo de secado los resultados fueron los siguientes (Hald, A.
(1952) “Statistical theory with engneering applications. Wiley & Sons). En base a esta
muestra,










1. Analizar la posible existencia de una relación entre estas dos variables.

2. ¿Qué conclusiones se deducen del contraste de regresión y del contraste de linealidad?

3. Si se utilizase un ajuste cuadrático ¿se obtienen mejores resultados?
Tiempo (días)
2
Resistencia (kg=cm )
1
0 0 0
13 0 13 3 11 8
2
0 0 0
21 9 24 5 24 7
3
0 0 0 0 0
29 8 28 0 24 1 24 2 26 2
7
0 0 0 0 0
32 4 30 4 34 5 33 1 35 7
28
0 0 0 0 0
41 8 42 6 40 3 35 7 37 3
páginas precio páginas precio páginas precio
310
300
280
310
0
3 50
0
3 50
0
3 50
0
7 30
400
170
430
230
0
8 00
0
1 80
0
7 00
0
3 20
420
610
420
450
0
2 50
0
5 00
0
5 40
0
3 70
.
Prácticas y problemas de regresión lineal simple. 13

4. Estudiar el modelo paramétrico propuesto por A. Hald que estudiba la relación del
logaritmo de la resistencia del cemento sobre la inversa del tiempo de secado.”

Problema 4.6. “La variable (Y ) representa, en miles, el número de asnos en España
y la (X) el tanto por ciento del presupuesto del Estado dedicado a Educación.









1. Representar gra…camente estos datos.

2. Construir la recta de regresión que explique el comportamiento de la variable “tanto
por ciento del presupuesto del Estado dedicado a Educación” en función de la variable
“el número de asnos en España” e interpretar los resultados

3. ¿Es signi…cativo el coe…ciente de correlación entre estas dos variables?

4. Los residuos asociados al ajuste de la regresión lineal ¿son independientes?

5. Representar las variables X e Y frente al tiempo. Calcular los coe…cientes de cor-
relación y rectas de regresión de las variables X e Y respecto al tiempo.
Nota: Estos datos son recogidos del texto de Daniel Peña “Estadística modelos y
métodos. Vol. 2. Modelos lineales y series temporales” Alianza Universidad Textos.
Es un claro ejemplo de variables entre las que existe una alta correlación estadística
pero no existe relación entre las mismas (correlaciones espúreas), su relación
estadística es debida a la relación que ambas tienen con una tercera (el tiempo) y
que no se tiene en cuenta en el estudio.

Problema 4.7. “Se llevó a cabo un estudio para determinar la relación entre el
número de años de experiencia (X) y el salario mensual, en miles de pesetas, (Y ) entre los
informáticos de una región española. Se tomó una muestra aleatoria de 17 informáticos y
se obtuvieron los siguientes datos
Exper. Salario Exper. Salario Exper. Salario
13
16
30
2
8
6
0
26 1
0
33 2
0
36 1
0
16 5
0
26 4
0
19 1
31
19
20
1
4
10
0
36 4
0
33 8
0
36 5
0
16 9
0
19 8
0
24 6
27
25
7
15
13
0
36 0
0
36 5
0
21 4
0
31 0
0
31 4
año Y X año Y X año Y X
1920
1925
1930
1935
1940
1;006
1;162
1;479
805
795
0
5 5
0
4 8
0
7 8
0
8 2
0
8 6
1945
1950
1955
1960
1965
747
732
683
686
493
0
9 7
0
9 6
0
8 9
0
11 4
0
10 6
1970
1975
1980
476
386
368
0
12 7
0
11 5
0
11 4
14 Modelos estadísticos aplicados. Juan Vilar

1. Calcular la regresión lineal de la variable salario frente a años de experiencia. Calcular
intervalos de con…anza al 95 % para los coe…cientes de este modelo.

2. Calcular el coe…ciente de correlación lineal y el coe…ciente de determinación. ¿Con
= 0
0
05 se puede rechazar la hipótesis de que el coe…ciente de determinación es
cero?

3. Calcular intervalos de con…anza al 90 % y 95 % para la predicción del salario de un
informático que tiene 8 años de experiencia.

4. ¿Se observa alguna anomalía en el grá…co de los residuos frente a la regresora.”

Problema 4.8. “El siguiente conjunto de datos era tomado sobre grupos de tra-
bajadoras de Inglaterra y Galés en el período de 1970-72. Cada grupo está formado por
trabajadores de la misma profesión (médicos, trabajadores textiles, decoradores,...etc,) y
en cada uno de los veinticinco grupos muestrados se han observado dos variables: el índice
estandarizado de consumo de cigarrillos y el índice de muertes por cáncer de pulmón.
(Occupational mortality: the registar general’s decennial supplement for England and
Wales, 1970-72, series Ds, n.1, London:HMSO,149).














1. Estudiar la regresión lineal del índice de mortalidad frente al índice de fumadores.

2. Calcular la tabla ANOVA. Conclusiones.

3. Comprobar si se veri…can las hipótesis del modelo.”

Problema 4.9. “Anscombe utilizó el siguiente conjunto de datos para demostrar la
importancia de los grá…cos en el análisis de regresión y correlación. Hay cuatro conjuntos
de datos bidimensionales (X; Y ), el vector X es el mismo para los tres primeros conjuntos.

1. Para cada uno de los cuatro conjuntos de datos, calcular la recta de regresión de Y
frente a X y el coe…ciente de correlación.

2. Para cada uno de los cuatro casos, dibujar la grá…ca de Y frente a X y la grá…ca
de los residuos frente a las predicciones. ¿Qué conclusiones se deducen?”
x y x y x y
77
137
117
94
116
102
111
93
88
84
116
123
128
155
101
118
113
104
102
91
104
107
112
113
110
125
88
104
129
86
96
144
139
113
133
115
105
87
91
100
76
66
146
128
115
79
85
120
60
51
Prácticas y problemas de regresión lineal simple. 15

X1 = X2 = X3 Y 1 Y 2 Y 3 X4 Y 4
10 8
0
04 9
0
14 7
0
46 8 6
0
58
8 6
0
95 8
0
14 6
0
77 8 5
0
76
13 7
0
58 8
0
74 12
0
74 8 7
0
71
9 8
0
81 8
0
77 7
0
11 8 8
0
84
11 8
0
33 9
0
26 7
0
81 8 8
0
47
14 9
0
96 8
0
10 8
0
84 8 7
0
04
6 7
0
24 6
0
13 6
0
08 8 5
0
25
4 4
0
26 3
0
10 5
0
39 8 5
0
56
12 10
0
84 9
0
13 8
0
15 8 7
0
91
7 4
0
82 7
0
26 6
0
42 8 6
0
89
5 5
0
68 4
0
74 5
0
73 19 12
0
50

Problema 4.10. “Los datos de la tabla adjunta muestran la cantidad de ozono reg-
istrada (Y ) y su presión parcial (X) para cada capa de altitud. Cada capa tiene aprox-
imadamente un kilómetro de altura. Por conveniencia las capas se han escalado a un
intervalo de -7 a +7.

1. Hacer una grá…ca de estos datos, ¿es razonable un ajuste lineal?

2. Ajustar una función de regresión lineal del ozono frente a la capa. Calcular la tabla
ANOVA y los contrastes de regresión y de linealidad. Conclusiones.

3. Analizar detenidamente los residuos. ¿Se veri…can las hipótesis estructurales del
modelo? ¿Son los datos homocedásticos?

4. ¿Existe un modelo no lineal que mejore el ajuste lineal?”.

















Problema 4.11. “El …chero problema-4-11 contiene once variables de 200 datos.
La primera variable se corresponde con el vector de predicción de un ajuste lineal sim-
ple y las restantes diez variables se correponden con diferentes vectores de residuos del
Capa Ozono Capa Ozono
7
0 0 0 0
53 8 54 8 53 7 55 7
0 0 0 0
53 3 54 6 55 2 54 1
7
0 0
44 7 38 5
6
0 0 0
63 8 64 2 66 9
0 0 0
67 2 65 4 67 3
6
0 0 0
60 2 54 9 50 8
5
0 0 0 0 0
71 8 73 2 75 6 76 2 72 7
5
0 0 0
73 6 65 4 67 1
4
0 0 0
79 4 81 1 84 1
0 0 0
85 2 83 0 82 8
4
0 0 0 0
74 8 82 3 76 9 81 2
3
0 0 0 0
90 3 84 2 88 3 86 0
3
0 0 0 0
93 6 86 2 87 9 89 5
2
0 0 0
93 2 97 4 98 3
2
0 0 0
92 3 96 6 98 5
1
0 0 0
102 8 96 9 98 2
1
0 0 0
101 1 94 6 95 9
0
0 0 0 0
98 9 96 1 99 6 91 4

16 Modelos estadísticos aplicados. Juan Vilar

ajuste. Utilizando básicamente métodos grá…cos (grá…co de residuos frente a predicciones,
histograma, grá…co de normalidad, grá…co de residuos frente al índice, correlograma,....)
contratar si se veri…can las hipótesis básicas estructurales del modelo de regresión lineal o
indagar la existencia de posibles problemas en el ajuste”.

Problema 4.12. “En 34 lotes de 120 libras de cacahuetes se observó el nivel medio
de a‡atoxin (partes por billón) (X) y el porcentaje de cacahuetes no contaminados (Y ) :












1. Analizar estos datos e investigar la relación entre estas dos variables para predecir
Y en función de X. ¿Es adecuado el ajuste lineal?

2. ¿Veri…can los residuos las hipótesis estructurales?

3. Intentar encontrar un ajuste paramétrico que mejore al lineal.”

Problema 4.13. “En quince casas de la ciudad de Milton Keynes se observó durante
un período de tiempo la diferencia de temperatura promedio (en grados centígrados) entre
la temperatura en la calle y la temperatura en casa, y el consumo de gas diario en kWh.









1. Hacer una grá…ca de los datos. ¿Existe relación entre estas dos variables?

2. ¿Se puede explicar el consumo de gas por una relación lineal con la diferencia de
temperatura?.

3. Ajustando un polinomio de mayor grado, ¿se obtiene un mayor coe…ciente de deter-
minación?, ¿qué modelo es preferible?”.

Problema 4.14. “Se midió la altura (en centímetros) y el peso (en kilogramos) de
treinta chicas de once años del Heaton Meiddle School de Bradford. Estudiar estos datos
y la relación entre ambas variables.
X Y X Y X Y X Y X Y
0
3 0
0
4 7
0
8 3
0
9 3
0
9 9
0
11 0
0
83 2
0
99 971
0
99 979
0
99 982
0
99 971
0
99 957
0
99 961
0
99 830
0
18 8
0
18 9
0
21 7
0
21 9
0
22 8
0
24 2
0
83 6
0
99 942
0
99 932
0
99 908
0
99 970
0
99 985
0
99 933
0
99 718
0
46 8
0
46 8
0
58 1
0
62 3
0
70 6
0
71 1
0
99 5
0
99 863
0
99 811
0
99 877
0
99 798
0
99 855
0
99 788
0
99 642
0
12 3
0
71 3
0
12 5
0
12 6
0
15 9
0
16 7
0
111 2
0
99 956
0
99 821
0
99 972
0
99 889
0
99 961
0
99 982
0
99 658
0
25 8
0
18 8
0
30 6
0
36 2
0
39 8
0
44 3
0
99 858
0
99 975
0
99 987
0
99 958
0
99 909
0
99 859
Dif. temp Consumo Dif. temp Consumo Dif. temp Consumo
0
10 3
0
11 4
0
11 5
0
12 5
0
13 1
0
69 81
0
82 75
0
81 75
0
80 38
0
85 89
0
13 4
0
13 6
0
15 0
0
15 2
0
15 3
0
75 32
0
69 81
0
78 54
0
81 29
0
99 20
0
15 6
0
16 4
0
16 5
0
17 0
0
17 1
0
86 35
0
110 23
0
106 55
0
85 50
0
90 02
Prácticas y problemas de regresión lineal simple. 17












1. Dibujar la grá…ca de estas observaciones y calcular la recta de regresión de peso
frente a altura y la de altura frente a peso.

2. En la regresión lineal de peso frente a altura, ¿se observa alguna observación atípica?.

3. ¿Existen observaciones in‡uyentes?

4. Contrastar las hipótesis estructurales del modelo.”

Problema 4.15. “El contenido en hierro de las escorias de los altos hornos puede
ser determinada por una prueba química en laboratorio o, de forma más barata y rápida,
por un test magnético. Se está interesado en estudiar la relación entre los resultados
del test químico y del test magnético. En particular, se desea saber si a partir de los
resultados del test magnético (X) se pueden estimar los resultados del test químico (Y )
sobre el contenido del hierro. Para ello, se han realizado los dos test a un conjunto de
lotes recogidos secuencialmente en el tiempo. Los resultados obtenidos son los de la tabla
adjunta.














1. Analizar estos datos. Hacer un estudio descriptivo y grá…co de los mismos.

2. Estudiar la relación entre los tests, ¿es adecuado el ajuste lineal?

3. Chequear las hipótesis del modelo.

4. ¿Existe un ajuste linealizable o polinómico que mejore al ajuste lineal?”
Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag Qui Mag
24
16
24
18
18
10
14
16
25
25
22
17
21
20
13
16
14
28
18
20
21
20
21
15
16
15
25
19
10
23
20
19
15
16
16
36
17
19
16
15
15
13
24
22
32
12
15
15
15
15
17
18
16
40
21
24
15
20
20
25
27
22
28
18
22
20
21
21
25
22
18
33
20
24
24
23
29
27
23
19
25
21
18
20
25
20
18
19
16
33
25
15
16
27
27
30
29
26
16
16
26
28
28
30
32
28
Altura Peso Altura Peso Altura Peso Altura Peso Altura Peso
135
146
153
154
139
131
149
26
33
55
50
32
25
44
141
136
154
151
155
137
143
28
28
36
48
36
31
36
149
147
152
140
143
146
133
46
36
47
33
42
35
31
148
149
141
164
146
137
135
32
34
29
47
37
34
30
149
141
32
32
18 Modelos estadísticos aplicados. Juan Vilar

Problema 4.16. “Utilizando los datos del …chero problema-4-16 que contiene datos
de variables de coches.

1. Estudiar la regresión lineal entre la variable mpg (miles per galon: inversa del con-
sumo) y la regresora accel (aceleración). ¿Existe un ajuste mejor que el lineal?

2. Estudiar la regresión lineal entre mpg y la regresora weight (peso).

3. Estudiar la regresión lineal entre mpg y la regresora price (precio).

4. Estudiar la regresión lineal entre mpg y la regresora displace.

5. Estudiar la regresión lineal entre price y la regresora accel (aceleración).

6. ¿Utilizando un ajuste linealizable se mejoran los ajustes lineales estudiados?

7. Estudiar la existencia de datos atípicos y datos in‡uyentes en los ajustes lineales o
linealizables obtenidos.”

Problema 4.17. “Los siguientes datos representan el Producto Nacional Bruto de
USA (X) y los gastos de consumo (Y ) en miles de millones de dólares de 1972, entre los
años 1960-1980

Año 1960 1961 1962 1963 1964 1965 1966
PNB 737
0
2 756
0
6 800
0
3 832
0
5 876
0
4 929
0
3 984
0
8
GC 452
0
0 461
0
4 482
0
0 500
0
5 528
0
0 557
0
5 585
0
7
Año 1967 1968 1969 1970 1971 1972 1973
PNB 1;011
0
4 1;058
0
1 1;087
0
6 1;085
0
6 1;122
0
4 1;185
0
9 1;255
0
0
GC 602
0
7 634
0
4 657
0
9 672
0
1 696
0
8 737
0
1 768
0
5
Año 1974 1975 1976 1977 1978 1979 1980
PNB 1;248
0
0 1;233
0
9 1;300
0
4 1;371
0
7 1;436
0
9 1;483
0
0 1;480
0
7
GC 763
0
6 780
0
2 823
0
7 863
0
9 904
0
8 930
0
9 935
0
1

1. Ajustar un modelo lineal e interpretar los coe…cientes de regresión estimados.

2. Hacer la grá…ca de los residuos frente al tiempo. Estudiar la hipótesis de indepen-
dencia.

3. Si existe una autocorrelación positiva, transformar los datos y ajustar el modelo de
regresión lineal a los datos (mínimos cuadrados generalizados).”

Problema 4.18. “Para las compañías de seguros de hogar tiene interés estimar el
coste de reemplazar algunos objetos. Una de estas compañías estaba interesada en estimar
el coste de reemplazar una colección de 1554 libros a partir de una muestra de 100 libros.
El coste de los cien libros muestrales se obtenía de los catálogos de las editoriales y si
algún libro estaba descatalogado su valor se calculaba utilizando el precio de un libro de
similares características. Los precios están en peniques.
Prácticas y problemas de regresión lineal simple. 19

Dado que el valor de los libros era muy variable, en un intento de conseguir una mayor
exactitud, se utilizó como regresora para explicar el precio de un libro el ancho del lomo
del mismo (medido en milímetros). El ancho total de los 1.554 libros era de 25.182 mm.
Los datos de los cien libros se encuentran en el …chero problema-4-18. En base a
estos datos, se pide:

1. Analizar estadísticamente las variables precio y ancho del libro.

2. ¿Existe una relación entre ambas variables?

3. Estimar el coste de toda la colección. En una primera aproximación sin tener en
cuenta la variable ancho de los libros y, en segundo lugar, teniendo en cuenta esta
variable.”

Problema 4.19. “El …chero problema-4-19 contiene datos de dos nubes de pun-
tos bidimensionales ((x; Y1) y (x; Y2)). Estos datos son debidos a Wampler y los generó
por simulación para comprobar cuando un determinado programa estadístico realiza con
exactitud el ajuste por mínimos cuadrados.

1. Ajustar a estas dos nubes de puntos un polinomio.

2. ¿Qué grado de polinomio se debe ajustar?, ¿es el ajuste bueno? ¿exacto?”.

Problema 4.20. “Los datos de la tabla adjunta son el conjunto clásico de datos del
test psicológico de Strong sobre retención de memoria. Los datos se tomaban de la siguiente
manera: un conjunto de individuos memorizaban una lista de objetos inconexos y pasado
un tiempo la recordaba. La variable p indica el porcentage de retención de memoria en
promedio y la variable t es el tiempo transcurrido. El objetivo del estudio era explicar la
variable p en función de t:









1. Analizar este conjunto de datos y estudiar la relación de la variable p respecto a t:

2. Estudiar analítica y gra…cámente un modelo del tipo p = exp( t) que sugiere una
pérdida geométrica de la memoria.

3.

Estudiar

analítica

y

gra…cámente

un

modelo

del

tipo

log

p

=
0
+
1
t:

¿Qué

inter-

pretación tiene este modelo?, ¿Qué ajuste es mejor?”.
t p t p t p t p
1
5
15
30
0
0 84
0
0 71
0
0 61
0
0 56
60
120
240
480
0
0 54
0
0 47
0
0 45
0
0 38
720
1440
2880
5760
0
0 36
0
0 26
0
0 20
0
0 16
10080
0
0 08
20 Modelos estadísticos aplicados. Juan Vilar

Problema 4.21. “El …chero problema-4-21 contiene datos de 78 ciervos de Escocia
en los que se estudia el crecimiento de los dientes. Para todos los ciervos de un rebaño se
supone que el crecimiento de los dientes …naliza a la misma edad y después la velocidad
de desgaste es la misma para todos los animales y constante en el tiempo. La aleatoriedad
en los resultados es debida al peso de la corona en la madurez que sigue una distribución
normal y la edad de la madurez no es conocida con exactitud. A los ciervos de la muestra
se les tomo la edad y el peso en gramos del primer molar. En base a estos datos:

1. Estudiar la relación del peso respecto a la edad.

2. Hacer los contrastes de regresión y de linealidad.

3. Analizar los residuos, ¿se veri…can las hipótesis básicas?”.

Problema 4.22. “En los sitemas productivos de ovejas tiene un gran interés controlar
las necesidades energéticas de cada animal ya que in‡uyen en la predicción de la producción
de carne. Por ello, se ha tomado una muestra de 64 ovejas australianas y, a cada una de
ellas, se le controló su peso x (en kilogramos), y sus necesidades energéticas diarias Y
medidas en Mcal/día. Los resultados de la muestra se presentan en el …chero problema-
4-22. En base a estos datos muestrales:

1. Estudiar la relación lineal de Y respecto a x:

2. Estimar la media de consumo energético de las ovejas que pesan 30, 40, 50 y 60 Kgr.
Calcular intervalos de con…anza al 90 % para estos valores. Hacer el mismo cálculo
pero considerando la predicción del consumo energético de una oveja de ese peso.
Calcular intervalos de predicción.”

Problema 4.23. “El …chero problema-4-23 contiene dos conjuntos de datos bidi-
mensionales en los que no existe una relación lineal pero si es fácil encontrar la relación
existente entre las dos variables.
El primer conjunto tiene 25 observaciones de molinos de viento para la producción
de energía eléctrica, la variable X1 mide la velocidad del viento y la variable Y 1 mide la
corriente eléctrica obtenida.
El segundo conjunto tiene 19 observaciones relativas a la producción del papel, la
variable X2 mide la resistencia del papel fabricado y la variable Y 2 mide la proporción de
madera en la pulpa a partir de la cual se obtiene el papel.

1. En ambos casos, dibujar la grá…ca de la nube de puntos.

2. Obtener el modelo de regresión que mejor se ajusta a la nube de observaciones.
¿Existe ajustes que mejoran al lineal?, ¿el ajuste realizado es su…cientemente bueno?

3. Analizar los residuos de los modelos ajustados”.
En base a estos datos:
Prácticas y problemas de regresión lineal simple. 21

Problema 4.24. “El …chero problema-4-24 contiene datos relativos al peso del cuer-
po (X; en kilogramos) y el peso del cerebro (Y; en gramos) de 28 especies de animales. En
base a estos datos:
1. ¿Se observa en esta nube algún dato atípico?
2. Transformar los datos para que se pueda hacer una grá…ca de los mismos. Realizar
la grá…ca de los datos transformados.
3. Ajustar un modelo de regresión lineal a los datos transformados. ¿Es el ajuste
adecuado? Interpretarlo.
4. En el modelo transformado ¿Existen datos atípicos?”.

Problema 4.25. “La dureza de los árboles es difícil de medir directamente, sin em-
bargo la densidad si es relativamente fácil de medir. Por ello es de gran interés disponer
de un modelo que permita predecir la dureza de un árbol a partir de su densidad. Por este
motivo se ha tomado una muestra de 36 eucaliptos australianos y se les midió su densidad
(X) y su dureza (Y ). Los resultados obtenidos son los de la tabla adjunta.


















1. Estudiar el modelo de regresión lineal de Y respecto a X:
2. Ajustar a estos datos un polinomio de grado a determinar. ¿Se mejora de forma
apreciable el ajuste lineal?
3. Con el mejor ajuste predecir la dureza de un árbol de densidad 20, 40, 60 y 80.
4. Calcular intervalos de con…anza y de predicción al 90 % para las estimaciones del
apartado anterior.
5. Analizar los residuos del modelo ajustado.
6. Considerar una transformación de los datos de la dureza (Y ) y ajustar un modelo de
regresión. ¿El modelo ajustado con los datos transformados mejora al ajuste polinómico?”
Densidad Dureza Densidad Dureza Densidad Dureza
0
24 7
0
24 8
0
27 3
0
28 4
0
28 4
0
29 0
0
30 3
0
32 7
0
35 6
0
38 5
0
38 8
0
39 3
484
427
413
517
549
648
587
704
979
914
1070
1020
0
39 4
0
39 9
0
40 3
0
40 6
0
40 7
0
40 7
0
42 9
0
45 8
0
46 9
0
48 2
0
51 5
0
51 5
1210
989
1160
1010
1100
1130
1270
1180
1400
1760
1710
2010
0
53 4
0
56 0
0
56 5
0
57 3
0
57 6
0
59 2
0
59 8
0
66 0
0
67 4
0
68 8
0
69 1
0
69 1
1880
1980
1820
2020
1980
2310
1940
3260
2700
2890
2740
3140