Está en la página 1de 262

Diseño de

Experimentos y
Regresión
Laboratorio
de
Estadística

E SCUELA T ÉCNICA S UPERIOR DE


I NGENIEROS I NDUSTRIALES
U NIVERSIDAD P OLITÉCNICA DE M ADRID

Edición Curso 19/20


DISEÑO DE EXPERIMENTOS Y MODELOS DE REGRESIÓN
Departamento de ingeniería de organización,
administración de empresas y estadística.

PROGRAMA

1. Análisis de la varianza. Comparación de dos tratamientos. La hipóte-


sis de normalidad, independencia y homocedasticidad. Estimación. Contraste
de igualdad de medias. Contraste de igualdad de varianzas. La distribución
F: Comparación de varios tratamientos. Modelo básico. Descomposición de la
variabilidad. Tabla del análisis de la varianza (ADEVA). Contraste de igualdad
de medias. Comparaciones múltiples. Diagnosis de las hipótesis del modelo de
análisis de la varianza. Grá…co probabilista normal. Contrastes de homocedas-
ticidad. Aleatorización.

2. Diseño de experimentos. Modelo con dos factores. Concepto de in-


teracción. Descomposición de la variabilidad. Tabla de análisis de la varianza.
Contraste de igual de medias. Diagnosis de las hipótesis del modelo. El modelo
en bloques aleatorizados. Modelo y estimación. Descomposición de la variabi-
lidad. Tabla de análisis de la varianza.

3. Regresión lineal. Hipótesis del modelo. Estimación de los parámetros por


máxima verosimilitud (mínimos cuadrados). Distribución de los estimadores.
Contrastes individuales de los parámetros del modelo. Contraste general de
regresión. El coe…ciente de determinación. Multicolinealidad: identi…cación y
sus consecuencias. Predicción en regresión simple. Variables cualitativas como
regresores. Diagnosis del modelo.

1
1. Análisis de la Varianza

Diseño de Experimentos y Modelos de Regresión

1.1 Dos tratamientos


Comparación de dos tratamientos

Se desea comparar dos


A B
tratamientos para
51,3 29,6
39,4 47,0
reducir el nivel de
26,3 25,9 colesterol en la sangre.
39,0 13,0 Se seleccionan 20
48,1 33,1 individuos y se asignan
34,2 22,1 al azar a dos tipos de
69,8 34,1 dietas A y B. La tabla
31,3 19,5 muestra la reducción
45,2 43,8 conseguida después de
46,4 24,9 dos meses.

Análisis de la Varianza 3

Método: 4 pasos

- Definición del modelo de distribución


de probabilidad:
·Hipótesis
·Parámetros
- Estimación de los parámetros
- Diagnosis de las hipótesis
- Aplicación

Análisis de la Varianza 4
Modelo
M
O
V V D
E
L
P1 P2 O

y11 y 21
D
y12 y 22 A
  T
O
y1n1 y 2 n2 S

Análisis de la Varianza 5

Modelo: Hipótesis y Parámetros


Hipótesis básicas:
Normalidad Parámetros
yij Ÿ N(Pi,V2) P1
Homocedasticidad P2
Var [yij] = V2
V2
Independencia

Cov [yij, ykl] = 0

Análisis de la Varianza 6
Modelo

yij Pi  uij , uij o N (0, V 2 )


Las observaciones se descomponen en:
-Parte predecible Pi
-Parte aleatoria uij

0
Análisis de la Varianza 7

Estimación medias:

n1 A B
¦ y1 j 51,3
39,4
29,6
47,0
j 1
P1 : o y1x 26,3 25,9
n1 39,0 13,0
48,1 33,1
34,2 22,1
n2 69,8 34,1
¦ y2 j 31,3
45,2
19,5
43,8
j 1
P 2 : o y2x 46,4 24,9
n2 43,1 29,3

Análisis de la Varianza 8
Estimación varianza (residuos)
yij P i  uij , uij o N (0, V 2 ) Residuos
A B
8,2 0,3
-3,7 17,7
uij yij  P i -16,8 -3,4
-4,1 -16,3
eij yij  yix 5,0 3,8
-8,9 -7,2
eij : RESIDUO 26,7 4,8
-11,8 -9,8
2 ni 2,1 14,5
¦¦ eij2 3,3
0,0
-4,4
0,0
i 1 j 1
V 2 : o sˆR2 n
n2 ¦
i

eij 2
0;sˆR 130.95
j 1
Análisis de la Varianza 9

2
ˆ
Varianza residual: R
s

V V
P1 P2
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j  y1x ) 2 y22 ° ° 2 ¦ ( y2 j  y2x ) 2
sˆ1 sˆ2
 ¾ n1  1  ¾ ° n2  1
°
y1n1 °
¿ y2 n2 °
¿

2 ni

¦¦ e
i 1 j 1
2
ij
n1  1 2 n2  1 2
sˆR2 sˆ1  sˆ2
n2 n2 n2

Análisis de la Varianza 10
Diferencia de medias: y1x  y2x

V V
P1 P2
y11 ½ y21 ½
y12 °° V2 y22 ° ° V2
y1x o N ( P1 , ) y2x o N ( P 2 , )
 ¾ n1  ¾ ° n2
°
y1n1 °
¿ y2 n2 °
¿
V2 V2 ½
y1x  y2x o N ( P1  P 2 ,  )
°
n1 n2 °° ( y1x  y2x )  ( P1  P 2 )
( y1x  y2x )  ( P1  P 2 ) Ÿ o tn2
o N (0,1) ¾ 1 1
1 1 ° sˆR 
V  ° n1 n2
n1 n2 °¿

Análisis de la Varianza 11

Contraste de igualdad de medias

H 0 : P1 P2 R.R
R.R.
H1 : P1 z P 2 tn-2
1-D
y1x  y2x D/2
t0 o tn2 R. Acept. D/2
1 1
sˆR  -tD/2 tD/2
n1 n2

t0 d tD / 2 Ÿ No se rechaza H 0
t0 ! tD / 2 Ÿ Se rechaza H 0
Análisis de la Varianza 12
Ejemplo: D = 0.05

H 0 : P1 P2 R.R
R.R. t18
H1 : P1 z P 2
0.025
43.1  29.3 0.025
t0 2.69
1 1
11.44  -2.10 2.10
10 10

2.69 ! 2.10 Ÿ Se rechaza H 0

Análisis de la Varianza 13

Ejemplo: D = 0.01

H 0 : P1 P2 R.R
R.R.
H1 : P1 z P 2 t18
0.99
0.005 0.005
43.1  29.3
t0 2.69 D/2
1 1
11.44  -2.88 2.88
10 10

2.69 d 2.88 Ÿ No se rechaza H 0

Análisis de la Varianza 14
Nivel crítico (bilateral)
H 0 : P1 P2 t18
H1 : P1 z P 2
43.1  29.3 0.0074 0.0074
t0 2.69
1 1
11.44  -2.69 2.69
10 10

p  valor Pr( t18 ! 2.69) 0.0147


•D = 0.05 > p-valor Ÿ Se rechaza H0
•D = 0.01 < p-valor Ÿ No se rechaza H0

Análisis de la Varianza 15

Conclusiones (fijado D)

Si |to| > tD/2 se dice que Si |to| d tD/2 se dice que


la diferencia de la diferencia de
medias es medias no es
significativa. O significativa. No hay
simplemente que los evidencia suficiente
tratamientos son para afirmar que las
distintos (tienen medias de los
medias distintas). tratamientos sean
diferentes.

Análisis de la Varianza 16
No rechazar Ho, no implica que Ho sea cierta

El resultado |to| d tD/2, (no se rechaza Ho)


no debe interpretarse como que “se ha
demostrado que las dos medias son
iguales”.

No rechazar la hipótesis nula implica que


la diferencia entre las medias P1 - P2 no es
lo suficientemente grande como para ser
detectada con el tamaño muestral dado.

Análisis de la Varianza 17

Comparación de dos tratamientos con R

18
Comparación de dos tratamientos con R

19

Comparación de medidas del cuerpo humano por género


Means Conf. Int.

20
Intervalo de confianza para
la diferencia de medias: P1  P 2
( y1x  y2x )  ( P1  P 2 ) tn-2
o t n2
1 1
sˆR  D/2
n1 n2 D/2 1-D
-tD/2 tD/2

( y1x  y2x )  ( P1  P 2 )
Pr {  tD / 2 d d tD / 2 } 1  D
1 1
sˆR 
n1 n2
1 1
P1  P 2  ( y1x  y2x ) r tD / 2 sˆR 
n1 n2

Análisis de la Varianza 21

Ejemplo: intervalo de confianza P1  P 2

t18

0.025 0.025

-2.10 2.10
1 1
P1  P 2  ( y1x  y2x ) r tD / 2 sˆR 
n1 n2
1 1
P1  P 2  (43.1  29.3) r 2.10 u11.44 u 
10 10
P1  P 2 13.8 r 10.74
Análisis de la Varianza 22
Hipótesis de homocedasticidad

V1 V2
P1 P2
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j  y1x ) 2 y22 ° ° 2 ¦ ( y2 j  y2x ) 2
sˆ1 sˆ2
 ¾ n1  1  ¾ ° n2  1
°
y1n1 °
¿ y2 n2 °
¿

H 0 : V 12 V 22
H1 : V 12 z V 22

Análisis de la Varianza 23

Distribución F
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j  y1x ) 2 y22 ° ° 2 ¦ ( y2 j  y2x ) 2
sˆ1 sˆ2
 ¾ n1  1  ¾ ° n2  1
°
y1n1 °
¿ y2 n2 °
¿
(n1  1) sˆ12 ( n2  1) sˆ22
o F n21 1 o F n22 1
V 12 V 22

F n2 1 sˆ12
1
(n1  1) V 12
F o Fn1 1,n2 1
F n2 12
sˆ22
(n2  1) V 22

Análisis de la varianza 24
Distribución F

F40,40
F20,40
F10,40
F5,40

Análisis de la varianza 25

Algunas distribuciones F

F10,80
F10,40
F10,20
F10,10

Análisis de la varianza 26
Contraste de igualdad de varianzas

H 0 : V 12 V 22
H1 : V 12 z V 22 RR RR
D/2 1-D D/2
Si H 0 es cierto V 12 V 22 , R.A. Ho
sˆ12 F1-D/2 FD/2
F0 2
o Fn1 1,n2 1
sˆ1

Si F0  >F1D / 2 , FD / 2 @ Ÿ No se rechaza H 0
Si F0  >F1D / 2 , FD / 2 @ Ÿ Se rechaza H 0

Análisis de la varianza 27

Ejemplo: Contraste de igualdad de varianzas

H 0 : V 12 V 22
H1 : V 12 z V 22 RR RR
0.025 0.025
sˆ12 154.02 sˆ22 111.7
154.02 0.248 1.37 4.03
F0 1.37
111.7

1.37  >0.248,4.03@ Ÿ No se rechaza H 0

Análisis de la varianza 28
Tabla F FQ1 ,Q 2 ,D Ÿ P( FQ 1 ,Q 2 t FQ 1 ,Q 2 ,D ) D
D=0.05
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,9 245,9 248,0 249,1 250,1 251,1 252,2 253,0 253,3 254,3 1
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,49 19,49 19,50 2
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,55 8,53 3
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,66 5,63 4
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,41 4,40 4,37 5
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,71 3,70 3,67 6
Grados de libertad del denominador: Q2

7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,27 3,23 7
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,97 2,93 8
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,76 2,75 2,71 9
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,59 2,58 2,54 10
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,46 2,45 2,40 11
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,35 2,34 2,30 12
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,26 2,25 2,21 13
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,19 2,18 2,13 14
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,12 2,11 2,07 15
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,07 2,06 2,01 16
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,02 2,01 1,96 17
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,98 1,97 1,92 18
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,94 1,93 1,88 19
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,91 1,90 1,84 20
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,88 1,87 1,81 21
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,85 1,84 1,78 22
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,82 1,81 1,76 23
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,80 1,79 1,73 24
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,78 1,77 1,71 25
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,76 1,75 1,69 26
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,74 1,73 1,67 27
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,73 1,71 1,65 28
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,71 1,70 1,64 29
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,70 1,68 1,62 30
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,59 1,58 1,51 40
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,95 1,87 1,78 1,74 1,69 1,63 1,58 1,52 1,51 1,44 50
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,48 1,47 1,39 60
70 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97 1,89 1,81 1,72 1,67 1,62 1,57 1,50 1,45 1,44 1,35 70
80 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,88 1,79 1,70 1,65 1,60 1,54 1,48 1,43 1,41 1,32 80
90 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,99 1,94 1,86 1,78 1,69 1,64 1,59 1,53 1,46 1,41 1,39 1,30 90
100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,85 1,77 1,68 1,63 1,57 1,52 1,45 1,39 1,38 1,28 100
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,37 1,35 1,25 120
Inf 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,24 1,22 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.

Ejemplo : P( F7,8 t 3.50) 0.05

Tabla F FQ1 ,Q 2 ,D Ÿ P( FQ 1 ,Q 2 t FQ 1 ,Q 2 ,D ) D
D=0.025
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,6 963,3 968,6 976,7 984,9 993,1 997,3 1001,4 1005,6 1009,8 1013,2 1014,0 1018,3 1
2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,43 39,45 39,46 39,46 39,47 39,48 39,49 39,49 39,50 2
3 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,34 14,25 14,17 14,12 14,08 14,04 13,99 13,96 13,95 13,90 3
4 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,75 8,66 8,56 8,51 8,46 8,41 8,36 8,32 8,31 8,26 4
5 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,52 6,43 6,33 6,28 6,23 6,18 6,12 6,08 6,07 6,02 5
6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,37 5,27 5,17 5,12 5,07 5,01 4,96 4,92 4,90 4,85 6
Grados de libertad del denominador: Q2

7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,67 4,57 4,47 4,41 4,36 4,31 4,25 4,21 4,20 4,14 7
8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,20 4,10 4,00 3,95 3,89 3,84 3,78 3,74 3,73 3,67 8
9 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,87 3,77 3,67 3,61 3,56 3,51 3,45 3,40 3,39 3,33 9
10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,62 3,52 3,42 3,37 3,31 3,26 3,20 3,15 3,14 3,08 10
11 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,43 3,33 3,23 3,17 3,12 3,06 3,00 2,96 2,94 2,88 11
12 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,28 3,18 3,07 3,02 2,96 2,91 2,85 2,80 2,79 2,72 12
13 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,15 3,05 2,95 2,89 2,84 2,78 2,72 2,67 2,66 2,60 13
14 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 3,05 2,95 2,84 2,79 2,73 2,67 2,61 2,56 2,55 2,49 14
15 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,96 2,86 2,76 2,70 2,64 2,59 2,52 2,47 2,46 2,40 15
16 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05 2,99 2,89 2,79 2,68 2,63 2,57 2,51 2,45 2,40 2,38 2,32 16
17 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98 2,92 2,82 2,72 2,62 2,56 2,50 2,44 2,38 2,33 2,32 2,25 17
18 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,77 2,67 2,56 2,50 2,44 2,38 2,32 2,27 2,26 2,19 18
19 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,72 2,62 2,51 2,45 2,39 2,33 2,27 2,22 2,20 2,13 19
20 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,68 2,57 2,46 2,41 2,35 2,29 2,22 2,17 2,16 2,09 20
21 5,83 4,42 3,82 3,48 3,25 3,09 2,97 2,87 2,80 2,73 2,64 2,53 2,42 2,37 2,31 2,25 2,18 2,13 2,11 2,04 21
22 5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,76 2,70 2,60 2,50 2,39 2,33 2,27 2,21 2,14 2,09 2,08 2,00 22
23 5,75 4,35 3,75 3,41 3,18 3,02 2,90 2,81 2,73 2,67 2,57 2,47 2,36 2,30 2,24 2,18 2,11 2,06 2,04 1,97 23
24 5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,70 2,64 2,54 2,44 2,33 2,27 2,21 2,15 2,08 2,02 2,01 1,94 24
25 5,69 4,29 3,69 3,35 3,13 2,97 2,85 2,75 2,68 2,61 2,51 2,41 2,30 2,24 2,18 2,12 2,05 2,00 1,98 1,91 25
26 5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,65 2,59 2,49 2,39 2,28 2,22 2,16 2,09 2,03 1,97 1,95 1,88 26
27 5,63 4,24 3,65 3,31 3,08 2,92 2,80 2,71 2,63 2,57 2,47 2,36 2,25 2,19 2,13 2,07 2,00 1,94 1,93 1,85 27
28 5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,61 2,55 2,45 2,34 2,23 2,17 2,11 2,05 1,98 1,92 1,91 1,83 28
29 5,59 4,20 3,61 3,27 3,04 2,88 2,76 2,67 2,59 2,53 2,43 2,32 2,21 2,15 2,09 2,03 1,96 1,90 1,89 1,81 29
30 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,41 2,31 2,20 2,14 2,07 2,01 1,94 1,88 1,87 1,79 30
40 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,29 2,18 2,07 2,01 1,94 1,88 1,80 1,74 1,72 1,64 40
50 5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38 2,32 2,22 2,11 1,99 1,93 1,87 1,80 1,72 1,66 1,64 1,55 50
60 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,17 2,06 1,94 1,88 1,82 1,74 1,67 1,60 1,58 1,48 60
70 5,25 3,89 3,31 2,97 2,75 2,59 2,47 2,38 2,30 2,24 2,14 2,03 1,91 1,85 1,78 1,71 1,63 1,56 1,54 1,44 70
80 5,22 3,86 3,28 2,95 2,73 2,57 2,45 2,35 2,28 2,21 2,11 2,00 1,88 1,82 1,75 1,68 1,60 1,53 1,51 1,40 80
90 5,20 3,84 3,26 2,93 2,71 2,55 2,43 2,34 2,26 2,19 2,09 1,98 1,86 1,80 1,73 1,66 1,58 1,50 1,48 1,37 90
100 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 2,08 1,97 1,85 1,78 1,71 1,64 1,56 1,48 1,46 1,35 100
120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22 2,16 2,05 1,94 1,82 1,76 1,69 1,61 1,53 1,45 1,43 1,31 120
Inf 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 1,94 1,83 1,71 1,64 1,57 1,48 1,39 1,30 1,27 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.

Ejemplo : P( F7,8 t 4.53) 0.025


Tabla F FQ1 ,Q 2 ,D Ÿ P( FQ 1 ,Q 2 t FQ 1 ,Q 2 ,D ) D
D=0.01
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 4052,2 4999,3 5403,5 5624,3 5764,0 5859,0 5928,3 5981,0 6022,4 6055,9 6106,7 6157,0 6208,7 6234,3 6260,4 6286,4 6313,0 6333,9 6339,5 6365,6 1
2 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,42 99,43 99,45 99,46 99,47 99,48 99,48 99,49 99,49 99,50 2
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 27,05 26,87 26,69 26,60 26,50 26,41 26,32 26,24 26,22 26,13 3
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,37 14,20 14,02 13,93 13,84 13,75 13,65 13,58 13,56 13,46 4
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,89 9,72 9,55 9,47 9,38 9,29 9,20 9,13 9,11 9,02 5
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,72 7,56 7,40 7,31 7,23 7,14 7,06 6,99 6,97 6,88 6
Grados de libertad del denominador: Q2

7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,47 6,31 6,16 6,07 5,99 5,91 5,82 5,75 5,74 5,65 7
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,67 5,52 5,36 5,28 5,20 5,12 5,03 4,96 4,95 4,86 8
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,11 4,96 4,81 4,73 4,65 4,57 4,48 4,41 4,40 4,31 9
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,71 4,56 4,41 4,33 4,25 4,17 4,08 4,01 4,00 3,91 10
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,40 4,25 4,10 4,02 3,94 3,86 3,78 3,71 3,69 3,60 11
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,16 4,01 3,86 3,78 3,70 3,62 3,54 3,47 3,45 3,36 12
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,96 3,82 3,66 3,59 3,51 3,43 3,34 3,27 3,25 3,17 13
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,80 3,66 3,51 3,43 3,35 3,27 3,18 3,11 3,09 3,00 14
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,67 3,52 3,37 3,29 3,21 3,13 3,05 2,98 2,96 2,87 15
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,55 3,41 3,26 3,18 3,10 3,02 2,93 2,86 2,84 2,75 16
17 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,46 3,31 3,16 3,08 3,00 2,92 2,83 2,76 2,75 2,65 17
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,37 3,23 3,08 3,00 2,92 2,84 2,75 2,68 2,66 2,57 18
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,30 3,15 3,00 2,92 2,84 2,76 2,67 2,60 2,58 2,49 19
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,23 3,09 2,94 2,86 2,78 2,69 2,61 2,54 2,52 2,42 20
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,17 3,03 2,88 2,80 2,72 2,64 2,55 2,48 2,46 2,36 21
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,12 2,98 2,83 2,75 2,67 2,58 2,50 2,42 2,40 2,31 22
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,07 2,93 2,78 2,70 2,62 2,54 2,45 2,37 2,35 2,26 23
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,03 2,89 2,74 2,66 2,58 2,49 2,40 2,33 2,31 2,21 24
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 2,99 2,85 2,70 2,62 2,54 2,45 2,36 2,29 2,27 2,17 25
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,96 2,81 2,66 2,58 2,50 2,42 2,33 2,25 2,23 2,13 26
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,93 2,78 2,63 2,55 2,47 2,38 2,29 2,22 2,20 2,10 27
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,90 2,75 2,60 2,52 2,44 2,35 2,26 2,19 2,17 2,06 28
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,87 2,73 2,57 2,49 2,41 2,33 2,23 2,16 2,14 2,03 29
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,84 2,70 2,55 2,47 2,39 2,30 2,21 2,13 2,11 2,01 30
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,52 2,37 2,29 2,20 2,11 2,02 1,94 1,92 1,80 40
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,56 2,42 2,27 2,18 2,10 2,01 1,91 1,82 1,80 1,68 50
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,50 2,35 2,20 2,12 2,03 1,94 1,84 1,75 1,73 1,60 60
70 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,67 2,59 2,45 2,31 2,15 2,07 1,98 1,89 1,78 1,70 1,67 1,54 70
80 6,96 4,88 4,04 3,56 3,26 3,04 2,87 2,74 2,64 2,55 2,42 2,27 2,12 2,03 1,94 1,85 1,75 1,65 1,63 1,49 80
90 6,93 4,85 4,01 3,53 3,23 3,01 2,84 2,72 2,61 2,52 2,39 2,24 2,09 2,00 1,92 1,82 1,72 1,62 1,60 1,46 90
100 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,37 2,22 2,07 1,98 1,89 1,80 1,69 1,60 1,57 1,43 100
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,34 2,19 2,03 1,95 1,86 1,76 1,66 1,56 1,53 1,38 120
Inf 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,18 2,04 1,88 1,79 1,70 1,59 1,47 1,36 1,32 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.

Ejemplo : P( F7,8 t 6.18) 0.01

Comparación de dos tratamientos con R

32
Comparación de dos tratamientos con R

33

1.2 K tratamientos

Análisis de la varianza 34
¿Existen diferencias entre las cuatro semillas?

Se desea comparar el rendimiento de cuatro


semillas A,B,C y D. Un terreno se divide en 24
parcelas similares y se asigna al azar cada semilla
a 6 parcelas.

A B C D
229.1 233.4 211.1 270.4
253.7 233.0 223.1 248.6
241.3 219.2 217.5 230.0
254.7 200.0 211.8 250.7
237.2 224.3 207.6 230.0
241.3 202.0 213.7 245.8
242.9 218.7 214.1 245.9

Análisis de la varianza 35

Método: 4 pasos

- Definición del modelo de distribución de


probabilidad:
·Hipótesis
·Parámetros
- Estimación de los parámetros
- Diagnosis de las hipótesis
- Aplicación

Análisis de la varianza 36
Modelo

V V V
...
P1 P2 PK

y11 y21 yK1


y12 y22 yK 2
  ... 
y1n y2 n y Kn
1 2 K
Análisis de la varianza 37

Hipótesis del modelo

Normalidad
yij Ÿ N(Pi,V2)
Homocedasticidad
Var [yij] = V2
Independencia
Cov [yij, ykl] = 0

Análisis de la varianza 38
Modelo: Hipótesis y Parámetros
Hipótesis básicas: Parámetros
Normalidad P1
yij Ÿ N(Pi,V2) P2
Homocedasticidad

Var [yij] = V2

Independencia
PK
Cov [yij, ykl] = 0 V2
Análisis de la varianza 39

Modelo: Forma alternativa

yij Pi  uij , uij o N (0, V 2 )


Las observaciones se descomponen en:
Parte predecible Pi
Parte aleatoria uij

0
Análisis de la varianza 40
Estimación medias: Máxima Verosimilitud

n1
¦ y1 j
j 1
P1 : o y1x
n1
n2 A B C D
¦ y2 j 229.1 233.4 211.1 270.4
j 1 253.7 233.0 223.1 248.6
P 2 : o y 2x 241.3 219.2 217.5 230.0
n2
254.7 200.0 211.8 250.7
 237.2 224.3 207.6 230.0
nK 241.3 202.0 213.7 245.8
¦ y Kj 242.9 218.7 214.1 245.9
j 1
P K : o yK x
nK

Análisis de la varianza 41

Estimación varianza (residuos)

yij Pi  uij , uij o N (0,V 2 )


uij yij  Pi A B
Residuos
C D
-13.8 14.8 -3.0 24.5
eij yij  yix 10.8 14.4 9.0 2.7
-1.6 0.6 3.4 -15.9
eij : RESIDUO 11.8 -18.7 -2.3 4.8
-5.7 5.7 -6.5 -15.9
K ni -1.6 -16.7 -0.4 -0.1

¦ ¦ eij2 0.0 0.0 0.0 0.0

i 1j 1
V 2 : o sˆR2
nK sˆR2 142.4
Análisis de la varianza 42
Comparación de medias

La comparación de tratamientos con este modelo


se reduce a comparar las medias P1, P2, ..., PK ,
en primer lugar con el contraste:

H 0 : P1 P2  P K
H1 : Al menos una es diferente

Análisis de la varianza 43

Descomposición de la
variabilidad
¦ ¦ yij
yij Pi  uij Ÿ yij y ix  ( yij  y ix ) : restando y xx ,
n
yij  y xx ( y ix  y xx )  ( yij  y ix )
elevando al cuadrado y sumando para todo i,j
K ni
(donde ¦ ¦ ( y ix  y xx )( yij  y ix ) 0)
i 1j 1
K ni K ni K ni
2
¦ ¦ ( yij  y xx ) ¦ ¦ ( y ix  y xx )  ¦ ¦ ( yij  y ix ) 2
2
i 1j 1 i 1j 1 i 1j 1
K ni K K ni
2
¦ ¦ ( yij  y xx ) ¦ ni ( y ix  y xx )  ¦ ¦ ( yij  y ix ) 2
2
i 1j 1 i 1 i 1j 1

Análisis de la varianza 44
Variabilidades
Variabilid ades Grados de libertad
K ni
VT ¦ ¦ ( yij  y xx ) 2 n-1
i 1j 1
K
VE ¦ ni ( y ix  y xx ) 2 K-1
i 1
K ni K ni
2 2
VNE ¦ ¦ ( yij  y ix ) ¦ ¦ eij n-K
i 1j 1 i 1j 1

VT VE  VNE
n  1 ( K  1)  (n  K )

Análisis de la varianza 45

Descomposición: ejemplo
y xx 230.4
Datos Medias Residuos
229.1 233.4 211.1 270.4 242.9 218.7 214.1 245.9 -13.8 14.8 -3.0 24.5
253.7 233.0 223.1 248.6 242.9 218.7 214.1 245.9 10.8 14.4 9.0 2.7
241.3 219.2 217.5 230.0 242.9 218.7 214.1 245.9 -1.6 0.6 3.4 -15.9
254.7 200.0 211.8 250.7
= 242.9 218.7 214.1 245.9
+ 11.8 -18.7 -2.3 4.8
237.2 224.3 207.6 230.0 242.9 218.7 214.1 245.9 -5.7 5.7 -6.5 -15.9
241.3 202.0 213.7 245.8 242.9 218.7 214.1 245.9 -1.6 -16.7 -0.4 -0.1

-1.3 3.0 -19.3 40.0 12.5 -11.7 -16.3 15.5 -13.8 14.8 -3.0 24.5
23.3 2.6 -7.3 18.2 12.5 -11.7 -16.3 15.5 10.8 14.4 9.0 2.7
10.9 -11.2 -12.9 -0.4 12.5 -11.7 -16.3 15.5 -1.6 0.6 3.4 -15.9
24.3 -30.4 -18.6 20.3
= 12.5 -11.7 -16.3 15.5
+ 11.8 -18.7 -2.3 4.8
6.8 -6.1 -22.8 -0.4 12.5 -11.7 -16.3 15.5 -5.7 5.7 -6.5 -15.9
10.9 -28.4 -16.7 15.4 12.5 -11.7 -16.3 15.5 -1.6 -16.7 -0.4 -0.1

yij  y xx yi x  y xx yij  y i x

Análisis de la varianza 46
Variabilidades: ejemplo
Variabilid ades Grados de libertad
K ni
VT ¦ ¦ ( yij  y xx ) 2 7645.5 n-1 23
i 1j 1
K
VE ¦ ni ( y i x  y xx ) 2 4798.1 K-1 3
i 1
K ni
2
VNE ¦ ¦ eij 2847.4 n-K 20
i 1j 1

7645.5 4798.1  2847.4


23 3  20

Análisis de la varianza 47

Interpretación gráfica de la
descomposición

y1x
y 2x
y ix  y xx yij  y i x
y 3x

y 4x

y xx yij  y xx

Análisis de la varianza 48
Distribución de VE
2 V2
yij o N ( Pi , V ) Ÿ y i x o N ( Pi , )
ni
V
Si P1 P 2  P K que llamaremos P
V2
yix o N (P , )
Pi ni
2 2 2
§ y1x  P · § y 2x  P · § y P·
¨ ¸ ¨ ¸  ¨ Kx ¸ o F K2
¨V / n ¸ ¨V / n ¸ ¨V / n ¸
© 1¹ © 2 ¹ © K ¹

2 2 2
§ y1x  y xx · § y 2x  y xx · § y  y xx ·
¨ ¸ ¨ ¸  ¨ Kx ¸ o F K2 1
¨ V/ n ¸ ¨ V/ n ¸ ¨ V/ n ¸
© 1 ¹ © 2 ¹ © K ¹

Análisis de la varianza 49

Distribución de VNE
ni
¦ ( yij  y ix ) 2
j 1 (ni  1) sˆi2
yij o N ( Pi ,V 2 ) Ÿ sˆi2 o o F n2 1
ni  1 V 2 i

K ni n n nK
1 2
2
¦ ¦ ( yij  y ix ) ¦ ( y1 j  y1x )  ¦ ( y2 j  y 2x )    ¦ ( y Kj  y K x ) 2
2 2
i 1j 1 j 1 j 1 j 1
sˆR2
nK nK
(n1  1) sˆ12  (n2  1) sˆ22    (nK  1) sˆK2
nK

(n  K ) sˆR2 (n1  1) sˆ12 (n2  1) sˆ22 (nK  1) sˆK2


 
V2 V2 V2 V2
F n2 1  F n2 1    F n2 1
1 2 K
F n2 K

Análisis de la varianza 50
Contraste (Análisis de la Varianza)
H 0 : P1 P2  P K
H1 : Al menos una es diferente K
¦ ni ( yi x  yxx ) 2
(n  K ) sˆR2
x 2
o F n2 K x Si Ho es cierto : i 1
2
o F K2 1
V V
K 2
¦ ni ( y i x  y x x )
F0 i 1 o FK 1, n  K
2
( K  1) sˆR
F0 d FD Ÿ No se rechaza H 0
F0 ! FD Ÿ Se rechaza H 0

Análisis de la varianza 51

Tabla de Análisis de la Varianza

Suma de Grados de
Fuentes Cuadrados Libertad Varianzas F
¦ ni ( y i x  y xx ) 2
Tratamient os ¦ ni ( y i x  y xx ) 2 K 1 ¦ ni ( y i x  y xx ) 2 /( K  1)
( K  1) sˆR2
Residual ¦ ¦ ( yij  y i x ) 2 nK sˆ 2
R
Total ¦ ¦ ( yij  y xx ) 2 n 1

Análisis de la varianza 52
Tabla de Análisis de la Varianza
Suma de Grados de
Fuentes Cuadrados Libertad Varianzas F

Tratamient os 4798.1 3 1599.3 11.2


Residual 2847.4 20 142.4
Total 7645.5 23

Análisis de la varianza 53

Intervalos de confianza para


las medias
2 V2
yij o N ( Pi , V ) Ÿ y i x o N ( Pi , )
ni
y i x  Pi
o N (0,1)
V
R.R. R.R
ni
tn-K
y i x  Pi
o tn  K 1-D
sˆR D/2 D/2
ni R. Acept. H0
-tD/2 tD/2

Piyix rtD / 2 R
n
i

Análisis de la varianza 54
Intervalos de confianza

Semilla Media L. Inferior L. Superior


A 242.9 235.7 250.1
B 218.7 211.4 225.8
C 214.1 206.9 221.3
D 245.9 238.7 253.1

Análisis de la varianza 55

Intervalos de confianza (95%)

260

250
Rendimiento

240

230

220

210

200
A B C D

Semilla

Análisis de la varianza 56
Diferencia de medias: y1x  y2x

V V
P1 P2
y11 ½ y21 ½
y12 °° V2 y22 ° ° V2
y1x o N ( P1 , ) y2x o N ( P 2 , )
 ¾ n1  ¾ ° n2
°
y1n1 °
¿ y2 n2 °
¿
V2 V2 ½
y1x  y 2x o N ( P1  P 2 ,  )
°
n1 n2 °° ( y1x  y 2x )  ( P1  P 2 )
( y1x  y 2x )  ( P1  P 2 ) Ÿ o t n K
o N (0,1) ¾ 1 1
1 1 ° sˆ R 
V  ° n1 n2
n1 n2 °¿

Análisis de la varianza 57

Contraste multiples

H 0 : Pi Pj
R.R. R.R
H1 : P i z P j tn-K
1-D
yi x  y j x D/2
R. Acept. H0
D/2
tij o tn  K
1 1 -tD/2 tD/2
sˆR 
ni n j
t0 d tD / 2 Ÿ No se rechaza H 0
t0 ! tD / 2 Ÿ Se rechaza H 0
Análisis de la varianza 58
Diagnosis del modelo

Modelo

V V V
...
P1 P2 PK

y11 y21 yK1


y12 y22 yK 2
  ... 
y1n y2 n y Kn
1 2 K
Análisis de la varianza 60
Hipótesis del modelo

Normalidad
yij Ÿ N(Pi,V2)
Homocedasticidad
Var [yij] = V2
Independencia
Cov [yij, ykl] = 0

Análisis de la varianza 61

Residuos:
Normales y homocedásticos

yij Pi  uij
uij yij  P i eij yij  yix
uij o N (0, V 2 )

Residuos
A B C D
-13,8
10,8
14,8
14,4
-3,0
9,0
24,5
2,7
V
-1,6 0,6 3,4 -15,9
11,8 -18,7 -2,3 4,8
-5,7 5,7 -6,5 -15,9

0
-1,6 -16,7 -0,4 -0,1
0,0 0,0 0,0 0,0

Análisis de la varianza 62
Comprobación de la
normalidad
Los residuos deben de tener distribución normal.
Las observaciones originales también, pero cada
grupo con media diferente, por ello es preciso
estimar el modelo para descontar a cada
observación su media y obtener valores con la
misma distribución.

Herramientas de comprobación:
Histograma de residuos
Gráfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)

Análisis de la varianza 63

Gráfico probabilista normal


Es un gráfico X-Y de los Pasos:
residuos frente a los Ordenar los residuos de
percentiles de la
menor a mayor.
distribución normal.
e(1) d e(2) d  d e(n)
La idea básica es que Calcular los percentiles
cuando los residuos de la distribución
tienen distribución
normal
normal, los puntos i  0.5
deben formar Yi ) 1 ( ) u sˆR , i 1,2,..., n
n
aproximadamente Representar
una línea recta.
e(i ) , Yi

Análisis de la varianza 64
Gráfico prob. Normal
(ejemplo)
Orden Resid. Probab. Percen. Percen.
i eij (i-0.5)/n N(0,1) N(0,V )
Q-Q plot
1 -18,7 0,021 -2,04 -24,30
2 -16,7 0,063 -1,53 -18,30
3 -15,9 0,104 -1,26 -15,01 30,0
4 -15,9 0,146 -1,05 -12,58
5 -13,8 0,188 -0,89 -10,58
6 -6,5 0,229 -0,74 -8,85 20,0
7 -5,7 0,271 -0,61 -7,28
8 -3,0 0,313 -0,49 -5,83 10,0

Percentiles
9 -2,3 0,354 -0,37 -4,46
10 -1,6 0,396 -0,26 -3,15
0,0
11 -1,6 0,438 -0,16 -1,88
12 -0,4 0,479 -0,05 -0,62
13 -0,1 0,521 0,05 0,62 -10,0
14 0,6 0,563 0,16 1,88
15 2,7 0,604 0,26 3,15 -20,0
16 3,4 0,646 0,37 4,46
17 4,8 0,688 0,49 5,83
-30,0
18 5,7 0,729 0,61 7,28
19 9,0 0,771 0,74 8,85 -30,0 -20,0 -10,0 0,0 10,0 20,0 30,0
20 10,8 0,813 0,89 10,58 Residuos ordenados
21 11,8 0,854 1,05 12,58
22 14,4 0,896 1,26 15,01
23 14,8 0,938 1,53 18,30
24 24,5 0,979 2,04 24,30

Análisis de la varianza 65

Gráfico probabilista normal

99.9
99
Probabilidad

95
80
50
20
5
1
0.1
-30 -20 -10 0 10 20 30
Residuos

Análisis de la varianza 66
Ejemplos
99,9 99,9
99 99
95 95
80 80
50 50
20 20
5
1
Normal 5
1
No normal
0,1 0,1
-2,6 -1,6 -0,6 0,4 1,4 2,4 3,4 0 3 6 9 12 15

99,9 99,9
99 99
95 95
80 80
50 50
20 20
5
1 No normal
5
1
No normal
0,1 0,1
0 0,4 0,8 1,2 1,6 2 -3 -1 1 3 5

Análisis de la varianza 67

Comprobación de la homocedasticidad

En el proceso de estimación se ha supuesto que los


distintos tratamientos tienen la misma varianza.

Herramientas:
- Gráficos de residuos:
·Frente a valores previstos
·Frente a tratamientos (o factor,etc.)
- Contrastes formales:
Bartlett, Cochran, Hartley, Levene

Análisis de la varianza 68
Residuos - Valores previstos
30
20
En este modelo los valores
10
previstos corresponden a
residuos

0 la media del tratamiento.


-10
-20 Los puntos deben aparecer
-30 dispuestos al azar en una
210 220 230 240 250
valores previstos
banda horizontal alrededor
30
del eje horizontal.
20
Heterocedasticidad: a veces
10
residuos

0
la dispersión aumenta
-10 conforme la media crece.
-20
-30
0 5 10 15
Valores previstos

Análisis de la varianza 69

Residuos por tratamientos


25

15
máx.
Residuos

mín.

-5

-15

-25
A B C D
Semilla
En cada grupo los residuos aparecen esparcidos
con dispersión similar y media cero.

Análisis de la varianza 70
Residuos por tratamientos
25

15

máx.
Residuos

mín.
5
máx
-5 3
mín
-15

-25
A B C D
Semilla
En cada grupo los residuos aparecen esparcidos
con dispersión similar y media cero.

Análisis de la varianza 71

Contrastes formales

V2 VK
V1
...
P1 P2 PK

H 0 : V 12 V 22  V K2
H1 : Alguna es distinta

Análisis de la varianza 72
Contrastes formales

Un ejemplo de este tipo de contrastes formales es el


contraste de Bartlett.

Para el ejemplo de los tipos de semilla se tiene un p-


valor = 0.177>α No se rechaza la hipótesis nula
de homocedasticidad.

Análisis de la varianza 73

Diagnosis: Tres gráficos básicos


0,57 0,57

0,37 0,37
residuos

residuos

0,17 0,17

-0,03 -0,03

-0,23 -0,23

-0,43 -0,43
0 0,3 0,6 0,9 1,2 1 2 3

Valores previstos Tratamientos

99,9
99
Homocedasticidad
probabilidad

95
80
50
20
5
1 Normalidad
0,1
-0,33 -0,13 0,07 0,27 0,47
residuos
Gráfico probabilista normal

99,9
99
probabilidad

95
80
50
20
5
1
0,1
-0,33 -0,13 0,07 0,27 0,47
residuos

Análisis de la varianza 75

Transformaciones z=h(y) para estabilizar la


varianza

En la práctica, en la mayoría de los casos, alguna


de las transformaciones siguientes corrige la
heterocedasticidad:

· 1/x
· log(x)
· x2 (u otras transformaciones xp)
· x

Análisis de la varianza 76
Transformaciones Box-Cox
z ij1,5 p>1
p=1
1

0,5 p<1

0 yij
1
-0,5

-1
yijp  1
z ij
-1,5 p
z ij log yij si p 0

Análisis de la varianza 77

Búsqueda de la
transformación adecuada
0,57

0,37 La dispersión
aumenta al aumentar
residuos

0,17

-0,03 la media
-0,23

-0,43
0 0,3 0,6 0,9 1,2
p<1
Valores previstos
1,6
1,1
0,6
La dispersión
residuos

0,1 disminuye al
-0,4 aumentar la media
-0,9
-1,4
0 4 8 12 16 p>1
valores previstos

Análisis de la varianza 78
p
Elección de la transformación zij yij
Empezar con p=1 (datos sin transformar) y
decidir a partir de los gráficos si p>1 o
p<1.
­ p 1/ 2 Ÿ z ij yij
°
° p 0 Ÿ z ij log yij
° 1
° p 1 / 2 Ÿ z ij
p 1 o ® yij
° 1
° p 1 Ÿ z ij
° yij2
°   
¯

Parar cuando los gráficos estén ok.

Análisis de la varianza 79

Independencia
Es la hipótesis fundamental y con diferencia la más
importante de las tres, además es la más difícil de
comprobar.

La falta de independencia suele ir ligada a factores no


controlados por el experimentador y que influyen en
los resultados introduciendo errores sistemáticos.

La forma más recomendable de evitar errores


sistemáticos consiste en aleatorizar.

Análisis de la varianza 80
Aleatorización

La aleatorización evita que se produzcan


errores que sistemáticamente aumenten o
disminuyan un conjunto de medidas por
causas no reconocibles: al aleatorizar se
reparten estos errores por igual entre los
diferentes tratamientos y se convierten en
errores aleatorios, previstos en el modelo.

Análisis de la varianza 81

¿Cómo aleatorizar?
Asignar las unidades experimentales al azar a
los distintos tratamientos.
Aleatorizar el orden de ejecución de los
experimentos.
Aleatorizar respecto a cualquier otra variable
que implique diferenciar a los tratamientos.
“La aleatorización es una precaución contra distorsiones
que pueden ocurrir o no ocurrir, y que pudieran ser
serias o no si llegaran a ocurrir”

Análisis de la varianza 82
¿Cómo aleatorizar?

Asignar las unidades experimentales al azar a


los distintos tratamientos.
Aleatorizar el orden de ejecución de los
experimentos.
Aleatorizar respecto a cualquier otra variable
que implique diferenciar a los tratamientos.
“La aleatorización es una precaución contra distorsiones
que pueden ocurrir o no ocurrir, y que pudieran ser
serias o no si llegaran a ocurrir”

Análisis de la Varianza 83

Comparación de k tratamientos con R

Ejemplos:

- Comparación de k=4 tipos de semilla en la


producción de centeno (centeno.txt).
- Datos obtenidos por Heyl para medir el valor de la
constante de gravitación universal, G, comparación
para k=3 materiales (heyl.txt).
- Influencia del tipo de fibra en el tiempo de
combustión (fibras.txt).

Análisis de la Varianza 84
Ejemplo 1: Centeno

ARCHIVO TEXTO: centeno.txt

Análisis de la Varianza 85

Tabla ANOVA: Centeno

Análisis de la Varianza 86
Intervalos de confianza: Centeno
> source('ICplot.R')
> ICplot(mod, ‘Sem')

250
medias

230
210

A B C D

Sem

Análisis de la Varianza 87

Comparaciones Múltiples: Centeno

Análisis de la Varianza 88
Diagnosis: Centeno

Residuals vs Fitted Normal Q-Q

Standardized residuals
19 19

2
Residuals

0 10

1
0
-1
-20

12 12
10 10

215 220 225 230 235 240 245 -2 -1 0 1 2

Fitted values Theoretical Quantiles

Constant Leverage:
Scale-Location Residuals vs Factor Levels
1.5
Standardized residuals

Standardized residuals
19
19

2
10
12
1.0

1
0
0.5

-1

12
0.0

10
-2

centeno$Sem :
215 220 225 230 235 240 245 C B A D

Fitted values Factor Level Combinations

Análisis de la Varianza 89

Ejemplo 2: Datos de Heyl

Datos de las mediciones realizadas para G (x 1011 N m2/kg2)

Análisis de la Varianza 90
ANOVA Ejemplo 2: Datos de Heyl

Análisis de la Varianza 91

Comparaciones múltiples: Datos de Heyl

El objetivo es saber qué tipo de semilla es mejor.

Análisis de la Varianza 92
Comparaciones múltiples: Datos de Heyl

Comparaciones 2 a 2

Análisis de la Varianza 93

Comparaciones múltiples: Datos de Heyl

Comparaciones 2 a 2

Análisis de la Varianza 94
Diagnosis: Datos de Heyl

Diagnosis del modelo

Análisis de la Varianza 95

Ejemplo 3: Combustión de distintos tipos de


fibra

Se ha realizado un experimento para medir el tiempo de


combustión de unos retales de cuatro fibras diferentes. En
la tabla siguiente se proporcionan los resultados obtenidos
(en segundos) del modelo.

Análisis de la Varianza 96
Ejemplo 3: Combustión de distintos tipos de
fibra

Se ha realizado un experimento para medir el tiempo de


combustión de unos retales de cuatro fibras diferentes. En
la tabla siguiente se proporcionan los resultados obtenidos
(en segundos) del modelo.

- ¿Tienen las cuatro fibras igual comportamiento respecto al


tiempo de combustión? Indique el nivel crítico del
contraste.
- ¿Cuál es la fibra que presenta menor tiempo medio de
combustión?.
- Analizar los residuos comprobar las hipótesis del modelo.

Análisis de la Varianza 97

Ejemplo 3: Combustión de distintos tipos de


fibra

Se rechaza la hipótesis nula de que todas las fibras sean


iguales frente a la alternativa de que alguna es distinta,
con un p-valor de 0.0001016 < α.

Análisis de la Varianza 98
Ejemplo 3: Combustión de distintos tipos de
fibra
Comparaciones múltiples. El mayor tiempo de combustión,
significativamente distinto a los anteriores: fibra A. En media
la C es la que tiene menor tiempo de combustión, pero no
significativamente distinta a la B y D.

Análisis de la Varianza 99

Ejemplo 3: Combustión de distintos tipos de


fibra

Diagnosis del modelo

Análisis de la Varianza 100


Análisis de la varianza con R:
comparación de dos tratamientos

Ejemplos:

- Velocidad de la luz: Michelson vs. Newcomb


- Sensores
- Pilas

Análisis de la Varianza 101

Análisis de la varianza con R:


Ejemplo 1: Michelson

En 1879, el físico norteamericano Albert A. Michelson tomó 100 medidas de la


velocidad de la luz en el aire empleando una modificación del método propuesto
por el físico francés Foucault. Las medidas que tomó se proporcionan a
continuación (en miles de km/s).
En 1882 Simon Newcomb midió el tiempo que una señal luminosa tardaba en recorrer
una distancia de 7.442 metros.
En el fichero Michelson.txt se incorporan los datos obtenidos de ambos experimentos,
en miles de km/s.
Los datos de Michelson y Newcomb fueron tomados con una diferencia de tres años y
con experimentos diferentes. Basándose en los resultados anteriores sobre el
modelo distribucional del que proceden estos datos, responde las siguientes
cuestiones:
- Compare gráficamente los datos de la velocidad de la luz de Newcomb y de
Michelson (diagramas de cajas e histogramas).
- Analice si existen diferencias significativas entre las estimaciones de la velocidad de
la luz obtenidas en ambos experimentos.

Análisis de la Varianza 102


Análisis de la varianza con R:
Ejemplo 1: Michelson

Análisis de la Varianza 103

Análisis de la varianza con R:


Ejemplo 1: Michelson

Comparación de los métodos de Michelson (M) y Newcomb (N):

Análisis de la Varianza 104


Análisis de la varianza con R:
Ejemplo 1: Michelson

Diagnosis: Contraste de Bartlett

Análisis de la Varianza 105

Análisis de la varianza con R:


Ejemplo 1: Michelson

Diagnosis: Contraste de Bartlett

Se rechaza la hipótesis nula de igualdad de varianzas

H 0 : V MICHELSON
2
V NEWCOMB
2

H1 : V MICHELSON
2
z V NEWCOMB
2

El rechazo de la hipótesis nula se debe a la presencia de valores


atípicos en el experimento de Newcomb.

Análisis de la Varianza 106


Análisis de la varianza con R:
Ejemplo 2: Sensores

Una empresa suministra tubos de escape a la industria del automóvil. En el tubo de


escape se coloca un sensor que comunica al ordenador del coche el contenido de
CO en los gases de escape. La empresa dispone de dos tipos de sensores A y B
basados en principios de medición diferentes. Tanto uno como otro se colocan en el
silencioso del tubo de escape. El departamento de I+D de la empresa sospecha que
pueden existir diferencias entre las mediciones efectuadas por los dos tipos de
sensor y decide realizar un experimento. La primera idea consiste en seleccionar 10
sensores del tipo A y otros 10 del tipo B y colocarlos en los tubos de escape de 20
coches distintos.
No obstante un ingeniero de la empresa sugiere que para evitar que la variabilidad
entre coches distintos enmascare los resultados del experimento, se utilicen 10
coches y que en cada uno de ellos se monte un sensor A y otro B ambos colocados
en el silencioso y en dos posiciones cercanas entre sí.
¿Qué procedimiento experimental le parece más adecuado? ¿Por qué?.
Finalmente se opta por el plan experimental propuesto por el ingeniero. El contenido en
partes por millón de CO observado en el experimento fue el que se indica en la
tabla (Sensor.txt):

Análisis de la Varianza 107

Análisis de la varianza con R:


Ejemplo 2: Sensores

Análisis de la Varianza 108


Análisis de la varianza con R:
Ejemplo 2: Sensores

No existen diferencias significativas entre los tipos de


sensores A y B

Análisis de la Varianza 109

Análisis de la varianza con R:


Ejemplo 2: Sensores

Diagnosis del modelo: Comprobación de la homocedasticidad


e independencia.

Análisis de la Varianza 110


Análisis de la varianza con R:
Ejemplo 2: Sensores

Diagnosis del modelo: Comprobación de la homocedasticidad


mediante el contraste de Bartlett. Alternativa sólo válida para
k=2 tratamientos.

Análisis de la Varianza 111

Análisis de la varianza con R:


Ejemplo 3: Tiempo de descarga de pilas

Se ha medido el tiempo hasta la descarga de dos marcas de


pilas y se desea contrastar si en base a esta variable las dos
marcas son distintas.

Tabla de datos: Energizer Ultracell


1,40 1,56
1,39 1,54
1,35 1,53
1,38 1,54
1,35 1,54
1,36 1,47
1,31 1,49
1,26 1,54
1,37 1,50

Análisis de la Varianza 112


Análisis de la varianza con R:
Ejemplo 3: Tiempo de descarga de pilas

Se ha medido el tiempo hasta la descarga de dos marcas de


pilas y se desea contrastar si en base a esta variable las dos
marcas son distintas.

Análisis de la Varianza 113

Análisis de la varianza con R:


Ejemplo 3: Tiempo de descarga de pilas

Comparaciones dos a dos del ejemplo PILAS2:

Análisis de la Varianza 114


Análisis de la varianza con R:
Ejemplo 3: Tiempo de descarga de pilas

Diagnosis del ejemplo PILAS2:

Análisis de la Varianza 115

Análisis de la varianza con R:


Ejemplo 3: Tiempo de descarga de pilas

Contraste de Bartlett para el ejemplo PILAS2:

No se rechaza la hipótesis nula de homocedasticidad


(igualdad de varianzas).

Análisis de la Varianza 116


Análisis de la Varianza, comparación de 2 tratamientos

1. Se estudian dos tipos de neumáticos con los resultados siguientes:


Tipo ni xi (Km) sbi (Km)
A 121 27465 2500
B 121 27572 3000
Calcular, con α = 0.01:
σ 21
a) Un intervalo de confianza para σ 22
.
b) Un intervalo de confianza para µ1 − µ2 .

2. Se dispone de rendimientos de dos máquinas. Los resultados de la máquina A son 137.5;


14.07; 106.9; 175.1; 177.3; 120.4; 77.9 y 104.2, mientras que los reultados para la B son: 103.3;
121.7; 98.4; 161.5; 167.8 y 67.3. ¿Son las máquinas iguales? (Suponer que los rendimientos
de ambas máquinas siguen distribuciones normales).

3. Un fabricante de automóviles debe elegir entre un determinado tipo de piezas de acero


suministradas por un proveedor A y otras suministradas por otro proveedor B. Para proceder
a la elección se ha analizado la resistencia a la tracción de las piezas suministradas por ambos
proveedores, tomando una muestra de tamaño 10 de las piezas del primero, y otra de tamaño
12 del segundo. La resistencia media de la muestra de A es de 54000 unidades y la de la
muestra de B es de 49000 unidades, siendo las desviaciones tı́picas muestrales corregidas
sbA = 2100 y sbB = 1900. Las resistencias de las piezas de ambos proveedores se distribuyen
normalmente. Las piezas del proveedor B son más baratas que las del proveedor A, por lo
que estas últimas sólo son rentables si tienen una resistencia media al menos 2000 unidades
mayor que las de B, y la misma variabilidad.
a) ¿A qué proveedor habrı́a que comprar las piezas a la vista de los resultados muestrales?
b) Obtener un intervalo de confianza al 90% para la diferencia de medias de la resistencia
de las piezas de los proveedores A y B.

Análisis de la Varianza, comparación de k tratamientos

1. En una fábrica de automóviles se utiliza una misma planta para el ensamblaje de tres modelos
distintos (A, B y C). Para determinar si los modelos reciben el mismo tratamiento, se ha
realizado un control de calidad a una muestra tomada para cada modelo. El número de
defectos encontrados para cinco vehı́culos del modelo A son 5, 4, 6, 6 y 7; para seis vehı́culos
del modelo B son 7, 8, 6, 7, 6 y 5; y para ocho vehı́culos del modelo C: 9, 7, 8, 9, 10, 11, 10 y
10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos.

1
2. Una empresa debe elegir entre cinco procedimientos para fabricar un cierto producto quı́mico.
Se sospecha que existen diferencias entre ellos aunque pequeñas. Para detectar estas diferen-
cias se pretende realizar un experimento a gran escala con el mismo número de observaciones
en cada grupo. Para determinar este tamaño muestral se ha realizado un experimento piloto
con 6 observaciones de cada método y los resultados (medias de cada grupo) han sido los
siguientes:
METODO 1 2 3 4 5
Media 425.6 423.2 418.8 430.2 422.2
y la varianza residual ŝ2R = 198.5.

(a) ¿ Cúal debe ser el tamaño muestral del experimento a gran escala para que el contraste
de análisis de la varianza sea significativo con α = 0.01 si el coeficiente de determinación
es igual al del experimento piloto?.
(b) El método A es el procedimiento habitual y el método D es el que se sospecha propor-
ciona mejor rendimiento. Una hipótesis que se pretende contrastar es H0 : µD = µA ,
frente a la hipótesis alternativa H1 : µD > µA . ¿ Qué condición debe cumplir la difer-
encia entre las medias muestrales de los dos métodos para rechazar H0 con α = 0.01?

3. Se ha realizado un experimento para estudiar el efecto de un único factor con I niveles


en la variable respuesta y con un número diferente de observaciones en cada tratamiento:
n1 , n2 , ..., nI siendo el total n = n1 + n2 + · · · + nI . Llamando yij a la observación j del
tratamiento i, i = 1, ..., I, j = 1, 2, ..., ni e ȳi• la media del tratamiento i. Se desea estimar
la media general ¿cuál de los dos estimadores siguientes
I ∑
∑ ni

I
yij ȳi•
i=1 j=1 i=1
y •• = , ỹ•• =
n I
tiene mı́nima varianza? Realiza la comprobación para el caso I = 5, con ni = 3, 2, 3, 5, 6 el
número de observaciones en cada tratamiento. Asumir que las observaciones son independi-
entes y que se cumple la hipótesis de homocedasticidad.

4. Considere la comparación de dos tratamientos en poblaciones normales. Demuestre que el


contraste t para comparar dos medias es análogo al contraste de la F en Análisis de la
Varianza (suponga n1 = n2 ).

5. Cinco tipos (A, B, C, D y E) de material sintético se han sometido a un ensayo de desgaste.


Para cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviación
tı́pica corregida en cada caso es la siguiente:
A B C D E
media xi 14.1 16.3 13.5 14.8 15.3
d. tı́pica ŝi 1.3 1.2 1.4 1.2 1.5

2
(a) Contrastar (α = 0.05) la hipótesis

H0 : µA = µB = µC = µD = µE
frente a la hipótesis alternativa,

H1 : alguna media es distinta de las demás.


(b) Indicar con nivel de confianza 0.95 el material con desgaste menor y qué materiales
tienen desgaste medio, distinto.
(c) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental.

6. Se desea comprobar el efecto de un tratamiento térmico sobre la resistencia de un nuevo


material. Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1 ,
T2 y T3 obteniendo como medida de resistencia superficial los valores siguientes:
T1 T2 T3
2.65 4.31 4.81
2.67 3.96 5.32
2.46 4.64 4.93
1.90 4.74 5.49
2.62 4.00 4.45

(a) Contrastar mediante el test de análisis de la varianza si existen diferencias significativas


entre los tratamientos térmicos (α = 0.01).
(b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dos
tratamientos. Si la relación entre la resistencia y la temperatura es lineal, es de esperar
que la media del tratamiento 2 verifique : H0 : µ2 = 12 (µ1 + µ3 ). Hacer el contraste
bilateral de esta hipótesis con α = 0.05. (Nota.- Usar la distribución de y 2 −(y 1 +y 3 )/2,
donde y i es la media de los datos correspondientes al tratamiento Ti ).

7. Un fabricante sospecha que los lotes de materia prima recibidos de un proveedor difieren
significativamente de su contenido en calcio. Elige al azar 5 lotes diferentes y un quı́mico
hace cinco determinaciones del contenido en calcio de cada lote. Los resultados obtenidos
han sido
Lote 1 Lote 2 Lote 3 Lote 4 Lote 5
23.46 23.59 23.51 23.28 23.29
23.48 23.46 23.64 23.40 23.46
23.56 23.42 23.46 23.37 23.37
23.39 23.49 23.52 23.46 23.32
23.40 23.50 23.49 23.29 23.38
La tabla de análisis de la varianza se proporciona a continuación. Comparar las medias de
los cinco tratamientos con nivel de significación total αT = 0.10.

3
Análisis de la varianza
Fuente Variabilidad g.l. Var. Media F Nivel crı́tico
Lote 0.096976 4 0.024244 5.54 0.0036
Residuos 0.08760 20 0.00438
Total 0.184576 24

4
2. Diseño de Experimentos

Diseño de experimentos:

Diseños Factoriales
Bloques Aleatorizados
Formas de realizar un experimento

Diseño Experimentos 3

2.1 Diseños factoriales


(dos factores)
Ejemplo
ANTÍDOTO
A B C D
0.31 0.82 0.43 0.45
0.45 1.10 0.45 0.71
I
V 0.46 0.88 0.63 0.66
E 0.43 0.72 0.72 0.62
N 0.36 0.92 0.44 0.56
E 0.29 0.61 0.35 1.02
II
N 0.40 0.49 0.31 0.71
O 0.23 1.24 0.40 0.38
S 0.22 0.30 0.23 0.30
0.21 0.37 0.25 0.36
III
0.18 0.38 0.24 0.31
0.23 0.29 0.22 0.33

Se analiza el efecto de tres venenos y cuatro antídotos


en el tiempo de supervivencia de unas ratas.

Diseño Experimentos 5

Comandos en R
ARCHIVO TEXTO: venenos.txt

Diseño Experimentos 6
Modelo
Factor 1
1 2  I
y111 y 211 y I 11 yijk P  D i  E j  DE ij  uijk
y112 y 212 y I 12
1 
   •Normalidad
Factor 2

y11m y 21m y I 1m
y121 y 221 y I 21 •Independencia
2
y122 y 222

y I 22 •Homocedasticidad
  
y12 m y 22 m y I 2m IuJ tratamientos
    
y1J 1 y2 J 1 y IJ 1 m replicaciones
y1J 2 y2 J 2 y IJ 2
J 
   n = muIuJ
y1Jm y 2 Jm y IJm

Diseño Experimentos 7

Factor 1
1 2 ... I

1
V V
... V

P  D1  E1  DE11 P  D 2  E1  DE 21 P  D I  E1  DE I 1

V V
... V
Factor 2

2
P  D1  E 2  DE12 P  D 2  E 2  DE 22 P  D I  E 2  DE I 2
    

J
V V
... V

P  D1  E J  DE1J P  D 2  E J  DE 2 J P  D I  E J  DE IJ
Modelo
yijk P  D i  E j  DE ij  uijk
¦iI 1Di 0 ¦ Jj 1 E j 0 ¦i
I
1 DE ij 0, j
¦ Jj 1DE ij 0, i
P : Media global
Di : Efecto del Factor 1 i, i=1,...,I
Ej : Efecto del Factor 2 j, j=1,...,J
DEij: Interacción de niveles ij
uijk : Componente aleatoria N(0,V2), k=1,…m

Diseño Experimentos 9

Estimación del modelo


P :o 1 Pˆ y xxx
Dˆ i y ixx  y xxx
D i :o I  1
Eˆ j y x j x  y xxx
E j :o J  1 š
DE ij y ij x  y ixx  y x j x  y xxx
DE ij :o ( I  1)( J  1)
Vˆ 2 2
sˆR
¦¦¦ eijk2
V 2 :o 1 IJ (m  1)

m J m I m I J m

¦y ijk ¦¦ y
j 1 k 1
ijk ¦¦ y ijk ¦¦¦ y
i 1 j 1 k 1
ijk
k 1 i 1 k 1
y ij x y ixx y x jx y xxx
m mJ mI n

Diseño Experimentos 10
Estimación del modelo

yijk P  D i  E j  DE ij  uijk

yijk Pˆ  Dˆ i  Eˆ j  DEij  eijk

eijk yijk  ( Pˆ  Dˆ i  Eˆ j  DEij ) yijk  yij x

g.l.=IJm-IJ=IJ(m-1)

Diseño Experimentos 11

Estimación
ANTÍDOTO
A B C D
0.31 0.82 0.43 0.45
V 0.45 1.10 0.45 0.71
I
0.46 0.88 0.63 0.66
E 0.43 0.72 0.72 0.62
0.41 0.88 0.56 0.61
N 0.36 0.92 0.44 0.56
0.29 0.61 0.35 1.02
II
E 0.40 0.49 0.31 0.71
0.23 1.24 0.40 0.38
N 0.32 0.82 0.38 0.67
0.22 0.30 0.23 0.30
O 0.21 0.37 0.25 0.36
III
0.18 0.38 0.24 0.31
S 0.23 0.29 0.22 0.33
0.21 0.34 0.24 0.33

Diseño Experimentos 12
Estimación
A
ANTÍDOTO
B C D Medias D̂ i
0,31 0,82 0,43 0,45
0,45 1,10 0,45 0,71
V I 0,46 0,88 0,63 0,66 0,615 0,136
0,43 0,72 0,72 0,62
E Medias 0,41 0,88 0,56 0,61

N
DE ij -0,038
0,36
0,067
0,92
0,032
0,44
-0,061
0,56
0,29 0,61 0,35 1,02
E II 0,40 0,49 0,31 0,71 0,544 0,066
0,23 1,24 0,40 0,38
N Medias 0,32 0,82 0,38 0,67
DE ij -0,060 0,073 -0,080 0,068
O 0,22 0,30 0,23 0,30
0,21 0,37 0,25 0,36
S III 0,18 0,38 0,24 0,31 0,276 -0,202
0,23 0,29 0,22 0,33
Medias 0,21 0,34 0,24 0,33
DE ij 0,098 -0,139 0,048 -0,007
Medias 0,314 0,677 0,389 0,534 0,479
Ê j -0,164 0,198 -0,089 0,056

Diseño Experimentos 13

Dos factores con interacción

Diseño Experimentos 14
Residuos
RESIDUOS
ANTÍDOTO
eijk yijk  yij x
¦e
A B C D

V
I
-0.103
0.038
-0.060
0.220
-0.128
-0.108
-0.160
0.100 ijk 0
0.048 0.000 0.073 0.050
E 0.018 -0.160 0.163 0.010
k
0.00 0.00 0.00 0.00
N 0.040 0.105 0.065 -0.108
-0.030 -0.205 -0.025 0.353
II
E 0.080 -0.325 -0.065 0.043
-0.090 0.425 0.025 -0.288
Vˆ 2
sˆ 2 ¦¦¦ e 2
ijk
0,022
N 0.00 0.00 0.00 0.00 IJ (m  1)
R

0.010 -0.035 -0.005 -0.025


O 0.000 0.035 0.015 0.035
III
-0.030 0.045 0.005 -0.015
S 0.020 -0.045 -0.015 0.005
0.00 0.00 0.00 0.00

Diseño Experimentos 15

Diseño Experimentos 16
Descomposición de la variabilidad

VT VE ( A)  VE ( B)  VE ( A u B)  VNE
(n  1) ( I  1)  ( J  1)  ( I  1)( J  1)  IJ (m  1)

DATOS MODELO

Diseño Experimentos 17

Variabilidades

I J m
VT ¦¦¦(y
i 1 j 1 k 1
ijk  y xxx ) 2
I I
VE ( A) mJ ¦ ( y i xx  y xxx ) 2
mJ ¦ (Dˆ i ) 2
i 1 i 1
J I
VE ( B ) mI ¦ ( y x j x  y xxx ) 2 mI ¦ ( Eˆi ) 2
j 1 i 1
I J
VE ( A u B ) m¦ ¦ (DE ij ) 2
i 1 j 1
I J m I J m
VNE ¦¦¦(y
i 1 j 1 k 1
ijk  y ij x ) 2
¦ ¦ ¦ (e
i 1 j 1 k 1
ijk )2

Diseño Experimentos 18
Descomposición de la
variabilidad

Diseño Experimentos 19

Análisis de la varianza
š
yijk P  D i  E j  DEij  uijk Ÿ yijk Pˆ  Dˆ i  Eˆ j  DE ij  eijk
yijk y xxx  ( y ixx  y xxx )  ( y x j x  y xxx )  ( y ij x  y ixx  y x j x  y xxx )  ( yijk  y ij x )
yijk  y xxx ( y ixx  y xxx )  ( y x j x  y xxx )  ( y ij x  y ixx  y x j x  y xxx )  eijk
I J m I J m I J m

¦¦ ¦ ( y
i 1 j 1 k 1
ijk  y xxx ) 2 ¦¦¦ ( y
i 1 j 1 k 1
i xx  y xxx ) 2  ¦¦¦ ( y x j x  y xxx ) 2 
i 1 j 1 k 1
I J m I J m
 ¦¦¦ ( y ij x  y ixx  y x j x  y xxx ) 2  ¦¦¦ eijk2
i 1 j 1 k 1 i 1 j 1 k 1

I J m I J

¦¦ ¦ ( yijk  y xxx )2
i 1 j 1 k 1
mJ ¦ ( y ixx  y xxx ) 2 mI ¦ ( y x j x  y xxx ) 2
i 1 j 1
I J I J m
 m¦¦ ( y ij x  y ixx  y x j x  y xxx )  ¦¦¦ eijk2 2

i 1 j 1 i 1 j 1 k 1

Diseño Experimentos 20
Contraste de Hipótesis
Si el Veneno no influye, los I niveles son iguales
a efectos de tiempo de supervivencia, entonces
D1 D 2  D I ¦iI 1Di 0

H 0 : D1 D 2  DI 0
H1 : Algún D i es distinto de 0

Diseño Experimentos 21

Contraste efecto principal de factor A

H 0 : D1 D 2  DI 0
H1 : Algún D i es distinto de 0
VNE
sˆR2 o E[ sˆR2 ] V 2
IJ (m  1)
VE ( A)
Si Ho es cierto, sˆ A2 o E[ sˆ A2 ] V 2
I 1
I

sˆ 2 mJ ¦ ( y i xx  y xxx ) 2 I  1
FA A
2
i 1
2
o FI 1; IJ ( m 1)
sˆ R sˆ R

Si FA ! FD Ÿ Se rechaza Ho
Diseño Experimentos 22
Contraste efecto principal de factor B

H 0 : E1 E2  E J 0
H1 : Algún E j es distinto de 0

VE ( B)
Si Ho es cierto, sˆ 2
o E[ sˆB2 ] V 2
J 1
B

J
2 mI ¦ ( y x j x  y xxx ) 2 J  1
sˆ j 1
FB B
2 2
o FJ 1; IJ ( m 1)
sˆ R sˆ R

Si FB ! FD Ÿ Se rechaza Ho
Diseño Experimentos 23

Contraste interacción AxB


H 0 : DE11 DE12  DE IJ 0
H 1 : Algún DE ij es distinto de 0
VE ( A u B)
Si Ho es cierto, sˆ 2
o E[ sˆ AB
2
] V2
( I  1)( J  1)
AB

2
sˆ AB
FAB 2
o F( I 1)( J 1); IJ ( m 1)
sˆR
Si FAB ! FD Ÿ Se
rechaza

Ho

A y B interaccio nan
Diseño Experimentos 24
Tabla de análisis de la varianza
Fuentes Suma de Grados de
Variabilid ad Cuadrados Libertad. Varianza F p  valor
2

mJ ¦ ( y ixx  y xxx )
A
2 2
A I 1 sˆ A sˆR2 pA

sˆB2
B mI ¦ ( y x j x  y xxx ) 2
J 1 sˆB2 sˆR2 pB
2
sˆ AB
AuB m¦¦ ( yij x  y ixx  y x j x  y xxx ) 2
( I  1)( J  1) 2
sˆ AB sˆR2 p AB

Residual ¦¦¦ e 2
ijk IJ (m  1) sˆR2

Total ¦¦¦ ( y  y ijk xxx )2 n 1

Diseño Experimentos 25

Tabla ANOVA

Diseño Experimentos 26
Interpretación

La interacción no es significativa

Se interpreta cada factor por


separado

Diseño Experimentos 27

Contrastes múltiples: Factor A

H 0 : Di Dj R.R. R.R
tIJ(m-1)
H1 : D i z D j
1-D
D/2 D/2
Dˆ i y i xx  y xxx ½
¾ Dˆ i  Dˆ j y i xx  y j xx R. Acept. H0
Dˆ j y j xx  y xxx ¿
-tD/2 tD/2
V2 V2
Dˆ i  Dˆ j o N (D i  D j ,  )
mJ mJ
y i xx  y j xx yixx  y j xx ! tD / 2 sˆR
2
o t IJ ( m 1)
mJ

2
sˆR
LSD

mJ Se rechaza Ho

Diseño Experimentos 28
Contrastes múltiples: Factor B

H 0 : Ei Ej R.R. R.R
tIJ(m-1)
H1 : E i z E j 1-D
D/2 D/2
Eˆi y xi x  y xxx ½
¾ Eˆ i  Eˆ j y xi x  y x j x R. Acept. H0
Eˆ j y x j x  y xxx ¿
-tD/2 tD/2
V2 V2
Eˆi  Eˆ j o N ( E i  E j ,  )
mI mI
yxi x  y x j x yxix  yx j x ! tD / 2 sˆR
2
o t IJ ( m 1)
mI

2
sˆR LSD

mI Se rechaza Ho

Diseño Experimentos 29

Intervalos de confianza
(interacción nula)

sˆR
P  D i  y i xx r tD / 2
mJ

sˆR
P  E i  y x j x r tD / 2
mI

Diseño Experimentos 30
Intervalos de Confianza
> source('ICplot.R')
> par(mfrow = c(1,2))
> ICplot(mod_box, 'VEN')
> ICplot(mod_box, 'ANT')
0.7

0.7
0.6

0.6
0.5
medias

medias

0.5
0.4

0.4
0.3

0.3
0.2

I II III A B C D

VEN ANT

Diseño Experimentos 31

Comparaciones Múltiples

Diseño Experimentos 32
Comparaciones Múltiples

Diseño Experimentos 33

Interacción
En este ejemplo NO se debe interpretar
porque no es significativa.
¿Cómo se haría?

Diseño Experimentos 34
Diagnosis: Sobre residuos

Normalidad
Homocedasticidad
Independencia

Diseño Experimentos 35

Diagnosis

Diseño Experimentos 36
Diseño Experimentos 37

Diagnosis: homocedasticidad

Diseño Experimentos 38
Homocedasticidad

Diseño Experimentos 39

Normalidad

Diseño Experimentos 40
Conclusión:Transformar

log y
1/y
Sqrt(y)

Diseño Experimentos 41

Transformación 1/y

Diseño Experimentos 42
Diagnosis: homocedasticidad
datos transformados z=1/y

Diseño Experimentos 43

Homocedasticidad
datos transformados z=1/y

Diseño Experimentos 44
Normalidad
datos transformados z=1/y

Diseño Experimentos 45

Comparaciones múltiples
intervalos de confianza

Diseño Experimentos 46
Diseño Experimentos 47

Ejercicio
Un investigador quiere estudiar el efecto del sexo (H, M) y
tipo de formación (ciencias, letras) en el dominio del inglés
escrito en profesores universitarios. Para ello se analiza el
nº de incorrecciones gramaticales en artículos científicos
enviados a publicación. Para combinación de niveles de los
factores se han elegido al azar tres profesores. En la tabla
se proporciona el nº de fallos detectados en artículos de 15
páginas. ¿Qué conclusiones pueden extraerse?.

Letras Ciencias

Hombre 8, 6, 13 22, 28,33

Mujer 5,10,6 12,14,9

Diseño Experimentos 48
Comandos en R
ARCHIVO TEXTO: ciencias.txt

> view(error)
> attach(error)
> names(error)
> error

Diseño Experimentos 49

Estimación

Diseño Experimentos 50
Descomposición variabilidad

Diseño Experimentos 51

Análisis de la Varianza

• Considerando nivel de significación 0,05,


los efectos principales y la interacción son SIGNIFICATIVOS

• La interpretación se hace a partir del gráfico de interacción

Diseño Experimentos 52
Interacción:
En este ejemplo es significativa.

Diseño Experimentos 53

Diagnosis: Sobre residuos

Normalidad
Homocedasticidad
Independencia

Diseño Experimentos 54
Diagnosis

Diseño Experimentos 55

Diagnosis: más graficos

Diseño Experimentos 56
Bloques Aleatorizados

Ejemplo de introducción
Fluorita
0% 1% 2% 3% 4%
M 1 15.02 11.86 9.94 12.45 13.23
e 2 8.42 10.15 8.54 6.98 8.93
z 3 18.31 16.84 15.86 14.64 15.96
c 4 10.49 10.52 8.04 10.50 10.34
l 5 9.78 9.59 6.96 8.15 9.24
a 6 9.28 8.84 7.04 6.66 9.46

Se desea estudiar el efecto de la Fluorita en la


reducción del coste energético en la fabricación de
cemento. Se emplean 6 mezclas distintas de materias
primas.

Diseño Experimentos 58
> fluorita = read.table('fluorita.txt', header = T)
> attach(fluorita)
> FLUO = factor(fluo)
> MEZ = factor(mez)
> fluorita

Diseño Experimentos 59

Modelo
Tratamientos
1 2  I yij P  D i  E j  uij
1 y11 y21  y I 1
•Normalidad
Bloques

2 y12 y22  y I 2
     •Independencia
J y1J y2 J  y IJ •Homocedasticidad
P : Media global
Di : Efecto del tratamiento i, i=1,...,I ¦iI 1Di 0
Ej : Efecto del bloque j, j=1,2,...,J ¦ Jj 1 E j 0
uij : Componente aleatoria N(0,V2)

Diseño Experimentos 60
Tratamientos
1 2 ... I

1
V V
... V

P  D1  E1 P  D 2  E1 P  D I  E1

V V
... V
Bloques

2
P  D1  E 2 P  D2  E2 P  D I  E2

    

J
V V
... V

P  D1  E J P  D2  E J P DI  EJ

Estimación del modelo


­ Pˆ y xx
­ P :o 1 °
°D :o I  1 °° Dˆ i y i x  y xx
° i Eˆ j y x j  y xx
Parámetros : ® Estimadore s : ®
° E j :o J  1 °
¦ ¦ eij2
°¯ V 2 :o 1 °Vˆ 2 sˆ 2
°¯ R
( I  1)( J  1)
J I I J
¦ yij ¦ yij ¦ ¦ yij
j 1 i 1 i 1j 1
yix yx j y xx
J I n

yij P  D i  E j  uij eij yij  Pˆ  Dˆ i  Eˆ j


yij Pˆ  Dˆ i  Eˆ j  eij yij  y i x  y x j  y xx

Diseño Experimentos 62
Estimación

1 2  I Eˆ j
1 y11 y 21  yI1 y x1 y x1  y xx
2 y12 y 22  yI 2 y x2 y x 2  y xx
      
J y1J y2 J  y IJ yxJ y x J  y xx
y 1x y 2x  yIx y xx
Dˆ i y 1x  y xx y 2 x  y xx  y I x  y xx

Diseño Experimentos 63

Estimación (ejemplo)

Fluorita
0% 1% 2% 3% 4%
M 1 15.02 11.86 9.94 12.45 13.23 12.50 1.77
e 2 8.42 10.15 8.54 6.98 8.93 8.60 -2.13
z 3 18.31 16.84 15.86 14.64 15.96 16.32 5.59 Ej
c 4 10.49 10.52 8.04 10.50 10.34 9.98 -0.76
l 5 9.78 9.59 6.96 8.15 9.24 8.74 -1.99
a 6 9.28 8.84 7.04 6.66 9.46 8.26 -2.48
11.88 11.30 9.40 9.90 11.19 10.73
1.15 0.57 -1.34 -0.84 0.46

Di

Diseño Experimentos 64
Residuos: Varianza residual
eij yij  Pˆ  Dˆ i  Eˆ j yij  y i x  y x j  y xx

Fluorita
0% 1% 2% 3% 4%
M 1 1.37 -1.21 -1.22 0.79 0.27
e 2 -1.33 0.98 1.27 -0.79 -0.13
z 3 0.84 -0.05 0.88 -0.84 -0.82
c 4 -0.64 -0.02 -0.60 1.36 -0.10
l 5 -0.11 0.28 -0.45 0.24 0.04
a 6 -0.13 0.02 0.12 -0.76 0.74

¦ ¦ eij2 17.51
sˆR2 0.88
( I  1)( J  1) 20

Diseño Experimentos 65

Estimación

Diseño Experimentos 66
Variabilidades

I J
VT ¦¦ ( y
i 1 j 1
ij  y xx ) 2
I
VE (T ) J ¦ ( y i x  y xx ) 2
i 1
J VT VE (T)  VE (B)  VNE
VE ( B ) I ¦ ( y x j  y xx ) 2

j 1
I J (n  1) ( I  1)  ( J  1)  ( I  1)( J  1)
VNE ¦¦ eij2
i 1 j 1

Diseño Experimentos 67

Descomposición de la variabilidad

Diseño Experimentos 68
Análisis de la varianza

yij P  D i  E j  uij Ÿ yij Pˆ  Dˆ i  Eˆ j  eij


yij y xx  ( y ix  y xx )  ( y x j  y xx )  ( yij  y ix  y x j  y xx )
yij  y xx ( y ix  y xx )  ( y x j  y xx )  ( yij  y ix  y x j  y xx )
I J I J I J I J

¦¦ ( y
i 1 j 1
ij  y xx ) 2
¦¦ ( y
i 1 j 1
ix  y xx )  ¦¦ ( y x j  y xx )  ¦¦ eij2
2

i 1 j 1
2

i 1 j 1

I J I J I J

¦¦ ( y
i 1 j 1
ij  y xx ) 2
J ¦ ( y ix  y xx )  I ¦ ( y x j  y xx )  ¦¦ eij2
i 1
2

j 1
2

i 1 j 1

Diseño Experimentos 69

Contraste de Hipótesis
Si la Fluorita no influye, los I tratamientos
son iguales a efectos de coste, entonces
D1 D 2  D I ¦iI 1Di 0

H 0 : D1 D 2  DI 0
H1 : Algún D i es distinto de 0

Diseño Experimentos 70
Contraste sobre tratamientos
H 0 : D1 D 2  DI 0
H1 : Algún D i es distinto de 0
VNE
sˆR2 o E[ sˆR2 ] V 2
( I  1)( J  1)
VE (Tratamient os)
Si Ho es cierto, sˆT2 o E[ sˆT2 ] V 2
I 1
I
J ¦ ( y i x  y xx ) 2 I  1
sˆT2 i 1
FT o FI 1;( I 1)( J 1)
sˆR2 sˆR2
Si FT ! FD Ÿ Se rechaza Ho
Diseño Experimentos 71

Explicación del contraste


Si Ho es cierto D i 0 Ÿ yij o N ( P  E j , V 2 )

yi1  yi 2    yiJ JP  ¦ Jj 1 E j
yix , E[ y i x ] P
J J
V2
y1x , y 2x ,..., y I x o N ( P , )
J
I ª I 2º
J ¦ ( y i x - y xx )2 « J ¦ ( y i x - y xx ) »
y1x  y 2x    y I x
y xx Ÿ sˆT2 i 1
Ÿ E« i 1 » V2
I I 1 « I 1 »
«¬ »¼

† Cuando Ho es cierto, sˆT2 y sˆR2 serán parecidas.


† Cuando Ho es falso, sˆT2 será mayor que sˆR2 .

Diseño Experimentos 72
Contraste de bloques
H 0 : E1 E2  E J 0
H1 : Algún E j es distinto de 0

VE (Bloques)
Si Ho es cierto, sˆB2 o E[ sˆB2 ] V 2
J 1

J
I ¦ ( y x j  y xx ) 2 J  1
sˆB2 j 1
FB o FJ 1;( I 1)( J 1)
sˆR2 sˆR2
Si FB ! FD Ÿ Se rechaza Ho
Diseño Experimentos 73

Tabla de análisis de la varianza


Fuentes Suma de Grados de
Variabilid ad Cuadrados Libertad. Varianza F p  valor
sˆT2
Tratamient o J ¦ ( y i x  y xx ) 2 I 1 sˆT2 sˆR2 pT

sˆB2
2
Bloque I ¦ ( y x j  y xx ) J 1 sˆB2 sˆR2 pB

Residual ¦ ¦ eij2 ( I  1)( J  1) sˆR2

Total ¦ ¦ ( yij  y xx ) 2 n -1

Diseño Experimentos 74
Tabla ANOVA

El tratamiento ( % fluorita) y el bloque ( mezcla) son


SIGNIFICATIVOS.

Diseño Experimentos 75

Intervalos de confianza
(ejemplo)
sˆR
P  D i  y i x r tD / 2
J

Fluorita Medias L.inf. L.Sup.


0% 11.88 11.09 12.68
1% 11.30 10.50 12.10
2% 9.40 8.60 10.19
3% 9.90 9.10 10.69
4% 11.19 10.40 11.99

Diseño Experimentos 76
Intervalos de Confianza (% Fluorita)
> source('ICplot.R')
> ICplot(mod_flu, "FLUO")
12
medias

11
10
9

0 1 2 3 4

FLUO

Diseño Experimentos 77

Intervalos de Confianza (Mezcla)


> source('ICplot.R')
> ICplot(mod_flu, "MEZ")
16
14
medias

12
10
8

1 2 3 4 5 6

MEZ

Diseño Experimentos 78
Contraste multiples: tratamientos

H 0 : Di Dj R.R. R.R
t(I-1)(J-1)
H1 : D i z D j
1-D
Dˆ i y i x  y xx ½ D/2 D/2
¾ Dˆ i  Dˆ j yix  y jx R. Acept. H0
Dˆ j y j x  y xx ¿
-tD/2 tD/2
V2 V2
Dˆ i  Dˆ j o N (D i  D j ,  )
J J

yi x  y j x 2
o t( I 1)( J 1) y i x  y j x ! tD / 2 sˆR Ÿ Se rechaza H 0
2
J

sˆR
J LSD

Diseño Experimentos 79

Contraste multiples: bloques

H 0 : Ei Ej R.R. R.R
t(I-1)(J-1)
H1 : E i z E j
1-D
Eˆi y xi  y xx ½° D/2 D/2
¾ Eˆi  Eˆ j y xi  y x j R. Acept. H0
Eˆ j y x j  y xx °¿
-tD/2 tD/2
V2 V2
Eˆi  Eˆ j o N ( E i  E j ,  )
I I

yxi  yx j 2
o t( I 1)( J 1) y xi  y x j ! tD / 2 sˆR Ÿ Se rechaza H 0
2
I

sˆR
I LSD

Diseño Experimentos 80
Comparación de medias
Fluorita LSD = 1.13
0% 1% 2% 3% 4%
2
LSD tD / 2 sˆR 0% 0 0,58 2,49 1,99 0,69
J 1% 0 1,90 1,40 0,11
2% 0 -0,50 -1,80
2
2.085 u 0.93 u 3% 0 -1,30
6 4% 0

1.13
LSD=1.24
Mezcla 1 2 3 4 5 6
2 1 0,00 3,90 -3,82 2,52 3,76 4,24
LSD tD / 2 sˆR 2 0 6,60 -1,37 -0,14 -0,35
I 3 0 6,34 7,58 8,07
2 4 0 1,23 1,72
2.085 u 0.93 u
5 5 0 0,49
1.24 6 0

Diseño Experimentos 81

Comparación de medias (Tukey)

95% family-wise confidence level


1-0
2-0
3-0
4-0
2-1
3-1
4-1
3-2
4-2
4-3

-4 -2 0 2

Differences in mean levels of FLUO

Diseño Experimentos 82
Comparación de medias (Tukey)
95% family-wise confidence level

2-1
4-1
6-1
4-2
6-2
5-3
5-4
6-5

-10 -5 0 5 10

Differences in mean levels of MEZ

Diseño Experimentos 83

Sin bloques

El % de FLUORITA no es SIGNIFICTIVO.
No se detectan diferencias
La Varianza residual es muy grande (10.6113)
Diseño Experimentos 84
Diagnosis: 2
1.5
Homocedasticidad 1
0.5
0
-0.5
Gráfico de residuos -1
-1.5
2 -2
1.5 0 1 2 3 4 5 6
1 Mezcla
0.5
0 1.6
-0.5 1.2
-1 0.8

residuos
-1.5 0.4
-2 0
0 1 2 3 4 -0.4
Fluorita -0.8
-1.2
-1.6
5 10 15 20
Valores previstos

Diagnosis: normalidad

99.9
99
probabilidad

95
80
50
20
5
1
0.1
-1.4 -0.9 -0.4 0.1 0.6 1.1 1.6
residuos
Diseño Experimentos 86
Diagnosis

Normalidad

Homocedasticidad

Diseño Experimentos 87

Apéndice

Diseño Experimentos 88
Diseños factoriales
(tres factores)

Diseño con tres factores


Factor A
Factores A, B y C con NA, NB,
A1 A2 A3 A4 A5 A6 Nc niveles.
B1
Nº de Tratamientos
B2
Factor B

T=NAxNBxNc
B3 Efectos principales 3 A, B , C
B4 Interacciones de orden dos 3
B5 AxB, AxC, BxC
C1 Interacción de orden tres 1.
C2
C3 AxBxC

Tratamiento: Cada combinación de niveles de los factores


6 x 5 x 3 = 90
Diseño Experimentos 90
K factores con N1, N2, ..., NK
niveles
x K efectos principale s con N i  1 grados de libertad cada uno
§K ·
x ¨ ¸ interaccio nes de orden 2, con (N i  1 )(N j  1 ) grados
©2¹
de libertad
§K ·
x ¨ ¸ interaccio nes de orden 3, con (N i  1 )(N j  1 )(N k  1 )
©3¹
grados de libertad
...
§K ·
x ¨ ¸ 1 interacció n de orden k, con (N1  1 )(N 2  1 )(N K  1 )
©K ¹
grados de libertad

Diseño Experimentos 91

Datos Factor 1 1
Factor 3
2 ... K

11 22 ...
 II
11 22 ...... K
K 11 22 ...... K
K 11 22 ...
... K
K
y1111 y1121  y11K 1 y 2111 y 2121  y11K 1 y I 111 y I 121  y I 1K 1
11 y1112 y1122  y11K 2 y 2112 y 2122  y11K 2  y I 112 y I 122  y I 1K 2
           
y111M y112M  y11KM y 211M y 212M  y11KM y I 11M y I 12M  y I 1KM
Factor 2

11 22 ...... K
K 11 22 ...... K
K 11 22 ...
... KK
y1211 y1221  y12 K 1 y 2211 y 2221  y 22 K 1 y I 211 y I 221  y I 2 K1
2 y1212 y1222  y12 K 2 y 2212 y 2222  y 22 K 2  y I 212 y I 222  yI 2K 2
           
y121M y122M  y12 KM y 221M y 222M  y 22 KM y I 21M y I 22M  y I 2 KM
...
    
11 22 ...... K
K 11 22 ...
... KK 11 22 ...... K
K
y1J 11 y1J 21  y1JK1 y 2 J 11 y 2 J 21  y 2 JK1 y IJ 11 y IJ 21  y IJK1
JJ y1J 12 y1J 22  y1JK 2 y 2 J 12 y 2 J 22  y 2 JK 2  y IJ 12 y IJ 22  y IJK 2
           
y1J 1M y1J 2 M  y1JKM y 2 J 1M y2 J 2M  y 2 JKM y IJ 1M y IJ 2 M  y IJKM

Diseño Experimentos 92
Ejemplo: Proceso químico
Tres factores: Concentración
1 4% C-1
Catalizador
Ag
Temperatuta
T-1 300º C
2 6% C-2 Ag+Zn T-2 320º C
3 8% C-3 Zn
4 10%
Variable respuesta: Rendimiento del proceso químico.
CONCENTRACIÓN
1 2 3 4
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2
72.2 65.0 74.4 69.2 75.0 70.7 80.0 73.0
C-1 74.4 71.6 66.3 71.8 78.9 80.6 65.0 74.4
64.3 61.9 66.5 64.6 64.3 73.4 82.1 78.8
CATALIZADOR

T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2


62.5 75.9 70.8 79.2 76.3 83.3 72.3 80.3
C-2 65.8 72.9 63.9 80.1 79.1 88.0 72.4 86.9
71.2 77.8 76.6 75.3 89.0 84.7 75.6 86.3
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2
69.0 73.8 69.0 84.5 72.8 94.1 78.4 87.5
C-3 70.3 59.2 68.2 93.7 73.7 87.3 79.9 79.7
68.8 80.8 78.7 80.1 80.7 89.0 80.3 79.5

Tres replicaciones

Diseño Experimentos 93

Modelo
yijkm P  D i  E j  J k  DE ij  DJ ik  EJ jk  DEJ ijk  uijkm
¦i 1D i
I
0 ¦ Jj 1DE ij 0, i ¦iI 1DE ij 0, j

¦i 1DJ ik 0, k
I
¦ ¦k 1DJ ik 0, i
K
j 1E j
J
0
¦k 1 EJ jk 0, j
K
¦ ¦ j 1 EJ jk 0, k
J
k 1J k
K
0

¦ i DEJ ijk 0, j, k , ; ¦ j DEJ ijk 0, i, k ; ¦k DEJ ijk 0, i, j.


I J K

I u J u K tratamientos
•Normalidad
uijkm •Independencia M replicaciones
•Homocedasticidad n = IuJuKuM

Diseño Experimentos 94
Medias
yijkm P  D i  E j  J k  DE ij  DJ ik  EJ jk  DEJ ijk  uijkm
I J K M
¦ ¦ ¦ ¦ yijk
i 1 j 1k 1m 1
y xxxx
IJKM
J K M I K M I J M
¦¦ ¦ yijkm ¦ ¦ ¦ yijkm ¦ ¦ ¦ yijkm
j 1k 1m 1 i 1 k 1m 1 i 1 j 1m 1
y i xxx y x j xx y xx k x
JKM IKM IJM
K M J M I K
¦ ¦ yijkm ¦ ¦ yijkm ¦ ¦ yijkm
k 1m 1 j 1m 1 i 1k 1
y ijxx y ixk x y x jk x
KM JM IM
M
¦ yijkm
m 1
y ijk x
M

Diseño Experimentos 95

Medias: Proceso químico


Concentración
1 2 3 4
C-1 68.2 68.8 73.8 75.6 71.6
Catalizador C-2 71.0 74.3 83.4 79.0 76.9
C-3 70.3 79.0 82.9 80.9 78.3
69.9 74.1 80.1 78.5 75.6

1 2 3 4
T-1 68.72 70.49 76.64 76.22 73.02
Temperatura T-2 70.99 77.61 83.46 80.71 78.19
69.9 74.1 80.1 78.5 75.6

T-1 T-2
C-1 71.95 71.25 71.6
C-2 72.96 80.89 76.9
C-3 74.15 82.43 78.3
73.02 78.19 75.6

1 2 3 4
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2
C-1 70.30 66.17 69.07 68.53 72.73 74.90 75.70 75.40
C-2 66.50 75.53 70.43 78.20 81.47 85.33 73.43 84.50
C-3 69.37 71.27 71.97 86.10 75.73 90.13 79.53 82.23

Diseño Experimentos 96
Estimación del modelo
Pˆ y xxxx
Dˆ i y ixxx  y xxxx o I  1
Eˆ j y x j xx  y xxxx o J  1
Jˆ k y x x k x  y x xx x o K 1
š
DE ij y ijxx  y i xxx  y x j xx  y xxxx o ( I  1)( J  1)
š
DJ ik y i x k x  y i x xx  y xx k x  y xx xx o ( I  1)( K  1)
š
EJ jk y x jk x  y x j xx  y xxk x  y xxxx o ( J  1)( K  1)
š
DEJ ijk y ijk x  y ijxx  y i xk x  y x jk x  y i xxx  y x j xx  y xxk x  y xxxx o ( I  1)( J  1)( K  1)
2
2 ¦ ¦ ¦ ¦ eijkm
Vˆ sˆR2 ; eijkm yijkm  y ijk x
IJK ( M  1)

Diseño Experimentos 97

Modelo estimado

yijkm P  D i  E j  J k  DE ij  DJ ik  EJ jk  DEJ ijk  uijkm

yijkm
y xxxx  y i xxx  y xxxx  y x j xx  y xxxx  y xxk x  y xxxx 

 y ijxx  y i xxx  y x j xx  y xxxx 
 y i xk x  y i xxx  y xxk x  y xxxx 

 y x jk x  y x j xx  y xxk x  y xxxx 
 y ijk x  y ijxx  y i xk x  y x jk x  y i xxx  y x j xx  y xxk x  y xxxx 
 yijkm  y ijk x

Diseño Experimentos 98
Variabilidades

¦ ¦ ¦ ¦ yijkm  y xxxx
I J K M
JKM ¦ y i xxx  y xxxx
2 2
VT VE ( A)
i 1 j 1k 1m 1 i

VE ( B )
IKM ¦ y x j xx  y xxxx 2 VE (C ) IJM ¦ y xxk x  y xxxx
2

j k

VE ( A u B )
KM ¦ ¦ y ijxx  y i xxx  y x j xx  y xxxx 2
i j

JM ¦ ¦ y i xk x  y i xxx  y xxk x  y xxxx


2
VE ( A u C )
i k

VE ( B u C )
IM ¦ ¦ y x jk x  y x j xx  y xxk x  y xxxx 2
j k

VE ( A u B u C )
M ¦ ¦ ¦ y ijk x  y ijxx  y i xk x  y x jk x  y i xxx  y x j xx  y xxk x  y xxxx 2
i j k

¦ ¦ ¦ ¦ yijkm  y ijk x
2
VNE
i j k m

Diseño Experimentos 99

Grados de libertad

DESCOMPOSI CIÓN DE LA VARIABILID AD


VT VE ( A)  VE ( B )  VE (C ) 
VE ( A u B )  VE ( A u C )  VE ( B u C ) 
VE ( A u B u C )  VNE

GRADOS DE LIBERTAD
(n  1) ( I  1)  ( J  1)  ( K  1)
( I  1)( J  1)  ( I  1)( K  1)  ( J  1)( K  1)
( I  1)( J  1)( K  1)  IJK ( M  1)

Diseño Experimentos 100


Tabla ANOVA
FUENTE VARIABILID AD Gr . de Lib. Varianzas F
sˆ A2
JKM ¦ y i xxx  y xxxx
2
A I 1 sˆ A2
i sˆR2
B
IKM ¦ y x j xx  y xxxx 2 J 1 sˆB2
sˆB2
sˆR2
j
sˆC2
IJM ¦ y xxk x  y xxxx
2
C K 1 sˆC2
k sˆR2
2
2
2 sˆ AB
Au B KM ¦ ¦ y ijxx  y i xxx  y x j xx  y xxxx ( I  1)( J  1) sˆ AB
i j sˆR2
2
JM ¦ ¦ y i xk x  y i xxx  y xxk x  y xxxx
2 2 sˆ AC
Au C ( I  1)( K  1) sˆ AC
i k sˆR2
2
2
2 sˆBC
BuC IM ¦ ¦ y x jk x  y x j xx  y xxk x  y xxxx ( J  1)( K  1) sˆBC
j k sˆR2
M ¦ ¦ ¦ ( y ijk x  y ijxx  y i xk x  y x jk x  ... 2
2 sˆ ABC
Au B u C i j k
( I  1)( J  1)( K  1) sˆ ABC
...  y i xxx  y x j xx  y xxk x  y xxxx ) 2 sˆR2

¦ ¦ ¦ ¦ yijkm  y ijk x
2
Residual IJK ( M  1) sˆR2
i j k m

¦ ¦ ¦ ¦ yijkm  y xxxx
I J K M
2
Total IJKM  1
i 1 j 1k 1m 1

Diseño Experimentos 101

Instrucciones de R utilizadas
ARCHIVO TEXTO: quimico.txt
> quimico = read.table('quimico.txt', header = T)
> attach(quimico)
> CON = factor(con)
> class(con)
> TEMP = factor(temp)
> class(temp)
> CAT = factor(cat)
> class(cat)
> mod_qui = aov(rendim ~ CON*TEMP*CAT )

Diseño Experimentos 102


Estimación

Diseño Experimentos 103

Descomposición de la
variabilidad

Diseño Experimentos 104


Análisis de la varianza

Diseño Experimentos 105

Contraste efecto principal de factor A

H 0 : D1 D 2  DI 0
H1 : Algún D i es distinto de 0
I
JKM ¦ ( y ixxx  y xxxx ) 2 I  1
sˆ A2 i 1
FA o FI 1; IJK ( M 1)
sˆR2 sˆR2
FI 1; IJK ( M 1)
Si FA d FD Ÿ No se rechaza Ho
RR
D Si FA ! FD Ÿ Se rechaza Ho

FD
Diseño Experimentos 106
Contraste interacción AxB
H 0 : DE11 DE12  DE IJ 0
H1 : Algún DE ij es distinto de 0

2 VE ( A u B)
Si Ho es cierto, sˆ AB
( I  1)( J  1)
2
sˆ AB
FAB 2
o F( I 1)( J 1); IJK ( M 1)
sˆR
Si FAB ! FD Ÿ Se
rechaza

Ho

A y B interaccio nan
Diseño Experimentos 107

Contraste interacción AxBxC

H 0 : DEJ 111 DEJ 112  DEJ IJK 0


H1 : Algún DEJ ijk es distinto de 0
Si Ho es cierto
2
sˆ ABC
FABC 2
o F( I 1)( J 1)( K 1); IJK ( M 1)
sˆR

Si FABC ! FD Ÿ Se rechaza Ho

Diseño Experimentos 108


Interpretación
El efecto principal del factor concentración
influye significativamente (p-valor =0.0000)
en el rendimiento. Más adelante se
compararán las medias de los cuatro niveles
de este factor. Este factor no interacciona
con ningún otro.
Los efectos principales de catalizador y de
la temperatura son significativos, además
es muy significativa la interacción de los dos
factores (p-valor 0.0064). La comparación
de medias de estos factores debe ser
conjunta.

Diseño Experimentos 109

Contrastes múltiples: Factor A

H 0 : Di Dj R.R. R.R
tIJK(M-1)
H1 : D i z D j
1-D
D/2 D/2
Dˆ i y i x x x  y xx x x ½
Dˆ i  Dˆ j y i x x x  y j xx x R. Acept. H0
Dˆ j y j xxx  y xxxx ¾¿

V2 V2
-tD/2 tD/2
Dˆ i  Dˆ j o N (D i  D j ,  )
JKM JKM

yixxx  y j xxx 2
o t IJK ( M 1) Si yixx  y j xx ! tD / 2 sˆR ,
2 JKM
sˆR
JKM se rechaza Ho

Diseño Experimentos 110


Interpretación I
EFECTOS PRINCIPALES:
Solo se interpreta la Concentración
> source('ICplot.R')
> ICplot(mod_qui, "CON")
> TukeyHSD(mod_qui,'CON')
> plot(TukeyHSD(mod_qui,'CON'))

Diseño Experimentos 111

Interacción: Cat. x Temp.


T-1 T-2
C-1 71.95 71.25 71.6
C-2 72.96 80.89 76.9
C-3 74.15 82.43 78.3
73.02 78.19 75.6

Interacción Cat x Temp

84.00
82.00
80.00
Medias

78.00 Temp - 1
76.00 Temp - 2
74.00
72.00
70.00
0 1 2 3 4
Catalizador

Diseño Experimentos 112


Interpretación II
Se interpreta la interacción
Temperatura - Catalizador
> source('interIC.R')
> interIC(mod_quimicos,'temp','cat')
> interIC(mod_quimicos,'cat','temp')

Diseño Experimentos 113

Selección de temperatura y
catalizador.

Las mejores combinaciones


corresponden
a la T2 con K2 o K3.

Diseño Experimentos 114


Diagnosis del modelo
10

10

10
residuals(mod_qui)

residuals(mod_qui)

residuals(mod_qui)
5

5
0

0
-5

-5

-5
-10

-10

-10
1.0 2.0 3.0 4.0 1.0 1.4 1.8 1.0 1.5 2.0 2.5 3.0

con temp cat

Diseño Experimentos 115


Capítulo 2. Diseño de experimentos
2.1. Se pretende estudiar el efecto que produce los factores (1) Porcentaje de algodón (10%, 20% y 30%)
(2) Tipo de confección (A y B) en la resistencia al desgaste de ciertos tejidos de …bra sintética. Se
ha realizado el siguiente diseño con tres replicaciones (archivo desgaste:txt)

10% 20% 30%


115 120 126
A 112 135 118
133 139 142
107 110 132
B 114 102 114
108 117 125

1. Construir la tabla de Análisis de la Varianza y contrastar la in‡uencia de los dos factores y la


presencia de la interacción.

2. Hacer un contraste de diferencia de medias y decidir el tratamiento más adecuado para conseguir
la mayor resistencia al desgaste.

2.2 En una planta piloto se obtiene un nuevo producto mediante un proceso químico. Con el …n de
mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres temperaturas
diferentes. Los resultados del experimento son (archivo rendimiento:txt)

Temperatura
Catalizador 200 300 400
A 115 125 130 140 110 120
B 115 105 135 145 100 110

1. Contrastar si los factores Temperatura y Catalizador tienen efectos signi…cativos. ( = 0:05)

2. ¿Qué tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garantizar una
probabilidad de error tipo I total, T = 0:03?

2.3 Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (ciencias,
letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el número de
incorrecciones gramaticales en artículos cientí…cos enviados a publicación. Para cada combinación
de niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el número
de fallos detectados en artículos de 15 páginas (archivo error:txt)

Letras Ciencias
Hombre 8, 6, 13 22, 28, 33
Mujer 5, 10, 6 12, 14, 9

1
Contrastar con nivel de signi…cación 0.05 si los efectos principales y la interacción son signi…cativos.
Tener en cuenta que P (F1;8 5:32) = 0:95, siendo F1;8 la distribución F con grados de libertad
1 y 8: Interpretar los resultados.

2.4 Un alumno, como trabajo de la asignatura de estadística, ha comparado tres marcas distintas (A,B,C)
de palomitas de maíz precocinadas. Cada marca puede prepararse friendolas en una sartén (método
1) o en el horno microondas (método 2). El alumno ha realizado un diseño factorial completo 3 2
con cinco replicaciones en cada uno de los seis tratamientos. La variable respuesta medida es el
porcentaje de granos de maíz que no se han in‡ado adecuadamente. Los resultados del experimento
se muestran en la tabla, en cada tratamiento se proporciona la media y entre paréntesis la desviación
típica corregida para las cinco replicaciones. Contrastar si la interacción entre los dos factores es
signi…cativa.

A B C
5.5 3.6 7.5
Sartén
(1,4) (1,8) (2,5)
3.8 3.4 4.3
Horno
(1,3) (0,9) (1,3)

2.5. La tabla muestra el tiempo de supervivencia de grupos de cuatro animales a los que se ha asignado
al azar tres venenos y posteriormente cuatro tratamientos. (archivo venenos:txt)

Tratamiento
A B C D
Veneno
I 0.31 0.82 0.43 0.45
0.45 1.10 0.45 0.71
0.46 0.88 0.63 0.66
0.43 0.72 0.76 0.62
II 0.36 0.92 0.44 0.56
0.29 0.61 0.35 1.02
0.40 0.49 0.31 0.71
0.23 1.24 0.40 0.38
III 0.22 0.30 0.23 0.30
0.21 0.37 0.25 0.36
0.18 0.38 0.24 0.31
0.23 0.29 0.22 0.33

1. ¿Son los venenos y tratamientos signi…cativos? ¿Existe interacción entre el veneno y el tratamiento?

2. Analice los residuos del modelo anterior. ¿Se veri…can las hipótesis básicas del modelo? ¿Qué
transformación de los datos hace que se veri…quen las hipótesis?

3. Calcule la tabla de análisis de la varianza con los datos transformados. ¿Tiene la transformación
realizada algún efecto sobre los efectos principales y la interacción?

2
2.6 Se ha realizado un experimento para estudiar el efecto de la temperatura (T) y tiempo de exposición
(E) sobre la cantidad absorbida de un compuesto químico por un material sumergido en él. En el
estudio se han empleado tres temperaturas (T1, T2, T3) y tres tiempos de exposición (E1, E2, E3):
cada tratamiento se ha replicado tres veces. La cantidad absorbida (mg) del compuesto químico en
cada uno de los 27 experimentos se muestra en la tabla 1 (archivo absorbida:txt) y las medias en
la tabla 2:
Tabla 1: Cantidad Absorbida (mg)

Tiempo de Temperatura
Exposición T1 T2 T3
Tabla 2: Medias de Cantidad Absorbida (mg)
35.5 91.2 70.1
E1 29.7 100.7 64.1
Tiempo de Temperatura
31.5 82.4 70.1
Exposición T1 T2 T3 Medias
E1 32.23 91.43 68.10 63.92
52.5 71.0 79.4
E2 53.60 74.53 77.40 68.51
E2 53.3 77.0 77.7
E3 83.76 87.06 82.83 84.56
55.0 75.6 75.1
Medias 56.53 84.34 76.11 72.33
85.9 87.0 83.0
E3 85.2 86.1 87.0
80.2 88.1 78.5

La tabla 3 corresponde al análisis de la varianza del experimento.

Tabla 3: Tabla de análisis de la varianza


Fuente Suma de Grados de
Variabilidad Cuadrados Libertad Varianzas F p-valor
Temperatura 3673.61 2 1836.80 110.58 0.0000
T. Exposición 2112.65 2 1056.32 63.59 0.0000
Interacción 2704.44 4 676.11 40.70 0.0000
Residual 299.00 18 16.61
Total 8789.7 26

1. (a) Interpreta los resultados del análisis de la varianza.

2. Realiza las comparaciones dos a dos de los nueve tratamientos y elige aquél o aquellos que propor-
cionan una absorción mayor (95%).

3. Comprueba grá…camente la hipótesis de homocedasticidad e interpreta los resultados.

2.7. Se ha realizado un diseño experimental para determinar la in‡uencia de dos factores combinación
de hidrocarburos y cantidad de hidrógeno en el rendimiento de un proceso químico complejo. Se
estudiaron cuatro combinaciones de hidrocarburos (A,B, C y D) y tres niveles en el contenido de
hidrógeno (1,2 y 3). En cada tratamiento se realizaron cuatro réplicas. En la tabla 1 se presentan los
resultados: mejora en tanto por mil respecto a procedimiento estándar (archivo hidrocarburos:txt).
Los números entre paréntesis de la tabla se corresponden con las medias de cada tratamiento, de los
cuatro niveles del factor hidrocarburos y de los tres niveles de hidrógeno. En la tabla 2 se muestra
la tabla de análisis de la varianza del experimento.

3
Tabla 1. Datos y medias entre paréntesis
A B C D Medias Etapa
10.3 10.5 7.2 13.0 1
11.1 8.2 5.3 12.9 1
1 15.3 9.7 12.5 5.3 2
2.1 8.9 19.1 12.0 2
Medias (9.7) (9.325) (11.025) (10.8) (10.213)
25.8 20.6 29.7 17.6 1
25.7 17.1 26.3 12.0 1
2 28.9 21.4 22.4 24.6 2
27.8 17.3 25.9 23.1 2
Medias (27.05) (19.1) (26.075) (19.325) (22.888)
28.5 21.0 30.4 20.5 1
31.2 26.8 26.6 26.2 1
3 24.8 19.4 34.4 27.8 2
26.5 22.2 27.5 21.9 2
Medias (27.75) (22.35) (29.975) (24.1) (25.981)
Medias (21.5) (16.925) (22.275) (18.075)
Tabla 2. ANOVA -
Suma Grados
Fuentes Cuadrados Libertad Var. F p-valor
Hidrocarburos 242.5 3 80.85 5.55 .0031
Hidrógeno 2234 2 1117 76.7 .0000
Interacción 119.3 6 19.88 1.36 .2546
Residual 523.7 36 14.55
Total 3120 47

1. Comparar las medias de los cuatro niveles del factor Hidrocarburo y las de los tres niveles del factor
Hidrógeno. Indica si existen diferencias signi…cativas con nivel de signi…cación 0.05.

2. Elige el tratamiento que proporciona el rendimiento óptimo, justi…cando la respuesta. Da un inter-


valo de con…anza para el valor medio en dichas condiciones con nivel de con…anza del 95%.

3. El experimento se realizó en dos etapas, en una primera etapa se recogieron las 24 observaciones
que se indican en la tabla 1 como etapa 1 y las otras 24 como etapa 2. Los resultados del análisis
de la varianza correspondientes a cada etapa se muestran en las tablas 3 y 4.

Tabla 3. ANOVA - Etapa 1


Suma Grados
Fuentes Cuadrados Libert. Var. F p-valor
Hidrocarburos 115.9 3 38.63 6.07 .0093
Hidrógeno 1175.0 2 587.7 92.4 .0000
Interacción 218.4 6 36.39 5.72 .0051
Residual 76.3 12 6.358
Total 1586.0 23

4
Tabla 4. ANOVA - Etapa 2
Suma Grados
Fuentes Cuadrados Libert. Var. F p-valor
Hidrocarburos 162.9 3 54.31 3.35 .0555
Hidrógeno 1076 2 537.9 33.19 .0000
Interacción 94.94 6 15.82 0.976 .9762
Residual 194.5 12 16.21
Total 1528 23
¿Se puede concluir que en las dos etapas la varianza del error experimental es la misma? (Realiza
el contraste con = 0:05)

2.8 Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 o C y 320 o C) en la
duración de cierto componente. Para cada combinación de horno y temperatura se ha replicado
el experimento 3 veces. En la tabla siguiente se proporcionan las medias y desviaciones típicas
(corregidas) de los datos de cada tratamiento.

Temperatura o C
290 o C 320 o C
Media Desv. T. Media Desv. T.
Horno 1 24.56 0.850 18.00 0.265
Horno 2 19.10 1.539 14.40 0.265
Horno 3 18.70 0.458 17.43 0.862
Contrasta si existe interacción entre los factores horno y temperatura ( = 0:05):

2.9. Cierto Organismo Público (O.P.) encargado de certi…car la composición de aleaciones de metales
preciosos, debe seleccionar entre dos Laboratorios al más capacitado para la realización de futuros
análisis de gran precisión. Para tomar la decisión les somete a la siguiente prueba: Prepara tres
aleaciones A, B y C que contienen proporciones distintas de oro. De cada una de ellas envía cu-
atro muestras a cada uno de los dos laboratorios. Así pues, cada laboratorio recibe un lote de 12
muestras (codi…cadas) ordenadas aleatoriamente sin conocer como han sido obtenidas. Los resul-
tados recibidos por el O.P. son (entre paréntesis las medias de las casillas) (archivo laboratorios:txt):

Aleac. A Aleac. B Aleac. C


10.96 11.03 10.95 11.00 11.07 11.01
Lab. I 11.08 11.01 11.04 10.97 10.97 11.03
(11.02) (10.99) (11.02)
10.97 10.96 10.97 10.96 11.02 11.00
Lab. II 10.94 10.95 10.97 10.98 11.01 11.01
(10.955) (10.97) (11.01)

1. Determinar si existen diferencias entre los resultados de los laboratorios y si éstos han encontrado
diferencias entre las aleaciones.

2. Aceptando que los datos cumplen la hipótesis de normalidad, indicar si podemos aceptar que
veri…can el resto de las hipótesis del modelo y en caso negativo que medidas se deben adoptar para
analizar los datos.

5
3. Realizar un test de razón de varianzas para contrastar que las varianzas de los dos laboratorios son
iguales, sabiendo que las tres aleaciones tienen composición distinta. Interpretar el resultado.
4. El O.P. conoce exáctamente el porcentaje en oro de la aleación A (11 %), de la B (11.02 %) y de
la C (11.04 %). Con esta información comparar los resultados de los laboratorios.

2.10 Un laboratorio de Análisis Clínicos ha adquirido un nuevo equipo (B) para medir el colesterol en la
sangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide analizar muestras
de 5 enfermos que previamente han sido analizadas con otro equipo (A), dando como resultado

Enfermo 1 2 3 4 5 Media
Equipo A 215 305 247 221 286 254.8
Equipo B 224 312 251 232 295 262.8
Contrastar con = 0:05 existen diferencias entre los dos equipos. (archivo colesterol :txt)
2.11. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes resulta-
dos: V T = 232, V E(factor) = 156, V E(bloque) = 15 y V N E = 61. El número de niveles del factor
es 5 y el número de bloques 8. Construir la tabla ADEVA. ¿ Cuál sería el resultado del análisis si
no se tiene en cuenta el efecto de los bloques ? Indicar en qué circunstancias es preferible cada uno
de los modelos.
2.12. Se realiza un experimento para estudiar si la presencia de ‡uorita reduce el coste de fabricación
de clinker de cemento en tres tipos diferentes de mezcla. Los resultados del mismo (en miles de
pesetas por Tm) se muestran en la siguiente tabla (archivo f luorita2:txt):

FLUORITA MI MII MIII ȳi


0% 15.4 10.6 17.8 14.6
1% 10.3 5.5 10.9 8.9
2% 7.4 1.2 8.1 5.5
3% 10.7 6.5 9.6 8.9
4% 13.5 11.6 15.5 13.5
ȳ 11.4 7.1 12.4

5 X
X 3
e2ij = 10:2 y = 10:3
i=1 j=1

1. (a) Determinar si el tipo de mezcla y el nivel de ‡uorita añadido in‡uyen signi…cativamente en el


coste de fabricación. Se supone que no existe interacción entre los dos factores.
(b) Contrastar que porcentaje de ‡uorita produce el menor coste del clinker.

2.13 Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20% de la
variabilidad total está explicada por la interacción de los dos factores y el 40% de la variabilidad
total es debida a la variabilidad residual. Determinar el número de replicaciones necesarias en cada
tratamiento para que la interacción sea signi…cativa con = 0:01: (Explicar el procedimiento de
cálculo, dejando el resultado indicado en función de las tablas).

6
2.14 Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros totales
correspondientes a efectos principales e interacciones de orden 2, 3 y 4.

2.15 Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos muelles de
acero. En una etapa del proceso el muelle caliente se sumerge en aceite templado. Se han estudiado
tres factores, A (temperatura del acero antes de la inmersión, con tres niveles), B (temperatura del
baño de aceite, dos niveles) y C (concentración de carbono en el acero, dos niveles). El experimento
se ha replicado tres veces. En la tabla se muestra la media y la varianza (corregida) para los tres
datos de cada tratamiento.

A B C yi s^2i
1 1 1 40.2 0.25
1 1 2 61.1 2.68
1 2 1 35.9 2.43
1 2 2 57.1 4.44
2 1 1 49.0 3.49
2 1 2 70.3 7.77
2 2 1 46.7 5.08
2 2 2 67.6 1.03
3 1 1 41.9 4.27
3 1 2 62.7 11.41
3 2 1 37.1 1.33
3 2 2 60.3 6.13

1. (a) Dar un intervalo del 95 % de con…anza para la varianza del error experimental, 2.

2. Indicar si los efectos principales de A, B y C son signi…cativamente distintos de cero.

3. Dado 2 , construir un intervalo que cumpla que la probabilidad de que s^2i (la varianza muestral
corregida de un tratamiento) esté contenido en él sea igual a 0.95. Sustituir 2 por su estimador y
con ayuda de este intervalo, discutir si se puede rechazar la hipótesis de homocedasticidad de las
observaciones.

2.16 Un estudio bioquímico ha valorado la cantidad de tres ácidos (a, b, c) en muestras extraídas a
cuatro terneras (1, 2 ,3 y 4) de la misma raza. El análisis es bastante complejo y la determinación
incluye un error de medida. ¿Se puede aceptar la hipótesis de que los tres ácidos se encuentran
en la misma proporción en cada animal? Realiza el contraste con nivel de signi…cación 0.05. (La
variabilidad total es 41.90). (archivo ultrasonidos:txt)

1.
a b c Medias
1 11.0 11.4 12.7 11:7
2 9.8 10.8 13.7 11:43
3 7.5 10.6 11.5 9:87
4 7.9 7.6 10.1 8:53
Medias 9.05 10.1 12.0 10.38

7
OTROS EJEMPLOS

2.17. Treinta y seis adultos (18 hombres y 18 mujeres) son utilizados en un estudio para comparar los
tensiómetros de tres fabricantes. Los sujetos de cada sexo son asignados de forma aleatoria en seis grupos
de tres cada uno. A tres grupos de cada sexo se les mide la presión de la sangre nada más comenzar el
experimento; a los otros tres grupos se les mide la presión después de diez minutos de descanso.
Los resultados son los siguientes:

I II III
H M H M H M
147 122 156 131 127 110
1 124 142 127 133 122 115
113 136 155 146 153 105
140 108 100 141 114 103
2 130 151 140 125 139 135
112 138 105 139 126 114

Conteste a las siguientes preguntas:

¿Existen diferencias entre los fabricantes en la medida de presión de la sangre?

¿Hay diferencia entre el descanso y el no descanso en la presión en la sangre?

¿Hay diferencia entre hombres y mujeres?

Comprobar si hay interacción entre descanso y sexo.

Comprobar las hipótesis de normalidad, homocedasticidad y homogeneidad.

En el archivo tension.sf3 están la variable respuesta presión y las variables factores descanso, fabri-
cante y sexo.
2.18 Se desea investigar el comportamiento de dos tipos de semilla y de tres tipos diferentes de fertil-
izante. Los resultados serán los diferentes rendimientos para las combinaciones de semillas y fertilizantes.
Se pide contestar a las siguientes preguntas:

¿Existen diferencias entre los fertilizantes?

¿Existen diferentes entre las semillas?

Estudiar si la interacción entre las semillas y fertilizantes es signi…cativa.

Comprobar las hipótesis de normalidad, homocedasticidad e independencia e homocedasticidad.

En el archivo rend.sf3 están la variable respuesta rendimiento y los factores semilla y fertilizante.

8
A B C
1 14.3 18.1 17.6
14.5 17.6 18.2
11.5 17.1 18.9
13.6 17.6 18.2
2 12.6 10.5 15.7
11.2 12.8 17.5
11.0 8.3 16.7
12.1 9.1 16.6

2.19. Se ha realizado un experimento para estudiar la in‡uencia de dos factores en el rendimiento


de un proceso. Estos factores son la temperatura, que puede estar a tres niveles (alta, media y baja), y
el catalizador, que puede ser el catalizador 1 o el catalizador 2. En el archivo rend2.sf3 se presentan los
resultados que se muestran en la siguiente tabla.

Temperatura

Alta Media Baja

Catalizador 1 279 174 397


172 277 348
176 130 434

Catalizador 2 253 252 417


238 367 427
387 323 423

¿De qué modelo se trata?

¿Qué efectos son signi…cativos?

¿Cuál es el tratamiento adecuado para obtener el mayor rendimiento?

2.20. Se ha realizado un experimento para estudiar las fuentes de variabilidad de la resistencia a la


compresión de cemento tipo Portland. El cemento ha sido mezclado con agua por tres obreros diferentes
(mezcladores) durante un tiempo …jo. Después, la resistencia de las probetas generadas ha sido medida
por otros tres obreros diferentes (medidores). Cada mezclador ha generado doce probetas, que se han
dividido en tres grupos de cuatro; cada uno de esos grupos de cuatro ha sido asignado a un medidor.
Los datos obtenidos para la resistencia a la compresión de cada probeta, dados en libras por pulgada
cuadrada, se proporcionan en la tabla siguiente y se encuentran en el archivo portland.sf3.

9
Medidor 1 Medidor 2 Medidor 3

Mezclador 1 5280 4340 4160


5520 4400 5180
4760 5020 5320
5800 6200 4600

Mezclador 2 4420 5340 4180


5280 4880 4800
5580 4960 4600
4900 6200 4480

Mezclador 3 5360 5720 4460


6160 4760 4930
5680 5620 4680
5500 5560 5600

¿Existen diferencias entre las resistencias dadas por los diferentes medidores? ¿y entre las probetas
generadas por cada mezclador?

¿Es signi…cativa, con nivel de signi…cación del 5%, la interacción entre medidores y mezcladores?

¿Se cumplen las hipótesis del modelo?

2.21. Se está estudiando el rendimiento de un proceso químico. Se piensa que las dos variables
más importantes pueden ser la presión y la temperatura. Se seleccionan tres niveles de cada factor. Los
resultados del experimento son los siguientes:

Presión
Temperatura 200 215 230
Baja 90.4 90.7 90.2
Baja 90.2 90.6 90.4
Media 90.1 90.5 89.9
Media 90.3 90.6 90.1
Alta 90.5 90.8 90.4
Alta 90.7 90.9 90.1

Utilizando el archivo proceso. sf3 conteste a las siguientes preguntas:

¿Qué conclusiones se pueden sacar de los datos?

¿Bajo qué condiciones podría operar este proceso?

¿Existe interacción entre temperatura y presión?

Compruebe las hipótesis del modelo.

10
2.22. Se realiza un experimento para estudiar la in‡uencia de la temperatura de operación y de tres
tipos de cristal en la salida de luz de un osciloscopio medidas en lux. En el archivo lux.sf3 se encuentran
los resultados obtenidos que se presentan a continuación:

Temperatura
Cristal 100 125 150
580 1090 1392
1 568 1087 1380
570 1085 1386
550 1070 1328
2 530 1035 1312
579 1000 1299
546 1045 867
3 575 1053 904
599 1066 889

¿Hay diferencia entre las temperaturas?

¿Hay diferencia en el cristal? ¿Cúal es el mejor?

Estudie si existe interacción entre la temperatura y el cristal.

2.22 Para comprobar la diferencia de rendimientos entre las distintas variedades de avena se diseño
un experimento con ocho variedades distintas. Como el terreno donde fueron plantadas las distintas
variedades estaba en pendiente se pensó que podría afectar la situación de la planta en su rendimiento.
Los resultados obtenidos en gramos fueron los siguientes:

I II III IV V
1 296 357 340 331 348
2 402 390 431 340 320
3 437 334 426 320 296
4 303 319 310 260 242
5 469 405 442 487 394
6 345 342 358 300 308
7 324 339 357 352 220
8 488 374 401 338 320

Si no se tiene en cuenta el efecto de las diferentes condiciones del terreno, conteste a las siguientes
preguntas:

¿Existen diferencias entre las variedades?

¿Cúal es la mejor y la peor?

La variedad ocho es autóctona y la más empleada. La cinco es la más cara. Si tuvierá que elegir
¿cuál elegiría?

Haga un contraste de las hipótesis del modelo: normalidad, homocedasticidad, homogeneidad e


independencia.

11
Conteste todas las preguntas anteriores si se introduce la variable que tiene en cuenta el efecto del
terreno.
2.23. Se desea comparar cuatro procedimientos de obtención de la penicilina (A, B, C y D); siendo
la variable respuesta producción en kg.
Una materia prima, licor de maíz, se tiene en cuenta en el experimento. Se dispone de cinco muestras
de licor de maíz. A continuación se presenta la tabla de los datos.

A B C D
1 89 88 97 94
2 84 77 92 79
3 81 87 87 85
4 87 92 89 84
5 79 81 80 88

¿Cómo afectan los procedimientos y la materia prima?

¿Cuál es el mejor procedimiento y materia prima?

Realice la diagnosis del modelo

En el archivo penicili.sf3 se encuentra la variable respuesta cantidad, el factor tratamiento y el bloque


mezcla.
2.24. En 1986 IBM realizó una serie de experimentos en varios de sus sistemas para investigar el
comportamiento de nuevos algoritmos para incorporar en la librería de funciones matemáticas de su
compilador FORTRAN. En el archivo fortran.sf3 se encuentran el tiempo empleado por llamada para
la ejecución (dado en s) de cinco funciones escalares, que se proporcionan en la siguiente tabla. El
tiempo se ha promediado en 10000 argumentos seleccionados aleatoriamente en los intervalos de interés
([- , ],...). Las ejecuciones se llevaron a cabo en tres sistemas IBM diferentes (4331, 4361 y 4341). Se
proporcionan también los nombres de las funciones escalares consideradas.

Función Sistema IBM


4331 4361 4341
EDUM 9,90 3,07 4,88
ACOS CIRC [ ; ] 179,62 33,28 33,23
SEN LINEAL [ ; ] 105,72 24,13 27,08
EXP LINEAL [ 16; 16] 254,82 39,14 37,46
D2DUM 13,47 4,63 5,72

El interés principal del experimento era el estudio de la e…cacia de los tres sistemas ¿ha resultado
adecuada la estrategia?

Realice la diagnosis del modelo y proponga posibles soluciones si detecta algún problema.

2.25 Unos alumnos de la universidad de Tu¤s (Massachussets, E.U.A.), preocupados por el estado
de corrosión de las tuberías de su universidad, decidieron realizar el siguiente experimento. Tomaron
muestras de agua corriente haciendo variar los factores Campus, Tipo de edi…cio y antigüedad del edi…cio.

12
Se midió la concentración de hierro en el agua corriente (mg=dm3 ) y para cada posible combinación de
factores se tomaron dos observaciones. En el archivo corrosio.sf3 se muestran los resultados que se
presentan en la siguiente tabla.

Factor Concentración de Fe
Antigüedad Tipo Campus
Viejo Académico Medford 0,23 0,28
Nuevo Académico Medford 0,36 0,29
Viejo Residencial Medford 0,03 0,06
Nuevo Residencial Medford 0,05 0,02
Viejo Académico Somerville 0,08 0,05
Nuevo Académico Somerville 0,03 0,08
Viejo Residencial Somerville 0,04 0,07
Nuevo Residencial Somerville 0,02 0,06

Identi…que el modelo de que se trata, estime sus parámetros y realice la diagnosis.

Si no se cumplieren las hipótesis del modelo indique qué podría hacerse para remediarlo.

Estudie las interacciones e interprete las que resulten signi…cativas.

13
Regresión
1: Regresión simple I

Regresión simple
consumo y peso de automóviles
Núm. Obs. Peso Consumo
(i) kg litros/100 km 25
1 981 11
2 878 12
3 708 8
4 1138 11
5 1064 13 20
Consumo (litros/100 Km)

6 655 6
7 1273 14
8 1485 17
9 1366 18 15
10 1351 18
11 1635 20
12 900 10
13 888 7
14 766 9
10
15 981 13
16 729 7
17 1034 12
18 1384 17 5
19 776 12
20 835 10
21 650 9
22 956 12
0
23 688 8
24 716 7 500 700 900 1100 1300 1500 1700
25 608 7
26 802 11 Peso (Kg)
27 1578 18

E 0  E 1 xi  u i , u i o N (0, V 2 )
28 688 7
29
30
1461
1556
17
15
yi
Regresión Lineal 2
Regresión simple
consumo y peso de automóviles
Núm. Obs. Peso Consumo
(i) kg litros/100 km 25
1 981 11
2 878 12
3 708 8
4 1138 11
5 1064 13 20

Consumo (litros/100 Km)


6 655 6
7 1273 14
8 1485 17
9 1366 18 15
10 1351 18
11 1635 20
12 900 10
13 888 7
14 766 9
10
15 981 13
16 729 7
17 1034 12
18 1384 17 5
19 776 12
20 835 10
21 650 9
22 956 12
0
23 688 8
24 716 7 500 700 900 1100 1300 1500 1700
25 608 7
26 802 11 Peso (Kg)
27 1578 18

E 0  E 1 xi  u i , u i o N (0, V 2 )
28 688 7
29
30
1461
1556
17
15
yi
Regresión Lineal 3

Ecuación de una recta

yi E 0  E1 xi

E1
yi
1

E0
xi

Regresión Lineal 4
Modelo

yi E 0  E 1 xi  u i , ui o N (0, V 2 )

yi
E 0  E1 x

xi
E 0 , E1 ,V 2 : parámetros desconocid os
Regresión Lineal 5

Modelo

yi E 0  E 1 xi  u i , ui o N (0, V 2 )

yi
E 0  E1 x

xi V

E 0  E1 xi
Regresión Lineal 6
Hipótesis del modelo

Linealidad
E[yi ]= E0+E1xi
Parámetros
Normalidad
yi|xi Ÿ N (E0+E1xi,V2)
E0
Homocedasticidad E1
Var [yi|xi] = V2
V2
Independencia
Cov [yi, yk] = 0

Regresión Lineal 7

Modelo

yi E 0  E 1 xi  u i , ui o N (0, V 2 )
yi : Variable dependiente
xi : Variable independiente
ui : Parte aleatoria
V

Regresión Lineal 8
Estimación
n
M ( E 0 , E1 ) ¦(y
i 1
i  E 0  E1 xi ) 2
n
dM
¦ ( yi  Eˆ0  Eˆ1 xi ) 0 ¦y nEˆ0  Eˆ1 ¦ xi
dE 0
i
i 1
n
dM
¦ ( yi  Eˆ0  Eˆ1 xi ) xi 0 ¦x y Eˆ0 ¦ xi  Eˆ1 ¦ xi2
dE 0
i i
i 1
n n

y Eˆ0  Eˆ1 x ½ ¦ ( yi  y )( xi  x) ¦ ( xi  x) 2
°i1 ˆ i1
n
¾ E
¦x y
i 1
i i n Eˆ0 x  Eˆ1 ¦ xi n °
2

¿
n
1
n

cov( xi , yi )
Eˆ1 ; Eˆ0 y  Eˆ1 x
var( xi )

Regresión Lineal 9

Estimación: máxima verosimilitud


1 ª 1 n 2º
l ( E 0 , E1, V 2 ) exp
« 2 i ¦1 ( yi  E 0  E1xi ) »
2S n / 2 V n ¬ 2V ¼
L( E 0 , E1, V 2 ) log l ( E 0 , E1, V 2 )
n n 1 n
 log(2S )  log V 2  2 ¦ ( yi  E 0  E1xi ) 2
2 2 2V i 1
dL 1 n
¦ ( yi  Eˆ0  Eˆ1xi ) 0 ¦ yi nEˆ0  Eˆ1 ¦ xi
dE 0 V i 12
dL 1 n
¦ ( yi  Eˆ0  Eˆ1xi ) xi 0 ¦ xi yi Eˆ0 ¦ xi  Eˆ1 ¦ xi2
dE 0 V 2 i 1
n n
2
y Eˆ0  Eˆ1 x ½ ¦ ( yi  y )( xi  x) ¦ ( xi  x )
°i 1
Eˆ1 i 1
Eˆ0 x  Eˆ1 ¦ xi2 n ¾°
n
¦ xi yi n n n
i 1 ¿
cov( xi , yi )
Eˆ1 ; Eˆ0 y  Eˆ1 x
var( xi )

Regresión Lineal 10
Estimación V2 : máxima verosimilitud
n n 1 n
L( E 0 , E1, V )  log(2S )  log V  2 ¦ ( yi  E 0  E1xi ) 2
2 2
2 2 2V i 1
dL n 1 1 n 2
  ¦ ( yi  Eˆ0  Eˆ1xi ) 0
2 2 2 4i 1
dV Vˆ 2Vˆ
n
¦ ( yi  Eˆ0  Eˆ1xi ) 2
Vˆ 2 i 1
n
ei yi  Eˆ 0  Eˆ1 xi
n ½ n
¦ ei 0 °
° 2
¦ ei2
i 1 i 1
¾ sˆ R
n
n2
¦ ei xi 0°
°
i 1 ¿

Regresión Lineal 11

Estimación
Máxima verosimilitud
­ 1 ª 1 n 2 º½
Max ® exp  ¦ (
«¬ 2V 2 i 1 iy  E  E x ) »¼ ¾
¯ 2S V
n/2 n 0 1 i
¿

Mínimos cuadrados
n
Mín ¦ ( yi  E 0  E1 xi ) 2
i 1

Eˆ0 y  Eˆ1 x
cov( xi , yi ) ¦i 1 ( xi  x )( yi  y )
n
Eˆ1
var( xi ) ¦i 1 ( xi  x ) 2
n

Regresión Lineal 12
Recta de regresión

Eˆ1
cov( xi , yi )
yˆ Eˆ 0  Eˆ1 x
var( xi )

y
Pendiente
Eˆ1
Eˆ 0 y  Eˆ1 x
x
Regresión Lineal 13

Estimación
consumo y peso de automóviles
25
Núm. Obs. Peso Consumo
(i) kg litros/100 km
1 981 11
2 878 12 20
Consumo (litros/100 Km)

3 708 8
4 1138 11
5 1064 13 15
6 655 6
7 1273 14
8 1485 17
9 1366 18 10
10 1351 18
11 1635 20
12 900 10 5
13 888 7
14 766 9
15 981 13
16 729 7 0
17 1034 12 500 700 900 1100 1300 1500 1700
18 1384 17 Peso (Kg)
19 776 12
835 10
cov( xi , yi )
20
1225.2
Eˆ1
21 650 9
22 956
688
12
8
0.0117
var( xi ) 104446.6
23
24 716 7
25 608 7
802 11

Eˆ0 y  Eˆ x 11.87  0.0117 u 1017.7


26
27
28
1578
688
18
7 1 0.071
29 1461 17
30 1556 15

Regresión Lineal 14
Residuos

,
yi Eˆ0  Eˆ1 xi ei
,



Valor observado Valor Previsto Residuo
ei

yi

yˆ i Eˆ 0  Eˆ1 xi

xi

Regresión Lineal 15

n
¦ ei2
Residuos sˆR2 i 1
; ei yi  yˆ i
n2

,
yi Eˆ0  Eˆ1 xi ei
,



Valor observado Valor Previsto Residuo
ei

yi

yˆ i Eˆ 0  Eˆ1 xi

xi

Regresión Lineal 16
Ejemplo: estimación
Núm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km
1 981 11 11,44 -0,44 25
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59 20

Consumo (litros/100 Km)


6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35 15
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
12 900 10 10,49 -0,49 10
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56
16 729 7 8,48 -1,48 5
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84
19 776 12 9,03 2,97
0
20 835 10 9,72 0,28
21 650 9 7,55 1,45 500 700 900 1100 1300 1500 1700
22 956 12 11,14 0,86 Peso (Kg)
23 688 8 8,00 0,00
24 716 7 8,33 -1,33
2
yˆ i 0.071  0.0117xi ; sˆ R 2.38
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
27 1578 18 18,44 -0,44

E0  E1 xi  ui , V2
28 688 7 8,00 -1,00
29
30
1461
1556
17
15
17,07
18,18
-0,07
-3,18
yi
Regresión Lineal 17

Propiedades de Eˆ1
cov( xi , yi ) 1 n
Ê1 ¦ xi  x yi  y
s x2 ns x2 i 1 0
1 n 1 n
¦
ns x2 i 1
xi  x y i  ¦ xi  x y
ns x2 i 1
xi  x
wi
n
¦ ¨¨
§ xi  x ·
¸y w1 y1  w2 y2    wn yn
nsx2
2 ¸ i
i 1 © ns x ¹

1 n
x ¦in 1 wi ¦i 1 xi  x 0
ns x2
1 n 1 n
x ¦in 1 wi xi ¦i 1 xi  x xi 2 ¦i 1
xi  x xi  1 2 ¦in 1 xi  x x 1 n
2 ¦i 1
xi  x 2 1
ns x2 ns x ns x ns x
2
§ 1 · n 1
x¦ w n
i 1
2
¨¨ 2 ¸¸ ¦i 1 xi  x 2
ns x2
i
© ns x ¹

Regresión Lineal 18
y, Eˆ1 son v.a. independientes
§ y1 · ½
¨ ¸ °
1 1 1 §1 1 1 ·¨ y2 ¸ T °
y y1  y2    yn ¨  ¸¨ ¸ a Y
n n n ©n n n¹  °
¨ ¸ °
¨y ¸ °
© n¹
¾
§ y1 · °
¨ ¸
¨ y2 ¸ °
Eˆ1 w1 y1  w2 y2    wn yn w1 w2  wn ¨ ¸ w Y ° T

 °
¨ ¸
¨y ¸ °
© n¹ ¿
V2 n
cov( y , Eˆ1 ) a var( Y )w
T

n
¦w
i 1
i 0

Regresión Lineal 19

Distribución de Eˆ1
yi o N ( E 0  E1 xi ,V 2 )
Eˆ1 w1 y1  w2 y2    wn yn o Comb. lineal de normales
E[ Eˆ1 ] E[ w1 y1  w2 y2    wn yn ]
w1 E[ y1 ]  w2 E[ y2 ]    wn E[ yn ] ( E[ yi ] E 0  E1 xi )
E 0 (¦ wi )  E1 (¦ wi xi ) E1
Var[ Eˆ1 ] Var[ w1 y1  w2 y2    wn yn ]
w12Var[ y1 ]  w22Var[ y2 ]    wn2 [ yn ] (Var[ yi ] V 2 )
n V2
(¦ wi2 )V 2
ns x2
§ V 2
·
i 1

ˆ
E1 o N ¨¨ E1 , 2 ¸¸
© ns x ¹

Regresión Lineal 20
Parámetro E1 y estimador Eˆ1
Eˆ1 0.0117 litros cada 100km/kg
1.17 litros cada 100km/100 kg
sˆR 1.54
SE ( Eˆ1 ) 0.087
ns X 30 u 3.2 t28
sˆR
E1  Eˆ1 r tD / 2 tn-2
ns x
1-D
E1 1.17 r 2.05 u 0.08 D/2
E1 1.17 r 0.16 .
1.01 d E1 d 1.33 -tD/2 tD/2
-2.05 2.05
Simple Linear Regression 21

Desviación típica de Eˆ1

sˆR
SE ( Eˆ1 )
ns X

La precisión en la estimación de la pendiente


mejora si:
1. La Desv. Típica residual es pequeña
2. La muestra n es grande
3. Los valores de x tienen mucha dispersión

Simple Linear Regression 22


Distribución de Ê 0
V2
x y o N ( E 0  E1 x , )
n
V2
x Eˆ1 o N ( E1 , )
ns x2
x y , Eˆ1 son independie ntes
½
Eˆ0 y  Eˆ1 x o Normal °
°° § V 2
§ x 2
··
E[ Eˆ0 ] E[ y ]  x E[ Eˆ1 ] E 0 ¾ Eˆ0 o N ¨¨ E 0 , ¨¨1  2 ¸¸ ¸¸
° © n © sx ¹ ¹
V 2
§ x 2
·
var[ Eˆ0 ] ¨¨1  2 ¸¸ °
n © s x ¹ °¿

Regresión Lineal 23

Distribución de ŝR2

yi E 0  E1xi  ui yi Eˆ0  Eˆ1xi  ei


ui o N (0, V 2 )
¦in 1ui2 ¦in 1 ei2 ­ ¦ ei 0
o F n2 o F n2 2 ®
V2 V2 ¯¦ ei xi 0

n
¦ ei2 2
(n  2) sˆR
i 1 o F n2 2
V2 V2

Regresión Lineal 24
Contraste principal de regresión:
¿depende y de x?
H 0 : E1 0
H 1 : E1 z 0
yi yi

yi E 0  E1 xi  ui yi E 0  ui
xi xi
H0 es falso H0 es cierto
x e y están relacionados x e y no están relacionados
Regresión Lineal 25

Contraste sobre la pendiente


V
H 0 : E1 0 yˆ i Eˆ0  Eˆ1 xi Eˆ1 o N ( E1 ,
ns x
)

H 1 : E1 z 0 Eˆ1  E1
o N (0,1) Ÿ
Eˆ1  E1
o tn2
V sˆR
ns x ns x

R.R
Eˆ1 R.R.
t1 ; tn-2
sˆR
1-D
ns x D/2
R. Acept.
t1 ! t n  2;D / 2 Ÿ Se rechaza Ho
-tD/2 tD/2

Regresión Lineal 26
Ejemplo: D = 0.05
H 0 : E1 0 yˆ i 0.071  0.0117 xi ; sˆR 1.54
R.R. t28 R.R
H 1 : E1 z 0
0.017 0.025 0.025
t0 13.4
1.54 /( 30 u 323.2) …
-2.05 2.05

13.4 ! 2.05 Ÿ Se rechaza H 0


El peso influye significativamente en el consumo

27

H 0 : E1 0
P-valor H 1 : E1 z 0

α = 0.05 Area Azul = p-valor

P-valor ≤ α P-valor > α


Con α=0.05
0 05 ““x”” influye Con α=0.05 “x” NO influye
significativamente en “y” significativamente en “y”

H1 : E1 z 0 H 0 : E1 0
Contraste: ordenada en el origen
H0 : E0 0
yˆ i Eˆ0  Eˆ1 xi
H1 : E 0 z 0
V2 x 2
Eˆ0 o N ( E 0 , (1  2 ))
n sx
Eˆ0
t0 2
;
sˆR x
1 2
n sx
t0 ! t n2;D / 2 Ÿ Se rechaza Ho

Regresión Lineal 29

Modelo estimado y contrastes


Dependiente (y) ~ Independiente (x)
Estimate Stand Error t value Pr(>|t|)
Intercept SE( )
=
SE( )
Regressor SE( )
=
SE( )

Dependiente (Consumo) ~ Independiente (Peso)


Estimate Stand Error t value Pr(>|t|)
Intercept -0.07126 0.945148 -0.075 0.943246
Peso 0.01173 0.000887 13.23 0.000000

Regresión Lineal 30
Descomposición de la
variabilidad en regresión
yi E 0  E1 xi  ui
yi Eˆ0  Eˆ1 xi  , ei


yˆ y  yˆ
i i i
yi yˆ  ( y  yˆ ) (restando y )
i i i
( yi  y ) ( yˆ  y )  ( y  yˆ ) (elevando al cuadrado y sumando)
i i i
n n n
¦ ( yi  y ) 2
¦ ( yˆi  y ) 2  ¦ ( yi  yˆi ) 2
i 1 i 1 i 1

VT VE  VNE

Regresión Lineal 31

Coeficiente de determinación R2
n
VE ¦ ( yˆi  y ) 2 VT VE  VNE
i 1
2 VE
n R
VNE ¦ ( yi  yˆ i ) 2 VT
i 1
0 d R2 d 1
n
VT ¦ ( yi  y ) 2 Mide el porcentaje de VT que
está explicado por el regresor
i 1
n
yˆ i y  Eˆ1 ( xi  x ) :Ÿ VE Eˆ12 ¦ ( xi  x ) 2 Eˆ12 ns x2
i 1
Regresión Lineal 32
Coef. determinación

R 2
1 R2 0.80

R2 0.50 R2 0

Regresión Lineal 33

Contraste F

H 0 : E1 0 Eˆ1
yˆ i Eˆ0  Eˆ1 xi
H 1 : E1 z 0

o F12
VE
(Si H o es cierto)
2
V VE VE
F o F1 ,n  2
2
¦in 1 ei2 VNE/(n-2 ) 2
(n  2) sˆR sˆR
o F n22
VNE
V2 V2
V2
VE VNE F ! FD Ÿ Se rechaza H0
, son independie ntes
V2 V2

Regresión Lineal 34
Contraste F yˆ i Eˆ0  Eˆ1 xi

E[VE ] V 2 (Si H o es cierto)


H 0 : E1 0
E[ sˆR2 ] V 2
H 1 : E1 z 0
VE
F 2
o F1,n  2 F ! FD Ÿ Se rechaza H0
sˆR

Rechazo H0
F1,n-2 Acep. H0


α = 0.05

Regresión Lineal 35

Contraste F yˆ i Eˆ0  Eˆ1 xi

n
H 0 : E1 0 VE ¦ ( yˆ i  yi ) 416.8
i 1
H 1 : E1 z 0 sˆR2 2.38
VE 416.8
F 175.1
sˆR2 2.38
F1,28

α = 0.05
175.1 ! 4.2 Ÿ Se rechaza H 0
4.2
Regresión Lineal 36
Tabla de Análisis de la Varianza
Suma de Grados de
FUENTES Cuadrados Libertad Varianzas F

Explicada (VE) ¦ ( yˆ  y) 2
1 ¦ ( yˆ  y) 2 ¦ ( yˆ i  y)2
i i
sˆR2
Residual (VNE) ¦(y i  yˆ i ) 2 n2 sˆ 2
R
Total (VT) ¦(y i  y)2 n 1

R2
VE ¦ i
( ˆ
y  y ) 2

VT ¦(y i  y)2

Análisis de la varianza 37

Tabla de Análisis de la Varianza

Suma de Grados de
FUENTES Cuadrados Libertad Varianzas F

Explicada (VE) 416.8 1 416.8 175.1


Residual (VNE) 66.64 28 2.38
Total (VT) 483.4 29

R2 0.862

Análisis de la varianza 38
Ejemplo: R2 yˆ i 0.071  0.0117xi ;

Núm. Obs. Peso Consumo Predicción Residuos 25


(i) kg litros/100 km
1 981 11 11,44 -0,44
20
2 878 12 10,23 1,77

Consumo (litros/100 Km)


3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28

sˆ R2
15
5
6
1064
655
13
6
12,41
7,61
0,59
-1,61
10
2.38
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35
9 1366 18 15,95 2,05 5
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
0
12 900 10 10,49 -0,49
500 700 900 1100 1300 1500 1700
13 888 7 10,35 -3,35
Peso (Kg)
14 766 9 8,91 0,09 n
15
16
981
729
13
7
11,44
8,48
1,56
-1,48
VE ¦ ( yˆ i  y ) 416.8
17 1034 12 12,06 -0,06 i 1
18 1384 17 16,16 0,84
776 12 9,03 2,97 n
¦ ( yi  yˆ i ) 66.64
19
20
21
835
650
10
9
9,72
7,55
0,28
1,45
VNE
22 956 12 11,14 0,86 i 1
23
24
688
716
8
7
8,00
8,33
0,00
-1,33 VT VE  VNE 483.4
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
416.8
27 1578
688
18
7
18,44
8,00
-0,44
-1,00
R2 86.2%
483.4
28
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18

Regresión Lineal 39

Regresión con R
ARCHIVO TEXTO: coches.txt

Regresión Lineal 40
Regresión con R: Estimación

Regresión Lineal 41

Gráfico en R

Regresión Lineal 42
Ejemplo 2: Pearson-Lee Data

Simple Linear Regression 43

Estimation with R

Simple Linear Regression 44


Simple Linear Regression 45

Conclusiones Principales
1. Hay una relación muy significativa entre la altura de las
hijas y la altura de la madre (p-valor es prácticamente 0)
Eˆ1 0.54
2. La relación es positiva: “A madre alta hija alta.”

3. La desviación típica de la pendiente (standard error) es


SE ( Eˆ1 ) 0.0259 Ÿ E1  0.54 r 1.96 u 0.0254
0.49 d E1 d 0.590

4. La estatura de la madre solo explica el 24% de la estatura


de la hija (R-squared = 0.24)

5. Dada la estatura de la madre se puede predecir la estatura


de la hija con un error medio de 5.75 cm (sR).

Simple Linear Regression 46


“Regresión” a la media

La recta de regresión (línea roja) tiene pendiente menor que 1 (línea azul) , lo que significa que las
madres altas tienden a tener hijas que son más altas que la media (pues la pendiente es positiva) pero
más bajas que ellas (porque la pendiente es menor que uno). De forma similar, las madres bajas tienen
hijas más bajas , pero más altas que sus madres. Este resultado resultó sorprendente y es el origen del
término “regresión”, que indica que los valores extremos de una generación tienden a regresa o
revertir hacia la media en la siguiente.

Simple Linear Regression 47

Regresión
2: Regresión simple II (Diagnosis y
Transformaciones)
Diagnosis del Modelo

La estimación está basada en las


siguientes hipótesis:
Linealidad
yi
Normalidad
E 0  E1 x
Homocedasticidad
Independencia xi

¾ Observaciones Atípicas (muy perjudiciales)


Las hipótesis se comprueban con los RESIDUOS
Regresión Lineal 2

Análisis de los Residuos


Núm. Obs. Peso Consumo Predicción Residuos

yi  yˆ i
(i) kg litros/100 km
1
2
981
878
11
12
11,44
10,23
-0,44
1,77
ei
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
25
5 1064 13 12,41 0,59
6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86 20
1485 17 17,35 -0,35
Consumo (litros/100 Km)

8
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89 15
12 900 10 10,49 -0,49
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56 10
16 729 7 8,48 -1,48
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84 5
19 776 12 9,03 2,97
20 835 10 9,72 0,28
21 650 9 7,55 1,45
22 956 12 11,14 0,86 0
23 688 8 8,00 0,00 500 700 900 1100 1300 1500 1700
24 716 7 8,33 -1,33
25 608 7 7,06 -0,06 Peso (Kg)
26 802 11 9,34 1,66

0.071  0.0117xi ; sˆ R2
1578 18 18,44 -0,44
yˆ i
27
28
29
688
1461
7
17
8,00
17,07
-1,00
-0,07
2.38
30 1556 15 18,18 -3,18

Regresión Lineal 3
Diagnosis del Modelo
Núm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km
1 981 11 11,44 -0,44 25
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59 20

Consumo (litros/100 Km)


6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35 15
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
12 900 10 10,49 -0,49 10
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56
16 729 7 8,48 -1,48 5
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84
19 776 12 9,03 2,97
0
20 835 10 9,72 0,28
21 650 9 7,55 1,45 500 700 900 1100 1300 1500 1700
22 956 12 11,14 0,86 Peso (Kg)
23 688 8 8,00 0,00
24 716 7 8,33 -1,33
2
yˆ i 0.071  0.0117xi ; sˆ R 2.38
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
27 1578 18 18,44 -0,44
28 688 7 8,00 -1,00
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18

Regresión Lineal 4

Diagnosis del Modelo


Núm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km
1 981 11 11,44 -0,44
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59
6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
12 900 10 10,49 -0,49
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56
16 729 7 8,48 -1,48
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84
19 776 12 9,03 2,97
20 835 10 9,72 0,28
21 650 9 7,55 1,45
22 956 12 11,14 0,86
23 688 8 8,00 0,00
24 716 7 8,33 -1,33
2
yˆ i 0.071  0.0117xi ; sˆ R 2.38
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
27 1578 18 18,44 -0,44
28 688 7 8,00 -1,00
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18

Regresión Lineal 5
No linealidad

Regresión Lineal 6

No homocedasticidad

Regresión Lineal 7
No homocedasticidad, ni
linealidad

Regresión Lineal 8

Observaciones atípicas

Regresión Lineal 9
Residuos Aceptables

Regresión Lineal 10

Normalidad de los Residuos

Herramientas de comprobación:
Histograma de residuos
Gráfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)
Ejemplo de coches
120 99,9
99
100
probabilidad

95
80 80
60 50
20
40
5
20 1
0 0,1
-9 -6 -3 0 3 6 9 -6 -4 -2 0 2 4 6
Residuos Residuos

Regresión Lineal 11
Comprobación de la linealidad
y homocedasticidad
Ambas hipótesis se comprueban
conjuntamente mediante gráficos de los
residuos
Frente a valores previstos
Frente al regresor.
En muchas ocasiones se corrige la falta
de linealidad y la heterocedasticidad
mediante transformación de las variables.
log yi E 0  E1 x1i  ui
log yi E 0  E1 log x1i  ui

Regresión Lineal 12

Residuos – Regresor o Val.Previstos

Lineal y homocedástico No lineal y homocedástico


ei ei

0 0

xi xi
ei ei

0 0

Lineal y no homocedástico xi No lineal y no homocedástico xi


Regresión Lineal 13
Coches (ejemplo 1): Consumo ~ Peso

Normalidad ok Linealidad ok y
Homocedasticidad ok

Regresión Lineal 14

Cars (Ejemplo 2): mpg ~ weight


DESCRIPCIÓN: Datos de 391 coches (archivo:cars.txt) con
información del siete variables: consumo (mpg), cc (engine),
potencia (horse), peso (weight), tiempo de aceleración (accel),
origen del coche (origin, 1=USA, 2=UE, 3=Japón) y número de
cilindros (cylinders)

OBJETIVO: Estimar el modelo de


regresión simple entre el consumo
(mpg) y el peso (weight)

Regresión Lineal 15
Cars: mpg ~ weight

mpg = 49.20 − 0.0076 weight


(0.802) (0.00025)

= 0.69 ̂ = 4.34

Regresión Lineal 16

Cars: Figuras
No hay linealidad ni homocedasticidad

Figura 2.1 Figura 2.2

Regresión Lineal 17
Cars: cons ~ weight
TRANSFORMACIÓN: En lugar de medir el consumo en
millas por galón (mpg), vamos a cambiar a “litros cada
100 km (cons)”
cons = 235.1/mpg

Y X


Regresión Lineal 18

Cars: cons ~ weight


TRANSFORMACIÓN: En lugar de medir el consumo en
millas por galón (mpg), vamos a cambiar a “litros cada
100 km (cons)”
cons = 235.1/mpg

cons = −0.7689 + 0.0040 weight


(0.3298) (0.00011)

= 0.79 ̂ = 1.78

Regresión Lineal 19
Cars: Cambio Variable
Mejora la linealidad y homocedasticidad

Figura 2.3 Figura 2.4

Regresión Lineal 20

Cars: Normalidad
Normalidad no es problemática

Figura 2.5 Figura 2.6

Regresión Lineal 21
Cars: Instrucciones con R

> cars<-read.table("cars.txt",header=TRUE) % LEE EL ARCHIVO CARS.TXT


> attach(cars) % AÑADE LAS VARIABLES DEL CONJUNTO DE DATOS cars A LA MEMORIA

> mod_cars<-lm(mpg ~ weight) % ESTIMA EL MODELO DE REGRESIÓN SIMPLE (MOD_CARS)

> par(mfrow=c(1,2)) % DIVIDE LA PANTALLA GRÁFICA EN 1 FILA Y 2 COLUMNAS (ver FIGURAs 2.1 2.2)

> plot(weight,mpg,pch=19,col="blue") % DIBUJA Figura 2.1


> abline(mod_cars,col="red",lwd=2) % AÑADE Linea roja A la figura 2.1

> plot(weight,residuals(mod_cars),pch=19,col="blue",ylab="residuos") % DIBUJA Figura 2.2


> abline(c(0,0),col="red",lty=2,lwd=2) > summary(mod_cars) % Línea roja de la figura 2.2

> summary(mod_cars) % MUESTRA Resumen del modelo de regresión

Regresión Lineal 22

Cars: Instrucciones con R

Tabla 2.1

Regresión Lineal 23
Cars: Instrucciones con R

> cons <- 235.1/mpg % cambio variable


> m2 <- lm(cons ~ weight) % nuevo modelo

> plot(weight,cons,pch=19,col="blue") % Figuras 2.3 y 2.4


> abline(m2,col="red",lwd=2)
> plot(weight,residuals(m2),pch=19,col="blue",ylim=c(-10,10))
> abline(c(0,0),col="red",lwd=2,lty=2)
> abline(c(5,0),col="red",lwd=2,lty=2)
> abline(c(-5,0),col="red",lwd=2,lty=2)

> hist(residuals(m2),xlab="residuos",col="red",nclas=20) % figuras 2.5 y 2.6


> qqnorm(residuals(m2),col="blue",pch=19)
> qqline(residuals(m2),col="red",lwd=2,lty=2)

> summary(m2) % resumen del modelo m2 (tabla 2.2)

Regresión Lineal 24

Cars: Instrucciones con R

Tabla 2.2

Regresión Lineal 25
Forbes (Ejemplo 3)
Ejemplo “Forbes”
En un artículo de 1857 un físico escocés llamado “forbes.txt”
James D. Forbes presentó una serie de experimentos Temp Pres
realizados para estudiar la relación entre presión 1 194.5 20.79
atmosférica y punto de ebullición del agua. Forbes 2 194.3 20.79
3 197.9 22.40
sabía que la altitud podía ser determinada a partir de 4 198.4 22.67
la presión atmosférica medida con un barómetro, con 5 199.4 23.15
menores presiones a medida que aumenta la altitud. A 6 199.9 23.35
7 200.9 23.89
mediados del siglo XIX los barómetros eran 8 201.1 23.99
instrumentos muy frágiles y Forbes pensó que se 9 201.4 24.02
podía sustituir la medidas de la presión con medidas 10 201.3 24.01
11 203.6 25.14
de la temperatura de ebullición del agua. Recogió 12 204.6 26.57
datos de 17 emplazamientos en los Alpes y los 13 209.5 28.49
montes de Escocia. En cada lugar se midió con un 14 208.6 27.76
15 210.7 29.04
barómetro la presión en pulgadas de mercurio (Pres) 16 211.9 29.88
y la temperatura de ebullición del agua en grados 17 212.2 30.06
Fahrenheit (Temp) empleando un termómetro. Los
Weisberg, S. (2005). Applied Linear Regression, 3rd
datos se encuentran en el archivo “forbes.txt” edition. New York: Wiley.

Simple Linear Regression 26

Forbes: Modelo Inicial


Temp Pres Pred Resid
1 194.5 20.79 20.639 0.1511552
2 194.3 20.79 20.534 0.2557337
3 197.9 22.40 22.417 -0.0166790
4 198.4 22.67 22.678 -0.0081252
5 199.4 23.15 23.201 -0.0510176
6 199.9 23.35 23.462 -0.1124638
7 200.9 23.89 23.985 -0.0953562
8 201.1 23.99 24.090 -0.0999347
9 201.4 24.02 24.247 -0.2268024
10 201.3 24.01 24.195 -0.1845131
11 203.6 25.14 25.397 -0.2571657
12 204.6 26.57 25.920 0.6499419
13 209.5 28.49 28.482 0.0077692
14 208.6 27.76 28.012 -0.2516277
15 210.7 29.04 29.110 -0.0697017
Pres = −81.06 + 0.523 Temp 16
17
211.9
212.2
29.88
30.06
29.737
29.894
0.1428274
0.1659597
(2.05) (0.010)

= 0.994 ̂ = 0.233 Tabla 3.1

Regresión Lineal 27
Forbes: Conclusiones Modelo Inicial

• Según la figura y el valor R-cuadrado (0.994) el ajuste es


muy bueno.

• Comparando los valores Previstos con los Observados


(Pred) observamos que las diferencias (residuos) son
pequeñas ( ̂ = 0.233)

• Los dos parámetros del modelo son muy significativos


(entre paréntesis se proporcionan las desv. típicas.
estimadas de los parámetros estimados)

Regresión Lineal 28

Forbes: Diagnosis

Figura 3.1 Figura 3.2

En el gráfico de residuos frente al regresor se observa:

• La mayoría de las observaciones muestran no-linealidad


• Existe una observación atípica

Regresión Lineal 29
Forbes: Instrucciones R
> forbes <- read.table(“forbes.txt”,header=TRUE)
> attach(forbes)
> m <- lm(Pres ~ Temp)
> summary(m)

Regresión Lineal 30

Forbes: Instrucciones R (cont)


> forbes$Pred <- predict(m)
> forbes$Resid <- residuals(m)
> print(forbes,digits=4,print.gap=3) % proporciona tabla 3.1

Figuras 3.1 y 3.2


> par(mfrow=c(1,2))
> plot(Temp,Pres,pch=19,col="blue",xlab="Temperatura",
ylab="Presión")
> abline(m,col="red",lwd=2)
> plot(Temp,residuals(m),pch=19,col="blue",ylab="Residuos",
xlab="Temperatura")
> abline(c(0,0),lty=2,lwd=2,col="red")

Regresión Lineal 31
Forbes: Modelo 1
Temp Pres Lpres Pred Resid
= 100 × log 1 194.5 20.79 131.79 132.03 -0.2480225
2 194.3 20.79 131.79 131.85 -0.0688990
3 197.9 22.40 135.02 135.08 -0.0537700
4 198.4 22.67 135.55 135.53 0.0187713
5 199.4 23.15 136.46 136.42 0.0331010
6 199.9 23.35 136.83 136.87 -0.0411189
7 200.9 23.89 137.82 137.77 0.0561898
8 201.1 23.99 138.00 137.94 0.0584761
9 201.4 24.02 138.06 138.21 -0.1559337
10 201.3 24.01 138.04 138.12 -0.0844563
11 203.6 25.14 140.04 140.18 -0.1470658
12 204.6 26.57 142.44 141.08 1.3599445
13 209.5 28.49 145.47 145.47 0.0015070
14 208.6 27.76 144.34 144.66 -0.3197358
15 210.7 29.04 146.30 146.54 -0.2428181
16 211.9 29.88 147.54 147.62 -0.0791613
17 212.2 30.06 147.80 147.89 -0.0870083

Lpres = −42.16 + 0.8956 Temp


(3.34) (0.016) Tabla 4.1

= 0.995 ̂ = 0.379
Regresión Lineal 32

Forbes : modelo 1

Figura 4.1 Figura 4.2

En el gráfico de residuos frente al regresor se observa:


• Existe una observación claramente atípica
• Se ha corregido la falta de linealidad en el resto de las
observaciones.

Regresión Lineal 33
Forbes: Modelo 1

• Se ha realizado la transformación logarítmica de la presión


para corregir la falta de linealidad (da igual utilizar
logaritmos neperianos o decimales, se ha multiplicado por
100 para evitar números muy pequeños en las
estimaciones, no tiene efecto en el análisis)
• La observación atípica tiene mucha influencia en la
estimación del modelo, se aprecia como los residuos del
resto de las observaciones no tienen media cero.
• Por lo demás el ajuste es muy bueno como se ve en la
gráfica y en la tabla 4.1, los valores previstos se parecen
mucho a los observados (los residuos son pequeños)
• Conviene eliminar la observación atípica y recalcular.

Regresión Lineal 34

Forbes: Instrucciones R
> forbes1 <- read.table(“forbes.txt”,header=TRUE)
> attach(forbes1)
> m1 <- lm(100*log10(Pres) ~ Temp)
> summary(m1)

Regresión Lineal 35
Forbes: Instrucciones R (cont)
> forbes1$Lpres <- 100*log10(Pres)
> forbes1$Pred <- predict(m1)
> forbes1$Resid <- residuals(m1)
> print(forbes1,digits=4,print.gap=3) % proporciona tabla 4.1

Figuras 4.1 y 4.2


> par(mfrow=c(1,2))
> plot(Temp,100*log10(Pres),pch=19,col="blue",xlab="Temperatura“)
> abline(m1,col="red",lwd=2)
> plot(Temp,residuals(m1),pch=19,col="blue",ylab="Residuos",
xlab="Temperatura")
> abline(c(0,0),lty=2,lwd=2,col="red")

Regresión Lineal 36

Forbes: Modelo 2
(ELIMINANDO OBSERVACIÓN Nº 12)
Temp Pres Lpres Pred Resid
= 100 × log 1 194.5 20.79 131.79 131.99 -0.2006699
2 194.3 20.79 131.79 131.81 -0.0224480
3 197.9 22.40 135.02 135.02 0.0089107
4 198.4 22.67 135.55 135.46 0.0837061
5 199.4 23.15 136.46 136.35 0.1025441
6 199.9 23.35 136.83 136.80 0.0305783
7 200.9 23.89 137.82 137.69 0.1323953
8 201.1 23.99 138.00 137.87 0.1355832
9 201.4 24.02 138.06 138.13 -0.0774742
10 201.3 24.01 138.04 138.05 -0.0064475
11 203.6 25.14 140.04 140.10 -0.0586881
12* 204.6 26.57 142.44 140.99 1.4527324
13 209.5 28.49 145.47 145.35 0.1164833
14 208.6 27.76 144.34 144.55 -0.2088168
15 210.7 29.04 146.30 146.42 -0.1224318
16 211.9 29.88 147.54 147.49 0.0466349
17 212.2 30.06 147.80 147.76 0.0401403

Tabla 5.1
Lpres = −41.33 + 0.8911 Temp
(1.003) (0.0049)
La obs. 12 no se ha utilizado en
la estimación del modelo
= 0.9996 ̂ = 0.1136
Regresión Lineal 37
Forbes : modelo 2

Figura 5.1 Figura 5.2

En el gráfico de residuos frente al regresor se observa:


• No existen observaciones atípicas (las líneas rojas se
encuentran a ±2 ̂ )
• No se observa ninguna anomalía grave en el qqplot..

Regresión Lineal 38

Forbes: Modelo 2

• Se ha realizado la transformación logarítmica de la presión


para corregir la falta de linealidad y se ha eliminado la
observación 12 (el propio Forbes indica en su artículo que
se trataba de un error de medida)
• Comparando el modelo 1 y 2, no se aprecian grandes
cambios en los parámetros estimados , .
• La desviación típica residual se ha reducido
considerablemente de uno a otro, pasando de 0.379 a
0.113, y como consecuencia las desviaciones típicas de los
parámetros.
• El análisis de los residuos no indican ninguna desviación
importante de las hipótesis del modelo

Regresión Lineal 39
Forbes: Instrucciones R
> # Modelo m2 de Forbes
> out <- abs(residuals(m1)) > 3*0.3792
> m2 <- lm(100*log10(Pres[!out]) ~ Temp[!out])
> summary(m2)

Regresión Lineal 40

Forbes 2: Instrucciones R (cont)


> # Tabla 5.1
> P_Lpres =c(predict(m2)[1:11],NA,predict(m2)[12:16])
> P_Lpres[12] = -41.334683 + 0.891110*Temp[12]
> forbes2 <- forbes1
> forbes2$Pred <- P_Lpres
> forbes2$Resid <- 100*log10(Pres)-P_Lpres
> print(forbes2,digits=5,print.gap=3)

> # Figuras 5.1 y 5.2


> par(mfrow=c(1,2))
> plot(Temp[!out],residuals(m2),pch=19,col="blue",ylab="Residuos",
+ xlab="Temperatura",ylim=c(-.5,.5))
> abline(c(0,0),lty=2,lwd=2,col="red")
> abline(c(-.22,0),lty=2,lwd=2,col="red")
> abline(c(+.22,0),lty=2,lwd=2,col="red")
>
> qqnorm(residuals(m2),ylim=c(-.2,.2),pch=19,col="blue")
> qqline(residuals(m2),col="red",lty=2,lwd=2)

Regresión Lineal 41
FEV (Ejemplo 4)
Ejemplo “Fev” Forced Expiratory Volume (FEV)
654 observaciones, 5 variables

Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston


(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) y
fumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En la
lección de regresión múltiple estudiaremos el efecto del tabaco.

Fuente:
Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury
age fev ht sex smoke
Variables 1 9 1.708 57.0 0 0
2 8 1.724 67.5 0 0
age años del individuo 3 7 1.720 54.5 0 0
fev variable continua en litros 4 9 1.558 53.0 1 0
ht variable continua, estatura en pulgadas 5 9 1.895 57.0 1 0
6 8 2.336 61.0 0 0
sex cualitativa (mujer=0, hombre=1) ...
smoke cualitativa (No-fumador=0, fumador=1)
Tabla 6.1

Regresión Lineal 42

FEV: Modelo Inicial


• Tanto en el gráfico de dispersión de FEV y altura (ht)
como en el de los residuos del modelo de regresión
simple se observa la relación no-lineal entre las dos
variables y la heterocedasticidad.

Figura 6.1 Figura 6.2

Regresión Lineal 43
FEV: modelo 1
log(fev) = −2.27 + 0.052 ht
(0.063) (0.0010)

= 0.7956 ̂ = 0.1508

Figura 6.3 Figura 6.4

Regresión Lineal 44

FEV: modelo 1

Figura 6.5 Figura 6.6

Regresión Lineal 45
5 ht
g( ) = −2.27 + 0.052
log(fev)
FEV: Modelo 1
((0.063)
0.063)) ((0.0010)
0.0010))
= 0.7956
0.7956 ̂ = 0.1508
0.1508
1

• Se ha realizado la transformación logarítmica de la variable


respuesta (fev) y se ha corregido la falta de linealidad y la
heterocedasticidad como se ve en las figuras 6.3 y 6.4
• El histograma y el qqplot (figura 6.5 y 6.6) no muestran
grandes desviaciones de la normalidad.
• Existen algunas observaciones atípicas pero se puede
comprobar que al eliminarlas los resultados no cambian
sustancialmente.
• Existe una relación muy significativa entre log(fev) y ht
(altura). Un incremento de un pulgada en la estatura supone
un aumento de la capacidad pulmonar del 5% (este
resultado cambiará al considerar otras variables)
• La altura explica un 79% (R2) de la variabilidad del log(fev).

Regresión Lineal 46

FEV: Modelo m1 con R

Tabla 6.2

Regresión Lineal 47
FEV : Instrucciones de R
> # FEV (ejemplo 4)
> dat <- read.table("fev.dat",header=TRUE)
> head(fev) #tabla 6.1
> attach(dat)
> m<-lm(fev~ht) # modelo m inicial
> par(mfrow=c(1,2))
> plot(ht,fev,col="blue") # figura 6.1
> abline(m,col="red",lwd=2)
> plot(ht,residuals(m),col="blue") # figura 6.2
> abline(c(0,0),col="red",lwd=2,lty=2)
> m1 <- lm(log(fev) ~ ht)
> summary(m1) # modelo estimado tabla 6.2
> plot(ht,log(fev),col="blue") # figura 6.3
> abline(m1,col="red",lwd=2) # figura 6.3
> plot(ht,residuals(m1),col="blue") # figura 6.4
> abline(c(0,0),col="red",lty=2,lwd=2)
> par(mfrow=c(1,2)) # figura 6.5 y 6.6
> hist(residuals(m1),col="red",nclass=20,xlab="Residuos")
> qqnorm(residuals(m1),col="blue")
> qqline(residuals(m1),col="red",lty=2,lwd=2)

Regresión Lineal 48

Brains (ejemplo 5)
Ejemplo “Brains” Peso del cuerpo y cerebro de mamiferos
62 observaciones, 2 variables

Descripción:
Para 62 especies de mamíferos se proporciona el peso medio del cuerpo en kilogramos y
del cerebro en gramos BrainWt BodyWt
Arctic_fox 44.500 3.385
Owl_monkey 15.499 0.480
Variables: Beaver 8.100 1.350
BrainWt Peso del cerebro (gramos) Cow 423.012 464.983
Gray_wolf 119.498 36.328
BodyWt Peso del Cuerpo (kilogramos) Goat 114.996 27.660

Tabla 7.1
OBJETIVO: Estudiar la relación entre
peso del cerebro y peso del cuerpo.

Fuentes
Allison, T. and Cicchetti, D. (1976). Sleep in mammals: Ecology and constitutional
correlates. Science, 194, 732-734.
Weisberg, S. (2005). Applied Linear Regression, 3rd edition. New York: Wiley

Regresión Lineal 49
Brains: Transformación
• En la escala original (figura 7.1) no tiene sentido el
modelo de regresión lineal.
• Haciendo las transformación logarítmica de las dos
variables (figura 7.2) se aprecia una clara relación lineal

Figura 6.1 Figura 6.2

Regresión Lineal 50

Brains: modelo 1
log(BrainWt) = 2.13 + 0.752 log(BodyWt)
(0.096) (0.028)

= 0.9208 ̂ = 0.6943

Figura 7.3 Figura 7.4

Regresión Lineal 51
log(BrainWt) = 2.13 + 0.752 log(BodyWt)

Brains (0.096) (0.028)

= 0.9208 ̂ = 0.6943

• La relación entre el logaritmo de peso del cuerpo y el


logaritmo del peso del cerebro es lineal como se ve en las
figuras 7.3 y 7.4
• Existen algunas observaciones atípicas pero se puede
comprobar que al eliminarlas los resultados no cambian
sustancialmente.
• El log del peso del cuerpo explica el 92% (R2) de la
variabilidad del log del peso del cerebro.

Regresión Lineal 52

Brains: Modelo m1 con R

Tabla 7.2

Regresión Lineal 53
Brains : Instrucciones de R
> brains <- read.table("brains.txt",header=TRUE)
> head(brains) # tabla 7.1
> par(mfrow=c(1,2))
> plot(BodyWt,BrainWt,col="blue",xlim=c(-1000,9000)) # figura 7.1
> sel = BrainWt>1000 # selecciona observaciones con peso del cerebro >1000
> text(BodyWt[out],BrainWt[out]-300,labels=brains[out,1]) # etiquetas 7.1
> m <- lm(BrainWt ~ BodyWt)
> abline(m,col="red",lwd=2) # figura 7.1
> plot(log(BodyWt),log(BrainWt),col="blue") # Figura 7.2 y 7.3
> m1 <- lm(log(BrainWt) ~ log(BodyWt))
> abline(m1,col="red",lwd=2) # linea en figura 7.2 y 7.3
> summary(m1) # tabla 7.2
> plot(log(BodyWt),residuals(m1),col="blue",ylim=c(-4,4)) # figura 7.4
> abline(c(0,0),col="red",lty=2,lwd=2)
> abline(c(-2*.6943,0),col="red",lty=2,lwd=2)
> abline(c(+2*.6943,0),col="red",lty=2,lwd=2)

Regresión Lineal 54

Funciones R para Regresión Simple

• m <- lm(y~x) Estima el modelo y (variable


dependiente) y x (regresor).
El modelo lo guarda en m
• summary(m) Modelo estimado
• plot(m) Diagnosis
• coef(m) Da los coeficientes
• residuals(m) Residuos del modelo
• fitted(m) Da los valores predichos
• deviance(m) Suma de residuos al cuadrado
• predict(m) Hace predicciones
• anova(m) Tabla ANOVA

Regresión Lineal 55
Regresión
3: Regresión Múltiple I

Ejemplo regresión múltiple

Consumo = E0 + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error


Y X1 X2 X3 X4
Consumo Cilindrada Potencia Peso Aceleración
l/100Km cc CV kg segundos
15 4982 150 1144 12
16 6391 190 1283 9
24 5031 200 1458 15
9 1491 70 651 21
11 2294 72 802 19
17 5752 153 1384 14
... ... ... ... ...

Var. dependientes Var. Independientes


o respuesta o regresores

Regresión Lineal 2
Modelo regresión múltiple
yi E 0  E1x1i  E 2 x2i    E k xki  ui ,
ui o N (0, V 2 )

E 0 , E1, E 2 ,, E k , V 2 : parámetros desconocidos


Linealidad Homocedasticidad
E[yi] = E0+ E1x1i+}+ Ekxki Var [yi|x1 ,...,xk] = V2
Normalidad Independencia
yi| x1 ,...,xk Ÿ Normal Cov [yi, yk] = 0

Regresión Lineal 3

Estimación
yi E0  E1 x1i  E 2 x2i    E k xk i  ui , ui o N (0, V 2 )

=
=

= − ̅ − ̅ −⋯− ̅

yi Eˆ0  Eˆ1 x1i    Eˆk xki  ei


yˆ i Eˆ0  Eˆ1 x1i    Eˆk xki
yˆ i Eˆ0  Eˆ1 x1i    Eˆk xki
n

¦e 2
i
ei yi  yˆ i o sˆR2 i 1
g.l. = n-k-1
n  k 1
Regresión Lineal 4
Notación matricial

§ y1 · §1 x11 x21  xk1 ·§ E 0 · § u1 ·


¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22  xk 2 ¸¨ E1 ¸ ¨ u 2 ¸

¨  ¸ ¨     ¸¨  ¸ ¨  ¸
¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨y ¸
© n¹
¨1
© x1n x2n  xkn ¸¹¨© E k ¸¹ ¨© u n ¸¹

Y Xβ  U
U o N (0, V 2 I )

Regresión Lineal 5

Estimación mínimo-cuadrática
§ y1 · §1 x11 x21  xk1 ·§ Eˆ0 · § e1 ·
¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22  xk 2 ¸¨ Eˆ1 ¸ ¨ e2 ¸
¨  ¸ ¨ ¨ ¸
    ¸¨  ¸ ¨  ¸
¨ ¸ ¨ ¸ ¨ ¸
¨y ¸ ¨1  xkn ¹© E k ¹ ¨© en ¸¹
¸¨ ˆ ¸
© n¹ © x1n x2n

Y Xβˆ  e
donde el vector e cumple
2 n
e ¦ ei2 es mínimo
i 1

Regresión Lineal 6
Para que ||e||2 sea mínimo, e tiene que ser
perpendicular al espacio vectorial generado las
columnas de X
§1 x11 x21  xk1 · § e1 ·
¨1 x12 x22  xk 2 ¸, e ¨e ¸
X ¨ ¸ ¨ 2 ¸
¨     ¸ ¨ ¸
©1 x1n x2 n  xkn ¹ © en ¹

­ ¦1nei 0
° n
°
Ÿ X Te 0 ® ¦1 ei x1i 0
° n 
°¯ ¦1 ei xki 0

Regresión Lineal 7

Mínimos cuadrados
Y Solución MC
x1
Y
e ˆ
YY
x1
x2

ˆ
Y ˆ

X Te 0 x2
X T Y X T Xβˆ  X T e
X T Y X T Xβˆ Ÿ βˆ ( X T X) 1 X T Y
Regresión Lineal 8
Matriz de proyección V
Y e (I  V)Y

x1 Val. Previstos
ˆ Xβˆ
Y
ˆ
Y VY ˆ X(X T X) 1 X T Y
Y
1 ˆ VY
Y
Residuos
e Y  Xβˆ Y  VY V X(XT X) 1 XT
(I  V)Y Simétrica V=VT
Idempotente VV=V

Regresión Lineal 9

Distribución de probabilidad
de β̂
Y o N ( Xβ, V 2I )
βˆ (X T X)1 X T Y CY (siendo C (X T X)1 X T )
βˆ o Normal
E[βˆ ] CE[Y ] CXβ (X T X)1 X T Xβ β
Var[βˆ ] Var[CY] CVar[Y ]CT
((X T X)1 X T )(V 2I )((X T X)1 X T )T
V 2 (X T X)1 X T X(XT X)1
V 2 (X T X)1

Regresión Lineal 10
Distribución de probabilidad
de β̂
βˆ o N (β, V 2 (X T X) 1 )
Eˆi o N ( E i , V 2 qii )
§ Eˆ 0 · § E0 · § q00 q01  q0 k ·
¨ ¸ ¨E ¸ ¨q
βˆ ¨ Eˆ1 ¸ β ( XT X) 1 q11  q1k ¸
¨ 1¸ Q ¨ 10 ¸
¨  ¸ ¨  ¸ ¨     ¸
¨ Eˆ ¸ © Ek ¹ © qk 0 qk1  qkk ¹
© k¹
dim(Q) (k  1) u (k  1)

Regresión Lineal 11

Residuos

Y Xβˆ  e





Observados Previstos Residuos

§ y1 · §1 x11 x21  xk1 ·§ Eˆ0 · § e1 ·


¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22  xk 2 ¸¨ Eˆ1 ¸ ¨ e2 ¸
¨  ¸ ¨ ¸ ¨ ¸¨ ¸
    ¨  ¸ 
¨ ¸ ¨ ¸ ¨ ¸
¨y ¸ ¨1  xkn ¸¹¨© Eˆ k ¸¹ ¨© en ¸¹
© n¹ © x1n x2n

ei yi  ( Eˆ0  Eˆ1x1i    Eˆ k xki )

Regresión Lineal 12
Varianza Residual

e Te ¦in 1 ei2
V2 V2
o F n2 k 1
2 ¦in 1 ei2
sˆR
¦in 1 ei2 n  k 1
E[ ] n  k 1 2
V2 (n  k  1) sˆR
o F n2k 1
¦in 1 ei2 V2
E[ ] V2
n  k 1

Regresión Lineal 13

Contraste individual Ei
H 0 : Ei 0
yi E 0  E1x1i   E k xki  ui
H1 : E i z 0

Eˆi o N ( E i , V 2 qii )
Eˆi  E i Eˆ1  E1
o N (0,1) Ÿ o t n  k 1
V qii sˆR qii
Eˆi
ti ; ti ! t n  k 1;D / 2 Ÿ Se rechaza Ho
sˆR qii

Regresión Lineal 14
Contrastes individuales

H 0 : Ei 0 yˆ i Eˆ0  Eˆ1 x1i    Eˆk xki


H1 : E i z 0
→ , ( )
Eˆi  E i
ti o t n  k 1
SE ( Eˆi )

R.R. R.R
Eˆ 1 tn-k-1
t1 ;
SE ( Eˆ ) 1
1-D D/2
t1 ! t n k 1;D / 2 Ÿ Se rechaza Ho D/2
R. Acept.
-tD/2 tD/2

Regresión Lineal 15

H 0 : Ei 0
P-valor H1 : E i z 0

α = 0.05 Area Azul = p-valor

n-k-1

P-valor ≤ α P-valor > α


Con α=0.05
0 05 ““x”” influye Con α=0.05 “x” NO influye
significativamente en “y” significativamente en “y”
H1 : E i z 0 H 0 : Ei 0
Modelo estimado y contrastes
Dependiente (y) ~ Independientes (x1, x2,..,xk)

Estimate Stand Error t value Pr(>|t|)


Intercept SE( )
=
SE( )
SE( )
=
SE( )
SE( )
=
SE( )

… … … … …

SE( )
=
SE( )

Regresión Lineal 17

Modelo estimado y contrastes


Dependiente (log(fev)) ~ Independientes (ht (estatura) , age (edad) )
Estimate Stand Error t value Pr(>|t|)
Intercept −1.9711 0.07833 −25.16 0.00000
ℎ 0.04399 0.001647 26.71 0.00000
0.01981 0.003181 6.23 0.00000

log(fev) = −1.97 + 0.0439 ht + 0.0198 age


(0.078) (0.0016) (0.0031)

̂ = 0.1476

Regresión Lineal 18
Modelo en diferencias a la
media
yi Eˆ0  Eˆ1x1i    Eˆ k xki  ei n
¦ yi
n
nEˆ0  Eˆ1 ¦ x1i    Eˆ k
n n
¦ xki  ¦ ei
i 1 i 1 i 1 1
Eˆ0  Eˆ1x1    Eˆ k xk
i,
y 0

yˆ i Eˆ0  Eˆ1x1i    Eˆ k xki


yˆ i  y Eˆ1 ( x1i  x1 )    Eˆ k ( xki  xk )
§ yˆ1  y · § x11  x1 x21  x2  xk1  xk ·§ Eˆ1 ·
¨ ¸ ¨ ¸¨ ¸
¨ 2
yˆ  y ¸ ¨ x12  x1 x22  x2  xk 2  xk ¸¨ Eˆ 2 ¸
¨  ¸ ¨     ¸¨ ¸
¨ ¸ ¨ ¸¨  ¸
¨ yˆ  y ¸ ¨x x x2n  x2  xkn  xk ¸¹¨© Eˆ k ¸¹
© n ¹ © 1n 1

ˆ Y ~ˆ ~ˆ
Y Xb YY Xb  e
Regresión Lineal 19

Modelo en diferencias a la
media
~ ~
Y Xb  U
§ y1  y · § y· § E1 · § Eˆ1 ·
¨ ¸ ¨ ¸ ¨ ¸ ¨ ¸
~ ¨ y2  y ¸ ¨ y¸ ¨ E2 ¸ ˆ ¨ Eˆ2 ¸
Y ¨ , Y , b ¨  ¸, b ¨  ¸
 ¸ ¨¸
¨¨ ¸¸ ¨¨ ¸¸ ¨¨ ¸¸ ¨¨ ¸¸
© n
y  y ¹ © ¹
y © Ek ¹ © Eˆk ¹
§ x11  x1 x21  x2  xk1  xk ·
¨ ¸
~ ¨ x12  x1
X
x22  x2  xk 2  xk ¸
¨     ¸
¨¨ ¸
© x1n  x1 x2n  x2  xkn  xk ¸¹

~ T ~ 1 ~ T ~ ~ ~
ˆb (X X) X Y bˆ o N (b, σ 2 ( XT X) 1 )

Regresión Lineal 20
Descomposición de la
variabilidad en regresión

yi Eˆ0  Eˆ1x1i    Eˆ k xki  ei


yi yˆ i  ei (Restando y )
( yi  y ) ( yˆ i  y )  ei

¦in 1 ( yi  y ) 2 ¦in 1 ( yˆ i  y ) 2  ¦in 1 ei2


VT VE  VNE

Regresión Lineal 21

Coeficiente de determinación R2

log(fev) = −1.97 + 0.0439 ht + 0.0198 age


(0.078) (0.0016) (0.0031)
n
VE ¦ ( yˆ
i 1
i  y)2 58.536
VE 58.536
n R2 0.8071
VNE ¦(y
i 1
i  yˆ i ) 2
13.990 VT 72.526

VT 58.536  13.990 72.526


0 d R2 d 1
Mide el porcentaje de VT que
está explicado por los regresores

Regresión Lineal 22
2
Coef. determinación corregido R
n
VE VT  VNE VNE (n  k  1) sˆR2 ¦ ( yi  y ) 2
R2 1 1 sˆ 2y i 1
VT VT VT (n  1) sˆ y2 n 1

sˆR2 VNE n 1
R2 1 2 1 u
sˆ y VT n  k  1
n 1
1  (1  R ) u
2

n  k 1

= 1 − (1 − 0.8071) × =0.8065

Regresión Lineal 23

Contraste general de regresión.


yi E 0  E1x1i   E k xki  ui
H 0 : E1 E 2  E k 0
H1 : alguno es distinto de 0

VE Acep. H0
Rechazo H0
2

E oV 2 (Si H o es cierto)
k
sˆR2 o V 2 α = 0.05
sˆE2
F o Fk ,n  k 1
sˆR2
F ! FD Ÿ Se rechaza H0 F1,n-2 Fα

Regresión Lineal 24
Contraste F
log(fev) = −1.97 + 0.0439 ht + 0.0198 age, ̂ = 0.1476
(0.078) (0.0016) (0.0031)

VE 58.436
sˆE2 29.268
H 0 : E1 E2 0 k 2
sˆR2 0.021
H1 : algún E i z 0 sˆE2 29.268
F 1362
F2,651 sˆR2 0.021

α = 0.05
1362 ! 3.01 Ÿ Se rechaza H 0

3.01 P-valor = 0.00000…


Regresión Lineal 25

Tabla de Análisis de la Varianza


Suma de Grados de
FUENTES Cuadrados Libertad Varianzas F

sˆE2
Explicada (VE) ¦ ( yˆ i  y) 2
k sˆ 2
E sˆR2
Residual (VNE) ¦(y i  yˆ i ) 2 n  k 1 sˆR2
Total (VT) ¦(y i  y)
2
n 1

R2
VE ¦ i
( ˆ
y  y ) 2

VT ¦(y i  y)2

Análisis de la varianza 26
Tabla de Análisis de la Varianza
log(fev) = −1.97 + 0.0439 ht + 0.0198 age, ̂ = 0.1476
(0.078) (0.0016) (0.0031)

Suma de Grados de
FUENTES Cuadrados Libertad Varianzas F

Explicada (VE) 58.536 2 29.268 1362


Residual (VNE) 13.990 651 0.0215
Total (VT) 72.526 653

58.536
R2 0.8071
72.526

Análisis de la varianza 27

Resumen de estimación con R

Regresión Lineal 28
Ejemplo 1: Cars
Depend Regresores

Y X1 X2 X3 X4

= −1.05 + 0.0058 engine + 0.0369 horse +


+ 0.0020 weight + 0.0813 accel

Regresión Lineal 29

Valores Previstos y Residuos


= −1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accel

Datos Resultados n
VE ¦ ( yˆ i  y)2 4725.0
Y X1 X2 X3 X4 i 1
n
VNE ¦(y
i 1
i  yˆ i ) 2 1037.9
n
VT ¦(y
i 1
i  y)2 5762.9

2
1037.9
̂ = =
− −1 386
= 2.7
4725
= = = 81.99
5762.9

Regresión Lineal 30
DIAGNOSIS: residuos ~ regresores

Regresión Lineal 31

Diagnosis

Linealidad Normalidad
Homocedasticidad ok
ok

Regresión Lineal 32
Resumen del modelo

Regresión Lineal 33

Resumen del modelo (sin aceleración)

Regresión Lineal 34
Conclusiones modelo final
= −1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accel
̂ = 1.64 = 81.99

1. No se aprecian desviaciones importantes de las hipótesis básicas del


modelo: linealidad, homocedasticidad y normalidad.

2. Se observa relación lineal significativa entre el consumo de los coches y su


peso (weight), potencia (horse) y centímetros cúbicos (engine). (Los p-
valores son menores que 0.05 en elmodelos). Los coeficientes estimados
son positivos, lo que significa que el aumento de cualquiera de las variables
independientes incrementa el consumo del vehículo. Con las cuatro
variables se explica el 81.99 % de la variabilidad del consumo.

Regresión Lineal 35

Conclusiones modelo final (cont)


3. En el modelo de cuatro regresores el parámetro asociado a aceleración no es
significativo. La inclusión de la variable “aceleración” no mejora
significativamente el modelo. Eso no implica que no exista relación lineal entre
aceleración y consumo (la regresión simple entre estas variables indican relación
significativa con coeficiente negativo).

4. El coeficiente asociado al peso es 0.0020, es muy significativo. Para


interpretarlo es necesario tener en cuenta las unidades: un aumento de una libra
en el peso del coche manteniendo constante el resto de las variables produce un
aumento del consumo de 0.002 litros/100 km. (Esto implica que un regresor se
puede cambiar manteniendo el resto constante, lo que sólo es posible en los
estudios experimentales.) El resto de los coeficientes se interpreta similarmente.

Regresión Lineal 36
CARS: Todos los modelos
Modelo
1
engine
2
horse
3
weight
4
accel ̂
1 0,032 1,874 76,28 76,22
0,0009

2 0,085 2,002 72,94 72,87


0,0026

3 0,004 1,780 78,55 78,49


0,0001

4 -0,663 3,380 22,70 22,50


0,062

12 0,0202 0,036 1,775 78,78 78,67


0,0019 0,0053

13 0,01313 0,00251 1,715 80,18 80,08


0,0023 0,0002872

14 0,03215 0,0048 1,877 76,28 76,16


0,00108 0,041

23 0,0351 0,0026 1,650 81,67 81,58


0,00432 0,00019

24 0,1027 0,336 1,892 75,90 75,78


0,0035 0,048

34 0,00379 -0,1689 1,734 79,75 79,65


0,0001147 0,0351

123 0,0052 0,0299 0,00225 1,643 81,86 81,72


0,0025 0,005 0,0002

124 0,01765 0,0539 0,2282 1,723 80,05 79,89


0,0019 0,0063 0,0459

134 0,01006 0,0027 -0,0986 1,704 80,50 80,35


0,0026 0,000298 0,039

234 0,04113 0,0025 0,0639 1,648 81,75 81,61


0,0063 0,00022 0,0489

1234 0,00587 0,03695 0,002018 0,0813 1,640 81,99 81,80


0,0026 0,0065 0,00031 0,049

Regresión Lineal 37

Conclusiones Generales
1. El que la relación lineal entre dos variables sea significativa no implica que exista
relación de CAUSALIDAD entre las variables. Se debe interpretar como asociación
entre las variables: los coches con más pesos presentan mayor consumo que los
coches con menos peso.

2. Cuando se añaden o eliminan variables de un modelo los coeficientes del resto


cambian. Eso es debido a la correlación entre los regresores. Cuando estas
correlaciones son altas los coeficientes pueden cambiar mucho, incluso de signo.
Esto se puede apreciar en el coeficiente de la variable accel, cuyo efecto sobre el
cosnumo depende del resto de las variables en el modelo. La alta correlación
entre los regresores hace muy difícil interpretar el significado de los
coeficientes, a este problema se le denomina MULTICOLINEALIDAD.

Regresión Lineal 38
Conclusiones (cont.)
7. La selección del modelo depende del objetivo. Siempre el modelo con más
regresores tiene el mayor R2. Utilizando el “R2 corregido” hay tres modelos
muy parecidos 23, 123 y 1234. El mejor modelo con un regresor es el 3, con R2
igual al 78.55%, al incluir la pontencia (horse) como nuevo regresor tenemos el
modelo 23 cuyo R2 sólo aumenta un 3%, hasta 81.67%. El modelo 123, incluye
además los cc del motor (engine) como regresor con un aumento en R2
despreciable (ahora 81.86%). En este modelo los tres coeficientes son
significativos. Si añadimos la variable accel, llegamos al modelo completo con
R2 igual a 81.99%. El coeficiente de la última variable no es significativo.
8. Al ir incluyendo regresores en un modelo los residuos van disminuyendo y con
ello la variabilidad no explicada. La desviación típica residual también suele
disminuir (hay que tener en cuenta que el denominador de la varianza residual
también disminuye). Los modelos 23, 123 y 1234 tienen una desviación típica
residual muy parecida y próxima a 1.64 litros/100km. La interpretación
(aproximada) es la siguiente (con el modelo 1234): si nos proporcionan los datos
del peso (weight), potencia (horse), cc (engine) y aceleración (accel) del coche
la distribución de su consumo tiene media la proporcionada por el modelo y
desviación típica 1.64 litros/100km.

Regresión Lineal 39

Ejemplo 2: Cerezos Negros


Se desea construir un
modelo de regresión para
obtener el volumen de
madera de una “cerezo
negro” en función de la
altura del tronco y del
diámetro del mismo a un
metro sobre el suelo. Se
ha tomado una muestra
de 31 árboles. Las
unidades de longitudes
son pies y de volumen
pies cúbicos.

Regresión Lineal 40
Cerezos negros: Datos

Árbol Diametro Altura Volumen Árbol Diametro Altura Volumen


1 8,3 70 10,30 17 12,9 85 33,80
2 8,6 65 10,30 18 13,3 86 27,40
3 8,8 63 10,20 19 13,7 71 25,70
4 10,5 72 16,40 20 13,8 64 24,90
5 10,7 81 18,80 21 14,0 78 34,50
6 10,8 83 19,70 22 14,2 80 31,70
7 11,0 66 15,60 23 14,5 74 36,30
8 11,0 75 18,20 24 16,0 72 38,30
9 11,1 80 22,60 25 16,3 77 42,60
10 11,2 75 19,90 26 17,3 81 55,40
11 11,3 79 24,20 27 17,5 82 55,70
12 11,4 76 21,00 28 17,9 80 58,30
13 11,4 76 21,40 29 18,0 80 51,50
14 11,7 69 21,30 30 18,0 80 51,00
15 12,0 75 19,10 31 20,6 87 77,00
16 12,9 74 22,20

Regresión Lineal 41

Gráficos x-y

1. Se aprecia relación entre las dos variables y el volumen


2. El gráfico del volumen versus diámetro presenta ligera curvatura
3. El gráfico del volumen versus altura presenta clara heterocedasticidad

Regresión Lineal 42
Primer modelo:cerezos negros
Volumen β0  β1 Diametro  β2 Altura  Error

Regresión Lineal 43

Diagnosis

Indicios de falta de linealidad

Regresión Lineal 44
Transformación
vol | k u altura u diámetro 2
log(vol) | E 0  E1 log(altura)  E 2 log(diámetro)  error

Regresión Lineal 45

Diagnosis (modelo transformado)

Antes

Ahora

Regresión Lineal 46
Interpretación
Se comprueba gráficamente que la distribución
de los residuos es compatible con las hipótesis
de linealidad y homocedasticidad.
El volumen está muy relacionada con la altura y
el diámetro del árbol (R2= 97.77%)
El modelo estimado
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error

es compatible con la ecuación vol=k u Alt uDiam2


La desviación típica residual es sR=0.081 que
indica que el error relativo del modelo en la
predicción del volumen es del 8.1%.

Regresión Lineal 47

Ejemplo 3: Tabaco
Ejemplo “Tabaco” Monóxido de Carbono (CO)
25 observaciones, 3 variables

Descripción: Se proporciona la producción de monóxido de


carbono (co) y el contenido de nicotina (nico) y alquitrán
(alq) en 25 marcas diferentes de cigarrillos americanos.

Fuente: Mendenhall, William, and Sincich, Terry (1992),


Statistics for Engineering and the Sciences (3rd ed.), New
York: (Original source: Federal Trade Commission, USA)

Variables
alq contenido en alquitrán mg
nico contenido en nicotina mg
co monóxido de carbono CO mg

Objetivo: Estudiar la relación entre CO con alquitrán


y nicotina

Regresión Lineal 48
CO ~ nico CO ~ alq

= 85.74 ̂ = 1.828 = 91.68 ̂ = 1.397

= 91.86 ̂ = 1.413

Regresión Lineal 49

Efecto de la multicolinealidad
(alta correlación entre nico y alq)

El coeficiente de la variable “nico” cambia de


12.39 a -2.36.
En el modelo con dos regresores, el
coeficiente de la variable “nico” no es
significativo.
Los standard errors de los coeficientes en el
= 0.9537 modelo de dos regresores han aumentado
considerablemente respecto a los de
regresión simple. El de “nico” pasa de 1.05 a
3.78. El cambio para “alq” es mayor.
Los estadísticos t se han reducido (debido al
aumento de los standards errors)
La desviación típica residual del modelo con
dos regresores es mayor que en el modelo
de regresión simple “CO ~ alq”

Regresión Lineal 50
Regresión con R

Interpretación (inicial)
Contraste F=438 (p-valor=0.0000) Ÿ Alguno de
los regresores influye significativamente en el
consumo.
Contrastes individuales:
La potencia y el peso influyen significativamente (p-
valor=0.0000)
Para D=0.05, la cilindrada y la aceleración también
tienen efecto significativo (p-valor < 0.05)
El efecto de cualquier regresor es “positivo”, al
aumentar cualquiera de ellos aumenta la variable
respuesta: consumo.
Los regresores explican el 82 % de la variabilidad
del consumo (R2 = 0.8197)

Regresión Lineal 52
Multicolinealidad

Cuando la correlación entre los


regresores es alta.
Presenta graves inconvenientes:
Empeora las estimaciones de los efectos de
cada variable Ei: aumenta la varianza de las
estimaciones y la dependencia de los
estimadores)
Dificulta la interpretación de los parámetros
del modelo estimado (ver el caso de la
aceleración en el ejemplo).

Regresión Lineal 53

Identificación de la multicolinealidad:
Matriz de correlación de los regresores.

Regresión Lineal 54
Gráficos consumo - xi
24 24
20 20
consumo

consumo
16 16
12 12
8 8
4 4
0 0
500 1000 1500 2000 0 40 80 120 160 200 240
peso potencia
24 24
20 20
consumo

consumo
16 16
12 12
8 8
4 4
0 0
0 2 4 6 8 8 11 14 17 20 23 26
(X 1000)
cilindrada aceleracion

Regresión Lineal 55

Consumo y aceleración

Regresión Lineal 56
Multicolinealidad: efecto en la
varianza de los estimadores
yi E 0  E1x1i  E 2 x2i  ui

ª§ Eˆ ·º
var «¨¨ 1 ¸¸» X~ T X~ 1V 2 ~T X
X ~ nS XX S XX
§ s12
¨
¨s
s12 ·¸
s22 ¸¹
§ s12
¨
¨r s s
r12 s1s2 ·¸
s22 ¸¹
¬© Eˆ 2 ¹¼ © 12 © 12 1 2

§ 1  r12 ·
¨ 2 2 2 ¸
¨ s1 (1  r12 ) s1 s2 (1  r12 )¸
| S XX | s12 s22 (1  r12
2
) S XX
1
¨ ¸
 r12 1
¨ ¸
¨ s s (1  r 2 ) s22 (1  r12
2
) ¸
© 1 2 12 ¹

§ V 2
 r12V 2 ·
¨ ¸
ª§ Eˆ1 ·º ¨ ns12 (1  r122 ) 2 ¸
ns1 s2 (1  r12 )
var «¨¨ ¸¸» ¨ ¸
«¬© Eˆ 2 ¹»¼
2
¨  r12V V2 ¸
¨ ns s (1  r122 ) ns2 (1  r12 ) ¸¹
2 2
© 1 2

Regresión Lineal 57

Consecuencias de la
multicolinealidad
Gran varianza de los estimadores E
Cambio importante en las
estimaciones al eliminar o incluir
regresores en el modelo
Cambio de los contrastes al eliminar
o incluir regresores en el modelo.
Contradicciones entre el contraste F
y los contrastes individuales.

Regresión Lineal 58
Regresión
4. Regresión Múltiple: Variables
Cualitativas y Predicción

Variables cualitativas como


regresores
Consumo Cilindrada Potencia Peso Aceleración Origen
l/100Km cc CV kg segundos
15 4982 150 1144 12 Europa
16 6391 190 1283 9 Japón
24 5031 200 1458 15 USA
9 1491 70 651 21 Europa
11 2294 72 802 19 Japón
17 5752 153 1384 14 USA
12 2294 90 802 20 Europa
17 6555 175 1461 12 USA
18 6555 190 1474 13 USA
12 1147 97 776 14 Japón
16 5735 145 1360 13 USA
12 1868 91 860 14 Europa
9 2294 75 847 17 USA
... ... ... ... ... ...

Regresión Lineal 2
Variables cualitativas como
regresores
­
°
Europa
Origen ® Japón
°̄ USA ­0 si i  JAPON
Z JAP i ®1 si i  JAPON
¯

­0 si i  USA
ZUSA i ®1 si i  USA
¯

­0 si i  EUROPA
Z EUR i ®1 si i  EUROPA
¯

Consumo = E0 + E1 CC + E2 Pot + E3 Peso +

+ E4 Acel + DJAP ZJAP + DUSA ZUSA + Error

Regresión Lineal 3

Variables cualitativas
Consumo Cilindrada Potencia Peso Aceleración ZJAP ZUSA ZEUR
l/100Km cc CV kg segundos
15 4982 150 1144 12 0 0 1
16 6391 190 1283 9 1 0 0
24 5031 200 1458 15 0 1 0
9 1491 70 651 21 0 0 1
11 2294 72 802 19 1 0 0
17 5752 153 1384 14 0 1 0
12 2294 90 802 20 0 0 1
17 6555 175 1461 12 0 1 0
18 6555 190 1474 13 0 1 0
12 1147 97 776 14 1 0 0
16 5735 145 1360 13 0 1 0
12 1868 91 860 14 0 0 1
9 2294 75 847 17 0 1 0
... ... ... ... ... ... ... ...
Consumo = E0 + E1 CC + E2 Pot + E3 Peso +

+ E4 Acel + DJAP ZJAP + DUSA ZUSA + Error

Regresión Lineal 4
Interpretación var. cualitativa
Consumo = E0 + E1 CC + E2 Pot + E3 Peso +

+ E4 Acel + DJAP ZJAP + DUSA ZUSA + Error

• Coches europeos: ZJAP = 0 y ZUSA = 0 REFERENCIA


Consumo = E0 + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error

• Coches japoneses: ZJAP =1 y ZUSA = 0


Consumo = E0 + DJAP + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error

• Coches americanos: ZJAP =0 y ZUSA = 1


Consumo = E0 + DUSA + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error

Regresión Lineal 5

Interpretación del modelo


Americanos
y
Europeos Ref.
E0 +
DUSA Japoneses
E0

E0 + DJAP

xi

Regresión Lineal 6
Modelo estimado (con R)

Regresión Lineal 7

Interpretación
Se introduce en el modelo la variable cualitativa
ORIGEN del vehículo (USA=1, EUR=2,JAP=3). En el
modelo se utiliza USA como referencia.
El p-valor del coeficiente asociado a OrigenJAP es
0.1467 >.05, se concluye que no existe diferencia
significativa entre el consumo de los coches
Japoneses y Americanos (manteniendo constante el
peso, cc, pot y acel.)
La misma interpretación para OrigenEUR, no existe
diferencia en el consumo de coches EUR y USA.
Comparando R2 =0.8212 de este modelo con el
anterior R2=0.8199, se confirma que el modelo con
las variables de Origen no suponen una mejora
sensible.

Regresión Lineal 8
Body: Instrucciones con R
# ejemplo1 cars : modelo de regresión

> cars <- read.table("cars.txt",header=TRUE)


> attach(cars)

> cons <- 235.1/mpg # transformamos la variable


> Origen <- factor(origin,labels=c("USA","EUR","JAP"))
# la instrucción “factor()” es necesaria
# para introducir en el modelo de
# regresión una variable cualitativa
> m <- lm(cons ~ engine + horse + weight+ accel + Origen)
> summary(m)

Regresión Lineal 9

Modelo de regresión con


variables cualitativas
En general, para considerar una variable
cualitativa con r niveles, se introducen en
la ecuación r-1 variables ficticias
­0 i  nivel 1 ­0 i  nivel 2 ­0 i  nivel r  1
z1i ®1 i  nivel 1, z 2i ®1 i  nivel 2,  , z r 1i ®1 i  nivel r  1
¯ ¯ ¯
Y el nivel r no utilizado es el que actúa de
referencia
yi E 0  E1 x1i    E k xki 
 D 1 z1i  D 2 z 2i    D r 1 z r 1,i  ui


variable cualitativa
Regresión Lineal 10
Ejemplo: Body
Nombre: Body (Cuerpo Humano) Exploring Relationships in Body
Dimensions
507 Observaciones, 25 Variables

Descripción: Este ejemplo contiene 21 medidas del cuerpo humano, además


de la edad, peso, altura y género (mujeres = 0, hombres =1) de 507
individuos de los que 247 son hombres y 260 mujeres. Los datos fueron
recogidos entre personas que acudía frecuentemente al gimnasio en USA,
la mayoría de ellos entre 20 y 40 años.

Fuente: Exploring Relationships in Body Dimensions, Grete Heinz,Louis J.


Peterson,Roger W. Johnson , Carter J. Kerk, Journal of Statistics
Education Volume 11, Number 2 (2003),
www.amstat.org/publications/jse/v11n2/datasets.heinz.html

OBJETIVO: Relación entre el peso y altura diferenciando entre


hombres y mujeres.

Regresión Lineal 11

Estatura Peso
Hombres 177.7cm 78.1 kg
Body Mujeres 164.9cm 60.6 kg
Diferencia 12.8 cm 17.5 kg

Weight = E0 + E1 Height + DHOM ZHOM + Error

Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error

Regresión Lineal 12
Interpretación

8.36 kg

A igualdad de
ESTATURA, la
diferencia de
PESO entre un
hombre y una
mujer es
Figura 2.1. 8.36 kg

Regresión Lineal 13

Body: Instrucciones con R


# body : modelo de regresión

> body <- read.table("body.txt",header=TRUE)


> attach(body)
> m.body<-lm(Weight~Height+Gender)
> summary(m.body)

# figura 2.1

> plot(Height,Weight,col=Gender+2) # Gender +2 asigna el color rojo (2)


# a mujeres y el verde (3) a los hombres
> abline(c(-56.949,0.7129),col = "red",lwd=2) # linea de regresión de mujeres
> abline(c(-56.949+8.3659,0.7129),col = "green",lwd=2) # regresión hombres

Regresión Lineal 14
FEV (Ejemplo 3)
Ejemplo “Fev” Forced Expiratory Volume (FEV)
654 observaciones, 5 variables

Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston


(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) y
fumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En la
lección de regresión múltiple estudiaremos el efecto del tabaco.

Fuente:
Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury
age fev ht sex smoke
Variables 1 9 1.708 57.0 0 0
2 8 1.724 67.5 0 0
age años del individuo 3 7 1.720 54.5 0 0
fev variable continua en litros 4 9 1.558 53.0 1 0
ht variable continua, estatura en pulgadas 5 9 1.895 57.0 1 0
6 8 2.336 61.0 0 0
sex cualitativa (mujer=0, hombre=1) ...
smoke cualitativa (No-fumador=0, fumador=1)
Tabla 6.1

Regresión Lineal 15

Modelo de regresión
Log(fev) = E0 + E1 ht + E2 age + DHOM ZHOM + DHOM ZHOM + Error

Log(fev) = -1.9 + 0.042ht + 0.023age + 0.029 ZHOM – 0.046 ZFUM + Error

Regresión Lineal 16
Interpretación
1. Todos los coeficientes son significativamente distintos de cero.
2. A igualdad del resto de las variables, un aumento de 1cm en la
Estatura produce un incremento en fev del 4.2%
3. A igualdad del resto de las variables, un aumento de 1 año en la
Edad produce un incremento en fev del 2.3%
4. A igualdad del resto de las variables, los hombres tienen un 2.9%
más de fev que las mujeres.
5. A igualdad del resto de las variables, los fumadores tienen un
4.6% menos de fev que los no-fumadores.

IMPORTANTE: El objetivo del estudio era cuantificar el efecto de


fumar en la capacidad pulmonar de los jóvenes, el restos de las
variables del modelo son necesarias (imprescindibles) para
detectar el efecto, aunque juegan un papel secundario.

Regresión Lineal 17

fev: Instrucciones con R


# ejemplo 3: fev
> pulmon <- read.table("fev.dat",header=TRUE)
> attach(pulmon)
> m.pulmon <- lm(log(fev) ~ ht + age + sex + smoke)
> summary(m.pulmon)

# sex es una variable que toma valores 0,1


# 0 mujeres
# 1 hombres
#
# smoke es una variable 0,1, también 0 no fumador,
# y 1 fumador
#
# Cuando son variables 0,1 no es necesario convertirlas
# en variables CUALITATIVAS o FACTOR utilizando la
# instrucción
# genero=factor(sex,labels=c(“Mujer”,”Hombre”))

Regresión Lineal 18
Predicción
Media mh|xh Nueva Observ. yh|xh

mh yh
mh

xh xh

ŷ h

xh

Regresión Lineal 19

Predicción de la media mh
(Regresión simple)
mh ŷ h

xh xh

m  yˆ r tD / 2 sˆR vhh
h h ŷ h

1 ( xh  x ) 2
vhh (1  2
)
n sx
xh
Regresión Lineal 20
Predicción de la media mh
(Regresión multiple)
mh ŷ h

xh xh

m  yˆ r tD / 2 sˆR vhh
h h ŷ h
1
vhh (1  (x h  x)T S x1 (x h  x))
n
xh
Regresión Lineal 21

Intervalos de predicción para


una nueva observación yh

ŷ h

xh
y  yˆ r tD / 2 sˆR 1  vhh
h h

Regresión Lineal 22
Límites de predicción
m  yˆ r tD / 2 sˆR vhh
yˆ Eˆ0  Eˆ1 x1    Eˆ k xk h h

y  yˆ r tD / 2 sˆR 1  vhh
y h h

x
Regresión Lineal 23

Predicción
Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error

Peso predicho para el PESO MEDIO de hombre de 175cm

Pred_Weight = -56.9 + 0.713 x 175 + 8.366x 1 = 76.18 kg

Peso predicho para la media de la distribución del peso de las


mujeres de 170cm de estatura

Pred_Weight = -56.9 + 0.713 x 170 + 8.366x 0 = 64.25 kg

Regresión Lineal 24
Intervalos
95% confianza
Int. Confianza Previsto Lim. Inf Lim. Sup
Height=175,Sexo = 1 76.19 75.04 77.33
Height=170,Sexo = 0 64.25 63.03 65.47

Int. Predicción Previsto Lim. Inf Lim. Sup


Height=175,Sexo = 1 76.19 58.85 93.51
Height=170,Sexo = 0 64.25 49.92 81.59

Regresión Lineal 25

Predicción: Instrucciones R
# ejemplo 3: fev
> newbody <- data.frame(Height=170,Gender=0)
> predict(m.body,newbody,interval="confidence")
fit lwr upr
1 64.2563 63.03951 65.4731

> newbody <- data.frame(Height=170,Gender=0)


> predict(m.body,newbody,interval="prediction")
fit lwr upr
1 64.2563 46.92133 81.59128

> newbody <- data.frame(Height=175,Gender=1)


> predict(m.body,newbody,interval="confidence")
fit lwr upr
1 76.18717 75.04465 77.32969

> newbody <- data.frame(Height=175,Gender=1)


> predict(m.body,newbody,interval="prediction")
fit lwr upr
1 76.18717 58.85725 93.5171

Regresión Lineal 26
Otros ejemplos con R
> newcar <- data.frame(horse=130,engine=180,accel=12,Origen="USA", weight=3000)
> predict(m,newcar,interval="confidence")
fit lwr upr
1 11.84055 11.47096 12.21014

> newboy <- data.frame(ht=160,age=17,sex=1,smoke=0)


> predict(m.pulmon,newboy,interval="confidence")
fit lwr upr
1 5.33023 5.041005 5.619455
> newcars <- data.frame(horse=c(130,140,150)
+ ,engine=c(180, 185, 190)
+ ,accel=c(10,11,12)
+ ,Origen=c("USA","JAP","EUR")
+ ,weight=c(3000,2000,2500))
> pred.w.clim <- predict(m,newcars,interval="confidence")
> pred.w.clim
fit lwr upr
1 11.67788 11.197035 12.15872
2 10.13996 9.440399 10.83952
3 11.62928 11.027327 12.23123

Regresión Lineal 27

APÉNDICE: PREDICCIÓN

Regresión Lineal 28
Predicción de la media mh
(Regresión simple)
mh ŷ h

xh xh
yh o N ( E 0  E1xh , V 2 ) yˆ h Eˆ0  Eˆ1xh y  Eˆ1 ( xh  x )
mh E 0  E1xh E[ yˆ h ] E[ Eˆ0  Eˆ1xh ] E 0  E1xh mh
var[ yˆ h ] var[ y  Eˆ1 ( xh  x )]
var[ y ]  ( xh  x ) 2 var[ Eˆ1 ]
§ ·
¨ V2¨
§
( xh  x ) 2 ·¸ ¸ V2 V2
yˆ h o N ¨ mh , ¨1  ¸¸  ( xh  x ) 2
¨ n ¨ 2 ¸¸
© ©
sx ¹¹ n nsx2

Regresión Lineal 29

Predicción de la media mh
(Regresión múltiple)
mh ŷ h

yh o N (mh , V 2 )
xh x'h
βˆ T x'h , x'T (1, x1h , x2h , , xkh )
E 0  E1 x1h    E k xkh
yˆ h
mh h

E [ yˆ h] E[βˆ T x'h ] E[βˆ T ]x'h βT x'h


β x'h
T

var[ yˆ h ] var[βˆ T x'h ] T


x'
h var[ βˆ T ]x'h
T 1
T
x 'h V 2 vhhV 2
yˆ h o N §¨ mh , V 2vhh ·¸
x' h (X X)

T 1
© ¹
T
v
hh x'
h (X X) x 'h

Regresión Lineal 30
Expresión alternativa para vhh
yˆ h y  bˆ T (x h  x)
var[ yˆ h ] var[ y  bˆ T (x h  x)] var[ y ]  (x h  x)T var[bˆ ](x h  x)
~T ~
V2 ~ ~ X X
 (x h  x)T ( XT X) 1 (x h  x)V 2 , (S x )
n n
V2
(1  (x h  x)T S x1 (x h  x))
n

1 xh x Ÿ vhh 1/ n
vhh (1  (x h  x)T S x1 (x h  x)) x h z x Ÿ vhh ! 1 / n
n

Regresión Lineal 31

Intervalos de confianza para la


media mh

yˆ h o N mh , V 2 vhh
yˆ h  mh ŷ h
o N (0,1)
V vhh
yˆ h  mh
o tn  k 1
sˆR vhh xh

m  yˆ r tD / 2 sˆR vhh
h h
Regresión simple
1 1 ( xh  x ) 2
vhh (1  (xh  x)T S x1 (xh  x)) vhh (1  )
n n s x2

Regresión Lineal 32
Predicción de una nueva
observación yh (Reg.Simple)
yh
ŷ h
mh

xh xh
yˆ h Eˆ0  Eˆ1 xh yh o N (mh , V ) 2

yˆ h o N (mh , V 2 vhh ) mh E 0  E1 xh
e~ y  yˆ
h h h

E[e~h ] E[ yh ]  E[ yˆ h ] 0
var[ e~h ] var[ yh ]  var[ yˆ h ] e~h o N ( 0, V 2 (1  vhh ))
V 2  V 2 vhh

Regresión Lineal 33

Predicción de una nueva


observación yh (Reg. Múltiple)
yh
ŷ h
mh

xh xh
yˆ h y  bˆ T x h yˆ h o N (mh , V 2vhh )
­ E[e~h ] E[ yh ]  E[ yˆ h ] 0
e~h yh  yˆ h o ® ~ ] var[ y ]  var[ yˆ ] V 2 (1  v )
¯ var[ eh h h hh

~
eh o N ( 0, V (1  vhh ))
2

Regresión Lineal 34
Intervalos de predicción para
una nueva observación yh
e~h o N 0, V 2 (1  vhh )
e~h yh  yˆ h ŷ h
yh  yˆ h
o N (0,1)
V 1  vhh
yh  yˆ h
o tn  k 1
sˆR 1  vhh
xh
y  yˆ r tD / 2 sˆR 1  vhh
h h

Regresión Lineal 35

Límites de predicción
m  yˆ r tD / 2 sˆR vhh
yˆ Eˆ0  Eˆ1 x1    Eˆ k xk h h

y  yˆ r tD / 2 sˆR 1  vhh
y h h

x
Regresión Lineal 36
Diagnosis: Residuos

Y Xβˆ  e





Observados Previstos Residuos

§ y1 · §1 x11 x21  xk1 ·§ Eˆ0 · § e1 ·


¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22  xk 2 ¸¨ Eˆ1 ¸ ¨ e2 ¸
¨  ¸ ¨ ¸ ¨ ¸¨ ¸
    ¨  ¸ 
¨ ¸ ¨ ¸ ¨ ¸
¨y ¸ ¨1  xkn ¸¹¨© Eˆ k ¸¹ ¨© en ¸¹
© n¹ © x1n x2n

ei yi  ( Eˆ0  Eˆ1x1i    Eˆ k xki )

Regresión Lineal 37

Distribución de los residuos


Y o N ( Xβ, V 2 I ) e (I  V)Y

V X(X T X) 1 X T

­e o Normal
°
® E[e] (I  V)E[Y] (I  V)Xβ 0
°̄var[e] (I  V) var(Y)(I  V) V 2 (I  V)
e o N (0, V 2 (I  V))

ei o N (0, V 2 (1  vii ))
Regresión Lineal 38
Distancia de Mahalanobis
Di2 (x i  x)T S x 1 (x i  x) (Dist. de Mahalanobis)

­x i x Ÿ Di2 0
Mide la distancia de x i a x Ÿ ®
¯x i z x Ÿ Di ! 0
2

1
vii x'Ti ( XT X) 1 x'i (1  (x i  x)T S x1 (x i  x))
n
vii son los elementos diagonales de la matriz V

V X(X T X) 1 XT
n n n 1
vii ¦ vij v ji ¦ vij2  vii2 Ÿ vii (1  vii ) ¦ vij2 t 0 Ÿ d vii d 1
j 1 j 1, j z i j 1, j z i n

Regresión Lineal 39

Residuos estandarizados

ei o N (0, (1  vii )V ) 2

var(ei ) (1  vii )V 2

Cuando xi está próximo a x Ÿ vii | 1 / n Ÿ var(ei ) | V 2

Cuando xi está lejos de x Ÿ vii | 1 Ÿ var(ei ) | 0 Ÿ ei | 0

Residuos estandarizados
ei
ri
sˆR 1  vii

Regresión Lineal 40
Modelos de regresión lineal
REGRESION SIMPLE

1. La tabla muestra los mejores tiempos mundiales en Juegos Olı́mpicos hasta 1976 en carrera
masculina para distintas distancias.
y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795
x: distancia (m) 100 200 400 800 1500 5000 10000 42196

(a) Estimar la regresión lineal de y sobre x y calcular la varianza residual y el coeficiente


de correlación.
(b) Obtener intervalos de confianza para la pendiente y varianza residual (α = 0.01).
(c) Analizar si la relación lineal es adecuada, transformando las variables si es necesario.
(d) Supóngase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.
Estimar el tiempo previsto para el record olı́mpico en dicha carrera, dando un intervalo
de confianza con α = 0.05.

2. Según la ecuación de los gases ideales, la presión ejercida por un gas a volumen y temperatura
constante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimar
el peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se va
soltando poco a poco gas, variando la presión, pero manteniendo la temperatura constante.
En la tabla adjunta se proporcionan mediciones de la presión (con respecto a la atmosférica,
1 atm = 14.7 psi) y de la masa del gas para el árgon.

Presión (psi) Masa (g)


52 1.028
49 0.956
44 0.880
39 0.793
34 0.725
29 0.645
25 0.593
21 0.526
19 0.500
19 0.442
11 0.373
0 0.210
(a) Para estimar el peso molecular del árgon a partir de los datos, se propone el siguiente
modelo de regresión

Pi = β 0 + β 1 mi + ui con ui ∼ N(0, σ 2 ).
Estimar los parámetros del modelo y contrastar si el término independiente es signi-
ficativo.

1
(b) Se considera el modelo alternativo

Pi = αmi + ui , con ui ∼ N(0, σ 2 ).


Obtener el estimador de máxima verosimilitud del parámetro α, ası́ como su varianza.
(c) Realizar el contraste H0 : α = 50 frente a H1 : α 6= 50 con nivel de significación 0.05.
(d) Para el segundo modelo, obtener un intervalo de predicción para la presión cuando la
masa es igual a 1 gramo.
(e) Obtener la varianza del estimador de E[Ph |mh ], es decir del valor medio de la presión
Ph para una masa dada mh con ambos modelos. Si el modelo verdadero fuese el del
primer apartado, ¿qué efecto tendrı́a sobre la predicción adoptar el modelo alternativo?

3. Sir Francis Galton (1877) estudió la relación entre la estatura de una persona (y) y la estatura
de sus padres (x) obteniendo las siguientes conclusiones:

(a) Existı́a una correlación positiva entre las dos variables.


(b) Las estaturas de los hijos cuyos padres medı́an más que la media era, en promedio,
inferior a la de sus progenitores, mientras que los padres con estatura inferior a la
media en promedio tenı́an hijos más altos que ellos, calificando este hecho como de
”regresión” a la media.

Contrastar (α = 0.05) estas dos conclusiones con la ecuación ŷ = 17.8 + 0.91x resultante de
estimar un modelo de regresión lineal entre las variables (en cm.) descritas anteriormente
para una muestra de tamaño 100 si la desviación tı́pica (estimada) de β̂ 1 es 0.04.

4. La ley de Hubble sobre la expansión del universo establece que dadas dos galaxias la ve-
locidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y H
la constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxias
respecto a la Via Láctea. Se pide:

Galaxia Distancia Velocidad


(millones años luz) (103 Km/s)
Virgo 22 1.21
Pegaso 68 3.86
Perseo 108 5.15
Coma Berenices 137 7.56
Osa Mayor 1 255 14.96
Leo 315 19.31
Corona Boreal 390 21.56
Géminis 405 23.17
Osa Mayor 2 700 41.83
Hidra 1100 61.14
Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.

2
Nota: Obsérvese que según el modelo de Hubble la regresión debe pasar por el origen.
Tómese 1 año luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.

(a) Estimar por regresión la constante de Hubble.


(b) Como T = d/v = d/Hd = 1/H, la inversa de la constante de Hubble representa la
edad estimada del Universo. Construir un intervalo de confianza del 95% para dicha
edad .

5. Para establecer la relación entre el alargamiento en mm (Y ) producido en un cierto material


plástico sometido a tracción y la tensión aplicada en toneladas por cm2 (X) se realizaron 10
experimentos cuyos resultados se muestran en la tabla

xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70
yi 23 20 33 45 67 52 86 74 98 102
Tabla: Alargamiento yi (mm) producidos por la tensión xi (Tm/cm2 ).

(a) Ajustar el modelo de regresión lineal E(Y |x) = β 0 + β 1 x y contrastar (α = 0.01) la


hipótesis de que, en promedio, por cada Tm/cm2 de fuerza aplicada es de esperar un
alargamiento de 50 milı́metros, sabiendo que la desviación tı́pica residual vale 10.55.
(b) Si el lı́mite de elasticidad se alcanza cuando x = 2.2 Tm/cm2 , construir un intervalo
de confianza al 95% para el alargamiento medio esperado en ese punto.
(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nula
debe ser nulo también, estimar el nuevo modelo E [Y |x] = βx con los datos anteriores
¿Cuál es el sesgo del estimador del parámetro de la pendiente si se estima según el
modelo del apartado 1?

6. Estimar por mı́nimos cuadrados los parámetros a y b de la ecuación y = a + bx2 con la


muestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).

7. La ecuación de regresión entre las ventas de un producto y y su precio x es ŷ = 320 − 1.2x,


ŝR = 2 y ŝy = 4. Si el número de datos ha sido n = 50, contrastar H0 : β 1 = −1 frente a la
alternativa H1 : β 1 < −1.

8. Se estudia la relación entre el tiempo de reparación (minutos) de ordenadores personales y


el número de unidades reparadas en ese tiempo por un equipo de mantenimiento con los
resultados mostrados en la siguiente tabla

unidades reparadas 1 3 4 6 7 9 10
tiempo de reparación 23 49 74 96 109 149 154

Se pide:

3
(a) Construir la recta de regresión para prever el tiempo de reparación y utilizarla para
construir un intervalo de confianza (α = 0.01) para el tiempo medio de reparación de
8 unidades.
(b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparación para un lote
de 14 unidades.
(c) Si los tiempos de reparación fuesen medias de 10 datos. ¿Cual serı́a la recta de regresión?

REGRESION MULTIPLE

9. En la tabla se muestran los costes financieros mensuales en miles de euros (y) de 16 delega-
ciones de una gestora de inversiones, además se proporciona el número de nuevos préstamos
del mes (x1 ) y el número de préstamos pendientes (x2 ).

n x1 x2 y
1 80 8 2256
2 93 9 2340
3 100 10 2426
4 82 12 2293
5 90 11 2330
6 99 8 2368
7 81 8 2250
8 96 10 2409
9 94 12 2364
10 93 11 2379
11 97 13 2440
12 95 11 2364
13 100 8 2404
14 85 12 2317
15 86 9 2309
16 87 12 2328

(a) Estima la ecuación de regresión

yi = β 0 + β 1 x1i + β 2 x2i + ui con ui ∼ N(0, σ 2 )

incluyendo la varianza del modelo.


(b) Realizar los contrastes individuales e interpretar los coeficientes.
(c) Realiza el contraste general de regresión o contraste de la F. Proporciona el p-valor.
(d) Proporciona la tabla con valores previstos y residuos.
(e) Comprueba las hipótesis del modelo.

4
10. Los fabricantes que utilizan rodamientos en sus productos tienen interés en la fiabilidad de
estos componentes. La medida básica de fiabilidad se denomina rating life, y consiste en el
número de revoluciones que soporta el 90% de los rodamientos antes de la fractura, a esto
se denota por L10. Los modelos teóricos indica que este valor está relacionado con la carga
(P) a la que se somete el rodamiento, el diámetro (D) del rodamiento y el número de bolas
(Z) del mismo, mediante la ecuación:
3
kZ a D b

L10 = .
P

Se desea comprobar experimentalmente esta ecuación, para lo cual se realizó un experimento


con rodamientos de distintos fabricantes y tipos. Los datos se encuentran en el archivo
(ballbearing.txt), en la tabla 1 se muestra los 10 primeros datos. La información que contiene
es la siguiente:

Com: Codigo de empresa 1, 2, and 3


N: Número de ensayo (en cada empresa)
Year: Año del ensayo NA = No disponible
NB : Número de Rodamiento
P: Carga
Z: Número de bolas
D: Diámetro
L10: Percentil 10
L50: Percentil 50
Slope: Parámetro de la distribución Weibull
Btype: Tipo de rodamiento 1, 2, y 3 in la empresa 2; 0 en los demás casos.

Com N Year NB P Z D L10 L50 Slope Btype


1 1 1936 24 4240 8 .68750 19.200 84.50 1.27 0
1 2 1937 20 4240 8 .68750 26.200 74.20 1.81 0
1 3 1937 14 4240 8 .68750 11.100 68.10 1.04 0
1 4 1937 19 4240 8 .68750 11.800 66.80 1.09 0
1 5 1937 18 4240 8 .68750 13.500 79.40 1.06 0
1 6 1938 21 2530 9 .50000 5.800 25.70 1.27 0
1 7 1938 28 4240 8 .68750 18.300 44.70 2.10 0
1 8 1938 27 4240 8 .68750 5.620 73.20 0.73 0
1 9 1940 20 4240 8 .68750 15.800 82.70 1.14 0
1 10 1940 22 4240 8 .68750 8.700 41.60 1.20 0
··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···

5
(a) Estima el modelo
log(L10i ) = β 0 + β 1 log(Zi ) + β 2 log(Di ) + β 3 log(Pi ) + ui con ui ∼ N(0, σ 2 ),
y realiza los contrastes individuales y el contraste general.
(b) Según el modelo, β 3 = −3. Realiza el contraste
H0 : β 3 = −3
H1 : β 3 6= −3
Proporciona el p-valor del contraste.
(c) Da un intervalo de confianza para los parámetros a y b del modelo teórico.
(d) Se definen las variables ficticias T2 y T3 para identificar los rodamientos tipo 2 y 3 del
segundo fabricante (información en la variable Btype). Estima e interpreta el siguiente
modelo de regresión:
log(L10i ) = β 0 + β 1 log(Zi ) + β 2 log(Di ) + β 3 log(Pi ) +
α2 T2i + γ 2 T2i × log(Zi ) + δ 2 T2i × log(Di ) +
α3 T3i + γ 3 T3i × log(Zi ) + δ 3 T3i × log(Di ) + ui

(e) Compara el modelo del apartado 1 con el modelo del apartado 4.

11. La matriz de varianzas de tres variables estandarizadas es la siguiente


 
1 0.8 0.6
 0.8 1 0.2 
0.6 0.2 1
Calcular la ecuación de regresión de la primera variable respecto a las otras dos.
12. Dos variables x1 y x2 tienen la siguiente matriz de varianzas
 
1 0.5
0.5 1
y las regresiones simples con y son ŷ = 0.75x1 ; ŷ = 0.6x2 . Calcular la regresión múltiple
entre y y las dos variables x1 , x2 sabiendo que la variable y tiene media cero y varianza
unidad.
13. Para establecer la relación entre el voltaje de unas baterı́as y la temperatura de fun-
cionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguiente
tabla

Baterı́a 1 2 3 4 5 6 7 8
Temperatura 10 10 20 20 30 30 40 40
Voltaje 7.2 7.7 7.3 7.4 7.7 9.4 9.3 10.8

6
Se pide:

(a) Contrastar la hipótesis (α = 0.05) de que no existe relación lineal entre el voltaje y la
temperatura.
(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterı́as de Cadmio y las 2,4, 6 y 8 con
baterı́as de Zinc. Introducir en el análisis anterior una variable cualitativa que tenga
en cuenta los dos tipos de baterı́as y contrastar si es significativa al 95%.
(c) Dar un intervalo de confianza para el voltaje de una baterı́a de Cadmio que va a trabajar
a 35◦ centı́grados. (Utilizar el modelo estimado en el apartado 2).
(d) Comprobar que se cumplen las hipótesis del modelo construido en los apartados ante-
riores.

14. La variable y se relaciona con las variables x1 y x2 según el modelo E(y) = β 0 + β 1 x1 + β 2 x2 ;


no obstante se estima el siguiente modelo de regresión que no incluye la variable x2

ŷi = β̂ 0 + β̂ 1 x1i .

Justificar en qué condiciones el estimador β̂ 1 es centrado.

15. Se efectúa una regresión con dos variables explicativas E[y] = β 0 + β 1 x1 + β 2 x2 . La matriz
de varianzas de x1 y x2 es
 
2 1
1 3

¿Cuál de los dos estimadores β̂ 1 y β̂ 2 tendrá menor varianza?

16. Con los datos de la tabla, se pide:

x -2 -2 -1 -1 0 0 1 1 2 2 3 3
y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6
(a) Estimar un modelo de regresión simple con y como variable dependiente y x como
regresor. Indicar si el modelo es apropiado, justificando la respuesta.
(b) Estimar el modelo
yi = β 0 + β 1 xi + β 2 x2i + ui
y realizar el contraste H0 : β 2 = 0.
(c) Estimar el modelo
yi = β 0 + β 1 xi + β 2 x2i + β 3 x3i + ui
Realizar el contraste general de regresión con α = 0.01. Seleccionar entre los tres el
modelo más adecuado, justificando la respuesta.

7
17. Una de las etapas de fabricación de circuitos impresos requiere perforar las placas y recubrir
los orificios con una lámina de cobre mediante electrólisis. Una caracterı́stica esencial del
proceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluar
el efecto de 7 variables, X1 : Concentración de Cobre, X2 : Concentración de Cloruro, X3 :
Concentración de Ácido, X4 : Temperatura, X5 : Intensidad, X6 : Posición y X7 : Superficie
de la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales y
los resultados de cada experimento se muestran en la tabla.

X1 X2 X3 X4 X5 X6 X7 Y
1 1 -1 1 1 1 -1 2.13
1 -1 1 1 1 -1 -1 2.15
-1 1 1 1 -1 -1 -1 1.67
1 1 1 -1 -1 -1 1 1.53
1 1 -1 -1 -1 1 -1 1.49
1 -1 -1 -1 1 -1 1 1.78
-1 -1 -1 1 -1 1 1 1.80
-1 -1 1 -1 1 1 -1 1.93
-1 1 -1 1 1 -1 1 2.19
1 -1 1 1 -1 1 1 1.61
-1 1 1 -1 1 1 1 1.70
-1 -1 -1 -1 -1 -1 -1 1.43

Responder a las siguientes preguntas aplicando el modelo de regresión múltiple: matriz


identidad de 8 × 8.

(a) Estimar el modelo de regresión múltiple

yi = β 0 + β 1 x1i + β 2 x2i + β 3 x3i + β 4 x4i + β 5 x5i + β 6 x6i + β 7 x7i + ui .

Obtener la descomposición de la variabilidad del modelo y realizar el contraste

H0 : β 1 = β 2 = β 3 = β 4 = β 5 = β 6 = β 7 = 0

frente a la hipótesis alternativa H1 : algún β j es distinto de cero.

(b) Realizar cada uno de los contrastes individuales e indicar qué variables tienen efecto
significativo.
(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar el
modelo y contrastar sus coeficientes. Interpretar los resultados del experimento.

18. El molibdeno se añade a los aceros para evitar su oxidación, pero en instalaciones nucleares
presenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Se
ha realizado un experimento para determinar el grado de oxidación del acero en función del
porcentaje de molibdeno. Además se ha tenido en cuenta el efecto del tipo de refrigerante
utilizado (R1 , R2 ). Los resultados se muestran en la tabla.

8
Molibdeno (%)
Refrig. 0.5% 1% 1.5% 2% Medias
R1 26.2 23.4 20.3 23.3 23.3
R2 34.8 31.7 29.4 26.9 30.7
R1 33.2 31.3 28.6 29.3 30.6
R2 43.0 40.0 31.7 33.3 37.0
Media 34.3 31.6 27.5 28.2 30.4
(a) Escribir un modelo de regresión que incluya el porcentaje de molibdeno y el tipo de re-
frigerante como regresores; estimar el modelo e indicar qué parámetros son significativos
(α = 0.05)).
(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalación
y los correspondientes a las dos últimas en otra distinta. Escribir un nuevo modelo que
incluya este aspecto. Comprobar que este nuevo regresor está incorrelado con los dos
anteriores. Estimar el nuevo modelo.
(c) Demostrar que en un modelo con los regresores incorrelados, la eliminación de uno
de ellos no influye en el valor de los estimadores β̂ i , (i 6= 0) restantes. ¿ Influye en
la varianza residual y en los contrastes ? Explicar este efecto en función de que el
parámetro β del regresor eliminado sea o no nulo.

19. Sea x1 la altura del tronco de un árbol y x2 el diámetro del mismo en su parte inferior. El
volumen y del tronco de árbol puede ser calculado aproximadamente con el modelo
yi = αx1i x22i + ui ,
según el cual, el volumen del tronco es proporcional al volumen de un cono con las medidas
x1i , x2i , siendo α el parámetro (desconocido) de proporcionalidad, más una componente
de error aleatorio ui . La tabla siguiente contiene los datos (en metros y metros cúbicos)
correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.

Obs. x1i x2i yi


1 10,1 0,117 0,062
2 11,3 0,130 0,085
3 20,4 0,142 0,204
4 14,9 0,193 0,227
5 23,8 0,218 0,470
6 19,5 0,236 0,484
7 21,6 0,257 0,623
8 22,9 0,269 0,722
9 19,8 0,297 0,821
10 26,8 0,328 1,280
11 21,0 0,351 1,034
12 27,4 0,376 1,679
13 29,0 0,389 2,073
14 27,4 0,427 2,022
15 31,7 0,594 4,630

9
(a) Estimar α por máxima verosimilitud suponiendo que las variables ui tienen distribución
normal de media cero, con la misma varianza e independientes.
(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalo
de predicción de su volumen (95% de confianza).
(c) En el análisis de los residuos se observa que la varianza de los errores crece con el
volumen del tronco. Para obtener homocedasticidad se propone el siguiente modelo
transformado utilizando logaritmos neperianos,

log yi = β 0 + β 1 log x1i + β 2 log x2i + ui

Contrastar (nivel de significación 0.05) si estos dos valores son aceptables.


(d) Con este modelo, dar un intervalo de predicción (95% de confianza) para el volumen
del tronco del apartado 2.

20. Ciertas propiedades del acero se mejoran sumergiéndolo a alta temperatura (T0 = 1525
o
F ) en un baño templado de aceite (t0 = 95 o F ). Para determinar la influencia de las
temperaturas del acero y del baño de aceite en las propiedades finales del material se han
elegido tres valores de la temperatura del acero y tres del baño de aceite,
 
 1450 o F  70 o F
Temperatura acero (T ) 1525 o F Temperatura aceite (t) 95 o F
o
1600 F 120 o F
 

y se han realizado los siguientes experimentos:

x1i 0 0 0 0 -1 1 -1 1 0 0 -1 1
x2i 0 0 0 0 -1 -1 1 1 -1 1 0 0
yi 49.2 49.4 47.0 49.5 28.2 88.6 54.9 31.3 59.2 43.6 41.9 58.0

dónde se ha utilizado la siguiente transformación (para simplificar cálculos)

Ti − 1525 ti − 95
x1i = y x2i = .
75 25
Estimar el modelo de regresión

yi = β 0 + β 1 x1i + β 2 x2i + β 3 x1i x2i + ui

e indicar qué parámetros son significativos para nivel de significación 0.05. Estimar y con-
trastar el modelo anterior empleando las variables originales Ti y ti .

10
FORMULARIO DE LA ASIGNATURA

DISEÑO DE EXPERIMENTOS Y MODELOS DE REGRESIÓN

Cátedra de Estadística ETSII – UPM


Versión 2019.05

Tema 1. Análisis de la varianza


1) Comparación de dos tratamientos:
1.a) Modelo:
𝑦 𝜇 𝑢 , ∀𝑖 ∈ 1, 𝐼 , 𝑗 ∈ 1, 𝑛 𝑢 → 𝑁 0, 𝜎
I : número de tratamientos 𝑛 : número de observaciones del tratamiento i-ésimo
1.b) Comparación de medias:
̄ • ̄ •
→𝑡 donde 𝑠̂ 𝑠̂ 𝑠̂
̂

1.c) Comparación de varianzas:


𝑠̂ 𝑠̂
→𝐹 ,
𝜎 𝜎
2) Comparación de ‘k’ tratamientos:

2.a) Modelo: 𝑦 𝜇 𝑢 , 𝑢 → 𝑁 0, 𝜎

2.b) Descomposición de variabilidad:


𝑉𝑇 ∑ ∑ 𝑦 𝑦••

𝑉𝐸 ∑ 𝑛 𝑦• 𝑦••

𝑉𝑁𝐸 ∑ ∑ 𝑦 𝑦• ∑ ∑ 𝑒

2.c) Tabla Análisis de Varianza:


Suma de Grados de
Fuentes Cuadrados Libertad Varianzas F

∑𝑛 𝑦 • 𝑦••
Tratamientos ∑𝑛 𝑦 • 𝑦•• 𝐾 1 𝑉𝐸/ 𝐾 1
𝐾 1 𝑠̂
Residual ∑∑ 𝑦 𝑦• 𝑛 𝐾 𝑠̂ 𝑉𝑁𝐸/ 𝑛 𝐾
Total ∑∑ 𝑦 𝑦•• 𝑛 1

2.d) Intervalos de confianza para medias:


𝑠̂
𝜇 ∈𝑦• 𝑡 /
𝑛

2.e) Contraste dos a dos para la diferencia de medias:


𝑦̄ • 𝑦̄ • 𝜇 𝜇
𝑡 →𝑡
1 1
𝑠̂
𝑛 𝑛
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM

Tema 2. Diseño de experimentos


1) Dos factores con interacción
𝑦 𝜇 𝛼 𝛽 𝛼𝛽 𝑢 ∀𝑖 ∈ 1, 𝐼 , 𝑗 ∈ 1, 𝐽 , 𝑘 ∈ 1, 𝑚
𝑢 → 𝑁 0, 𝜎 ; ∑ 𝛼 0;∑ 𝛽 0;∑ 𝛼𝛽 0 , ∀𝑗 ; ∑ 𝛼𝛽 0 , ∀𝑖
I : número de niveles factor A J : número de niveles factor B m : número de replicaciones
1.a) Descomposición de variabilidad:
𝑉𝑇 ∑ ∑ ∑ 𝑦 𝑦••• 𝑉𝐸 𝐴 𝑚𝐽 ∑ 𝑦 •• 𝑦••• 𝑚𝐽 ∑ 𝛼
𝑉𝑁𝐸 ∑ ∑ ∑ 𝑒 𝑉𝐸 𝐵 𝑚𝐼 ∑ 𝑦• • 𝑦••• 𝑚𝐼 ∑ 𝛽
𝑒 𝑦 𝑦 • 𝑉𝐸 𝐴 𝐵 𝑚∑ ∑ 𝛼𝛽
1.b) Tabla de Análisis de Varianza:
Fuentes Suma de Grados de
Variabilidad Cuadrados Libertad. Varianza 𝐹 𝑝 valor
𝑠̂
𝐴 𝑚𝐽∑ 𝑦 •• 𝑦••• 𝐼 1 𝑠̂ 𝑉𝐸 𝐴 / 𝐼 1 𝑝
𝑠̂
𝑠̂
𝐵 𝑚𝐼∑ 𝑦• 𝑦••• 𝐽 1 𝑠̂ 𝑉𝐸 𝐴 / 𝐽 1 𝑝
• 𝑠̂
𝑠̂
𝐴 𝐵 𝑚∑∑ 𝑦 • 𝑦 •• 𝑦• 𝑦••• 𝐼 1 𝐽 1 𝑠̂ 𝑉𝐸 𝐴𝐵 / 𝐼 1 𝐽 1 𝑝
• 𝑠̂
Residual ∑∑∑𝑒 𝐼𝐽 𝑚 1 𝑠̂ 𝑉𝑁𝐸/ 𝐼𝐽 𝑚 1
Total ∑∑∑ 𝑦 𝑦••• 𝑛 1

1.c) Comparaciones múltiples (interacción nula): factor A


𝒚̄ 𝒊•• 𝒚̄ 𝒋•• 𝜶𝒊 𝜶𝒋 𝒔𝑹 𝟐/𝒎𝑱 → 𝒕𝑰𝑱 𝒎 𝟏

1.d) Intervalos de confianza (interacción nula): factor A


𝜇 𝛼 ∈ 𝑦 •• 𝑡 𝑠̂ / 𝑚𝐽

1.e) Intervalos de confianza (interacción significativa):


𝜇 𝛼 𝛽 𝛼𝛽 ∈ 𝑦 •
𝑡 / 𝑠̂ / √𝑚
2) Bloques aleatorizados
𝑦 𝜇 𝛼 𝛽 𝑢 ∀𝑖 ∈ 1, 𝐼 , 𝑗 ∈ 1, 𝐽 ; 𝑢 → 𝑁 0, 𝜎 ; ∑ 𝛼 0 ∑ 𝛽 0
I : número de niveles Factor J : número de niveles Bloque
2.a) Descomposición de variabilidad:

𝑉𝑇 ∑ ∑ 𝑦 𝑦•• 𝑉𝐸 𝑇 𝐽∑ 𝑦• 𝑦••
𝑒 𝑦 𝑦• 𝑦• 𝑦••
𝑉𝑁𝐸 ∑ ∑ 𝑒 𝑉𝐸 𝐵 𝐼∑ 𝑦• 𝑦••
2.b) Tabla de Análisis de Varianza:

Fuentes Suma de Grados de


Variabilidad Cuadrados Libertad. Varianza 𝐹 𝑝 valor
𝑠̂
Factor 𝐽∑ 𝑦 • 𝑦•• 𝐼 1 𝑠̂ 𝑉𝐸 𝑇 / 𝐼 1 𝑝
𝑠̂
𝑠̂
Bloque 𝐼 ∑ 𝑦• 𝑦•• 𝐽 1 𝑠̂ 𝑉𝐸 𝐵 / 𝐼 1 𝑝
𝑠̂
Residual ∑∑𝑒 𝐼 1 𝐽 1 𝑠̂ 𝑉𝑁𝐸/ 𝐼 1 𝐽 1
Total ∑∑ 𝑦 𝑦•• n-1

2.c) Intervalo de confianza (para los tratamientos): 𝜇 𝛼 ∈𝑦• 𝑡 / 𝑠̂ / 𝐽


2.d) Contraste dos a dos (para los tratamientos): 𝑦̄ • 𝑦̄ • 𝜶 𝜶 𝑠̂ 2/𝐽 → 𝑡

Página 2 de 8 
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM

Tema 3. Modelos de Regresión


1) Regresión lineal simple (RLS)
1.a) Estimación:

𝛽 cov 𝑥 , 𝑦 / var 𝑥 𝛽 𝑦 𝛽𝑥 𝑠̂
1.b) Distribución de estimadores:
̄ ̂
𝛽 → 𝑁 𝛽 , 𝜎 ⁄ 𝑛𝑠 𝛽 →𝑁 𝛽 , 1 →𝜒

1.c) Contrastes:
̂ ̂ ̄
𝛽 𝛽 →𝑡 𝛽 𝛽 1 →𝑡
√ √

1.d) Descomposición de la variabilidad:


𝑉𝐸 𝛽 𝑛𝑠 𝑉𝑁𝐸 𝑠̂ 𝑛 2 𝑉𝑇 𝑠̂ 𝑛 1

2) Regresión lineal múltiple (RLM)


2.a) Estimación:
∑ 𝑒
𝜷 𝑿 𝑿 𝑿 𝒀 𝑠̂
𝑛 𝑘 1
2.b) Distribución de estimadores:
𝑛 𝑘 1 𝑠̂
𝜷 → 𝑁 𝜷, 𝜎 𝑿 𝑿 →𝜒
𝜎
2.c) Varianza estimadores para k = 2:
𝜎 𝑟 𝜎
𝛽 ⎛ 𝑛𝑠 1 𝑟 𝑛𝑠 𝑠 1 𝑟 ⎞
var ⎜ ⎟
𝛽 𝑟 𝜎 𝜎
⎝𝑛𝑠 𝑠 1 𝑟 𝑛𝑠 1 𝑟 ⎠
2.d) Contrastes individuales y contraste general:
𝛽 𝛽 𝑉𝐸/𝑘
C. Individuales: →𝑡 C. General: →𝐹 ,
𝑠̂ 𝑞 𝑠̂

2.e) Modelo en diferencias a la media:


𝒃 𝑿 𝑿 𝑿 𝒀 𝑺 𝑺 𝒃 → 𝑁 𝒃, 𝜎 𝑿 𝑿 𝑁 𝒃, 𝜎 𝑺 𝑛

2.f) Coeficiente de determinación (𝑅 ) y coeficiente de determinación corregido (𝑅 :


𝑉𝐸 ∑ 𝑦 𝑦̄ 𝑠̂ 𝑉𝑁𝐸 𝑛 1 𝑛 1
𝑅 𝑅 1 1 1 1 𝑅
𝑉𝑇 ∑ 𝑦 𝑦̄ 𝑠̂ 𝑉𝑇 𝑛 𝑘 1 𝑛 𝑘 1

2.g) Cálculo de predicción e intervalo de confianza:


- IC para la media: 𝑚 ∈ 𝑦 𝑡 𝑠̂ 𝑣
- IC para una nueva observación: 𝑦 ∈ 𝑦 𝑡 / 𝑠̂ 1 𝑣

donde 𝑣 se calcula:
̄
- RLS: 𝑣 1

- RLM alternativa 1 : 𝑣 1 𝒙 𝒙̄ 𝑺 𝒙 𝒙̄   donde 𝒙 𝑥 , 𝑥 , 𝑥 ,  

- RLM alternativa 2 : 𝑣 𝒙 𝑿 𝑿 𝒙   donde 𝒙 1 𝑥 , 𝑥 , 𝑥 ,  

Página 3 de 8 
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM

4. Instrucciones Esenciales R
0) Previo
library("DisRegETSII")  # Para utilizar ICplot y interIC y los datos como "maquinas.txt" 
data(maquinas)          # carga los datos "maquinas" en la memoria de R  
maquinas = read.table( 'maquinas.txt', header=T )         # lectura del archivo de texto 'maquinas.txt' 
head(maquinas)          # Muestra las 6 primeras filas del 'data frame' maquinas 
View(maquinas)          # Abre una ventana nueva y muestra los datos 
names(maquinas)         # Proporciona los nombres de las variables del 'data.frame' maquinas 
maquinas$maq = factor(maquinas$maq)   # Transforma una variable numérica a un *factor*  
?head                   # Con ? delante de una función nos proporciona información de la función 
 
#‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ 
# Cálculo de probabilidades 
dnorm(x, 0, 1)       # Función densidad de una distribución normal N(0,1) 
pnorm(q, 0, 1)   # Función distribución de una distribución normal N(0,1) 
qnorm(p, 0, 1)    # Función distribución inversa de una distribución normal N(0,1) 
     
  F. distr. Inv.      F. distrib.          F. Densidad           Números aleatorios 
Binomial  pbinom  qbinom  dbinom  rbinom  
Chi‐Cuadrado  pchisq  qchisq  dchisq  rchisq 
Exponencial  pexp  qexp  dexp  rexp 
F  pf  qf  df  rf  
Geométrica  pgeom  qgeom  dgeom  rgeom     
Normal  pnorm  qnorm  dnorm  rnorm 
Poisson  ppois  qpois  dpois  rpois 
T‐Student   pt  qt  dt  rt 
#‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ 
 
Instalación del paquete DisRegETSII: 
 

1. Instalar el paquete “devtools” y cargarlo: 
install.packages("devtools") 
library(devtools) 
2. Instalar el paquete utilizando la funcion install_github de devtools 
install_github("javiercara/DisRegETSII") 

1) Comparación de dos tratamientos


t.test(rend ~ maq, data = maquinas,  
       var.equal=T, conf.level = 0.95)  # comparación e intervalo de confianza de dos medias 
t.test(maquinas$rend ~ maquinas$maq,  
       var.equal=T, conf.level = 0.95)  # alternativa a la inst. anterior (válido tmb para var.test, aov) 
var.test(rend ~ maq, data = maquinas)   # comparación e intervalo de confianza para dos varianzas

2) Comparación de K tratamientos (modelo con factor)


data(centeno)                           # carga los datos *centeno* 
m = aov(rend ~ sem , data = centeno)    # Análisis de la varianza (aov) de *rend* en función del factor *sem*  
anova(m)                                # Muestra la tabla de análisis de la varianza del modelo *m* 
model.tables(m,"means")                 # Proporciona las medias de los distintos tratamientos 
tapply(centeno$rend,centeno$sem,mean)   # Otra forma pra proporcionar las medias de los distintos tratamientos    
tapply(centeno$rend,centeno$sem,sd)     # *tapply* es muy útil, puede calcular *sd*, *var*, *length*, etc 
residuals(m)                            # los residuos del modelo (sirve para cualquier modelo) 
predict(m)                              # los valores predichos para cada obs. (sirve para cualquier modelo) 
ICplot(m,'sem',alpha = 0.05)            # Gráfico de los IC para las medias de cada tratamiento 
pairwise.t.test(centeno$rend, centeno$sem, 
                p.adjust.method = 'none') # Comparación de medias dos ‐ a – dos 
bartlett.test(centeno$rend,centeno$sem) # Contraste de Bartlett para la comparación de varianzas.

3) Modelo con dos factores e interacción


data(venenos)                 # Lee los datos de venenos, variable *tiempo*, factores: *ant* y *ven* 
m1 = aov(tiempo ~ ant*ven ,  
         data = venenos)      # Realiza el aov de *tiempo* en función de dos factores con interacción 
m2 = aov(tiempo ~ ant+ven ,  
         data = venenos)      # Realiza el aov de *tiempo* en función de dos factores sin interacción 
anova(m1)                     # Tabla de análisis de la varianza del modelo *m1* 
model.tables(m1,"means")      # Proporciona las medias por filas, columnas, tratamientos y la media global 
model.tables(m1,"effects")    # Proporciona las  estimaciones de los parámetros del modelo 
tapply(venenos$tiempo,venenos$ant,mean)       # medias para cada antídoto (*ant*) 
tapply(venenos$tiempo,list(venenos$ant, 
                           venenos$ven),mean) # Medias de las combinaciones *ant* y *ven* (tratamientos) 
tapply(venenos$tiempo,list(venenos$ant, 
                           venenos$ven),var)  # Se puede utilizar cualquier función, por ejemplo varianza 
ICplot(m1, 'ant', alpha = 0.05) # Gráfico de los IC para las medias de los cuatro *ant* 
ICplot(m1, 'ven', alpha = 0.05) # Gráfico de los IC para las medias de los tres *ven* 
interIC(m1, 'ant','ven', alpha = 0.05)  # Gráfico de interacción (IC para las medias de cada tratamiento) 

Página 4 de 8 
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM

TukeyHSD(m1,'ant',conf.level=0.95)  # Comparaciones dos ‐ a ‐ dos por el método de Tukey 
plot( TukeyHSD(m1,'ant',conf.level=0.95) ) # Gráfico de los intervalos de confianza de diferencias 2‐a‐2

4) Diagnosis del modelo


plot(m1)                         # Realiza los gráficos importantes para la diagnosis 
plot(as.numeric(venenos$ven),     
     residuals(m1))              # Gráfico de residuos para cada veneno 
plot(predict(m1),residuals(m1))  # Gráfico de residuos frente a medias de tratamientos 
qqnorm(residuals(m1))            # QQ plot de los residuos para comprobar normalidad 
qqline(residuals(m1))            # añade linea al QQ plot de los residuos

5) Regresión simple
library("DisRegETSII")   # carga el paquete DisRegETSII con los datos 
data(cars1)                         # carga los datos cars1 con consumo (mpg) y potencia (horse) 
m0 = lm (mpg ~ horse, data = cars1) # estima el modelo de regresión: mpg = b0 + b1 horse + u 
summary(m0)                         # proporciona los resultados del modelo m0 
plot(cars1$horse,cars1$mpg)         # gráfico de dispersión entre horse (x) y mpg (y) 
abline (m0,col="red",wd=2)        # dibuja la recta de reg. estimada en m0 (color rojo y grosor=2)

6) Regresión múltiple
m1 = lm (mpg ~ horse + weight + 
accel, data = cars1)    # estima el modelo de regresión múltiple 
m1a = lm (mpg ~ horse + 
I(horse^2) + weight + 
accel, data = cars1)  # incluye el término horse al cuadrado 
m1b = lm (mpg ~ horse + weight + 
I(horse*weight) + 
accel, data = cars1)  # incluye el término  horse*weight 
m1c = lm (log(mpg) ~ horse + weight + 
accel, data = cars1)  # utiliza el log de mpg como variable respuesta

7) Regresión múltiple con variables cualitativas


cars1$origin = factor( cars1$origin, 
labels = c("USA","EUR","JAP"))  # Convierte "origin" a tipo "factor" y se asignan etiquetas 
m2 = lm (mpg ~ horse + weight + accel + origin, 
data = cars1)  # modelo con variable cualitativa (utiliza la 1ª como referencia) 
cars1$origin  =  relevel(cars1$origin, 
ref = "EUR")  # Cambia el nivel de referencia (por defecto el primero) 
m2a = lm (mpg ~ horse + weight + accel + origin, 
data = cars1)  # modelo con variable cualitativa con EUR como referencia 
m2b = lm (mpg ~ weight + accel + origin + horse*origin, 
data = cars1)  # modelo con parámetros asociados a horse distintos para cada origen 
m3 = lm (mpg ~ ., data = cars1) # utiliza todas las variables en cars1 como regresores 
anova(m3)  # análisis de la varianza del modelo m3 

8) Diagnosis del modelo de regresión


plot(m0)                        # diagnosis del modelo m0
resi = residuals(m0)            # residuos para las observaciones en cars1 
pred = predict(m0)              # valores predichos (ajustados) para las observaciones en cars1 
plot(pred,resi)                 # Diagnosis: comprueba linealidad y homocedasticidad 
qqnorm(resi)                    # Diagnosis: comprueba normalidad 
qqline(resi)                    # añade recta al qqplot para comprobar normalidad

9) Predicción
xnueva = data.frame(engine=180,  
        horse =100,weight=3000, accel =10, 
        origin = "JAP", cylinders=4)    # coche nuevo para hacer predicción del consumo 
predict(m3,xnueva,interval = "confidence") # predicción e intervalo para la media 
predict(m3,xnueva,interval = "prediction") # predicción e intervalo para una nueva observación

10) Otras instrucciones para regresión


m4 = step(m3)     # a partir de m3 selecciona el modelo utilizando STEPWISE 
coefficients(m4)    # coeficientes  del  modelo 
confint(m4, level=0.95)  # intervalo de confianza para los coef. 
vcov(m4)      # matriz de varianza de los parámetros estimados 
out = influence(m4)    # diagnosis  sobre  datos  atípicos 

Página 5 de 8 
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM

5. Tablas
1) Distribución Normal Estándar

La tabla muestra los valores 𝑧 tales que 𝑃 𝑍 𝑧 .

z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09


0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535
0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409
0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173
0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793
0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891
1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298
1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147
1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.91774
1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189
1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408
1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449
1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169
2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520
2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643
2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736
2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807
2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861
3.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99896 0.99900
3.1 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.99929
3.2 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.99950
3.3 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.99965
3.4 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976
3.5 0.99977 0.99978 0.99978 0.99979 0.99980 0.99981 0.99981 0.99982 0.99983 0.99983
3.6 0.99984 0.99985 0.99985 0.99986 0.99986 0.99987 0.99987 0.99988 0.99988 0.99989
3.7 0.99989 0.99990 0.99990 0.99990 0.99991 0.99991 0.99992 0.99992 0.99992 0.99992
3.8 0.99993 0.99993 0.99993 0.99994 0.99994 0.99994 0.99994 0.99995 0.99995 0.99995
3.9 0.99995 0.99995 0.99996 0.99996 0.99996 0.99996 0.99996 0.99996 0.99997 0.99997
4.0 0.99997 0.99997 0.99997 0.99997 0.99997 0.99997 0.99998 0.99998 0.99998 0.99998
4.1 0.99998 0.99998 0.99998 0.99998 0.99998 0.99998 0.99998 0.99998 0.99999 0.99999
  

 Ejemplo: 𝑃 𝑍 1,96 0,97500 

Página 6 de 8 
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM

2) Distribución 𝝌𝟐

La tabla muestra los valores 𝑥 tales que 𝑃 𝜒 2 𝑥 𝛼

𝛼
n 0.995 0.99 0.975 0.95 0.5 0.05 0.025 0.01 0.005
1 0.00004 0.0002 0.001 0.004 0.455 3.841 5.024 6.635 7.879
2 0.010 0.020 0.051 0.103 1.386 5.991 7.378 9.210 10.597
3 0.072 0.115 0.216 0.352 2.366 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 3.357 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 4.351 11.070 12.833 15.086 16.750
6 0.676 0.872 1.237 1.635 5.348 12.592 14.449 16.812 18.548
7 0.989 1.239 1.690 2.167 6.346 14.067 16.013 18.475 20.278
8 1.344 1.646 2.180 2.733 7.344 15.507 17.535 20.090 21.955
9 1.735 2.088 2.700 3.325 8.343 16.919 19.023 21.666 23.589
10 2.156 2.558 3.247 3.940 9.342 18.307 20.483 23.209 25.188
11 2.603 3.053 3.816 4.575 10.341 19.675 21.920 24.725 26.757
12 3.074 3.571 4.404 5.226 11.340 21.026 23.337 26.217 28.300
13 3.565 4.107 5.009 5.892 12.340 22.362 24.736 27.688 29.819
14 4.075 4.660 5.629 6.571 13.339 23.685 26.119 29.141 31.319
15 4.601 5.229 6.262 7.261 14.339 24.996 27.488 30.578 32.801
16 5.142 5.812 6.908 7.962 15.338 26.296 28.845 32.000 34.267
17 5.697 6.408 7.564 8.672 16.338 27.587 30.191 33.409 35.718
18 6.265 7.015 8.231 9.390 17.338 28.869 31.526 34.805 37.156
19 6.844 7.633 8.907 10.117 18.338 30.144 32.852 36.191 38.582
20 7.434 8.260 9.591 10.851 19.337 31.410 34.170 37.566 39.997
21 8.034 8.897 10.283 11.591 20.337 32.671 35.479 38.932 41.401
22 8.643 9.542 10.982 12.338 21.337 33.924 36.781 40.289 42.796
23 9.260 10.196 11.689 13.091 22.337 35.172 38.076 41.638 44.181
24 9.886 10.856 12.401 13.848 23.337 36.415 39.364 42.980 45.559
25 10.520 11.524 13.120 14.611 24.337 37.652 40.646 44.314 46.928
26 11.160 12.198 13.844 15.379 25.336 38.885 41.923 45.642 48.290
27 11.808 12.879 14.573 16.151 26.336 40.113 43.195 46.963 49.645
28 12.461 13.565 15.308 16.928 27.336 41.337 44.461 48.278 50.993
29 13.121 14.256 16.047 17.708 28.336 42.557 45.722 49.588 52.336
30 13.787 14.953 16.791 18.493 29.336 43.773 46.979 50.892 53.672
40 20.707 22.164 24.433 26.509 39.335 55.758 59.342 63.691 66.766
50 27.991 29.707 32.357 34.764 49.335 67.505 71.420 76.154 79.490
60 35.534 37.485 40.482 43.188 59.335 79.082 83.298 88.379 91.952
70 43.275 45.442 48.758 51.739 69.334 90.531 95.023 100.425 104.215
80 51.172 53.540 57.153 60.391 79.334 101.879 106.629 112.329 116.321
90 59.196 61.754 65.647 69.126 89.334 113.145 118.136 124.116 128.299
100 67.328 70.065 74.222 77.929 99.334 124.342 129.561 135.807 140.169
110 75.550 78.458 82.867 86.792 109.334 135.480 140.917 147.414 151.948
120 83.852 86.923 91.573 95.705 119.334 146.567 152.211 158.950 163.648
  

Ejemplo: 𝑃 χ9 19,02 0,025  

Página 7 de 8 
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM

3) Distribución t-Student

La tabla muestra los valores 𝑥 tales que 𝑃 𝑡𝑛 𝑥 𝛼.

𝛼
n 0.2 0.15 0.1 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005
1 1.376 1.963 3.078 6.314 12.706 31.821 63.657 127.321 318.309 636.619
2 1.061 1.386 1.886 2.920 4.303 6.965 9.925 14.089 22.327 31.599
3 0.978 1.250 1.638 2.353 3.182 4.541 5.841 7.453 10.215 12.924
4 0.941 1.190 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610
5 0.920 1.156 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869
6 0.906 1.134 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959
7 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.029 4.785 5.408
8 0.889 1.108 1.397 1.860 2.306 2.896 3.355 3.833 4.501 5.041
9 0.883 1.100 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781
10 0.879 1.093 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587
11 0.876 1.088 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437
12 0.873 1.083 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318
13 0.870 1.079 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221
14 0.868 1.076 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140
15 0.866 1.074 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073
16 0.865 1.071 1.337 1.746 2.120 2.583 2.921 3.252 3.686 4.015
17 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.222 3.646 3.965
18 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.197 3.610 3.922
19 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.174 3.579 3.883
20 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.153 3.552 3.850
21 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.135 3.527 3.819
22 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.119 3.505 3.792
23 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.104 3.485 3.768
24 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.091 3.467 3.745
25 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.078 3.450 3.725
26 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.067 3.435 3.707
27 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.057 3.421 3.690
28 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.047 3.408 3.674
29 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.038 3.396 3.659
30 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.030 3.385 3.646
40 0.851 1.050 1.303 1.684 2.021 2.423 2.704 2.971 3.307 3.551
50 0.849 1.047 1.299 1.676 2.009 2.403 2.678 2.937 3.261 3.496
60 0.848 1.045 1.296 1.671 2.000 2.390 2.660 2.915 3.232 3.460
70 0.847 1.044 1.294 1.667 1.994 2.381 2.648 2.899 3.211 3.435
80 0.846 1.043 1.292 1.664 1.990 2.374 2.639 2.887 3.195 3.416
90 0.846 1.042 1.291 1.662 1.987 2.368 2.632 2.878 3.183 3.402
100 0.845 1.042 1.290 1.660 1.984 2.364 2.626 2.871 3.174 3.390
Inf 0.842 1.036 1.282 1.645 1.960 2.326 2.576 2.807 3.090 3.291
 

Ejemplo: 𝑃 𝑡9 2,262 0,025  

  

Página 8 de 9 
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM

4) Distribución 𝑭 𝜶 𝟎, 𝟎𝟓

La tabla muestra los valores 𝑥 tales que 𝑃 𝐹𝑚, 𝑛 𝑥 0,05.

n 1 2 3 4 5 6 7 8 9 10
1 161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.883 240.543 241.882
2 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371 19.385 19.396
3 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845 8.812 8.786
4 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 5.999 5.964
5 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 4.772 4.735
6 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 4.099 4.060
7 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 3.677 3.637
8 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438 3.388 3.347
9 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 3.179 3.137
10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 3.020 2.978
11 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 2.896 2.854
12 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 2.796 2.753
13 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 2.714 2.671
14 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 2.646 2.602
15 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 2.588 2.544
16 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 2.538 2.494
17 4.451 3.592 3.197 2.965 2.810 2.699 2.614 2.548 2.494 2.450
18 4.414 3.555 3.160 2.928 2.773 2.661 2.577 2.510 2.456 2.412
19 4.381 3.522 3.127 2.895 2.740 2.628 2.544 2.477 2.423 2.378
20 4.351 3.493 3.098 2.866 2.711 2.599 2.514 2.447 2.393 2.348
21 4.325 3.467 3.072 2.840 2.685 2.573 2.488 2.420 2.366 2.321
22 4.301 3.443 3.049 2.817 2.661 2.549 2.464 2.397 2.342 2.297
23 4.279 3.422 3.028 2.796 2.640 2.528 2.442 2.375 2.320 2.275
24 4.260 3.403 3.009 2.776 2.621 2.508 2.423 2.355 2.300 2.255
25 4.242 3.385 2.991 2.759 2.603 2.490 2.405 2.337 2.282 2.236
26 4.225 3.369 2.975 2.743 2.587 2.474 2.388 2.321 2.265 2.220
27 4.210 3.354 2.960 2.728 2.572 2.459 2.373 2.305 2.250 2.204
28 4.196 3.340 2.947 2.714 2.558 2.445 2.359 2.291 2.236 2.190
29 4.183 3.328 2.934 2.701 2.545 2.432 2.346 2.278 2.223 2.177
30 4.171 3.316 2.922 2.690 2.534 2.421 2.334 2.266 2.211 2.165
40 4.085 3.232 2.839 2.606 2.449 2.336 2.249 2.180 2.124 2.077
50 4.034 3.183 2.790 2.557 2.400 2.286 2.199 2.130 2.073 2.026
60 4.001 3.150 2.758 2.525 2.368 2.254 2.167 2.097 2.040 1.993
70 3.978 3.128 2.736 2.503 2.346 2.231 2.143 2.074 2.017 1.969
80 3.960 3.111 2.719 2.486 2.329 2.214 2.126 2.056 1.999 1.951
90 3.947 3.098 2.706 2.473 2.316 2.201 2.113 2.043 1.986 1.938
100 3.936 3.087 2.696 2.463 2.305 2.191 2.103 2.032 1.975 1.927
Inf 3.841 2.996 2.605 2.372 2.214 2.099 2.010 1.938 1.880 1.831
  

 𝐸𝑗𝑚: 𝑃 𝐹7,8 3,50 0,05 

Página 9 de 10 
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM

Distribución 𝑭 𝜶 𝟎, 𝟎𝟓 (continuación)

La tabla muestra los valores 𝑥 tales que 𝑃 𝐹𝑚, 𝑛 𝑥 0,05.

n 12 15 20 24 30 40 60 100 120 Inf


1 243.906 245.950 248.013 249.052 250.095 251.143 252.196 253.041 253.253 254.314
2 19.413 19.429 19.446 19.454 19.462 19.471 19.479 19.486 19.487 19.496
3 8.745 8.703 8.660 8.639 8.617 8.594 8.572 8.554 8.549 8.526
4 5.912 5.858 5.803 5.774 5.746 5.717 5.688 5.664 5.658 5.628
5 4.678 4.619 4.558 4.527 4.496 4.464 4.431 4.405 4.398 4.365
6 4.000 3.938 3.874 3.841 3.808 3.774 3.740 3.712 3.705 3.669
7 3.575 3.511 3.445 3.410 3.376 3.340 3.304 3.275 3.267 3.230
8 3.284 3.218 3.150 3.115 3.079 3.043 3.005 2.975 2.967 2.928
9 3.073 3.006 2.936 2.900 2.864 2.826 2.787 2.756 2.748 2.707
10 2.913 2.845 2.774 2.737 2.700 2.661 2.621 2.588 2.580 2.538
11 2.788 2.719 2.646 2.609 2.570 2.531 2.490 2.457 2.448 2.404
12 2.687 2.617 2.544 2.505 2.466 2.426 2.384 2.350 2.341 2.296
13 2.604 2.533 2.459 2.420 2.380 2.339 2.297 2.261 2.252 2.206
14 2.534 2.463 2.388 2.349 2.308 2.266 2.223 2.187 2.178 2.131
15 2.475 2.403 2.328 2.288 2.247 2.204 2.160 2.123 2.114 2.066
16 2.425 2.352 2.276 2.235 2.194 2.151 2.106 2.068 2.059 2.010
17 2.381 2.308 2.230 2.190 2.148 2.104 2.058 2.020 2.011 1.960
18 2.342 2.269 2.191 2.150 2.107 2.063 2.017 1.978 1.968 1.917
19 2.308 2.234 2.155 2.114 2.071 2.026 1.980 1.940 1.930 1.878
20 2.278 2.203 2.124 2.082 2.039 1.994 1.946 1.907 1.896 1.843
21 2.250 2.176 2.096 2.054 2.010 1.965 1.916 1.876 1.866 1.812
22 2.226 2.151 2.071 2.028 1.984 1.938 1.889 1.849 1.838 1.783
23 2.204 2.128 2.048 2.005 1.961 1.914 1.865 1.823 1.813 1.757
24 2.183 2.108 2.027 1.984 1.939 1.892 1.842 1.800 1.790 1.733
25 2.165 2.089 2.007 1.964 1.919 1.872 1.822 1.779 1.768 1.711
26 2.148 2.072 1.990 1.946 1.901 1.853 1.803 1.760 1.749 1.691
27 2.132 2.056 1.974 1.930 1.884 1.836 1.785 1.742 1.731 1.672
28 2.118 2.041 1.959 1.915 1.869 1.820 1.769 1.725 1.714 1.654
29 2.104 2.027 1.945 1.901 1.854 1.806 1.754 1.710 1.698 1.638
30 2.092 2.015 1.932 1.887 1.841 1.792 1.740 1.695 1.683 1.622
40 2.003 1.924 1.839 1.793 1.744 1.693 1.637 1.589 1.577 1.509
50 1.952 1.871 1.784 1.737 1.687 1.634 1.576 1.525 1.511 1.438
60 1.917 1.836 1.748 1.700 1.649 1.594 1.534 1.481 1.467 1.389
70 1.893 1.812 1.722 1.674 1.622 1.566 1.505 1.450 1.435 1.353
80 1.875 1.793 1.703 1.654 1.602 1.545 1.482 1.426 1.411 1.325
90 1.861 1.779 1.688 1.639 1.586 1.528 1.465 1.407 1.391 1.302
100 1.850 1.768 1.676 1.627 1.573 1.515 1.450 1.392 1.376 1.283
Inf 1.752 1.666 1.571 1.517 1.459 1.394 1.318 1.243 1.221 1.000
 

Página 10 de 11 
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM

5) Distribución 𝑭 𝜶 𝟎, 𝟎𝟐𝟓

La tabla muestra los valores 𝑥 tales que 𝑃 𝐹𝑚, 𝑛 𝑥 0,025.

n 1 2 3 4 5 6 7 8 9 10
1 647.789 799.500 864.163 899.583 921.848 937.111 948.217 956.656 963.285 968.627
2 38.506 39.000 39.165 39.248 39.298 39.331 39.355 39.373 39.387 39.398
3 17.443 16.044 15.439 15.101 14.885 14.735 14.624 14.540 14.473 14.419
4 12.218 10.649 9.979 9.605 9.364 9.197 9.074 8.980 8.905 8.844
5 10.007 8.434 7.764 7.388 7.146 6.978 6.853 6.757 6.681 6.619
6 8.813 7.260 6.599 6.227 5.988 5.820 5.695 5.600 5.523 5.461
7 8.073 6.542 5.890 5.523 5.285 5.119 4.995 4.899 4.823 4.761
8 7.571 6.059 5.416 5.053 4.817 4.652 4.529 4.433 4.357 4.295
9 7.209 5.715 5.078 4.718 4.484 4.320 4.197 4.102 4.026 3.964
10 6.937 5.456 4.826 4.468 4.236 4.072 3.950 3.855 3.779 3.717
11 6.724 5.256 4.630 4.275 4.044 3.881 3.759 3.664 3.588 3.526
12 6.554 5.096 4.474 4.121 3.891 3.728 3.607 3.512 3.436 3.374
13 6.414 4.965 4.347 3.996 3.767 3.604 3.483 3.388 3.312 3.250
14 6.298 4.857 4.242 3.892 3.663 3.501 3.380 3.285 3.209 3.147
15 6.200 4.765 4.153 3.804 3.576 3.415 3.293 3.199 3.123 3.060
16 6.115 4.687 4.077 3.729 3.502 3.341 3.219 3.125 3.049 2.986
17 6.042 4.619 4.011 3.665 3.438 3.277 3.156 3.061 2.985 2.922
18 5.978 4.560 3.954 3.608 3.382 3.221 3.100 3.005 2.929 2.866
19 5.922 4.508 3.903 3.559 3.333 3.172 3.051 2.956 2.880 2.817
20 5.871 4.461 3.859 3.515 3.289 3.128 3.007 2.913 2.837 2.774
21 5.827 4.420 3.819 3.475 3.250 3.090 2.969 2.874 2.798 2.735
22 5.786 4.383 3.783 3.440 3.215 3.055 2.934 2.839 2.763 2.700
23 5.750 4.349 3.750 3.408 3.183 3.023 2.902 2.808 2.731 2.668
24 5.717 4.319 3.721 3.379 3.155 2.995 2.874 2.779 2.703 2.640
25 5.686 4.291 3.694 3.353 3.129 2.969 2.848 2.753 2.677 2.613
26 5.659 4.265 3.670 3.329 3.105 2.945 2.824 2.729 2.653 2.590
27 5.633 4.242 3.647 3.307 3.083 2.923 2.802 2.707 2.631 2.568
28 5.610 4.221 3.626 3.286 3.063 2.903 2.782 2.687 2.611 2.547
29 5.588 4.201 3.607 3.267 3.044 2.884 2.763 2.669 2.592 2.529
30 5.568 4.182 3.589 3.250 3.026 2.867 2.746 2.651 2.575 2.511
40 5.424 4.051 3.463 3.126 2.904 2.744 2.624 2.529 2.452 2.388
50 5.340 3.975 3.390 3.054 2.833 2.674 2.553 2.458 2.381 2.317
60 5.286 3.925 3.343 3.008 2.786 2.627 2.507 2.412 2.334 2.270
70 5.247 3.890 3.309 2.975 2.754 2.595 2.474 2.379 2.302 2.237
80 5.218 3.864 3.284 2.950 2.730 2.571 2.450 2.355 2.277 2.213
90 5.196 3.844 3.265 2.932 2.711 2.552 2.432 2.336 2.259 2.194
100 5.179 3.828 3.250 2.917 2.696 2.537 2.417 2.321 2.244 2.179
Inf 5.024 3.689 3.116 2.786 2.567 2.408 2.288 2.192 2.114 2.048
  

 𝐸𝑗𝑚: 𝑃 𝐹7,8 4,53 0,025 

Página 11 de 12 
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM

Distribución F(α = 0,025) (continuación)

La tabla muestra los valores 𝑥 tales que 𝑃 𝐹𝑚, 𝑛 𝑥 0,025

n 12 15 20 24 30 40 60 100 120 Inf


1 976.708 984.867 993.103 997.249 1001.414 1005.598 1009.800 1013.175 1014.020 1018.258
2 39.415 39.431 39.448 39.456 39.465 39.473 39.481 39.488 39.490 39.498
3 14.337 14.253 14.167 14.124 14.081 14.037 13.992 13.956 13.947 13.902
4 8.751 8.657 8.560 8.511 8.461 8.411 8.360 8.319 8.309 8.257
5 6.525 6.428 6.329 6.278 6.227 6.175 6.123 6.080 6.069 6.015
6 5.366 5.269 5.168 5.117 5.065 5.012 4.959 4.915 4.904 4.849
7 4.666 4.568 4.467 4.415 4.362 4.309 4.254 4.210 4.199 4.142
8 4.200 4.101 3.999 3.947 3.894 3.840 3.784 3.739 3.728 3.670
9 3.868 3.769 3.667 3.614 3.560 3.505 3.449 3.403 3.392 3.333
10 3.621 3.522 3.419 3.365 3.311 3.255 3.198 3.152 3.140 3.080
11 3.430 3.330 3.226 3.173 3.118 3.061 3.004 2.956 2.944 2.883
12 3.277 3.177 3.073 3.019 2.963 2.906 2.848 2.800 2.787 2.725
13 3.153 3.053 2.948 2.893 2.837 2.780 2.720 2.671 2.659 2.595
14 3.050 2.949 2.844 2.789 2.732 2.674 2.614 2.565 2.552 2.487
15 2.963 2.862 2.756 2.701 2.644 2.585 2.524 2.474 2.461 2.395
16 2.889 2.788 2.681 2.625 2.568 2.509 2.447 2.396 2.383 2.316
17 2.825 2.723 2.616 2.560 2.502 2.442 2.380 2.329 2.315 2.247
18 2.769 2.667 2.559 2.503 2.445 2.384 2.321 2.269 2.256 2.187
19 2.720 2.617 2.509 2.452 2.394 2.333 2.270 2.217 2.203 2.133
20 2.676 2.573 2.464 2.408 2.349 2.287 2.223 2.170 2.156 2.085
21 2.637 2.534 2.425 2.368 2.308 2.246 2.182 2.128 2.114 2.042
22 2.602 2.498 2.389 2.331 2.272 2.210 2.145 2.090 2.076 2.003
23 2.570 2.466 2.357 2.299 2.239 2.176 2.111 2.056 2.041 1.968
24 2.541 2.437 2.327 2.269 2.209 2.146 2.080 2.024 2.010 1.935
25 2.515 2.411 2.300 2.242 2.182 2.118 2.052 1.996 1.981 1.906
26 2.491 2.387 2.276 2.217 2.157 2.093 2.026 1.969 1.954 1.878
27 2.469 2.364 2.253 2.195 2.133 2.069 2.002 1.945 1.930 1.853
28 2.448 2.344 2.232 2.174 2.112 2.048 1.980 1.922 1.907 1.829
29 2.430 2.325 2.213 2.154 2.092 2.028 1.959 1.901 1.886 1.807
30 2.412 2.307 2.195 2.136 2.074 2.009 1.940 1.882 1.866 1.787
40 2.288 2.182 2.068 2.007 1.943 1.875 1.803 1.741 1.724 1.637
50 2.216 2.109 1.993 1.931 1.866 1.796 1.721 1.656 1.639 1.545
60 2.169 2.061 1.944 1.882 1.815 1.744 1.667 1.599 1.581 1.482
70 2.136 2.028 1.910 1.847 1.779 1.707 1.628 1.558 1.539 1.436
80 2.111 2.003 1.884 1.820 1.752 1.679 1.599 1.527 1.508 1.400
90 2.092 1.983 1.864 1.800 1.731 1.657 1.576 1.503 1.483 1.371
100 2.077 1.968 1.849 1.784 1.715 1.640 1.558 1.483 1.463 1.347
Inf 1.945 1.833 1.708 1.640 1.566 1.484 1.388 1.296 1.268 1.000
 

Página 12 de 13 
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM

6) Distribución 𝑭 𝜶 𝟎, 𝟎𝟏

La tabla muestra los valores 𝑥 tales que 𝑃 𝐹𝑚, 𝑛 𝑥 0,01

n 1 2 3 4 5 6 7 8 9 10
1 4052.181 4999.500 5403.352 5624.583 5763.650 5858.986 5928.356 5981.070 6022.473 6055.847
2 98.503 99.000 99.166 99.249 99.299 99.333 99.356 99.374 99.388 99.399
3 34.116 30.817 29.457 28.710 28.237 27.911 27.672 27.489 27.345 27.229
4 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799 14.659 14.546
5 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289 10.158 10.051
6 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102 7.976 7.874
7 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840 6.719 6.620
8 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.911 5.814
9 10.561 8.022 6.992 6.422 6.057 5.802 5.613 5.467 5.351 5.257
10 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.942 4.849
11 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.632 4.539
12 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.388 4.296
13 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.191 4.100
14 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.030 3.939
15 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 3.895 3.805
16 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890 3.780 3.691
17 8.400 6.112 5.185 4.669 4.336 4.102 3.927 3.791 3.682 3.593
18 8.285 6.013 5.092 4.579 4.248 4.015 3.841 3.705 3.597 3.508
19 8.185 5.926 5.010 4.500 4.171 3.939 3.765 3.631 3.523 3.434
20 8.096 5.849 4.938 4.431 4.103 3.871 3.699 3.564 3.457 3.368
21 8.017 5.780 4.874 4.369 4.042 3.812 3.640 3.506 3.398 3.310
22 7.945 5.719 4.817 4.313 3.988 3.758 3.587 3.453 3.346 3.258
23 7.881 5.664 4.765 4.264 3.939 3.710 3.539 3.406 3.299 3.211
24 7.823 5.614 4.718 4.218 3.895 3.667 3.496 3.363 3.256 3.168
25 7.770 5.568 4.675 4.177 3.855 3.627 3.457 3.324 3.217 3.129
26 7.721 5.526 4.637 4.140 3.818 3.591 3.421 3.288 3.182 3.094
27 7.677 5.488 4.601 4.106 3.785 3.558 3.388 3.256 3.149 3.062
28 7.636 5.453 4.568 4.074 3.754 3.528 3.358 3.226 3.120 3.032
29 7.598 5.420 4.538 4.045 3.725 3.499 3.330 3.198 3.092 3.005
30 7.562 5.390 4.510 4.018 3.699 3.473 3.304 3.173 3.067 2.979
40 7.314 5.179 4.313 3.828 3.514 3.291 3.124 2.993 2.888 2.801
50 7.171 5.057 4.199 3.720 3.408 3.186 3.020 2.890 2.785 2.698
60 7.077 4.977 4.126 3.649 3.339 3.119 2.953 2.823 2.718 2.632
70 7.011 4.922 4.074 3.600 3.291 3.071 2.906 2.777 2.672 2.585
80 6.963 4.881 4.036 3.563 3.255 3.036 2.871 2.742 2.637 2.551
90 6.925 4.849 4.007 3.535 3.228 3.009 2.845 2.715 2.611 2.524
100 6.895 4.824 3.984 3.513 3.206 2.988 2.823 2.694 2.590 2.503
Inf 6.635 4.605 3.782 3.319 3.017 2.802 2.639 2.511 2.407 2.321
 Ejemplo: 𝑃 𝐹7,8 6,18 0,01 

Página 13 de 14 
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM

Distribución F(α = 0,01) (continuación)

La tabla muestra los valores x tales que 𝑃 𝐹𝑚, 𝑛 𝑥 0,01

n 12 15 20 24 30 40 60 100 120 Inf


1 6106.321 6157.285 6208.730 6234.631 6260.649 6286.782 6313.030 6334.110 6339.391 6365.864
2 99.416 99.433 99.449 99.458 99.466 99.474 99.482 99.489 99.491 99.499
3 27.052 26.872 26.690 26.598 26.505 26.411 26.316 26.240 26.221 26.125
4 14.374 14.198 14.020 13.929 13.838 13.745 13.652 13.577 13.558 13.463
5 9.888 9.722 9.553 9.466 9.379 9.291 9.202 9.130 9.112 9.020
6 7.718 7.559 7.396 7.313 7.229 7.143 7.057 6.987 6.969 6.880
7 6.469 6.314 6.155 6.074 5.992 5.908 5.824 5.755 5.737 5.650
8 5.667 5.515 5.359 5.279 5.198 5.116 5.032 4.963 4.946 4.859
9 5.111 4.962 4.808 4.729 4.649 4.567 4.483 4.415 4.398 4.311
10 4.706 4.558 4.405 4.327 4.247 4.165 4.082 4.014 3.996 3.909
11 4.397 4.251 4.099 4.021 3.941 3.860 3.776 3.708 3.690 3.602
12 4.155 4.010 3.858 3.780 3.701 3.619 3.535 3.467 3.449 3.361
13 3.960 3.815 3.665 3.587 3.507 3.425 3.341 3.272 3.255 3.165
14 3.800 3.656 3.505 3.427 3.348 3.266 3.181 3.112 3.094 3.004
15 3.666 3.522 3.372 3.294 3.214 3.132 3.047 2.977 2.959 2.868
16 3.553 3.409 3.259 3.181 3.101 3.018 2.933 2.863 2.845 2.753
17 3.455 3.312 3.162 3.084 3.003 2.920 2.835 2.764 2.746 2.653
18 3.371 3.227 3.077 2.999 2.919 2.835 2.749 2.678 2.660 2.566
19 3.297 3.153 3.003 2.925 2.844 2.761 2.674 2.602 2.584 2.489
20 3.231 3.088 2.938 2.859 2.778 2.695 2.608 2.535 2.517 2.421
21 3.173 3.030 2.880 2.801 2.720 2.636 2.548 2.475 2.457 2.360
22 3.121 2.978 2.827 2.749 2.667 2.583 2.495 2.422 2.403 2.305
23 3.074 2.931 2.781 2.702 2.620 2.535 2.447 2.373 2.354 2.256
24 3.032 2.889 2.738 2.659 2.577 2.492 2.403 2.329 2.310 2.211
25 2.993 2.850 2.699 2.620 2.538 2.453 2.364 2.289 2.270 2.169
26 2.958 2.815 2.664 2.585 2.503 2.417 2.327 2.252 2.233 2.131
27 2.926 2.783 2.632 2.552 2.470 2.384 2.294 2.218 2.198 2.097
28 2.896 2.753 2.602 2.522 2.440 2.354 2.263 2.187 2.167 2.064
29 2.868 2.726 2.574 2.495 2.412 2.325 2.234 2.158 2.138 2.034
30 2.843 2.700 2.549 2.469 2.386 2.299 2.208 2.131 2.111 2.006
40 2.665 2.522 2.369 2.288 2.203 2.114 2.019 1.938 1.917 1.805
50 2.562 2.419 2.265 2.183 2.098 2.007 1.909 1.825 1.803 1.683
60 2.496 2.352 2.198 2.115 2.028 1.936 1.836 1.749 1.726 1.601
70 2.450 2.306 2.150 2.067 1.980 1.886 1.785 1.695 1.672 1.540
80 2.415 2.271 2.115 2.032 1.944 1.849 1.746 1.655 1.630 1.494
90 2.389 2.244 2.088 2.004 1.916 1.820 1.716 1.623 1.598 1.457
100 2.368 2.223 2.067 1.983 1.893 1.797 1.692 1.598 1.572 1.427
Inf 2.185 2.039 1.878 1.791 1.696 1.592 1.473 1.358 1.325 1.000

Página 14 de 14 

También podría gustarte