D Libro

Diseño de
Experimentos y
Regresión
Laboratorio
de
Estadística
E SCUELA T ÉCNICA S UPERIOR DE

I NGENIEROS I NDUSTRIALES
U NIVERSIDAD P OLITÉCNICA DE M ADRID
Edición Curso 19/20

DISEÑO DE EXPERIMENTOS Y MODELOS DE REGRESIÓN
Departamento de ingeniería de organización,
administración de empresas y estadística.
PROGRAMA
1. Análisis de la varianza. Comparación de dos tratamientos. La hipóte-

sis de normalidad, independencia y homocedasticidad. Estimación. Contraste
de igualdad de medias. Contraste de igualdad de varianzas. La distribución
F: Comparación de varios tratamientos. Modelo básico. Descomposición de la
variabilidad. Tabla del análisis de la varianza (ADEVA). Contraste de igualdad
de medias. Comparaciones múltiples. Diagnosis de las hipótesis del modelo de
análisis de la varianza. Grá…co probabilista normal. Contrastes de homocedas-
ticidad. Aleatorización.
2. Diseño de experimentos. Modelo con dos factores. Concepto de in-

teracción. Descomposición de la variabilidad. Tabla de análisis de la varianza.
Contraste de igual de medias. Diagnosis de las hipótesis del modelo. El modelo
en bloques aleatorizados. Modelo y estimación. Descomposición de la variabi-
lidad. Tabla de análisis de la varianza.
3. Regresión lineal. Hipótesis del modelo. Estimación de los parámetros por

máxima verosimilitud (mínimos cuadrados). Distribución de los estimadores.
Contrastes individuales de los parámetros del modelo. Contraste general de
regresión. El coe…ciente de determinación. Multicolinealidad: identi…cación y
sus consecuencias. Predicción en regresión simple. Variables cualitativas como
regresores. Diagnosis del modelo.
1
1. Análisis de la Varianza
Diseño de Experimentos y Modelos de Regresión
1.1 Dos tratamientos

Comparación de dos tratamientos
Se desea comparar dos

A B
tratamientos para
51,3 29,6
39,4 47,0
reducir el nivel de
26,3 25,9 colesterol en la sangre.
39,0 13,0 Se seleccionan 20
48,1 33,1 individuos y se asignan
34,2 22,1 al azar a dos tipos de
69,8 34,1 dietas A y B. La tabla
31,3 19,5 muestra la reducción
45,2 43,8 conseguida después de
46,4 24,9 dos meses.
Análisis de la Varianza 3
Método: 4 pasos
- Definición del modelo de distribución

de probabilidad:
·Hipótesis
·Parámetros
- Estimación de los parámetros
- Diagnosis de las hipótesis
- Aplicación
Modelo
M
O
V V D
E
L
P1 P2 O
y11 y 21
D
y12 y 22 A
T
O
y1n1 y 2 n2 S
Modelo: Hipótesis y Parámetros

Hipótesis básicas:
Normalidad Parámetros
yij N(Pi,V2) P1
Homocedasticidad P2
Var [yij] = V2
V2
Independencia
Cov [yij, ykl] = 0
Modelo
yij Pi uij , uij o N (0, V 2 )

Las observaciones se descomponen en:
-Parte predecible Pi
-Parte aleatoria uij
0
Estimación medias:
n1 A B
¦ y1 j 51,3
39,4
29,6
47,0
j 1
P1 : o y1x 26,3 25,9
n1 39,0 13,0
48,1 33,1
34,2 22,1
n2 69,8 34,1
¦ y2 j 31,3
45,2
19,5
43,8
j 1
P 2 : o y2x 46,4 24,9
n2 43,1 29,3
Estimación varianza (residuos)
yij P i uij , uij o N (0, V 2 ) Residuos
A B
8,2 0,3
-3,7 17,7
uij yij P i -16,8 -3,4
-4,1 -16,3
eij yij yix 5,0 3,8
-8,9 -7,2
eij : RESIDUO 26,7 4,8
-11,8 -9,8
2 ni 2,1 14,5
¦¦ eij2 3,3
0,0
-4,4
0,0
i 1 j 1
V 2 : o sˆR2 n
n2 ¦
i
eij 2
0;sˆR 130.95
j 1
2
ˆ
Varianza residual: R
s
V V
P1 P2
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j y1x ) 2 y22 ° ° 2 ¦ ( y2 j y2x ) 2
sˆ1 sˆ2
¾ n1 1 ¾ ° n2 1
°
y1n1 °
¿ y2 n2 °
¿
2 ni
¦¦ e
i 1 j 1
2
ij
n1 1 2 n2 1 2
sˆR2 sˆ1 sˆ2
n2 n2 n2
Diferencia de medias: y1x y2x
V V
P1 P2
y11 ½ y21 ½
y12 °° V2 y22 ° ° V2
y1x o N ( P1 , ) y2x o N ( P 2 , )
¾ n1 ¾ ° n2
°
y1n1 °
¿ y2 n2 °
¿
V2 V2 ½
y1x y2x o N ( P1 P 2 , )
°
n1 n2 °° ( y1x y2x ) ( P1 P 2 )
( y1x y2x ) ( P1 P 2 ) o tn2
o N (0,1) ¾ 1 1
1 1 ° sˆR
V ° n1 n2
n1 n2 °¿
Contraste de igualdad de medias
H 0 : P1 P2 R.R
R.R.
H1 : P1 z P 2 tn-2
1-D
y1x y2x D/2
t0 o tn2 R. Acept. D/2
1 1
sˆR -tD/2 tD/2
n1 n2
t0 d tD / 2 No se rechaza H 0
t0 ! tD / 2 Se rechaza H 0
Ejemplo: D = 0.05
H 0 : P1 P2 R.R
R.R. t18
H1 : P1 z P 2
0.025
43.1 29.3 0.025
t0 2.69
1 1
11.44 -2.10 2.10
10 10
2.69 ! 2.10 Se rechaza H 0
Ejemplo: D = 0.01
H 0 : P1 P2 R.R
R.R.
H1 : P1 z P 2 t18
0.99
0.005 0.005
43.1 29.3
t0 2.69 D/2
1 1
11.44 -2.88 2.88
10 10
2.69 d 2.88 No se rechaza H 0
Nivel crítico (bilateral)
H 0 : P1 P2 t18
H1 : P1 z P 2
43.1 29.3 0.0074 0.0074
t0 2.69
1 1
11.44 -2.69 2.69
10 10
p valor Pr( t18 ! 2.69) 0.0147

•D = 0.05 > p-valor Se rechaza H0
•D = 0.01 < p-valor No se rechaza H0
Conclusiones (fijado D)
Si |to| > tD/2 se dice que Si |to| d tD/2 se dice que

la diferencia de la diferencia de
medias es medias no es
significativa. O significativa. No hay
simplemente que los evidencia suficiente
tratamientos son para afirmar que las
distintos (tienen medias de los
medias distintas). tratamientos sean
diferentes.
No rechazar Ho, no implica que Ho sea cierta
El resultado |to| d tD/2, (no se rechaza Ho)

no debe interpretarse como que “se ha
demostrado que las dos medias son
iguales”.
No rechazar la hipótesis nula implica que

la diferencia entre las medias P1 - P2 no es
lo suficientemente grande como para ser
detectada con el tamaño muestral dado.
Comparación de dos tratamientos con R
18
19
Comparación de medidas del cuerpo humano por género

Means Conf. Int.
20
Intervalo de confianza para
la diferencia de medias: P1 P 2
( y1x y2x ) ( P1 P 2 ) tn-2
o t n2
1 1
sˆR D/2
n1 n2 D/2 1-D
-tD/2 tD/2
( y1x y2x ) ( P1 P 2 )
Pr { tD / 2 d d tD / 2 } 1 D
1 1
sˆR
n1 n2
1 1
P1 P 2 ( y1x y2x ) r tD / 2 sˆR
n1 n2
Ejemplo: intervalo de confianza P1 P 2
t18
0.025 0.025
-2.10 2.10
1 1
P1 P 2 ( y1x y2x ) r tD / 2 sˆR
n1 n2
1 1
P1 P 2 (43.1 29.3) r 2.10 u11.44 u
10 10
P1 P 2 13.8 r 10.74
Hipótesis de homocedasticidad
V1 V2
P1 P2
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j y1x ) 2 y22 ° ° 2 ¦ ( y2 j y2x ) 2
sˆ1 sˆ2
¾ n1 1 ¾ ° n2 1
°
y1n1 °
¿ y2 n2 °
¿
H 0 : V 12 V 22
H1 : V 12 z V 22
Distribución F
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j y1x ) 2 y22 ° ° 2 ¦ ( y2 j y2x ) 2
sˆ1 sˆ2
¾ n1 1 ¾ ° n2 1
°
y1n1 °
¿ y2 n2 °
¿
(n1 1) sˆ12 ( n2 1) sˆ22
o F n21 1 o F n22 1
V 12 V 22
F n2 1 sˆ12
1
(n1 1) V 12
F o Fn1 1,n2 1
F n2 12
sˆ22
(n2 1) V 22
Análisis de la varianza 24
Distribución F
F40,40
F20,40
F10,40
F5,40
Algunas distribuciones F
F10,80
F10,40
F10,20
F10,10
Contraste de igualdad de varianzas
H 0 : V 12 V 22
H1 : V 12 z V 22 RR RR
D/2 1-D D/2
Si H 0 es cierto V 12 V 22 , R.A. Ho
sˆ12 F1-D/2 FD/2
F0 2
o Fn1 1,n2 1
sˆ1
Si F0 >F1D / 2 , FD / 2 @ No se rechaza H 0
Si F0 >F1D / 2 , FD / 2 @ Se rechaza H 0
Ejemplo: Contraste de igualdad de varianzas
H 0 : V 12 V 22
H1 : V 12 z V 22 RR RR
0.025 0.025
sˆ12 154.02 sˆ22 111.7
154.02 0.248 1.37 4.03
F0 1.37
111.7
1.37 >0.248,4.03@ No se rechaza H 0
Tabla F FQ1 ,Q 2 ,D P( FQ 1 ,Q 2 t FQ 1 ,Q 2 ,D ) D
D=0.05
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,9 245,9 248,0 249,1 250,1 251,1 252,2 253,0 253,3 254,3 1
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,49 19,49 19,50 2
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,55 8,53 3
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,66 5,63 4
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,41 4,40 4,37 5
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,71 3,70 3,67 6
Grados de libertad del denominador: Q2
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,27 3,23 7
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,97 2,93 8
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,76 2,75 2,71 9
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,59 2,58 2,54 10
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,46 2,45 2,40 11
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,35 2,34 2,30 12
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,26 2,25 2,21 13
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,19 2,18 2,13 14
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,12 2,11 2,07 15
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,07 2,06 2,01 16
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,02 2,01 1,96 17
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,98 1,97 1,92 18
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,94 1,93 1,88 19
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,91 1,90 1,84 20
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,88 1,87 1,81 21
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,85 1,84 1,78 22
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,82 1,81 1,76 23
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,80 1,79 1,73 24
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,78 1,77 1,71 25
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,76 1,75 1,69 26
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,74 1,73 1,67 27
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,73 1,71 1,65 28
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,71 1,70 1,64 29
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,70 1,68 1,62 30
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,59 1,58 1,51 40
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,95 1,87 1,78 1,74 1,69 1,63 1,58 1,52 1,51 1,44 50
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,48 1,47 1,39 60
70 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97 1,89 1,81 1,72 1,67 1,62 1,57 1,50 1,45 1,44 1,35 70
80 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,88 1,79 1,70 1,65 1,60 1,54 1,48 1,43 1,41 1,32 80
90 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,99 1,94 1,86 1,78 1,69 1,64 1,59 1,53 1,46 1,41 1,39 1,30 90
100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,85 1,77 1,68 1,63 1,57 1,52 1,45 1,39 1,38 1,28 100
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,37 1,35 1,25 120
Inf 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,24 1,22 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
Ejemplo : P( F7,8 t 3.50) 0.05
D=0.025
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,6 963,3 968,6 976,7 984,9 993,1 997,3 1001,4 1005,6 1009,8 1013,2 1014,0 1018,3 1
2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,43 39,45 39,46 39,46 39,47 39,48 39,49 39,49 39,50 2
3 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,34 14,25 14,17 14,12 14,08 14,04 13,99 13,96 13,95 13,90 3
4 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,75 8,66 8,56 8,51 8,46 8,41 8,36 8,32 8,31 8,26 4
5 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,52 6,43 6,33 6,28 6,23 6,18 6,12 6,08 6,07 6,02 5
6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,37 5,27 5,17 5,12 5,07 5,01 4,96 4,92 4,90 4,85 6
7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,67 4,57 4,47 4,41 4,36 4,31 4,25 4,21 4,20 4,14 7
8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,20 4,10 4,00 3,95 3,89 3,84 3,78 3,74 3,73 3,67 8
9 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,87 3,77 3,67 3,61 3,56 3,51 3,45 3,40 3,39 3,33 9
10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,62 3,52 3,42 3,37 3,31 3,26 3,20 3,15 3,14 3,08 10
11 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,43 3,33 3,23 3,17 3,12 3,06 3,00 2,96 2,94 2,88 11
12 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,28 3,18 3,07 3,02 2,96 2,91 2,85 2,80 2,79 2,72 12
13 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,15 3,05 2,95 2,89 2,84 2,78 2,72 2,67 2,66 2,60 13
14 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 3,05 2,95 2,84 2,79 2,73 2,67 2,61 2,56 2,55 2,49 14
15 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,96 2,86 2,76 2,70 2,64 2,59 2,52 2,47 2,46 2,40 15
16 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05 2,99 2,89 2,79 2,68 2,63 2,57 2,51 2,45 2,40 2,38 2,32 16
17 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98 2,92 2,82 2,72 2,62 2,56 2,50 2,44 2,38 2,33 2,32 2,25 17
18 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,77 2,67 2,56 2,50 2,44 2,38 2,32 2,27 2,26 2,19 18
19 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,72 2,62 2,51 2,45 2,39 2,33 2,27 2,22 2,20 2,13 19
20 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,68 2,57 2,46 2,41 2,35 2,29 2,22 2,17 2,16 2,09 20
21 5,83 4,42 3,82 3,48 3,25 3,09 2,97 2,87 2,80 2,73 2,64 2,53 2,42 2,37 2,31 2,25 2,18 2,13 2,11 2,04 21
22 5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,76 2,70 2,60 2,50 2,39 2,33 2,27 2,21 2,14 2,09 2,08 2,00 22
23 5,75 4,35 3,75 3,41 3,18 3,02 2,90 2,81 2,73 2,67 2,57 2,47 2,36 2,30 2,24 2,18 2,11 2,06 2,04 1,97 23
24 5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,70 2,64 2,54 2,44 2,33 2,27 2,21 2,15 2,08 2,02 2,01 1,94 24
25 5,69 4,29 3,69 3,35 3,13 2,97 2,85 2,75 2,68 2,61 2,51 2,41 2,30 2,24 2,18 2,12 2,05 2,00 1,98 1,91 25
26 5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,65 2,59 2,49 2,39 2,28 2,22 2,16 2,09 2,03 1,97 1,95 1,88 26
27 5,63 4,24 3,65 3,31 3,08 2,92 2,80 2,71 2,63 2,57 2,47 2,36 2,25 2,19 2,13 2,07 2,00 1,94 1,93 1,85 27
28 5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,61 2,55 2,45 2,34 2,23 2,17 2,11 2,05 1,98 1,92 1,91 1,83 28
29 5,59 4,20 3,61 3,27 3,04 2,88 2,76 2,67 2,59 2,53 2,43 2,32 2,21 2,15 2,09 2,03 1,96 1,90 1,89 1,81 29
30 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,41 2,31 2,20 2,14 2,07 2,01 1,94 1,88 1,87 1,79 30
40 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,29 2,18 2,07 2,01 1,94 1,88 1,80 1,74 1,72 1,64 40
50 5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38 2,32 2,22 2,11 1,99 1,93 1,87 1,80 1,72 1,66 1,64 1,55 50
60 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,17 2,06 1,94 1,88 1,82 1,74 1,67 1,60 1,58 1,48 60
70 5,25 3,89 3,31 2,97 2,75 2,59 2,47 2,38 2,30 2,24 2,14 2,03 1,91 1,85 1,78 1,71 1,63 1,56 1,54 1,44 70
80 5,22 3,86 3,28 2,95 2,73 2,57 2,45 2,35 2,28 2,21 2,11 2,00 1,88 1,82 1,75 1,68 1,60 1,53 1,51 1,40 80
90 5,20 3,84 3,26 2,93 2,71 2,55 2,43 2,34 2,26 2,19 2,09 1,98 1,86 1,80 1,73 1,66 1,58 1,50 1,48 1,37 90
100 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 2,08 1,97 1,85 1,78 1,71 1,64 1,56 1,48 1,46 1,35 100
120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22 2,16 2,05 1,94 1,82 1,76 1,69 1,61 1,53 1,45 1,43 1,31 120
Inf 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 1,94 1,83 1,71 1,64 1,57 1,48 1,39 1,30 1,27 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
Ejemplo : P( F7,8 t 4.53) 0.025

D=0.01
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 4052,2 4999,3 5403,5 5624,3 5764,0 5859,0 5928,3 5981,0 6022,4 6055,9 6106,7 6157,0 6208,7 6234,3 6260,4 6286,4 6313,0 6333,9 6339,5 6365,6 1
2 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,42 99,43 99,45 99,46 99,47 99,48 99,48 99,49 99,49 99,50 2
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 27,05 26,87 26,69 26,60 26,50 26,41 26,32 26,24 26,22 26,13 3
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,37 14,20 14,02 13,93 13,84 13,75 13,65 13,58 13,56 13,46 4
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,89 9,72 9,55 9,47 9,38 9,29 9,20 9,13 9,11 9,02 5
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,72 7,56 7,40 7,31 7,23 7,14 7,06 6,99 6,97 6,88 6
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,47 6,31 6,16 6,07 5,99 5,91 5,82 5,75 5,74 5,65 7
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,67 5,52 5,36 5,28 5,20 5,12 5,03 4,96 4,95 4,86 8
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,11 4,96 4,81 4,73 4,65 4,57 4,48 4,41 4,40 4,31 9
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,71 4,56 4,41 4,33 4,25 4,17 4,08 4,01 4,00 3,91 10
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,40 4,25 4,10 4,02 3,94 3,86 3,78 3,71 3,69 3,60 11
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,16 4,01 3,86 3,78 3,70 3,62 3,54 3,47 3,45 3,36 12
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,96 3,82 3,66 3,59 3,51 3,43 3,34 3,27 3,25 3,17 13
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,80 3,66 3,51 3,43 3,35 3,27 3,18 3,11 3,09 3,00 14
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,67 3,52 3,37 3,29 3,21 3,13 3,05 2,98 2,96 2,87 15
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,55 3,41 3,26 3,18 3,10 3,02 2,93 2,86 2,84 2,75 16
17 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,46 3,31 3,16 3,08 3,00 2,92 2,83 2,76 2,75 2,65 17
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,37 3,23 3,08 3,00 2,92 2,84 2,75 2,68 2,66 2,57 18
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,30 3,15 3,00 2,92 2,84 2,76 2,67 2,60 2,58 2,49 19
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,23 3,09 2,94 2,86 2,78 2,69 2,61 2,54 2,52 2,42 20
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,17 3,03 2,88 2,80 2,72 2,64 2,55 2,48 2,46 2,36 21
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,12 2,98 2,83 2,75 2,67 2,58 2,50 2,42 2,40 2,31 22
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,07 2,93 2,78 2,70 2,62 2,54 2,45 2,37 2,35 2,26 23
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,03 2,89 2,74 2,66 2,58 2,49 2,40 2,33 2,31 2,21 24
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 2,99 2,85 2,70 2,62 2,54 2,45 2,36 2,29 2,27 2,17 25
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,96 2,81 2,66 2,58 2,50 2,42 2,33 2,25 2,23 2,13 26
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,93 2,78 2,63 2,55 2,47 2,38 2,29 2,22 2,20 2,10 27
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,90 2,75 2,60 2,52 2,44 2,35 2,26 2,19 2,17 2,06 28
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,87 2,73 2,57 2,49 2,41 2,33 2,23 2,16 2,14 2,03 29
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,84 2,70 2,55 2,47 2,39 2,30 2,21 2,13 2,11 2,01 30
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,52 2,37 2,29 2,20 2,11 2,02 1,94 1,92 1,80 40
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,56 2,42 2,27 2,18 2,10 2,01 1,91 1,82 1,80 1,68 50
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,50 2,35 2,20 2,12 2,03 1,94 1,84 1,75 1,73 1,60 60
70 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,67 2,59 2,45 2,31 2,15 2,07 1,98 1,89 1,78 1,70 1,67 1,54 70
80 6,96 4,88 4,04 3,56 3,26 3,04 2,87 2,74 2,64 2,55 2,42 2,27 2,12 2,03 1,94 1,85 1,75 1,65 1,63 1,49 80
90 6,93 4,85 4,01 3,53 3,23 3,01 2,84 2,72 2,61 2,52 2,39 2,24 2,09 2,00 1,92 1,82 1,72 1,62 1,60 1,46 90
100 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,37 2,22 2,07 1,98 1,89 1,80 1,69 1,60 1,57 1,43 100
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,34 2,19 2,03 1,95 1,86 1,76 1,66 1,56 1,53 1,38 120
Inf 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,18 2,04 1,88 1,79 1,70 1,59 1,47 1,36 1,32 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
Ejemplo : P( F7,8 t 6.18) 0.01
32
33
1.2 K tratamientos
¿Existen diferencias entre las cuatro semillas?
Se desea comparar el rendimiento de cuatro

semillas A,B,C y D. Un terreno se divide en 24
parcelas similares y se asigna al azar cada semilla
a 6 parcelas.
A B C D
229.1 233.4 211.1 270.4
253.7 233.0 223.1 248.6
241.3 219.2 217.5 230.0
254.7 200.0 211.8 250.7
237.2 224.3 207.6 230.0
241.3 202.0 213.7 245.8
242.9 218.7 214.1 245.9
Método: 4 pasos
- Definición del modelo de distribución de

probabilidad:
·Hipótesis
·Parámetros
- Estimación de los parámetros
- Diagnosis de las hipótesis
- Aplicación
Modelo
V V V
...
P1 P2 PK
y11 y21 yK1

y12 y22 yK 2
...
y1n y2 n y Kn
1 2 K
Hipótesis del modelo
Normalidad
yij N(Pi,V2)
Homocedasticidad
Var [yij] = V2
Independencia
Cov [yij, ykl] = 0
Modelo: Hipótesis y Parámetros
Hipótesis básicas: Parámetros
Normalidad P1
yij N(Pi,V2) P2
Homocedasticidad

Var [yij] = V2
Independencia
PK
Cov [yij, ykl] = 0 V2
Modelo: Forma alternativa
yij Pi uij , uij o N (0, V 2 )

Las observaciones se descomponen en:
Parte predecible Pi
Parte aleatoria uij
0
Estimación medias: Máxima Verosimilitud
n1
¦ y1 j
j 1
P1 : o y1x
n1
n2 A B C D
¦ y2 j 229.1 233.4 211.1 270.4
j 1 253.7 233.0 223.1 248.6
P 2 : o y 2x 241.3 219.2 217.5 230.0
n2
254.7 200.0 211.8 250.7
237.2 224.3 207.6 230.0
nK 241.3 202.0 213.7 245.8
¦ y Kj 242.9 218.7 214.1 245.9
j 1
P K : o yK x
nK
Estimación varianza (residuos)
yij Pi uij , uij o N (0,V 2 )

uij yij Pi A B
Residuos
C D
-13.8 14.8 -3.0 24.5
eij yij yix 10.8 14.4 9.0 2.7
-1.6 0.6 3.4 -15.9
eij : RESIDUO 11.8 -18.7 -2.3 4.8
-5.7 5.7 -6.5 -15.9
K ni -1.6 -16.7 -0.4 -0.1
¦ ¦ eij2 0.0 0.0 0.0 0.0
i 1j 1
V 2 : o sˆR2
nK sˆR2 142.4
Comparación de medias
La comparación de tratamientos con este modelo

se reduce a comparar las medias P1, P2, ..., PK ,
en primer lugar con el contraste:
H 0 : P1 P2 P K
H1 : Al menos una es diferente
Descomposición de la
variabilidad
¦ ¦ yij
yij Pi uij yij y ix ( yij y ix ) : restando y xx ,
n
yij y xx ( y ix y xx ) ( yij y ix )
elevando al cuadrado y sumando para todo i,j
K ni
(donde ¦ ¦ ( y ix y xx )( yij y ix ) 0)
i 1j 1
K ni K ni K ni
2
¦ ¦ ( yij y xx ) ¦ ¦ ( y ix y xx ) ¦ ¦ ( yij y ix ) 2
2
i 1j 1 i 1j 1 i 1j 1
K ni K K ni
2
¦ ¦ ( yij y xx ) ¦ ni ( y ix y xx ) ¦ ¦ ( yij y ix ) 2
2
i 1j 1 i 1 i 1j 1
Variabilidades
Variabilid ades Grados de libertad
K ni
VT ¦ ¦ ( yij y xx ) 2 n-1
i 1j 1
K
VE ¦ ni ( y ix y xx ) 2 K-1
i 1
K ni K ni
2 2
VNE ¦ ¦ ( yij y ix ) ¦ ¦ eij n-K
i 1j 1 i 1j 1
VT VE VNE
n 1 ( K 1) (n K )
Descomposición: ejemplo
y xx 230.4
Datos Medias Residuos
229.1 233.4 211.1 270.4 242.9 218.7 214.1 245.9 -13.8 14.8 -3.0 24.5
253.7 233.0 223.1 248.6 242.9 218.7 214.1 245.9 10.8 14.4 9.0 2.7
241.3 219.2 217.5 230.0 242.9 218.7 214.1 245.9 -1.6 0.6 3.4 -15.9
254.7 200.0 211.8 250.7
= 242.9 218.7 214.1 245.9
+ 11.8 -18.7 -2.3 4.8
237.2 224.3 207.6 230.0 242.9 218.7 214.1 245.9 -5.7 5.7 -6.5 -15.9
241.3 202.0 213.7 245.8 242.9 218.7 214.1 245.9 -1.6 -16.7 -0.4 -0.1
-1.3 3.0 -19.3 40.0 12.5 -11.7 -16.3 15.5 -13.8 14.8 -3.0 24.5
23.3 2.6 -7.3 18.2 12.5 -11.7 -16.3 15.5 10.8 14.4 9.0 2.7
10.9 -11.2 -12.9 -0.4 12.5 -11.7 -16.3 15.5 -1.6 0.6 3.4 -15.9
24.3 -30.4 -18.6 20.3
= 12.5 -11.7 -16.3 15.5
+ 11.8 -18.7 -2.3 4.8
6.8 -6.1 -22.8 -0.4 12.5 -11.7 -16.3 15.5 -5.7 5.7 -6.5 -15.9
10.9 -28.4 -16.7 15.4 12.5 -11.7 -16.3 15.5 -1.6 -16.7 -0.4 -0.1
yij y xx yi x y xx yij y i x
Variabilidades: ejemplo
Variabilid ades Grados de libertad
K ni
VT ¦ ¦ ( yij y xx ) 2 7645.5 n-1 23
i 1j 1
K
VE ¦ ni ( y i x y xx ) 2 4798.1 K-1 3
i 1
K ni
2
VNE ¦ ¦ eij 2847.4 n-K 20
i 1j 1
7645.5 4798.1 2847.4

23 3 20
Interpretación gráfica de la
descomposición
y1x
y 2x
y ix y xx yij y i x
y 3x
y 4x
y xx yij y xx
Distribución de VE
2 V2
yij o N ( Pi , V ) y i x o N ( Pi , )
ni
V
Si P1 P 2 P K que llamaremos P
V2
yix o N (P , )
Pi ni
2 2 2
§ y1x P · § y 2x P · § y P·
¨ ¸ ¨ ¸ ¨ Kx ¸ o F K2
¨V / n ¸ ¨V / n ¸ ¨V / n ¸
© 1¹ © 2 ¹ © K ¹
2 2 2
§ y1x y xx · § y 2x y xx · § y y xx ·
¨ ¸ ¨ ¸ ¨ Kx ¸ o F K2 1
¨ V/ n ¸ ¨ V/ n ¸ ¨ V/ n ¸
© 1 ¹ © 2 ¹ © K ¹
Distribución de VNE
ni
¦ ( yij y ix ) 2
j 1 (ni 1) sî2
yij o N ( Pi ,V 2 ) sî2 o o F n2 1
ni 1 V 2 i
K ni n n nK
1 2
2
¦ ¦ ( yij y ix ) ¦ ( y1 j y1x ) ¦ ( y2 j y 2x ) ¦ ( y Kj y K x ) 2
2 2
i 1j 1 j 1 j 1 j 1
sˆR2
nK nK
(n1 1) sˆ12 (n2 1) sˆ22 (nK 1) sˆK2
nK
(n K ) sˆR2 (n1 1) sˆ12 (n2 1) sˆ22 (nK 1) sˆK2

V2 V2 V2 V2
F n2 1 F n2 1 F n2 1
1 2 K
F n2 K
Contraste (Análisis de la Varianza)
H 0 : P1 P2 P K
H1 : Al menos una es diferente K
¦ ni ( yi x yxx ) 2
(n K ) sˆR2
x 2
o F n2 K x Si Ho es cierto : i 1
2
o F K2 1
V V
K 2
¦ ni ( y i x y x x )
F0 i 1 o FK 1, n K
2
( K 1) sˆR
F0 d FD No se rechaza H 0
F0 ! FD Se rechaza H 0
Tabla de Análisis de la Varianza
Suma de Grados de
Fuentes Cuadrados Libertad Varianzas F
¦ ni ( y i x y xx ) 2
Tratamient os ¦ ni ( y i x y xx ) 2 K 1 ¦ ni ( y i x y xx ) 2 /( K 1)
( K 1) sˆR2
Residual ¦ ¦ ( yij y i x ) 2 nK sˆ 2
R
Total ¦ ¦ ( yij y xx ) 2 n 1
Suma de Grados de
Tratamient os 4798.1 3 1599.3 11.2

Residual 2847.4 20 142.4
Total 7645.5 23
Intervalos de confianza para

las medias
2 V2
yij o N ( Pi , V ) y i x o N ( Pi , )
ni
y i x Pi
o N (0,1)
V
R.R. R.R
ni
tn-K
y i x Pi
o tn K 1-D
sˆR D/2 D/2
ni R. Acept. H0
-tD/2 tD/2
sˆ
Piyix rtD / 2 R
n
i
Intervalos de confianza
Semilla Media L. Inferior L. Superior

A 242.9 235.7 250.1
B 218.7 211.4 225.8
C 214.1 206.9 221.3
D 245.9 238.7 253.1
Intervalos de confianza (95%)
260
250
Rendimiento
240
230
220
210
200
A B C D
Semilla
Diferencia de medias: y1x y2x
V V
P1 P2
y11 ½ y21 ½
y12 °° V2 y22 ° ° V2
y1x o N ( P1 , ) y2x o N ( P 2 , )
¾ n1 ¾ ° n2
°
y1n1 °
¿ y2 n2 °
¿
V2 V2 ½
y1x y 2x o N ( P1 P 2 , )
°
n1 n2 °° ( y1x y 2x ) ( P1 P 2 )
( y1x y 2x ) ( P1 P 2 ) o t n K
o N (0,1) ¾ 1 1
1 1 ° sˆ R
V ° n1 n2
n1 n2 °¿
Contraste multiples
H 0 : Pi Pj
R.R. R.R
H1 : P i z P j tn-K
1-D
yi x y j x D/2
R. Acept. H0
D/2
tij o tn K
1 1 -tD/2 tD/2
sˆR
ni n j
t0 d tD / 2 No se rechaza H 0
t0 ! tD / 2 Se rechaza H 0
Diagnosis del modelo
Modelo
V V V
...
P1 P2 PK
y11 y21 yK1

y12 y22 yK 2
...
y1n y2 n y Kn
1 2 K
Normalidad
yij N(Pi,V2)
Homocedasticidad
Var [yij] = V2
Independencia
Cov [yij, ykl] = 0
Residuos:
Normales y homocedásticos
yij Pi uij
uij yij P i eij yij yix
uij o N (0, V 2 )
Residuos
A B C D
-13,8
10,8
14,8
14,4
-3,0
9,0
24,5
2,7
V
-1,6 0,6 3,4 -15,9
11,8 -18,7 -2,3 4,8
-5,7 5,7 -6,5 -15,9
0
-1,6 -16,7 -0,4 -0,1
0,0 0,0 0,0 0,0
Comprobación de la
normalidad
Los residuos deben de tener distribución normal.
Las observaciones originales también, pero cada
grupo con media diferente, por ello es preciso
estimar el modelo para descontar a cada
observación su media y obtener valores con la
misma distribución.
Herramientas de comprobación:
Histograma de residuos
Gráfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)
Gráfico probabilista normal

Es un gráfico X-Y de los Pasos:
residuos frente a los Ordenar los residuos de
percentiles de la
menor a mayor.
distribución normal.
e(1) d e(2) d d e(n)
La idea básica es que Calcular los percentiles
cuando los residuos de la distribución
tienen distribución
normal
normal, los puntos i 0.5
deben formar Yi ) 1 ( ) u sˆR , i 1,2,..., n
n
aproximadamente Representar
una línea recta.
e(i ) , Yi
Gráfico prob. Normal
(ejemplo)
Orden Resid. Probab. Percen. Percen.
i eij (i-0.5)/n N(0,1) N(0,V )
Q-Q plot
1 -18,7 0,021 -2,04 -24,30
2 -16,7 0,063 -1,53 -18,30
3 -15,9 0,104 -1,26 -15,01 30,0
4 -15,9 0,146 -1,05 -12,58
5 -13,8 0,188 -0,89 -10,58
6 -6,5 0,229 -0,74 -8,85 20,0
7 -5,7 0,271 -0,61 -7,28
8 -3,0 0,313 -0,49 -5,83 10,0
Percentiles
9 -2,3 0,354 -0,37 -4,46
10 -1,6 0,396 -0,26 -3,15
0,0
11 -1,6 0,438 -0,16 -1,88
12 -0,4 0,479 -0,05 -0,62
13 -0,1 0,521 0,05 0,62 -10,0
14 0,6 0,563 0,16 1,88
15 2,7 0,604 0,26 3,15 -20,0
16 3,4 0,646 0,37 4,46
17 4,8 0,688 0,49 5,83
-30,0
18 5,7 0,729 0,61 7,28
19 9,0 0,771 0,74 8,85 -30,0 -20,0 -10,0 0,0 10,0 20,0 30,0
20 10,8 0,813 0,89 10,58 Residuos ordenados
21 11,8 0,854 1,05 12,58
22 14,4 0,896 1,26 15,01
23 14,8 0,938 1,53 18,30
24 24,5 0,979 2,04 24,30
99.9
99
Probabilidad
95
80
50
20
5
1
0.1
-30 -20 -10 0 10 20 30
Residuos
Ejemplos
99,9 99,9
99 99
95 95
80 80
50 50
20 20
5
1
Normal 5
1
No normal
0,1 0,1
-2,6 -1,6 -0,6 0,4 1,4 2,4 3,4 0 3 6 9 12 15
99,9 99,9
99 99
95 95
80 80
50 50
20 20
5
1 No normal
5
1
No normal
0,1 0,1
0 0,4 0,8 1,2 1,6 2 -3 -1 1 3 5
Comprobación de la homocedasticidad
En el proceso de estimación se ha supuesto que los

distintos tratamientos tienen la misma varianza.
Herramientas:
- Gráficos de residuos:
·Frente a valores previstos
·Frente a tratamientos (o factor,etc.)
- Contrastes formales:
Bartlett, Cochran, Hartley, Levene
Residuos - Valores previstos
30
20
En este modelo los valores
10
previstos corresponden a
residuos
0 la media del tratamiento.

-10
-20 Los puntos deben aparecer
-30 dispuestos al azar en una
210 220 230 240 250
valores previstos
banda horizontal alrededor
30
del eje horizontal.
20
Heterocedasticidad: a veces
10
residuos
0
la dispersión aumenta
-10 conforme la media crece.
-20
-30
0 5 10 15
Valores previstos
Residuos por tratamientos

25
15
máx.
Residuos
mín.
-5
-15
-25
A B C D
Semilla
En cada grupo los residuos aparecen esparcidos
con dispersión similar y media cero.
Residuos por tratamientos
25
15
máx.
Residuos
mín.
5
máx
-5 3
mín
-15
-25
A B C D
Semilla
En cada grupo los residuos aparecen esparcidos
con dispersión similar y media cero.
Contrastes formales
V2 VK
V1
...
P1 P2 PK
H 0 : V 12 V 22 V K2
H1 : Alguna es distinta
Contrastes formales
Un ejemplo de este tipo de contrastes formales es el

contraste de Bartlett.
Para el ejemplo de los tipos de semilla se tiene un p-

valor = 0.177>α No se rechaza la hipótesis nula
de homocedasticidad.
Diagnosis: Tres gráficos básicos

0,57 0,57
0,37 0,37
residuos
residuos
0,17 0,17
-0,03 -0,03
-0,23 -0,23
-0,43 -0,43
0 0,3 0,6 0,9 1,2 1 2 3
Valores previstos Tratamientos
99,9
99
Homocedasticidad
probabilidad
95
80
50
20
5
1 Normalidad
0,1
-0,33 -0,13 0,07 0,27 0,47
residuos
99,9
99
probabilidad
95
80
50
20
5
1
0,1
-0,33 -0,13 0,07 0,27 0,47
residuos
Transformaciones z=h(y) para estabilizar la

varianza
En la práctica, en la mayoría de los casos, alguna

de las transformaciones siguientes corrige la
heterocedasticidad:
· 1/x
· log(x)
· x2 (u otras transformaciones xp)
· x
Transformaciones Box-Cox
z ij1,5 p>1
p=1
1
0,5 p<1
0 yij
1
-0,5
-1
yijp 1
z ij
-1,5 p
z ij log yij si p 0
Búsqueda de la
transformación adecuada
0,57
0,37 La dispersión
aumenta al aumentar
residuos
0,17
-0,03 la media
-0,23
-0,43
0 0,3 0,6 0,9 1,2
p<1
Valores previstos
1,6
1,1
0,6
La dispersión
residuos
0,1 disminuye al
-0,4 aumentar la media
-0,9
-1,4
0 4 8 12 16 p>1
valores previstos
p
Elección de la transformación zij yij
Empezar con p=1 (datos sin transformar) y
decidir a partir de los gráficos si p>1 o
p<1.
p 1/ 2 z ij yij
°
° p 0 z ij log yij
° 1
° p 1 / 2 z ij
p 1 o ® yij
° 1
° p 1 z ij
° yij2
°
¯
Parar cuando los gráficos estén ok.
Independencia
Es la hipótesis fundamental y con diferencia la más
importante de las tres, además es la más difícil de
comprobar.
La falta de independencia suele ir ligada a factores no

controlados por el experimentador y que influyen en
los resultados introduciendo errores sistemáticos.
La forma más recomendable de evitar errores

sistemáticos consiste en aleatorizar.
Aleatorización
La aleatorización evita que se produzcan

errores que sistemáticamente aumenten o
disminuyan un conjunto de medidas por
causas no reconocibles: al aleatorizar se
reparten estos errores por igual entre los
diferentes tratamientos y se convierten en
errores aleatorios, previstos en el modelo.
¿Cómo aleatorizar?
Asignar las unidades experimentales al azar a
los distintos tratamientos.
Aleatorizar el orden de ejecución de los
experimentos.
Aleatorizar respecto a cualquier otra variable
que implique diferenciar a los tratamientos.
“La aleatorización es una precaución contra distorsiones
que pueden ocurrir o no ocurrir, y que pudieran ser
serias o no si llegaran a ocurrir”
¿Cómo aleatorizar?
Asignar las unidades experimentales al azar a

los distintos tratamientos.
Aleatorizar el orden de ejecución de los
experimentos.
Aleatorizar respecto a cualquier otra variable
que implique diferenciar a los tratamientos.
“La aleatorización es una precaución contra distorsiones
que pueden ocurrir o no ocurrir, y que pudieran ser
serias o no si llegaran a ocurrir”
Comparación de k tratamientos con R
Ejemplos:
- Comparación de k=4 tipos de semilla en la

producción de centeno (centeno.txt).
- Datos obtenidos por Heyl para medir el valor de la
constante de gravitación universal, G, comparación
para k=3 materiales (heyl.txt).
- Influencia del tipo de fibra en el tiempo de
combustión (fibras.txt).
Ejemplo 1: Centeno
ARCHIVO TEXTO: centeno.txt
Tabla ANOVA: Centeno
Intervalos de confianza: Centeno
> source('ICplot.R')
> ICplot(mod, ‘Sem')
250
medias
230
210
A B C D
Sem
Comparaciones Múltiples: Centeno
Diagnosis: Centeno
Residuals vs Fitted Normal Q-Q
Standardized residuals
19 19
2
Residuals
0 10
1
0
-1
-20
12 12
10 10
215 220 225 230 235 240 245 -2 -1 0 1 2
Fitted values Theoretical Quantiles
Constant Leverage:
Scale-Location Residuals vs Factor Levels
1.5
19
19
2
10
12
1.0
1
0
0.5
-1
12
0.0
10
-2
centeno$Sem :
215 220 225 230 235 240 245 C B A D
Fitted values Factor Level Combinations
Ejemplo 2: Datos de Heyl
Datos de las mediciones realizadas para G (x 1011 N m2/kg2)
ANOVA Ejemplo 2: Datos de Heyl
Comparaciones múltiples: Datos de Heyl
El objetivo es saber qué tipo de semilla es mejor.
Comparaciones 2 a 2
Comparaciones 2 a 2
Diagnosis: Datos de Heyl
Ejemplo 3: Combustión de distintos tipos de

fibra
Se ha realizado un experimento para medir el tiempo de

combustión de unos retales de cuatro fibras diferentes. En
la tabla siguiente se proporcionan los resultados obtenidos
(en segundos) del modelo.
fibra
Se ha realizado un experimento para medir el tiempo de

combustión de unos retales de cuatro fibras diferentes. En
la tabla siguiente se proporcionan los resultados obtenidos
(en segundos) del modelo.
- ¿Tienen las cuatro fibras igual comportamiento respecto al

tiempo de combustión? Indique el nivel crítico del
contraste.
- ¿Cuál es la fibra que presenta menor tiempo medio de
combustión?.
- Analizar los residuos comprobar las hipótesis del modelo.

fibra
Se rechaza la hipótesis nula de que todas las fibras sean

iguales frente a la alternativa de que alguna es distinta,
con un p-valor de 0.0001016 < α.
fibra
Comparaciones múltiples. El mayor tiempo de combustión,
significativamente distinto a los anteriores: fibra A. En media
la C es la que tiene menor tiempo de combustión, pero no
significativamente distinta a la B y D.

fibra

Análisis de la varianza con R:
comparación de dos tratamientos
Ejemplos:
- Velocidad de la luz: Michelson vs. Newcomb

- Sensores
- Pilas

Ejemplo 1: Michelson
En 1879, el físico norteamericano Albert A. Michelson tomó 100 medidas de la

velocidad de la luz en el aire empleando una modificación del método propuesto
por el físico francés Foucault. Las medidas que tomó se proporcionan a
continuación (en miles de km/s).
En 1882 Simon Newcomb midió el tiempo que una señal luminosa tardaba en recorrer
una distancia de 7.442 metros.
En el fichero Michelson.txt se incorporan los datos obtenidos de ambos experimentos,
en miles de km/s.
Los datos de Michelson y Newcomb fueron tomados con una diferencia de tres años y
con experimentos diferentes. Basándose en los resultados anteriores sobre el
modelo distribucional del que proceden estos datos, responde las siguientes
cuestiones:
- Compare gráficamente los datos de la velocidad de la luz de Newcomb y de
Michelson (diagramas de cajas e histogramas).
- Analice si existen diferencias significativas entre las estimaciones de la velocidad de
la luz obtenidas en ambos experimentos.


Comparación de los métodos de Michelson (M) y Newcomb (N):

Diagnosis: Contraste de Bartlett

Diagnosis: Contraste de Bartlett
Se rechaza la hipótesis nula de igualdad de varianzas
H 0 : V MICHELSON
2
V NEWCOMB
2
H1 : V MICHELSON
2
z V NEWCOMB
2
El rechazo de la hipótesis nula se debe a la presencia de valores

atípicos en el experimento de Newcomb.

Ejemplo 2: Sensores
Una empresa suministra tubos de escape a la industria del automóvil. En el tubo de

escape se coloca un sensor que comunica al ordenador del coche el contenido de
CO en los gases de escape. La empresa dispone de dos tipos de sensores A y B
basados en principios de medición diferentes. Tanto uno como otro se colocan en el
silencioso del tubo de escape. El departamento de I+D de la empresa sospecha que
pueden existir diferencias entre las mediciones efectuadas por los dos tipos de
sensor y decide realizar un experimento. La primera idea consiste en seleccionar 10
sensores del tipo A y otros 10 del tipo B y colocarlos en los tubos de escape de 20
coches distintos.
No obstante un ingeniero de la empresa sugiere que para evitar que la variabilidad
entre coches distintos enmascare los resultados del experimento, se utilicen 10
coches y que en cada uno de ellos se monte un sensor A y otro B ambos colocados
en el silencioso y en dos posiciones cercanas entre sí.
¿Qué procedimiento experimental le parece más adecuado? ¿Por qué?.
Finalmente se opta por el plan experimental propuesto por el ingeniero. El contenido en
partes por millón de CO observado en el experimento fue el que se indica en la
tabla (Sensor.txt):

Ejemplo 2: Sensores

Ejemplo 2: Sensores
No existen diferencias significativas entre los tipos de

sensores A y B

Ejemplo 2: Sensores
Diagnosis del modelo: Comprobación de la homocedasticidad

e independencia.

Ejemplo 2: Sensores
Diagnosis del modelo: Comprobación de la homocedasticidad

mediante el contraste de Bartlett. Alternativa sólo válida para
k=2 tratamientos.

Ejemplo 3: Tiempo de descarga de pilas
Se ha medido el tiempo hasta la descarga de dos marcas de

pilas y se desea contrastar si en base a esta variable las dos
marcas son distintas.
Tabla de datos: Energizer Ultracell

1,40 1,56
1,39 1,54
1,35 1,53
1,38 1,54
1,35 1,54
1,36 1,47
1,31 1,49
1,26 1,54
1,37 1,50

Se ha medido el tiempo hasta la descarga de dos marcas de

pilas y se desea contrastar si en base a esta variable las dos
marcas son distintas.

Comparaciones dos a dos del ejemplo PILAS2:

Diagnosis del ejemplo PILAS2:

Contraste de Bartlett para el ejemplo PILAS2:
No se rechaza la hipótesis nula de homocedasticidad

(igualdad de varianzas).

Análisis de la Varianza, comparación de 2 tratamientos
1. Se estudian dos tipos de neumáticos con los resultados siguientes:

Tipo ni xi (Km) sbi (Km)
A 121 27465 2500
B 121 27572 3000
Calcular, con α = 0.01:
σ 21
a) Un intervalo de confianza para σ 22
.
b) Un intervalo de confianza para µ1 − µ2 .
2. Se dispone de rendimientos de dos máquinas. Los resultados de la máquina A son 137.5;

14.07; 106.9; 175.1; 177.3; 120.4; 77.9 y 104.2, mientras que los reultados para la B son: 103.3;
121.7; 98.4; 161.5; 167.8 y 67.3. ¿Son las máquinas iguales? (Suponer que los rendimientos
de ambas máquinas siguen distribuciones normales).
3. Un fabricante de automóviles debe elegir entre un determinado tipo de piezas de acero

suministradas por un proveedor A y otras suministradas por otro proveedor B. Para proceder
a la elección se ha analizado la resistencia a la tracción de las piezas suministradas por ambos
proveedores, tomando una muestra de tamaño 10 de las piezas del primero, y otra de tamaño
12 del segundo. La resistencia media de la muestra de A es de 54000 unidades y la de la
muestra de B es de 49000 unidades, siendo las desviaciones tı́picas muestrales corregidas
sbA = 2100 y sbB = 1900. Las resistencias de las piezas de ambos proveedores se distribuyen
normalmente. Las piezas del proveedor B son más baratas que las del proveedor A, por lo
que estas últimas sólo son rentables si tienen una resistencia media al menos 2000 unidades
mayor que las de B, y la misma variabilidad.
a) ¿A qué proveedor habrı́a que comprar las piezas a la vista de los resultados muestrales?
b) Obtener un intervalo de confianza al 90% para la diferencia de medias de la resistencia
de las piezas de los proveedores A y B.
Análisis de la Varianza, comparación de k tratamientos
1. En una fábrica de automóviles se utiliza una misma planta para el ensamblaje de tres modelos
distintos (A, B y C). Para determinar si los modelos reciben el mismo tratamiento, se ha
realizado un control de calidad a una muestra tomada para cada modelo. El número de
defectos encontrados para cinco vehı́culos del modelo A son 5, 4, 6, 6 y 7; para seis vehı́culos
del modelo B son 7, 8, 6, 7, 6 y 5; y para ocho vehı́culos del modelo C: 9, 7, 8, 9, 10, 11, 10 y
10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos.
1
2. Una empresa debe elegir entre cinco procedimientos para fabricar un cierto producto quı́mico.
Se sospecha que existen diferencias entre ellos aunque pequeñas. Para detectar estas diferen-
cias se pretende realizar un experimento a gran escala con el mismo número de observaciones
en cada grupo. Para determinar este tamaño muestral se ha realizado un experimento piloto
con 6 observaciones de cada método y los resultados (medias de cada grupo) han sido los
siguientes:
METODO 1 2 3 4 5
Media 425.6 423.2 418.8 430.2 422.2
y la varianza residual ŝ2R = 198.5.
(a) ¿ Cúal debe ser el tamaño muestral del experimento a gran escala para que el contraste
de análisis de la varianza sea significativo con α = 0.01 si el coeficiente de determinación
es igual al del experimento piloto?.
(b) El método A es el procedimiento habitual y el método D es el que se sospecha propor-
ciona mejor rendimiento. Una hipótesis que se pretende contrastar es H0 : µD = µA ,
frente a la hipótesis alternativa H1 : µD > µA . ¿ Qué condición debe cumplir la difer-
encia entre las medias muestrales de los dos métodos para rechazar H0 con α = 0.01?
3. Se ha realizado un experimento para estudiar el efecto de un único factor con I niveles

en la variable respuesta y con un número diferente de observaciones en cada tratamiento:
n1 , n2 , ..., nI siendo el total n = n1 + n2 + · · · + nI . Llamando yij a la observación j del
tratamiento i, i = 1, ..., I, j = 1, 2, ..., ni e ȳi• la media del tratamiento i. Se desea estimar
la media general ¿cuál de los dos estimadores siguientes
I ∑
∑ ni
∑
I
yij ȳi•
i=1 j=1 i=1
y •• = , ỹ•• =
n I
tiene mı́nima varianza? Realiza la comprobación para el caso I = 5, con ni = 3, 2, 3, 5, 6 el
número de observaciones en cada tratamiento. Asumir que las observaciones son independi-
entes y que se cumple la hipótesis de homocedasticidad.
4. Considere la comparación de dos tratamientos en poblaciones normales. Demuestre que el

contraste t para comparar dos medias es análogo al contraste de la F en Análisis de la
Varianza (suponga n1 = n2 ).
5. Cinco tipos (A, B, C, D y E) de material sintético se han sometido a un ensayo de desgaste.

Para cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviación
tı́pica corregida en cada caso es la siguiente:
A B C D E
media xi 14.1 16.3 13.5 14.8 15.3
d. tı́pica ŝi 1.3 1.2 1.4 1.2 1.5
2
(a) Contrastar (α = 0.05) la hipótesis
H0 : µA = µB = µC = µD = µE
frente a la hipótesis alternativa,
H1 : alguna media es distinta de las demás.

(b) Indicar con nivel de confianza 0.95 el material con desgaste menor y qué materiales
tienen desgaste medio, distinto.
(c) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental.
6. Se desea comprobar el efecto de un tratamiento térmico sobre la resistencia de un nuevo

material. Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1 ,
T2 y T3 obteniendo como medida de resistencia superficial los valores siguientes:
T1 T2 T3
2.65 4.31 4.81
2.67 3.96 5.32
2.46 4.64 4.93
1.90 4.74 5.49
2.62 4.00 4.45
(a) Contrastar mediante el test de análisis de la varianza si existen diferencias significativas

entre los tratamientos térmicos (α = 0.01).
(b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dos
tratamientos. Si la relación entre la resistencia y la temperatura es lineal, es de esperar
que la media del tratamiento 2 verifique : H0 : µ2 = 12 (µ1 + µ3 ). Hacer el contraste
bilateral de esta hipótesis con α = 0.05. (Nota.- Usar la distribución de y 2 −(y 1 +y 3 )/2,
donde y i es la media de los datos correspondientes al tratamiento Ti ).
7. Un fabricante sospecha que los lotes de materia prima recibidos de un proveedor difieren
significativamente de su contenido en calcio. Elige al azar 5 lotes diferentes y un quı́mico
hace cinco determinaciones del contenido en calcio de cada lote. Los resultados obtenidos
han sido
Lote 1 Lote 2 Lote 3 Lote 4 Lote 5
23.46 23.59 23.51 23.28 23.29
23.48 23.46 23.64 23.40 23.46
23.56 23.42 23.46 23.37 23.37
23.39 23.49 23.52 23.46 23.32
23.40 23.50 23.49 23.29 23.38
La tabla de análisis de la varianza se proporciona a continuación. Comparar las medias de
los cinco tratamientos con nivel de significación total αT = 0.10.
3
Análisis de la varianza
Fuente Variabilidad g.l. Var. Media F Nivel crı́tico
Lote 0.096976 4 0.024244 5.54 0.0036
Residuos 0.08760 20 0.00438
Total 0.184576 24
4
2. Diseño de Experimentos
Diseño de experimentos:
Diseños Factoriales
Bloques Aleatorizados
Formas de realizar un experimento
Diseño Experimentos 3
2.1 Diseños factoriales

(dos factores)
Ejemplo
ANTÍDOTO
A B C D
0.31 0.82 0.43 0.45
0.45 1.10 0.45 0.71
I
V 0.46 0.88 0.63 0.66
E 0.43 0.72 0.72 0.62
N 0.36 0.92 0.44 0.56
E 0.29 0.61 0.35 1.02
II
N 0.40 0.49 0.31 0.71
O 0.23 1.24 0.40 0.38
S 0.22 0.30 0.23 0.30
0.21 0.37 0.25 0.36
III
0.18 0.38 0.24 0.31
0.23 0.29 0.22 0.33
Se analiza el efecto de tres venenos y cuatro antídotos

en el tiempo de supervivencia de unas ratas.
Comandos en R
ARCHIVO TEXTO: venenos.txt
Modelo
Factor 1
1 2 I
y111 y 211 y I 11 yijk P D i E j DE ij uijk
y112 y 212 y I 12
1
•Normalidad
Factor 2
y11m y 21m y I 1m
y121 y 221 y I 21 •Independencia
2
y122 y 222

y I 22 •Homocedasticidad

y12 m y 22 m y I 2m IuJ tratamientos

y1J 1 y2 J 1 y IJ 1 m replicaciones
y1J 2 y2 J 2 y IJ 2
J
n = muIuJ
y1Jm y 2 Jm y IJm
Factor 1
1 2 ... I
1
V V
... V
P D1 E1 DE11 P D 2 E1 DE 21 P D I E1 DE I 1
V V
... V
Factor 2
2
P D1 E 2 DE12 P D 2 E 2 DE 22 P D I E 2 DE I 2

J
V V
... V
P D1 E J DE1J P D 2 E J DE 2 J P D I E J DE IJ
Modelo
yijk P D i E j DE ij uijk
¦iI 1Di 0 ¦ Jj 1 E j 0 ¦i
I
1 DE ij 0, j
¦ Jj 1DE ij 0, i
P : Media global
Di : Efecto del Factor 1 i, i=1,...,I
Ej : Efecto del Factor 2 j, j=1,...,J
DEij: Interacción de niveles ij
uijk : Componente aleatoria N(0,V2), k=1,…m
Estimación del modelo

P :o 1 Pˆ y xxx
Dˆ i y ixx y xxx
D i :o I 1
Eˆ j y x j x y xxx
E j :o J 1
DE ij y ij x y ixx y x j x y xxx
DE ij :o ( I 1)( J 1)
Vˆ 2 2
sˆR
¦¦¦ eijk2
V 2 :o 1 IJ (m 1)
m J m I m I J m
¦y ijk ¦¦ y
j 1 k 1
ijk ¦¦ y ijk ¦¦¦ y
i 1 j 1 k 1
ijk
k 1 i 1 k 1
y ij x y ixx y x jx y xxx
m mJ mI n
yijk P D i E j DE ij uijk
yijk Pˆ Dˆ i Eˆ j DEij eijk
eijk yijk ( Pˆ Dˆ i Eˆ j DEij ) yijk yij x
g.l.=IJm-IJ=IJ(m-1)
Estimación
ANTÍDOTO
A B C D
0.31 0.82 0.43 0.45
V 0.45 1.10 0.45 0.71
I
0.46 0.88 0.63 0.66
E 0.43 0.72 0.72 0.62
0.41 0.88 0.56 0.61
N 0.36 0.92 0.44 0.56
0.29 0.61 0.35 1.02
II
E 0.40 0.49 0.31 0.71
0.23 1.24 0.40 0.38
N 0.32 0.82 0.38 0.67
0.22 0.30 0.23 0.30
O 0.21 0.37 0.25 0.36
III
0.18 0.38 0.24 0.31
S 0.23 0.29 0.22 0.33
0.21 0.34 0.24 0.33
Estimación
A
ANTÍDOTO
B C D Medias D̂ i
0,31 0,82 0,43 0,45
0,45 1,10 0,45 0,71
V I 0,46 0,88 0,63 0,66 0,615 0,136
0,43 0,72 0,72 0,62
E Medias 0,41 0,88 0,56 0,61
N
DE ij -0,038
0,36
0,067
0,92
0,032
0,44
-0,061
0,56
0,29 0,61 0,35 1,02
E II 0,40 0,49 0,31 0,71 0,544 0,066
0,23 1,24 0,40 0,38
N Medias 0,32 0,82 0,38 0,67
DE ij -0,060 0,073 -0,080 0,068
O 0,22 0,30 0,23 0,30
0,21 0,37 0,25 0,36
S III 0,18 0,38 0,24 0,31 0,276 -0,202
0,23 0,29 0,22 0,33
Medias 0,21 0,34 0,24 0,33
DE ij 0,098 -0,139 0,048 -0,007
Medias 0,314 0,677 0,389 0,534 0,479
Ê j -0,164 0,198 -0,089 0,056
Dos factores con interacción
Residuos
RESIDUOS
ANTÍDOTO
eijk yijk yij x
¦e
A B C D
V
I
-0.103
0.038
-0.060
0.220
-0.128
-0.108
-0.160
0.100 ijk 0
0.048 0.000 0.073 0.050
E 0.018 -0.160 0.163 0.010
k
0.00 0.00 0.00 0.00
N 0.040 0.105 0.065 -0.108
-0.030 -0.205 -0.025 0.353
II
E 0.080 -0.325 -0.065 0.043
-0.090 0.425 0.025 -0.288
Vˆ 2
sˆ 2 ¦¦¦ e 2
ijk
0,022
N 0.00 0.00 0.00 0.00 IJ (m 1)
R
0.010 -0.035 -0.005 -0.025

O 0.000 0.035 0.015 0.035
III
-0.030 0.045 0.005 -0.015
S 0.020 -0.045 -0.015 0.005
0.00 0.00 0.00 0.00
Descomposición de la variabilidad
VT VE ( A) VE ( B) VE ( A u B) VNE
(n 1) ( I 1) ( J 1) ( I 1)( J 1) IJ (m 1)
DATOS MODELO
Variabilidades
I J m
VT ¦¦¦(y
i 1 j 1 k 1
ijk y xxx ) 2
I I
VE ( A) mJ ¦ ( y i xx y xxx ) 2
mJ ¦ (Dˆ i ) 2
i 1 i 1
J I
VE ( B ) mI ¦ ( y x j x y xxx ) 2 mI ¦ ( Eî ) 2
j 1 i 1
I J
VE ( A u B ) m¦ ¦ (DE ij ) 2
i 1 j 1
I J m I J m
VNE ¦¦¦(y
i 1 j 1 k 1
ijk y ij x ) 2
¦ ¦ ¦ (e
i 1 j 1 k 1
ijk )2
variabilidad
Análisis de la varianza

yijk P D i E j DEij uijk yijk Pˆ Dˆ i Eˆ j DE ij eijk
yijk y xxx ( y ixx y xxx ) ( y x j x y xxx ) ( y ij x y ixx y x j x y xxx ) ( yijk y ij x )
yijk y xxx ( y ixx y xxx ) ( y x j x y xxx ) ( y ij x y ixx y x j x y xxx ) eijk
I J m I J m I J m
¦¦ ¦ ( y
i 1 j 1 k 1
ijk y xxx ) 2 ¦¦¦ ( y
i 1 j 1 k 1
i xx y xxx ) 2 ¦¦¦ ( y x j x y xxx ) 2
i 1 j 1 k 1
I J m I J m
¦¦¦ ( y ij x y ixx y x j x y xxx ) 2 ¦¦¦ eijk2
i 1 j 1 k 1 i 1 j 1 k 1
I J m I J
¦¦ ¦ ( yijk y xxx )2
i 1 j 1 k 1
mJ ¦ ( y ixx y xxx ) 2 mI ¦ ( y x j x y xxx ) 2
i 1 j 1
I J I J m
m¦¦ ( y ij x y ixx y x j x y xxx ) ¦¦¦ eijk2 2
i 1 j 1 i 1 j 1 k 1
Contraste de Hipótesis
Si el Veneno no influye, los I niveles son iguales
a efectos de tiempo de supervivencia, entonces
D1 D 2 D I ¦iI 1Di 0
H 0 : D1 D 2 DI 0
H1 : Algún D i es distinto de 0
Contraste efecto principal de factor A
H 0 : D1 D 2 DI 0
VNE
sˆR2 o E[ sˆR2 ] V 2
IJ (m 1)
VE ( A)
Si Ho es cierto, sˆ A2 o E[ sˆ A2 ] V 2
I 1
I
sˆ 2 mJ ¦ ( y i xx y xxx ) 2 I 1
FA A
2
i 1
2
o FI 1; IJ ( m 1)
sˆ R sˆ R
Si FA ! FD Se rechaza Ho
Contraste efecto principal de factor B
H 0 : E1 E2 E J 0
H1 : Algún E j es distinto de 0
VE ( B)
Si Ho es cierto, sˆ 2
o E[ sˆB2 ] V 2
J 1
B
J
2 mI ¦ ( y x j x y xxx ) 2 J 1
sˆ j 1
FB B
2 2
o FJ 1; IJ ( m 1)
sˆ R sˆ R
Si FB ! FD Se rechaza Ho
Contraste interacción AxB

H 0 : DE11 DE12 DE IJ 0
H 1 : Algún DE ij es distinto de 0
VE ( A u B)
Si Ho es cierto, sˆ 2
o E[ sˆ AB
2
] V2
( I 1)( J 1)
AB
2
sˆ AB
FAB 2
o F( I 1)( J 1); IJ ( m 1)
sˆR
Si FAB ! FD Se
rechaza

Ho

A y B interaccio nan
Tabla de análisis de la varianza
Fuentes Suma de Grados de
Variabilid ad Cuadrados Libertad. Varianza F p valor
2
sˆ
mJ ¦ ( y ixx y xxx )
A
2 2
A I 1 sˆ A sˆR2 pA
sˆB2
B mI ¦ ( y x j x y xxx ) 2
J 1 sˆB2 sˆR2 pB
2
sˆ AB
AuB m¦¦ ( yij x y ixx y x j x y xxx ) 2
( I 1)( J 1) 2
sˆ AB sˆR2 p AB
Residual ¦¦¦ e 2
ijk IJ (m 1) sˆR2
Total ¦¦¦ ( y y ijk xxx )2 n 1
Tabla ANOVA
Interpretación
La interacción no es significativa
Se interpreta cada factor por

separado
Contrastes múltiples: Factor A
H 0 : Di Dj R.R. R.R
tIJ(m-1)
H1 : D i z D j
1-D
D/2 D/2
Dˆ i y i xx y xxx ½
¾ Dˆ i Dˆ j y i xx y j xx R. Acept. H0
Dˆ j y j xx y xxx ¿
-tD/2 tD/2
V2 V2
Dˆ i Dˆ j o N (D i D j , )
mJ mJ
y i xx y j xx yixx y j xx ! tD / 2 sˆR
2
o t IJ ( m 1)
mJ

2
sˆR
LSD
mJ Se rechaza Ho
Contrastes múltiples: Factor B
H 0 : Ei Ej R.R. R.R
tIJ(m-1)
H1 : E i z E j 1-D
D/2 D/2
Eî y xi x y xxx ½
¾ Eˆ i Eˆ j y xi x y x j x R. Acept. H0
Eˆ j y x j x y xxx ¿
-tD/2 tD/2
V2 V2
Eî Eˆ j o N ( E i E j , )
mI mI
yxi x y x j x yxix yx j x ! tD / 2 sˆR
2
o t IJ ( m 1)
mI

2
sˆR LSD
mI Se rechaza Ho
(interacción nula)
sˆR
P D i y i xx r tD / 2
mJ
sˆR
P E i y x j x r tD / 2
mI
Intervalos de Confianza
> par(mfrow = c(1,2))
> ICplot(mod_box, 'VEN')
> ICplot(mod_box, 'ANT')
0.7
0.7
0.6
0.6
0.5
medias
medias
0.5
0.4
0.4
0.3
0.3
0.2
I II III A B C D
VEN ANT
Comparaciones Múltiples
Comparaciones Múltiples
Interacción
En este ejemplo NO se debe interpretar
porque no es significativa.
¿Cómo se haría?
Diagnosis: Sobre residuos
Normalidad
Homocedasticidad
Independencia
Diagnosis
Diagnosis: homocedasticidad
Homocedasticidad
Normalidad
Conclusión:Transformar
log y
1/y
Sqrt(y)
Transformación 1/y
Diagnosis: homocedasticidad
datos transformados z=1/y
Homocedasticidad
Normalidad
Comparaciones múltiples
intervalos de confianza
Ejercicio
Un investigador quiere estudiar el efecto del sexo (H, M) y
tipo de formación (ciencias, letras) en el dominio del inglés
escrito en profesores universitarios. Para ello se analiza el
nº de incorrecciones gramaticales en artículos científicos
enviados a publicación. Para combinación de niveles de los
factores se han elegido al azar tres profesores. En la tabla
se proporciona el nº de fallos detectados en artículos de 15
páginas. ¿Qué conclusiones pueden extraerse?.
Letras Ciencias
Hombre 8, 6, 13 22, 28,33
Mujer 5,10,6 12,14,9
Comandos en R
ARCHIVO TEXTO: ciencias.txt
> view(error)
> attach(error)
> names(error)
> error
Estimación
Descomposición variabilidad
Análisis de la Varianza
• Considerando nivel de significación 0,05,

los efectos principales y la interacción son SIGNIFICATIVOS
• La interpretación se hace a partir del gráfico de interacción
Interacción:
En este ejemplo es significativa.
Diagnosis: Sobre residuos
Normalidad
Homocedasticidad
Independencia
Diagnosis
Diagnosis: más graficos
Bloques Aleatorizados
Ejemplo de introducción
Fluorita
0% 1% 2% 3% 4%
M 1 15.02 11.86 9.94 12.45 13.23
e 2 8.42 10.15 8.54 6.98 8.93
z 3 18.31 16.84 15.86 14.64 15.96
c 4 10.49 10.52 8.04 10.50 10.34
l 5 9.78 9.59 6.96 8.15 9.24
a 6 9.28 8.84 7.04 6.66 9.46
Se desea estudiar el efecto de la Fluorita en la

reducción del coste energético en la fabricación de
cemento. Se emplean 6 mezclas distintas de materias
primas.
> fluorita = read.table('fluorita.txt', header = T)
> attach(fluorita)
> FLUO = factor(fluo)
> MEZ = factor(mez)
> fluorita
Modelo
Tratamientos
1 2 I yij P D i E j uij
1 y11 y21 y I 1
•Normalidad
Bloques
2 y12 y22 y I 2
•Independencia
J y1J y2 J y IJ •Homocedasticidad
P : Media global
Di : Efecto del tratamiento i, i=1,...,I ¦iI 1Di 0
Ej : Efecto del bloque j, j=1,2,...,J ¦ Jj 1 E j 0
uij : Componente aleatoria N(0,V2)
Tratamientos
1 2 ... I
1
V V
... V
P D1 E1 P D 2 E1 P D I E1
V V
... V
Bloques
2
P D1 E 2 P D2 E2 P D I E2

J
V V
... V
P D1 E J P D2 E J P DI EJ

Pˆ y xx
P :o 1 °
°D :o I 1 °° Dˆ i y i x y xx
° i Eˆ j y x j y xx
Parámetros : ® Estimadore s : ®
° E j :o J 1 °
¦ ¦ eij2
°¯ V 2 :o 1 °Vˆ 2 sˆ 2
°¯ R
( I 1)( J 1)
J I I J
¦ yij ¦ yij ¦ ¦ yij
j 1 i 1 i 1j 1
yix yx j y xx
J I n
yij P D i E j uij eij yij Pˆ Dˆ i Eˆ j

yij Pˆ Dˆ i Eˆ j eij yij y i x y x j y xx
Estimación
1 2 I Eˆ j
1 y11 y 21 yI1 y x1 y x1 y xx
2 y12 y 22 yI 2 y x2 y x 2 y xx

J y1J y2 J y IJ yxJ y x J y xx
y 1x y 2x yIx y xx
Dˆ i y 1x y xx y 2 x y xx y I x y xx
Estimación (ejemplo)
Fluorita
0% 1% 2% 3% 4%
M 1 15.02 11.86 9.94 12.45 13.23 12.50 1.77
e 2 8.42 10.15 8.54 6.98 8.93 8.60 -2.13
z 3 18.31 16.84 15.86 14.64 15.96 16.32 5.59 Ej
c 4 10.49 10.52 8.04 10.50 10.34 9.98 -0.76
l 5 9.78 9.59 6.96 8.15 9.24 8.74 -1.99
a 6 9.28 8.84 7.04 6.66 9.46 8.26 -2.48
11.88 11.30 9.40 9.90 11.19 10.73
1.15 0.57 -1.34 -0.84 0.46
Di
Residuos: Varianza residual
eij yij Pˆ Dˆ i Eˆ j yij y i x y x j y xx
Fluorita
0% 1% 2% 3% 4%
M 1 1.37 -1.21 -1.22 0.79 0.27
e 2 -1.33 0.98 1.27 -0.79 -0.13
z 3 0.84 -0.05 0.88 -0.84 -0.82
c 4 -0.64 -0.02 -0.60 1.36 -0.10
l 5 -0.11 0.28 -0.45 0.24 0.04
a 6 -0.13 0.02 0.12 -0.76 0.74
¦ ¦ eij2 17.51
sˆR2 0.88
( I 1)( J 1) 20
Estimación
Variabilidades
I J
VT ¦¦ ( y
i 1 j 1
ij y xx ) 2
I
VE (T ) J ¦ ( y i x y xx ) 2
i 1
J VT VE (T) VE (B) VNE
VE ( B ) I ¦ ( y x j y xx ) 2
j 1
I J (n 1) ( I 1) ( J 1) ( I 1)( J 1)
VNE ¦¦ eij2
i 1 j 1
Descomposición de la variabilidad
yij P D i E j uij yij Pˆ Dˆ i Eˆ j eij

yij y xx ( y ix y xx ) ( y x j y xx ) ( yij y ix y x j y xx )
yij y xx ( y ix y xx ) ( y x j y xx ) ( yij y ix y x j y xx )
I J I J I J I J
¦¦ ( y
i 1 j 1
ij y xx ) 2
¦¦ ( y
i 1 j 1
ix y xx ) ¦¦ ( y x j y xx ) ¦¦ eij2
2
i 1 j 1
2
i 1 j 1
I J I J I J
¦¦ ( y
i 1 j 1
ij y xx ) 2
J ¦ ( y ix y xx ) I ¦ ( y x j y xx ) ¦¦ eij2
i 1
2
j 1
2
i 1 j 1
Contraste de Hipótesis
Si la Fluorita no influye, los I tratamientos
son iguales a efectos de coste, entonces
D1 D 2 D I ¦iI 1Di 0
H 0 : D1 D 2 DI 0
Contraste sobre tratamientos
H 0 : D1 D 2 DI 0
VNE
sˆR2 o E[ sˆR2 ] V 2
( I 1)( J 1)
VE (Tratamient os)
Si Ho es cierto, sˆT2 o E[ sˆT2 ] V 2
I 1
I
J ¦ ( y i x y xx ) 2 I 1
sˆT2 i 1
FT o FI 1;( I 1)( J 1)
sˆR2 sˆR2
Si FT ! FD Se rechaza Ho
Explicación del contraste

Si Ho es cierto D i 0 yij o N ( P E j , V 2 )
yi1 yi 2 yiJ JP ¦ Jj 1 E j
yix , E[ y i x ] P
J J
V2
y1x , y 2x ,..., y I x o N ( P , )
J
I ª I 2º
J ¦ ( y i x - y xx )2 « J ¦ ( y i x - y xx ) »
y1x y 2x y I x
y xx sˆT2 i 1
E« i 1 » V2
I I 1 « I 1 »
«¬ »¼
Cuando Ho es cierto, sˆT2 y sˆR2 serán parecidas.

Cuando Ho es falso, sˆT2 será mayor que sˆR2 .
Contraste de bloques
H 0 : E1 E2 E J 0
H1 : Algún E j es distinto de 0
VE (Bloques)
Si Ho es cierto, sˆB2 o E[ sˆB2 ] V 2
J 1
J
I ¦ ( y x j y xx ) 2 J 1
sˆB2 j 1
FB o FJ 1;( I 1)( J 1)
sˆR2 sˆR2
Si FB ! FD Se rechaza Ho
Tabla de análisis de la varianza

Variabilid ad Cuadrados Libertad. Varianza F p valor
sˆT2
Tratamient o J ¦ ( y i x y xx ) 2 I 1 sˆT2 sˆR2 pT
sˆB2
2
Bloque I ¦ ( y x j y xx ) J 1 sˆB2 sˆR2 pB
Residual ¦ ¦ eij2 ( I 1)( J 1) sˆR2
Total ¦ ¦ ( yij y xx ) 2 n -1
Tabla ANOVA
El tratamiento ( % fluorita) y el bloque ( mezcla) son

SIGNIFICATIVOS.
(ejemplo)
sˆR
P D i y i x r tD / 2
J
Fluorita Medias L.inf. L.Sup.

0% 11.88 11.09 12.68
1% 11.30 10.50 12.10
2% 9.40 8.60 10.19
3% 9.90 9.10 10.69
4% 11.19 10.40 11.99
Intervalos de Confianza (% Fluorita)
> ICplot(mod_flu, "FLUO")
12
medias
11
10
9
0 1 2 3 4
FLUO
Intervalos de Confianza (Mezcla)

> ICplot(mod_flu, "MEZ")
16
14
medias
12
10
8
1 2 3 4 5 6
MEZ
Contraste multiples: tratamientos
t(I-1)(J-1)
H1 : D i z D j
1-D
Dˆ i y i x y xx ½ D/2 D/2
¾ Dˆ i Dˆ j yix y jx R. Acept. H0
Dˆ j y j x y xx ¿
-tD/2 tD/2
V2 V2
J J
yi x y j x 2
o t( I 1)( J 1) y i x y j x ! tD / 2 sˆR Se rechaza H 0
2
J

sˆR
J LSD
Contraste multiples: bloques
H 0 : Ei Ej R.R. R.R
t(I-1)(J-1)
H1 : E i z E j
1-D
Eî y xi y xx ½° D/2 D/2
¾ Eî Eˆ j y xi y x j R. Acept. H0
Eˆ j y x j y xx °¿
-tD/2 tD/2
V2 V2
Eî Eˆ j o N ( E i E j , )
I I
yxi yx j 2
o t( I 1)( J 1) y xi y x j ! tD / 2 sˆR Se rechaza H 0
2
I

sˆR
I LSD
Comparación de medias
Fluorita LSD = 1.13
0% 1% 2% 3% 4%
2
LSD tD / 2 sˆR 0% 0 0,58 2,49 1,99 0,69
J 1% 0 1,90 1,40 0,11
2% 0 -0,50 -1,80
2
2.085 u 0.93 u 3% 0 -1,30
6 4% 0
1.13
LSD=1.24
Mezcla 1 2 3 4 5 6
2 1 0,00 3,90 -3,82 2,52 3,76 4,24
LSD tD / 2 sˆR 2 0 6,60 -1,37 -0,14 -0,35
I 3 0 6,34 7,58 8,07
2 4 0 1,23 1,72
2.085 u 0.93 u
5 5 0 0,49
1.24 6 0
Comparación de medias (Tukey)
95% family-wise confidence level

1-0
2-0
3-0
4-0
2-1
3-1
4-1
3-2
4-2
4-3
-4 -2 0 2
Differences in mean levels of FLUO
Comparación de medias (Tukey)
95% family-wise confidence level
2-1
4-1
6-1
4-2
6-2
5-3
5-4
6-5
-10 -5 0 5 10
Differences in mean levels of MEZ
Sin bloques
El % de FLUORITA no es SIGNIFICTIVO.
No se detectan diferencias
La Varianza residual es muy grande (10.6113)
Diagnosis: 2
1.5
Homocedasticidad 1
0.5
0
-0.5
Gráfico de residuos -1
-1.5
2 -2
1.5 0 1 2 3 4 5 6
1 Mezcla
0.5
0 1.6
-0.5 1.2
-1 0.8
residuos
-1.5 0.4
-2 0
0 1 2 3 4 -0.4
Fluorita -0.8
-1.2
-1.6
5 10 15 20
Valores previstos
Diagnosis: normalidad
99.9
99
probabilidad
95
80
50
20
5
1
0.1
-1.4 -0.9 -0.4 0.1 0.6 1.1 1.6
residuos
Diagnosis
Normalidad
Homocedasticidad
Apéndice
Diseños factoriales
(tres factores)
Diseño con tres factores

Factor A
Factores A, B y C con NA, NB,
A1 A2 A3 A4 A5 A6 Nc niveles.
B1
Nº de Tratamientos
B2
Factor B
T=NAxNBxNc
B3 Efectos principales 3 A, B , C
B4 Interacciones de orden dos 3
B5 AxB, AxC, BxC
C1 Interacción de orden tres 1.
C2
C3 AxBxC
Tratamiento: Cada combinación de niveles de los factores

6 x 5 x 3 = 90
K factores con N1, N2, ..., NK
niveles
x K efectos principale s con N i 1 grados de libertad cada uno
§K ·
x ¨ ¸ interaccio nes de orden 2, con (N i 1 )(N j 1 ) grados
©2¹
de libertad
§K ·
x ¨ ¸ interaccio nes de orden 3, con (N i 1 )(N j 1 )(N k 1 )
©3¹
grados de libertad
...
§K ·
x ¨ ¸ 1 interacció n de orden k, con (N1 1 )(N 2 1 )(N K 1 )
©K ¹
grados de libertad
Datos Factor 1 1
Factor 3
2 ... K
11 22 ...
II
11 22 ...... K
K 11 22 ...... K
K 11 22 ...
... K
K
y1111 y1121 y11K 1 y 2111 y 2121 y11K 1 y I 111 y I 121 y I 1K 1
11 y1112 y1122 y11K 2 y 2112 y 2122 y11K 2 y I 112 y I 122 y I 1K 2

y111M y112M y11KM y 211M y 212M y11KM y I 11M y I 12M y I 1KM
Factor 2
11 22 ...... K
K 11 22 ...... K
K 11 22 ...
... KK
y1211 y1221 y12 K 1 y 2211 y 2221 y 22 K 1 y I 211 y I 221 y I 2 K1
2 y1212 y1222 y12 K 2 y 2212 y 2222 y 22 K 2 y I 212 y I 222 yI 2K 2

y121M y122M y12 KM y 221M y 222M y 22 KM y I 21M y I 22M y I 2 KM
...

11 22 ...... K
K 11 22 ...
... KK 11 22 ...... K
K
y1J 11 y1J 21 y1JK1 y 2 J 11 y 2 J 21 y 2 JK1 y IJ 11 y IJ 21 y IJK1
JJ y1J 12 y1J 22 y1JK 2 y 2 J 12 y 2 J 22 y 2 JK 2 y IJ 12 y IJ 22 y IJK 2

y1J 1M y1J 2 M y1JKM y 2 J 1M y2 J 2M y 2 JKM y IJ 1M y IJ 2 M y IJKM
Ejemplo: Proceso químico
Tres factores: Concentración
1 4% C-1
Catalizador
Ag
Temperatuta
T-1 300º C
2 6% C-2 Ag+Zn T-2 320º C
3 8% C-3 Zn
4 10%
Variable respuesta: Rendimiento del proceso químico.
CONCENTRACIÓN
1 2 3 4
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2
72.2 65.0 74.4 69.2 75.0 70.7 80.0 73.0
C-1 74.4 71.6 66.3 71.8 78.9 80.6 65.0 74.4
64.3 61.9 66.5 64.6 64.3 73.4 82.1 78.8
CATALIZADOR
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2

62.5 75.9 70.8 79.2 76.3 83.3 72.3 80.3
C-2 65.8 72.9 63.9 80.1 79.1 88.0 72.4 86.9
71.2 77.8 76.6 75.3 89.0 84.7 75.6 86.3
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2
69.0 73.8 69.0 84.5 72.8 94.1 78.4 87.5
C-3 70.3 59.2 68.2 93.7 73.7 87.3 79.9 79.7
68.8 80.8 78.7 80.1 80.7 89.0 80.3 79.5
Tres replicaciones
Modelo
yijkm P D i E j J k DE ij DJ ik EJ jk DEJ ijk uijkm
¦i 1D i
I
0 ¦ Jj 1DE ij 0, i ¦iI 1DE ij 0, j
¦i 1DJ ik 0, k
I
¦ ¦k 1DJ ik 0, i
K
j 1E j
J
0
¦k 1 EJ jk 0, j
K
¦ ¦ j 1 EJ jk 0, k
J
k 1J k
K
0
¦ i DEJ ijk 0, j, k , ; ¦ j DEJ ijk 0, i, k ; ¦k DEJ ijk 0, i, j.

I J K
I u J u K tratamientos
•Normalidad
uijkm •Independencia M replicaciones
•Homocedasticidad n = IuJuKuM
Medias
I J K M
¦ ¦ ¦ ¦ yijk
i 1 j 1k 1m 1
y xxxx
IJKM
J K M I K M I J M
¦¦ ¦ yijkm ¦ ¦ ¦ yijkm ¦ ¦ ¦ yijkm
j 1k 1m 1 i 1 k 1m 1 i 1 j 1m 1
y i xxx y x j xx y xx k x
JKM IKM IJM
K M J M I K
¦ ¦ yijkm ¦ ¦ yijkm ¦ ¦ yijkm
k 1m 1 j 1m 1 i 1k 1
y ijxx y ixk x y x jk x
KM JM IM
M
¦ yijkm
m 1
y ijk x
M
Medias: Proceso químico

Concentración
1 2 3 4
C-1 68.2 68.8 73.8 75.6 71.6
Catalizador C-2 71.0 74.3 83.4 79.0 76.9
C-3 70.3 79.0 82.9 80.9 78.3
69.9 74.1 80.1 78.5 75.6
1 2 3 4
T-1 68.72 70.49 76.64 76.22 73.02
Temperatura T-2 70.99 77.61 83.46 80.71 78.19
69.9 74.1 80.1 78.5 75.6
T-1 T-2
C-1 71.95 71.25 71.6
C-2 72.96 80.89 76.9
C-3 74.15 82.43 78.3
73.02 78.19 75.6
1 2 3 4
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2
C-1 70.30 66.17 69.07 68.53 72.73 74.90 75.70 75.40
C-2 66.50 75.53 70.43 78.20 81.47 85.33 73.43 84.50
C-3 69.37 71.27 71.97 86.10 75.73 90.13 79.53 82.23
Pˆ y xxxx
Dˆ i y ixxx y xxxx o I 1
Eˆ j y x j xx y xxxx o J 1
Jˆ k y x x k x y x xx x o K 1

DE ij y ijxx y i xxx y x j xx y xxxx o ( I 1)( J 1)

DJ ik y i x k x y i x xx y xx k x y xx xx o ( I 1)( K 1)

EJ jk y x jk x y x j xx y xxk x y xxxx o ( J 1)( K 1)

DEJ ijk y ijk x y ijxx y i xk x y x jk x y i xxx y x j xx y xxk x y xxxx o ( I 1)( J 1)( K 1)
2
2 ¦ ¦ ¦ ¦ eijkm
Vˆ sˆR2 ; eijkm yijkm y ijk x
IJK ( M 1)
Modelo estimado
yijkm
y xxxx y i xxx y xxxx y x j xx y xxxx y xxk x y xxxx

y ijxx y i xxx y x j xx y xxxx
y i xk x y i xxx y xxk x y xxxx

y x jk x y x j xx y xxk x y xxxx
y ijk x y ijxx y i xk x y x jk x y i xxx y x j xx y xxk x y xxxx
yijkm y ijk x
Variabilidades
¦ ¦ ¦ ¦ yijkm y xxxx
I J K M
JKM ¦ y i xxx y xxxx
2 2
VT VE ( A)
i 1 j 1k 1m 1 i
VE ( B )
IKM ¦ y x j xx y xxxx 2 VE (C ) IJM ¦ y xxk x y xxxx
2
j k
VE ( A u B )
KM ¦ ¦ y ijxx y i xxx y x j xx y xxxx 2
i j
JM ¦ ¦ y i xk x y i xxx y xxk x y xxxx

2
VE ( A u C )
i k
VE ( B u C )
IM ¦ ¦ y x jk x y x j xx y xxk x y xxxx 2
j k
VE ( A u B u C )
M ¦ ¦ ¦ y ijk x y ijxx y i xk x y x jk x y i xxx y x j xx y xxk x y xxxx 2
i j k
¦ ¦ ¦ ¦ yijkm y ijk x
2
VNE
i j k m
Grados de libertad
DESCOMPOSI CIÓN DE LA VARIABILID AD

VT VE ( A) VE ( B ) VE (C )
VE ( A u B ) VE ( A u C ) VE ( B u C )
VE ( A u B u C ) VNE
GRADOS DE LIBERTAD
(n 1) ( I 1) ( J 1) ( K 1)
( I 1)( J 1) ( I 1)( K 1) ( J 1)( K 1)
( I 1)( J 1)( K 1) IJK ( M 1)

Tabla ANOVA
FUENTE VARIABILID AD Gr . de Lib. Varianzas F
sˆ A2
JKM ¦ y i xxx y xxxx
2
A I 1 sˆ A2
i sˆR2
B
IKM ¦ y x j xx y xxxx 2 J 1 sˆB2
sˆB2
sˆR2
j
sˆC2
IJM ¦ y xxk x y xxxx
2
C K 1 sˆC2
k sˆR2
2
2
2 sˆ AB
Au B KM ¦ ¦ y ijxx y i xxx y x j xx y xxxx ( I 1)( J 1) sˆ AB
i j sˆR2
2
JM ¦ ¦ y i xk x y i xxx y xxk x y xxxx
2 2 sˆ AC
Au C ( I 1)( K 1) sˆ AC
i k sˆR2
2
2
2 sˆBC
BuC IM ¦ ¦ y x jk x y x j xx y xxk x y xxxx ( J 1)( K 1) sˆBC
j k sˆR2
M ¦ ¦ ¦ ( y ijk x y ijxx y i xk x y x jk x ... 2
2 sˆ ABC
Au B u C i j k
( I 1)( J 1)( K 1) sˆ ABC
... y i xxx y x j xx y xxk x y xxxx ) 2 sˆR2
¦ ¦ ¦ ¦ yijkm y ijk x
2
Residual IJK ( M 1) sˆR2
i j k m
¦ ¦ ¦ ¦ yijkm y xxxx
I J K M
2
Total IJKM 1
i 1 j 1k 1m 1
Instrucciones de R utilizadas
ARCHIVO TEXTO: quimico.txt
> quimico = read.table('quimico.txt', header = T)
> attach(quimico)
> CON = factor(con)
> class(con)
> TEMP = factor(temp)
> class(temp)
> CAT = factor(cat)
> class(cat)
> mod_qui = aov(rendim ~ CON*TEMP*CAT )

Estimación
variabilidad

Contraste efecto principal de factor A
H 0 : D1 D 2 DI 0
I
JKM ¦ ( y ixxx y xxxx ) 2 I 1
sˆ A2 i 1
FA o FI 1; IJK ( M 1)
sˆR2 sˆR2
FI 1; IJK ( M 1)
Si FA d FD No se rechaza Ho
RR
D Si FA ! FD Se rechaza Ho
FD
Contraste interacción AxB
H 0 : DE11 DE12 DE IJ 0
H1 : Algún DE ij es distinto de 0
2 VE ( A u B)
Si Ho es cierto, sˆ AB
( I 1)( J 1)
2
sˆ AB
FAB 2
o F( I 1)( J 1); IJK ( M 1)
sˆR
Si FAB ! FD Se
rechaza

Ho

A y B interaccio nan
Contraste interacción AxBxC
H 0 : DEJ 111 DEJ 112 DEJ IJK 0

H1 : Algún DEJ ijk es distinto de 0
Si Ho es cierto
2
sˆ ABC
FABC 2
o F( I 1)( J 1)( K 1); IJK ( M 1)
sˆR
Si FABC ! FD Se rechaza Ho

Interpretación
El efecto principal del factor concentración
influye significativamente (p-valor =0.0000)
en el rendimiento. Más adelante se
compararán las medias de los cuatro niveles
de este factor. Este factor no interacciona
con ningún otro.
Los efectos principales de catalizador y de
la temperatura son significativos, además
es muy significativa la interacción de los dos
factores (p-valor 0.0064). La comparación
de medias de estos factores debe ser
conjunta.
Contrastes múltiples: Factor A
tIJK(M-1)
H1 : D i z D j
1-D
D/2 D/2
Dˆ i y i x x x y xx x x ½
Dˆ i Dˆ j y i x x x y j xx x R. Acept. H0
Dˆ j y j xxx y xxxx ¾¿
V2 V2
-tD/2 tD/2
JKM JKM
yixxx y j xxx 2
o t IJK ( M 1) Si yixx y j xx ! tD / 2 sˆR ,
2 JKM
sˆR
JKM se rechaza Ho

Interpretación I
EFECTOS PRINCIPALES:
Solo se interpreta la Concentración
> ICplot(mod_qui, "CON")
> TukeyHSD(mod_qui,'CON')
> plot(TukeyHSD(mod_qui,'CON'))
Interacción: Cat. x Temp.

T-1 T-2
C-1 71.95 71.25 71.6
C-2 72.96 80.89 76.9
C-3 74.15 82.43 78.3
73.02 78.19 75.6
Interacción Cat x Temp
84.00
82.00
80.00
Medias
78.00 Temp - 1
76.00 Temp - 2
74.00
72.00
70.00
0 1 2 3 4
Catalizador

Interpretación II
Se interpreta la interacción
Temperatura - Catalizador
> source('interIC.R')
> interIC(mod_quimicos,'temp','cat')
> interIC(mod_quimicos,'cat','temp')
Selección de temperatura y
catalizador.
Las mejores combinaciones

corresponden
a la T2 con K2 o K3.

10
10
10
residuals(mod_qui)
residuals(mod_qui)
residuals(mod_qui)
5
5
0
0
-5
-5
-5
-10
-10
-10
1.0 2.0 3.0 4.0 1.0 1.4 1.8 1.0 1.5 2.0 2.5 3.0
con temp cat

Capítulo 2. Diseño de experimentos
2.1. Se pretende estudiar el efecto que produce los factores (1) Porcentaje de algodón (10%, 20% y 30%)
(2) Tipo de confección (A y B) en la resistencia al desgaste de ciertos tejidos de …bra sintética. Se
ha realizado el siguiente diseño con tres replicaciones (archivo desgaste:txt)
10% 20% 30%

115 120 126
A 112 135 118
133 139 142
107 110 132
B 114 102 114
108 117 125
1. Construir la tabla de Análisis de la Varianza y contrastar la in‡uencia de los dos factores y la

presencia de la interacción.
2. Hacer un contraste de diferencia de medias y decidir el tratamiento más adecuado para conseguir
la mayor resistencia al desgaste.
2.2 En una planta piloto se obtiene un nuevo producto mediante un proceso químico. Con el …n de
mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres temperaturas
diferentes. Los resultados del experimento son (archivo rendimiento:txt)
Temperatura
Catalizador 200 300 400
A 115 125 130 140 110 120
B 115 105 135 145 100 110
1. Contrastar si los factores Temperatura y Catalizador tienen efectos signi…cativos. ( = 0:05)
2. ¿Qué tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garantizar una
probabilidad de error tipo I total, T = 0:03?
2.3 Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (ciencias,
letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el número de
incorrecciones gramaticales en artículos cientí…cos enviados a publicación. Para cada combinación
de niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el número
de fallos detectados en artículos de 15 páginas (archivo error:txt)
Letras Ciencias
Hombre 8, 6, 13 22, 28, 33
Mujer 5, 10, 6 12, 14, 9
1
Contrastar con nivel de signi…cación 0.05 si los efectos principales y la interacción son signi…cativos.
Tener en cuenta que P (F1;8 5:32) = 0:95, siendo F1;8 la distribución F con grados de libertad
1 y 8: Interpretar los resultados.
2.4 Un alumno, como trabajo de la asignatura de estadística, ha comparado tres marcas distintas (A,B,C)
de palomitas de maíz precocinadas. Cada marca puede prepararse friendolas en una sartén (método
1) o en el horno microondas (método 2). El alumno ha realizado un diseño factorial completo 3 2
con cinco replicaciones en cada uno de los seis tratamientos. La variable respuesta medida es el
porcentaje de granos de maíz que no se han in‡ado adecuadamente. Los resultados del experimento
se muestran en la tabla, en cada tratamiento se proporciona la media y entre paréntesis la desviación
típica corregida para las cinco replicaciones. Contrastar si la interacción entre los dos factores es
signi…cativa.
A B C
5.5 3.6 7.5
Sartén
(1,4) (1,8) (2,5)
3.8 3.4 4.3
Horno
(1,3) (0,9) (1,3)
2.5. La tabla muestra el tiempo de supervivencia de grupos de cuatro animales a los que se ha asignado
al azar tres venenos y posteriormente cuatro tratamientos. (archivo venenos:txt)
Tratamiento
A B C D
Veneno
I 0.31 0.82 0.43 0.45
0.45 1.10 0.45 0.71
0.46 0.88 0.63 0.66
0.43 0.72 0.76 0.62
II 0.36 0.92 0.44 0.56
0.29 0.61 0.35 1.02
0.40 0.49 0.31 0.71
0.23 1.24 0.40 0.38
III 0.22 0.30 0.23 0.30
0.21 0.37 0.25 0.36
0.18 0.38 0.24 0.31
0.23 0.29 0.22 0.33
1. ¿Son los venenos y tratamientos signi…cativos? ¿Existe interacción entre el veneno y el tratamiento?
2. Analice los residuos del modelo anterior. ¿Se veri…can las hipótesis básicas del modelo? ¿Qué
transformación de los datos hace que se veri…quen las hipótesis?
3. Calcule la tabla de análisis de la varianza con los datos transformados. ¿Tiene la transformación
realizada algún efecto sobre los efectos principales y la interacción?
2
2.6 Se ha realizado un experimento para estudiar el efecto de la temperatura (T) y tiempo de exposición
(E) sobre la cantidad absorbida de un compuesto químico por un material sumergido en él. En el
estudio se han empleado tres temperaturas (T1, T2, T3) y tres tiempos de exposición (E1, E2, E3):
cada tratamiento se ha replicado tres veces. La cantidad absorbida (mg) del compuesto químico en
cada uno de los 27 experimentos se muestra en la tabla 1 (archivo absorbida:txt) y las medias en
la tabla 2:
Tabla 1: Cantidad Absorbida (mg)
Tiempo de Temperatura
Exposición T1 T2 T3
Tabla 2: Medias de Cantidad Absorbida (mg)
35.5 91.2 70.1
E1 29.7 100.7 64.1
Tiempo de Temperatura
31.5 82.4 70.1
Exposición T1 T2 T3 Medias
E1 32.23 91.43 68.10 63.92
52.5 71.0 79.4
E2 53.60 74.53 77.40 68.51
E2 53.3 77.0 77.7
E3 83.76 87.06 82.83 84.56
55.0 75.6 75.1
Medias 56.53 84.34 76.11 72.33
85.9 87.0 83.0
E3 85.2 86.1 87.0
80.2 88.1 78.5
La tabla 3 corresponde al análisis de la varianza del experimento.
Tabla 3: Tabla de análisis de la varianza

Fuente Suma de Grados de
Variabilidad Cuadrados Libertad Varianzas F p-valor
Temperatura 3673.61 2 1836.80 110.58 0.0000
T. Exposición 2112.65 2 1056.32 63.59 0.0000
Interacción 2704.44 4 676.11 40.70 0.0000
Residual 299.00 18 16.61
Total 8789.7 26
1. (a) Interpreta los resultados del análisis de la varianza.
2. Realiza las comparaciones dos a dos de los nueve tratamientos y elige aquél o aquellos que propor-
cionan una absorción mayor (95%).
3. Comprueba grá…camente la hipótesis de homocedasticidad e interpreta los resultados.
2.7. Se ha realizado un diseño experimental para determinar la in‡uencia de dos factores combinación
de hidrocarburos y cantidad de hidrógeno en el rendimiento de un proceso químico complejo. Se
estudiaron cuatro combinaciones de hidrocarburos (A,B, C y D) y tres niveles en el contenido de
hidrógeno (1,2 y 3). En cada tratamiento se realizaron cuatro réplicas. En la tabla 1 se presentan los
resultados: mejora en tanto por mil respecto a procedimiento estándar (archivo hidrocarburos:txt).
Los números entre paréntesis de la tabla se corresponden con las medias de cada tratamiento, de los
cuatro niveles del factor hidrocarburos y de los tres niveles de hidrógeno. En la tabla 2 se muestra
la tabla de análisis de la varianza del experimento.
3
Tabla 1. Datos y medias entre paréntesis
A B C D Medias Etapa
10.3 10.5 7.2 13.0 1
11.1 8.2 5.3 12.9 1
1 15.3 9.7 12.5 5.3 2
2.1 8.9 19.1 12.0 2
Medias (9.7) (9.325) (11.025) (10.8) (10.213)
25.8 20.6 29.7 17.6 1
25.7 17.1 26.3 12.0 1
2 28.9 21.4 22.4 24.6 2
27.8 17.3 25.9 23.1 2
Medias (27.05) (19.1) (26.075) (19.325) (22.888)
28.5 21.0 30.4 20.5 1
31.2 26.8 26.6 26.2 1
3 24.8 19.4 34.4 27.8 2
26.5 22.2 27.5 21.9 2
Medias (27.75) (22.35) (29.975) (24.1) (25.981)
Medias (21.5) (16.925) (22.275) (18.075)
Tabla 2. ANOVA -
Suma Grados
Fuentes Cuadrados Libertad Var. F p-valor
Hidrocarburos 242.5 3 80.85 5.55 .0031
Hidrógeno 2234 2 1117 76.7 .0000
Interacción 119.3 6 19.88 1.36 .2546
Residual 523.7 36 14.55
Total 3120 47
1. Comparar las medias de los cuatro niveles del factor Hidrocarburo y las de los tres niveles del factor
Hidrógeno. Indica si existen diferencias signi…cativas con nivel de signi…cación 0.05.
2. Elige el tratamiento que proporciona el rendimiento óptimo, justi…cando la respuesta. Da un inter-

valo de con…anza para el valor medio en dichas condiciones con nivel de con…anza del 95%.
3. El experimento se realizó en dos etapas, en una primera etapa se recogieron las 24 observaciones
que se indican en la tabla 1 como etapa 1 y las otras 24 como etapa 2. Los resultados del análisis
de la varianza correspondientes a cada etapa se muestran en las tablas 3 y 4.
Tabla 3. ANOVA - Etapa 1

Suma Grados
Fuentes Cuadrados Libert. Var. F p-valor
Hidrocarburos 115.9 3 38.63 6.07 .0093
Hidrógeno 1175.0 2 587.7 92.4 .0000
Interacción 218.4 6 36.39 5.72 .0051
Residual 76.3 12 6.358
Total 1586.0 23
4
Tabla 4. ANOVA - Etapa 2
Suma Grados
Fuentes Cuadrados Libert. Var. F p-valor
Hidrocarburos 162.9 3 54.31 3.35 .0555
Hidrógeno 1076 2 537.9 33.19 .0000
Interacción 94.94 6 15.82 0.976 .9762
Residual 194.5 12 16.21
Total 1528 23
¿Se puede concluir que en las dos etapas la varianza del error experimental es la misma? (Realiza
el contraste con = 0:05)
2.8 Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 o C y 320 o C) en la
duración de cierto componente. Para cada combinación de horno y temperatura se ha replicado
el experimento 3 veces. En la tabla siguiente se proporcionan las medias y desviaciones típicas
(corregidas) de los datos de cada tratamiento.
Temperatura o C
290 o C 320 o C
Media Desv. T. Media Desv. T.
Horno 1 24.56 0.850 18.00 0.265
Horno 2 19.10 1.539 14.40 0.265
Horno 3 18.70 0.458 17.43 0.862
Contrasta si existe interacción entre los factores horno y temperatura ( = 0:05):
2.9. Cierto Organismo Público (O.P.) encargado de certi…car la composición de aleaciones de metales
preciosos, debe seleccionar entre dos Laboratorios al más capacitado para la realización de futuros
análisis de gran precisión. Para tomar la decisión les somete a la siguiente prueba: Prepara tres
aleaciones A, B y C que contienen proporciones distintas de oro. De cada una de ellas envía cu-
atro muestras a cada uno de los dos laboratorios. Así pues, cada laboratorio recibe un lote de 12
muestras (codi…cadas) ordenadas aleatoriamente sin conocer como han sido obtenidas. Los resul-
tados recibidos por el O.P. son (entre paréntesis las medias de las casillas) (archivo laboratorios:txt):
Aleac. A Aleac. B Aleac. C

10.96 11.03 10.95 11.00 11.07 11.01
Lab. I 11.08 11.01 11.04 10.97 10.97 11.03
(11.02) (10.99) (11.02)
10.97 10.96 10.97 10.96 11.02 11.00
Lab. II 10.94 10.95 10.97 10.98 11.01 11.01
(10.955) (10.97) (11.01)
1. Determinar si existen diferencias entre los resultados de los laboratorios y si éstos han encontrado
diferencias entre las aleaciones.
2. Aceptando que los datos cumplen la hipótesis de normalidad, indicar si podemos aceptar que
veri…can el resto de las hipótesis del modelo y en caso negativo que medidas se deben adoptar para
analizar los datos.
5
3. Realizar un test de razón de varianzas para contrastar que las varianzas de los dos laboratorios son
iguales, sabiendo que las tres aleaciones tienen composición distinta. Interpretar el resultado.
4. El O.P. conoce exáctamente el porcentaje en oro de la aleación A (11 %), de la B (11.02 %) y de
la C (11.04 %). Con esta información comparar los resultados de los laboratorios.
2.10 Un laboratorio de Análisis Clínicos ha adquirido un nuevo equipo (B) para medir el colesterol en la
sangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide analizar muestras
de 5 enfermos que previamente han sido analizadas con otro equipo (A), dando como resultado
Enfermo 1 2 3 4 5 Media
Equipo A 215 305 247 221 286 254.8
Equipo B 224 312 251 232 295 262.8
Contrastar con = 0:05 existen diferencias entre los dos equipos. (archivo colesterol :txt)
2.11. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes resulta-
dos: V T = 232, V E(factor) = 156, V E(bloque) = 15 y V N E = 61. El número de niveles del factor
es 5 y el número de bloques 8. Construir la tabla ADEVA. ¿ Cuál sería el resultado del análisis si
no se tiene en cuenta el efecto de los bloques ? Indicar en qué circunstancias es preferible cada uno
de los modelos.
2.12. Se realiza un experimento para estudiar si la presencia de ‡uorita reduce el coste de fabricación
de clinker de cemento en tres tipos diferentes de mezcla. Los resultados del mismo (en miles de
pesetas por Tm) se muestran en la siguiente tabla (archivo f luorita2:txt):
FLUORITA MI MII MIII ȳi

0% 15.4 10.6 17.8 14.6
1% 10.3 5.5 10.9 8.9
2% 7.4 1.2 8.1 5.5
3% 10.7 6.5 9.6 8.9
4% 13.5 11.6 15.5 13.5
ȳ 11.4 7.1 12.4
5 X
X 3
e2ij = 10:2 y = 10:3
i=1 j=1
1. (a) Determinar si el tipo de mezcla y el nivel de ‡uorita añadido in‡uyen signi…cativamente en el

coste de fabricación. Se supone que no existe interacción entre los dos factores.
(b) Contrastar que porcentaje de ‡uorita produce el menor coste del clinker.
2.13 Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20% de la
variabilidad total está explicada por la interacción de los dos factores y el 40% de la variabilidad
total es debida a la variabilidad residual. Determinar el número de replicaciones necesarias en cada
tratamiento para que la interacción sea signi…cativa con = 0:01: (Explicar el procedimiento de
cálculo, dejando el resultado indicado en función de las tablas).
6
2.14 Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros totales
correspondientes a efectos principales e interacciones de orden 2, 3 y 4.
2.15 Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos muelles de
acero. En una etapa del proceso el muelle caliente se sumerge en aceite templado. Se han estudiado
tres factores, A (temperatura del acero antes de la inmersión, con tres niveles), B (temperatura del
baño de aceite, dos niveles) y C (concentración de carbono en el acero, dos niveles). El experimento
se ha replicado tres veces. En la tabla se muestra la media y la varianza (corregida) para los tres
datos de cada tratamiento.
A B C yi s^2i
1 1 1 40.2 0.25
1 1 2 61.1 2.68
1 2 1 35.9 2.43
1 2 2 57.1 4.44
2 1 1 49.0 3.49
2 1 2 70.3 7.77
2 2 1 46.7 5.08
2 2 2 67.6 1.03
3 1 1 41.9 4.27
3 1 2 62.7 11.41
3 2 1 37.1 1.33
3 2 2 60.3 6.13
1. (a) Dar un intervalo del 95 % de con…anza para la varianza del error experimental, 2.
2. Indicar si los efectos principales de A, B y C son signi…cativamente distintos de cero.
3. Dado 2 , construir un intervalo que cumpla que la probabilidad de que s^2i (la varianza muestral
corregida de un tratamiento) esté contenido en él sea igual a 0.95. Sustituir 2 por su estimador y
con ayuda de este intervalo, discutir si se puede rechazar la hipótesis de homocedasticidad de las
observaciones.
2.16 Un estudio bioquímico ha valorado la cantidad de tres ácidos (a, b, c) en muestras extraídas a
cuatro terneras (1, 2 ,3 y 4) de la misma raza. El análisis es bastante complejo y la determinación
incluye un error de medida. ¿Se puede aceptar la hipótesis de que los tres ácidos se encuentran
en la misma proporción en cada animal? Realiza el contraste con nivel de signi…cación 0.05. (La
variabilidad total es 41.90). (archivo ultrasonidos:txt)
1.
a b c Medias
1 11.0 11.4 12.7 11:7
2 9.8 10.8 13.7 11:43
3 7.5 10.6 11.5 9:87
4 7.9 7.6 10.1 8:53
Medias 9.05 10.1 12.0 10.38
7
OTROS EJEMPLOS
2.17. Treinta y seis adultos (18 hombres y 18 mujeres) son utilizados en un estudio para comparar los
tensiómetros de tres fabricantes. Los sujetos de cada sexo son asignados de forma aleatoria en seis grupos
de tres cada uno. A tres grupos de cada sexo se les mide la presión de la sangre nada más comenzar el
experimento; a los otros tres grupos se les mide la presión después de diez minutos de descanso.
Los resultados son los siguientes:
I II III
H M H M H M
147 122 156 131 127 110
1 124 142 127 133 122 115
113 136 155 146 153 105
140 108 100 141 114 103
2 130 151 140 125 139 135
112 138 105 139 126 114
Conteste a las siguientes preguntas:
¿Existen diferencias entre los fabricantes en la medida de presión de la sangre?
¿Hay diferencia entre el descanso y el no descanso en la presión en la sangre?
¿Hay diferencia entre hombres y mujeres?
Comprobar si hay interacción entre descanso y sexo.
Comprobar las hipótesis de normalidad, homocedasticidad y homogeneidad.
En el archivo tension.sf3 están la variable respuesta presión y las variables factores descanso, fabri-
cante y sexo.
2.18 Se desea investigar el comportamiento de dos tipos de semilla y de tres tipos diferentes de fertil-
izante. Los resultados serán los diferentes rendimientos para las combinaciones de semillas y fertilizantes.
Se pide contestar a las siguientes preguntas:
¿Existen diferencias entre los fertilizantes?
¿Existen diferentes entre las semillas?
Estudiar si la interacción entre las semillas y fertilizantes es signi…cativa.
Comprobar las hipótesis de normalidad, homocedasticidad e independencia e homocedasticidad.
En el archivo rend.sf3 están la variable respuesta rendimiento y los factores semilla y fertilizante.
8
A B C
1 14.3 18.1 17.6
14.5 17.6 18.2
11.5 17.1 18.9
13.6 17.6 18.2
2 12.6 10.5 15.7
11.2 12.8 17.5
11.0 8.3 16.7
12.1 9.1 16.6
2.19. Se ha realizado un experimento para estudiar la in‡uencia de dos factores en el rendimiento

de un proceso. Estos factores son la temperatura, que puede estar a tres niveles (alta, media y baja), y
el catalizador, que puede ser el catalizador 1 o el catalizador 2. En el archivo rend2.sf3 se presentan los
resultados que se muestran en la siguiente tabla.
Temperatura
Alta Media Baja
Catalizador 1 279 174 397

172 277 348
176 130 434
Catalizador 2 253 252 417

238 367 427
387 323 423
¿De qué modelo se trata?
¿Qué efectos son signi…cativos?
¿Cuál es el tratamiento adecuado para obtener el mayor rendimiento?
2.20. Se ha realizado un experimento para estudiar las fuentes de variabilidad de la resistencia a la

compresión de cemento tipo Portland. El cemento ha sido mezclado con agua por tres obreros diferentes
(mezcladores) durante un tiempo …jo. Después, la resistencia de las probetas generadas ha sido medida
por otros tres obreros diferentes (medidores). Cada mezclador ha generado doce probetas, que se han
dividido en tres grupos de cuatro; cada uno de esos grupos de cuatro ha sido asignado a un medidor.
Los datos obtenidos para la resistencia a la compresión de cada probeta, dados en libras por pulgada
cuadrada, se proporcionan en la tabla siguiente y se encuentran en el archivo portland.sf3.
9
Medidor 1 Medidor 2 Medidor 3
Mezclador 1 5280 4340 4160

5520 4400 5180
4760 5020 5320
5800 6200 4600
Mezclador 2 4420 5340 4180

5280 4880 4800
5580 4960 4600
4900 6200 4480
Mezclador 3 5360 5720 4460

6160 4760 4930
5680 5620 4680
5500 5560 5600
¿Existen diferencias entre las resistencias dadas por los diferentes medidores? ¿y entre las probetas
generadas por cada mezclador?
¿Es signi…cativa, con nivel de signi…cación del 5%, la interacción entre medidores y mezcladores?
¿Se cumplen las hipótesis del modelo?
2.21. Se está estudiando el rendimiento de un proceso químico. Se piensa que las dos variables
más importantes pueden ser la presión y la temperatura. Se seleccionan tres niveles de cada factor. Los
resultados del experimento son los siguientes:
Presión
Temperatura 200 215 230
Baja 90.4 90.7 90.2
Baja 90.2 90.6 90.4
Media 90.1 90.5 89.9
Media 90.3 90.6 90.1
Alta 90.5 90.8 90.4
Alta 90.7 90.9 90.1
Utilizando el archivo proceso. sf3 conteste a las siguientes preguntas:
¿Qué conclusiones se pueden sacar de los datos?
¿Bajo qué condiciones podría operar este proceso?
¿Existe interacción entre temperatura y presión?
Compruebe las hipótesis del modelo.
10
2.22. Se realiza un experimento para estudiar la in‡uencia de la temperatura de operación y de tres
tipos de cristal en la salida de luz de un osciloscopio medidas en lux. En el archivo lux.sf3 se encuentran
los resultados obtenidos que se presentan a continuación:
Temperatura
Cristal 100 125 150
580 1090 1392
1 568 1087 1380
570 1085 1386
550 1070 1328
2 530 1035 1312
579 1000 1299
546 1045 867
3 575 1053 904
599 1066 889
¿Hay diferencia entre las temperaturas?
¿Hay diferencia en el cristal? ¿Cúal es el mejor?
Estudie si existe interacción entre la temperatura y el cristal.
2.22 Para comprobar la diferencia de rendimientos entre las distintas variedades de avena se diseño
un experimento con ocho variedades distintas. Como el terreno donde fueron plantadas las distintas
variedades estaba en pendiente se pensó que podría afectar la situación de la planta en su rendimiento.
Los resultados obtenidos en gramos fueron los siguientes:
I II III IV V
1 296 357 340 331 348
2 402 390 431 340 320
3 437 334 426 320 296
4 303 319 310 260 242
5 469 405 442 487 394
6 345 342 358 300 308
7 324 339 357 352 220
8 488 374 401 338 320
Si no se tiene en cuenta el efecto de las diferentes condiciones del terreno, conteste a las siguientes
preguntas:
¿Existen diferencias entre las variedades?
¿Cúal es la mejor y la peor?
La variedad ocho es autóctona y la más empleada. La cinco es la más cara. Si tuvierá que elegir
¿cuál elegiría?
Haga un contraste de las hipótesis del modelo: normalidad, homocedasticidad, homogeneidad e

independencia.
11
Conteste todas las preguntas anteriores si se introduce la variable que tiene en cuenta el efecto del
terreno.
2.23. Se desea comparar cuatro procedimientos de obtención de la penicilina (A, B, C y D); siendo
la variable respuesta producción en kg.
Una materia prima, licor de maíz, se tiene en cuenta en el experimento. Se dispone de cinco muestras
de licor de maíz. A continuación se presenta la tabla de los datos.
A B C D
1 89 88 97 94
2 84 77 92 79
3 81 87 87 85
4 87 92 89 84
5 79 81 80 88
¿Cómo afectan los procedimientos y la materia prima?
¿Cuál es el mejor procedimiento y materia prima?
Realice la diagnosis del modelo
En el archivo penicili.sf3 se encuentra la variable respuesta cantidad, el factor tratamiento y el bloque

mezcla.
2.24. En 1986 IBM realizó una serie de experimentos en varios de sus sistemas para investigar el
comportamiento de nuevos algoritmos para incorporar en la librería de funciones matemáticas de su
compilador FORTRAN. En el archivo fortran.sf3 se encuentran el tiempo empleado por llamada para
la ejecución (dado en s) de cinco funciones escalares, que se proporcionan en la siguiente tabla. El
tiempo se ha promediado en 10000 argumentos seleccionados aleatoriamente en los intervalos de interés
([- , ],...). Las ejecuciones se llevaron a cabo en tres sistemas IBM diferentes (4331, 4361 y 4341). Se
proporcionan también los nombres de las funciones escalares consideradas.
Función Sistema IBM

4331 4361 4341
EDUM 9,90 3,07 4,88
ACOS CIRC [ ; ] 179,62 33,28 33,23
SEN LINEAL [ ; ] 105,72 24,13 27,08
EXP LINEAL [ 16; 16] 254,82 39,14 37,46
D2DUM 13,47 4,63 5,72
El interés principal del experimento era el estudio de la e…cacia de los tres sistemas ¿ha resultado
adecuada la estrategia?
Realice la diagnosis del modelo y proponga posibles soluciones si detecta algún problema.
2.25 Unos alumnos de la universidad de Tu¤s (Massachussets, E.U.A.), preocupados por el estado
de corrosión de las tuberías de su universidad, decidieron realizar el siguiente experimento. Tomaron
muestras de agua corriente haciendo variar los factores Campus, Tipo de edi…cio y antigüedad del edi…cio.
12
Se midió la concentración de hierro en el agua corriente (mg=dm3 ) y para cada posible combinación de
factores se tomaron dos observaciones. En el archivo corrosio.sf3 se muestran los resultados que se
presentan en la siguiente tabla.
Factor Concentración de Fe
Antigüedad Tipo Campus
Viejo Académico Medford 0,23 0,28
Nuevo Académico Medford 0,36 0,29
Viejo Residencial Medford 0,03 0,06
Nuevo Residencial Medford 0,05 0,02
Viejo Académico Somerville 0,08 0,05
Nuevo Académico Somerville 0,03 0,08
Viejo Residencial Somerville 0,04 0,07
Nuevo Residencial Somerville 0,02 0,06
Identi…que el modelo de que se trata, estime sus parámetros y realice la diagnosis.
Si no se cumplieren las hipótesis del modelo indique qué podría hacerse para remediarlo.
Estudie las interacciones e interprete las que resulten signi…cativas.
13
Regresión
1: Regresión simple I
Regresión simple
consumo y peso de automóviles
Núm. Obs. Peso Consumo
(i) kg litros/100 km 25
1 981 11
2 878 12
3 708 8
4 1138 11
5 1064 13 20
Consumo (litros/100 Km)
6 655 6
7 1273 14
8 1485 17
9 1366 18 15
10 1351 18
11 1635 20
12 900 10
13 888 7
14 766 9
10
15 981 13
16 729 7
17 1034 12
18 1384 17 5
19 776 12
20 835 10
21 650 9
22 956 12
0
23 688 8
24 716 7 500 700 900 1100 1300 1500 1700
25 608 7
26 802 11 Peso (Kg)
27 1578 18
E 0 E 1 xi u i , u i o N (0, V 2 )
28 688 7
29
30
1461
1556
17
15
yi
Regresión Lineal 2
Regresión simple
(i) kg litros/100 km 25
1 981 11
2 878 12
3 708 8
4 1138 11
5 1064 13 20

6 655 6
7 1273 14
8 1485 17
9 1366 18 15
10 1351 18
11 1635 20
12 900 10
13 888 7
14 766 9
10
15 981 13
16 729 7
17 1034 12
18 1384 17 5
19 776 12
20 835 10
21 650 9
22 956 12
0
23 688 8
24 716 7 500 700 900 1100 1300 1500 1700
25 608 7
26 802 11 Peso (Kg)
27 1578 18
E 0 E 1 xi u i , u i o N (0, V 2 )
28 688 7
29
30
1461
1556
17
15
yi
Regresión Lineal 3
Ecuación de una recta
yi E 0 E1 xi
E1
yi
1
E0
xi
Regresión Lineal 4
Modelo
yi E 0 E 1 xi u i , ui o N (0, V 2 )
yi
E 0 E1 x
xi
E 0 , E1 ,V 2 : parámetros desconocid os
Regresión Lineal 5
Modelo
yi E 0 E 1 xi u i , ui o N (0, V 2 )
yi
E 0 E1 x
xi V
E 0 E1 xi
Regresión Lineal 6
Linealidad
E[yi ]= E0+E1xi
Parámetros
Normalidad
yi|xi N (E0+E1xi,V2)
E0
Homocedasticidad E1
Var [yi|xi] = V2
V2
Independencia
Cov [yi, yk] = 0
Regresión Lineal 7
Modelo
yi E 0 E 1 xi u i , ui o N (0, V 2 )
yi : Variable dependiente
xi : Variable independiente
ui : Parte aleatoria
V
Regresión Lineal 8
Estimación
n
M ( E 0 , E1 ) ¦(y
i 1
i E 0 E1 xi ) 2
n
dM
¦ ( yi Eˆ0 Eˆ1 xi ) 0 ¦y nEˆ0 Eˆ1 ¦ xi
dE 0
i
i 1
n
dM
¦ ( yi Eˆ0 Eˆ1 xi ) xi 0 ¦x y Eˆ0 ¦ xi Eˆ1 ¦ xi2
dE 0
i i
i 1
n n
y Eˆ0 Eˆ1 x ½ ¦ ( yi y )( xi x) ¦ ( xi x) 2
°i1 ˆ i1
n
¾ E
¦x y
i 1
i i n Eˆ0 x Eˆ1 ¦ xi n °
2
¿
n
1
n
cov( xi , yi )
Eˆ1 ; Eˆ0 y Eˆ1 x
var( xi )
Regresión Lineal 9
Estimación: máxima verosimilitud

1 ª 1 n 2º
l ( E 0 , E1, V 2 ) exp
« 2 i ¦1 ( yi E 0 E1xi ) »
2S n / 2 V n ¬ 2V ¼
L( E 0 , E1, V 2 ) log l ( E 0 , E1, V 2 )
n n 1 n
log(2S ) log V 2 2 ¦ ( yi E 0 E1xi ) 2
2 2 2V i 1
dL 1 n
¦ ( yi Eˆ0 Eˆ1xi ) 0 ¦ yi nEˆ0 Eˆ1 ¦ xi
dE 0 V i 12
dL 1 n
¦ ( yi Eˆ0 Eˆ1xi ) xi 0 ¦ xi yi Eˆ0 ¦ xi Eˆ1 ¦ xi2
dE 0 V 2 i 1
n n
2
y Eˆ0 Eˆ1 x ½ ¦ ( yi y )( xi x) ¦ ( xi x )
°i 1
Eˆ1 i 1
Eˆ0 x Eˆ1 ¦ xi2 n ¾°
n
¦ xi yi n n n
i 1 ¿
cov( xi , yi )
Eˆ1 ; Eˆ0 y Eˆ1 x
var( xi )
Regresión Lineal 10
Estimación V2 : máxima verosimilitud
n n 1 n
L( E 0 , E1, V ) log(2S ) log V 2 ¦ ( yi E 0 E1xi ) 2
2 2
2 2 2V i 1
dL n 1 1 n 2
¦ ( yi Eˆ0 Eˆ1xi ) 0
2 2 2 4i 1
dV Vˆ 2Vˆ
n
¦ ( yi Eˆ0 Eˆ1xi ) 2
Vˆ 2 i 1
n
ei yi Eˆ 0 Eˆ1 xi
n ½ n
¦ ei 0 °
° 2
¦ ei2
i 1 i 1
¾ sˆ R
n
n2
¦ ei xi 0°
°
i 1 ¿
Estimación
Máxima verosimilitud
1 ª 1 n 2 º½
Max ® exp ¦ (
«¬ 2V 2 i 1 iy E E x ) »¼ ¾
¯ 2S V
n/2 n 0 1 i
¿
Mínimos cuadrados
n
Mín ¦ ( yi E 0 E1 xi ) 2
i 1
Eˆ0 y Eˆ1 x
cov( xi , yi ) ¦i 1 ( xi x )( yi y )
n
Eˆ1
var( xi ) ¦i 1 ( xi x ) 2
n
Recta de regresión
Eˆ1
cov( xi , yi )
yˆ Eˆ 0 Eˆ1 x
var( xi )
y
Pendiente
Eˆ1
Eˆ 0 y Eˆ1 x
x
Estimación
25
(i) kg litros/100 km
1 981 11
2 878 12 20
3 708 8
4 1138 11
5 1064 13 15
6 655 6
7 1273 14
8 1485 17
9 1366 18 10
10 1351 18
11 1635 20
12 900 10 5
13 888 7
14 766 9
15 981 13
16 729 7 0
17 1034 12 500 700 900 1100 1300 1500 1700
18 1384 17 Peso (Kg)
19 776 12
835 10
cov( xi , yi )
20
1225.2
Eˆ1
21 650 9
22 956
688
12
8
0.0117
var( xi ) 104446.6
23
24 716 7
25 608 7
802 11
Eˆ0 y Eˆ x 11.87 0.0117 u 1017.7

26
27
28
1578
688
18
7 1 0.071
29 1461 17
30 1556 15
Residuos
,
yi Eˆ0 Eˆ1 xi ei
,

Valor observado Valor Previsto Residuo
ei
yi
yˆ i Eˆ 0 Eˆ1 xi
xi
n
¦ ei2
Residuos sˆR2 i 1
; ei yi yˆ i
n2
,
yi Eˆ0 Eˆ1 xi ei
,

Valor observado Valor Previsto Residuo
ei
yi
yˆ i Eˆ 0 Eˆ1 xi
xi
Ejemplo: estimación
Núm. Obs. Peso Consumo Predicción Residuos
1 981 11 11,44 -0,44 25
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59 20

6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35 15
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
12 900 10 10,49 -0,49 10
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56
16 729 7 8,48 -1,48 5
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84
19 776 12 9,03 2,97
0
20 835 10 9,72 0,28
21 650 9 7,55 1,45 500 700 900 1100 1300 1500 1700
22 956 12 11,14 0,86 Peso (Kg)
23 688 8 8,00 0,00
24 716 7 8,33 -1,33
2
yˆ i 0.071 0.0117xi ; sˆ R 2.38
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
27 1578 18 18,44 -0,44
E0 E1 xi ui , V2
28 688 7 8,00 -1,00
29
30
1461
1556
17
15
17,07
18,18
-0,07
-3,18
yi
Propiedades de Eˆ1
cov( xi , yi ) 1 n
Ê1 ¦ xi x yi y
s x2 ns x2 i 1 0
1 n 1 n
¦
ns x2 i 1
xi x y i ¦ xi x y
ns x2 i 1
xi x
wi
n
¦ ¨¨
§ xi x ·
¸y w1 y1 w2 y2 wn yn
nsx2
2 ¸ i
i 1 © ns x ¹
1 n
x ¦in 1 wi ¦i 1 xi x 0
ns x2
1 n 1 n
x ¦in 1 wi xi ¦i 1 xi x xi 2 ¦i 1
xi x xi 1 2 ¦in 1 xi x x 1 n
2 ¦i 1
xi x 2 1
ns x2 ns x ns x ns x
2
§ 1 · n 1
x¦ w n
i 1
2
¨¨ 2 ¸¸ ¦i 1 xi x 2
ns x2
i
© ns x ¹
y, Eˆ1 son v.a. independientes
§ y1 · ½
¨ ¸ °
1 1 1 §1 1 1 ·¨ y2 ¸ T °
y y1 y2 yn ¨ ¸¨ ¸ a Y
n n n ©n n n¹ °
¨ ¸ °
ÿ ¸ °
© n¹
¾
§ y1 · °
¨ ¸
¨ y2 ¸ °
Eˆ1 w1 y1 w2 y2 wn yn w1 w2 wn ¨ ¸ w Y ° T
°
¨ ¸
ÿ ¸ °
© n¹ ¿
V2 n
cov( y , Eˆ1 ) a var( Y )w
T
n
¦w
i 1
i 0
Distribución de Eˆ1
yi o N ( E 0 E1 xi ,V 2 )
Eˆ1 w1 y1 w2 y2 wn yn o Comb. lineal de normales
E[ Eˆ1 ] E[ w1 y1 w2 y2 wn yn ]
w1 E[ y1 ] w2 E[ y2 ] wn E[ yn ] ( E[ yi ] E 0 E1 xi )
E 0 (¦ wi ) E1 (¦ wi xi ) E1
Var[ Eˆ1 ] Var[ w1 y1 w2 y2 wn yn ]
w12Var[ y1 ] w22Var[ y2 ] wn2 [ yn ] (Var[ yi ] V 2 )
n V2
(¦ wi2 )V 2
ns x2
§ V 2
·
i 1
ˆ
E1 o N ¨¨ E1 , 2 ¸¸
© ns x ¹
Parámetro E1 y estimador Eˆ1
Eˆ1 0.0117 litros cada 100km/kg
1.17 litros cada 100km/100 kg
sˆR 1.54
SE ( Eˆ1 ) 0.087
ns X 30 u 3.2 t28
sˆR
E1 Eˆ1 r tD / 2 tn-2
ns x
1-D
E1 1.17 r 2.05 u 0.08 D/2
E1 1.17 r 0.16 .
1.01 d E1 d 1.33 -tD/2 tD/2
-2.05 2.05
Simple Linear Regression 21
Desviación típica de Eˆ1
sˆR
SE ( Eˆ1 )
ns X
La precisión en la estimación de la pendiente

mejora si:
1. La Desv. Típica residual es pequeña
2. La muestra n es grande
3. Los valores de x tienen mucha dispersión

Distribución de Ê 0
V2
x y o N ( E 0 E1 x , )
n
V2
x Eˆ1 o N ( E1 , )
ns x2
x y , Eˆ1 son independie ntes
½
Eˆ0 y Eˆ1 x o Normal °
°° § V 2
§ x 2
··
E[ Eˆ0 ] E[ y ] x E[ Eˆ1 ] E 0 ¾ Eˆ0 o N ¨¨ E 0 , ¨¨1 2 ¸¸ ¸¸
° © n © sx ¹ ¹
V 2
§ x 2
·
var[ Eˆ0 ] ¨¨1 2 ¸¸ °
n © s x ¹ °¿
Distribución de ŝR2
yi E 0 E1xi ui yi Eˆ0 Eˆ1xi ei

ui o N (0, V 2 )
¦in 1ui2 ¦in 1 ei2 ¦ ei 0
o F n2 o F n2 2 ®
V2 V2 ¯¦ ei xi 0
n
¦ ei2 2
(n 2) sˆR
i 1 o F n2 2
V2 V2
Contraste principal de regresión:
¿depende y de x?
H 0 : E1 0
H 1 : E1 z 0
yi yi
yi E 0 E1 xi ui yi E 0 ui
xi xi
H0 es falso H0 es cierto
x e y están relacionados x e y no están relacionados
Contraste sobre la pendiente

V
H 0 : E1 0 yˆ i Eˆ0 Eˆ1 xi Eˆ1 o N ( E1 ,
ns x
)
H 1 : E1 z 0 Eˆ1 E1
o N (0,1)
Eˆ1 E1
o tn2
V sˆR
ns x ns x
R.R
Eˆ1 R.R.
t1 ; tn-2
sˆR
1-D
ns x D/2
R. Acept.
t1 ! t n 2;D / 2 Se rechaza Ho
-tD/2 tD/2
Ejemplo: D = 0.05
H 0 : E1 0 yˆ i 0.071 0.0117 xi ; sˆR 1.54
R.R. t28 R.R
H 1 : E1 z 0
0.017 0.025 0.025
t0 13.4
1.54 /( 30 u 323.2) …
-2.05 2.05
13.4 ! 2.05 Se rechaza H 0

El peso influye significativamente en el consumo
27
H 0 : E1 0
P-valor H 1 : E1 z 0
α = 0.05 Area Azul = p-valor
P-valor ≤ α P-valor > α

Con α=0.05
0 05 ““x”” influye Con α=0.05 “x” NO influye
significativamente en “y” significativamente en “y”
H1 : E1 z 0 H 0 : E1 0
Contraste: ordenada en el origen
H0 : E0 0
yˆ i Eˆ0 Eˆ1 xi
H1 : E 0 z 0
V2 x 2
Eˆ0 o N ( E 0 , (1 2 ))
n sx
Eˆ0
t0 2
;
sˆR x
1 2
n sx
t0 ! t n2;D / 2 Se rechaza Ho
Modelo estimado y contrastes

Dependiente (y) ~ Independiente (x)
Estimate Stand Error t value Pr(>|t|)
Intercept SE( )
=
SE( )
Regressor SE( )
=
SE( )
Dependiente (Consumo) ~ Independiente (Peso)

Intercept -0.07126 0.945148 -0.075 0.943246
Peso 0.01173 0.000887 13.23 0.000000
variabilidad en regresión
yi E 0 E1 xi ui
yi Eˆ0 Eˆ1 xi , ei

yˆ y yˆ
i i i
yi yˆ ( y yˆ ) (restando y )
i i i
( yi y ) ( yˆ y ) ( y yˆ ) (elevando al cuadrado y sumando)
i i i
n n n
¦ ( yi y ) 2
¦ ( yî y ) 2 ¦ ( yi yî ) 2
i 1 i 1 i 1
VT VE VNE
Coeficiente de determinación R2
n
VE ¦ ( yî y ) 2 VT VE VNE
i 1
2 VE
n R
VNE ¦ ( yi yˆ i ) 2 VT
i 1
0 d R2 d 1
n
VT ¦ ( yi y ) 2 Mide el porcentaje de VT que
está explicado por el regresor
i 1
n
yˆ i y Eˆ1 ( xi x ) : VE Eˆ12 ¦ ( xi x ) 2 Eˆ12 ns x2
i 1
Coef. determinación
R 2
1 R2 0.80
R2 0.50 R2 0
Contraste F
H 0 : E1 0 Eˆ1
yˆ i Eˆ0 Eˆ1 xi
H 1 : E1 z 0
o F12
VE
(Si H o es cierto)
2
V VE VE
F o F1 ,n 2
2
¦in 1 ei2 VNE/(n-2 ) 2
(n 2) sˆR sˆR
o F n22
VNE
V2 V2
V2
VE VNE F ! FD Se rechaza H0
, son independie ntes
V2 V2
Contraste F yˆ i Eˆ0 Eˆ1 xi
E[VE ] V 2 (Si H o es cierto)

H 0 : E1 0
E[ sˆR2 ] V 2
H 1 : E1 z 0
VE
F 2
o F1,n 2 F ! FD Se rechaza H0
sˆR
Rechazo H0
F1,n-2 Acep. H0
Fα
α = 0.05
Contraste F yˆ i Eˆ0 Eˆ1 xi
n
H 0 : E1 0 VE ¦ ( yˆ i yi ) 416.8
i 1
H 1 : E1 z 0 sˆR2 2.38
VE 416.8
F 175.1
sˆR2 2.38
F1,28
α = 0.05
175.1 ! 4.2 Se rechaza H 0
4.2
Suma de Grados de
FUENTES Cuadrados Libertad Varianzas F
Explicada (VE) ¦ ( yˆ y) 2
1 ¦ ( yˆ y) 2 ¦ ( yˆ i y)2
i i
sˆR2
Residual (VNE) ¦(y i yˆ i ) 2 n2 sˆ 2
R
Total (VT) ¦(y i y)2 n 1
R2
VE ¦ i
( ˆ
y y ) 2
VT ¦(y i y)2
Suma de Grados de
Explicada (VE) 416.8 1 416.8 175.1

Residual (VNE) 66.64 28 2.38
Total (VT) 483.4 29
R2 0.862
Ejemplo: R2 yˆ i 0.071 0.0117xi ;
Núm. Obs. Peso Consumo Predicción Residuos 25

1 981 11 11,44 -0,44
20
2 878 12 10,23 1,77

3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
sˆ R2
15
5
6
1064
655
13
6
12,41
7,61
0,59
-1,61
10
2.38
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35
9 1366 18 15,95 2,05 5
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
0
12 900 10 10,49 -0,49
500 700 900 1100 1300 1500 1700
13 888 7 10,35 -3,35
Peso (Kg)
14 766 9 8,91 0,09 n
15
16
981
729
13
7
11,44
8,48
1,56
-1,48
VE ¦ ( yˆ i y ) 416.8
17 1034 12 12,06 -0,06 i 1
18 1384 17 16,16 0,84
776 12 9,03 2,97 n
¦ ( yi yˆ i ) 66.64
19
20
21
835
650
10
9
9,72
7,55
0,28
1,45
VNE
22 956 12 11,14 0,86 i 1
23
24
688
716
8
7
8,00
8,33
0,00
-1,33 VT VE VNE 483.4
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
416.8
27 1578
688
18
7
18,44
8,00
-0,44
-1,00
R2 86.2%
483.4
28
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18
Regresión con R
ARCHIVO TEXTO: coches.txt
Regresión con R: Estimación
Gráfico en R
Ejemplo 2: Pearson-Lee Data
Estimation with R

Conclusiones Principales
1. Hay una relación muy significativa entre la altura de las
hijas y la altura de la madre (p-valor es prácticamente 0)
Eˆ1 0.54
2. La relación es positiva: “A madre alta hija alta.”
3. La desviación típica de la pendiente (standard error) es

SE ( Eˆ1 ) 0.0259 E1 0.54 r 1.96 u 0.0254
0.49 d E1 d 0.590
4. La estatura de la madre solo explica el 24% de la estatura

de la hija (R-squared = 0.24)
5. Dada la estatura de la madre se puede predecir la estatura

de la hija con un error medio de 5.75 cm (sR).

“Regresión” a la media
La recta de regresión (línea roja) tiene pendiente menor que 1 (línea azul) , lo que significa que las
madres altas tienden a tener hijas que son más altas que la media (pues la pendiente es positiva) pero
más bajas que ellas (porque la pendiente es menor que uno). De forma similar, las madres bajas tienen
hijas más bajas , pero más altas que sus madres. Este resultado resultó sorprendente y es el origen del
término “regresión”, que indica que los valores extremos de una generación tienden a regresa o
revertir hacia la media en la siguiente.
Regresión
2: Regresión simple II (Diagnosis y
Transformaciones)
Diagnosis del Modelo
La estimación está basada en las

siguientes hipótesis:
Linealidad
yi
Normalidad
E 0 E1 x
Homocedasticidad
Independencia xi
¾ Observaciones Atípicas (muy perjudiciales)

Las hipótesis se comprueban con los RESIDUOS
Regresión Lineal 2
Análisis de los Residuos

yi yˆ i
1
2
981
878
11
12
11,44
10,23
-0,44
1,77
ei
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
25
5 1064 13 12,41 0,59
6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86 20
1485 17 17,35 -0,35
8
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89 15
12 900 10 10,49 -0,49
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56 10
16 729 7 8,48 -1,48
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84 5
19 776 12 9,03 2,97
20 835 10 9,72 0,28
21 650 9 7,55 1,45
22 956 12 11,14 0,86 0
23 688 8 8,00 0,00 500 700 900 1100 1300 1500 1700
24 716 7 8,33 -1,33
25 608 7 7,06 -0,06 Peso (Kg)
26 802 11 9,34 1,66
0.071 0.0117xi ; sˆ R2
1578 18 18,44 -0,44
yˆ i
27
28
29
688
1461
7
17
8,00
17,07
-1,00
-0,07
2.38
30 1556 15 18,18 -3,18
Regresión Lineal 3
1 981 11 11,44 -0,44 25
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59 20

6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35 15
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
12 900 10 10,49 -0,49 10
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56
16 729 7 8,48 -1,48 5
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84
19 776 12 9,03 2,97
0
20 835 10 9,72 0,28
21 650 9 7,55 1,45 500 700 900 1100 1300 1500 1700
22 956 12 11,14 0,86 Peso (Kg)
23 688 8 8,00 0,00
24 716 7 8,33 -1,33
2
yˆ i 0.071 0.0117xi ; sˆ R 2.38
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
27 1578 18 18,44 -0,44
28 688 7 8,00 -1,00
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18
Regresión Lineal 4

1 981 11 11,44 -0,44
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59
6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
12 900 10 10,49 -0,49
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56
16 729 7 8,48 -1,48
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84
19 776 12 9,03 2,97
20 835 10 9,72 0,28
21 650 9 7,55 1,45
22 956 12 11,14 0,86
23 688 8 8,00 0,00
24 716 7 8,33 -1,33
2
yˆ i 0.071 0.0117xi ; sˆ R 2.38
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
27 1578 18 18,44 -0,44
28 688 7 8,00 -1,00
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18
Regresión Lineal 5
No linealidad
Regresión Lineal 6
No homocedasticidad
Regresión Lineal 7
No homocedasticidad, ni
linealidad
Regresión Lineal 8
Observaciones atípicas
Regresión Lineal 9
Residuos Aceptables
Normalidad de los Residuos
Herramientas de comprobación:
Histograma de residuos
Gráfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)
Ejemplo de coches
120 99,9
99
100
probabilidad
95
80 80
60 50
20
40
5
20 1
0 0,1
-9 -6 -3 0 3 6 9 -6 -4 -2 0 2 4 6
Residuos Residuos
Comprobación de la linealidad
y homocedasticidad
Ambas hipótesis se comprueban
conjuntamente mediante gráficos de los
residuos
Frente a valores previstos
Frente al regresor.
En muchas ocasiones se corrige la falta
de linealidad y la heterocedasticidad
mediante transformación de las variables.
log yi E 0 E1 x1i ui
log yi E 0 E1 log x1i ui
Residuos – Regresor o Val.Previstos
Lineal y homocedástico No lineal y homocedástico

ei ei
0 0
xi xi
ei ei
0 0
Lineal y no homocedástico xi No lineal y no homocedástico xi

Coches (ejemplo 1): Consumo ~ Peso
Normalidad ok Linealidad ok y
Homocedasticidad ok
Cars (Ejemplo 2): mpg ~ weight

DESCRIPCIÓN: Datos de 391 coches (archivo:cars.txt) con
información del siete variables: consumo (mpg), cc (engine),
potencia (horse), peso (weight), tiempo de aceleración (accel),
origen del coche (origin, 1=USA, 2=UE, 3=Japón) y número de
cilindros (cylinders)
OBJETIVO: Estimar el modelo de

regresión simple entre el consumo
(mpg) y el peso (weight)
Cars: mpg ~ weight
mpg = 49.20 − 0.0076 weight

(0.802) (0.00025)
= 0.69 ̂ = 4.34
Cars: Figuras
No hay linealidad ni homocedasticidad
Figura 2.1 Figura 2.2
Cars: cons ~ weight
TRANSFORMACIÓN: En lugar de medir el consumo en
millas por galón (mpg), vamos a cambiar a “litros cada
100 km (cons)”
cons = 235.1/mpg
Y X
…
Cars: cons ~ weight

TRANSFORMACIÓN: En lugar de medir el consumo en
millas por galón (mpg), vamos a cambiar a “litros cada
100 km (cons)”
cons = 235.1/mpg
cons = −0.7689 + 0.0040 weight

(0.3298) (0.00011)
= 0.79 ̂ = 1.78
Cars: Cambio Variable
Mejora la linealidad y homocedasticidad
Cars: Normalidad
Normalidad no es problemática
Cars: Instrucciones con R
> cars<-read.table("cars.txt",header=TRUE) % LEE EL ARCHIVO CARS.TXT

> attach(cars) % AÑADE LAS VARIABLES DEL CONJUNTO DE DATOS cars A LA MEMORIA
> mod_cars<-lm(mpg ~ weight) % ESTIMA EL MODELO DE REGRESIÓN SIMPLE (MOD_CARS)
> par(mfrow=c(1,2)) % DIVIDE LA PANTALLA GRÁFICA EN 1 FILA Y 2 COLUMNAS (ver FIGURAs 2.1 2.2)
> plot(weight,mpg,pch=19,col="blue") % DIBUJA Figura 2.1

> abline(mod_cars,col="red",lwd=2) % AÑADE Linea roja A la figura 2.1
> plot(weight,residuals(mod_cars),pch=19,col="blue",ylab="residuos") % DIBUJA Figura 2.2

> abline(c(0,0),col="red",lty=2,lwd=2) > summary(mod_cars) % Línea roja de la figura 2.2
> summary(mod_cars) % MUESTRA Resumen del modelo de regresión
Tabla 2.1
> cons <- 235.1/mpg % cambio variable

> m2 <- lm(cons ~ weight) % nuevo modelo
> plot(weight,cons,pch=19,col="blue") % Figuras 2.3 y 2.4

> abline(m2,col="red",lwd=2)
> plot(weight,residuals(m2),pch=19,col="blue",ylim=c(-10,10))
> abline(c(0,0),col="red",lwd=2,lty=2)
> abline(c(-5,0),col="red",lwd=2,lty=2)
> hist(residuals(m2),xlab="residuos",col="red",nclas=20) % figuras 2.5 y 2.6

> qqnorm(residuals(m2),col="blue",pch=19)
> qqline(residuals(m2),col="red",lwd=2,lty=2)
> summary(m2) % resumen del modelo m2 (tabla 2.2)
Tabla 2.2
Forbes (Ejemplo 3)
Ejemplo “Forbes”
En un artículo de 1857 un físico escocés llamado “forbes.txt”
James D. Forbes presentó una serie de experimentos Temp Pres
realizados para estudiar la relación entre presión 1 194.5 20.79
atmosférica y punto de ebullición del agua. Forbes 2 194.3 20.79
3 197.9 22.40
sabía que la altitud podía ser determinada a partir de 4 198.4 22.67
la presión atmosférica medida con un barómetro, con 5 199.4 23.15
menores presiones a medida que aumenta la altitud. A 6 199.9 23.35
7 200.9 23.89
mediados del siglo XIX los barómetros eran 8 201.1 23.99
instrumentos muy frágiles y Forbes pensó que se 9 201.4 24.02
podía sustituir la medidas de la presión con medidas 10 201.3 24.01
11 203.6 25.14
de la temperatura de ebullición del agua. Recogió 12 204.6 26.57
datos de 17 emplazamientos en los Alpes y los 13 209.5 28.49
montes de Escocia. En cada lugar se midió con un 14 208.6 27.76
15 210.7 29.04
barómetro la presión en pulgadas de mercurio (Pres) 16 211.9 29.88
y la temperatura de ebullición del agua en grados 17 212.2 30.06
Fahrenheit (Temp) empleando un termómetro. Los
Weisberg, S. (2005). Applied Linear Regression, 3rd
datos se encuentran en el archivo “forbes.txt” edition. New York: Wiley.
Forbes: Modelo Inicial

Temp Pres Pred Resid
1 194.5 20.79 20.639 0.1511552
2 194.3 20.79 20.534 0.2557337
3 197.9 22.40 22.417 -0.0166790
4 198.4 22.67 22.678 -0.0081252
5 199.4 23.15 23.201 -0.0510176
6 199.9 23.35 23.462 -0.1124638
7 200.9 23.89 23.985 -0.0953562
8 201.1 23.99 24.090 -0.0999347
9 201.4 24.02 24.247 -0.2268024
10 201.3 24.01 24.195 -0.1845131
11 203.6 25.14 25.397 -0.2571657
12 204.6 26.57 25.920 0.6499419
13 209.5 28.49 28.482 0.0077692
14 208.6 27.76 28.012 -0.2516277
15 210.7 29.04 29.110 -0.0697017
Pres = −81.06 + 0.523 Temp 16
17
211.9
212.2
29.88
30.06
29.737
29.894
0.1428274
0.1659597
(2.05) (0.010)
= 0.994 ̂ = 0.233 Tabla 3.1
Forbes: Conclusiones Modelo Inicial
• Según la figura y el valor R-cuadrado (0.994) el ajuste es

muy bueno.
• Comparando los valores Previstos con los Observados

(Pred) observamos que las diferencias (residuos) son
pequeñas ( ̂ = 0.233)
• Los dos parámetros del modelo son muy significativos

(entre paréntesis se proporcionan las desv. típicas.
estimadas de los parámetros estimados)
Forbes: Diagnosis
En el gráfico de residuos frente al regresor se observa:
• La mayoría de las observaciones muestran no-linealidad

• Existe una observación atípica
Forbes: Instrucciones R
> forbes <- read.table(“forbes.txt”,header=TRUE)
> attach(forbes)
> m <- lm(Pres ~ Temp)
> summary(m)
Forbes: Instrucciones R (cont)

> forbes$Pred <- predict(m)
> forbes$Resid <- residuals(m)
> print(forbes,digits=4,print.gap=3) % proporciona tabla 3.1
Figuras 3.1 y 3.2

> par(mfrow=c(1,2))
> plot(Temp,Pres,pch=19,col="blue",xlab="Temperatura",
ylab="Presión")
> abline(m,col="red",lwd=2)
> plot(Temp,residuals(m),pch=19,col="blue",ylab="Residuos",
xlab="Temperatura")
> abline(c(0,0),lty=2,lwd=2,col="red")
Forbes: Modelo 1
Temp Pres Lpres Pred Resid
= 100 × log 1 194.5 20.79 131.79 132.03 -0.2480225
2 194.3 20.79 131.79 131.85 -0.0688990
3 197.9 22.40 135.02 135.08 -0.0537700
4 198.4 22.67 135.55 135.53 0.0187713
5 199.4 23.15 136.46 136.42 0.0331010
6 199.9 23.35 136.83 136.87 -0.0411189
7 200.9 23.89 137.82 137.77 0.0561898
8 201.1 23.99 138.00 137.94 0.0584761
9 201.4 24.02 138.06 138.21 -0.1559337
10 201.3 24.01 138.04 138.12 -0.0844563
11 203.6 25.14 140.04 140.18 -0.1470658
12 204.6 26.57 142.44 141.08 1.3599445
13 209.5 28.49 145.47 145.47 0.0015070
14 208.6 27.76 144.34 144.66 -0.3197358
15 210.7 29.04 146.30 146.54 -0.2428181
16 211.9 29.88 147.54 147.62 -0.0791613
17 212.2 30.06 147.80 147.89 -0.0870083
Lpres = −42.16 + 0.8956 Temp

(3.34) (0.016) Tabla 4.1
= 0.995 ̂ = 0.379
Forbes : modelo 1

• Existe una observación claramente atípica
• Se ha corregido la falta de linealidad en el resto de las
observaciones.
Forbes: Modelo 1
• Se ha realizado la transformación logarítmica de la presión

para corregir la falta de linealidad (da igual utilizar
logaritmos neperianos o decimales, se ha multiplicado por
100 para evitar números muy pequeños en las
estimaciones, no tiene efecto en el análisis)
• La observación atípica tiene mucha influencia en la
estimación del modelo, se aprecia como los residuos del
resto de las observaciones no tienen media cero.
• Por lo demás el ajuste es muy bueno como se ve en la
gráfica y en la tabla 4.1, los valores previstos se parecen
mucho a los observados (los residuos son pequeños)
• Conviene eliminar la observación atípica y recalcular.
> forbes1 <- read.table(“forbes.txt”,header=TRUE)
> attach(forbes1)
> m1 <- lm(100*log10(Pres) ~ Temp)
> summary(m1)
Forbes: Instrucciones R (cont)
> forbes1$Lpres <- 100*log10(Pres)
> forbes1$Pred <- predict(m1)
> forbes1$Resid <- residuals(m1)
> print(forbes1,digits=4,print.gap=3) % proporciona tabla 4.1
Figuras 4.1 y 4.2

> par(mfrow=c(1,2))
> plot(Temp,100*log10(Pres),pch=19,col="blue",xlab="Temperatura“)
> abline(m1,col="red",lwd=2)
> plot(Temp,residuals(m1),pch=19,col="blue",ylab="Residuos",
xlab="Temperatura")
Forbes: Modelo 2
(ELIMINANDO OBSERVACIÓN Nº 12)
Temp Pres Lpres Pred Resid
= 100 × log 1 194.5 20.79 131.79 131.99 -0.2006699
2 194.3 20.79 131.79 131.81 -0.0224480
3 197.9 22.40 135.02 135.02 0.0089107
4 198.4 22.67 135.55 135.46 0.0837061
5 199.4 23.15 136.46 136.35 0.1025441
6 199.9 23.35 136.83 136.80 0.0305783
7 200.9 23.89 137.82 137.69 0.1323953
8 201.1 23.99 138.00 137.87 0.1355832
9 201.4 24.02 138.06 138.13 -0.0774742
10 201.3 24.01 138.04 138.05 -0.0064475
11 203.6 25.14 140.04 140.10 -0.0586881
12* 204.6 26.57 142.44 140.99 1.4527324
13 209.5 28.49 145.47 145.35 0.1164833
14 208.6 27.76 144.34 144.55 -0.2088168
15 210.7 29.04 146.30 146.42 -0.1224318
16 211.9 29.88 147.54 147.49 0.0466349
17 212.2 30.06 147.80 147.76 0.0401403
Tabla 5.1
Lpres = −41.33 + 0.8911 Temp
(1.003) (0.0049)
La obs. 12 no se ha utilizado en
la estimación del modelo
= 0.9996 ̂ = 0.1136
Forbes : modelo 2

• No existen observaciones atípicas (las líneas rojas se
encuentran a ±2 ̂ )
• No se observa ninguna anomalía grave en el qqplot..
Forbes: Modelo 2
• Se ha realizado la transformación logarítmica de la presión

para corregir la falta de linealidad y se ha eliminado la
observación 12 (el propio Forbes indica en su artículo que
se trataba de un error de medida)
• Comparando el modelo 1 y 2, no se aprecian grandes
cambios en los parámetros estimados , .
• La desviación típica residual se ha reducido
considerablemente de uno a otro, pasando de 0.379 a
0.113, y como consecuencia las desviaciones típicas de los
parámetros.
• El análisis de los residuos no indican ninguna desviación
importante de las hipótesis del modelo
> # Modelo m2 de Forbes
> out <- abs(residuals(m1)) > 3*0.3792
> m2 <- lm(100*log10(Pres[!out]) ~ Temp[!out])
> summary(m2)
Forbes 2: Instrucciones R (cont)

> # Tabla 5.1
> P_Lpres =c(predict(m2)[1:11],NA,predict(m2)[12:16])
> P_Lpres[12] = -41.334683 + 0.891110*Temp[12]
> forbes2 <- forbes1
> forbes2$Pred <- P_Lpres
> forbes2$Resid <- 100*log10(Pres)-P_Lpres
> print(forbes2,digits=5,print.gap=3)
> # Figuras 5.1 y 5.2

> par(mfrow=c(1,2))
> plot(Temp[!out],residuals(m2),pch=19,col="blue",ylab="Residuos",
+ xlab="Temperatura",ylim=c(-.5,.5))
> abline(c(-.22,0),lty=2,lwd=2,col="red")
> abline(c(+.22,0),lty=2,lwd=2,col="red")
>
> qqnorm(residuals(m2),ylim=c(-.2,.2),pch=19,col="blue")
> qqline(residuals(m2),col="red",lty=2,lwd=2)
FEV (Ejemplo 4)
Ejemplo “Fev” Forced Expiratory Volume (FEV)
654 observaciones, 5 variables
Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston

(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) y
fumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En la
lección de regresión múltiple estudiaremos el efecto del tabaco.
Fuente:
Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury
age fev ht sex smoke
Variables 1 9 1.708 57.0 0 0
2 8 1.724 67.5 0 0
age años del individuo 3 7 1.720 54.5 0 0
fev variable continua en litros 4 9 1.558 53.0 1 0
ht variable continua, estatura en pulgadas 5 9 1.895 57.0 1 0
6 8 2.336 61.0 0 0
sex cualitativa (mujer=0, hombre=1) ...
smoke cualitativa (No-fumador=0, fumador=1)
Tabla 6.1
FEV: Modelo Inicial

• Tanto en el gráfico de dispersión de FEV y altura (ht)
como en el de los residuos del modelo de regresión
simple se observa la relación no-lineal entre las dos
variables y la heterocedasticidad.
FEV: modelo 1
log(fev) = −2.27 + 0.052 ht
(0.063) (0.0010)
= 0.7956 ̂ = 0.1508
FEV: modelo 1
5 ht
g( ) = −2.27 + 0.052
log(fev)
FEV: Modelo 1
((0.063)
0.063)) ((0.0010)
0.0010))
= 0.7956
0.7956 ̂ = 0.1508
0.1508
1
• Se ha realizado la transformación logarítmica de la variable

respuesta (fev) y se ha corregido la falta de linealidad y la
heterocedasticidad como se ve en las figuras 6.3 y 6.4
• El histograma y el qqplot (figura 6.5 y 6.6) no muestran
grandes desviaciones de la normalidad.
• Existen algunas observaciones atípicas pero se puede
comprobar que al eliminarlas los resultados no cambian
sustancialmente.
• Existe una relación muy significativa entre log(fev) y ht
(altura). Un incremento de un pulgada en la estatura supone
un aumento de la capacidad pulmonar del 5% (este
resultado cambiará al considerar otras variables)
• La altura explica un 79% (R2) de la variabilidad del log(fev).
FEV: Modelo m1 con R
Tabla 6.2
FEV : Instrucciones de R
> # FEV (ejemplo 4)
> dat <- read.table("fev.dat",header=TRUE)
> head(fev) #tabla 6.1
> attach(dat)
> m<-lm(fev~ht) # modelo m inicial
> par(mfrow=c(1,2))
> plot(ht,fev,col="blue") # figura 6.1
> abline(m,col="red",lwd=2)
> plot(ht,residuals(m),col="blue") # figura 6.2
> m1 <- lm(log(fev) ~ ht)
> summary(m1) # modelo estimado tabla 6.2
> plot(ht,log(fev),col="blue") # figura 6.3
> abline(m1,col="red",lwd=2) # figura 6.3
> plot(ht,residuals(m1),col="blue") # figura 6.4
> abline(c(0,0),col="red",lty=2,lwd=2)
> par(mfrow=c(1,2)) # figura 6.5 y 6.6
> hist(residuals(m1),col="red",nclass=20,xlab="Residuos")
> qqnorm(residuals(m1),col="blue")
> qqline(residuals(m1),col="red",lty=2,lwd=2)
Brains (ejemplo 5)
Ejemplo “Brains” Peso del cuerpo y cerebro de mamiferos
Descripción:
Para 62 especies de mamíferos se proporciona el peso medio del cuerpo en kilogramos y
del cerebro en gramos BrainWt BodyWt
Arctic_fox 44.500 3.385
Owl_monkey 15.499 0.480
Variables: Beaver 8.100 1.350
BrainWt Peso del cerebro (gramos) Cow 423.012 464.983
Gray_wolf 119.498 36.328
BodyWt Peso del Cuerpo (kilogramos) Goat 114.996 27.660
Tabla 7.1
OBJETIVO: Estudiar la relación entre
peso del cerebro y peso del cuerpo.
Fuentes
Allison, T. and Cicchetti, D. (1976). Sleep in mammals: Ecology and constitutional
correlates. Science, 194, 732-734.
Weisberg, S. (2005). Applied Linear Regression, 3rd edition. New York: Wiley
Brains: Transformación
• En la escala original (figura 7.1) no tiene sentido el
modelo de regresión lineal.
• Haciendo las transformación logarítmica de las dos
variables (figura 7.2) se aprecia una clara relación lineal
Brains: modelo 1
log(BrainWt) = 2.13 + 0.752 log(BodyWt)
(0.096) (0.028)
= 0.9208 ̂ = 0.6943
log(BrainWt) = 2.13 + 0.752 log(BodyWt)
Brains (0.096) (0.028)
= 0.9208 ̂ = 0.6943
• La relación entre el logaritmo de peso del cuerpo y el

logaritmo del peso del cerebro es lineal como se ve en las
figuras 7.3 y 7.4
• Existen algunas observaciones atípicas pero se puede
comprobar que al eliminarlas los resultados no cambian
sustancialmente.
• El log del peso del cuerpo explica el 92% (R2) de la
variabilidad del log del peso del cerebro.
Brains: Modelo m1 con R
Tabla 7.2
Brains : Instrucciones de R
> brains <- read.table("brains.txt",header=TRUE)
> head(brains) # tabla 7.1
> par(mfrow=c(1,2))
> plot(BodyWt,BrainWt,col="blue",xlim=c(-1000,9000)) # figura 7.1
> sel = BrainWt>1000 # selecciona observaciones con peso del cerebro >1000
> text(BodyWt[out],BrainWt[out]-300,labels=brains[out,1]) # etiquetas 7.1
> m <- lm(BrainWt ~ BodyWt)
> abline(m,col="red",lwd=2) # figura 7.1
> plot(log(BodyWt),log(BrainWt),col="blue") # Figura 7.2 y 7.3
> m1 <- lm(log(BrainWt) ~ log(BodyWt))
> abline(m1,col="red",lwd=2) # linea en figura 7.2 y 7.3
> summary(m1) # tabla 7.2
> plot(log(BodyWt),residuals(m1),col="blue",ylim=c(-4,4)) # figura 7.4
> abline(c(0,0),col="red",lty=2,lwd=2)
> abline(c(-2*.6943,0),col="red",lty=2,lwd=2)
> abline(c(+2*.6943,0),col="red",lty=2,lwd=2)
Funciones R para Regresión Simple
• m <- lm(y~x) Estima el modelo y (variable

dependiente) y x (regresor).
El modelo lo guarda en m
• summary(m) Modelo estimado
• plot(m) Diagnosis
• coef(m) Da los coeficientes
• residuals(m) Residuos del modelo
• fitted(m) Da los valores predichos
• deviance(m) Suma de residuos al cuadrado
• predict(m) Hace predicciones
• anova(m) Tabla ANOVA
Regresión
3: Regresión Múltiple I
Ejemplo regresión múltiple
Consumo = E0 + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error

Y X1 X2 X3 X4
Consumo Cilindrada Potencia Peso Aceleración
l/100Km cc CV kg segundos
15 4982 150 1144 12
16 6391 190 1283 9
24 5031 200 1458 15
9 1491 70 651 21
11 2294 72 802 19
17 5752 153 1384 14
... ... ... ... ...
Var. dependientes Var. Independientes

o respuesta o regresores
Regresión Lineal 2
Modelo regresión múltiple
yi E 0 E1x1i E 2 x2i E k xki ui ,
ui o N (0, V 2 )
E 0 , E1, E 2 ,, E k , V 2 : parámetros desconocidos

Linealidad Homocedasticidad
E[yi] = E0+ E1x1i+}+ Ekxki Var [yi|x1 ,...,xk] = V2
Normalidad Independencia
yi| x1 ,...,xk Normal Cov [yi, yk] = 0
Regresión Lineal 3
Estimación
yi E0 E1 x1i E 2 x2i E k xk i ui , ui o N (0, V 2 )
=
=
⋮
= − ̅ − ̅ −⋯− ̅
yi Eˆ0 Eˆ1 x1i Eˆk xki ei

yˆ i Eˆ0 Eˆ1 x1i Eˆk xki
yˆ i Eˆ0 Eˆ1 x1i Eˆk xki
n
¦e 2
i
ei yi yˆ i o sˆR2 i 1
g.l. = n-k-1
n k 1
Regresión Lineal 4
Notación matricial
§ y1 · §1 x11 x21 xk1 ·§ E 0 · § u1 ·

¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22 xk 2 ¸¨ E1 ¸ ¨ u 2 ¸

¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ ¸ ¨ ¸¨ ¸ ¨ ¸
ÿ ¸
© n¹
¨1
© x1n x2n xkn ¸¹¨© E k ¸¹ ¨© u n ¸¹
Y Xβ U
U o N (0, V 2 I )
Regresión Lineal 5
Estimación mínimo-cuadrática
§ y1 · §1 x11 x21 xk1 ·§ Eˆ0 · § e1 ·
¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22 xk 2 ¸¨ Eˆ1 ¸ ¨ e2 ¸
¨ ¸ ¨ ¨ ¸
¸¨ ¸ ¨ ¸
¨ ¸ ¨ ¸ ¨ ¸
ÿ ¸ ¨1 xkn ¹© E k ¹ ¨© en ¸¹
¸¨ ˆ ¸
© n¹ © x1n x2n
Y Xβˆ e
donde el vector e cumple
2 n
e ¦ ei2 es mínimo
i 1
Regresión Lineal 6
Para que ||e||2 sea mínimo, e tiene que ser
perpendicular al espacio vectorial generado las
columnas de X
§1 x11 x21 xk1 · § e1 ·
¨1 x12 x22 xk 2 ¸, e ë ¸
X ¨ ¸ ¨ 2 ¸
¨ ¸ ¨ ¸
©1 x1n x2 n xkn ¹ © en ¹
¦1nei 0
° n
°
X Te 0 ® ¦1 ei x1i 0
° n
°¯ ¦1 ei xki 0
Regresión Lineal 7
Mínimos cuadrados
Y Solución MC
x1
Y
e ˆ
YY
x1
x2
ˆ
Y ˆ
Xβ
X Te 0 x2
X T Y X T Xβˆ X T e
X T Y X T Xβˆ βˆ ( X T X) 1 X T Y
Regresión Lineal 8
Matriz de proyección V
Y e (I V)Y
x1 Val. Previstos
ˆ Xβˆ
Y
ˆ
Y VY ˆ X(X T X) 1 X T Y
Y
1 ˆ VY
Y
Residuos
e Y Xβˆ Y VY V X(XT X) 1 XT
(I V)Y Simétrica V=VT
Idempotente VV=V
Regresión Lineal 9
Distribución de probabilidad
de β̂
Y o N ( Xβ, V 2I )
βˆ (X T X)1 X T Y CY (siendo C (X T X)1 X T )
βˆ o Normal
E[βˆ ] CE[Y ] CXβ (X T X)1 X T Xβ β
Var[βˆ ] Var[CY] CVar[Y ]CT
((X T X)1 X T )(V 2I )((X T X)1 X T )T
V 2 (X T X)1 X T X(XT X)1
V 2 (X T X)1
Distribución de probabilidad
de β̂
βˆ o N (β, V 2 (X T X) 1 )
Eî o N ( E i , V 2 qii )
§ Eˆ 0 · § E0 · § q00 q01 q0 k ·
¨ ¸ Ë ¸ ¨q
βˆ ¨ Eˆ1 ¸ β ( XT X) 1 q11 q1k ¸
¨ 1¸ Q ¨ 10 ¸
¨ ¸ ¨ ¸ ¨ ¸
¨ Eˆ ¸ © Ek ¹ © qk 0 qk1 qkk ¹
© k¹
dim(Q) (k 1) u (k 1)
Residuos
Y Xβˆ e

Observados Previstos Residuos
§ y1 · §1 x11 x21 xk1 ·§ Eˆ0 · § e1 ·

¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22 xk 2 ¸¨ Eˆ1 ¸ ¨ e2 ¸
¨ ¸ ¨ ¸ ¨ ¸¨ ¸
¨ ¸
¨ ¸ ¨ ¸ ¨ ¸
ÿ ¸ ¨1 xkn ¸¹¨© Eˆ k ¸¹ ¨© en ¸¹
© n¹ © x1n x2n
ei yi ( Eˆ0 Eˆ1x1i Eˆ k xki )
Varianza Residual
e Te ¦in 1 ei2
V2 V2
o F n2 k 1
2 ¦in 1 ei2
sˆR
¦in 1 ei2 n k 1
E[ ] n k 1 2
V2 (n k 1) sˆR
o F n2k 1
¦in 1 ei2 V2
E[ ] V2
n k 1
Contraste individual Ei
H 0 : Ei 0
yi E 0 E1x1i E k xki ui
H1 : E i z 0
Eî o N ( E i , V 2 qii )
Eî E i Eˆ1 E1
o N (0,1) o t n k 1
V qii sˆR qii
Eî
ti ; ti ! t n k 1;D / 2 Se rechaza Ho
sˆR qii
Contrastes individuales
H 0 : Ei 0 yˆ i Eˆ0 Eˆ1 x1i Eˆk xki

H1 : E i z 0
→ , ( )
Eî E i
ti o t n k 1
SE ( Eî )
R.R. R.R
Eˆ 1 tn-k-1
t1 ;
SE ( Eˆ ) 1
1-D D/2
t1 ! t n k 1;D / 2 Se rechaza Ho D/2
R. Acept.
-tD/2 tD/2
H 0 : Ei 0
P-valor H1 : E i z 0
α = 0.05 Area Azul = p-valor
n-k-1
P-valor ≤ α P-valor > α

Con α=0.05
0 05 ““x”” influye Con α=0.05 “x” NO influye
significativamente en “y” significativamente en “y”
H1 : E i z 0 H 0 : Ei 0
Dependiente (y) ~ Independientes (x1, x2,..,xk)

Intercept SE( )
=
SE( )
SE( )
=
SE( )
SE( )
=
SE( )
… … … … …
SE( )
=
SE( )

Dependiente (log(fev)) ~ Independientes (ht (estatura) , age (edad) )
Intercept −1.9711 0.07833 −25.16 0.00000
ℎ 0.04399 0.001647 26.71 0.00000
0.01981 0.003181 6.23 0.00000
log(fev) = −1.97 + 0.0439 ht + 0.0198 age

(0.078) (0.0016) (0.0031)
̂ = 0.1476
Modelo en diferencias a la
media
yi Eˆ0 Eˆ1x1i Eˆ k xki ei n
¦ yi
n
nEˆ0 Eˆ1 ¦ x1i Eˆ k
n n
¦ xki ¦ ei
i 1 i 1 i 1 1
Eˆ0 Eˆ1x1 Eˆ k xk
i,
y 0
yˆ i Eˆ0 Eˆ1x1i Eˆ k xki

yˆ i y Eˆ1 ( x1i x1 ) Eˆ k ( xki xk )
§ yˆ1 y · § x11 x1 x21 x2 xk1 xk ·§ Eˆ1 ·
¨ ¸ ¨ ¸¨ ¸
¨ 2
yˆ y ¸ ¨ x12 x1 x22 x2 xk 2 xk ¸¨ Eˆ 2 ¸
¨ ¸ ¨ ¸¨ ¸
¨ ¸ ¨ ¸¨ ¸
¨ yˆ y ¸ ¨x x x2n x2 xkn xk ¸¹¨© Eˆ k ¸¹
© n ¹ © 1n 1
ˆ Y ~ˆ ~ˆ
Y Xb YY Xb e
Modelo en diferencias a la
media
~ ~
Y Xb U
§ y1 y · § y· § E1 · § Eˆ1 ·
¨ ¸ ¨ ¸ ¨ ¸ ¨ ¸
~ ¨ y2 y ¸ ¨ y¸ ¨ E2 ¸ ˆ ¨ Eˆ2 ¸
Y ¨ , Y , b ¨ ¸, b ¨ ¸
¸ ¨¸
¨¨ ¸¸ ¨¨ ¸¸ ¨¨ ¸¸ ¨¨ ¸¸
© n
y y ¹ © ¹
y © Ek ¹ © Eˆk ¹
§ x11 x1 x21 x2 xk1 xk ·
¨ ¸
~ ¨ x12 x1
X
x22 x2 xk 2 xk ¸
¨ ¸
¨¨ ¸
© x1n x1 x2n x2 xkn xk ¸¹
~ T ~ 1 ~ T ~ ~ ~
ˆb (X X) X Y bˆ o N (b, σ 2 ( XT X) 1 )
variabilidad en regresión
yi Eˆ0 Eˆ1x1i Eˆ k xki ei

yi yˆ i ei (Restando y )
( yi y ) ( yˆ i y ) ei
¦in 1 ( yi y ) 2 ¦in 1 ( yˆ i y ) 2 ¦in 1 ei2

VT VE VNE
Coeficiente de determinación R2
log(fev) = −1.97 + 0.0439 ht + 0.0198 age

(0.078) (0.0016) (0.0031)
n
VE ¦ ( yˆ
i 1
i y)2 58.536
VE 58.536
n R2 0.8071
VNE ¦(y
i 1
i yˆ i ) 2
13.990 VT 72.526
VT 58.536 13.990 72.526

0 d R2 d 1
Mide el porcentaje de VT que
está explicado por los regresores
2
Coef. determinación corregido R
n
VE VT VNE VNE (n k 1) sˆR2 ¦ ( yi y ) 2
R2 1 1 sˆ 2y i 1
VT VT VT (n 1) sˆ y2 n 1
sˆR2 VNE n 1
R2 1 2 1 u
sˆ y VT n k 1
n 1
1 (1 R ) u
2
n k 1
= 1 − (1 − 0.8071) × =0.8065
Contraste general de regresión.

yi E 0 E1x1i E k xki ui
H 0 : E1 E 2 E k 0
H1 : alguno es distinto de 0
VE Acep. H0
Rechazo H0
2
sˆ
E oV 2 (Si H o es cierto)
k
sˆR2 o V 2 α = 0.05
sÊ2
F o Fk ,n k 1
sˆR2
F ! FD Se rechaza H0 F1,n-2 Fα
Contraste F
log(fev) = −1.97 + 0.0439 ht + 0.0198 age, ̂ = 0.1476
(0.078) (0.0016) (0.0031)
VE 58.436
sÊ2 29.268
H 0 : E1 E2 0 k 2
sˆR2 0.021
H1 : algún E i z 0 sÊ2 29.268
F 1362
F2,651 sˆR2 0.021
α = 0.05
1362 ! 3.01 Se rechaza H 0
3.01 P-valor = 0.00000…


Suma de Grados de
sÊ2
Explicada (VE) ¦ ( yˆ i y) 2
k sˆ 2
E sˆR2
Residual (VNE) ¦(y i yˆ i ) 2 n k 1 sˆR2
Total (VT) ¦(y i y)
2
n 1
R2
VE ¦ i
( ˆ
y y ) 2
VT ¦(y i y)2
log(fev) = −1.97 + 0.0439 ht + 0.0198 age, ̂ = 0.1476
(0.078) (0.0016) (0.0031)
Suma de Grados de
Explicada (VE) 58.536 2 29.268 1362

Residual (VNE) 13.990 651 0.0215
Total (VT) 72.526 653
58.536
R2 0.8071
72.526
Resumen de estimación con R
Ejemplo 1: Cars
Depend Regresores
Y X1 X2 X3 X4
= −1.05 + 0.0058 engine + 0.0369 horse +

+ 0.0020 weight + 0.0813 accel
Valores Previstos y Residuos

= −1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accel
Datos Resultados n
VE ¦ ( yˆ i y)2 4725.0
Y X1 X2 X3 X4 i 1
n
VNE ¦(y
i 1
i yˆ i ) 2 1037.9
n
VT ¦(y
i 1
i y)2 5762.9
2
1037.9
̂ = =
− −1 386
= 2.7
4725
= = = 81.99
5762.9
DIAGNOSIS: residuos ~ regresores
Diagnosis
Linealidad Normalidad
Homocedasticidad ok
ok
Resumen del modelo
Resumen del modelo (sin aceleración)
Conclusiones modelo final
= −1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accel
̂ = 1.64 = 81.99
1. No se aprecian desviaciones importantes de las hipótesis básicas del

modelo: linealidad, homocedasticidad y normalidad.
2. Se observa relación lineal significativa entre el consumo de los coches y su

peso (weight), potencia (horse) y centímetros cúbicos (engine). (Los p-
valores son menores que 0.05 en elmodelos). Los coeficientes estimados
son positivos, lo que significa que el aumento de cualquiera de las variables
independientes incrementa el consumo del vehículo. Con las cuatro
variables se explica el 81.99 % de la variabilidad del consumo.
Conclusiones modelo final (cont)

3. En el modelo de cuatro regresores el parámetro asociado a aceleración no es
significativo. La inclusión de la variable “aceleración” no mejora
significativamente el modelo. Eso no implica que no exista relación lineal entre
aceleración y consumo (la regresión simple entre estas variables indican relación
significativa con coeficiente negativo).
4. El coeficiente asociado al peso es 0.0020, es muy significativo. Para

interpretarlo es necesario tener en cuenta las unidades: un aumento de una libra
en el peso del coche manteniendo constante el resto de las variables produce un
aumento del consumo de 0.002 litros/100 km. (Esto implica que un regresor se
puede cambiar manteniendo el resto constante, lo que sólo es posible en los
estudios experimentales.) El resto de los coeficientes se interpreta similarmente.
CARS: Todos los modelos
Modelo
1
engine
2
horse
3
weight
4
accel ̂
1 0,032 1,874 76,28 76,22
0,0009
2 0,085 2,002 72,94 72,87

0,0026
3 0,004 1,780 78,55 78,49

0,0001
4 -0,663 3,380 22,70 22,50

0,062
12 0,0202 0,036 1,775 78,78 78,67

0,0019 0,0053
13 0,01313 0,00251 1,715 80,18 80,08

0,0023 0,0002872
14 0,03215 0,0048 1,877 76,28 76,16

0,00108 0,041
23 0,0351 0,0026 1,650 81,67 81,58

0,00432 0,00019
24 0,1027 0,336 1,892 75,90 75,78

0,0035 0,048
34 0,00379 -0,1689 1,734 79,75 79,65

0,0001147 0,0351
123 0,0052 0,0299 0,00225 1,643 81,86 81,72

0,0025 0,005 0,0002
124 0,01765 0,0539 0,2282 1,723 80,05 79,89

0,0019 0,0063 0,0459
134 0,01006 0,0027 -0,0986 1,704 80,50 80,35

0,0026 0,000298 0,039
234 0,04113 0,0025 0,0639 1,648 81,75 81,61

0,0063 0,00022 0,0489
1234 0,00587 0,03695 0,002018 0,0813 1,640 81,99 81,80

0,0026 0,0065 0,00031 0,049
Conclusiones Generales
1. El que la relación lineal entre dos variables sea significativa no implica que exista
relación de CAUSALIDAD entre las variables. Se debe interpretar como asociación
entre las variables: los coches con más pesos presentan mayor consumo que los
coches con menos peso.
2. Cuando se añaden o eliminan variables de un modelo los coeficientes del resto

cambian. Eso es debido a la correlación entre los regresores. Cuando estas
correlaciones son altas los coeficientes pueden cambiar mucho, incluso de signo.
Esto se puede apreciar en el coeficiente de la variable accel, cuyo efecto sobre el
cosnumo depende del resto de las variables en el modelo. La alta correlación
entre los regresores hace muy difícil interpretar el significado de los
coeficientes, a este problema se le denomina MULTICOLINEALIDAD.
Conclusiones (cont.)
7. La selección del modelo depende del objetivo. Siempre el modelo con más
regresores tiene el mayor R2. Utilizando el “R2 corregido” hay tres modelos
muy parecidos 23, 123 y 1234. El mejor modelo con un regresor es el 3, con R2
igual al 78.55%, al incluir la pontencia (horse) como nuevo regresor tenemos el
modelo 23 cuyo R2 sólo aumenta un 3%, hasta 81.67%. El modelo 123, incluye
además los cc del motor (engine) como regresor con un aumento en R2
despreciable (ahora 81.86%). En este modelo los tres coeficientes son
significativos. Si añadimos la variable accel, llegamos al modelo completo con
R2 igual a 81.99%. El coeficiente de la última variable no es significativo.
8. Al ir incluyendo regresores en un modelo los residuos van disminuyendo y con
ello la variabilidad no explicada. La desviación típica residual también suele
disminuir (hay que tener en cuenta que el denominador de la varianza residual
también disminuye). Los modelos 23, 123 y 1234 tienen una desviación típica
residual muy parecida y próxima a 1.64 litros/100km. La interpretación
(aproximada) es la siguiente (con el modelo 1234): si nos proporcionan los datos
del peso (weight), potencia (horse), cc (engine) y aceleración (accel) del coche
la distribución de su consumo tiene media la proporcionada por el modelo y
desviación típica 1.64 litros/100km.
Ejemplo 2: Cerezos Negros

Se desea construir un
modelo de regresión para
obtener el volumen de
madera de una “cerezo
negro” en función de la
altura del tronco y del
diámetro del mismo a un
metro sobre el suelo. Se
ha tomado una muestra
de 31 árboles. Las
unidades de longitudes
son pies y de volumen
pies cúbicos.
Cerezos negros: Datos
Árbol Diametro Altura Volumen Árbol Diametro Altura Volumen

1 8,3 70 10,30 17 12,9 85 33,80
2 8,6 65 10,30 18 13,3 86 27,40
3 8,8 63 10,20 19 13,7 71 25,70
4 10,5 72 16,40 20 13,8 64 24,90
5 10,7 81 18,80 21 14,0 78 34,50
6 10,8 83 19,70 22 14,2 80 31,70
7 11,0 66 15,60 23 14,5 74 36,30
8 11,0 75 18,20 24 16,0 72 38,30
9 11,1 80 22,60 25 16,3 77 42,60
10 11,2 75 19,90 26 17,3 81 55,40
11 11,3 79 24,20 27 17,5 82 55,70
12 11,4 76 21,00 28 17,9 80 58,30
13 11,4 76 21,40 29 18,0 80 51,50
14 11,7 69 21,30 30 18,0 80 51,00
15 12,0 75 19,10 31 20,6 87 77,00
16 12,9 74 22,20
Gráficos x-y
1. Se aprecia relación entre las dos variables y el volumen

2. El gráfico del volumen versus diámetro presenta ligera curvatura
3. El gráfico del volumen versus altura presenta clara heterocedasticidad
Primer modelo:cerezos negros
Volumen β0 β1 Diametro β2 Altura Error
Diagnosis
Indicios de falta de linealidad
Transformación
vol | k u altura u diámetro 2
log(vol) | E 0 E1 log(altura) E 2 log(diámetro) error
Diagnosis (modelo transformado)
Antes
Ahora
Interpretación
Se comprueba gráficamente que la distribución
de los residuos es compatible con las hipótesis
de linealidad y homocedasticidad.
El volumen está muy relacionada con la altura y
el diámetro del árbol (R2= 97.77%)
El modelo estimado
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error
es compatible con la ecuación vol=k u Alt uDiam2

La desviación típica residual es sR=0.081 que
indica que el error relativo del modelo en la
predicción del volumen es del 8.1%.
Ejemplo 3: Tabaco
Ejemplo “Tabaco” Monóxido de Carbono (CO)
Descripción: Se proporciona la producción de monóxido de

carbono (co) y el contenido de nicotina (nico) y alquitrán
(alq) en 25 marcas diferentes de cigarrillos americanos.
Fuente: Mendenhall, William, and Sincich, Terry (1992),

Statistics for Engineering and the Sciences (3rd ed.), New
York: (Original source: Federal Trade Commission, USA)
Variables
alq contenido en alquitrán mg
nico contenido en nicotina mg
co monóxido de carbono CO mg
Objetivo: Estudiar la relación entre CO con alquitrán

y nicotina
CO ~ nico CO ~ alq
= 85.74 ̂ = 1.828 = 91.68 ̂ = 1.397
= 91.86 ̂ = 1.413
Efecto de la multicolinealidad
(alta correlación entre nico y alq)
El coeficiente de la variable “nico” cambia de

12.39 a -2.36.
En el modelo con dos regresores, el
coeficiente de la variable “nico” no es
significativo.
Los standard errors de los coeficientes en el
= 0.9537 modelo de dos regresores han aumentado
considerablemente respecto a los de
regresión simple. El de “nico” pasa de 1.05 a
3.78. El cambio para “alq” es mayor.
Los estadísticos t se han reducido (debido al
aumento de los standards errors)
La desviación típica residual del modelo con
dos regresores es mayor que en el modelo
de regresión simple “CO ~ alq”
Regresión con R
Interpretación (inicial)
Contraste F=438 (p-valor=0.0000) Alguno de
los regresores influye significativamente en el
consumo.
Contrastes individuales:
La potencia y el peso influyen significativamente (p-
valor=0.0000)
Para D=0.05, la cilindrada y la aceleración también
tienen efecto significativo (p-valor < 0.05)
El efecto de cualquier regresor es “positivo”, al
aumentar cualquiera de ellos aumenta la variable
respuesta: consumo.
Los regresores explican el 82 % de la variabilidad
del consumo (R2 = 0.8197)
Multicolinealidad
Cuando la correlación entre los

regresores es alta.
Presenta graves inconvenientes:
Empeora las estimaciones de los efectos de
cada variable Ei: aumenta la varianza de las
estimaciones y la dependencia de los
estimadores)
Dificulta la interpretación de los parámetros
del modelo estimado (ver el caso de la
aceleración en el ejemplo).
Identificación de la multicolinealidad:
Matriz de correlación de los regresores.
Gráficos consumo - xi
24 24
20 20
consumo
consumo
16 16
12 12
8 8
4 4
0 0
500 1000 1500 2000 0 40 80 120 160 200 240
peso potencia
24 24
20 20
consumo
consumo
16 16
12 12
8 8
4 4
0 0
0 2 4 6 8 8 11 14 17 20 23 26
(X 1000)
cilindrada aceleracion
Consumo y aceleración
Multicolinealidad: efecto en la
varianza de los estimadores
yi E 0 E1x1i E 2 x2i ui
ª§ Eˆ ·º
var «¨¨ 1 ¸¸» X~ T X~ 1V 2 ~T X
X ~ nS XX S XX
§ s12
¨
¨s
s12 ·¸
s22 ¸¹
§ s12
¨
¨r s s
r12 s1s2 ·¸
s22 ¸¹
¬© Eˆ 2 ¹¼ © 12 © 12 1 2
§ 1 r12 ·
¨ 2 2 2 ¸
¨ s1 (1 r12 ) s1 s2 (1 r12 )¸
| S XX | s12 s22 (1 r12
2
) S XX
1
¨ ¸
r12 1
¨ ¸
¨ s s (1 r 2 ) s22 (1 r12
2
) ¸
© 1 2 12 ¹
§ V 2
r12V 2 ·
¨ ¸
ª§ Eˆ1 ·º ¨ ns12 (1 r122 ) 2 ¸
ns1 s2 (1 r12 )
var «¨¨ ¸¸» ¨ ¸
«¬© Eˆ 2 ¹»¼
2
¨ r12V V2 ¸
¨ ns s (1 r122 ) ns2 (1 r12 ) ¸¹
2 2
© 1 2
Consecuencias de la
multicolinealidad
Gran varianza de los estimadores E
Cambio importante en las
estimaciones al eliminar o incluir
regresores en el modelo
Cambio de los contrastes al eliminar
o incluir regresores en el modelo.
Contradicciones entre el contraste F
y los contrastes individuales.
Regresión
4. Regresión Múltiple: Variables
Cualitativas y Predicción
Variables cualitativas como

regresores
Consumo Cilindrada Potencia Peso Aceleración Origen
15 4982 150 1144 12 Europa
16 6391 190 1283 9 Japón
24 5031 200 1458 15 USA
9 1491 70 651 21 Europa
11 2294 72 802 19 Japón
17 5752 153 1384 14 USA
12 2294 90 802 20 Europa
17 6555 175 1461 12 USA
18 6555 190 1474 13 USA
12 1147 97 776 14 Japón
16 5735 145 1360 13 USA
12 1868 91 860 14 Europa
9 2294 75 847 17 USA
... ... ... ... ... ...
Regresión Lineal 2
Variables cualitativas como
regresores

°
Europa
Origen ® Japón
°̄ USA 0 si i JAPON
Z JAP i ®1 si i JAPON
¯
0 si i USA
ZUSA i ®1 si i USA
¯
0 si i EUROPA
Z EUR i ®1 si i EUROPA
¯
Consumo = E0 + E1 CC + E2 Pot + E3 Peso +
+ E4 Acel + DJAP ZJAP + DUSA ZUSA + Error
Regresión Lineal 3
Variables cualitativas
Consumo Cilindrada Potencia Peso Aceleración ZJAP ZUSA ZEUR
15 4982 150 1144 12 0 0 1
16 6391 190 1283 9 1 0 0
24 5031 200 1458 15 0 1 0
9 1491 70 651 21 0 0 1
11 2294 72 802 19 1 0 0
17 5752 153 1384 14 0 1 0
12 2294 90 802 20 0 0 1
17 6555 175 1461 12 0 1 0
18 6555 190 1474 13 0 1 0
12 1147 97 776 14 1 0 0
16 5735 145 1360 13 0 1 0
12 1868 91 860 14 0 0 1
9 2294 75 847 17 0 1 0
... ... ... ... ... ... ... ...
Regresión Lineal 4
Interpretación var. cualitativa
• Coches europeos: ZJAP = 0 y ZUSA = 0 REFERENCIA

Consumo = E0 + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error
• Coches japoneses: ZJAP =1 y ZUSA = 0

Consumo = E0 + DJAP + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error
• Coches americanos: ZJAP =0 y ZUSA = 1

Consumo = E0 + DUSA + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error
Regresión Lineal 5
Interpretación del modelo

Americanos
y
Europeos Ref.
E0 +
DUSA Japoneses
E0
E0 + DJAP
xi
Regresión Lineal 6
Modelo estimado (con R)
Regresión Lineal 7
Interpretación
Se introduce en el modelo la variable cualitativa
ORIGEN del vehículo (USA=1, EUR=2,JAP=3). En el
modelo se utiliza USA como referencia.
El p-valor del coeficiente asociado a OrigenJAP es
0.1467 >.05, se concluye que no existe diferencia
significativa entre el consumo de los coches
Japoneses y Americanos (manteniendo constante el
peso, cc, pot y acel.)
La misma interpretación para OrigenEUR, no existe
diferencia en el consumo de coches EUR y USA.
Comparando R2 =0.8212 de este modelo con el
anterior R2=0.8199, se confirma que el modelo con
las variables de Origen no suponen una mejora
sensible.
Regresión Lineal 8
Body: Instrucciones con R
# ejemplo1 cars : modelo de regresión
> cars <- read.table("cars.txt",header=TRUE)

> attach(cars)
> cons <- 235.1/mpg # transformamos la variable

> Origen <- factor(origin,labels=c("USA","EUR","JAP"))
# la instrucción “factor()” es necesaria
# para introducir en el modelo de
# regresión una variable cualitativa
> m <- lm(cons ~ engine + horse + weight+ accel + Origen)
> summary(m)
Regresión Lineal 9
Modelo de regresión con

variables cualitativas
En general, para considerar una variable
cualitativa con r niveles, se introducen en
la ecuación r-1 variables ficticias
0 i nivel 1 0 i nivel 2 0 i nivel r 1
z1i ®1 i nivel 1, z 2i ®1 i nivel 2, , z r 1i ®1 i nivel r 1
¯ ¯ ¯
Y el nivel r no utilizado es el que actúa de
referencia
yi E 0 E1 x1i E k xki
D 1 z1i D 2 z 2i D r 1 z r 1,i ui

variable cualitativa
Ejemplo: Body
Nombre: Body (Cuerpo Humano) Exploring Relationships in Body
Dimensions
507 Observaciones, 25 Variables
Descripción: Este ejemplo contiene 21 medidas del cuerpo humano, además

de la edad, peso, altura y género (mujeres = 0, hombres =1) de 507
individuos de los que 247 son hombres y 260 mujeres. Los datos fueron
recogidos entre personas que acudía frecuentemente al gimnasio en USA,
la mayoría de ellos entre 20 y 40 años.
Fuente: Exploring Relationships in Body Dimensions, Grete Heinz,Louis J.

Peterson,Roger W. Johnson , Carter J. Kerk, Journal of Statistics
Education Volume 11, Number 2 (2003),
www.amstat.org/publications/jse/v11n2/datasets.heinz.html
OBJETIVO: Relación entre el peso y altura diferenciando entre

hombres y mujeres.
Estatura Peso
Hombres 177.7cm 78.1 kg
Body Mujeres 164.9cm 60.6 kg
Diferencia 12.8 cm 17.5 kg
Weight = E0 + E1 Height + DHOM ZHOM + Error
Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error
Interpretación
8.36 kg
A igualdad de
ESTATURA, la
diferencia de
PESO entre un
hombre y una
mujer es
Figura 2.1. 8.36 kg
Body: Instrucciones con R

# body : modelo de regresión
> body <- read.table("body.txt",header=TRUE)

> attach(body)
> m.body<-lm(Weight~Height+Gender)
> summary(m.body)
# figura 2.1
> plot(Height,Weight,col=Gender+2) # Gender +2 asigna el color rojo (2)

# a mujeres y el verde (3) a los hombres
> abline(c(-56.949,0.7129),col = "red",lwd=2) # linea de regresión de mujeres
> abline(c(-56.949+8.3659,0.7129),col = "green",lwd=2) # regresión hombres
FEV (Ejemplo 3)
Ejemplo “Fev” Forced Expiratory Volume (FEV)
Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston

(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) y
fumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En la
lección de regresión múltiple estudiaremos el efecto del tabaco.
Fuente:
Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury
age fev ht sex smoke
Variables 1 9 1.708 57.0 0 0
2 8 1.724 67.5 0 0
age años del individuo 3 7 1.720 54.5 0 0
fev variable continua en litros 4 9 1.558 53.0 1 0
ht variable continua, estatura en pulgadas 5 9 1.895 57.0 1 0
6 8 2.336 61.0 0 0
sex cualitativa (mujer=0, hombre=1) ...
smoke cualitativa (No-fumador=0, fumador=1)
Tabla 6.1
Modelo de regresión
Log(fev) = E0 + E1 ht + E2 age + DHOM ZHOM + DHOM ZHOM + Error
Log(fev) = -1.9 + 0.042ht + 0.023age + 0.029 ZHOM – 0.046 ZFUM + Error
Interpretación
1. Todos los coeficientes son significativamente distintos de cero.
2. A igualdad del resto de las variables, un aumento de 1cm en la
Estatura produce un incremento en fev del 4.2%
3. A igualdad del resto de las variables, un aumento de 1 año en la
Edad produce un incremento en fev del 2.3%
4. A igualdad del resto de las variables, los hombres tienen un 2.9%
más de fev que las mujeres.
5. A igualdad del resto de las variables, los fumadores tienen un
4.6% menos de fev que los no-fumadores.
IMPORTANTE: El objetivo del estudio era cuantificar el efecto de

fumar en la capacidad pulmonar de los jóvenes, el restos de las
variables del modelo son necesarias (imprescindibles) para
detectar el efecto, aunque juegan un papel secundario.
fev: Instrucciones con R

# ejemplo 3: fev
> pulmon <- read.table("fev.dat",header=TRUE)
> attach(pulmon)
> m.pulmon <- lm(log(fev) ~ ht + age + sex + smoke)
> summary(m.pulmon)
# sex es una variable que toma valores 0,1

# 0 mujeres
# 1 hombres
#
# smoke es una variable 0,1, también 0 no fumador,
# y 1 fumador
#
# Cuando son variables 0,1 no es necesario convertirlas
# en variables CUALITATIVAS o FACTOR utilizando la
# instrucción
# genero=factor(sex,labels=c(“Mujer”,”Hombre”))
Predicción
Media mh|xh Nueva Observ. yh|xh
mh yh
mh
xh xh
ŷ h
xh
Predicción de la media mh
(Regresión simple)
mh ŷ h
xh xh
m yˆ r tD / 2 sˆR vhh
h h ŷ h
1 ( xh x ) 2
vhh (1 2
)
n sx
xh
(Regresión multiple)
mh ŷ h
xh xh
h h ŷ h
1
vhh (1 (x h x)T S x1 (x h x))
n
xh
Intervalos de predicción para

una nueva observación yh
ŷ h
xh
y yˆ r tD / 2 sˆR 1 vhh
h h
Límites de predicción
yˆ Eˆ0 Eˆ1 x1 Eˆ k xk h h
y h h
x
Predicción
Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error
Peso predicho para el PESO MEDIO de hombre de 175cm
Pred_Weight = -56.9 + 0.713 x 175 + 8.366x 1 = 76.18 kg
Peso predicho para la media de la distribución del peso de las

mujeres de 170cm de estatura
Pred_Weight = -56.9 + 0.713 x 170 + 8.366x 0 = 64.25 kg
Intervalos
95% confianza
Int. Confianza Previsto Lim. Inf Lim. Sup
Height=175,Sexo = 1 76.19 75.04 77.33
Height=170,Sexo = 0 64.25 63.03 65.47
Int. Predicción Previsto Lim. Inf Lim. Sup

Height=175,Sexo = 1 76.19 58.85 93.51
Height=170,Sexo = 0 64.25 49.92 81.59
Predicción: Instrucciones R
# ejemplo 3: fev
> newbody <- data.frame(Height=170,Gender=0)
> predict(m.body,newbody,interval="confidence")
fit lwr upr
1 64.2563 63.03951 65.4731

> predict(m.body,newbody,interval="prediction")
fit lwr upr
1 64.2563 46.92133 81.59128

> predict(m.body,newbody,interval="confidence")
fit lwr upr
1 76.18717 75.04465 77.32969

> predict(m.body,newbody,interval="prediction")
fit lwr upr
1 76.18717 58.85725 93.5171
Otros ejemplos con R
> newcar <- data.frame(horse=130,engine=180,accel=12,Origen="USA", weight=3000)
> predict(m,newcar,interval="confidence")
fit lwr upr
1 11.84055 11.47096 12.21014
> newboy <- data.frame(ht=160,age=17,sex=1,smoke=0)

> predict(m.pulmon,newboy,interval="confidence")
fit lwr upr
1 5.33023 5.041005 5.619455
> newcars <- data.frame(horse=c(130,140,150)
+ ,engine=c(180, 185, 190)
+ ,accel=c(10,11,12)
+ ,Origen=c("USA","JAP","EUR")
+ ,weight=c(3000,2000,2500))
> pred.w.clim <- predict(m,newcars,interval="confidence")
> pred.w.clim
fit lwr upr
1 11.67788 11.197035 12.15872
2 10.13996 9.440399 10.83952
3 11.62928 11.027327 12.23123
APÉNDICE: PREDICCIÓN
(Regresión simple)
mh ŷ h
xh xh
yh o N ( E 0 E1xh , V 2 ) yˆ h Eˆ0 Eˆ1xh y Eˆ1 ( xh x )
mh E 0 E1xh E[ yˆ h ] E[ Eˆ0 Eˆ1xh ] E 0 E1xh mh
var[ yˆ h ] var[ y Eˆ1 ( xh x )]
var[ y ] ( xh x ) 2 var[ Eˆ1 ]
§ ·
¨ V2¨
§
( xh x ) 2 ·¸ ¸ V2 V2
yˆ h o N ¨ mh , ¨1 ¸¸ ( xh x ) 2
¨ n ¨ 2 ¸¸
© ©
sx ¹¹ n nsx2
(Regresión múltiple)
mh ŷ h
yh o N (mh , V 2 )
xh x'h
βˆ T x'h , x'T (1, x1h , x2h , , xkh )
E 0 E1 x1h E k xkh
yˆ h
mh h
E [ yˆ h] E[βˆ T x'h ] E[βˆ T ]x'h βT x'h

β x'h
T
var[ yˆ h ] var[βˆ T x'h ] T

x'
h var[ βˆ T ]x'h
T 1
T
x 'h V 2 vhhV 2
yˆ h o N §¨ mh , V 2vhh ·¸
x' h (X X)
T 1
© ¹
T
v
hh x'
h (X X) x 'h
Expresión alternativa para vhh
yˆ h y bˆ T (x h x)
var[ yˆ h ] var[ y bˆ T (x h x)] var[ y ] (x h x)T var[bˆ ](x h x)
~T ~
V2 ~ ~ X X
(x h x)T ( XT X) 1 (x h x)V 2 , (S x )
n n
V2
(1 (x h x)T S x1 (x h x))
n
1 xh x vhh 1/ n
vhh (1 (x h x)T S x1 (x h x)) x h z x vhh ! 1 / n
n
Intervalos de confianza para la

media mh

yˆ h o N mh , V 2 vhh
yˆ h mh ŷ h
o N (0,1)
V vhh
yˆ h mh
o tn k 1
sˆR vhh xh
h h
Regresión simple
1 1 ( xh x ) 2
vhh (1 (xh x)T S x1 (xh x)) vhh (1 )
n n s x2
Predicción de una nueva
observación yh (Reg.Simple)
yh
ŷ h
mh
xh xh
yˆ h Eˆ0 Eˆ1 xh yh o N (mh , V ) 2
yˆ h o N (mh , V 2 vhh ) mh E 0 E1 xh
e~ y yˆ
h h h
E[e~h ] E[ yh ] E[ yˆ h ] 0
var[ e~h ] var[ yh ] var[ yˆ h ] e~h o N ( 0, V 2 (1 vhh ))
V 2 V 2 vhh
Predicción de una nueva

observación yh (Reg. Múltiple)
yh
ŷ h
mh
xh xh
yˆ h y bˆ T x h yˆ h o N (mh , V 2vhh )
E[e~h ] E[ yh ] E[ yˆ h ] 0
e~h yh yˆ h o ® ~ ] var[ y ] var[ yˆ ] V 2 (1 v )
¯ var[ eh h h hh
~
eh o N ( 0, V (1 vhh ))
2
Intervalos de predicción para
una nueva observación yh
e~h o N 0, V 2 (1 vhh )
e~h yh yˆ h ŷ h
yh yˆ h
o N (0,1)
V 1 vhh
yh yˆ h
o tn k 1
sˆR 1 vhh
xh
h h
Límites de predicción
yˆ Eˆ0 Eˆ1 x1 Eˆ k xk h h
y h h
x
Diagnosis: Residuos
Y Xβˆ e

Observados Previstos Residuos
§ y1 · §1 x11 x21 xk1 ·§ Eˆ0 · § e1 ·

¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22 xk 2 ¸¨ Eˆ1 ¸ ¨ e2 ¸
¨ ¸ ¨ ¸ ¨ ¸¨ ¸
¨ ¸
¨ ¸ ¨ ¸ ¨ ¸
ÿ ¸ ¨1 xkn ¸¹¨© Eˆ k ¸¹ ¨© en ¸¹
© n¹ © x1n x2n
ei yi ( Eˆ0 Eˆ1x1i Eˆ k xki )
Distribución de los residuos

Y o N ( Xβ, V 2 I ) e (I V)Y
V X(X T X) 1 X T
e o Normal
°
® E[e] (I V)E[Y] (I V)Xβ 0
°̄var[e] (I V) var(Y)(I V) V 2 (I V)
e o N (0, V 2 (I V))
ei o N (0, V 2 (1 vii ))
Distancia de Mahalanobis
Di2 (x i x)T S x 1 (x i x) (Dist. de Mahalanobis)
x i x Di2 0
Mide la distancia de x i a x ®
¯x i z x Di ! 0
2
1
vii x'Ti ( XT X) 1 x'i (1 (x i x)T S x1 (x i x))
n
vii son los elementos diagonales de la matriz V
V X(X T X) 1 XT
n n n 1
vii ¦ vij v ji ¦ vij2 vii2 vii (1 vii ) ¦ vij2 t 0 d vii d 1
j 1 j 1, j z i j 1, j z i n
Residuos estandarizados
ei o N (0, (1 vii )V ) 2
var(ei ) (1 vii )V 2
Cuando xi está próximo a x vii | 1 / n var(ei ) | V 2
Cuando xi está lejos de x vii | 1 var(ei ) | 0 ei | 0
Residuos estandarizados
ei
ri
sˆR 1 vii
Modelos de regresión lineal
REGRESION SIMPLE
1. La tabla muestra los mejores tiempos mundiales en Juegos Olı́mpicos hasta 1976 en carrera
masculina para distintas distancias.
y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795
x: distancia (m) 100 200 400 800 1500 5000 10000 42196
(a) Estimar la regresión lineal de y sobre x y calcular la varianza residual y el coeficiente

de correlación.
(b) Obtener intervalos de confianza para la pendiente y varianza residual (α = 0.01).
(c) Analizar si la relación lineal es adecuada, transformando las variables si es necesario.
(d) Supóngase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.
Estimar el tiempo previsto para el record olı́mpico en dicha carrera, dando un intervalo
de confianza con α = 0.05.
2. Según la ecuación de los gases ideales, la presión ejercida por un gas a volumen y temperatura
constante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimar
el peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se va
soltando poco a poco gas, variando la presión, pero manteniendo la temperatura constante.
En la tabla adjunta se proporcionan mediciones de la presión (con respecto a la atmosférica,
1 atm = 14.7 psi) y de la masa del gas para el árgon.
Presión (psi) Masa (g)

52 1.028
49 0.956
44 0.880
39 0.793
34 0.725
29 0.645
25 0.593
21 0.526
19 0.500
19 0.442
11 0.373
0 0.210
(a) Para estimar el peso molecular del árgon a partir de los datos, se propone el siguiente
modelo de regresión
Pi = β 0 + β 1 mi + ui con ui ∼ N(0, σ 2 ).
Estimar los parámetros del modelo y contrastar si el término independiente es signi-
ficativo.
1
(b) Se considera el modelo alternativo
Pi = αmi + ui , con ui ∼ N(0, σ 2 ).

Obtener el estimador de máxima verosimilitud del parámetro α, ası́ como su varianza.
(c) Realizar el contraste H0 : α = 50 frente a H1 : α 6= 50 con nivel de significación 0.05.
(d) Para el segundo modelo, obtener un intervalo de predicción para la presión cuando la
masa es igual a 1 gramo.
(e) Obtener la varianza del estimador de E[Ph |mh ], es decir del valor medio de la presión
Ph para una masa dada mh con ambos modelos. Si el modelo verdadero fuese el del
primer apartado, ¿qué efecto tendrı́a sobre la predicción adoptar el modelo alternativo?
3. Sir Francis Galton (1877) estudió la relación entre la estatura de una persona (y) y la estatura
de sus padres (x) obteniendo las siguientes conclusiones:
(a) Existı́a una correlación positiva entre las dos variables.

(b) Las estaturas de los hijos cuyos padres medı́an más que la media era, en promedio,
inferior a la de sus progenitores, mientras que los padres con estatura inferior a la
media en promedio tenı́an hijos más altos que ellos, calificando este hecho como de
”regresión” a la media.
Contrastar (α = 0.05) estas dos conclusiones con la ecuación ŷ = 17.8 + 0.91x resultante de
estimar un modelo de regresión lineal entre las variables (en cm.) descritas anteriormente
para una muestra de tamaño 100 si la desviación tı́pica (estimada) de β̂ 1 es 0.04.
4. La ley de Hubble sobre la expansión del universo establece que dadas dos galaxias la ve-
locidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y H
la constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxias
respecto a la Via Láctea. Se pide:
Galaxia Distancia Velocidad

(millones años luz) (103 Km/s)
Virgo 22 1.21
Pegaso 68 3.86
Perseo 108 5.15
Coma Berenices 137 7.56
Osa Mayor 1 255 14.96
Leo 315 19.31
Corona Boreal 390 21.56
Géminis 405 23.17
Osa Mayor 2 700 41.83
Hidra 1100 61.14
Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.
2
Nota: Obsérvese que según el modelo de Hubble la regresión debe pasar por el origen.
Tómese 1 año luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.
(a) Estimar por regresión la constante de Hubble.

(b) Como T = d/v = d/Hd = 1/H, la inversa de la constante de Hubble representa la
edad estimada del Universo. Construir un intervalo de confianza del 95% para dicha
edad .
5. Para establecer la relación entre el alargamiento en mm (Y ) producido en un cierto material

plástico sometido a tracción y la tensión aplicada en toneladas por cm2 (X) se realizaron 10
experimentos cuyos resultados se muestran en la tabla
xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70
yi 23 20 33 45 67 52 86 74 98 102
Tabla: Alargamiento yi (mm) producidos por la tensión xi (Tm/cm2 ).
(a) Ajustar el modelo de regresión lineal E(Y |x) = β 0 + β 1 x y contrastar (α = 0.01) la

hipótesis de que, en promedio, por cada Tm/cm2 de fuerza aplicada es de esperar un
alargamiento de 50 milı́metros, sabiendo que la desviación tı́pica residual vale 10.55.
(b) Si el lı́mite de elasticidad se alcanza cuando x = 2.2 Tm/cm2 , construir un intervalo
de confianza al 95% para el alargamiento medio esperado en ese punto.
(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nula
debe ser nulo también, estimar el nuevo modelo E [Y |x] = βx con los datos anteriores
¿Cuál es el sesgo del estimador del parámetro de la pendiente si se estima según el
modelo del apartado 1?
6. Estimar por mı́nimos cuadrados los parámetros a y b de la ecuación y = a + bx2 con la

muestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).
7. La ecuación de regresión entre las ventas de un producto y y su precio x es ŷ = 320 − 1.2x,

ŝR = 2 y ŝy = 4. Si el número de datos ha sido n = 50, contrastar H0 : β 1 = −1 frente a la
alternativa H1 : β 1 < −1.
8. Se estudia la relación entre el tiempo de reparación (minutos) de ordenadores personales y

el número de unidades reparadas en ese tiempo por un equipo de mantenimiento con los
resultados mostrados en la siguiente tabla
unidades reparadas 1 3 4 6 7 9 10
tiempo de reparación 23 49 74 96 109 149 154
Se pide:
3
(a) Construir la recta de regresión para prever el tiempo de reparación y utilizarla para
construir un intervalo de confianza (α = 0.01) para el tiempo medio de reparación de
8 unidades.
(b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparación para un lote
de 14 unidades.
(c) Si los tiempos de reparación fuesen medias de 10 datos. ¿Cual serı́a la recta de regresión?
REGRESION MULTIPLE
9. En la tabla se muestran los costes financieros mensuales en miles de euros (y) de 16 delega-
ciones de una gestora de inversiones, además se proporciona el número de nuevos préstamos
del mes (x1 ) y el número de préstamos pendientes (x2 ).
n x1 x2 y
1 80 8 2256
2 93 9 2340
3 100 10 2426
4 82 12 2293
5 90 11 2330
6 99 8 2368
7 81 8 2250
8 96 10 2409
9 94 12 2364
10 93 11 2379
11 97 13 2440
12 95 11 2364
13 100 8 2404
14 85 12 2317
15 86 9 2309
16 87 12 2328
(a) Estima la ecuación de regresión
yi = β 0 + β 1 x1i + β 2 x2i + ui con ui ∼ N(0, σ 2 )
incluyendo la varianza del modelo.

(b) Realizar los contrastes individuales e interpretar los coeficientes.
(c) Realiza el contraste general de regresión o contraste de la F. Proporciona el p-valor.
(d) Proporciona la tabla con valores previstos y residuos.
(e) Comprueba las hipótesis del modelo.
4
10. Los fabricantes que utilizan rodamientos en sus productos tienen interés en la fiabilidad de
estos componentes. La medida básica de fiabilidad se denomina rating life, y consiste en el
número de revoluciones que soporta el 90% de los rodamientos antes de la fractura, a esto
se denota por L10. Los modelos teóricos indica que este valor está relacionado con la carga
(P) a la que se somete el rodamiento, el diámetro (D) del rodamiento y el número de bolas
(Z) del mismo, mediante la ecuación:
3
kZ a D b

L10 = .
P
Se desea comprobar experimentalmente esta ecuación, para lo cual se realizó un experimento

con rodamientos de distintos fabricantes y tipos. Los datos se encuentran en el archivo
(ballbearing.txt), en la tabla 1 se muestra los 10 primeros datos. La información que contiene
es la siguiente:
Com: Codigo de empresa 1, 2, and 3

N: Número de ensayo (en cada empresa)
Year: Año del ensayo NA = No disponible
NB : Número de Rodamiento
P: Carga
Z: Número de bolas
D: Diámetro
L10: Percentil 10
L50: Percentil 50
Slope: Parámetro de la distribución Weibull
Btype: Tipo de rodamiento 1, 2, y 3 in la empresa 2; 0 en los demás casos.
Com N Year NB P Z D L10 L50 Slope Btype

1 1 1936 24 4240 8 .68750 19.200 84.50 1.27 0
1 2 1937 20 4240 8 .68750 26.200 74.20 1.81 0
1 3 1937 14 4240 8 .68750 11.100 68.10 1.04 0
1 4 1937 19 4240 8 .68750 11.800 66.80 1.09 0
1 5 1937 18 4240 8 .68750 13.500 79.40 1.06 0
1 6 1938 21 2530 9 .50000 5.800 25.70 1.27 0
1 7 1938 28 4240 8 .68750 18.300 44.70 2.10 0
1 8 1938 27 4240 8 .68750 5.620 73.20 0.73 0
1 9 1940 20 4240 8 .68750 15.800 82.70 1.14 0
1 10 1940 22 4240 8 .68750 8.700 41.60 1.20 0
··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···
5
(a) Estima el modelo
log(L10i ) = β 0 + β 1 log(Zi ) + β 2 log(Di ) + β 3 log(Pi ) + ui con ui ∼ N(0, σ 2 ),
y realiza los contrastes individuales y el contraste general.
(b) Según el modelo, β 3 = −3. Realiza el contraste
H0 : β 3 = −3
H1 : β 3 6= −3
Proporciona el p-valor del contraste.
(c) Da un intervalo de confianza para los parámetros a y b del modelo teórico.
(d) Se definen las variables ficticias T2 y T3 para identificar los rodamientos tipo 2 y 3 del
segundo fabricante (información en la variable Btype). Estima e interpreta el siguiente
modelo de regresión:
log(L10i ) = β 0 + β 1 log(Zi ) + β 2 log(Di ) + β 3 log(Pi ) +
α2 T2i + γ 2 T2i × log(Zi ) + δ 2 T2i × log(Di ) +
α3 T3i + γ 3 T3i × log(Zi ) + δ 3 T3i × log(Di ) + ui
(e) Compara el modelo del apartado 1 con el modelo del apartado 4.
11. La matriz de varianzas de tres variables estandarizadas es la siguiente

 
1 0.8 0.6
 0.8 1 0.2 
0.6 0.2 1
Calcular la ecuación de regresión de la primera variable respecto a las otras dos.
12. Dos variables x1 y x2 tienen la siguiente matriz de varianzas

1 0.5
0.5 1
y las regresiones simples con y son ŷ = 0.75x1 ; ŷ = 0.6x2 . Calcular la regresión múltiple
entre y y las dos variables x1 , x2 sabiendo que la variable y tiene media cero y varianza
unidad.
13. Para establecer la relación entre el voltaje de unas baterı́as y la temperatura de fun-
cionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguiente
tabla
Baterı́a 1 2 3 4 5 6 7 8
Temperatura 10 10 20 20 30 30 40 40
Voltaje 7.2 7.7 7.3 7.4 7.7 9.4 9.3 10.8
6
Se pide:
(a) Contrastar la hipótesis (α = 0.05) de que no existe relación lineal entre el voltaje y la
temperatura.
(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterı́as de Cadmio y las 2,4, 6 y 8 con
baterı́as de Zinc. Introducir en el análisis anterior una variable cualitativa que tenga
en cuenta los dos tipos de baterı́as y contrastar si es significativa al 95%.
(c) Dar un intervalo de confianza para el voltaje de una baterı́a de Cadmio que va a trabajar
a 35◦ centı́grados. (Utilizar el modelo estimado en el apartado 2).
(d) Comprobar que se cumplen las hipótesis del modelo construido en los apartados ante-
riores.
14. La variable y se relaciona con las variables x1 y x2 según el modelo E(y) = β 0 + β 1 x1 + β 2 x2 ;

no obstante se estima el siguiente modelo de regresión que no incluye la variable x2
ŷi = β̂ 0 + β̂ 1 x1i .
Justificar en qué condiciones el estimador β̂ 1 es centrado.
15. Se efectúa una regresión con dos variables explicativas E[y] = β 0 + β 1 x1 + β 2 x2 . La matriz
de varianzas de x1 y x2 es

2 1
1 3
¿Cuál de los dos estimadores β̂ 1 y β̂ 2 tendrá menor varianza?
16. Con los datos de la tabla, se pide:
x -2 -2 -1 -1 0 0 1 1 2 2 3 3
y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6
(a) Estimar un modelo de regresión simple con y como variable dependiente y x como
regresor. Indicar si el modelo es apropiado, justificando la respuesta.
(b) Estimar el modelo
yi = β 0 + β 1 xi + β 2 x2i + ui
y realizar el contraste H0 : β 2 = 0.
(c) Estimar el modelo
yi = β 0 + β 1 xi + β 2 x2i + β 3 x3i + ui
Realizar el contraste general de regresión con α = 0.01. Seleccionar entre los tres el
modelo más adecuado, justificando la respuesta.
7
17. Una de las etapas de fabricación de circuitos impresos requiere perforar las placas y recubrir
los orificios con una lámina de cobre mediante electrólisis. Una caracterı́stica esencial del
proceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluar
el efecto de 7 variables, X1 : Concentración de Cobre, X2 : Concentración de Cloruro, X3 :
Concentración de Ácido, X4 : Temperatura, X5 : Intensidad, X6 : Posición y X7 : Superficie
de la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales y
los resultados de cada experimento se muestran en la tabla.
X1 X2 X3 X4 X5 X6 X7 Y
1 1 -1 1 1 1 -1 2.13
1 -1 1 1 1 -1 -1 2.15
-1 1 1 1 -1 -1 -1 1.67
1 1 1 -1 -1 -1 1 1.53
1 1 -1 -1 -1 1 -1 1.49
1 -1 -1 -1 1 -1 1 1.78
-1 -1 -1 1 -1 1 1 1.80
-1 -1 1 -1 1 1 -1 1.93
-1 1 -1 1 1 -1 1 2.19
1 -1 1 1 -1 1 1 1.61
-1 1 1 -1 1 1 1 1.70
-1 -1 -1 -1 -1 -1 -1 1.43
Responder a las siguientes preguntas aplicando el modelo de regresión múltiple: matriz

identidad de 8 × 8.
(a) Estimar el modelo de regresión múltiple
yi = β 0 + β 1 x1i + β 2 x2i + β 3 x3i + β 4 x4i + β 5 x5i + β 6 x6i + β 7 x7i + ui .
Obtener la descomposición de la variabilidad del modelo y realizar el contraste
H0 : β 1 = β 2 = β 3 = β 4 = β 5 = β 6 = β 7 = 0
frente a la hipótesis alternativa H1 : algún β j es distinto de cero.
(b) Realizar cada uno de los contrastes individuales e indicar qué variables tienen efecto
significativo.
(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar el
modelo y contrastar sus coeficientes. Interpretar los resultados del experimento.
18. El molibdeno se añade a los aceros para evitar su oxidación, pero en instalaciones nucleares
presenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Se
ha realizado un experimento para determinar el grado de oxidación del acero en función del
porcentaje de molibdeno. Además se ha tenido en cuenta el efecto del tipo de refrigerante
utilizado (R1 , R2 ). Los resultados se muestran en la tabla.
8
Molibdeno (%)
Refrig. 0.5% 1% 1.5% 2% Medias
R1 26.2 23.4 20.3 23.3 23.3
R2 34.8 31.7 29.4 26.9 30.7
R1 33.2 31.3 28.6 29.3 30.6
R2 43.0 40.0 31.7 33.3 37.0
Media 34.3 31.6 27.5 28.2 30.4
(a) Escribir un modelo de regresión que incluya el porcentaje de molibdeno y el tipo de re-
frigerante como regresores; estimar el modelo e indicar qué parámetros son significativos
(α = 0.05)).
(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalación
y los correspondientes a las dos últimas en otra distinta. Escribir un nuevo modelo que
incluya este aspecto. Comprobar que este nuevo regresor está incorrelado con los dos
anteriores. Estimar el nuevo modelo.
(c) Demostrar que en un modelo con los regresores incorrelados, la eliminación de uno
de ellos no influye en el valor de los estimadores β̂ i , (i 6= 0) restantes. ¿ Influye en
la varianza residual y en los contrastes ? Explicar este efecto en función de que el
parámetro β del regresor eliminado sea o no nulo.
19. Sea x1 la altura del tronco de un árbol y x2 el diámetro del mismo en su parte inferior. El
volumen y del tronco de árbol puede ser calculado aproximadamente con el modelo
yi = αx1i x22i + ui ,
según el cual, el volumen del tronco es proporcional al volumen de un cono con las medidas
x1i , x2i , siendo α el parámetro (desconocido) de proporcionalidad, más una componente
de error aleatorio ui . La tabla siguiente contiene los datos (en metros y metros cúbicos)
correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.
Obs. x1i x2i yi

1 10,1 0,117 0,062
2 11,3 0,130 0,085
3 20,4 0,142 0,204
4 14,9 0,193 0,227
5 23,8 0,218 0,470
6 19,5 0,236 0,484
7 21,6 0,257 0,623
8 22,9 0,269 0,722
9 19,8 0,297 0,821
10 26,8 0,328 1,280
11 21,0 0,351 1,034
12 27,4 0,376 1,679
13 29,0 0,389 2,073
14 27,4 0,427 2,022
15 31,7 0,594 4,630
9
(a) Estimar α por máxima verosimilitud suponiendo que las variables ui tienen distribución
normal de media cero, con la misma varianza e independientes.
(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalo
de predicción de su volumen (95% de confianza).
(c) En el análisis de los residuos se observa que la varianza de los errores crece con el
volumen del tronco. Para obtener homocedasticidad se propone el siguiente modelo
transformado utilizando logaritmos neperianos,
log yi = β 0 + β 1 log x1i + β 2 log x2i + ui
Contrastar (nivel de significación 0.05) si estos dos valores son aceptables.

(d) Con este modelo, dar un intervalo de predicción (95% de confianza) para el volumen
del tronco del apartado 2.
20. Ciertas propiedades del acero se mejoran sumergiéndolo a alta temperatura (T0 = 1525
o
F ) en un baño templado de aceite (t0 = 95 o F ). Para determinar la influencia de las
temperaturas del acero y del baño de aceite en las propiedades finales del material se han
elegido tres valores de la temperatura del acero y tres del baño de aceite,
 
 1450 o F  70 o F
Temperatura acero (T ) 1525 o F Temperatura aceite (t) 95 o F
o
1600 F 120 o F
 
y se han realizado los siguientes experimentos:
x1i 0 0 0 0 -1 1 -1 1 0 0 -1 1
x2i 0 0 0 0 -1 -1 1 1 -1 1 0 0
yi 49.2 49.4 47.0 49.5 28.2 88.6 54.9 31.3 59.2 43.6 41.9 58.0
dónde se ha utilizado la siguiente transformación (para simplificar cálculos)
Ti − 1525 ti − 95
x1i = y x2i = .
75 25
Estimar el modelo de regresión
yi = β 0 + β 1 x1i + β 2 x2i + β 3 x1i x2i + ui
e indicar qué parámetros son significativos para nivel de significación 0.05. Estimar y con-
trastar el modelo anterior empleando las variables originales Ti y ti .
10
FORMULARIO DE LA ASIGNATURA
DISEÑO DE EXPERIMENTOS Y MODELOS DE REGRESIÓN
Cátedra de Estadística ETSII – UPM

Versión 2019.05
Tema 1. Análisis de la varianza

1) Comparación de dos tratamientos:
1.a) Modelo:
𝑦 𝜇 𝑢 , ∀𝑖 ∈ 1, 𝐼 , 𝑗 ∈ 1, 𝑛 𝑢 → 𝑁 0, 𝜎
I : número de tratamientos 𝑛 : número de observaciones del tratamiento i-ésimo
1.b) Comparación de medias:
̄ • ̄ •
→𝑡 donde 𝑠̂ 𝑠̂ 𝑠̂
̂
1.c) Comparación de varianzas:

𝑠̂ 𝑠̂
→𝐹 ,
𝜎 𝜎
2) Comparación de ‘k’ tratamientos:
2.a) Modelo: 𝑦 𝜇 𝑢 , 𝑢 → 𝑁 0, 𝜎
2.b) Descomposición de variabilidad:

𝑉𝑇 ∑ ∑ 𝑦 𝑦••
𝑉𝐸 ∑ 𝑛 𝑦• 𝑦••
𝑉𝑁𝐸 ∑ ∑ 𝑦 𝑦• ∑ ∑ 𝑒
2.c) Tabla Análisis de Varianza:

Suma de Grados de
∑𝑛 𝑦 • 𝑦••
Tratamientos ∑𝑛 𝑦 • 𝑦•• 𝐾 1 𝑉𝐸/ 𝐾 1
𝐾 1 𝑠̂
Residual ∑∑ 𝑦 𝑦• 𝑛 𝐾 𝑠̂ 𝑉𝑁𝐸/ 𝑛 𝐾
Total ∑∑ 𝑦 𝑦•• 𝑛 1
2.d) Intervalos de confianza para medias:

𝑠̂
𝜇 ∈𝑦• 𝑡 /
𝑛
2.e) Contraste dos a dos para la diferencia de medias:

𝑦̄ • 𝑦̄ • 𝜇 𝜇
𝑡 →𝑡
1 1
𝑠̂
𝑛 𝑛
Formulario de “Diseño de Experimentos y Modelos de Regresión” ETSII-UPM
Tema 2. Diseño de experimentos

1) Dos factores con interacción
𝑦 𝜇 𝛼 𝛽 𝛼𝛽 𝑢 ∀𝑖 ∈ 1, 𝐼 , 𝑗 ∈ 1, 𝐽 , 𝑘 ∈ 1, 𝑚
𝑢 → 𝑁 0, 𝜎 ; ∑ 𝛼 0;∑ 𝛽 0;∑ 𝛼𝛽 0 , ∀𝑗 ; ∑ 𝛼𝛽 0 , ∀𝑖
I : número de niveles factor A J : número de niveles factor B m : número de replicaciones
1.a) Descomposición de variabilidad:
𝑉𝑇 ∑ ∑ ∑ 𝑦 𝑦••• 𝑉𝐸 𝐴 𝑚𝐽 ∑ 𝑦 •• 𝑦••• 𝑚𝐽 ∑ 𝛼
𝑉𝑁𝐸 ∑ ∑ ∑ 𝑒 𝑉𝐸 𝐵 𝑚𝐼 ∑ 𝑦• • 𝑦••• 𝑚𝐼 ∑ 𝛽
𝑒 𝑦 𝑦 • 𝑉𝐸 𝐴 𝐵 𝑚∑ ∑ 𝛼𝛽
1.b) Tabla de Análisis de Varianza:
Variabilidad Cuadrados Libertad. Varianza 𝐹 𝑝 valor
𝑠̂
𝐴 𝑚𝐽∑ 𝑦 •• 𝑦••• 𝐼 1 𝑠̂ 𝑉𝐸 𝐴 / 𝐼 1 𝑝
𝑠̂
𝑠̂
𝐵 𝑚𝐼∑ 𝑦• 𝑦••• 𝐽 1 𝑠̂ 𝑉𝐸 𝐴 / 𝐽 1 𝑝
• 𝑠̂
𝑠̂
𝐴 𝐵 𝑚∑∑ 𝑦 • 𝑦 •• 𝑦• 𝑦••• 𝐼 1 𝐽 1 𝑠̂ 𝑉𝐸 𝐴𝐵 / 𝐼 1 𝐽 1 𝑝
• 𝑠̂
Residual ∑∑∑𝑒 𝐼𝐽 𝑚 1 𝑠̂ 𝑉𝑁𝐸/ 𝐼𝐽 𝑚 1
Total ∑∑∑ 𝑦 𝑦••• 𝑛 1
1.c) Comparaciones múltiples (interacción nula): factor A

𝒚̄ 𝒊•• 𝒚̄ 𝒋•• 𝜶𝒊 𝜶𝒋 𝒔𝑹 𝟐/𝒎𝑱 → 𝒕𝑰𝑱 𝒎 𝟏
1.d) Intervalos de confianza (interacción nula): factor A

𝜇 𝛼 ∈ 𝑦 •• 𝑡 𝑠̂ / 𝑚𝐽
1.e) Intervalos de confianza (interacción significativa):

𝜇 𝛼 𝛽 𝛼𝛽 ∈ 𝑦 •
𝑡 / 𝑠̂ / √𝑚
2) Bloques aleatorizados
𝑦 𝜇 𝛼 𝛽 𝑢 ∀𝑖 ∈ 1, 𝐼 , 𝑗 ∈ 1, 𝐽 ; 𝑢 → 𝑁 0, 𝜎 ; ∑ 𝛼 0 ∑ 𝛽 0
I : número de niveles Factor J : número de niveles Bloque
2.a) Descomposición de variabilidad:
𝑉𝑇 ∑ ∑ 𝑦 𝑦•• 𝑉𝐸 𝑇 𝐽∑ 𝑦• 𝑦••
𝑒 𝑦 𝑦• 𝑦• 𝑦••
𝑉𝑁𝐸 ∑ ∑ 𝑒 𝑉𝐸 𝐵 𝐼∑ 𝑦• 𝑦••
2.b) Tabla de Análisis de Varianza:

Variabilidad Cuadrados Libertad. Varianza 𝐹 𝑝 valor
𝑠̂
Factor 𝐽∑ 𝑦 • 𝑦•• 𝐼 1 𝑠̂ 𝑉𝐸 𝑇 / 𝐼 1 𝑝
𝑠̂
𝑠̂
Bloque 𝐼 ∑ 𝑦• 𝑦•• 𝐽 1 𝑠̂ 𝑉𝐸 𝐵 / 𝐼 1 𝑝
𝑠̂
Residual ∑∑𝑒 𝐼 1 𝐽 1 𝑠̂ 𝑉𝑁𝐸/ 𝐼 1 𝐽 1
Total ∑∑ 𝑦 𝑦•• n-1
2.c) Intervalo de confianza (para los tratamientos): 𝜇 𝛼 ∈𝑦• 𝑡 / 𝑠̂ / 𝐽

2.d) Contraste dos a dos (para los tratamientos): 𝑦̄ • 𝑦̄ • 𝜶 𝜶 𝑠̂ 2/𝐽 → 𝑡
Página 2 de 8
Tema 3. Modelos de Regresión

1) Regresión lineal simple (RLS)
1.a) Estimación:
∑
𝛽 cov 𝑥 , 𝑦 / var 𝑥 𝛽 𝑦 𝛽𝑥 𝑠̂
1.b) Distribución de estimadores:
̄ ̂
𝛽 → 𝑁 𝛽 , 𝜎 ⁄ 𝑛𝑠 𝛽 →𝑁 𝛽 , 1 →𝜒
1.c) Contrastes:
̂ ̂ ̄
𝛽 𝛽 →𝑡 𝛽 𝛽 1 →𝑡
√ √
1.d) Descomposición de la variabilidad:

𝑉𝐸 𝛽 𝑛𝑠 𝑉𝑁𝐸 𝑠̂ 𝑛 2 𝑉𝑇 𝑠̂ 𝑛 1
2) Regresión lineal múltiple (RLM)

2.a) Estimación:
∑ 𝑒
𝜷 𝑿 𝑿 𝑿 𝒀 𝑠̂
𝑛 𝑘 1
2.b) Distribución de estimadores:
𝑛 𝑘 1 𝑠̂
𝜷 → 𝑁 𝜷, 𝜎 𝑿 𝑿 →𝜒
𝜎
2.c) Varianza estimadores para k = 2:
𝜎 𝑟 𝜎
𝛽 ⎛ 𝑛𝑠 1 𝑟 𝑛𝑠 𝑠 1 𝑟 ⎞
var ⎜ ⎟
𝛽 𝑟 𝜎 𝜎
⎝𝑛𝑠 𝑠 1 𝑟 𝑛𝑠 1 𝑟 ⎠
2.d) Contrastes individuales y contraste general:
𝛽 𝛽 𝑉𝐸/𝑘
C. Individuales: →𝑡 C. General: →𝐹 ,
𝑠̂ 𝑞 𝑠̂
2.e) Modelo en diferencias a la media:

𝒃 𝑿 𝑿 𝑿 𝒀 𝑺 𝑺 𝒃 → 𝑁 𝒃, 𝜎 𝑿 𝑿 𝑁 𝒃, 𝜎 𝑺 𝑛
2.f) Coeficiente de determinación (𝑅 ) y coeficiente de determinación corregido (𝑅 :

𝑉𝐸 ∑ 𝑦 𝑦̄ 𝑠̂ 𝑉𝑁𝐸 𝑛 1 𝑛 1
𝑅 𝑅 1 1 1 1 𝑅
𝑉𝑇 ∑ 𝑦 𝑦̄ 𝑠̂ 𝑉𝑇 𝑛 𝑘 1 𝑛 𝑘 1
2.g) Cálculo de predicción e intervalo de confianza:

- IC para la media: 𝑚 ∈ 𝑦 𝑡 𝑠̂ 𝑣
- IC para una nueva observación: 𝑦 ∈ 𝑦 𝑡 / 𝑠̂ 1 𝑣
donde 𝑣 se calcula:
̄
- RLS: 𝑣 1
- RLM alternativa 1 : 𝑣 1 𝒙 𝒙̄ 𝑺 𝒙 𝒙̄ donde 𝒙 𝑥 , 𝑥 , 𝑥 ,
- RLM alternativa 2 : 𝑣 𝒙 𝑿 𝑿 𝒙 donde 𝒙 1 𝑥 , 𝑥 , 𝑥 ,
Página 3 de 8
4. Instrucciones Esenciales R
0) Previo
library("DisRegETSII") # Para utilizar ICplot y interIC y los datos como "maquinas.txt"
data(maquinas) # carga los datos "maquinas" en la memoria de R
maquinas = read.table( 'maquinas.txt', header=T ) # lectura del archivo de texto 'maquinas.txt'
head(maquinas) # Muestra las 6 primeras filas del 'data frame' maquinas
View(maquinas) # Abre una ventana nueva y muestra los datos
names(maquinas) # Proporciona los nombres de las variables del 'data.frame' maquinas
maquinas$maq = factor(maquinas$maq) # Transforma una variable numérica a un *factor*
?head # Con ? delante de una función nos proporciona información de la función

#‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
# Cálculo de probabilidades
dnorm(x, 0, 1) # Función densidad de una distribución normal N(0,1)
pnorm(q, 0, 1) # Función distribución de una distribución normal N(0,1)
qnorm(p, 0, 1) # Función distribución inversa de una distribución normal N(0,1)

F. distr. Inv. F. distrib. F. Densidad Números aleatorios
Binomial pbinom qbinom dbinom rbinom
Chi‐Cuadrado pchisq qchisq dchisq rchisq
Exponencial pexp qexp dexp rexp
F pf qf df rf
Geométrica pgeom qgeom dgeom rgeom
Normal pnorm qnorm dnorm rnorm
Poisson ppois qpois dpois rpois
T‐Student pt qt dt rt
#‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐

Instalación del paquete DisRegETSII:

1. Instalar el paquete “devtools” y cargarlo:
install.packages("devtools")
library(devtools)
2. Instalar el paquete utilizando la funcion install_github de devtools
install_github("javiercara/DisRegETSII")
1) Comparación de dos tratamientos

t.test(rend ~ maq, data = maquinas,
var.equal=T, conf.level = 0.95) # comparación e intervalo de confianza de dos medias
t.test(maquinas$rend ~ maquinas$maq,
var.equal=T, conf.level = 0.95) # alternativa a la inst. anterior (válido tmb para var.test, aov)
var.test(rend ~ maq, data = maquinas) # comparación e intervalo de confianza para dos varianzas
2) Comparación de K tratamientos (modelo con factor)

data(centeno) # carga los datos *centeno*
m = aov(rend ~ sem , data = centeno) # Análisis de la varianza (aov) de *rend* en función del factor *sem*
anova(m) # Muestra la tabla de análisis de la varianza del modelo *m*
model.tables(m,"means") # Proporciona las medias de los distintos tratamientos
tapply(centeno$rend,centeno$sem,mean) # Otra forma pra proporcionar las medias de los distintos tratamientos
tapply(centeno$rend,centeno$sem,sd) # *tapply* es muy útil, puede calcular *sd*, *var*, *length*, etc
residuals(m) # los residuos del modelo (sirve para cualquier modelo)
predict(m) # los valores predichos para cada obs. (sirve para cualquier modelo)
ICplot(m,'sem',alpha = 0.05) # Gráfico de los IC para las medias de cada tratamiento
pairwise.t.test(centeno$rend, centeno$sem,
p.adjust.method = 'none') # Comparación de medias dos ‐ a – dos
bartlett.test(centeno$rend,centeno$sem) # Contraste de Bartlett para la comparación de varianzas.
3) Modelo con dos factores e interacción

data(venenos) # Lee los datos de venenos, variable *tiempo*, factores: *ant* y *ven*
m1 = aov(tiempo ~ ant*ven ,
data = venenos) # Realiza el aov de *tiempo* en función de dos factores con interacción
m2 = aov(tiempo ~ ant+ven ,
data = venenos) # Realiza el aov de *tiempo* en función de dos factores sin interacción
anova(m1) # Tabla de análisis de la varianza del modelo *m1*
model.tables(m1,"means") # Proporciona las medias por filas, columnas, tratamientos y la media global
model.tables(m1,"effects") # Proporciona las estimaciones de los parámetros del modelo
tapply(venenos$tiempo,venenos$ant,mean) # medias para cada antídoto (*ant*)
tapply(venenos$tiempo,list(venenos$ant,
venenos$ven),mean) # Medias de las combinaciones *ant* y *ven* (tratamientos)
tapply(venenos$tiempo,list(venenos$ant,
venenos$ven),var) # Se puede utilizar cualquier función, por ejemplo varianza
ICplot(m1, 'ant', alpha = 0.05) # Gráfico de los IC para las medias de los cuatro *ant*
ICplot(m1, 'ven', alpha = 0.05) # Gráfico de los IC para las medias de los tres *ven*
interIC(m1, 'ant','ven', alpha = 0.05) # Gráfico de interacción (IC para las medias de cada tratamiento)
Página 4 de 8
TukeyHSD(m1,'ant',conf.level=0.95) # Comparaciones dos ‐ a ‐ dos por el método de Tukey
plot( TukeyHSD(m1,'ant',conf.level=0.95) ) # Gráfico de los intervalos de confianza de diferencias 2‐a‐2
4) Diagnosis del modelo

plot(m1) # Realiza los gráficos importantes para la diagnosis
plot(as.numeric(venenos$ven),
residuals(m1)) # Gráfico de residuos para cada veneno
plot(predict(m1),residuals(m1)) # Gráfico de residuos frente a medias de tratamientos
qqnorm(residuals(m1)) # QQ plot de los residuos para comprobar normalidad
qqline(residuals(m1)) # añade linea al QQ plot de los residuos
5) Regresión simple
library("DisRegETSII") # carga el paquete DisRegETSII con los datos
data(cars1) # carga los datos cars1 con consumo (mpg) y potencia (horse)
m0 = lm (mpg ~ horse, data = cars1) # estima el modelo de regresión: mpg = b0 + b1 horse + u
summary(m0) # proporciona los resultados del modelo m0
plot(cars1$horse,cars1$mpg) # gráfico de dispersión entre horse (x) y mpg (y)
abline (m0,col="red",wd=2) # dibuja la recta de reg. estimada en m0 (color rojo y grosor=2)
6) Regresión múltiple
m1 = lm (mpg ~ horse + weight +
accel, data = cars1) # estima el modelo de regresión múltiple
m1a = lm (mpg ~ horse +
I(horse^2) + weight +
accel, data = cars1) # incluye el término horse al cuadrado
m1b = lm (mpg ~ horse + weight +
I(horse*weight) +
accel, data = cars1) # incluye el término horse*weight
m1c = lm (log(mpg) ~ horse + weight +
accel, data = cars1) # utiliza el log de mpg como variable respuesta
7) Regresión múltiple con variables cualitativas

cars1$origin = factor( cars1$origin,
labels = c("USA","EUR","JAP")) # Convierte "origin" a tipo "factor" y se asignan etiquetas
m2 = lm (mpg ~ horse + weight + accel + origin,
data = cars1) # modelo con variable cualitativa (utiliza la 1ª como referencia)
cars1$origin = relevel(cars1$origin,
ref = "EUR") # Cambia el nivel de referencia (por defecto el primero)
m2a = lm (mpg ~ horse + weight + accel + origin,
data = cars1) # modelo con variable cualitativa con EUR como referencia
m2b = lm (mpg ~ weight + accel + origin + horse*origin,
data = cars1) # modelo con parámetros asociados a horse distintos para cada origen
m3 = lm (mpg ~ ., data = cars1) # utiliza todas las variables en cars1 como regresores
anova(m3) # análisis de la varianza del modelo m3
8) Diagnosis del modelo de regresión

plot(m0) # diagnosis del modelo m0
resi = residuals(m0) # residuos para las observaciones en cars1
pred = predict(m0) # valores predichos (ajustados) para las observaciones en cars1
plot(pred,resi) # Diagnosis: comprueba linealidad y homocedasticidad
qqnorm(resi) # Diagnosis: comprueba normalidad
qqline(resi) # añade recta al qqplot para comprobar normalidad
9) Predicción
xnueva = data.frame(engine=180,
horse =100,weight=3000, accel =10,
origin = "JAP", cylinders=4) # coche nuevo para hacer predicción del consumo
predict(m3,xnueva,interval = "confidence") # predicción e intervalo para la media
predict(m3,xnueva,interval = "prediction") # predicción e intervalo para una nueva observación
10) Otras instrucciones para regresión

m4 = step(m3) # a partir de m3 selecciona el modelo utilizando STEPWISE
coefficients(m4) # coeficientes del modelo
confint(m4, level=0.95) # intervalo de confianza para los coef.
vcov(m4) # matriz de varianza de los parámetros estimados
out = influence(m4) # diagnosis sobre datos atípicos
Página 5 de 8
5. Tablas
1) Distribución Normal Estándar
La tabla muestra los valores 𝑧 tales que 𝑃 𝑍 𝑧 .
z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.53188 0.53586
0.1 0.53983 0.54380 0.54776 0.55172 0.55567 0.55962 0.56356 0.56749 0.57142 0.57535
0.2 0.57926 0.58317 0.58706 0.59095 0.59483 0.59871 0.60257 0.60642 0.61026 0.61409
0.3 0.61791 0.62172 0.62552 0.62930 0.63307 0.63683 0.64058 0.64431 0.64803 0.65173
0.4 0.65542 0.65910 0.66276 0.66640 0.67003 0.67364 0.67724 0.68082 0.68439 0.68793
0.5 0.69146 0.69497 0.69847 0.70194 0.70540 0.70884 0.71226 0.71566 0.71904 0.72240
0.6 0.72575 0.72907 0.73237 0.73565 0.73891 0.74215 0.74537 0.74857 0.75175 0.75490
0.7 0.75804 0.76115 0.76424 0.76730 0.77035 0.77337 0.77637 0.77935 0.78230 0.78524
0.8 0.78814 0.79103 0.79389 0.79673 0.79955 0.80234 0.80511 0.80785 0.81057 0.81327
0.9 0.81594 0.81859 0.82121 0.82381 0.82639 0.82894 0.83147 0.83398 0.83646 0.83891
1.0 0.84134 0.84375 0.84614 0.84849 0.85083 0.85314 0.85543 0.85769 0.85993 0.86214
1.1 0.86433 0.86650 0.86864 0.87076 0.87286 0.87493 0.87698 0.87900 0.88100 0.88298
1.2 0.88493 0.88686 0.88877 0.89065 0.89251 0.89435 0.89617 0.89796 0.89973 0.90147
1.3 0.90320 0.90490 0.90658 0.90824 0.90988 0.91149 0.91309 0.91466 0.91621 0.91774
1.4 0.91924 0.92073 0.92220 0.92364 0.92507 0.92647 0.92785 0.92922 0.93056 0.93189
1.5 0.93319 0.93448 0.93574 0.93699 0.93822 0.93943 0.94062 0.94179 0.94295 0.94408
1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.95352 0.95449
1.7 0.95543 0.95637 0.95728 0.95818 0.95907 0.95994 0.96080 0.96164 0.96246 0.96327
1.8 0.96407 0.96485 0.96562 0.96638 0.96712 0.96784 0.96856 0.96926 0.96995 0.97062
1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.97615 0.97670
2.0 0.97725 0.97778 0.97831 0.97882 0.97932 0.97982 0.98030 0.98077 0.98124 0.98169
2.1 0.98214 0.98257 0.98300 0.98341 0.98382 0.98422 0.98461 0.98500 0.98537 0.98574
2.2 0.98610 0.98645 0.98679 0.98713 0.98745 0.98778 0.98809 0.98840 0.98870 0.98899
2.3 0.98928 0.98956 0.98983 0.99010 0.99036 0.99061 0.99086 0.99111 0.99134 0.99158
2.4 0.99180 0.99202 0.99224 0.99245 0.99266 0.99286 0.99305 0.99324 0.99343 0.99361
2.5 0.99379 0.99396 0.99413 0.99430 0.99446 0.99461 0.99477 0.99492 0.99506 0.99520
2.6 0.99534 0.99547 0.99560 0.99573 0.99585 0.99598 0.99609 0.99621 0.99632 0.99643
2.7 0.99653 0.99664 0.99674 0.99683 0.99693 0.99702 0.99711 0.99720 0.99728 0.99736
2.8 0.99744 0.99752 0.99760 0.99767 0.99774 0.99781 0.99788 0.99795 0.99801 0.99807
2.9 0.99813 0.99819 0.99825 0.99831 0.99836 0.99841 0.99846 0.99851 0.99856 0.99861
3.0 0.99865 0.99869 0.99874 0.99878 0.99882 0.99886 0.99889 0.99893 0.99896 0.99900
3.1 0.99903 0.99906 0.99910 0.99913 0.99916 0.99918 0.99921 0.99924 0.99926 0.99929
3.2 0.99931 0.99934 0.99936 0.99938 0.99940 0.99942 0.99944 0.99946 0.99948 0.99950
3.3 0.99952 0.99953 0.99955 0.99957 0.99958 0.99960 0.99961 0.99962 0.99964 0.99965
3.4 0.99966 0.99968 0.99969 0.99970 0.99971 0.99972 0.99973 0.99974 0.99975 0.99976
3.5 0.99977 0.99978 0.99978 0.99979 0.99980 0.99981 0.99981 0.99982 0.99983 0.99983
3.6 0.99984 0.99985 0.99985 0.99986 0.99986 0.99987 0.99987 0.99988 0.99988 0.99989
3.7 0.99989 0.99990 0.99990 0.99990 0.99991 0.99991 0.99992 0.99992 0.99992 0.99992
3.8 0.99993 0.99993 0.99993 0.99994 0.99994 0.99994 0.99994 0.99995 0.99995 0.99995
3.9 0.99995 0.99995 0.99996 0.99996 0.99996 0.99996 0.99996 0.99996 0.99997 0.99997
4.0 0.99997 0.99997 0.99997 0.99997 0.99997 0.99997 0.99998 0.99998 0.99998 0.99998
4.1 0.99998 0.99998 0.99998 0.99998 0.99998 0.99998 0.99998 0.99998 0.99999 0.99999

Ejemplo: 𝑃 𝑍 1,96 0,97500
Página 6 de 8
2) Distribución 𝝌𝟐
La tabla muestra los valores 𝑥 tales que 𝑃 𝜒 2 𝑥 𝛼
𝛼
n 0.995 0.99 0.975 0.95 0.5 0.05 0.025 0.01 0.005
1 0.00004 0.0002 0.001 0.004 0.455 3.841 5.024 6.635 7.879
2 0.010 0.020 0.051 0.103 1.386 5.991 7.378 9.210 10.597
3 0.072 0.115 0.216 0.352 2.366 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 3.357 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 4.351 11.070 12.833 15.086 16.750
6 0.676 0.872 1.237 1.635 5.348 12.592 14.449 16.812 18.548
7 0.989 1.239 1.690 2.167 6.346 14.067 16.013 18.475 20.278
8 1.344 1.646 2.180 2.733 7.344 15.507 17.535 20.090 21.955
9 1.735 2.088 2.700 3.325 8.343 16.919 19.023 21.666 23.589
10 2.156 2.558 3.247 3.940 9.342 18.307 20.483 23.209 25.188
11 2.603 3.053 3.816 4.575 10.341 19.675 21.920 24.725 26.757
12 3.074 3.571 4.404 5.226 11.340 21.026 23.337 26.217 28.300
13 3.565 4.107 5.009 5.892 12.340 22.362 24.736 27.688 29.819
14 4.075 4.660 5.629 6.571 13.339 23.685 26.119 29.141 31.319
15 4.601 5.229 6.262 7.261 14.339 24.996 27.488 30.578 32.801
16 5.142 5.812 6.908 7.962 15.338 26.296 28.845 32.000 34.267
17 5.697 6.408 7.564 8.672 16.338 27.587 30.191 33.409 35.718
18 6.265 7.015 8.231 9.390 17.338 28.869 31.526 34.805 37.156
19 6.844 7.633 8.907 10.117 18.338 30.144 32.852 36.191 38.582
20 7.434 8.260 9.591 10.851 19.337 31.410 34.170 37.566 39.997
21 8.034 8.897 10.283 11.591 20.337 32.671 35.479 38.932 41.401
22 8.643 9.542 10.982 12.338 21.337 33.924 36.781 40.289 42.796
23 9.260 10.196 11.689 13.091 22.337 35.172 38.076 41.638 44.181
24 9.886 10.856 12.401 13.848 23.337 36.415 39.364 42.980 45.559
25 10.520 11.524 13.120 14.611 24.337 37.652 40.646 44.314 46.928
26 11.160 12.198 13.844 15.379 25.336 38.885 41.923 45.642 48.290
27 11.808 12.879 14.573 16.151 26.336 40.113 43.195 46.963 49.645
28 12.461 13.565 15.308 16.928 27.336 41.337 44.461 48.278 50.993
29 13.121 14.256 16.047 17.708 28.336 42.557 45.722 49.588 52.336
30 13.787 14.953 16.791 18.493 29.336 43.773 46.979 50.892 53.672
40 20.707 22.164 24.433 26.509 39.335 55.758 59.342 63.691 66.766
50 27.991 29.707 32.357 34.764 49.335 67.505 71.420 76.154 79.490
60 35.534 37.485 40.482 43.188 59.335 79.082 83.298 88.379 91.952
70 43.275 45.442 48.758 51.739 69.334 90.531 95.023 100.425 104.215
80 51.172 53.540 57.153 60.391 79.334 101.879 106.629 112.329 116.321
90 59.196 61.754 65.647 69.126 89.334 113.145 118.136 124.116 128.299
100 67.328 70.065 74.222 77.929 99.334 124.342 129.561 135.807 140.169
110 75.550 78.458 82.867 86.792 109.334 135.480 140.917 147.414 151.948
120 83.852 86.923 91.573 95.705 119.334 146.567 152.211 158.950 163.648

Ejemplo: 𝑃 χ9 19,02 0,025
Página 7 de 8
3) Distribución t-Student
La tabla muestra los valores 𝑥 tales que 𝑃 𝑡𝑛 𝑥 𝛼.
𝛼
n 0.2 0.15 0.1 0.05 0.025 0.01 0.005 0.0025 0.001 0.0005
1 1.376 1.963 3.078 6.314 12.706 31.821 63.657 127.321 318.309 636.619
2 1.061 1.386 1.886 2.920 4.303 6.965 9.925 14.089 22.327 31.599
3 0.978 1.250 1.638 2.353 3.182 4.541 5.841 7.453 10.215 12.924
4 0.941 1.190 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610
5 0.920 1.156 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869
6 0.906 1.134 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959
7 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.029 4.785 5.408
8 0.889 1.108 1.397 1.860 2.306 2.896 3.355 3.833 4.501 5.041
9 0.883 1.100 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781
10 0.879 1.093 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587
11 0.876 1.088 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437
12 0.873 1.083 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318
13 0.870 1.079 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221
14 0.868 1.076 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140
15 0.866 1.074 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073
16 0.865 1.071 1.337 1.746 2.120 2.583 2.921 3.252 3.686 4.015
17 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.222 3.646 3.965
18 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.197 3.610 3.922
19 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.174 3.579 3.883
20 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.153 3.552 3.850
21 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.135 3.527 3.819
22 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.119 3.505 3.792
23 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.104 3.485 3.768
24 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.091 3.467 3.745
25 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.078 3.450 3.725
26 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.067 3.435 3.707
27 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.057 3.421 3.690
28 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.047 3.408 3.674
29 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.038 3.396 3.659
30 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.030 3.385 3.646
40 0.851 1.050 1.303 1.684 2.021 2.423 2.704 2.971 3.307 3.551
50 0.849 1.047 1.299 1.676 2.009 2.403 2.678 2.937 3.261 3.496
60 0.848 1.045 1.296 1.671 2.000 2.390 2.660 2.915 3.232 3.460
70 0.847 1.044 1.294 1.667 1.994 2.381 2.648 2.899 3.211 3.435
80 0.846 1.043 1.292 1.664 1.990 2.374 2.639 2.887 3.195 3.416
90 0.846 1.042 1.291 1.662 1.987 2.368 2.632 2.878 3.183 3.402
100 0.845 1.042 1.290 1.660 1.984 2.364 2.626 2.871 3.174 3.390
Inf 0.842 1.036 1.282 1.645 1.960 2.326 2.576 2.807 3.090 3.291

Ejemplo: 𝑃 𝑡9 2,262 0,025

Página 8 de 9
4) Distribución 𝑭 𝜶 𝟎, 𝟎𝟓
La tabla muestra los valores 𝑥 tales que 𝑃 𝐹𝑚, 𝑛 𝑥 0,05.
n 1 2 3 4 5 6 7 8 9 10
1 161.448 199.500 215.707 224.583 230.162 233.986 236.768 238.883 240.543 241.882
2 18.513 19.000 19.164 19.247 19.296 19.330 19.353 19.371 19.385 19.396
3 10.128 9.552 9.277 9.117 9.013 8.941 8.887 8.845 8.812 8.786
4 7.709 6.944 6.591 6.388 6.256 6.163 6.094 6.041 5.999 5.964
5 6.608 5.786 5.409 5.192 5.050 4.950 4.876 4.818 4.772 4.735
6 5.987 5.143 4.757 4.534 4.387 4.284 4.207 4.147 4.099 4.060
7 5.591 4.737 4.347 4.120 3.972 3.866 3.787 3.726 3.677 3.637
8 5.318 4.459 4.066 3.838 3.687 3.581 3.500 3.438 3.388 3.347
9 5.117 4.256 3.863 3.633 3.482 3.374 3.293 3.230 3.179 3.137
10 4.965 4.103 3.708 3.478 3.326 3.217 3.135 3.072 3.020 2.978
11 4.844 3.982 3.587 3.357 3.204 3.095 3.012 2.948 2.896 2.854
12 4.747 3.885 3.490 3.259 3.106 2.996 2.913 2.849 2.796 2.753
13 4.667 3.806 3.411 3.179 3.025 2.915 2.832 2.767 2.714 2.671
14 4.600 3.739 3.344 3.112 2.958 2.848 2.764 2.699 2.646 2.602
15 4.543 3.682 3.287 3.056 2.901 2.790 2.707 2.641 2.588 2.544
16 4.494 3.634 3.239 3.007 2.852 2.741 2.657 2.591 2.538 2.494
17 4.451 3.592 3.197 2.965 2.810 2.699 2.614 2.548 2.494 2.450
18 4.414 3.555 3.160 2.928 2.773 2.661 2.577 2.510 2.456 2.412
19 4.381 3.522 3.127 2.895 2.740 2.628 2.544 2.477 2.423 2.378
20 4.351 3.493 3.098 2.866 2.711 2.599 2.514 2.447 2.393 2.348
21 4.325 3.467 3.072 2.840 2.685 2.573 2.488 2.420 2.366 2.321
22 4.301 3.443 3.049 2.817 2.661 2.549 2.464 2.397 2.342 2.297
23 4.279 3.422 3.028 2.796 2.640 2.528 2.442 2.375 2.320 2.275
24 4.260 3.403 3.009 2.776 2.621 2.508 2.423 2.355 2.300 2.255
25 4.242 3.385 2.991 2.759 2.603 2.490 2.405 2.337 2.282 2.236
26 4.225 3.369 2.975 2.743 2.587 2.474 2.388 2.321 2.265 2.220
27 4.210 3.354 2.960 2.728 2.572 2.459 2.373 2.305 2.250 2.204
28 4.196 3.340 2.947 2.714 2.558 2.445 2.359 2.291 2.236 2.190
29 4.183 3.328 2.934 2.701 2.545 2.432 2.346 2.278 2.223 2.177
30 4.171 3.316 2.922 2.690 2.534 2.421 2.334 2.266 2.211 2.165
40 4.085 3.232 2.839 2.606 2.449 2.336 2.249 2.180 2.124 2.077
50 4.034 3.183 2.790 2.557 2.400 2.286 2.199 2.130 2.073 2.026
60 4.001 3.150 2.758 2.525 2.368 2.254 2.167 2.097 2.040 1.993
70 3.978 3.128 2.736 2.503 2.346 2.231 2.143 2.074 2.017 1.969
80 3.960 3.111 2.719 2.486 2.329 2.214 2.126 2.056 1.999 1.951
90 3.947 3.098 2.706 2.473 2.316 2.201 2.113 2.043 1.986 1.938
100 3.936 3.087 2.696 2.463 2.305 2.191 2.103 2.032 1.975 1.927
Inf 3.841 2.996 2.605 2.372 2.214 2.099 2.010 1.938 1.880 1.831

𝐸𝑗𝑚: 𝑃 𝐹7,8 3,50 0,05
Página 9 de 10
Distribución 𝑭 𝜶 𝟎, 𝟎𝟓 (continuación)
n 12 15 20 24 30 40 60 100 120 Inf

1 243.906 245.950 248.013 249.052 250.095 251.143 252.196 253.041 253.253 254.314
2 19.413 19.429 19.446 19.454 19.462 19.471 19.479 19.486 19.487 19.496
3 8.745 8.703 8.660 8.639 8.617 8.594 8.572 8.554 8.549 8.526
4 5.912 5.858 5.803 5.774 5.746 5.717 5.688 5.664 5.658 5.628
5 4.678 4.619 4.558 4.527 4.496 4.464 4.431 4.405 4.398 4.365
6 4.000 3.938 3.874 3.841 3.808 3.774 3.740 3.712 3.705 3.669
7 3.575 3.511 3.445 3.410 3.376 3.340 3.304 3.275 3.267 3.230
8 3.284 3.218 3.150 3.115 3.079 3.043 3.005 2.975 2.967 2.928
9 3.073 3.006 2.936 2.900 2.864 2.826 2.787 2.756 2.748 2.707
10 2.913 2.845 2.774 2.737 2.700 2.661 2.621 2.588 2.580 2.538
11 2.788 2.719 2.646 2.609 2.570 2.531 2.490 2.457 2.448 2.404
12 2.687 2.617 2.544 2.505 2.466 2.426 2.384 2.350 2.341 2.296
13 2.604 2.533 2.459 2.420 2.380 2.339 2.297 2.261 2.252 2.206
14 2.534 2.463 2.388 2.349 2.308 2.266 2.223 2.187 2.178 2.131
15 2.475 2.403 2.328 2.288 2.247 2.204 2.160 2.123 2.114 2.066
16 2.425 2.352 2.276 2.235 2.194 2.151 2.106 2.068 2.059 2.010
17 2.381 2.308 2.230 2.190 2.148 2.104 2.058 2.020 2.011 1.960
18 2.342 2.269 2.191 2.150 2.107 2.063 2.017 1.978 1.968 1.917
19 2.308 2.234 2.155 2.114 2.071 2.026 1.980 1.940 1.930 1.878
20 2.278 2.203 2.124 2.082 2.039 1.994 1.946 1.907 1.896 1.843
21 2.250 2.176 2.096 2.054 2.010 1.965 1.916 1.876 1.866 1.812
22 2.226 2.151 2.071 2.028 1.984 1.938 1.889 1.849 1.838 1.783
23 2.204 2.128 2.048 2.005 1.961 1.914 1.865 1.823 1.813 1.757
24 2.183 2.108 2.027 1.984 1.939 1.892 1.842 1.800 1.790 1.733
25 2.165 2.089 2.007 1.964 1.919 1.872 1.822 1.779 1.768 1.711
26 2.148 2.072 1.990 1.946 1.901 1.853 1.803 1.760 1.749 1.691
27 2.132 2.056 1.974 1.930 1.884 1.836 1.785 1.742 1.731 1.672
28 2.118 2.041 1.959 1.915 1.869 1.820 1.769 1.725 1.714 1.654
29 2.104 2.027 1.945 1.901 1.854 1.806 1.754 1.710 1.698 1.638
30 2.092 2.015 1.932 1.887 1.841 1.792 1.740 1.695 1.683 1.622
40 2.003 1.924 1.839 1.793 1.744 1.693 1.637 1.589 1.577 1.509
50 1.952 1.871 1.784 1.737 1.687 1.634 1.576 1.525 1.511 1.438
60 1.917 1.836 1.748 1.700 1.649 1.594 1.534 1.481 1.467 1.389
70 1.893 1.812 1.722 1.674 1.622 1.566 1.505 1.450 1.435 1.353
80 1.875 1.793 1.703 1.654 1.602 1.545 1.482 1.426 1.411 1.325
90 1.861 1.779 1.688 1.639 1.586 1.528 1.465 1.407 1.391 1.302
100 1.850 1.768 1.676 1.627 1.573 1.515 1.450 1.392 1.376 1.283
Inf 1.752 1.666 1.571 1.517 1.459 1.394 1.318 1.243 1.221 1.000

Página 10 de 11
5) Distribución 𝑭 𝜶 𝟎, 𝟎𝟐𝟓
n 1 2 3 4 5 6 7 8 9 10
1 647.789 799.500 864.163 899.583 921.848 937.111 948.217 956.656 963.285 968.627
2 38.506 39.000 39.165 39.248 39.298 39.331 39.355 39.373 39.387 39.398
3 17.443 16.044 15.439 15.101 14.885 14.735 14.624 14.540 14.473 14.419
4 12.218 10.649 9.979 9.605 9.364 9.197 9.074 8.980 8.905 8.844
5 10.007 8.434 7.764 7.388 7.146 6.978 6.853 6.757 6.681 6.619
6 8.813 7.260 6.599 6.227 5.988 5.820 5.695 5.600 5.523 5.461
7 8.073 6.542 5.890 5.523 5.285 5.119 4.995 4.899 4.823 4.761
8 7.571 6.059 5.416 5.053 4.817 4.652 4.529 4.433 4.357 4.295
9 7.209 5.715 5.078 4.718 4.484 4.320 4.197 4.102 4.026 3.964
10 6.937 5.456 4.826 4.468 4.236 4.072 3.950 3.855 3.779 3.717
11 6.724 5.256 4.630 4.275 4.044 3.881 3.759 3.664 3.588 3.526
12 6.554 5.096 4.474 4.121 3.891 3.728 3.607 3.512 3.436 3.374
13 6.414 4.965 4.347 3.996 3.767 3.604 3.483 3.388 3.312 3.250
14 6.298 4.857 4.242 3.892 3.663 3.501 3.380 3.285 3.209 3.147
15 6.200 4.765 4.153 3.804 3.576 3.415 3.293 3.199 3.123 3.060
16 6.115 4.687 4.077 3.729 3.502 3.341 3.219 3.125 3.049 2.986
17 6.042 4.619 4.011 3.665 3.438 3.277 3.156 3.061 2.985 2.922
18 5.978 4.560 3.954 3.608 3.382 3.221 3.100 3.005 2.929 2.866
19 5.922 4.508 3.903 3.559 3.333 3.172 3.051 2.956 2.880 2.817
20 5.871 4.461 3.859 3.515 3.289 3.128 3.007 2.913 2.837 2.774
21 5.827 4.420 3.819 3.475 3.250 3.090 2.969 2.874 2.798 2.735
22 5.786 4.383 3.783 3.440 3.215 3.055 2.934 2.839 2.763 2.700
23 5.750 4.349 3.750 3.408 3.183 3.023 2.902 2.808 2.731 2.668
24 5.717 4.319 3.721 3.379 3.155 2.995 2.874 2.779 2.703 2.640
25 5.686 4.291 3.694 3.353 3.129 2.969 2.848 2.753 2.677 2.613
26 5.659 4.265 3.670 3.329 3.105 2.945 2.824 2.729 2.653 2.590
27 5.633 4.242 3.647 3.307 3.083 2.923 2.802 2.707 2.631 2.568
28 5.610 4.221 3.626 3.286 3.063 2.903 2.782 2.687 2.611 2.547
29 5.588 4.201 3.607 3.267 3.044 2.884 2.763 2.669 2.592 2.529
30 5.568 4.182 3.589 3.250 3.026 2.867 2.746 2.651 2.575 2.511
40 5.424 4.051 3.463 3.126 2.904 2.744 2.624 2.529 2.452 2.388
50 5.340 3.975 3.390 3.054 2.833 2.674 2.553 2.458 2.381 2.317
60 5.286 3.925 3.343 3.008 2.786 2.627 2.507 2.412 2.334 2.270
70 5.247 3.890 3.309 2.975 2.754 2.595 2.474 2.379 2.302 2.237
80 5.218 3.864 3.284 2.950 2.730 2.571 2.450 2.355 2.277 2.213
90 5.196 3.844 3.265 2.932 2.711 2.552 2.432 2.336 2.259 2.194
100 5.179 3.828 3.250 2.917 2.696 2.537 2.417 2.321 2.244 2.179
Inf 5.024 3.689 3.116 2.786 2.567 2.408 2.288 2.192 2.114 2.048

𝐸𝑗𝑚: 𝑃 𝐹7,8 4,53 0,025
Página 11 de 12
Distribución F(α = 0,025) (continuación)
La tabla muestra los valores 𝑥 tales que 𝑃 𝐹𝑚, 𝑛 𝑥 0,025
n 12 15 20 24 30 40 60 100 120 Inf

1 976.708 984.867 993.103 997.249 1001.414 1005.598 1009.800 1013.175 1014.020 1018.258
2 39.415 39.431 39.448 39.456 39.465 39.473 39.481 39.488 39.490 39.498
3 14.337 14.253 14.167 14.124 14.081 14.037 13.992 13.956 13.947 13.902
4 8.751 8.657 8.560 8.511 8.461 8.411 8.360 8.319 8.309 8.257
5 6.525 6.428 6.329 6.278 6.227 6.175 6.123 6.080 6.069 6.015
6 5.366 5.269 5.168 5.117 5.065 5.012 4.959 4.915 4.904 4.849
7 4.666 4.568 4.467 4.415 4.362 4.309 4.254 4.210 4.199 4.142
8 4.200 4.101 3.999 3.947 3.894 3.840 3.784 3.739 3.728 3.670
9 3.868 3.769 3.667 3.614 3.560 3.505 3.449 3.403 3.392 3.333
10 3.621 3.522 3.419 3.365 3.311 3.255 3.198 3.152 3.140 3.080
11 3.430 3.330 3.226 3.173 3.118 3.061 3.004 2.956 2.944 2.883
12 3.277 3.177 3.073 3.019 2.963 2.906 2.848 2.800 2.787 2.725
13 3.153 3.053 2.948 2.893 2.837 2.780 2.720 2.671 2.659 2.595
14 3.050 2.949 2.844 2.789 2.732 2.674 2.614 2.565 2.552 2.487
15 2.963 2.862 2.756 2.701 2.644 2.585 2.524 2.474 2.461 2.395
16 2.889 2.788 2.681 2.625 2.568 2.509 2.447 2.396 2.383 2.316
17 2.825 2.723 2.616 2.560 2.502 2.442 2.380 2.329 2.315 2.247
18 2.769 2.667 2.559 2.503 2.445 2.384 2.321 2.269 2.256 2.187
19 2.720 2.617 2.509 2.452 2.394 2.333 2.270 2.217 2.203 2.133
20 2.676 2.573 2.464 2.408 2.349 2.287 2.223 2.170 2.156 2.085
21 2.637 2.534 2.425 2.368 2.308 2.246 2.182 2.128 2.114 2.042
22 2.602 2.498 2.389 2.331 2.272 2.210 2.145 2.090 2.076 2.003
23 2.570 2.466 2.357 2.299 2.239 2.176 2.111 2.056 2.041 1.968
24 2.541 2.437 2.327 2.269 2.209 2.146 2.080 2.024 2.010 1.935
25 2.515 2.411 2.300 2.242 2.182 2.118 2.052 1.996 1.981 1.906
26 2.491 2.387 2.276 2.217 2.157 2.093 2.026 1.969 1.954 1.878
27 2.469 2.364 2.253 2.195 2.133 2.069 2.002 1.945 1.930 1.853
28 2.448 2.344 2.232 2.174 2.112 2.048 1.980 1.922 1.907 1.829
29 2.430 2.325 2.213 2.154 2.092 2.028 1.959 1.901 1.886 1.807
30 2.412 2.307 2.195 2.136 2.074 2.009 1.940 1.882 1.866 1.787
40 2.288 2.182 2.068 2.007 1.943 1.875 1.803 1.741 1.724 1.637
50 2.216 2.109 1.993 1.931 1.866 1.796 1.721 1.656 1.639 1.545
60 2.169 2.061 1.944 1.882 1.815 1.744 1.667 1.599 1.581 1.482
70 2.136 2.028 1.910 1.847 1.779 1.707 1.628 1.558 1.539 1.436
80 2.111 2.003 1.884 1.820 1.752 1.679 1.599 1.527 1.508 1.400
90 2.092 1.983 1.864 1.800 1.731 1.657 1.576 1.503 1.483 1.371
100 2.077 1.968 1.849 1.784 1.715 1.640 1.558 1.483 1.463 1.347
Inf 1.945 1.833 1.708 1.640 1.566 1.484 1.388 1.296 1.268 1.000

Página 12 de 13
6) Distribución 𝑭 𝜶 𝟎, 𝟎𝟏
La tabla muestra los valores 𝑥 tales que 𝑃 𝐹𝑚, 𝑛 𝑥 0,01
n 1 2 3 4 5 6 7 8 9 10
1 4052.181 4999.500 5403.352 5624.583 5763.650 5858.986 5928.356 5981.070 6022.473 6055.847
2 98.503 99.000 99.166 99.249 99.299 99.333 99.356 99.374 99.388 99.399
3 34.116 30.817 29.457 28.710 28.237 27.911 27.672 27.489 27.345 27.229
4 21.198 18.000 16.694 15.977 15.522 15.207 14.976 14.799 14.659 14.546
5 16.258 13.274 12.060 11.392 10.967 10.672 10.456 10.289 10.158 10.051
6 13.745 10.925 9.780 9.148 8.746 8.466 8.260 8.102 7.976 7.874
7 12.246 9.547 8.451 7.847 7.460 7.191 6.993 6.840 6.719 6.620
8 11.259 8.649 7.591 7.006 6.632 6.371 6.178 6.029 5.911 5.814
9 10.561 8.022 6.992 6.422 6.057 5.802 5.613 5.467 5.351 5.257
10 10.044 7.559 6.552 5.994 5.636 5.386 5.200 5.057 4.942 4.849
11 9.646 7.206 6.217 5.668 5.316 5.069 4.886 4.744 4.632 4.539
12 9.330 6.927 5.953 5.412 5.064 4.821 4.640 4.499 4.388 4.296
13 9.074 6.701 5.739 5.205 4.862 4.620 4.441 4.302 4.191 4.100
14 8.862 6.515 5.564 5.035 4.695 4.456 4.278 4.140 4.030 3.939
15 8.683 6.359 5.417 4.893 4.556 4.318 4.142 4.004 3.895 3.805
16 8.531 6.226 5.292 4.773 4.437 4.202 4.026 3.890 3.780 3.691
17 8.400 6.112 5.185 4.669 4.336 4.102 3.927 3.791 3.682 3.593
18 8.285 6.013 5.092 4.579 4.248 4.015 3.841 3.705 3.597 3.508
19 8.185 5.926 5.010 4.500 4.171 3.939 3.765 3.631 3.523 3.434
20 8.096 5.849 4.938 4.431 4.103 3.871 3.699 3.564 3.457 3.368
21 8.017 5.780 4.874 4.369 4.042 3.812 3.640 3.506 3.398 3.310
22 7.945 5.719 4.817 4.313 3.988 3.758 3.587 3.453 3.346 3.258
23 7.881 5.664 4.765 4.264 3.939 3.710 3.539 3.406 3.299 3.211
24 7.823 5.614 4.718 4.218 3.895 3.667 3.496 3.363 3.256 3.168
25 7.770 5.568 4.675 4.177 3.855 3.627 3.457 3.324 3.217 3.129
26 7.721 5.526 4.637 4.140 3.818 3.591 3.421 3.288 3.182 3.094
27 7.677 5.488 4.601 4.106 3.785 3.558 3.388 3.256 3.149 3.062
28 7.636 5.453 4.568 4.074 3.754 3.528 3.358 3.226 3.120 3.032
29 7.598 5.420 4.538 4.045 3.725 3.499 3.330 3.198 3.092 3.005
30 7.562 5.390 4.510 4.018 3.699 3.473 3.304 3.173 3.067 2.979
40 7.314 5.179 4.313 3.828 3.514 3.291 3.124 2.993 2.888 2.801
50 7.171 5.057 4.199 3.720 3.408 3.186 3.020 2.890 2.785 2.698
60 7.077 4.977 4.126 3.649 3.339 3.119 2.953 2.823 2.718 2.632
70 7.011 4.922 4.074 3.600 3.291 3.071 2.906 2.777 2.672 2.585
80 6.963 4.881 4.036 3.563 3.255 3.036 2.871 2.742 2.637 2.551
90 6.925 4.849 4.007 3.535 3.228 3.009 2.845 2.715 2.611 2.524
100 6.895 4.824 3.984 3.513 3.206 2.988 2.823 2.694 2.590 2.503
Inf 6.635 4.605 3.782 3.319 3.017 2.802 2.639 2.511 2.407 2.321
Ejemplo: 𝑃 𝐹7,8 6,18 0,01
Página 13 de 14
Distribución F(α = 0,01) (continuación)
La tabla muestra los valores x tales que 𝑃 𝐹𝑚, 𝑛 𝑥 0,01
n 12 15 20 24 30 40 60 100 120 Inf

1 6106.321 6157.285 6208.730 6234.631 6260.649 6286.782 6313.030 6334.110 6339.391 6365.864
2 99.416 99.433 99.449 99.458 99.466 99.474 99.482 99.489 99.491 99.499
3 27.052 26.872 26.690 26.598 26.505 26.411 26.316 26.240 26.221 26.125
4 14.374 14.198 14.020 13.929 13.838 13.745 13.652 13.577 13.558 13.463
5 9.888 9.722 9.553 9.466 9.379 9.291 9.202 9.130 9.112 9.020
6 7.718 7.559 7.396 7.313 7.229 7.143 7.057 6.987 6.969 6.880
7 6.469 6.314 6.155 6.074 5.992 5.908 5.824 5.755 5.737 5.650
8 5.667 5.515 5.359 5.279 5.198 5.116 5.032 4.963 4.946 4.859
9 5.111 4.962 4.808 4.729 4.649 4.567 4.483 4.415 4.398 4.311
10 4.706 4.558 4.405 4.327 4.247 4.165 4.082 4.014 3.996 3.909
11 4.397 4.251 4.099 4.021 3.941 3.860 3.776 3.708 3.690 3.602
12 4.155 4.010 3.858 3.780 3.701 3.619 3.535 3.467 3.449 3.361
13 3.960 3.815 3.665 3.587 3.507 3.425 3.341 3.272 3.255 3.165
14 3.800 3.656 3.505 3.427 3.348 3.266 3.181 3.112 3.094 3.004
15 3.666 3.522 3.372 3.294 3.214 3.132 3.047 2.977 2.959 2.868
16 3.553 3.409 3.259 3.181 3.101 3.018 2.933 2.863 2.845 2.753
17 3.455 3.312 3.162 3.084 3.003 2.920 2.835 2.764 2.746 2.653
18 3.371 3.227 3.077 2.999 2.919 2.835 2.749 2.678 2.660 2.566
19 3.297 3.153 3.003 2.925 2.844 2.761 2.674 2.602 2.584 2.489
20 3.231 3.088 2.938 2.859 2.778 2.695 2.608 2.535 2.517 2.421
21 3.173 3.030 2.880 2.801 2.720 2.636 2.548 2.475 2.457 2.360
22 3.121 2.978 2.827 2.749 2.667 2.583 2.495 2.422 2.403 2.305
23 3.074 2.931 2.781 2.702 2.620 2.535 2.447 2.373 2.354 2.256
24 3.032 2.889 2.738 2.659 2.577 2.492 2.403 2.329 2.310 2.211
25 2.993 2.850 2.699 2.620 2.538 2.453 2.364 2.289 2.270 2.169
26 2.958 2.815 2.664 2.585 2.503 2.417 2.327 2.252 2.233 2.131
27 2.926 2.783 2.632 2.552 2.470 2.384 2.294 2.218 2.198 2.097
28 2.896 2.753 2.602 2.522 2.440 2.354 2.263 2.187 2.167 2.064
29 2.868 2.726 2.574 2.495 2.412 2.325 2.234 2.158 2.138 2.034
30 2.843 2.700 2.549 2.469 2.386 2.299 2.208 2.131 2.111 2.006
40 2.665 2.522 2.369 2.288 2.203 2.114 2.019 1.938 1.917 1.805
50 2.562 2.419 2.265 2.183 2.098 2.007 1.909 1.825 1.803 1.683
60 2.496 2.352 2.198 2.115 2.028 1.936 1.836 1.749 1.726 1.601
70 2.450 2.306 2.150 2.067 1.980 1.886 1.785 1.695 1.672 1.540
80 2.415 2.271 2.115 2.032 1.944 1.849 1.746 1.655 1.630 1.494
90 2.389 2.244 2.088 2.004 1.916 1.820 1.716 1.623 1.598 1.457
100 2.368 2.223 2.067 1.983 1.893 1.797 1.692 1.598 1.572 1.427
Inf 2.185 2.039 1.878 1.791 1.696 1.592 1.473 1.358 1.325 1.000
Página 14 de 14

D Libro

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

D Libro

Cargado por

Copyright:

Formatos disponibles

Diseño de

E SCUELA T ÉCNICA S UPERIOR DE

Edición Curso 19/20

1. Análisis de la varianza. Comparación de dos tratamientos. La hipóte-

2. Diseño de experimentos. Modelo con dos factores. Concepto de in-

3. Regresión lineal. Hipótesis del modelo. Estimación de los parámetros por

Diseño de Experimentos y Modelos de Regresión

1.1 Dos tratamientos

Se desea comparar dos

- Definición del modelo de distribución

Modelo: Hipótesis y Parámetros

Cov [yij, ykl] = 0

yij Pi  uij , uij o N (0, V 2 )

Contraste de igualdad de medias

2.69 ! 2.10  Se rechaza H 0

2.69 d 2.88  No se rechaza H 0

p  valor Pr( t18 ! 2.69) 0.0147

Si |to| > tD/2 se dice que Si |to| d tD/2 se dice que

El resultado |to| d tD/2, (no se rechaza Ho)

No rechazar la hipótesis nula implica que

Comparación de dos tratamientos con R

Comparación de medidas del cuerpo humano por género

Ejemplo: intervalo de confianza P1  P 2

Ejemplo: Contraste de igualdad de varianzas

1.37  >0.248,4.03@  No se rechaza H 0

Ejemplo : P( F7,8 t 3.50) 0.05

Ejemplo : P( F7,8 t 4.53) 0.025

Ejemplo : P( F7,8 t 6.18) 0.01

Comparación de dos tratamientos con R

Se desea comparar el rendimiento de cuatro

- Definición del modelo de distribución de

y11 y21 yK1

Hipótesis del modelo

Modelo: Forma alternativa

yij Pi  uij , uij o N (0, V 2 )

Estimación varianza (residuos)

yij Pi  uij , uij o N (0,V 2 )

¦ ¦ eij2 0.0 0.0 0.0 0.0

La comparación de tratamientos con este modelo

7645.5 4798.1  2847.4

(n  K ) sˆR2 (n1  1) sˆ12 (n2  1) sˆ22 (nK  1) sˆK2

Tabla de Análisis de la Varianza

Tratamient os 4798.1 3 1599.3 11.2

Intervalos de confianza para

Semilla Media L. Inferior L. Superior

Intervalos de confianza (95%)

y11 y21 yK1

Gráfico probabilista normal

Gráfico probabilista normal

En el proceso de estimación se ha supuesto que los

0 la media del tratamiento.

Residuos por tratamientos

Un ejemplo de este tipo de contrastes formales es el

Para el ejemplo de los tipos de semilla se tiene un p-

Diagnosis: Tres gráficos básicos

Valores previstos Tratamientos

Transformaciones z=h(y) para estabilizar la

En la práctica, en la mayoría de los casos, alguna

Parar cuando los gráficos estén ok.

La falta de independencia suele ir ligada a factores no

La forma más recomendable de evitar errores

La aleatorización evita que se produzcan

Asignar las unidades experimentales al azar a

yij Pi uij , uij o N (0, V 2 )

2.69 ! 2.10 Se rechaza H 0

2.69 d 2.88 No se rechaza H 0

p valor Pr( t18 ! 2.69) 0.0147

Ejemplo: intervalo de confianza P1 P 2

1.37 >0.248,4.03@ No se rechaza H 0

yij Pi uij , uij o N (0, V 2 )

yij Pi uij , uij o N (0,V 2 )

7645.5 4798.1 2847.4

(n K ) sˆR2 (n1 1) sˆ12 (n2 1) sˆ22 (nK 1) sˆK2