Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introduccin
Al estudiar la inuencia de un factor sobre una variable cuantitativa es frecuente que aparezcan otras variables o factores que tambin inuyen y que deben ser controladas. A estas variables se las denomina variables bloque, y se caracterizan por (i) No son el motivo del estudio sino que aparecen de forma natural y obligada en el mismo. (ii ) Se asume que no tienen interaccin con el factor en estudio.
Ejemplo. Se quieren determinar las necesidades energticas de una persona cuando anda, come o hace deporte. Supongamos que se tienen 10 personas para realizar el experimento y se considera como variable respuesta o cuantitativa, el nmero de caloras consumidas por segundo. Los resultados varan segn el individuo considerado. Aqu, el factor es la actividad realizada, con 3 posibles niveles: andar, comer o hacer gimnasia. Si a cada una de las personas se le asigna una actividad distinta puede ser que la variabilidad observada entre las distintas actividades sea debida a las diferencias entre los propios individuos. Una posible solucin es que cada uno de los individuos realice las tres actividades. De este modo, la variable bloque es el tipo de persona y cada uno de los bloques es cada persona. A cada bloque (persona) se le aplican los 3 niveles del factor por orden aleatorio:
Persona 1 Persona 2 C G A A G C
Persona 10 A G C
Observaciones Una variable bloque no presenta interaccin con los factores en estudio. El modelo se dice que es de bloques aleatorizados completos cuando en cada bloque se presentan todos los posibles tratamientos (o un mltiplo de ese nmero) y dentro de cada bloque se asignan los tratamientos de forma aleatoria. En ocasiones no se pueden asignar todos los tratamientos sobre cada bloque, de modo que se tienen los diseos por bloques aleatorizados incompletos.
Modelo
Suponemos que el nmero de unidades experimentales para cada bloque coincide con el nmero de tratamientos, esto es, hay una observacin para cada cruce de los niveles del factor y del bloque. La variable respuesta Y puede depender de un primer factor de inters (A) y de la variable bloque (B). El modelo es:
Yij = + i + j + ij para i = 1, . . . , a y j = 1, . . . , b, siendo: el efecto medio global i el efecto incremental sobre la media causado por el nivel i del factor A j el efecto incremental sobre la media causado por el nivel j del bloque B ij el trmino de error.
i =
El problema consiste en comparar las medias de los tratamientos, esto es H0 1 = 2 = = a H1 i 6= j lo cual es equivalente a H0 i = 0 H1 j 6= 0 j i 6= j
b X j=1
j = 0
Se consideran las siguientes hiptesis sobre el modelo: Normalidad: ij sigue una distribucin normal. Esto es equivalente a que Yij sigue una distribucin normal. Linealidad: E(ij ) = 0. Esto es equivalente a que E(Yij ) = + i + j . Homocedasticidad: V ar(ij ) = 2 . Esto es equivalente a que V ar(Yij ) = 2 . Independencia: ij son independientes entre s. Esto es equivalente a que Yij son independientes entre s.
sujeto a
i =
j = 0
b a XX
yij ab = 0 =
a b
= Para i jado
1X yij y = yi y i = b j=1
b
b X j=1
b X = 2 yij i j = 0 = i j=1
yij b bi = 0 =
Anlogamente, para j jado, j = yj y As, yij = y + (i y ) + (j y ) = y y = yi + yj y El nmero de parmetros a estimar en total es 1 + (a 1) + (b 1) = a + b 1 Como el nmero total de observaciones es N = ab, entonces el nmero de grados de libertad es ab a b + 1 = (a 1)(b 1)
(yij yij )2 =
b a XX i=1 j=1
(yij (i + yj y ))2 = y
(yij yi yj + y )2 ,
b a XX i=1 j=1
2 yij
SCA
a a X X 2 = b (i y ) = b y yi N y = 2 2
1 b
i=1 a X i=1
i=1
2 yi
2 y
SCB = a 1 a
Se puede demostrar que P b a 2 SCA 2 i=1 i E = + a1 a1 P a b 2 SCB i=1 j 2 E = + b1 b1 SCE = 2 E (a 1)(b 1) De este modo, se puede considerar el estadstico F0 = MCA = MCE
SCA a1 SCE (a1)(b1)
de modo que si H0 es cierta, F0 se distribuye como una F de Snedecor, Fa1,(a1)(b1), , de manera que se rechaza la H0 si F0 > Fa1,(a1)(b1), Se podra plantear contrastar la igualdad entre los bloques, aunque hacer esto est en contra de la suposicin previa: si se ha considerado un diseo por bloques es porque estos inuyen en el experimento. Si se considerase un estadstico de la forma MCB = F0 = MCE
SCB b1 SCE (a1)(b1)
apareceran dicultades tericas dado que la aleatorizacin slo se realiza dentro de cada bloque. La tabla de anlisis de la varianza queda como: F. V. Factor A Factor Bloque Residual Total S. C. SCA SCB SCE SCT G. L. a1 b1 (a 1)(b 1) ab 1 M. C. MCA = SCA a1 MCB = SCB b1 SCE MCE = (a1)(b1) F F0 =
MCA MCE
Ejemplo. Se realiza un experimento para determinar el efecto de cuatro sustancias qumicas diferentes sobre la resistencia de una tela. Las sustancias se emplean como parte del proceso terminal de planchado permanente. Para ello, se escogen cinco muestras de tela y se aplica un diseo aleatorizado por bloques completos mediante la prueba de cada sustancia en un orden aleatorio sobre cada una de las muestras de tela. Se probar la diferencia en las medias utilizando para ello el anlisis de la varianza con = 0,01. Los datos aparecen a continuacin.
Sustancia\Muestra
1 2 3 4 Media
3 4 5 0,5 1,2 1,1 0,4 2,0 1,8 0,6 1,5 1,3 2,0 4,1 3,4 = 0,88 y4 = 2,2 y5 = 1,9
El factor de inters es la sustancia qumica, con cuatro niveles y el factor bloque es la muestra de tela, con cinco niveles. Entonces a = 4, b = 5 y n = 20. Las sumas de cuadrados son: SCT = SCA = SCB =
b a XX 2 yij n = 1,32 + 1,62 + + 4,12 + 3,42 20 1,962 = 25,69 y2
SCE = SCT SCA SCB = 25,69 18,04 6,69 = 0,96 La tabla ANOVA es:
i=1 j=1 a X b yi n = 5(1,142 + 1,762 + 1,382 + 3,562 ) 20 1,962 = 18,04 2 y2 i=1 b X a yj n = 4(2,32 + 2,532 + 0,882 + 2,22 + 1,92 ) 20 1,962 = 6,69 2 y2 j=1
F.V. S.C. G.L. M.C. F Sustancia 18.04 3 6.01 75.13 Muestra 6.69 4 1.67 Residual 0.96 12 0.08 Total 25.69 19 Como F3,12;0,01 = 5,9526, existe una diferencia signicativa en las sustancias qumicas en cuanto al efecto que tienen sobre la resistencia promedio de la tela. 7
Observacin Si las medias de los tratamientos son diferentes entre s se pueden considerar los tests de comparaciones mltiples y de rangos estudentizados, que se vieron para el modelo unifactorial general. Se ha de reemplazar el nmero de rplicas por nivel del factor (n) por el nmero de bloques (b). A su vez, los grados de libertad del error han de cambiarse de (N a) en el caso general a (a 1)(b 1).
Cuadrados latinos
En principio, un modelo completo con tres factores y todas las posibles interacciones sera: yijk = + i + j + k + ()ij + ()ik + ()jk + ()ijk + ijk para i = 1, . . . , a, j = 1, . . . , b y k = 1, . . . , K; siendo ijk N(0, 2 ) independientes. El problema reside en que slo se dispone de (a b K) observaciones para estimar (a b K + 1) parmetros. Las posibles soluciones son: 1. Prescindir de alguna interaccin, es decir, simplicar el modelo. 2. Replicar el experimento aunque, a veces, no es posible obtener tantas observaciones. 3. Construir un diseo de cuadrados latinos.
Podemos aplicar un diseo de cuadrados latinos cuando: Hay tres factores El nmero de niveles es el mismo para cada factor, es decir a = b = k No se esperan interacciones entre los factores El diseo por cuadrados latinos trata de sacar el mximo de informacin con el mnimo de observaciones. La idea es que cada nivel del factor aparezca una vez con cada uno de los niveles de las otras variables. Adems, han de cumplirse las condiciones de normalidad, homocedasticidad, independencia y falta de interaccin.
Ejemplo. Se realiza un experimento para comparar 4 procesos de fabricacin. Se supone que inuye tanto el momento del da como el da de la semana en que se realiza. Entonces, se consideran las siguientes variables. 1. Cada da se divide en 4 periodos distintos de 6 horas cada uno (de 06, de 612, de 1218, 1824). 2. Los da que se consideran son L, M, X y J. 3. Como factor se toma el proceso de fabricacin con cuatro niveles: P1 , P2 , P3 y P4 .
10
De las 4! = 24 posibles permutaciones, se eligen las siguientes: (1, 3, 4, 2) (3, 2, 1, 4) (4, 3, 2, 1) asignando, entonces, col.1 L col.2 X col.3 J col.4 M la la la la 1 1218 2 612 3 06 4 1824 Letra A Letra B Letra C Letra D P4 P3 P2 P1
Queda el siguiente cuadrado latino L 1218 P4 612 P3 06 P2 1824 P1 que, reordenando, queda como L P2 P3 P4 P1 M P3 P4 P1 P2 X P1 P2 P3 P4 J P4 P1 P2 P3 X P3 P2 P1 P4 J P2 P1 P4 P3 M P1 P4 P3 P2
Las ventaja que presenta el diseo latino es que permite estudiar el efecto de un factor y dos variables bloque con I niveles cada uno de ellos y con I 2 unidades experimentales, en lugar de I 3 unidades experimentales. Aunque se impone siempre la limitacin de que todos ellos tengan siempre el mismo nmero de niveles.
11
Modelo
Este modelo sera: yij(k) = + i + j + k + ij(k) para i = 1, . . . , I, j = 1, . . . , I y k = 1, . . . , I; de modo que k viene jado con el par (i, j), donde: el efecto medio global. i el efecto incremental sobre la media causado por el nivel i de la variable (efecto la). j el efecto incremental sobre la media causado por el nivel j de la variable (efecto columna). k el efecto incremental sobre la media causado por el nivel k del factor (efecto letra). ij(k) el trmino de error, siendo ij(k) N(0, 2 ) independientes. Supondremos adems que:
I X i=1
i =
I X j=1
j =
I X k=1
k = 0
As, las observaciones seran, por ejemplo para tres niveles: I 1 2 3 y11(1) A y21(3) C y31(2) B II y12(2) B y22(1) A y32(3) C III y13(3) C y23(2) B y33(1) A
12
El ndice i indica el nivel de la variable (la la), el ndice j indica el nivel de la variable (la columna) y el ndice k indica el nivel del factor (la letra), que aparece entre parntesis porque para cada par (i, j) slo hay un k posible. Se denota por D el conjunto de ndices que aparecen en el cuadrado latino (i, j, k). En el ejemplo de los procesos de fabricacin, el cuadrado latino est formado por 16 elementos, as, D = {(1, 1, 2) (1, 2, 3) (1, 3, 1) (1, 4, 4) (2, 1, 3) (2, 2, 4) (2, 3, 2) (2, 4, 1) (3, 1, 4) (3, 2, 1) (3, 3, 3) (3, 4, 2) (4, 1, 1) (4, 2, 2) (4, 3, 4) (4, 4, 3)}. Se pueden denir, tambin, los siguientes conjuntos: Para i jo: D(i) ={(j, k), (i, j, k) D} Para j jo: D(j) ={(i, k), (i, j, k) D} Para k jo: D(k) ={(i, j), (i, j, k) D} En el ejemplo: D(i=1) ={(1, 2) (2, 3) (3, 1) (4, 4)} D(j=3) ={(1, 1) (2, 2) (3, 3) (4, 4)} D(k=2) ={(1, 1) (2, 3) (3, 4) (4, 2)} El nmero de elementos de estos conjuntos es 4.
,i , j ,
m n
(i,j,k)D
X 2 yijk i j k X
D(j)
i =
j =
D(k)
k = 0
13
Derivando respecto de los parmetros e igualando a 0 se obtienen los siguientes estimadores: = y = 1 I2 X 1 I yij(k) X yij(k) y yij(k) y yij(k) y
(i,j,k)D
i = yi y =
(j,k)D(i)
1 j = yj y = I k = yk y = 1 I
(i,k)D(j)
(i,j)D(k)
Por otro lado, como el nmero de parmetros a estimar es (I 1) + (I 1) + (I 1) + 1 = 3I 2, el nmero de grados de libertad de la varianza es I 2 3I + 2 = (I 1) (I 2) con lo cual necesitamos que I 3 : 2 = 1 (I 1)(I 2) X 2 yij(k) yij(k) =
(i,j,k)D
1 = (I 1)(I 2)
(i,j,k)D
X 2 yij(k) yi yj yk + 2 y
Anlisis de la varianza
Se utilizar el siguiente contraste de hiptesis: H0 : 1 = = I = 0 (el factor no inuye) H1 : algn i 6= 0 (el factor inuye) Para contrastar esta hiptesis, descomponemos la suma de cuadrados total en la siguiente suma de cuadrados: SCT = X (yij(k) y )2 = X
2 yij(k) I 2 y = 2
(i,j,k)D
(i,j,k)D
= SC + SC + SC + SCE 14
donde SC = I X (i y )2 = I y X yi I 2 y 2 2
(j,k)D(i)
(j,k)D(i)
SC = I
(i,k)D(j)
(j y )2 = I y
(i,k)D(j)
yj I 2 y 2 2
SC = I
(i,j)D(k)
(k y )2 = I y
(i,j)D(k)
yk I 2 y 2 2
SCE =
(i,j,k)D
Suma de cuadrados residual La tabla de anlisis de la varianza es: F. V. Factor Factor Factor Residual Total S. C. SC SC SC SCE SCT G. L. I 1 I 1 I 1 (I 1)(I 2) I2 1 M. C. MC = SC I1 SC MC = I1 MC = SC I1 SCE MCE = (I1)(I2) F
(yij(k) yi yj yk + 2 )2 = (I 1)(I 2) 2 y
F =
MC MCE
Ejemplo. Supongamos que un experimentador est estudiando el efecto de cinco frmulas diferentes de la mezcla de dinamita sobre la fuerza explosiva observada. Cada frmula se 15
prepara usando un lote de materia prima, lo sucientemente grande para que slo se hagan cinco mezclas. Mas an, las mezclas las preparan cinco operarios, pudiendo existir una diferencia sustancial en la habilidad y experiencia entre ellos. El diseo apropiado para este problema consiste en probar cada frmula exactamente una vez, utilizando cada lote de materia prima, y en que cada frmula sea preparada exactamente una vez por cada uno de los cinco operarios. El diseo resultante es un cuadrado latino. Las cinco frmulas se representan mediante las letras latinas A, B, C, D y E. Los datos aparecen a continuacin: Materia 1 2 3 4 5 1 A 24 B 17 C 18 D 26 E 22 2 B 20 C 24 D 38 E 31 A 30 3 C 19 D 30 E 26 A 26 B 20 4 D 24 E 27 A 27 B 23 C 29 5 E 24 A 36 B 21 C 22 D 31
Para simplicar los datos se resta 25 unidades y se obtiene: Materia 1 2 3 4 5 yj 1 A -1 B -8 C -7 D 1 E -3 -3.6 2 B -5 C -1 D 13 E 6 A 5 3.6 3 C -6 D 5 E 1 A 1 B -5 -0.8 4 D -1 E 2 A 2 B -2 C 4 1 5 E -1 A 11 B -4 C -3 D 6 1.8 yi -2.8 1.8 1 0.6 1.4 0.4
letra latina A B C D E
yk y1 = (1 + 11 + 2 + 1 + 5)/5 = 18/5 = 3,6 y2 = (5 8 4 2 5)/5 = 24/5 = 4,8 y3 = (6 1 7 3 + 4)/5 = 13/5 = 2,6 y4 = (1 + 5 + 13 + 1 + 6)/5 = 24/5 = 4,8 y5 = (1 + 2 + 1 + 6 3)/5 = 5/5 = 1
SCT =
SC = I SC = I
yi n = 5((2,8)2 + 1,82 + 12 + 0,62 + 1,42 ) 25 0,42 = 68 2 y2 yj n = 5((3,6)2 + 3,62 + (0,8)2 + 12 + 1,82 ) 25 0,42 = 150 2 y2 yk n = 5(3,62 + (4,8)2 + (2,6)2 + 4,82 + 12 ) 25 0,42 = 330 2 y2
SC = I
La tabla ANOVA es: F.V. S.C. G.L. M.C. F Material (A) 68 4 17 Operario (B) 150 4 37.5 Frmula (C) 330 4 82.5 7.73 Error 128 12 10.67 Total 676 24 Como F4,12;0,1 = 2,48, existen diferencias signicativas en la fuerza explosiva media debido a las cinco frmulas.
17
Cuadrados grecolatinos
Se puede considerar una extensin del diseo de cuadrados latinos que permite estudiar un factor y 3 variables bloque con slo I 2 observaciones (siempre que el factor y las variables bloque tengan todos I niveles). Se considera un cuadrado latino de dimensin (I I) y se superpone sobre l otro cuadrado con los tratamientos denotados por letras griegas. Se dice que son ortogonales cuando cada letra griega aparece combinada con una letra latina una y slo una vez en cada la y columna. Por ejemplo, Cuadrado latino 1: A D B C B C A D C B D A D A C B
Cuadrado latino 2:
Se pueden construir cuadrados grecolatinos en diseos completamente cruzados para I > 3, salvo para I = 6, porque en este caso slo existe un cuadrado latino. El modelo es yij(kh) = + i + j + k + h + ij(kh) donde
I X i=1 I X j=1 I X k=1 I X h=1
i =
j =
k =
h = 0.
18
Se obtiene una tabla ANOVA semejante al modelo de cuadrados latinos, considerando tambin el trmino h . Los grados de libertad de la SCE son igual a (I 1)(I 3). El contraste de la F es el mismo que en el caso de los cuadrados latinos.
19
Aplicacin con R
# Diseo por bloques # Cargamos datos de la libreria de Faraday library(faraway) data(penicillin); attach(penicillin) penicillin # Se muestra el numero de replicas replications(yield ~ blend + treat,penicillin) par(pty="s") par(mfrow=c(2,2)) plot.design(yield ~ blend + treat) plot.design(yield ~ blend + treat, fun=median) plot(yield ~ blend + treat) interaction.plot(treat,blend,yield,type="l",col=1:3) modelo <- aov(yield ~ blend + treat) summary(modelo) par(pty="s") par(mfrow=c(2,2)) plot(modelo) # medias de tratamientos model.tables(modelo,"mean") #........................................................................... # Cuadrado latino # Cargamos datos de la libreria de Faraday library(faraway) data(breaking); attach(breaking) breaking # Se muestra el numero de replicas replications(y ~ operator + day + supplier, breaking) matrix(supplier,4,4) par(pty="s") par(mfrow=c(2,2)) plot.design(y ~ operator + day + supplier, breaking) plot(y ~ operator + day + supplier, breaking) replications(y ~ operator + day + supplier) modelo <- aov(y ~ operator + day + supplier, breaking) summary(modelo) # medias de tratamientos model.tables(modelo,"mean") # Estimacion de los efectos modelo$coef # o bien coef <- lm(y ~ operator + day + supplier, breaking) summary(coef)
20
ANOVA bloques aleatorizados completos The ANOVA Procedure Class Level Information Class bloque trata Levels 5 4 Values 1 2 3 4 5 1 2 3 4
Number of observations
20
DF 7 12 19
F Value 12.53
21
Pr > F 0.0001
R-Square 0.879691
DF 4 3
Duncan's Multiple Range Test for medida NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
2 3.715
3 3.888
4 3.993
Duncan Grouping A A A A A B
N 5 5 5 5
trata 2 4 1 3
22
Tukey's Studentized Range (HSD) Test for medida NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than REGWQ.
Alpha 0.05 Error Degrees of Freedom 12 Error Mean Square 7.266667 Critical Value of Studentized Range 4.19852 Minimum Significant Difference 5.0615
Tukey Grouping A A A A A
N 5 5 5 5
trata 2 4 1 3
B B B
Level of trata 1 2 3 4
N 5 5 5 5
------------medida----------Mean Std Dev 24.4000000 26.8000000 20.4000000 26.8000000 6.94982014 7.46324326 3.50713558 5.54075807
23
options ls=70 nodate nonumber; title 'ANOVA cuadrados latinos'; data ano; input bloque1 bloque2 trata $ medida; cards; 1 1 B 810 1 2 C 1100 1 3 D 840 1 4 A 650 2 1 C 1080 2 2 D 880 2 3 A 540 2 4 B 740 3 1 A 700 3 2 B 780 3 3 C 1055 3 4 D 1025 4 1 D 910 4 2 A 600 4 3 B 830 4 4 C 900 proc anova; class bloque1 bloque2 trata; model medida=bloque1 bloque2 trata; means trata /duncan tukey; means trata; run;
ANOVA cuadrados latinos The ANOVA Procedure Class Level Information Class bloque1 bloque2 trata Levels 4 4 4 Values 1 2 3 4 1 2 3 4 A B C D
Number of observations
16
DF 9 6 15
F Value 7.09
24
Pr > F 0.0135
R-Square 0.914101
Duncan's Multiple Range Test for medida NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
2 136.3
3 141.3
4 143.8
Duncan Grouping A A A
N 4 4 4 4
trata C D B A
B B B
622.50
25
Tukey's Studentized Range (HSD) Test for medida NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher Type II error rate than REGWQ.
Alpha 0.05 Error Degrees of Freedom 6 Error Mean Square 6208.333 Critical Value of Studentized Range 4.89559 Minimum Significant Difference 192.87
Tukey Grouping A A A C C C
N 4 4 4 4
trata C D B A
B B B
Level of trata A B C D
N 4 4 4 4
------------medida----------Mean Std Dev 622.50000 790.00000 1033.75000 913.75000 68.4957420 39.1578004 91.0471490 79.5167697
26