Está en la página 1de 13

Diseo de Experimentos

TEMA 2
EXPERIMENTOS UNIFACTORIALES SIN RESTRICCIONES EN LA ALEATORIZACIN
(Hicks, cap. 2 y 3; Kempthorne, p. 22; Letner; Montgomery, cap. 4; Winer, pg. 220)

Diseo completamente aleatorizado


El diseo ms sencillo y menos restrictivo que podemos aplicar es el siguiente: Supongamos que tenemos k tratamientos y N(>k) unidades experimentales para un experimento. Podemos asignar el primer tratamiento a n1 unidades seleccionadas aleatoriamente entre las N, el segundo a n2 unidades seleccionadas aleatoriamente entre las N-n1 restantes, y as sucesivamente. La nica restriccin ser que, antes de asignar un tratamiento, todas las unidades tienen la misma probabilidad de ser asignadas a cualquier tratamiento. A este diseo se le llama diseo completamente aleatorizado (CRD). Consideremos como factor los fabricantes de acero de donde nos interesa la dureza del acero obtenido (podramos tener como factor la temperatura para comprobar el efecto que tiene en la produccin de penicilina). Cuando tengamos un slo factor (niveles cuantitativos o cualitativos, fijos o aleatorios), el experimento se llamar experimento unifactorial (single-factor experiment) y el smbolo tj se usar para indicar el efecto del j-simo nivel del factor. Si el orden de experimentacin aplicado a los distintos niveles de un factor es completamente aleatorizado, con lo que consideramos homogneo todo el material al que se aplican los tratamiento, el diseo se llama diseo completamente aleatorizado (completely randomized design). El nmero de observaciones por nivel del tratamiento o factor se determinarn segn el coste y la potencia del test. El modelo es entonces yij = m + t j + eij donde yij representa la i-sima observacin (i=1, ..., nj) del j-simo tratamiento (j=1,...,k niveles), m es el efecto comn del experimento, tj representa el efecto del j-simo tratamiento y eij es el error aleatorio que presenta la observacin (i,j). Generalmente se considera e ~ N (0, s 2 I ) . Si los niveles son fijos, consideramos t 1 ,K ,t k parmetros fijos y suponemos

t
j =1

= 0.

Si los niveles son aleatorios, se supone t j ~ N (0, s t2 ) . El anlisis de un experimento unifactorial completamente aleatorizado habitualmente consiste en un ANOVA para H 0 : t j = 0 "j . Si H 0 es cierta, no hay efecto de los tratamientos. Despus del ANOVA se pueden hacer otros contrastes. Los estimadores insesgados de la varianza obtenidos en el ANOVA (sumas de cuadrados divididas por sus grados de libertad) se llaman cuadrados medios (mean squares). Ventajas: 1. Flexibilidad: puede usarse cualquier nmero de tratamientos y de repeticiones, no siendo necesario que las repeticiones sean las mismas para todos los tratamientos (aunque las comparaciones son ms precisas si el nmero de repeticiones por tratamiento es igual) 2. El anlisis estadstico es simple incluso con repeticiones desiguales y no se complica con prdidas de datos. 3. El diseo proporciona el mximo nmero de grados de libertad para el error. 1. Desventajas: La precisin es baja si las unidades no son uniformes.
1 de 13

Tema 2

Diseo de Experimentos

Utilidades: 1. Es ms precisa si el material experimental es uniforme. 2. Es til cuando una gran parte de unidades puede no responder o perderse durante el experimento. 3. Puede ser til para experimentos en los que el nmero total de unidades es limitado ya que proporciona el mximo nmero de grados de libertad.

Aleatorizacin
Supongamos que queremos realizar un experimento con 4 tratamientos y 3 rplicas (12 unidades). Podemos asignarla
Por lotes: 3 papeletas con A, 3 con B, 3 con C y 3 con D. La primera seleccionada al azar va a la unidad 1, la segunda a la 2, la tercera a la 3, etc. Por tablas de nmeros: se seleccionan 12 nmeros aleatorios, y se les asigna un rango. Las tres primeras a A, las 3 siguientes a B, etc. 1 5 9 2 6 10 3 7 11 4 8 12

448 699 340 733 580 852 514 723 152 744 828 041 4 7 3 9 6 12 5 8 2 10 11 1 A A A B B B C C C D D D

Anlisis de la varianza
La variacin total se descompone en dos componentes: Variacin entre medias de tratamientos (tratamientos) Variacin entre unidades dentro de tratamientos (error) Los grados de libertad son uno menos que el nmero de observaciones en cada fuente de variacin:

N = n j observaciones N-1 grados de libertad en la variabilidad total


j =1

k tratamientos k-1 grados de libertad para los tratamientos n j observaciones para el tratamiento j-simo n j - 1 grados de libertad para el error en el tratamiento j-simo (n j - 1) = N - k grados de libertad del error
j =1 k

Fuente Tratamientos Error Total


i j

g.d.l. k-1 N-k N-1


2

SC SCTr SCE SCTot


N

CM CMTr CME y2j nj


-

y 2 donde SCTot = y ij -

SCTr =
j

y2 N

SCE = SCTot - SCTr

Test de significacin. Si contrastamos H 0 : m 1 = m 2 = K = m k H 0: t 1 = K = t k = 0 H 0 : s t2 = 0 frente a H 1 : m 1 m 2 K m k H 1: t 1 K t k = 0 H 1 : s t2 0 usaremos el estadstico CMTr F= ~ Fk -1, N -k . CME

Tema 2

2 de 13

Diseo de Experimentos

Medias de tratamiento. m j la verdadera media del tratamiento j-simo se estima a partir de


y j = y j nj

siendo su desviacin estndar s y =


j

s2 CME = nj nj

y el intervalo de confianza

L ( m j ) = y j m ta , N - k

CME nj

Diferencia de tratamientos. Para m i - m j tenemos y i - y . j siendo su desviacin estndar


1 1 = + CME n n j i y el intervalo de confianza sy
i - y j

1 1 L( m i - m j ) = y i - y j m ta , N - k + CME n n j i

Modelos de efectos fijos y aleatorios


Para el diseo completamente aleatorizado, el modelo matemtico que describe una observacin y que proporciona la base para el anlisis de datos depende de la suposicin que hemos hecho sobre los tratamientos incluidos en el experimento. Con este diseo hay dos tipos de modelos: Efectos fijos Efectos aleatorios Hasta ahora hemos supuesto que el experimento inclua slo los tratamientos de inters. Nuestro objetivo era estimar las medias de los tratamientos y las diferencias entre tratamientos. Si, al repetir el experimento, incluyramos los mismos tratamientos, estaramos en el modelo de efectos fijos. y ij = m tj + eij { + { { {
i - sima observacin tratamiento media efecto aadido error aleatorio a (i , j ) j - simo global j - simo tratamiento asociado

Las suposiciones subyacentes son


Los t j son fijos y como miden desviaciones respecto a m :

t
j =1

= 0.

Los eij son una muestra aleatoria de una poblacin que se supone normalmente distribuida con media cero y varianza comn s 2 .

En otros caso, los tratamientos de un experimento en particular son una muestra aleatoria de una gran poblacin de tratamientos similares. Nuestro inters no sern las medias, sino la estimacin de la variacin entre las medias de los tratamientos (si repitiramos el experimento, se incluiran otros tratamientos). En este caso el modelo se llama de efectos aleatorios y el modelo matemtico ser y ij = m tj + eij { + { { {
i - sima observacin tratamiento media efecto aleatorio error aleatorio a (i, j ) j - simo global j - simo tratamiento asociado

En este caso los t j son una muestra aleatoria de t (una poblacin normal de media cero y varianza comn s t2 ) y los errores eij son errores aleatorios N (0, s 2 ) .
Tema 2

3 de 13

Diseo de Experimentos

Los clculos del ANOVA son los mismos bajo ambos modelos. Sin embargo, las inferencias cambian. Podemos verlo en la tabla: Fuente Tratamientos Error g.d.l. k-1 (n-1)k CM CMTr CME E(CM) ef. fijos n s2 + t2 j k -1 j
s2

E(CM) ef. aleatorios s 2 + ns t2


s2

Ejemplo 1: Consideremos la produccin de ropa y su desgaste. La variable dependiente Y da la prdida de peso (en gr.) del material despus de un determinado nmero de ciclos de lavado. El problema es determinar si existe o no diferencia en la prdida media de peso entre cuatro fbricas competidoras. El factor de inters es la fbrica con niveles A, B, C, D. Son cualitativos y fijos de un solo factor. Se acuerda contrastar cuatro muestras de cada fbrica y aleatorizar completamente el orden de contraste de las 16 muestras. El modelo matemtico es yij = m + t j + eij (i, j = 1,K,4) y la hiptesis a contrastar H 0 : t j = 0 "j frente a H 1 : $j / t j 0 . Los datos recogidos fueron

Fbrica

Totales ( y j )
nj

A 1.93 2.38 2.20 2.25 8.76 4 19.2918

B 2.55 2.72 2.75 2.70 10.72 4 28.7534

C 2.40 2.68 2.31 2.28 9.67 4 23.4769

D 2.33 2.40 2.28 2.25 9.26 4 21.4498


i, j

y =38.41 N=16

y
i

2 ij

2 ij

=92.9719

que, al ser
SC total = y ij
i, j
2

y (38.41) = 0.7639 - = 92.9719 N 16


2 2

SC tratamientos =

y j nj

y (8.76)2 + (10.72)2 + (9.67 )2 + (9.26)2 - (38.41)2 = 0.5201 = N 4 4 4 4 16


2

SC error = SC total - SC tratamientos = 0.7639 - 0.5201 = 0.2438

dan lugar a la tabla ANOVA

Tema 2

4 de 13

Diseo de Experimentos

Fuente de variacin Entre fbricas ( t j ) Dentro fbricas ( eij ) Total

g.d.l 3 12 15

SC 0.5201 0.2438 0.7639

CM 0.1734 0.0203

de donde, como el estadstico es F =

0.1734 = 8.54 y F3,12;0.01 = 5.95 , entonces se rechaza H 0 . 0.0203

DESPUS DEL ANOVA, QU? Contrastes sobre medias


Al considerar los niveles cualitativos, las comparaciones entre medias (o los contrastes sobre medias) dependern de si habamos tomado la decisin de qu medias comparar antes de realizar el experimento o despus de examinar los resultados.

Contrastes sobre medias establecidos antes de la experimentacin: contrastes ortogonales


En este caso, podemos establecer las comparaciones a realizar sin modificar el riesgo a del ANOVA. Esto significa que debemos tener cuidado de qu contrastes escogeremos, no pudiendo exceder el nmero de grados de libertad entre las medias de los tratamientos. El mtodo que se usa generalmente es el mtodo de contrastes ortogonales (method of orthogonal contrasts). Por ejemplo, para comparar los tratamientos 1 y 2 parece bastante lgico examinar la diferencia entre sus medias o entre sus totales (supuesto que se basan en muestras del mismo tamao n): T1 - T2 Si, por otra parte, queremos comparar los dos primeros con el tercero, el tercero debe tener ponderacin 2 pues se basa en la mitad de las observaciones: T1 + T2 - 2T3 (obsrvese que para cada comparacin o contraste la suma de los coeficientes es nula) Por consiguiente, un contraste Lm se define como una combinacin lineal de los tratamientos que verifica Lm = c1mT1 + c 2 mT2 + K + c kmTk donde c1m + c 2 m + K + c km = 0 Es decir, Lm = c jmT j con
j =1 k

c
j =1

jm

=0

Es aconsejable que dos contraste sean independientes (se dir entonces que son contrastes ortogonales) pues en ese caso se pueden realizar tests de hiptesis independientes comparando el cuadrado medio de cada contraste con el cuadrado medio del error del experimento, siendo estos contrastes de un grado de libertad.

Tema 2

5 de 13

Diseo de Experimentos

Dos contrastes Lm y Lq se dice que son contrastes ortogonales si iguales). La suma de cuadrados del contraste es SC Lm = 2 L m
n c 2 jm
j =1 k

c
j =1

jm

c jq = 0 (n

= c y , es decir, donde L jm j m

el valor estimado del contraste. El concepto de ortogonalidad de contrastes es esencial. Supongamos que tenemos una muestra aleatoria simple (x1 ,K, x n ) de n observaciones de una distribucin normal. Cualquier contraste lineal entre estas observaciones puede representarse por la funcin A = l1 x1 + K + ln x n con l1 + K + ln = 0 . La varianza de esta funcin es

( l )s
2 i

. Supongamos que tenemos otro contraste B = m 1 x1 + K + m n x n con m 1 + K + m n = 0 .

La varianza de B es

( m )s
2 i 2

y la covarianza de A y B viene dada por


2 i i 2 i 2 i i i

correlacin entre A y B es r

dice entonces que son ortogonales1. Esto significa que A y B se distribuirn independientemente y si usamos A para estimar un parmetro y B para estimar otro, los errores en la estimacin de uno no estarn relacionados con los errores de estimacin del otro. Ejemplo 1 (continuacin): Consideremos que nos interesa comparar la primera fbrica con la cuarta (A y D) y la segunda con la tercera (B y C). Esto nos lleva a definir los contrastes L1 = m 1 - m 4 o equivalentemente L1 = y1 - y4 (asociada a la hiptesis nula H 01 : t 1 = t 4 ) y L2 = m 2 - m 3 o equivalentemente L2 = y2 - y3 (asociada a la hiptesis nula H 02 : t 2 = t 3 ). Tambin podemos comparar esos dos grupos entre s en el contraste L3 = m 1 - m 2 - m 3 + m 4 o equivalentemente L3 = y1 - y2 - y3 + y4 (asociada a H 03 : t 1 + t 4 = t 2 + t 3 ), obteniendo as un conjunto de contrastes ortogonales cuyos coeficientes son:
y1 1 0 0 y2 0 1 -1 y 3 0 -1 -1

( l m ) ( ) = ( l )( m ) , siendo cero si l m = 0 . Los contrastes se

( l m )s
i i

. La

y4
-1 0 1

L1 L2 L3

Recurdese que dos rectas se dicen perpendiculares (ortogonales) si la pendiente de una de ellas es la inversa negativa de la pendiente de la otra:

c 22 c c 21 - 11 = - c11c12 + c 21c 22 = 0 - c b2 c12 c 21 12 x+ c12 x + c 22 y = b2 y = c 22 c 22 c11 x + c 21 y = b1 y = c 21 x+


Tema 2

c11

b1

6 de 13

Diseo de Experimentos

En nuestro caso, los valores numricos de los contrastes y sus sumas de cuadrados (todos ellos con un grado de libertad, y que se corresponden con la descomposicin ortogonal de los tratamientos, y en consecuencia su suma coincide con la suma de cuadrados de los tratamientos) son los que aparecen en la tabla adjunta
= 1(8.76) + 0(10.72) + 0(9.67) - 1(9.26) = -0.5 L 1 = 0(8.76) + 1(10.72) - 1(9.67) + 0(9.26) = 1.05 L 2

SC L1 SC L2

2 ( - 0.5) =

4(2)

= 0.0312 = 0.1378 = 0.3511

2 ( 1.05) =

4(2)

= 1(8.76) - 1(10.72) - 1(9.67) + 1(9.26) = -2.37 L 3

SC L3

2 ( - 2.37 ) =

4(4)

SC tratamientos = 0.5201 Como F1,12;0.05 = 4.75 y F1,12;0.01 = 9.33 , la hiptesis H 02 se rechaza al 5% de significacin y la hiptesis H 03 se rechaza al 1% de significacin.

Contrastes sobre medias despus de la experimentacin


Si la decisin sobre qu comparaciones realizar se pospone hasta despus de examinar los datos, podemos realizarlas pero modificando el nivel a ya que no son decisiones tomadas al azar sino basadas en los resultados observados. Para resolver estas situaciones hay varios mtodos. Veremos alguno: Test de los rangos de Neuman-Keuls Despus de compilar los datos, se siguen los pasos siguientes: 1. Ordenar las k medias en orden creciente 2. Tomar de la tabla ANOVA el cuadrado medio del error (error mean square) con sus grados de libertad 3. Obtener el error estndar de la media de cada tratamiento CME sy = j nmero observaciones en y j donde el CME es el del denominador del test F para y j 4. Entrar en la tabla de rangos tipificados de rangos significativos (Studentized range table of significant ranges) al nivel a deseado, usando n2 =grados de libertad del CME y p=2,...,k, y hacer una lista con los k-1 rangos 5. Multiplicarlos por s y para formar la lista de los k-1 rangos menos significativos
j

(least significant ranges) 6. Comparar los rangos observados entre medias (empezando por el mayor frente al menor) con el rango menos significativo para p=k; despus el mayor frente al segundo ms pequeo con el rango menos significativo para p=k-1; etc.; continuar por el segundo ms grande frente al ms pequeo, etc., hasta los k (k - 1) / 2 pares posibles. Excepcin: no podemos declarar significativa la diferencia entre dos medias contenidas en un subconjunto con rango no significativo.

Tema 2

7 de 13

Diseo de Experimentos

Ejemplo 1 (cont.): 1. k=4 Medias 2.19 Tratamientos A 2. CME=0.0203 con 12 g.d.l. 3. s y =


j

2.32 D

2.42 C

2.68 B

0.0203 = 0.0712 4
n2 = 12

p: 2 3 4 Rango 3.08 3.77 4.20 5. Rangos menos significativos (Least Significant Ranges) p: 2 3 4 LSR: 0.22 0.27 0.30 6. B vs A 2.68 - 2.19 = 0.49 > 0.30 B vs D 2.68 - 2.32 = 0.36 > 0.27 B vs C 2.68 - 2.42 = 0.26 > 0.22 C vs A 2.42 - 2.19 = 0.23 < 0.27 C vs D 2.42 - 2.32 = 0.10 < 0.22 D vs A 2.32 - 2.19 = 0.13 < 0.22 B difiere significativamente de A, C y D C no difiere significativamente de A y D (por tanto A y D estn contenidas en un conjunto de medias con medias de rango no significativo)

4. a = 0.05

Test de Scheff 1. Establecer los contrastes de inters y calcular su valor numrico 2. Determinar el valor del estadstico F en el ANOVA realizado para el nivel a y k-1, N-k grados de libertad 3. Calcular A =
k

(k - 1)F
2

con F del paso 2

4. Calcular el error estndar de cada contraste a realizar, que viene dado por S Lm = CME n j c jm
j =1

5. Si el valor numrico de Lm es mayor (en valor absoluto) que A S Lm , el contraste es significativo > A S rechazo la hiptesis de que el contraste L entre medias es cierto L m Lm m NOTA: Para Scheff, los contrastes no son necesariamente ortogonales. Ejemplo 1 (cont.):
= 8.76 - 10.72 = -1.96 y 1. Defino los contrastes L1 = m 1 - m 2 que toma el valor L 1 L2 = 3m 1 - m 2 - m 3 - m 4 que toma el valor = 3(8.76) - 10.72 - 9.67 - 9.26 = -3.37 L
2

2. a = 0.05 k -1 = 3
N - k = 12

F3,12;0.05 = 3.49

3. A = 3(3.49)

Tema 2

8 de 13

Diseo de Experimentos

4. S L1 = 0.0203 4(1) + 4(- 1) = 0.4029 A S L1 = 1.30


2 2

S L2 = 5.

[ 0.0203[4(3)

+ 4(- 1) + 4(- 1) + 4(- 1) = 0.99 A S L2 = 3.21


2 2 2

= 1.96 > 1.30 este contraste es significativo L 1 = 3.37 > 3.21 este contraste es significativo L 2 Por lo tanto, la media de A es significativamente distinta de la de B. Adems, la de A es distinta a las de B, C y D.

Lmites de confianza para las medias


Despus del ANOVA a menudo se desea establecer los lmites de confianza para la media CMUPCCMT donde el Cuadrado de un tratamiento. Para m j vienen dados por y j m t1-a 2 nj Medio Usado Para Contrastrar el Cuadrado Medio del Tratamiento (mean square used to test treatment mean square) es el CME en el ANOVA unifactorial, pero ser diferente en anlisis ms complejos. Los grados de libertad para la t de Student sern los del correspondiente CMUPCCMT. Ejemplo 1 (cont.): Para la fbrica B, es decir, para m 2 , con un nivel de confianza 1 - a = 0.95 y con N - k = 12 tenemos
y 2 m t12;0.975 t12;0.975 0.0203 0.0203 2.68 m 0.16 (2.52,2.84) 4 2.68 m 2.18 4 = 2.18

Componentes de la varianza
En el ejemplo de las cuatro fbricas los niveles del factor se consideraron fijos, ya que las nicas fbricas disponibles eran las cuatro estudiadas y slo se quera comprobar el efecto del desgaste por el uso en ellas cuatro. Sin embargo, si consideramos aleatorios los niveles del factor (por ejemplo, los operarios, los das, o cualquier muestra donde los niveles del experimento pueden escogerse al azar entre una gran cantidad de niveles posibles), el modelo se llama modelo aleatorio (random model) y las inferencias pueden extenderse a todos los niveles de la poblacin (de las que los cuatro niveles son muestras aleatorias). En un modelo aleatorio, el experimentador no suele estar interesado en contrastar hiptesis, establecer lmites de confianza o realizar contrastes sobre las medias, sino en estimar las componentes de la varianza. Es decir, qu parte de la varianza del experimento puede considerarse como debida a verdaderas diferencias en las medias de los tratamientos y cunta se debe al error aleatorio entre esas medias. Ejemplo 2: Una compaa suministra a un cliente varios cientos de lotes de un material no elaborado cada ao. El cliente est interesado en una productividad alta del material en trminos de porcentaje utilizado qumicamente. Habitualmente toma tres observaciones muestrales del rendimiento (o productividad) por lote para controlar la calidad del material entrante. Supone la existencia de, y obtiene, algunas diferencias en las productividades dentro de un lote dado, pero sospecha que tambin puede haber variaciones significativas de lote a lote.

Tema 2

9 de 13

Diseo de Experimentos

Para comprobarlo, selecciona cinco lotes al azar de los muchos disponibles y realiza tres observaciones por lote. Sus 15 observaciones del rendimiento son completamente aleatorias y el modelo es yij = m + t j + eij pero en este experimento los k niveles del tratamiento (lotes) se escogen al azar. Los datos obtenidos son Lotes 1 2 3 4 5 74 68 75 72 79 76 71 77 74 81 75 72 77 73 79 225 211 229 219 239 y ij 16877 14849 17483 15989 19043 Realizado el ANOVA obtenemos Fuentes de variacin g.d.l. 4 Entre lotes ( t j )

y
i

2 ij

Dentro lotes ( eij )

10

Total 14 36.94 Como F = = 20.5 altamente significativo 1 .8 Como estos lotes son una muestra aleatoria de los tratamientos, estamos interesados en cunta de la varianza del experimento puede deberse, o atribuirse, a diferencias entre los lotes y cuanto al error aleatorio. Para ello se aadi la columna del cuadrado medio esperado: ECM (expected mean square: SME). Esta columna se obtiene calculando el valor esperado de los cuadrados medios dados por: k k y2 2 SC trat y2 j SC trat = n j y j - y = con - CM trat = k -1 N j =1 j =1 n j

SC ) 147.73 18 ) 165.73

CM ) 36.93 1.8

ECM s e2 + ns t2
s e2

CM error

SC error = N -k

con

SC error = y ij - y j
j =1 i =1

nj

) = y - n
2
k

nj

2 ij

y2j
j

j =1 i =1

j =1

2 SC total y 2 SC total = y ij - y = y ij con N -1 N j =1 i =1 j =1 i =1 Por consiguiente, podemos interpretar de la tabla ANOVA anterior, que la mejor estimacin de s e2 es 1.8, es decir, su correspondiente cuadrado medio. Por otro lado, el cuadrado medio 36.94

CM total =

nj

nj

es un estimador de s e2 + ns t2 , por lo que (sustituyendo por sus valores numricos)


S e2 = 1.80 36.94 - 1.8 2 = 11.71 St = 2 2 3 S e + 3St = 36.94 y la varianza total se estima como 2 S total = St2 + S e2 = 11.71 + 1.80 = 13.51 11.71 de donde = 0.867 86.7% de varianza total atribuible a diferencias de lotes y 13.51 1 .8 = 0.133 13.3% de varianza total atribuible al error aleatorio (dentro lotes) 13.51
Tema 2

10 de 13

Diseo de Experimentos

IDONEIDAD DEL MODELO


Las suposiciones que fundamentan el anlisis de varianza son que los datos estn descritos de manera adecuada por el modelo yij = m + t j + eij j = 1, K, k i = 1, K, n y que los errores sean independientes y estn normalmente distribuidos con media cero y varianza constante s e2 . En el modelo de efectos aleatorios se hace la suposicin adicional de que las t i son independientes y estn distribuidas N (0, s t2 ) y adems t j y eij son independientes. Las herramientas principales para el diagnstico de la idoneidad del modelo estn basadas en los residuos que se determinan restando el promedio del tratamiento a cada observacin dentro ij = y ij - y j del tratamiento: eij = y ij - y

Suposicin de normalidad.
Una forma de comprobar la suposicin de normalidad consiste en hacer un histograma de los residuos. Si la suposicin de que los errores son NID(0, s e2 ) se satisface, esta grfica debe ser semejante a la de una muestra extrada de una distribucin normal centrada en cero. A menudo ocurren fluctuaciones considerables cuando las muestras son pequeas, por lo que una desviacin moderada aparente de la normalidad no necesariamente significa una violacin seria de la suposicin. Otro procedimiento til consiste en construir una grfica de probabilidad normal de los residuos. Es la representacin de la distribucin acumulada de los residuos sobre papel normalizado, cuya escala de ordenadas es tal que la distribucin acumulada normal sea una recta. Se disponen los residuos en orden ascendente y se grafica contra su punto de probabilidad acumulada k - 1 / N . Si es normal, la grfica ser una recta. Al visualizarla hay que poner ms 2 nfasis en los valores centrales de la grfica que en los extremos. En general, desviaciones moderadas de la normalidad no tienen mucha importancia en el anlisis de la varianza de efectos fijos. Una distribucin de errores cuyos extremos son considerablemente ms anchos o angostos que en la distribucin normal es ms grave que una distribucin sesgada.

Determinacin del tamao de muestra


Sea un diseo unifactorial con k tratamientos y n unidades experimentales por tratamiento. Sea el modelo yij = m + t j + eij j = 1, K, k i = 1, K, n . Entonces:
E[CMTr ] = E[CME ] n t2 j k -1 j

s e2 +

2 e

= 1+

l k -1

con l =

n t 2 parmetro de localizacin. 2 j se j Bajo la hiptesis H 0 : t 1 = K = t k = 0 , entonces l =0 y el cociente del ANOVA sigue una F central con k - 1 , k (n - 1) grados de libertad. Si no, es no central.

Tema 2

11 de 13

Diseo de Experimentos

Queremos, dado el nivel de error tipo I a , minimizar el error tipo II b (o maximizar la potencia 1- b ). Si representamos grficamente el error b frente a f =

curvas caractersticas de operacin que nos permiten, para

t
j

2 j

, s e2

l , obtenemos las k y k dados, obtener el

tamao de muestra n apropiado para la potencia 1- b deseada. Ejemplo 3: Un ingeniero de desarrollo de productos est interesado en maximizar la resistencia a la tensin de una nueva fibra sinttica que se emplear en la manufactura de tela para camisas de hombres. Sabe, por experiencia, que el porcentaje de algodn presente en la fibra influye. Adems, sospecha que, al menos inicialmente, incrementar la resistencia elevando el porcentaje de algodn. Tambin sabe que el contenido de algodn debe variar aproximadamente entre el 10% y el 40% para que la tela resultante tenga otras caractersticas de calidad (como capacidad de recibir un tratamiento de planchado permanente). Desea probar muestras a cinco niveles de porcentaje de algodn: 15, 20, 25, 30 y 35%. Decide ensayar 5 muestras a cada nivel de contenido de algodn. Se selecciona aleatoriamente el orden de prueba de manera que: Orden de prueba 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Es decir,
Tema 2

Porcentaje de algodn 20 30 20 35 30 15 25 20 25 30 20 15 25 20 15 35 35 25 15 25 35 30 35 30 15

Resistencia 12 22 18 11 25 9 19 12 19 23 18 11 18 17 7 15 7 14 7 18 10 19 11 19 15

12 de 13

Diseo de Experimentos

Porcentaje 15 20 25 30 35

Resistencia ( yij ) 7 12 14 19 7 7 17 18 25 10 15 12 18 22 11 11 18 19 19 15 9 18 19 23 11

y. j

y. j
9.8 15.4 17.6 21.6 10.8 15.04
5

49 77 88 108 54 376

Si el experimentador est interesado en rechazar la hiptesis nula con una probabilidad 1- b mnima de 0.90, entonces si m1 =11, m 2 =12, m 3 =15, m 4 =18, m 5 =19 (y m =15 pues
t 1 = m 1 - m = -4 t 2 = m 2 - m = -3 5 2 t 3 = m 3 - m = 0 t j = 50 j =1 t 4 = m4 - m = 3 t 5 = m5 - m = 4

m
i =1

=75),

entonces

Supngase tambin que el experimentador cree que la desviacin estndar de la resistencia a la tensin en cualquier nivel de porcentaje de algodn no excede a s =3. Luego: n t 2 j n50 j 2 f = = = 1.11n 2 ks 5(3) 2 De la curva caracterstica para k -1=4, N - k = k (n - 1) grados de libertad del error y a =0.01, obtendremos n

n 4 5 6

f2 4.44 5.55 6.66

f 2.11 2.36 2.58

k (n - 1) 15 20 25

b 0.30 0.15 0.04

Potencia: 1- b 0.70 0.85 0.96

Luego se necesitan al menos 6 repeticiones para obtener la potencia deseada. El problema de este enfoque es que generalmente es difcil seleccionar el conjunto de medias de los tratamientos. Una alternativa es seleccionar n de manera que la hiptesis nula se rechace si la diferencia entre cualquier par de medias de tratamiento excede un valor especfico (llammoslo D ). Entonces, el nD 2 . Con esto, la curva caracterstica nos dar un valor valor mnimo de f 2 es f 2 = 2ks 2 conservador (nos da una potencia igual al menos a la especificada). n(10) 2 2 =1.11 n , y se necesitan n =6 para obtener el nivel de Si D =10 con s =3, f = 2(5)(3) 2 sensibilidad a =0.01. En efectos aleatorios l = 1 +
ns t2 y las curvas caractersticas de operacin son distintas s2 (Winer, pg. 223 y tablas en 886-887).

Tema 2

13 de 13