Anova

Diseo de experimentos: ANOVA
Elisa M Molanes Lpez
Un ejemplo introductorio
Un ingeniero de desarrollo de productos desea maximizar la resistencia a la tensin de una nueva fibra sinttica que se utilizar para fabricar camisas. Por experiencia, parece que la resistencia (o fortaleza) se ve influida por el % de algodn presente en la fibra. Tambin se sospecha que valores elevados de % de algodn repercuten negativamente en otras cualidades de calidad que se desean (por ej. que la fibra pueda recibir un tratamiento de planchado permanente). Ante esta situacin, el ingeniero decide tomar cinco muestras para diferentes niveles de % de algodn y medir la fortaleza de las fibras as producidas.
Estos datos suman 49 y su media es 9.8
Lo que obtiene se puede resumir en la siguiente tabla:
Observaciones (fortaleza de las 25 fibras fabricadas) % de algodn 15% 20% 25% 30% 35% 7 12 14 19 7 7 17 18 25 10 15 12 18 22 11 11 18 19 19 15 9 18 19 23 11
Media global de las 25 observaciones
Total 49 77 88 108 54 376
Promedio 9.8 15.4 17.6 21.6 10.8 15.04
Suma total de los 25 valores de fortaleza obtenidos
A la hora de fabricar las 25 fibras anteriores se debe seguir una secuencia aleatorizada. Esta aleatorizacin en la secuencia de fabricacin es necesaria para evitar que los datos observados (la fortaleza de los tejidos), sean contaminados por el efecto de otras variables que no conocemos y por tanto no podemos controlar. Supongamos que se fabrican las 25 fibras sin un mecanismo aleatorizado, es decir, siguiento el orden original (primero se fabrican las 5 fibras con un 15 % de algodn, luego las 5 fibras con un 20% de algodn, y as sucesivamente). En esta situacin, si la mquina que mide la fortaleza de la fibra presentase un efecto de calentamiento de modo que a mayor tiempo de funcionamiento diese menores lecturas de resistencia, entonces los datos se contaminaran. Por ese efecto de calentamiento, la fortaleza de las fibras fabricadas con un 35% de algodn resultaran negativamente muy contaminadas. No pasara lo mismo con las fabricadas con un 15% de algodn.
Si aleatorizamos la fabricacin de las 25 fibras, se espera que este efecto est presente por igual en todos los % de algodn, de modo que las comparaciones entre los distintos niveles siguen siendo vlidos.
El anlisis de la varianza nos ayudar a responder las siguientes cuestiones: Influye el % de algodn en la fortaleza de la fibra fabricada? Si es as, qu niveles de % de algodn son similares y cules no?
Analysis Of Variance (ANOVA)

En general, tendremos:
Observaciones (variable dependiente de inters, y) Factor Nivel o grupo 1 Nivel 2 y11 y21 y12 y22 y1n1 y2n2 Total Promedio
y1
y 1
y 2
y2
Nivel Isimo
yI1
yI2
yInI
yI y
y I y
Notacin
yij se refiere a la observacin j-sima de la variable y (fortaleza) en el grupo i-simo del factor (% de algodn).
yi = y i =
Pni
y i ni
j =1 yij
El punto significa que sumamos sobre el ndice que sustituye. Es la suma de las ni observaciones del grupo i
Es la media de la ni observaciones del grupo i
y = y =
n1 + n2 + . . . + nI = n
PI
i=1
y n1 +n2 +...+nI
Pni
j =1
yij
El modelo terico
Las observaciones se describen segn el siguiente modelo lineal:
yij = + i + uij
Es la media global de y Es el error aleatorio. Lo que se desva la observacin yij de su media de grupo. Es la pertubacin debida al error experimental
Lo que se desva la media de y en el grupo i-simo con respecto a la media global de y
i = + i Media de y en el grupo i-simo
Hiptesis del modelo

Los errores del modelo son variables aleatorias con distribucin normal, de media cero y varianza 2 Esta varianza se supone constante para todos los niveles (o grupos) del factor Es importante comprobar que estas hiptesis se verifican para poder sacar conclusiones fiables a partir de un anlisis de la varianza.
Ms adelante veremos con un ejemplo, cmo comprobar que los datos cumplen las hiptesis del modelo.
Estimacin del modelo

En el modelo terico existen ciertos parmetros desconocidos que
estimaremos utilizando los datos observados. Existen I+1 parmetros desconocidos, las I medias de grupo y la varianza del error experimental. Para estimar estos parmetros utilizaremos el mtodo de mxima verosimilitud. Para ello, primero necesitamos definir la funcin de verosimilitud L y maximizarla. Maximizar L ser equivalente a maximizar el logaritmo neperiano de L, ln(L). Para maximizar ln(L), derivamos con respecto a los I+1 parmetros desconocidos, igualamos a cero las I+1 derivadas que obtenemos y resolvemos el sistema de I+1 ecuaciones que resulta (en este sistema las incgnitas son los parmetros desconocidos del modelo).
10
Estimacin por mxima verosimilitud

En base a las hiptesis del modelo se verifica que:
yij = + i + uij
uij N (0, 2 ) yij N (i , 2 )
2
Estos parmetros del modelo se suponen fijos, y por tanto, no aleatorios
La funcin de verosimilitud es: L(1 , . . . , I , ) =
QI
i=1
Qni
j =1
f (yij )
donde:
f (yij ) =
1 2 2
exp
(yij i )2 2 2
11
es la funcin de densidad de una normal con media i y varianza 2
Estimacin por mxima verosimilitud

Derivamos el logaritmo de L con respecto a los parmetros desconocidos e igualamos a cero dichas derivadas.
ln(L(1 , . . . , I , )) =
ln(L(1 ,...,I , 2 )) i
n 2
=0
i = y i
ln(L( 1 ,..., I , 2 )) 2
Cada media de grupo se estima mediante la media muestral de las observaciones y obtenidas en ese grupo
2 ln(2 ) i=1 j =1 (yij i ) Pni ni 1 ( y ) = yi i ) = 0 2 ij i j =1 2 (
1 2 2
PI
Pni
=0
i=1
n 2 2
+
2
1 2(2 )2
12
n +
1 2
PI
Pni
j =1 (yij
i ) = 0
PI
i=1
Pni
2
j =1 (yij PI
i=1
i ) = 0
Pni i )2 j =1 (yij n
Estimacin de la varianza
=
2 PI
i=1
Pni
i )2 j =1 (yij n
Este estimador de la varianza presenta un problema. Se trata de un estimador sesgado.
Un buen estimador de la varianza debera ser insesgado, i.e. debera verificar que su media fuese igual a la varianza (el parmetro que estima). Sin embargo sucede que:
E ( 2 ) = 2
Buscaremos otro estimador de la varianza que sea insesgado. Pero antes de ello, definiremos los residuos y veremos cmo expresar 2 en funcin de los residuos.
13
De acuerdo con el modelo: uij = yij i
(Se sustituye por su estimacin)
ij = yij i As que podemos estimar los errores mediante: u

A estas estimaciones de los errores o perturbaciones del modelo, se les llama residuos y los denotaremos por eij Estos residuos miden la variabilidad de y no explicada por el modelo. Adems, sucede que:
i eij = u ij = yij y
=
2 1 n
e = =
1 n
14
i=1 1 PI i=1 n
PI
Pni
j =1 ei
1 n
(yi ni y i ) =
PI
i=1 1 n
PI
Pni
j =1 (yij
PI
i=1
Pni
2 j =1 eij
1 n
y i )
PI
i=1
P ni
j =1 (eij
e )2
i=1
(yi yi ) = 0
2 es la varianza de los residuos
Los residuos no son todos independientes entre s. Ntese que los residuos satisfacen las I ecuaciones (vase pg. 12) que nos permitieron obtener estimadores para la media de cada grupo, i.e: Para cada i=1,,I, se verifica que:
Esto implica que si conocemos el valor de n-I residuos, podemos encontrar los restantes I residuos resolviendo las I ecuaciones anteriores. As que, slo n-I residuos son independientes entre s. Para estimar la varianza del error, consideraremos una modificacin de 2 por grados de libertad, es decir, dividiremos entre el nmero de residuos independientes en lugar de entre el total de residuos.
Pni
j =1 (yij
i ) = 0
Son los residuos
15
Esto dar lugar a la varianza residual:
s 2 R
1 n I
PI
i=1
Pni
2 j =1 eij
Como ya sucedi en otras ocasiones, utilizaremos entonces la varianza residual para estimar la varianza del error, que es una correccin de 2 por grados de libertad.
s 2 R
Dividimos entre (n-I) en lugar de n
= =
1 n I 1 nI
PI
PI
i=1
i=1 (ni
Pni
2 j =1 eij
2 1)S i
Se trata de una media ponderada de las cuasivarianzas de cada grupo
16
2 = S i
1 ni 1
Pni
2 ( y ) y ij i j =1
Cuasivarianza de y en el grupo i-simo
2 Se puede comprobar que s R = 2 insesgado para
1 n I
PI
i=1
Pni
2 e j =1 ij s es un estimador
17
Propiedades de los estimadores

i N (i , 2 /ni )
Si conocisemos sigma, un Intervalo de Confianza con nivel de confianza 1-alpha, para la media del grupo i, vendra dado por:
Es el valor de una normal estndar que deja a su derecha una probabilidad de magnitud: /2
i z/2 ni
Pero es desconocido, as que se sustituye por la raz cuadrada de la cuasivarianza de y en el grupo i y lo que se obtiene es el siguiente Intervalo de Confianza:
Si i t/2,ni 1 ni
18
Es el valor de una t de Student con ni-1 g.l. que deja a su derecha una probabilidad de magnitud: /2
Propiedades de los estimadores

s 2 R =
Se verifica que:
2 (ni 1)S i 2 1 nI
PI
i=1 (ni
2 1)S i 2 ni 1
Pni
i )2 j =1 (yij y 2
La suma de variables aleatorias chi cuadrado sigue una distribucin chi cuadrado con g.l igual a la suma de los g.l de cada componente en la suma
(nI ) s2 R 2
PI
2 i=1 (ni 1)Si 2
19
(nI ) s2 R 2
PI
2 i=1 (ni 1)Si 2
PI 2
i=1 (ni 1)
2 nI
PI
Son los grados de libertad (g.l.)
i=1 (ni
1) = n I
Objetivo: Comparar los grupos

Una vez estimadas las medias de grupo y la varianza del error, a partir de los datos, podremos realizar comparaciones entre grupos. Los grupos se compararn a travs de sus medias de grupo, pero tambin teniendo en cuenta su variabilidad. ANOVA
Mtodo de Fischer
Nos interesar, contrastar en primer lugar si existen diferencias estadsticamente significativas entre las medias de grupo.
Si este contraste nos indica que s existen diferencias, entonces en segundo lugar nos interesar saber qu par de medias (es decir, qu par de grupos) se diferencian entre s
20
Comparacin de medias cuando hay dos niveles

Si slo hay dos grupos podemos utilizar los intervalos de confianza y contrastes de hiptesis para comparar las medias de dos poblaciones normales.
1 y 2 Un estimador puntual de 1 2 y
Consideremos la hiptesis nula de igualdad de medias: H0 Interesa contrastar la hiptesis nula H0 : 1 = 2 frente a la hiptesis alternativa H1 : 1 = 2
2 N 1 2 , n1 +
2 n2
Estandarizando y bajo H0
d=
21
y 1 y 2 q 1 1 n +n
1
N (0, 1)
Comparacin de medias cuando hay dos niveles (contraste de hiptesis)

d=
y 1 y 2 q 1 1 n +n
1
N (0, 1) bajo H0 2 = S T
2 +(n2 1)S 2 (n1 1)S 1 2 n1 +n2 2
2 es
desconocida
(Se estima utilizando una media ponderada de las cuasivarianzas de y en el grupo 1 y 2)
Se verifica que:
2 (n1 +n2 2)S T 2
2 n1 +n2 2 y 2 1 y Si q > t/2,n1 +n2 2 ST n11 + n12

se rechaza la hiptesis nula H0
t=
22
y 2 1 y q 1 1 T S n +n
1
tn1 +n2 2
Comparacin de medias cuando hay dos niveles (IC para la diferencia de medias)
y 1 y 2 2 N 1 2 , n1 +
2 n2
Adems,
2 (n1 +n2 2)S T 2
d=
2 )(1 2 ) ( y1 y q 1 1 n +n
1 2
N (0, 1)
2 n1 +n2 2
t=
2 )(1 2 ) ( y1 y q 1 T S + 1
n1 n2
tn1 +n2 2
23
Intervalo de confianza para 1 2 con nivel de confianza 1
T ( y1 y 1 ) t/2,n1 +n2 2 S
1 n1
1 n2
Comparacin de medias cuando hay ms de dos niveles

Cuando existen ms de dos grupos, la comparacin de medias se har a travs del anlisis de la varianza Primero contrastaremos la hiptesis nula de igualdad de las I medias frente a la alternativa de que al menos una de las medias difiere de las dems. Esto lo haremos a travs de la tabla ANOVA (en la que veremos cmo se descompone la variabilidad total de los datos y). Si este contraste nos indica que debemos rechazar la hiptesis nula, entonces trataremos de ver qu par de medias difieren entre s, a travs de un contraste conjunto en el que simultneamente se contrastar la igualdad de todos los pares posibles de medias. Existen varios mtodos para llevar a cabo este contraste simultneo. Aqu veremos el mtodo de Fischer o LSD (least square deviation). ANOVA
24
Mtodo de Fischer
Descomposicin de la variabilidad de la variable dependiente y

VT = PI
i=1
) = (yij y i ) + ( yi y ) (yij y
(elevamos al cuadrado)
Pni
2 ( y y ) ij j =1
(La distancia entre la observacin yij de la media global se descompone en la suma de lo que la observacin yij dista de su media de grupo i + lo que dista la media de grupo i de la media global.)
(yij y )2 = (yij y i )2 + ( yi y )2 + 2(yij y i )( yi y ) PI 2

i=1
Pni
(sumamos en i y en j)
j =1 (yij
y ) =
(el trmino cruzado se anula)
PI
i=1
Pni
j =1 (yij
y i ) +
PI
i=1
Pni
yi j =1 (
y )2
25
PI
i=1
Pni
j =1 (yij
y i )( yi y ) = 2
yi ni y i = yi yi = 0
PI
Pni yi y ) j =1 (yij y i ) i=1 (
Descomposicin de la variabilidad de la variable dependiente y

PI Pni
j =1 (yij
i=1
y ) =
PI
i=1
Pni
j =1 (yij
y i ) +
PI
i=1
Pni
yi j =1 (
y )2
VT = variabilidad total
VNE= variabilidad no explicada o residual, tambin conocida como variabilidad intra grupos
V NE n I
VE = variabilidad explicada por el modelo, tambin conocida como variabilidad entre grupos
Ntese que:
s 2 R
1 n I
2 Anteriormente vimos que: E ( s2 R) =
PI
i=1
Pni
2 e j =1 ij =
NE 2 E( V n I ) =
26
Tambin se puede demostrar que:
VE E( I 1 )
= +
PI
i=1
2 ni i I 1
ANOVA. Contraste de hiptesis

Estamos interesados en contrastar la hiptesis nula de igualdad de medias: H0 : 1 = . . . = I = frente a la alternativa: H1 : j = k , para algn j, k {1, . . . , I }
i = + i
Esto es equivalente a contrastar: H0 : 1 = . . . = I = 0 frente a la alternativa: H1 : j = 0, para algn j {1, . . . , I }

Sabemos que:
NE 2 E( V ) = n I VE E( I 1 )
Bajo H0 tenemos dos estimadores insesgados de la varianza. Si H0 es falsa, se espera que

PI
2 i=1 ni i
= +
I 1
27
Es un trmino >=0
Adems, cuanto ms grande sea este cociente, ms evidencia habr de que H1 es cierta y no H0.
V E/(I 1) V N E/(nI )
>1

V E/(I 1) V N E/(nI )
>1
Cunto de grande debe ser este cociente para rechazar H0? Si es ligeramente mayor que 1, no rechazaremos H0.
Para responder a esta pregunta necesitamos conocer la distribucin de este cociente bajo H0. Ya que valores grandes nos dan evidencia de que H0 es falsa, la regin de rechazo habr que buscarla en la cola derecha de la distribucin de ese cociente (que es la cola de la distribucin correspondiente a valores ms grandes).
2 Ya vimos que: s R =
1 nI
28
(nI ) s2 R 2
PI
2 i=1 (ni 1)Si 2
2 nI
PI
i=1
Pni
2 e j =1 ij =
V NE n I V NE 2
2 n I

Bajo H0 se verifica que:
VE 2
2 I 1
Una distribucin F de Snedecor sabemos que se obtiene a partir de distribuciones chi cuadrado del siguiente modo: 2 /n Fn,m = 2n /m
m
s 2 e
VE 2 (I 1) V NE 2 (nI )
V E/(I 1) V N E/(nI )
FI 1,nI
s 2 R
Hay que ver dnde cae este valor
29
FI 1,nI
s 2 e = 2 s R
si en la regin de rechazo o en la de aceptacin.
Regin de aceptacin Regin de rechazo

s 2 e s 2 R
En base a este valor y su p-valor asociado, podremos rechazar o no, la hiptesis nula de igualdad de medias.
El p-valor asociado al test F s 2 e test F = 2 s R es la probabilidad que queda a la derecha de ese valor. Si es menor que alpha, el test F cae en la regin de rechazo, as que rechazamos H0. En caso contrario, aceptamos H0. No hay evidencia suficiente para recharzarla.
La regin de rechazo tiene probabilidad alpha
30
Regin de aceptacin
Regin de rechazo
Tabla ANOVA: descomposicin de la variabilidad

Varianza (cuadrado medio)
Fuentes de variacin
Suma de Cuadrados
Grados de Libertad
Test F
(SC)
(g.l.)
(SC/g.l.)
FI 1,nI
Variabilidad explicada PI Pni )2 ( yi y j =1 i =1 = variabilidad entre P grupos = I yi y )2 i=1 ni ( Variabilidad no explicada = Variabilidad intra grupos
I-1
s 2 e
s 2 R
2 y S
s 2 e s 2 R
Si el p-valor asociado al test F es pequeo, se rechaza H0. Un p-valor pequeo significa que el test F ha cado muy a la derecha, en la cola derecha de la distribucin, y por tanto el F test ha salido muy grande.
PI
PI
i=1
Pni
Pni
i )2 j =1 (yij y
n-I
Variabilidad total
31
i=1
j =1 (yij
y )2
n-1
Mtodo de Fischer o LSD (Least significative distance)

Hemos visto anteriormente, que para hacer un contraste de la igualdad de dos medias, podamos utilizar:
t=
( y1 y 2 )(1 2 ) q 1 T S + 1
n1 n2
tn1 +n2 2
2 = S T
2 +(n2 1)S 2 (n1 1)S 1 2 n1 +n2 2
En el caso de que existan ms de dos grupos, como estamos trabajando bajo la hiptesis de que en todos los grupos la variabilidad es la misma, es decir estamos suponiendo que tienen la misma varianza 2, podremos entonces, utilizar la informacin contenida en los datos de todos los grupos para estimar esa varianza, en vez de usar simplemente los datos de los dos grupos, cuyas medias queremos comparar.
2 , utilizaremos la varianza residual s 2 As que, en vez de utilizar S R , en la t de Student T (con n1+n2-2 g.l.) que nos permite realizar el contraste.
32
En esto consiste el mtodo de Fischer o LSD. La ventaja es que se realizan las comparaciones dos a dos de modo simultneo y se consiguen detectar diferencias ms pequeas.
Volviendo al ejemplo introductorio

Observaciones (fortaleza de las 25 fibras fabricadas) % de algodn 15% 20% 25% 30% 35% 7 12 14 19 7 7 17 18 25 10 15 12 18 22 11 11 18 19 19 15 9 18 19 23 11 Total 49 77 88 108 54 376 Promedio 9.8 15.4 17.6 21.6 10.8 15.04
33
Analicmoslo con el Statgraphics
Introduccin de datos
34
Medias por cada grupo

Son todas las medias iguales?
25 22
fortaleza
19 16 13 10 7 15 20 25 30 35
A la vista de este grfico de medias, se ve que las medias difieren unas de otras. Usando un 30% de algodn parece que se fabrican las mejores fibras, es decir, las de mayor fortaleza
35
% de algodn
Tabla ANOVA
s 2 R
Variabilidad explicada por el modelo, tambin conocida como variabilidad entre grupos. Variabilidad no explicada por el modelo, tambin conocida como variabilidad intra grupos Estadstico o test F
36
Se detectan diferencias significativas entre las medias.
Comparacin simultnea de cada par de medias (mtodo de Fischer o LSD)
Los niveles de 15% y 35% de algodn no son significativamente distintos.
En cambio, s se han detectado diferencias entre los niveles de 15% y 35% de algodn
37
Diagnosis: Normalidad
Para comprobar la suposicin de normalidad podemos utilizar la grfica de probabilidad normal de los residuos. Si la distribucin de los errores es normal, esta grfica parecer una lnea recta. Pasos a seguir
Grfico de Probabilidad Normal

99,9 99 95 80 50 20 5 1 0,1 -3,8 -1,8 0,2
1.
porcentaje
Despus de haber realizado el anlisis ANOVA de un factor, en el botn de guardar resultados, le pediremos que nos guarde los residuos (RESIDUALS). Aparecer en la hoja de datos una nueva columna con los residuos. Vamos a hacer un anlisis unidimensional de los residuos: Men Descripcin>Datos Numricos>Anlisis unidimensional y metemos los residuos (RESIDUALS) en Datos. En las opciones grficas del anlisis unidimensional pedimos que nos represente el grfico de probabilidad normal.
2. Los residuos se ajustan bastante bien a una recta, as que se puede considerar que la hiptesis de normalidad no se viola
3.
38
2,2
4,2
6,2
RESIDUALS
Diagnosis: Normalidad
La grfica de probabilidad normal es una representacin grfica de la distribucin acumulada de los residuos sobre papel de probabilidad normal.
Cuando hablamos de papel de probabilidad normal nos referimos a aquel en el que la escala de ordenadas (el eje Y) es tal que si representamos la distribucin acumulada de una normal lo que obtenemos es una recta.
Para obtener la grfica de probabilidad normal, se ordenan los n residuos de menor a mayor y se representa el k-simo residuo ordenado contra su punto de probabilidad acumulada: (k-0.5)/n, en papel de probabilidad normal.
39
Este proceso lo hace directamente el Statgraphics siguiente los pasos descritos en la pgina anterior.
Diagnosis: linealidad y homocedasticidad

El grfico de residuos versus predichos puede ayudarnos a detectar desviaciones de las hiptesis de linealidad y homocedasticidad.
Grfico de Residuos para fortaleza

6 4
2 0 -2 -4 -6 9 12 15 18 21 24
Despus de haber realizado el anlisis ANOVA de un factor, en el botn de opciones grficas, seleccionaremos la opcin Residuo frente a predicho para que nos represente dicho grfico.
En este grfico no se observa ningn patrn ni forma de embudo, por lo que se puede considerar que los datos satisfacen las hiptesis de linealidad y homocedasticidad.
residuo
40
fortaleza predicho
Diagnosis: linealidad y homocedasticidad

Es tambin interesante graficar los residuos frente a los valores ajustados (o predicciones). En esta grfica no se deben revelar patrones obvios que, en el caso de aparecer, indicaran que la suposicin de linealidad no se satisface. Esta grfica tambin sirve para detectar una violacin de la hiptesis de homocedasticidad (o igualdad de varianzas). En ciertas ocasiones ocurre que la variabilidad de los datos aumenta a medida que aumenta la magnitud del dato. Esto suele suceder en instrumentos de medicin, el error del instrumento de medicin es proporcional a la escala de lectura. En situaciones como esta, la grfica de residuos frente a predichos se ensanchar como un embudo hacia la derecha. Cuando se viola la hiptesis de homogeneidad, el test F se ve slo ligeramente afectado cuando se han tomado el mismo nmero de observaciones por grupo (es decir cuando estamos ante un diseo balanceado: n1 = n2 = = nI). Sin embargo, en diseos no balanceados, el problema es ms importante, y especialmente si una de las varianzas es mucho mayor que el resto. El problema de heterocedasticidad (distintas varianzas) se puede corregir transformando adecuadamente los datos mediante un logaritmo o una potencia. La transformacin adecuada depender de cada conjunto de datos particular.
41
Diagnosis: Independencia
Para comprobar la suposicin de independencia de los datos, es interesante graficar los residuos frente al orden temporal en el que stos han sido recopilados. Si en este grfico se detecta una tendencia a tener rachas con residuos positivos y negativos, esto nos indicar que los datos no son independientes. Si se han tomados los datos mediante un procedimiento de aleatorizacin (como ya se coment al comienzo de esta presentacin, vase pg. 4), entonces es de esperar que hayamos asegurado la independencia de las observaciones y que no se observen esas rachas. Supongamos que a medida que avanza el proceso la habilidad del experimentador o experimentadores cambia a medida que el experimento se desarrolla (se hace ms errtico, debido al cansancio, o por el contrario, se hace ms experto,por la experiencia adquirida). En situaciones como esta puede suceder que la varianza de los datos cambie con el tiempo. Este tipo de problema se puede detectar en el grfico de residuos frente al tiempo, porque se ver cmo la dispersin de los residuos se hace mayor o menor a medida que el tiempo transcurre. Es muy importante evitar este tipo de problemsa en el momento de la recogida de datos (en el momento de la experimentacin). El anlisis de la varianza es vlido si, entre otros supuestos, se cumple el de varianza constante e independencia.
42

Anova

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Anova

Cargado por

Copyright:

Formatos disponibles

Diseo de experimentos: ANOVA

Elisa M Molanes Lpez

Estos datos suman 49 y su media es 9.8

Media global de las 25 observaciones

Total 49 77 88 108 54 376

Promedio 9.8 15.4 17.6 21.6 10.8 15.04

Suma total de los 25 valores de fortaleza obtenidos

Analysis Of Variance (ANOVA)

Es la media de la ni observaciones del grupo i

Lo que se desva la media de y en el grupo i-simo con respecto a la media global de y

i = + i Media de y en el grupo i-simo

Hiptesis del modelo

Estimacin del modelo

Estimacin por mxima verosimilitud

Estos parmetros del modelo se suponen fijos, y por tanto, no aleatorios

La funcin de verosimilitud es: L(1 , . . . , I , ) =

es la funcin de densidad de una normal con media i y varianza 2

Estimacin por mxima verosimilitud

2 ln(2 ) i=1 j =1 (yij i ) Pni ni 1 ( y ) = yi i ) = 0 2 ij i j =1 2 (

Este estimador de la varianza presenta un problema. Se trata de un estimador sesgado.

ij = yij i As que podemos estimar los errores mediante: u

2 es la varianza de los residuos

Son los residuos

Esto dar lugar a la varianza residual:

Se trata de una media ponderada de las cuasivarianzas de cada grupo

Cuasivarianza de y en el grupo i-simo

Propiedades de los estimadores

Propiedades de los estimadores

2 i=1 (ni 1)Si 2

2 i=1 (ni 1)Si 2

Son los grados de libertad (g.l.)

Objetivo: Comparar los grupos

Comparacin de medias cuando hay dos niveles

Comparacin de medias cuando hay dos niveles (contraste de hiptesis)

(Se estima utilizando una media ponderada de las cuasivarianzas de y en el grupo 1 y 2)

2 (n1 +n2 2)S T 2

2 n1 +n2 2 y 2 1 y Si q > t/2,n1 +n2 2 ST n11 + n12

Intervalo de confianza para 1 2 con nivel de confianza 1

Comparacin de medias cuando hay ms de dos niveles

Descomposicin de la variabilidad de la variable dependiente y

(yij y )2 = (yij y i )2 + ( yi y )2 + 2(yij y i )( yi y ) PI 2

(el trmino cruzado se anula)

Pni yi y ) j =1 (yij y i ) i=1 (

Descomposicin de la variabilidad de la variable dependiente y

2 Anteriormente vimos que: E ( s2 R) =

Tambin se puede demostrar que:

ANOVA. Contraste de hiptesis

Esto es equivalente a contrastar: H0 : 1 = . . . = I = 0 frente a la alternativa: H1 : j = 0, para algn j {1, . . . , I }

Bajo H0 tenemos dos estimadores insesgados de la varianza. Si H0 es falsa, se espera que

ANOVA. Contraste de hiptesis

2 i=1 (ni 1)Si 2

ANOVA. Contraste de hiptesis

si en la regin de rechazo o en la de aceptacin.

Regin de aceptacin Regin de rechazo

ANOVA. Contraste de hiptesis

La regin de rechazo tiene probabilidad alpha

Tabla ANOVA: descomposicin de la variabilidad

Mtodo de Fischer o LSD (Least significative distance)

2 +(n2 1)S 2 (n1 1)S 1 2 n1 +n2 2

Volviendo al ejemplo introductorio

Analicmoslo con el Statgraphics

Medias por cada grupo

Se detectan diferencias significativas entre las medias.

Comparacin simultnea de cada par de medias (mtodo de Fischer o LSD)