Documentos de Académico
Documentos de Profesional
Documentos de Cultura
7 Anova
7 Anova
T1 x11 ! x1n1
T2 x21 ! x2n2
-2-
ANALISIS DE LA VARIANZA
DISEO DE UNA VIA
Disponemos de r poblaciones, generalmente correspondientes a r tratamientos experimentales. Cada uno de los tratamientos Ti, (i=1, , r) se supone que tiene distribucin normal con media i y varianza 2, comn a todos ellos, es decir se trata de poblaciones normales y homoscedsticas. De cada una de las poblaciones (o tratamientos), tomamos una muestra de tamao ni. Las observaciones obtenidas se pueden recoger en una tabla de la forma
T1 x11 ! x1n1
T2 x21 ! x2n2
es decir xij es la observacin j del grupo experimental i. Llamaos x1,, xr a las medias muestrales de los grupos y media de todas las observaciones.
a la
Cuando se trata de un experimento diseado, es decir, cuando se trata de la aplicacin de r tratamientos a un conjunto de unidades experimentales, estas deben seleccionarse para que sean homogneas, de forma que no se introduzcan factores de variacin distintos del que se desea controlar. La asignacin de los tratamientos a cada una de las unidades debe hacerse al azar. Es lo que se conoce como diseo completamente al azar. El modelo matemtico subyacente a este tipo de diseo es
-3-
H0 : 1 = = r = Ha : !i, j / i " j
El anlisis de la varianza se basa en la descomposicin de la variabilidad total en dos partes, una parte debida a la variabilidad entre las distintas poblaciones o tratamientos (variabilidad entre grupos o variabilidad explicada por el diseo) y otra parte que puede considerarse como la variabilidad intrnseca de las observaciones (variabilidad dentro de los grupos o residual).
Q = QE + QR
La variabilidad entre grupos
QE = " ni ( xi ! x ) 2
i=1
mide la discrepancia entre los grupos y la media global, de forma que si no hay diferencias entre ellos (la hiptesis nula es cierta) obtendremos variabilidades pequeas. Si, por el contrario, la
-4-
hiptesis nula es falsa, cabe esperar que la variabilidad entre grupos sea grande. La variabilidad dentro de los grupos
ni
-5-
Fuente Entre
g.l. r-1
r !1
2 SE S2 R
Residua l Total
ni
n-r
2 SR =
QR n!r
n-1
El cociente entre la variabilidad entre y la variabilidad dentro, una vez que se han hecho comparables, sigue una distribucin F de Snedecor con r-1 y n-r grados de libertad. La distribucin nos sirve para buscar el valor a partir del cual el cociente es lo suficientemente grande como para declarar las diferencias entre grupos estadsticamente significativas. Los estimadores de los efectos de los tratamientos se estiman a partir de
! i = i " = xi " x
y la parte propia de cada observacin (o residual)
-6-
hacerse entonces de la misma manera que en un modelo re regresin, utilizando grficos de residuales.
H 0 : i = j H a : i ! j
i, j
= SR
xi ! x j 1 1 + ni n j
" t N !r
que sigue Una distribucin t de Student con N-r grados de libertad. La realizacin directa de cada contraste para un nivel de significacin incrementa la probabilidad de cometer un error de tipo I para el contraste global de igualdad de todas las medias por lo que, en general, el nivel de significacin de cada contraste particular tiene que ser corregido. Si no importa el incremento en el riesgo tipo I puede realizarse directamente el contraste t de Student, asumiendo que probablemente encontraremos ms diferencias de las que se encuentran realmente en los datos. Se rechaza la hiptesis nula si el estadstico de contraste supera el valor crtico de la distribucin t de Student al nivel .
i, j exp
= SR
xi ! x j 1 1 + ni n j
> t N !r,"
o lo que es lo mismo,
-7-
xi ! x j > t N !r," SR
1 1 + ni n j
mnima (lest significant difference). Por esta razn, a veces al test se le conoce como LSD. Si se est interesado en mantener el nivel de significacin global por debajo del nivel predeterminado, es necesario corregir el nivel que se utilizar en cada contraste individual de forma que al aumentar el riesgo, permanezca por debajo del fijado. La correccin consiste en utilizar para cada contraste un nivel , ms pequeo que y que resulta de dividir ste por una constante de penalizacin K.
!'=
! K
Dependiendo de los valores que tomemos para K obtendremos distintos procedimientos de contraste. TEST DE BONFERRONI K es el nmero de comparaciones posibles por parejas.
-8-
Tukey (3)
Bonferroni (4)
-9-
-10-
Obsrvese que solamente hemos sustrado del residual la parte correspondiente a los bloques. -Anlisis estadstico: Anlisis de la varianza de dos vas. Las hiptesis de que los distintos tratamientos y los bloques no producen ningn efecto se contrasta mediante el anlisis de la varianza de dos vas, comparando la variabilidad entre bloques y la variabilidad entre tratamientos con la variabilidad dentro de los grupos. Los resultados fundamentales se resumen en la tabla siguiente. Fuente Suma de cuadrados s Entre QB = " r( xi ! x )2 Bloques i=1 g.l. s-1 Estimador Fexp Q F = 2 SB = B B s ! 1 S2 B 2 SR
Entre Tratam.
QT = " s(x j ! x )
j =1
r-1
ST =
QT FT = r ! 1 S2 T 2 SR
Residual
QR =
i=1 j=1 2 " " ( xij ! xi ! x j + x )
s r
(r-1)(s-1)
2 SR = QR (r!1)(s!1)
Total
n-1
-11-
=x ! i = xi " x # j = x j " x
y la parte propia de cada observacin (o residual)
-12-
-Tipos de factores
-Factores cualitativos especficos. Factores susceptibles de aplicacin Factores de clasificacin -Factores cuantitativos -Factores cualitativos ordenados. -Factores cualitativos muestreados.
-13-
Efectos principales e interaccin en un experimento de dos factores. Supongamos que tenemos un experimento de dos factores A y B con cuatro niveles cada uno, y supongamos, para simplificar que no existe variacin no controlada. Factor B nivel 2 nivel 3 11 14 14 17 12 15 15 18 13 16
nivel 1 9 12 10 13 11
nivel 4 15 18 16 19 17
Tenemos varias formas de cacterizar esta tabla: a)La diferencia entre las observaciones de dos niveles cualesquiera de A es la misma para todos los niveles de B. b)La diferencia entre las observaciones de dos niveles cualesquiera de B es la misma para todos los niveles de A. c) Los efectos de los dos factores son aditivos. d) Los residuales al restar los efectos fila y columna son cero. En este caso se dice que los factores no interactuan o que sus efectos son aditivos. Si estas condiciones no se verifican decimos que hay una interaccin entre A y B. Se dice que hay interaccin cuando las diferencias entre dos niveles cualesquiera de uno de los factores dependen de los niveles del otro factor. Factor B nivel 2 nivel 3 11 14 14 17 11 14 16 19 13 16
nivel 1 9 12 11 12 11
nivel 4 15 18 17 18 17
-14-
Efectos principales: Efectos de cada uno de los niveles de los factores por separado (promediando sobre el otro factor). Interaccin: Efectos producidos por la aplicacin conjunta de los niveles de los dos factores. Grficos de interaccin
20 18 16 14 12 10 8 6 4 2 0
n1 n2 n3 n4
Efectos aditivos
20 18 16 14 12 10 8 6 4 2 0
n1 n2 n3 n4
Efectos no aditivos
-15-
Experimento factorial con dos factores de variacin y el mismo nmero de observaciones por casilla. Se dispone de un conjunto de observaciones homogneas y se asigna los tratamientos (combinacin de niveles de los dos factores) aleatoriamente a las unidades. Los datos resultantes seran los siguientes
Factor A B1 Factor B ! Bs
A1 ! x111 $ # & #! & #x & " 11t % ! ! x s11 $ # & ! & # #x & " s1t %
Ar ! x1r1 $ # & #! & #x & " 1rt % " ! ! x rs1 $ # & #! & #x & " rst %
-Anlisis estadstico: Anlisis de la varianza de dos vas. Las hiptesis de que los distintos factores no producen ningn efecto y de que no existe interaccin se contrastan mediante el anlisis de la varianza de dos vas con interaccin, comparando la
-16-
variabilidad entre los niveles del factor A, la variabilidad entre los niveles del factor B, y la variabilidad debida a la interaccin con la variabilidad dentro de los grupos o residual. Fuente
Filas
g.l.
s-1
Columnas
r-1
Interacc.
QFC =
i, j,k
(r-1)(s-1)
" (xij ! xi ! x j + x )2
s r t
(r!1)(s!1)
2
rs(t-1)
Resid.
2 SR = QR rs(t !1)
Total
rst-1
=x ! i = xi " x
# j = x j " x
-17-
-18-
EJEMPLO
Se est investigando cual es el efecto de tres tipos de abono sobre dos tipos de suelo. Se espera que el efecto de los distintos abonos se manifieste de forma diferente dependiendo del tipo de suelo. Para el presente estudio tomaremos dos tipos de suelo, cido y alcalino y tres tipos de abono que denotaremos con A, B y C. Tenemos as dos factores (suelo y abono) con 2 y 3 niveles respectivamente, que resultan en 6 combinaciones. Tomaremos un diseo factorial con dos factores y tres rplicas en cada una de las combinaciones de los niveles de los dos factores. La respuesta es un ndice de abundancia de una determinada especie tras la aplicacin de los distintos abonos. Los resultados se muestran en la tabla siguiente.
cido Alcalino
A 8 4 0 14 10 6
B 10 8 6 4 2 0
C 8 6 4 15 12 9
ANOVA Table for RESPUESTA DF SUELO ABONO SUELO * ABONO Residual 1 2 2 12 Sum of Squares 18,000 48,000 144,000 106,000 Mean Square 18,000 24,000 72,000 8,833 F-Value 2,038 2,717 8,151 P-Value ,1789 ,1063 ,0058 Lambda 2,038 5,434 16,302 Power ,248 ,428 ,905
Means Table for RESPUESTA Effect: SUELO * ABONO Count ACIDO, A ACIDO, B ACIDO, C ALCALINO, A ALCALINO, B ALCALINO, C 3 3 3 3 3 3 Mean 4,000 8,000 6,000 10,000 2,000 12,000 Std. Dev. 4,000 2,000 2,000 4,000 2,000 3,000 Std. Err. 2,309 1,155 1,155 2,309 1,155 1,732
-19-
Cell Mean
Fisher's PLSD for RESPUESTA Effect: ABONO Significance Level: 5 % Mean Diff. A, B A, C B, C 2,000 -2,000 -4,000 Crit. Diff 3,739 3,739 3,739 P-Value ,2664 ,2664 ,0380 S
Bonferroni/Dunn for RESPUESTA Effect: ABONO Significance Level: 5 % Mean Diff. A, B A, C B, C 2,000 -2,000 -4,000 Crit. Diff 4,769 4,769 4,769 P-Value ,2664 ,2664 ,0380
Comparisons in this table are not significant unless the corresponding p-value is less than ,0167. Tukey/Kramer for RESPUESTA Effect: ABONO Significance Level: 5 % Mean Diff. A, B A, C B, C 2,000 -2,000 -4,000 Crit. Diff 4,574 4,574 4,574
-20-
ANOVA Table for RESPUESTA Split By: SUELO Cell: ACIDO DF ABONO Residual 2 6 Sum of Squares 24,000 48,000 Mean Square 12,000 8,000 F-Value 1,500 P-Value ,2963 Lambda 3,000 Power ,207
Tukey/Kramer for RESPUESTA Effect: ABONO Significance Level: 5 % Split By: SUELO Cell: ACIDO Mean Diff. A, B A, C B, C -4,000 -2,000 2,000 Crit. Diff 7,087 7,087 7,087
ANOVA Table for RESPUESTA Split By: SUELO Cell: ALCALINO DF ABONO Residual 2 6 Sum of Squares 168,000 58,000 Mean Square 84,000 9,667 F-Value 8,690 P-Value ,0169 Lambda 17,379 Power ,822
Tukey/Kramer for RESPUESTA Effect: ABONO Significance Level: 5 % Split By: SUELO Cell: ALCALINO Mean Diff. A, B A, C B, C 8,000 -2,000 -10,000 Crit. Diff 7,791 7,791 7,791 S S