06 Anova PDF

Lección 6:
Análisis de varianza
Análisis de varianza de un factor
(ANOVA) de un factor
El análisis de varianza (ANOVA) permite determinar si las medias de varias

muestras son significativamente distintas una de otra. Se supone que las
muestras son independientes, tienen una distribución Gaussiana, de misma
varianza, pero posiblemente de diferentes medias debido a que las muestras
están afectadas por un factor de variación A.
Ejemplos
• Ensayos de leyes de cobre por varios laboratorios, para calibrar una muestra
estándar
• Mediciones en cada turno de los tiempos de viaje de los camiones o de los

metros barrenados por una perforadora.
Se busca testear:
Hipótesis nula H0: µ1 = µ2 = … = µk (todas las medias son iguales)
contra
Hipótesis alternativa H1: µi ≠ µj para al menos un par (i,j) (existe una

media distinta de las otras, por lo tanto se pone en evidencia la influencia
del factor de variación)
El método que se implementa consiste en descomponer el total de la varianza de

los datos entre varios componentes (inter-muestra e intra-muestra) y comparar
estos componentes utilizando un test de Fisher. Lleva el nombre de análisis de
varianza.
Supongamos que, en un experimento donde se comparan k grupos o tratamientos
(realizando una muestra por tratamiento), existen dos fuentes de variaciones: el
tratamiento mismo y el error de medición. La variación debida al tratamiento
(variación explicada o inter-muestra) se puede medir por:
k
SS1 = ∑ ni ( X i − X ) 2
i =1
con
X : media global de todos los datos
X i : media de los datos asociados al tratamiento nºi

ni : número de datos asociados al tratamiento nºi
La variación debida al error (variación residual o intra-muestra) se mide por
k ni k
SS0 = ∑∑ ( X ij − X i ) = ∑ (ni − 1) Si2
2
i =1 j =1 i =1
donde Xij es el j-ésimo dato asociado al tratamiento nºi.
Las sumas de cuadrados son aditivas:
k ni
SS = ∑∑ ( X ij − X ) 2 = SS0 + SS1
i =1 j =1
Bajo la hipótesis de que las muestras tienen distribuciones Gaussianas de varianza
σ2, se tiene
(ni − 1) Si2 2
~ χ ni −1
σ2
Al sumar sobre todos los índices i = 1,... k, se obtiene:
SS0 k
(ni − 1) Si2
σ2
= ∑
i =1 σ 2
~ χ 2
n −k
donde n = n1 + … + nk es el número total de datos.

Por otro lado, si la hipótesis nula es correcta (todas las medias son iguales), se
puede considerar que todos los datos provienen de una misma población, luego
(n − 1) S 2 SS 2
= ~ χ n −1
σ2 σ2
También se obtiene
SS1 2
~ χ k −1
σ2
De la fórmula de descomposición de varianza y del teorema de Cochran, se deduce

que SS0 y SS1 son independientes.
Se puede convertir las sumas de cuadrados en medias (que tienen sentido de
varianza), al dividir por el número de grados de libertad correspondiente:
SS SS SS0 + SS1
MS1 = 1 MS0 = 0 MS =
k −1 n−k n −1
con n = n1 + … + nk el número total de datos.

Finalmente, se construye una variable de Fisher con k – 1 y n – k grados de libertad
al plantear:
MS1 SS1 /( k −1)
F= =
MS0 SS 0 /( n − k )
Si el valor observado de F es mayor que el valor crítico para el riesgo α asumido

(valor del test unilateral), se rechazará la hipótesis nula. En este caso, SS1 tiene
mucho más influencia que SS0 en la varianza total, luego se concluye a la
influencia del factor de variación A.
En general, los resultados se presentan bajo la forma de una tabla, denominada

tabla de análisis de varianza.
Tabla de análisis de varianza
Fuente de Grados de Media de

Suma de cuadrados F
variación libertad cuadrados
Explicada k
SS1 MS1
(factor de SS1 = ∑ ni ( X i − X ) 2 k–1 MS1 =
i =1 k −1 MS0
variación A)
ni
Residual k
SS 0
SS0 = ∑∑ ( X ij − X i ) 2
n–k MS0 =
(error) i =1 j =1 n−k
k ni
Total SS = ∑∑ ( X ij − X ) 2 n–1
i =1 j =1
Ejemplo: se tiene los siguientes datos (k = 6)
grupo 1 2 3 4 5 6
número 12 13 12 13 13 12
promedio 7.25 6.62 6.33 4.08 4.23 8.17
En el total de los 6 grupos, se ha observado:
n = 75, X = 6.07 y S 2 = 10.65

Se calcula SS = (n − 1) S 2 = 788, SS1 = 170 , de lo cual se deduce SS 0 = 618
Se llena la tabla de análisis de varianza:
Fuente de Suma de Grados de Media de

variación cuadrados libertad cuadrados
Explicada
170 5 170/5 = 34
(factor A)
Residual
618 69 618/69 = 8.96
(error)
Total 788 74
Luego, se tiene: F = 34/8.96 = 3.79

Se rechaza la hipótesis nula, dado que F(5,69) = 2.35 para α = 5%
Ejercicio 1. Se realiza ensayos de work index sobre tres tipos de roca:
Roca tipo A (kWh/t): 12.9 11.0 13.1
Roca tipo B (kWh/t): 12.5 14.2 13.5 13.8 14.5
Roca tipo C (kWh/t): 11.9 13.2 14.0 12.8
¿Son las diferencias según tipos de roca significativas?

F
Tipo de
roca
Error
residual
Total
Ejercicio 2. Se desea saber si existe una diferencia significativa en las leyes

medias analizadas por los diferentes laboratorios del “round Robin”.
Ejercicio 3. Se desea saber si existe una diferencia significativa en el trabajo

de cada turno. Para ello, se pide analizar los metros barrenados por una
perforadora según el turno.
Análisis de varianza multivariable
(MANOVA) de un factor
Se puede extender el análisis de varianza al caso multivariable, al reemplazar la
variable escalar X por un vector-columna X de p componentes. Se supone que las
muestras tienen una distribución multinormal (multi-Gaussiana), de misma matriz
de varianza-covarianza, pero posiblemente de diferentes medias µ1, µ2,… µk
debido a que las muestras están afectadas por un factor de variación A.
Se busca testear:
Hipótesis nula H0: µ1 = µ2 = … = µk (todas las medias son iguales)
contra
Hipótesis alternativa H1: µi ≠ µj para al menos un par (i,j) (existe un

vector de medias distinto de los otros, por lo tanto se pone en evidencia la
influencia del factor de variación)
Tabla de análisis de varianza multivariable
Fuente de Grados de
Matrices de sumas de cuadrados y productos
variación libertad
Explicada k
B = ∑ ni ( Xi − X)( Xi − X)t k–1
(factor A) i =1
k ni
Error
W = ∑∑ ( Xij − Xi )( Xij − Xi ) t n–k
residual i =1 j =1
k ni
Total B + W = ∑∑ ( X ij − X)( Xij − X)t n–1

i =1 j =1
La dificultad radica en que, ahora, uno no trata con sumas o medias de cuadrados,
sino que con matrices. Para aceptar o rechazar la hipótesis nula, Wilks propone la
siguiente estadística:
k ni
|W|
∑∑ (X
i =1 j =1
ij − Xi )( X ij − Xi )t
Λ* = =
|B+W| k ni
∑∑ (X
i =1 j =1
ij − X)( X ij − X)t
donde | . | indica el determinante.

Bajo la hipótesis nula, se tiene
Número de Número de grupos /

Distribución
variables número de datos
n − k 1− Λ*
p=1 k ≥ 2, n cualquiera k −1 Λ* ~ Fk −1,n− k
n − k −1 1− Λ*
p=2 k ≥ 2, n cualquiera k −1 ~ F2 ( k −1), 2 ( n −k −1)
Λ*
n − p −1 1− Λ*
p≥1 k = 2, n cualquiera p Λ*
~ Fp ,n− p −1
n − p − 2 1− Λ*
p≥1 k = 3, n cualquiera ~ F2 p , 2 ( n − p − 2 )
p Λ*
p≥1 k cualquiera, n grande − (n − 1 − p+k

2 ) ln Λ* ~ χ 2p ( k −1)
Otras estadísticas propuestas en la literatura:
• traza de Lawley-Hotelling: tr (BW −1 )
• traza de Pillai: tr (B(B + W ) −1 )
• máxima raíz de Roy: máximo valor propio de W(B + W ) −1
El análisis de varianza multivariable es preferible a una serie de análisis de

varianza aplicadas a cada variable, cuando existen correlaciones (redundancias
parciales) entre las variables.
Ejemplo: se tiene los siguientes datos (k = 6 y p = 2 variables)
grupo 1 2 3 4 5 6
número 12 13 12 13 13 12
promedio
7.25 6.62 6.33 4.08 4.23 8.17
variable 1
promedio
10.3 8.78 8.91 6.54 7.10 12.5
variable 2
En el total de los 6 grupos, se ha observado:

10.65 4.73 
n = 75, X 1 = 6.07, X 2 = 8.96 y V =  
 4.73 5.00 
 788 350   170 214   618 136 
B + W = (n − 1) V =  , B =   , por lo que W =  
 350 370   214 293   136 77 
Fuente de Suma de Grados de

Determinante
variación cuadrados libertad
Explicada
B 5 4 014
(factor A)
Residual
W 69 29 090
(error)
Total B+W 74 169 060
n − k −1 1− Λ*
Luego, se tiene: Λ* = 29 090/169 060 = 0.172 y k −1 = 19.19
Λ*
Se rechaza la hipótesis nula, dado que F(10,136) = 1.90 para α = 5%

Análisis de varianza de dos factores
(ANOVA) de dos factores
Supongamos que existen dos fuentes de variación A y B susceptibles de influir en
el valor esperado de una variable X, y que se tiene f valores de A, c valores de B y
una sola medición de X para cada combinación (A,B) (o sea, n = f c datos en total).
Tratamiento B1 B2 … Bc Media
A1 X11 X12 … X1c X 1•
A2 X21 X22 … X2c X 2•
...
Af Xf1 Xf2 … Xfc X f•
Media X •1 X •2 X •c X
Se define la siguiente tabla de análisis de varianza

Suma de cuadrados
f
SS f
A SS f = ∑ c ( X i• − X ) 2 f–1 MS f =
i =1 f −1
c
SSc
B SSc = ∑ f ( X • j − X ) 2 c–1 MSc =
j =1 c −1
f c
SSe
Error residual SSe = ∑∑ ( X ij − X i• )( X ij − X • j ) (f – 1) (c – 1) MSe =
i =1 j =1 ( f −1)(c −1)
Total SS = SS f + SS c + SS e n–1
De la tabla de análisis de varianza, se puede testear si la influencia de cada fuente
de variación es significativa.
• Influencia de A
Hipótesis nula H0: no hay influencia de A en el valor esperado de X
Hipótesis alternativa H1: hay una influencia de A en el valor esperado de X
Bajo la hipótesis nula, el cociente MSf/MSe sigue una distribución de Fisher de

f–1 y (f–1)(c–1) grados de libertad. Se rechazará la hipótesis nula y se
concluirá a la influencia de A si el valor de este cociente supera el valor crítico
de la distribución de Fisher para el riesgo α asumido (test unilateral).
• Influencia de B
Hipótesis nula H0: no hay influencia de B en el valor esperado de X
Hipótesis alternativa H1: hay una influencia de B en el valor esperado de X
Similarmente, bajo la hipótesis nula, el cociente MSc/MSe sigue una

distribución de Fisher de c–1 y (f–1)(c–1) grados de libertad. Se rechazará la
hipótesis nula y se concluirá a la influencia de B si el valor de este cociente
supera el valor crítico de la distribución de Fisher para el riesgo α asumido
(test unilateral).
Análisis de varianza de dos factores con réplicas
En caso de tener r mediciones de X para cada combinación (A,B) (n = f c r

datos en total), se puede extraer una fuente adicional de variación debida a la
interacción entre los dos factores A y B.
Denotemos:
─ Xijk el dato correspondiente a la k-ésima réplica del par (i,j) de tratamientos
para A y B, con i = 1… f, j = 1… c y k = 1… r.
─ X ij • la media de los datos de índices (i,j), con k cualquiera
─ X i•• la media de los datos de índice i, con j, k cualquiera
─ X • j • la media de los datos de índice j, con i, k cualquiera
─ X la media de todos los datos
Se define la siguiente tabla de análisis de varianza

Suma de cuadrados
f
SS f
A SS f = r ∑ c ( X i •• − X ) 2 f–1 MS f =
i =1 f −1
c
B SSc = r ∑ f ( X • j • − X ) 2 c–1 MSc =

SSc
j =1 c −1
Interacción f c SS fc
SS fc = r ∑∑ ( X ij • − X i•• − X • j• + X ) (f – 1) (c – 1) MS fc =
2
A/B i =1 j =1
( f − 1)(c − 1)
Error f c r
SSe
SSe = ∑∑∑ ( X ijk − X ij • ) 2 fc (r – 1) MSe =
residual i =1 j =1 k =1 fc( r − 1)
Total SS = SS f + SS c + SS fc + SS e n–1
Para la interpretación de los resultados, es conveniente empezar con analizar la
posible interacción entre los dos factores de variación.
• Interacción A/B
Hipótesis nula H0: no hay interacción entre los factores A y B
Hipótesis alternativa H1: existe una interacción entre los factores A y B
Se rechaza la hipótesis nula si el cociente MSfc/MSe supera el valor crítico de la

distribución de Fisher de (f–1)(c–1) y fc(r–1) grados de libertad para el riesgo
α asumido.
Ilustración del concepto de interacción entre factores
Valor promedio de X Valor promedio de X

B=2
B=2 B=1
B=1
B=2
B=2
B=1 B=1
1 2 1 2
Factor A Factor A
No hay interacción entre A y B Hay interacción entre A y B

Después de determinar si existe interacción entre los factores de variación, se
puede testear si la influencia de estos factores es significativa.
Caso 1: A y B tienen una interacción significativa
• Influencia de A
Se rechaza la hipótesis nula de que A no tiene influencia en el valor esperado
de X, si el cociente MSf/MSe supera el valor crítico de la distribución de Fisher
de f–1 y fc(r–1) grados de libertad para el riesgo α asumido.
• Influencia de B
Se rechaza la hipótesis nula de que B no tiene influencia en el valor esperado
de X, si el cociente MSc/MSe supera el valor crítico de la distribución de Fisher
de c–1 y fc(r–1) grados de libertad para el riesgo α asumido
Caso 2: A y B no tienen una interacción significativa

En este caso, se puede considerar la fuente de interacción como parte del error
experimental. Se puede entonces combinar con la variabilidad de interacción
con la variabilidad residual al plantear:
Suma de cuadrados combinada: SS combinado = SS fc + SS e

Grados de libertad combinados: GLcombinado = ( f − 1)(c − 1) + fc(r − 1)
Media de cuadrados combinada:
SS combinado SS fc + SS e SS fc + SS e
MS combinado = = =
GLcombinado ( f − 1)(c − 1) + fc( r − 1) fcr − f − c + 1
Una vez recalculada la media de cuadrados del error residual (MScombinado), se

puede concluir sobre la influencia de los factores A y B:
• Influencia de A
Se rechaza la hipótesis nula de que A no tiene influencia en el valor esperado
de X, si el cociente MSf/MScombinado supera el valor crítico de la distribución de
Fisher de f–1 y fcr–f–c+1 grados de libertad para el riesgo α asumido.
• Influencia de B
Se rechaza la hipótesis nula de que B no tiene influencia en el valor esperado
de X, si el cociente MSc/MScombinado supera el valor crítico de la distribución de
Fisher de c–1 y fcr–f–c+1 grados de libertad para el riesgo α asumido
Extensión: análisis de varianza multivariable (MANOVA) de dos factores
En el caso multivariable, se reemplaza la variable escalar X por un vector-

columna X de p componentes. En la tabla de análisis de varianza, las sumas de
cuadrados se definen a partir de productos de vectores por sus transpuestas,
obteniendo matrices en lugar de escalares. Para aceptar o rechazar la hipótesis
nula (no influencia de un factor, o no interacción entre factores), se puede
utilizar la estadística de Wilks en lugar de la estadística de Fisher.
para diseños anidados
Análisis de varianza para
diseños anidados
En algunos casos, los valores (niveles) del factor B dependen de los valores del
factor A. Se tiene entonces un diseño anidado o diseño jerárquico, en el cual las
fuentes de variaciones son independientes.
Por ejemplo :
• considerar 2 áreas de ensayos, 4 sitios en cada área y realizar 3 mediciones en

cada sitio. No hay vínculo entre los sitios de un área con los sitios de la otra área,
es decir, se tiene 8 sitios en total y no 4 (diseño anidado: área > sitio > medición)
• tomar 2 detritos de pozos de tronadura (lotes), muestrear 3 veces cada lote y

analizar 3 veces la ley de cobre en cada muestra (diseño anidado: lote >
muestra > análisis)
diseños anidados
Diseño anidado
Área 1 (área de prueba) Área 2 (área de control)

Sitio 1 Sitio 2 Sitio 3 Sitio 4 Sitio 5 Sitio 6 Sitio 7 Sitio 8
X111 X121 X131 X141 X251 X261 X271 X281
X112 X122 X132 X142 X252 X262 X272 X282
X113 X123 X133 X143 X253 X263 X273 X283
Para determinar la significancia de cada fuente de variación (A = área y B = sitio)

no se puede utilizar el análisis de varianza de dos factores clásico, sino que se
recurre a un análisis de varianza para diseños anidados.
diseños anidados
Tabla de análisis de varianza para diseños anidados
Supongamos un diseño anidado can a clases asociadas a una fuente de variación

A. En cada una de estas clases, se tiene b sub-clases asociadas a una fuente de
variación B, y así sucesivamente (c sub-clases de una fuente C, d sub-clases de
una fuente D). Finalmente, cada sub-clase de D tiene n mediciones (réplicas) (se
puede extender el método presentado a números variables de ítems en cada clase).
El número total de datos es N = abcdn.
Se busca asignar una varianza a cada fuente y compararla con la varianza de la

fuente siguiente en el diseño anidado, de modo de determinar si una fuente tiene
un efecto significativo con respecto a otra.
diseños anidados
Media de
Fuente Suma de cuadrados Grados de libertad
cuadrados
a
A SS A = ∑ bcdn ( X i − X ) 2 a–1 MS A =
SS A
i =1 a −1
a b
B SS B = ∑∑ cdn ( X ij − X i ) 2 a (b – 1) MS B =
SS B
i =1 j =1 a (b −1)
a b c
C SSC = ∑∑∑ dn ( X ijk − X ij ) 2 ab (c – 1) MSC =

SSC
i =1 j =1 k =1 ab(c −1)
a b c d
D SS D = ∑∑∑∑ n ( X ijkl − X ijk ) 2 abc (d – 1) MS D =

SS D
i =1 j =1 k =1 l =1 abc(d −1)
a b c d n
SS E
Error SS E = ∑∑∑∑∑ ( X ijklm − X ijkl ) 2 abcd (n – 1) MS E =
i =1 j =1 k =1 l =1 m=1
abcd (n −1)
Total SS = SSA + SSB + SSC + SSD + SSE N–1 MS = SS

N −1
diseños anidados
La significancia de cada media de cuadrados se pone a prueba al formar una

variable de Fisher F definida como la razón entre esta media de cuadrados y la
media siguiente en la tabla, la cual posee los grados de libertad correspondientes
de la tabla:
• significancia de A vs. B: calcular MSA/MSB y comparar con el valor crítico de
una variable de Fisher de (a–1) y a(b–1) grados de libertad
• significancia de B vs. C: calcular MSB/MSC y comparar con el valor crítico de
una variable de Fisher de a(b–1) y ab(c–1) grados de libertad
•…
• significancia de D: calcular MSD/MSE y comparar con el valor crítico de una
variable de Fisher de abc(d–1) y abcd(n–1) grados de libertad.
diseños anidados
Ejercicio (ensayos de laboratorio). Se considera 2 lotes (detritos de pozos de
tronadura), en cada uno de los cuales se selecciona 3 muestras y se realizan 3
análisis por muestra. Los resultados se muestran en la siguiente tabla:
Muestra Lote 1 Lote 2
1 8.0, 7.4, 7.8 6.2, 7.4, 6.9
2 7.7, 7.3, 5.1 5.7, 5.8, 5.2
3 5.8, 5.6, 5.7 5.4, 6.1, 4.6
Media 6.711 5.922

diseños anidados
Tabla de análisis de varianza

F
Lote 2.8006 1 2.8006 1.120
Muestra 9.9978 4 2.4994 4.848
Análisis 6.1867 12 0.5156
Total 18.9850 17
La media de cuadrados de las muestras es significativamente mayor que la media

de cuadrados de los análisis (F = 4.848 es significativo). Luego, para optimizar
el diseño y tener la mayor precisión al menor costo, sería preferible tomar más
muestras y hacer menos análisis.
Limitantes del análisis
de varianza
Hipótesis de independencia
La descomposición de las varianzas en varias componentes es válida siempre y
cuando los datos son independientes. Para comprobar este supuesto, se puede
considerar los llamados tests de Levene o el test de Barlett. El primero tiene la
ventaja de que no se ve afectada por falta de normalidad de los datos y se puede
aplicar a tamaños muestrales desiguales.
de varianza
Hipótesis de normalidad
El análisis de varianza se basa en el uso de tests de Fisher, los cuales
presuponen que los datos tienen distribuciones normales. El análisis de varianza
es robusto frente a leves desviaciones a la hipótesis de normalidad; par
desviaciones importantes, se recomienda transformar las variables, o usar
métodos no paramétricos como el test de Kruskal-Wallis.
de varianza
Homoscedasticidad
El análisis de varianza supone también que las varianzas de los diferentes
grupos son iguales (homoscedasticidad). En caso de heteroscedasticidad, la
varianza suele cambiar cuando lo hace la media. Si µi es la media del grupo
i-ésimo y σi su desviación estándar, entonces σi = f(µi) para alguna función f.
En particular, se suele considerar una función f de la forma
α
f ( µi ) = kµi
Equivalentemente, log(σ ) = log(k ) + α log(µ )

El coeficiente α se estima por la pendiente de la recta de regresión entre log(µ)
y log(σ) (experimentalmente conocidos para los diferentes grupos).
de varianza
Una vez determinado el coeficiente α, se puede conseguir homocedasticidad al

considerar la siguiente transformación de la variable X:
xλ si λ ≠ 0
φ ( x) = 
 log( x) si λ = 0
con λ = 1− α
Lecturas recomendadas
Box, G.E.P., Hunter, W.G., Hunter, J.S., 1978. Statistics for Experimenters. John
Wiley and Sons, New York, 653 p.
Davis, J.C., 2002. Statistics and Data Analysis in Geology. John Wiley & Sons,
Inc., New York.
Johnson, R., Wichern, D.W., 2002. Applied Multivariate Statistical Analysis.

Prentice-Hall, Upper Saddle River.
Miller, R.G., 1997. Beyond ANOVA: Basics of Applied Statistics. Chapman &
Hall, Boca Raton.

06 Anova PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

06 Anova PDF

Cargado por

Copyright:

Formatos disponibles

Lección 6:

El análisis de varianza (ANOVA) permite determinar si las medias de varias

• Mediciones en cada turno de los tiempos de viaje de los camiones o de los

Hipótesis nula H0: µ1 = µ2 = … = µk (todas las medias son iguales)

Hipótesis alternativa H1: µi ≠ µj para al menos un par (i,j) (existe una

El método que se implementa consiste en descomponer el total de la varianza de

X : media global de todos los datos

X i : media de los datos asociados al tratamiento nºi

donde Xij es el j-ésimo dato asociado al tratamiento nºi.

Las sumas de cuadrados son aditivas:

Al sumar sobre todos los índices i = 1,... k, se obtiene:

donde n = n1 + … + nk es el número total de datos.

De la fórmula de descomposición de varianza y del teorema de Cochran, se deduce

con n = n1 + … + nk el número total de datos.

Si el valor observado de F es mayor que el valor crítico para el riesgo α asumido

En general, los resultados se presentan bajo la forma de una tabla, denominada

Fuente de Grados de Media de

promedio 7.25 6.62 6.33 4.08 4.23 8.17

En el total de los 6 grupos, se ha observado:

n = 75, X = 6.07 y S 2 = 10.65

Fuente de Suma de Grados de Media de

Luego, se tiene: F = 34/8.96 = 3.79

¿Son las diferencias según tipos de roca significativas?

Fuente de Suma de Grados de Media de

Ejercicio 2. Se desea saber si existe una diferencia significativa en las leyes

Ejercicio 3. Se desea saber si existe una diferencia significativa en el trabajo

Hipótesis nula H0: µ1 = µ2 = … = µk (todas las medias son iguales)

Hipótesis alternativa H1: µi ≠ µj para al menos un par (i,j) (existe un

Total B + W = ∑∑ ( X ij − X)( Xij − X)t n–1

donde | . | indica el determinante.

Número de Número de grupos /

p≥1 k cualquiera, n grande − (n − 1 − p+k

• traza de Lawley-Hotelling: tr (BW −1 )

• traza de Pillai: tr (B(B + W ) −1 )

• máxima raíz de Roy: máximo valor propio de W(B + W ) −1

El análisis de varianza multivariable es preferible a una serie de análisis de

En el total de los 6 grupos, se ha observado:

Fuente de Suma de Grados de

Total B+W 74 169 060

Se rechaza la hipótesis nula, dado que F(10,136) = 1.90 para α = 5%

A1 X11 X12 … X1c X 1•

A2 X21 X22 … X2c X 2•

Af Xf1 Xf2 … Xfc X f•

Fuente de Grados de Media de

Hipótesis nula H0: no hay influencia de A en el valor esperado de X

Hipótesis alternativa H1: hay una influencia de A en el valor esperado de X

Bajo la hipótesis nula, el cociente MSf/MSe sigue una distribución de Fisher de

Hipótesis nula H0: no hay influencia de B en el valor esperado de X

Hipótesis alternativa H1: hay una influencia de B en el valor esperado de X

Similarmente, bajo la hipótesis nula, el cociente MSc/MSe sigue una

Análisis de varianza de dos factores con réplicas

En caso de tener r mediciones de X para cada combinación (A,B) (n = f c r

Fuente de Grados de Media de

B SSc = r ∑ f ( X • j • − X ) 2 c–1 MSc =

Hipótesis nula H0: no hay interacción entre los factores A y B

Hipótesis alternativa H1: existe una interacción entre los factores A y B

Se rechaza la hipótesis nula si el cociente MSfc/MSe supera el valor crítico de la

Valor promedio de X Valor promedio de X

No hay interacción entre A y B Hay interacción entre A y B

Caso 1: A y B tienen una interacción significativa

Caso 2: A y B no tienen una interacción significativa

Suma de cuadrados combinada: SS combinado = SS fc + SS e

Una vez recalculada la media de cuadrados del error residual (MScombinado), se