Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Notas
ndice
1. OBJETIVOS.....................................................................................................................1
2. INTRODUCCIN .............................................................................................................2
2.1. Modelo de constantes fijas (Modelo I)........................................................................................................ 2
2.2. Modelo de componentes de la varianza (Modelo II) .................................................................................. 2
3. NOMENCLATURA...........................................................................................................3
4. SUPOSICIONES .............................................................................................................3
5. LGICA DEL ANOVA......................................................................................................3
6. MODELOS DE EFECTOS FIJOS Y EFECTOS ALEATORIOS.......................................5
6.1. ANOVA de un factor con efectos fijos ........................................................................................................ 6
6.2. ANOVA de un factor con efectos aleatorios............................................................................................... 7
6.3. Solucin del ANOVA de un factor ............................................................................................................ 11
6.4. Resumen del ANOVA de un factor........................................................................................................... 13
6.5. Diferente tamao muestral: diseos no equilibrados ............................................................................... 15
6.6. Conclusiones estadsticas del ANOVA de un factor ................................................................................ 16
9. EJEMPLO 1 ...................................................................................................................27
9.1. Planteamiento........................................................................................................................................... 27
9.2. Diseo....................................................................................................................................................... 27
9.3. Procedimiento........................................................................................................................................... 27
9.4. Anlisis exploratorio (descriptivo)............................................................................................................. 28
9.5. Inferencia estadstica: ANOVA ................................................................................................................. 29
9.6. Conclusin ................................................................................................................................................ 33
1. Objetivos
Conocer los procedimientos de clculo de las suma de cuadrados, de los cuadrados medios o varianzas
y del estadstico F ;
Conocer el principio y procedimiento de clculo del estadstico F en cada uno de estos modelos.
2. Introduccin
El anlisis de la varianza (ANOVA) es uno de los tests estadsticos ms ampliamente utilizados para probar
la igualdad de ms de dos medias de la poblacin. Es decir:
Hiptesis:
H 0 : 1 = 2 = = k =
posibles categoras, grupos o poblaciones, todas ellas sometidas a anlisis. Por ejemplo:
Un laboratorio dispone de cuatro mtodos para determinar paratirina en plasma. Se desea comparar la
media de los resultados de una poblacin de referencia a la que se ha realizado las cuatro
determinaciones.
En un centro urbano existen tres laboratorios hospitalarios que realizan determinaciones de colesterol.
Se desea saber si la media anual de determinaciones diarias es la misma en los tres centros.
Un laboratorio dispone de cuatro mtodos para determinar paratirina en plasma y tres instrumentos
analticos donde implementarlos. Se desea comparar la media de los resultados de una poblacin de
referencia a la que se ha realizado las cuatro determinaciones en los tres instrumentos diferentes.
En un centro urbano existen tres laboratorios hospitalarios que realizan determinaciones de colesterol.
Se desea saber si la media anual de determinaciones diarias ha sido la misma en los tres centros
durante los ltimos cinco aos.
tericamente infinito, pero que en cualquier caso slo incluye en el estudio una muestra de las posibles
categoras, aunque esta seleccin sea aleatoria y representativa. Por supuesto, las observaciones
individuales pertenecen exclusivamente a una y solo una de las k posibles categoras, grupos o
poblaciones, todas ellas sometidas a anlisis. Aunque los procedimientos de clculo son idnticos, la
2
interpretacin conceptual es radicalmente diferente. En este caso se trata de generalizar las conclusiones a
todas las posibles categoras sin restringirse exclusivamente a las incluidas en el estudio, como sucede en
el modelo I. Por ejemplo:
3. Nomenclatura
xi j
nj
N =n j
xi j
xii
xi j
x ii
S i j SC i
s 2b CMB
j =1
n
j =1
= n1 + n2 +
+ nk
4. Suposiciones
1. Las k poblaciones son independientes;
2. El muestreo de cada una de las ( k > 2 ) poblaciones bajo estudio se hizo aleatoriamente;
Al final de estas notas se ejemplifica una aplicacin sencilla del ANOVA. Un escenario tpico del
laboratorio clnico es el expuesto en dicho ejemplo: un investigador desea conocer el efecto que tienen
varios tratamientos con frmacos sobre una magnitud bioqumica. Para ellos selecciona grupos de
individuos sometidos a estos tratamientos y realiza en cada uno de ellos una medicin de dicha magnitud
bioqumica. Si los tratamientos no afectan a la concentracin de la magnitud es de esperar que las medias
aritmticas de todos los grupos de individuos tratados sean iguales. Si un frmaco influye significativamente
sobre dicha magnitud, el test estadstico detectar esta diferencia como significativa. Es la misma situacin
que cuando se desea comparar diferentes grupos de diagnsticos, poblaciones, instrumentos o
procedimientos analticos, etc. Adems de la variable aleatoria concentracin del constituyente
(habitualmente continua), se asocia una variable clasificadora (habitualmente discreta y que no contiene
error). Esta variable clasificadora se denomina genricamente factor o tratamiento y los diferentes
valores que puede adoptar se denominan niveles o tratamientos. Los modelos ms sencillos contienen
un nico factor de clasificacin (modelos unifactoriales, o de una va one way). Sin embargo no son
excepcionales los modelos que contienen dos (bifactoriales o de dos factores) o ms factores (modelos
multifactoriales). La presencia de ms factores complica obviamente los clculos. En estas notas slo se
estudiarn los modelos con uno y dos factores.
La distribucin de una poblacin de datos se caracteriza completamente con unos parmetros estadsticos
que sintetizan toda la informacin que contiene dicha poblacin. En el caso de una distribucin normal,
media y varianza (o media y desviacin tpica) bastan para caracterizarla por completo. La inferencia
realizada con estos parmetros se denomina paramtrica en oposicin a la que se puede realizar sin
utilizarlos, la inferencia no paramtrica. Por lo general, cuando la distribucin subyacente es normal, la
inferencia paramtrica es ms potente y por tanto ms recomendable que la no paramtrica. sta debe
reservarse para cuando no se puede satisfacer los requisitos de los tests paramtricos.
Media y varianza son pues los dos parmetros que definen una distribucin normal. La varianza es el
parmetro de dispersin o escala de una poblacin que se estima en una muestra a partir de las conocidas
frmulas:
2 = E ( x )
=
s2
donde:
1
N
( y
i =1
1 N
= y 2i 2
N i =1
2
1 n
n
=
xi x )
x2
(
n 1 i =1
n 1
yi
xi
2
s
N
n
es la varianza poblacional;
es la estimacin de la varianza en una muestra;
es el nmero de observaciones;
es el nmero de observaciones en una muestra;
es la media poblacional; y
es la media observada en la muestra.
(a) Si la variabilidad es aproximadamente la misma en cada grupo, su media ser un valor razonablemente
representativo de la variabilidad global. Por lo tanto, disponiendo de las k varianzas y calculando su
media se estima la varianza de la poblacin. Esta estimacin se denomina dentro de los grupos.
s 2w =
1 k 2
s j
k j =1
(b) Otro procedimiento de estimar la variabilidad global es calculando el error estndar de la las k medias
de cada uno de los k grupos que el investigador considera. Si las medias se calculan como:
4
xk =
donde:
xji
1
nk
nk
x
i =1
ki
nj
xj
es ( x ) =
s
n
de donde se deduce:
sb2 = n ( es ( x ) )
s 2w s 2b
s 2b
s 2w
Si por el contrario, algn grupo estudiado procede de otra poblacin o algn tratamiento aplicado produce
una respuesta distinta de las otras, estas estimaciones diferirn entre ellas y
s 2w s 2b
s 2b
s 2w
El test ANOVA se fundamenta en el clculo de este cociente, denominado estadstico F y su contraste con
el valor tabulado. La distribucin de F depende de los grados de libertad del numerador y del denominador
del cociente. Esencialmente, los grados de libertad son una forma de relacionar el nmero de observaciones
o grupos los datos con las entradas en las tablas estadsticas.
se limita a seleccionar aleatoriamente tres de ellos. La conclusin a la que pretende llegar el investigador es
poder afirmar que existen (o no) pruebas significativas de diferencias entre las medias entre los efectos
inducidos por los tratamientos farmacolgicos en general sobre el hgado aunque de hecho slo se haya
estudiado un subconjunto. Bsicamente se trata de generalizar los resultados al conjunto de tratamientos ya
que para ello se ha seleccionado aleatoriamente un subconjunto para la investigacin.
En el modelo de efectos fijos las conclusiones aplican al tratamiento estudiado. Para los efectos aleatorios,
se requiere otra lgica, como se ver mas adelante.
xi j = x i j x
(b) diferencia de esta observacin a la media de su grupo
xi j = x i j x j
Restando ambas:
xi j xi j = ( x i j x ) ( x i j x j )
= xj x
= dj
d j = xi j xi j
xi j = d j + xi j
elevando al cuadrado
( x )
ij
= ( d j + xi j )
= d 2j + ( xi j ) + 2 d j xi j
2
y generalizando
k
( xi j ) = n d 2j +
2
j =1
Como que
x
j =1
ij
( xi j ) + 2 d j xi j
2
j =1
j =1
= 0 se tiene:
k
( xi j ) = n d 2j +
2
j =1
( x )
j =1
ij
y generalizando
k
( xi j )
= n d 2j
j =1 i =1
k
( x
j =1 i =1
SCT
j =1
k
j =1
= SCB
( x )
j =1 i =1
x ) = n( x j x ) +
2
ij
( x
j =1 i =1
SCW
ij
ij
xj)
donde:
( x )
j =1 i =1
ij
( x
j =1 i =1
ij
x)
SCT
n d 2j
j =1
n ( xj x )
SCB
j =1
( xij )
j =1 i =1
( x
j =1 i =1
ij
del grupo;
6.1.2. Grados de libertad
suma de grados de
cuadrados libertad
SCT
( N 1) la nica condicin fija que han de respetar las N observaciones es el valor
de la media total. Sus grados de libertad, ( N 1) , pueden traducirse por el
clculo de la media total implica la prdida de un grado de libertad con
relacin al conjunto de las N puntuaciones
SCB
( k 1)
SCW
(N k)
Entre los grados de libertad se establece la misma relacin que para la suma de cuadrados:
g .l.T
( N 1)
g.l.B +
( k 1)
g.l.W
(N k)
2B =
SCB
SCB
=
g.l.B
k 1
(b) La varianza intragrupo, W , cuadrado medio intragrupo, cuadrado medio del error experimental es:
2
W2 =
SCW
SCW
=
g .l.W
N k
Aditividad;
Linealidad;
Normalidad;
Independencia;
Homogeneidad de varianzas.
xi j = + j + i j
donde: xi j
i = 1, 2, , n
j = 1, 2, , k
es el efecto verdadero del j-simo tratamiento o nivel del factor A (la variable independiente
incluida en el modelo);
i j
efecto verdadero de la i-sima unidad del j-simo tratamiento (incluir los efectos de
).
que xi j DNI i ,
(b) j :en el caso que el investigador est interesado en los k tratamientos o niveles del factor presentes
k
en el experimento se tendr
j =1
modelo I. Si por el contrario, el investigador est interesado en una poblacin de niveles del factor e
los que nicamente est presente en el experimento una muestra aleatoria, entonces
j = + j
donde
si
xi j = + j + i j
xi j = j + i j
por tanto:
i j = xi j j
y de
j = j
se obtiene:
xi j
= +
xi j
= +
(x
ij
que se estima:
) =
(x
ij
x) =
(x
i j
) + ( xi j j )
) + ( xi j j )
x ) + ( xi j x j )
xj = xj x
i j = xi j xi
1 n
1 n
x
=
x ( + i + i j ) = + i + i j
ij n
n j =1
j =1
xj =
x =
1
N
1
N
xi j =
j =1
+ i + i x =
j =1
N n
+
N N
i +i
j = a j = ( x j x )
La mejor estimacin de
(x
ij
) = ( j ) + ( x i j j )
(x
Y las estimaciones de j y i
ij
x ) = ( x j x ) + ( xi j x j )
son:
j = x j x 1
ij = x i j x j
x =
1
N
xi j =
1
N
( + j + i j ) = +
j = 1 i =1
n
j = ( x j x ) = ( + j + ij ) +
N
E ( j ) = +
donde:
E ( i ) = 0 ,ya que E ( j ) = +
n
N
n
N
j =1
j =1
n
N
j =1
j =1
+ i
+ E ( i )
( )
j
y por tanto, para que E
= j es preciso
que:
1 n
1 n
x
=
(
ij n
n j =1
j =1
= + j + i j
n
N
j =1
j =1
j =1
= 0
( x i j x )
= 0
) = (x
= n(x j x )
j =1 i =1
x ) + ( xi j x j )
j =1
( x
j =1 i =1
SCT
SCB
total
tratamientos
ij
xj)
SCW
+ error experimental
n (x j x ) +
2
j =1
( x
j =1 i =1
i, j
xj)
y que divididos por siguen una distribucin k 1, n k . El cociente de dos independientes, divididas
2
F 1 , 2
donde: 1
SCB
2k 1
2
SCW
2N k
2
luego:
SCB
2
k 1
SCW
2
N k
10
F k 1 , N k
H 0 : x1 = x 2 = = x k
H 0 : 1 = 0
es decir, no hay diferencias en trminos estadsticos entre las medias de distintos grupos, tratamientos o
niveles.
datos
1
x11
2
x21
x1 2
x2 2
x1 n
x
i =1
medias de grupo
x1
k
xk 1
xk 2
x2 n
totales de grupo
xk n
n
1i
i =1
2i
i =1
x2
ki
xk
6.3.2. Clculos
Recordando que
n
( xi j )
= n d 2j
j =1 i =1
k
j =1
( xi j x ) = n ( x j x ) +
j =1 i =1
SCT
j =1
= SCB
( x )
k
SCW
( x
j =1 i =1
11
ij
j =1 i =1
x)
ij
( x
SCT =
j =1 i =1
ij
xj )
( x
ij x)
j =1 i =1
( x
2
ij
j =1 i =1
k
+ x 2 2 xi j x )
xi2j + N x 2 2 x xi j
j =1 i =1
j =1 i =1
k n
xi j
k
n
j =1 i =1
2
= xi j + N
N
j =1 i =1
k n
xi j
2 j =1 i =1
k n
xi j
k
n
j =1 i =1
= xi2j +
N
j =1 i =1
k n
xi j
k
n
j =1 i =1
= xi2j
N
j =1 i =1
k n
xi j
j =1 i =1
2
N
k n
xi j
j =1 i = 1
SCB = n ( x j x )
j =1
n (x j x )
j =1
= n ( x 2j + x 2 2 x j x )
j =1
n x
j =1
2
j
+ k n x2 2x n x j
j =1
n
xi j
k
i =1
= n
n
j =1
k n
xi j
+ k n j =1 i =1
k n
x
xi j
i
j
k
i =1
+ j =1 i =1
=
n
N
j =1
2
n
xi j
k
i =1
ya que: n
n
j =1
k n
x
xi j
i
j
k
i =1 j =1 i =1
n
N
j =1
n
x
j =1 i =1
ij
y k n= N
12
k n
xi j
2 j =1 i =1
n
k xi j
n i =1
j =1 n
k n
k n
x
i j xi j
j =1 i =1
j =1 i =1
2
N
2
N 1
Tratamientos:
k 1
Error experimental:
N k
(e) Clculo de los cuadrados medios de los tratamientos ( CMB ) y del error experimental ( CMW )
CMB =
CMW =
(f) Clculo de F
CMB
CMW
F =
que se interpretar frente a Fk 1 , N k
6.3.3. Tabla de ANOVA
Todos estos clculos se agrupan habitualmente en forma de tabla (de ANOVA) que tiene la siguiente forma:
fuente de
variacin
suma de
cuadrados
grados de
libertad
cuadrados
medios
intergrupo o
intertratamiento
SCB
k 1
CMB
intragrupo o error
experimental
total
SCW
N k
CMW
SCT
N 1
F =
CMB
CMW
(N k)
grados
de libertad al nivel de significacin elegido. Si el valor F obtenido es menor que el tabulado se acepta la
H 0 de que no existen diferencias en la media de los grupos o tratamientos (al menos en alguna de ellas).
j =1
H 0 : toda variacin es debida al error experimental. Si se cumple, la media de los cuadrados (la varianza)
que depende de la fuente de variacin, los tratamientos, ser igual al error experimental y F=1. En caso
contrario los tratamientos aadirn variabilidad al error experimental.
Los cuadrados medios sern:
13
(a) Media de cuadrados totales. No intervendr en los clculos de F, pero por coherencia se la menciona:
N 1
( x
i =1 j =1
k
2
1
x
=
n
2j + 2
)
i, j
N
1
j =1
n (x j x j ) =
n 2j + 2
n 1 j =1
k 1 j =1
N k
( x
i =1 j =1
i, j
2
x j ) = 2
N ( 0, 2 )
H 0 : toda variacin es debida al error experimental. Si se cumple, la media de los cuadrados (la varianza)
que depende de la fuente de variacin, los tratamientos, ser igual al error experimental y F = 1 , porque el
CMB ser igual al CMW . En caso contrario, los tratamientos aadirn variabilidad al error experimental y
F >1 .
Los cuadrados medios sern:
(a) Media de cuadrados esperada de los tratamientos, CMB , numerador en el clculo de F :
k
1
2
n ( x j x j ) = n 2j + 2
k 1 j =1
Bajo la H 0 el CMB est formado por dos componentes: el error experimental y el error debido al
N k
( x
i =1 j =1
i, j
2
x j ) = 2
Por tanto hay dos componentes: el error experimental y el error debido al tratamiento, es decir al factor
en estudio.
modelo
fuente de variacin
(en todos)
intragrupos (experimental)
H0
2
efectos fijos
tratamiento
efectos
aleatorios
tratamiento
14
CM bajo
H1
2
k
1
2
+
n 2j
k 1 j =1
2 + n 2
xi, j = + j + i, j
i = 1, 2, , n k
N = n1 + n 2 + + n k =
n
j =1
fuente de
variacin
entre grupos
dentro de los
grupos o
error
experimental
total
suma de cuadrados
2
nj
k nj
x i j
i
j
k
i =1
j =1 i =1
SCB =
ni
N
j =1
g. de
l.
k 1
k nj
x i j
j =1 i =1
nj
SCT = x 2i j
j =1 i =1
CMB =
CMW =
N k
CM bajo
H0
H1
CM
SCB
k 1
SCW
k 1
2 +
2
j =1
F
2
j
F=
CMB
CMW
k 1
N 1
fuente de
variacin
suma de cuadrados
entre grupos
nj
k nj
x i j
i
j
k
i =1
j =1 i =1
SCB =
ni
N
j =1
dentro de los
grupos o
error
experimental
total
k nj
x i j
j =1 i =1
nj
SCT = x 2i j
j =1 i =1
g. de
l.
CM
CM bajo la
H0
H1
k 1
CMB =
CMB
k 1
2 + n 0 2 2
N k
CMW =
SCW
k 1
N 1
n 2j
k
1
j =1
2
donde: n 0 =
nj k
k 1 j =1
nj
j =1
2 =
2
N
n 2j
j =1
=
N ( k 1)
( SCE SCW ) N ( k 1)
k
N 2 n 2j
j =1
15
F=
CMB
CMW
1 = 0 F =
frente a Ft 1, N t ( ) .
Si F < Ft 1, N t ( ) no se rechaza la H 0 ; si F > Ft 1, N t ( ) se rechaza la H 0 y se puede afirmar que
hay diferencias entre algunas medias.
Para investigar qu medias son diferentes se procede al estudio de comparaciones de contrastes entre
medias posteriores al ANOVA. Entre los tests ms populares estn:
(a) test del recorrido mltiple de Duncan para diseos equilibrados;
(b) test de la diferencia honestamente significativa de Tukey (HSD) o diferencia mnima significativa,
basado en la distribucin t ;
(c) test de Scheff que permite contrastar diferencias entre medias y entre combinaciones lineales, incluso
en diseos no equilibrados;
(d) test de comparaciones mltiples de Tukey, como el anterior permite contrastar diferencias entre medias
y entre combinaciones lineales, pero requiere que el diseo sea equilibrado.
1. Contrastes directos de medias
2. Contrastes de combinaciones lineares de medias
Las combinaciones lineares son sumas ponderadas cuyos pesos, ponderaciones o coeficientes no son
iguales. De forma genrica:
C m = w1 x1 + w 2 x 2 + + w k x k
donde: C m
w1 , w 2 , , w k son las k ponderaciones para una determinacin dada, con el requisito de que
k
w
j =1
=0;
( A, B ,C )
que existen medias significativamente diferentes, se desea investigar las posibles (combinaciones) de
diferencias entre los mencionados tres grupos o tratamientos:
16
w1
w2
w3
Cm
A vs B
C 1 = 1 x1 + ( 1) x 2 + 0 x 3
A vs C
C 2 = 1 x1 + 0 x 2 + ( 1) x 3
B vs C
C 3 = 0 x1 + 1 x 2 + ( 1) x 3
A vs B vs C
1
1
C 4 = x1 + x 2 + ( 1) x 3
2
2
La interpretacin estadstica de la inferencia sobre diferencias entre medias viene dada por un test t :
t =
=
w12 w22
w2k
+
+ +
n1 n 2
nk
donde: s d = CMW
s d = CMW
w
j =1
1
( x1 x 2 )
sd
1
Cm
sd
2
j
Cm
1
n1
n2
nk
i =1
i =1
i =1
n1
n2
nk
i =1
i =1
i =1
n1
n2
nk
i =1
i =1
i =1
C 1 = w11 x i 1 + w1 2 x i 2 + + w1 k x i k
C 2 = w2 1 x i 2 + w2 2 x i 2 + + w2 k x i k
C k = wk 1 x i k + wk 2 x i k + + wk k x i k
w
j =1
i1
wi 2 = 0
17
w
j =1
ir
wi s = 0
SCC =
C 2j
k
w
j =1
donde: C j
2
i j
FC 1 =
FC 2 =
FC k 1 =
CMC 1
CMWE
CMC 2
CMWE
CMC k 1
CMWE
que son interpretados de la forma habitual comparando las F observadas con F1, k 1 .
7.1. Contrastes en diseos aleatorios
La H 0 es no hay diferencias entre los efectos medios de todos los tratamientos de la poblacin de la que
se obtienen al azar una muestra de k tratamientos incluidos en el estudio. Se trata, pues, de contrastar:
H 0 : 2 = 0
siguiendo los mismos clculos.
Las conclusiones se refieren a poblaciones diferentes: en el modelo de efectos aleatorios permite mayor
generalizacin
2 =
CMB CMW
coeficiente de 2 en CMB
18
=
x
n
Y que CMW es una estimacin no sesgada de :
2
sx =
CMW
n
xi t
CMW
n
de donde:
donde: t
i = 1, 2, , n
j = 1, 2, , k
xi j = + j + i j
Supngase que hay dos factores
( A, B)
xi pq = + p + q + ( p q ) + i pq
donde: x i p q
i = 1, 2, , n
p = 1, 2, , a
q = 1, 2, , b
es el efecto (verdadero) del q-simo tratamiento o nivel del factor B (segunda variable
independiente introducida en el modelo);
es una constante
i p q DNI ( 0, 2 )
Suponiendo el modelo
xi pq = + p + q + ( p q ) + i pq
x i p q DNI ( p q , 2 ) ,
donde:
pq
de cada casilla.
Se tiene, por tanto:
p q = + p + q + ( ) p q
xi p q = pq + p + q + ( ) p q + i p q
Definicin de los efectos principales y error experimental:
p = p
p = + p
q = q
q = +q
i p q = x i p q p q
Teniendo en cuenta:
xi p q = + p + q + ( ) p q + i p q
y
p = + p
q = +q
se tiene:
xi p q = + ( p ) + ( q ) + ( ) p q + ( x i p q p q )
( )
pq
= + pq p q
( ) p q
= + pq p q
( ) = + p q ( p ) ( p )
pq
p = + p
= ( + p q ) ( p + p )
q = + q
xi p q = + ( p ) + ( q ) + ( + p q p q ) + ( xi p q p q )
cuya mejor estimacin se obtendr substituyendo las medias poblaciones por la medias muestrales:
xi pq = x + ( x p x ) + ( x q x ) + ( x + x pq x p x q ) + ( xi pq x pq )
es decir,
(x
i pq
(x
x ) + ( x q x ) + ( x + x pq x p xq ) + ( xi pq x pq )
se tiene que
20
pq
ap
= p
= xp x
bq
= q
= xq x
( ) p q
(a b) pq
= + p q p q
= x + x pq x p xq
Como quiera que se desea que tales estimaciones sean insesgadas, se tiene:
E(a p )
E (bq )
E(a b
) pq
a
a
=
0
a p = 0
p =1
p =1
b
b
= p
0
b
0
=
=
q
q
q =1
q =1
= q
a
a
( ) = 0
( a b ) = 0
= ( ) p q
pq
pq
p =1
p =1
( ) p q = 0 ( a b ) p q = 0
q =1
q =1
(x
i pq
(x
x ) + ( x q x ) + ( x + x pq x p xq ) + ( xi pq x pq )
(x
i pq
= b n (x p x ) +
2
p =1
+ a n ( xq x ) +
2
q =1
+ n ( x + x p q x p x q ) +
2
p =1 q =1
( x
i =1 p =1 q =1
i pq
x pq )
error experimental
grados de libertad:
SCA
2a 1
2
SCB
2b 1
2
SC ( AB )
2a 1 , b 1
2
SCW
2N ab
2
21
Por tanto,
SCA
a 1
SCB
CMB =
b 1
CMA =
CM ( AB ) =
CMW =
SC ( AB )
( a 1)( b 1)
SCW
N ab
y como:
SCA
2
g . de l. de A
SCB 2
g . de l. de B
2g . de l . de A
2g . de l . de B
= Fg . de l . de A , g . de l . de B
se tiene:
SCA
( a 1) F
CMA
=
a 1 , N ab
SCW
CMW
N
a
b
(
)
SCB
( b 1) F
CMB
=
b 1 , N ab
SCW
CMW
N
a
b
(
)
8.1. Resolucin del ANOVA de dos factores
En este punto, la descomposicin de la suma de cuadrados es en tres partes:
(a) Los factores;
(b) La interaccin entre factores;
(c) El error experimental.
Es decir,
SCW =
( x
i =1 p =1 q =1
=
i pq x )
SCT = n ( x p q x )
p =1 q =1
( x )
i pq
i =1 p =1 q =1
p =1 q =1
(x )
i pq
n a b
x i p q
i =1 p =1 q =1
n a b
x i p q
i = 1 p =1 q =1
x
i =1 p =1 q =1
i pq
Con lo que la tabla de ANOVA adquiere este nuevo aspecto (por ejemplo, en el caso en que el factor A
tiene dos niveles y el B tres niveles:
22
ap
a1
bq
totales de
grupo
totales de grupo
por efectos B
a2
b1
b2
b3
b1
b2
b3
x111
x1 2 1
x1 3 1
x 2 11
x2 21
x2 31
x11 2
x1 2 2
x1 3 2
x21 2
x2 2 2
x2 3 2
x11 n
x1 2 n
x1 3 n
x21 n
x2 2 n
x2 3 n
x11 i
x21i
i =1
x
p =1 i = 1
i =1
x1 2 i
x1 2
q =1 i =1
x1 3
p =1 i =1
x21
p 3i
q =1 i =1
p2i
i =1
x1 q i
x11
x2 3 i
i =1
p =1 i =1
x1 3 i
p1i
i =1
totales de
grupo por
efectos A
medias de
grupo
x2 2 i
i =1
x2 2
2qi
x2 3
En los totales de grupo figuran los resultados de sumar los valores de todas las observaciones para cada
combinacin de tratamientos.
El objetivo de los diseos factoriales es determinar qu parte de la variacin entre grupos (o tratamientos)
es atribuible a cada uno de los factores en estudio y que parte a la interaccin.
Los efectos conjuntos del factor A y del factor B (que aqu se representa como
confundidos con el efecto de la interaccin (que aqu se representa como
cuadrados que cuantifica los efectos debidos a cada uno de los factores y a la interaccin entre ellos ser:
2
2
n a b
n a b
x i p q x i p q
a
b
i =1 p =1 q = 1
i =1 p =1 q = 1
SC ( A + B ) =
n
N
p =1 q =1
La suma de cuadrados que cuantifica los efectos de los factores principales A y B ser, respectivamente:
2
2
b n
n a b
x1 q i x i p q
a
q =1 i =1
i =1 p =1 q =1
SC ( A ) =
b
n
N
p =1
23
2
2
a n
n a b
x1 q i x i p q
b
p =1 i =1
i =1 p =1 q =1
SC ( B ) =
an
N
q =1
Restando estas dos sumas de cuadrados a la correspondiente a los efectos conjuntos se obtendr la suma
de cuadrados de la interaccin entre A y B :
SC ( A B) = SC ( A + B ) ( SC ( A ) + SC ( B ) )
Hasta ahora los grados de libertad asociados a cada fuente de variacin eran:
fuente de variacin
entre grupos o tratamientos
ab 1
N ab
total
N 1
Verificndose que
N 1 = ( a b 1) + ( N a b )
Cuando aparece la interaccin entre A y B , hay que descomponer tambin los grados de libertad
correspondientes a la fuente de variacin entre grupos o tratamientos entre los factores principales y la
interaccin:
fuente de variacin
grupo o tratamiento A
grupo o tratamiento B
interaccin ( A B )
( a 1)( b 1)
ab 1
Verificndose que
a b 1 = ( a 1) + ( b 1) +
a 1
b 1
( ( a 1)( b 1) )
Con la suma de cuadrados y los grados de libertad pueden calcularse las medias de cuadrados y elaborarse
la tabla de ANOVA completa
fuente de
variacin
entre grupos
SC
CM
grupo o tratamiento A
SC ( A )
a 1
CM ( A )
grupo o tratamiento B
SC ( B )
b 1
CM ( B )
SC ( A B )
( a 1)( b 1)
CM ( A B )
interaccin
( A B)
ab 1
SCW
N ab
SCT
N 1
CMW
Las suposiciones respecto a los parmetros en un diseo factorial de dos factores pueden adoptar las
siguientes formas:
24
En el de efectos fijos (modelo I), el investigador est interesado en comprobar la significacin de los a
niveles del factor o tratamiento A y los b niveles del factor o tratamiento B (todos ellos presentes en el
experimento u observacin) adems de la interaccin
( A B)
( A B)
( A B)
( ) . Si no se cumple la
) ser igual
principales o su interaccin aaden una variacin adicional a . Segn cada modelo, estas varianzas o
cuadrados medios bajo la H 0 o bajo la hiptesis alternativa H 1 son:
2
intragrupos (experimental)
H0
2
CM bajo
H1
2
entre grupos
2 + n b
modelo
fuente de variacin
(en todos)
efectos fijos
2p
grupo o tratamiento A
p =1
grupo o tratamiento B
+ na
q =1
interaccin
efectos
aleatorios
entre grupos
efectos mixtos
entre grupos
b 1
( ) p q
+ n
p =1 q =1 ( a 1) ( b 1)
a
grupo o tratamiento A
2 + n b 2 + n 2
grupo o tratamiento B
2 + n a 2 + n 2
2 + n 2
interaccin
3
( A B)
2q
a 1
( A B)
grupo o tratamiento A
+ nb
2
p =1
grupo o tratamiento B
interaccin
( A B)
2p
a 1
+ n 2
2 + n a 2
2 + n 2
Se considerar nicamente la posibilidad de que por ejemplo sea A el factor de efectos fijos y B el factor
de efectos aleatorios. En caso contrario basta con intercambiar la notacin, cosa que obviamente es trivial,
salvo que exista un factor con preeminencia sobre el otro (modelos jerrquicos).
25
modelo
( ) p q
2
efectos fijos
2p = 0
2q = 0
efectos aleatorios
2 = 0
2 = 0
2 = 0
efectos mixtos
2p = 0
2 = 0
2 = 0
=0
El cociente entre cuadrado medio estudiado y el cuadrado medio intragrupos o error experimental seala la
importancia relativa de este componente
fuentes de
variacin
factor A
CM ( B )
CMW
F=
CM ( B )
CM ( A B )
CM ( A B )
CMW
F=
CM ( A B )
CM (W )
F=
factor B
interaccin
modelo
efectos aleatorios
CM ( A )
F=
CM ( A B )
efectos fijos
CM ( A )
F=
CMW
( A B)
F=
efectos mixtos
CM ( A )
F=
CMW
CM ( B )
F=
CM ( A B )
F=
CM ( A B )
CM (W )
( a 1)( b 1) + ( N a b ) = N a b + 1
2
se pueda estimar la variacin experimental ( CMW ) o y reformular el modelo:
xi p q = + p + q + i p q
En caso de que no exista interaccin significativa, se complica la interaccin porque el significado de efecto
principal se diluye (de hecho, la interaccin se puede considerar otro efecto ms) y porque el clculo de
F pudiera resultar inapropiado ya que los cuadrados medios pueden estar sesgados.
Si en el modelo de efectos aleatorios el contraste de hiptesis concluye que la interaccin es significativa,
puede estimarse la varianza respectiva de cada factor:
SC ( A ) = s 2 + n s 2( A B ) + b n s 2( A)
SC ( B ) = s 2 + n s 2( A B ) + a n s 2( B )
SC ( A B ) = s 2 + n s 2( A B )
donde: s ( AB ) =
2
s ( A) =
2
2
( B)
SC ( A B ) SCW
;
n
SC ( A ) SCW n s 2( A B )
bn
SC ( B ) SCW n s 2( A B )
an
SC ( A ) SC ( A B )
;
bn
SC ( B ) SC ( A B )
.
an
26
Por ltimo, si en el modelo de efectos mixtos, el contraste de hiptesis concluye que la interaccin es
significativa, puede estimarse la varianza respectiva de cada factor (teniendo en cuenta en el caso que se
considera que el factor A es fijo y por tanto no tiene variabilidad):
SC ( B ) = s 2 + a n s 2( B )
SC ( A B ) = s 2 + n s 2( A B )
2
donde: s ( AB )
s 2( B ) =
SC ( B ) SCW
.
an
9. Ejemplo 1
9.1. Planteamiento
Se desea comparar las diferencias en las concentraciones de un marcador de hepatopata (AST) en
pacientes sometidos a cuatro tratamientos mdicos.
El investigador plantea realizar un experimento consistente en medir este constituyente del plasma en
cuatro grupos de pacientes afectados de una determinada enfermedad a los que se ha tratado con sendos
frmacos que se identificarn como A , B , C y D .
9.2. Diseo
El investigador decide utilizar un diseo de anlisis de la varianza de efectos fijos, unifactorial y equilibrado.
9.3. Procedimiento
Para verificar o rechazar la hiptesis de que los tratamientos no afectan a la concentracin de AST, se
selecciona un total de N = 100 pacientes a los que asigna n j = 25 (diseo equilibrado) a cada uno de los
cuatro grupos de forma aleatoria y procede a la determinacin en cada paciente la concentracin cataltica
de AST.
A efectos de este ejemplo se asumir que los valores analticos se distribuyen segn la ley normal. Los
resultados (ficticios) obtenidos son:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
26,589
43,612
26,349
17,307
20,943
19,471
31,357
31,792
31,567
15,326
28,888
12,096
22,201
29,285
39,556
16,127
28,982
34,015
46,446
45,859
24,438
14,570
11,693
24,439
44,798
18,366
28,361
34,189
21,264
32,307
14,567
16,095
40,438
25,171
52,711
45,328
40,628
27,844
32,657
21,342
20,344
32,478
19,800
22,725
26,718
33,168
32,435
11,454
34,995
25,977
25,151
18,511
47,200
31,339
34,920
34,085
5,385
8,735
27,345
32,120
27
16
17
18
19
20
21
22
23
24
25
28,875
27,510
28,356
18,327
27,052
25,377
40,554
1,487
27,422
29,795
32,479
27,120
11,047
32,268
10,966
22,431
34,271
39,297
26,474
34,551
37,659
31,658
20,548
35,363
27,480
12,639
21,196
17,529
34,848
14,616
25,232
22,046
35,406
21,375
26,263
18,562
22,184
28,235
38,872
16,642
Media
26,044 27,870 27,695 26,306
Error tpico
1,816
2,100
2,093
1,949
Mediana
27,422 28,361 26,718 26,263
Moda
#N/A
#N/A
#N/A
#N/A
Desviacin estndar
9,078 10,500 10,466
9,745
Varianza de la muestra
82,408 110,240 109,539 94,968
Curtosis
1,338 -0,673 -0,237
0,119
Coeficiente de asimetra
-0,530
0,027
0,593 -0,267
Rango
42,125 35,480 40,072 41,815
Mnimo
1,487 10,966 12,639
5,385
Mximo
43,612 46,446 52,711 47,200
Suma
651,093 696,759 692,380 657,640
Cuenta
25
25
25
25
Nivel de confianza (95,0%)
3,747
4,334
4,320
4,023
La misma informacin proporcionada por el paquete estadstico R es:
A
Min.
: 1.487
1st Qu.:20.943
Median :27.422
Mean
:26.044
3rd Qu.:29.795
Max.
:43.612
B
Min.
:10.97
1st Qu.:21.26
Median :28.36
Mean
:27.87
3rd Qu.:34.19
Max.
:46.45
C
Min.
:12.64
1st Qu.:20.34
Median :26.72
Mean
:27.70
3rd Qu.:34.85
Max.
:52.71
D
Min.
: 5.385
1st Qu.:21.375
Median :26.263
Mean
:26.305
3rd Qu.:33.168
Max.
:47.200
28
50
40
30
20
10
0
Del grfico de cajas y del anlisis descriptivo se deduce que la media es prcticamente idntica en todos los
grupos, as como la dispersin a pesar de ser considerablemente amplia.
H 0 : 1 = 2 = 3 = 4
(a) Una estimacin de la varianza dentro de los tratamientos que es independiente de H 0 : no hay que
suponer que las medias son iguales y se tratan por separado.
(b) Una estimacin de la varianza entre tratamientos que se basa en suponer que la H 0 es cierta(las
medias son iguales) y se hace un pool de datos para estimar la varianza.
9.5.1. Notacin
Antes de proseguir con el ejemplo, conviene repasar la notacin utilizada:
nj
29
N =
n
j =1
xi j
= n1 + n2 +
+ nk
xi j
x i 4 = 657,6400085
xii
xi j
x ii
S i j SC i
s 2b CMB
2
w
12 = 22 =
= 2k
F =
s 2b
s 2w
CM b
CM w
g . de l. b = b = k 1
g . de l. w = w = N k
es decir,
g . de l. b = b = k 1 = 3
g . de l. w = w = N k = 96
9.5.4. Regla de decisin
En ANOVA se rechaza la H 0 (no hay diferencias entre las medias de las subpoblaciones) si el estadstico
es mayor que el valor crtico F 1 , 2 ( ) que se encuentra en las correspondientes tablas.
La regla de decisin es:
30
n
x
A
xx
(x x)
26,59
0,546
0,298
43,61
-38,796
1505,138
26,35
26,349
694,286
34,02
34,015
1157,041 40,44
40,438
17,31
46,446
2157,273 25,17
20,94
36,425
45,86
45,859
2103,040 52,71
19,47
19,471
379,109
24,44
31,36
31,357
983,252
14,57
31,79
31,792
1010,712
-6,035
B
xx
(x x)
16,13 -11,743
C
xx
(x x)
172,341 33,17
D
xx
(x x)
6,862
47,090
1635,218 11,45
11,454
131,201
25,171
633,557 34,99
34,995
1224,626
52,711
2778,417 25,98
25,977
674,830
24,438
597,239 45,33
45,328
2054,582 25,15
25,151
632,584
14,570
212,283 40,63
40,628
1650,638 18,51
18,511
342,653
11,69
11,693
136,715 27,84
27,844
775,276 47,20
47,200
2227,880
31,57
31,567
996,461
24,44
24,439
597,251 32,66
32,657
1066,509 31,34
31,339
982,153
10
15,33
15,326
234,882
44,80
44,798
2006,868 21,34
21,342
455,481 34,92
34,920
1219,387
11
28,89
28,888
834,526
18,37
18,366
337,294 20,34
20,344
413,878 34,08
34,085
1161,768
12
12,10
12,096
146,304
28,36
28,361
804,329 32,48
32,478
1054,808 5,39
5,385
29,002
13
22,20
22,201
492,867
34,19
34,189
1168,909 19,80
19,800
392,049
8,73
8,735
76,299
14
29,29
29,285
857,621
21,26
21,264
452,162 22,72
22,725
516,403 27,35
27,345
747,774
15
39,56
39,556
1564,658
32,31
32,307
1043,723 26,72
26,718
713,865 32,12
32,120
1031,710
16
28,87
28,875
833,742
32,48
32,479
1054,894 37,66
37,659
1418,194 25,23
25,232
636,666
17
27,51
27,510
756,819
27,12
27,120
735,492 31,66
31,658
1002,236 22,05
22,046
486,045
18
28,36
28,356
804,085
11,05
11,047
122,030 20,55
20,548
422,209 35,41
35,406
1253,613
19
18,33
18,327
335,876
32,27
32,268
1041,215 35,36
35,363
1250,518 21,38
21,375
456,899
20
27,05
27,052
731,825
10,97
10,966
120,253 27,48
27,480
755,163 26,26
26,263
689,755
21
25,38
25,377
643,980
22,43
22,431
503,163 12,64
12,639
159,735 18,56
18,562
344,554
22
40,55
40,554
1644,621
34,27
34,271
1174,530 21,20
21,196
449,258 22,18
22,184
492,121
23
1,49
1,487
2,211
39,30
39,297
1544,262 17,53
17,529
307,249 28,23
28,235
797,209
24
27,42
27,422
751,966
26,47
26,474
700,896 34,85
34,848
1214,407 38,87
38,872
1511,046
25
29,79
29,795
887,713
34,55
34,551
1193,753 14,62
14,616
213,631 16,64
16,642
276,967
xi j =
1
nj
ni
x
i =1
ij
es decir
A
B
C
D
suma
26,044
27,870
27,695
26,306
2,636
La media global es
xii
1
=
N
nj
x
j =1 i =1
31
ij
es decir:
xii
1
=
N
nj
x
j = 1 i =1
ij
1
2697,87 = 26,979
100
Para calcular la suma de cuadrados entre grupos se suman las diferencias al cuadrado entre las medias
de cada tratamiento y la media global
SCB =
n (x
j =1
ij
x ii )
SCB =
n (x
j =1
x ii ) = 25 2,636 = 65,892
2
ij
La suma de cuadrados dentro de los grupos (tambin denominada cuadrados debidos al error) se calcula
sumando las diferencias al cuadrado de cada observacin y la media de su grupo respectivo:
SCW =
ni
( x
ij
j =1 i =1
xi j )
A
B
C
D
Suma (SCW)
1977,8
2645,749
2628,928
2279,242
9531,7
La suma de cuadrados total se calcula sumando las diferencias al cuadrado entre cada observacin y la
media global:
SCT =
ni
(x
j =1 i =1
ij
xii )
RESUMEN
grupos
recuento
suma
promedio
varianza
A
B
C
D
25
25
25
25
651,093
696,758
692,380
657,640
26,043
27,870
27,695
26,305
82,407
110,239
109,538
94,968
32
fuente de
variacin
ANLISIS DE VARIANZA
suma de grados de media de F
cuadrados libertad cuadrados
Entre grupos
Dentro de los grupos
65,891
9531,710
3
96
Total
9597,602
99
21,963 0,221
99,288
2,699
Mean Sq
22.0
99.3
F value
0.2212
Pr(>F)
0.8814
9.6. Conclusin
Se acepta la hiptesis nula H 0 ya que el valor observado de F es inferior al valor crtico para el nivel de
probabilidad fijado, = 0, 005 . En otras palabras, se dispone de suficiente evidencia (evidencia
significativa) para demostrar que la afectacin heptica debida a la influencia de los tratamientos A, B, C no
es la misma.
10. Ejemplo 2
El investigador selecciona otras cuatro entidades patolgicas y realiza idntico experimento. Los resultados
encontrados ahora son:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
18,76
28,66
41,34
46,39
30,84
20,51
29,94
24,12
18,52
11,10
16,37
33,93
27,30
8,58
25,90
11,82
27,18
1,35
31,82
29,55
53,49
40,35
40,88
48,99
35,39
29,94
62,82
53,74
54,58
58,49
43,66
53,03
31,90
29,92
51,42
47,36
27,74
59,72
49,00
44,09
30,53
21,59
13,6
38,19
37,22
30,3
22,82
21,88
12,87
29,62
23,08
44,55
27,3
28,87
19,39
39,15
44,28
28,56
21,1
22,22
60,81
41,92
35,65
42,75
46,25
33,42
53,77
51,35
56,53
57,73
47,09
50,58
30,44
48,74
58,63
46,41
39,43
37,36
40,24
44,39
33
21 19,87 47,21
22 22,17 71,33
23 34,29 45,10
24 21,36 39,17
25 21,43 57,10
La estadstica descriptiva en el programa MS-Excel es:
E
Media
Error tpico
Mediana
Moda
Desviacin estndar
Varianza de la muestra
Curtosis
Coeficiente de asimetra
Rango
Mnimo
Mximo
Suma
Cuenta
Nivel de confianza(95,0%)
Y en el paquete estadstico R:
E
F
Min.
: 1.35
Min.
:27.74
1st Qu.:18.76
1st Qu.:40.35
Median :24.12
Median :47.36
Mean
:24.12
Mean
:47.06
3rd Qu.:29.94
3rd Qu.:53.74
Max.
:46.39
Max.
:71.33
29,78
12,62
32,57
6,049
22,83
45,73
47,24
50,36
54,11
50,93
24,125
2,022
24,123
#N/A
10,112
102,245
0,409
-0,052
45,041
1,352
46,393
603,113
25
4,174
47,057
2,210
47,359
#N/A
11,048
122,065
-0,323
0,021
43,592
27,742
71,334
1176,427
25
4,561
G
Min.
: 6.049
1st Qu.:21.590
Median :27.300
Mean
:26.439
3rd Qu.:30.530
Max.
:44.550
34
26,439
1,957
27,297
#N/A
9,784
95,718
-0,229
0,017
38,497
6,049
44,546
660,982
25
4,038
H
Min.
:30.44
1st Qu.:41.92
Median :47.09
Mean
:46.87
3rd Qu.:51.35
Max.
:60.81
H
46,874
1,595
47,090
#N/A
7,974
63,591
-0,487
-0,232
30,371
30,438
60,809
1171,850
25
3,292
70
60
50
40
30
20
10
0
RESUMEN
grupos
recuento
suma
promedio
varianza
E
F
G
H
25
25
25
25
603,113
1176,427
660,982
1171,850
24,125
47,057
26,439
46,874
102,245
122,065
95,718
63,591
ANLISIS DE VARIANZA
fuente de
variacin
Entre grupos
Dentro de los grupos
11821,922
9206,841
3
96
Total
21028,763
99
3940,641 41,1
95,905
probabilidad
valor crtico
de F
0,000
2,699
35
Concluyndose que al ser la F observada (41,09) mayor que la F tabulada (2,70), existen diferencias
significativas entre las medias de los cuatro grupos de patologa considerados en este experimento
unifactorial, de efectos fijos y equilibrado.
36