Está en la página 1de 36

ANLISIS DE LA VARIANZA (ANOVA)

Notas
ndice
1. OBJETIVOS.....................................................................................................................1
2. INTRODUCCIN .............................................................................................................2
2.1. Modelo de constantes fijas (Modelo I)........................................................................................................ 2
2.2. Modelo de componentes de la varianza (Modelo II) .................................................................................. 2

3. NOMENCLATURA...........................................................................................................3
4. SUPOSICIONES .............................................................................................................3
5. LGICA DEL ANOVA......................................................................................................3
6. MODELOS DE EFECTOS FIJOS Y EFECTOS ALEATORIOS.......................................5
6.1. ANOVA de un factor con efectos fijos ........................................................................................................ 6
6.2. ANOVA de un factor con efectos aleatorios............................................................................................... 7
6.3. Solucin del ANOVA de un factor ............................................................................................................ 11
6.4. Resumen del ANOVA de un factor........................................................................................................... 13
6.5. Diferente tamao muestral: diseos no equilibrados ............................................................................... 15
6.6. Conclusiones estadsticas del ANOVA de un factor ................................................................................ 16

7. CONTRASTES ORTOGONALES PARA DISEOS EQUILIBRADOS ..........................17


7.1. Contrastes en diseos aleatorios ............................................................................................................. 18

8. ANOVA DE DOS FACTORES: DISEO COMPLETAMENTE ALEATORIZADO..........19


8.1. Resolucin del ANOVA de dos factores................................................................................................... 22

9. EJEMPLO 1 ...................................................................................................................27
9.1. Planteamiento........................................................................................................................................... 27
9.2. Diseo....................................................................................................................................................... 27
9.3. Procedimiento........................................................................................................................................... 27
9.4. Anlisis exploratorio (descriptivo)............................................................................................................. 28
9.5. Inferencia estadstica: ANOVA ................................................................................................................. 29
9.6. Conclusin ................................................................................................................................................ 33

10. EJEMPLO 2 .................................................................................................................33

1. Objetivos

Comprender los principios y suposiciones subyacentes al anlisis de la varianza (ANOVA);

Conocer los procedimientos de clculo de las suma de cuadrados, de los cuadrados medios o varianzas
y del estadstico F ;

Conocer los posibles contrastes de hiptesis;

Saber distinguir un diseo equilibrado de un diseo no equilibrado;

Saber distinguir un modelo de efectos fijos de un modelo aleatorio y de un modelo mixto;

Conocer el principio y procedimiento de clculo del estadstico F en cada uno de estos modelos.

2. Introduccin
El anlisis de la varianza (ANOVA) es uno de los tests estadsticos ms ampliamente utilizados para probar
la igualdad de ms de dos medias de la poblacin. Es decir:
Hiptesis:

H 0 : 1 = 2 = = k =

H 1 : por lo menos hay una media diferente al resto


Cuando se trata de comparar varias medias cabe la posibilidad de realizar comparaciones dos a dos
utilizando, por ejemplo el test t. Este procedimiento no es correcto. Si, como es habitual, se utiliza un valor
crtico del 5 % para comprobar la hiptesis de ausencia de diferencias entre las medias de las poblaciones,
el nivel de significacin real ser mucho mayor. Aunque todas las muestras procedieran de la misma
poblacin, una media del 5 % de los valores t superarn el valor crtico. Puede demostrarse que en 10
comparaciones independientes uno o ms valores de t superar el valor crtico t0,95 en un 40 % de
ocasiones. Es decir, es relativamente fcil rechazar la hiptesis nula por un valor espreo de t a causa de la
reiteracin de comparaciones. Una segunda razn es la prdida de precisin al estimar la varianza comn
cada dos grupos. Claro est que este problema se soluciona utilizando la varianza global, pero sigue en pie
el problema de la significacin.

2.1. Modelo de constantes fijas (Modelo I)


2.1.1. Clasificacin simple
Corresponde al caso de que un investigador desea comprobar la hiptesis nula de igualdad de las medios
de k poblaciones

, 2 , , k } Cada observacin o individuo se ha clasificado en una de las k

posibles categoras, grupos o poblaciones, todas ellas sometidas a anlisis. Por ejemplo:

Un laboratorio dispone de cuatro mtodos para determinar paratirina en plasma. Se desea comparar la
media de los resultados de una poblacin de referencia a la que se ha realizado las cuatro
determinaciones.

En un centro urbano existen tres laboratorios hospitalarios que realizan determinaciones de colesterol.
Se desea saber si la media anual de determinaciones diarias es la misma en los tres centros.

Se desea comparar la media de determinaciones de hematimetria solicitadas el pasado mes de enero


por los siete diferentes servicios quirrgicos de un hospital de tercer nivel.

2.1.2. Clasificacin mltiple


Cada observacin o individuo se ha clasificado en una de las k r s posibles categoras, grupos o
poblaciones (y nicamente en una de ellas), todas ellas sometidas a anlisis. Por ejemplo:

Un laboratorio dispone de cuatro mtodos para determinar paratirina en plasma y tres instrumentos
analticos donde implementarlos. Se desea comparar la media de los resultados de una poblacin de
referencia a la que se ha realizado las cuatro determinaciones en los tres instrumentos diferentes.

En un centro urbano existen tres laboratorios hospitalarios que realizan determinaciones de colesterol.
Se desea saber si la media anual de determinaciones diarias ha sido la misma en los tres centros
durante los ltimos cinco aos.

Se desea comparar la media de determinaciones de hematimetria solicitadas el pasado mes de enero


por los turnos de maana, tarde y noche de siete diferentes servicios quirrgicos de un hospital de
tercer nivel.

2.2. Modelo de componentes de la varianza (Modelo II)


El modelo de componentes de la varianza corresponde al caso de que un investigador desea comprobar la
hiptesis nula de igualdad de las medios de k poblaciones

, 2 , , k } cuando k puede ser

tericamente infinito, pero que en cualquier caso slo incluye en el estudio una muestra de las posibles
categoras, aunque esta seleccin sea aleatoria y representativa. Por supuesto, las observaciones
individuales pertenecen exclusivamente a una y solo una de las k posibles categoras, grupos o
poblaciones, todas ellas sometidas a anlisis. Aunque los procedimientos de clculo son idnticos, la
2

interpretacin conceptual es radicalmente diferente. En este caso se trata de generalizar las conclusiones a
todas las posibles categoras sin restringirse exclusivamente a las incluidas en el estudio, como sucede en
el modelo I. Por ejemplo:

Un laboratorio desea demostrar que la determinacin de un constituyente bioqumico se afecta por la


temperatura de conservacin. Prepara una serie de alcuotas de especmenes biolgicos a los que
pretende someter un perodo de tiempo variable a diferentes temperaturas. Obviamente, no puede
disponer de todas las temperaturas posibles ni de todos los perodos temporales posibles. Por tanto
elige como representativos de forma aleatoria cinco temperaturas y cinco perodos de tiempo. El
diseo corresponde a un experimento de dos factores analizable mediante un modelo II de ANOVA
cuyas hiptesis nulas seran ni la temperatura, ni el tiempo ni la combinacin de ambos influyen en la
conservacin del constituyente. Si se analizara desde la ptica del modelo I de ANOVA, la conclusin
sera la concentracin de constituyente no se afecta a 7 C, 17 C, 25 C, 30 C, ni a 32 C etc.

3. Nomenclatura

xi j

es la i-sima observacin en el j-simo tratamiento;

es el nmero de tratamientos, grupos o poblaciones estudiadas k = 2,,3, ;

nj

es el nmero de individuos en la jsima muestra. Si todas las k muestras tuvieran el mismo


contingente, se simplificar a n ;
k

N =n j

es el nmero total de observaciones o individuos: N =

xi j

es la suma de todas las observaciones en el j-simo tratamiento;

xii

es la suma de todas las observaciones del i-simo individuo;

xi j

es la media del j-simo tratamiento;

x ii

es la media global de todas las observaciones;

S i j SC i

es la suma de los cuadrados de la diferencia entre las observaciones y la media;

s 2b CMB

es la estimacin de la varianza entre grupos (b de between); CM indica cuadrados

j =1

n
j =1

= n1 + n2 +

+ nk

medios o media de los cuadrados;


2
w

s CMW es la estimacin de la varianza dentro de los grupos (w de within).

4. Suposiciones
1. Las k poblaciones son independientes;
2. El muestreo de cada una de las ( k > 2 ) poblaciones bajo estudio se hizo aleatoriamente;

3. Se trata de poblaciones normales o muestras grandes n j 30 j = 1, 2, , k ;


4. Las variaciones poblacionales son iguales 1 = 2 = = k = .
2

5. Lgica del ANOVA


Cuando se desea contrastar la equivalencia de varios tratamientos o grupos, se efectan observaciones en
muestras de poblaciones (grupos) caracterizadas por haber experimentado un tratamiento o proceder de un
grupo especfico. Las propiedades estadsticas de estas observaciones (localizacin, dispersin, forma)
son analizadas para extraer conclusiones acerca de la significacin del efecto. El contraste de las medias de
los subgrupos se realiza con el ANOVA.
3

Al final de estas notas se ejemplifica una aplicacin sencilla del ANOVA. Un escenario tpico del
laboratorio clnico es el expuesto en dicho ejemplo: un investigador desea conocer el efecto que tienen
varios tratamientos con frmacos sobre una magnitud bioqumica. Para ellos selecciona grupos de
individuos sometidos a estos tratamientos y realiza en cada uno de ellos una medicin de dicha magnitud
bioqumica. Si los tratamientos no afectan a la concentracin de la magnitud es de esperar que las medias
aritmticas de todos los grupos de individuos tratados sean iguales. Si un frmaco influye significativamente
sobre dicha magnitud, el test estadstico detectar esta diferencia como significativa. Es la misma situacin
que cuando se desea comparar diferentes grupos de diagnsticos, poblaciones, instrumentos o
procedimientos analticos, etc. Adems de la variable aleatoria concentracin del constituyente
(habitualmente continua), se asocia una variable clasificadora (habitualmente discreta y que no contiene
error). Esta variable clasificadora se denomina genricamente factor o tratamiento y los diferentes
valores que puede adoptar se denominan niveles o tratamientos. Los modelos ms sencillos contienen
un nico factor de clasificacin (modelos unifactoriales, o de una va one way). Sin embargo no son
excepcionales los modelos que contienen dos (bifactoriales o de dos factores) o ms factores (modelos
multifactoriales). La presencia de ms factores complica obviamente los clculos. En estas notas slo se
estudiarn los modelos con uno y dos factores.
La distribucin de una poblacin de datos se caracteriza completamente con unos parmetros estadsticos
que sintetizan toda la informacin que contiene dicha poblacin. En el caso de una distribucin normal,
media y varianza (o media y desviacin tpica) bastan para caracterizarla por completo. La inferencia
realizada con estos parmetros se denomina paramtrica en oposicin a la que se puede realizar sin
utilizarlos, la inferencia no paramtrica. Por lo general, cuando la distribucin subyacente es normal, la
inferencia paramtrica es ms potente y por tanto ms recomendable que la no paramtrica. sta debe
reservarse para cuando no se puede satisfacer los requisitos de los tests paramtricos.
Media y varianza son pues los dos parmetros que definen una distribucin normal. La varianza es el
parmetro de dispersin o escala de una poblacin que se estima en una muestra a partir de las conocidas
frmulas:

2 = E ( x )
=

s2
donde:

1
N

( y
i =1

1 N

= y 2i 2
N i =1
2
1 n
n
=
xi x )
x2
(

n 1 i =1
n 1

yi

son las observaciones en la poblacin;

xi

son las observaciones en una muestra;

2
s
N
n

es la varianza poblacional;
es la estimacin de la varianza en una muestra;
es el nmero de observaciones;
es el nmero de observaciones en una muestra;
es la media poblacional; y
es la media observada en la muestra.

(a) Si la variabilidad es aproximadamente la misma en cada grupo, su media ser un valor razonablemente
representativo de la variabilidad global. Por lo tanto, disponiendo de las k varianzas y calculando su
media se estima la varianza de la poblacin. Esta estimacin se denomina dentro de los grupos.

s 2w =

1 k 2
s j
k j =1

(b) Otro procedimiento de estimar la variabilidad global es calculando el error estndar de la las k medias
de cada uno de los k grupos que el investigador considera. Si las medias se calculan como:
4

xk =
donde:

xji

1
nk

nk

x
i =1

ki

es la i-sima observacin del grupo j ;

nj

es el nmero de observaciones efectuadas en el grupo j ;

xj

es la media de las observaciones efectuadas en el grupo j .

El error estndar de la media, es ( x ) , es el parmetro que se utiliza para definir la calidad de la


estimacin ya que relaciona el nmero de casos con la variabilidad. Se define como la desviacin tpica
de las medias de los k diferentes grupos, y se calcula como:

es ( x ) =

s
n

de donde se deduce:

sb2 = n ( es ( x ) )

A esta estimacin de la varianza global se denomina entre grupos


Parece razonable pensar que si los grupos han sido extrados de la misma poblacin, o que si el tratamiento
aplicado a cada uno de ellos no produce efectos significativamente diferentes, ambos procedimientos de
estimacin proporcionarn estimaciones de la varianza muy parecidas:

s 2w s 2b
s 2b
s 2w

Si por el contrario, algn grupo estudiado procede de otra poblacin o algn tratamiento aplicado produce
una respuesta distinta de las otras, estas estimaciones diferirn entre ellas y

s 2w s 2b
s 2b
s 2w

El test ANOVA se fundamenta en el clculo de este cociente, denominado estadstico F y su contraste con
el valor tabulado. La distribucin de F depende de los grados de libertad del numerador y del denominador
del cociente. Esencialmente, los grados de libertad son una forma de relacionar el nmero de observaciones
o grupos los datos con las entradas en las tablas estadsticas.

6. Modelos de efectos fijos y efectos aleatorios


El investigador puede utilizar todos los elementos posibles de la variable clasificadora (cuando sea,
lgicamente, un conjunto finito: por ejemplo, gnero que contiene slo dos elementos masculino o
femenino) o una parte de estos de criterios (por ejemplo, edad y limitarse a pacientes de menos de 20
aos, pacientes entre 20 y 50 aos y pacientes de ms de 50 aos, aunque es obvio que puede haber
ms grupos refinando el criterio edad). Como consecuencia existen dos modelos de ANOVA: el modelo fijo
y el modelos aleatorio.
En los modelos de efectos fijos los grupos de tratamiento bajo estudio (por ejemplo tres medicaciones
capaces de producir hepatotoxicidad) representan todos los tratamientos en que el investigador est
interesado. En las conclusiones puede llegarse a la evidencia de que existen (o no) diferencias significativas
entre la hepatotoxicidad marcada por una magnitud bioqumica, a causa del efecto producido por los
diferentes tratamientos estudiados.
En los modelos de efectos aleatorios, se seleccionan al azar los tratamientos para investigar entre un
conjunto de tratamientos mucho ms amplio. Supngase que se dispone de cientos de posibles
tratamientos farmacolgicos capaces de inducir hepatotoxicidad. Por las razones que sean, el investigador
5

se limita a seleccionar aleatoriamente tres de ellos. La conclusin a la que pretende llegar el investigador es
poder afirmar que existen (o no) pruebas significativas de diferencias entre las medias entre los efectos
inducidos por los tratamientos farmacolgicos en general sobre el hgado aunque de hecho slo se haya
estudiado un subconjunto. Bsicamente se trata de generalizar los resultados al conjunto de tratamientos ya
que para ello se ha seleccionado aleatoriamente un subconjunto para la investigacin.
En el modelo de efectos fijos las conclusiones aplican al tratamiento estudiado. Para los efectos aleatorios,
se requiere otra lgica, como se ver mas adelante.

6.1. ANOVA de un factor con efectos fijos


6.1.1. Suma de cuadrados
Para toda observacin x i j se pueden determinar las siguientes diferencias:
(a) diferencia de esta observacin a la media global:

xi j = x i j x
(b) diferencia de esta observacin a la media de su grupo

xi j = x i j x j
Restando ambas:

xi j xi j = ( x i j x ) ( x i j x j )
= xj x
= dj

d j = xi j xi j
xi j = d j + xi j
elevando al cuadrado

( x )

ij

= ( d j + xi j )

= d 2j + ( xi j ) + 2 d j xi j
2

y generalizando
k

( xi j ) = n d 2j +
2

j =1

Como que

x
j =1

ij

( xi j ) + 2 d j xi j
2

j =1

j =1

= 0 se tiene:
k

( xi j ) = n d 2j +
2

j =1

( x )
j =1

ij

y generalizando
k

( xi j )

= n d 2j

j =1 i =1
k

( x
j =1 i =1

SCT

j =1
k

j =1

= SCB

( x )
j =1 i =1

x ) = n( x j x ) +
2

ij

( x
j =1 i =1

SCW

ij

ij

xj)

donde:

( x )
j =1 i =1

ij

( x
j =1 i =1

ij

x)

SCT

expresa la variacin total de los sujetos que


intervienen en torno a la media;

n d 2j

j =1

n ( xj x )

SCB

expresa la variacin grupo a grupo, es decir de las

j =1

medias de cada grupo con relacin a la media


global.
k

( xij )

j =1 i =1

( x
j =1 i =1

ij

x j ) SCW expresa la variacin intragrupo, en torno a la media


2

del grupo;
6.1.2. Grados de libertad

suma de grados de
cuadrados libertad
SCT
( N 1) la nica condicin fija que han de respetar las N observaciones es el valor
de la media total. Sus grados de libertad, ( N 1) , pueden traducirse por el
clculo de la media total implica la prdida de un grado de libertad con
relacin al conjunto de las N puntuaciones

SCB

( k 1)

SCW

(N k)

ya que existen tantas medias de grupos como grupos, el conjunto de k


puntuaciones nicamente tendr como condicin fija el valor de la media total
en el clculo de la media de cada grupo se pierde un grado de libertad. Por
tanto se perdern tantos grados de libertad como grupos

Entre los grados de libertad se establece la misma relacin que para la suma de cuadrados:

g .l.T

( N 1)

g.l.B +

( k 1)

g.l.W

(N k)

6.1.3. Cuadrados medios o varianzas


Dividiendo las sumas de cuadrados por sus respectivos grados de libertad, se obtienen las varianzas.
La estimacin de la varianza total del modelo se har mediante:
(a) La varianza intergrupo, B , cuadrado medio intergrupo o cuadrado medio de los tratamientos es:
2

2B =

SCB
SCB
=
g.l.B
k 1

(b) La varianza intragrupo, W , cuadrado medio intragrupo, cuadrado medio del error experimental es:
2

W2 =

SCW
SCW
=
g .l.W
N k

6.2. ANOVA de un factor con efectos aleatorios


Diseo completamente aleatorizado es aquel en que los tratamientos son asignados al azar a las unidades
experimentales o viceversa. En el modelo unifactorial la variable analizada (dependiente) se hace depender
de un solo factor (variable independiente). El resto de causas de variacin se engloban en el componente
aleatorio del error experimental.
Una variable sobre la que acta un factor que se presenta bajo un nmero de k niveles o tratamientos y
con n unidades experimentales por grupo.

Suposiciones bsicas (similares a la regresin)

Aditividad;

Linealidad;

Normalidad;

Independencia;

Homogeneidad de varianzas.

La variable dependiente xi j puede ser representada por el modelo estadstico lineal:

xi j = + j + i j
donde: xi j

es el valor de la variable dependiente X del sujeto i para el tratamiento j ;

i = 1, 2, , n
j = 1, 2, , k

es el efecto medio verdadero;

es el efecto verdadero del j-simo tratamiento o nivel del factor A (la variable independiente
incluida en el modelo);

i j

efecto verdadero de la i-sima unidad del j-simo tratamiento (incluir los efectos de

variables extraas). Es una variable aleatoria N 0,

).

6.2.1. Suposiciones bsicas del modelo general

(a) i j se distribuye idnticamente y normal: i j DNI 0,

que xi j DNI i ,

) . Esto implica mutuamente (y viceversa)

(b) j :en el caso que el investigador est interesado en los k tratamientos o niveles del factor presentes
k

en el experimento se tendr

j =1

= 0 y el modelo se denominar modelo de efectos fijos o

modelo I. Si por el contrario, el investigador est interesado en una poblacin de niveles del factor e
los que nicamente est presente en el experimento una muestra aleatoria, entonces

j DNI ( 0, 2 ) y se denomina modelo de efectos aleatorios, modelo de componentes de la

varianza o modelo II;


(c) : el efecto total y verdadero producido por el nivel o tratamiento j es:

j = + j
donde

es la media poblacional de todas las observaciones de cada uno de los grupos

si

xi j = + j + i j
xi j = j + i j
por tanto:

i j = xi j j
y de

j = j
se obtiene:

xi j

= +

xi j

= +

(x

ij

que se estima:

) =

(x

ij

x) =

(x

i j

) + ( xi j j )

) + ( xi j j )

x ) + ( xi j x j )

xj = xj x
i j = xi j xi
1 n
1 n
x
=
x ( + i + i j ) = + i + i j
ij n
n j =1
j =1

xj =
x =

1
N

1
N

xi j =
j =1

+ i + i x =
j =1

N n
+
N N

i +i

j = a j = ( x j x )

La mejor estimacin de

(x

ij

) = ( j ) + ( x i j j )

se obtendr substituyendo las medias por la estimacin muestral:

(x

Y las estimaciones de j y i

ij

x ) = ( x j x ) + ( xi j x j )

son:

j = x j x 1
ij = x i j x j
x =

1
N

xi j =

1
N

( + j + i j ) = +
j = 1 i =1

n
j = ( x j x ) = ( + j + ij ) +
N

E ( j ) = +
donde:

E ( i ) = 0 ,ya que E ( j ) = +

n
N

n
N

j =1

j =1

n
N

j =1

j =1

+ i

+ E ( i )

( )

j
y por tanto, para que E

= j es preciso

que:

Para que la estimacin sea insesgada debe cumplir: x j =

1 n
1 n
x
=
(
ij n
n j =1
j =1

= + j + i j

n
N

j =1

j =1

Por lo tanto se requiere que

j =1

= 0

Generalizando (y sumando) los cuadrados de x i j x


n

( x i j x )

= 0

= 0 para estimar insesgadamente el parmetro j como j

(condicin para el modelo de efectos fijos).

) = (x

= n(x j x )

j =1 i =1

x ) + ( xi j x j )

j =1

( x
j =1 i =1

SCT

SCB

total

tratamientos

ij

xj)

SCW

+ error experimental

Teorema fundamental del ANOVA


Este teorema permite dividir la variacin total asociada a un conjunto de datos en dos componentes de
variabilidad:
(a) la asociada a los efectos de los tratamientos; y
(b) la asociada a otras fuentes de variacin (error experimental)
Se demuestra que son independientes los trminos de la suma:
k

n (x j x ) +
2

j =1

( x
j =1 i =1

i, j

xj)

y que divididos por siguen una distribucin k 1, n k . El cociente de dos independientes, divididas
2

por sus respectivos grados de libertad, se distribuye como:

F 1 , 2
donde: 1

es el nmero de grados de libertad del numerador; y

es el nmero de grados de libertad del denominador.

SCB
2k 1
2
SCW
2N k
2

luego:

SCB
2
k 1
SCW
2
N k

cuadrado medio intergrupos de tratamientos


grados de libertad ( k 1)
cuadrado medio intragrupo, o error experimental
grados de libertad ( N k )

F permite contrastar la H 0 que puede ser:

10

F k 1 , N k

H 0 : x1 = x 2 = = x k
H 0 : 1 = 0
es decir, no hay diferencias en trminos estadsticos entre las medias de distintos grupos, tratamientos o
niveles.

6.3. Solucin del ANOVA de un factor


6.3.1. Tabulacin
Recapitulando, la tabla original de datos aparecer como:

datos

1
x11

2
x21

x1 2

x2 2

x1 n

x
i =1

medias de grupo

x1

k
xk 1

xk 2

x2 n

totales de grupo

xk n
n

1i

i =1

2i

i =1

x2

ki

xk

6.3.2. Clculos
Recordando que
n

( xi j )

= n d 2j

j =1 i =1
k

j =1

( xi j x ) = n ( x j x ) +
j =1 i =1

SCT

j =1

= SCB

( x )
k

SCW

(a) Suma de cuadrados totales SCT


Se vio como la SCT era:
k

( x
j =1 i =1

desarrollando el segundo trmino:

11

ij

j =1 i =1

x)

ij

( x

se proceder ahora a calcular SCT , SCB , y SCW

SCT =

j =1 i =1

ij

xj )

( x

ij x)

j =1 i =1

( x

2
ij

j =1 i =1
k

+ x 2 2 xi j x )

xi2j + N x 2 2 x xi j

j =1 i =1

j =1 i =1

k n
xi j
k
n
j =1 i =1
2
= xi j + N

N
j =1 i =1

k n

xi j
2 j =1 i =1

k n

xi j
k
n
j =1 i =1

= xi2j +
N
j =1 i =1
k n

xi j
k
n
j =1 i =1

= xi2j
N
j =1 i =1

k n

xi j
j =1 i =1

2
N

k n
xi j
j =1 i = 1

(b) Suma de cuadrados totales SCB


Se vio como la SCB era:
k

SCB = n ( x j x )

j =1

desarrollando el segundo trmino:


k

n (x j x )

j =1

= n ( x 2j + x 2 2 x j x )
j =1

n x
j =1

2
j

+ k n x2 2x n x j
j =1

n
xi j
k
i =1
= n

n
j =1

k n

xi j
+ k n j =1 i =1

k n

x
xi j

i
j
k
i =1
+ j =1 i =1
=
n
N
j =1
2

n
xi j
k
i =1
ya que: n
n
j =1

k n

x
xi j

i
j
k
i =1 j =1 i =1

n
N
j =1
n

x
j =1 i =1

ij

y k n= N

12

k n

xi j
2 j =1 i =1

n
k xi j
n i =1
j =1 n

k n
k n

x
i j xi j
j =1 i =1
j =1 i =1
2
N
2

(c) Suma de cuadrados totales SCW


Se vio como la SCW era:

SCT = SCB + SCW


(d) Determinacin de grados de libertad
Total:

N 1

Tratamientos:

k 1

Error experimental:

N k

(e) Clculo de los cuadrados medios de los tratamientos ( CMB ) y del error experimental ( CMW )

CMB =
CMW =

suma de cuadrados de los tratamientos


SCB
=
grados de libertad de los tratamientos
k 1
suma de cuadrados del error experimental
SCW
=
grados de libertad del error experimental
N k

(f) Clculo de F

CMB
CMW

F =
que se interpretar frente a Fk 1 , N k
6.3.3. Tabla de ANOVA

Todos estos clculos se agrupan habitualmente en forma de tabla (de ANOVA) que tiene la siguiente forma:

fuente de
variacin

suma de
cuadrados

grados de
libertad

cuadrados
medios

intergrupo o
intertratamiento

SCB

k 1

CMB

intragrupo o error
experimental
total

SCW

N k

CMW

SCT

N 1

F =

CMB
CMW

6.3.4. interpretacin del estadstico F


La interpretacin del estadstico F calculado se comparar con el tabulado con ( k 1) y

(N k)

grados

de libertad al nivel de significacin elegido. Si el valor F obtenido es menor que el tabulado se acepta la
H 0 de que no existen diferencias en la media de los grupos o tratamientos (al menos en alguna de ellas).

6.4. Resumen del ANOVA de un factor


6.1.1. Modelo de efectos fijos
Cuando el investigador se interesa solamente por los niveles presentes en el experimento.
Restricin:
k

j =1

H 0 : toda variacin es debida al error experimental. Si se cumple, la media de los cuadrados (la varianza)
que depende de la fuente de variacin, los tratamientos, ser igual al error experimental y F=1. En caso
contrario los tratamientos aadirn variabilidad al error experimental.
Los cuadrados medios sern:
13

(a) Media de cuadrados totales. No intervendr en los clculos de F, pero por coherencia se la menciona:

N 1

( x
i =1 j =1

k
2
1

x
=
n
2j + 2
)

i, j
N

1
j =1

(b) Media de cuadrados esperada de los tratamientos, numerador en el clculo de F :


k
k
1
2
1

n (x j x j ) =
n 2j + 2
n 1 j =1
k 1 j =1

(c) Media de cuadrados esperada del error experimental, denominador en el clculo de F :

N k

( x
i =1 j =1

i, j

2
x j ) = 2

6.4.2. Modelo de efectos aleatorios


Cuando el investigador se interesa solamente por una poblacin de niveles (tericamente infinita) de la que
slo una muestra aleatoria est presente en el experimento. Es decir:

N ( 0, 2 )

H 0 : toda variacin es debida al error experimental. Si se cumple, la media de los cuadrados (la varianza)
que depende de la fuente de variacin, los tratamientos, ser igual al error experimental y F = 1 , porque el

CMB ser igual al CMW . En caso contrario, los tratamientos aadirn variabilidad al error experimental y
F >1 .
Los cuadrados medios sern:
(a) Media de cuadrados esperada de los tratamientos, CMB , numerador en el clculo de F :
k
1
2

n ( x j x j ) = n 2j + 2
k 1 j =1

Bajo la H 0 el CMB est formado por dos componentes: el error experimental y el error debido al

tratamiento, es decir al factor en estudio. En el trmino de la derecha, el primer sumando


corresponde al efecto de los tratamientos y el segundo al experimental.
(b) Media de cuadrados esperada del error experimental, CMW , denominador en el clculo de F :

N k

( x
i =1 j =1

i, j

2
x j ) = 2

Por tanto hay dos componentes: el error experimental y el error debido al tratamiento, es decir al factor
en estudio.

modelo

fuente de variacin

(en todos)

intragrupos (experimental)

H0
2

efectos fijos

tratamiento

efectos
aleatorios

tratamiento

14

CM bajo
H1
2
k
1
2
+
n 2j
k 1 j =1

2 + n 2

6.5. Diferente tamao muestral: diseos no equilibrados


Hasta ahora se han considerado diseos en que cada tratamiento consta de un mismo nmero de
observaciones experimentales. Esto es deseable porque simplifica los clculos pero no siempre es posible.

xi, j = + j + i, j

El modelo general ser:


donde: j = 1, 2, , k

son los tratamientos;

i = 1, 2, , n k

son los casos en cada grupo o tratamiento; y

N = n1 + n 2 + + n k =

n
j =1

es el nmero total de observaciones.

Las tablas sern similares:

fuente de
variacin
entre grupos

dentro de los
grupos o
error
experimental
total

suma de cuadrados
2

nj
k nj

x i j

i
j
k
i =1
j =1 i =1

SCB =
ni
N
j =1

g. de
l.
k 1

SCW = SCT SCB

k nj

x i j

j =1 i =1

nj

SCT = x 2i j
j =1 i =1

CMB =

CMW =

N k

CM bajo
H0
H1

CM

SCB
k 1
SCW
k 1

2 +
2

j =1

F
2
j

F=

CMB
CMW

k 1

N 1

Tabla de ANOVA para el modelo de efectos fijos en diseo no equilibrado

fuente de
variacin

suma de cuadrados

entre grupos

nj
k nj

x i j

i
j
k
i =1
j =1 i =1

SCB =
ni
N
j =1

dentro de los
grupos o
error
experimental

SCW = SCT SCB

total

k nj

x i j
j =1 i =1

nj

SCT = x 2i j
j =1 i =1

g. de
l.

CM

CM bajo la
H0
H1

k 1

CMB =

CMB
k 1

2 + n 0 2 2

N k

CMW =

SCW
k 1

N 1

Tabla de ANOVA para el modelo de efectos aleatorios en diseo no equilibrado

n 2j

k
1
j =1
2
donde: n 0 =
nj k

k 1 j =1
nj

j =1

2 =

2
N
n 2j

j =1
=

N ( k 1)

( SCE SCW ) N ( k 1)
k

N 2 n 2j
j =1

15

F=

CMB
CMW

Es decir, la nica diferencia est en que bajo la H 1 , la media de cuadrados es diferente.

6.6. Conclusiones estadsticas del ANOVA de un factor


Se pueden extraer tres tipos de conclusiones:
(a) hiptesis acerca del efecto de los tratamientos;
(b) estimaciones de los componentes de la varianza;
(c) estimacin de los efectos medios de los tratamientos (intervalos de confianza para las medias de los
tratamientos.
6.6.1. Hiptesis acerca del efecto de los tratamientos
La H 0 : no hay diferencias entre los efectos de los k tratamientos.
En el modelo de efectos fijos:

1 = 0 F =

media de cuadrados de los tratamientos


media de cuadrados del error experimental

frente a Ft 1, N t ( ) .
Si F < Ft 1, N t ( ) no se rechaza la H 0 ; si F > Ft 1, N t ( ) se rechaza la H 0 y se puede afirmar que
hay diferencias entre algunas medias.
Para investigar qu medias son diferentes se procede al estudio de comparaciones de contrastes entre
medias posteriores al ANOVA. Entre los tests ms populares estn:
(a) test del recorrido mltiple de Duncan para diseos equilibrados;
(b) test de la diferencia honestamente significativa de Tukey (HSD) o diferencia mnima significativa,
basado en la distribucin t ;
(c) test de Scheff que permite contrastar diferencias entre medias y entre combinaciones lineales, incluso
en diseos no equilibrados;
(d) test de comparaciones mltiples de Tukey, como el anterior permite contrastar diferencias entre medias
y entre combinaciones lineales, pero requiere que el diseo sea equilibrado.
1. Contrastes directos de medias
2. Contrastes de combinaciones lineares de medias
Las combinaciones lineares son sumas ponderadas cuyos pesos, ponderaciones o coeficientes no son
iguales. De forma genrica:

C m = w1 x1 + w 2 x 2 + + w k x k
donde: C m

es el valor de una determinada comparacin entre medias;

w1 , w 2 , , w k son las k ponderaciones para una determinacin dada, con el requisito de que
k

w
j =1

=0;

x1 , x 2 , , x k son las k medias de cada grupo.


Por ejemplo, en un experimento con tres grupos o tratamientos

( A, B ,C )

donde el ANOVA ha demostrado

que existen medias significativamente diferentes, se desea investigar las posibles (combinaciones) de
diferencias entre los mencionados tres grupos o tratamientos:

16

w1

w2

w3

Cm

A vs B

C 1 = 1 x1 + ( 1) x 2 + 0 x 3

A vs C

C 2 = 1 x1 + 0 x 2 + ( 1) x 3

B vs C

C 3 = 0 x1 + 1 x 2 + ( 1) x 3

A vs B vs C

1
1
C 4 = x1 + x 2 + ( 1) x 3
2
2

La interpretacin estadstica de la inferencia sobre diferencias entre medias viene dada por un test t :

t =
=
w12 w22
w2k
+
+ +
n1 n 2
nk

donde: s d = CMW

s d = CMW

w
j =1

1
( x1 x 2 )
sd
1
Cm
sd

que cuando se trata de un diseo equilibrado equivale a

2
j

y se compara con una t g . del . de w ( ) .

7. Contrastes ortogonales para diseos equilibrados


Ortogonal significa aqu independiente y representa que la suma de los coeficientes de dos comparaciones
es nula. Los contrastes con combinaciones lineales de medias cuya suma de coeficientes sean cero, se
denominan contrastes ortogonales.
Pueden realizarse a partir de las observaciones de los tratamientos porque la suma de cuadrados del
ANOVA se puede descomponer en k 1 sumas: tantas como grados de libertad de forma que a cada
componente le corresponde un grado de libertad.
Para comprobar la significacin de un contraste, se calculan:

Cm
1

n1

n2

nk

i =1

i =1

i =1

n1

n2

nk

i =1

i =1

i =1

n1

n2

nk

i =1

i =1

i =1

C 1 = w11 x i 1 + w1 2 x i 2 + + w1 k x i k
C 2 = w2 1 x i 2 + w2 2 x i 2 + + w2 k x i k
C k = wk 1 x i k + wk 2 x i k + + wk k x i k

Dos contrastes sern ortogonales cuando:


k

w
j =1

i1

wi 2 = 0
17

en general los contrastes sern ortogonales cuando:


k

w
j =1

ir

wi s = 0

En diseos equilibrados se denomina suma de cuadrados del contraste ( SCC ) al valor

SCC =

C 2j
k

w
j =1

donde: C j

2
i j

es un componente de la suma de cuadrados de los tratamientos con un grado de libertad.

Cada contraste es un componente de la varianza de la suma de cuadrados de los tratamientos debiendo


verificar:

SCB = SCC 1 + SCC 2 + + SCC k 1


Y puesto que el nmero de grados de libertad es uno, el valor de la media de cuadrados es el mismo que el
de la suma de cuadrados.
El valor del estadstico F correspondiente a un contraste es:

FC 1 =
FC 2 =

FC k 1 =

CMC 1
CMWE
CMC 2
CMWE
CMC k 1

CMWE
que son interpretados de la forma habitual comparando las F observadas con F1, k 1 .
7.1. Contrastes en diseos aleatorios
La H 0 es no hay diferencias entre los efectos medios de todos los tratamientos de la poblacin de la que
se obtienen al azar una muestra de k tratamientos incluidos en el estudio. Se trata, pues, de contrastar:

H 0 : 2 = 0
siguiendo los mismos clculos.

Diferencias entre modelos:

Ms conceptual que operativo;

Las conclusiones se refieren a poblaciones diferentes: en el modelo de efectos aleatorios permite mayor
generalizacin

En diseos ms complicados (bifactoriales, etc.) las F sern diferentes.


Estimacin de los componentes de la varianza
En ambos modelos, equilibrados o no, la mejor estimacin de la variabilidad de poblacin, , es el error
2

experimental CMW. En el modelo de efectos aleatorios es posible estimar como:


2

2 =

CMB CMW
coeficiente de 2 en CMB

denominador que vara segn est o no equilibrado.

18

7.1.1. Intervalos de confianza de las medias


La estimacin puntual de la media i de cada grupo es x i :

=
x
n
Y que CMW es una estimacin no sesgada de :
2

sx =

CMW
n

xi t

CMW
n

de donde:

donde: t

depende del nivel de significacin y de los grados de libertad de w .

8. ANOVA de dos factores: diseo completamente aleatorizado


Hasta este punto el modelo unifactorial aleatorizado con k tratamientos era:

i = 1, 2, , n

j = 1, 2, , k

xi j = + j + i j
Supngase que hay dos factores

( A, B)

cada uno de ellos con a y b niveles respectivamente. El modelo

pasa a ser ahora:

xi pq = + p + q + ( p q ) + i pq
donde: x i p q

i = 1, 2, , n

p = 1, 2, , a
q = 1, 2, , b

es el i-simo resultado de la unidad experimental con n observaciones, sometida a los


tratamientos A y B para la combinacin de tratamientos a b ;

es el efecto medio verdadero;


es el efecto (verdadero) del p-simo tratamiento o nivel del factor A (primera variable
independiente introducida en el modelo);

es el efecto (verdadero) del q-simo tratamiento o nivel del factor B (segunda variable
independiente introducida en el modelo);

p q es el efecto (verdadero) de la interaccin entre el p-simo tratamiento o nivel del factor A


y el q-simo tratamiento o nivel del factor B ;
i p q es el efecto (verdadero) de la i-sima unidad experimental en la p,q-sima combinacin de
tratamientos.
Asumiendo que:

es una constante

i p q DNI ( 0, 2 )

Suponiendo el modelo

xi pq = + p + q + ( p q ) + i pq

Las condiciones de i p q implican a su vez que:


19

x i p q DNI ( p q , 2 ) ,
donde:

pq

es la media global (verdadera) producida por la accin de A y B , la media de puntuacin

de cada casilla.
Se tiene, por tanto:

p q = + p + q + ( ) p q
xi p q = pq + p + q + ( ) p q + i p q
Definicin de los efectos principales y error experimental:

p = p

p = + p

q = q

q = +q

i p q = x i p q p q
Teniendo en cuenta:

xi p q = + p + q + ( ) p q + i p q
y

p = + p
q = +q
se tiene:

xi p q = + ( p ) + ( q ) + ( ) p q + ( x i p q p q )

Para que sea realmente una identidad, deber verificarse que:

( )
pq

= + pq p q

que definen la p,q-sima interaccin:

( ) p q

= + pq p q
( ) = + p q ( p ) ( p )

pq

p = + p
= ( + p q ) ( p + p )

q = + q

Es decir, la interaccin ( ) p q es el resultado de restar al efecto + p q

) de las casillas o celdas

los efectos principales p y q .


Volviendo al modelo general

xi p q = + ( p ) + ( q ) + ( + p q p q ) + ( xi p q p q )

cuya mejor estimacin se obtendr substituyendo las medias poblaciones por la medias muestrales:

xi pq = x + ( x p x ) + ( x q x ) + ( x + x pq x p x q ) + ( xi pq x pq )

es decir,

(x

i pq

(x

x ) + ( x q x ) + ( x + x pq x p xq ) + ( xi pq x pq )

se tiene que

20

pq

ap

= p

= xp x

bq

= q

= xq x

( ) p q

(a b) pq

= + p q p q

= x + x pq x p xq

Como quiera que se desea que tales estimaciones sean insesgadas, se tiene:

E(a p )
E (bq )
E(a b

) pq

a
a

=
0

a p = 0
p =1
p =1

b
b

= p
0
b
0

=
=

q
q

q =1

q =1

= q
a
a

( ) = 0
( a b ) = 0
= ( ) p q
pq
pq

p =1
p =1

( ) p q = 0 ( a b ) p q = 0

q =1
q =1

Elevando al cuadrado y sumando la expresin

(x

i pq

(x

x ) + ( x q x ) + ( x + x pq x p xq ) + ( xi pq x pq )

y teniendo en cuenta que la suma de los productos cruzados se anula, se tiene

(x

i pq

suma de cuadrados totales


a

= b n (x p x ) +
2

variacin debida al factor A

p =1

+ a n ( xq x ) +
2

variacin debida al factor B

q =1

+ n ( x + x p q x p x q ) +
2

variacin debida a la interaccin

p =1 q =1

( x
i =1 p =1 q =1

i pq

x pq )

error experimental

Cada una de las sumas de cuadrados es independiente de las restantes;

Cada una de las sumas de cuadrados, divida por

se distribuye como una donde son los

grados de libertad:

SCA
2a 1
2

SCB
2b 1
2
SC ( AB )
2a 1 , b 1
2

SCW
2N ab
2

21

Por tanto,

SCA
a 1
SCB
CMB =
b 1
CMA =

CM ( AB ) =
CMW =

SC ( AB )
( a 1)( b 1)

SCW
N ab

y como:

SCA

2
g . de l. de A
SCB 2

g . de l. de B

2g . de l . de A
2g . de l . de B

= Fg . de l . de A , g . de l . de B

se tiene:

SCA
( a 1) F
CMA
=
a 1 , N ab
SCW
CMW

N
a
b
(
)
SCB
( b 1) F
CMB
=
b 1 , N ab
SCW
CMW

N
a
b
(
)
8.1. Resolucin del ANOVA de dos factores
En este punto, la descomposicin de la suma de cuadrados es en tres partes:
(a) Los factores;
(b) La interaccin entre factores;
(c) El error experimental.
Es decir,

SCW =

( x
i =1 p =1 q =1

=
i pq x )

SCT = n ( x p q x )
p =1 q =1

( x )
i pq

i =1 p =1 q =1

p =1 q =1

(x )
i pq

n a b

x i p q
i =1 p =1 q =1

n a b

x i p q
i = 1 p =1 q =1

SCB = SCW SCT


donde: N =

x
i =1 p =1 q =1

i pq

Con lo que la tabla de ANOVA adquiere este nuevo aspecto (por ejemplo, en el caso en que el factor A
tiene dos niveles y el B tres niveles:
22

ap

a1

bq

totales de
grupo

totales de grupo
por efectos B

a2

b1

b2

b3

b1

b2

b3

x111

x1 2 1

x1 3 1

x 2 11

x2 21

x2 31

x11 2

x1 2 2

x1 3 2

x21 2

x2 2 2

x2 3 2

x11 n

x1 2 n

x1 3 n

x21 n

x2 2 n

x2 3 n

x11 i

x21i

i =1

x
p =1 i = 1

i =1

x1 2 i

x1 2

q =1 i =1

x1 3

p =1 i =1

x21

p 3i

q =1 i =1

p2i

i =1

x1 q i
x11

x2 3 i

i =1

p =1 i =1

x1 3 i

p1i

i =1

totales de
grupo por
efectos A
medias de
grupo

x2 2 i

i =1

x2 2

2qi

x2 3

En los totales de grupo figuran los resultados de sumar los valores de todas las observaciones para cada
combinacin de tratamientos.
El objetivo de los diseos factoriales es determinar qu parte de la variacin entre grupos (o tratamientos)
es atribuible a cada uno de los factores en estudio y que parte a la interaccin.

( A + B ) )no deben ser


( A B ) ). La suma de los

Los efectos conjuntos del factor A y del factor B (que aqu se representa como
confundidos con el efecto de la interaccin (que aqu se representa como

cuadrados que cuantifica los efectos debidos a cada uno de los factores y a la interaccin entre ellos ser:
2
2
n a b
n a b

x i p q x i p q
a
b
i =1 p =1 q = 1
i =1 p =1 q = 1

SC ( A + B ) =

n
N
p =1 q =1

La suma de cuadrados que cuantifica los efectos de los factores principales A y B ser, respectivamente:
2
2
b n
n a b

x1 q i x i p q
a
q =1 i =1
i =1 p =1 q =1

SC ( A ) =

b
n
N
p =1

23

2
2
a n
n a b

x1 q i x i p q
b
p =1 i =1
i =1 p =1 q =1

SC ( B ) =

an
N
q =1

Restando estas dos sumas de cuadrados a la correspondiente a los efectos conjuntos se obtendr la suma
de cuadrados de la interaccin entre A y B :

SC ( A B) = SC ( A + B ) ( SC ( A ) + SC ( B ) )

Hasta ahora los grados de libertad asociados a cada fuente de variacin eran:

fuente de variacin
entre grupos o tratamientos

ab 1

error experimental (intragrupo)

N ab

total

N 1

Verificndose que

N 1 = ( a b 1) + ( N a b )
Cuando aparece la interaccin entre A y B , hay que descomponer tambin los grados de libertad
correspondientes a la fuente de variacin entre grupos o tratamientos entre los factores principales y la
interaccin:

fuente de variacin
grupo o tratamiento A
grupo o tratamiento B
interaccin ( A B )

( a 1)( b 1)

total entre grupos o tratamientos

ab 1

Verificndose que

a b 1 = ( a 1) + ( b 1) +

a 1
b 1

( ( a 1)( b 1) )

Con la suma de cuadrados y los grados de libertad pueden calcularse las medias de cuadrados y elaborarse
la tabla de ANOVA completa

fuente de
variacin
entre grupos

SC

CM

grupo o tratamiento A

SC ( A )

a 1

CM ( A )

grupo o tratamiento B

SC ( B )

b 1

CM ( B )

SC ( A B )

( a 1)( b 1)

CM ( A B )

interaccin

( A B)

ab 1

total entre grupos o tratamientos


intragrupos
(experimental)
total

SCW

N ab

SCT

N 1

CMW

Las suposiciones respecto a los parmetros en un diseo factorial de dos factores pueden adoptar las
siguientes formas:

ambos efectos son fijos (modelo I);

ambos efectos son aleatorios (modelo de componentes de la varianza o modelo II);

un efecto es fijo y el otro aleatorio (modelo mixto o modelo III).

24

En el de efectos fijos (modelo I), el investigador est interesado en comprobar la significacin de los a
niveles del factor o tratamiento A y los b niveles del factor o tratamiento B (todos ellos presentes en el
experimento u observacin) adems de la interaccin

( A B)

entre ambos factores.

En el de efectos aleatorios (modelo de componentes de la varianza o modelo II), el investigador est


interesado en comprobar la significacin de los efectos del tratamiento A a travs de una muestra de a
niveles de este factor o tratamiento escogidos aleatoriamente entre todos los posibles (tericamente
infinitos) y los efectos del tratamiento B a travs de una muestra de b niveles de este factor o tratamiento
escogidos aleatoriamente entre todos los posibles (tericamente infinitos), adems de la interaccin

( A B)

entre ambos factores.


En el modelo de efectos mixtos (modelo III), el investigador est interesado en comprobar la significacin de
los efectos de un tratamiento (por ejemplo, el A ) cuyos niveles estn todos ellos presentes en el
experimento u observacin y los efectos de otro tratamiento (por ejemplo, el B ) a travs de una muestra de
b niveles de este factor o tratamiento escogidos aleatoriamente entre todos los posibles (tericamente
infinitos), adems de la interaccin

( A B)

entre ambos factores.

Si se cumple la H 0 , la varianza esperada de todas las fuentes de variacin ( A) , ( B ) , ( A B ) ,

( ) . Si no se cumple la

a la varianza del error experimental

) ser igual

H 0 , se debe a que alguno de los factores

principales o su interaccin aaden una variacin adicional a . Segn cada modelo, estas varianzas o
cuadrados medios bajo la H 0 o bajo la hiptesis alternativa H 1 son:
2

intragrupos (experimental)

H0
2

CM bajo
H1
2

entre grupos

2 + n b

modelo

fuente de variacin

(en todos)
efectos fijos

2p

grupo o tratamiento A

p =1

grupo o tratamiento B

+ na
q =1

interaccin
efectos
aleatorios

entre grupos

efectos mixtos

entre grupos

b 1

( ) p q
+ n
p =1 q =1 ( a 1) ( b 1)
a

grupo o tratamiento A

2 + n b 2 + n 2

grupo o tratamiento B

2 + n a 2 + n 2

2 + n 2

interaccin
3

( A B)

2q

a 1

( A B)

grupo o tratamiento A

+ nb
2

p =1

grupo o tratamiento B
interaccin

( A B)

2p
a 1

+ n 2

2 + n a 2

2 + n 2

Bajo estos modelos se pueden contrastar las siguientes hiptesis

Se considerar nicamente la posibilidad de que por ejemplo sea A el factor de efectos fijos y B el factor
de efectos aleatorios. En caso contrario basta con intercambiar la notacin, cosa que obviamente es trivial,
salvo que exista un factor con preeminencia sobre el otro (modelos jerrquicos).
25

modelo

( ) p q
2

efectos fijos

2p = 0

2q = 0

efectos aleatorios

2 = 0

2 = 0

2 = 0

efectos mixtos

2p = 0

2 = 0

2 = 0

=0

El cociente entre cuadrado medio estudiado y el cuadrado medio intragrupos o error experimental seala la
importancia relativa de este componente

fuentes de
variacin
factor A

CM ( B )
CMW

F=

CM ( B )
CM ( A B )

CM ( A B )
CMW

F=

CM ( A B )
CM (W )

F=

factor B
interaccin

modelo
efectos aleatorios
CM ( A )
F=
CM ( A B )

efectos fijos
CM ( A )
F=
CMW

( A B)

F=

efectos mixtos
CM ( A )
F=
CMW
CM ( B )
F=
CM ( A B )
F=

CM ( A B )
CM (W )

Si en el modelo de efectos fijos el contraste de hiptesis concluye que la interaccin no es significativa,


puede aadirse a la suma de cuadrados de la interaccin la suma de cuadrados del error experimental de
modo que, dividiendo por el nmero de grados de libertad resultante:

( a 1)( b 1) + ( N a b ) = N a b + 1
2
se pueda estimar la variacin experimental ( CMW ) o y reformular el modelo:
xi p q = + p + q + i p q
En caso de que no exista interaccin significativa, se complica la interaccin porque el significado de efecto
principal se diluye (de hecho, la interaccin se puede considerar otro efecto ms) y porque el clculo de
F pudiera resultar inapropiado ya que los cuadrados medios pueden estar sesgados.
Si en el modelo de efectos aleatorios el contraste de hiptesis concluye que la interaccin es significativa,
puede estimarse la varianza respectiva de cada factor:

SC ( A ) = s 2 + n s 2( A B ) + b n s 2( A)
SC ( B ) = s 2 + n s 2( A B ) + a n s 2( B )
SC ( A B ) = s 2 + n s 2( A B )
donde: s ( AB ) =
2

s ( A) =
2

2
( B)

SC ( A B ) SCW
;
n

SC ( A ) SCW n s 2( A B )
bn

SC ( B ) SCW n s 2( A B )
an

SC ( A ) SC ( A B )
;
bn

SC ( B ) SC ( A B )
.
an

26

Por ltimo, si en el modelo de efectos mixtos, el contraste de hiptesis concluye que la interaccin es
significativa, puede estimarse la varianza respectiva de cada factor (teniendo en cuenta en el caso que se
considera que el factor A es fijo y por tanto no tiene variabilidad):

SC ( B ) = s 2 + a n s 2( B )
SC ( A B ) = s 2 + n s 2( A B )
2

donde: s ( AB )

tiene el mismo valor de antes; y:

s 2( B ) =

SC ( B ) SCW
.
an

9. Ejemplo 1
9.1. Planteamiento
Se desea comparar las diferencias en las concentraciones de un marcador de hepatopata (AST) en
pacientes sometidos a cuatro tratamientos mdicos.
El investigador plantea realizar un experimento consistente en medir este constituyente del plasma en
cuatro grupos de pacientes afectados de una determinada enfermedad a los que se ha tratado con sendos
frmacos que se identificarn como A , B , C y D .

9.2. Diseo
El investigador decide utilizar un diseo de anlisis de la varianza de efectos fijos, unifactorial y equilibrado.

9.3. Procedimiento
Para verificar o rechazar la hiptesis de que los tratamientos no afectan a la concentracin de AST, se
selecciona un total de N = 100 pacientes a los que asigna n j = 25 (diseo equilibrado) a cada uno de los
cuatro grupos de forma aleatoria y procede a la determinacin en cada paciente la concentracin cataltica
de AST.
A efectos de este ejemplo se asumir que los valores analticos se distribuyen segn la ley normal. Los
resultados (ficticios) obtenidos son:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

26,589
43,612
26,349
17,307
20,943
19,471
31,357
31,792
31,567
15,326
28,888
12,096
22,201
29,285
39,556

16,127
28,982
34,015
46,446
45,859
24,438
14,570
11,693
24,439
44,798
18,366
28,361
34,189
21,264
32,307

14,567
16,095
40,438
25,171
52,711
45,328
40,628
27,844
32,657
21,342
20,344
32,478
19,800
22,725
26,718

33,168
32,435
11,454
34,995
25,977
25,151
18,511
47,200
31,339
34,920
34,085
5,385
8,735
27,345
32,120

27

16
17
18
19
20
21
22
23
24
25

28,875
27,510
28,356
18,327
27,052
25,377
40,554
1,487
27,422
29,795

32,479
27,120
11,047
32,268
10,966
22,431
34,271
39,297
26,474
34,551

37,659
31,658
20,548
35,363
27,480
12,639
21,196
17,529
34,848
14,616

25,232
22,046
35,406
21,375
26,263
18,562
22,184
28,235
38,872
16,642

9.4. Anlisis exploratorio (descriptivo)


El estudio estadstico descriptivo realizado con el programa MS-Excel es:

Media
26,044 27,870 27,695 26,306
Error tpico
1,816
2,100
2,093
1,949
Mediana
27,422 28,361 26,718 26,263
Moda
#N/A
#N/A
#N/A
#N/A
Desviacin estndar
9,078 10,500 10,466
9,745
Varianza de la muestra
82,408 110,240 109,539 94,968
Curtosis
1,338 -0,673 -0,237
0,119
Coeficiente de asimetra
-0,530
0,027
0,593 -0,267
Rango
42,125 35,480 40,072 41,815
Mnimo
1,487 10,966 12,639
5,385
Mximo
43,612 46,446 52,711 47,200
Suma
651,093 696,759 692,380 657,640
Cuenta
25
25
25
25
Nivel de confianza (95,0%)
3,747
4,334
4,320
4,023
La misma informacin proporcionada por el paquete estadstico R es:
A
Min.
: 1.487
1st Qu.:20.943
Median :27.422
Mean
:26.044
3rd Qu.:29.795
Max.
:43.612

B
Min.
:10.97
1st Qu.:21.26
Median :28.36
Mean
:27.87
3rd Qu.:34.19
Max.
:46.45

C
Min.
:12.64
1st Qu.:20.34
Median :26.72
Mean
:27.70
3rd Qu.:34.85
Max.
:52.71

D
Min.
: 5.385
1st Qu.:21.375
Median :26.263
Mean
:26.305
3rd Qu.:33.168
Max.
:47.200

La representacin grfica, el diagrama de cajas es el grfico que proporciona ms informacin y ms visual,


utilizando el paquete estadstico R es la siguiente. Los grupos A a D se identifican como 1 a 4. En
ordenadas se representa el valor numrico de la variable medida, AST.

28

50
40
30
20
10
0

Del grfico de cajas y del anlisis descriptivo se deduce que la media es prcticamente idntica en todos los
grupos, as como la dispersin a pesar de ser considerablemente amplia.

9.5. Inferencia estadstica: ANOVA


En ANOVA se desea comprobar la siguiente hiptesis:

H 0 : 1 = 2 = 3 = 4

H 1 : las medias no son todas iguales al menos hay una que no lo es


= 0, 05
Si las medias son iguales (si es cierta la H 0 : 1 = 2 = = k = ) se interpretar como que todos los
pacientes proceden de la misma poblacin, que no existen diferencias significativas entre los cuatro cuadros
patolgicos, que pueden combinarse entre ellos, etc.
El ANOVA compara la variacin dentro de las muestras con la variacin entre las muestras para evaluar la
igualdad de las medias de la poblacin. Si las observaciones dentro de una muestra son de valores
similares (poca variacin interna) y las medias son diferentes a travs de muestras (gran variacin
intermuestral) entonces se dice que existe una diferencia significativa entre las medias de la poblacin.
Para demostrar la H 0 se calculan dos estimaciones de la varianza global de la poblacin :
2

(a) Una estimacin de la varianza dentro de los tratamientos que es independiente de H 0 : no hay que
suponer que las medias son iguales y se tratan por separado.
(b) Una estimacin de la varianza entre tratamientos que se basa en suponer que la H 0 es cierta(las
medias son iguales) y se hace un pool de datos para estimar la varianza.
9.5.1. Notacin
Antes de proseguir con el ejemplo, conviene repasar la notacin utilizada:

es el nmero de tratamientos, en este ejemplo, k = 4 ;

nj

es el nmero de observaciones realizadas en cada uno de los k grupos de tratamiento;

29

es el nmero total de observaciones. Es la suma de las n j observaciones realizadas:

N =

n
j =1

xi j

= n1 + n2 +

+ nk

es la i-sima observacin en el j-simo tratamiento. Por ejemplo: la tercera observacin del


cuarto tratamiento es 11,454

xi j

es la suma de todas las observaciones en el j-simo tratamiento, por ejemplo

x i 4 = 657,6400085
xii

es la suma de todas las observaciones del i-simo individuo;

xi j

es la media del j-simo tratamiento, por ejemplo x i 3 = 27,695 ;

x ii

es la media global de todas las observaciones, en el ejemplo: x ii = 425,403 ;

S i j SC i

es la suma de los cuadrados de la diferencia entre las observaciones y la media;

s 2b CMB

es la estimacin de la varianza entre grupos (b de between); CM indica cuadrados


medios o media de los cuadrados;

2
w

s CMW es la estimacin de la varianza dentro de los grupos (w de within)


9.5.2. Suposiciones
1. Las muestras son aleatorias de cada una de las tres poblaciones bajo estudio;
2. La distribucin de la AST es aproximadamente normal;
3. Las tres poblaciones son independientes;
4. Las varianzas de las poblaciones son iguales:

12 = 22 =

= 2k

9.5.3. Seleccin del estadstico


El estadstico a calcular es F , la proporcin entre la varianza entre grupos y la varianza dentro de los
grupos:

F =

s 2b
s 2w

CM b
CM w

Los grados de libertad del numerador ( g . de l. 1 ) y del denominador ( g . de l. 2 ):

g . de l. b = b = k 1
g . de l. w = w = N k
es decir,

g . de l. b = b = k 1 = 3
g . de l. w = w = N k = 96
9.5.4. Regla de decisin
En ANOVA se rechaza la H 0 (no hay diferencias entre las medias de las subpoblaciones) si el estadstico
es mayor que el valor crtico F 1 , 2 ( ) que se encuentra en las correspondientes tablas.
La regla de decisin es:

30

Rechazar H 0 si F F 1 , 2 ( ) y, alternativamente, no rechazar H 0 si F F 1 , 2 ( )


9.5.5. Procedimiento de clculo
Si se deseara realizar los clculos manualmente, utilizando por ejemplo una hoja de clculo, se dispondrn
tantas filas como casos y las columnas que corresponden a los clculos intermedios:

n
x

A
xx

(x x)

26,59

0,546

0,298

43,61

-38,796

1505,138

28,98 -81,258 6602,815 16,10 -93,443 8731,643 32,43 -62,534 3910,452

26,35

26,349

694,286

34,02

34,015

1157,041 40,44

40,438

17,31

-2680,57 7185428,8 46,45

46,446

2157,273 25,17

20,94

36,425

45,86

45,859

2103,040 52,71

19,47

19,471

379,109

24,44

31,36

31,357

983,252

14,57

31,79

31,792

1010,712

-6,035

B
xx

(x x)

16,13 -11,743

C
xx

137,896 14,57 -13,128

(x x)

172,341 33,17

D
xx

(x x)

6,862

47,090

1635,218 11,45

11,454

131,201

25,171

633,557 34,99

34,995

1224,626

52,711

2778,417 25,98

25,977

674,830

24,438

597,239 45,33

45,328

2054,582 25,15

25,151

632,584

14,570

212,283 40,63

40,628

1650,638 18,51

18,511

342,653

11,69

11,693

136,715 27,84

27,844

775,276 47,20

47,200

2227,880

31,57

31,567

996,461

24,44

24,439

597,251 32,66

32,657

1066,509 31,34

31,339

982,153

10

15,33

15,326

234,882

44,80

44,798

2006,868 21,34

21,342

455,481 34,92

34,920

1219,387

11

28,89

28,888

834,526

18,37

18,366

337,294 20,34

20,344

413,878 34,08

34,085

1161,768

12

12,10

12,096

146,304

28,36

28,361

804,329 32,48

32,478

1054,808 5,39

5,385

29,002

13

22,20

22,201

492,867

34,19

34,189

1168,909 19,80

19,800

392,049

8,73

8,735

76,299

14

29,29

29,285

857,621

21,26

21,264

452,162 22,72

22,725

516,403 27,35

27,345

747,774

15

39,56

39,556

1564,658

32,31

32,307

1043,723 26,72

26,718

713,865 32,12

32,120

1031,710

16

28,87

28,875

833,742

32,48

32,479

1054,894 37,66

37,659

1418,194 25,23

25,232

636,666

17

27,51

27,510

756,819

27,12

27,120

735,492 31,66

31,658

1002,236 22,05

22,046

486,045

18

28,36

28,356

804,085

11,05

11,047

122,030 20,55

20,548

422,209 35,41

35,406

1253,613

19

18,33

18,327

335,876

32,27

32,268

1041,215 35,36

35,363

1250,518 21,38

21,375

456,899

20

27,05

27,052

731,825

10,97

10,966

120,253 27,48

27,480

755,163 26,26

26,263

689,755

21

25,38

25,377

643,980

22,43

22,431

503,163 12,64

12,639

159,735 18,56

18,562

344,554

22

40,55

40,554

1644,621

34,27

34,271

1174,530 21,20

21,196

449,258 22,18

22,184

492,121

23

1,49

1,487

2,211

39,30

39,297

1544,262 17,53

17,529

307,249 28,23

28,235

797,209

24

27,42

27,422

751,966

26,47

26,474

700,896 34,85

34,848

1214,407 38,87

38,872

1511,046

25

29,79

29,795

887,713

34,55

34,551

1193,753 14,62

14,616

213,631 16,64

16,642

276,967

Las medias de cada tratamiento son

xi j =

1
nj

ni

x
i =1

ij

es decir

A
B
C
D
suma

26,044
27,870
27,695
26,306
2,636

La media global es

xii

1
=
N

nj

x
j =1 i =1

31

ij

es decir:

xii

1
=
N

nj

x
j = 1 i =1

ij

1
2697,87 = 26,979
100

Para calcular la suma de cuadrados entre grupos se suman las diferencias al cuadrado entre las medias
de cada tratamiento y la media global

SCB =

n (x
j =1

ij

x ii )

que en el ejemplo representan:

SCB =

n (x
j =1

x ii ) = 25 2,636 = 65,892
2

ij

La suma de cuadrados dentro de los grupos (tambin denominada cuadrados debidos al error) se calcula
sumando las diferencias al cuadrado de cada observacin y la media de su grupo respectivo:

SCW =

ni

( x

ij

j =1 i =1

xi j )

De modo que la suma de cuadrados dentro de los grupos ser:

A
B
C
D
Suma (SCW)

1977,8
2645,749
2628,928
2279,242
9531,7

La suma de cuadrados total se calcula sumando las diferencias al cuadrado entre cada observacin y la
media global:

SCT =

ni

(x
j =1 i =1

ij

xii )

Pero teniendo en cuenta que:

SCT = SCB + SCW


puede calcularse directamente:

SCT = 65,892 + 9531, 7 = 9597,6


9.5.5. Organizacin de los clculos
Con el fin de organizar los clculos se acostumbra a establecer una tabla. Las dos siguientes forman parte
de la respuesta del programa MS Excel:

RESUMEN
grupos

recuento

suma

promedio

varianza

A
B
C
D

25
25
25
25

651,093
696,758
692,380
657,640

26,043
27,870
27,695
26,305

82,407
110,239
109,538
94,968

32

fuente de
variacin

ANLISIS DE VARIANZA
suma de grados de media de F
cuadrados libertad cuadrados

Entre grupos
Dentro de los grupos

65,891
9531,710

3
96

Total

9597,602

99

21,963 0,221
99,288

probabilidad valor crtico


de F
0,881

2,699

Por su parte el paquete estadstico R ofrece el siguiente resultado:


Response: z$AST
Df
Sum Sq
z$factor
3
65.9
Residuals 96
9531.7

Mean Sq
22.0
99.3

F value
0.2212

Pr(>F)
0.8814

9.6. Conclusin
Se acepta la hiptesis nula H 0 ya que el valor observado de F es inferior al valor crtico para el nivel de
probabilidad fijado, = 0, 005 . En otras palabras, se dispone de suficiente evidencia (evidencia
significativa) para demostrar que la afectacin heptica debida a la influencia de los tratamientos A, B, C no
es la misma.

10. Ejemplo 2
El investigador selecciona otras cuatro entidades patolgicas y realiza idntico experimento. Los resultados
encontrados ahora son:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

18,76
28,66
41,34
46,39
30,84
20,51
29,94
24,12
18,52
11,10
16,37
33,93
27,30
8,58
25,90
11,82
27,18
1,35
31,82
29,55

53,49
40,35
40,88
48,99
35,39
29,94
62,82
53,74
54,58
58,49
43,66
53,03
31,90
29,92
51,42
47,36
27,74
59,72
49,00
44,09

30,53
21,59
13,6
38,19
37,22
30,3
22,82
21,88
12,87
29,62
23,08
44,55
27,3
28,87
19,39
39,15
44,28
28,56
21,1
22,22

60,81
41,92
35,65
42,75
46,25
33,42
53,77
51,35
56,53
57,73
47,09
50,58
30,44
48,74
58,63
46,41
39,43
37,36
40,24
44,39

33

21 19,87 47,21
22 22,17 71,33
23 34,29 45,10
24 21,36 39,17
25 21,43 57,10
La estadstica descriptiva en el programa MS-Excel es:

E
Media
Error tpico
Mediana
Moda
Desviacin estndar
Varianza de la muestra
Curtosis
Coeficiente de asimetra
Rango
Mnimo
Mximo
Suma
Cuenta
Nivel de confianza(95,0%)
Y en el paquete estadstico R:
E
F
Min.
: 1.35
Min.
:27.74
1st Qu.:18.76
1st Qu.:40.35
Median :24.12
Median :47.36
Mean
:24.12
Mean
:47.06
3rd Qu.:29.94
3rd Qu.:53.74
Max.
:46.39
Max.
:71.33

29,78
12,62
32,57
6,049
22,83

45,73
47,24
50,36
54,11
50,93

24,125
2,022
24,123
#N/A
10,112
102,245
0,409
-0,052
45,041
1,352
46,393
603,113
25
4,174

47,057
2,210
47,359
#N/A
11,048
122,065
-0,323
0,021
43,592
27,742
71,334
1176,427
25
4,561

G
Min.
: 6.049
1st Qu.:21.590
Median :27.300
Mean
:26.439
3rd Qu.:30.530
Max.
:44.550

El correspondiente diagrama de cajas es:

34

26,439
1,957
27,297
#N/A
9,784
95,718
-0,229
0,017
38,497
6,049
44,546
660,982
25
4,038

H
Min.
:30.44
1st Qu.:41.92
Median :47.09
Mean
:46.87
3rd Qu.:51.35
Max.
:60.81

H
46,874
1,595
47,090
#N/A
7,974
63,591
-0,487
-0,232
30,371
30,438
60,809
1171,850
25
3,292

70
60
50
40
30
20
10
0

El ANOVA correspondiente, ya en forma de tabla es:

RESUMEN
grupos

recuento

suma

promedio

varianza

E
F
G
H

25
25
25
25

603,113
1176,427
660,982
1171,850

24,125
47,057
26,439
46,874

102,245
122,065
95,718
63,591

ANLISIS DE VARIANZA
fuente de
variacin

suma de grados de media de


F
cuadrados libertad cuadrados

Entre grupos
Dentro de los grupos

11821,922
9206,841

3
96

Total

21028,763

99

3940,641 41,1
95,905

probabilidad

valor crtico
de F

0,000

2,699

Analysis of Variance Table


Response: z2$AST2
Df
Sum Sq
Mean Sq
F value
Pr(>F)
z2$Factor2
3 11822.5
3940.8
41.091
< 2.2e-16 ***
Residuals
96
9207.0
95.9
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

35

Concluyndose que al ser la F observada (41,09) mayor que la F tabulada (2,70), existen diferencias
significativas entre las medias de los cuatro grupos de patologa considerados en este experimento
unifactorial, de efectos fijos y equilibrado.

36

También podría gustarte