Analisis de La Varianza Apuntes

También podría gustarte

Está en la página 1de 83

ndice

ndice _______________________________________________________________ 1
TU

UT

Anlisis de varianza ____________________________________________________ 4


TU

UT

1. Introduccin: objetivos del anlisis de varianza ________________________ 5


TU

UT

2. Un caso ms simple: comparacin de dos muestras independientes: pruebas Z


TU

y t para la diferencia entre las medias de dos poblaciones. _________________ 7


UT

1.2. El caso de varianzas poblacionales conocidas_________________________ 7


TU

UT

2.2. El caso de varianzas poblacionales desconocidas ______________________ 9


TU

UT

1.2.2. Test de Levene de homogeneidad de varianzas ____________________ 9


TU

UT

2.2.2. Test de Bartlett de homogeneidad de varianzas ___________________ 10


TU

UT

3.2.2. Varianzas poblacionales desconocidas e iguales __________________ 11


TU

UT

4.2.2. Varianzas poblacionales desconocidas y distintas _________________ 12


TU

UT

3.2. Test de bondad de ajuste de Kolmogorov-Smirnov ___________________ 13


TU

UT

3. Extensin al caso de k poblaciones: anlisis de varianza unifactorial ______ 16


TU

UT

1.3. Introduccin __________________________________________________ 16


TU

UT

2.3. Objetivos y terminologa ________________________________________ 18


TU

UT

3.3. Hiptesis previas ______________________________________________ 20


TU

UT

1.3.3. Normalidad _______________________________________________ 20


TU

UT

2.3.3. Homocedasticidad _________________________________________ 20


TU

UT

4.3. Hiptesis nula y alternativa en anlisis de varianza ___________________ 20


TU

UT

5.3. Ecuacin fundamental __________________________________________ 21


TU

UT

1.5.3. Anlisis de las desviaciones de los individuos respecto a la media global


TU

UT

_____________________________________________________________ 22
2.5.3. Los cuadrados de las desviaciones. Sumas de cuadrados____________ 23
TU

UT

6.3. Cuadrados medios _____________________________________________ 25


TU

UT

7.3. El estadstico de contraste. Distribucin F de Fisher-Snedecor __________ 26


TU

UT

8.3. Contrastes a posteriori: Scheff y Tukey____________________________ 28


TU

UT

9.3. Esquema general del anlisis de varianza unifactorial _________________ 29


TU

UT

4. Anlisis de varianza con dos factores e interaccin_____________________ 30


TU

UT

1.4. Objetivos y terminologa ________________________________________ 30


TU

UT

2.4. Hiptesis nulas en anlisis de varianza con dos factores________________ 30


TU

Anlisis de varianza. JGM. 9/3/04

UT

Pg. 1

1.2.4. Hiptesis nula sobre el primer factor ___________________________ 31


TU

UT

2.2.4. Hiptesis nula sobre el segundo factor __________________________ 32


TU

UT

3.2.4. Hiptesis nula sobre la interaccin de los factores _________________ 32


TU

UT

3.4. Ecuacin fundamental del anlisis de varianza bifactorial ______________ 33


TU

UT

1.3.4. Anlisis de las desviaciones de los individuos respecto a la media global


TU

UT

_____________________________________________________________ 34
2.3.4. Los cuadrados de las desviaciones. Sumas de cuadrados. ___________ 37
TU

UT

4.4. Cuadrados medios _____________________________________________ 40


TU

UT

5.4. Estadsticos de contraste y decisin sobre las hiptesis nulas ____________ 42


TU

UT

1.5.4. La F de Fisher-Snedecor _____________________________________ 42


TU

UT

2.5.4. Modelos de efectos fijos y modelos de efectos aleatorios ___________ 42


TU

UT

3.5.4. Estadsticos de contraste para el caso en el que ambos factores sean fijos
TU

UT

_____________________________________________________________ 43
4.5.4. Estadsticos de contraste para el caso en el que ambos factores sean
TU

aleatorios______________________________________________________ 44
UT

5.5.4. Estadsticos de contraste para el caso en el que un factor sea fijo y el otro
TU

aleatorio ______________________________________________________ 45
UT

6.5.4. Decisin sobre la veracidad de las hiptesis nulas _________________ 46


TU

UT

5. Un ejemplo de anlisis de varianza unifactorial _______________________ 48


TU

UT

1.5. Enunciado del ejemplo _________________________________________ 48


TU

UT

2.5. Formulacin de la hiptesis nula __________________________________ 48


TU

UT

3.5. Comprobacin de los requisitos de normalidad y homocedasticidad ______ 49


TU

UT

1.3.5. Normalidad _______________________________________________ 49


TU

UT

2.3.5. Homocedasticidad _________________________________________ 51


TU

UT

4.5. Anlisis de las desviaciones de los individuos respecto a la media global __ 53


TU

UT

5.5. Cuadrados de las desviaciones y sumas de cuadrados _________________ 57


TU

UT

6.5. Cuadrados medios _____________________________________________ 58


TU

UT

7.5. El estadstico de contraste. Decisin sobre la hiptesis nula_____________ 59


TU

UT

8.5. Contrastes a posteriori __________________________________________ 60


TU

UT

6. Un ejemplo de anlisis de varianza bifactorial ________________________ 62


TU

UT

1.6. Enunciado del ejemplo _________________________________________ 62


TU

UT

2.6. Formulacin de las hiptesis nulas ________________________________ 63


TU

UT

3.6. Anlisis de las desviaciones de los individuos respecto a la media global __ 64


TU

Anlisis de varianza. JGM. 9/3/04

UT

Pg. 2

4.6. Los cuadrados de las desviaciones. Sumas de cuadrados._______________ 68


TU

UT

5.6. Cuadrados medios _____________________________________________ 71


TU

UT

6.6. Los estadsticos de contraste. Distribucin en el muestreo y decisin. _____ 74


TU

UT

1.6.6. Primera prueba de hiptesis. El efecto del frmaco ________________ 74


TU

UT

2.6.6. Segunda prueba de hiptesis. El efecto de la rehabilitacin__________ 76


TU

UT

3.6.6. Tercera prueba de hiptesis. El efecto de la interaccin entre el frmaco y


TU

la rehabilitacin ________________________________________________ 78
UT

Bibliografa _______________________________________________________ 81
TU

UT

Otros recursos _____________________________________________________ 82


TU

UT

Anexo ____________________________________________________________ 83
TU

UT

Anlisis de varianza. JGM. 9/3/04

Pg. 3

Anlisis de varianza
El anlisis de varianza surge directamente asociado con el trabajo experimental. El
procedimiento elemental del trabajo experimental consiste en la manipulacin de una
variable X acompaada por la observacin de otra variable Y que se supone
relacionada con la anterior-. Si a una modificacin en aqulla le sigue un cambio en sta
y adems este cambio tiene lugar en la direccin esperada- estaremos tentados de
afirmar que las modificaciones en el valor de X causan cambios en el valor de Y. Sin
embargo, esta relacin de causalidad no se puede mantener de no haber diseado el
experimento del modo adecuado. Por ejemplo, si no se puede asegurar que todas las
dems variables que han podido influir sobre Y se han mantenido constantes durante el
experimento no se podra afirmar, desde el enfoque clsico de la experimentacin, que
X cause Y. De aqu la obsesin del experimentalista clsico por mantener todo lo
dems constante el imposible ceteris paribus-, modificando nicamente el valor de X.
No es hasta la aparicin de la obra de Sir Ronald A. Fisher The Design of
Experiments que los experimentalistas encuentran una nueva va para dotar de validez
a su trabajo, abandonando el vano objetivo de mantener todo lo dems constante. Se
descubri que la clave para controlar que no eliminar- la influencia de variables
extraas en la variable respuesta se encontraba en la aleatorizacin. El experimentalista
no deba ya preocuparse por mantener las condiciones experimentales constantes. Para
distinguir qu parte de los cambios en la variable respuesta se deba a los factores de
inters y qu parte a otros factores no considerados resultaba suficiente garantizar una
asignacin aleatoria de los individuos las llamadas unidades experimentales- a los
distintos grupos conformados por las modalidades de los factores que se deseaba
estudiar como posibles explicaciones del fenmeno.
Surgi as el anlisis de la varianza como la tcnica estadstica que permite distinguir
qu parte de la variacin en la variable Y que mide el fenmeno en estudio- se debe a
la variacin en la variable explicativa X y qu parte se debe a otros factores.

Anlisis de varianza. JGM. 9/3/04

Pg. 4

1. Introduccin: objetivos del anlisis de varianza


El anlisis de varianza es una de las tcnicas estadsticas que se pueden aplicar cuando
se trata de examinar la influencia de una o ms variables de naturaleza cualitativa en
otra de naturaleza cuantitativa1. Cada una de las variables cualitativas determina con
TP

PT

sus modalidades- una particin en el universo objeto de estudio. Se tratara, por tanto,
de analizar si los subconjuntos que conforman la correspondiente particin las
subpoblaciones que en la poblacin original induce la variable cualitativa- presentan
diferentes valores promedio en cuanto a la variable cuantitativa. En este caso diramos
que el factor considerado tiene un efecto llamado efecto principal del factor- sobre la
variable dependiente. Adicionalmente, en el caso de que se consideren varias variables
explicativas, cada n-pla de ellas determina una particin adicional en el universo. El
estudio de los promedios en los conjuntos de esta nueva particin puede suponer el
descubrimiento de un efecto de interaccin llamado efecto de interaccin de orden nsimo- entre los factores que conforman la n-pla.
En otras palabras, el anlisis de varianza busca una explicacin a los cambios en el valor
de la variable cuantitativa en el conjunto de individuos que conforma la poblacin y
considera, como posible motivo de estos cambios, la pertenencia de dichos individuos a
los grupos que configurados por los distintos niveles de las variables cualitativas. Este
anlisis en el sentido estricto del trmino2- permite establecer qu parte de la
TP

PT

variabilidad de la variable cuantitativa se puede atribuir a la pertenencia de los


individuos a uno u otro grupo y qu parte se debe a factores ajenos a los considerados
por el investigador. La importancia relativa de cada uno de estos sumandos en la
variabilidad total determinar la capacidad explicativa de las variables cualitativas.

Se habla as de anlisis unifactorial, con una nica variable explicativa, y multifactorial, con dos o ms

TP

PT

variables explicativas. El trmino anlisis multivariante de la varianza se reserva para el caso en el que el
nmero de variables cuantitativas a explicar es superior a uno.

PT

2
T

Distincin y separacin de las partes de un todo hasta llegar a conocer sus principios o elementos.
TP

Anlisis de varianza. JGM. 9/3/04

Pg. 5

Como ya se ha mencionado, el anlisis de varianza se encuentra ntimamente


relacionado con el diseo de experimentos3. En este sentido son muchos y muy variados
TP

PT

los modelos de diseo experimental que cabe presentar, aunque, por razones de
brevedad y por su especial inters se ha optado por mostrar con cierta profundidad dos
de los ms utilizados.
En concreto, en los siguientes apartados se exponen los fundamentos del anlisis de
varianza para los casos de una nica variable explicativa (anlisis de varianza de un
factor) y de dos variables explicativas (anlisis de varianza bifactorial con interaccin).
Con anterioridad se estudia el caso ms sencillo en el que estamos interesados en
comparar las medias de dos poblaciones, caso particular del anlisis de varianza
unifactorial.

3
TP

PT

Mtodo de investigacin en el que se controlan las condiciones de modo que puede manipularse una o

varias variables independientes para probar una hiptesis sobre una variable dependiente.

Anlisis de varianza. JGM. 9/3/04

Pg. 6

2. Un caso ms simple: comparacin de dos muestras


independientes: pruebas Z y t para la diferencia entre las
medias de dos poblaciones.
Un caso particular del anlisis de varianza unifactorial una nica variable explicativatiene lugar cuando el inters reside en la comparacin de los valores promedio de una
variable cuantitativa entre dos poblaciones. En este caso, la variable cualitativa que
determina la particin en el universo es de carcter dicotmico y la prueba estadstica a
aplicar para contrastar la hiptesis nula de igualdad de medias entre esos dos colectivos
es la prueba Z o la prueba t dependiendo de si las varianzas poblacionales son o no
conocidas- Veamos a continuacin cmo proceder en cada caso. Comenzaremos por la
situacin en la que las varianzas poblacionales son conocidas cuando habr que aplicar
la prueba Z- y dejaremos para ms adelante aqulla situacin en la que no existe certeza
sobre el valor de los parmetros que miden la dispersin en la poblacin.

1.2. El caso de varianzas poblacionales conocidas


En el caso de que la varianza poblacional en cada uno de los dos colectivos sea un
parmetro conocido por el investigador pueden emplearse los conocimientos bsicos
sobre la distribucin del estadstico media muestral - X - con el fin de deducir la
distribucin en el muestreo del estadstico X Y , donde X representa la puntuacin
promedio obtenida en la variable dependiente para aquellos individuos de la muestra
seleccionados de la primera poblacin e Y tiene el mismo significado, esta vez para los
individuos seleccionados del segundo colectivo.
En concreto, sea X una variable aleatoria que recoge la puntuacin que obtiene en la
variable dependiente un individuo de la primera poblacin y sea Y otra variable
aleatoria independiente de la anterior- que refleja la puntuacin de un individuo de la
segunda poblacin en la variable dependiente. Bajo el supuesto de que X e Y se

Anlisis de varianza. JGM. 9/3/04

Pg. 7

distribuyen normalmente4, con medias y varianzas conocidas esto es, X N X , X2


TP

PT

2
e Y N Y , Y2 sabemos que X N X ; X
nX

2
y que Y N Y ; Y siendo n X y
nY

nY los tamaos de las muestras seleccionadas de la primera y de la segunda poblacin

respectivamente5.
TP

PT

2 2
De aqu se deduce fcilmente6 que X Y N X Y ; X + Y con lo que
n X nY

TP

(X Y ) (
X2
nX

Y )

Y2

PT

nY

De este modo, para contrastar la hiptesis nula de que las medias de ambas poblaciones
son iguales frente a la hiptesis alternativa de que los promedios son diferentes entre los
colectivos se puede recurrir al estadstico

(X Y )
X2
nX

Y2

que, bajo la mencionada hiptesis

nY

nula - X Y = 0 -, sigue una distribucin normal estndar.


Naturalmente, el caso de que las varianzas poblacionales sean conocidas para el
investigador es ms bien terico y no suele ocurrir con demasiada frecuencia. Veamos
qu se puede hacer en el caso de que las varianzas poblacionales sean desconocidas.

4
PT

Para comprobar la veracidad de este supuesto deberemos aplicar algn test de bondad de ajuste sobre los

TP

datos muestrales, por ejemplo el test de Kolmogorov-Smirnov, el de Anderson-Darling o el de ShapiroWilks. El test de Kolmogorov-Smirnov se presentar en un apartado posterior.
5
PT

De hecho, el teorema central del lmite garantiza que las medias muestrales X e Y se distribuyen

TP

asintticamente de forma normal aunque las variables originales X e Y no lo hagan.

TP

6
PT

Sabemos que si

X e Y son variables independientes tales que X N X , X2

Y N Y , Y2 , entonces aX + bY N a X + b Y , a 2 X2 + b 2 Y2 .

Anlisis de varianza. JGM. 9/3/04

Pg. 8

2.2. El caso de varianzas poblacionales desconocidas


En este caso, ms frecuente en la prctica, nos vemos obligados a sustituir la
distribucin Z por la distribucin t de Student, prctica habitual cuando se estima la
varianza poblacional a partir de los datos de una muestra mediante su estimador
insesgadola cuasivarianza muestral7-.
TP

PT

No obstante, es necesario distinguir dos situaciones. La primera, de solucin ms


sencilla, se produce cuando a pesar de desconocer las varianzas poblacionales no existe
evidencia suficiente para sospechar que stas sean distintas. La segunda, que nos lleva a
recurrir a la llamada aproximacin de Welch, se plantea cuando existen sospechas
fundadas de la existencia de diferencias entre las varianzas de la variable cuantitativa
entre las dos poblaciones.
La decisin acerca de si las varianzas poblacionales desconocidas son iguales o distintas
debe tomarse como es lgico- a partir de la evidencia recogida en las muestras esto
es, a partir de las cuasivarianzas muestrales-. Con ese fin debe aplicarse una prueba de

homocedasticidad, que constituye un contraste de hiptesis previo cuyo resultado nos


permitir discernir en cul de los dos casos estamos. Entre las pruebas de
homocedasticidad ms conocidas se encuentran el test de Bartlett, el de Hartley o el de
Levene.
1.2.2. Test de Levene de homogeneidad de varianzas
El test de Levene se emplea para determinar si k colectivos tienen la misma varianza.
Este test es ms robusto frente a la falta de normalidad de la variable analizada que la
prueba de Bartlett con lo que si se sospecha que las poblaciones estudiadas pueden no
ser normales es preferible emplear este contraste.

7
TP

PT

Se define la cuasivarianza muestral como S

1 n
(X i X )2 . A diferencia de la varianza

n 1 i =1

muestral dividida entre n - la cuasivarianza muestral es un estimador insesgado de la varianza


poblacional - 2

Anlisis de varianza. JGM. 9/3/04

Pg. 9

La prueba se plantea del siguiente modo:

Hiptesis nula: 12 = 22 = ... = k2 . Todas las varianzas poblacionales son iguales.

Hiptesis alternativa: (i, j ) {1,..., k } {1,..., k } : i2 2j . Existe al menos una


pareja de poblaciones con varianzas distintas.

En el caso de dos poblaciones, la hiptesis alternativa se concreta en 12 22 .


El

estadstico

de

n (Z
k

W =

nk
k 1

i =1
k ni

Z .. )

del

test

de

Levene

se

define

como

i.

(Z
i =1 j =1

contraste

Z i. )

donde Z ij = Yij Yi. , Yi. representa la media en la i-sima

ij

muestra, ni es el nmero de individuos en la muestra provenientes de la i-sima


k

poblacin y n = ni es el tamao total de la muestra seleccionada.


i =1

Bajo la hiptesis nula, el estadstico W sigue una distribucin F de Fisher-Snedecor de


k 1 grados de libertad en el numerador y n k en el denominador. Por tanto, fijado

un nivel de significacin , la hiptesis nula de homocedasticidad8 se rechaza si


TP

PT

W f k 1;n k ; .
2.2.2. Test de Bartlett de homogeneidad de varianzas

Al igual que el test de Levene, el contraste de Bartlett se emplea para estudiar si un


conjunto de k poblaciones tienen la misma varianza o si por el contrario sus varianzas
son diferentes. El test de Bartlett es ms sensible que el de Levene a las desviaciones de
la normalidad. Comparte con el test de Levene la definicin de las hiptesis nulas y
alternativas.

TP

8
PT

El smbolo f k 1;n k ; se refiere al valor crtico de una F de Fisher-Snedecor de k 1 grados de libertad

en el numerador y n k en el denominador que deja a su derecha un rea

Anlisis de varianza. JGM. 9/3/04

Pg. 10

El estadstico de contraste de esta prueba es algo farragoso. Se define como


k

T=

(n k ) ln S p2 (ni 1) ln S i2
i =1

1+

1
1
1

3(k 1) i =1 ni 1 n k
k

muestra y S p2 =

donde S i2 representa la cuasivarianza de la i-sima

1 k
(ni 1)S i2 .

n k i =1

La hiptesis nula de homogeneidad de las varianzas se rechaza en el caso de que


T k21; 9.
TP

PT

3.2.2. Varianzas poblacionales desconocidas e iguales

En el caso de que la prueba de homocedasticidad practicada (Levene, Bartlett u otro test


equivalente) no haya evidenciado signos de heterocedasticidad entre las poblaciones
definidas por la variable cualitativa parece razonable realizar una estimacin nica
acerca del valor de la varianza poblacional, que se ha considerado idntica en ambos
colectivos. Se introduce as el concepto de cuasivarianza muestral combinada10 que
TP

PT

suele representarse con el smbolo S p2 - y que se calcula como una media ponderada -en
funcin de los tamaos de las muestras tomadas de cada una de las poblaciones- de las
cuasivarianzas
S p2 =

TP

n X + nY 2

k21;

TP

concreto,

se refiere al valor crtico de una distribucin Chi-cuadrado de k 1 grados de

PT

Pooled Sample Variance

TP

11
TP

En

PT

liberftad que deja a su derecha un rea


10

correspondientes.

(n X 1)S X2 + (nY 1)SY2 11.

El smbolo
PT

muestrales

PT

Ntese que esta definicin de S p es un caso particular del concepto similar definido en la prueba de

homocedasticidad de Bartlett.

Anlisis de varianza. JGM. 9/3/04

Pg. 11

Ahora, sustituyendo este valor en la expresin de la Z que hemos calculado con


anterioridad tenemos que

( X Y ) (
S p2
nX

(n X + nY 2)S p2
2

Y )

S p2

( X Y ) (

TP

Sp

nY

Y )
t nX + nY 2 , ya que12
1
1
+
n X nY
X

PT

n2X + nY 2 .

As, para contrastar la hiptesis nula de igualdad de medias entre las dos poblaciones

(X Y )

podemos emplear el estadstico


Sp

1
1
+
n X nY

que, bajo la hiptesis nula de igualdad de

las medias poblacionales, se distribuye segn una t de Student de n X + nY 2 grados de


libertad.
4.2.2. Varianzas poblacionales desconocidas y distintas

En el caso de que la prueba de homocedasticidad nos lleve a la conclusin de que


existen diferencias entre las varianzas poblacionales, no tiene sentido el clculo como
en el caso anterior- de una cuasivarianza muestral combinada. Por el contrario, el
estadstico de contraste deber recoger las diferencias en las cuasivarianzas muestrales
como reflejo de las diferencias existentes entre las varianzas poblacionales que la
prueba de homocedasticidad ha detectado.
Parece razonable pensar que el estadstico de contraste debera tomar la forma

( X Y ) (
2
X

Y )
2
Y

y as es. El problema radica en que no se conoce la distribucin

S
S
+
n X nY

TP

12
PT

El cociente de una distribucin Z y la raz cuadrada de una

previamente dividida por sus grados de

libertad es una t de Student de idnticos grados de libertad que la

de la que proviene. Es decir,

= t

Anlisis de varianza. JGM. 9/3/04

Pg. 12

exacta en el muestreo de este estadstico bajo la hiptesis nula de igualdad de las medias
poblacionales. Este hecho hace imposible la formulacin de un criterio de decisin
exacto. Afortunadamente existe una aproximacin a la distribucin de este estadstico
que se conoce como aproximacin de Welch. En circunstancias muy generales el
estadstico

donde =

(X Y )
S X2 SY2
+
n X nY

se distribuye segn una t de Student de grados de libertad,

(n X 1)(nY 1)
(n X 1)(1 c 2 ) + (nY 1)c 2

S X2
y c=

2
X

nX

nX
2
+ SY

.
nY

3.2. Test de bondad de ajuste de Kolmogorov-Smirnov


Tal como se ha comentado con anterioridad, es condicin necesaria para llevar adelante
el test de comparacin de medias poblacionales que las variables originales X e Y
tengan una distribucin normal en especial si los tamaos de las muestras
seleccionadas de las poblaciones no son excesivamente grandes-.
Son muchos los contrastes que se pueden aplicar sobre los datos muestrales para
verificar el cumplimiento de este requisito. Por su simplicidad y gran difusin
exponemos brevemente el test de bondad de ajuste de Kolmogorov-Smirnov.
Este contraste se emplea para decidir si una muestra proviene de una poblacin con una
determinada distribucin. Se trata, por tanto, de un test que nos permite determinar si la
variable original se ajusta a una distribucin cualquiera siempre que esta distribucin
terica sea continua-. Es especialmente adecuado comparndolo, por ejemplo, con el
test de bondad de ajuste de Pearson basado en la distribucin Chi-cuadrado - cuando el
tamao de muestra es reducido.
El test de Kolmogorov-Smirnov se basa en la funcin de distribucin emprica. Dados
n valores de la variable ordenados de menor a mayor Y(1) , Y( 2) ,..., Y( n ) correspondientes

a los n individuos de la muestra- se define la funcin de distribucin emprica como

En =

n(i )
donde n(i ) representa el nmero de individuos de la muestra ordenada que
n

tienen un valor menor que Y( i ) .


Anlisis de varianza. JGM. 9/3/04

Pg. 13

La comparacin de esta funcin de distribucin emprica con la funcin de distribucin


terica con la que se desea comprobar la bondad del ajuste es la que determina el
estadstico de Kolmogorov-Smirnov.
En concreto, las hiptesis del test son:

Hiptesis nula: los datos siguen una determinada distribucin de probabilidad.

Hiptesis alternativa: los datos no siguen la distribucin de probabilidad


especificada

El

estadstico

de

Kolmogorov-Smirnov

se

calcula

como

i
D = max F (Y(i ) ) : 1 i n donde F es la funcin de distribucin terica.
n

La hiptesis nula se rechaza si el valor del estadstico D es mayor que el valor crtico
que se obtiene en una tabla (ver anexo).
El siguiente grfico presenta el resultado tpico de una prueba de bondad de ajuste de
Kolmogorov-Smirnov. La lnea quebrada es la funcin de distribucin emprica y la
lnea suave es la funcin de distribucin terica que ha sido especificada para el ajuste.
En este caso, la mxima diferencia se da en la observacin nmero 35, para la que la
diferencia entre el percentil emprico y el percentil terico es mayor de 18 puntos. Esta
mxima diferencia es la que determina el estadstico de Kolmogorov-Smirnov que,
contrastado con la correspondiente tabla, nos proporciona una probabilidad crtica
menor del 10% que, para este nivel de significacin, nos llevara a rechazar la hiptesis
nula y a afirmar que tenemos evidencia suficiente para sospechar que los datos no
provienen de la funcin de densidad especificada.

Anlisis de varianza. JGM. 9/3/04

Pg. 14

Grfico 1
Resultado tpico de una prueba de bondad de ajuste de Kolmogorov-Smirnov

Una vez presentado el caso ms simple de comparacin de medias esto es, aqul en el
que estamos interesados en comparar las medias de dos poblaciones- en sus diversas
variantes varianzas conocidas, varianzas desconocidas e iguales, varianzas
desconocidas y distintas- y de describir los tests bsicos para comprobar los supuestos
de homogeneidad de varianzas y de normalidad, dedicamos la siguiente seccin a la
extensin ms natural de este problema. Cmo actuaremos en el caso de que el nmero
de poblaciones sobre los que queremos comparar las medias sea mayor que dos?

Anlisis de varianza. JGM. 9/3/04

Pg. 15

3. Extensin al caso de k poblaciones: anlisis de varianza


unifactorial
1.3. Introduccin
En muchas ocasiones la variable cualitativa que determina los colectivos entre los que
estamos interesados en comparar los promedios de la variable cuantitativa presenta ms
de dos modalidades. En estos casos el inters reside en contrastar hiptesis acerca de la
igualdad de medias en ms de dos poblaciones.
Una primera aproximacin al problema nos podra llevar a considerar que una buena
estrategia es la de formar todas las posibles parejas de dos poblaciones y sobre cada una
de estas parejas formular una prueba de hiptesis acerca de la igualdad de sus medias.
En concreto, si deseamos contrastar la igualdad de medias en un conjunto de k
poblaciones, este enfoque propondra formar las C k2 =
parejas el orden no importa- y realizar un total de

k!
k (k 1)
posibles
=
2!(k 2)!
2

k (k 1)
contrastes de hiptesis
2

empleando los ya presentados tests de la t de Student o de la Z, segn corresponda.


Esta perspectiva presenta un grave inconveniente que no es otro que el del rpido
incremento del nivel de significacin13 con el nmero de comparaciones. Veamos por
TP

PT

qu: En el caso de llevar a cabo un contraste de hiptesis sobre la igualdad de las


medias de dos poblaciones estamos incurriendo en una probabilidad de cometer un
error de tipo I (rechazar una hiptesis nula que es cierta) y, en consecuencia, la
probabilidad de no cometer un error de tipo I (esto es, aceptar una hiptesis nula que es
cierta) es de 1 . Ahora bien, si llevamos a cabo un conjunto de

k (k 1)
contrastes, y
2

bajo el supuesto de que estos contrastes son independientes, la probabilidad de no


cometer un error de tipo I es de (1 )

TP

13
PT

k ( k 1)
2

-no debemos equivocarnos en ninguno de

El nivel de significacin es la probabilidad de cometer un error de tipo I, esto es, rechazar una hiptesis

nula que es, en realidad, cierta.

Anlisis de varianza. JGM. 9/3/04

Pg. 16

los contrastes- y, en consecuencia, la probabilidad de cometer un error de tipo I es


1 (1 )

k ( k 1)
2

, expresin que toma el valor para k = 2 pero que se aleja

rpidamente de l a medida que el valor de k aumenta.


El siguiente grfico nos muestra la evolucin del nivel de significacin en funcin del
nmero de poblaciones comparadas. Partiendo de un = 0,05 para una comparacin de
dos poblaciones, el valor de 1 (1 )

k ( k 1)
2

supera el 50% cuando se comparan ms de 6

poblaciones. Queda pues patente la necesidad de un mtodo que nos permita resolver el
problema de comparar las medias de k poblaciones sin incrementar innecesariamente el
nivel de significacin. Este mtodo nos lo proporciona la versin ms simple del
anlisis de varianza el anlisis de varianza unifactorial- tal como veremos en los
siguientes apartados.
Grfico 2
Evolucin del nivel de significacin en funcin del nmero de poblaciones k a
comparar

Nivel de significacin en funcin de k


1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
2

Anlisis de varianza. JGM. 9/3/04

9 10 11 12 13 14 15 16 17 18 19 20

Pg. 17

2.3. Objetivos y terminologa


El anlisis de varianza unifactorial14 tiene como objetivo bsico el contraste de hiptesis
TP

PT

sobre la igualdad de las medias de k colectivos, superando las dificultades que se han
puesto de manifiesto en el apartado anterior en concreto las referentes al incremento en
la probabilidad de error de tipo I-.
El anlisis de varianza unifactorial es, en esencia, un procedimiento de prueba de
hiptesis que permite elegir entre dos conjeturas opuestas:

una hiptesis nula que afirma la igualdad de las medias de la variable cuantitativa en
el conjunto de las k subpoblaciones inducidas en la poblacin global por la variable
cualitativa

una hiptesis alternativa que propone la existencia de alguna subpoblacin en la que


la media difiere de la del resto de subpoblaciones.

El procedimiento bsico consiste en repartir la variabilidad total de la variable


cuantitativa analizada asignndola bien al factor explicativo la variable cualitativa que
divide al colectivo global en k grupos- bien al resto de factores no considerados. La
importancia relativa de una y otra cantidad de variacin determinar si debemos
decantarnos por la hiptesis nula de igualdad de medias o si, por el contrario, la
evidencia en contra de ella es suficiente como para rechazarla.
Antes de plantear con detalle las hiptesis nula y alternativa del anlisis de varianza
unifactorial es necesario presentar con detalle la terminologa que vamos a emplear y
mencionar la necesidad de que se cumplan ciertos requisitos de normalidad y
homogeneidad de varianzas.
Llamaremos Y a la variable cuantitativa cuyo promedio deseamos comparar en los
distintos colectivos. A la variable Y se le da tambin el nombre de variable
dependiente, variable explicada, variable endgena o variable respuesta. Asimismo,
denotaremos por X la variable cualitativa que induce con sus modalidades una

TP

14
PT

One-way Anova

Anlisis de varianza. JGM. 9/3/04

Pg. 18

particin de la poblacin global en subpoblaciones. A la variable X se le denomina


factor, variable exgena o variable explicativa. Cada una de las modalidades de la
variable cualitativa determina un nivel o tratamiento del factor. Designaremos con k el
nmero de niveles del factor.
Asimismo, necesitamos dos juegos de smbolos: los primeros para hacer referencia a
ciertos valores poblacionales los que van a permitir formular las hiptesis- y los
segundos para identificar determinados valores obtenidos en la muestra.
En cuanto a la poblacin, necesitamos dos smbolos:

Con nos referimos a la puntuacin promedio de los individuos de la poblacin en


la variable Y .

Por su parte, i representa el promedio en la variable Y de aquellos individuos que


conforman la i-sima subpoblacin, esto es, de aquellos individuos que toman el
valor i en la variable X.

En cuanto a la muestra, vamos a trabajar con los siguientes smbolos:

Yij es la puntuacin en la variable dependiente del j-simo individuo que ha sido


k

seleccionado de la subpoblacin i-sima. Pueden existir hasta n = ni valores


i =1

distintos de Yij , uno por cada individuo de la muestra. El smbolo ni representa el


nmero de individuos que, en la muestra, han sido seleccionados de la i-sima
subpoblacin.

Yi. es la puntuacin promedio de la muestra de individuos seleccionados de la


subpoblacin i-sima. Matemticamente Yi. =

1
ni

ni

Y
j =1

ij

. Potencialmente, hay k

valores distintos de Yi. , uno por cada nivel del factor.

Y.. es la puntuacin promedio global del conjunto de individuos de la muestra. En


concreto, Y.. =

1 k ni
Yij . Obviamente, el valor de Y.. es nico para la muestra.
n i =1 j =1

Anlisis de varianza. JGM. 9/3/04

Pg. 19

3.3. Hiptesis previas


El anlisis de varianza requiere del cumplimiento de dos condiciones que deben
verificarse antes de seguir adelante con el proceso. Estos requisitos son los de
normalidad y homocedasticidad u homogeneidad de las varianzas- En los apartados
anteriores se han presentado algunos contrastes bsicos que permiten comprobar el
cumplimiento de estas condiciones.
1.3.3. Normalidad

Debemos comprobar que se cumple la normalidad de la variable dependiente en cada


una de las subpoblaciones definidas por los niveles del factor. Esto nos obliga a
efectuar k pruebas de bondad de ajuste antes de comenzar con el anlisis de varianza
propiamente dicho. Con este fin se puede emplear el estadstico de KolmogorovSmirnov u otro equivalente. Es importante destacar que no es suficiente con comprobar
que la variable dependiente se distribuya normalmente en el conjunto de la poblacin.
Esta condicin no es necesaria ni suficiente para que la variable sea normal dentro de
cada subpoblacin.
El detalle acerca del procedimiento para aplicar la prueba de bondad de ajuste de
Kolmogorov-Smirnov se ha presentado en una seccin anterior.
2.3.3. Homocedasticidad

Asimismo, es necesario comprobar que la dispersin de la variable dependiente es la


misma en cada una de las subpoblaciones definidas por las modalidades del factor. Este
requisito se concreta en la necesidad de que las varianzas poblacionales sean iguales.
As, la hiptesis nula a contrastar es 12 = 22 = ... = k2 , lo que se puede conseguir
empleando, entre otros, el test de Bartlett o el de Levene tal como se ha mostrado en un
apartado anterior.

4.3. Hiptesis nula y alternativa en anlisis de varianza


La hiptesis de partida del anlisis de varianza unifactorial postula la inexistencia de
una relacin entre el factor explicativo y la variable dependiente. En otras palabras, el
valor promedio de la variable dependiente en todas y cada una de las subpoblaciones

Anlisis de varianza. JGM. 9/3/04

Pg. 20

definidas por los niveles del factor es el mismo y, en consecuencia, coincide con el
valor promedio de toda la poblacin.
En trminos ms precisos, esta hiptesis de partida se concreta en la hiptesis nula

1 = 2 = ... = k = o de modo equivalente i = 0 i {1,2,..., k }. No hay


diferencias entre los promedios de cada subpoblacin y el promedio global.
Por su parte, la hiptesis alternativa propone la existencia de alguna subpoblacin cuyo
promedio en la variable dependiente no coincide con el promedio global. En trminos
matemticos, i {1,2,..., k } : i 0 .
Se trata, a continuacin, de seleccionar una muestra de individuos de unidades
experimentales- y asignarlas de modo aleatorio a cada uno de los niveles del factor de
modo que dispongamos de k submuestras de ni individuos cada una de ellas. A partir
de estas submuestras y de la informacin recogida de ellas debemos optar entre la
hiptesis nula igualdad de medias- o la alternativa.

5.3. Ecuacin fundamental


La ecuacin fundamental del anlisis de varianza unifactorial se refiere a la
descomposicin o anlisis de la variabilidad total de la variable dependiente y su
asignacin a las distintas fuentes potenciales de variacin el factor y el error aleatorio-.
Se trata de determinar qu parte de los cambios en los valores de la variable dependiente
se deben al hecho de que los individuos han sido asignados a diversos niveles del factor
y qu parte a otros factores no considerados en el diseo esto es, al error aleatorioLa obtencin de la ecuacin fundamental comienza por el estudio de un individuo
cualquiera para despus agregar los resultados para el conjunto de individuos.
Comenzaremos pues por seleccionar a un individuo genrico y determinar los motivos
por los que el valor de la variable dependiente en ese individuo se desva del promedio
global a esta parte del anlisis la llamaremos anlisis de las desviaciones-. A
continuacin agregaremos los datos para todos los individuos de modo que consigamos
una descomposicin de la variacin total en fuentes de variacin la ecuacin
fundamental propiamente dicha-

Anlisis de varianza. JGM. 9/3/04

Pg. 21

1.5.3. Anlisis de las desviaciones de los individuos respecto a la media


global

A partir de la terminologa definida para los datos de la muestra - Yij , Yi. y Y.. - vamos a
definir tres diferencias que nos van a permitir analizar los motivos por los que la
puntuacin en la variable dependiente de un individuo genrico de la muestra se desva
del promedio global.
En concreto, vamos a considerar las siguientes tres diferencias:

Yij Y.. , mide la diferencia entre la puntuacin en la variable dependiente del j-

simo individuo seleccionado de la i-sima subpoblacin y la puntuacin promedio


global en la variable cuantitativa para el conjunto de individuos que conforman la
muestra. Designaremos esta diferencia como DT

desviacin total- y la

descompondremos en la suma de las otras dos diferencias.

Yi. Y.. . Esta diferencia recibe el nombre de DE o desviacin explicada por el


factor- y evala la diferencia entre la puntuacin promedio de la variable
dependiente para los individuos de la muestra provenientes de la i-sima poblacin y
la puntuacin promedio global en la muestra.

Yij Yi. , refleja la diferencia entre la puntuacin particular de un individuo y la

puntuacin promedio de los individuos que han sido seleccionados de la misma


subpoblacin. Evala la desviacin no explicada por la pertenencia del individuo al
grupo y se denota por DNE .
Una vez definidas estas tres diferencias es trivial verificar que para todos los individuos
que componen la muestra se cumple que (Yij Y.. ) = (Yi. Y.. ) + (Yij Yi. ) o, de modo
abreviado, DT = DE + DNE . Para cada individuo se cumple que, en lo que se refiere a
su puntuacin en la variable dependiente, la desviacin respecto a la media global Yij Y.. - se puede descomponer en dos sumandos: la desviacin debida a la pertenencia

del individuo a una determinada modalidad del factor - Yi. Y.. - y la desviacin debida a
otras causas no consideradas en el experimento - Yij Yi. -.

Anlisis de varianza. JGM. 9/3/04

Pg. 22

No obstante, como se ha comentado anteriormente, estamos interesados en obtener una


medida de la variacin alrededor de la media global para el conjunto de los individuos
que componen la muestra por lo que parece razonable proceder a sumar las desviaciones
para todos los individuos. Si seguimos este camino, pronto nos daremos cuenta de que
estamos abocados al fracaso. La suma de las desviaciones de cualquiera de ellas- para
todos los individuos resulta ser nula. Es ms, las desviaciones estn sujetas a las
siguientes restricciones:

(Y
k

ni

i =1 j =1

ij

Y.. ) = 0 . Esta restriccin implica que la suma de las desviaciones totales

DT - de los individuos respecto a la media resulta ser nula. Es obvio, puesto que

(Y )
ni

(Y
k

ni

i =1 j =1

ij

Y.. ) = (Yij ) (Y.. ) = n


k

i =1 j =1

(Y
k

Por su parte

ni

ni

i.

i =1 j =1

ni

i =1 j =1

i =1 j =1

(Y )
k

ij

ni

i =1 j =1

ij

= 0.

Y.. ) = ni (Yi. Y.. ) = ni (Yi. ) ni (Y.. ) = nY.. nY.. = 0 , lo


k

i =1

i =1

i =1

que supone una restriccin sobre las desviaciones debidas al factor DE

(Y
ni

Por ltimo,

j =1

ij

Yi. ) = (Yij ) (Yi. ) = ni Yi. ni Yi. = 0 i {1,2,..., k }, lo que


ni

ni

j =1

j =1

supone un conjunto de k restricciones sobre la desviacin no explicada DNE -.


2.5.3. Los cuadrados de las desviaciones. Sumas de cuadrados

Con el fin de evitar que unas desviaciones se compensen con otras a la hora de
agregarlas para el conjunto de individuos podemos optar por elevar todas las
desviaciones al cuadrado. As, todos los valores sern no negativos y al acumularlos
para todos los individuos nos proporcionarn un resultado no negativo.
Siguiendo este camino debemos elevar al cuadrado ambos miembros de la igualdad que
analizaba la desviacin total descomponindola en dos sumandos. La expresin
DT = DE + DNE

se

convertir

al

ser

elevada

al

cuadrado

en

DT 2 = DE 2 + DNE 2 + 2 DE DNE . Dado que DT = DE + DNE se cumple para todos


los individuos de la muestra, ocurre lo mismo con DT 2 = DE 2 + DNE 2 + 2 DE DNE
con la ventaja adicional de que en este caso todos los valores son no negativos. Si ahora
Anlisis de varianza. JGM. 9/3/04

Pg. 23

sumamos para todos los individuos los cuadrados de las desviaciones as como el doble
producto cruzado tendremos tambin una igualdad, que se expresar del siguiente
modo:

DT

= DE 2 + DNE 2 + 2 DE DNE

(Y
k

ni

i =1 j =1

ij

de

modo

ms

explcito,

Y.. ) = (Yi. Y.. ) + (Yij Yi. ) + 2 (Yi. Y.. )(Yij Yi. ) .


k

ni

i =1 j =1

ni

i =1 j =1

ni

i =1 j =1

DE DNE = (Yi. Y.. )(Yij Yi. ) = 0 por lo


k

Se puede comprobar fcilmente que

ni

i =1 j =1

que la expresin finalmente se convierte en

(Y
k

ni

i =1 j =1

ij

DT

= DE 2 + DNE 2

Y.. ) = (Yi. Y.. ) + (Yij Yi. ) , que en modo ms breve suele


k

ni

i =1 j =1

ni

i =1 j =1

expresarse STC = SCTR + SCE siendo:


STC = (Yij Y.. ) . Esta expresin recibe el nombre de suma de cuadrados
ni

i =1 j =1

total y mide la variabilidad total en la muestra de la variable dependiente respecto al


promedio global. STC es la suma de n elementos potencialmente distintos sujetos a

(Y
k

una restriccin recurdese que

ni

i =1 j =1

ij

Y.. ) = 0 - por lo que tiene un total de

n 1 grados de libertad15.
TP

PT

SCTR = (Yi. Y.. ) es la suma de cuadrados de los tratamientos y mide la parte

ni

i =1 j =1

de la variabilidad total de la variable dependiente que puede ser atribuida al hecho


de que los individuos pertenecen a distintos niveles o tratamientos del factor. La

TP

15
PT

Los grados de libertad de un problema, de una distribucin, etctera representan el nmero de

parmetros que pueden variar de modo independiente. Por ejemplo si en un conjunto hay n elementos y
una restriccin por ejemplo, la suma de los elementos tiene que ser nula- entonces slo pueden variar
libremente n-1 elementos ya que la restriccin existente sobre ellos determina el n-simo. As, el nmero
de grados de libertad viene dado por la diferencia entre el nmero de sumandos potencialmente distintos y
el nmero de restricciones existentes sobre los elementos en este caso n-1-.

Anlisis de varianza. JGM. 9/3/04

Pg. 24

suma de cuadrados de los tratamientos SCTR = (Yi. Y.. ) = ni (Yi. Y.. ) es


k

ni

i =1 j =1

i =1

la suma de k elementos potencialmente distintos sujetos a una restriccin -

n (Y
k

i =1

i.

Y.. ) = 0 - por lo que sus grados de libertad resultan ser k 1 , siendo k el

nmero de niveles del factor.

Por ltimo, SCE = (Yij Yi. ) recibe el nombre de suma de cuadrados de los
k

ni

i =1 j =1

errores y representa la parte de la variabilidad total que no puede ser atribuida a la


pertenencia del individuo a un determinado nivel del factor y que, en consecuencia,
se debe a otros factores ajenos al experimento. Como se ha visto,

(Y
ni

j =1

ij

Yi. ) = 0 i {1,2,..., k } lo que aade k restricciones a esta suma de

cuadrados que consta, potencialmente, de n sumandos distintos. De aqu que sus


grados de libertad sean n k .

6.3. Cuadrados medios


La descomposicin de la variacin total - STC - en la parte atribuible al factor - SCTR - y
la no atribuible a l - SCE - puede proporcionarnos una idea preliminar acerca de la
relevancia de la variable cualitativa como factor explicativo de la variable dependiente.
No obstante, esta primera aproximacin puede llevarnos a error ya que est dejando de
lado un elemento de suma importancia como son los grados de libertad.
Para que unas sumas de cuadrados puedan ser comparadas con otras es necesario
dividirlas previamente entre sus correspondientes grados de libertad de modo que
obtengamos la parte que cada grado de libertad de la correspondiente suma de
cuadrados explica de la variable dependiente.
Construiremos as dos cuadrados medios segn las siguientes expresiones:

CMTR =

CME =

SCTR
k 1

SCE
nk

Anlisis de varianza. JGM. 9/3/04

Pg. 25

Estos cuadrados medios constituyen estimaciones insesgadas de la varianza poblacional


intergrupos e intragrupos respectivamente. Es ms, bajo el supuesto de que la hiptesis
nula de igualdad de medias es cierta, la distribucin en el muestreo de estos cuadrados
medios es conocida. En concreto, si las medias en las k poblaciones son iguales se tiene
que16:
TP

PT

STC

SCTR

SCE

se distribuye segn una 2 de n 1 grados de libertad.


=

(k 1)CMTR
2

(n k )CME
2

se distribuye segn una 2 de k 1 grados de libertad.

se distribuye segn una 2 de n k grados de libertad.

Una vez calculados los cuadrados medios nos encontramos en condiciones de realizar
comparaciones entre ellos. Obviamente, un valor muy elevado de CMTR junto con un
valor muy reducido de CME nos debera llevar a pensar que el factor determina
diferentes promedios en cada una de las subpoblaciones que induce en la poblacin
original; por el contrario, un valor bajo de CMTR y un valor elevado de CME nos
debera hacer pensar en la ineficacia del factor para explicar la variable dependiente.
No obstante, necesitamos conocer cmo de grande debe ser CMTR respecto a CME
para tomar la decisin de rechazar la hiptesis nula de igualdad de medias. La respuesta
la tenemos en el estadstico de contraste del anlisis de varianza unifactorial, que
presentamos en la siguiente seccin.

7.3. El estadstico de contraste. Distribucin F de Fisher-Snedecor


Como ya se ha dejado entrever en la seccin anterior, el estadstico de contraste del
anlisis de varianza unifactorial no es otra cosa que el cociente entre los dos cuadrados
medios calculados.

TP

16
PT

se refiere a la varianza poblacional de la variable dependiente dentro de los niveles.

Anlisis de varianza. JGM. 9/3/04

Pg. 26

En concreto, bajo el supuesto de que la hiptesis nula es cierta, sabemos que17:


TP

PT

(k 1)CMTR 2
k21
CMTR
(k 1)
=
= 2 k 1 = Fk 1;n k .
EC =
(
)
n

k
CME
CME
nk
2 (n k )
nk
As, la decisin respecto a la veracidad o falsedad de la hiptesis nula se puede tomar
fcilmente. En el caso de que el valor del estadstico de contraste EC sea mayor o igual
al valor crtico de una F de Fisher-Snedecor de k 1 grados de libertad en el numerador
y n k en el denominador que deja a su derecha un rea igual al nivel de significacin
elegido valor crtico que denotaremos por f k 1;n k ; - se optar por rechazar la hiptesis
nula. En caso contrario, la hiptesis nula se aceptar por no tener evidencia suficiente
para afirmar la existencia de una subpoblacin con una media diferente.
En el caso de que el resultado final de la prueba de hiptesis haya sido la aceptacin de
la hiptesis nula y en consecuencia la no existencia de evidencia suficiente para
sospechar que las subpoblaciones presentan medias diferentes- el anlisis ha finalizado.
Sin embargo, si la hiptesis nula ha sido rechazada hemos encontrado evidencia de que
existe al menos una subpoblacin con una media poblacional diferente para la variable
cuantitativa. El problema es que no sabemos cul o cules son! Para dar respuesta a la
pregunta natural acerca de cules de las subpoblaciones presentan medias distintas de
las medias de las dems poblaciones se han desarrollado los llamados contrastes a
posteriori. De los muchos que existen se presentarn a continuacin los contrastes de
Scheff y de Tukey.

17
TP

PT

El cociente de dos

previamente divididas por sus grados de libertad determina una F de Fisher-

Snedecor. En concreto, si X e Y son dos variables aleatorias tales que X

X
Y

eY

entonces

F ; , siendo los grados de libertad del numerador y los grados de libertad del

denominador.

Anlisis de varianza. JGM. 9/3/04

Pg. 27

8.3. Contrastes a posteriori: Scheff y Tukey


El hecho de haber obtenido un valor elevado y significativo- del estadstico de
contraste en la prueba de hiptesis basada en la F puede despertar en el investigador el
inters por conocer entre qu grupos se estn produciendo las diferencias significativas.
Con ese fin fueron desarrollados los contrastes a posteriori. Se describirn dos de ellos:
el test HSD18 de Tukey y el test de Scheff.
TP

PT

Ambos parten de la elaboracin de una matriz k k en la que en columnas y en filas se


sitan los valores promedio para la variable dependiente que se han obtenido en la
muestra en cada uno de los k grupos formados por las modalidades de la variable
cualitativa. Tanto las filas como las columnas deben estar ordenadas en orden creciente
del promedio correspondiente. A continuacin se calculan las diferencias entre los
promedios obtenidos en los distintos niveles del factor. Los elementos de la diagonal
principal resultan ser cero y la matriz es antisimtrica19, con lo que los elementos de la
TP

PT

matriz situados por debajo de la diagonal principal pueden ser obviados.


A continuacin se calcula para cada elemento de la matriz un valor al que se da el
nombre de diferencia crtica CDij -. Todos aquellos elementos de la matriz en los que
se cumpla que Yi. Y j . CDij indican la existencia de una diferencia significativa entre
los promedios de las subpoblaciones i-sima y j-sima.
La nica diferencia entre los contrastes de Scheff y de Tukey reside en el modo de
calcular esa diferencia crtica. Estos clculos se detallan a continuacin:

CDTukey ;i , j = q r ; ; g .l .( SCE )

CME 1
1
+ , siendo ni el nmero de individuos de la
2 ni n j

muestra que pertenecen al i-simo nivel del factor y n j el nmero de individuos en


el j-simo nivel del factor. El valor de q r ; ; g .l .( SCE ) se obtiene de las tablas de la

18
PT

Honestly Significant Difference.

TP

TP

Una matriz A se dice antisimtrica si A = A .


t

19
PT

Anlisis de varianza. JGM. 9/3/04

Pg. 28

distribucin de la variable q . Esta distribucin se puede consultar en Kuehl (2001)


aunque el software estadstico ms habitual nos proporciona automticamente la
probabilidad crtica correspondiente al valor obtenido en la muestra.

CDScheff ;i , j =

(k 1) f k 1;nk ; CME 1

ni

1
nj

, donde nuevamente ni representa el

nmero de individuos de la muestra que pertenecen al i-simo nivel del factor y n j


el nmero de individuos en el j-simo nivel del factor.

9.3. Esquema general del anlisis de varianza unifactorial


La figura que se presenta a continuacin esquematiza los pasos a dar en la realizacin
de un anlisis de varianza unifactorial. Sirva como resumen de lo tratado en este
apartado.

Grfico 3
Esquema general del proceso de anlisis de varianza unifactorial

Tests de
Bartlett,
Hartley,
Levene...

Tratamiento de la
heterocedasticidad

FIN

NO

INICIO

Homocedasticidad?

S
S

Normalidad?

Anlisis
de varianza

NO

NO

Test de
KolmogorovSmirnov

Anlisis de varianza. JGM. 9/3/04

Aceptamos
Hip. nula?

Tratamiento de la
no normalidad

Test de
Scheff o
Tukey

Contrastes
a posteriori

Pg. 29

4. Anlisis de varianza con dos factores e interaccin


1.4. Objetivos y terminologa
Como una generalizacin natural de la situacin que se plantea en el caso del anlisis de
varianza unifactorial se presenta el caso en el que el inters reside en estudiar la posible
influencia de una pareja de variables cualitativas en una tercera variable, esta vez de
naturaleza cuantitativa mtrica o de escalaA las caractersticas del procedimiento detallado en las anteriores secciones se aade
aqu el posible efecto de interaccin entre los factores explicativos en este caso
limitado a la situacin ms sencilla en el que la nica interaccin es de orden dos-. As,
consideraremos no slo dos posibles fuentes de explicacin de la variacin total las
correspondientes a los dos factores- sino tambin una tercera, relativa a un efecto
combinado de ambos.
La generalizacin de esta situacin al caso de un mayor nmero de factores explicativos
nos conduce a la existencia de interacciones de orden 3, 4, etctera, lo que complica en
gran medida la situacin aunque conceptualmente no aporte nada nuevo.
La terminologa empleada es totalmente paralela a la que se ha utilizado en el caso del
anlisis unifactorial. Hablaremos de variable respuesta, variable endgena o variable
dependiente para referirnos a la variable cuantitativa cuya variabilidad deseamos
explicar y de variable explicativa, independiente, exgena o factor para referirnos a
cada una de las variables cualitativas candidatas a explicar la variabilidad de la
dependiente. Asimismo, cada una de las modalidades de los factores recibir el nombre
de nivel o tratamiento.
Los siguientes apartados se dedicarn a presentar detalladamente el procedimiento para
determinar si una pareja de variables cualitativas explican eventualmente con un efecto
de interaccin entre ellas- las variaciones de una variable de naturaleza cuantitativa.

2.4. Hiptesis nulas en anlisis de varianza con dos factores


Los objetivos del anlisis de varianza bifactorial se materializan en tres hiptesis de
partida o hiptesis nulas. Antes de formularlas de modo preciso necesitamos establecer
Anlisis de varianza. JGM. 9/3/04

Pg. 30

la nomenclatura que vamos a utilizar para referirnos a los promedios de las diferentes
subpoblaciones que determinan los niveles de los factores y sus combinaciones. En este
caso, nos veremos obligados a emplear ms subndices para recoger por separado el
efecto de cada uno de los factores. En concreto:

El smbolo .. (la letra griega seguida de dos puntos como subndice) se utilizar
para referirnos a la puntuacin promedio de la variable dependiente en el conjunto
de la poblacin.

Emplearemos i. para denotar el valor promedio de la variable dependiente en la


subpoblacin definida por el i-simo nivel del primer factor. Por referirse al primer
factor, el subndice correspondiente al segundo factor aparece como un punto. Habr
tantos valores potencialmente distintos de i. como niveles existan en el primer
factor. Este nmero de niveles se denotar por k A .

Para referirnos al valor promedio de la variable dependiente en cada una de las k B


subpoblaciones definidas por los niveles del segundo factor utilizaremos el smbolo

. j . Anlogamente al caso del primer factor, el punto en el primer subndice seala


que este promedio se refiere a una subpoblacin definida por el segundo factor.

Por ltimo ij denotar la puntuacin promedio de la variable dependiente en la


poblacin definida por la combinacin del i-simo nivel del primer factor y del jsimo nivel del segundo factor. Obviamente puede haber k Ak B valores distintos de

ij .
Se detallan a continuacin las tres hiptesis nulas de un anlisis de varianza bifactorial.
1.2.4. Hiptesis nula sobre el primer factor

La primera hiptesis nula se refiere al primer factor y afirma que ste no tiene ningn
efecto sobre la variable dependiente. En otras palabras, la hiptesis de partida del
anlisis de varianza en relacin con el primer factor es que el valor promedio de la
variable dependiente en todas y cada una de las subpoblaciones definidas por los niveles
de este factor es el mismo y, en consecuencia, coincide con el valor promedio de toda la
poblacin.

Anlisis de varianza. JGM. 9/3/04

Pg. 31

En

trminos

ms

precisos,

esta

primera

hiptesis

nula

afirma

que

1. = 2. = ... = k . = .. o de modo equivalente i. .. = 0 i {1,2,...,k A }. No hay


A

diferencias entre los promedios de la variable cuantitativa en las subpoblaciones


definidas por los niveles del primer factor y el promedio global en la poblacin.
2.2.4. Hiptesis nula sobre el segundo factor

En el caso del segundo factor, la hiptesis nula correspondiente es anloga a la del


primero. En este caso, la hiptesis de partida afirma que el segundo factor no incide
sobre la variable respuesta, es decir, no existen diferencias entre los promedios de la
variable cuantitativa en las subpoblaciones definidas por los niveles del segundo factor
y el promedio global. Matemticamente .1 = .2 = ... = .k B = .. o lo que es lo mismo
. j .. = 0 j {1,2,...,k B }.
3.2.4. Hiptesis nula sobre la interaccin de los factores

En lo que se refiere a la hiptesis de partida sobre la interaccin entre los factores se


considera que es inexistente, es decir, se parte del supuesto de que el posible efecto
debido a la pertenencia de un individuo a cada uno de los niveles de un factor
permanece constante sea cual sea el nivel del otro factor al que est adscrito. Se dice
tambin que la hiptesis de partida es la de aditividad de los efectos principales de los
factores.
Matemticamente esta hiptesis nula se concreta en la siguiente expresin:
ij = .. + ( i. .. ) + (.j .. ) (i,j ) {1,2,...,k A } {1,2,...,k B } en la que el promedio de la

variable dependiente en cada una de las k Ak B subpoblaciones resultantes del producto


cartesiano de los conjuntos formados por los niveles de ambos factores viene dado por
la simple adicin de los efectos principales correspondientes a los niveles de cada
factor.
Una vez formuladas las hiptesis nulas propias del anlisis de varianza bifactorial
corresponde ahora estudiar una muestra de individuos para a partir de ella decidir si las
hiptesis planteadas pueden mantenerse o, por el contrario, existe evidencia muestral
suficiente como para considerarlas errneas.

Anlisis de varianza. JGM. 9/3/04

Pg. 32

3.4. Ecuacin fundamental del anlisis de varianza bifactorial


Trabajar con una muestra en vez de con toda la poblacin nos obliga, desde el punto de
vista de la nomenclatura empleada, a presentar nuevos conceptos. En concreto:

Denotaremos por Yijk al k-simo individuo que en nuestra muestra ha sido asignado
al i-simo nivel del primer factor y al j-simo nivel del segundo factor. Tendremos
un valor de Yijk potencialmente distinto para cada uno de los individuos que
componen nuestra muestra.

Con Y... nos referiremos al promedio global de la variable dependiente en el


conjunto de observaciones de nuestra muestra. La expresin matemtica de este
valor es Y... =

kA

1
kA

kB

n
i =1 j =1

nij

kB

Y
i =1 j =1 k =1

ijk

donde nij representa el nmero de individuos

ij

que en la muestra se encuentran simultneamente clasificados en el i-simo nivel del


primer factor y en el j-simo nivel del segundo. Obviamente, el valor de Y... es nico
para la muestra.

El simbolo Yi.. se emplear para referirnos al promedio de la variable dependiente en


aquellos individuos de nuestra muestra pertenecientes al i-simo nivel del primer
factor. En concreto, se tiene que Yi.. =

kB

1
kB

n
j =1

nij

Y
j =1 k =1

ijk

. Hay potencialmente k A

ij

valores distintos de Yi.. , uno por cada nivel del primer factor.

Por su parte, Y. j . se referir al promedio de la variable dependiente en los individuos


de nuestra muestra pertenecientes al j-simo nivel del segundo factor.
Matemticamente Y. j . =

kA

1
kA

n
i =1

nij

Y
i =1 k =1

ijk

. Puede haber hasta k B valores distintos de

ij

Y. j . , uno por cada nivel del segundo factor.

Por ltimo, Yij . se refiere al promedio de la variable dependiente en los individuos


de nuestra muestra que se encuentran simultneamente clasificados en el i-simo

Anlisis de varianza. JGM. 9/3/04

Pg. 33

1
nivel del primer factor y en el j-simo nivel del segundo. Yij . =
nij

nij

Y
k =1

ijk

. Los

valores potencialmente distintos de Yij . son k A k B uno por cada elemento del
producto cartesiano de los conjuntos formados por los niveles de ambos factores.
Una vez establecida la terminologa propia del anlisis de varianza bifactorial podemos
proceder a analizar las causas por las que el valor de la variable dependiente de cada
individuo se desva del promedio general. Este es el objetivo del siguiente apartado.
1.3.4. Anlisis de las desviaciones de los individuos respecto a la media
global

Obviamente, la variable dependiente puede tomar valores diferentes en cada uno de los
individuos que componen la muestra seleccionada. De hecho, es esta variabilidad la que
estamos tratando de explicar en funcin de los niveles de los factores. Como primer
paso para alcanzar este objetivo vamos a analizar la desviacin del valor de la variable
dependiente respecto al promedio global para cada uno de los individuos que componen
la muestra, esto es, vamos a descomponer la diferencia Yijk Y... , a la que llamaremos
desviacin total y designaremos como DT, en la suma de cuatro elementos. En
concreto, vamos a considerar las siguientes diferencias:

Yi.. Y... , mide la diferencia entre el promedio de la variable dependiente en cada uno
de los k A niveles del primer factor y el promedio global. Recibe el nombre de
desviacin debida al primer factor y la denotamos por DA.

Y. j . Y... , refleja la diferencia entre el promedio de la variable dependiente en cada

uno de los k B niveles del segundo factor y el promedio global. Recibe el nombre de
desviacin debida al segundo factor y la designamos como DB.

Yij . Yi.. Y. j . + Y... , refleja la diferencia entre el promedio de la variable dependiente

en el conjunto de individuos clasificados simultneamente en el i-simo nivel del


primer factor y el j-simo nivel del segundo factor - Yij . - y el valor promedio que
deberan tener los individuos de dicho grupo en el caso de que los efectos de los
factores fueran estrictamente aditivos - Y... + (Yi.. Y... ) + (Y. j . Y... ) -. Ntese que
Anlisis de varianza. JGM. 9/3/04

Pg. 34

Yij . Y... + (Yi.. Y... ) + (Y. j . Y... ) = Yij . Yi.. Y. j . + Y... .

Esta

diferencia

se

llama

desviacin debida a la interaccin de los factores y la designamos por DAB.

Yijk Yij . evala la diferencia entre el valor de la variable dependiente en un

individuo concreto de nuestra muestra el k-simo individuo clasificado en el isimo nivel del primer factor y en el j-simo nivel del segundo factor- y el valor
promedio de aquellos individuos clasificados en los mismos niveles que l. Recibe
el nombre de desviacin no explicada. Nos referiremos a ella utilizando el smbolo
DNE.
Definidas estas cuatro diferencias resulta trivial expresar la desviacin de cada
individuo respecto a la media global Yijk Y...

(Y

ijk

como su

suma, es decir,

Y... ) = (Yi.. Y... ) + (Y. j . Y... ) + (Yij . Yi.. Y. j . + Y... ) + (Yijk Yij . ) o de modo resumido,

DT=DA+DB+DAB+DNE.
Debe notarse que esta igualdad se cumple para todos y cada uno de los individuos de la
muestra y reparte la desviacin total de cada individuo respecto al promedio global
entre el conjunto de factores estudiados, su interaccin y el error aleatorio.
El siguiente paso consiste en agregar estas desviaciones para el conjunto de los
individuos que conforman la muestra de modo que tengamos una descomposicin de la
variacin total de la variable dependiente en funcin de los factores analizados.
Parecera lgico proceder a sumar las desviaciones para todos los individuos de la
muestra. Sin embargo, las propiedades bsicas de los promedios hacen que cuando
sumamos estas diferencias para el conjunto de todos los individuos de la muestra
obtengamos siempre el mismo resultado: la suma es nula. De este modo, la simple
adicin de las desviaciones para todos los individuos no nos sirve como medida de la
dispersin total de stos respecto a los promedios. Debemos evitar la compensacin de
los signos positivos y negativos y para ello optamos por calcular los cuadrados de las
desviaciones. Convertimos as cualquier valor (positivo o negativo) en no negativo,
evitando de este modo la mencionada y no deseada compensacin. Veremos con detalle
cmo hacerlo en el siguiente apartado.

Anlisis de varianza. JGM. 9/3/04

Pg. 35

Antes, conviene detenerse unos instantes en el estudio de algunas propiedades de estas


desviaciones que ms adelante nos ayudarn a determinar los grados de libertad de sus
sumas de cuadrados. En concreto:

Si sumamos la desviacin total Yijk Y... para todos los individuos, obtenemos
siempre un valor nulo. En efecto,

(Y
kA

kB

nij

ijk

i =1 j =1 k =1

Y... ) = (Yijk ) (Y... ) = (Yijk ) Y... nij =


kA

(Y )
kB

nij

ijk

i =1 j =1 k =1

nij

kB

kA

i =1 j =1 k =1

kB

nij

kA

i =1 j =1 k =1

kB

i =1 j =1

kB

n
i =1 j =1
kA k B

ij k A

n
i =1 j =1

kA

i =1 j =1 k =1

kA

kA

nij

kB

(Y ) = (Y ) (Y ) = 0
kB

nij

i =1 j =1 k =1

kA

ijk

kB

nij

i =1 j =1 k =1

kA

ijk

kB

nij

i =1 j =1 k =1

ijk

ij

Si sumamos Yi.. Y... , es decir la desviacin debida al primer factor para todos los
niveles del primer factor ponderada por el nmero de individuos clasificados en
cada nivel de este factor obtenemos tambin un valor nulo. Es decir,

n (Y
kA

i =1

i.

i ..

nij

nij

Y... ) = ni.Yi.. ni.Y... = Yijk Yijk = 0


kA

kA

k A kB

i =1

i =1

i =1 j =1 k =1

k A kB

i =1 j =1 k =1

Anlogamente, si agregamos las desviaciones Y. j . Y... , es decir las desviaciones


respecto al promedio global debidas al segundo factor para todos los niveles del
segundo factor considerando el nmero de individuos clasificados en cada nivel de
este factor obtenemos un resultado nulo. Matemticamente:

n (Y
kB

j =1

.j

. j.

Y... ) = n. j Y. j . n. j Y... = Yijk Yijk = 0


kB

nij

kB

kA

kA

j =1

i =1

i =1 j =1 k =1

kA

kB

nij

i =1 j =1 k =1

En cuanto a la desviacin debida a la interaccin, si sumamos dentro de cada uno de


los k A niveles del primer factor las desviaciones Yij . Yi.. Y. j . + Y... ponderadas por
el nmero de individuos clasificados en cada combinacin de niveles obtenemos una
suma nula. Es decir:
kB
kB
kB
kB

(
)
n
Y

Y
+
Y
=
n
Y

n
Y
+
n
Y

ij ij . ij i.. ij ... nijY. j . =

ij ij .
i ..
. j.
...
j =1
j =1
j =1
j =1
j =1

[ni.Yi.. ni.Yi.. ] + [ni.Y... ni.Y... ] = 0 i {1,2,..., k A }


kB

Anlisis de varianza. JGM. 9/3/04

Pg. 36

Por ltimo, algo muy similar ocurre si sumamos estas mismas desviaciones dentro
de cada uno de los k B niveles del segundo factor. En concreto:
kA
kA
kA
kA

(
)
n
Y

Y
+
Y
=
n
Y

n
Y
+
n
Y

ij ij .
i ..
. j.
...
ij ij . ij . j . ij ... nijYi.. =
i =1
i =1
i =1
i =1
i =1

n. jY. j . n. jY. j . + n. jY... n. jY... = 0 j {1,2,..., k B }


kA

] [

2.3.4. Los cuadrados de las desviaciones. Sumas de cuadrados.

El anlisis de la desviacin total de cada individuo de la muestra respecto a la media


global es el paso previo para la obtencin de las sumas de cuadrados. En efecto,
deseamos obtener una medida de la dispersin global de los individuos respecto a la
media global y para ello debemos sumar las desviaciones de todos ellos. Sin embargo,
debido a las propiedades bsicas de los promedios, las sumas de las desviaciones
resultan ser siempre nulas. Para evitar la compensacin de los signos optamos por
elevar todas las desviaciones al cuadrado. As, al sumarlas para todos los individuos
obtendremos siempre un valor no negativo. De este modo:

(Y

ijk

Y... ) = (Yi.. Y... ) + (Y. j . Y... ) + (Yij . Yi.. Y. j . + Y... ) + (Yijk Yij . )
2

o en forma resumida DT 2 = (DA + DB + DAB + DNE )2 , expresin que se convierte en


DT 2 = DA 2 + DB 2 + DAB 2 + DNE 2 + 2 DA DB + 2 DA DAB + 2 DA DNE + 2 DB DAB +
2 DB DNE + 2 DAB DNE

Dado que la identidad DT = (DA + DB + DAB + DNE ) se cumple para cada uno de los
individuos de la muestra ocurrir lo mismo para DT 2 = (DA + DB + DAB + DNE )2 . En
consecuencia, la suma para todos los individuos del primer miembro de la igualdad
coincidir con la suma del segundo miembro, esto es
k A kB

n ij

kA kB

n ij

DT 2 = (DA + DB + DAB + DNE ) =


i =1 j =1 k =1
k A kB

i =1 j =1 k =1

n ij

k A kB

nij

k A kB

nij

k A kB

nij

DA + DB + DAB + DNE
2

i =1 j =1 k =1
k A kB

i =1 j =1 k =1

i =1 j =1 k =1

i =1 j =1 k =1

k A kB

nij

+ 2 DA DAB + ... +
i =1 j =1 k =1

n ij

+ 2 DAB DNE
i =1 j =1 k =1

Las sumas correspondientes a los dobles productos cruzados de las desviaciones son
Anlisis de varianza. JGM. 9/3/04

Pg. 37

por propiedades bsicas de los promedios- nulas. De aqu que la expresin de la


ecuacin
k A kB

fundamental

n ij

DT

k A kB

i =1 j =1 k =1

del

n ij

anlisis

de

n ij

k A kB

varianza
k A kB

bifactorial

n ij

k A kB

se

resuma

en

nij

= DA + DB + DAB + DNE 2 o en modo


2

i =1 j =1 k =1

i =1 j =1 k =1

i =1 j =1 k =1

i =1 j =1 k =1

ms breve, STC = SCA + SCB + SCAB + SCE , siendo:

STC , la suma total de cuadrados o variacin total de la variable respuesta. Su

DT 2 = (Yijk Y... ) , siendo nij el nmero


kA

expresin matemtica es

nij

kB

kA

i =1 j =1 k =1

kB

nij

i =1 j =1 k =1

de individuos clasificados simultneamente en el nivel i-simo del primer factor y jkA

kB

simo del segundo. STC es la suma de cuadrados de n = nij elementos


i =1 j =1

(Y
kA

distintos, sujetos a la restriccin

kB

nij

i =1 j =1 k =1

ijk

Y... ) = 0 . En consecuencia STC tiene

n 1 grados de libertad, siendo n el nmero de individuos seleccionados en la

muestra.

SCA o suma de cuadrados del primer factor. Representa la parte de la variacin

total de la variable dependiente que queda explicada por los diversos niveles del
primer

factor.
nij

Su
nij

expresin

matemtica

es

DA = (Yi.. Y... ) = ni. (Yi.. Y... ) , donde ni. = nij , es decir,


kA

kB

kA

kB

i =1 j =1 k =1

i =1 j =1 k =1

kA

kB

i =1

j =1

recoge el nmero de individuos clasificados en el nivel i-simo del primer factor.


Esta expresin es la suma ponderada- de los cuadrados de k A elementos distintos.
Estos elementos estn sujetos a una restriccin: su suma ponderada por el tamao d
cada grupo debe ser nula, - ni. (Yi.. Y... ) = 0 - por lo que los grados de libertad de
kA

i =1

esta suma de cuadrados resultan ser k A 1 .

SCB o suma de cuadrados del segundo factor. Representa la parte de la variacin

total de la variable dependiente que queda explicada por los diversos niveles del
segundo

factor.

Su

expresin

matemtica

es

DB 2 = (Y. j. Y... ) = n. j (Y. j. Y... ) , donde n. j = nij . SCB es la


k A kB

nij

i =1 j =1 k =1

k A kB

nij

i =1 j =1 k =1

Anlisis de varianza. JGM. 9/3/04

kB

j =1

kA

i =1

Pg. 38

suma de cuadrados ponderada por el nmero de individuos clasificados en cada


uno de los niveles del segundo factor- de k B elementos distintos. Estos k B

n (Y
kB

elementos presentan la restriccin

j =1

.j

. j.

Y... ) = 0 por lo que los grados de

libertad de esta suma de cuadrados son k B 1 .

SCAB o suma de cuadrados de la interaccin. Representa la parte de la variacin

total de la respuesta que queda explicada por la existencia de una interaccin entre
los

dos

factores.

Su

expresin

matemtica

DAB = (Yij. Yi.. Y. j. + Y... ) = nij (Yij. Yi.. Y. j. + Y... ) .


kA

kB

nij

kA

kB

nij

i =1 j =1 k =1

i =1 j =1 k =1

kA

kB

es
Esta

i =1 j =1

expresin es la suma de cuadrados de k Ak B elementos distintos. Para calcular los


grados de libertad de esta suma de cuadrados debemos considerar las restricciones a
que estn sometidos los sumandos. En concreto, para cada nivel del primer factor

es decir, i 1,2,..., k A - debe cumplirse que

n (Y
kB

j =1

ij

ij .

Yi.. Y. j . + Y... ) = 0 , lo que

supone un conjunto de k A restricciones. Asimismo, para cada uno de los niveles del

segundo factor - j 1,2,..., k B - debe cumplirse que

n (Y
kA

i =1

ij

ij .

Yi.. Y. j . + Y... ) = 0 , lo

que aade k B restricciones a las k A ya existentes. Sin embargo, una de estas k A + k B


restricciones es redundante ya que si se cumplen las k A correspondientes a los
niveles del primer factor y cualesquiera k B 1 de las correspondientes a los k B
niveles del segundo factor necesariamente debe cumplirse la restriccin restante un
razonamiento similar puede efectuarse si consideramos las k B restricciones del
segundo factor y cualesquiera k A 1 restricciones de las correspondientes al
primero- En consecuencia, SCAB es una suma de cuadrados de k Ak B elementos
distintos sujetos a k A + k B 1 restricciones, por los que sus grados de libertad son

) (

)(

k Ak B k A + k B 1 = k A 1 k B 1 .

SCE o suma de cuadrados de los errores, que representa la parte de la variacin

total de la respuesta que no ha podido ser explicada por los factores ni por su

Anlisis de varianza. JGM. 9/3/04

Pg. 39

(Y
kA

interaccin. Su expresin es

kB

nij

i =1 j =1 k =1

ijk

Yij . ) . Para el clculo de los grados de


2

libertad de esta suma de cuadrados podemos razonar considerando que los grados de
libertad de la suma total de cuadrados coincide con la suma de los grados de libertad
de las sumas de cuadrados en los que aqulla se descompone, es decir,
gl (STC ) = gl (SCA) + gl (SCB ) + gl (SCAB ) + gl (SCE ) . Siguiendo este razonamiento

se tiene que gl (SCE ) = gl (STC ) gl (SCA) gl (SCB ) gl (SCAB ) = n k Ak B .

4.4. Cuadrados medios


El anlisis de la variacin total de la variable dependiente, es decir, la descomposicin
de la suma total de cuadrados en sumas de cuadrados atribuibles a diversas fuentes de
variacin, puede darnos una idea preliminar de la importancia relativa de los factores
considerados a la hora de explicar la variable respuesta. No obstante, este anlisis est
sesgado si no tomamos en cuenta los grados de libertad de cada una de estas sumas de
cuadrados.
En efecto, para que podamos comparar unas sumas de cuadrados con otras debemos
dividirlas previamente entre sus correspondientes grados de libertad obteniendo de este
modo los llamados cuadrados medios. Tendremos, por lo tanto, cuatro cuadrados
medios:

CMA =

SCA
kA 1

CMB =

SCB
kB 1

CMAB =

CME =

SCAB
(k A 1)(k B 1)

SCE
n k Ak B

Anlisis de varianza. JGM. 9/3/04

Pg. 40

Los cuadrados medios de cada una de las fuentes de variacin podran considerarse
como la parte que cada grado de libertad de la correspondiente suma de cuadrados
explica de la variable dependiente20.
TP

PT

En concreto, bajo el supuesto de que las hiptesis nulas correspondientes son ciertas se
cumple21 que:
TP

PT

STC

SCA

SCB

SCAB

se distribuye segn una 2 de n-1 grados de libertad.


=

(k A 1)CMA

(kB 1)CMB

se distribuye segn una 2 de k A 1 grados de libertad.

se distribuye segn una 2 de k B 1 grados de libertad.

(k A 1)(k B 1)CMAB

se distribuye segn una 2 de (k A 1)(k B 1) grados

de libertad.
SCE

(n k AkB )CME
2

se distribuye segn una 2 de n k Ak B grados de libertad.

A partir de los cuadrados medios s podemos realizar comparaciones entre los diversos
factores en lo que se refiere a su capacidad para explicar los cambios en la variable
dependiente. Estas comparaciones entre los diversos cuadrados medios se realizarn a
travs de los estadsticos de contraste cocientes entre ciertos cuadrados medios- que
nos permitirn responder a la pregunta de si las hiptesis nulas que nos hemos
formulado son o no ciertas. A determinar cules son estos estadsticos de contraste esto
es, cules son los cocientes de cuadrados medios relevantes- se dedica el siguiente
apartado.

20
PT

Los cuadrados medios de los factores (A, B e interaccin) y del error constituyen estimaciones

TP

insesgadas de la varianza poblacional intergrupos e intragrupos respectivamente.

TP

21
PT

denota la varianza poblacional de la variable dependiente dentro de las combinaciones de niveles.

Anlisis de varianza. JGM. 9/3/04

Pg. 41

5.4. Estadsticos de contraste y decisin sobre las hiptesis nulas


1.5.4. La F de Fisher-Snedecor

Tal como hemos visto en el apartado anterior, ciertas funciones lineales de los
cuadrados medios se distribuyen en el muestreo siguiendo una distribucin 2 de
grados de libertad que varan segn sea el cuadrado medio considerado.
Por otra parte, necesitamos comparar unos cuadrados medios con otros, lo que podemos
conseguir calculando los cocientes entre ellos.
Sabemos asimismo que el cociente de dos 2 previamente divididas por sus grados de
libertad determina una F de Fisher-Snedecor. En concreto, si X e Y son dos variables
X

aleatorias tales que X e Y entonces


2

F ; , siendo los grados de

libertad del numerador y los grados de libertad del denominador.


De aqu se obtiene fcilmente que el cociente de los cuadrados medios definidos en el
apartado anterior se distribuir en el muestreo como una F de Fisher de grados de
liberad en el numerador los correspondientes al cuadrado medio del numerador y grados
de libertad en el denominador iguales a los grados de libertad del cuadrado medio
considerado en el denominador del cociente.
No obstante, la eleccin de los cuadrados medios que deben formar los cocientes no es
arbitraria. Esta eleccin depende de si nos encontramos en un modelo de efectos fijos,
en un modelo de efectos aleatorios o en un modelo mixto, tal como se describe en el
siguiente apartado.
2.5.4. Modelos de efectos fijos y modelos de efectos aleatorios

La seleccin de los cuadrados medios que deben compararse para dar respuesta a las
hiptesis nulas depende de si los factores que estamos considerando son fijos o
aleatorios.

Anlisis de varianza. JGM. 9/3/04

Pg. 42

Se entiende que un factor es fijo cuando o bien se han tenido en cuenta todos los
posibles niveles o tratamientos de ese factor o bien el investigador slo tiene inters en
comparar el efecto de los niveles estudiados del factor.
Se entiende que un factor es aleatorio cuando los niveles que se han considerado para el
factor constituyen una muestra aleatoria de un universo hipotticamente infinito de
niveles al cual se desea generalizar los resultados obtenidos para esta muestra concreta
de niveles del factor.
En virtud de estas consideraciones, en un modelo bifactorial pueden plantearse las
siguientes tres situaciones22:
TP

PT

Ambos factores son fijos

Ambos factores son aleatorios

Un factor es fijo y un factor es aleatorio

3.5.4. Estadsticos de contraste para el caso en el que ambos factores


sean fijos

Cuando el investigador tiene inters nicamente en aquellos niveles de ambos factores


que han sido considerados en el diseo experimental se dice que estamos en un modelo
de efectos fijos. En este primer caso, los estadsticos de contraste resultan de la
comparacin del cuadrado medio de cada uno de los factores y de la interaccin con el
cuadrado medio de los errores. En concreto, bajo el supuesto de que la correspondiente
hiptesis nula es cierta se cumple que:

CMA
EC A =
=
CME

TP

22
PT

(k A 1)CMA
2 (k A 1)
(n k A k B )CME
2 (n k A k B )

(2k
=

A 1

2
(n k Ak B )

(k A 1)

= F(k A 1);(n k A k B )

(n k A k B )

Obviamente, la situacin se complica si consideramos un diseo experimental con ms de dos factores.

Anlisis de varianza. JGM. 9/3/04

Pg. 43

(kB 1)CMB
CMB
2 (k B 1)
=
ECB =
CME (n k Ak B )CME
2 (n k Ak B )

(2k
=

1)

2
(n k A k B )

(kB 1)

= F(k B 1);(n k A k B )

(n k Ak B )

(k A 1)(k B 1)CMAB (2k


CMAB
2 (k A 1)(k B 1)
=
EC AB =
(n k Ak B )CME =
CME
2 (n k Ak B )

A 1

)( k B 1)

[(k A 1)(kB 1)] = F

2
(n k A k B )

( k A 1)( k B 1);( n k A k B )

(n k Ak B )

4.5.4. Estadsticos de contraste para el caso en el que ambos factores


sean aleatorios

Si los niveles que se han considerado para ambos factores no son sino muestras
aleatorias de poblaciones hipotticamente infinitas de niveles de los factores, decimos
que nos encontramos ante un modelo de efectos aleatorios. En este caso, por razones
que escapan al alcance de estas notas y que se pueden consultar en la bibliografa, los
cuadrados medios que deben compararse para dar respuesta a las hiptesis planteadas
son los siguientes:

Para contrastar los efectos de los factores A y B, debemos comparar sus respectivos
cuadrados medios con el correspondiente a la interaccin.

Para contrastar el efecto de la interaccin hay que comparar su cuadrado medio con
el del error.

As, tendremos que bajo el supuesto de que las hiptesis nulas correspondientes son
ciertas se cumple:

CMA
EC A =
=
CMAB

(k A 1)CMA
2 (k A 1)
(k A 1)(k B 1)CMAB
2 (k A 1)(k B 1)

Anlisis de varianza. JGM. 9/3/04

(2k
=

A 1

2
( k A 1)( k B 1)

(k A 1)

= F(k A 1);(k A 1)(k B 1)

[(k A 1)(k B 1)]

Pg. 44

CMB
EC B =
=
CMAB

(k B 1)CMB
2 (k B 1)
(k A 1)(k B 1)CMAB
2 (k A 1)(k B 1)

(2k
=

(2k

(k A 1)(k B 1)CMAB (2k


CMAB
2 (k A 1)(k B 1)
=
EC AB =
(n k Ak B )CME =
CME
2 (n k Ak B )

A 1

A 1

B 1

)( k B 1)

)( k B 1)

(k B 1)

= F(k B 1);(k A 1)(k B 1)

[(k A 1)(k B 1)]

[(k A 1)(k B 1)] = F

2
(n k A k B )

( k A 1)( k B 1);( n k A k B )

(n k Ak B )

5.5.4. Estadsticos de contraste para el caso en el que un factor sea fijo y


el otro aleatorio

Por ltimo, cuando en uno de los factores el investigador no tiene inters ms all de los
niveles considerados mientras que desea extrapolar las conclusiones obtenidas en
relacin con los niveles del otro decimos que estamos en un modelo de efectos mixtos.
Supongamos que el primer factor (el A) es aleatorio y que el segundo (el B) es un factor
fijo.
En ese caso, el cociente apropiado para el primer factor (el aleatorio) es el que compara
CMA con CME; el cociente apropiado para el segundo factor (el fijo) es el que compara
CMB con CMAB y el cociente apropiado para la interaccin entre los factores es
CMAB/CME. Es decir, bajo el supuesto de que las hiptesis nulas relevantes son ciertas
se tiene que:

CMA
EC A =
=
CME

(k A 1)CMA
2 (k A 1)
(n k A k B )CME
2 (n k A k B )

CMB
EC B =
=
CMAB

(2k
=

2
(n k Ak B )

(k B 1)CMB
2 (k B 1)
(k A 1)(k B 1)CMAB
2 (k A 1)(k B 1)

Anlisis de varianza. JGM. 9/3/04

A 1

(k A 1)

(n k A k B )
(2k

= F(k A 1);(n k A k B )

B 1

2
( k A 1)( k B 1)

(k B 1)

= F(k B 1);(k A 1)(k B 1)

[(k A 1)(k B 1)]

Pg. 45

(k A 1)(k B 1)CMAB (2k


CMAB
2 (k A 1)(k B 1)
=
EC AB =
(n k Ak B )CME =
CME
2 (n k Ak B )

A 1

)( k B 1)

[(k A 1)(k B 1)] = F

2
(n k A k B )

( k A 1)( k B 1);( n k A k B )

(n k Ak B )

6.5.4. Decisin sobre la veracidad de las hiptesis nulas

Una vez determinado el modelo fijo, aleatorio o mixto- la decisin acerca de la


veracidad o falsedad de las hiptesis nulas planteadas para el anlisis de varianza
bifactorial pasa por la comparacin de los valores de los estadsticos de contraste con
los valores crticos de la F de Fisher-Snedecor de los correspondientes grados de
libertad.
En concreto, para un diseo en el que ambos factores son fijos se tiene:
Hiptesis sobre el factor A: i. .. = 0 i {1,2,...,k A }. Si

EC A =

CMA
f (k A 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso
CME

contrario se acepta23.
TP

PT

Hiptesis sobre el factor B: . j .. = 0 j {1,2,...,k B }. Si

ECB =

CMB
f (k B 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso
CME

contrario se acepta.

Hiptesis sobre la interaccin:

ij = .. + ( i. .. ) + (.j .. ) (i,j ) {1,2,...,k A } {1,2,...,k B } .Si

EC AB =

CMAB
f (k A 1)(k B 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso
CME

contrario se acepta.

TP

23
PT

En todo caso f ; ; representa el valor de una F de Fisher-Snedecor de

numerador y en el denominador que deja a su derecha un rea

Anlisis de varianza. JGM. 9/3/04

grados de libertad en el

Pg. 46

Cuando ambos factores son aleatorios se tiene:

Hiptesis sobre el factor A: i. .. = 0 i {1,2,...,k A }. Si


EC A =

CMA
f (k A 1);(k A 1)(k B 1); entonces se rechaza la hiptesis nula. En caso
CMAB

contrario se acepta.

Hiptesis sobre el factor B: . j .. = 0 j {1,2,...,k B }. Si


ECB =

CMB
f (k B 1);(k A 1)(k B 1); entonces se rechaza la hiptesis nula. En caso
CMAB

contrario se acepta.

Hiptesis sobre la interaccin:

ij = .. + ( i. .. ) + (.j .. ) (i,j ) {1,2,...,k A } {1,2,...,k B } .Si

EC AB =

CMAB
f (k A 1)(k B 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso
CME

contrario se acepta.
Cuando un factor es aleatorio (A) y el otro es fijo (B) se tiene:

Hiptesis sobre el factor A (aleatorio): i. .. = 0 i {1,2,...,k A }. Si


EC A =

CMA
f (k A 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso
CME

contrario se acepta.

Hiptesis sobre el factor B (fijo): . j .. = 0 j {1,2,...,k B }. Si


ECB =

CMB
f (k B 1);(k A 1)(k B 1); entonces se rechaza la hiptesis nula. En caso
CMAB

contrario se acepta.

Hiptesis

sobre

la

ij = .. + ( i. .. ) + (.j .. ) (i,j ) {1,2,...,k A } {1,2,...,k B } .Si

EC AB =

interaccin:

CMAB
f (k A 1)(k B 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso
CME

contrario se acepta.

Anlisis de varianza. JGM. 9/3/04

Pg. 47

5. Un ejemplo de anlisis de varianza unifactorial


1.5. Enunciado del ejemplo
Una cadena de supermercados est interesada en estudiar la relacin entre sus ventas y
el contenido de sus campaas de publicidad. Con ese fin, los responsables de las
campaas de comunicacin han recogido los datos de ventas en tres supermercados
situados en tres ciudades de similar tamao durante un periodo de 20 semanas. En la
ciudad A, el tema principal de las campaas de publicidad es el amplio horario del
establecimiento, en la ciudad B es la calidad de los productos y en la ciudad C es el
precio. Existe evidencia suficiente como para afirmar que un mensaje es mejor que
otro para el objetivo de maximizar las ventas?

Tabla 1
Ventas semanales en unidades segn la ciudad en que se encuentra el
supermercado

Ventas semanales

Ciudad A

529 658 793 514 663 719 711 606 461 529 498 663 604
495 485 557 353 557 542 614

Ciudad B

804 630 774 717 679 604 620 697 706 615 492 719 787
699 572 523 584 634 580 624

Ciudad C

672 531 443 596 602 502 659 689 675 512 691 733 698
776 561 572 469 581 679 532

2.5. Formulacin de la hiptesis nula


Se trata de una situacin en la que deseamos estudiar la relacin entre una variable
dependiente cuantitativa las ventas semanales- y una variable cualitativa con tres

Anlisis de varianza. JGM. 9/3/04

Pg. 48

modalidades el factor tipo de comunicacin empleado-. As, las hiptesis nula y


alternativa se formulan del siguiente modo:

Hiptesis nula: 1 = 2 = 3 = , o de modo equivalente, i = 0 i {1,2,3} .


En trminos coloquiales la hiptesis nula indica que el tipo de mensaje que se
emplee en la comunicacin de la cadena de supermercados 1: horario amplio, 2:
calidad, 3: precio- no influye en las ventas. No existen diferencias entre las
ventas promedio de las ciudades en las que se emplean diferentes contenidos en la
comunicacin.

Hiptesis alternativa: recoge la situacin contraria a la recogida en la hiptesis nula,


esto es i {1,2,3}: i 0 , lo que significa que alguno de los contenidos de la
comunicacin est asociado con un promedio de ventas distinto al promedio de
ventas de las otras ciudades.

Antes de proceder a decidir por cul de las dos hiptesis apostamos debemos verificar el
cumplimiento de los requisitos de normalidad y homocedasticidad, condiciones
necesarias para poder efectuar un anlisis de varianza unifactorial.

3.5.

Comprobacin

de

los

requisitos

de

normalidad

homocedasticidad
1.3.5. Normalidad

Vamos a emplear la prueba de bondad de ajuste de Kolmogorv-Smirnov con el fin de


estudiar la normalidad de la variable cuantitativa en cada uno de los niveles del factor.
En otras palabras, debemos estudiar si los valores de ventas en cada una de las ciudades
A, B y C- proviene de una variable que se distribuye normalmente.
Realizaremos los clculos para la primera ciudad y dejaremos como ejercicio
indicando el resultado- los clculos para las ciudades B y C.
Como se expuso en una seccin anterior la prueba de Kolmogorov-Smirnov parte del
supuesto de la hiptesis nula- de que los datos provienen de una distribucin normal
siendo la hiptesis alternativa la que recoge el supuesto contrario.

Anlisis de varianza. JGM. 9/3/04

Pg. 49

El primer paso para la aplicacin del estadstico de Kolmogorov-Smirnov es el clculo


de la funcin de distribucin emprica y su posterior comparacin con la funcin de
distribucin terica.
La mxima de las discrepancias entre estas dos distribuciones emprica y tericadetermina el estadstico de contraste, que debe ser comparado con el valor que nos
proporcionan las tablas del contraste. Los clculos se detallan a continuacin:
Tabla 2
Comparacin entre la distribucin emprica y la
terica. Kolmogorov-Smirnov
Ventas Distribucin
emprica
353
461
485
495
498
514
529
529
542
557
557
604
606
614
658
663
663
711
719
793

0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
1,00

Distribucin
terica24

Diferencia

0,0153
0,1308
0,1863
0,2132
0,2217
0,2702
0,3200
0,3200
0,3660
0,4215
0,4215
0,6006
0,6080
0,6373
0,7808
0,7948
0,7948
0,9007
0,9135
0,9810

0,0347
0,0308
0,0363
0,0132
0,0283
0,0298
0,0300
0,0800
0,0840
0,0785
0,1285
0,0006
0,0420
0,0627
0,0308
0,0052
0,0552
0,0007
0,0365
0,0190

TP

PT

El estadstico de contraste es la mxima de las diferencias entre la distribucin emprica


y la distribucin terica, valor que en este caso es 0,1285. Este valor debe compararse
con el que nos proporcionan las tablas de la distribucin en el muestreo del estadstico

TP

24
PT

Los valores de la distribucin terica se obtienen de modo muy simple. Por ejemplo, veamos cmo

obtener el primero: P Z

353 577,55
= 0,0153 , donde 577,55 es el promedio de ventas en la
103,8

ciudad A y 103,8 es la desviacin estndar de las ventas en la ciudad A

Anlisis de varianza. JGM. 9/3/04

Pg. 50

D de Kolmogorov-Smirnov, que para un tamao de muestra n = 20 y un nivel de


significacin de = 0,05 es 0,294. En consecuencia no tenemos pruebas suficientes
para sospechar que la muestra de la primera ciudad no provenga de una variable que se
distribuye normalmente.
Los resultados para la ciudad B y la ciudad C son respectivamente 0,138 y 0,156,
valores que deben compararse con el mismo valor de las tablas. En ambos casos, pues,
se mantiene la normalidad de las variables.
2.3.5. Homocedasticidad

La homocedasticidad se refiere a la igualdad en la dispersin de la variable dependiente


en las tres ciudades. Es decir, puede que las ventas promedio de una ciudad a otra
cambien y eso es lo que vamos a determinar con el anlisis de la varianza-, pero para
comprobarlo es necesario es un requisito para poder aplicar el anlisis de varianza- que
la dispersin en las ventas sea la misma en unas y en otras ciudades. En concreto, la
hiptesis nula de la prueba de homocedasticidad postula que 12 = 22 = 32 mientras
que la hiptesis alternativa afirma que existe alguna poblacin con una dispersin
distinta a la de las dems.
Vamos a emplear la prueba de Levene, que se basa en el estadstico

n (Z
k

W =

nk
k 1

i =1
k ni

(Z
i =1 j =1

Z .. )

i.

Z i. )

, donde Z ij = Yij Yi. y Yi. representa la media en la i-

ij

sima muestra.
Los clculos se detallan a continuacin:

Anlisis de varianza. JGM. 9/3/04

Pg. 51

Tabla 3
Clculos para la prueba de homocedasticidad de Levene

Yij

Yi.

Z ij

Z i.

529
658
793
514
663
719
711
606
461
529
498
663
604
495
485
557
353
557
542
614
804
630
774
717
679
604
620
697
706
615
492
719
787
699
572
523
584
634
580
624
672
531
443
596
602
502
659
689
675
512

577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
653
653
653
653
653
653
653
653
653
653
653
653
653
653
653
653
653
653
653
653
608,65
608,65
608,65
608,65
608,65
608,65
608,65
608,65
608,65
608,65

48,55
80,45
215,45
63,55
85,45
141,45
133,45
28,45
116,55
48,55
79,55
85,45
26,45
82,55
92,55
20,55
224,55
20,55
35,55
36,45
151
23
121
64
26
49
33
44
53
38
161
66
134
46
81
130
69
19
73
29
63,35
77,65
165,65
12,65
6,65
106,65
50,35
80,35
66,35
96,65

83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
79,415
79,415
79,415
79,415
79,415
79,415
79,415
79,415
79,415
79,415

Anlisis de varianza. JGM. 9/3/04

(Z

Z i. )

ij

1207,91
8,15
17462,30
390,26
4,60
3380,84
2514,52
3009,07
1105,23
1207,91
14,10
4,60
3232,49
0,57
85,47
3938,19
19950,15
3938,19
2280,54
2195,39
6480,25
2256,25
2550,25
42,25
1980,25
462,25
1406,25
702,25
306,25
1056,25
8190,25
20,25
4032,25
600,25
110,25
3540,25
2,25
2652,25
6,25
1722,25
258,08
3,12
7436,48
4457,57
5294,75
741,75
844,77
0,87
170,69
297,05
Pg. 52

691
733
698
776
561
572
469
581
679
532

608,65
608,65
608,65
608,65
608,65
608,65
608,65
608,65
608,65
608,65

82,35
124,35
89,35
167,35
47,65
36,65
139,65
27,65
70,35
76,65

79,415
79,415
79,415
79,415
79,415
79,415
79,415
79,415
79,415
79,415

8,61
2019,15
98,70
7732,56
1009,02
1828,85
3628,26
2679,62
82,17
7,65

De la tabla se deduce que:

n (Z
k

W =

nk
k 1

i =1
k ni

(Z
i =1 j =1

Z .. )

i.

Z i. )

ij

57 20 [(83,305 77,74) + (70,5 77,74) + (79,415 77,74)]


= 0,344
2
142649,2

Este valor debe compararse con

f k 1;n k ;

rechazando la hiptesis nula de

homocedasticidad si W f k 1;n k ; . En este caso f k 1;n k ; = f 2,57 ,0, 05 = 3,159 , por lo que
no existe evidencia suficiente como para rechazar la hiptesis de homocedasticidad. No
podemos rechazar que las ventas tengan la misma dispersin en las tres ciudades.
Se cumplen, pues, los requisitos de normalidad y homocedasticidad, lo que nos faculta
para poder continuar adelante con el anlisis de varianza.

4.5. Anlisis de las desviaciones de los individuos respecto a la


media global
Los resultados descriptivos bsicos para la muestra seleccionada son los siguientes:
)
Y.. = 613,06 Y1. = 577,55 Y2. = 653 Y3. = 608,65

Las ventas promedio en el conjunto de semanas y el conjunto de ciudades resulta ser


613,06 unidades. No obstante, se observan diferencias entre las ciudades o lo que es lo
mismo, en funcin del contenido bsico de las campaas de publicidad-. Por los datos
de la muestra parece que el mensaje ms adecuado es el que hace nfasis en la calidad
del producto el mensaje de la segunda ciudad- mientras que el menos adecuado es el
que se refiere a la amplitud del horario de apertura el de la primera-.

Anlisis de varianza. JGM. 9/3/04

Pg. 53

A partir de estos promedios vamos a analizar las causas por las que las ventas de los
supermercados en una semana concreta se desvan del promedio global de las ventas en
las tres ciudades. Vamos a descomponer la desviacin total respecto a la media DT- en
dos sumandos: la desviacin debida a que el supermercado se encuentra en una
determinada ciudad y, en consecuencia, la publicidad tiene un contenido determinado
DE- y la desviacin debida a causas ajenas al tipo de mensaje empleado en la
comunicacin DNE-.
La descomposicin de la desviacin total para el conjunto de observaciones se presenta
en la siguiente tabla:

Anlisis de varianza. JGM. 9/3/04

Pg. 54

Tabla 4
Anlisis de las desviaciones respecto a la media global
VENTAS

CIUDAD

DT

DE

DNE

529
658
793
514
663
719
711
606
461
529
498
663
604
495
485
557
353
557
542
614
804
630
774
717
679
604
620
697
706
615
492
719
787
699
572
523
584
634
580
624
672
531
443
596
602
502
659
689
675
512
691

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
3

-84,067
44,933
179,933
-99,067
49,933
105,933
97,933
-7,067
-152,067
-84,067
-115,067
49,933
-9,067
-118,067
-128,067
-56,067
-260,067
-56,067
-71,067
0,933
190,933
16,933
160,933
103,933
65,933
-9,067
6,933
83,933
92,933
1,933
-121,067
105,933
173,933
85,933
-41,067
-90,067
-29,067
20,933
-33,067
10,933
58,933
-82,067
-170,067
-17,067
-11,067
-111,067
45,933
75,933
61,933
-101,067
77,933

-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417

-48,550
80,450
215,450
-63,550
85,450
141,450
133,450
28,450
-116,550
-48,550
-79,550
85,450
26,450
-82,550
-92,550
-20,550
-224,550
-20,550
-35,550
36,450
151,000
-23,000
121,000
64,000
26,000
-49,000
-33,000
44,000
53,000
-38,000
-161,000
66,000
134,000
46,000
-81,000
-130,000
-69,000
-19,000
-73,000
-29,000
63,350
-77,650
-165,650
-12,650
-6,650
-106,650
50,350
80,350
66,350
-96,650
82,350

Anlisis de varianza. JGM. 9/3/04

Pg. 55

733
698
776
561
572
469
581
679
532

3
3
3
3
3
3
3
3
3

119,933
84,933
162,933
-52,067
-41,067
-144,067
-32,067
65,933
-81,067

-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417

124,350
89,350
167,350
-47,650
-36,650
-139,650
-27,650
70,350
-76,650

Tomemos como ejemplo las ventas durante la primera semana del supermercado que se
encuentra en la primera ciudad: en esta semana las ventas del supermercado fueron de
529 unidades y dado que la media global es 613,06, podemos decir que en esta semana
el supermercado de la ciudad A se qued 84,06 unidades por debajo de la media global.
Esta es su desviacin total. Por otra parte, sabemos que el promedio de ventas de este
supermercado a lo largo de las veinte semanas seleccionadas ha sido de

577,55

unidades, esto es, 35,517 unidades por debajo de la media global. Esta es la desviacin
explicada por el hecho de que el mercado se encuentra en la ciudad A o lo que es lo
mismo, la desviacin debida al hecho de emplear un mensaje de amplio horario en su
comunicacin-. Por ltimo, en esta semana concreta el supermercado ha vendido 48,55
unidades menos que su media en las veinte semanas. Esta es la desviacin no explicada.
La igualdad DT=DE+DNE se cumple, como se puede comprobar fcilmente, para todos
los individuos.
Verifiquemos que tambin se cumplen las restricciones que determinarn los grados de
libertad. Efectivamente:

(Y
3

20

i =1 j =1

ij

Y.. ) = 0

[(

) (

) (

)]

)
)
)
(
)
20
Y

Y
=
20

577
,
55

613
,
0
6
+
653

613
,
0
6
+
608
,
65

613
,
0
6
=0
i. ..
3

i =1

20
(Y1 j Y1. ) = 0
j =1
20
(Y2 j Y2. ) = 0
j =1
20
(Y3 j Y3. ) = 0
j =1

Anlisis de varianza. JGM. 9/3/04

Pg. 56

5.5. Cuadrados de las desviaciones y sumas de cuadrados


Como se acaba de comprobar, el intento por acumular las desviaciones de todos los
individuos nos lleva a un valor nulo de las sumas. Se ha razonado con anterioridad que
una forma adecuada de actuar es elevar al cuadrado las desviaciones con lo que la
igualdad DT = DE + DNE se transforma en DT 2 = DE 2 + DNE 2 + 2 DE DNE ,
igualdad que, obviamente, se cumple para todos los individuos.
Ahora, la suma de estos cuadrados no puede resultar nula salvo que todas las
desviaciones sean nulas. Adems, la suma del trmino 2 DE DNE es nula, con lo que

DT

llegamos a la expresin

= DE 2 + DNE 2

o en modo abreviado

STC = SCTR + SCE .

La suma total de cuadrados STC = (Yij Y.. ) es, en este caso la suma de 60
3

20

i =1 j =1

(Y
3

elementos potencialmente distintos, sujeta a la restriccin de que

20

i =1 j =1

ij

Y.. ) = 0 ,

luego tiene 59 grados de libertad.


Por su parte, SCTR = (Yi. Y.. ) = 20(Yi. Y.. )
3

20

i =1 j =1

es la suma de 3 elementos

i =1

20(Y
3

distintos, sujeta a la restriccin

i.

i =1

Y.. ) = 0 . Se trata pues de una suma con 2

grados de libertad.
Por ltimo, SCE = (Yij Yi. )
3

20

es la suma de 60 sumandos, todos ellos

i =1 j =1

20
(Y1 j Y1. ) = 0
j =1
20
potencialmente distintos sujeta a las tres restricciones (Y2 j Y2. ) = 0 . As, a esta
j =1
20
(Y3 j Y3. ) = 0
j =1

suma de cuadrados le corresponden 57 grados de libertad.

Anlisis de varianza. JGM. 9/3/04

Pg. 57

La siguiente tabla muestra las sumas de cuadrados con sus correspondientes grados de
libertad:

Tabla 5
Descomposicin de la suma total de cuadrados y grados de libertad

Suma de cuadrados

(Y

Total

20

20(Y
3

Ciudad / contenido de la
comunicacin

i.

i =1

(Y

Error (E)

20

i =1 j =1

Y.. ) =564495,73

n 1 =59

Y.. ) =57512,23

k 1 =2

Yi. ) =506983,50

n k =57

ij

i =1 j =1

Grados de libertad

ij

Obsrvese que en la tabla anterior se cumple la igualdad STC = SCTR + SCE y tambin
se

cumple

una

igualdad

equivalente

para

los

grados

de

libertad

g.l.(STC ) = g.l.(SCTR ) + g .l.(SCE ) .

6.5. Cuadrados medios


A primera vista puede parecer que la parte de la variacin total explicada por la ciudad
en la que se encuentra el supermercado (y por tanto por el contenido de la
comunicacin) es pequea en relacin con la variacin debida al error. No obstante
sabemos que esta valoracin carece de sentido ya que las sumas de cuadrados deben
tomarse siempre en consideracin relacionndolas con sus grados de libertad.
Debemos, por tanto, proceder al clculo de los cuadrados medios, esto es, la parte de la
variacin total que explica cada grado de libertad de la correspondiente suma de
cuadrados.

Anlisis de varianza. JGM. 9/3/04

Pg. 58

En concreto, los cuadrados medios para los tratamientos y para el error son los que se
reflejan en la siguiente tabla:

Tabla 6
Cuadrados medios

Cuadrados medios

de la

n (Y
k

Ciudad/contenido

CMTR =

i.

i =1

(Y
k

CME =

Y.. )

= 28756,1

k 1

comunicacin

Error

i.

ni

i =1 j =1

ij

Yi. )

nk

= 8894,4

Ahora vemos que cada grado de libertad del tratamiento explica una mayor parte de la
variacin total que cada grado de libertad del error. A continuacin calcularemos el
estadstico de contraste que estudiar la relacin entre estos dos cuadrados medios.

7.5. El estadstico de contraste. Decisin sobre la hiptesis nula


Efectivamente, el estadstico de contraste que nos va a servir para elegir entre la
hiptesis nula y la alternativa es el cociente entre CMTR y CME . El valor de este
cociente junto con el conocimiento acerca de la distribucin en el muestreo de este
estadstico bajo el supuesto de que la hiptesis nula sea cierta nos van a proporcionar las
herramientas para tomar la decisin.
En concreto, el valor del estadstico de contraste en nuestra muestra es
EC =

CMTR
= 3,233 . Por otra parte, bajo la hiptesis nula de que las medias
CME

poblacionales de las ventas son las mismas en las tres ciudades es decir, el contenido
de la comunicacin no influye- sabemos que EC Fk 1;n k = F2,57 . Slo tenemos que

Anlisis de varianza. JGM. 9/3/04

Pg. 59

determinar la probabilidad crtica del resultado que hemos obtenido en nuestra muestra.
Esta probabilidad crtica25 resulta ser 0,0468 lo que, en trminos matemticos significa
TP

PT

que P[EC 3,233 / 1 = 2 = 3 ] = 0,0468 . Bajo el supuesto de que la hiptesis nula es


cierta, lo que nos hemos encontrado en la muestra el valor de nuestro estadstico de
contraste- es muy poco probable. En consecuencia debemos entender que el supuesto
la veracidad de la hiptesis nula- debe ser falso. As, concluimos que existen pruebas
suficientes como para sospechar que el contenido de la comunicacin s tiene influencia
sobre las ventas. Las diferencias muestrales son demasiado grandes como para
atribuirlas enteramente al azar.
Rechazar la hiptesis nula supone aceptar la alternativa, que afirma que existe alguna
subpoblacin con una media diferente a la de las dems, pero de cul se trata? Para dar
respuesta a esta pregunta disponemos de los contrastes a posteriori.

8.5. Contrastes a posteriori


Para determinar entre qu subpoblaciones se dan las diferencias significativas se
dispone de los contrastes a posteriori. Entre ellos se encuentran los de Tukey y Scheff.
Aplicaremos este ltimo.
Debemos comenzar por construir una matriz con las diferencias entre las muestras
seleccionadas, ordenndolas de menor a mayor. Esta matriz es antisimtrica por lo que
podemos prescindir de los elementos situados por debajo de la diagonal principal.

TP

25
PT

P[F2,57 3,233] = 0,0468

Anlisis de varianza. JGM. 9/3/04

Pg. 60

Tabla 7
Diferencias entre las medias muestrales. Test de Scheff

Yi. Y j .

Ciudad 1

Ciudad 3

Ciudad 2

Ciudad 1

44,350

75,450

Ciudad 3

-44,350

31,100

Ciudad 2

-75,450

-31,100

Ahora, para cada celda debemos calcular la diferencia crtica de Scheff, que viene dada
por CDScheff =

(k 1) f k 1;nk ; CME 1

ni

1
nj

. En este caso, como el tamao de la

muestra en cada ciudad es el mismo veinte observaciones- se tendr que


CDScheff =

(k 1) f k 1;nk ; CME 2 =
ni

2
2 3,159 8894,4 = 5619,48 = 74,96 .
20

Este valor es el mismo para todas las comparaciones por el mismo tamao de muestra
en cada ciudad- As, la nica diferencia significativa (segn el criterio de Scheff) se da
entre las ciudades 1 y 2, o lo que es lo mismo, entre un contenido de la publicidad
centrado en la amplitud del horario y otro centrado en la calidad de los productos
ofertados.

Anlisis de varianza. JGM. 9/3/04

Pg. 61

6. Un ejemplo de anlisis de varianza bifactorial


1.6. Enunciado del ejemplo
Se ha diseado un experimento con el fin de determinar la eficacia combinada de un
programa de rehabilitacin y de un determinado frmaco en la recuperacin de la
capacidad motriz de las personas que han sufrido un accidente. Para ello se seleccion
un conjunto de 20 pacientes a los que se someti a una de las cuatro condiciones
experimentales resultantes de administrarles o no el frmaco y someterlos o no al
programa de rehabilitacin.
Las puntuaciones obtenidas por los pacientes en una prueba de psicomotricidad tras
haber recibido el tratamiento se presentan en la siguiente tabla:

Tabla 8
Valor de la capacidad motriz tras recibir la terapia

Frmaco

NO

NO

10, 12, 10, 9, 10

8, 10, 9, 12, 10

15, 11, 13, 15, 14

18, 14, 13, 16, 17

Rehabilitacin

Suponiendo que la capacidad motriz de los pacientes era equivalente antes de iniciar el
tratamiento existe evidencia suficiente acerca de un efecto real de la rehabilitacin en
la recuperacin de la capacidad motriz? existe evidencia suficiente acerca de un efecto
real del frmaco en la recuperacin de la capacidad motriz? existe evidencia suficiente
acerca de la existencia de un efecto combinado (interaccin) entre el frmaco y la
rehabilitacin?

Anlisis de varianza. JGM. 9/3/04

Pg. 62

2.6. Formulacin de las hiptesis nulas


Se trata de un experimento en el que se persigue determinar si dos variables de
naturaleza cualitativa, la administracin o no del frmaco y el seguimiento o no de un
programa de rehabilitacin, influyen en una variable cuantitativa, la capacidad motriz.
Se desea tambin analizar la posible existencia de un efecto combinado de ambas
variables cualitativas sobre la respuesta.
Por razones de simplicidad y porque parece razonable en este caso- consideraremos un
modelo de efectos fijos, lo que supone que el investigador slo tiene inters en las
modalidades o niveles de los factores que estamos analizando.
A continuacin, cada una de las preguntas formuladas en el enunciado del ejemplo se
traducir en una hiptesis de partida o hiptesis nula acerca de cuya veracidad o
falsedad debemos tomar una decisin. En concreto, las hiptesis nulas que se plantean
son las siguientes:

Hiptesis sobre el primer factor: la administracin de frmaco a los pacientes no


tiene ningn efecto sobre la recuperacin de su capacidad motriz. En otras palabras,
la capacidad motriz promedio de la subpoblacin de pacientes que toman el frmaco
coincide con la capacidad motriz promedio de la subpoblacin de pacientes a los
que no se les administra este medicamento y, en consecuencia, con la capacidad
motriz

promedio

global-.

Esta

primera

hiptesis

nula

se

expresa

as:

i. .. = 0 i {1,2}, siendo k A = 2 el nmero de niveles del primer factor. El


valor i = 1 indica que al paciente no se le ha administrado el frmaco y el valor
i = 2 indica que s se le ha administrado.

Hiptesis sobre el segundo factor: el hecho de que el paciente sea sometido a un


proceso de rehabilitacin no incide en su recuperacin de la capacidad motriz. En
otras palabras, la capacidad motriz promedio de la subpoblacin de pacientes que se
someten a un periodo de rehabilitacin coincide con la capacidad motriz promedio
de la subpoblacin de pacientes que no han acudido a rehabilitacin y, en
consecuencia, con la capacidad motriz promedio global-. Esta hiptesis nula se
expresa as: . j .. = 0 j {1,2}, siendo k B = 2 el nmero de niveles del segundo

Anlisis de varianza. JGM. 9/3/04

Pg. 63

factor. El valor j = 1 indica que el paciente no ha sido sometido a un programa de


rehabilitacin y el valor j = 2 indica que ha acudido a rehabilitacin.

Hiptesis sobre la interaccin entre los factores: el posible efecto que los factores
tienen sobre la variable respuesta es estrictamente aditivo, en el sentido de que el
efecto combinado de la rehabilitacin y el frmaco coincide con la suma de los
efectos individuales de la rehabilitacin y el frmaco. No existe un efecto adicional
debido a la combinacin de ambos tratamientos. Matemticamente, esta hiptesis se
formula del siguiente modo: ij = .. + ( i. .. ) + (.j .. ) (i,j ) {1,2} {1,2}.

Los siguientes apartados desarrollan con detalle el procedimiento para decidir si estas
hiptesis de partida son ciertas o existe evidencia suficiente para considerarlas falsas.

3.6. Anlisis de las desviaciones de los individuos respecto a la


media global
Para dar respuesta a las preguntas formuladas se ha seleccionado una muestra de 20
pacientes en un diseo bifactorial con asignacin aleatoria de los pacientes a los cuatro
grupos resultantes de la combinacin de los niveles de los factores. A partir de los
resultados de la muestra debemos tomar una decisin acerca de la veracidad o falsedad
de las hiptesis.
Procederemos en primer lugar al clculo de los promedios muestrales para cada uno de
los grupos de pacientes relevantes. Estos promedios nos servirn para analizar la
desviacin total de cada individuo respecto a la media global.
Los resultados son los siguientes:
Y... = 12,3
Y1.. = 11,9
Y 2..= 12,7
Y.1. = 10
Y.2. = 14,6

Y11. = 10,2
Y12. = 13,6
Y21. = 9,8
Y22. = 15,6

As, el promedio de capacidad motriz para todos los pacientes (promedio global) es de
12,3. Este promedio se reduce a 11,9 para aquellos pacientes a los que no se ha

Anlisis de varianza. JGM. 9/3/04

Pg. 64

administrado el frmaco y se ve incrementado hasta 12,7 en aquellos pacientes a los que


s se les ha administrado.
Anlogamente, quienes han seguido un proceso de rehabilitacin han visto que como
promedio- su capacidad motriz alcanza el valor de 14,6 mientras que los que no han
seguido este tratamiento se quedan en un promedio de 10.
Estos meros resultados descriptivos nos llevan a pensar al menos a priori- que existe
un efecto positivo tanto del frmaco como de la rehabilitacin en la recuperacin de la
capacidad motriz26.
TP

PT

Los resultados para las combinaciones de niveles de los dos factores indican que

quienes no han recibido el frmaco ni han seguido la rehabilitacin presentan una


capacidad motriz promedio de 10,2

los pacientes que no han tomado el frmaco pero han seguido un programa de
rehabilitacin tienen por trmino medio una capacidad motriz de 13,6

los pacientes que han recibido el frmaco pero no han seguido un programa de
rehabilitacin alcanzan una capacidad motriz de 9,8 por trmino medio.

quienes han seguido ambos tratamientos obtienen una capacidad motriz promedio
tras la terapia de 15,6 puntos.

A partir de estos promedios podemos ya analizar las causas de las desviaciones de la


capacidad motriz de cada uno de los 20 pacientes respecto a la capacidad motriz
promedio. En concreto, vamos a descomponer la desviacin total en cuatro sumandos:

La desviacin respecto al promedio global debida al hecho de que al paciente se le


haya administrado o no el frmaco. A esta desviacin la llamaremos desviacin
debida al primer factor y la denotaremos por DA.

TP

26
PT

Habra que conocer cul es el nivel de capacidad motriz del que parten los pacientes. El modelo supone

que no hay diferencias sustanciales entre los niveles de psicomotricidad inicial de unos y otros pacientes.
En ese sentido se trata de pacientes homogneos.

Anlisis de varianza. JGM. 9/3/04

Pg. 65

La desviacin debida al hecho de que el paciente haya seguido o no un programa de


rehabilitacin. Esta desviacin se indicar como DB y recibe el nombre de
desviacin debida al segundo factor.

La desviacin debida al efecto combinado del frmaco y el proceso de


rehabilitacin. Se trata de la desviacin debida a la interaccin entre los factores y la
indicaremos por DAB.

La desviacin debida a otros factores no considerados en el diseo del experimento


se designar con DNE.

La siguiente tabla muestra el anlisis de las desviaciones:


Tabla 9
Descomposicin de las desviaciones respecto al promedio global
CAPACIDAD

FRMACO

REHABILITA

MOTRIZ

(A)

CIN (B)

10

NO

12
10

DT

DA

DB

DAB

DNE

NO

-2,3

-0,4

-2,3

0,6

-0,2

NO

NO

-0,3

-0,4

-2,3

0,6

1,8

NO

NO

-2,3

-0,4

-2,3

0,6

-0,2

NO

NO

-3,3

-0,4

-2,3

0,6

-1,2

10

NO

NO

-2,3

-0,4

-2,3

0,6

-0,2

15

NO

2,7

-0,4

2,3

-0,6

1,4

11

NO

-1,3

-0,4

2,3

-0,6

-2,6

13

NO

0,7

-0,4

2,3

-0,6

-0,6

15

NO

2,7

-0,4

2,3

-0,6

1,4

14

NO

1,7

-0,4

2,3

-0,6

0,4

NO

-4,3

0,4

-2,3

-0,6

-1,8

10

NO

-2,3

0,4

-2,3

-0,6

0,2

NO

-3,3

0,4

-2,3

-0,6

-0,8

12

NO

-0,3

0,4

-2,3

-0,6

2,2

10

NO

-2,3

0,4

-2,3

-0,6

0,2

18

5,7

0,4

2,3

0,6

2,4

14

1,7

0,4

2,3

0,6

-1,6

13

0,7

0,4

2,3

0,6

-2,6

16

3,7

0,4

2,3

0,6

0,4

17

4,7

0,4

2,3

0,6

1,4

Tomemos como ejemplo el primer individuo. Se trata de un paciente que no ha sido


sometido a rehabilitacin y al que no se le ha administrado el frmaco. Este paciente
presenta una capacidad motriz de 10 puntos.

Anlisis de varianza. JGM. 9/3/04

Pg. 66

Su desviacin total respecto a la media global (12,3) resulta ser 2,3. En efecto, por
diversos motivos este paciente presenta una capacidad motriz inferior en 2,3 puntos
al promedio de todos los pacientes estudiados.

La desviacin debida al primer factor es 0,4. Efectivamente, se trata de un paciente


al que no se ha administrado el frmaco y por los promedios calculados con
anterioridad sabemos que quienes no han recibido el frmaco tienen una capacidad
motriz promedio de 11,9 frente al 12,3 global. Esta diferencia es la que queda
reflejada en el valor de DA para el primer paciente.

Anlogamente, la desviacin debida al segundo factor es 2,3. Este valor es la


diferencia entre la capacidad motriz promedio de quienes no siguieron un programa
de rehabilitacin (10) y el promedio global (12,3).

La desviacin debida a la interaccin entre los factores es algo ms sutil. Si


sumamos el efecto individual de cada uno de los niveles sobre la capacidad motriz
razonaramos del siguiente modo: dado que se trata de un paciente al que no se ha
administrado el frmaco, debe tener una capacidad motriz inferior al promedio
global en 0,4 puntos; adems, dado que es un paciente que no ha sido sometido a un
proceso de rehabilitacin debe tener una capacidad motriz inferior al promedio
global en 2,3 puntos; en consecuencia, este paciente y todos los que estn en su
grupo (no frmaco y no rehabilitacin) deberan presentar una capacidad motriz
promedio inferior en 2,7 puntos al promedio global, esto es, 12,3-2,7=9,6. Sin
embargo, segn los anlisis descriptivos previos sabemos que los pacientes que no
han seguido ninguno de los dos tratamientos presentan una capacidad motriz
promedio de 10,2, es decir, 0,6 puntos por encima de lo que cabra esperar si los
efectos del frmaco y la rehabilitacin fueran meramente aditivos. Este valor (0,6)
es el que queda reflejado en la desviacin debida a la interaccin (DAB).

Por ltimo, la desviacin debida a otros factores o desviacin no explicada recoge


aquella parte de la desviacin total que no queda explicada ni por el frmaco ni por
la rehabilitacin ni por la interaccin de estos dos factores. Razonamos del siguiente
modo: sabemos que quienes no han seguido ninguno de los dos tratamientos tienen
una capacidad motriz promedio de 10,2 puntos. Sin embargo, por razones que se
desconocen, este paciente en particular tiene una capacidad motriz de 10 puntos, es

Anlisis de varianza. JGM. 9/3/04

Pg. 67

decir, 0,2 puntos por debajo de la capacidad motriz promedio de su grupo. Esta
diferencia es la que se recoge en DNE.
Obviamente se cumple la igualdad DT=DA+DB+DAB+DNE. Adems, esta igualdad se
cumple para todos y cada uno de los 20 pacientes incluidos en el modelo.
En cuanto a las restricciones existentes sobre estas desviaciones que determinarn los
grados de libertad de las sumas de cuadrados, puede comprobarse fcilmente a partir de
los datos de la tabla anterior que:

(Y
2

ijk

i =1 j =1 k =1

n (Y
2

i =1

i.

i ..

Y... ) = 0

Y... ) = 10 (11,9 12,3) + 10 (12,7 12,3) = 0

n (Y

Y... ) = 10 (10 12,3) + 10 (14,6 12,3) = 0

n (Y

5 (10,2 11,9 10 + 12,3) + 5 (13,6 11,9 14,6 + 12,3) = 0


}
Yi.. Y. j . + Y... ) = 0 i {1,2,
5 (9,8 12,7 10 + 12,3) + 5 (15,6 12,7 14,6 + 12,3) = 0

n (Y

5 (10,2 11,9 10 + 12,3) + 5 (9,8 12,7 10 + 12,3) = 0


Yi.. Y. j . + Y... ) = 0 j {1,2}
5 (13,6 11,9 14,6 + 12,3) + 5 (15,6 12,7 14,6 + 12,3) = 0

j =1

.j

. j.

kB

j =1

ij

ij .

kA

i =1

ij

ij .

4.6. Los cuadrados de las desviaciones. Sumas de cuadrados.


El anlisis de la desviacin total de cada individuo respecto a la media global es el paso
previo para la obtencin de las sumas de cuadrados. No nos resulta suficiente con
conocer las desviaciones respecto a la media de cada uno de los individuos. Por el
contrario, necesitamos obtener una medida agregada de la dispersin del conjunto de
individuos respecto a la media global y para ello deberamos sumar las desviaciones de
todos ellos. No obstante, ya hemos visto que, debido a las propiedades bsicas de los
promedios, las sumas de las desviaciones resultan ser siempre nulas.

Anlisis de varianza. JGM. 9/3/04

Pg. 68

Para evitar la compensacin de los signos optamos por elevar todas las desviaciones al
cuadrado y sumarlas para el conjunto de individuos. Sabemos tambin que la suma para
todos los individuos de la muestra de los elementos correspondientes a los dobles
productos cruzados en el cuadrado del cuatrinomio es nula. De aqu que la expresin de
la ecuacin fundamental del anlisis de varianza bifactorial se resuma en
STC=SCA+SCB+SCAB+SCE, siendo:

STC, la suma total de cuadrados o variacin total de la variable respuesta. Su

(Y
2

expresin matemtica es

i =1 j =1 k =1

ijk

Y... ) . STC es la suma de cuadrados de


2

n = nij = 20

elementos

distintos,

sujetos

la

restriccin

de

que

i =1 j =1

(Y
2

i =1 j =1 k =1

ijk

Y... ) = 0 . En consecuencia STC tiene n 1 = 19 grados de libertad,

siendo n el nmero de individuos seleccionados en la muestra.

SCA o suma de cuadrados del primer factor. Representa la parte de la variacin total
de la variable dependiente que queda explicada por los diversos niveles del primer

(Y
2

factor. Su expresin matemtica es

i .. Y... ) = 10 (Yi .. Y... ) . Esta

i =1 j =1 k =1

i =1

expresin es la suma ponderada- de los cuadrados de 2 elementos distintos. Estos


elementos estn sujetos a una restriccin: su suma debe ser nula, es decir,

n (Y
2

i =1

i.

i ..

Y... ) = 0 , por lo que los grados de libertad de esta suma de cuadrados

resultan ser k A 1 = 1 .

SCB o suma de cuadrados del segundo factor. Representa la parte de la variacin


total de la variable dependiente que queda explicada por los diversos niveles del

(Y
2

segundo factor. Su expresin matemtica es

. j.

i =1 j =1 k =1

Y...

= 10 (Y. j . Y... ) ,.
2

j =1

SCB es la suma de cuadrados ponderada por el nmero de individuos clasificados


en cada uno de los niveles del segundo factor- de 2 elementos distintos. Estos

n (Y
2

elementos presentan la restriccin adicional de que

j =1

.j

. j.

Y... ) = 0 por lo que los

grados de libertad de esta suma de cuadrados son k B 1 = 1 .


Anlisis de varianza. JGM. 9/3/04

Pg. 69

SCAB o suma de cuadrados de la interaccin. Representa la parte de la variacin


total de la respuesta que queda explicada por la existencia de una interaccin entre
los

dos

factores.

(Y
2

i =1 j =1 k =1

Su

expresin

matemtica

es

ij . Yi .. Y. j . + Y... ) = 5 (Yij . Yi .. Y. j . + Y... ) . Esta expresin es la


2

i =1 j =1

suma de cuadrados de k A k B = 4 elementos distintos. Para calcular los grados de


libertad de esta suma de cuadrados debemos considerar las restricciones a que estn
sometidos los sumandos. En concreto, para cada nivel del primer factor es decir,
i {1,2} - debe cumplirse que 5 (Yij . Yi.. Y. j . + Y... ) = 0 , lo que supone un
2

j =1

conjunto de 2 restricciones. Asimismo, para cada uno de los niveles del segundo
factor - j {1,2}- debe cumplirse que 5 (Yij . Yi.. Y. j . + Y... ) = 0 , lo que aade 2
2

i =1

restricciones a las 2 ya existentes. Sin embargo, una de estas 4 restricciones es


redundante ya que si se cumplen las 2 correspondientes a los niveles del primer
factor y cualquiera de las correspondientes a los 2 niveles del segundo factor
necesariamente debe cumplirse la restriccin restante correspondiente al segundo
factor un razonamiento similar puede efectuarse si consideramos las 2 del segundo
factor y cualquier restriccin del primero- En consecuencia, SCAB es una suma de
cuadrados de 4 elementos distintos sujetos a 3 restricciones, por los que sus grados
de libertad son k A k B (k A + k B 1) = (k A 1)(k B 1) = 1 1 = 1 .

SCE o suma de cuadrados de los errores, que representa la parte de la variacin total
de la respuesta que no ha podido ser explicada por los factores ni por su interaccin.

(Y
2

Su expresin es

i =1 j =1 k =1

ijk

Yij . ) . Para el clculo de los grados de libertad de esta


2

suma de cuadrados podemos razonar considerando que los grados de libertad de la


suma total de cuadrados coincide con la suma de los grados de libertad de las sumas
de

cuadrados

en

los

que

aqulla

se

gl (STC ) = gl (SCA) + gl (SCB ) + gl (SCAB ) + gl (SCE ) ,

descompone,
con

es

decir,

lo

que

gl (SCE ) = gl (STC ) gl (SCA) gl (SCB ) gl (SCAB ) = n k A k B = 20 2 2 = 16 .

Las sumas de cuadrados para nuestro ejemplo y sus grados de libertad son:

Anlisis de varianza. JGM. 9/3/04

Pg. 70

Tabla 10
Descomposicin de la suma total de cuadrados y grados de libertad

Suma de cuadrados

(Y

Total

kA

n (Y
i.

k A 1 =1

n (Y
.j

Y... ) =105,8

k B 1 =1

j =1

. j.

n (Y

Interaccin (AB)

kA

kB

i =1 j =1

ij

i ..

kB

Rehabilitacin (B)

Yi.. Y. j . + Y... ) =7,2


2

ij .

(Y

Error (E)

kA

kB

nij

i =1 j =1 k =1

como

en

la

tabla

n 1 =20-1=19

Y... ) =3,2

kA

i =1

Ntese

ijk

i =1 j =1 k =1

Frmaco (A)

Y... ) =158,2

nij

kB

Grados de libertad

ijk

Yij . ) =42

anterior

se

cumple

(k

)(

1 kB 1 = 1

n k Ak B =20-4=16

tanto

la

igualdad

STC=SCA+SCB+SCAB+SCE como la que corresponde a los grados de libertad de


estas sumas de cuadrados.

5.6. Cuadrados medios


El anlisis de la variacin total de la variable dependiente, es decir, su descomposicin
en sumas de cuadrados atribuibles a diversas fuentes de variacin, puede darnos una
idea preliminar de la importancia relativa de los factores considerados a la hora de
explicar la variable respuesta. No obstante, este anlisis est sesgado si no tomamos en
cuenta los grados de libertad de cada una de estas sumas de cuadrados.

Anlisis de varianza. JGM. 9/3/04

Pg. 71

En efecto, para que podamos comparar unas sumas de cuadrados con otras debemos
previamente dividirlas entre sus correspondientes grados de libertad obteniendo de este
modo los llamados cuadrados medios. Los cuadrados medios de cada una de las fuentes
de variacin podran considerarse como la parte que cada grado de libertad de la
correspondiente suma de cuadrados explica de la variable dependiente27.
TP

PT

El clculo de los cuadrados medios para los datos de nuestro ejemplo arroja el siguiente
resultado:

TP

27
PT

Los cuadrados medios de los factores (A, B e interaccin) y del error constituyen estimaciones

insesgadas de la varianza poblacional intergrupos e intragrupos respectivamente.

Anlisis de varianza. JGM. 9/3/04

Pg. 72

Tabla 11
Cuadrados medios

Cuadrados medios

n (Y
kA

Frmaco (A)

CMA =

i.

i =1

(B)

CMB =

n (Y

(AB)

CMAB =

CME =

j =1

kB

ij

= 105,8

Yi.. Y. j . + Y... )

ij .

(k A 1)(k B 1)

(Y
kB

Y... )

. j.

kB 1

i =1 j =1

kA

Error (E)

.j

n (Y
kA

Interaccin

= 3,2

k A 1

kB

Rehabilitacin

Y... )

i ..

nij

i =1 j =1 k =1

ijk

Yij . )

= 7,2

n k Ak B

42
= 2,625
16

A partir de los cuadrados medios s podemos realizar comparaciones entre la calidad


predictiva de los diversos factores considerados. En concreto, vemos que tanto ambos
factores como su interaccin explican por cada uno de sus grados de libertad- una
mayor parte de la variabilidad de la respuesta que el resto de factores no considerados
(2,625 es el menor de los cuadrados medios). La pregunta que nos hacemos a
continuacin es Esta mayor capacidad predictiva de los factores es lo suficientemente
grande como para considerarla significativa?. Para dar respuesta a esta pregunta
debemos calcular los estadsticos de contraste y aprovechar nuestro conocimiento acerca
de la distribucin en el muestreo de cada uno de estos estadsticos de contraste bajo los
supuestos de que las respectivas hiptesis nulas son ciertas.

Anlisis de varianza. JGM. 9/3/04

Pg. 73

6.6. Los estadsticos de contraste. Distribucin en el muestreo y


decisin.
Supondremos de cara a la resolucin del ejemplo que se trata de un modelo de efectos
fijos. Un buen ejercicio sera realizar los clculos desde aqu hasta el final del ejercicio
suponiendo un modelo de efectos aleatorios o un modelo mixto. Bajo el supuesto de que
los factores son fijos el cuadrado medio que debe constar en el denominador de los
estadsticos de contraste es el CME.
1.6.6. Primera prueba de hiptesis. El efecto del frmaco

La primera hiptesis nula formulada postulaba la ineficacia del frmaco de cara a la


mejora de la capacidad motriz de los pacientes. En trminos matemticos la hiptesis
nula relativa al frmaco ha sido presentada como i. .. = 0 i {1,2}.
Para decidir acerca de la veracidad o falsedad de esta hiptesis debemos comparar el
cuadrado medio del primer factor (CMA) con el cuadrado medio del error (CME). A
priori, observamos que el CMA (3,2) es superior a CME (2,625) lo que nos llevara a
pensar en la existencia de un cierto efecto del frmaco sobre la capacidad motriz, pero
es el efecto real o ha ocurrido por azar en esta muestra?
Afortunadamente, conocemos cul es la distribucin en el muestreo del cociente de
estos cuadrados medios cuando la hiptesis nula formulada es cierta. En concreto,
sabemos que
EC A =

(k A 1)CMA 2

k A 1

y que

(n k A k B )CME 2
2

n k Ak B

, por lo que

CMA
= Fk A 1;n k Ak B .
CME

As, no tenemos ms que calcular EC A =

CMA
, determinar su probabilidad crtica y
CME

compararla con el nivel de significacin que hemos elegido. En caso de que la


probabilidad crtica de EC A sea mayor que dicho nivel de significacin aceptaremos la
hiptesis nula y en caso contrario la rechazaremos.

Anlisis de varianza. JGM. 9/3/04

Pg. 74

En nuestro caso EC A =

CMA
3,2
=
= 1,219 . La probabilidad crtica de este cociente
CME 2,625

representa la probabilidad de obtener este resultado en una muestra bajo el supuesto de


que la hiptesis nula sea cierta, lo que se materializa en la probabilidad de que una F de
Fisher-Snedecor de 1 grado de libertad en el numerador y 16 en el denominador tome
un valor mayor que 1,219. Esta probabilidad es 0,286 y para un nivel de significacin
estndar del 5% nos lleva a aceptar la hiptesis nula. En consecuencia, no tenemos
pruebas suficientes para afirmar que el frmaco tenga algn efecto sobre la recuperacin
de la capacidad motriz de los pacientes.

Grfico 4
Densidad de probabilidad de una F de Fisher-Snedecor de 1 y 16 grados de
libertad

Una forma alternativa y plenamente equivalente de tomar la decisin sobre la veracidad


o falsedad de la hiptesis nula es la siguiente: el anterior grfico muestra una
distribucin F de Fisher-Snedecor de 1 grado de libertad en el numerador y 16 en el
denominador. En color verde se presenta la zona de rechazo para la prueba de hiptesis
planteada correspondiente a un nivel de significacin del 5%. El valor crtico resulta ser
f1;16;0,05 =4,49 que, al ser mayor que el valor del estadstico de contraste de nuestra
muestra nos lleva a aceptar la hiptesis nula que postula la ineficacia del frmaco para
la recuperacin de la capacidad motriz.

Anlisis de varianza. JGM. 9/3/04

Pg. 75

En el grfico que se presenta a continuacin se muestra mediante el llamado diagrama


de caja una comparacin de la capacidad motriz de los pacientes a los que se ha
administrado el frmaco y la de aquellos a los que no se les ha administrado. La
pequea diferencia que se observa entre uno y otro colectivo no es generalizable a la
poblacin.

Grfico 5
Diagrama de caja para la capacidad motriz segn se haya o no administrado el frmaco
Puntuacin en la prueba de psicomotricidad

20

18

16

14

12

10

8
6
N=

10

10

NO

Se le administra o no el frmaco

2.6.6. Segunda prueba de hiptesis. El efecto de la rehabilitacin

La hiptesis nula acerca del efecto de la rehabilitacin se ha formulado como


. j .. = 0 j {1,2} y afirma en trminos matemticos la ineficacia de la
rehabilitacin como terapia para la recuperacin de la capacidad motriz de los pacientes.
En este caso, los cuadrados medios a comparar son CMB (105,8) y CME (2,625). Esta
diferencia entre los cuadrados medios es muy superior a la existente en el caso del
frmaco, lo que nos llevara a pensar que es ms probable que la rehabilitacin s tenga
efecto sobre la capacidad motriz.
Razonando anlogamente al caso del frmaco, deducimos que la distribucin en el
muestreo del cociente de estos cuadrados medios cuando la hiptesis nula formulada es
cierta es EC B =

CMB
= Fk B 1;n k Ak B .
CME

Anlisis de varianza. JGM. 9/3/04

Pg. 76

As, no tenemos ms que calcular EC B =

CMB
, determinar su probabilidad crtica y
CME

compararla con el nivel de significacin que hemos elegido. En caso de que la


probabilidad crtica de EC B sea mayor que dicho nivel de significacin aceptaremos la
hiptesis nula y en caso contrario la rechazaremos.
En nuestro caso EC B =

CMB 105,8
=
= 40,305 . La probabilidad crtica de este cociente
CME 2,625

representa la probabilidad de obtener este resultado en una muestra bajo el supuesto de


que la hiptesis nula sea cierta, esto es, la probabilidad de que una F de Fisher-Snedecor
de 1 grado de libertad en el numerador y 16 en el denominador tome un valor mayor
que 40,305. Esta probabilidad es prcticamente cero, lo que para cualquier nivel de
significacin nos lleva a rechazar la hiptesis de que la rehabilitacin no incide en la
recuperacin de la capacidad motriz. Disponemos de gran evidencia en favor de la
rehabilitacin como un elemento que incide en la recuperacin de la capacidad motriz.
Otra forma de ver este mismo resultado consiste en comparar el valor obtenido para el
estadstico de contraste (40,305) con el valor crtico de una F de Fisher-Snedecor de 1 y
16 grados de libertad que deja a su derecha un rea igual al nivel de significacin
elegido por ejemplo, para el 5%, el valor crtico es f1;16;0,05 =4,49- El mayor valor del
estadstico de contraste nos lleva a rechazar la hiptesis nula.
La diferencia que se presenta en el grfico que se muestra a continuacin y que compara
a quienes siguieron un programa de rehabilitacin con quienes no lo siguieron s es
generalizable a la poblacin.

Anlisis de varianza. JGM. 9/3/04

Pg. 77

Grfico 6
Diagrama de caja para la capacidad motriz segn se haya o no seguido el programa de
rehabilitacin

Puntuacin en la prueba de psicomotricidad

20

18

16

14

12

2
14

10

8
6
N=

10

10

NO

El paciente acude o no a rehabilitacin

3.6.6. Tercera prueba de hiptesis. El efecto de la interaccin entre el


frmaco y la rehabilitacin

Adicionalmente al posible efecto individual del frmaco y de la rehabilitacin cabe


pensar que entre estos dos factores exista una interaccin en el sentido de que, por
ejemplo, el frmaco podra ser eficaz pero slo en el caso de que los pacientes se
sometan a rehabilitacin o, por el contrario, slo en el caso de que no se sometan a
rehabilitacin existiendo entre ambas terapias una contraindicacin.
Para comprobar la existencia de este efecto de interaccin entre el frmaco y la
rehabilitacin

se

ha

formulado

matemticamente

la

hiptesis

nula

ij = .. + ( i. .. ) + (.j .. ) (i,j ) {1,2} {1,2} , que propone la no existencia de un

efecto de interaccin entre frmaco y rehabilitacin. En otras palabras, si el frmaco


tiene efecto sobre la capacidad motriz lo tiene en la misma cuanta para quienes se
someten a rehabilitacin y para quienes no se someten a ella. Anlogamente, si la
rehabilitacin incide en la recuperacin de la capacidad motriz lo hace en igual medida
para quienes toman el frmaco y para quienes no lo toman.

Anlisis de varianza. JGM. 9/3/04

Pg. 78

La decisin acerca de la veracidad de esta ltima hiptesis nula debe tomarse a partir de
la comparacin de CMAB y CME . En concreto, el cociente entre estos dos cuadrados
medios se distribuye bajo el supuesto de no interaccin como una F(k A 1)(k B 1);n k Ak B .
En nuestro ejemplo, el valor del cociente de estos cuadrados medios resulta ser
EC AB =

CMAB
7,2
=
= 2,743 , valor que deja a su derecha un rea de 0,117 en una F
CME 2,625

de Fisher-Snedecor de 1 grado de libertad en el numerador y 16 en el denominador. En


consecuencia, no tenemos evidencia suficiente para concluir que exista un efecto de
interaccin entre la rehabilitacin y la administracin del frmaco. Los efectos de estos
dos factores sobre la capacidad motriz de los pacientes son estrictamente aditivos. A la
misma conclusin llegamos al comparar 2,743 con 4,49, el valor de f1;16;0,05 .
Los siguientes grficos llamados grficos de perfil- muestran la interaccin que en la
muestra existe entre los factores considerados.

Grfico 7
Grfico de perfil (frmaco en abscisas)

Medias marginales estimadas de Pu


16

15

Medias marginales estimadas

14

13

12

11

El paciente acude o

10

NO
S

9
NO

Se le administra o no el frmaco

Anlisis de varianza. JGM. 9/3/04

Pg. 79

Este primer grfico nos indica que en la muestra de pacientes la administracin del
frmaco tiene un efecto positivo sobre la capacidad motriz de aquellos que acuden a
rehabilitacin (la pendiente de la recta que discurre por la parte superior del grfico es
positiva) mientras que tiene un pequeo efecto negativo sobre los pacientes que no
acuden a rehabilitacin, que se manifiesta en la ligera pendiente negativa de la recta que
discurre por la parte inferior del grfico.

Grfico 8
Grfico de perfil (rehabilitacin en abscisas)

Medias marginales estimadas de Pu


16

15

Medias marginales estimadas

14

13

12

11

Se le administra o n

10

NO
S

9
NO

El paciente acude o no a rehabilitacin

Por su parte, el segundo grfico nos muestra un efecto positivo de la inclusin del
paciente en un programa de rehabilitacin tanto si se la administra como si no se le
administra el frmaco. No obstante, el efecto positivo de la rehabilitacin es mayor en
aquellos pacientes a los que se le administra el frmaco (mayor pendiente) que en
aquellos a los que no se les administra.
En cualquier caso, la prueba de hiptesis nos lleva a afirmar que estas interacciones
presentes en la muestra no se pueden generalizar a la poblacin.

Anlisis de varianza. JGM. 9/3/04

Pg. 80

Bibliografa
Anderson, D.R.; Sweeney, D.J.; Williams, T.A. (1999); Estadstica Para Administracin
y Economa (7 edicin); Thomson.
Brown, S.R.; Melamed, L.E. (1990); Experimental Design and Analysis; Sage.
Canavos, G.C. (1988); Probabilidad y Estadstica; McGraw-Hill.
Kuehl R.O. (2001); Diseo de Experimentos (2 edicin); Thomson.
Tejedor, F.J. (1999); Anlisis de Varianza; Cuadernos de Estadstica n 3; Hesprides.
Tejedor, F.J. (2003); Aplicaciones Diversas del Anlisis de Varianza; Cuadernos de
Estadstica n 24; Hesprides.

Anlisis de varianza. JGM. 9/3/04

Pg. 81

Otros recursos

Weisstein.

E.W.;

MathWorld--A
HTU

UTH

Wolfram

Web

Resource.

http://mathworld.wolfram.com
HTU

UTH

National Institute For Standards and Technology; Engineering Statistics Handbook;


http://www.itl.nist.gov/div898/handbook/
HTU

UTH

The Statistics Homepage; http://www.statsoft.com/textbook/stathome.html

Anlisis de varianza. JGM. 9/3/04

HTU

UTH

Pg. 82

Anexo
Valores de los cuantiles superiores de la distribucin del estadstico D de
Kolmogorov-Smirnov
1

0,80

0,85

0,90

0,95

0,99

0,900

0,925

0,950

0,975

0,995

0,684

0,726

0,776

0,842

0,929

0,565

0,597

0,642

0,708

0,828

0,494

0,525

0,564

0,624

0,733

0,446

0,474

0,510

0,565

0,669

0,410

0,436

0,470

0,521

0,618

0,381

0,405

0,438

0,486

0,577

0,358

0,381

0,411

0,457

0,543

0,339

0,360

0,388

0,432

0,514

10

0,322

0,342

0,368

0,410

0,490

11

0,307

0,326

0,352

0,391

0,468

12

0,295

0,313

0,338

0,375

0,450

13

0,284

0,302

0,325

0,361

0,433

14

0,274

0,292

0,314

0,349

0,418

15

0,266

0,283

0,304

0,338

0,404

16

0,258

0,274

0,295

0,328

0,392

17

0,250

0,266

0,286

0,318

0,381

18

0,244

0,259

0,278

0,309

0,371

19

0,237

0,252

0,272

0,301

0,363

20

0,231

0,246

0,264

0,294

0,356

25

0,210

0,220

0,240

0,270

0,320

30

0,190

0,200

0,220

0,240

0,290

35

0,180

0,190

0,210

0,23

0,270

Frmula para

1,07

1,14

1,22

1,36

1,63

n > 35
Fuente: Canavos (1988)

Anlisis de varianza. JGM. 9/3/04

Pg. 83

También podría gustarte