Está en la página 1de 98

6

Análisis de varianza (I)


Un factor
completamente aleatorizado

Ya sabemos cómo abordar el análisis de una variable categórica y una cuantitativa aplican-
do la prueba T de Student para muestras independientes; pero esta prueba solamente sirve
para comparar dos grupos; el análisis de varianza permite extender el análisis a más de dos
grupos. También sabemos cómo comparar variables cuantitativas aplicando la prueba T de
Student para muestras relacionadas; pero esta prueba solamente sirve para comparar dos va-
riables; el análisis de varianza permite comparar más de dos variables. Además, con el aná-
lisis de varianza es posible estudiar simultáneamente más de una variable categórica y valo-
rar su efecto conjunto sobre una variable cuantitativa.
El análisis de varianza o ANOVA (acrónimo de ANalisys Of VAriance) no es una úni-
ca técnica de análisis, sino toda una familia de técnicas que comparten el objetivo de ayudar
a interpretar los datos de un estudio empírico mediante la formulación de modelos esta-
dísticos. Estos modelos permiten valorar el comportamiento de una variable dependiente o
respuesta cuantitativa (variable medida con una escala de intervalos o de razón) a partir de
una o más variables independientes o factores categóricos (variables medidas con una esca-
la nominal u ordinal). También permiten controlar el efecto de variables extrañas (variables
ajenas al estudio) incluyéndolas como covariables.
Aunque estos modelos han surgido en el contexto de los diseños experimentales (Fisher,
1935), son aplicables a cualquier tipo de investigación siempre que se den las circunstancias
apropiadas. Se basan en una estructura matemática relativamente simple, conocida como
modelo lineal general, que posee la suficiente versatilidad como para adaptarse a contextos
muy diversos (ver Capítulo 1 del tercer volumen).
Este capítulo se centra en el modelo de un factor completamente aleatorizado, pero tam-
bién incluye una clasificación de los diferentes modelos de ANOVA y de la lógica en la que
se basan todos ellos. Más adelante estudiaremos el modelo de dos factores (Capítulo 7) y los
modelos de medidas repetidas (Capítulos 8 y 9). Para profundizar en los fundamentos de estos
186 Análisis de datos (vol. II)

modelos (y de otros que no trataremos aquí) pueden consultarse los excelentes manuales de
Keppel y Wickens (2004), Kirk (1995), Maxwell y Delaney (2004), Myers y Well (2003) o
Winer, Brown y Michels (1991).

Modelos de análisis de varianza


Los modelos de análisis de varianza no deben confundirse con los diseños de investigación.
Aunque ambos están estrechamente relacionados, un diseño de investigación es un plan de
actuación que, partiendo de una o varias hipótesis, detalla qué variables se van a estudiar y
cómo se van a medir, cuántos sujetos se van a elegir y de qué población, cómo se van a asig-
nar los sujetos a las condiciones del estudio, etc., mientras que un modelo de análisis de
varianza es una herramienta estadística que permite tomar decisiones analizando los datos
recogidos en el marco de un diseño concreto.
No obstante, aunque diseño y modelo no son la misma cosa, puesto que las característi-
cas del diseño determinan las del correspondiente modelo, no es raro encontrar que estos dos
términos se usan de forma intercambiable (ver, por ejemplo, Kirk, 1995).
Aunque existen varios y muy distintos modelos de ANOVA, puede obtenerse una cla-
sificación razonablemente simple de los mismos atendiendo únicamente a tres caracterís-
ticas del diseño: (1) el número de factores, (2) el tipo de asignación de las unidades de aná-
lisis a las condiciones del estudio y (3) la forma de establecer los niveles de los factores.

Número de factores
En los modelos de ANOVA, el término factor es sinónimo de variable independiente. Y se
refiere a una variable categórica que define grupos. Al modelo que únicamente incluye una
variable independiente se le llama ANOVA de un factor (one-way ANOVA); al que inclu-
ye dos variables independientes se le llama ANOVA de dos factores (two-way ANOVA);
etc. A los modelos de más de un factor se les llama modelos factoriales.
En un estudio diseñado para valorar el efecto del nivel de ansiedad (bajo, medio, alto)
sobre el rendimiento en una tarea tenemos una variable independiente o factor (nivel de an-
siedad) y una variable dependiente cuantitativa (rendimiento); los datos de este estudio se
analizan con un ANOVA de un factor. En un estudio diseñado para valorar el efecto del ni-
vel de ansiedad (bajo, medio, alto) y la dificultad de la tarea (fácil, difícil) sobre el rendi-
miento tenemos dos variables independientes o factores (nivel de ansiedad y dificultad de la
tarea) y una variable dependiente cuantitativa (rendimiento); los datos de este estudio se
analizan con un ANOVA de dos factores.

Tipo de asignación de las unidades de análisis a las condiciones del estudio


En las ciencias sociales y de la salud, las unidades de análisis son, por lo general, sujetos
(pacientes, estudiantes, empleados, aspirantes a un puesto de trabajo, votantes, etc.), pero
pueden ser animales, objetos, empresas, etc. Las condiciones del estudio son las condiciones
definidas por los niveles del factor o por la combinación de los niveles de los factores (si es
que hay más de uno). Los diseños de investigación se diferencian, entre otras cosas, por la
forma de asignar las unidades de análisis a las condiciones del estudio.
Capítulo 6. ANOVA de un factor 187

Por lo general, esta asignación de las unidades de análisis a las condiciones del estudio
se realiza de forma aleatoria (es decir, al azar) para que todos los sujetos tengan la misma
probabilidad de ser asignados a cada condición. Se pretende con ello que el conjunto de po-
sibles variables extrañas asociadas a las características de los sujetos (diferencias entre los
sujetos que podrían afectar a los resultados del estudio) queden repartidas de forma similar
entre todas las condiciones. Hay dos estrategias básicas de asignación aleatoria que suelen
recibir el nombre de grupos aleatorios y bloques aleatorios.
En los diseños de grupos aleatorios cada unidad de análisis (cada sujeto) es aleato-
riamente seleccionada y asignada a un nivel del factor. Supongamos que interesa valorar la
cantidad de fármaco idónea para aumentar las horas de sueño de pacientes afectados de in-
somnio. Se tiene una variable independiente o factor (cantidad de fármaco) en la que se han
definido tres niveles (0 mg, 250 mg, 500 mg) y una variable dependiente (horas de sueño) de
la que se puede obtener una medida cuantitativa. Para valorar el efecto del fármaco sobre las
horas de sueño con un diseño de grupos aleatorios, se selecciona aleatoriamente una mues-
tra de pacientes insomnes, se forman aleatoriamente tres grupos y se asigna, también alea-
toriamente, cada grupo a uno de los tres niveles del factor. Al modelo de ANOVA que per-
mite analizar los datos de este diseño se le llama modelo completamente aleatorizado.
La asignación aleatoria es la mejor estrategia para formar grupos equivalentes (grupos
con el máximo control sobre posibles variables extrañas). Pero la asignación aleatoria no
siempre es posible; por ejemplo, al comparar hombres y mujeres en una variable cuantitativa
no es posible decidir quién es hombre y quién es mujer; eso es algo que viene dado. Otras ve-
ces, aun siendo posible la asignación aleatoria, no interesa aplicarla por razones prácticas o
éticas; por ejemplo, al comparar dos métodos de enseñanza se decide aplicar cada método a
los alumnos de un aula simplemente porque no se considera apropiado mezclar los alumnos
aleatoriamente solamente por el interés de la investigación. No obstante, en ambos ejemplos
se tienen grupos aleatorios: en el ejemplo de hombres y mujeres, los sujetos se seleccionan
aleatoriamente; en el ejemplo del método de enseñanza, las aulas se seleccionan aleatoriamen-
te y los métodos se asignan aleatoriamente a las aulas. Ciertamente, el grado de control sobre
posibles variables extrañas no es el mismo en todos estos ejemplos y eso determina el nivel
de indagación que es posible alcanzar; pero la herramienta estadística que permite analizar
los datos es la misma en todos ellos: un modelo de ANOVA completamente aleatorizado.
En los diseños de bloques aleatorios se intenta ejercer mayor control sobre posibles va-
riables extrañas. Si se sospecha que existe alguna variable que puede alterar de forma apre-
ciable las conclusiones del estudio, se puede ejercer sobre ella un control directo modificando
la forma de asignar las unidades de análisis a las condiciones del estudio. Supongamos que
el fármaco cuyo efecto sobre el insomnio se desea valorar tiene la peculiaridad de afectar de
forma diferenciada a los pacientes en función del grado de insomnio que padecen. Se puede
controlar ese efecto formando bloques: si se clasifica a los pacientes seleccionados como
pacientes con insomnio leve, moderado o severo (tres bloques)1 y, tras esto, los sujetos de
un mismo bloque se asignan aleatoriamente a los diferentes niveles del factor (grupo), se
habrá conseguido que dentro de cada grupo haya pacientes con insomnio leve, moderado y
severo; el efecto de la variable extraña habrá quedado controlado al estar todos los grupos
igualados en grado de insomnio. Al proceder de esta manera se tiene un diseño de bloques

1
Aunque en este ejemplo concreto se están formando 3 bloques, el número de bloques que pueden formarse oscila entre
un mínimo de 2 (o se forman al menos 2 bloques o no se forma ninguno) y un máximo de n / k, siendo n el tamaño de la
muestra y k el número de niveles del factor.
188 Análisis de datos (vol. II)

aleatorios y el modelo de ANOVA que permite analizar los datos así obtenidos recibe el
nombre de modelo aleatorizado en bloques.
En un caso extremo de bloqueo cada bloque está formado por un único sujeto: a todos
y cada uno de los sujetos se le aplican todos y cada uno de los niveles del factor. La homo-
geneidad dentro de cada bloque es máxima (y por tanto mínima la presencia de variables
extrañas atribuibles a diferencias entre los sujetos) porque todas las puntuaciones dentro de
un mismo bloque pertenecen a un mismo sujeto. En este caso ya no se habla de diseño de
bloques aleatorios, sino de diseño intrasujetos o diseño con los mismos sujetos; y al mode-
lo de ANOVA que permite analizar estos datos se le llama modelo de medidas repetidas.
Esta distinción basada en la forma de asignar las unidades de análisis a las condiciones
del estudio es equivalente a la ya hecha entre muestras independientes y muestras relacio-
nadas: hablar de diseños completamente aleatorizados equivale a hablar de muestras inde-
pendientes (a cada nivel del factor se asigna un grupo distinto de sujetos); y hablar de diseños
de bloques aleatorios o intrasujetos equivale a hablar de muestras relacionadas (bien porque
los sujetos de un mismo bloque han sido igualados atendiendo a algún vínculo relevante pa-
ra el análisis, bien porque cada bloque está formado por un único sujeto).

Forma de establecer los niveles del factor


Los niveles o categorías de una variable independiente o factor pueden establecerse de dos
maneras distintas: (1) fijando los niveles que se desea estudiar (por ejemplo, cantidad de fár-
maco: 0 mg, 250 mg, 500 mg) o utilizando los niveles que posee el factor (por ejemplo, nivel
educativo: sin estudios, primarios, secundarios, medios, superiores) o (2) seleccionando alea-
toriamente unos pocos niveles de la población de posibles niveles del factor (por ejemplo,
seleccionando una muestra aleatoria de los hospitales de una ciudad).
Si se establecen, por ejemplo, 3 dosis de fármaco (0 mg, 250 mg y 500 mg) porque esas
dosis son justamente las que interesa estudiar, entonces el factor es de efectos fijos (al corres-
pondiente modelo de ANOVA se le llama modelo de efectos fijos o modelo I). Los niveles
que interesa estudiar son justamente esos 3. Si se replicara el experimento, los sujetos serían
diferentes, pero los niveles del factor serían exactamente los mismos. Cuando se utiliza un
factor de efectos fijos, el propósito del análisis es el de valorar justamente los niveles concre-
tos incluidos en el estudio. Las inferencias se limitan a esos niveles.
Si en lugar de fijar los niveles que se desea estudiar se eligen al azar unos pocos niveles
entre todos los posibles porque las inferencias que interesa realizar se refieren, no a unos nive-
les concretos, sino a cualquiera de los posibles, entonces el factor es de efectos aleatorios (al
correspondiente modelo de ANOVA se le llama modelo de efectos aleatorios o modelo II).
Ahora ya no interesa estudiar unos niveles concretos del factor, sino cualquiera de sus posi-
bles niveles. Si se llevara a cabo una réplica del estudio, tanto los sujetos como los niveles
del factor podrían ser diferentes.
Los factores utilizados con mayor frecuencia en los modelos de ANOVA son de efectos
fijos. Sin embargo, no son infrecuentes los estudios donde lo apropiado es utilizar factores
de efectos aleatorios. Por ejemplo, al estudiar el tiempo de convalecencia de los pacientes tras
una determinada intervención quirúrgica pueden utilizarse factores de efectos fijos como la
gravedad de la enfermedad, el tipo de intervención, etc. Pero, probablemente, los pacientes
hay que seleccionarlos de distintos hospitales y este hecho no puede pasarse por alto (pues
la eficacia, la organización, etc., de todos los hospitales no es la misma). Para estudiar el
Capítulo 6. ANOVA de un factor 189

efecto del factor hospital podría seleccionarse aleatoriamente una muestra de hospitales (no
sería necesario –ni tal vez posible– seleccionar todos los hospitales). Y los resultados del
estudio estarían indicando, no si dos hospitales concretos difieren entre sí (aquí no interesa
averiguar si tal hospital concreto difiere de tal otro), sino si el factor hospital se relaciona con
el tiempo de convalecencia post-quirúrgica.

Clasificación de los modelos de análisis de varianza


Los tres criterios propuestos en el apartado anterior constituyen una sencilla guía para clasifi-
car e identificar los diferentes modelos de ANOVA que estudiaremos en éste y en los próxi-
mos capítulos.
En los modelos de un factor, el tipo de asignación de las unidades de análisis a las con-
diciones del estudio define dos modelos distintos: el modelo de un factor completamente
aleatorizado (A-CA) y el modelo de un factor aleatorizado en bloques, también llamado
modelo de un factor con medidas repetidas (A-MR). En ambos casos el factor puede ser
de efectos fijos o de efectos aleatorios.
En los modelos de dos factores aumentan las posibilidades. En el modelo de dos facto-
res completamente aleatorizados (AB-CA) se utilizan grupos aleatorios en ambos factores
(grupos distintos de sujetos en cada combinación entre los niveles de ambos factores). En los
modelos de dos factores aleatorizados en bloques, también llamado dos factores con me-
didas repetidas en ambos (AB-MR), se utilizan bloques aleatorios en ambos factores (un
único grupo de sujetos o bloques pasa por todas las combinaciones entre los niveles de ambos
factores). En los modelos de dos factores con medidas repetidas en un factor (AB-CA-MR)
se utilizan grupos aleatorios en el primer factor y bloques aleatorios en el segundo (varios gru-
pos, tantos como niveles tiene el primer factor, pasan por todos los niveles del segundo fac-
tor). En todos los casos, los factores pueden ser de efectos fijos o de efectos aleatorios.
Más adelante tendremos ocasión de estudiar los detalles de cada uno de estos modelos.
De momento, vamos a centrarnos en la lógica en la que se basan todos ellos.

Lógica del análisis de varianza


La forma convencional de comparar las medias de dos distribuciones consiste en restarlas.
Esto es lo que hemos hecho, por ejemplo, al contrastar la hipótesis de igualdad de medias con
la prueba T de Student. Pero, cuando se tienen más de dos medias, no es posible comparar-
las simultáneamente con una resta. Y, sin embargo, los diseños con tres o más grupos son
frecuentes en las ciencias sociales y de la salud. ¿Qué podemos hacer para comparar las
medias de más de dos distribuciones? La respuesta a esta pregunta se le ocurrió a Fisher y
se basa, no en el análisis de las medias de las distribuciones, sino en el de sus varianzas (de
ahí el nombre del procedimiento).
Para entender la solución propuesta por Fisher, imaginemos que extraemos una muestra
aleatoria de tamaño n de una determinada población. Justamente por tratarse de una muestra,
los valores obtenidos no serán todos iguales entre sí, sino que mostrarán variabilidad. A esta
variabilidad la llamamos intragrupo porque se trata de variabilidad que se da dentro (intra)
de la misma muestra o grupo. Imaginemos ahora que extraemos, no una, sino tres muestras
190 Análisis de datos (vol. II)

de la misma población. Con tres muestras seguimos teniendo variabilidad intragrupos (la que
se da entre los valores de una misma muestra). Pero, además, también tenemos la variabilidad
que se da entre las muestras, pues los valores de una cualquiera de las muestras no tienen por
qué ser iguales, ni siquiera en promedio, a los valores de las demás muestras. A esta segunda
forma de variabilidad entre las muestras la llamamos intergrupos.
La variabilidad intragrupos refleja las diferencias entre las puntuaciones dentro de cada
muestra; la variabilidad intergrupos refleja las diferencias entre las distintas muestras. La
esencia del análisis de varianza consiste en comparar ambas fuentes de variabilidad para
determinar cómo de grande es la variabilidad intergrupos en comparación con la variabili-
dad intragrupos.
Comencemos con el diseño más simple: una variable categórica A (con J categorías o
niveles) y una variable cuantitativa Y (ver Tabla 6.1). Supongamos que la variable cuantita-
tiva Y se distribuye normalmente en las J poblaciones definidas por los J niveles de la varia-
ble categórica A y que todas esas poblaciones normales tienen la misma varianza, es decir,

= = ··· = = ··· = = [6.1]

Supongamos además que de cada población se extrae una muestra aleatoria de tamaño nj de
puntuaciones Yi j (i se refiere a los diferentes elementos de la misma muestra: i = 1, 2, ..., nj;
j se refiere a las diferentes muestras: j = 1, 2, ..., J ; por ejemplo, Y52 se refiere a la 5ª puntua-
ción de la 2ª muestra).
En este escenario, el valor de cada varianza muestral es una estimación concreta de
la varianza de su población. Pero como se está asumiendo que las J poblaciones tienen la
misma varianza, la estimación de esa única varianza poblacional2 puede mejorarse si, en lu-
gar de hacer J estimaciones distintas, se hace una sola estimación basada en la media pon-
derada de las J varianzas muestrales3:

MCE = = = [6.2]

(con N = n1 + n2 + · · · + nJ). A este estimador basado en la variabilidad existente dentro de


cada grupo o muestra se le llama media cuadrática intragrupos (es una media cuadrática
porque se trata del promedio de las distancias a la media elevadas al cuadrado) y se repre-
senta mediante MCE. También se le llama media cuadrática error o residual porque las
distancias a la media de cada grupo se consideran errores o residuos del modelo (ver Capítu-
lo 1 del tercer volumen). Puesto que en el cálculo de MCE únicamente intervienen las va-
rianzas, su valor no depende del valor de las medias4.

2
No debe confundirse (la varianza de Y en cada población) con la varianza de todas las puntuaciones de Y tomadas
juntas (la varianza total). Estas dos varianzas solamente son iguales cuando todas las poblaciones tienen, además de la misma
varianza, la misma media. Cuando tengamos que utilizar esta segunda varianza quedará claro que nos referimos a ella.
3
En el caso de que todas las muestras tengan el mismo tamaño (es decir, si n1 = n2 = · · · = nJ = n), la ecuación [6.2] se puede
simplificar bastante:

MCE = = = [6.3]
4
La varianza de un conjunto de puntuaciones no se ve alterada si a esas puntuaciones se le añade una constante. Por tanto,
el estimador propuesto en [6.2] no depende del valor de las medias.
Capítulo 6. ANOVA de un factor 191

Supongamos ahora que las J poblaciones normales, además de la misma varianza, tam-
bién tienen la misma media. Si esto es así, las J muestras aleatorias seleccionadas pueden
considerarse muestras de la misma población (pues han sido seleccionadas de J poblaciones
idénticas). Esto significa que las medias de esas muestras pueden utilizarse para obtener un
nuevo estimador de la varianza poblacional. Sabemos que la varianza de la distribución
muestral de la media5 se relaciona con la varianza poblacional mediante = (n es el
tamaño de la muestra). Por tanto, si se tienen J muestras de la misma población, la varianza
de Y puede estimarse mediante6

MCI = MCA = = [6.4]

A este estimador de basado en la variabilidad existente entre las medias de las diferen-
tes muestras se le llama media cuadrática intergrupos y se representa mediante MCI. Y
puesto que, de momento, esta MCI únicamente incluye la variabilidad debida al factor A,
también se le llama MCA.
Por tanto, tenemos dos estimadores de la varianza poblacional. Uno de ellos, MCE, es
independiente del valor de las medias poblacionales, pues se basa en la variabilidad de las
puntuaciones individuales respecto de la media de su propia muestra. El otro, MCA, depen-
de del valor de las medias poblacionales porque se basa en la variabilidad existente entre las
medias muestrales; únicamente es un estimador de la varianza poblacional cuando las mues-
tras se extraen de la misma población o de J poblaciones idénticas.
Por tanto, si MCA y MCE se calculan a partir de muestras aleatorias extraídas de pobla-
ciones con la misma media, sus valores serán parecidos. Por el contrario, si se calculan en
muestras extraídas de poblaciones que no tienen la misma media, el valor de MCA será ma-
yor que el valor de MCE, pues MCA estará reflejando no solamente variabilidad aleatoria en-
tre las medias muestrales, sino variabilidad debida al hecho de que las medias poblacionales
son distintas. Esto significa que el tamaño relativo de MCA respecto del de MCE está infor-
mando del grado de parecido existente entre las medias poblacionales.
Ahora bien, aunque las medias poblacionales sean iguales, como MCA y MCE son valo-
res muestrales, raramente tomarán valores idénticos. Cabe esperar que, aun siendo iguales
las medias poblacionales, entre MCA y MCE existan ligeras diferencias atribuibles a las fluc-
tuaciones propias del azar muestral. La clave está precisamente en poder determinar cuándo
la diferencia entre MCA y MCE es lo bastante grande como para pensar que no se debe al azar
muestral, sino al hecho de que las medias poblacionales son distintas. Justamente esto es lo
que hace el análisis de varianza comparando MCA y MCE mediante

F = = [6.6]

5
La distribución muestral de la media es la distribución de las medias calculadas en todas las muestras de tamaño n que
es posible extraer de una determinada población (en caso necesario, repasar el concepto de distribución muestral en el
Capítulo 6 del primer volumen).
6
En el caso de que todas las muestras tengan el mismo tamaño (n1 = n2 = · · · = nJ = n), la ecuación [6.4] se reduce a:

MCA = = n = [6.5]
192 Análisis de datos (vol. II)

La distribución muestral de este cociente (ver Apéndice 6) fue establecida por Fisher (1924)
y etiquetada distribución F en su honor por Snedecor (1934). El estadístico F refleja el gra-
do de parecido existente entre las medias poblacionales. Si las medias poblacionales son
iguales, las medias muestrales de los diferentes grupos serán parecidas, existiendo entre ellas
tan solo diferencias atribuibles al azar. En ese caso, el numerador (basado en las diferencias
entre las medias muestrales) reflejará un grado de variación similar al del denominador (ba-
sado en las diferencias entre las puntuaciones individuales dentro de cada grupo) y el cocien-
te F tomará un valor próximo a 1. Por el contrario, si las medias muestrales son distintas, el
numerador será mayor que el denominador y el estadístico F tomará un valor mayor que 1.
Cuanto más diferentes sean las medias muestrales, mayor será el valor de F.
Si las poblaciones muestreadas son normales y sus varianzas iguales, el estadístico F
se aproxima a la distribución F con J 1 y N  J grados de libertad (ver, en el Apéndice 6, el
apartado Distribución muestral del estadístico F ). Y puesto que el estadístico F, además de
informar del grado de parecido entre las medias, tiene distribución muestral conocida, te-
nemos todo lo necesario para diseñar un contraste sobre la hipótesis de igualdad de medias.

ANOVA de un factor completamente aleatorizado (A-CA)


El análisis de varianza de un factor completamente aleatorizado (A-CA) o, simplemente,
ANOVA de un factor, sirve para comparar varios grupos en una variable cuantitativa. Se tra-
ta, por tanto, de una generalización de la prueba T para dos muestras independientes al caso
de más de dos muestras. A la variable categórica (nominal u ordinal) que define los grupos
o muestras se le llama independiente o factor. A la variable cuantitativa (de intervalo o ra-
zón) en la que se desea comparar los grupos se le llama dependiente o respuesta.
Consideremos un ejemplo sobre la relación entre el nivel de activación o ansiedad (va-
riable categórica con tres niveles: bajo, medio y alto) y el rendimiento (variable cuantitativa)
en el que se han seleccionado aleatoriamente 20 sujetos de cada nivel de ansiedad y se les
ha hecho trabajar en una tarea de solución de problemas. El objetivo del estudio es compro-
bar si el rendimiento es o no el mismo en los distintos niveles de ansiedad. El análisis de
varianza de un factor permite comparar el rendimiento medio de los tres grupos y valorar si
existen diferencias.
Otro ejemplo. Supongamos que una muestra aleatoria de 40 pacientes depresivos (todos
ellos con puntuaciones mayores de 30 en la escala de depresión de Hamilton) se reparten
aleatoriamente en cuatro grupos. Al primer grupo se le aplica un tratamiento farmacológico
convencional; al segundo, un nuevo tratamiento farmacológico; al tercero, una combinación
de tratamiento farmacológico y psicoterapia; al cuarto, solamente psicoterapia. El objetivo
del estudio consiste en valorar si hay algún tratamiento más eficaz que los otros. El análisis
de varianza permite valorar si, al cabo de las doce semanas de tratamiento, el nivel de depre-
sión medio es o no el mismo en las poblaciones definidas por los cuatro tratamientos. Tam-
bién permite realizar comparaciones para identificar el tratamiento más eficaz.
La Tabla 6.1 muestra la estructura de los datos y la notación que utilizaremos en un di-
seño de un factor. Usaremos reglas fáciles de seguir a la hora de representar cada elemento
de la tabla. Y mantendremos la misma lógica en la notación cuando incorporemos más
factores al diseño. A los factores los representaremos por letras latinas mayúsculas empe-
zando por la primera: A, B, etc. Al único factor del modelo de un factor lo llamaremos A. Y
a la variable dependiente (la variable cuantitativa) la llamaremos Y.
Capítulo 6. ANOVA de un factor 193

Tabla 6.1. Estructura de los datos y notación en un diseño de un factor completamente aleatorizado (A-CA)

Factor A Puntuaciones Totales Medias

a1 ··· ···
a2 ··· ···
··· ··· ··· ··· ··· ··· ··· ··· ···
aj ··· ···
··· ··· ··· ··· ··· ··· ··· ··· ···
aJ ··· ···

Los subíndices son necesarios para identificar cada elemento de la tabla. A los J grupos o
niveles del factor A los representamos mediante a1, a2, ..., aj..., aJ ; por tanto, j = 1, 2, ..., J.
En el modelo de un factor es necesario utilizar dos subíndices para representar cada valor de
Y: el primero de ellos (i) se refiere a los diferentes elementos (generalmente sujetos) del
mismo grupo: i = 1, 2, ..., nj ; el segundo ( j) se refiere a los diferentes grupos. Así, por
ejemplo, Y52 se refiere a la puntuación obtenida por el 5º sujeto del 2º grupo.
Los grupos pueden tener o no el mismo tamaño; el tamaño de cada grupo lo represen-
taremos mediante nj , con N = n1 + n2 + · · · + nj + · · · + nJ. El signo “+” colocado como subín-
dice se refiere a todos los valores del subíndice al que sustituye. Por ejemplo, Y+2 se refie-
re a todas las puntuaciones (todos los valores i) del segundo grupo ( j = 2). Para representar
estas sumas o totales utilizaremos la letra T. Las sumas o totales de cada grupo ( ) se ob-
tienen sumando desde 1 hasta nj todas las puntuaciones de ese grupo:

= = [6.7]

Por ejemplo, el total del grupo 1 (T1) se obtiene sumando las n1 puntuaciones de la primera
fila de la tabla (es decir, sumando la fila a1). Y el gran total (T ) se obtiene sumando todas las
puntuaciones de la tabla:

= = = [6.8]

A partir de estos totales es fácil obtener las medias de cada grupo y la media total; basta con
dividir los correspondientes totales por el número de puntuaciones utilizadas para obtenerlos:

= = y = = [6.9]

La hipótesis nula que se pone a prueba con el ANOVA de un factor es que las J medias po-
blacionales son iguales. El Cuadro 6.1 ofrece un resumen de los pasos que seguiremos para
contrastar esta hipótesis. Para que el estadístico F propuesto en [6.6] permita contrastar la
hipótesis de igualdad de medias estamos asumiendo que se dan ciertas condiciones: muestras
aleatorias extraídas de poblaciones normales con la misma varianza. En el siguiente aparta-
do hablaremos de estas condiciones.
194 Análisis de datos (vol. II)

Cuadro 6.1. Resumen del ANOVA de un factor completamente aleatorizado (A-CA)7

1. Hipótesis: H0: = = ··· = (todas las medias son iguales).


H 1: =/ para algún j o j1 ( j =/ j1) (no todas las medias son iguales).
2. Supuestos: J muestras aleatoriamente seleccionadas de J poblaciones normales con la
misma varianza.
3. Estadístico del contraste (ver ecuación [6.6]): F = MCA  MCE.
4. Distribución muestral: F se distribuye según F con J 1 y N  J grados de libertad.
 FJ  1, N  J ; 1  D .
5. Zona crítica: F >
6. Regla de decisión: se rechaza H0 si el estadístico F cae en la zona crítica; en caso con-
trario, se mantiene. El rechazo de H0 indica que no todas las medias poblacionales son
iguales, es decir, que hay al menos una media que difiere de al menos otra.
 Fh ), siendo Fh el valor muestral concreto que to-
7. Nivel crítico (valor p): p = P (F >
ma el estadístico F.

Ejemplo. ANOVA de un factor completamente aleatorizado (A-CA)


Al estudiar la prueba de Kruskal-Wallis (ver Capítulo 4) hemos analizado los datos de un
estudio sobre la relación entre ansiedad y rendimiento. Vamos a analizar esos mismos datos
con el estadístico F. Se han formado aleatoriamente tres grupos de 10 sujetos. A cada grupo
se le ha inducido (mediante instrucciones y manipulando los objetivos de la tarea) un nivel
distinto de ansiedad (bajo, medio, alto) mientras realizaban una tarea de solución de proble-
mas con un rompecabezas. Al evaluar el rendimiento de cada sujeto en una escala de 0 a 20
puntos se han obtenido los resultados que muestra la Tabla 6.2. El objetivo del estudio es,
de momento, averiguar si los grupos de ansiedad difieren en rendimiento, es decir, si el nivel
de ansiedad está relacionado con el rendimiento (D = 0,05).

Tabla 6.2. Puntuaciones en rendimiento de 30 sujetos con diferente nivel de ansiedad


_
Nivel de ansiedad (A) Rendimiento (Y) Yj S j2
a1 = bajo 4 11 7 10 4 9 11 8 14 12 9 10,89
a2 = medio 19 14 13 16 15 18 12 7 10 16 14 13,33
a3 = alto 3 11 5 10 14 5 7 9 4 2 7 15,11
Promedios 10 13,11

Tenemos una variable categórica o factor (nivel de ansiedad) con tres niveles que definen tres
grupos y una variable cuantitativa ( puntuaciones en rendimiento) en la cual queremos com-

7
A partir de ahora suprimiremos el subíndice Y de las medias poblacionales P para simplificar la notación. Por tanto, siem-
pre que utilicemos el símbolo P sin indicación de la variable a la que se refiere (X, Y, Z, etc.), asumiremos que se trata de
la media poblacional de Y.
Capítulo 6. ANOVA de un factor 195

parar los grupos. La Figura 6.1 muestra los diagramas de caja correspondientes a los tres gru-
pos del estudio. En ninguno de ellos se observan casos atípicos; tampoco se aprecian indicios
de asimetría; y el grado de dispersión es parecido en todos ellos. El grupo de nivel de ansie-
dad medio es el que obtiene el rendimiento medio más alto; el de nivel de ansiedad alto, el
que muestra el rendimiento medio más bajo.

Figura 6.1. Diagramas de caja correspondientes a los tres grupos de la tabla 6.2

Veamos si las diferencias que se aprecian en los diagramas de caja son estadísticamente sig-
nificativas. Asumiendo que las tres muestras se han seleccionado aleatoriamente de pobla-
ciones normales con la misma varianza, la hipótesis de igualdad de medias puede contras-
tarse aplicando un ANOVA de un factor completamente aleatorizado:
1. Hipótesis: H0: P bajo = P medio = P alto .
H1: P j =/ P j1 para algún j o j1 (j =/ j1).
2. Supuestos: tenemos 3 muestras aleatorias extraídas de poblaciones que asumimos nor-
males y con la misma varianza.
3. Estadístico del contraste (ver ecuaciones [6.3], [6.5] y [6.6]):
_
Y = (9 + 14 + 7) / 3 = 10.
= [(9  10)2 + (14  10)2 + (7  10)2 ] / 2 = 13.
MCA = 10 (13) = 130.
MCE = (10,89 + 13,33 + 15,11) / 3 = 13,11.
F = MCA  MCE = 130 / 13,11 = 9,92.
4. Distribución muestral: F se distribuye según FJ 1, N J = F3 1, 30  3 = F2, 27.
5. Zona crítica: F > F2, 27; 0,95  3,35.
6. Decisión: como el valor del estadístico del contraste (9,92) es mayor que el punto críti-
co (3,35), se rechaza H0. Se puede concluir, por tanto, que los promedios poblacionales
comparados no son iguales. El rechazo de la hipótesis de igualdad de medias nos dice que
el rendimiento medio no es el mismo en los tres grupos, pero no nos dice qué grupos di-
fieren de qué otros. Para saber esto es necesario seguir haciendo comparaciones. Estas
comparaciones (llamadas múltiples) se estudian más adelante en este mismo capítulo.
7. Nivel crítico: p = P (F >  9,92) < 0,01.
196 Análisis de datos (vol. II)

Supuestos del ANOVA de un factor

En el apartado anterior hemos presentado lo que podríamos llamar una versión abreviada del
ANOVA de un factor completamente aleatorizado. Para contrastar la hipótesis de igualdad
de medias basta con conocer esta versión abreviada.
Pero el análisis de varianza es una concreción de un modelo estadístico en el que se basan
varios de los procedimientos que hemos estudiando y que estudiaremos más adelante: el mo-
delo lineal general (ver el Capítulo 1 del tercer volumen). Y ocurre que todo modelo estadís-
tico necesita ir acompañado de una serie de aclaraciones referidas a las condiciones que deben
darse para que el modelo funcione correctamente. A estas condiciones las llamamos supues-
tos. En este apartado nos vamos a ocupar de los supuestos asociados al modelo de un factor.
El estadístico F propuesto en [6.6] permite tomar decisiones sobre la hipótesis de igual-
dad de medias porque, si se dan ciertas condiciones, se aproxima a la distribución F con J 1
y N  J grados de libertad. Estas condiciones (supuestos) son las que garantizan que la pro-
babilidad de cometer errores Tipo I y Tipo II es la que estamos asumiendo que es y no otra.
Al definir el estadístico F hemos considerado en todo momento que estábamos traba-
jando con muestras aleatorias procedentes de poblaciones normales con la misma varianza.
De estas condiciones iniciales es de donde se derivan los tres supuestos del ANOVA de un
factor completamente aleatorizado: independencia entre las puntuaciones, normalidad de las
poblaciones y homocedasticidad (varianzas poblacionales iguales).
El incumplimiento de uno o más de estos supuestos puede hacer que la distribución
muestral del estadístico F cambie y, consecuentemente, que el nivel de significación adopta-
do (generalmente 0,05) no coincida con el nivel de significación real, pasando a ser menor
(haciendo el contraste más conservador) o mayor (haciendo el contraste más liberal). Esto
significa que el incumplimiento de uno o más de estos supuestos puede llevar a tomar deci-
siones equivocadas. Lo cual es especialmente relevante si se tiene en cuenta que los datos de
los estudios que suelen llevarse a cabo en el ámbito de las ciencias sociales y de la salud
raramente cumplen todos los supuestos en los que se basa la distribución muestral del esta-
dístico F. En general, el estadístico F es robusto (es decir, ofrece resultados correctos en
condiciones desfavorables) frente a desviaciones moderadas de los supuestos en los que se
basa (ver Glass, Peckham y Sanders, 1972), pero desviaciones más acusadas pueden alterar
de forma importante la probabilidad de cometer errores Tipo I y II, y esto puede tener graves
consecuencias sobre las conclusiones del análisis. Veamos algunos aspectos relacionados con
estos supuestos.

Independencia
En el análisis de varianza de un factor, el supuesto de independencia se refiere a que cada
puntuación debe ser independiente de las demás (independiente de las de su mismo grupo y
de las del resto de los grupos). En la práctica, la independencia se consigue con la selección
aleatoria de los sujetos y/o la asignación aleatoria de los mismos a las condiciones del estu-
dio8. Las consecuencias del incumplimiento del supuesto de independencia pueden ser gra-

8
La independencia entre las puntuaciones no es un requisito exclusivamente estadístico; también es un requisito experi-
mental . Recordemos que, si las unidades de análisis no se asignan aleatoriamente a las condiciones del estudio, no habrá
forma de separar el efecto de la variable independiente o factor del efecto de posibles variables extrañas.
Capítulo 6. ANOVA de un factor 197

ves (ver Kenny y Judd, 1986; Scariano y Davenport, 1987), de modo que es muy importan
te cuidar los aspectos relativos a la selección y asignación de sujetos.
No es infrecuente encontrar incumplimientos de este supuesto. Un ejemplo típico se da
cuando se realizan repetidas mediciones de los mismos sujetos, de manera que el número to-
tal de puntuaciones es mayor que el número total de sujetos. En un diseño completamente
aleatorizado hay que procurar que cada puntuación se corresponda con un sujeto distinto. No
obstante, esto no necesariamente garantiza la independencia entre las puntuaciones. Siempre
es posible encontrar sujetos distintos que no se comportan de forma independiente; es decir,
sujetos distintos que muestran comportamientos similares en la variable estudiada: miembros
de la misma familia, estudiantes de la misma clase, pacientes de un mismo hospital, parti-
cipantes en un experimento que interaccionan entre sí en su actividad cotidiana, miembros
de un mismo colectivo social o religioso, etc.
Si existen dudas acerca de la aleatoriedad de las puntuaciones de un estudio concreto,
puede utilizarse la prueba de las rachas para contrastar la hipótesis de que las muestras uti-
lizadas son aleatorias (ver Apéndice 2).

Normalidad
El segundo de los supuestos se refiere a que las puntuaciones de cada grupo constituyen una
muestra aleatoria extraída de una población normal. En varios trabajos ha quedado probado
que el estadístico F es robusto frente al incumplimiento de este supuesto (Box, 1953; Jagers,
1980; Lix, Keselman y Keselman, 1996).
Si las desviaciones de la normalidad son muy acusadas, pueden detectarse fácilmente
utilizando sencillos métodos gráficos (Chambers, Cleveland, Kleiner y Tukey, 1983; Iman
y Conover, 1983; Wainer y Thissen, 1993). Los gráficos de normalidad ya estudiados (Q-Q
normal y Q-Q normal sin tendencias; ver, en el Capítulo 2, el apartado Contrastes sobre la
forma de una distribución), son una herramienta muy útil en este sentido. Pero no olvidemos
que estos gráficos son apropiados, sobre todo, para valorar la normalidad de muestras gran-
des; con muestras pequeñas es preferible contrastar la hipótesis de normalidad mediante
alguno de los procedimientos descritos en el Capítulo 2.
Si las poblaciones muestreadas, aun no siendo normales, son simétricas o tienen forma
parecida (por ejemplo, todas positivamente asimétricas y leptocúrticas), el estadístico F ofrece
resultados correctos incluso con tamaños muestrales relativamente pequeños (ver Tan, 1982).
No obstante, siempre es recomendable trabajar con tamaños muestrales moderadamente gran-
des para tener la garantía de que el estadístico F se comportará correctamente incluso cuan-
do las poblaciones originales se desvíen sensiblemente de la normalidad. En el caso de tener
que trabajar con muestras pequeñas procedentes de poblaciones no normales, es preferible
utilizar procedimientos alternativos al estadístico F como, por ejemplo, la prueba de Kruskal-
Wallis estudiada en el Capítulo 4 (Wilcox, 1996; Good y Lunneborg, 2006).

Igualdad de varianzas (homocedasticidad)


El último de los supuestos del modelo de un factor afirma que las varianzas de las poblaciones
son iguales (ver [6.1]). Durante años se ha venido aceptando, a partir de trabajos como el de
Horsnell (1953) o Box (1954a), que el estadístico F es robusto frente al incumplimiento de
este supuesto si la varianza más grande no es más de tres veces mayor que la más pequeña
198 Análisis de datos (vol. II)

y los tamaños muestrales son iguales y no demasiado pequeños. Pero en las ciencias sociales
y de la salud no es infrecuente tener que trabajar con datos en los que la varianza más grande
es más de doce veces mayor que la más pequeña (Tomarken y Serlin, 1986; Wilcox, 1987a).
Y cuando las varianzas poblacionales son distintas, el comportamiento del estadístico F puede
resultar insatisfactorio incluso con tamaños muestrales iguales (Harwell, Rubinstein, Hayes
y Olds, 1992; Rogan y Keselman, 1977; Tomarken y Serlin, 1986; Wilcox, 1987a; Wilcox,
Charlin y Thompson, 1986; etc.). Y si los tamaños muestrales son diferentes, varios trabajos
(ver Glass, Peckham y Sanders, 1972, para una revisión) coinciden en señalar que el estadís-
tico F deja de ser robusto: se convierte en muy conservador cuando las varianzas más gran-
des corresponden a los grupos de mayor tamaño (perdiendo, además, potencia) y en marca-
damente liberal cuando las más grandes corresponden a los grupos de menor tamaño.
Estas consideraciones sugieren que, cuando se tiene intención de utilizar el estadístico
F para contrastar la hipótesis de igualdad de medias, es más que recomendable contrastar
previamente la hipótesis de igualdad de varianzas. Existen varios procedimientos para esto,
pero no todos ellos son igualmente robustos frente al incumplimiento del supuesto de nor-
malidad (ver O’Brien, 1981). Uno de los más utilizados (incluido en el SPSS) es el propues-
to por Levene (1960). Consiste en transformar las puntuaciones originales en _ desviaciones
D i j en valor absoluto de las medias de sus respectivos grupos (D i j = | Yi j  Y j |) y aplicar el
estadístico F a las puntuaciones transformadas. Si las varianzas poblacionales son iguales,
las desviaciones Di j tendrán promedios parecidos en todos los grupos y servirán como refe-
rencia del grado del parecido existente entre las varianzas. Una F significativa llevará al
rechazo de la hipótesis de igualdad de varianzas. Brown y Forsythe (1974a) han propuesto
un procedimiento idéntico al de Levene, pero utilizando las medianas en lugar de las medias
para obtener las puntuaciones transformadas D i j.
Si alguno de estos procedimientos9 lleva al rechazo de la hipótesis de igualdad de va-
rianzas, lo razonable es contrastar la hipótesis de igualdad de medias con alguna prueba
alternativa al estadístico F. Ya hemos mencionado que la prueba de Kruskal-Wallis estudia-
da en el Capítulo 4 representa una alternativa robusta cuando no puede asumirse normali-
dad; pero, cuando no puede asumirse igualdad de varianzas, Vargha y Delaney (1998; ver
también Keselman, Games y Rogan, 1979) recomiendan utilizar los estadísticos propuestos
por Welch (1951) y Brown y Forsythe (1974b) basados en una modificación del estadístico
F (estos estadísticos son los que incluye el SPSS como métodos alternativos al estadístico F
y se describen al final de este capítulo, en el Apéndice 6).

Transformación de las puntuaciones

Acabamos de señalar que el estadístico F requiere trabajar con poblaciones normales y homo-
cedásticas; y que, cuando no se dan estas condiciones, lo recomendable es utilizar procedi-
mientos alternativos (hemos mencionado la prueba de Kruskal-Wallis –ver Capítulo 4– y las
de Welch y Brown-Forsythe –ver Apéndice 6–). No obstante, cuando las poblaciones no son

9
En Conover, Johnson y Johnson (1981) se comparan 60 procedimientos diferentes para contrastar la igualdad de varian-
zas. O’Brien (1981) ha diseñado un método de bastante aceptación (ver, por ejemplo, Pardo y San Martín, 1998, pág. 271);
Cochran (1941) ha propuesto un estadístico basado en el cociente entre la varianza más grande y la suma de las J varian-
zas (ver Kirk, 1995, pág. 101); el método de Hartley (1940, 1950), uno de los más utilizados en el pasado, se basa en el co-
ciente entre la varianza más grande y la más pequeña (ver Kirk, 1995, pág. 101); etc.
Capítulo 6. ANOVA de un factor 199

normales y homocedásticas, todavía existe la posibilidad de seguir utilizando el estadístico


F si a las puntuaciones originales se les aplica alguna transformación que permita normalizar
las distribuciones y homogeneizar las varianzas.
Las transformaciones que ayudan a conseguir este objetivo son, lógicamente, no linea les:
la transformación raíz cuadrada (Y * = ) permite disminuir la asimetría positiva y hacer
más homogéneas las varianzas. La transformación logarítmica (Y * = log [Y ]) reduce todavía
más la asimetría positiva y también hace más homogéneas las varianzas. La presencia de va-
lores muy extremos puede atenuarse transformando los valores originales en sus recíprocos
o inversos (Y * = 1/Y ). Y la transformación arcoseno de la raíz cuadrada (Y * = arcsen )
suele aplicarse para poder trabajar con proporciones (en Howell, 2002, págs. 344-349, pue-
de encontrarse una buena descripción del efecto que produce cada tipo de transformación y
de cuándo aplicarla).
Varios de los más importantes manuales de análisis de datos dedican un apartado más
o menos extenso a este tema (ver, por ejemplo, Howell, 2002, págs. 342-349; Kirk, 1995,
págs. 103-107; Maxwell y Delaney, 2004, págs. 117-120; etc.). Pero los beneficios de esta
práctica están poco claros y han sido, y siguen siendo, objeto de controversia.
En algunas áreas de conocimiento existe la costumbre de trabajar con transformaciones
no lineales (decibelios, pH, escala Ritcher, etc.). En las ciencias sociales y de la salud no es
infrecuente transformar la variable dependiente en rangos o en percentiles. Y muchos de los
estadísticos que utilizamos son transformaciones no lineales que se utilizan con el objetivo
de conocer sus distribuciones muestrales para poder realizar inferencias. Pero todas estas
transformaciones tienen el objetivo de simplificar las cosas y facilitar la interpretación de los
datos. Y no parece que esta forma de proceder haya provocado ninguna controversia.
El problema surge cuando las transformaciones se aplican con el objetivo de que los da-
tos se ajusten a determinados supuestos estadísticos. Si bien no faltan quienes encuentran
ventajas o beneficios en esta práctica10, tampoco faltan quienes se muestran poco partidarios
de ella11. Transformar la variable dependiente para conseguir normalizar las distribuciones
y homogenizar las varianzas tiene consecuencias que dependen de varios factores (ver Ga-
mes, 1983); y ni esos factores ni sus consecuencias parecen estar del todo claros.
Por tanto, la transformación de las puntuaciones originales no es algo que deba hacerse
de forma rutinaria. Es legítimo intentar hacer que las distribuciones con las que se va a tra-
bajar sean razonablemente simétricas, con pocos o ningún valor extremo y con varianzas más
o menos homogéneas (todo ello con el objetivo de poder aplicar el estadístico F ). Pero si los
datos ya poseen esas características o si existe algún procedimiento que pueda analizar con
solvencia los datos disponibles, no se obtendrá ninguna ganancia evidente aplicando una
transformación cuya única consecuencia segura es la de obligar al investigador a trabajar en
una métrica desprovista de significado. Y existen procedimientos robustos para analizar casi
cualquier tipo de datos si necesidad de transformarlos (ver Wilcox, 2005).
10
Ver , por ejemplo, Fleiss (1986), Levine y Dunlap (1982, 1983), Luh (1992), Rasmussen (1989).
11
Los beneficios de la transformación logarítmica no parecen estar claros; entre otras cosas, los valores extremos pueden
quedar poco corregidos en unos grupos y demasiado en otros (Games y Lucas, 1966). Las transformaciones raíz cuadrada
y arcoseno de la raíz cuadrada suelen reducir la potencia sin mejorar la probabilidad de cometer errores Tipo I (Budescu
y Appelbaum, 1981; Milligan, 1987). Las transformaciones logarítmica, raíz cuadrada y recíproca pueden, ocasionalmente,
invertir el orden de las medias originales (Kruskal, 1978; Milligan, 1987; Oshima y Algina, 1992; Steel, Torrie y Dickey,
1997). Incluso entre los partidarios de las transformaciones se reconoce que una transformación que reduce la asimetría en
un grupo puede incrementarla en otro, y que una transformación que reduce la asimetría en todos los grupos puede hacer
más heterogéneas las varianzas (Levine y Dunlap, 1982).
200 Análisis de datos (vol. II)

Efectos fijos y aleatorios


Ya hemos mencionado al comienzo del capítulo que una variable independiente o factor pue-
de ser de efectos fijos o de efectos aleatorios. Recordemos que los niveles de un factor de
efectos fijos los establece el investigador o vienen dados, mientras que los niveles de un factor
de efectos aleatorios se eligen aleatoriamente de la población de posibles niveles del factor.
Esta diferencia en la forma de establecer los niveles de un factor tiene algunas consecuencias
sobre algunos elementos del contraste.
Cuando un factor es de efectos aleatorios, las hipótesis no se plantean sobre las medias
poblacionales de los niveles del factor sino sobre su varianza. En un modelo de efectos fijos,
el análisis se centra en los J niveles del factor; y, dado que esos J niveles representan todos
los niveles de interés, la hipótesis nula que se pone a prueba se refiere justamente a las me-
dias de esos J niveles. Sin embargo, en un modelo de efectos aleatorios, los niveles utiliza-
dos son solamente algunos de los posibles; en estos casos, la hipótesis nula debe reflejar, no
ya la diferencia entre las medias de esos niveles concretos, que también, sino la diferencia
entre todos los posibles niveles del factor. Esto se consigue contrastando la hipótesis nula de
que la varianza de las medias de todos los posibles niveles del factor vale cero:

H0 : = 0 [6.10]

Puesto que la varianza de las medias solamente valdrá cero cuando todas las medias sean
iguales, el rechazo de la hipótesis formulada en [6.10] permitirá concluir que las medias po-
blacionales no son iguales.
Las hipótesis que se contrastan con uno y otro tipo de factores nos ponen en la pista del
tipo de inferencias que es posible hacer. Con un factor es de efectos fijos, las inferencias se
limitan a los niveles concretos incluidos en el análisis; los niveles que interesa estudiar son
justamente los que se están estudiando; ellos constituyen la población de niveles del factor;
si se replicara el experimento, aunque los sujetos serían, muy probablemente, diferentes, los
niveles del factor serían los mismos. Con los factores de efectos aleatorios no ocurre esto:
los niveles concretos incluidos en el análisis solamente constituyen una muestra aleatoria de
la población de niveles que interesa estudiar; las inferencias, por tanto, se realizan, no sobre
los niveles incluidos en el estudio, sino sobre la población de posibles niveles del factor.
Excepto por lo que se refiere a algún detalle relacionado con la cuantificación del tama-
ño del efecto (ver siguiente apartado), el hecho de que un factor sea de efectos fijos o de efec-
tos aleatorios no tiene consecuencias sobre los cálculos involucrados en los modelos de un
factor; sí las tiene, sin embargo, en los modelos de más de un factor, de modo que más ade-
lante tendremos que volver sobre esto.

Medidas del tamaño del efecto


Al igual que ocurre con el estadístico T, el valor del estadístico F no depende únicamente del
verdadero efecto del factor (es decir, de la verdadera diferencia entre las medias poblacio-
nales), sino del tamaño de las muestras y del grado de variabilidad de las puntuaciones. Por
tanto, una F significativa no necesariamente se corresponde con un efecto importante o un
resultado relevante. Para detectar un efecto o resultado de ese tipo es necesario hacer algo
más.
Capítulo 6. ANOVA de un factor 201

En el caso de J = 2 medias independientes (ver, en el Capítulo 4, el apartado Medidas


del tamaño del efecto), hemos propuesto dos estrategias distintas para cuantificar el tamaño
del efecto: una basada en la diferencia entre las medias (ver [4.13]) y otra basada en la
relación entre las variables (ver [4.18]). Y hemos tenido ocasión de comprobar que ambas
estrategias son equivalentes porque, tratándose de una variable categórica y una cuantitati-
va, comparar los grupos y relacionar las variables son la misma cosa: si los grupos definidos
por la variable categórica difieren en la variable cuantitativa, entonces la variable categóri-
ca está relacionada con la variable cuantitativa. En este escenario, el resultado que se obtie-
ne cuantificando la magnitud de la diferencia entre las medias es exactamente el mismo que
el que se obtiene cuantificando la magnitud de la relación entre las variables.
En el caso de J > 2 medias, no es posible comparar las J medias con una resta (como en
el caso de dos medias), pero sí es posible utilizar la varianza de las medias como una medi-
da del grado en que difieren (ver apartado anterior). Basándose en este criterio, Cohen (1988,
1992a) ha propuesto una medida del tamaño del efecto basada en el cociente entre la varian-
za de las medias y la varianza de las puntuaciones individuales:

= [6.11]

Esta medida (a la que Cohen llama f ) es equivalente a la que ya estudiada para el caso de dos
medias (ver ecuación [4.12]). Sustituyendo las medias y la varianza poblacionales por sus
correspondientes estimadores muestrales se obtiene

= = [6.12]

Para interpretar , Cohen (1992a) ha propuesto una regla general que puede servir de guía
en la mayor parte de los contextos aplicados: valores en torno a 0,10, 0,25 y 0,40 represen-
tan, respectivamente, efectos de tamaño pequeño, mediano y grande.
La variabilidad entre las medias y la variabilidad entre las puntuaciones individuales tam-
bién puede utilizarse para obtener la proporción de varianza común, es decir, el grado de re-
lación existente entre la variable categórica o factor y la variable cuantitativa o dependien-
te. Esto es justamente lo que hacen las medidas del tamaño del efecto que estudiaremos a
continuación: todas ellas intentan estimar el verdadero tamaño del efecto en la población (la
verdadera diferencia entre las medias) comparando distintas fuentes de variabilidad para
obtener una estimación de la proporción de varianza común.
La más antigua de estas medidas, eta-cuadrado, fue inicialmente propuesta por Pearson
(1905) e incorporada más tarde por Fisher (1925, 1935) al contexto de los modelos de aná-
lisis de varianza:

= = [6.13]

El valor de expresa el grado de asociación (no solo lineal, sino de cualquier tipo) existen-
te entre la variable categórica o factor y la variable cuantitativa o dependiente (si se aplica
al caso de dos medias, = RXY). El numerador de es una cuantificación de la variabilidad
existente entre las medias; el denominador, una cuantificación de la variabilidad total; el
cociente entre ambas cuantificaciones indica cómo es de grande la variabilidad entre las
202 Análisis de datos (vol. II)

medias en comparación con la variabilidad total. Por tanto, puede interpretarse como la
proporción de varianza que comparten la variable categórica o factor y la variable cuantita-
tiva o dependiente: indica el grado en que aumenta el conocimiento (o se reduce la incer-
tidumbre) de las puntuaciones de la variable dependiente por el hecho de saber a qué nivel
del factor (a qué grupo) pertenecen.
El problema de es que tiende a ofrecer estimaciones sesgadas de la verdadera pro-
porción de varianza común (en concreto, la sobrestima; es decir, tiende a ofrecer valores más
altos que el del parámetro que estima; ver, por ejemplo, Fowler, 1985). Una corrección debi-
da a Wherry (1931) permite reducir ese sesgo:

= [6.14]

También para corregir el sesgo de , Kelley (1935, págs. 554-559) y, posteriormente, Pe-
ters y Van Voorhis (1940) y Cohen (1966), han propuesto utilizar una modificación de
llamada épsilon-cuadrado:

= [6.15]

Esta sencilla modificación de permite obtener estimaciones de la verdadera proporción


de varianza común solo ligeramente sesgadas. Su comportamiento, en general, es sensible-
mente mejor que el de (Fowler, 1985).
Por último, Hays (1963, 1994) ha propuesto una medida de asociación llamada omega-
cuadrado ( ). Esta medida es muy parecida a y ha llegado a convertirse en una de las
de mayor aceptación12. Su valor concreto13 depende de que el factor sea de efectos fijos o de
efectos aleatorios (ver Winer, Brown y Michels, 1991, págs. 124-126). Si el factor es de efec-
tos fijos14,

= [6.16]

y si el factor es de efectos aleatorios,

= [6.17]

(n se refiere al tamaño de cada grupo o al promedio de los tamaños en caso de que sean dis-
tintos). La ecuación [6.17] también se conoce como coeficiente de correlación intraclase,
una medida que indica el grado de parecido entre las puntuaciones del mismo grupo en com-
paración con el grado de parecido entre las puntuaciones de grupos distintos.

12
No deja de ser sorprendente que, a pesar de ser de la medida de asociación que acapara las preferencias de los expertos,
muchos programas de análisis estadístico, incluido el SPSS, no la incluyan como tal entre sus opciones.
13
Si el estadístico F es menor que 1 (es decir, si MCA < MCE ), las ecuaciones [6.16] y [6.17] ofrecen un valor negativo.
Puesto que una proporción no puede ser negativa, cuando ocurre esto se considera que Z2 vale cero.
14
El valor de también puede obtenerse a partir del estadístico F. Cuando el factor es de efectos fijos, la ecuación [6.16]
equivale a = [(J  1) (F  1)] / [N + (J 1) (F 1)]. Cuando el factor es de efectos aleatorios, la ecuación [6.17] equivale
a = (F  1) / [(N  1) + F].
Capítulo 6. ANOVA de un factor 203

De las cuatro medidas de asociación propuestas, ( , , y ), las tres últi-


mas son preferibles a porque el sesgo de es mayor. Entre el resto de medidas, aunque
todas ellas ofrecen resultados muy parecidos, tiene la ventaja de que puede aplicarse a
modelos y diseños más complejos (Maxwell, Camp y Arvey, 1981). Además, el sesgo de Ȧ2
como estimador de la verdadera proporción de varianza común es muy pequeño (ver Carroll
y Nordholm, 1975).
Para interpretar el tamaño de , Cohen (1988) ha propuesto una especie de regla general
que puede resultar útil en muchos contextos aplicados: valores en torno a 0,01, 0,06 y 0,14
indican, por lo general, asociaciones de intensidad baja, media y alta, respectivamente.
En los datos de la Tabla 6.2 tenemos 3 grupos (J = 3) y 10 sujetos por grupo (N = 30).
Y sabemos que MCA = 130 y MCE = 13,11. Aplicando las ecuaciones [6.13] a [6.16] a estos
datos obtenemos

= = =

= =

= = =

= = =

El valor de es mayor que el del resto de las medidas (ya hemos señalado que, como esti-
mador de la verdadera proporción de varianza común, ofrece estimaciones infladas). El
resto de medidas toman el mismo valor. La interpretación de una medida de este tipo (va-
rianza común) puede hacerse en términos del grado de incertidumbre en que se reduce nues-
tro conocimiento de la variable dependiente por el hecho de saber a qué grupo pertenece ca-
da sujeto. En nuestro ejemplo, saber a qué grupo (nivel de ansiedad) pertenecen los sujetos
reduce nuestra incertidumbre (mejora nuestro conocimiento) sobre su rendimiento un 38 %.
Y de acuerdo con la regla de Cohen para este tipo de medidas (0,01; 0,06; 0,14), puede
concluirse que la intensidad de la asociación encontrada es alta.
Aplicando la ecuación [6.12] para calcular la medida del tamaño del efecto con estos
mismos datos obtenemos

= =

Valor que, de nuevo con la regla de Cohen (0,10; 0,25; 0,40), representa un efecto de tama-
ño grande.
Es evidente que las medidas del tamaño del efecto ofrecen información adicional a la del
estadístico F : contribuyen a distinguir entre la significación estadística de un resultado y su
relevancia o importancia práctica (Kirk, 1996); sirven para estimar la potencia de un contras-
te y elegir el tamaño muestral idóneo al planificar un estudio (Cohen, 1988; ver siguiente
apartado); y facilitan la recopilación de los resultados de diferentes estudios al realizar un
meta-análisis (Hunter y Schmidt, 2004; Rosenthal, 1991). Éstas son, sin duda, algunas de las
razones por las que muchos autores (también los editores de las más importantes revistas
científicas), recomiendan utilizar las medidas del tamaño del efecto e incluirlas en los in-
204 Análisis de datos (vol. II)

formes de investigación (Abelson, 1995; Cohen, 1988; Murphy, 1997; Thomson, 1994, 1997;
etc.). Especialmente relevantes en este sentido son las recomendaciones del informe de Wil-
kinson y la APA Task Force on Statistical Inference (1999).
No obstante, ya hemos señalado (ver, en el Capítulo 1, el apartado Tamaño del efecto)
que las medidas del tamaño del efecto no deben ser consideradas una panacea en el análisis
de datos. La razón principal de esto es que su significado no parece estar del todo claro (en
relación con esta problemática merecen destacarse las interesantes reflexiones de Chow,
1996, págs. 89-118; y O’Grady, 1982).

Cálculo de la potencia y del tamaño muestral

La estrategia que presentamos en este apartado para calcular la potencia asociada al esta-
dístico F se basa en una medida del tamaño del efecto llamada (phi) y en la distribución
F no centrada (Tabla G del Apéndice final)15.
Si la hipótesis de igualdad de medias es verdadera, el estadístico F sigue el modelo de
distribución de probabilidad F con parámetros J 1 y N  J (sus grados de libertad). Si la
hipótesis de igualdad de medias es falsa, el estadístico F se distribuye según la F no centra-
da con un tercer parámetro de no-centralidad llamado O (letra griega lambda):

= [6.18]

(P es la media total no ponderada). Un parámetro de no-centralidad indica cómo de grande


es la variabilidad entre las medias en comparación con la variabilidad de las puntuaciones
individuales. Por tanto, O expresa el grado en que difieren las medias poblaciones: cuanto
mayor es la diferencia entre las medias, mayor es el valor de O. Cuando las medias pobla-
cionales son iguales, O vale cero; en cuyo caso, la distribución del estadístico F es la dis-
tribución F centrada (con los dos parámetros correspondientes a los grados de libertad del
numerador y del denominador). Aunque existen tablas de la distribución F no centrada ba-
sadas en el parámetro O, la mayor parte de ellas utilizan la transformación

= [6.19]

La potencia asociada al estadístico F puede obtenerse de la Tabla G a partir del valor de


y de los grados de libertad del estadístico F. Para saber cuál será la potencia de un contras-
te, las medias y la varianza poblacionales incluidas en [6.18] pueden estimarse a partir de
estudios previos. El numerador de [6.18] también puede estimarse mediante el valor o can-
tidad que, a partir de argumentos teóricos o prácticos, se considera mínimamente relevante.
Si no se tiene esta información, puede diseñarse un estudio piloto, con unos pocos datos, pa-

15
Un tratamiento completo de todo lo relacionado con la definición y cálculo de la potencia puede encontrarse en Cohen
(1988). Kirk (1995, págs. 182-188) y Maxwell y Delaney (2004, págs. 120-126) presentan el cálculo de la potencia a par-
tir de gráficos explícitamente diseñados para ello. Y Hays (1994, págs. 408-410) utiliza un procedimiento basado en su
estadístico Z2. Todas estas aproximaciones, incluida la que nosotros proponemos aquí, son equivalentes, es decir, ofrecen
los mismos resultados (ver Winer, Brown y Michels, 1991, págs. 126-140).
Capítulo 6. ANOVA de un factor 205

ra obtener una estimación de estos parámetros. Cualquiera que sea la forma de obtener esta
información, una vez obtenida el valor de puede estimarse mediante16

= = = [6.20]

En nuestro ejemplo sobre la relación entre ansiedad y rendimiento con J = 3 grupos (ver Ta-
bla 6.2) hemos obtenido MCA = 130 y MCE = 13,11. Por tanto,

= =

Para calcular la potencia del contraste llevado a cabo con los datos de la Tabla 6.2 necesi-
tamos D = 0,05, gl1 = J  1 = 2, gl2 = N  J = 27 y = 2,57. En la Tabla G del Apéndice fi-
nal (redondeando a gl2 = 30 y = 2,6), encontramos que la probabilidad de cometer errores
Tipo II (E) vale 0,02. Por tanto, la potencia de este contraste vale 1  E = 1  0,02 = 0,98.
Puesto que tanto gl2 como se han redondeado por arriba, es muy posible que el valor de
la potencia sea una o dos décimas menor de 0,98.
Calcular la potencia de un contraste después de llevarlo a cabo tiene el interés de saber
con qué potencia se ha trabajado (potencia observada) asumiendo que el efecto en la po-
blación es el efecto observado en la muestra. Si la potencia observada es alta, perfecto; pero
si la potencia observada es baja, ya no hay forma de arreglar el problema. Lo realmente in-
teresante es poder diseñar cada estudio de tal forma que pueda conocerse de antemano la
potencia con la que se va a trabajar. Y esto pasa por calcular el tamaño muestral necesario pa-
ra alcanzar una determinada potencia. Puesto que la potencia depende del nivel de signifi-
cación (D), del tamaño del efecto ( ) y del número (J ) y tamaño (n) de los grupos, una vez
establecido el nivel de significación (generalmente 0,05), el tamaño del efecto que se desea
poder detectar o que se considera mínimamente relevante ( o ), la potencia que se desea
alcanzar (generalmente 0,80) y el número de grupos con el que se va a trabajar (J ), tenemos
todo lo necesario para calcular el tamaño muestral. Ahora bien, para esto hace falta separar
el tamaño muestral del resto de los elementos en la ecuación [6.20]. Al eliminar el tamaño
muestral de [6.20], queda la medida del tamaño del efecto definida por Cohen (ver [6.12]):

= Ú n = [6.21]

(n se refiere al tamaño de cada grupo). Supongamos que en un estudio con 3 grupos (gl1 = 2)
y D = 0,05 queremos que la potencia del contraste para detectar un efecto de tamaño medio
(G = 0,25 según la regla de Cohen) valga 0,80 (E = 0,20). Tenemos que utilizar la Tabla G
al revés de como lo hemos hecho antes, pero ahora nos encontramos con que no conocemos
los grados de libertad gl2, pues dependen del tamaño muestral que estamos buscando. Esto,
sin embargo, no representa ningún problema porque utilizar un valor de partida de 30 o ma-
yor no hace cambiar las cosas. Podemos elegir, por ejemplo, gl2 = . Así, con gl1 = 2, gl2 =
y E = 0,20, la Tabla G ofrece un valor de 1,8 para . Por tanto, n = (1,8 / 0,25)2 = 51,8. Es
decir, para alcanzar una potencia de 0,80 hacen falta, redondeando al entero mayor, 52 suje-
tos por grupo.

16
Aunque la ecuación [6.18] permite entender fácilmente el significado del parámetro de no-centralidad , este parámetro
puede estimarse fácilmente mediante (J  1) F. En cuyo caso, puede estimarse mediante = .
206 Análisis de datos (vol. II)

Para comprobar que nuestros cálculos son correctos podemos realizar la acción inver-
sa de averiguar cuánto vale la potencia de un estudio con J = 3 grupos (gl1 = 2), 52 sujetos
por grupo (gl2 = 153) y un efecto de tamaño medio (G = 0,25). Con estos datos, el parámetro
vale G = = 1,80. Y la Tabla G indica que el valor de E es algo menor de 0,24.
Por tanto, el valor de la potencia, 1  E, es algo mayor de 0,76.

Comparaciones múltiples entre medias


La hipótesis nula que se contrasta con el estadístico F en el ANOVA de un factor es una
hipótesis global referida al conjunto de las J medias poblacionales incluidas en el estudio.
El rechazo de esta hipótesis permite concluir que no todas las medias poblacionales son igua-
les, pero no permite concretar qué medias difieren de qué otras. En este sentido, un estadísti-
co F significativo solamente es, por lo general, el primer paso del análisis. Tras rechazar la
hipótesis global de igualdad de medias, todavía falta por aclarar dónde se encuentran las
diferencias. Esto se consigue aplicando un conjunto de procedimientos agrupados bajo la
denominación de comparaciones múltiples.
En este apartado se describen algunos de estos procedimientos17 agrupados en dos blo-
ques: (1) comparaciones planeadas o a priori y (2) comparaciones post hoc o a posteriori.
Pero antes debemos revisar algunos conceptos.

Comparaciones lineales
En el contexto de los contrastes sobre medias, una comparación lineal (o contraste lineal)
es una combinación lineal (suma ponderada) de medias con pesos o coeficientes, no todos
iguales a cero, que suman cero.
Utilizaremos los símbolos para representar la h-ésima comparación entre J medias
poblacionales y para representar el valor muestral o estimado de esta comparación.
Aclaremos la definición de comparación lineal que acabamos de presentar. Imaginemos
un estudio con cinco tratamientos o grupos y, por tanto, con cinco medias poblacionales: P1,
P 2, P 3, P 4 y P 5. Con estas cinco medias es posible realizar, por ejemplo, comparaciones en-
tre pares de medias como
= P1  P2
[6.23]
= P2  P3

Pero las comparaciones entre pares de medias no son las únicas que es posible plantear. Tam-
bién es posible plantear comparaciones del tipo
= (P 1 + P 2 )  (P 3 + P 4 )
= (P 1 + P 2 + P 3 ) / 3  (P 4 + P 5 ) / 2 [6.24]
= (P 1 + P 2 + P 3 + P 4 ) / 4  P 5

17
Los procedimientos diseñados para efectuar comparaciones múltiples entre medias son muchos y muy variados. El lector
interesado en ampliar los aquí expuestos puede consultar, por ejemplo, Hochberg y Tamhane (2009), Hsu (1996) , Miller
(1981) y Toothaker (1991, 1999).
Capítulo 6. ANOVA de un factor 207

En se están comparando las medias 1 y 2 tomadas juntas con las medias 3 y 4 tomadas
juntas; en , las medias 1, 2 y 3 tomadas juntas con las medias 4 y 5 tomadas juntas; y en
, las cuatro primeras medias tomadas juntas con la última.
Las llamamos comparaciones múltiples porque se están planteando varias comparacio-
nes simultáneamente. Cada una de estas comparaciones (y cualquier otra que se nos ocurra
formular) puede expresarse como una combinación lineal de J medias con coeficientes cj
conocidos que verifican dos condiciones: (1) al menos uno de los coeficientes cj es distinto
de cero y (2) la suma de todos ellos vale cero. Es decir:

= c1 P 1 + c2 P 2 + · · · + cJ PJ = cj P j [6.25]

con cj =/ 0 para algún j, y


cj = 0. La pregunta que surge en este momento es cómo asignar
coeficientes a las medias para que la comparación resultante exprese justamente la dife-
rencia entre medias que se desea plantear.
Para asignar coeficientes correctamente hay que tener presente que cualquiera que sea
el tipo de comparación planteada, en una comparación concreta siempre se están comparan-
do dos cosas. Aunque sean varias las medias involucradas, la comparación siempre consis-
te en comparar una cosa (una media o grupo de medias) con otra cosa (otra media o grupo
de medias). Y esas dos cosas se comparan restándolas (igual que hemos hecho, por ejemplo,
para comparar dos medias con la prueba T de Student).
La asignación de coeficientes para comparar dos medias (como en las comparaciones
y propuestas en [6.23]) es bastante simple: se asigna un 1 a una de las medias que se de-
sea comparar, un 1 a la otra media (da igual a cuál de las dos medias se le asigne el valor
negativo) y ceros al resto de las medias para eliminarlas de la comparación. Así, para defi-
nir las comparaciones y de [6.23] en el formato propuesto en [6.25] haremos

= (1) P 1 + (1) P 2 + (0) P 3 + (0) P 4 + (0) P 5


= (0) P 1 + (1) P 2 + (1) P 3 + (0) P 4 + (0) P 5

Para comparar dos grupos de medias (situación que se da cuando en uno de los dos grupos
o en los dos hay al menos dos medias, como en las comparaciones , y propuestas
en [6.24]), se asignan a las medias de cada grupo coeficientes iguales al número de medias
que forman parte del otro grupo y, arbitrariamente, se hacen negativos los coeficientes de uno
de los dos grupos. Así, al definir las comparaciones y de [6.24] en el formato pro-
puesto en [6.25], nos queda

= (2) P 1 + (2) P 2 + (2) P 3 + (3) P 4 + (3) P 5


= (1) P 1 + (1) P 2 + (1) P 3 + (1) P 4 + (4) P 5

El tamaño de los coeficientes es irrelevante. Aunque en se han asignado los coeficien-


tes 1, 1, 1, 1 y 4, igualmente se podrían haber asignado los coeficientes 2, 2, 2, 2 y 8, o
los coeficientes 5, 5, 5, 5 y 20.
Cuando los dos grupos de medias que se comparan tienen el mismo número de medias
(como ocurre en las comparaciones , y ), la situación se simplifica bastante asignan-
do únicamente “unos” y “ceros”:

= (1) P 1 + (1) P 2 + (1) P 3 + (1) P 4 + (0) P 5


208 Análisis de datos (vol. II)

Vemos, pues, que cualquier tipo de diferencia entre medias puede plantearse como una com-
binación lineal si se eligen los coeficientes apropiados.
Si, en lugar de utilizar las medias
_ poblacionales P j para definir una comparación , se
utilizan las medias muestrales Y j , el resultado es una comparación muestral que sirve co-
mo estimador de la comparación poblacional:

= = [6.26]

Lo interesante de este tipo de combinaciones lineales no es solo que permiten definir cual-
quier comparación entre medias, sino que es muy fácil trabajar con ellas porque conocemos
tanto su valor esperado como su varianza (ver Pardo y San Martín, 1998, pág. 289):

= y = = [6.27]

No todas las comparaciones que pueden definirse con J medias son independientes entre sí:
algunas de ellas pueden obtenerse combinando otras. Por ejemplo, el número de compara-
ciones por pares que pueden definirse con J medias es J (J  1) / 2 (es decir, combinaciones
de J elementos tomados de 2 en 2). Así, con J = 4 medias es posible definir 4 (4 1) / 2 = 6
comparaciones por pares. Pero no todas ellas son independientes entre sí, lo cual significa
que incluyen información redundante. Por ejemplo, la comparación P 2  P 3 puede obtener-
se a partir de las comparaciones P 1  P 2 y P 1  P 3 :
(P 1  P 3)  (P 1  P 2) = P 2  P 3

Del mismo modo, la comparación (P 1 + P 2)  (2) P 3 puede obtenerse a partir de las compa-
raciones P 1  P 3 y P 2  P 3 :
(P 1  P 3) + (P 2  P 3) = (P 1 + P 2)  (2) P 3

A las comparaciones independientes entre sí se les llama comparaciones o contrastes or-


togonales. Existe una sencilla regla para saber si dos comparaciones son ortogonales. Con-
sideremos un diseño con J medias y dos comparaciones referidas a esas medias: la primera,
, con coeficientes simbolizados por cj1 y la segunda, , con coeficientes simbolizados por
cj 2. Dos comparaciones son ortogonales si se verifica

= 0 [6.28]

Esta condición es válida cuando los tamaños muestrales son iguales. Si los tamaños mues-
trales no son iguales debe verificarse

= 0 [6.29]

Supongamos que en un diseño con, por ejemplo, 3 medias, definimos las siguientes dos com-
paraciones (con nj iguales):

= (1) P 1 + (1) P 2 + (0) P 3


= (1) P 1 + (0) P 2 + (1) P 3
Capítulo 6. ANOVA de un factor 209

Aplicando la regla propuesta en [6.28], puede comprobarse que y no son ortogonales,


pues la suma del producto de sus coeficientes no vale cero: (1) (1) + (1) (0) + (0) (1) = 1.
Sin embargo, la comparación:
= (1) P 1 + (1) P 2 + (2) P 3

sí es independiente de la comparación ; la suma de los productos de sus coeficientes vale


cero: (1) (1) + (1) (1) + (0) (2) = 0.
Con J medias solo es posible definir J  1 comparaciones ortogonales. Con 3 medias, por
ejemplo, solo es posible definir 2 comparaciones independientes entre sí. Esto significa que,
una vez definida la comparación , la única comparación que es independiente de ella es
. Sin embargo, con tres medias, y no son las únicas dos comparaciones ortogona-
les. Otras dos comparaciones independientes entre sí (aunque no de las anteriores) son:
= (1) P 1 + (0) P 2 + (1) P 3
= (1) P 1 + (2) P 2 + (1) P 3

pues (1) (1) + (0) (2) + (1) (1) = 0. La utilidad de trabajar con comparaciones ortogonales
está precisamente en que no contienen información redundante. Y la importancia de esta
propiedad se comprenderá enseguida al estudiar algunos de los procedimientos incluidos en
los siguientes apartados.

Tasa de error en las comparaciones múltiples

La clave de la discusión referida a los procedimientos de comparaciones múltiples está en


la probabilidad asociada a los errores Tipo I. Consideremos un ejemplo con J = 4 grupos. El
rechazo de la hipótesis nula de igualdad de medias implica que no todas las medias pobla-
cionales son iguales. Si, tras esto, decidimos comparar, por ejemplo, cada media con cada
otra para concretar qué medias difieren entre sí, tendremos que efectuar J (J 1) / 2 = 6 com-
paraciones. En cada una de estas comparaciones existe una probabilidad D de cometer un
error Tipo I. Si D vale, por ejemplo, 0,05, la probabilidad de cometer un error Tipo I en ca-
da comparación valdrá 0,05. Pero, ¿cuál será la probabilidad de cometer al menos un error
Tipo I al efectuar las seis comparaciones? Es decir, ¿cuál será la probabilidad de cometer
uno, dos, tres, ..., seis errores en las seis comparaciones? Considerando cada uno de esos
contrastes como un ensayo de Bernoulli con probabilidad de error D = 0,05, la probabilidad
de no cometer ningún error en los seis ensayos (en las seis comparaciones) vendrá dada por:

P (ningún error Tipo I) = 0,050 0,956 = 0,735.

Y la probabilidad de cometer algún error en las seis comparaciones (es decir, la probabilidad
de cometer al menos un error), valdrá:

P (un error Tipo I o más) = 1  0,735 = 0,265.

Es decir, al realizar seis comparaciones, la probabilidad de cometer algún error Tipo I es más
de 5 veces más grande que si se realiza una sola comparación. En general, la probabilidad
210 Análisis de datos (vol. II)

de cometer al menos un error Tipo I al efectuar k comparaciones utilizando D en cada com-


paración vale18
P (un error Tipo I o más) = 1  (1  D)k [6.30]
Si el número de grupos es grande, k también lo será y la probabilidad de cometer algún error
Tipo I será muy alta. Con 6 grupos, por ejemplo, pueden hacerse k = 15 comparaciones entre
pares de medias; y la probabilidad de cometer algún error Tipo I vale 0,54. Con 10 grupos
pueden hacerse k = 45 comparaciones entre pares de medias; y la probabilidad de cometer
algún error Tipo I vale 0,90 (siempre con D = 0,05 en cada comparación). Estas considera-
ciones, además de alertar sobre la necesidad de controlar la probabilidad de cometer errores
Tipo I cuando se llevan a cabo varias comparaciones con los mismos datos, permiten intro-
ducir un concepto importante.
Comencemos llamando tasa de error Tipo I, o simplemente tasa de error, a la probabi-
lidad de cometer algún error Tipo I en k comparaciones. Al realizar una sola comparación
con un nivel de significación D, la tasa de error es D. Llamaremos tasa de error por compa-
ración (D C ) a la probabilidad de cometer un error Tipo I al realizar una sola comparación:
DC = D [6.31]
Al comparar dos medias con la prueba T de Student se está realizando una única compa-
ración. Por tanto, la probabilidad de cometer un error Tipo I, es decir, la tasa de error por
comparación (D C ) es justamente el valor adoptado para D (generalmente 0,05).
Si, en lugar de una comparación, se lleva a cabo un conjunto o familia de k compara-
ciones utilizando en cada una de ellas un nivel de significación D, la tasa de error aumenta.
Llamaremos tasa de error por familia de comparaciones (D F ) a la probabilidad de come-
ter al menos un error Tipo I al realizar un conjunto de comparaciones:
D F = 1  (1  D C ) k [6.32]
En un diseño con varios grupos es posible comparar una media con otra, todas las medias
entre sí por pares, las medias de dos grupos con la media de otro grupo, un grupo de medias
con otro grupo de medias, etc. De ese conjunto de posibles comparaciones, el investigador
estará interesado, por lo general, solamente en unas pocas. Ese conjunto de comparaciones
que realmente interesa llevar a cabo (y, por tanto, el conjunto de comparaciones que de he-
cho se llevan a cabo) constituyen lo que llamamos familia de comparaciones19. Y, puesto que
la tasa de error asociada a ese conjunto de comparaciones (D F ) es sensiblemente mayor que
D, lo razonable es utilizar alguna estrategia que permita reducirla.
Los procedimientos de comparaciones múltiples han sido diseñados precisamente para
controlar la tasa de error cuando se llevan a cabo varias comparaciones con los mismos da-
tos. En los siguientes apartados veremos que existen varios de estos procedimientos. La dife-
rencia fundamental entre ellos radica en la forma concreta de controlar la tasa de error. El he-
cho de que se hayan diseñado diferentes procedimientos para resolver un mismo problema

18
Esta probabilidad es exacta si las J (J 1) / 2 comparaciones son independientes entre sí. Pero esas comparaciones no son,
de hecho, independientes (ver apartado anterior). Cuando las comparaciones no son independientes, la probabilidad de
cometer algún error Tipo I es difícil de calcular, pero puede demostrarse que siempre es menor o igual que 1(1 D)k.
19
Algunos autores (por ejemplo, Kirk, 1995, pág. 122; ver también Hochber y Tamhane, 2009, págs. 5-12) hablan de la tasa
de error por experimento tomando como referencia el conjunto de posibles comparaciones asociadas a un experimento.
Capítulo 6. ANOVA de un factor 211

es un claro síntoma de que ninguno de ellos ofrece una solución del todo satisfactoria. El con-
trol que consigue cada uno de ellos sobre la tasa de error depende de cosas como el número
de grupos (muchos o pocos), el tamaño de los grupos (pequeño o grande, el mismo o distin-
to), las varianzas poblacionales (iguales o distintas), el tipo de comparaciones (ortogonales
o no), etc. No obstante, los procedimientos que hemos seleccionado suelen ofrecer un com-
portamiento aceptable cuando se dan las condiciones para las que han sido diseñados.

Comparaciones planeadas o a priori


Cuando se diseña un estudio con varios grupos con intención de compararlos, lo habitual es
tener alguna expectativa acerca de lo que va a ocurrir (qué grupos van a diferir de qué otros).
Pero también son frecuentes los estudios en los que no se tiene una expectativa concreta o,
aun teniéndola, se desea explorar otras posibilidades. En el primer caso, lo razonable es pla-
nificar unas pocas comparaciones antes de recoger los datos. En el segundo, lo habitual es
realizar muchas comparaciones (por ejemplo, todas las comparaciones por pares) para detec-
tar dónde están realmente las diferencias.
A las comparaciones basadas en expectativas concretas se les llama planeadas o a priori.
Se planifican antes de recoger o examinar los datos y suelen ser pocas (dos, tres, cuatro). Los
procedimientos que analizan estas comparaciones no necesitan ir precedidos o acompañados
del estadístico F y, por tanto, su aplicación es independiente de que el estadístico F sea o no
significativo. En este apartado se describen algunos de estos procedimientos.
A las comparaciones que se llevan a cabo tras examinar los datos se les llama post hoc
o a posteriori. Puesto que estas comparaciones no van dirigidas por expectativas previas, sue-
len ser más numerosas que las a priori para intentar que no se escape nada (son más bien de
tipo exploratorio). Se llevan a cabo tras detectar que existen diferencias (es decir, tras obte-
ner un estadístico F significativo). Se describen en el siguiente apartado.

Prueba de Dunn-Bonferroni

Para aplicar la prueba de Dunn-Bonferroni20 no es necesario aprender nada nuevo. En reali-


dad se trata del estadístico T de Student ya estudiado (y de su distribución muestral t) acom-
pañado de una sencilla estrategia de control de la tasa de error.
Dunn (1961) ha utilizado la desigualdad de Bonferroni21 (según la cual la probabilidad
conjunta de dos o más sucesos nunca excede la suma de sus probabilidades individuales) pa-

20
A este procedimiento también se le llama prueba de Dunn; la razón es que, a pesar de tratarse de un procedimiento cono-
cido desde hace tiempo, fue Dunn (1961) el primero en formalizarlo y en presentar las tablas necesarias para poder utilizarlo.
También se le llama prueba de Bonferroni, por estar basado en la desigualdad de Bonferroni (los programas informáticos
suelen utilizar este nombre). Nosotros hemos querido reconocer la aportación de ambos llamando al procedimiento prueba
de Dunn-Bonferroni.
21
Šidák (1967) ha demostrado que DF siempre es menor que 1  (1  DC )k y ha propuesto utilizar DC = 1  (1  DF )1/k como
nivel de significación en cada comparación. Esta solución ofrece para DC valores ligeramente mayores que D/k mantenien-
do al mismo tiempo la tasa de error total en el valor inicialmente establecido (DF). Esta forma de controlar la tasa de error
hace el contraste algo más potente, pero la ganancia en potencia es tan pequeña que, en la práctica, la estrategia de Dunn-
Bonferroni, más sencilla de calcular, ha tenido mayor aceptación (para más detalles sobre la solución de Šidák puede
consultarse Kirk, 1995, págs. 140-142; Holland y Copenhaver, 1988).
212 Análisis de datos (vol. II)

ra demostrar que, al realizar k comparaciones, la tasa de error total (la tasa de error por fami-
lia de comparaciones) siempre es igual o menor que la suma de las tasas de error de cada
comparación individual:
DF 
< k DC [6.33]
Esto significa que, si cada una de las k comparaciones se lleva a cabo con un nivel de signifi-
cación D C = D F / k = 0,05/ k, la tasa de error total D F siempre será igual o menor que 0,05.
No debe pasarse por alto el hecho de que la ecuación [6.33] es una desigualdad. Cuando
se utiliza para corregir la tasa de error de un conjunto de comparaciones ortogonales funciona
correctamente: D F vale aproximadamente 0,05. Pero cuando se utiliza para corregir la tasa
de error de un conjunto de comparaciones no ortogonales se vuelve conservadora: D F pue-
de ser sensiblemente menor de 0,05 (tanto menor cuanto mayor sea el valor de k) (ver Max-
well y Delaney, 2004, pág. 203). Por tanto, aunque esta forma de corregir la tasa de error pue-
de aplicarse a cualquier tipo de comparación, lo recomendable es que se utilice solamente
con comparaciones ortogonales o con un número reducido de comparaciones no ortogonales.
El procedimiento permite valorar cualquier comparación lineal del tipo descrito en [6.26]
mediante el contraste de la hipótesis nula de que la comparación vale cero:

H0 (h) : = c1 P 1 + c2 P 2 + · · · + cJ PJ = 0 [6.34]

Ya sabemos que, cuando se comparan dos medias, la hipótesis nula afirma que la diferencia
entre ellas vale cero; también sabemos que, cuando se comparan más de dos medias, en rea-
lidad se están comparando dos cosas: una media con varias, o varias medias con varias; la
hipótesis nula recoge la idea de que esas dos cosas que se comparan son iguales; es decir, que
su diferencia vale cero.
Puesto que puede estimarse mediante (ver ecuación [6.26]), y el valor esperado
y la varianza de son valores conocidos (ver ecuación [6.27]), es posible tipificar el valor
de mediante

TDB = = [6.35]

En la transformación [6.35] se está asumiendo que las J varianzas poblacionales son igua-
les, de ahí que se utilice MCE como único estimador de esas varianzas. Si no puede asumirse
que las varianzas poblacionales son iguales, basta con modificar el denominador sustitu-
yendo MCE por cada una de las varianzas muestrales:

T 1DB = [6.36]

La Tabla J del Apéndice final contiene los puntos críticos t bilaterales22 de la distribución
muestral de TDB y T 1DB para D F = 0,05 y D F = 0,01, y para diferentes valores de k (número de
22
Estos puntos críticos se han obtenido de la distribución t con glerror grados de libertad dividiendo el correspondiente nivel
de significación bilateral entre el número de comparaciones planeadas: (D /2)/k. La tabla ofrece los puntos críticos de la cola
derecha de la distribución, de ahí que el numerador de TDB se tome en valor absoluto.
Capítulo 6. ANOVA de un factor 213

comparaciones) y glerror (grados de libertad del denominador de [6.35] y [6.36]). La diferen-


cia entre las distribuciones muestrales de TDB y T 1DB está únicamente en el valor de glerror. En
el caso de TDB , estos grados de libertad son los asociados a MCE, es decir, N  J. En el caso
de T 1DB, estos grados de libertad se obtienen mediante

gl1error = [6.37]

Se rechaza la hipótesis nula definida en [6.34] si el valor de TDB (o de T 1DB) es mayor que el
correspondiente punto crítico de la Tabla J.
El valor de junto con su error típico y su distribución muestral pueden utilizarse pa-
ra construir un intervalo de confianza para la comparación :

= ± [6.38]

donde t es el punto crítico que se obtiene de la Tabla J y es el error típico de (es decir,
el denominador de TDB si las varianzas poblacionales son iguales, y el denominador de T 1DB
si no son iguales); k es el número de comparaciones; y glerror es igual a N  J si las varianzas
poblacionales son iguales e igual a [6.37] si no son iguales. El intervalo de confianza indica
entre qué valores cabe esperar que se encuentre el valor poblacional de .

Volvamos al ejemplo de la Tabla 6.2 en el que J = 3 grupos de nj = 10 sujetos (N = 30) con


diferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de rendimiento. Su-
pongamos que estamos interesados en realizar dos comparaciones. En la primera de ellas he-
mos decidido comparar el grupo de nivel de ansiedad medio (que es el grupo del que cabe
esperar un mayor rendimiento) con los otros dos grupos tomados juntos; en la segunda, el
grupo de menor ansiedad (grupo 1) con el de mayor ansiedad (grupo 3); es decir,
= (1) P 1 + (2) P 2 + (1) P3
= (1) P 1 + (0) P 2 + (1) P 3

Puesto que se trata de pocas comparaciones y además son ortogonales (la suma del producto
de sus coeficientes vale cero: (1) (1) + (2) (0) + (1) (_1) = 0),_ la prueba
_ de Dunn-Bonferro-
ni permite controlar la tasa de error. Recordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hipótesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras de tamaño 10 aleatoriamente seleccionadas de poblacio-
nes que asumimos normales y con la misma varianza.
3. Estadísticos del contraste (ecuación [6.35]):
 = (1) 9 + (2)14 + (1) 7 = 12.
= (1) 9 + (0)14 + (1) 7 = 2.
214 Análisis de datos (vol. II)

 = = 2,80.

= = 1,62.
 TDB (1) = = 12 / 2,80 = 4,29.
TDB (2) = = 2 / 1,62 = 1,23.
4. Distribución muestral: los puntos críticos de la distribución muestral de TDB se encuen-
tran en la Tabla J del Apéndice final, con k = 2, glerror = N  J = 30  3 = 27 y D F = 0,05.
5. Zona crítica: TDB  > t2, 27; 0,95 = 2,37 (hemos tomado un valor intermedio entre los corres-
pondientes a glerror = 25 y glerror = 30).
6. Decisión: únicamente el valor de TDB (1) = 4,29 es mayor que el punto crítico 2,37. Por
tanto, debe rechazarse H0 (1) pero no H0 (2). El rechazo de H0 (1) indica que la media del
grupo 2 (nivel de ansiedad medio) difiere de la media de los otros dos grupos tomados
juntos. Y el no rechazo de H0 (2) indica que, con los datos disponibles, no es posible afir-
mar que el rendimiento medio del grupo 1 difiera del rendimiento medio del grupo 3.
Aunque los contrastes son bilaterales, el valor positivo de indica que el rendimiento
medio del segundo grupo, es decir, del grupo que está ponderado con un coeficiente posi-
tivo en , es mayor que el rendimiento medio de los otros dos grupos tomados juntos.
7. Intervalo de confianza (asumiendo varianzas iguales, ecuación [6.38]). Al asignar coe-
ficientes para definir cada comparación lineal utilizamos números enteros para facilitar
los cálculos. Esta estrategia no es apropiada cuando se trata de calcular un intervalo de
confianza. Para que los límites del intervalo se encuentren en la misma métrica que la
variable dependiente, es necesario que los coeficientes con signo positivo sumen 1 y que
los coeficientes con signo negativo sumen 1 (exactamente igual que cuando se com-
paran dos medias):
 = (0,5) 9 + (1)14 + (0,5) 7 = 6.
= (1) 9 + (0)14 + (1) 7 = 2.

 = = 1,40.

= = 1,62.

 = 6 ± 2,37 (1,40) = 6 ± 3,32 = (2,7; 9,3).


= 2 ± 2,37 (1,62) = 2 ± 3,84 = (1,8; 5,8).

El intervalo de no incluye el valor cero, pero sí el intervalo de . Este resultado es


coherente con la decisión que ya hemos tomado sobre ambas comparaciones. Los límites
de estos intervalos indican entre qué valores estimamos (con una confianza de 1  D F =
1  0,05 = 0,95) que se encuentra el valor poblacional de cada comparación, es decir, la
diferencia poblacional entre los promedios comparados en y en . En el caso de la
primera comparación, el rendimiento medio del segundo grupo vale 14 y el rendimien-
to medio de los otros dos grupos tomados juntos vale (9 + 7) / 2 = 8. La diferencia entre
ambas medias es el valor de : 14  8 = 6. Y el intervalo de confianza obtenido indica
que, basándonos en esa diferencia muestral de 6 puntos, podemos estimar, con una
confianza del 95 %, que la diferencia poblacional entre los promedios comparados se
Capítulo 6. ANOVA de un factor 215

encuentra entre 2,7 y 9,3 puntos. Este mismo argumento sirve para la segunda compa-
ración, pero el intervalo obtenido para ella incluye el valor cero y esto significa que no
puede afirmarse que los promedios comparados sean distintos.

Comparaciones de tendencia
Sabemos que el rechazo de la hipótesis global del ANOVA está indicando que las medias
comparadas no son iguales. Esto significa que los valores de la variable dependiente cam-
bian cuando cambian los de la independiente; significa, por tanto, que ambas variables están
relacionadas. Pero una F significativa no dice nada sobre la pauta concreta que sigue ese
cambio; es decir, no dice nada acerca del tipo de relación que se da entre las variables.
Sin embargo, conocer el tipo de relación existente entre la variable independiente o fac-
tor y la dependiente, no solo puede resultar interesante en muchos contextos, sino que pue-
de constituir el objetivo principal de algunos estudios. Tal es el caso de los ensayos clínicos
en los que se analiza la relación dosis-respuesta, o de los estudios psicológicos en los que se
valora, por ejemplo, la relación entre el nivel de ansiedad y el rendimiento.
Para que tenga sentido estudiar el tipo de relación es imprescindible que los niveles de
la variable independiente o factor se encuentren cuantitativamente ordenados (de no ser así,
no tendría sentido estudiar el tipo de relación, pues la ordenación arbitraria de los niveles
daría como resultado diferentes tipos de relación). Cuando los niveles están cuantitativamen-
te ordenados pueden darse diferentes pautas de relación; puede ocurrir, por ejemplo, que los
valores de la variable dependiente aumenten conforme lo hacen los de la independiente, en
cuyo caso la relación será de tipo lineal (ver Figura 6.2, gráficos a, b y d ); también puede
ocurrir que los valores de la variable dependiente vayan aumentando conforme lo hacen los
de la independiente hasta llegar a un punto a partir del cual el aumento en los valores de la
variable independiente se corresponde con una disminución en los de la dependiente (ver
Figura 6.2, gráficos c y e); y también puede ocurrir que la relación sea algo más compleja,
con subidas y caídas en la variable dependiente conforme los valores de la independiente van
aumentando (ver Figura 6.2, gráfico f ).
Por tanto, la relación entre una variable categórica (con categorías cuantitativamente
ordenadas) y una variable cuantitativa puede ser de tipo lineal, cuadrático, cúbico, etc. Las
comparaciones de tendencia sirven para estudiar estos tipos de relación.
Debe tenerse en cuenta que las comparaciones de tendencia son comparaciones ortogo-
nales. Por tanto, con J medias, únicamente será posible definir J  1 tendencias ortogonales.
En los gráficos de la Figura 6.2 se aprecia con claridad esta idea: con J = 2 solamente pue-
de darse una relación de tipo lineal (ver Figura 6.2, gráfico a); con J = 3, la relación puede
ser lineal o cuadrática (ver Figura 6.2, gráficos b y c); con J = 4, la relación puede ser lineal,
cuadrática o cúbica (ver Figura 6.2, gráficos d, e y f ); etc.
En todos los contrastes propuestos hasta ahora en el contexto del ANOVA de un factor
y en todos los que estudiaremos más adelante, la disposición de los niveles de la variable
independiente o factor es completamente irrelevante: se comparan medias con independen-
cia de la posición que ocupan. Ahora, sin embargo, el estudio del tipo de relación existente
entre la variable independiente y la dependiente únicamente tiene sentido si la variable in-
dependiente es, al igual que la dependiente, cuantitativa.
216 Análisis de datos (vol. II)

Figura 6.2. Diferentes tipos de relación entre dos variables: lineal (a, b y d), cuadrática (c y e) y cúbica (f )
a b c

a1 a2 a1 a2 a3 a1 a2 a3

d e f

a1 a2 a3 a4 a1 a2 a3 a4 a1 a2 a3 a4

La forma concreta de realizar comparaciones de tendencia es idéntica a la descrita en el apar-


tado anterior a propósito de la prueba de Dunn-Bonferroni. Únicamente hay que tener en
cuenta que los coeficientes que se asignan ahora deben definir justamente las tendencias que
se desea estudiar (lineal, cuadrática, cúbica, etc.). Afortunadamente, no es necesario calcu-
lar estos coeficientes en cada situación concreta. Cuando todos los grupos tienen el mismo
tamaño (n1 = n2 = · · · = nJ = n), la Tabla H del Apéndice final ofrece, para diferentes valores
de J, coeficientes que definen comparaciones que, además de ser ortogonales, representan
cada una de las J  1 posibles tendencias (lineal, cuadrática, etc.).
Con J = 3, por ejemplo, los coeficientes de la Tabla H llevarían a plantear las dos com-
paraciones siguientes (recordemos que con tres medias solamente es posible plantear dos
comparaciones ortogonales):
= (1) P 1 + (0) P 2 + (1) P 3
= (1) P 1 + (2) P 2 + (1) P 3
Los gráficos de la Figura 6.3 muestran que, efectivamente, al asignar estos coeficientes se
están definiendo dos tendencias. Los coeficientes 1, 0 y 1 asignados en definen una
tendencia lineal ascendente (no importa que se les cambie el signo; seguirán definiendo una
tendencia lineal, aunque descendente; y poco importa que se valore si la tendencia es ascen-
dente o descendente porque lo que se está haciendo en realidad es valorar diferencias en valor
absoluto). Y los coeficientes 1, 2 y 1 asignados en definen una tendencia cuadrática.
Con J = 4, los coeficientes de la Tabla H llevarían a plantear las siguientes tres comparacio-
nes de tendencia:
= (3) P 1 + (1) P 2 + (1) P 3 + (3) P 4
= (1) P 1 + (1) P 2 + (1) P 3 + (1) P 4
= (1) P 1 + (3) P 2 + (3) P3 + (1) P 4
Capítulo 6. ANOVA de un factor 217

En los gráficos de la Figura 6.4 se puede apreciar que los coeficientes 3, 1, 1 y 3 definen
una tendencia lineal; los coeficientes 1, 1, 1 y 1, una tendencia cuadrática; y los coefi-
cientes 1, 3, 3 y 1, una tendencia cúbica. Lo que se hace al valorar cada tendencia es sim-
plemente correlacionar los coeficientes asignados con las medias a las que se asignan.

Figura 6.3. Coeficientes de polinomios ortogonales con J = 3; tendencias lineal y cuadrática


cj lineal cj cuadrática
1 1

0 0

-1 -1

-2 -2

P1 P2 P3 P1 P2 P3

Figura 6.4. Coeficientes de polinomios ortogonales con J = 4; tendencias lineal, cuadrática y cúbica
cj lineal cj cuadrática cj cúbica
3 3 3
2 2 2
1 1 1
0 0 0
-1 -1 -1
-2 -2 -2
-3 -3 -3

P1 P2 P3 P4 P1 P2 P3 P4 P1 P2 P3 P4

Tras asignar coeficientes a las medias para definir cada tendencia ( , , etc), es po-
sible contrastar hipótesis del tipo:
H 0: =0
aplicando la prueba de Dunn-Bonferroni exactamente igual que hemos hecho en el apartado
anterior23 (de hecho, las dos comparaciones del ejemplo del apartado anterior son exacta-
mente las correspondientes a las tendencias lineal y cuadrática, aunque con los coeficientes
cambiados de signo). La hipótesis = 0 significa que no existe relación lineal; el rechazo
de esta hipótesis indica que existe relación lineal significativa.

23
Los coeficientes de la Tabla H solamente son apropiados si los niveles del factor están igualmente espaciados (por ejem-
plo, 1-2-3 frente a 1-2-5) y los tamaños de los grupos son iguales. No es fácil asignar coeficientes cuando no se dan estas
dos condiciones. Afortunadamente, los programas informáticos tienen resuelto el problema. El SPSS calcula los coeficien-
tes de cada tendencia teniendo en cuenta el espaciamiento existente entre los niveles del factor: a diferentes espaciamientos
corresponden diferentes coeficientes (ver Pardo y San Martín, 1998, págs. 301-303). Y cuando los tamaños muestrales no
son iguales, el SPSS ofrece dos soluciones para cada tendencia: una ponderada y una no ponderada. En la solución no
ponderada, los coeficientes se calculan sin tener en cuenta el tamaño de los grupos (el inconveniente de esta estrategia es
que las comparaciones resultantes no son ortogonales; ver ecuación [6.29]). En la solución ponderada, los coeficientes se
calculan teniendo en cuenta el tamaño de los grupos. No está claro cuál de las dos soluciones es mejor, pero parece que,
cuando la única tendencia real en los datos es la lineal, es preferible la solución ponderada; mientras que, cuando hay otras
tendencias presentes, es preferible la solución no ponderada (ver Maxwell y Delaney, 2004, págs. 267-269).
218 Análisis de datos (vol. II)

Prueba de Dunnett
Dunnett (1955) ha propuesto un método específicamente diseñado para controlar la tasa de
error cuando se realizan las J  1 comparaciones entre los grupos experimentales y el grupo
control, si existe. La propuesta de Dunnett consiste en obtener un valor, llamado diferencia
mínima_ significativa
_ (DMS ), que es el valor más pequeño a partir de la cual una diferencia
= | Y control  Y j | puede ser declarada significativa (con j =/ control ):

DMS Dunnett = [6.39]

donde t es el valor de la Tabla K del Apéndice final que corresponde a un nivel de signifi-
cación DF con J medias (incluida la del grupo control) y N  J grados de libertad. La tabla
ofrece puntos críticos para DF = 0,05 y DF = 0,01, y para contrastes bilaterales y unilaterales.
Tanto si el _contraste_ es bilateral como si es unilateral, la diferencia que se compara con
DMS Dunnett es | Y control  Y j |, es decir, la diferencia en valor absoluto; pero si el contraste es
unilateral, es necesario prestar atención al signo de esa diferencia para tomar la decisión apro-
piada.
El procedimiento de Dunnett también puede utilizarse para construir intervalos de con-
fianza (IC ) para las J  1 diferencias entre los grupos experimentales y el control:
_ _
= | Y control  Y j | ± DMSDunnett (con j =/ control) [6.40]

Volvamos a los datos de la Tabla 6.2, donde J = 3 grupos de nj = 10 sujetos (N = 30) con di-
ferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de rendimiento. Su-
pongamos, solamente para poder ilustrar el procedimiento, que el grupo de ansiedad baja (es
decir, el grupo 1) es un grupo control y que estamos interesados en comparar los otros dos
grupos con el control; es decir, supongamos que estamos interesados en llevar a cabo estas
dos comparaciones:
= P1  P 2
= P1  P 3
Puesto que J = 3,
_ solamente
_ es posible
_ realizar dos comparaciones con el grupo control. Re-
cordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hipótesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras aleatoriamente extraídas de poblaciones que asumimos
normales y con la misma varianza.
3. Estadístico del contraste (ecuación [6.39]). Puesto que los tamaños muestrales son igua-
les, basta con calcular una única DMS; si los tamaños muestrales fueran distintos habría
que calcular una DMS para cada comparación (debe tenerse en cuenta que la diferencia
entre las DMS de dos comparaciones está únicamente en el tamaño del grupo que se com-
para con el control):
Capítulo 6. ANOVA de un factor 219
_ _
= | Y_1  Y_2 | = | 9  14 | = 5.
= | Y 1  Y 3 | = | 9  7 | = 2.
DMS Dunnett = = 2,33 (1,62) = 3,77.
(considerando que ambos contrastes son bilaterales y utilizando D F = 0,05).
6. Decisión: únicamente el valor de = 5 es mayor que el valor de la DMSDunnett = 3,77.
Por tanto, únicamente el grupo 2 (nivel de ansiedad medio) difiere del grupo 1 o control
(nivel de ansiedad bajo).
7. Intervalo de confianza (ecuación [6.40]):
= 5 ± 3,77 = (1,23; 8,77).
= 2 ± 3,77 = (1,77; 5,77).
El intervalo de no incluye el valor cero, pero sí el intervalo de . Este resultado
coincide con la decisión ya tomada sobre ambas comparaciones (rechazar H0 (1) y no
rechazar H0 (2)). En el caso de la primera comparación, la diferencia entre el rendimien-
to medio del segundo grupo (14) y el del grupo control (9) vale 5 puntos. El intervalo de
confianza obtenido indica que, basándonos en esa diferencia muestral de 5 puntos,
podemos estimar, con una confianza del 95 %, que la diferencia poblacional entre los
promedios comparados se encuentra entre 1,76 y 8,24 puntos. Este mismo argumento
sirve para la segunda comparación; pero el intervalo obtenido para la segunda compa-
ración incluye el valor cero y esto significa que no puede afirmarse que el tercer grupo
difiera del grupo control.

Comparaciones post hoc o a posteriori


Al comienzo del apartado anterior hemos distinguido entre comparaciones planeadas o a
priori y comparaciones post hoc o a posteriori. Esta distinción se basa, fundamentalmente,
en la existencia o no de expectativas previas acerca de cómo se van a comportar los datos.
Las comparaciones post hoc se utilizan, por lo general, cuando, no existiendo tales expecta-
tivas, el propósito del análisis es realizar muchas comparaciones (por ejemplo, todas las com-
paraciones por pares) para detectar dónde están las diferencias. También se utilizan cuando,
aun existiendo expectativas concretas, se desea explorar otras posibilidades.
Puesto que estas comparaciones no van dirigidas por expectativas previas, suelen ser más
numerosas que las comparaciones a priori para intentar que no se escape nada (son más bien
de tipo exploratorio). Y solamente tiene sentido aplicarlas tras rechazar la hipótesis nula de
igualdad de medias, es decir, tras obtener un estadístico F significativo.
En el apartado anterior hemos visto que la prueba de Dunn-Bonferroni permite contro-
lar la tasa de error cuando se realizan unas pocas comparaciones (preferiblemente ortogona-
les, aunque no necesariamente) y que la prueba de Dunnett controla la tasa de error cuando
se realizan las J 1 comparaciones entre los grupos experimentales y el control. En realidad,
la prueba de Dunn-Bonferroni sirve para valorar cualquier tipo de comparación entre me-
dias, pero conforme va aumentando el número de comparaciones se va haciendo más con-
servadora y perdiendo potencia. En este apartado vamos a estudiar algunos procedimientos
220 Análisis de datos (vol. II)

diseñados para controlar la tasa de error cuando se llevan a cabo todas las comparaciones
posibles, ya sean comparaciones por pares (como la prueba de Tukey), ya sean comparacio-
nes de cualquier otro tipo (como la prueba de Scheffé).

Prueba de Tukey
La prueba de Tukey (1953) representa uno de los primeros intentos por controlar la tasa de
error cuando se realizan comparaciones múltiples. Está diseñada específicamente para contro-
lar la tasa de error cuando se llevan a cabo las J (J  1) / 2 posibles comparaciones por pares
(comparaciones dos a dos) entre J medias.
Se basa en la distribución del rango studentizado (derivada, al igual que la t de Student,
por William Sealy Gosset). La diferencia entre estas dos distribuciones radica en que la dis-
tribución del rango studentizado tiene en cuenta el número de medias involucradas en el
conjunto de comparaciones. Si J = 2, el procedimiento de Tukey, basado en la distribución
del rango studentizado, es equivalente a la prueba T para dos muestras independientes, basa-
da en la distribución t de Student. Los puntos críticos q de la distribución del rango stu-
dentizado se encuentran en la Tabla L del Apéndice final (para D F = 0,05 y D F = 0,01).
La estrategia propuesta por Tukey para realizar las J (J  1) / 2 comparaciones por pares
entre J medias consiste en obtener un valor llamado DMS (diferencia mínima significativa)
que
_ es _ la diferencia mínima (en valor absoluto) que debe darse entre dos medias muestrales,
Y j e Y j 1, para decidir que las correspondientes medias poblacionales son distintas24:

DMS Tukey = [6.41]

donde q es el cuantil de la distribución del rango studentizado que corresponde a un nivel


de significación D F con J medias y N  J grados de libertad25. Los puntos críticos de la Ta-
bla L se refieren siempre a contrastes bilaterales.
El valor de DMS Tukey puede utilizarse para construir intervalos de confianza para la di-
ferencia entre dos medias poblacionales:
_ _
= | Y j  Y j 1 | ± DMS Tukey [6.42]

En las ecuaciones [6.41] y [6.42] se está asumiendo que todos los grupos tienen el mismo ta-
maño (n1 = n2 = · · · = nJ = n). Si los tamaños de los grupos no son iguales, Kramer (1956) ha
demostrado que el procedimiento de Tukey sigue siendo válido si se aplica la siguiente mo-
dificación:

DMS Tukey-Kramer = [6.43]

24
Lo que estamos llamando diferencia mínima significativa de Tukey (DMSTukey) es la diferencia honestamente significati-
va de Tukey (honestly significant difference: HSD ). El propio Tukey ha desarrollado una variante de este procedimiento
al que ha llamado diferencia completamente significativa (WSD). Este otro procedimiento aparece en el SPSS como Tukey-b
y ofrece una solución intermedia entre el valor de DMSTukey y el valor de DMSS-N-K (Student-Newman-Keuls) para medias
separadas r pasos (la DMSS-N-K se describe en el Apéndice 6, en el apartado Comparaciones múltiples por pares: procedi-
mientos alternativos).
25
En realidad, el error típico de la diferencia entre dos medias es y el punto crítico con el que se construye el
valor de DMS Tukey es . Los cálculos se simplifican eliminando de ambas expresiones.
Capítulo 6. ANOVA de un factor 221

Sustituyendo DMS Tukey por DMS Tukey-Kramer en [6.42] pueden obtenerse intervalos de confian-
za cuando los tamaños muestrales no son iguales26.
La prueba de Tukey y la modificación de Kramer no son los únicos procedimientos post
hoc disponibles para llevar a cabo comparaciones por pares. De hecho, existen multitud de
procedimientos para realizar comparaciones por pares. En el apartado Comparaciones post
hoc: procedimientos alternativos del Apéndice 6 se describen varios más; también se des-
criben procedimientos válidos para cuando no es posible asumir que las varianzas pobla-
cionales son iguales.

Retomemos el ejemplo de la Tabla 6.2 en el que J = 3 grupos de nj = 10 sujetos (N = 30) con


diferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de rendimiento. Tras
rechazar la hipótesis de igualdad de medias con el estadístico F hemos decidido realizar
comparaciones por pares para averiguar qué media difiere de qué otra:
= P1  P 2
= P1  P 3
= P2  P3
_ _ _
Recordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hipótesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
H0 (3) : = 0 ; H1 (3) : =/ 0.
2. Supuestos: tenemos 3 muestras aleatoriamente extraídas de poblaciones que asumimos
normales y con la misma varianza.
3. Estadístico del contraste. Puesto que los tamaños muestrales son iguales, vamos a utili-
zar DMS Tukley (ecuación [6.41]):
_ _
= | Y_1  Y_2 | = | 9  14 | = 5.
= | Y_1  Y_3 | = | 9  7 | = 2.
= | Y 2  Y 3 | = | 14  7 | = 7.
DMS Tukey = = 3,51 (1,145) = 4,02.

6. Decisión: los valores =5y = 7 son mayores que DMS Tukley = 4,02. Por tanto,
podemos afirmar que la media del grupo 2 difiere significativamente tanto de la media
del grupo 1 como de la media del grupo 3. No puede afirmarse, sin embargo, que las
medias de los grupos 1 y 3 sean distintas ( = 2 < 4,02). Parece, por tanto, que el
rendimiento es más alto con niveles de ansiedad medios que con niveles bajos o altos.

26
Hochberg (1974) ha propuesto el procedimiento GT2 como alternativa al de Tukey-Kramer para el caso de varianzas
poblacionales iguales y tamaños muestrales distintos, pero la solución de Hochberg es algo más conservadora que la de
Tukey-Kramer y, por tanto, menos recomendable (ver Dunnett, 1980a). La DMS de Hochberg es idéntica a [6.42] con la
única diferencia de que el cuantil q se busca en la distribución del módulo máximo studentizado (ver Pardo y San Martín,
1998, Tabla K del Apéndice final) con k = J (J  1) / 2 y gl grados de libertad (gl se obtiene con la ecuación [6.37]).
222 Análisis de datos (vol. II)

7. Intervalo de confianza (ecuación [6.40]):


= 5 ± 4,02 = (0,98; 9,02).
= 2 ± 4,02 = (2,02; 6,02).
= 7 ± 4,02 = (2,98; 11,02).
Los intervalos de y no incluyen el valor cero. Por tanto, el resultado coincide con
las decisiones ya tomadas a partir de DMS Tukey. Estos intervalos se interpretan de la
misma manera que los intervalos calculados en el apartado anterior con el método de
Dunnett.

Prueba de Scheffé
La prueba de Scheffé (1953) permite valorar simultáneamente no solo las posibles compa-
raciones por pares entre J medias, sino cualquier otro tipo de comparación. Es decir, cual-
quier comparación que pueda plantearse en el formato de la ecuación [6.25].
Por tanto, la prueba de Scheffé permite contrastar el mismo tipo de hipótesis que la prue-
ba de Dunn-Bonferroni. La diferencia entre ellas está en la forma de controlar la tasa de error.
La prueba de Dunn-Bonferroni (que utiliza D C = D F / k) controla bien la tasa de error cuando
se llevan a cabo unas pocas comparaciones (preferiblemente ortogonales, aunque no nece-
sariamente), pero se va haciendo conservadora conforme va aumentando el número de com-
paraciones. La prueba de Scheffé controla la tasa de error para el total de posibles compa-
raciones entre J medias; si se utiliza para valorar solamente unas pocas comparaciones (por
ejemplo, para valorar solamente las comparaciones por pares), es muy conservadora.
La prueba de Scheffé se basa en la distribución F y, por tanto, exige, al igual que el es-
tadístico F, trabajar con poblaciones normales y homocedásticas. Como en otros procedi-
mientos estudiados, se considera que una comparación es significativamente distinta de
cero si su valor absoluto es mayor que

DMS Scheffé = [6.44]

El procedimiento de Scheffé también puede utilizarse para obtener intervalos de confianza


para una comparación mediante

= [6.45]

En el caso de que no pueda asumirse que las varianzas poblacionales son iguales, Brown y
Forsythe (1974b) recomiendan utilizar

DMS Brown-Forsythe = [6.46]

donde F es el cuantil de la distribución F correspondiente a un nivel de significación DF con


J  1 y glerror grados de libertad (glerror se obtiene con la ecuación [6.37]). En el caso de que
las poblaciones originales se alejen sensiblemente de la normalidad, Keselman, Lix y Ko-
walchuk (1998) recomiendan utilizar métodos basados en las medias recortadas.
Capítulo 6. ANOVA de un factor 223

Volviendo una vez más al ejemplo de la Tabla 6.2, en el que J = 3 grupos de nj = 10 sujetos
(N = 30) con diferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de ren-
dimiento, supongamos que estamos interesados en comparar todos los grupos entre sí (com-
paraciones por pares) y, además, cada grupo con los otros dos tomados juntos. Esto signifi-
ca que tenemos que llevar a cabo las siguientes seis comparaciones:
=(1) P 1 + (1) P 2 + (0) P 3
=(1) P 1 + (0) P 2 + (1) P 3
=(0) P 1 + (1) P 2 + (1) P 3
=(2) P 1 + (1) P 2 + (1) P 3
=(1) P 1 + (2) P 2 + (1) P 3
=(1) P 1 + (1) P 2 + (2) P 3
_ _ _
Recordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hipótesis: H0 (1) : = 0; H1 (1) : =/ 0.
H0 (2) : = 0; H1 (2) : =/ 0.
H0 (3) : = 0; H1 (3) : =/ 0.
H0 (4) : = 0; H1 (4) : =/ 0.
H0 (5) : = 0; H1 (5) : =/ 0.
H0 (6) : = 0; H1 (6) : =/ 0.
2. Supuestos: tenemos 3 muestras aleatoriamente extraídas de poblaciones que asumimos
normales y con la misma varianza.
3. Estadístico del contraste (ecuación [6.44]:
= | (1) 9 + (1) 14 + (0) 7 | = 5.
= | (1) 9 + (0) 14 + (1) 7 | = 2.
= | (0) 9 + (1) 14 + (1) 7 | = 7.
= | (2) 9 + (1) 14 + (1) 7 | = 3.
= | (1) 9 + (2) 14 + (1) 7 | = 12.
= | (1) 9 + (1) 14 + (2) 7 | = 9.
Para valorar estas comparaciones no es necesario calcular seis DMS Scheffé distintas. Pues-
to que lo único en que difieren las DMS Scheffé de dos comparaciones es en la suma de los
cuadrados de sus coeficientes, basta con calcular dos: una para las comparaciones 1, 2
y 3 (donde = 2), y otra para las comparaciones 4, 5 y 6 (donde = 6):
DMS Scheffé = = = 4,19.

DMS Scheffé = = = 7,26.

6. Decisión: los valores =5y = 7 son mayores que DMS Tukley = 4,19. Por tanto,
puede concluirse que la media del grupo 2 difiere significativamente tanto de la media
del grupo 1 como de la media del grupo 3; y no hay evidencia de que las medias de los
224 Análisis de datos (vol. II)

grupos 1 y 3 sean distintas. Aunque esta conclusión es idéntica a la que ya habíamos


llegado aplicando el procedimiento de Tukey para estas mismas comparaciones, debe
repararse en el hecho de que el valor de la DMS es mayor en el caso de Scheffé (4,19)
que en el de Tukey (4,02); esto significa que el procedimiento de Scheffé llevará a me-
nos rechazos que el de Tukey cuando se utiliza para valorar solamente las J (J  1) / 2
comparaciones por pares.
Por lo que se refiere a las otras tres comparaciones, los valores = 12 y =9
son mayores que DMS Scheffé = 7,26. Por tanto, puede concluirse que la media del grupo
2 difiere significativamente de la media de los otros dos grupos tomados juntos, y que
la media del grupo 3 difiere de la media de los otros dos grupos tomados juntos; y no
existe evidencia de que la media del grupo 1 difiera de la media de los otros dos grupos
tomados juntos.

Comparaciones múltiples: qué procedimiento elegir


De los numerosos procedimientos disponibles para efectuar comparaciones múltiples (ver,
por ejemplo, Hochberg y Tamhane, 2009), aquí hemos incluido solamente unos pocos (en el
Apéndice 6 se describen algunos más). Nuestra selección, por tanto, ya está hecha. Y entre
los procedimientos que hemos incluido, la elección es bastante sencilla si se tiene en cuen-
ta que cada uno de ellos ha sido diseñado para cubrir un objetivo distinto.
En primer lugar hay que considerar si existen o no hipótesis previas a la recogida de
datos: si existen, lo habitual será tener que realizar solamente unas pocas comparaciones; si
no existen, habrá que explorar todas las posibilidades y eso incrementará sensiblemente el
número de comparaciones. Esta diferencia en el número y características de las compara-
ciones que se realizan es el primer criterio que debe aplicarse al elegir el procedimiento que
conseguirá un mejor control de la tasa de error.
Si antes de la recogida de datos se han planificado unas pocas comparaciones, lo apro-
piado es utilizar la prueba de Dunn-Bonferroni. Si las únicas comparaciones que interesa
hacer son las de cada grupo experimental con el control (si existe), el procedimiento idóneo
es el de Dunnett. Y las comparaciones de tendencia son apropiadas cuando el objetivo del
análisis es conocer el tipo de relación existente entre la variable independiente y la depen-
diente (sin olvidar que estas comparaciones solamente tiene sentido aplicarlas si los niveles
del factor se encuentran cuantitativamente ordenados).
Si antes de la recogida de datos no se ha planificado efectuar ninguna comparación
concreta sino que el interés del estudio apunta más bien a intentar averiguar dónde están las
diferencias, entonces los procedimientos apropiados son el de Tukey para efectuar compa-
raciones por pares y el de Scheffé para efectuar comparaciones de todo tipo (una media con
otra, una media con varias, varias medias con varias medias). Aunque el procedimiento de
Scheffé puede utilizarse, sustituyendo al de Tukey, para estudiar las posibles diferencias en-
tre pares de medias, limitarlo a ese tipo de comparaciones lo convierte en excesivamente
conservador y poco potente. Tanto la prueba de Tukey como la de Scheffé asumen que las
varianzas poblacionales son iguales. Si no es posible asumir tal cosa, entonces es preferible
utilizar la prueba de Games-Howell (ecuación [6.55]) en lugar de la de Tukey y la de Brown-
Forsythe (ecuación [6.46]) en lugar de la de Scheffé.
Capítulo 6. ANOVA de un factor 237

La distribución F con SPSS


La opción Calcular del menú Transformar incluye varias funciones relacionadas con la distribución F.
La función CDF.F (F, n1, n2) calcula la probabilidad acumulada hasta el valor F en la distribución con
n1 y n2 grados de libertad. Por tanto, para calcular la probabilidad acumulada hasta el valor 3,40 en una
distribución F con 2 y 24 grados de libertad, haremos
CDF.F (3.4, 2, 24)
La función IDF.F ( p, n1, n2) devuelve el valor del cuantil p, es decir, el valor F que acumula una
probabilidad p en la distribución F con n1 y n2 grados de libertad. La siguiente expresión permite
conocer el valor del cuantil 95 en la distribución F con 2 y 24 grados de libertad:
IDF.F (0.95, 2, 24)
Por último, la función PDF.F (F, n1, n2) permite obtener la densidad (altura de la curva) que correspon-
de al valor F en la distribución F con n1 y n2 grados de libertad. No debe olvidarse que el separador de-
cimal que debe utilizarse en las expresiones numéricas del SPSS es el punto (como en una calculadora),
no la coma (como se hace al escribir en español).

Estadísticos F robustos: Welch y Brown-Forsythe


Ya hemos insistido en que el estadístico F requiere trabajar con poblaciones normales y homocedás-
ticas. El incumplimiento del supuesto de normalidad no tiene consecuencias relevantes sobre el análisis
si los tamaños muestrales son moderadamente grandes; y si se tiene que trabajar con poblaciones no
normales y tamaños muestrales pequeños, puede utilizarse la prueba de Kruskal-Wallis estudiada en
el Capítulo 4.
En el caso de que no pueda asumirse que las varianzas poblacionales son iguales también existen
algunos estadísticos robustos que permiten contrastar la hipótesis global de igualdad de medias sin te-
ner que estar preocupados por el tamaño de las varianzas. En este apartado describimos dos de estos
procedimientos: uno debido a Welch y otro debido a Brown y Forsythe (son los dos estadísticos F
robustos que incluye el SPSS).
El estadístico FW (Welch, 1951) es uno de los más apropiados en términos de potencia y control
de la tasa de error (Kohr y Games, 1974; Tomarken y Serlin, 1986). Su cálculo es algo tedioso, pero
no complicado:

FWelch = [6.52]

donde

El estadístico FW se distribuye según el modelo de probabilidad F con J  1 y grados de libertad


(el símbolo no debe confundirse con un estadístico muy conocido llamado lambda de Wilks que
utilizaremos en los Capítulos 8 y 9).
238 Análisis de datos (vol. II)

Brown y Forsythe (1974b) han propuesto una modificación del estadístico F cuya lógica es algo
más intuitiva que la de FWelch y que sirve igualmente para contrastar la hipótesis global de igualdad de
medias cuando no puede asumirse que las varianzas poblacionales son iguales:

FBrown-Forsythe = [6.53]

Este estadístico se distribuye según el modelo de probabilidad F con J  1 y gl grados de libertad. Y


gl se obtiene mediante

gl = con = [6.54]

Comparaciones post hoc: procedimientos alternativos


Si no puede asumirse que las varianzas poblacionales son iguales, varios estudios (Dunnett, 1980b;
Games, Keselman y Rogan, 1981; Keselman, Games y Rogan, 1979; Keselman y Rogan, 1978; Ta-
mhane, 1979) coinciden en apoyar, particularmente cuando los tamaños muestrales son grandes, la
solución propuesta por Games y Howell31 (1976):

DMS Games-Howell = [6.55]

donde q, al igual que en el procedimiento de Tukey, es el valor de la distribución del rango studen-
tizado que acumula una probabilidad 1  DF con J medias y gl grados de libertad (gl se obtiene con la
ecuación [6.37]). No obstante, el método de Games-Howell se vuelve algo liberal con tamaños mues-
trales pequeños. En estos casos es preferible utilizar la DMS basada en el estadístico T3 de Dunnett32
(1980b):

DMS T3-Dunnett = [6.56]

donde q es el valor de la distribución del módulo máximo studentizado (ver Pardo y San Martín, 1998,
Tabla K del Apéndice final) que acumula una probabilidad 1  D F con k = J (J  1) / 2 y gl grados de
libertad (gl se obtiene con la ecuación [6.37]).

Métodos secuenciales
No todos los procedimientos diseñados para llevar a cabo comparaciones a posteriori por pares se ba-
san en la misma lógica. Mientras la prueba de Tukey, por ejemplo, utiliza un mismo nivel de signifi-
cación y un único punto crítico (una única DMS) para las J (J 1) / 2 posibles comparaciones por pares,

31
Dunnett (1980b) ha propuesto una solución similar a la de Games-Howell: el método C. Este método consiste en utilizar
como estimación de los grados de libertad del error (gl) la solución de Cochran y Cox (ver Pardo y San Martín, 1998,
Capítulo 4, ecuación [4.13]), en lugar de la solución de Welch (que es lo que hace el método de Games-Howell).
32
El estadístico T3 de Dunnett se basa en el T2 de Tamhane (1977, 1979). El estadístico T2 utiliza como estimación del
error típico de la diferencia de medias el mismo valor que el estadístico T3 de Dunnett, pero se basa en la distribución t de
Student y utiliza la desigualdad de Sidák para controlar la tasa de error (ver, en este mismo capítulo, la nota a pie de página
número 21). El valor t que se utiliza en la ecuación de la DMS es el cuantil 100 (1  D /2)1/k de la distribución t de Student
con gl grados de libertad (gl se obtiene con la ecuación [6.37]) y k = J (J  1)/ 2.
Capítulo 6. ANOVA de un factor 239

otros procedimientos realizan las comparaciones por pasos o de forma secuencial, cambiando el nivel
de significación y el punto crítico en cada paso.
En los métodos secuenciales, tras ordenar de forma ascendente las J medias por su tamaño, las
comparaciones entre pares de medias se llevan a cabo teniendo en cuenta el número de pasos (r) que
separan a las medias comparadas: con J medias, la media más pequeña y la más grande están separa-
das r = J pasos; la media más pequeña y la segunda más grande están separadas r = J  1 pasos; la
media más pequeña y la tercera más grande están separadas r = J  2 pasos; etc. Dos medias adya-
centes tras la ordenación están separadas r = 2 pasos. El número de pasos existente entre las medias
comparadas condiciona el nivel de significación (y, por tanto, el punto crítico) con el que se evalúa
cada comparación. En este apartado se describen dos de estos métodos secuenciales33: la prueba de
Student-Newman-Keuls y la de Ryan-Einot-Gabriel-Welch.
La prueba de Student-Newman-Keuls (S-N-K) fue propuesta inicialmente por Gosset (1927),
Newman (1939) y Keuls (1952), y ha sido muy revitalizada en las últimas décadas (ver Jaccard, Bec-
ker y Wood, 1984; Toothaker, 1991). Utiliza, al igual que la prueba de Tukey, un estadístico basado
en la distribución del rango studentizado, pero, a diferencia de la de Tukey, la prueba de S-N-K sigue
una estrategia secuencial basada en una ordenación de las medias por su tamaño.
La diferencia mínima significativa de Student-Newman-Keuls (DMSSNK) se calcula de la misma
manera que DMSTukey (ver ecuación [6.27]), con la única diferencia de que los grados de libertad que
se utilizan para obtener el cuantil 100(1  DF) de la distribución del rango studentizado cambian:
donde el procedimiento de Tukey utiliza J para obtener un único punto crítico q y, en consecuencia,
un único valor DMSTukey, el procedimiento S-N-K utiliza r = «número de pasos entre las medias com-
paradas» para obtener tantos puntos críticos como valores r distintos pueda haber con J medias:
DMSS-N-K = [6.57]

Por ejemplo, con cuatro grupos (J = 4), la media más grande y la más pequeña están separadas 4 pa-
sos; para comparar esas dos medias, el valor de DMSS-N-K se obtiene utilizando r = 4 grados de liber-
tad. Las medias 1ª-3ª y 2ª-4ª, que se encuentran separadas 3 pasos, se comparan utilizando r = 3. Y las
medias 1ª-2ª, 2ª-3ª y 3ª-4ª, que están separadas 2 pasos, se comparan utilizando r = 2.
En todos los casos se contrasta la hipótesis nula de que las dos medias comparadas son iguales, es
decir, H0: P j = P j’ . Estas comparaciones se llevan a cabo de forma secuencial, por pasos:
1. Se compara la media más grande con la más pequeña, es decir, las dos medias separadas r = J
pasos. Si se mantiene la hipótesis nula referida a esta primera comparación, se detiene el proce-
so y se concluye que entre las J medias consideradas no se han encontrado diferencias signifi-
cativas. Si se rechaza la hipótesis nula, se continúa con el paso 2.
2. Se comparan las medias separadas r = J  1 pasos, pero por orden. Primero se comparan las dos
medias cuya diferencia es mayor; si se mantiene la hipótesis nula referida a esa comparación, se
detiene el proceso y se consideran no significativas el resto de diferencias; si se rechaza la hipó-
tesis nula, se comparan las dos medias cuya diferencia es la siguiente mayor. Si se rechazan todas
las hipótesis referidas a las medias separadas r = J  1 pasos, se continúa con el paso 3.
3. Se comparan las medias separadas r = J  2 pasos, también por orden y siguiendo la misma ló-
gica del paso 2.
4. Se continúa el proceso hasta que se obtiene una diferencia no significativa o hasta que se compa-
ran todas las medias separadas r = 2 pasos.

33
Existen otros métodos secuenciales además de los dos incluidos aquí. Duncan (1955), por ejemplo, ha propuesto un mé-
todo secuencial, conocido como prueba del rango múltiple, que se basa en la misma lógica que la de Student-Newman-Keuls
pero utilizando como nivel de significación para cada grupo de medias separadas r pasos el valor Dr = 1  (1  D) r1. A pe-
sar de su amplia utilización en el pasado, la prueba del rango múltiple parece más bien poco recomendable (ver Seaman,
Levin y Serlin, 1991).
240 Análisis de datos (vol. II)

La consecuencia de esta forma de proceder es que, para J > 3, la tasa de error por familia de compa-
raciones (DF) es siempre mayor que el nivel de significación nominal D (ver, por ejemplo, Keselman,
Keselman y Games, 1991). De hecho, lo que hace el procedimiento SNK es controlar DF para cada
conjunto de medias separadas r pasos.
Cuantos más pasos existen entre dos medias, mayor es la diferencia mínima necesaria para consi-
derar que esas medias difieren significativamente. Esto convierte al procedimiento de S-N-K en más
potente que el de Tukey, pero a costa de incrementar la tasa de error por familia de comparaciones (DF).
La prueba de Ryan-Einot-Gabriel-Welsch (R-E-G-W Q) debe su nombre a varios participan-
tes en su diseño final. Ryan (1960) propuso una modificación del procedimiento de S-N-K para ate-
nuar la disminución tan rápida que se produce en el valor de DMSSNK como consecuencia de la dismi-
nución de r. Según la propuesta de Ryan, es posible controlar DF si, al comparar dos medias sepa-
radas r pasos, en lugar de utilizar D (como hace el procedimiento de S-N-K), se utiliza Dr = D / (J / r).
Puesto que la fracción J / r aumenta conforme disminuye r, el valor de Dr será tanto más pequeño cuan-
to menor sea r, lo cual significa que, aunque el valor de la DMS vaya disminuyendo con r, esta dis-
minución será más lenta que la que se produce con el método de S-N-K. De hecho, la solución pro-
puesta por Ryan permite ejercer un buen control sobre la tasa de error.
La propuesta inicial de Ryan ha sufrido dos modificaciones en un intento de incrementar la po-
tencia del procedimiento sin alterar su control sobre DF. En primer lugar, Einot y Gabriel (1975) han
propuesto utilizar Dr = 1  (1  D)r/J; con esta solución, Dr también disminuye conforme lo hace r, pero
más despacio que en la solución propuesta por Ryan. En segundo lugar, Welsch (1977) ha argumen-
tado que es posible incrementar todavía más la potencia del procedimiento sin perder control sobre DF
si, permaneciendo todo igual, las medias separadas r = J  1 pasos se comparan utilizando D (en lugar
de Dr ). Estas dos modificaciones de la propuesta inicial de Ryan unidas a la lógica del procedimien-
to de S-N-K es lo que se conoce como método de R-E-G-W Q. La letra Q hace referencia a la distri-
bución del rango studentizado.

Efectos aleatorios
Recordemos que los niveles concretos que adopta un factor de efectos fijos son los niveles que intere-
sa estudiar; por este motivo la hipótesis nula se plantea justamente sobre las medias poblacionales
correspondientes a esos niveles: H0: P 1 = P 2 = · · · = P J . Por el contrario, los niveles concretos que adop-
ta un factor de efectos aleatorios únicamente constituyen una muestra aleatoria de la población de los
niveles que interesa estudiar; por este motivo la hipótesis nula no se plantea sobre las medias de los
niveles utilizados, sino sobre su varianza:

H0: = 0
( se refiere a la varianza de las medias de todos los posibles niveles del factor). Puesto que los ni-
veles de un factor de efectos aleatorios son solamente algunos de los posibles, la hipótesis debe refle-
jar, no la diferencia entre las medias de los niveles concretos utilizados, sino la diferencia entre todos
los posibles niveles del factor (y la varianza de esas medias será cero cuando todas ellas sean iguales).
Por tanto, en un modelo de efectos aleatorios, el interés del análisis no se centra en las medias de los
niveles del factor, sino en su varianza; en concreto, el interés se centra en intentar cuantificar la con-
tribución de cada término aleatorio a la varianza de la variable dependiente.
En el modelo de un factor de efectos aleatorios hay dos términos aleatorios: el factor y la varia-
ble dependiente (en el modelo de efectos fijos, el factor no se considera una variable aleatoria); y se
asume que la variabilidad de la variable dependiente dentro de cada nivel del factor es independiente
del nivel del factor (éste es el supuesto de igualdad de varianzas al que nos hemos referido repeti-
damente a lo largo de este capítulo); por tanto, se verifica:
= + [6.58]
7
Análisis de varianza (II)
Dos factores
completamente aleatorizados

En todos los procedimientos estadísticos revisados hasta ahora nos hemos limitado a estudiar
una o dos variables. En este capítulo vamos a abordar por primera vez el estudio de más de
dos variables.
Los modelos factoriales de análisis de varianza (factorial = más de un factor) permiten
evaluar el efecto individual y conjunto de dos o más factores (variables independientes ca-
tegóricas) sobre una variable dependiente cuantitativa. En este capítulo nos vamos a centrar
en el modelo de dos factores completamente aleatorizados. Este modelo permite analizar el
efecto de dos variables independientes categóricas (factores) sobre una variable dependien-
te cuantitativa.
Un ANOVA de dos factores permite estudiar, por ejemplo, si el rendimiento en una tarea
(variable dependiente cuantitativa) cambia con el nivel de ansiedad de los sujetos (bajo, medio,
alto; variable independiente categórica) y con la dificultad de la tarea (fácil, difícil; variable
independiente categórica). Pero, además, y esto es lo realmente interesante, también permite
estudiar si las diferencias entre sujetos con diferente nivel de ansiedad se mantienen o no
cuando cambia la dificultad de la tarea; es decir, permite estudiar si la interacción entre los
factores nivel de ansiedad y dificultad de la tarea afecta a la variable dependiente rendimiento
de forma diferente a como lo hace cada factor por separado.
Una ventaja de los diseños de dos factores sobre los diseños de un factor es que necesitan
menos sujetos para alcanzar la misma potencia. Supongamos que tenemos dos variables in-
dependientes o factores (A y B), el primero con tres niveles y el segundo con dos. Para com-
parar los niveles de A utilizando un diseño de un factor podemos asignar una muestra aleato-
ria de 20 sujetos a cada nivel; 60 sujetos en total. Para comparar los niveles de B podemos
asignar una muestra aleatoria de 30 sujetos a cada nivel; otros 60 sujetos en total. Entre los
dos experimentos, 120 sujetos. En un diseño factorial las cosas cambian. Al combinar los
niveles de A y B es posible reducir el número de sujetos a la mitad: con 10 sujetos por cada
248 Análisis de datos (vol. II)

combinación AB tendremos un total de 60 sujetos y tanto los niveles de A como los de B po-
drán evaluarse con el mismo número de sujetos que en los correspondientes diseños de un
factor por separado.
Esta ventaja tiene su importancia, sobre todo si se tiene en cuenta que en muchas áreas
de conocimiento no resulta nada fácil conseguir muestras grandes. Pero la ventaja verdade-
ramente importante de los diseños factoriales radica en el hecho de que el estudio simultáneo
de más de un factor permite determinar, no ya solo el efecto individual de cada factor sobre
la variable dependiente, sino, además, si la interacción entre los factores modifica el efecto
individual que cada factor tiene por separado.
Enseguida nos ocuparemos del importantísimo concepto de la interacción entre factores.
Antes necesitamos conocer la estructura de un diseño de dos factores y la notación que uti-
lizaremos para identificar cada elemento del diseño.

Estructura de los datos y notación


En un diseño de dos factores completamente aleatorizados (AB-CA) tenemos dos variables
categóricas independientes o factores (A y B) y una variable dependiente cuantitativa (Y ). A
los niveles del factor A los seguimos llamando a j ( j = 1, 2, ..., J ). A los niveles del factor B
los llamamos bk (k = 1, 2, ..., K ). Y a las combinaciones entre los niveles de A y de B las lla-
mamos abj k. La Tabla 7.1 muestra la estructura del diseño.

Tabla 7.1. Estructura de un diseño de dos factores AB-CA

Factor B
Factor A b1 b2 ··· bk ··· bK
a1 ab11 ab12 ··· ab1k ··· ab1K
a2 ab21 ab22 ··· ab2k ··· ab2K
··· ··· ··· ··· ··· ··· ···
aj abj 1 abj 2 ··· abj k ··· abj K
··· ··· ··· ··· ··· ··· ···
aJ abJ1 abJ 2 ··· abJ k ··· abJ K

Los niveles del factor A definen J poblaciones con medias1 P 1+, P 2+, ..., P J +. Los niveles del
factor B definen K poblaciones con medias P +1, P +2, ..., P +K. La combinación AB entre los
niveles de ambos factores definen JK poblaciones con medias P 11, P 12, ..., P 21, P 22, ..., P +K.
A la media total la llamaremos P. De cada combinación abj k (es decir, de cada población)
tenemos una muestra aleatoria de puntuaciones Yijk de tamaño n (i = 1, 2, ..., n).
El número de puntuaciones (sujetos) de cada casilla abj k, es decir, el tamaño de las ca-
sillas, puede o no ser el mismo, pero, de momento, nos centraremos en el caso en el que to-

1
Al igual que en el capítulo anterior, suprimiremos el subíndice Y de las medias poblacionales P para simplificar la nota-
ción. Por tanto, siempre que utilicemos el símbolo P (media poblacional) sin indicación de la variable a la que se refiere
(X, Y, Z, etc.), estaremos asumiendo que se refiere a la variable dependiente Y.
Capítulo 7. ANOVA de dos factores 249

das las casillas tienen el mismo tamaño, es decir, n. Por tanto, N = n JK. Con las n puntua-
ciones de cada casilla abj k obtenemos los totales (sumas) que muestra la Tabla 7.2.

Tabla 7.2. Notación utilizada en un diseño de dos factores AB-CA

Factor B
Factor A b1 b2 ··· bk ··· bK Suma
a1 ··· ···
a2 ··· ···
··· ··· ··· ··· ··· ··· ··· ···
aj ··· ···
··· ··· ··· ··· ··· ··· ··· ···
aJ ··· ···

Suma ··· ···

En el modelo de dos factores es necesario utilizar tres subíndices (ijk) para identificar cada
valor de Y: el primero de ellos (i) se refiere a los diferentes elementos (generalmente sujetos)
de la misma muestra o casilla: i = 1, 2, ..., n; el segundo ( j), a los diferentes niveles del fac-
tor A; y el tercero (k), a los diferentes niveles del factor B. Así, por ejemplo, Y523 se refiere
a la puntuación del 5º elemento (sujeto) en la casilla correspondiente a la combinación del
2º nivel de A con el 3er nivel de B; es decir, a la 5ª puntuación de la casilla ab23.
El signo “+” colocado como subíndice se refiere a todos los valores del subíndice al que
sustituye. Por ejemplo, Y+24 se refiere a todas las puntuaciones (todos los valores i) de la ca-
silla correspondiente al cruce del 2º nivel de A ( j = 2) con el 4º nivel de B ( k = 4). Para re-
presentar estas sumas o totales utilizaremos la letra T.
Los totales de cada casilla ( ) se obtienen sumando desde 1 hasta n todas las puntua-
ciones de esa casilla:

= = [7.1]

Los totales correspondientes a cada nivel del factor A ( ) se obtienen sumando todas las
puntuaciones de la fila j:

= = = [7.2]

Los totales correspondientes a cada nivel del factor B ( ) se obtienen sumando todas las
puntuaciones de la columna k:

= = = [7.3]
250 Análisis de datos (vol. II)

Y el gran total (T ) se obtiene sumando todas las puntuaciones de la tabla, lo cual puede ha-
cerse de diferentes maneras:

= = = = = [7.4]

A partir de estos totales pueden obtenerse las medias de cada casilla, de cada fila, de cada
columna y el total de la tabla simplemente dividiendo los correspondientes totales por el
número de puntuaciones utilizadas para obtenerlos:

= , = , = , = [7.5]

Para referirnos a un diseño de estas características utilizaremos el símbolo J × K. El número


de letras indica el número de factores; el valor de las letras indica los niveles de los factores.
Así, un diseño 3 × 5 es un diseño de dos factores, el primero con tres niveles y el segundo con
cinco.

La interacción entre factores


Los efectos que interesa analizar en un modelo de dos factores completamente aleatorizados
son tres: los dos efectos principales (los efectos de cada factor individualmente considerado)
y el efecto de la interacción entre ambos factores (el efecto conjunto o combinado de ambos
factores). Veremos que los efectos principales se definen y analizan tal como se ha explica-
do en el capítulo anterior al estudiar el modelo de un factor. El efecto de la interacción re-
quiere una atención especial.
El concepto de interacción entre factores admite varias formulaciones, todas ellas equiva-
lentes. Desde un punto de vista no formal, decimos que existe interacción entre dos factores
cuando el efecto de uno de ellos sobre la variable dependiente no es el mismo en todos los
niveles del otro factor2. Esto equivale a afirmar que existe interacción cuando el resultado de
la combinación de dos factores difiere de la suma de los efectos principales de esos factores3.
Para poder presentar una definición formal de la interacción, consideremos la notación
propuesta en la Tabla 7.3 para un diseño 2 × 3: el factor A con dos niveles ( j = 1, 2) y el fac-
tor B con tres niveles (k = 1, 2, 3).

Tabla 7.3. Medias poblacionales en un diseño 2 × 3

b1 b2 b3
a1 P 11 P 12 P 13 P 1+
a2 P 21 P 22 P 23 P 2+
P +1 P +2 P +3 P

2
Ver, por ejemplo, Everitt y Howell (2005, págs. 930-931); Kirk (1995, pág. 367); o Maxwell y Delaney (2004, pág. 278).
3
Ver, por ejemplo, Everitt y Howell (2005, pág. 931); Maxwell y Delaney (2004, págs. 279-280); o Winer, Brown y Mi-
chels (1991, pág. 296).
Capítulo 7. ANOVA de dos factores 251

En el modelo de dos factores de efectos fijos, el efecto de la interacción, DE jk , se define co-


mo (ver, por ejemplo, Winer, Brown y Michels, 1991, pág. 318):
DE jk = P j k  P j +  P +k + P [7.6]

Existe interacción cuando DE j k =/ 0 para algún j o k; y no existe interacción cuando DE j k = 0


para todo j y k. Pero hay al menos dos formas alternativas de interpretar la definición [7.6]
(ver Jaccard, 1998, págs. 3-10):
1. Como la desviación que experimentan las medias de las casillas respecto de los efectos
principales de los factores:
 No interacción: P j k = P j + + P +k  P (para todo j y k) [7.7]
 Interacción: P j k =/ P j + + P +k  P (para algún j o k)
De acuerdo con esta definición, existe interacción cuando la media de una o más casillas
no es función directa de sus respectivas medias marginales. Esto significa que, cuando
existe interacción, el efecto de la combinación de los factores A y B difiere de la suma
de los efectos individuales de A y B.
2. Como diferencias entre las medias de las casillas y las medias marginales:
 No interacción: P j k  P j 1k = P j +  P j 1+ (para todo j, j 1 o k) [7.8]
 Interacción: P j k  P j 1k =/ P j +  P j 1+ (para algún j, j 1 o k)
De acuerdo con esta definición, existe interacción cuando la diferencia entre las medias
de dos casillas de la misma columna (o de la misma fila) no es igual que la diferencia
entre sus correspondientes medias marginales4.
Unas sencillas transformaciones permiten comprobar que la definición [7.8] implica que, si
existe interacción, la diferencia entre las medias de los niveles a1 y a2 no es la misma en los
tres niveles de B; y lo mismo vale decir de las diferencias entre las medias de los niveles b1,
b2 y b3 en los dos niveles de A.
Aclaremos esto con un ejemplo concreto. Imaginemos que las medias poblacionales que
corresponden al diseño 2 × 3 de la Tabla 7.3 son las que ofrece la Tabla 7.4.1 (diseño sin
interacción). La media de a1 supera a la de a2 en 2 puntos tanto en b1 como en b2 y en b3; es
decir, cualquiera que sea el nivel de B que se considere, la diferencia entre las medias de a1

4
Las expresiones [7.7] y [7.8] se deducen, ambas, de [7.6]; por tanto, son equivalentes. En efecto, según [7.7], cuando no
existe interacción se verifica P11 = P1++ P+1  P y P21 = P2++ P+1  P. De estas igualdades se sigue que
P 11  P 1+  P +1 = P y P 21  P 2+  P +1 = P
Por tanto,
P 11  P 1+  P +1 = P 21  P 2+  P +1
Lo cual lleva a P 11  P 21 = P 1+  P 2+, que no es otra cosa que la expresión [7.8]. De este argumento se desprende que es
irrelevante tomar [7.7] o [7.8] como referente para definir el efecto de la interacción. Sin embargo, las interpretaciones basa-
das en [7.8] suelen resultar más fáciles de entender. La formulación basada en [7.7] ha recibido especial atención por parte
de Rosnow y Rosenthal (1989a, 1989b, 1991, 1995, 1996), quienes han llevado el argumento al extremo insistiendo en que
para poder interpretar correctamente el efecto de la interacción hay que despojarlo de todos los elementos extraños que inclu-
ye. Es así como se llega a las medias residualizadas o residuos de interacción que, siempre según Rosnow y Rosenthal, son
los únicos que informan cabalmente sobre el efecto de la interacción. Pero no parece que este enfoque haya merecido la
aceptación de todos (ver Meyer, 1991; Petty, Fabrigar, Wegener y Priester, 1996); y tampoco parece que los investigadores
estén dispuestos a incorporar a sus hábitos el plus de comprensión que exige.
252 Análisis de datos (vol. II)

y a2 siempre es la misma: 2 puntos. Y esta diferencia es justamente la que se da entre los


niveles de A cuando no se tiene en cuenta B, es decir, la que se da entre las medias margina-
les de a1 y a2. Cuando las medias de un diseño factorial se ajustan a esta pauta, decimos que
no existe interacción, queriendo significar con ello que el efecto conjunto de los dos facto-
res sobre la variable dependiente no difiere del efecto individual de cada factor por separado.
Imaginemos ahora que las medias del diseño 2 × 3 de la Tabla 7.3 son las que recoge la
Tabla 7.4.2 (diseño con interacción). La diferencia entre las medias de a1 y a2 ya no es la
misma en todos los niveles de B. En b1 y b3, la diferencia es de 2 puntos a favor de a1; en b2,
la diferencia es de 4 puntos a favor de a2. Y estas diferencias no se corresponden con la di-
ferencia existente entre las medias marginales de a1 y a2, las cuales son iguales. Cuando se
da esta discrepancia entre las medias de las casillas y sus correspondientes medias marginales
decimos que existe interacción entre los factores, queriendo significar con ello que el efecto
conjunto de los dos factores sobre la variable dependiente difiere de la suma de los efectos
individuales de los factores.

Tabla 7.4. Medias poblacionales en un diseño 2 × 3


1. Diseño sin interacción 2. Diseño con interacción
b1 b2 b3 b1 b2 b3
a1 6 5 7 6 a1 6 4 5 5
a2 4 3 5 4 a2 4 8 3 5
5 4 6 5 5 6 4 5

La herramienta más útil para entender el concepto de interacción entre factores es, proba-
blemente, un gráfico de líneas basado en las medias de las casillas. En la Figura 7.1 (iz-
quierda) están representadas las medias de la Tabla 7.4.1. El gráfico muestra con claridad
que, cualquiera que sea el nivel de B que se considere, el comportamiento del factor A siem-
pre es el mismo: la media de a1 siempre supera en 2 puntos a la media de a2. La ausencia de
interacción queda reflejada en el hecho de que las líneas que unen las medias son paralelas
entre cada dos niveles del eje horizontal (las líneas definen perfiles idénticos).

Figura 7.1. Gráficos de líneas con las medias de las Tablas 7.4.1 (izquierda) y 7.4.2 (derecha)

En el gráfico de la Figura 7.1 (derecha) están representadas las medias de las casillas de la
Tabla 7.4.2. Ahora, las medias de a1 superan a las de a2 tanto en b1 como en b3, pero no en
Capítulo 7. ANOVA de dos factores 253

b2, donde la media de a2 es mayor que la de a1. Es decir, la diferencia entre las medias de a1
y a2 cambia cuando cambian los niveles de B. La presencia de interacción queda reflejada en
el hecho de que las líneas que unen las medias no son paralelas (definen perfiles distintos).
El significado de la interacción puede entenderse mejor, quizá, poniendo contenido con-
creto a los factores. Supongamos que el factor A es tipo de tratamiento (a1 = «tratamiento
convencional», a2 = «nuevo tratamiento») y que el factor B se refiere a tres variantes de una
misma enfermedad (b1 = «tipo 1», b2 = «tipo 2», b3 = «tipo 3»). Supongamos además que al
medir el efecto de los tratamientos hemos encontrado los resultados (medias) que recogen
las Tablas 7.4.1 y 7.4.2 (estas medias son las que están representadas en la Figura 7.1). Su-
pongamos, por último, que las medias más altas indican que el tratamiento funciona mejor.
En el caso de la Tabla 7.4.1 (diseño sin interacción), la media que se obtiene con el tra-
tamiento convencional (6) es más alta que la que se obtiene con el nuevo tratamiento (4); y
esta pauta se repite con todas las variantes de la enfermedad. Por tanto, el tratamiento con-
vencional (a1) es mejor que el nuevo tratamiento (a2) independientemente de la variante de
la enfermedad tratada.
En el caso de la Tabla 7.4.2 (diseño con interacción), el efecto global de los dos trata-
mientos es el mismo (ambas medias marginales valen 5), pero este resultado es engañoso
precisamente por la presencia de interacción. El efecto de los tratamientos está condiciona-
do por la variante de la enfermedad tratada: con las variantes 1 y 3, el tratamiento
convencional (a1) consigue mejores resultados que el nuevo tratamiento (a2); con la varian-
te 2, es el nuevo tratamiento el que consigue mejores resultados. Por tanto, el efecto de los
tratamientos cambia cuando cambia la variante de la enfermedad tratada.

ANOVA de dos factores completamente aleatorizados (AB-CA)


Ya hemos señalado que, en un modelo de dos factores, los efectos que interesa analizar son
tres: (1) el efecto individual del factor A o efecto principal de A, (2) el efecto individual del
factor B o efecto principal de B y (3) el efecto conjunto de los factores A y B o efecto de la
interacción AB.
El factor A define J poblaciones. El factor B define K poblaciones. La combinación de
los niveles de ambos factores define JK poblaciones. Supongamos que la variable cuantitati-
va Y se distribuye normalmente en esas JK poblaciones y que la varianza de Y es la misma
en todas ellas:

= = ··· = = ··· = = [7.10]

Supongamos, además, que, de cada una de esas JK poblaciones, extraemos una muestra
aleatoria de tamaño n. En este escenario es posible identificar varios tipos de variabilidad.
Comencemos con las dos que ya nos resultan familiares: (1) la variabilidad que existe den-
tro de cada muestra o variabilidad intragrupos y (2) la variabilidad que existe entre las di-
ferentes muestras o variabilidad intergrupos.
Estas dos formas de variabilidad pueden cuantificarse tal como hemos hecho en el ca-
pítulo anterior a propósito del modelo de un factor. En primer lugar, con JK muestras alea-
torias tenemos JK varianzas muestrales cada una de las cuales puede utilizarse para es-
timar la varianza de su propia población. No obstante, como estamos asumiendo que las JK
254 Análisis de datos (vol. II)

varianzas poblaciones son iguales (ver [7.10]), en lugar de utilizar cada varianza muestral por
separado, obtendremos una mejor estimación de esa única varianza poblacional, , combi-
nando en un único estimador las JK varianzas muestrales:

MCE = = [7.11]

Ya sabemos que a este estimador de la varianza poblacional basado en la variabilidad exis-


tente dentro de cada grupo o muestra se le llama media cuadrática intragrupos y se repre-
senta mediante MCE. Recordemos que también se le llama media cuadrática error o residual.
Y, puesto que en su cálculo únicamente intervienen las varianzas de cada muestra, su valor
no depende del valor de las medias.
En segundo lugar, si asumimos que las JK poblaciones muestreadas, además de la misma
varianza, también tienen la misma media, entonces podremos utilizar la variabilidad entre las
JK medias muestrales (en caso necesario, repasar, en el capítulo anterior, el apartado sobre
La lógica del análisis de varianza) para obtener una estimación de la varianza poblacional
de Y mediante

MCI = [7.12]

A este estimador de la varianza poblacional basado en la variabilidad existente entre las


diferentes muestras se le llama media cuadrática intergrupos y se representa mediante
MCI (este valor es el mismo que obtendríamos si, en lugar de considerar que tenemos dos
factores con J y K niveles cuya combinación genera JK casillas, tomáramos las JK casillas
como los niveles de un único factor).
Esta variabilidad intergrupos no nos sirve de mucho porque contiene, mezclados, los tres
efectos que nos interesa analizar (A, B y AB). Es decir, la variabilidad de las JK medias res-
pecto de la media total (variabilidad intergrupos) incluye tres fuentes diferentes de variabi-
lidad: (1) la que se da entre las J medias correspondientes a los niveles del factor A, (2) la que
se da entre las K medias correspondientes a los niveles del factor B y (3) la que se da entre
las JK medias respecto de sus respectivas medias marginales. Para poder cuantificar cada una
de estas fuentes de variabilidad es necesario aislarlas identificando qué parte de la variabi-
lidad intergrupos corresponde a cada una de ellas.
En el modelo de un factor (ver capítulo anterior) hemos utilizado la variabilidad exis-
tente entre las J medias muestrales para obtener una estimación de la varianza poblacional
de Y que, además, servía como una cuantificación del grado de parecido existente entre las
J medias. Aplicando ahora la misma lógica al modelo de dos factores, la variabilidad entre
las J medias de los niveles del factor A y la variabilidad entre las K medias de los niveles del
factor B, no solo permiten cuantificar el grado de parecido existente entre las medias de los
J niveles de A y entre las medias de los K niveles de B, sino que pueden utilizarse para ob-
tener sendas estimaciones de la varianza poblacional de Y:

MCA = [7.13]

MCB = [7.14]
Capítulo 7. ANOVA de dos factores 255

La ecuación [7.13] es un estimador de la varianza poblacional de Y basado en la variabi-


lidad existente entre las J medias muestrales correspondientes a los niveles del factor A. A
esta varianza muestral la llamaremos media cuadrática del factor A y la representaremos
mediante MCA. La ecuación [7.14] es un estimador de la varianza poblacional de Y basado
en la variabilidad existente entre las medias muestrales correspondientes a los niveles del
factor B. A esta varianza muestral la llamaremos media cuadrática del factor B y la re-
presentaremos mediante MCB.
Por último, también la variabilidad entre las medias de las JK muestras respecto de sus
medias marginales puede utilizarse para obtener una estimación de la varianza poblacional
de Y mediante

MCAB = [7.15]

La ecuación [7.15] es un estimador de la varianza poblacional de Y basado en la variabilidad


existente entre las medias de las JK casillas y sus respectivas medias marginales. Si se tiene
en cuenta la definición de interacción propuesta en [7.6] se comprenderá que MCAB, al
cuantificar cómo se alejan las medias de las casillas de sus respectivas medias marginales,
está informando sobre el efecto de la interacción. A esta varianza muestral la llamaremos
media cuadrática de la interacción AB y la representaremos mediante MCAB.
Aplicando ahora la lógica estudiada en el capítulo anterior, sabemos que el cociente en-
tre MCA y MCE

FA = = [7.16]

es una variable que, además de informar del grado de parecido entre las medias de los nive-
les del factor A, se distribuye según F con los grados de libertad del numerador, J  1, y los
del denominador, N  JK. También sabemos que el cociente entre MCB y MCE

FB = = [7.17]

es una variable que informa del grado de parecido existente entre las medias de los niveles
del factor B y que se distribuye según F con los grados de libertad del numerador, K  1, y
los del denominador, N  JK. Por último, el cociente entre MCAB y MCE

FAB = = [7.18]

es una variable que, además de informar del grado de parecido existente entre las medias de
las casillas y sus medias marginales (interacción), sabemos que se distribuye según F con los
grados de libertad del numerador, (J  1) (K  1), y los del denominador N  JK .
Por tanto, los estadísticos FA, FB y FAB pueden utilizarse para evaluar los tres efectos de
interés (A, B y AB) en un diseño de dos factores, de efectos fijos, completamente aleatori-
zados. El Cuadro 7.1 ofrece un resumen del procedimiento.
256 Análisis de datos (vol. II)

Cuadro 7.1. Resumen del ANOVA de dos factores completamente aleatorizados (AB-CA)

1. Hipótesis:
a. H0 (A) : P 1+ = P 2+ = · · · = P J+ (las medias poblacionales correspondientes a los J
niveles del factor A son iguales). Es decir, no existe efecto del factor A.
H1(A): P j + =/ P j1+ para algún j o j1 (con j =/ j1) (no todas las medias correspondien-
tes a los niveles del factor A son iguales). Es decir, existe efecto del factor A.
b. H0 (B) : P +1 = P +2 = · · · = P +K (las medias poblacionales correspondientes a los K
niveles del factor B son iguales). Es decir, no existe efecto del factor B.
H1 (B): P + k =/ P + k1 para algún k o k1 (con k =/ k1) (no todas las medias correspon-
dientes a los niveles del factor B son iguales). Es decir, existe efecto del factor B.
c. H0(AB) : P jk  P j1k = P j+  P j1+ para todo j, j1 o k (con j =/ j1) (la diferencia entre las
medias de dos casillas cualesquiera de la misma columna es igual a la diferencia
entre las medias marginales correspondientes a esas casillas). Es decir, no existe
efecto de la interacción.
H1 (AB) : P j k  P j 1k =/ P j +  P j 1+ para algún j, j1 o k (con j =/ j1) (no todas las dife-
rencias entre las medias de dos casillas cualesquiera de la misma columna son
iguales a la diferencia entre las medias marginales correspondientes a esas ca-
sillas). Es decir, existe efecto de la interacción.
2. Supuestos: JK muestras de tamaño n aleatoriamente seleccionadas de JK poblacio-
nes normales con la misma varianza.
3. Estadísticos del contraste (ver ecuaciones [7.16], [7.17] y [7.18]):
a. Para H0 (A) : FA = MCA  MCE .
b. Para H0 (B) : FB = MCB  MCE .
c. Para H0 (AB) : FAB = MCAB  MCE .
4. Distribuciones muestrales:
a. FA se distribuye según F con J 1 y N  JK grados de libertad.
b. FB se distribuye según F con K 1 y N  JK grados de libertad.
c. FAB se distribuye según F con (J 1)(K 1) y N  JK grados de libertad.
5. Zonas críticas:
a. FA 
> FJ 1, N JK; 1 D .
b. FB 
> FK 1, N JK; 1 D .
 F(J 1)(K 1), N JK; 1 D .
c. FAB >
6. Reglas de decisión:
a. Se rechaza H0 (A) si el estadístico FA cae en la zona crítica; en caso contrario, se
mantiene. El rechazo de H0 (A) implica que existe efecto significativo del factor A.
b. Se rechaza H0 (B) si el estadístico FB cae en la zona crítica; en caso contrario, se
mantiene. El rechazo de H0 (B) implica que existe efecto significativo del factor B.
c. Se rechaza H0 (AB) si el estadístico FAB cae en la zona crítica; en caso contrario, se
mantiene. El rechazo de H0 (AB) implica que existe efecto significativo de la interac-
ción AB.
Capítulo 7. ANOVA de dos factores 257

7. Niveles críticos (valores p):


a. Para el efecto del factor A: p = P (FA 
> Fh ), siendo Fh el valor muestral concreto
que toma el estadístico FA.
a. Para el efecto del factor B: p = P (FB 
> Fh ), siendo Fh el valor muestral concreto
que toma el estadístico FB.
a. Para el efecto de la interacción AB: p = P (FAB  > Fh ), siendo Fh el valor muestral
concreto que toma el estadístico FAB.

Ejemplo. ANOVA de dos factores completamente aleatorizados (AB-CA)


En un estudio inicialmente diseñado para evaluar la relación entre el nivel de ansiedad y el
rendimiento se ha incluido una nueva variable: la dificultad de la tarea. La Tabla 7.5 mues-
tra los resultados obtenidos con una muestra aleatoria de 30 sujetos repartidos, también
aleatoriamente, en 6 grupos del mismo tamaño. Cada grupo ha realizado la prueba de rendi-
miento bajo una de las seis condiciones resultantes de combinar dos niveles de dificultad
(fácil, difícil) con tres de ansiedad (bajo, medio, alto). El rendimiento se ha medido aplican-
do una escala de 0 a 20 puntos. El objetivo del estudio es valorar qué impacto tiene sobre el
rendimiento la dificultad de la tarea, el nivel de ansiedad y la interacción entre la dificultad
de la tarea y el nivel de ansiedad (D = 0,05).

Tabla 7.5. Dificultad de la tarea (A), nivel de ansiedad (B) y rendimiento (Y )

(B ) Nivel de ansiedad
(A ) Dificultad
de la tarea (b1) Bajo (b2) Medio (b3) Alto Totales
12 15 8
17 12 6
(a1) Fácil 9 18 5 180
14 14 10
13 (65) 16 (75) 11 (40)
8 10 13
6 14 10
(a2) Difícil 9 16 9 150
8 14 12
4 (35) 11 (65) 6 (50)
Totales 100 140 90 330
Los valores entre paréntesis son los totales (sumas) de las casillas.

Se trata de un diseño 2 × 3 completamente aleatorizado. Es decir, de un diseño de dos facto-


res (A: dificultad de la tarea, con J = 2 niveles; B: nivel de ansiedad, con K = 3 niveles) en
el que se ha asignado una muestra aleatoria de n = 5 sujetos a cada una de las JK = 6 con-
258 Análisis de datos (vol. II)

diciones resultantes de combinar los niveles de ambos factores. El análisis de varianza de dos
factores completamente aleatorizados es el modelo apropiado para analizar estos datos. La
Figura 7.2 muestra los diagramas de caja del rendimiento correspondientes a cada combi-
nación entre la dificultad de la tarea y el nivel de ansiedad. Ninguno de los diagramas mues-
tra casos anómalos ni asimetrías evidentes. Pero el rendimiento medio varía sensiblemente
entre condiciones. Veamos cómo evaluar los tres efectos presentes en el diseño.

Figura 7.2. Diagramas de caja correspondientes a las casillas de la Tabla 7.5

1. Hipótesis:
a. H0 (A) : P fácil = P difícil (el rendimiento medio es el mismo con tareas fáciles y con ta-
reas difíciles; es decir, la dificultad de la tarea no afecta al rendimiento).
H1 (A): el rendimiento medio no es el mismo con tareas fáciles y con tareas difíciles
(es decir, la dificultad de la tarea afecta al rendimiento).
b. H0 (B) : P bajo = P medio = P alto (el rendimiento medio es el mismo en los tres niveles de
ansiedad; es decir, el nivel de ansiedad no afecta al rendimiento).
H1 (B): el rendimiento medio no es el mismo en los tres niveles de ansiedad (es decir,
el nivel de ansiedad afecta al rendimiento).
c. H0 (AB) : P j k  P j 1k = P j +  P j 1+ para todo j, j 1 o k (con j =/ j1) (la interacción entre la
dificultad de la tarea y el nivel de ansiedad no afecta al rendimiento).
H1 (AB) : P jk  P j1k =/ P j+  P j1+ para algún j, j1 o k (con j =/ j1) (la interacción entre la
dificultad de la tarea y el nivel de ansiedad afecta al rendimiento).
2. Supuestos: tenemos 6 muestras de tamaño 5 aleatoriamente seleccionadas de 6 pobla-
ciones normales con la misma varianza.
3. Estadísticos del contraste. Para facilitar la obtención de FA, FB y FAB (ecuaciones [7.16],
[7.17] y [7.18]) hemos transformado las puntuaciones originales de la Tabla 7.5 en las
medias y varianzas que muestra la Tabla 7.6:

Tabla 7.6. Medias (varianzas) correspondientes a los datos de la Tabla 7.5.

b1 b2 b3
a1 13 (8,5) 15 (5,0) 8 (6,5) 12
a2 7 (4,0) 13 (6,0) 10 (7,5) 10
10 14 9 11
Capítulo 7. ANOVA de dos factores 259

MCI = 5 [(13  11)2 + (15  11)2 + · · · + (10  11)2] / 5 = 5 (50) / 5 = 50 (ver [7.12])
MCA = 15 [(12  11) + (10  11) ] / 1 = 15 (2) / (2  1) = 30
2 2
(ver [7.13])
MCB = 10 [(130  11)2 + (14  11)2 + (9  11)2] / (3  1) = 10 (14) / 2 = 70 (ver [7.14])
MCAB5 = [5 (50)  15 (2)  10 (14)] / 2 = (250  30  140)/2 = 40
MCE = (8,5 + 5,0 + 6,5 + 4,0 + 6,0 + 7,5) / 6 = 6,25 (ver [7.11])
a. FA = MCA  MCE = 30 / 6,25 = 4,80.
b. FB = MCB  MCE = 70 / 6,25 = 11,20.
c. FAB = MCAB  MCE = 40 / 6,25 = 6,4.

a. FA ¯ F con J 1 = 1 y N  JK = 24 grados de libertad, es decir, F1, 24.


4. Distribuciones muestrales (con J = 2, K = 3 y N = 30):

b. FB ¯ F con K 1 = 2 y N  JK = 24 grados de libertad, es decir, F2, 24.


c. FAB ¯ F con (J 1)(K 1) = 2 y N  JK = 24 grados de libertad, es decir, F2, 24.
5. Zonas críticas:
a. FA 
> F1, 24; 0,95 = 4,26.
b. FB 
> F2, 24; 0,95 = 3,40.
c. FAB 
> F2, 24; 0,95 = 3,40.
6. Reglas de decisión:
a. Puesto que FA = 4,80 es mayor que el punto crítico 4,26, se rechaza H0(A). Puede con-
cluirse que el rendimiento medio no es el mismo con tareas fáciles y con tareas difí-
ciles. Por tanto, la dificultad de la tarea afecta al rendimiento.
b. Puesto que FB = 11,20 es mayor que el punto crítico 3,40, se rechaza H0(B). Puede con-
cluirse que el rendimiento medio no es el mismo en los tres niveles de ansiedad. Por
tanto, el nivel de ansiedad afecta al rendimiento.
c. Puesto que FAB = 6,4 es mayor que el punto crítico 3,40, se rechaza H0(AB). Puede con-
cluirse que el efecto de la interacción AB es estadísticamente significativo. Por tanto,
el efecto de cada factor sobre el rendimiento está condicionado o modulado por la
presencia del otro factor.
Un estadístico F significativo indica que los promedios comparados no son iguales, pero no
permite concretar qué promedios difieren de qué otros. Para esto es necesario llevar a cabo
comparaciones múltiples. Y en el caso de la interacción, además de realizar comparaciones
múltiples, es necesario recurrir a gráficos de perfil para precisar su significado. Más adelan-
te, en el apartado Comparaciones múltiples, veremos cómo hacer todo esto.

5
Teniendo en cuenta que el numerador de MCI es igual a la suma de los numeradores de MCA, MCB y MCAB, y que el cálcu-
lo de MCI es sensiblemente más breve que el de MCAB, la forma más rápida de calcular MCAB consiste en restar al numera-
dor de MCI = 5(50) = 250 la suma de los numeradores de MCA = 15(2) = 30 y MCB = 10(14) = 140, y dividir el resultado
entre los grados de libertad de MCAB. No obstante, puede comprobarse que aplicando la ecuación [7.15] se llega exacta-
mente al mismo resultado:
MCAB = [(13 12 10 +11)2 + (15 12 14 +11)2 (8 12  9 +11)2 + · · · + (10 10  9 +11)2] / [(2 1) (3 1)] = 40.
260 Análisis de datos (vol. II)

Supuestos del ANOVA de dos factores


Los estadísticos F propuestos en [7.16], [7.17] y [7.18] permiten tomar decisiones sobre sus
respectivas hipótesis porque, si se dan ciertas condiciones, tienen distribución muestral co-
nocida. Estas condiciones, a las que solemos llamar supuestos del contraste, son las que ga-
rantizan que la probabilidad de cometer errores Tipo I y II es la que estamos asumiendo que
es y no otra.
Para poder definir los estadísticos F hemos considerado en todo momento que estába-
mos trabajando con muestras aleatorias procedentes de poblaciones normales con la misma
varianza. En estas condiciones iniciales están implícitos los tres supuestos que ya hemos es-
tudiado en el capítulo anterior a propósito del modelo de un factor: independencia, norma-
lidad y homocedasticidad. La única diferencia con el modelo de un factor es que ahora no
tenemos J poblaciones, sino JK. Y asumimos que esas JK poblaciones son normales y tienen
la misma varianza; y también asumimos que, de cada una de esas poblaciones, tenemos una
muestra aleatoria de observaciones independientes entre sí e independientes de las obser-
vaciones del resto de las muestras.

Efectos fijos y aleatorios


Hasta ahora, en todo momento hemos asumido que los dos factores del diseño son de efec-
tos fijos (Modelo I). Si los dos factores son de efectos aleatorios, decimos que el modelo es
de efectos aleatorios (Modelo II). Y si uno de los factores es de efectos fijos y el otro de
efectos aleatorios, decimos que el modelo es de efectos mixtos (Modelo III).
Esta clasificación tiene su importancia porque la forma de obtener los estadísticos F
viene condicionada por el tipo de modelo utilizado, lo cual se debe a que el valor esperado
de cada efecto depende de la forma de establecer los niveles del correspondiente factor (ver
Kirk, 1995, págs. 373-375; Pardo y San Martín, 1998, págs. 349-351). A efectos prácticos,
basta con saber que los estadísticos F de cada modelo se obtienen de la forma que muestra
la Tabla 7.7. El valor de las medias cuadráticas no cambia, pero sí cambian las medias cua-
dráticas que intervienen en la obtención de cada estadístico F.

Tabla 7.7. Estadísticos F correspondientes a cada modelo AB-CA

Modelo I Modelo II Modelo III Modelo III


A y B fijos A y B aleatorios A fijo, B aleatorio A aleatorio, B fijo,

FA = MCA / MCE MCA / MCAB MCA / MCAB MCA / MCE


FB = MCB / MCE MCB / MCAB MCB / MCE MCB / MCAB
FAB = MCAB / MCE MCAB / MCE MCAB / MCE MCAB / MCE

Por supuesto, los grados de libertad de cada estadístico F son los grados de libertad de las
medias cuadráticas en las que se basan. Por tanto, los grados de libertad del numerador de
todos los estadísticos F son los mismos en los tres modelos, pues las medias cuadráticas del
numerador son las que corresponden a cada efecto; pero los grados de libertad del denomi-
nador cambian dependiendo de la media cuadrática que interviene.
Capítulo 7. ANOVA de dos factores 261

Medidas del tamaño del efecto


Ya sabemos que el valor de un estadístico F no depende únicamente de la magnitud real del
efecto analizado (es decir, de la verdadera diferencia entre las medias que se están com-
parando), sino del tamaño de las muestras y del grado de variabilidad de las puntuaciones. Por
tanto, una F significativa no necesariamente se corresponde con un efecto importante o un
resultado relevante desde el punto de vista teórico o práctico. Para detectar un efecto o re-
sultado de ese tipo utilizamos medidas del tamaño del efecto: un estadístico F significativo
indica que existe algún tipo de relación; una medida del tamaño del efecto intenta cuantifi-
car la magnitud de esa relación.
Una forma de cuantificar el tamaño del efecto consiste en estimar la proporción de varian-
za compartida. Esto puede hacerse, por ejemplo, con la medida de asociación eta-cuadrado
( ). Ahora bien, en un modelo de dos factores hay tres efectos distintos (A, B y AB). Pode-
mos obtener, por un lado, una medida global de la proporción de varianza compartida (una
medida basada en todos los efectos tomados juntos) y, por otro, una medida individual de
cada efecto por separado. La medida global se basa, lógicamente, en la MCI :

= [7.19]

El numerador de es una cuantificación de la variabilidad intergrupos, la cual incluye la


variabilidad entre las medias de A, entre las medias de B y entre las medias de las casillas
respecto de sus medias marginales. El denominador es una cuantificación de la variabilidad
total. Por tanto, el valor de expresa el grado de asociación existente entre el conjunto de
efectos presentes en el modelo y la variable dependiente. En nuestro ejemplo sobre la rela-
ción entre el rendimiento y la dificultad de la tarea y el nivel de ansiedad:

= =

Este valor indica que el conjunto de efectos presentes en el modelo (la dificultad de la tarea,
el nivel de ansiedad y la interacción entre la dificultad y la ansiedad) comparten el 63 % de
la varianza del rendimiento. Por tanto, nuestro conocimiento del rendimiento de los sujetos
mejora un 63 % cuando conocemos su nivel de ansiedad y la dificultad de la tarea que rea-
lizan. La ecuación [7.19] puede formularse de esta otra manera:

= [7.20]

Para obtener una estimación del tamaño de cada efecto (A, B y AB) basta con colocar en
[7.20] los correspondientes estadísticos F y grados de libertad (estas estimaciones se llaman
parciales porque en el denominador no se utiliza la variabilidad total, sino la de cada efec-
to y la del error). Por ejemplo, con el efecto del factor B (nivel de ansiedad), la ecuación
[7.20] ofrece el siguiente resultado:

= = =
262 Análisis de datos (vol. II)

Este valor indica que el nivel de ansiedad (factor B) comparte el 48 % de la varianza del rendi-
miento. Por tanto, saber cuál es el nivel de ansiedad de los sujetos permite mejorar un 48 %
nuestro conocimiento del rendimiento.
Aunque esta forma de estimar el tamaño de un efecto está muy extendida (es, por ejem-
plo, la que utiliza el SPSS), lo cierto es que las estimaciones que se obtienen con (tanto
si son parciales como si no) contienen un sesgo importante (están infladas; ver, por ejemplo,
Fowler, 1985). Algunas correcciones pueden atenuar este sesgo (ver capítulo anterior), pe-
ro, en lugar de aplicar estas correcciones, suele ser más recomendable utilizar la medida de
asociación omega-cuadrado ( ).
El valor concreto de depende de si los factores son de efectos fijos o de efectos alea-
torios (ver Winer, Brown y Michels, 1991, págs. 405-415). Cuando ambos factores son de
efectos fijos (Modelo I), el valor para cada efecto por separado puede obtenerse aplican-
do la siguiente regla6:

= = [7.22]

Sustituyendo efecto por A, B y AB puede obtenerse el valor de para cada efecto. Por ejem-
plo, con el efecto del factor B, tenemos

= = =

que es un valor menor que el obtenido con porque, como ya se ha señalado, suele
ofrecer estimaciones infladas de la verdadera proporción de varianza compartida.
Para interpretar el tamaño de , Cohen (1988) ha propuesto una especie de regla gene-
ral que puede resultar útil en muchos contextos aplicados: valores en torno a 0,01, 0,06 y
0,14 indican, por lo general, asociaciones de intensidad baja, media y alta, respectivamente.
La Tabla 7.8 muestra los valores de y obtenidos al aplicar las ecuaciones [7.20]
y [7.22] a los datos de nuestro ejemplo sobre la relación entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad (ver Tabla 7.5). Puede comprobarse que, efectivamente, los
valores parciales de son sistemáticamente menores que los valores parciales de .

Tabla 7.8. Medidas del tamaño del efecto

Efecto
A 0,17 0,11
B 0,48 0,40
AB 0,35 0,26

Al igual que para el modelo de un factor (ver capítulo anterior, ecuación [6.11]), Cohen
(1988) ha propuesto, para el modelo de dos factores, una medida del tamaño del efecto basada

6
Si el estadístico F es menor que 1, el valor de es negativo. Puesto que una proporción no puede ser negativa, cuando
ocurre esto se considera que vale cero.
Capítulo 7. ANOVA de dos factores 263

en una tipificación de la diferencia entre los promedios comparados. Su estrecha relación con
permite obtener este estadístico a partir de lo que ya sabemos:

= [7.23]

(aunque el propio Cohen llama f a su medida del tamaño del efecto, nosotros seguiremos
manteniendo la consistencia en nuestra notación para evitar confusión). Siguiendo la regla
ya conocida, valores en torno a 0,10, 0,25 y 0,40 representan, respectivamente, efectos de
tamaño pequeño, mediano y grande.

Cálculo de la potencia y del tamaño muestral


Al igual que en el capítulo anterior, la estrategia propuesta en este apartado para calcular la
potencia se basa en una medida del tamaño del efecto llamada (phi) y en la distribución
F no centrada (Tabla G del Apéndice final).
El valor del parámetro es una transformación del parámetro de no centralidad O (ver
ecuación [6.18]) que puede estimarse aplicando la misma lógica utilizada en el capítulo an-
terior (ver ecuación [6.20]). La única diferencia es que, ahora, no tenemos un único efecto,
sino tres. Y cada efecto (por tanto, cada estadístico F ) tiene asociado un parámetro de no
centralidad y, consecuentemente, un valor que puede estimarse mediante:

= [7.24]

Estos estadísticos representan una cuantificación del tamaño de cada efecto. De hecho, están
estrechamente relacionados con la medida del tamaño del efecto de Cohen:

= [7.25]

(donde nefecto = nK para el efecto de A, nefecto = nJ para el efecto de B y nefecto = n para el efec-
to de AB).
En el ejemplo que venimos utilizando sobre la relación entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad (ver Tabla 7.5) tenemos J = 2, K = 3, MCA = 30, MCB = 70,
MCAB = 40 y MCE = 6,25. Por tanto,

= =

= =

= =

Para calcular la potencia asociada al contraste del efecto del factor B, por ejemplo, necesita-
mos D = 0,05, gl1 = K  1 = 2, gl2 = N  JK = 24 y = 2,73. En la Tabla G del Apéndice
264 Análisis de datos (vol. II)

final (redondeando a = 2,6) encontramos que la probabilidad de cometer errores Tipo II (E)
vale 0,03. Por tanto, la potencia de este contraste vale 1  E = 1  0,03 = 0,97 (puesto que
tanto gl2 como se han redondeado a la baja, es muy posible que el valor exacto de la po-
tencia sea una o dos décimas mayor de 0,97).
Este valor (0,97) es la potencia observada, es decir la potencia del contraste cuando se
asume que la diferencia poblacional entre los niveles del factor B (el verdadero tamaño del
efecto) es la diferencia de hecho observada. Para conocer de antemano la potencia de un es-
tudio concreto es necesario calcular el tamaño muestral que permitirá alcanzar la potencia
deseada. Y para esto, basta con tener en cuenta la relación establecida en [7.24]:

n = [7.26]

Imaginemos un estudio con J = 3 y K = 4. Supongamos que, para evaluar el efecto del fac-
tor B con D = 0,05, queremos que la potencia del contraste para detectar un efecto de tama-
ño medio (G = 0,25 siguiendo la regla de Cohen) valga 0,80 (E = 0,20). Tenemos que utilizar
la Tabla G al revés de como lo hemos hecho antes. Conocemos gl1 = 3, pero no gl2 (pues
depende del tamaño muestral que estamos buscando). Esto, sin embargo, no representa un
problema serio porque utilizar un valor de partida de 30 o mayor no hace cambiar las cosas.
Vamos a elegir, por ejemplo, gl2 = . Con gl1 = 3, gl2 = y E = 0,20 (tomamos 0,23), la
Tabla G arroja un valor = 1,6. Por tanto, n = (1,6 / 0,25)2 = 40,96. Es decir, hacen falta
aproximadamente 41 sujetos por grupo para alcanzar una potencia de 0,80.

Comparaciones múltiples
Los estadísticos FA, FB y FAB permiten valorar los efectos globales de A, B y AB, respec-
tivamente, y decidir cuál de ellos es estadísticamente significativo. El rechazo de la hipóte-
sis nula referida al efecto del factor A indica que las medias poblacionales correspondientes
a los niveles de ese factor no son iguales, pero no permite precisar qué media en concreto
difiere de qué otra (este problema es el mismo que nos hemos encontrado en el capítulo
anterior al estudiar el modelo de un factor). Lo mismo vale decir del efecto de B y de su hi-
pótesis nula. Y el rechazo de la hipótesis nula referida al efecto de la interacción indica que
el efecto combinado de los factores A y B difiere de la suma de los efectos individuales de
ambos factores, pero no permite precisar cuál es el significado de esa diferencia.
Por tanto, en los tres casos (A, B y AB), el rechazo de la correspondiente hipótesis nula
está delatando la presencia de un efecto significativo sin llegar a precisar la naturaleza o el
significado del mismo. Tanto para conocer con exactitud qué niveles de un factor difieren de
qué otros como para poder entender el significado de una interacción significativa es nece-
sario seguir adelante con el análisis realizando comparaciones múltiples.
A los efectos individuales de A y B los hemos llamado efectos principales. Al efecto
combinado de A y B lo hemos llamado efecto de la interacción. En nuestro ejemplo sobre
la relación entre la dificultad de la tarea (fácil, difícil), el nivel de ansiedad (bajo, medio, al-
to) y el rendimiento, el efecto de la dificultad de la tarea es un efecto principal; el efecto del
nivel de ansiedad es un efecto principal; y el efecto combinado de la dificultad de la tarea y
el nivel de ansiedad es el efecto de la interacción. Para entender el significado de la interac-
ción entre factores es necesario definir un nuevo tipo de efectos llamados efectos simples,
Capítulo 7. ANOVA de dos factores 265

los cuales se refieren al efecto de un factor en cada uno de los niveles del otro. El efecto de
la dificultad de la tarea en un nivel concreto de ansiedad (por ejemplo, nivel bajo) es un efec-
to simple. Volveremos sobre esto enseguida.

Efectos principales
Para realizar comparaciones múltiples con los niveles del factor A y con los niveles del factor
B no es necesario aprender nada nuevo. Todos los procedimientos estudiados en el capítulo
anterior para realizar comparaciones múltiples con un factor son aplicables a cada uno de los
efectos principales de un diseño factorial completamente aleatorizado. Esto significa que
puede utilizarse la prueba de Dunn-Bonferroni para realizar comparaciones planeadas y de
tendencia; la prueba de Dunnett para realizar comparaciones con un grupo control, si exis-
te; y las pruebas de Tukey y Scheffé para realizar comparaciones post hoc. Únicamente hay
que tener en cuenta unas sencillas modificaciones que afectan a las ecuaciones [6.34] a [6.46]:
1. El subíndice “j ” debe cambiarse por los subíndices “j +” al analizar los niveles del fac-
tor A y por los subíndices “+ k ” al analizar los niveles del_ factor B. Así, _por ejemplo,
para comparar las medias del factor A, en lugar de utilizar Y j utilizaremos Y j+ y en lugar
de utilizar nj utilizaremos nj +, es decir, nK.
2. El número de niveles del factor A sigue siendo J (igual que en el modelo de un factor),
pero el número de niveles del factor B es K. Por tanto, al analizar los niveles del factor
B, J debe sustituirse por K.
3. Los grados de libertad asociados a MCE en el modelo de un factor (N  J ) deben sustituir-
se por los grados de libertad asociados a MCE en el modelo de dos factores (N  JK ).

Ejemplo. Comparaciones múltiples: efectos principales


En nuestro ejemplo sobre la relación entre el rendimiento, la dificultad de la tarea (fácil, di-
fícil) y el nivel de ansiedad (bajo, medio, alto) hemos declarado estadísticamente signifi-
cativos los dos efectos principales presentes en el diseño: el del factor A y el del factor B.
El resultado obtenido con el efecto del factor A (dificultad de la tarea) indica que el ren-
dimiento medio es más alto con tareas fáciles que con tareas difíciles. Como el factor A sola-
mente tiene dos niveles, no es necesario seguir haciendo comparaciones (las comparaciones
múltiples únicamente tienen sentido cuando se tienen más de dos medias).
El resultado obtenido con el efecto del factor B (nivel de ansiedad) indica que el rendi-
miento medio no es el mismo en los tres niveles de ansiedad. Para seguir indagando en este
resultado vamos a realizar dos comparaciones. En la primera vamos a comparar el grupo de
nivel de ansiedad medio (que es el grupo del que cabe esperar un mayor rendimiento) con los
otros dos grupos tomados juntos; en la segunda, el grupo de menor ansiedad (grupo 1) con
el de mayor ansiedad (grupo 3); es decir,
= (1) P 1 + (2) P 2 + (1) P 3
= (1) P 1 + (0) P 2 + (1) P 3
266 Análisis de datos (vol. II)

Se trata de dos comparaciones ortogonales, pues la suma del producto de sus coeficientes
vale cero: (1) (1)_+ (2) (0) +
_ (1) (1)
_ = 0. Vamos a aplicar la prueba de Dunn-Bonferroni.
Recordemos que Y +1 = 10, Y +2 = 14, Y +3 = 9 y MCE = 6,25:
1. Hipótesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras de tamaño nJ = 10 aleatoriamente seleccionadas de po-
blaciones que asumimos normales y con la misma varianza.
3. Estadísticos del contraste (ver ecuación [6.35] en el capítulo anterior):
 = =
= =

 = =

= =

 TDB (1) = = =
TDB (2) = = =
4. Distribución muestral: los puntos críticos de la distribución muestral de TDB están en la
Tabla J del Apéndice final, con DF = 0,05, k = 2 y glerror = N  JK = 30  2(3) = 24.
 t2, 24; 0,05 = 2,39.
5. Zona crítica: TDB >
6. Decisión: únicamente el valor TDB (1) = 4,64 es mayor que el punto crítico 2,39. Por tan-
to, debe rechazarse H0 (1) pero no H0(2). El rechazo de H0(1) indica que la media del grupo
2 (nivel de ansiedad medio) difiere de la media de los otros dos grupos tomados juntos.
Y el no rechazo de H0(2) indica que, con los datos disponibles, no es posible afirmar que
el rendimiento medio de los grupos 1 y 3 (los grupos de menor y mayor ansiedad) sea
distinto. Aunque estos contrastes son bilaterales, el valor positivo de indica que el
rendimiento medio del segundo grupo (es decir, del grupo ponderado con un coeficien-
te positivo en ) es mayor que el rendimiento medio de los otros dos grupos tomados
juntos.

Es importante tener en cuenta que el significado de un efecto principal está condicionado por
el efecto de la interacción. Aunque volveremos sobre esta cuestión, conviene empezar a to-
mar conciencia de un hecho que no siempre es correctamente tenido en cuenta.
Cuando no existe interacción, los efectos principales agotan toda la información del dise-
ño. Imaginemos que, en nuestro ejemplo sobre la relación entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad, el efecto de la interacción no fuera significativo. Si ése fue-
ra el caso, el resultado obtenido con el factor A (dificultad de la tarea) estaría indicando que
el rendimiento medio es más alto con tareas fáciles (media = 12) que con tareas difíciles
(media = 10). Y el resultado obtenido con el factor B estaría indicando que el rendimiento
medio es más alto cuando el nivel de ansiedad es medio (media = 14) que cuando es bajo
(media = 10) o alto (media = 9). Pero el hecho de que el efecto de la interacción sea signi-
Capítulo 7. ANOVA de dos factores 267

ficativo lo cambia todo. Una interacción significativa acapara todo el protagonismo del dise-
ño relegando los efectos principales a un segundo plano. Más adelante veremos cómo se pro-
duce esto, pero, de momento, puesto que los resultados de nuestro ejemplo indican que el
efecto de la interacción es significativo, sabemos que no es posible afirmar que el rendi-
miento con las tareas fáciles es mejor que con las tareas difíciles (efecto principal de la difi-
cultad) pues esto depende del nivel de ansiedad; y también sabemos que tampoco es posible
afirmar que el rendimiento es mejor cuando el nivel de ansiedad es medio que cuando es ba-
jo o alto (efecto principal de la ansiedad ) porque esto depende de la dificultad de la tarea.
Volveremos sobre este importante aspecto del análisis en el apartado Efecto de la interacción.

Efectos simples
Un efecto simple es el efecto de un factor cuando únicamente se tiene en cuenta un único
nivel del otro factor.
Consideremos un diseño 2 × 3 como el que se muestra en la Tabla 7.9. Para valorar el
efecto del factor A se comparan las medias de sus dos niveles, es decir las medias de las filas:
P 1+  P 2+. La diferencia entre estas medias representa el efecto principal del factor A.
Un efecto simple consiste en esto mismo pero referido a un único nivel de B. Por ejem-
plo, la diferencia entre las medias P 11  P 21 es un efecto simple: el efecto simple de A en b1;
la diferencia entre las medias P 12  P 22 es el efecto simple de A en b2; y la diferencia entre
las medias P 13  P 23 es el efecto simple de A en b3. Por tanto, el factor A puede descompo-
nerse en tres efectos simples, uno por cada nivel de B.

Tabla 7.9. Medias poblacionales en un diseño 2 × 3

b1 b2 b3
a1 P 11 P 12 P 13 P 1+
a2 P 21 P 22 P 23 P 2+
P +1 P +2 P +3 P

Estos efectos pueden evaluarse de la forma convencional contrastando la hipótesis nula de


igualdad de medias:
: P 1k = P 2 k = · · · = P J k [7.27]

Contrastar esta hipótesis nula equivale a llevar a cabo un ANOVA de un factor (el factor A)
con cada nivel del factor B. Haciendo

= [7.28]

tenemos las mismas medias cuadráticas que utilizaríamos al aplicar un ANOVA de un fac-
tor K veces para comparar las medias de A en cada nivel de B. La hipótesis [7.27] puede
ponerse a prueba mediante el estadístico
= [7.29]
268 Análisis de datos (vol. II)

el cual se distribuye según F con J  1 y N  JK grados de libertad (debe tenerse en cuenta


que hay K contrastes de este tipo, es decir, uno por cada efecto simple de A, es decir, uno por
cada nivel de B ).
Exactamente lo mismo vale decir del factor B. Las diferencias entre las medias de los
niveles del factor B en el primer nivel de A constituyen el efecto simple de B en a1. Y las
diferencias entre las medias de los niveles del factor B en el segundo nivel de A constituyen
el efecto simple de B en a2. Estos efectos simples pueden evaluarse contrastando la hipóte-
sis nula de que las medias involucradas son iguales:
: P j1 = P j2 = · · · = P jK [7.30]

Y, siguiendo la misma lógica que para los efectos simples del factor A, la media cuadrática
asociada a cada efecto simple del factor B puede obtenerse

= [7.31]

Y, a partir de esta media cuadrática, es posible contrastar la hipótesis nula [7.30] mediante
el estadístico

= [7.32]

el cual se distribuye según F con K  1 y N  JK grados de libertad (debe tenerse en cuenta


que hay J contrastes de este tipo, es decir, uno por cada efecto simple de B, es decir, uno por
cada nivel de A).
El análisis de los efectos simples únicamente tiene sentido cuando el efecto de la inte-
racción AB es significativo. Según veremos en el siguiente apartado, una interacción signi-
ficativa implica que los efectos simples de A (también los de B) no son iguales entre sí, de
ahí que tenga sentido estudiarlos para valorar cómo difieren. Pero si la interacción no es sig-
nificativa, no hay motivo para analizar los efectos simples: todos ellos dirán lo mismo que
el correspondiente efecto principal.

Ejemplo. Comparaciones múltiples: efectos simples


Volvamos a nuestro ejemplo sobre la relación entre el rendimiento, la dificultad de la tarea
(fácil, difícil) y el nivel de ansiedad (bajo, medio, alto). Los datos de este ejemplo se en-
cuentran en la Tabla 7.5. Y la Tabla 7.10 ofrece un resumen de esos datos con las medias de
las casillas y las medias marginales. Recordemos que J = 2, K = 3, n = 5 y MCE = 6,25.

Tabla 7.10. Medias correspondientes a los datos de la Tabla 7.5

b1 b2 b3
a1 13 15 8 12
a2 7 13 10 10
10 14 9 11
Capítulo 7. ANOVA de dos factores 269

Veamos cómo contrastar los efectos simples de A en cada nivel de B aplicando las ecuacio-
nes [7.27], [7.28] y [7.29]:
1. Hipótesis: : P 11 = P 21
: P 12 = P 22
: P 13 = P 23
2. Supuestos: tenemos 6 muestras de tamaño n = 5 aleatoriamente seleccionadas de pobla-
ciones que asumimos normales y con la misma varianza.
3. Estadísticos del contraste:
 = = 5 [(13 10)2 + (7 10)2 ] / (2 1) = 90.
= = 5 [(15 14)2 + (13 14)2 ] / (2 1) = 10.
= = 5 [(8  9)2 + (10  9)2 ] / (2 1) = 10.
 = = 90 / 6,25 = 14,4.
= = 10 / 6,25 = 1,6.
= = 10 / 6,25 = 1,6.
4. Distribuciones muestrales: los tres estadísticos se aproximan a la distribución de
probabilidad F con J 1 = 2 1 = 1 y N  JK = 30  6 = 24 grados de libertad.
5. Zona crítica:  F1, 24; 0,95 = 4,26.
>
6. Decisiones: solamente el estadístico (14,4) es mayor que el punto crítico (4,26). Es
decir, solamente es significativo el efecto simple de A en b1. Por tanto, puede concluirse
que la dificultad de la tarea (efecto de A) únicamente afecta al rendimiento cuando el nivel
de ansiedad de los sujetos es bajo (b1); cuando el nivel de ansiedad es medio (b2) o alto
(b3), no puede afirmarse que el rendimiento se vea afectado por la dificultad de la tarea.

Conviene llamar la atención sobre dos cuestiones relativas al análisis de los efectos simples.
La primera de ellas tiene que ver con el control de la tasa de error. A pesar de que el análi-
sis de los efectos simples implica llevar a cabo varias comparaciones, el procedimiento pro-
puesto no incorpora ningún mecanismo de control de la tasa de error. Cuando los factores
tienen dos o tres niveles, esto no es un problema importante porque el número de efectos que
se analizan es muy pequeño. Pero cuando los factores tienen más niveles, la falta de control
sobre la tasa de error puede convertirse en un problema serio. Aunque no existe un acuerdo
generalizado acerca de cuál es la mejor manera de controlar la tasa de error cuando se ana-
lizan efectos simples, siempre cabe la posibilidad de controlar DF aplicando la corrección de
Bonferroni, la cual, recordemos, consiste realizar cada contraste utilizando DC = DF / k en lu-
gar de DC = DF (k se refiere aquí al número de efectos simples que se están valorando).
La segunda cuestión tiene que ver con las posibilidades que surgen cuando un efecto
simple es declarado significativo. Afirmar que el efecto de A en b1 es significativo es lo mis-
mo que decir que los promedios comparados en no son iguales. En nuestro ejemplo,
como el factor A solamente tiene dos niveles, no es necesario hacer ningún análisis adicio-
nal: sabemos que los promedios que difieren son justamente esos dos. Pero si un efecto sim-
270 Análisis de datos (vol. II)

ple incluye más de dos medias, el rechazo de la hipótesis nula podría estar exigiendo con-
tinuar el análisis para poder determinar qué medias en concreto difieren de qué otras. Esto
puede hacerse definiendo comparaciones lineales del tipo

= c1 P 1k + c2 P 2k + · · · + cJ P J k [7.33]

y contrastando la hipótesis nula de que la comparación vale cero mediante la prueba de Dunn-
Bonferroni (ver capítulo anterior). En nuestro ejemplo, los efectos simples de B en a1 y a2 son
ambos significativos. Y estos efectos incluyen tres medias. Para saber qué medias difieren
de qué otras habría que realizar comparaciones del tipo propuesto en [7.33] y contrastarlas
tal como se ha hecho en el capítulo anterior.

Efecto de la interacción
La interacción entre factores ya la hemos definido al comienzo del capítulo. Existe interac-
ción entre dos factores cuando el efecto de uno de ellos sobre la variable dependiente no es
el mismo en todos los niveles del otro factor. Dicho de otro modo, existe interacción cuan-
do los efectos simples correspondientes a un mismo efecto principal no son iguales.
De la misma manera que es posible definir comparaciones lineales de un grado de liber-
tad para interpretar, descomponiéndolo, un efecto principal (esto es lo que hacemos, por
ejemplo, con las comparaciones planeadas y las de tendencia), también es posible definir
comparaciones lineales de un grado de libertad para conseguir interpretar una interacción
significativa. El número de estas comparaciones puede llegar a ser muy elevado (Abelson y
Prentice, 1997), pero las comparaciones que más ayudan a los investigadores a interpretar
una interacción significativa suelen ser aquellas que permiten comparar entre sí los efectos
simples. Por ejemplo, en un diseño factorial 2 × 3 como el propuesto en la Tabla 7.9, la nece-
sidad de interpretar una interacción significativa quedará cubierta, por lo general, comparan-
do entre sí cada efecto de A en cada nivel de B, es decir, comparando entre sí los efectos
simples de A (o comparando entre sí los efectos simples de B, lo cual es equivalente desde
el punto de vista de las conclusiones a las que se llega).
Ahora bien, para comparar entre sí los efectos simples de A no basta con valorar si un
efecto simple es significativo y otro no para, de esta forma, decidir que son distintos. A pe-
sar del uso generalizado de esta estrategia, lo cierto es que no sirve para aislar el efecto de la
interacción. Un efecto simple incluye parte del correspondiente efecto principal y parte del
efecto de la interacción (ver Kirk, 1995, págs. 380-381). Esto implica que un efecto simple
puede ser significativo porque lo es su parte de efecto principal, porque lo es su parte de
interacción o porque lo son ambas partes. Por tanto, para comparar entre sí los efectos sim-
ples no basta con saber cuáles son significativos y cuáles no (ver Pardo, Garrido, Ruiz y San
Martín, 2007). Comparar entre sí los efectos simples de A requiere:
1. Comparar la diferencia entre P 11 y P 21 (o efecto simple de A en b1) con la diferencia en-
tre P 12 y P 22 (o efecto simple de A en b2);
2. Comparar la diferencia entre P 11 y P 21 (o efecto simple de A en b1) con la diferencia en-
tre P 13 y P 23 (o efecto simple de A en b3);
3. Comparar la diferencia entre P12 y P22 (o efecto simple de A en b2), con la diferencia en-
tre P 13 y P 23 (o efecto simple de A en b3).
Capítulo 7. ANOVA de dos factores 271

Es decir, comparar entre sí los efectos simples de A requiere efectuar estas tres7 compara-
ciones:
\1 = ( P 11  P 21 )  ( P 12  P 22 )
\2 = ( P 11  P 21 )  ( P 13  P 23 ) [7.35]
\3 = ( P 12  P 22 )  ( P 13  P 23 )

Por tanto, comparar los efectos simples requiere comparar diferencias. Ordenando y asignan-
do coeficientes se obtiene
\1 = (1) P 11 + (1) P 12 + (0) P 13 + (1) P 21 + (1) P 22 + (0) P 23
\2 = (1) P 11 + (0) P 12 + (1) P 13 + (1) P 21 + (0) P 22 + (1) P 23 [7.36]
\3 = (0) P 11 + (1) P 12 + (1) P 13 + (0) P 21 + (1) P 22 + (1) P 23

En la Figura 7.3 están representadas las medias de la Tabla 7.6. Los recuadros 1, 2 y 3que
hemos trazado en el gráfico representan los efectos simples de A (dificultad de la tarea) en
cada nivel de B (nivel de ansiedad). Con la comparación \1 se intenta averiguar si lo que
ocurre en el recuadro 1 difiere de lo que ocurre en el recuadro 2; con la comparación \2 se
intenta averiguar si lo que ocurre en el recuadro 1 difiere de lo que ocurre en el recuadro 3;
y con la comparación \3 se intenta averiguar si lo que ocurre en el recuadro 2 difiere de lo
que ocurre en el recuadro 3. Estas tres comparaciones aíslan el efecto de la interacción y son
independientes del efecto principal de A (ver Pardo, Garrido, Ruiz y San Martín, 2007).
Para contrastar hipótesis del tipo \h = 0 puede utilizarse la prueba de Dunn-Bonferroni
en los términos ya conocidos. El siguiente ejemplo muestra cómo hacer esto.

Figura 7.3. Gráfico de líneas correspondiente a las medias de la Tabla 7.6.


2
1

7
En un diseño 2 × 2 (dos factores con dos niveles cada factor), unas sencillas transformaciones permiten comprobar que
la definición de no interacción propuesta en [7.8] equivale a:
P 11  P 21 = P 12  P 22 [7.34]
La comparación [7.34] es la que corresponde al único grado de libertad asociado a la interacción en un diseño 2 × 2. Por
tanto, si el estadístico F asociado al efecto de la interacción es significativo, una interpretación basada en las diferencias
comparadas en [7.34] agota el significado de la interacción, lo cual implica que no es necesario recurrir a comparaciones
adicionales para interpretar una interacción significativa.
Debe tenerse en cuenta que, si se verifica [7.34], también se verifica P 11  P 12 = P 21  P 22 ; y una interacción significa-
tiva en un diseño 2 × 2 puede interpretarse recurriendo a cualquiera de estas dos comparaciones, sin necesidad de cálculos
adicionales.
272 Análisis de datos (vol. II)

Ejemplo. Comparaciones múltiples: efecto de la interacción


En nuestro ejemplo sobre la relación entre el rendimiento, la dificultad de la tarea (fácil,
difícil) y el nivel de ansiedad (bajo, medio, alto) hemos encontrado que el efecto de la in-
teracción es significativo. Para interpretar este efecto vamos a realizar dos tareas: (1) com-
parar entre sí los efectos simples y (2) representar las medias de las casillas en un gráfico de
líneas. La primera tarea es imprescindible para saber dónde se encuentran las diferencias; la
segunda es recomendable para entender mejor lo que está ocurriendo.
Las medias de las casillas (Tabla 7.6) están representadas en el gráfico de líneas de la Fi-
gura 7.3. Un gráfico de líneas, también llamado gráfico de perfiles, se construye colocando
uno de los factores en el eje horizontal (normalmente el que tiene más niveles) y las medias
en el vertical. En el interior del gráfico se representan las medias uniendo con líneas las que
corresponden al mismo nivel del segundo factor (el que no se ha colocado en el eje horizon-
tal). En el gráfico de la Figura 7.3, cada línea (cada efecto simple de B en aj) se corresponde
con una fila de la Tabla 7.6 y cada recuadro (cada efecto simple de A en bk) con una columna.

Tabla 7.6 (bis). Medias de las casillas de la Tabla 7.5

b1 b2 b3
a1 13 15 8
a2 7 13 10

1. Hipótesis: H0 (1) : = 0 ; H1 (1) : =/ 0.


H0 (2) : = 0 ; H1 (2) : =/ 0.
H0 (3) : = 0 ; H1 (3) : =/ 0.
Estas hipótesis se refieren a las tres comparaciones definidas en [7.36], las cuales, según
se ha señalado ya, permiten comparar entre sí, por pares, los tres efectos simples de A (es
decir, los tres efectos simples marcados con un recuadro en la Figura 7.3).
2. Supuestos: tenemos 6 muestras de tamaño n = 5 aleatoriamente seleccionadas de pobla-
ciones que asumimos normales y con la misma varianza.
3. Estadísticos del contraste (ver ecuaciones [6.34] y [6.35] en el capítulo anterior):
 = (1)13 + (1)15 + (0) 8 + (1) 7 + (1)13 + (0)10 = 4.
= (1)13 + (0)15 + (1) 8 + (1) 7 + (0)13 + (1)10 = 8.
= (0)13 + (1)15 + (1) 8 + (0) 7 + (1)13 + (1)10 = 4.

 = = 2,236.
Puesto que los coeficientes de las tres comparaciones son los mismos (aunque en di-
ferente orden), las tres comparaciones tienen el mismo error típico.
 TDB (1) = = 4 / 2,24 = 1,79.
TDB (2) = = 8 / 2,24 = 3,58.
TDB (3) = = 4 / 2,24 = 1,79.
Capítulo 7. ANOVA de dos factores 273

4. Distribución muestral: los puntos críticos de la distribución muestral de TDB están en la


Tabla J del Apéndice final, con DF = 0,05, k = 3 y glerror = N  JK = 30  2(3) = 24.
 t3, 24; 0,95 = 2,57.
5. Zona crítica: TDB >
6. Decisión: únicamente el valor de TDB (2) = 3,58 es mayor que el punto crítico 2,57. Por
tanto, debe rechazarse H0 (2) pero no H0 (1) ni H0 (3). El rechazo de H 0(2) indica que el efec-
to simple de A en b1 difiere del efecto simple de A en b3. Referido al gráfico de la Figu-
ra 7.3, esto significa que lo que ocurre en el recuadro 1 no es lo mismo que lo que ocurre
en el recuadro 3. Y lo que esto quiere decir es que el efecto de la dificultad de la tarea
sobre el rendimiento (efecto de A) no es el mismo cuando el nivel de ansiedad de los su-
jetos es bajo (b1) que cuando es alto (b2). En la tabla de medias (Tabla 7.6) se puede ob-
servar que, cuando el nivel de ansiedad es bajo (b1), el rendimiento en las tareas fáciles
es 6 puntos mayor que en las difíciles; mientras que, cuando el nivel de ansiedad es alto
(b3), el rendimiento medio en las tareas fáciles es 2 puntos menor que en las difíciles. El
rechazo de H 0(2) indica que la diferencia entre estas diferencias (los 8 puntos de la com-
paración nº 2) es estadísticamente significativa.
Por tanto, el resultado más destacable del análisis del efecto de la interacción es que
el efecto de la dificultad de la tarea (A) sobre el rendimiento (Y ) es uno cuando el nivel
de dificultad es bajo (b1) y otro distinto cuando el nivel de ansiedad es alto (b3).
Los resultados del análisis también indican que no es posible afirmar que el efecto
simple de A en b1 difiera del efecto simple de A en b2 (comparación nº 1 no significati-
va); y tampoco es posible afirmar que el efecto simple de A en b2 difiera del efecto sim-
ple de A en b3 (comparación nº 3 no significativa).

Tres comentarios más sobre el efecto de la interacción. En primer lugar, conviene saber que
el efecto de la interacción puede ser significativo tanto si los efectos principales son signi-
ficativos como si no. Y al revés.
En segundo lugar, es importante recordar que los efectos simples no informan de lo mis-
mo que el efecto de la interacción. Interpretar la interacción requiere comparar efectos sim-
ples; pero, analizar los efectos simples y decidir que difieren cuando unos son significativos
y otros no, no es comparar los efectos simples. En nuestro ejemplo sobre la relación entre el
rendimiento, la dificultad de la tarea y el nivel de ansiedad, hemos encontrado que el efecto
simple de A en b1 era significativo y que los efectos simples de A en b2 y b3 no lo eran. ¿Sig-
nifica esto que lo que ocurre con el efecto de A en b1 difiere de lo que ocurre con el efecto
de A en b2 y en b3? La respuesta es no: el resultado de las comparaciones entre los efectos
simples indican otra cosa. En el Apéndice 7 se discute más a fondo esta cuestión.
Por último, también es importante saber qué hacer con los efectos principales en pre-
sencia de una interacción significativa. Dado que una interacción significativa está indican-
do que el efecto de un factor no es el mismo en todos los niveles del otro factor, puede afir-
marse que el significado de los efectos principales queda matizado (incluso alterado) por la
presencia de una interacción significativa8 (ver León y Montero, 2003, págs. 278-282).

8
El grado en que un efecto principal puede verse alterado por la presencia de una interacción significativa depende de varios
factores, pero uno bastante determinante es que las líneas del gráfico de perfiles se crucen (interacción no ordinal) o no
(interacción ordinal).
274 Análisis de datos (vol. II)

Algunos autores sugieren que, siendo significativa la interacción, todavía podría tener senti-
do interpretar los efectos principales en determinadas circunstancias (ver, por ejemplo, Ho-
well, 2002, pág. 432; Keppel y Wickens, 2004, pág. 244; León y Montero, 2003, págs. 278-
279 y 295), pero otros muchos recomiendan no prestar atención a los efectos principales en
presencia de una interacción significativa (Games, 1973; Kirk, 1995, pág. 370; Maxwell y
Delaney, 2004, pág. 301; Pedhazur y Pedhazur, 1991, pág. 523; Winer, Brown y Michels,
1991, págs. 326-327). Cualquiera que sea la postura que se adopte, lo importante es tener
presente que, si el efecto de la interacción es significativo, los efectos principales no solo no
estarán contando toda la historia, sino que, además, es muy posible que la estén contando
mal. Y esto es algo que no debe pasarse por alto.

ANOVA de dos factores completamente aleatorizados con SPSS


En este apartado se explica cómo utilizar el SPSS para: (1) contrastar las hipótesis globales
referidas a los efectos de A, B y AB en un diseño de dos factores completamente aleatoriza-
dos, (2) estimar el tamaño del efecto y la potencia observada de esos tres efectos, (3) reali-
zar comparaciones post hoc para interpretar los efectos principales, (4) realizar compara-
ciones múltiples para valorar los efectos simples y (5) realizar comparaciones múltiples pa-
ra valorar el efecto de la interacción.
Todas estas tareas pueden llevarse a cabo con el procedimiento Univariante. No obstan-
te, veremos que las comparaciones necesarias para analizar el efecto de la interacción (la 5ª
tarea) es más fácil llevarlas a cabo con el procedimiento ANOVA de un factor. Utilizaremos el
ejemplo propuesto en la Tabla 7.5 sobre la relación entre el rendimiento (variable depen-
diente), la dificultad de la tarea (factor A) y el nivel de ansiedad (factor B ).

Hipótesis globales (efecto de A, de B y de AB )


Para llevar a cabo un análisis de varianza de dos factores completamente aleatorizados con
los datos de la Tabla 7.5:

Reproducir en el Editor de datos los datos de la Tabla 7.5 (o abrir el archivo Tabla 7.5
dificultad ansiedad rendimiento que se encuentra en la página web del manual).

Seleccionar la opción Modelo lineal general > Univariante del menú Analizar para acceder
al cuadro de diálogo Univariante y trasladar la variable rendimiento al cuadro Depen-
diente y las variables dificultad (dificultad de la tarea) y ansiedad (nivel de ansiedad) a
la lista Factores fijos9.

9
La lista Factores aleatorios permite ajustar modelos con factores de efectos aleatorios. La lista Covariables permite ajus-
tar modelos de análisis de covarianza (ver Apéndice 10). Y el cuadro Ponderación MCP permite utilizar una variable de
ponderación. En los modelos de ANOVA se asume que la varianza de la variable dependiente es la misma en todas las
poblaciones objeto de estudio. Cuando las varianzas poblacionales no son iguales (por ejemplo, cuando las casillas con pun-
tuaciones mayores muestran más variabilidad que las casillas con puntuaciones menores), el método de mínimos cuadra-
dos no consigue ofrecer estimaciones óptimas. En estos casos, si la diferencia en la variabilidad de las casillas puede esti-
marse a partir de alguna variable, el método de mínimos cuadrados ponderados (MCP) permite tener en cuenta esa variable
de ponderación al estimar los parámetros de un modelo lineal, dando más importancia a las observaciones más precisas (es
decir, a aquéllas con menor variabilidad).
8
Análisis de varianza (III)
Un factor con medidas repetidas

A los modelos de análisis de varianza estudiados en los Capítulos 6 y 7 los hemos llamado
completamente aleatorizados porque a cada condición del diseño (es decir, a cada nivel del
factor, en el caso de un factor; o a cada combinación entre los niveles de los factores, en el
caso de dos factores) se asigna una muestra aleatoria de sujetos distintos (grupos aleatorios).
A los modelos que vamos a estudiar en este capítulo y en el siguiente se les llama de medi-
das repetidas (MR) porque se utilizan los mismos sujetos en más de una condición (bloques
aleatorios).
Consideremos un estudio diseñado para conocer la opinión de los consumidores sobre
cinco productos rivales. Podemos seleccionar al azar tantos grupos de sujetos como productos
(cinco) y hacer que cada grupo opine sobre un producto; al proceder de esta manera tenemos
un diseño con un factor (tipo de producto, con cinco niveles) completamente aleatorizado
(tantos grupos de sujetos como niveles tiene el factor). En lugar de esto, podemos seleccionar
un único grupo y pedir a cada sujeto que exprese su preferencia por cada uno de los cinco pro-
ductos; seguimos teniendo un factor (tipo de producto), pero con medidas repetidas (un único
grupo de sujetos opina sobre todos los productos).
En este capítulo estudiaremos el modelo de un factor con medidas repetidas (A-MR). En
el siguiente estudiaremos los modelos de dos factores: el de dos factores con medidas repe-
tidas en ambos (AB-MR) y el de dos factores con medidas repetidas en uno (AB-CA-MR).

Características de los diseños de medidas repetidas


Trabajar con medidas repetidas significa trabajar con dos o más variables cuantitativas. Es-
tas variables pueden obtenerse de diferentes maneras. La más habitual consiste en tomar
varias medidas a los mismos sujetos, ya sea midiendo dos o más variables distintas (por
ejemplo, calificaciones en lengua, matemáticas e inglés), ya sea midiendo la misma variable
en varios momentos distintos (por ejemplo, el peso antes de participar en un programa de
adelgazamiento, al terminar el programa y al cabo de un mes de terminado el programa).
296 Análisis de datos (vol. II)

También se obtienen medidas repetidas cuando, en lugar de utilizar los mismos sujetos,
se utilizan bloques de sujetos igualados mediante algún tipo de vínculo relevante para el aná-
lisis (bloques aleatorios). Por ejemplo, en un estudio diseñado para comparar tres métodos
de enseñanza de las matemáticas, se pueden formar bloques de tres sujetos con el mismo
cociente intelectual y asignar cada sujeto del mismo bloque a un método distinto. Aunque los
sujetos del mismo bloque son distintos, el hecho de que sean homogéneos en una caracte-
rística relevante para el análisis permite considerar cada bloque como unidad de análisis.
Tanto si se utilizan los mismos sujetos como si se utilizan bloques de sujetos igualados,
lo que caracteriza a las medidas repetidas es que no son independientes entre sí; y no lo son
porque, tanto en el caso de puntuaciones pertenecientes a los mismos sujetos como en el de
puntuaciones pertenecientes a sujetos igualados, el conocimiento de una de las puntuaciones
de un sujeto o bloque permite saber algo de las demás puntuaciones del mismo sujeto o
bloque: los buenos estudiantes tienden a obtener puntuaciones altas en lengua, en matemá-
ticas y en inglés; los sujetos que más se benefician de un programa de adelgazamiento tien-
den a ser los que mejor mantienen ese beneficio al cabo de un mes; los sujetos con cociente
intelectual alto tienden a aprender mejor con cualquier método de enseñanza; etc. Puede que
una puntuación no diga mucho de las demás, pero es seguro que algo dice. Y esta circunstan-
cia debe ser tenida en cuenta en el análisis.
Los modelos de análisis de varianza con medidas repetidas sirven para valorar el efecto
de uno o más factores cuando al menos uno de ellos es un factor intrasujetos. En un factor
intersujetos o completamente aleatorizados (ver Capítulos 6 y 7), cada nivel del factor se
asocia a un grupo de sujetos. Un factor intrasujetos o con medidas repetidas se distingue
porque todos los niveles del factor se aplican a los mismos sujetos. Los términos intersu-
jetos e intrasujetos se aplican tanto a los factores como a los diseños. Los términos diseño
intrasujetos y diseño con medidas repetidas se refieren al mismo tipo de diseño.
Los diseños intrasujetos o con medidas repetidas ya los hemos empezado a estudiar en
el Capítulo 12 del primer volumen y en el Capítulo 5 de éste. El más simple de todos ellos
consiste en medir dos variables en una misma muestra de sujetos. Es lo que hemos hecho al
aplicar la prueba T para muestras relacionadas. Pero los diseños de medidas repetidas pue-
den tener más de dos medidas y más de un factor. Los ejemplos de las Tablas 8.1 a 8.3 pue-
den ayudar a comprender las diferencias entre los diseños completamente aleatorizados (CA)
y los de medidas repetidas (MR). Cada sujeto (cada participante en el estudio) está repre-
sentado con la letra s ; las letras con el mismo subíndice se refieren al mismo sujeto; subín-
dices distintos indican sujetos distintos. Seguimos utilizando a1, a2, ..., aJ para identificar los
niveles del factor A y b1, b2, ..., bK para identificar los niveles del factor B.
En la Tabla 8.1 están representados dos diseños de un factor. La Tabla 8.1.1 muestra un
diseño CA (grupos aleatorios o muestras independientes, es decir, sujetos distintos en cada
condición). Con 5 sujetos por condición, hacen falta 20 sujetos para completar las 4 condi-
ciones del diseño. Cada sujeto genera una puntuación. Estos datos se analizan con el mode-
lo de un factor CA (ver Capítulo 6). Si el factor solamente tiene dos niveles, los datos pue-
den analizarse con la prueba T de Student para muestras independientes (ver Capítulo 4).
La Tabla 8.1.2 muestra un diseño MR (bloques aleatorios o muestras relacionadas, es
decir, los mismos sujetos en todas las condiciones). Las 4 condiciones del diseño se com-
pletan con los mismos 5 sujetos. Cada sujeto genera 4 puntuaciones. Estos datos se analizan
con el modelo de un factor MR (lo estudiaremos en este capítulo). Cuando un factor con me-
didas repetidas tiene solamente dos niveles, los datos pueden analizarse con la prueba T de
Student para muestras relacionadas (ver Capítulo 5).
Capítulo 8. ANOVA. Un factor con medidas repetidas 297

Tabla 8.1. Diseños de un factor. 1: completamente aleatorizado; 2: medidas repetidas

1 a1 a2 a3 a4 2 a1 a2 a3 a4
s1 s6 s11 s16 s1 s1 s1 s1
s2 s7 s12 s17 s2 s2 s2 s2
s3 s8 s13 s18 s3 s3 s3 s3
s4 s9 s14 s19 s4 s4 s4 s4
s5 s10 s15 s20 s5 s5 s5 s5

En la Tabla 8.2 están representados tres diseños de dos factores. En los tres casos se trata de
diseños 2 × 4. La Tabla 8.2.1 muestra un diseño CA. En este diseño ambos factores son in-
tersujetos. Con 5 sujetos por condición, hacen falta 40 sujetos para completar las 8 condi-
ciones del diseño. Cada sujeto genera una sola puntuación. Estos datos se analizan con el
modelo de dos factores completamente aleatorizados (ver Capítulo 7).
La Tabla 8.2.2 muestra un diseño con medidas repetidas en ambos factores. Los dos
factores son intrasujetos. Las 8 condiciones del diseño se completan con los mismos 5 su-
jetos. Cada sujeto genera 8 puntuaciones. Estos datos se analizan con el modelo de dos fac-
tores con medidas repetidas en ambos (lo estudiaremos en el Capítulo 9).
La Tabla 8.2.3 muestra un diseño con medidas repetidas en el segundo factor: A es un
factor intersujetos; B es un factor intrasujetos. A los niveles de A se han asignado sujetos
distintos; a los de B se han asignado los mismos sujetos. Las 8 condiciones del diseño se
completan con 10 sujetos (los 5 de la condición a1 más los 5 de la condición a2 ). Cada suje-
to genera 4 puntuaciones. Estos datos se analizan con el modelo de dos factores con me-
didas repetidas en uno de ellos (lo estudiaremos en el Capítulo 9).

Tabla 8.2. Diseños de dos factores. 1: dos factores completamente aleatorizados (AB-CA); 2: dos factores
con medidas repetidas en ambos (AB-MR); 3: dos factores con medidas repetidas en uno (el B) (AB-CA-MR)

1 b1 b2 b3 b4 2 b1 b2 b3 b4 3 b1 b2 b3 b4
s1 s6 s11 s16 s1 s1 s1 s1 s1 s1 s1 s1
s2 s7 s12 s17 s2 s2 s2 s2 s2 s2 s2 s2
a1 s3 s8 s13 s18 a1 s3 s3 s3 s3 a1 s3 s3 s3 s3
s4 s9 s14 s19 s4 s4 s4 s4 s4 s4 s4 s4
s5 s10 s15 s20 s5 s5 s5 s5 s5 s5 s5 s5
s21 s26 s31 s36 s1 s1 s1 s1 s6 s6 s6 s6
s22 s27 s32 s37 s2 s2 s2 s2 s7 s7 s7 s7
a2 s23 s28 s33 s38 a2 s3 s3 s3 s3 a2 s8 s8 s8 s8
s24 s29 s34 s39 s4 s4 s4 s4 s9 s9 s9 s9
s25 s30 s35 s40 s5 s5 s5 s5 s10 s10 s10 s10

Las ventajas de los diseños con medidas repetidas son evidentes: requieren menos sujetos que
un diseño completamente aleatorizado (ver Kirk, 1995, págs. 286-288) y permiten eliminar
la variabilidad debida a las diferencias entre los sujetos (pues se utilizan los mismos). Como
contrapartida, los supuestos del análisis se vuelven algo más exigentes (estudiaremos esto más
298 Análisis de datos (vol. II)

adelante) y es necesario vigilar algunos efectos derivados del hecho de utilizar los mismos
sujetos. Por ejemplo, el efecto de arrastre, que ocurre cuando se aplica una condición antes
de que haya finalizado el efecto de otra aplicada previamente, o el efecto del aprendizaje por
la práctica, que ocurre cuando las respuestas de los sujetos pueden mejorar con la repetición
y, como consecuencia de ello, los tratamientos administrados en último lugar parecen más
efectivos que los administrados en primer lugar, sin que haya diferencias reales entre ellos
(cuando se sospecha de la presencia de este efecto es importante controlar el orden de pre-
sentación de las condiciones). Conviene conocer las fortalezas y debilidades de estos dise-
ños para decidir correctamente cuándo utilizarlos (ver León y Montero, 2003, págs. 233-258).

ANOVA de un factor con medidas repetidas (A-MR)


Vamos a comenzar con el caso más simple: el modelo de un factor (A-MR). Este modelo
sirve para analizar los datos procedentes de un diseño con un solo grupo de sujetos y un úni-
co factor por cuyos niveles pasan todos los sujetos (ver Tabla 8.1.2). Se trata de una gene-
ralización de la prueba T de Student para muestras relacionadas al caso de más de dos va-
riables (más de dos medidas repetidas).
Para ilustrar la aplicación de este modelo pensemos en un estudio diseñado para valorar
el efecto del paso del tiempo sobre la calidad del recuerdo. A un grupo de sujetos se les hace
memorizar una historia. Más tarde, al cabo de una hora, de un día, de una semana y de un
mes, se les pide que intenten reproducir la historia. Un grupo de expertos evalúa la calidad
del recuerdo de cada sujeto en cada momento. Tenemos un factor (al que podemos llamar
tiempo) con cuatro niveles (los cuatro momentos en los que se registra el recuerdo) y una
variable dependiente (la calidad del recuerdo) de la que se toman cuatro medidas.
La Tabla 8.3 muestra la estructura de los datos y la notación utilizada en un diseño de un
factor con medidas repetidas. Seguimos llamando A al único factor del modelo e Y a la va-
riable dependiente (la variable cuantitativa de la que se toman varias medidas). Los subíndi-
ces son necesarios para identificar cada elemento de la tabla. A los J niveles del factor A los
representamos mediante a1, a2, ..., aj..., aJ ( j = 1, 2, ..., J ). Y a cada sujeto lo representamos
mediante si (i = 1, 2, ..., n).

Tabla 8.3. Estructura de los datos y notación en un diseño de un factor con medidas repetidas (A-MR)

Factor A
Sujetos a1 a2 ··· aj ··· aJ Suma
s1 ··· ···
s2 ··· ···
··· ··· ··· ··· ··· ··· ··· ···
si ··· ···
··· ··· ··· ··· ··· ··· ··· ···
sn ··· ···

Suma ··· ···


Capítulo 8. ANOVA. Un factor con medidas repetidas 299

Recordemos que el signo “+” colocado como subíndice se refiere a todos los valores del
subíndice al que sustituye. Por ejemplo, Y2+ se refiere a todas las puntuaciones del segundo
sujeto (todos los valores j cuando i = 2). Los totales de cada nivel del factor ( ) se obtie-
nen sumando las n puntuaciones de cada columna; los de cada sujeto ( ) se obtienen su-
mando las J puntuaciones de cada fila; y el gran total (T ) se obtiene sumando todas las pun-
tuaciones de la tabla. Con estos totales se obtienen las medias de cada nivel del factor (me-
dias de las columnas), de cada sujeto (medias de las filas) y del total de la tabla; basta con
dividir esos totales entre el número de observaciones utilizadas para obtenerlos:

= , = , = = [8.1]

Los niveles del factor A definen J poblaciones. Supongamos que la variable cuantitativa Y
se distribuye normalmente en esas J poblaciones y que todas ellas tienen la misma varianza.
Y supongamos que, de cada una de esas J poblaciones, extraemos una muestra de n obser-
vaciones con la particularidad de que esas observaciones no son independientes entre sí por-
que pertenecen a los mismos sujetos o a bloques de J sujetos igualados. En este escenario es
posible identificar varios tipos de variabilidad.
La variabilidad total recoge la variabilidad entre cada observación y la media total. Es-
ta variabilidad total se puede descomponer en tres fuentes de variabilidad1: (1) la que se da
entre los diferentes niveles del factor o variabilidad intergrupos, también llamada intra-
sujetos por ser la variabilidad entre las puntuaciones de los mismos sujetos, (2) la que se da
entre los diferentes sujetos o variabilidad intersujetos y (3) la que se da entre cada obser-
vación y sus respectivas medias marginales (es decir, la variabilidad de cada observación
individual respecto de la media de su misma fila y columna); a esta forma de variabilidad la
llamamos variabilidad error porque representa el alejamiento de cada puntuación respecto
de lo esperado en función de sus valores marginales.
Estas tres fuentes de variabilidad pueden cuantificarse aplicando la lógica ya utilizada
a propósito del modelo de un factor CA. Así, la variabilidad intergrupos o intrasujetos, que
se refiere a las diferencias existentes entre las medias de las diferentes medidas (niveles del
factor), puede cuantificarse mediante la varianza o media cuadrática intergrupos:

MCI = MCA = [8.2]

(puesto que la MCI únicamente incluye la variabilidad debida al factor A, también podemos
llamarla MCA ). La variabilidad intersujetos o variabilidad entre las medias de los sujetos
puede cuantificarse mediante la varianza o media cuadrática intersujetos:

MCS = [8.3]

Y la variabilidad error o variabilidad entre cada puntuación y sus correspondientes medias


marginales puede cuantificarse mediante la varianza o media cuadrática error:

MCE = MCA × S = [8.4]

1
Por supuesto, esta descomposición de la variabilidad total en tres fuentes de variabilidad tiene su justificación matemá-
tica (ver Pardo y San Martín, 1998, págs. 256-259 ). Pero esto es justamente lo que estamos intentando evitar aquí.
300 Análisis de datos (vol. II)

Esta media cuadrática refleja, en realidad, la interacción entre los sujetos (filas) y los niveles
del factor (columnas), es decir, la interacción AS, y sustituye a la variabilidad intragrupos o
error de los modelos CA que aquí no existe porque solamente hay una observación por casilla.
Aplicando ahora la lógica estudiada a propósito del modelo completamente aleatoriza-
do, sabemos que el cociente entre MCA y MCA × S expresa cómo de grande es la variabilidad
entre las medias de las diferentes medidas o niveles del factor (MCA) en comparación con la
variabilidad error (MCA × S ), que es la variabilidad que cabría esperar por azar independien-
temente del tamaño de las medias poblacionales. Por tanto, el estadístico

F = = [8.5]

que sabemos que se distribuye según el modelo de probabilidad F con los grados de libertad
del numerador (J  1), y los del denominador [(J 1) (n 1)], puede utilizarse para contrastar
la hipótesis de que las J medias poblacionales son iguales2. El Cuadro 8.1 ofrece un resumen
del procedimiento3.
El estadístico F propuesto en [8.5] permite contrastar la hipótesis de igualdad de medias
si, al igual que en cualquier otro modelo de ANOVA, se dan ciertas condiciones. Estas con-
diciones son las mismas que en el modelo completamente aleatorizado más alguna otra adi-
cional que trataremos en el siguiente apartado.

Cuadro 8.1. Resumen del ANOVA de un factor con medidas repetidas (A-MR)

1. Hipótesis: H0: = = ··· = (todas las medias son iguales).


H 1: =/ para algún j o j1 ( j =/ j1) (no todas las medias son iguales).
2. Supuestos: J muestras aleatoriamente seleccionadas de J poblaciones normales con
la misma varianza; asumimos también que las varianzas de las diferencias entre cada
par de medidas son iguales (ver siguiente apartado).
3. Estadístico del contraste (ver ecuación [8.5]): F = MCA MCA × S.

2
El cociente entre MCS y MCA ×S podría utilizarse para comparar las n medias de los sujetos, pero esto es algo que, en este
contexto, no suele tener interés. Se da por hecho que los sujetos difieren (razón por la cual se utilizan varios). La variabi-
lidad entre los sujetos únicamente se tiene en cuenta para eliminarla de la variabilidad error.
3
La diferencia entre el modelo completamente aleatorizado (CA) y el de medidas repetidas (MR) está únicamente en la
variabilidad intersujetos. Recordemos que, en el modelo CA, la variabilidad total se descompone en dos fuentes de varia-
bilidad: intergrupos y error. Ahora, en el modelo MR, la variabilidad total se descompone en tres fuentes de variabilidad:
intergrupos, intersujetos y error. Puesto que las variabilidades total e intergrupos son idénticas en ambos modelos, la va-
riabilidad error es menor en el modelo MR que en el CA en la cantidad correspondiente a la variabilidad intersujetos. Có-
mo de grande es esa cantidad es algo que depende del grado de relación existente entre las medidas repetidas. Si la relación
es alta, también lo será la variabilidad intersujetos, pues los sujetos que tienden a puntuar bajo (alto) en una medida ten-
derán a puntuar bajo (alto) en las demás y las medias de los sujetos serán distintas. Pero si las medidas repetidas son in-
dependientes, la variabilidad intersujetos será pequeña, pues los sujetos tenderán a puntuar indistintamente bajo y alto en
las diferentes medidas y sus medias serán parecidas. Por tanto, si las medidas repetidas no están relacionadas, no se obten-
drá ningún beneficio aplicando un modelo MR (es decir, no se conseguirá reducir la variabilidad error debida a las dife-
rencias entre los sujetos y, consecuentemente, no habrá diferencia entre aplicar un modelo CA y un modelo MR).
Capítulo 8. ANOVA. Un factor con medidas repetidas 301

4. Distribución muestral: F se distribuye según FJ  1, (n 1)(J  1) .


 FJ  1, (J 1)(n  1) ; 1  D .
5. Zona crítica: F >
6. Regla de decisión: se rechaza H0 si el estadístico F cae en la zona crítica; en caso
contrario, se mantiene. El rechazo de H0 indica que no todas las medias poblaciona-
les son iguales, es decir, que hay al menos una media que difiere de al menos otra.
 Fh ), siendo Fh el valor muestral concreto que to-
7. Nivel crítico (valor p): p = P (F >
ma el estadístico F.

Ejemplo. ANOVA de un factor con medidas repetidas (A-MR)


En un experimento diseñado para estudiar el efecto del paso del tiempo sobre la calidad del
recuerdo, a un grupo de 6 sujetos se les ha hecho memorizar una historia durante 20 minu-
tos. Más tarde, al cabo de una hora, un día, una semana y un mes, se les ha solicitado re-
producir la historia escribiendo todo lo que recordaban. Un grupo de expertos ha evaluado
la calidad del recuerdo en cada uno de los 4 registros efectuados hasta elaborar los datos que
muestra la Tabla 8.4. A partir de estos datos, ¿qué puede concluirse acerca del efecto del pa-
so del tiempo sobre la calidad del recuerdo? (D = 0,05)

Tabla 8.4. Datos de un diseño A-MR. Calidad del recuerdo en cuatro momentos

Sujetos Hora Día Semana Mes Medias


1 16 11 9 8 11
2 14 8 4 2 7
3 19 13 7 9 12
4 17 10 8 9 11
5 16 14 8 6 11
6 20 16 12 8 14

Medias 17 12 8 7 11

Se trata de un diseño con una variable independiente o factor (al que podemos llamar tiempo)
con cuatro niveles (J = 4). Los n = 6 sujetos incluidos en el estudio pasan por los 4 niveles
del factor (medidas repetidas). La variable dependiente, calidad del recuerdo (en realidad se
trata de 4 variables cuantitativas) se ha obtenido a partir de las valoraciones de varios exper-
tos. Tenemos, por tanto, un diseño de un factor con medidas repetidas.
Antes de comenzar el análisis siempre es recomendable formarse una idea sobre los datos
que se van a analizar. Para esto, nada como un diagrama de cajas representando las puntua-
ciones individuales de las variables (de las medidas repetidas) y un gráfico de líneas repre-
sentando las medias. La Figura 8.1 muestra ambas cosas. Aunque el diagrama correspon-
diente a un mes muestra una distribución algo asimétrica, no da la impresión de que estemos
ante distribuciones muy asimétricas; de hecho, la prueba de normalidad de Shapiro-Wilk (ver
302 Análisis de datos (vol. II)

Capítulo 2) indica que ninguna de las cuatro distribuciones se aleja significativamente de la


normalidad). Al interpretar estos diagramas debe tenerse en cuenta que la muestra es muy
pequeña (cada diagrama de caja se ha construido con 6 puntuaciones). El gráfico de líneas
muestra que la calidad del recuerdo va disminuyendo con el paso del tiempo. La cuestión es-
tá en determinar si esa tendencia es real o solamente refleja cambios atribuibles a las fluc-
tuaciones propias del azar muestral.

Figura 8.1. Diagramas de caja (izquierda) y gráfico de líneas (derecha) de la calidad del recuerdo al cabo
de una hora, un día, una semana y un mes

1. Hipótesis:
H0: P hora = P día = P semana = P mes (el paso del tiempo no afecta a la calidad del recuerdo).
H1: P j =/ P j1 para algún valor de j o j1 (j =/ j1) (el paso del tiempo afecta a la calidad del
recuerdo).
2. Supuestos: tenemos 4 muestras aleatorias de puntuaciones extraídas de poblaciones que
asumimos normales y con la misma varianza; asumimos también que las varianzas de las
diferencias entre cada par de medidas son iguales (ver siguiente apartado).
3. Estadístico del contraste (ver ecuación [8.5]). Para obtener el estadístico F únicamente
necesitamos las puntuaciones y las medias que ofrece la Tabla 8.3:
MCA = 6 [(17  11)2 + (12  11)2 + (8  11)2 + (7  11)2 ] / (4  1) = 124.
MCA × S = [(16  11  17 + 11)2 + (14  7  17 + 11)2 + (19  12  17 + 11)2 + · · ·
+ (9  11  7 + 11)2 + (5  11  7 + 11)2 + (8  7  14 + 11)2 ] / [(4  1)(6  1) =
= 42 / 15 = 2,133.
F = MCA MCA × S = 124 / 2,133 = 58,13.
4. Distribución muestral: F se distribuye según FJ  1, (J 1) (n  1) = F4 1, (4 1) (6 1) = F3, 15 .
5. Zona crítica: F > F3, 15; 0,95 = 3,29.
6. Decisión: como el valor del estadístico del contraste (58,13) es mayor que el punto críti-
co (3,29), se rechaza H0. Se puede concluir, por tanto, que los promedios poblacionales
comparados no son iguales. El rechazo de la hipótesis de igualdad de medias indica que
la calidad del recuerdo no es la misma en los cuatro momentos considerados. Sin em-
bargo, no permite precisar qué momentos difieren de qué otros; para esto es necesario
realizar las comparaciones múltiples que estudiaremos más adelante.
7. Nivel crítico: p = P (F >  58,13) < 0,01.
Capítulo 8. ANOVA. Un factor con medidas repetidas 303

Supuestos del modelo


Al igual que en el modelo de un factor CA, en el modelo de un factor MR se asume que los
sujetos son aleatoriamente seleccionados de poblaciones normales con la misma varianza.
Por tanto, se asume independencia, normalidad e igualdad de varianzas (ver el Capítulo 6
para una aclaración del significado de estos supuestos). La diferencia está en que, ahora, la
independencia se refiere a los distintos sujetos o bloques, no a las puntuaciones dentro del
mismo sujeto o bloque, las cuales, no solo pueden estar relacionadas, sino que cabe esperar
que lo estén. Además de estos tres supuestos, en el modelo MR se asume que el efecto del
factor no depende de los sujetos o bloques a los que se aplica (la interacción AS se conside-
ra error: ver, en el apéndice 8, el apartado Prueba de no-aditividad de Tukey).
Este último supuesto unido al de igualdad de las varianzas posee algunas implicaciones
relacionadas con la matriz de varianzas-covarianzas de las medidas repetidas (la matriz J × J
que contiene las varianzas de cada medida en la diagonal principal y las covarianzas entre
cada par de medidas fuera de la diagonal). En concreto, de esos dos supuestos se deduce que
las varianzas son iguales e iguales también las covarianzas (es decir, las correlaciones entre
cada par de medidas). Esta característica de la matriz de varianzas-covarianzas se denomina
simetría compuesta y es condición suficiente para que el cociente MCA / MCA × S se distri-
buya según el modelo de probabilidad F con los grados de libertad propuestos.
Sin embargo, la simetría compuesta no es una condición necesaria para que el cociente
MCA / MCA × S se ajuste a la distribución F. En realidad, es una condición más exigente de lo
necesario. La condición necesaria y suficiente tiene que ver más bien con las varianzas de
las diferencias entre cada par de medidas. Puesto que todos los sujetos pasan por los J ni-
veles del factor, es posible reorganizar los datos en términos de todos los posibles pares de
combinaciones entre medidas. Con tres medidas, por ejemplo, tendremos J (J  1) / 2 = 3 pa-
res: a1a2, a1a3 y a2a3. Calculando en cada par de medidas la diferencia entre las dos puntua-
ciones de cada sujeto o bloque obtendremos tres grupos de diferencias; y calculando las va-
rianzas de esas diferencias obtendremos tres varianzas: las varianzas de las diferencias entre
cada par de medidas. Pues bien, lo que implican los supuestos de igualdad de varianzas y de
independencia entre el efecto del factor y los sujetos o bloques es que las varianzas de las
diferencias son iguales. A esta condición se le llama esfericidad (o circularidad), y Huynh
y Feldt (1970) y Rouanet y Lépine (1970) han demostrado que es la condición necesaria y
suficiente para que el estadístico F se distribuya como asumimos que se distribuye.
En condiciones de normalidad y esfericidad, el cociente F = MCA / MCA×S permite con-
trastar la hipótesis de igualdad de medias con buen control sobre la tasa de error y con tan-
ta o más potencia que cualquier otro procedimiento (y existen muchos). Pero ocurre que,
cuando se trabaja con medidas repetidas, la esfericidad es más la excepción que la regla.
Cuando las medidas repetidas se obtienen tomando varias medidas en el tiempo (por ejem-
plo, línea base o pre-test, post-test y seguimiento), lo habitual es que las correlaciones entre
las medidas que se encuentran más próximas en el tiempo sean más altas que las correla-
ciones entre medidas más alejadas; y esto dificulta que la matriz de varianzas-covarianzas
sea esférica. Y cuando las medidas repetidas se obtienen midiendo distintas variables en el
mismo momento, no es infrecuente encontrar que unas variables son más dispersas que otras.
Por tanto, en el contexto de las ciencias sociales y de la salud, raramente el estadístico F se-
rá la solución idónea para analizar los datos provenientes de un diseño de medidas repetidas.
Por lo general, será preferible utilizar alguno de los procedimientos diseñados para poder
lidiar con el incumplimiento del supuesto de esfericidad.
304 Análisis de datos (vol. II)

Alternativas al estadístico F
En condiciones de no-esfericidad, el estadístico F se vuelve liberal (aumenta la probabilidad
de cometer errores Tipo I). Y esto puede afectar seriamente a las conclusiones basadas en el
rechazo de la hipótesis de igualdad de medias. Por tanto, antes de elaborar conclusiones ba-
sadas en el rechazo de esta hipótesis, es importante asegurarse de que puede asumirse que la
matriz de varianzas-covarianzas es esférica. Para esto existen varios procedimientos. El más
popular (aunque no el más recomendable) es, quizá, el propuesto por Mauchly (1940); y es
el que incluye el SPSS4.
¿Qué hacer cuando se incumple el supuesto de esfericidad? El procedimiento SPSS que
utilizaremos en este capítulo ofrece dos soluciones alternativas: (1) modificar los grados de
libertad de la distribución F y (2) utilizar estadísticos multivariados que no asumen esferi-
cidad (en el Volumen III estudiaremos otras soluciones).

Estadístico F con los grados de libertad modificados


Box (1954a, 1954b) ha demostrado que, cualquiera que sea el grado de incumplimiento del
supuesto de esfericidad, el cociente MCA / MCA × S se distribuye aproximadamente según el
modelo de probabilidad F con H (J 1) y H (J 1)(n 1) grados de libertad.
Por tanto, la primera solución al problema de la no-esfericidad consiste en multiplicar los
grados de libertad del cociente MCA / MCA × S por un índice corrector denominado H. Este
índice expresa el grado de esfericidad de la matriz de varianzas-covarianzas poblacional;
cuando esa matriz es completamente esférica, H vale 1, que es su valor máximo; cuanto me-
nos esférica es esa matriz, más se aproxima H a su valor mínimo. Geiser y Greenhouse (1958)
han demostrado que ese mínimo es 1 / (J  1). Por tanto, la modificación de los grados de li-
bertad basada en H se produce siempre a la baja (haciendo el contraste más conservador) y es
tanto mayor cuanto menos esférica es la matriz de varianzas-covarianzas.
El problema de esta solución es que H es un parámetro y, por tanto, un valor desconoci-
do. No obstante, Box (1954b) y Huynh y Feldt (1976), entre otros, han propuesto estimacio-
nes para H que suelen incluirse en los programas informáticos (ver Apéndice 8). La estima-
ción propuesta por Box aparece en el SPSS con el nombre Geisser-Greenhouse probable-
mente porque fueron Geisser y Greenhouse (1958; Greenhouse y Geisser, 1959) quienes ex-
tendieron la propuesta de Box a diseños más complejos.

Aproximación multivariada
La segunda solución consiste en analizar los datos procedentes de un diseño de medidas re-
petidas mediante una serie de estadísticos agrupados bajo la denominación aproximación
multivariada (ver, por ejemplo, Maxwell y Delany, 2004, cap. 13). Para obtener estos esta-
dísticos es necesario recurrir al cálculo matricial. No obstante, el SPSS ofrece los estadísticos
multivariados comúnmente utilizados para este propósito (lamda de Wilks, T 2 de Hotelling-

4
La mayoría de los procedimientos disponibles para chequear el supuesto de esfericidad son sensibles a la no normalidad
de las poblaciones originales (Keselman, Rogan, Mendoza y Breen, 1980). No obstante, Cornell, Young, Seaman y Kirk
(1992), tras comparar ocho de estos procedimientos, han llegado a la conclusión de que el locally best invariant test (John,
1971, 1972; Nagao, 1973; Sugiura, 1972) es el más potente al tiempo que ofrece un buen control sobre la tasa de error (Kirk,
1995, pág. 278, explica cómo aplicar este procedimiento).
Capítulo 8. ANOVA. Un factor con medidas repetidas 305

Lawley, raíz mayor de Roy y traza de Pillai) acompañados de sus correspondientes niveles
críticos; y eso es todo lo que se necesita para contrastar la hipótesis de igualdad de medias.
La ventaja principal de estos estadísticos multivariados es que no exigen que la matriz
de varianzas-covarianzas sea esférica (condición que constituye la principal fuente de pro-
blemas con el estadístico F convencional). Como contrapartida, pierden potencia cuando se
utilizan con tamaños muestrales pequeños.

Qué solución elegir


La pregunta inevitable en este momento es qué solución de las disponibles debe adoptarse.
Aunque no pocos expertos se inclinan por la aproximación multivariada (ver, por ejemplo,
Maxwell y Delaney, 2004, págs. 671-676), la respuesta a esta pregunta es compleja. Podría
parecer que, puesto que la aproximación multivariada no exige esfericidad, está libre de pro-
blemas. Pero las cosas no son exactamente así. Si puede asumirse esfericidad, el estadístico
F es más potente que los multivariados. Y si no puede asumirse esfericidad, ninguna solu-
ción es sistemáticamente más potente que la otra. Aunque, en teoría, la aproximación multiva-
riada no exige esfericidad, lo cierto es que, en condiciones de no-esfericidad, va perdiendo
potencia conforme va disminuyendo el tamaño muestral, hasta el punto de que con tamaños
muestrales pequeños no es nada recomendable (ver Davidson, 1972; o Jensen, 1982, 1987).
Así las cosas, consideramos que, con los estadísticos mencionados, la forma razonable
de proceder es la siguiente:
1. Si puede asumirse esfericidad, utilizar el estadístico F (es la mejor estrategia cuando se
cumplen los supuestos del análisis). Si no puede asumirse esfericidad, continuar con el
siguiente paso.
2. Utilizar la aproximación multivariada (solución apropiada con muestras grandes pero
poco potente con muestras pequeñas). Si se rechaza la hipótesis nula, terminar el análi-
sis; si no se rechaza, continuar con el siguiente paso.
En algunos casos (por ejemplo, cuando el número de sujetos o bloques es menor que
el número de medidas repetidas) no es posible aplicar la aproximación multivariada.
Cuando ocurre esto, puede utilizarse el estadístico F modificando los grados de libertad
con el valor mínimo o límite inferior de H (la estrategia más conservadora de todas). Es-
ta estrategia consiste en asumir que el cociente MCA / MCA × S se aproxima a la distri-
bución F con 1 y n  1 grados de libertad. Si se rechaza la hipótesis nula, terminar el
análisis; si no se rechaza, continuar con el siguiente paso.
3. Utilizar el estadístico F con los grados de libertad modificados mediante el valor esti-
mado de H, es decir, con las soluciones propuestas para H por Geisser-Greenhouse y
Huynh-Feldt (ninguna de ellas parece ser sistemáticamente mejor que la otra, pero la
solución de Greenhouse-Geisser es algo más conservadora). Si se ha llegado hasta aquí,
adoptar como buena la decisión a la que lleve este paso.
Por supuesto, las peculiaridades de cada diseño (número de casos, número de medidas repeti-
das, grado de cumplimiento o incumplimiento de los supuestos de normalidad y esfericidad,
etc.), podrían hacer preferible alguna solución sobre otra. Pero los pasos propuestos llevarán
a una solución aceptable en términos de potencia y control de la tasa de error. Y, aunque esta
estrategia secuencial puede parecer engorrosa, debe tenerse en cuenta que este tipo de análisis
suele realizarse con la ayuda de programas informáticos.
306 Análisis de datos (vol. II)

Medidas del tamaño del efecto


Las medidas del tamaño del efecto propuestas para el modelo completamente aleatorizado
(ver Capítulo 6) son válidas también aquí. La medida que acapara las preferencias de los
expertos es la versión parcial de omega-cuadrado ( ). Su valor concreto5 depende de que
el factor sea de efectos fijos o de efectos aleatorios (Kirk, 1995, págs. 261-263). Si el factor
es de efectos fijos6,

= [8.6]

y si es de efectos aleatorios,

= [8.7]

Recordemos que este estadístico se interpreta como proporción de varianza común o com-
partida: indica cómo de grande es la variabilidad entre las medidas repetidas en compara-
ción con la variabilidad total (excluyendo la variabilidad entre los sujetos7 ). La ecuación
[8.7] también se conoce como coeficiente de correlación intraclase, una medida del grado
de parecido (relación) existente entre las respuestas de los sujetos8.
El estadístico está estrechamente relacionado con la medida del tamaño del efecto
de Cohen (1988):

= [8.8]

La regla propuesta por Cohen para interpretar estas medidas sigue siendo válida aquí. En lo
relativo a , valores de 0,01, 0,06 y 0,14 indican efectos de tamaños pequeño, mediano y
grande. En el caso de ( f en la notación utilizada por Cohen), los valores de referencia son
0,10, 025 y 0,40.
En nuestro ejemplo sobre la relación entre la calidad del recuerdo y el paso del tiempo
(ver Tabla 8.4) tenemos J = 4 medidas repetidas, n = 6 sujetos, MCA = 124 y MCA×S = 2,80.
Asumiendo que el factor (momentos en los que se registra el recuerdo) es de efectos fijos,

= = 0,88

5
Si el estadístico F es menor que 1 (es decir, sin MCA < MCA×S ), las ecuaciones [8.6] y [8.7] ofrecen un valor negativo.
Puesto que una proporción no puede ser negativa, cuando ocurre esto se considera que Z2 vale cero.
6
El valor de también puede obtenerse a partir del estadístico F. Cuando el factor es de efectos fijos, la ecuación [8.6]
equivale a = [(J  1) (F  1)] / [n J + (J 1) (F 1)]. Cuando el factor es de efectos aleatorios, la ecuación [8.7] equiva-
le a = (F  1) / [(n  1) + F ].
7
Los estadísticos definidos en [8.6] y en [8.7] son medidas parciales, por contraposición a las medidas completas, que
utilizan la variabilidad total en el denominador. En general, las medidas de asociación parciales son preferibles a las com-
pletas, pues comparan la variabilidad debida al factor con una estimación neta de la variabilidad error (Keppel y Wickens,
2004, pág. 235; Maxwell, Camp y Arvey, 1981).
8
Sustituyendo en [8.7] MCA por MCS y n  1 por J  1 se obtiene una estimación del grado de variabilidad existente entre
los sujetos o bloques. Esta estimación refleja el grado de parecido existente entre las medidas repetidas y es muy utiliza-
da en el contexto de la fiabilidad de las escalas (ver Abad, Olea, Ponsoda y García, 2010, Cap. 9).
Capítulo 8. ANOVA. Un factor con medidas repetidas 307

= = 2,71

Ambos estadísticos indican que el efecto del paso del tiempo sobre la calidad del recuerdo
es de gran tamaño. En concreto, conocer en qué momento se registra el recuerdo (hora, día,
semana, mes) mejora nuestro conocimiento sobre su calidad un 84 %.

Cálculo de la potencia y del tamaño muestral


La estrategia para calcular la potencia observada y el tamaño muestral necesario para alcan-
zar una determinada potencia se ha descrito ya en el Capítulo 6. Lo dicho allí sirve también
aquí. Partimos del parámetro de no centralidad O y de su transformación en :

= , = [8.9]

La potencia asociada al estadístico F puede obtenerse de la Tabla G del Apéndice final a


partir del valor de y de los grados de libertad del estadístico F:

= = = [8.10]

El parámetro de no centralidad O también puede estimarse simplemente multiplicando el va-


lor del estadístico F por los grados de libertad de su numerador (J  1).
En nuestro ejemplo sobre la relación entre el paso del tiempo y la calidad del recuerdo
con J = 4 medidas (ver Tabla 8.4) hemos obtenido MCA = 124 y MCA×S = 2,133. Por tanto,

= = 6,60

(utilizando el estadístico F = 58,13 y los grados de libertad de su numerador (J  1 = 3) se


obtiene para O un valor estimado de 58,13 × 3 = 174,39. Por tanto: = = 6,60).
Ahora, para calcular la potencia observada correspondiente a un valor = 6,60 necesi-
tamos D = 0,05, gl1 = J  1 = 3 y gl2 = (J  1) (n  1) = 15. En la Tabla G del Apéndice final
(redondeando a gl2 = 16 y tomando = 3, que es el valor mayor que ofrece la tabla), en-
contramos que la probabilidad de cometer errores Tipo II (E) vale cero. Por tanto, la poten-
cia de este contraste (1  E) vale 1.
Para estimar el tamaño muestral necesario para alcanzar una determinada potencia es ne-
cesario establecer: (1) el nivel de significación D (generalmente 0,05), (2) el número de me-
didas repetidas del diseño (J ), (3) el tamaño del efecto que se desea poder detectar o que se
considera mínimamente relevante ( o ), y (4) la potencia que se desea alcanzar (general-
mente 0,80). Al eliminar el tamaño muestral de [8.10], queda la medida del tamaño del efecto
definida por Cohen (ver [6.12]):

= Ú n = [8.11]

Supongamos que en un estudio con 4 medidas repetidas (gl1 = 3) y D = 0,05 queremos que
la potencia del contraste para detectar un efecto de tamaño medio (G = 0,25 según la regla de
308 Análisis de datos (vol. II)

Cohen) valga 0,80 (E = 0,20). Tenemos que utilizar la Tabla G al revés de como lo hemos
hecho antes, pero ahora nos encontramos con que no conocemos los grados de libertad gl2,
pues dependen del tamaño muestral que estamos buscando. Esto, sin embargo, no represen-
ta ningún problema porque utilizar un valor de partida de 30 o mayor no hace cambiar las
cosas. Podemos elegir, por ejemplo, gl2 = . Así, con gl1 = 3, gl2 = y E = 0,20 (tomamos
0,23), la Tabla G ofrece un valor de 1,6 para . Por tanto, n = (1,6 / 0,25)2 = 40,96. Es decir,
hacen falta al menos 41 sujetos para alcanzar una potencia de 0,77.

Comparaciones múltiples
El rechazo de la hipótesis global de igualdad de medias permite afirmar que hay medias que
no son iguales, pero no permite precisar qué medias difieren de qué otras. Para esto es nece-
sario realizar comparaciones múltiples.
En el caso de que pueda asumirse esfericidad, los procedimientos descritos a propósi-
to del modelo de un factor completamente aleatorizado (ver, en el Capítulo 6, el apartado
Comparaciones múltiples) sirven para el modelo de un factor con medidas repetidas. Úni-
camente hay que tener en cuenta que la media cuadrática error, que ahora es MCA × S , se
calcula de forma distinta y que sus grados de libertad son (J  1) (n  1) en lugar de N  J.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados pa-
ra realizar comparaciones planeadas o a priori siguen siendo válidos si se tiene la precau-
ción de utilizar las ecuaciones propuestas para el caso en que no puede asumirse que las va-
rianzas poblacionales son iguales (por ejemplo, utilizando la ecuación [6.36] en lugar de la
[6.35]; ver, por ejemplo, Mitzel y Games, 1981).
Y en lo relativo a las comparaciones post hoc o a posteriori, es preferible (ver Kesel-
man y Keselman, 1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980) estudiar las
comparaciones por pares utilizando la prueba T de Student para muestras relacionadas (ver
Capítulo 5) corrigiendo la tasa de error por comparación (DC) mediante el método de Dunn-
Bonferroni, es decir, dividiendo D F , generalmente 0,05, entre el número de comparaciones
por pares llevadas a cabo (lo cual equivale a utilizar la tabla de Dunn-Bonferroni en lugar de
la tabla de la distribución t)9. En el siguiente apartado se explica cómo hacer todo esto con
el SPSS.

ANOVA de un factor con medidas repetidas (A-MR) con SPSS


El ANOVA de un factor con medidas repetidas está disponible en el procedimiento GLM
Medidas repetidas. Este procedimiento permite obtener todos los estadísticos estudiados en los
apartados anteriores, contrastar el supuesto de esfericidad, estimar el tamaño del efecto y la
potencia observada, y realizar comparaciones múltiples planeadas y post hoc.
Desde el punto de vista de la disposición de los datos en el Editor de datos, la diferen-
cia más evidente entre un factor completamente aleatorizado (CA) y un factor con medidas
repetidas (MR) se encuentra en la correspondencia existente entre el factor y el número de

9
Puede obtenerse un ligero incremento en la potencia (ver Hochberg y Tamhane, 2009) si el valor del estadístico T para
muestras relacionadas se compara con el cuantil 100 (1  D) de la distribución del módulo máximo studentizado (ver Par-
do y San Martín, 1998, Tabla M del Apéndice final) con k = J (J  1) / 2 y n  1 grados de libertad.
9
Análisis de varianza (IV)
Dos factores
con medidas repetidas

ANOVA de dos factores con medidas repetidas en ambos


En el diseño de un factor con medidas repetidas estudiado en el capítulo anterior, todos los
sujetos participan en todas las condiciones del estudio. En el diseño de dos factores, ambos
con medidas repetidas (AB-MR), ocurre exactamente lo mismo: todos los sujetos participan
en todas las condiciones del estudio, es decir, en todas las condiciones resultantes de com-
binar los niveles de ambos factores (ver Tabla 8.2.2).
Imaginemos que, para estudiar la relación entre la calidad del recuerdo y el paso del tiem-
po, a una muestra aleatoria de sujetos se les hace memorizar dos listas distintas: una de letras
y otra de números. Más tarde, al cabo de una hora, un día, una semana y un mes, se les so-
licita repetir ambas listas y se registra el número de aciertos. Tenemos dos factores o varia-
bles categóricas: contenido (con dos niveles: números y letras) y tiempo (con cuatro niveles:
hora, día, semana, mes); y una variable dependiente (calidad del recuerdo) que hemos cuan-
tificado mediante el número de aciertos. Los dos factores son intrasujetos pues a todos los su-
jetos se les hace memorizar números y letras, y a todos se les pide hacerlo al cabo de una
hora, un día, una semana y un mes; es decir, todos los sujetos pasan por todas las condiciones
del estudio (por todas las condiciones resultantes de combinar los niveles de ambos factores).
Las fortalezas y debilidades de un diseño de estas características son las mismas que las
del diseño de un factor con medidas repetidas. Requiere utilizar menos sujetos que un dise-
ño completamente aleatorizado y permite aislar y eliminar la variabilidad debida a las dife-
rencias entre los sujetos (pues todos ellos participan en todas las condiciones del estudio).
Como contrapartida, los supuestos del análisis se vuelven algo más exigentes y es necesa-
rio vigilar algunos efectos derivados del hecho de utilizar los mismos sujetos (como el efecto
de arrastre o el efecto del aprendizaje por la práctica).
330 Análisis de datos (vol. II)

La Tabla 9.1 muestra la estructura de los datos y la notación que utilizaremos en un dise-
ño de dos factores con medidas repetidas en ambos. Seguimos llamando A y B a los factores
e Y a la variable dependiente (la variable cuantitativa de la que se toman varias medidas). A
los J niveles del factor A los representamos mediante a1, a2, ..., aj..., aJ ( j = 1, 2, ..., J ). A los
K niveles del factor B los representamos mediante b1, b2, ..., bk..., bK (k = 1, 2, ..., K ). A ca-
da sujeto lo representamos mediante si (i = 1, 2, ..., n). Los n sujetos incluidos en el estudio
participan en todas las condiciones del diseño, es decir, en las JK condiciones resultantes de
combinar los J niveles del factor A con los K niveles del factor B.

Tabla 9.1. Estructura de los datos en un diseño de dos factores con medidas repetidas en ambos (AB-MR)

a1 aj aJ
Sujetos b1 ··· bk ··· bK b1 ··· bk ··· bK b1 ··· bk ··· bK
s1 ··· ··· ··· ··· ··· ···
s2 ··· ··· ··· ··· ··· ···
··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···
si ··· ··· ··· ··· ··· ···
··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···
sn ··· ··· ··· ··· ··· ···

Sumando puntuaciones se obtienen los totales y las medias necesarios para el análisis. Así,
por ejemplo, con las puntuaciones de cada fila de la tabla se obtienen los totales y las medias
correspondientes a cada sujeto; con las puntuaciones de cada columna se obtienen los tota-
les y las medias correspondientes a cada combinación AB; etc. Siguiendo la lógica ya apli-
cada a propósito del modelo completamente aleatorizado (ver ecuaciones [7.1] a [7.5]) se
obtienen el resto de totales y medias.
En un modelo de dos factores, los efectos que interesa analizar son tres: los dos efectos
principales (es decir, los efectos de cada factor individualmente considerado, A y B ) y el
efecto de la interacción entre ambos factores (es decir, el efecto conjunto o combinado de
ambos factores, AB). El hecho de que el diseño sea completamente aleatorizado o de medidas
repetidas no cambia esto. Y para poder analizar estos tres efectos, es necesario identificar las
diferentes fuentes de variabilidad presentes en el diseño.
Ya hemos visto que, en un diseño completamente aleatorizado (CA), la variabilidad to-
tal (la variabilidad que se da entre cada observación y la media total) se descompone en va-
riabilidad intergrupos y variabilidad intragrupos o error. También hemos visto que en un
diseño con medidas repetidas (MR) hay una forma más de variabilidad: la debida a las di-
ferencias entre los sujetos o variabilidad intersujetos (esta fuente de variabilidad también
existe en un diseño CA, pero no hay forma de aislarla).
Además, si el diseño tiene dos factores (tanto si es CA como si es MR), la variabilidad
intergrupos puede descomponerse, a su vez, en la variabilidad asociada al factor A, la aso-
ciada al factor B y la asociada a la interacción AB. Todas estas fuentes de variabilidad ya
las hemos estudiado en alguno de los tres capítulos anteriores.
Capítulo 9. ANOVA. Dos factores con medidas repetidas 331

En esta forma de descomponer la variabilidad total se está asumiendo que los sujetos son
independientes del resto de efectos. Por tanto, las interacciones A×S, B ×S y AB ×S constitu-
yen variabilidad error. En el diseño de un factor MR (ver capítulo anterior), la variabilidad
error es precisamente la variabilidad asociada a la interacción entre el factor A y los sujetos.
En el diseño de dos factores MR la variabilidad error también incluye la variabilidad debi-
da a la interacción entre los sujetos y cada uno de los efectos intrasujetos, es decir, la debida
a la interacción entre el efecto de A y los sujetos (A×S ), la debida a la interacción entre el
efecto de B y los sujetos (B×S ) y la debida a la interacción entre el efecto de AB y los sujetos
(AB×S ). En consecuencia, en un diseño de dos factores, ambos con medidas repetidas, la va-
riabilidad total puede descomponerse en siete fuentes distintas de variabilidad. La Tabla 9.2
muestra cómo cuantificarlas.

Tabla 9.2. Medias cuadráticas en un diseño de dos factores con medidas repetidas en ambos (AB-MR)

MCA =

MCB =

MCAB =

MCS =

MCA×S =

MCB×S =

MCAB×S =

Por tanto, no existe una única fuente de variabilidad error, sino tres. Y para valorar la sig-
nificación de los efectos presentes en el diseño (A, B y AB), cada uno debe compararse con
su correspondiente variabilidad error:

= [9.1]

Así, para valorar el efecto del factor A se utiliza el cociente entre la media cuadrática de A
y la media cuadrática de la interacción A×S. Para valorar el efecto del factor B se utiliza el
cociente entre la media cuadrática de B y la media cuadrática de la interacción B×S. Y Para
valorar el efecto de la interacción AB se utiliza el cociente entre la media cuadrática de AB
y la media cuadrática de la interacción AB×S.
La lógica de estos tres cocientes se entenderá fácilmente si se considera que valorar el
efecto del factor A consiste en comparar las medias marginales correspondientes a los nive-
les del factor A tras promediar el resto de efectos. Ahora bien, al promediar las K puntua-
ciones de cada sujeto se obtiene un diseño de un factor MR idéntico al estudiado en el capí-
332 Análisis de datos (vol. II)

tulo anterior. Analizando estos promedios con el estadístico F del modelo de un factor MR
se obtiene el mismo resultado que con la solución propuesta en [9.1]. Exactamente lo mismo
vale decir del efecto del factor B.
En relación con el efecto de la interacción, la única variabilidad error es la que se da en-
tre cada puntuación individual y las medias marginales de su propia columna (ver Tabla 9.1).
Y esa variabilidad es justamente la debida a la interacción entre AB y los sujetos.
El Cuadro 9.2 ofrece un resumen de cómo analizar los tres efectos del diseño (A, B y AB)
mediante la aplicación de los estadísticos F propuestos en [9.1]. Estos estadísticos se dis-
tribuyen según el modelo de probabilidad F con los grados de libertad correspondientes al
numerador y al denominador de cada cociente. Ahora bien, para que esto sea así, es necesa-
rio seguir asumiendo, como en cualquier otro modelo de ANOVA, que se dan ciertas con-
diciones. Estas condiciones son las mismas que las estudiadas a propósito del modelo de un
factor MR, pero con algunos matices que trataremos en el siguiente apartado.

Cuadro 9.2. Resumen del ANOVA de dos factores con medidas repetidas en ambos (AB-MR)

1. Hipótesis: las hipótesis sobre los efectos del factor A, el factor B y la interacción AB
son las mismas que en el modelo de dos factores completamente aleatorizados (ver
Cuadro 7.1).
2. Supuestos: muestra de tamaño n aleatoriamente seleccionada de JK poblaciones nor-
males con la misma varianza; también se asume que la matriz de varianzas-covarian-
zas de las JK medidas repetidas es esférica (ver siguiente apartado).
3. Estadísticos del contraste (ver ecuación [9.1] y Tabla 9.12):
a. Para H0 (A) : FA = MCA MCA×S .
b. Para H0 (B) : FB = MCB MCB×S .
c. Para H0 (AB) : FAB = MCAB MCAB×S .
4. Distribuciones muestrales:
a. FA se distribuye según F con J 1 y (J 1)(n 1) grados de libertad.
b. FB se distribuye según F con K 1 y (K 1)(n 1) grados de libertad.
c. FAB se distribuye según F con (J 1)(K 1) y (J 1)(K 1)(n 1) grados de libertad.
5. Zonas críticas:
a. FA 
> FJ 1, (J 1)(n 1); 1 D .
b. FB 
> FK 1, (K 1)(n 1); 1 D .
 F(J 1)(K 1), (J 1)(K 1)(n 1); 1 D .
c. FAB >
6. Reglas de decisión: las mismas que en el modelo de dos factores completamente
aleatorizados (ver Cuadro 7.1).
7. Niveles críticos (valores p): los mismos que en el modelo de dos factores comple-
tamente aleatorizados (ver Cuadro 7.1).

La Tabla 9.2 y el Cuadro 9.2 contienen la información necesaria para resolver las ecua-
ciones que permiten analizar los tres efectos del diseño. No obstante, en lugar de realizar
cálculos a mano, explicaremos todos los detalles del análisis utilizando el SPSS.
Capítulo 9. ANOVA. Dos factores con medidas repetidas 333

Supuestos del modelo


Si consideramos un diseño de dos factores MR como un diseño de un factor con JK niveles,
los supuestos mencionados a propósito del modelo de un factor son directamente traslada-
bles al de dos factores. En lugar de las J poblaciones del modelo de un factor, en el modelo
de dos factores tenemos JK poblaciones normales con la misma varianza de las que se ex-
traen sendas muestras aleatorias de n observaciones, con la peculiaridad de que las distintas
muestras no son independientes entre sí (bien porque se trata de los mismos sujetos, bien
porque se trata de sujetos igualados mediante algún vínculo relevante para el análisis).
Además, se asume que la matriz de varianzas-covarianzas de las JK medidas repetidas
es esférica, es decir, que las varianzas de las diferencias entre cada dos medidas son iguales
(ver, en el capítulo anterior, los supuestos del modelo de un factor). Si esta matriz global es
esférica, los tres estadísticos propuestos en el Cuadro 9.2 son válidos para contrastar sus
respectivas hipótesis1. Si esta matriz global no es esférica, todavía es posible que exista es-
fericidad local referida a los niveles del factor A o a los niveles del factor B.
Por tanto, para decidir aplicar los estadísticos F propuestos en el Cuadro 9.2, conviene
chequear el supuesto de esfericidad para cada efecto por separado. En condiciones de nor-
malidad y esfericidad, estos estadísticos permiten contrastar sus respectivas hipótesis con
buen control sobre la tasa de error y con tanta o más potencia que cualquier otro procedi-
miento. En condiciones de no-esfericidad, es recomendable utilizar otros estadísticos. En el
capítulo anterior, en el apartado Alternativas al estadístico F, se han presentado estos otros
estadísticos y la estrategia recomendada para contrastar un efecto intrasujetos.

Medidas del tamaño del efecto


Al igual que en otros modelos de ANOVA, la versión parcial de permite obtener una
estimación de la proporción de varianza común entre cada efecto y la variable dependiente:

= [9.2]

Esta medida de asociación parcial es la que ofrece el SPSS como estimación del tamaño del
efecto. No obstante, puesto que tiende a ofrecer una estimación inflada de la verdadera
proporción de varianza compartida, la medida de asociación que tiende a acaparar las prefe-
rencias de los expertos para cuantificar el tamaño de un efecto intrasujetos es omega-cua-
drado ( ).
Cuando los factores son de efectos fijos, el tamaño del efecto puede estimarse (ver Kirk,
1995, pág. 460) mediante

= [9.3]

1
En el caso de que pueda asumirse esfericidad global, los tres estadísticos F propuestos en el Cuadro 9.2 podrían cal-
cularse utilizando en el denominador la media cuadrática error resultante de combinar las tres medias cuadráticas error
propuestas (ver Kirk, 1995, págs. 463-464).
334 Análisis de datos (vol. II)

El estadístico está estrechamente relacionado con la medida del tamaño del efecto de
Cohen (1988):

= [9.4]

La regla propuesta por Cohen para interpretar estas medidas sigue siendo válida aquí. En lo
relativo a y , valores de 0,01, 0,06 y 0,14 indican efectos de tamaños pequeño, media-
no y grande. En el caso de ( f en la notación de Cohen), los valores de referencia son 0,10,
0,25 y 0,40.

Cálculo de la potencia y del tamaño muestral


Para el cálculo de la potencia, sirve aquí lo ya estudiado a propósito de otros modelos. Par-
timos de una estimación del parámetro de no centralidad y de su transformación en :

= , = [9.5]

La potencia asociada al contraste de cada efecto puede obtenerse de la Tabla G del Apéndi-
ce final a partir del valor de y de los grados de libertad de cada estadístico Fefecto. Para
estimar el tamaño muestral necesario para alcanzar una determinada potencia al contrastar un
efecto concreto, puede utilizarse la ecuación [7.26] y los pasos descritos en ese apartado.

Comparaciones múltiples
El hecho de que un diseño sea de medidas repetidas no cambia las cosas a la hora de cómo
proceder tras detectar un efecto significativo. En el caso de que resulte significativo un efec-
to principal (A, B), el análisis debe continuar comparando los niveles correspondientes a ese
efecto para poder precisar dónde se encuentran las diferencias. En el caso de que resulte sig-
nificativo el efecto de la interacción (AB), el análisis debe continuar comparando entre sí los
efectos simples. Todo esto, al margen de que el estudio incluya objetivos concretos que exi-
jan comparaciones planeadas.
Si puede asumirse esfericidad, los procedimientos descritos a propósito del modelo de
dos factores CA (ver, en el Capítulo 7, el apartado Comparaciones múltiples) sirven también
para el modelo de dos factores MR. Únicamente hay que tener en cuenta que, ahora, cada
efecto tiene su propia media cuadrática y sus propios grados de libertad.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados para
realizar comparaciones planeadas o a priori siguen siendo válidos si se tiene la precaución
de utilizar las ecuaciones propuestas para el caso en que no pueda asumirse que las varianzas
poblacionales son iguales.
Y en lo relativo a las comparaciones post hoc o a posteriori, es preferible (ver Kesel-
man y Keselman, 1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980) realizar com-
paraciones por pares aplicando la prueba T de Student para muestras relacionadas y corri-
giendo la tasa de error por comparación (D C) mediante el método de Dunn-Bonferroni, es
decir, dividiendo D F, generalmente 0,05, entre el número de comparaciones por pares lle-
vadas a cabo. En el siguiente apartado se explica cómo hacer todo esto con el SPSS.
346 Análisis de datos (vol. II)

ANOVA de dos factores con medidas repetidas en uno


Los diseños en los que todos los factores son intrasujetos (como el estudiado en el apartado
anterior) no son tan comunes como los diseños que incluyen algún factor intersujetos. Lo
habitual es que un estudio incluya algún factor intersujetos, bien porque se utilizan variables
que definen grupos naturales (sexo, edad, etc.), bien porque se utilizan variables manipula-
das por el investigador (grupos experimental y control; etc.).
El diseño que vamos a tratar en este apartado es una mezcla de diseños que ya hemos
estudiado. En concreto, es una mezcla del diseño de un factor completamente aleatorizado
y del diseño de un factor con medidas repetidas (ver Tabla 8.2.3). Se trata, por tanto, de un
diseño que incluye un factor intersujetos (un grupo distinto de sujetos en cada uno de sus
niveles) y un factor intrasujetos (los mismos sujetos en todos sus niveles). En todo momen-
to llamaremos A al factor intersujetos y B al factor intrasujetos.
Como ejemplo típico de este tipo de diseños, consideremos un estudio diseñado para
valorar la eficacia de un nuevo tratamiento antidepresivo. Imaginemos que a un grupo de pa-
cientes afectados de depresión se les aplica la escala de depresión de Hamilton para obtener
una medida inicial o basal del nivel de depresión de cada paciente. Tras esto, se seleccionan
aleatoriamente 40 pacientes entre los que alcanzan o superan la puntuación 30. Imaginemos
que con estos 40 pacientes se forman dos grupos aleatorios del mismo tamaño y que un grupo
comienza a recibir el nuevo tratamiento antidepresivo (grupo experimental) y el otro grupo
un tratamiento estándar (grupo control). Al cabo de cuatro semanas de iniciado el tratamiento
se vuelve a administrar la escala de depresión para obtener una medida de la evolución de los
pacientes. Al cabo de ocho semanas se vuelve a administrar de nuevo la escala y se da por
finalizado el estudio.
En un diseño de estas características tenemos dos factores o variables categóricas: tra-
tamiento (con dos niveles: nuevo y estándar) y tiempo (con tres niveles: basal, semana 4 y
semana 8); y una variable dependiente (nivel de depresión) medida con la escala de depre-
sión de Hamilton. El factor tratamiento es intersujetos, pues a cada nivel del factor se asig-
na un grupo distinto de sujetos (grupos aleatorios). El factor tiempo es intrasujetos, pues a
todos los sujetos se les mide el nivel de depresión en los tres momentos (bloques aleatorios).
De ahí el nombre que recibe el modelo de ANOVA que sirve para analizar este tipo de dise-
ños: dos factores con medidas repetidas en uno3 (AB-CA-MR).
Las ventajas de un diseño de estas características son evidentes. Representa un compro-
miso entre los modelos CA y MR. Por un lado, requiere utilizar menos sujetos que un diseño
CA y permite reducir parte de la variabilidad error por el hecho de utilizar los mismos sujetos.
Por otro, el impacto de los efectos de arrastre y fatiga es menor que en los diseños comple-
tamente MR.
Además, y esto es lo realmente interesante, permite tratar situaciones que no pueden
abordarse con otro tipo de diseños: un diseño completamente aleatorizado permite comparar
los tratamientos, pero no hacer seguimiento a los sujetos; un diseño de medidas repetidas
permite hacer seguimiento a los sujetos, pero no comparar los tratamientos; un diseño AB-
CA-MR permite hacer ambas cosas. Y probablemente ésta es la razón por la que es tan uti-

3
A este tipo de diseños también se les llama split-plot. Y, dado que se trata de diseños que combinan factores intersujetos
e intrasujetos, también reciben, a veces, el nombre de mixtos; no obstante, lo habitual es reservar este término para resal-
tar la presencia simultánea de efectos fijos y aleatorios en un mismo modelo (ver el Capítulo 2 del Volumen III).
Capítulo 9. ANOVA. Dos factores con medidas repetidas 347

lizado en el ámbito de las ciencias sociales y de la salud (ver Micceri, 1989). De hecho, este
diseño constituye el paradigma de lo que se conoce como ensayo clínico.
La estructura de los datos se corresponde con la representada en la Tabla 8.2.3. Y la no-
tación utilizada es la misma que en el modelo de dos factores MR (ver Tabla 9.1).
Puesto que se trata de un modelo de dos factores, los efectos que interesa analizar siguen
siendo tres: los dos efectos principales (los efectos de cada factor individualmente conside-
rado, A y B) y el efecto de la interacción entre ambos factores (el efecto conjunto o combi-
nado de ambos factores, AB). Y, al igual que en el resto de diseños estudiados, para poder
analizar estos tres efectos es necesario identificar las diferentes fuentes de variabilidad pre-
sentes en el diseño.
En un diseño completamente aleatorizado (CA), la variabilidad total se descompone en
variabilidad intergrupos y variabilidad intragrupos o error. En un diseño con medidas re-
petidas (MR) hay una forma más de variabilidad: la debida a las diferencias entre los sujetos
o variabilidad intersujetos (recordemos que esta forma de variabilidad también existe en un
diseño CA, pero no hay forma de aislarla).
Además, si el diseño tiene dos factores (tanto si los factores son CA como si son MR),
la variabilidad intergrupos puede descomponerse, a su vez, en la variabilidad asociada al fac-
tor A, la asociada al factor B y la asociada a la interacción AB. Todas estas fuentes de varia-
bilidad son las mismas que hemos estudiado en el apartado anterior a propósito del diseño de
dos factores MR.
En esta forma de descomponer la variabilidad total se está asumiendo que los sujetos no
interaccionan ni con A, ni con B ni con AB. Por tanto, se está asumiendo que estas interac-
ciones reflejan variabilidad error. En el diseño de un factor A-MR hemos visto que la va-
riabilidad error es precisamente la variabilidad debida a la interacción entre el factor y los
sujetos. En el diseño de dos factores AB-CA-MR ocurre lo mismo: la variabilidad error se
estima a partir de la variabilidad debida a la interacción entre el factor intrasujetos y los
sujetos, es decir, a partir de la interacción entre el factor B y los sujetos: B × S . La interac-
ción entre el factor A y los sujetos no se contempla porque cada sujeto participa en un único
nivel del factor A. Y tampoco se contempla la triple interacción entre A, B y los sujetos por-
que cada combinación B × S únicamente se da en un nivel del factor A.
Esto significa que, en un diseño de dos factores con medidas repetidas en uno, la varia-
bilidad total puede descomponerse en cinco fuentes distintas de variabilidad. La Tabla 9.15
muestra cómo cuantificar estas fuentes de variabilidad.

Tabla 9.15. Medias cuadráticas en un diseño de dos factores con medidas repetidas en uno (AB-CA-MR)

MCA =

MCB =

MCAB =

MCS =

MCB × S =
348 Análisis de datos (vol. II)

Por tanto, no existe una única fuente de variabilidad error, sino dos. Y para valorar la sig-
nificación de los efectos presentes en el diseño (A, B y AB) cada uno debe compararse con
su correspondiente variabilidad error:

=
= [9.6]
=

Para valorar el efecto del factor A se utiliza el cociente entre la media cuadrática de A y la
media cuadrática de los sujetos (MCS). Valorar el efecto de A consiste en comparar las me-
dias marginales correspondientes a los niveles del factor A tras promediar el resto de efectos.
Ahora bien, al promediar las K puntuaciones de cada sujeto se obtiene un diseño de un úni-
co factor CA. Analizando estos promedios con el estadístico F del modelo de un factor CA
se obtiene el mismo resultado que con el estadístico FA en [9.6].
Para valorar el efecto del factor B y el de la interacción AB se utiliza el cociente entre la
media cuadrática correspondiente al factor B y la media cuadrática de la interacción entre el
factor B y los sujetos (MCB × S ). En lo relativo al factor B, valorar su efecto consiste en com-
parar las medias marginales de cada uno de sus niveles. Con un solo grupo (J = 1), la situa-
ción sería idéntica a la del modelo de un factor MR, donde el término error es justamente la
interacción entre el factor y los sujetos. Con J > 1 grupos tenemos J diseños de un factor.
Aplicando el modelo de un factor MR a cada grupo obtendríamos J medias cuadráticas referi-
das a la interacción entre el factor y los sujetos. Lo que se hace en el modelo de dos factores
es utilizar como variabilidad error para el factor intrasujetos el promedio de esas J medias
cuadráticas (lo cual, como veremos en el siguiente apartado, tiene algunas implicaciones
sobre los supuestos del análisis).
Con el efecto de la interacción AB ocurre algo parecido a lo que ocurre con el efecto del
factor B. Para valorar el efecto de la interacción se analiza lo que ocurre con el efecto de B
en cada nivel de A. Y esto nos lleva a la misma solución adoptada para el factor B. Por tan-
to, cuando un efecto contiene una mezcla de factores inter e intrasujetos, el efecto de la in-
teracción se considera intrasujetos y se analiza como tal.
El Cuadro 9.3 ofrece un resumen del procedimiento para contrastar las hipótesis relativas
a los efectos de A, B y AB mediante los estadísticos propuestos en [9.6]. Bajo ciertas condi-
ciones (ver el siguiente apartado sobre los supuestos del modelo), estos estadísticos F se
aproximan a la distribución F con los grados de libertad correspondientes al numerador y al
denominador de cada estadístico.

Cuadro 9.3. Resumen del ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR)

1. Hipótesis: las hipótesis sobre los efectos del factor A, el factor B y la interacción AB
son las mismas que en el modelo de dos factores completamente aleatorizados (ver
Cuadro 7.1).
2. Supuestos: J muestras de tamaño n aleatoriamente seleccionadas de K poblaciones
normales con la misma varianza; también se asume que las J matrices de varianzas-
covarianzas de las K medidas repetidas (una por cada nivel del factor A), además de
esféricas, son iguales (ver siguiente apartado).
Capítulo 9. ANOVA. Dos factores con medidas repetidas 349

3. Estadísticos del contraste (ver ecuación [9.6] y Tabla 9.15):


a. Para H0 (A) : FA = MCA MCS .
b. Para H0 (B) : FB = MCB MCB×S .
c. Para H0 (AB) : FAB = MCAB MB × S .
4. Distribuciones muestrales:
a. FA se distribuye según F con J 1 y J (n 1) grados de libertad.
b. FB se distribuye según F con K 1 y J (K 1)(n 1) grados de libertad.
c. FAB se distribuye según F con (J 1)(K 1) y J (K 1)(n 1) grados de libertad.
5. Zonas críticas:
a. FA 
> FJ 1, J (n 1); 1 D .
b. FB 
> FK 1, J (K 1)(n 1); 1 D .
 F(J 1)(K 1, J (K 1)(n 1); 1 D .
c. FAB >
6. Reglas de decisión: las mismas que en el modelo de dos factores completamente alea-
torizados (ver Cuadro 7.1).
7. Niveles críticos (valores p): los mismos que en el modelo de dos factores completa-
mente aleatorizados (ver Cuadro 7.1).

Con la información de la Tabla 9.15 y del Cuadro 9.3 tenemos todo lo necesario para resol-
ver las ecuaciones que permiten analizar los tres efectos del diseño. No obstante, en lugar de
hacer cálculos a mano, explicaremos todos los detalles del análisis utilizando el SPSS.

Supuestos del modelo


Puesto que un diseño AB-CA-MR incluye tanto efectos intersujetos como efectos intrasu-
jetos, el correspondiente modelo de ANOVA necesita establecer supuestos que afectan por
separado a ambos tipos de efectos.
Por lo que se refiere al efecto intersujetos (efecto del factor A), se asume exactamente
lo mismo que con cualquier otro efecto CA, es decir, se asume que se está trabajando con J
muestras aleatorias (por tanto, con observaciones independientes) procedentes de pobla-
ciones normales con la misma varianza (estos supuestos afectan a los promedios de las K
medidas repetidas). Para todo lo relacionado con el incumplimiento de este supuesto puede
consultarse lo ya dicho en el Capítulo 6 a propósito del modelo de un factor CA.
Y en lo relativo a los efectos intrasujetos (efecto del factor B y efecto de la interacción
AB ), además del supuesto de esfericidad ya estudiado, que se aplica a cada una de las J ma-
trices de varianzas-covarianzas entre las K medidas repetidas (una por cada nivel del factor
A), se asume que esas J matrices son iguales. A estos dos supuestos combinados se les llama
esfericidad multi-muestra (Huynh, 1978).
Por tanto, antes de aplicar un modelo AB-CA-MR es necesario vigilar el cumplimiento
de cuatro supuestos: independencia, normalidad, igualdad de varianzas entre los niveles del
factor intersujetos y esfericidad multi-muestra (este último supuesto incluye el de esfericidad
de las J matrices de varianzas-covarianzas y el de igualdad de esas J matrices).
350 Análisis de datos (vol. II)

Aunque el muestreo aleatorio garantiza la independencia de las observaciones, puede


utilizarse la prueba de las rachas para chequearlo (ver Capítulo 2). La ausencia de normali-
dad sabemos que deja de ser un problema si el tamaño muestral es razonablemente grande;
no obstante, si se tiene que trabajar con muestras pequeñas, la normalidad puede chequear-
se con la prueba de Kolmogorov-Smirnov (ver Capítulo 2). Para contrastar el supuesto de que
las J varianzas poblacionales (una por cada nivel del factor intersujetos) son iguales puede
utilizarse, al igual que con el modelo de un factor CA, la prueba de Levene (ver Capítulo 6).
El supuesto de esfericidad multi-muestra implica, por un lado, que las J matrices de varian-
zas-covarianzas (una matriz por cada nivel del factor intersujetos) son esféricas; por otro, que
esas J matrices son iguales. Para chequear el supuesto de esfericidad seguiremos utilizando
la prueba de Mauchly; y para el de igualdad de matrices, aunque existen varios procedi-
mientos para ello (ver, por ejemplo, Mendoza, 1980) utilizaremos la prueba de Box (1950),
que es la que incluye el SPSS junto con las de Levene y Mauchly.
En condiciones de esfericidad, los estadísticos F definidos en [9.6] permiten contrastar
sus respectivas hipótesis con buen control sobre la tasa de error y con tanta o más potencia
que cualquier otro procedimiento. En condiciones de no-esfericidad, es recomendable utili-
zar los estadísticos y la estrategia que hemos propuesto en el capítulo anterior, en el apartado
Alternativas al estadístico F.

Medidas del tamaño del efecto


Al igual que en los demás modelos de ANOVA estudiados, la versión parcial de permite
obtener una estimación de la proporción de varianza común o compartida entre cada efecto
y la variable dependiente:

= [9.7]

Pero la medida de asociación que acapara las preferencias de los expertos, tanto para los efec-
tos intersujetos como para los intrasujetos, sigue siendo omega-cuadrado ( ). Cuando los
factores son de efectos fijos, el tamaño del efecto puede estimarse (ver Kirk, 1995, pág. 519)
mediante

= [9.8]

El estadístico está estrechamente relacionado con la medida del tamaño del efecto de Co-
hen (1988):

= [9.9]

La regla propuesta por Cohen para interpretar estas medidas sigue siendo válida aquí. En lo
relativo a y , valores de 0,01, 0,06 y 0,14 indican efectos de tamaños pequeño, mediano
y grande. En el caso de ( f en la notación utilizada por Cohen), los valores de referencia son
0,10, 025 y 0,40.
Capítulo 9. ANOVA. Dos factores con medidas repetidas 351

Cálculo de la potencia y del tamaño muestral


Para el cálculo de la potencia sirve aquí lo ya estudiado a propósito de otros modelos. Parti-
mos de una estimación del parámetro de no-centralidad y de su transformación en :

= , = [9.10]

La potencia asociada al contraste de cada efecto puede obtenerse de la Tabla G del Apéndice
final a partir del valor de y de los grados de libertad del correspondiente estadístico Fefecto.
Para estimar el tamaño muestral necesario para alcanzar una determinada potencia al contrastar
un efecto concreto, puede utilizarse la ecuación [7.26] y los pasos descritos en ese apartado.

Comparaciones múltiples
En el caso de que resulte significativo un efecto principal (A, B ), el análisis debe continuar
comparando los niveles correspondientes a ese efecto para poder precisar dónde se encuentran
las diferencias. En el caso de que resulte significativo el efecto de la interacción (AB ), el aná-
lisis debe continuar comparando entre sí los efectos simples. Todo esto, al margen de que el
estudio incluya objetivos concretos que exijan comparaciones planeadas.
Para realizar comparaciones entre los niveles del factor intersujetos (A ) sirve todo lo
dicho a propósito del modelo de un factor CA (ver, en el Capítulo 6, el apartado Compara-
ciones múltiples). Y sirve tanto para las comparaciones planeadas como para las compara-
ciones post hoc.
Por lo que se refiere a los efectos intrasujetos (B y AB ), si puede asumirse esfericidad,
sirven aquí los procedimientos ya descritos a propósito del modelo de dos factores CA (ver,
en el Capítulo 7, el apartado Comparaciones múltiples). Únicamente hay que tener en cuen-
ta cuáles son las medias cuadráticas y los grados de libertad que intervienen al valorar cada
efecto.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados para
realizar comparaciones planeadas siguen siendo válidos si se tiene la precaución de utilizar
las ecuaciones propuestas para el caso en que no puede asumirse que las varianzas pobla-
cionales son iguales. Y en lo relativo a las comparaciones post hoc, es preferible estudiar las
comparaciones por pares utilizando la prueba T para muestras relacionadas ajustando la ta-
sa de error por comparación (DC) mediante el método de Bonferroni (Keselman y Keselman,
1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980). En el siguiente apartado se
explica cómo hacer todo esto con el SPSS.

ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR) con SPSS
Veamos cómo utilizar el SPSS para llevar a cabo un ANOVA de dos factores con medidas
repetidas en uno4. Para ello, vamos a realizar 6 tareas: (1) chequear el supuesto de igualdad
de varianzas referido al efecto intersujetos (A) y los de esfericidad y esfericidad multi-mues-

4
En la explicación de algunos de los resultados obtenidos se asumirá que el lector está familiarizado con el modelo de un
factor con medidas repetidas estudiado en el capítulo anterior.

También podría gustarte