Analisis de Datos en Ciencias Sociales y de La Salud II PDF

Análisis de datos
en ciencias sociales y de la salud II

PROYECTO EDITORIAL:
Metodología de las Ciencias del Comportamiento y de la Salud
Directores:
Antonio Pardo Merino
Miguel Ángel Ruiz Díaz
Análisis de datos
en ciencias sociales y de la salud II
Antonio Pardo • Rafael San Martín
SINTESIS
EDITORIAL
Consulte nuestra página web: www.sintesis.com
En ella encontrará el catálogo completo y comentado
Reservados todos los derechos. Está prohibido, bajo las sanciones

penales y el resarcimiento civil previstos en las leyes, reproducir, registrar
o transmitir esta publicación, íntegra o parcialmente,
por cualquier sistema de recuperación y por cualquier medio,
sea mecánico, electrónico, magnético, electroóptico, por fotocopia
o por cualquier otro, sin la autorización previa por escrito
de Editorial Síntesis, S. A.
© Antonio Pardo y Rafael San Martín
© EDITORIAL SÍNTESIS, S. A.
Vallehermoso, 34. 28015 Madrid
Teléfono 91 593 20 98
http://www.sintesis.com
ISBN:978-84-975670-4-6
ISBN: 978-84-995849-9-7
Depósito Legal: M. 34.480-2010
Impreso en España - Printed in Spain

Índice de contenidos
Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1. La inferencia estadística
La inferencia estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
El contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Qué significa rechazar y no rechazar la hipótesis nula . . . . . . . . . . . . . . . . . . . . . . . 23
Contrastes bilaterales y unilaterales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Errores Tipo I y II, y potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Factores de los que depende la potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Tamaño del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Clasificación de los contrastes de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Programas informáticos para el análisis de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .38
Apéndice 1
Cálculo de la potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Curva de potencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2. Inferencia con una variable

Contrastes sobre el centro de una distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
La prueba de Wilcoxon para una muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
La prueba de los signos para una muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
La prueba T, la de Wilcoxon y la de los signos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Los contrastes sobre el centro de una distribución con SPSS . . . . . . . . . . . . . . . . . . . 56
Contrastes sobre la dispersión de una distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Contrastes sobre la forma de una distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
La prueba de Kolmogorov-Smirnov sobre bondad de ajuste . . . . . . . . . . . . . . . . . . . 61
Los contrastes sobre la forma de una distribución con SPSS . . . . . . . . . . . . . . . . . . . 63
Apéndice 2
La prueba de las rachas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
La prueba de los cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
8 Análisis de datos (vol. II)
3. Inferencia con dos variables categóricas

Proporciones independientes y relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Homogeneidad marginal y simetría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Simetría con variables dicotómicas: la prueba de McNemar . . . . . . . . . . . . . . . . . . . 77
Simetría con variables politómicas: la prueba de Bowker . . . . . . . . . . . . . . . . . . . . . 81
Homogeneidad marginal y simetría con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
Índices de riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
Riesgo relativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Relación entre el riesgo relativo y la odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Consideraciones sobre la interpretación de los índices de riesgo . . . . . . . . . . . . . . . . 93
Los índices de riesgo con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Índices de acuerdo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Acuerdo con variables nominales: kappa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
El índice de acuerdo kappa con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Asociación entre variables categóricas ordinales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Medidas de concordancia-discordancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Medidas de concordancia-discordancia con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Apéndice 3
Simetría relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Combinación de tablas 2 × 2 (Cochran y Mantel-Haenszel) . . . . . . . . . . . . . . . . . . . 111
La paradoja de Simpson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
Medidas de asociación basadas en la reducción proporcional del error . . . . . . . . . . 115
Muestras pequeñas: la prueba exacta de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Concordancias y discordancias en una tabla de contingencias . . . . . . . . . . . . . . . . . 120
Cómo reproducir una tabla de contingencias en SPSS . . . . . . . . . . . . . . . . . . . . . . . 122
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4. Inferencia con una variable categórica y una cuantitativa

La prueba T de Student para muestras independientes . . . . . . . . . . . . . . . . . . . . . . . . . . 130
La prueba de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
La prueba de Mann-Whitney con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
La prueba de Kruskal-Wallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
La prueba de Kruskal-Wallis con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
Medidas del tamaño del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
El caso de dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
El caso de más de dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
Medidas del tamaño del efecto con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
Cálculo de la potencia y del tamaño muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Contrastes de equivalencia y no-inferioridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
Métodos para demostrar equivalencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Doble contraste unilateral de Schuirmann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Intervalo de confianza de Westlake . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
Métodos para demostrar no-inferioridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
Limitaciones de los contrastes de equivalencia y no-inferioridad . . . . . . . . . . . . . . . 155
Índice de contenidos 9
Apéndice 4
La prueba de Kolmogorov-Smirnov para dos muestras independientes . . . . . . . . . . 156
La prueba de las rachas de Wald-Wolfowitz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
La prueba de reacciones extremas de Moses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
5. Inferencia con dos variables cuantitativas

La prueba T de Student para muestras relacionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
La prueba de Wilcoxon para dos muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
La prueba de Wilcoxon para dos muestras con SPSS . . . . . . . . . . . . . . . . . . . . . . . . 166
La prueba de los signos para dos muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
La prueba de los signos para dos muestras con SPSS . . . . . . . . . . . . . . . . . . . . . . . . 170
El coeficiente de correlación de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
El coeficiente de correlación de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
El coeficiente de correlación de Spearman con SPSS . . . . . . . . . . . . . . . . . . . . . . . . 177
Medidas del tamaño del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
Cálculo de la potencia y del tamaño muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
Apéndice 5
Correlaciones parciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
6. Análisis de varianza (I). Un factor completamente aleatorizado

Modelos de análisis de varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Número de factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
Tipo de asignación de las unidades de análisis a las condiciones del estudio . . . . . . 186
Forma de establecer los niveles del factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Clasificación de los modelos de análisis de varianza . . . . . . . . . . . . . . . . . . . . . . . . 189
La lógica del análisis de varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
ANOVA de un factor completamente aleatorizado (A-CA) . . . . . . . . . . . . . . . . . . . . . . 192
Supuestos del ANOVA de un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Igualdad de varianzas (homocedasticidad) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Transformación de las puntuaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
Efectos fijos y aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
Medidas del tamaño del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
Cálculo de la potencia y del tamaño muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
Comparaciones múltiples entre medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
Comparaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
Tasa de error en las comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
Comparaciones planeadas o a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
Prueba de Dunn-Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
Comparaciones de tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
Prueba de Dunnett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
Comparaciones post hoc o a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

Prueba de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
Prueba de Scheffé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
Comparaciones múltiples: qué procedimiento elegir . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
ANOVA de un factor con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
Supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
Hipótesis de igualdad de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
Tamaño del efecto y potencia observada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
Comparaciones post hoc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
Comparaciones planeadas y de tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
Apéndice 6
Distribución muestral del estadístico F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Tabla de la Distribución F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
La distribución F con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
Estadísticos F robustos: Welch y Brown-Forsythe . . . . . . . . . . . . . . . . . . . . . . . . . 237
Comparaciones post hoc: procedimientos alternativos . . . . . . . . . . . . . . . . . . . . . . . 238
Métodos secuenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
Efectos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
7. Análisis de varianza (II). Dos factores completamente aleatorizados

Estructura de los datos y notación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
La interacción entre factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
ANOVA de dos factores completamente aleatorizados (AB-CA) . . . . . . . . . . . . . . . . . 253
Supuestos del ANOVA de dos factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
Efectos fijos y aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
Comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
Efectos principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
Efectos simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267
Efecto de la interacción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
ANOVA de dos factores completamente aleatorizados con SPSS . . . . . . . . . . . . . . . . . 274
Hipótesis globales (efecto de A, de B y de AB ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
Tamaño del efecto y potencia observada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
Comparaciones post hoc: efectos principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
Comparaciones múltiples: efectos simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
Comparaciones múltiples: efecto de la interacción . . . . . . . . . . . . . . . . . . . . . . . . . . 280
Apéndice 7
Casillas con tamaños muestrales distintos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
Más sobre los efectos simples y el efecto de la interacción . . . . . . . . . . . . . . . . . . . 284
La sentencia LMATRIX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
Modelos jerárquicos o anidados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
8. Análisis de varianza (III). Un factor con medidas repetidas

Características de los diseños con medidas repetidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
ANOVA de un factor con medidas repetidas (A-MR) . . . . . . . . . . . . . . . . . . . . . . . . . . 298
Supuestos del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
Alternativas al estadístico F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
Estadístico F con los grados de libertad modificados . . . . . . . . . . . . . . . . . . . . . 304
Aproximación multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
Qué solución elegir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
Comparaciones múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
ANOVA de un factor con medidas repetidas (A-MR) con SPSS . . . . . . . . . . . . . . . 308
Esfericidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
Igualdad de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
Tamaño del efecto y potencia observada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
Comparaciones planeadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
Comparaciones post hoc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
La prueba de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
Apéndice 8
Cómo estimar épsilon (ε) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
Prueba de Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
Coeficiente de concordancia W de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
Prueba de no-aditividad de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
9. Análisis de varianza (IV). Dos factores con medidas repetidas

ANOVA de dos factores con medidas repetidas en ambos (AB-MR) . . . . . . . . . . . . . . 329
ANOVA de dos factores con medidas repetidas en ambos (AB-MR) con SPSS . . . 335
Esfericidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
Hipótesis globales (efecto de A, de B y de AB ) . . . . . . . . . . . . . . . . . . . . . . . . . . 339
Tamaño del efecto y potencia observada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
Comparaciones post hoc: efectos principales . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
Comparaciones múltiples: efectos simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
Comparaciones múltiples: efecto de la interacción . . . . . . . . . . . . . . . . . . . . . . . 343
ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR) . . . . . . . . . . . . . 346
ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR) con SPSS . . 351
Esfericidad multi-muestra e igualdad de varianzas . . . . . . . . . . . . . . . . . . . . . . . 356
Hipótesis globales (efecto de A, de B y de AB ) . . . . . . . . . . . . . . . . . . . . . . . . . . 357
Comparaciones post hoc: efectos principales . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
Comparaciones múltiples: efectos simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
Comparaciones múltiples: efecto de la interacción . . . . . . . . . . . . . . . . . . . . . . . 360
Apéndice 9
La sentencia MMATRIX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
Análisis de los efectos simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363
Comparaciones entre los niveles de un mismo efecto simple . . . . . . . . . . . . . . . 364
Análisis del efecto de la interacción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
10. Análisis de regresión lineal

Regresión lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372
Diagramas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
La recta de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375
Mínimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
Coeficientes de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
Coeficientes de regresión tipificados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
Significación de los coeficientes de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382
Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
Cómo efectuar pronósticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
Regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
La ecuación de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
Coeficientes de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
Coeficientes de regresión tipificados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 388
Significación de los coeficientes de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
Importancia relativa de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392
Variables independientes categóricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
Regresión jerárquica o por pasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396
Criterios para seleccionar variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
Métodos para seleccionar variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397
Supuestos del modelo de regresión lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
Linealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
No colinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
Homocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
Casos atípicos e influyentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
Casos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
Casos atípicos en Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
Casos atípicos en X j
Casos influyentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408

Cambio en los coeficientes de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
Cambio en los pronósticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
Cambio en los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
Qué hacer con los casos atípicos e influyentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
Regresión lineal con SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
Regresión múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
Ecuación de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
Significación de los coeficientes de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
Pronósticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
Importancia relativa de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
Chequeo de los supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
Casos atípicos e influyentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
Regresión jerárquica o por pasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
Regresión jerárquica o por pasos con variables categóricas . . . . . . . . . . . . . . . . 424
Comentarios finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
Validez de una ecuación de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
Consideraciones sobre el tamaño muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
Apéndice 10
Regresión curvilínea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
Apéndice final. Tablas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433

Glosario de símbolos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
Índice de materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
Presentación
Este manual de análisis de datos es el segundo volumen de una serie dedicada a revisar los
procedimientos estadísticos comúnmente utilizados en el ámbito de las ciencias sociales
y de la salud.
En la presentación del primer volumen hemos argumentado ya acerca de la necesidad
de un nuevo manual de análisis de datos y acerca de qué contenidos seleccionar y cómo
organizarlos y exponerlos. Lo dicho allí sirve también aquí.
Aunque este manual va dirigido, principalmente, a estudiantes de las disciplinas en-
globadas en las ciencias sociales y de la salud, no se trata de un material diseñado exclusi-
vamente para ellos. También pretende servir de ayuda a los profesores de análisis de datos
y a los investigadores. Creemos que ambos pueden encontrar, en éste y en los demás volú-
menes, las respuestas a muchas de las preguntas que se formulan en su trabajo cotidiano.
Los Capítulos 1 al 5 de este volumen sirven de complemento a los Capítulos 7 al 12
del primer volumen. Se vuelve a prestar atención a la inferencia estadística, pero presen-
tando nuevos conceptos (errores Tipo I y II, potencia estadística, tamaño del efecto, etc.).
Y se vuelve a estudiar cómo analizar una y dos variables añadiendo nuevas herramientas
(pruebas no paramétricas, contrastes de equivalencia y no inferioridad, índices de riesgo
y de acuerdo, etc.). El resto de los capítulos se centran en las dos concreciones más impor-
tantes del modelo lineal general: el análisis de varianza y el análisis de regresión lineal. Por
tanto, los contenidos de estos dos primeros volúmenes coinciden, en esencia, con los conte-
nidos que incluyen muchos planes de estudios para formar en estadística a los estudiantes
de los nuevos grados universitarios. En el tercer volumen prestaremos atención a proce-
dimientos más avanzados para satisfacer las necesidades de los estudiantes de posgrado y
de los investigadores que necesitan aplicar herramientas más sofisticadas o tratar con un
mayor número de variables.
Un profesional o un investigador de las ciencias sociales y de la salud no es un esta-
dístico y, muy probablemente, tampoco pretende serlo. Consecuentemente, no necesita ser
un experto en los fundamentos matemáticos de las herramientas estadísticas que aplica. En
la elaboración de este manual y de los restantes de la colección hemos pretendido ofrecer
una exposición asequible de los procedimientos disponibles y hemos intentado poner el
énfasis en (1) cómo razonar para elegir el procedimiento apropiado, (2) cómo aplicarlo con
una calculadora de bolsillo y con un programa informático y (3) cómo interpretar correc-
tamente los resultados que ofrece. Esta es la razón que justifica que hayamos prestado más
atención a los aspectos prácticos o aplicados que a los teóricos o formales, aunque sin des-
cuidar estos últimos.
16 Análisis de datos (vol. I)
Ya no es necesario invertir tiempo en hacer a mano cálculos que no contribuyen en

absoluto a entender el significado de lo que se está haciendo (como, por ejemplo, calcular
sumas de cuadrados o estimar coeficientes de regresión). Esto es tanto más así cuanto más
complejas o sofisticadas son las herramientas que se utilizan. Y sirve para no tener que des-
viar la atención de lo realmente importante, que, en nuestra opinión, no es saber hacer
cálculos, sino aprender a elegir el procedimiento apropiado en cada caso y a interpretar
correctamente los resultados que ofrece. Aunque todos los procedimientos se presentan
con suficiente detalle como para poder ser aplicados con una calculadora de bolsillo, de
todos ellos se explica también cómo aplicarlos con un programa informático llamado SPSS
Statistics (perteneciente al grupo de programas PASW).
Actualmente no tiene sentido analizar datos sin el apoyo de un programa informático.
Ahora bien, conviene tener muy presente que, aunque las herramientas informáticas pue-
den realizar cálculos con suma facilidad, todavía no están capacitadas para tomar algunas
decisiones. Un programa informático no sabe si la estrategia de recogida de datos utili-
zada es la correcta, o si las mediciones aplicadas son apropiadas; tampoco decide qué
prueba estadística conviene aplicar en cada caso, ni interpreta los resultados del análisis.
Los programas informáticos todavía no permiten prescindir del analista de datos. Es el
analista quien debe mantener el control de todo el proceso. El éxito de un análisis depen-
de de él y no del programa informático. El hecho de que sea posible ejecutar las técnicas
de análisis más complejas con la simple acción de pulsar un botón sólo significa que es ne-
cesario haber atado bien todos los cabos del proceso (diseño, medida, análisis, etc.) antes
de pulsar el botón.
No podemos dejar pasar la oportunidad que nos brinda esta presentación para agrade-
cer a nuestro compañero Ludgerio Espinosa, y a muchos de nuestros alumnos y a no pocos
lectores de nuestros trabajos previos, las permanentes sugerencias hechas para mejorar
nuestras explicaciones y la ayuda prestada en la caza de erratas. Los errores y deficiencias
que todavía permanezcan son, sin embargo, atribuibles sólo a nosotros.
Antonio Pardo
Rafael San Martín
1
La inferencia estadística
El análisis de datos es una actividad que se desarrolla en fases: comienza con la selección y
recopilación de los datos, continúa con la aplicación de herramientas descriptivas para explo-
rar, organizar y resumir la información contenida en los datos y termina (no necesariamente,
pero sí habitualmente) con la aplicación de herramientas inferenciales para llevar a cabo com-
paraciones y estudiar relaciones.
En el volumen I de Análisis de datos en ciencias sociales y de la salud (Pardo, Ruiz y San
Martín, 2009) hemos estudiado ya lo relativo a la selección de casos (brevemente, pues esta
parte es objeto de los diseños de investigación) y a las herramientas disponibles para abordar
la fase descriptiva (Capítulos 3 al 6). También hemos ofrecido ya una primera aproximación
al concepto de inferencia estadística y a su lógica (Capítulos 7 y 8), y hemos estudiado algu-
nas herramientas inferenciales básicas (Capítulos 9 al 12). En este capítulo vamos a revisar
la lógica de la inferencia estadística (repasando algunos aspectos ya estudiados y prestando
atención a otros nuevos) para terminar de familiarizarnos con el importantísimo rol que de-
sempeña en el análisis de datos.
La inferencia estadística
La inferencia estadística es un tipo de razonamiento que procede de lo particular a lo general.
Permite extraer conclusiones de tipo general sobre la forma de una población o sobre alguno
de sus parámetros a partir de la información particular contenida en una muestra procedente
de esa población.
El trabajo con herramientas inferenciales consiste, principalmente, en realizar compara-
ciones y estudiar relaciones con los datos disponibles y en trasladar los resultados de esas
comparaciones y relaciones a las poblaciones de donde proceden los datos.
Estas inferencias (comparaciones, relaciones) suelen llevarse a cabo utilizando dos estra-
tegias distintas: la estimación de parámetros y el contraste de hipótesis. Al estudiar estas
estrategias en el primer volumen hemos visto que ofrecen información complementaria y que,
en muchos aspectos, son equivalentes (ambas permiten abordar el mismo tipo de problemas
y llegar a las mismas conclusiones, aunque con algunos matices que ya hemos estudiado y
sobre los que volveremos aquí).
De momento, no es necesario seguir profundizando en lo relativo a la estimación de pará-

metros; ya conocemos los fundamentos de esta estrategia y cómo aplicarla (ver el Capítulo
7 del primer volumen). Pero el contraste de hipótesis requiere más atención. No solo ha sido,
y sigue siendo, la estrategia que más atención ha recibido por parte de quienes desarrollan
herramientas estadísticas y por parte de quienes las utilizan para analizar sus datos, sino que,
durante décadas, ha sido objeto de numerosas críticas que conviene conocer.
El contraste de hipótesis
En este apartado se repasa brevemente la lógica del contraste de hipótesis ya estudiada en el
Capítulo 8 del primer volumen (en caso necesario, consultar ese capítulo).
Recordemos que un contraste de hipótesis (hypothesis test), también llamado contraste
o prueba de significación (significance test), es un proceso de toma de decisiones en el que
una afirmación formulada en términos estadísticos es puesta en relación con los datos em-
píricos para determinar si es o no compatible con ellos1. Es decir, un contraste de hipótesis
es una estrategia diseñada para tomar decisiones: permite decidir si una proposición acerca
de una población puede mantenerse o debe rechazarse2. Como tal, constituye una herramienta
esencial para ayudar a elegir entre hipótesis rivales y, de forma más o menos directa, para
recoger evidencia empírica en apoyo de una cuestión científica.
Este proceso de decisión comienza con la formulación de una afirmación estadística so-
bre la cual se desea tomar una decisión. A esta afirmación se le llama hipótesis nula (H0 ) y
siempre se refiere a la forma de una o varias distribuciones poblacionales, o al valor de uno
1
El primer trabajo en el que se plantea la posibilidad de evaluar hipótesis científicas a partir de datos muestrales se debe
a K. Pearson y se remonta a 1901. Pero fue R. Fisher (1925) quien presentó formalmente el método que ha evolucionado
hasta lo que hoy conocemos como contrastes de hipótesis o pruebas de significación. A la propuesta original de Fisher se
incorporaron rápidamente las aportaciones de J. Neyman y E. Pearson (1928) y, en los años inmediatamente siguientes, los
avances en el propio método y en las concepciones teóricas subyacentes al mismo no fueron fruto de una reflexión pausada
y sistemática sobre la forma correcta de llevar a cabo el trabajo científico, sino de acalorados debates con cambios de postura
e incorporaciones del adversario no siempre reconocidas como tales. Esta mezcla de aportaciones ha dado como resultado
el contraste de hipótesis tal como lo conocemos y aplicamos hoy: básicamente, una mezcla de las aportaciones de Fisher
y de Neyman-Pearson (ver Gigerenzer, 1993; Oakes, 1986).
2
A pesar de que el contraste de hipótesis viene utilizándose de forma generalizada por la comunidad científica desde hace
más de medio siglo, rara vez se ha visto libre de críticas (ver Morrison y Henkel, 1970). Estas críticas han alcanzado su má-
xima expresión en la pasada década de los noventa, la cual ha sido testigo de un agrio debate promovido por una corriente
muy beligerante con el uso y abuso de esta estrategia (para una revisión de este debate ver Balluerka, Gómez e Hidalgo,
2005; Harlow, Mulaik y Steiger, 1997; y, muy especialmente, Nikerson, 2000). Algunos autores han llegado a proponer,
incluso, el abandono del contraste de hipótesis por no considerarlo un método válido para generar conocimiento científico
(Cohen, 1990, 1994; Gigerenzer, 1993; Hunter, 1997; Oakes, 1986; Rozeboom, 1960, 1997; Schmidt, 1996; etc.). Algunas
de estas críticas se han dirigido al propio método (nos iremos ocupando de ellas), pero la mayoría de ellas, y han sido
muchas y muy duras en las formas, se han concentrado, sobre todo, en lo que el método no puede hacer y en el mal uso que
se hace de él; y esto, obviamente, no tiene nada que ver con lo que sí hace y con su buen uso. Por supuesto, todas las obje-
ciones formuladas al contraste de hipótesis han recibido cumplida respuesta (ver, por ejemplo Abelson, 1997a, 1997b;
Chow, 1996; Cortina y Dunlap, 1997; Hagen, 1997; Mulaik, Raju y Harshman, 1997); de ahí que sigamos utilizándolo. De
hecho, nuestra impresión es que todas las críticas que ha recibido y sigue recibiendo sirven, más que nada, para fortalecerlo.
La aplicación de un método, cualquiera que éste sea, como un ritual carente de reflexión puede terminar convirtiendo el
uso en abuso. La mejor manera de evitar que ocurra esto consiste en conocer a fondo el método identificando con claridad
sus fortalezas y debilidades. Ése es el objetivo de este capítulo. Intentaremos exponer el contraste de hipótesis tal como se
aplica actualmente, destacando sus posibilidades, llamando la atención sobre lo que no puede hacer y, muy particularmente,
proponiendo todo aquello de lo que conviene acompañarlo para mejorarlo.
Capítulo 1. La inferencia estadística 19
o más parámetros de esas distribuciones. Las hipótesis estadísticas están relacionadas con las
hipótesis científicas que se desea contrastar (es decir, con los enunciados que suelen hacer los
científicos para resolver o aclarar algún problema de conocimiento), lo cual supone que una
hipótesis científica permite derivar algunas implicaciones acerca de la forma de una o varias
distribuciones poblacionales, o acerca del valor de uno o más parámetros de esas distribucio-
nes. Por ejemplo, la hipótesis científica los tratamientos antidepresivos A y B son igualmente
eficaces implica3, en términos estadísticos, µA = µB; es decir, la media de la variable depresión
en la población de pacientes que han recibido el tratamiento A es igual que la media de la mis-
ma variable en la población de pacientes que han recibido el tratamiento B. La hipótesis nula
(la hipótesis que se pone a prueba en un contraste de hipótesis) se plantea en términos de no-
diferencias o no-relación, es decir, en términos de diferencias o relaciones nulas4 (esto es de-
bido a la naturaleza del argumento lógico en el que se basa el contraste de hipótesis –modus
tollens– y tiene que ver con el hecho de que la negación o falsación de enunciados es conclu-
yente, en tanto que la corroboración de los mismos no lo es. Volveremos sobre esto.
Formulada la hipótesis estadística, el siguiente paso de un contraste de hipótesis consiste
en buscar evidencia empírica capaz de informar sobre si la hipótesis formulada es o no soste-
nible. Esta búsqueda de evidencia se basa en un sencillo argumento: si una hipótesis concreta
referida a una distribución poblacional es cierta, al extraer una muestra de esa población es
razonable esperar encontrar un resultado muestral similar al que esa hipótesis propone para
la distribución poblacional. Por ejemplo, si la hipótesis de que los tratamientos antidepresivos
A y B son igualmente eficaces (µA = µB) es cierta, al extraer una muestra aleatoria de la pobla-
ción de pacientes tratados con A y otra de la población de pacientes tratados
_ _con B, cabe es-
perar que el nivel medio de depresión observado en ambas muestras, Y A y Y B , sea similar.
Recordemos que, en el contexto del contraste de hipótesis, la evidencia empírica se resume
en un valor numérico denominado estadístico del contraste; y recordemos también que este
estadístico es un valor muestral que, si se dan las condiciones apropiadas (condiciones a las
que nos hemos referido como supuestos del contraste), además de informar sobre la hipóte-
sis planteada, posee una distribución muestral conocida.
Si la evidencia empírica (resultado muestral) difiere de la afirmación establecida en H0,
pueden estar ocurriendo dos cosas: (1) la hipótesis no es cierta y, por tanto, es incapaz de
ofrecer predicciones correctas; (2) la hipótesis es cierta y la discrepancia observada entre H0
y los datos es debida a la variabilidad propia de los datos muestrales. La clave de este argu-
mento está, precisamente, en poder discernir cuándo una discrepancia entre lo que afirma H0
y lo que dicen los datos es lo bastante grande como para poder considerar que el resultado
muestral observado es incompatible con H0, es decir, lo bastante grande como para conside-
rar que la discrepancia entre H0 y los datos no es explicable por la variabilidad debida al azar
muestral sino por el hecho de que la hipótesis planteada es realmente falsa.
3
En un contraste de hipótesis se pone a prueba una hipótesis estadística, no una hipótesis científica. Las conclusiones que
pueden extraerse sobre la hipótesis científica de la que se deriva la hipótesis estadística dependen del grado de conexión
existente entre ambas, el cual a veces es evidente y a veces no tanto (Meehl, 1967, 1978, 1990). En relación con esta temá-
tica pueden consultarse las interesantes reflexiones de Chow (1996, Cap. 3).
4
Una de las críticas dirigidas al contraste de hipótesis se ha centrado justamente en el hecho de que la hipótesis nula es una
hipótesis de no diferencias o no relación, es decir, una hipótesis, argumentan los críticos, que siempre es falsa (Bakan, 1966;
Meehl, 1978; Cohen, 1994; Schmidt, 1992, 1996; etc.) porque en el mundo real no existen poblaciones idénticas. Y ¿qué
sentido tiene poner a prueba una hipótesis que se sabe que es falsa? Esta crítica olvida que la hipótesis nula no es una afir-
mación sobre el mundo real, sino una afirmación estadística cuya verdad o falsedad es irrelevante; se formula para poder
definir una distribución muestral y construir un argumento a partir de ella (ver Chow, 1996, págs. 56-57; Hagen, 1997).
Hace falta, y este es el siguiente paso del proceso, una regla de decisión. Aunque podrían
establecerse reglas de decisión muy diferentes, la teoría de la decisión se ha encargado de
elaborar algunos argumentos que se han trasladado al contraste de hipótesis. La regla de deci-
sión que se utiliza se basa en el grado de compatibilidad existente entre la hipótesis nula y
los datos. Y para cuantificar el grado de compatibilidad hipótesis-datos se recurre a la teoría
de la probabilidad. El hecho de tener que trabajar con muestras en lugar de poblaciones
introduce variabilidad en los datos y obliga a recurrir a la inferencia y a tener que establecer
una regla de decisión en términos de probabilidad. Se obtiene así un número comprendido en-
tre 0 y 1, al que llamamos nivel crítico o valor p, que representa la probabilidad asociada a
los datos observados si se asume que la hipótesis planteada es cierta: un valor p alto indica
alta compatibilidad hipótesis-datos; un valor p bajo indica baja compatibilidad.
La cuestión clave en este momento está en decidir cuándo un valor p debe considerarse
alto (alta compatibilidad) o bajo (baja compatibilidad). Para ello, la comunidad científica ha
consensuado un punto de corte arbitrario5, pero razonable, en 0,05. A este punto de corte se
le llama nivel de significación. Si el valor p obtenido en una muestra concreta es menor que
el nivel de significación consensuado (0,05), se considera que los datos son incompatibles con
la hipótesis nula planteada. Con esta regla de decisión se llega a dos posibles decisiones sobre
la hipótesis nula: mantenerla, por considerarla compatible con los datos, o rechazarla, por
considerarla incompatible con los datos. El rechazo de H0 implica afirmar lo que H0 niega.
Así, si H0 afirma que el efecto estudiado es nulo (es decir, que no hay diferencias, que no hay
relación), el rechazo de H0 permitirá afirmar que el efecto estudiado no es nulo (es decir, per-
mitirá afirmar que sí hay diferencias, que sí hay relación). A esta afirmación complementaria
de H0 se le llama hipótesis alternativa6 y se representa mediante H1.
Un ejemplo
Imaginemos que un profesor desea evaluar el conocimiento que un estudiante ha adquirido
de una determinada materia. Imaginemos, además, que el profesor desea evaluar los conoci-
mientos del estudiante haciéndole una pregunta con cuatro alternativas de respuesta de las que
5
El hecho de que un punto de corte sea arbitrario no le resta utilidad (los colores elegidos para las luces de los semáforos
son arbitrarios y eso no les impide ser útiles). Los puntos de corte arbitrarios forman parte inherente de todo proceso de
decisión con incertidumbre: se fija un punto de corte para aprobar a los estudiantes, para determinar si se aplica un trata-
miento, para conceder un crédito, etc. Permiten tomar decisiones. Curiosamente, quienes critican la arbitrariedad de estable-
cer un punto de corte en 0,05 no tienen ningún inconveniente en admitir los puntos de corte arbitrarios que incluyen en sus
propuestas (por ejemplo, el valor en torno al cual debe estar la potencia idónea de un contraste, o los valores que permiten
caracterizar un efecto como de tamaño pequeño, mediano o grande; ver Glass, McGraw y Smith, 1981).
¿Está justificado un punto de corte arbitrario? Si está claramente definido, sirve para tomar decisiones. No faltan quienes
defienden que ese punto de corte debería ser flexible y tener en cuenta los costes y beneficios de cada decisión (Labovitz,
1968; Oakes, 1986; Skipper, Guenther y Nass, 1967; ver, más adelante, el apartado Errores Tipo I y II, y potencia de un con-
traste). Pero un punto de corte flexible estaría introduciendo un elemento de subjetividad en el proceso al permitir, con unos
mismos datos, obtener conclusiones distintas a distintos investigadores (ver Chow, 1996, pág. 38; Frick, 1996).
6
En su propuesta original del contraste de hipótesis, Fisher (1925) únicamente habla de la hipótesis nula. La consideración
simultánea de dos hipótesis complementarias, H0 y H1 , se debe a Neyman y Pearson (1928). En la propuesta de Fisher, el
contraste de hipótesis se concibe como una forma de resumir la información muestral y de elaborar un argumento a favor
de una cuestión científica. Con las aportaciones de Neyman y Pearson, el contraste de hipótesis empieza a interpretarse como
un método de toma de decisiones en el que necesariamente se elige entre dos hipótesis rivales (H0 y H1) a partir de un nivel
de significación prefijado (ver Chow, 1996, págs. 21-24, para una reflexión sobre las coincidencias y diferencias entre la
propuesta inicial de Fisher y las aportaciones de Neyman y Pearson).
solamente una es correcta. Si el estudiante no conoce la materia, cabe esperar que responda
al azar, en cuyo caso la probabilidad de acertar la pregunta valdrá
Pacierto = 1 / 4 = 0,25
(Pues hay 1 manera de responder bien y 4 posibles maneras de responder). El profesor se
percata de que la probabilidad de acertar por azar es demasiado grande y comprende que con
una sola pregunta no puede distinguir si el estudiante está acertando por azar o porque real-
mente conoce la respuesta. Decide probar con dos preguntas y constata que la probabilidad
de acertar por azar las dos preguntas vale
Pacierto = 1 / 16 = 0,0625
(hay 1 manera de responder bien y 4 × 4 = 16 posibles maneras de responder). Aunque esta
probabilidad es más pequeña que la anterior, nuestro profesor considera que no es lo bastante
pequeña como para poder confiar en que dos respuestas correctas sirvan para descartar que
el estudiante está respondiendo al azar. Decide probar con tres preguntas. La probabilidad de
acertar por azar las tres preguntas vale
Pacierto = 1 / 64 = 0,0156
(hay 1 manera de responder bien y 4 × 4 × 4 = 64 posibles maneras de responder). El profesor
considera, por fin, que esta probabilidad ya es lo bastante pequeña como para poder confiar
en que un estudiante que acierte las tres preguntas no estará respondiendo al azar. Y, para
evaluar los conocimientos del estudiante, decide hacerle tres preguntas y aprobarlo si acierta
las tres.
En un contraste de hipótesis hacemos algo parecido a lo que acaba de hacer el profesor
con su estudiante, pero con la diferencia de que el proceso está mecanizado. Para evaluar los
conocimientos de un estudiante sobre una determinada materia (éste es el objetivo del estu-
dio), comenzamos formulando nuestra hipótesis de investigación; por ejemplo: el estudiante
conoce la materia.
Para poder contrastar esta hipótesis, lo primero que tenemos que hacer es transformarla
en hipótesis estadística. Puesto que hemos decidido utilizar preguntas con cuatro alternativas
de respuesta de las que solamente una es correcta, la hipótesis nula puede formularse tomando
como referencia el número o la proporción de aciertos7:
$ 0,25
H0 : πacierto <
Esta hipótesis afirma que la proporción de acertar una pregunta es igual o menor que la pro-
porción de acertar por azar. Y es la afirmación estadística que asumimos como equivalente
de la afirmación no estadística el estudiante no conoce la materia. La hipótesis nula suele
recoger la idea de que el efecto estudiado es nulo; aquí, el efecto estudiado es el conocimiento
de la materia; de ahí que la hipótesis nula se haga corresponder con la afirmación de que tal
efecto no existe.
La afirmación complementaria de esta hipótesis nula, es decir, la hipótesis alternativa, se
obtiene a partir de la negación de la hipótesis nula. Por tanto, adopta la forma
H1 : πacierto > 0,25
7
Si estuviéramos comparando dos grupos en una variable cuantitativa, H0 podría hacer referencia a los promedios; si
estuviéramos estudiando la relación entre dos variables, H0 podría hacer referencia a algún coeficiente de correlación; etc.
Esta hipótesis afirma que la proporción de acertar es mayor que la esperable por azar. Y es
la afirmación estadística que asumimos que equivale a la afirmación no estadística (hipótesis
de investigación) el estudiante conoce la materia.
Para poder tomar una decisión sobre esta hipótesis nula (mantenerla o rechazarla), op-
tamos por hacer cinco8 preguntas a nuestro estudiante. Si H0 es verdadera, es decir, si el es-
tudiante realmente no conoce la materia, cabe esperar encontrar pocos aciertos (no más de
los esperables por azar). Por el contario, si H0 es falsa, es decir, si el estudiante sí conoce la
materia, cabe esperar encontrar muchos aciertos (más de los esperables por azar).
Ahora bien, si el estudiante acierta 3 de las 5 preguntas, ¿podremos concluir que ese re-
sultado es mayor que el esperable por azar?, ¿y si acierta 4?, ¿tiene que acertar las 5 preguntas
para que podamos descartar que está respondiendo al azar? Es decir, ¿con cuántos aciertos
podremos concluir que el estudiante ha superado el resultado más alto esperable por azar?
Para responder esta pregunta, en lugar de basarnos en nuestras impresiones subjetivas, recurri-
mos a la teoría de la probabilidad intentando establecer una regla de decisión que nos permita
llegar a alguna conclusión. Aplicando esta regla, un número de aciertos esperable por azar (un
resultado probable cuando se responde al azar), llevará a decidir que la hipótesis planteada
es compatible con los datos y a sospechar que el estudiante no conoce la materia. Por el con-
trario, un número de aciertos superior al esperable por azar (un resultado improbable cuando
se responde al azar), llevará a decidir que la hipótesis planteada es incompatible con los datos
y a concluir que el estudiante sí conoce la materia (pues si “πacierto < $ 0,25” es una afirmación
incorrecta, entonces la afirmación correcta debe ser “πacierto 0,25”).
Esta regla de decisión obliga a concretar cómo cabe esperar que se comporte la realidad
(los datos) cuando la hipótesis nula formulada es verdadera. Y lo que esto significa es que hay
que elegir el estadístico del contraste (que resume el comportamiento de la realidad) y su
distribución muestral (que indica cómo cabe esperar que se comporte la realidad cuando H0
es verdadera). El estadístico ya lo hemos elegido: el número de aciertos. Su distribución
muestral9 es la que ofrece la Tabla 1.1. La fila nacierto recoge el número de aciertos que pueden
darse al responder 5 preguntas (puede no acertarse ninguna, o una, o dos, ..., o las cinco). La
fila P (nacierto ) contiene la probabilidad asociada a cada valor nacierto cuando se realizan 5 ensa-
yos independientes (5 preguntas) con probabilidad teórica de acertar igual a 0,25.
Tabla 1.1. Distribución muestral del “número de aciertos” (n = 5; πacierto = 0,25)
n acierto 0 1 2 3 4 5
P (n acierto ) 0,2373 0,3955 0,2637 0,0879 0,0146 0,0010
Para tomar una decisión sobre H0 se utiliza, como regla de decisión, un punto de corte prefi-
jado en 0,05: los resultados con probabilidad asociada menor que 0,05 se consideran impro-
bables y, consecuentemente, incompatibles con H0. Por tanto, cuando se obtiene un resultado
8
Podríamos hacer diez preguntas, o quince, etc. Se trata de hacer tantas preguntas como sea necesario para poder descartar
la hipótesis del azar (acabamos de ver que con pocas preguntas no es posible hacerlo). Pero esto no es todo. Al recoger infor-
mación muestral se debe procurar hacer un barrido lo más completo posible por la población muestreada (en el ejemplo, el
conjunto de contenidos de la materia). Y esto es más fácil hacerlo con muestras grandes que con muestras pequeñas.
9
Puesto que se trata de n ensayos independientes de Bernoulli, con probabilidad constante 0,25 en cada ensayo, estas proba-
bilidades se obtienen de distribución binomial con n = 10 y π1 = 0,25 (ver Capítulo 6 del primer volumen).
de éstos, la decisión razonable es rechazar H0. La probabilidad de acertar las 5 preguntas, es

decir, el nivel crítico asociado a 5 aciertos, vale p = 0,001 (una probabilidad menor que 0,05).
La probabilidad de acertar al menos10 4 preguntas vale p = 0,0146 + 0,001 = 0,0156 (una pro-
babilidad menor que 0,05). El resto de resultados tienen probabilidades asociadas (niveles
críticos) mayores que 0,05. Ahora solamente falta hacer las cinco preguntas a nuestro estu-
diante y ver cuántas acierta. Decidiremos rechazar la hipótesis nula de que el estudiante res-
ponde al azar únicamente si acierta 4 o 5 preguntas.
Lo que acabamos de hacer con este sencillo ejemplo es exactamente lo mismo que hemos
hecho ya al estudiar los contrastes de hipótesis propuestos en los Capítulos 9 al 12 del primer
volumen. La prueba binomial, o la prueba T de Student o la prueba X 2 de Pearson no son más
que procedimientos estandarizados diseñados para contrastar hipótesis nulas mediante estra-
tegias que se basan en la misma lógica que este sencillo ejemplo.
Qué significa rechazar y no rechazar la hipótesis nula
Para tomar una decisión sobre H0 , la distribución muestral del estadístico del contraste se
divide en dos zonas exclusivas y exhaustivas (ver Figura 8.1 del primer volumen; pág. 231):
la zona de rechazo y la zona de aceptación.
La zona de rechazo, también llamada zona crítica, es la zona de la distribución muestral
correspondiente a los valores del estadístico del contraste que se encuentran tan alejados de
la afirmación establecida en H0 que es muy poco probable que ocurran si H0, como se asume,
es verdadera; es decir, la zona en la que se encuentran los datos poco compatibles con H0. La
probabilidad asociada a esta zona de rechazo o crítica es el nivel de significación o nivel de
riesgo y se representa con la letra griega α (alfa).
La zona de aceptación es la zona de la distribución muestral correspondiente a los valo-
res del estadístico del contraste próximos a la afirmación establecida en H0. Es, por tanto, la
zona en la que se encuentran los valores del estadístico que es probable que ocurran si H0,
como se supone, es verdadera; es decir, la zona en la que se encuentran los datos compatibles
con H0. La probabilidad asociada a esta zona de aceptación es el nivel de confianza y se re-
presenta mediante 1 ! α.
Una vez definidas las zonas de rechazo y de aceptación, se aplica la siguiente regla de
decisión:
Rechazar H0 cuando el estadístico del contraste toma un valor perteneciente a la zona
de rechazo o crítica; mantener H0 cuando el estadístico del contraste toma un valor
perteneciente a la zona de aceptación.
Por tanto, se rechaza una H0 particular porque eso significa que el valor del estadístico del
contraste se aleja demasiado de la predicción establecida en esa hipótesis, es decir, porque,
10
Lo que se está intentando determinar es cuánto se aleja cada posible resultado muestral (cada posible número de aciertos)
de su valor esperado (en el ejemplo, el valor esperado del número de aciertos es n πacierto = 5(0,25) = 2,5). Esto puede saberse
ubicando cada resultado en la posición exacta que ocupa en su distribución muestral. Y esa posición se conoce calculando,
no la probabilidad individual de cada resultado, sino la probabilidad que queda por encima de cada resultado (se trata de
un contraste unilateral derecho; si el contraste fuera unilateral izquierdo calcularíamos la probabilidad que queda por debajo
de cada resultado; ver siguiente apartado). A esta probabilidad es a la que llamamos nivel crítico o valor p y es a la que nos
referimos de forma abreviada como probabilidad asociada.
si esa H0 fuera verdadera, el estadístico del contraste no debería tomar ese valor (sería impro-
bable que lo tomara, aunque no imposible); si de hecho lo toma, lo razonable es concluir que
esa H0 no debe ser verdadera. Es importante reparar en el hecho de que la decisión siempre
se toma sobre H0 .
Con esta regla de decisión se está asumiendo que la probabilidad asociada al estadístico
del contraste indica el grado de compatibilidad existente entre la hipótesis nula y los datos.
A esta probabilidad (grado de compatibilidad) la llamamos nivel crítico (también se le llama
nivel de significación observado) y la representamos mediante p:
p = nivel crítico = P (D | H0 ) (D = Datos)
Es decir, p representa la probabilidad de encontrar, en la distribución muestral definida por

H0, los datos de hecho encontrados; más concretamente, la probabilidad de encontrar datos
tan alejados, o más alejados, de la afirmación establecida en H0 como los de hecho encontra-
dos. Aplicando este criterio de compatibilidad entre la hipótesis nula y los datos, la regla de
decisión puede formularse de esta otra manera:
Rechazar H0 si p < α ; mantenerla en caso contrario
El tamaño de las zonas de rechazo y aceptación se determina fijando el valor de α, es decir,

fijando el nivel de significación o nivel de riesgo con el que se desea trabajar. Por supuesto,
puesto que α es la probabilidad que se va a considerar como lo bastante pequeña para que va-
lores con esa probabilidad o menor no se den bajo H0, se comprenderá que α debe ser, nece-
sariamente, un valor pequeño (generalmente, 0,05).
La regla de decisión en la que se basan los contrastes de hipótesis encierra un argumento
claro acerca del rol que desempeña el azar en la variabilidad de los datos. Cuando se decide
no rechazar una H0 se está asumiendo que el efecto observado (diferencia, relación) puede
explicarse sin necesidad de recurrir a factores distintos de la variabilidad debida al azar mues-
tral. Cuando se decide rechazar una H0 se está descartando el azar como única explicación
del efecto observado y, en consecuencia con ello, se está asumiendo que el efecto realmente
existe en la población.
Por tanto, no rechazar H0 significa que el efecto estudiado (o, mejor, la cuantificación que
hemos hecho del mismo) se encuentra dentro del rango de valores esperables por azar cuando
H0 se asume que es verdadera. Esto no quiere decir que H0 sea verdadera, pues un efecto, aun
estando presente, podría no ser detectado por diferentes razones (mal diseño, falta de poten-
cia; ver siguiente apartado); solamente significa que H0 se considera compatible con los datos.
Pensemos en el estudiante de nuestro ejemplo. Imaginemos que acierta 3 de las 5 preguntas
y que, de acuerdo con nuestra regla de decisión, decidimos no rechazar H0 . Con esta deci-
sión no estamos afirmando que el estudiante no conozca la materia; ni siquiera estamos afir-
mando que el estudiante haya respondido al azar. Lo que estamos afirmando es que no po-
demos descartar el azar como explicación de lo que ha ocurrido y que, consecuentemente, no
podemos afirmar que el estudiante conozca la materia.
Por el contrario, rechazar H0 significa que el efecto estudiado excede el rango de valores
esperables por azar cuando H0 es verdadera; y esto implica que el efecto observado en los
datos no puede explicarse únicamente a partir de la variabilidad atribuible al azar. Cuando se
da esta circunstancia, consideramos que los datos son incompatibles con H0 (es decir, conside-
ramos que H0 es falsa) y que la hipótesis verdadera es H1 . Esto no es exactamente lo mismo
que afirmar que el estudiate conoce la materia; lo que se está afirmando es que es improbable
que el estudiante haya respondido al azar. Cuando ocurre esto decimos que el resultado ob-
servado es estadísticamente significativo. Y, basándonos en la lógica del procedimiento, asu-
mimos que el efecto observado en la muestra está presente en la población11.
Existe una asimetría evidente entre las dos conclusiones que se siguen de la decisión de
un contraste. Si se rechaza H0 se está afirmando que ha quedado probado que H0 es falsa (con
las limitaciones propias de una decisión basada en probabilidades; es decir, sin la certeza
absoluta de que las cosas sean así). Por el contrario, si se mantiene H0 , no se está afirmando
que ha quedado probado que H0 es verdadera, sino solamente que la evidencia empírica dis-
ponible no permite rechazarla. Por tanto:
Mantener una hipótesis nula significa que se considera que esa hipótesis es compatible
con los datos. Rechazar una hipótesis nula significa que se considera probado (con la
limitación señalada) que esa hipótesis es falsa.
La razón de esta asimetría en la conclusión es doble. Por un lado, dada la naturaleza inespecí-
fica de H1 (recordemos que H1 es una afirmación inexacta), raramente es posible afirmar que
H1 no es verdadera; las desviaciones pequeñas de H0 forman parte de H1, por lo que al
mantener una H0 particular, también se están manteniendo, muy probablemente, algunos de
los valores incluidos en H1 (Tukey, 1991); debe concluirse, por tanto, que se mantiene o no
se rechaza H0 , pero no que se acepta como verdadera.
Por otro lado, en el razonamiento que lleva a tomar una decisión sobre H0, puede reco-
nocerse el argumento deductivo modus tollens (si a, entonces b; no b, luego no a), aunque de
tipo probabilístico:
Si H0 es verdadera (si a), entonces, muy probablemente, los datos serán compatibles con
ella (entonces, muy probablemente, b); los datos no son compatibles con H0 (no b); luego,
muy probablemente, H0 no es verdadera (luego, muy probablemente, no a).
Dicho de forma algo más técnica:
Si H0 es verdadera, entonces, muy probablemente, el estadístico del contraste tomará un
valor de la zona de aceptación (si a, entonces, muy probablemente, b); el estadístico del
contraste no toma un valor de la zona de aceptación (no b); luego, muy probablemente,
H0 no es verdadera (luego, muy probablemente, no a).
Este argumento es correcto desde el punto de vista lógico, y útil12. Sin embargo, si una vez
establecida la primera premisa se continúa de esta otra manera:
El estadístico del contraste cae en la zona de aceptación (entonces b); luego, muy pro-
bablemente, H0 es verdadera (luego, muy probablemente, a),
11
En este salto de la hipótesis estadística a la hipótesis científica o de investigación debe tenerse siempre presente que una
hipótesis de investigación puede ser afirmada únicamente en la medida en que se corresponde con la hipótesis estadística
que la representa (ver Chow, 1996, Cap. 3).
12
El hecho de que este argumento cambie las premisas categóricas del modus tollens por premisas probabilísticas ha llevado
a algunos autores, no solo a dudar de su validez lógica, sino a afirmar que no permite llegar a conclusiones correctas (ver,
por ejemplo, Cohen, 1994; Falk y Greenbaum, 1995). Sin embargo, estas objeciones han recibido cumplida respuesta que
han venido a destacar, no ya la utilidad del argumento, que la tiene, sino su validez lógica cuando se aplica correctamente
(ver Cortina y Dunlap, 1997; Hagen, 1997, 1998; McDonald, 1997).
entonces se comete un error lógico llamado falacia de la afirmación del consecuente, pues
el estadístico del contraste puede haber tomado un valor de la zona de aceptación por razones
diferentes13 de las contenidas en H0.
Contrastes bilaterales y unilaterales

La forma de dividir la distribución muestral en zona de rechazo y zona de aceptación depende
de que el contraste sea bilateral o unilateral. En un contraste bilateral o bidireccional no se
tiene una idea previa acerca de la dirección en la que pueden aparecer resultados incompa-
tibles con H0. Esto es lo que ocurre, por ejemplo, cuando se desea comprobar si un parámetro
toma o no un determinado valor, o si dos grupos difieren en alguna variable, o si dos variables
son independientes:
1. H0 : πacierto = 0,25.
H1 : πacierto =/ 0,25.
2. H0 : µA = µB.
H1 : µA =/ µB.
3. H0 : ρXY = 0.
H1 : ρXY =/ 0.
En el caso 1 se rechazará H0 tanto si πacierto > 0,25 como si πacierto < 0,25; en el caso 2 se recha-
zará H0 tanto si µA > µB como si µA < µB; en el caso 3 se rechazará H0 tanto si ρXY > 0 como
si ρXY < 0. Todos estos contrastes son bilaterales: las hipótesis alternativas no hacen explícita
la dirección en la que se encuentran los resultados muestrales incompatibles con H0 (lo cual
se expresa con el signo “=/”).
En un contraste unilateral o unidireccional se tiene una idea previa sobre la dirección en
la que se encuentran los resultados incompatibles con H0. Esto es lo que ocurre, por ejemplo,
cuando se desea comprobar si el valor de un parámetro ha aumentado, o si un grupo supera
a otro en alguna variable, o si dos variables se encuentran positivamente relacionadas:
$ 0,25.
1. H0 : πacierto <
H1 : πacierto > 0,25.
$ µB.
2. H0 : µA <
H1 : µA > µB.
$ 0.
3. H0 : ρXY <
H1 : ρXY > 0.
En el caso 1 se rechazará H0 si πacierto > 0,25, pero no si πacierto < 0,25; en el caso 2 se rechazará
H0 si µA > µB , pero no si µA < µB ; en el caso 3 se rechazará H0 si ρXY > 0, pero no si ρXY < 0.
Todos estos contrastes son unilaterales: las hipótesis alternativas contienen una predicción
concreta (expresada con los signos “<” y “>”) sobre la dirección en la que se encuentran los
resultados incompatibles con H0.
13
Buscar un efecto es como buscar un objeto en un cuarto trastero. Cuando se busca algo y se encuentra se puede afirmar
que estaba. Cuando se busca algo y no se encuentra no es posible afirmar que no está; puede ocurrir, desde luego, que real-
mente no esté, pero también puede ocurrir que no se haya buscado bien.
La zona de rechazo o crítica, por tanto, debe situarse allí donde pueden aparecer los valo-
res muestrales incompatibles con H0, es decir, allí donde indica H1. Y esto es algo que depen-
de únicamente de lo que interese estudiar en cada caso concreto. Por ejemplo, para comparar
la eficacia de dos tratamientos sin una expectativa justificada (estudios previos, intereses
concretos, etc.) sobre cuál de los dos es más eficaz, lo razonable es plantear un contraste bila-
teral (H1 : µA =/ µB). Lo cual significa que la zona crítica debe recoger los valores muestrales
que vayan tanto en la dirección µA ! µB > 0 como en la dirección µA ! µB < 0. Pues, si H0 es
falsa, lo será tanto si µA es mayor que µB como si µA es menor que µB; y la zona crítica debe-
rá recoger ambas posibilidades14. Por esta razón,
en los contrastes bilaterales, la zona crítica se encuentra repartida15, generalmente a
partes iguales, entre las dos colas de la distribución muestral.
Sin embargo, para comprobar si un estudiante responde o no al azar, lo razonable es plantear
un contraste unilateral (H1 : πacierto > 0,25), pues solamente interesa considerar el caso en el
que el estudiante obtiene una proporción de aciertos mayor que la esperable por azar (no una
proporción menor). En este caso, los únicos valores muestrales incompatibles con H0 son los
que van en la dirección πacierto > 0,25, que es justamente la dirección apuntada en H0. Y la zo-
na crítica debe reflejar esta circunstancia quedando ubicada en la cola derecha de la distri-
bución muestral. Por tanto,
en los contrastes unilaterales, la zona crítica se encuentra en una de las dos colas de la
distribución muestral.
De acuerdo con esto, las reglas de decisión que corresponden a los contrastes de nuestros dos
ejemplos (el de las diferencias entre dos tratamientos y el del profesor que desea evaluar los
conocimientos de su estudiante) pueden concretarse de la siguiente manera:
1. Rechazar H0: µA = µB si el estadístico del contraste cae en la zona crítica, es decir, si toma
un valor mayor que el cuantil 100 (1 ! α /2) o menor que el cuantil 100 (α /2) de su distri-
bución muestral.
O bien: rechazar H0: µA = µB si el estadístico del contraste toma un valor tan grande o tan
pequeño que la probabilidad de obtener un valor tan extremo o más que el obtenido es
menor que α /2. Es decir, rechazar H0 si p /2 < α /2; o, lo que es lo mismo, si p < α.
$ 0,25 si el estadístico del contraste (el número de aciertos) cae en
2. Rechazar H0: πacierto <
la zona crítica, es decir, si el estadístico del contraste toma un valor mayor que el percen-
til 100 (1 ! α) de su distribución muestral.
O bien: rechazar H0: πacierto <$ 0,25 si el estadístico del contraste toma un valor tan grande
que la probabilidad de obtener un valor como ése o mayor es menor que α. Es decir, re-
chazar H0 si p < α.
14
Por supuesto, si se desea contrastar, no si dos tratamientos difieren, sino si uno es mejor que el otro, habrá que plantear
un contraste unilateral.
15
Existen excepciones a esta regla. Cuando se utiliza la distribución normal o la distribución t de Student, la zona crítica
de los contrastes bilaterales se encuentra, efectivamente, repartida entre las dos colas de la distribución muestral. Pero de-
pendiendo del estadístico utilizado y de su distribución muestral, puede ocurrir que la zona crítica de un contraste bilateral
esté, toda ella, ubicada en la cola derecha de la distribución. Esto es lo que ocurre, por ejemplo, cuando se utiliza la distri-
bución χ 2 o la distribución F. Tendremos ocasión de estudiar esto con detalle más adelante.
Errores Tipo I y II, y potencia de un contraste

Acabamos de ver que todo contraste de hipótesis desemboca en la decisión de mantener o re-
chazar H0. La realidad también es doble: H0 puede ser verdadera o puede ser falsa; y si H0 es
falsa, entonces hay algún valor de los incluidos en H1 que es verdadero. Esto implica que la
decisión que se toma en un contraste de hipótesis puede conducir a cuatro resultados distintos:
si H0 es verdadera y se toma la decisión de mantenerla, se está tomando una decisión correcta;
y también se está tomando una decisión correcta si H0 es falsa y se decide rechazarla; pero,
tanto cuando H0 es verdadera y se decide rechazarla como cuando es falsa y se decide man-
tenerla, se está cometiendo un error16:
Llamamos error Tipo I al que se comete cuando se decide rechazar una H0 que en reali-
dad es verdadera. La probabilidad de cometer este error es α (en la definición de este
error únicamente interviene la distribución definida por H0 ).
Llamamos error Tipo II al que se comete cuando se decide mantener una H0 que en rea-
lidad es falsa. La probabilidad de cometer este error es β (en la definición de este error
interviene tanto la distribución definida por H0 como la definida por la verdadera H1 ).
Puesto que el área de una distribución de probabilidad se asume que vale 1, de las probabi-
lidades asignadas a cada tipo de error (α y β) se deduce: (1) que 1 ! α es la probabilidad de
tomar una decisión correcta cuando H0 es verdadera y (2) que 1 ! β es la probabilidad de to-
mar una decisión correcta cuando H0 es falsa (es decir, cuando H1 es verdadera; o, mejor
dicho, cuando es verdadero algún valor concreto de los muchos incluidos en H1 ).
Por tanto, α y β son las probabilidades de cometer errores Tipo I y II, respectivamente.
Ya sabemos que a la probabilidad α se le llama nivel de riesgo o nivel de significación. Y
también sabemos que a la probabilidad 1 ! α se le llama nivel de confianza. A la probabili-
dad 1 ! β se le llama potencia del contraste.
Es importante señalar que estas cuatro probabilidades son probabilidades condicionales.
Por definición, un error Tipo I únicamente puede cometerse si H0 es verdadera; y un error
Tipo II únicamente puede cometerse si H0 es falsa. Por tanto, α es la probabilidad de recha-
zar H0 si H0 es verdadera, es decir, P (rechazar H0 | H0 verdadera). Y 1 ! α es la probabilidad
de mantener H0 si H0 es verdadera, es decir, P (mantener H0 | H0 verdadera). Lo mismo vale
decir de sus probabilidades complementarias. Así, β es la probabilidad de mantener H0 cuando
se asume que la hipótesis verdadera es H1 , es decir, P (mantener H0 | H1 verdadera); y 1 ! β
es la probabilidad de rechazar H0 cuando se asume que la hipótesis verdadera es H1, es decir,
P (rechazar H0 | H1 verdadera).
16
El proceso que se sigue hasta llegar a esa decisión se basa, todo él excepto la propia decisión, en el supuesto de que H0
es verdadera. Entre otras cosas, la distribución muestral que ofrece las probabilidades en las que se basa la decisión se ob-
tiene asumiendo que H0 es verdadera. En su propuesta original del contraste de hipótesis, R. Fisher (1925) únicamente habla
de H0. La consideración simultánea de dos hipótesis complementarias, H0 y H1, se empezó a popularizar en los años 40 gra-
cias a las aportaciones de Neyman y Pearson (1928). En la propuesta inicial de Fisher, el contraste de hipótesis se concibe
como una forma de resumir la información muestral y de elaborar un argumento a favor de una cuestión científica. Con las
aportaciones de Neyman y Pearson, el contraste de hipótesis se empieza a interpretar como un método de toma de decisiones
en el que necesariamente se elige entre dos hipótesis rivales (H0 y H1 ) tomando como referencia un nivel de significación
prefijado (ver Chow, 1996, págs. 21-24, para una reflexión sobre las coincidencias y diferencias entre la propuesta inicial
de Fisher y las aportaciones de Neyman y Pearson).
Recordemos que el nivel crítico o valor p (la probabilidad que se compara con el nivel
de significación α para tomar una decisión sobre H0 ) también es una probabilidad condicio-
nal. Representa la probabilidad de encontrar, en la distribución muestral definida por H0 , los
datos de hecho encontrados, es decir, P (D | H0)17 (más concretamente, la probabilidad de
encontrar datos, D, tan alejados, o más alejados, de la afirmación establecida en H0 como los
de hecho encontrados).
La Tabla 1.2 puede ayudar a aclarar todas estas ideas. En ella están representadas las
cuatro posibles consecuencias asociadas a la decisión que se toma un contraste de hipótesis,
junto con sus correspondientes probabilidades.
Tabla 1.2. Posibles resultados de un contraste de hipótesis
Decisión sobre H0
Naturaleza de H0 Mantenerla Rechazarla
Decisión correcta Error Tipo I
Verdadera (P = 1 ! α) (P = α)
Error Tipo II Decisión correcta

Falsa (P = β) (P = 1 ! β)
La filas de la tabla representan sucesos mutuamente exclusivos: H0 es verdadera o es falsa.

Y la decisión siempre consiste en mantener o rechazar H0 . Las probabilidades de las casillas
(α, β, 1 ! α y 1 ! β) son las probabilidades condicionales correspondientes a cada uno de los
cuatro posibles resultados de la decisión. Puesto que solamente cabe tomar una de las dos
decisiones posibles, las probabilidades de cada fila suman 1.
Quizá los resultados de la Tabla 1.2 puedan entenderse mejor si imaginamos el contraste
de hipótesis como una prueba diagnóstica diseñada para detectar la presencia de una determi-
nada enfermedad. Si la prueba diagnóstica no es infalible (esto es lo habitual, como tampoco
es infalible la decisión que se toma en un contraste de hipótesis), al administrar la prueba a
una persona para decidir si padece o no la enfermedad puede darse uno de los cuatro resul-
tados que muestra la Tabla 1.3.
Estos cuatro resultados guardan una estrecha correspondencia con los de la Tabla 1.2 (ha-
ciendo H0 : la persona está sana y H1 : la persona está enferma). Hay dos maneras de obtener
un diagnóstico correcto y dos de obtener un diagnóstico equivocado. Los dos diagnósticos
correctos se obtienen cuando la prueba dice que una persona sana está sana (a este resultado
se le llama especificidad; equivale a mantener H0 cuando es verdadera) y cuando dice que una
persona enferma está enferma (a este resultado se le llama sensibilidad; equivale a rechazar
H0 cuando es falsa). Los dos diagnósticos equivocados se obtienen cuando la prueba dice que
17
Puesto que el valor p es una probabilidad condicional, no debe interpretarse como la probabilidad de que H0 sea verdade-
ra; por la misma razón, tampoco el valor 1! p debe interpretarse como la probabilidad de que sea verdadera H1 . En un
contraste de hipótesis, tanto P (H0) como P (H1) son valores desconocidos. No obstante, puede demostrarse que cuanto me-
nor es la probabilidad de que H0 sea verdadera (y, por tanto, mayor la probabilidad de que sea verdadera H1), menor es el
valor del nivel crítico p (en relación con esta problemática puede consultarse la excelente argumentación de Nikerson, 2000,
págs. 246-253).
una persona sana está enferma ( falso positivo; equivale a rechazar H0 cuando es verdadera
es decir, a un error Tipo I) y cuando dice que una persona enferma está sana ( falso negativo;
equivale a mantener H0 cuando es falsa, es decir, a un error Tipo II).
Tabla 1.3. Posibles resultados de una prueba diagnóstica
Grupo pronosticado
Grupo real Sano Enfermo
Acierto Error
Sano (especificidad) (falso positivo)
Error Acierto
Enfermo (falso negativo) (sensibilidad)
En la Figura 1.1 están representadas las probabilidades correspondientes a los cuatro resul-
tados de la Tabla 1.2. Las curvas representan una situación hipotética referida a un contraste
unilateral derecho sobre el parámetro µ (con H0: µ =_µ 0 ; H1: µ = µ1). La curva de la izquierda
representa la distribución muestral18 del estadístico Y para H0: µ = µ0 (µ0 se refiere a un valor
concreto
_ cualquiera). La curva de la derecha representa la distribución muestral del estadístico
Y para H1 : µ = µ 1 (µ 1 se refiere a un valor cualquiera mayor que µ 0)19.
Figura 1.1. Áreas correspondientes a las probabilidades α, β, 1! α y 1! β en un contraste unilateral dere-

cho sobre el parámetro µ
H0 H1
1− α 1− β
β
α _
Y
µ0 µ1
Zona de aceptación Zona de rechazo
18
La probabilidad asociada a una media cualquiera en su distribución muestral es la misma que la asociada a su corres-
pondiente puntuación típica en la distribución N (0, 1) o tn-1 (ver, en el Capítulo 6 del primer volumen, el apartado Distri-
bución muestral del estadístico media). En términos de probabilidad, por tanto, es equivalente hablar de la distribución
muestral de la media y de la distribución muestral de la media transformada en Z o T.
19
No debe pasarse por alto el hecho de que esta representación exige fijar para el parámetro µ un valor concreto de todos
los que le asigna H1. Aunque H0 define una única curva (pues H0 es una afirmación exacta), cada valor distinto de los inclui-
dos en H1 define una curva distinta (pues H1 es una afirmación inexacta). Cada una de estas curvas tiene sus propios valores
β y 1 ! β.
Factores de los que depende la potencia

Ya hemos definido la potencia (1 ! β) como la probabilidad de rechazar una hipótesis nula
cuando la hipótesis verdadera es H1 . Por tanto, la potencia de un contraste hace referencia a
la sensibilidad del contraste para detectar como falsa una hipótesis nula que realmente lo es.
Cuanto mayor es la potencia, mayor es la probabilidad de que una hipótesis nula falsa sea
reconocida como tal. Si la potencia de un contraste es baja, también será baja la probabilidad
de detectar un efecto (una diferencia, una relación) que realmente existe.
En la investigación aplicada se suele prestar poca atención a todo lo relacionado con el
error Tipo II y la potencia. La mayor parte de los estudios publicados en revistas científicas
se limitan a prefijar el valor de α (generalmente 0,05) ignorando por completo lo que ocurre
con β. Probablemente, esto es todo lo que puede hacerse en algunos casos, pero es seguro que
en otros es posible hacer algo más. En opinión de no pocos expertos, descuidar la potencia
de un contraste puede tener algunas consecuencias indeseables20.
La probabilidad de cometer un error Tipo I (α) es una probabilidad conocida; ya sabe-
mos que el valor de α se fija, por convención, en 0,05 (o en otro valor parecido que siempre
es conocido porque lo fija el propio investigador). Sin embargo, la probabilidad de cometer
un error Tipo II (y, por tanto, la potencia del contraste), es un valor desconocido que es nece-
sario calcular. Pero el valor de β (y, por tanto, el valor de la potencia, 1 ! β), depende de tres
factores: (1) el valor de α, (2) el tamaño del error típico de la distribución muestral utiliza-
da para realizar el contraste y (3) el verdadero valor del parámetro entre todos los incluidos
en H1. Aclaremos esto:
1. En primer lugar, el valor de β depende del valor de α. Los valores de α y β se relacio-
nan de forma inversa: permaneciendo todo lo demás constante, al aumentar cualquiera
de ellos disminuye el otro. Desplazando la línea vertical de la Figura 1.1 hacia la iz-
quierda se puede constatar que el área α va aumentando y el área β va disminuyendo.
Desplazando la línea hacia la derecha ocurre justamente lo contrario.
2. En segundo lugar, el valor de β depende del error típico de la distribución muestral del
estadístico utilizado para realizar el contraste. Para una distancia dada entre µ 0 y µ 1 , el
solapamiento entre las curvas correspondientes a uno y otro parámetro es tanto mayor
cuanto mayor es el error típico de las distribuciones que representan esas curvas (cuan-
to mayor es el error típico de una distribución, más ancha es la distribución). Y cuanto
mayor es el solapamiento entre las dos curvas, mayor es el tamaño del área β. En el caso
representado en la Figura 1.1 se está contrastando la hipótesis H0 : µ = µ 0._Por tanto, las
curvas representadas se refieren a la distribución muestral del estadístico Y . Ahora bien,
20
En la tradición fisheriana no tiene sentido hablar de la potencia de un contraste porque únicamente se contempla una hipó-
tesis: la hipótesis nula (Fisher, 1925, 1935). La incorporación de la hipótesis alternativa al proceso es lo que lleva a Neyman
y Pearson (1928) a definir la potencia y a incluirla como un aspecto más del contraste de hipótesis. No obstante, solamente
en los últimos años se le ha empezado a prestar cierta atención. Muchos autores consideran que la potencia debe desempeñar
un rol esencial en la planificación de los estudios en los que se tiene intención de aplicar algún contraste de hipótesis (Chase
y Tucker, 1977; Cohen, 1988, 1992a, 1992b, 1994; Lashley, 1998; Rossi, 1990, 1997; Schmidt, 1996; Schmidt y Hunter,
1997). Entre algunos de estos autores predomina, incluso, la opinión de que un contraste de hipótesis del que no se conoce
la potencia es un contraste inútil, o incluso peor que inútil, porque puede llevar a conclusiones equivocadas. Sin embargo,
no faltan quienes consideran que la potencia es un concepto mal definido y, en algunos contextos, innecesario (ver, por
ejemplo, Chow, 1996, Cap. 6; Grayson, 2004; Macdonald, 2002).
la distribución muestral de la media es normal con parámetros µ y σ . Esto significa

que al disminuir σ (la desviación típica de la población) o al aumentar n (el tamaño de
la muestra), se reduce el error típico de la distribución. La consecuencia de esto es que
con una operación tan sencilla como aumentar n (también es posible disminuir σ, pero
esto es algo más complicado21), se puede obtener una reducción de la probabilidad de co-
meter errores Tipo II y, por tanto, un aumento de la potencia.
3. Por último, la probabilidad β depende de la distancia existente entre los valores µ 0 y µ1.
Las curvas de la Figura 1.1 corresponden a un contraste unilateral derecho para el caso
concreto en el que H1 : µ = µ 1. Sin embargo, en un contraste unilateral derecho, la hipó-
tesis alternativa afirma H1 : µ > µ 0 . Es decir, H1 atribuye al parámetro µ diferentes valo-
res, todos ellos mayores
_ que µ0. Cada uno de estos valores genera una distribución mues-
tral concreta para Y cuya ubicación o grado de alejamiento de la curva de H0 depende del
valor de µ 1. Y esto significa que existe toda una familia de valores β que dependen del
valor concreto que tome µ entre todos los incluidos en H1.
Volviendo a la Figura 1.1, podemos comprobar que, permaneciendo todo lo demás
igual, cuanto más se aleja el valor µ 1 del valor µ 0, más hacia la derecha se desplaza la
curva H1 y, en consecuencia, más pequeña se hace el área β (permaneciendo todo lo de-
más igual). Y al contrario, cuanto más se aproxima el valor de µ 1 al de µ 0, más hacia la
izquierda se desplaza la curva H1 y más grande se hace el área β (permaneciendo todo lo
demás igual). Por tanto, el tamaño del área β depende de cuál de todos los valores que
incluye H1 es el verdadero valor de µ.
La potencia de un contraste puede controlarse modificando cualquiera de los tres factores de
los que depende. Y, en principio, su valor debería fijarse intentando minimizar la probabilidad
asociada a los dos posibles errores inherentes a toda decisión.
Ya sabemos que la probabilidad α de cometer errores Tipo I se establece arbitrariamente
procurando que sea un valor pequeño (habitualmente, 0,05). Por tanto, disminuir el valor de
α es tan sencillo como asignarle un valor tan pequeño como se desee. No obstante, aunque
podría parecer que no hay nada erróneo en fijar un nivel de significación tan pequeño como
0,01 (o incluso menor), acabamos de ver que, permaneciendo lo demás igual, disminuir el
valor de α tiene como consecuencia directa un aumento del valor de β (una disminución de
la potencia). Por tanto, no parece que disminuir el valor de α sea una práctica recomendable.
Más razonable parece detenerse a considerar cuál de los dos errores podría resultar más
grave en una situación concreta y procurar disminuirlo a costa del otro. Así, cuando es impor-
tante evitar cometer un error Tipo I (por ejemplo, decidir aplicar un tratamiento que conlleva
graves efectos secundarios cuando en realidad no sería necesario aplicarlo), podría selec-
cionarse un valor muy pequeño para α (0,001, por ejemplo). Y cuando es importante evitar
cometer un error Tipo II (por ejemplo, mandar a alguien a casa cuando de hecho necesita
tratamiento inmediato), podría seleccionarse para α un valor más grande (0,10 por ejemplo).
No obstante, aunque esta estrategia puede tener algunas ventajas prácticas (Oakes, 1986;
Skipper, Guenther y Nass, 1967), sigue sin resolver el problema: al disminuir el valor de α,
también disminuye la potencia (aumenta la probabilidad de cometer errores Tipo II, β).
21
La variabilidad de un conjunto de puntuaciones puede reducirse mejorando el control sobre las condiciones del estudio
y, muy especialmente, mejorando la precisión de las mediciones que se llevan a cabo (ver, por ejemplo, Judd y Kenny, 1981,
págs. 111 y siguientes).
Entre los factores de los que depende el valor de β y, por tanto, el valor de la potencia,
aumentar el tamaño muestral, con la consiguiente reducción del error típico que esto implica,
no solo es la solución más eficaz, sino también, por lo general, la más sencilla. Por tanto, no
debe sorprender que el tamaño muestral desempeñe un rol destacado en la mayor parte del tra-
bajo relacionado con la potencia.
Cuando estudiemos los diferentes procedimientos estadísticos incluidos en este manual
prestaremos atención a la potencia en dos sentidos. En un sentido a priori estudiaremos cómo
determinar el tamaño muestral necesario para alcanzar, en un contraste concreto, una deter-
minada potencia (generalmente, un valor en torno a 0,80); esto, según veremos, requiere fijar
el valor de todos los factores de los que depende la potencia excepto, lógicamente, el del ta-
maño muestral (determinar de antemano el tamaño muestral tiene su importancia; si se utiliza
un tamaño muestral demasiado pequeño se corre el riesgo de no detectar efectos importantes;
si se utiliza un tamaño muestral demasiado grande se corre el riesgo de declarar significativos
efectos triviales). En un sentido a posteriori veremos cómo calcular la potencia observada,
es decir, la potencia de un contraste una vez llevado a cabo y, por tanto, dando a los factores
de los que depende el valor concreto que toman en el contraste realizado. En el Apéndice 1
se explica cómo realizar ambas tareas en un caso parecido al representado en la Figura 1.1.
Trabajar con la potencia observada es relativamente sencillo porque se tiene información
sobre todos los factores de los que depende. Trabajar con la potencia a priori es otra historia.
Entre otras cosas, es necesario asignar un valor concreto a H1. Y esto exige, inevitablemente,
conocer o estimar el tamaño del efecto que se está analizando.
Tamaño del efecto

La expresión tamaño del efecto se refiere a la magnitud del efecto estudiado. Más concreta-
mente, al grado de alejamiento existente entre las distribuciones definidas por H0 y por la ver-
dadera H1 (el valor verdadero de todos los incluidos en H1 ). Ya sabemos que las herramien-
tas inferenciales permiten realizar comparaciones y estudiar relaciones: al realizar compara-
ciones, el tamaño del efecto se refiere a la magnitud de la diferencia; al relacionar variables,
el tamaño del efecto se refiere a la intensidad de la relación.
Un contraste de hipótesis sirve para decidir si un determinado efecto (una diferencia, una
relación) está presente en la población. De acuerdo con la lógica del contraste de hipótesis,
la obtención de un resultado estadísticamente significativo ( p < α) conduce al rechazo de H0.
Y el rechazo de H0 implica que el efecto sometido a contraste está presente en la población.
La significación estadística posee una extraordinaria utilidad como argumento para elegir
entre hipótesis rivales. Descartar el azar como fuente de explicación de los datos (aunque sea
mediante un argumento basado en probabilidades) es todo lo que se necesita en muchos con-
textos para poder seguir avanzando en la adquisición de conocimiento.
Pero la significación estadística de un efecto es un concepto que no necesariamente coin-
cide con la relevancia (importancia teórica o práctica) del mismo (ver Kirk, 1996). El valor
del estadístico utilizado en un contraste no depende únicamente del tamaño real del efecto en
la población (es decir, de la verdadera diferencia o de la verdadera relación existentes), sino
del tamaño de las muestras utilizadas y del grado de variabilidad de las puntuaciones.
El nivel crítico (valor p) aporta más información que el mero rechazo de una hipótesis
tras obtener un resultado significativo (ver Apéndice 8 del primer volumen). Pero su utilidad
es algo limitada. Imaginemos que, al comparar un grupo experimental con un grupo control,
rechazamos la hipótesis H0: µE = µC con un nivel crítico tan pequeño como p = 0,0001. Puesto
que p toma un valor muy pequeño, seguramente nos sentiremos inclinados a pensar que H0
es muy falsa y que entre µE y µC existe una gran diferencia (un gran tamaño del efecto). Pero
esa conclusión no necesariamente sería correcta. Por un lado, el valor p no es la probabilidad
de H0, sino la probabilidad asociada a los datos obtenidos cuando H0 es verdadera. Por otro,
puesto que la potencia de un contraste es tanto mayor cuanto mayor es el tamaño muestral
(ver apartado anterior), tamaños muestrales muy grandes podrían llevar a rechazar H0 incluso
con diferencias µE ! µC insignificantes (pues si los tamaños muestrales son muy grandes en
relación con los tamaños de las varianzas, el valor del estadístico del contraste será muy gran-
de incluso cuando la diferencia entre las medias muestrales sea muy pequeña).
Parece, por tanto, que la significación estadística (el valor p), precisamente por su depen-
dencia del tamaño muestral, no informa correctamente del tamaño del efecto estudiado (de
la verdadera diferencia entre µE y µC)22.
Para valorar, no la significación estadística de un resultado, sino su relevancia, contamos
con diferentes estadísticos agrupados bajo la denominación de medidas del tamaño del efecto.
Existen multitud de estas medidas (ver Abelson, 1995, págs. 39-77; Kirk, 1996). Todas ellas
han sido diseñadas con el mismo objetivo, pero se basan en diferentes criterios. Y, aunque es-
tos criterios son muy variados (ver, por ejemplo, Richardson, 1996), la mayoría de las me-
didas disponibles (al menos las más utilizadas) pueden clasificarse atendiendo solamente a
dos: (1) las basadas en una estandarización de la diferencia entre las medias y (2) las basadas
en la proporción de varianza común o explicada23.
Lógicamente, estas medidas adoptan una u otra forma dependiendo de las características
de los datos analizados. Al estudiar los diferentes procedimientos que se incluyen en este ma-
nual tendremos ocasión de conocer cómo se calculan e interpretan en cada caso. De momen-
to, basta con saber que las medidas del tamaño del efecto ofrecen información adicional a la
que ofrece un contraste de hipótesis:
1. Contribuyen a distinguir entre la significación estadística de un resultado y su relevancia
teórica o práctica (Kirk, 1996).
2. Sirven para estimar la potencia de un contraste y para elegir el tamaño muestral idóneo
al planificar un estudio (Cohen, 1988; 1992a).
3. Facilitan la recopilación de los resultados de diferentes estudios para realizar un meta-
análisis (Hunter y Schmidt, 2004; Rosenthal, 1991).
Éstas son, sin duda, algunas de las razones por las que muchos expertos (también los editores
de las más importantes revistas científicas), recomiendan utilizar las medidas del tamaño del
efecto e incluirlas en los informes de investigación acompañando a la significación estadística
(Abelson, 1995; Cohen, 1988; Murphy, 1997; Thonsom, 1994, 1997). Especialmente relevan-
22
Sin embargo, el tamaño de un efecto y el valor p obtenido al contrastarlo no son independientes. Permaneciendo todo lo
demás igual, cuanto mayor es el tamaño del efecto, menor en el valor p. En relación con esta problemática puede consultarse
la excelente argumentación de Nikerson (2000, págs. 246-253).
23
A veces se distingue entre las primeras (a las que siempre se les llama medidas del tamaño del efecto) y las segundas (a
las que se les suele llamar medidas de asociación). Pero tanto unas como otras deben ser consideradas medidas del tamaño
del efecto.
tes en este sentido son las recomendaciones del informe de Wilkinson y la APA Task Force
on Statistical Inference (1999).
Sin embargo, estas recomendaciones no vienen acompañadas de una aclaración del tipo
de medidas que conviene utilizar en cada caso (con cada diseño, con cada tipo de datos, etc.),
probablemente porque su aplicación no está libre de problemas y porque no existe suficiente
consenso en torno a qué tipo de medida es la idónea en cada contexto24.
Por tanto, las medidas del tamaño del efecto no deben ser consideradas una panacea en
el análisis de datos. A pesar de que no faltan quienes han llegado a proponer sustituir la sig-
nificación estadística (es decir, los contrastes de hipótesis) por soluciones basadas, entre otras
cosas, en la estimación del tamaño del efecto (por ejemplo, Cohen, 1992a, 1994; Rossi, 1997;
Schmidt, 1996), tampoco faltan quienes han refutado sus argumentos con reconocida solven-
cia (por ejemplo, Abelson, 1997a, 1997b; Chow, 1996; Cortina y Dunlap, 1997; Mulaik, Raju
y Harshman, 1997).
Por nuestra parte, seguiremos considerando que la significación estadística que ofrece
un contraste de hipótesis posee una extraordinaria utilidad como argumento para elegir entre
hipótesis rivales. Y, al analizar nuestros datos, acompañaremos la significación estadística
de cada contraste, siempre que sea posible, de la información necesaria para mejorar nuestra
comprensión del efecto estudiado; y esto significa prestar atención tanto a la potencia concreta
del contraste realizado como a la estimación del tamaño del efecto estudiado.
Clasificación de los contrastes de hipótesis

Para poder aplicar un contraste de hipótesis, la primera decisión que es necesario tomar (quizá
la más importante) es la de elegir correctamente el contraste concreto que permitirá poner a
prueba la hipótesis que se desea contrastar. Lógicamente, si un estudio incluye varias hipó-
tesis será necesario utilizar varios contrastes, en cuyo caso, cada uno de ellos deberá elegirse
pensando en una hipótesis concreta.
Este argumento sugiere que la clasificación de los contrastes de hipótesis podría hacerse,
antes que nada, tomando como referencia el tipo de hipótesis que permiten contrastar. Con
este criterio, los contrastes podrían clasificarse, por ejemplo, en función de que permitan com-
parar medias, o comparar proporciones, o estudiar relaciones, etc. Pero lo cierto es que este
24
Al igual que con otras muchas herramientas estadísticas, no existe un acuerdo generalizado sobre el significado real de
este tipo de medidas. No hay consenso sobre qué medida es más apropiada en cada caso (Gorsuch, 1991; McGrath y Meyer,
2006; Olejnik y Algina, 2003; Parker, 1995). Un efecto cuantificado como pequeño puede ser relevante en algunos contextos
y un efecto cuantificado como grande puede ser poco relevante en otros (Lewandowsky y Maybery, 1998; Prentice y Miller,
1992; Rosental, 1990). Un efecto cuantificado como grande no garantiza que se trate de un efecto relevante o importante
más de lo que lo hace un valor p pequeño (Chow, 1991; Shaver, 1985). O’Grady (1982) ha señalado algunas cuestiones
teóricas, metodológicas y psicométricas que pueden afectar de forma importante al significado y utilidad de las medidas que
intentan cuantificar el tamaño de un efecto. Además, el error típico de las distribuciones muestrales de estas medidas es,
por lo general, muy grande (Carrol y Nordholm, 1975), especialmente cuando los tamaños muestrales son pequeños, y esto
implica que es posible que su valor sea grande cuando de hecho se está estudiando un efecto trivial, y pequeño cuando de
hecho se está estudiando un efecto relevante (Rosenthal y Rubin, 1982). Chow (1988, 1996) ha argumentado que la cuan-
tificación de un efecto puede tener interés cuando un estudio está diseñado justamente para conocer la magnitud de un
efecto y su relevancia práctica, pero no cuando el objetivo de un estudio es contrastar una predicción concreta hecha por
una teoría; en este segundo caso, lo que realmente interesa es poder determinar si la evidencia empírica que aporta el estudio
es o no consistente con la predicción hecha; y, en este contexto, la cuantificación del tamaño del efecto no solo carece de
interés, sino que podría llevar a error.
criterio, por sí solo, no conduce a una clasificación del todo satisfactoria porque no resulta
muy útil a quienes se inician en el análisis de datos.
Una clasificación de los contrastes de hipótesis debe servir para cubrir, al menos, estos
dos objetivos: (1) ofrecer una panorámica de los contrastes disponibles y (2) ayudar al analista
de datos a elegir el contraste apropiado en cada caso. Creemos que ambos objetivos pueden
conseguirse fácilmente si el criterio referido al tipo de hipótesis que cada contraste permite
poner a prueba se complementa con otros dos: (1) el número de las variables que intervienen
en el análisis y (2) la naturaleza categórica o cuantitativa de las variables analizadas25.
El Cuadro 1.1 ofrece una clasificación de los contrastes basada en todos o parte de estos
criterios. Incluye los contrastes ya estudiados en el primer volumen (en cursiva) y los que
estudiaremos en éste. En la clasificación propuesta se utiliza, como primer criterio de clasi-
ficación, el número de variables; a continuación, la naturaleza categórica o cuantitativa de
las variables; por último, el tipo de hipótesis que cada contraste permite poner a prueba.
En lo relativo a una y dos variables, este cuadro es el mismo que ya hemos presentado
en el Capítulo 8 del primer volumen acompañado de una breve explicación de las caracte-
rísticas de cada contraste. La parte nueva, aquí, se refiere al estudio de más de dos varia-
bles, para lo cual se propone el análisis de varianza y el análisis de regresión lineal (junto con
alguna alternativa no paramétrica). Tanto el análisis de varianza como el de regresión, son
expresiones del modelo lineal general (ver Capítulo 1 del tercer volumen). Y ambos permiten
estudiar simultáneamente una variable dependiente y una o más variables independientes. La
variable dependiente debe ser cuantitativa en ambos casos (estudiaremos otros modelos en
el volumen 3). Lo que los distingue tiene que ver con la naturaleza de las variables indepen-
dientes: en el análisis de varianza son categóricas; en el de regresión pueder ser categóricas
o cuantitativas. Para completar la clasificación se han incluido algunas pruebas no paramétri-
cas que sirven para analizar diseños de un factor con medidas repetidas (J variables) cuando
no puede aplicarse el análisis de varianza: la prueba de Friedman (para variables ordinales)
y la prueba de Cochran (para variables dicotómicas).
Cuadro 1.1. Clasificación de los contrastes de hipótesis (los contrastes que aparecen en cursiva se han es-
tudiado en el primer volumen)
Una variable categórica (Capítulo 9 del primer volumen):

! Si la variable es dicotómica:
Prueba binomial o contraste sobre una proporción.
! Si la variable es politómica:
Prueba X 2 de Pearson sobre bondad de ajuste. (continúa)
25
No falta quien considera (ver, en el Capítulo 1 del primer volumen, el apartado Rol de las escalas de medida; págs. 25-26)
que este criterio de clasificación es inapropiado. Pero lo cierto es que la naturaleza categórica o cuantitativa de las variables
condiciona el tipo de estadísticos que permiten extraer información útil de los datos. Con variables nominales como, por
ejemplo, el lugar de nacimiento, no tiene sentido calcular medias: ¿cuál es la media de Andalucía, Aragón, Asturias, ...,
Valencia? Y con variables cuantitativas como, por ejemplo, la edad, no tiene mucha utilidad preguntarse qué porcentaje de
sujetos tiene una determinada edad (si la variable está medida con suficiente precisión, no habrá repeticiones o habrá muy
pocas), es más útil conocer el centro, la dispersión y la forma de la distribución. Por tanto, los estadísticos que permiten ob-
tener información útil con variables categóricas y con variables cuantitativas no son los mismos. La clasificación propuesta
tiene en cuenta esta circunstancia incorporando la naturaleza de las variables como un criterio más.
Una variable cuantitativa (Capítulo 2):

! Para estudiar el centro de la distribución:
Prueba T de Student para una muestra.
Prueba de Wilcoxon para una muestra.
Prueba de los signos para una muestra.
! Para estudiar la dispersión de la distribución:
Contraste sobre una varianza.
! Para estudiar la forma de la distribución:
Prueba de Kolmogorov-Smirnov sobre bondad de ajuste.
Dos variables categóricas (Capítulo 3):
! Para contrastar la hipótesis de independencia:
Prueba X 2 de Pearson sobre independencia o igualdad de proporciones.
Índices de riesgo y ‘odds ratio’.
! Para contrastar la hipótesis de homogeneidad marginal en tablas 2 × 2:
Prueba de McNemar.
! Para cuantificar el grado de asociación:
Medidas de asociación (variables nominales, variables ordinales, acuerdo).
Una variable categórica y una cuantitativa (Capítulo 4):
! Si la variable categórica tiene 2 niveles:
Prueba T para muestras independientes.
Prueba U de Mann-Whitney.
! Si la variable categórica tiene más de dos niveles:
Análisis de varianza de un factor (Capítulo 6).
Prueba H de Kruskal-Wallis.
Dos variables cuantitativas (Capítulo 5):
! Para compararlas:
Prueba T de Student para muestras relacionadas.
Prueba de Wilcoxon para dos muestras.
Prueba de los signos para dos muestras.
! Para relacionarlas:
Coeficiente de correlación RXY de Pearson.
Coeficientes de correlación para variables ordinales.
Más de dos variables:
! Una variable dependiente cuantitativa y dos variables independientes categóricas:
Análisis de varianza de dos factores (Capítulos 7 y 9).
! Una variable dependiente cuantitativa y una o más variables independientes:
Análisis de regresión lineal (Capítulo 10).
! J variables cuantitativas:
Análisis de varianza de un factor con medidas repetidas (Capítulo 8).
Prueba de Friedman (Capítulo 8).
! J variables dicotómicas:
Prueba de Cochran (Capítulo 8).
Programas informáticos para el análisis de datos

Hasta hace no muchos años, la mayor parte de los procedimientos estadísticos se aplicaban
con la ayuda de una calculadora de bolsillo. Afortunadamente los tiempos han cambiado y
ya es posible analizar datos mediante ordenadores y programas informáticos capaces de efec-
tuar los cálculos más complejos con suma rapidez y con el mínimo esfuerzo.
La lista de programas informáticos disponibles para el análisis de datos es interminable.
Muchos de ellos son generales: incluyen la mayoría de las técnicas estadísticas que un ana-
lista puede necesitar; otros muchos son específicos: se centran en una técnica concreta o en
un conjunto reducido de técnicas. Los que a nosotros nos interesan más aquí son los de tipo
general, pues son los que permiten aplicar las diferentes técnicas que estudiaremos en este
manual. Entre éstos, algunos de los más recomendables son SPSS, SAS, R/S-Plus, Minitab
y Stata. Y entre ellos, quizá el SPSS (recientemente renombrado PASW) sea el de mayor im-
plantación tanto en el ámbito académico como en el profesional: a su innegable potencial para
el análisis hay que añadir sus prestaciones como base de datos y su facilidad de manejo. Por
tanto, los ejemplos de cómo se aplican las diferentes técnicas estadísticas se basarán en él.
Al utilizar un programa informático es conveniente seguir algunas recomendaciones. En
primer lugar, aunque el objetivo sea aplicar alguna herramienta estadística, suele resultar bas-
tante útil estar algo familiarizado con el funcionamiento del programa como herramienta in-
formática (estructura básica de los menús, de los cuadros de diálogo, etc.; para esto, en el caso
concreto del SPSS, ver Pardo y Ruiz, 2009).
En segundo lugar, la primera vez que se utilice un procedimiento desconocido, es muy
recomendable aplicarlo a datos de los que ya se conoce la respuesta (por ejemplo, a los datos
que se utilizan en este manual). Esto puede ser de gran ayuda a la hora de identificar y com-
prender la información que se obtiene.
En tercer lugar, conviene tener presente que no siempre es apropiado ejecutar un procedi-
miento estadístico con las especificaciones que el programa tiene establecidas por defecto.
Muchas veces hay que personalizar la ejecución del procedimiento (eligiendo opciones, utili-
zando la sintaxis) para poder obtener los resultados que se buscan.
En cuarto lugar, a pesar de que los programas estadísticos suelen incluir la mayoría de
los procedimientos estadísticos más utilizados, puede ocurrir que el programa utilizado no in-
cluya algún cálculo de los que se desea obtener; generalmente, en las contadas ocasiones que
esto ocurra, los resultados obtenidos incluirán información para realizar cálculos a mano de
forma sencilla. Relacionado con esto, no debe sorprender que los resultados que ofrece el pro-
grama incluyan más información de la que se necesita; no es infrecuente que un programa co-
mo el SPSS ofrezca información que, aun siendo irrelevante para nuestros intereses, sea útil
para otro usuario con intereses distintos o para expertos que utilizan el programa, no para
analizar datos, sino para investigar el comportamiento de alguna técnica de análisis.
Finalmente, al informar del análisis llevado a cabo con un programa informático, es reco-
mendable informar con precisión del tipo de análisis realizado, no del nombre que da el pro-
grama al procedimiento que permite obtener ese análisis. A veces, un mismo procedimiento
realiza varios tipos de análisis y, otras, el procedimiento que permite realizar un tipo particu-
lar de análisis recibe nombres distintos dependiendo del programa utilizado.
Salvo alguna rara excepción, de todas las herramientas estadísticas que se estudian en este
manual se explica cómo aplicarlas con el SPSS y cómo interpretar los resultados que ofrece
el programa.
Apéndice 1
Cálculo de la potencia 26
Retomemos el ejemplo del profesor que desea evaluar los conocimientos de un estudiante sobre una
determinada materia administrándole preguntas de 4 alternativas de respuesta con solamente una correc-
ta. Al realizar el contraste (ver el apartado El contraste de hipótesis) hemos formulado las siguientes
hipótesis estadísticas:
$ 0,25; H1 : πacierto > 0,25
H0 : πacierto <
Para poder calcular la potencia de un contraste es necesario elegir un valor concreto de los múltiples
incluidos en H1 . En nuestro ejemplo, debemos elegir un valor concreto para πacierto. Esto puede hacer-
se de varias maneras. Una de ellas consiste en hacer las preguntas al estudiante y calcular su propor-
ción de aciertos. Supongamos que hacemos 10 preguntas al estudiante y que éste acierta 6. Y suponga-
mos que, basándonos en este dato, deseamos calcular la potencia del contraste cuando πacierto = 0,60.
Con esta información podemos calcular la potencia observada.
El cálculo de la potencia se basa en las distribuciones muestrales del estadístico del contraste bajo
H0 y bajo H1 . En nuestro ejemplo, hemos elegido nacierto como estadístico del contraste. Por tanto,
necesitamos conocer las distribuciones muestrales de nacierto bajo H0 y bajo H1 , es decir, las probabi-
lidades asociadas a los diferentes valores de nacierto cuando πacierto vale 0,25 y cuando πacierto vale 0,60. La
Tabla 1.4 ofrece estas probabilidades (recordemos que el estadístico nacierto sigue el modelo de distribu-
ción binomial con parámetros n y πacierto ).
Tabla 1.4. Distribuciones muestrales del estadístico nacierto bajo H0: πacierto = 0,25 y H1: πacierto = 0,60
nacierto 0 1 2 3 4 5 6 7 8 9 10
P (nacierto | πacierto = 0,25) 0,056 0,188 0,282 0,250 0,146 0,058 0,016 0,003 0,000 0,000 0,000
P (nacierto | πacierto = 0,60) 0,000 0,002 0,011 0,,42 0,111 0,201 0,251 0,215 0,121 0,040 0,006
De acuerdo con la regla de decisión estándar de un contraste de hipótesis, rechazaremos H0 si el núme-

ro de aciertos que obtiene el estudiante, asumiendo H0 verdadera, tiene una probabilidad asociada
menor que 0,05. Es decir, rechazaremos H0 si el resultado muestral (el número de aciertos) está tan
alejado de la predicción formulada en H0 que la probabilidad de obtener resultados como ése o mayo-
res es menor que 0,05.
En el ejemplo, esta regla de decisión supone rechazar H0 si el estudiante obtiene 6 aciertos o más
(a cualquier número de aciertos menor que 6 le corresponde un nivel crítico mayor que 0,05). Las
curvas de la Figura 1.2 representan el escenario recién descrito.
26
Trabajar con una calculadora de bolsillo es, quizá, la mejor manera de entender las cosas. En este apartado vamos a ha-
cer precisamente eso. No obstante, los cálculos relacionados con la potencia se van complicando sensiblemente a medida
que lo va haciendo el diseño. Afortunadamente, los programas informáticos tienen resuelto este problema. En los siguien-
tes capítulos veremos cómo calcular la potencia asociada a los diferentes contrastes que vayamos estudiando. También vere-
mos cómo solicitar al SPSS este tipo de cálculos. No obstante, el SPSS no calcula la potencia de muchos de los contrastes
que estudiaremos. Para cubrir esta laguna puede utilizarse un excelente programa informático llamado GPOWER (Erdfelder,
Faul y Buchner, 1996) que, además de ser muy sencillo de manejar, puede descargarse de forma gratuita en la siguiente
dirección http://www.psycho.uni-duesseldorf.de/aap/projects/gpower.
Figura 1.2. Distribuciones muestrales del estadístico nacierto bajo H0: πacierto = 0,25 y H1: πacierto = 0,60
P(nacierto )
0,30 H0: π = 0,25
H1: π = 0,60
0,20 1− β
1− α α
0,10
β
0,00 nacierto
0 1 2 3 4 5 6 7 8 9 10
Zona de aceptación Zona de rechazo
La potencia de este contraste es la probabilidad de rechazar H0 : πacierto = 0,25 cuando la hipótesis ver-
dadera es H1: πacierto = 0,60. Y únicamente tomaremos la decisión de rechazar H0 cuando nos encontre-
mos con un resultado muestral (nacierto) perteneciente a la zona de aceptación (es decir, 6 aciertos o más).
Ahora bien, si H1 es verdadera, la probabilidad de tomar la decisión de rechazar H0 (es decir, 1 ! β se-
rá la probabilidad de encontrar 6 o más aciertos en la distribución muestral correspondiente a H1 .
Sumando las probabilidades individuales desde nacierto = 6 hasta nacierto = 10, obtenemos
$ 6) = 0,251 + 0,215 + 0,121 + 0,040 + 0,006 = 0,633

1 ! β = P (nacierto >
Por tanto, si asumimos que el verdadero valor del parámetro πacierto es 0,60, al contrastar H0: π = 0,25
con α = 0,05, la probabilidad de que el contraste detecte que H0 es falsa vale 0,633.
Curva de potencias
Teniendo en cuenta que suelen recomendarse valores en torno a 0,80 para la potencia de un contras-
te (Cohen, 1988), el valor obtenido en el contraste del apartado anterior (0,633) es un valor más bien
bajo. Cuando ocurre esto, ¿qué puede hacerse para aumentar la potencia del contraste? Sabemos que
la potencia depende de tres factores: (1) el valor de α, (2) el tamaño del error típico de la distribución
muestral utilizada para realizar el contraste y (3) el verdadero valor del parámetro estudiado entre to-
dos los incluidos en H1.
Al aumentar el valor de α, aumenta la potencia; por ejemplo, fijando el valor de α en 0,10 (en lugar
de 0,05) y dejando todo lo demás igual, la potencia sube a 0,834. Al modifica r el valor de πacierto en H1,
cambia la potencia (al aumentar la distancia entre H0 y H1, aumenta la potencia); por ejemplo, fijando
el valor de πacierto en 0,70 (en lugar de 0,60) y dejando todo lo demás igual, la potencia sube a 0,850.
Por último, al aumentar el tamaño muestral, aumenta la potencia; por ejemplo, utilizando 20 preguntas
(en lugar de 10) y dejando todo lo demás igual, la potencia sube a 0,943.
Tomando como referencia el ejemplo del apartado anterior (ver Figura 1.2), la Tabla 1.5 muestra
los valores que toma la potencia del contraste cuando, permaneciendo todo lo demás igual, se modifi-
ca el valor de α: la potencia (1 ! β) va aumentando conforme lo hace α (estos valores se han calculado
siguiendo la estrategia propuesta en el apartado anterior).
La Tabla 1.6 recoge los valores que toma la potencia del contraste cuando, permaneciendo todo
lo demás igual, se modifican los valores de πacierto en H1 (por supuesto, H0 permanece con πacierto = 0,25):
la potencia (1 ! β) va aumentando conforme el valor de πacierto en H1 se va alejando del valor de πacierto
en H0 .
Por último, la Tabla 1.7 muestra los valores que toma la potencia del contraste cuando, perma-
neciendo todo lo demás igual, se modifican los valores del tamaño muestral n, es decir, del número de
preguntas: la potencia (1 ! β) va aumentando conforme lo hace el valor de n.
Tabla 1.5. Valores de 1 ! β en función de α (H1: πacierto = 0,60; n = 10)
α 0,001 0,01 0,05 0,10 0,25
1!β 0,167 0,382 0,633 0,834 0,945
Tabla 1.6. Valores de 1 ! β en función del valor de πacierto en H1 (α = 0,05; n = 10)
π acierto 0,30 0,40 0,50 0,60 0,70 0,80 0,90
1!β 0,047 0,166 0,377 0,633 0,850 0,967 0,998
Tabla 1.7. Valores de 1 ! β en función del tamaño muestral n (H1: πacierto = 0,60; α = 0,05)
n 4 5 6 8 10 15 20 30 40
1!β 0,130 0,337 0,544 0,594 0,633 0,787 0,943 0,979 0,997
Una buena forma de apreciar cómo va cambiando la potencia conforme lo hacen los valores de los que
depende consiste en construir gráficos de líneas colocando los valores de los que depende la potencia
en el eje horizontal y los valores de la potencia en el vertical. Se obtienen así las llamadas curvas de
potencia. La Figura 1.3 muestra dos de estas curvas. La curva de la izquierda se ha obtenido a partir
de los datos de la Tabla 1.6; por tanto, muestra cómo va aumentando la potencia conforme lo va ha-
ciendo la distancia entre H0 y H1 . La curva de la derecha se ha obtenido a partir de los datos de la Ta-
bla 1.7; por tanto, muestra cómo va aumentando la potencia conforme lo va haciendo n (el número de
preguntas)27.
Figura 1.3. Valores de 1 ! β en función del valor de πacierto H1 (izquierda) y en función del tamaño muestral n (derecha)
1,0 1,0
0,8 0,8
0,6 0,6
1− β
1− β
0,4 0,4
0,2 0,2
0,0 0,0
0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 5 10 15 20 25 30 35 40
πacierto | H1 n
27
Las curvas aparecen escalonadas porque la distribución muestral que se está utilizando, la binomial, es una distribución
discreta. Por la misma razón, los valores de las Tablas 1.5 a la 1.7 son aproximados: no hay un punto de corte que deje exac-
tamente por encima de sí una probabilidad igual a 0,05.
La Figura 1.4 (gráfico de la izquierda) se ha construido a partir de los datos de la Tabla 1.5. A la curva
que se obtiene con los valores de α y 1 ! β se le suele llamar curva COR (curva característica de ope-
ración del receptor)28. En el contexto de los contrastes de hipótesis, la curva COR indica cómo va
aumentando la potencia a medida que lo hace α, es decir, a medida que se va modificando el punto de
corte en el que se basa la decisión del contraste (no olvidemos que el punto de corte depende del valor
asignado a α). Por tanto, la curva COR permite formarse una idea bastante precisa sobre la capacidad
de un contraste para discriminar entre H0 y H1. Esta capacidad es tanto mayor cuanto más se acerca la
curva a la esquina superior izquierda. Solamente de esa manera es posible obtener, simultáneamente,
valores α iguales o menores que 0,05 y potencias iguales o mayores que 0,80 (que son los valores co-
múnmente considerados aceptables).
El punto en el que la curva corta la diagonal trazada en el gráfico representa el punto en el que
ambos errores (Tipo I y Tipo II) toman el valor más pequeño. En la curva de la izquierda (que corres-
ponde a los datos de la Tabla 1.5), este punto de corte ofrece valores aproximados de 0,14 para α y de
0,85 para la potencia (es decir, 0,15 para β). Tomando para la potencia un valor de 0,80 (β = 0,20), el
valor de α baja hasta aproximadamente 0,08. Estos valores indican que, al contrastar H0: πacierto = 0,25
frente a H1 : πacierto = 0,60 con n = 10, la capacidad del contraste para discriminar entre H0 y H1 no es
lo bastante buena.
La Tabla 1.8 contiene la misma información que la 1.5, pero para el caso H1 : πacierto = 0,70. La
Figura 1.4 (gráfico de la derecha) representa esta nueva situación. Al aumentar la distancia entre H0
y H1, la curva COR se aproxima más a la esquina superior izquierda. Y esto indica que la capacidad
de discriminación del contraste ha aumentado. De hecho, ahora, cuando α vale 0,05, la potencia al-
canza 0,85. Y estos valores ya son aceptables. El punto que minimiza ambos errores (punto en el que
la diagonal trazada en el gráfico corta la curva) ofrece un valor aproximado de 0,08 para α y de 0,95
para la potencia (0,05 para β).
Tabla 1.8. Valores de 1 ! β en función de α (H1: πacierto = 0,70; n = 10)
α 0,001 0,01 0,05 0,10 0,25
1!β 0,383 0,650 0,850 0,953 0,990
Figura 1.4. Valores de 1 ! β en función de α (curvas COR). Izquierda: H1: πacierto = 0,60. Derecha: H1: πacierto = 0,70
1,0 1,0
0,8 0,8
0,6 0,6
1− β
1− β
0,4 0,4
0,2 0,2
0,0 0,0
0,0 0,20 0,40 0,60 0,80 1,0 0,0 0,20 0,40 0,60 0,80 1,0
α α
28
Es muy utilizada en contextos en los que es necesario tomar decisiones con incertidumbre porque ayuda a encontrar el
punto de corte que minimiza los dos tipos de error inherentes a toda decisión. Por ejemplo, en una situación como la des-
crita en la Tabla 1.3, permite identificar el punto de corte que maximiza la sensibilidad y la especificidad de la prueba
diagnóstica (ver Franco y Vivo, 2007).
Ejercicios Soluciones en www.sintesis.com
1.1. En un contraste de hipótesis, la probabilidad de rechazar una hipótesis nula que es verdadera se deno-
mina:
a. Error tipo I.
b. Nivel crítico.
c. Nivel de confianza.
d. Potencia.
e. Nivel de significación.
1.2. Supongamos que se desea evaluar la eficacia de un tratamiento. Para ello, se selecciona aleatoriamen-
te una muestra de pacientes y se forman, también aleatoriamente, dos grupos: experimental y control.
Al grupo experimental se le aplica el tratamiento; al grupo control se le aplica un placebo. Tras recoger
los datos y comparar los grupos se obtiene un resultado significativo ( p = 0,001). Teniendo en cuenta
este escenario, señalar como verdadera o falsa cada una de las siguientes afirmaciones:
a. Se ha conseguido probar definitivamente la eficacia del tratamiento.
b. Se conoce o puede deducirse la probabilidad de que la hipótesis nula sea verdadera.
c. Se conoce o puede deducirse la probabilidad de que la hipótesis nula sea falsa.
d. Si se decide rechazar la hipótesis nula, se conoce la probabilidad de que la decisión sea incorrecta.
e. Si se repitiera el experimento un gran número de veces, cabría esperar encontrar un resultado sig-
nificativo en el 99,9 % de las veces.
f. Si se mantiene la hipótesis nula, puede concluirse que los grupos no difieren.
1.3. La siguiente tabla ofrece los valores y las distribuciones del estadístico W :
W !2 !1 0 1 2 3 4
f (W ) | H0 0,00 0,03 0,10 0,20 0,50 0,10 0,07
f (W ) | H1 0,05 0,25 0,30 0,20 0,10 0,10 0,00
Si establecemos, como regla de decisión, “Rechazar H0 si W toma un valor menor que 0; mantenerla
en caso contrario”,
a. ¿Cuál es la probabilidad de mantener H0 siendo falsa?
b. ¿Cuál es la probabilidad de rechazar H0 siendo verdadera?
1.4. La siguiente tabla muestra las funciones de probabilidad acumuladas del estadístico V bajo H0 y bajo
una determinada H1. En un contraste unilateral izquierdo se ha obtenido V = !1.
V !1 !0,5 0 0,5 1 1,5 2

F (V ) | H0 0,03 0,05 0,37 0,65 0,90 0,97 1,00
F (V ) | H1 0,15 0,35 0,63 0,77 0,85 0,94 1,00
a. Establecer una regla de decisión en términos de probabilidad.

b. ¿Qué decisión debe tomarse sobre H0? ¿Por qué?
c. ¿Cuánto vale el nivel crítico (valor p)?
d. ¿Cuánto vale la potencia del contraste si α = 0,05?
1.5. El estadístico se distribuye según muestra en la siguiente tabla:
n1 0 1 2 3 4
f (n1 ) con π = 0,40 0,130 0,345 0,345 0,154 0,026
f (n1 ) con π = 0,60 0,026 0,154 0,345 0,345 0,130
Si utilizamos n1 para contrastar, con α = 0,05, las hipótesis H0 : π = 0,40 y H1 : π = 0,60,

a. ¿Cuál será la decisión sobre H0 si n1 = 3?
b. ¿Qué tipo de error se podría estar cometiendo con esta decisión?
c. ¿Cuánto vale la probabilidad de cometer ese error?
d. ¿Cuánto vale la potencia del contraste?
1.6. Un test de aptitud consta de 5 preguntas, cada una con 5 alternativas de las que solamente una es correc-
ta. La tabla ofrece la distribución muestral de la variable naciertos = «número de aciertos» cuando un su-
jeto responde al azar (H0) y cuando responde de acuerdo con lo que sabe (H1):
naciertos 0 1 2 3 4 5
f (nacierto ) | H0 0,328 0,409 0,205 0,051 0,006 0,001
f (nacierto ) | H1 0,168 0,360 0,309 0,132 0,029 0,002
a. ¿Cuántas preguntas cabe esperar que acierte el sujeto si contesta al azar?

b. ¿Cuál es la probabilidad de que el sujeto acierte más de 3 preguntas si responde al azar?
c. ¿Cuál es la probabilidad de que el sujeto acierte más de 3 preguntas si responde de acuerdo con lo
que sabe?
d. Si α = 0,002, ¿qué número mínimo de aciertos son necesarios para poder rechazar H0?
1.7. Un investigador ha utilizado dos estadísticos de contraste diferentes, T1 y T2, para contrastar la misma
hipótesis de igualdad de medias. La siguiente tabla muestra los posibles valores de estos estadísticos
junto con sus funciones de probabilidad acumuladas bajo H0 :
T1 , T2 0 1 2 3 4 5 6 7 8
F (T1) 0,070 0,236 0,399 0,456 0,544 0,601 0,764 0,930 1,000
F (T2) 0,000 0,126 0,250 0,366 0,500 0,634 0,750 0,874 1,000
Sabiendo que el contraste es unilateral derecho y que en una determinada muestra aleatoria se ha ob-
tenido T1 = T2 = 7,
a. Si el investigador decide utilizar un nivel de significación de 0,10, deberá rechazar la hipótesis nula:
( ) solo con T1, ( ) solo con T2, ( ) con ninguno de los dos, ( ) con ambos. ¿Por qué?
b. Si se asume que las distribuciones muestrales de T1 y T2 son simétricas, ¿cuáles son los valores
esperados de T1 y T2 ?
1.8. (Indicar cuál de las siguientes afirmaciones es verdadera.) En un contraste unilateral derecho, con un
nivel de significación de 0,05,
a. La probabilidad de mantener H0 siendo falsa vale 0,05.
b. La probabilidad de rechazar H0 siendo falsa vale 0,05.
c. La probabilidad de rechazar H0 siendo verdadera vale 0,05.
d. La probabilidad de mantener H0 siendo falsa vale 0,95.
e. La probabilidad de rechazar H0 siendo verdadera vale 0,95.
1.9. Un investigador afirma que, entre los estudiantes universitarios, la proporción de fumadoras es mayor
que la de fumadores. Tras efectuar una encuesta, ha comparado la proporción de fumadoras con la pro-
$ πellos; H1: πellas > πellos ) y ha obtenido, para el estadístico del contras-
porción de fumadores (H0: πellas <
te, un valor T = 2,681. La siguiente tabla ofrece la función de distribución (probabilidades acumula-
das) de algunos valores del estadístico T:
T !0,539 0,000 0,539 1,356 1,782 2,179 2,681 3,055

F (T ) | H0 0,300 0,500 0,700 0,900 0,950 0,975 0,990 0,995
a. ¿Puede afirmarse que los datos confirman la hipótesis del investigador? ¿Por qué? (α = 0,05)
b. ¿Qué valores del estadístico T llevarán a rechazar H0 con α = 0,05?
1.10. Un terapeuta afirma que una determinada terapia antidepresiva consigue recuperaciones aceptables en
más del 80 % de los pacientes tratados. Un colega suyo piensa que la proporción de recuperaciones
aceptables es menor que el 80 %. Ambos realizan un estudio para contrastar sus respectivas hipótesis
con α = 0,05:
a. ¿Qué hipótesis estadísticas debe plantear cada terapeuta?
b. Al contrastar su hipótesis nula el primer terapeuta obtiene un nivel crítico p = 0,818. Utilizando
un nivel de confianza de 0,95, ¿qué decisión debe tomar? ¿Por qué?
c. Al contrastar su hipótesis nula el segundo terapeuta obtiene un nivel crítico p = 0,002. Utilizando
un nivel de confianza de 0,95, ¿qué decisión debe tomar? ¿Por qué?
d. ¿Cuál de los dos terapeutas tiene razón?, ¿tienen razón los dos?, ¿ninguno de los dos?
1.11. En 1990 fumaba el 30 % de los universitarios madrileños. Un investigador cree que en los últimos años
ese porcentaje ha aumentado. Para comprobarlo, selecciona una muestra aleatoria y obtiene un esta-
dístico al que, en la distribución correspondiente a πF = 0,30, le corresponde el centil 93.
a. Plantea las hipótesis estadísticas del contraste.
b. ¿Qué decisión debe tomarse sobre H0 con α = 0,05? ¿Por qué?
1.12 Al comparar dos medias independientes en un contraste unilateral izquierdo se ha obtenido, para el
$ !0,92) = 0,20 y utilizando α = 0,05 (elegir la al-
estadístico T un valor de !0,92. Sabiendo que P (T <
ternativa correcta):
a. Debe rechazarse H0 porque T cae en la zona crítica.
b. Debe mantenerse H0 porque 0,20 > 0,05.
c. Debe rechazarse H0 porque !0,92 < 0,20.
d. No se puede concluir nada porque se desconocen los grados de libertad de la distribución de T.
e. Debe concluirse que las medias poblacionales comparadas no son iguales.
1.13. La potencia de un contraste aumenta cuando, permaneciendo lo demás igual:

a. Aumenta el nivel de confianza.
b. Aumenta la varianza de la población.
c. Disminuye el nivel crítico.
d. Aumenta la probabilidad de cometer errores Tipo II.
e. Disminuye la probabilidad de cometer errores Tipo I.
1.14 Queremos averiguar si los hombres y las mujeres opinan de forma distinta sobre la normativa relati-
va al carné por puntos. Para ello se ha seleccionado una muestra aleatoria de 200 personas (100 de
cada sexo) y se les ha preguntado si están a favor o en contra del carné por puntos. Todos los sujetos
han respondido en una escala de 0 (muy en contra) a 100 (muy a favor):
a. ¿Con cuántas variables se está trabajando? ¿Cuál o cuáles son estas varaibles?
b. ¿Qué hipótesis nula plantearías?
c. ¿Qué contraste aplicarías para analizar los datos?
d. Si el estadístico del contraste tomara un valor de 5, ¿debería rechazarse H0? ¿Por qué?
1.15. Al comparar las medias de dos grupos mediante un contraste unilateral derecho el estadístico del con-
traste T ha tomado el valor 2,63. Sabiendo que P (T > 2,63) = 0,075 y utilizando un nivel de signifi-
cación α = 0,05:
a. Se debe rechazar H0 porque T cae en la zona crítica.
b. Se debe mantener H0 porque 0,075 > 0,05.
c. Se debe rechazar H0 porque 0,075 > 0,05.
d. Se debe concluir que las medias poblacionales difieren entre sí.
e. Se debe concluir que las medias muestrales son iguales.
1.16. En un contraste unilateral derecho se ha obtenido para el estadístico del contraste H un valor de 6,13.
Sabiendo que P (H < 6,13) = 0,05:
a. La decisión razonable es mantener H0.
b. La decisión razonable es rechazar H0.
c. La probabilidad de rechazar H0 siendo verdadera vale 0,05.
d. Se puede rechazar H0 con una probabilidad de equivocarse de 0,05.
e. Al mantener H0 siendo verdadera, la probabilidad de equivocarse vale al menos 0,05.
1.17. Para contrastar una determinada hipótesis nula se han utilizado dos estadísticos: V y W. Se sabe que
V se distribuye según el modelo de probabilidad t de Student y que W se distribuye según el modelo
de probabilidad normal N (0, 1). En una muestra aleatoria concreta se ha obtenido V = W = k. Según es-
to, siendo k un valor cualquiera y dado un mismo nivel de significación (elegir la/s alternativa/s correc-
ta/s):
a. Si se mantiene H0 con V, es imposible rechazarla con W.
b. Si se rechaza H0 con V, necesariamente se rechazará con W.
c. Es más probable rechazar H0 con V que con W.
d. Si se mantiene H0 con V, necesariamente se mantendrá con W.
e. Si se rechaza H0 con V, es posible mantenerla con W.
2
Inferencia con una variable
En el Capítulo 9 del primer volumen ya hemos empezado a estudiar qué puede hacerse con
una sola variable desde el punto de vista inferencial. En concreto, hemos estudiado qué puede
hacerse (1) con una variable dicotómica: contrastar hipótesis sobre una proporción con la
prueba binomial y construir intervalos de confianza sobre el parámetro π1; (2) con una varia-
ble politómica: contrastar hipótesis acerca de cómo se distribuyen las frecuencias asociadas
a cada categoría de la variable (bondad de ajuste con la prueba X 2 de Pearson) y construir
intervalos de confianza para la proporción teórica de cada categoría; y (3) con una variable
cuantitativa: contrastar hipótesis sobre el valor de su media poblacional con la prueba T de
Student y construir intervalos de confianza sobre el parámetro µY. No presentaremos nuevos
procedimientos para el análisis de una variable categórica (dicotómica o politómica); los ya
estudiados sirven para responder las preguntas que suelen plantearse con este tipo de varia-
bles. Pero con una variable cuantitativa es posible hacer más cosas.
Recordemos que, para describir correctamente una variable cuantitativa debemos prestar
atención a tres propiedades de su distribución: centro, dispersión y forma. Pues bien, desde
el punto de vista inferencial también es posible estudiar esas mismas tres propiedades. En
relación con el centro de la distribución, estudiaremos la prueba de Wilcoxon y la prueba de
los signos. Para estudiar la dispersión presentaremos el contraste sobre una varianza y ten-
dremos ocasión de comprobar que, en determinadas circunstancias, puede resultar bastante
útil. Y en lo relativo a la forma de la distribución estudiaremos la prueba de Kolmogorov-
Smirnov, que sirve para contrastar hipótesis sobre bondad de ajuste con variables cuantitativas
(de modo similar a como hace la prueba X 2 de Pearson con variables categóricas).
Contrastes sobre el centro de una distribución

Aunque ya hemos visto cómo contrastar hipótesis sobre la media de una distribución con la
prueba T de Student para una muestra (ver, en el Capítulo 9 del primer volumen, el aparta-
do Contraste sobre una media), en este capítulo estudiaremos la prueba de Wilcoxon y la
prueba de los signos, ambas para una muestra. Estas pruebas pueden utilizarse para contras-
tar hipótesis sobre el centro de una distribución cuando no se dan las condiciones idóneas
para poder aplicar la prueba T de Student.
La prueba de Wilcoxon para una muestra

La prueba T de Student para una muestra sirve para contrastar hipótesis sobre el parámetro
µY, es decir, sobre el centro de la distribución de una variable cuantitativa. Posee excelentes
propiedades que hacen de ella la mejor elección para estudiar el centro de una distribución
cuando se dan las condiciones idóneas para su aplicación: independencia de las observacio-
nes y normalidad de la población muestreada.
El problema es que esas condiciones no siempre se dan. En particular, en las ciencias so-
ciales y de la salud es relativamente frecuente tener que trabajar con poblaciones que no son
normales. Ya sabemos que, con tamaños muestrales grandes, la ausencia de normalidad no
constituye un problema importante. Pero, si además de tener que trabajar con poblaciones que
no son normales, hay que hacerlo con muestras pequeñas, la prueba T pierde precisión. La
prueba de Wilcoxon (1945, 1949) permite contrastar hipótesis sobre el centro de una varia-
ble cuantitativa (igual que la prueba T ) sin necesidad de asumir normalidad.
Consideremos una variable Y medida con una escala de intervalos o razón. Supongamos
que la mediana poblacional de Y, es decir, MdnY, vale k0. Supongamos, además, que seleccio-
namos una muestra aleatoria de m observaciones Yi y que calculamos las diferencias entre ca-
da valor Yi y la mediana k0:
D i = Y i ! k0 (i = 1, 2, ..., m) [2.1]
Desechemos las diferencias nulas (si existen) y consideremos únicamente las n diferencias
no nulas (n <$ m). Asignemos rangos (Ri) de 1 a n al valor absoluto de esas diferencias no nu-
las: el rango 1 a la |Di | más pequeña, el rango 2 a la |Di | más pequeña de las restantes, ..., el
rango n a la |Di | más grande (i = 1, 2, ..., n). Si existen diferencias empatadas, es decir, |Di |
iguales, se asigna a cada una de ellas el promedio de los rangos que les hubiera correspon-
dido de no estar empatadas (por ejemplo, si a tres diferencias empatadas les corresponden los
rangos 5, 6 y 7, asignaremos a cada una de ellas el rango promedio (5 + 6 + 7) / 3 = 6).
Sumemos ahora, por un lado, los rangos positivos R i (+) , es decir, los rangos correspon-
dientes a las diferencias en las que Yi > k0 , y llamemos S+ a esta suma; sumemos, por otro
lado, los rangos negativos Ri (!), es decir, los rangos correspondientes a las diferencias en las
que Yi < k0 y llamemos S! a esta otra suma.
Si k0 es el verdadero valor de la mediana poblacional, habrá tantos valores Yi por deba-
jo de k0 como por encima. O, lo que es lo mismo: P (Yi < k0) = P (Yi > k0). Y esto significa
que, en una muestra aleatoria de valores Yi, habrá tantas diferencias Di positivas como nega-
tivas (salvando, por supuesto, las fluctuaciones atribuibles al azar muestral). Pero, además,
si la distribución de la variable Yi es simétrica, el tamaño de las diferencias D i correspon-
dientes a los valores Yi > k0 será, en la población, idéntico al de las diferencias correspondien-
tes a los valores Yi < k0, de donde cabe deducir que
= . = [2.2]
En este escenario, una fuerte discrepancia entre los valores muestrales S+ y S! estaría indi-
cando que k0 no es el verdadero valor de la mediana poblacional de Y. Por tanto, las sumas
S+ y S! pueden utilizarse para contrastar hipótesis del tipo MdnY = k0.
Ahora bien, para que esto sea posible, es necesario conocer la distribución muestral de
S+ (o de S!). Con muestras pequeñas es relativamente fácil obtener esta distribución muestral
(ver, por ejemplo, Pardo y San Martín, 1998, págs. 421-422): la Tabla M del Apéndice final
Capítulo 2. Inferencia con una variable 49
ofrece algunos cuantiles de las distribuciones exactas de S+ correspondientes a tamaños mues-

trales comprendidos entre 4 y 40. Y el Cuadro 2.1 ofrece un resumen de los pasos que pue-
den seguirse para contrastar la hipótesis nula H0 : MdnY = k0 utilizando el estadístico S+ y su
distribución muestral1.
Cuadro 2.1. Resumen de la prueba de Wilcoxon para una muestra
1. Hipótesis:
a. Contraste bilateral: H0: MdnY = k0; H1: MdnY =/ k0 .
b. Contraste unilateral derecho: H0: MdnY < $ k0; H1: MdnY > k0 .
c. Contraste unilateral izquierdo: H0: MdnY > $ k0; H1: MdnY < k0 .
(k0 se refiere al valor concreto de MdnY que interesa contrastar)
2. Supuestos: muestra aleatoria de m observaciones de una variable cuantitativa Yi (de
las que se desechan los valores Yi = k0) procedente de una distribución simétrica (el
supuesto de simetría implica que las inferencias efectuadas sobre la mediana son tras-
ladables a la media).
3. Estadístico del contraste: = . [2.6]
4. Distribución muestral: los puntos críticos de la distribución muestral de S+ se encuen-
tran tabulados en la Tabla M del Apéndice final.
5. Zonas críticas:
a. Contraste bilateral: S+ < sα/2 y S+ > s1 ! α/2 .
b. Contraste unilateral derecho: S+ > s1 ! α .
c. Contraste unilateral izquierdo: S+ < sα .
6. Decisión: se rechaza H0 si S+ cae en la zona crítica; en caso contrario, se mantiene.
1
Conforme aumenta el tamaño muestral, el espacio muestral correspondiente a los posibles valores S+ va aumentando rápi-
damente y la obtención de su distribución exacta se va haciendo más complicada. En estos casos se puede recurrir al teorema
del límite central y utilizar la aproximación normal (ésta es la solución que utiliza el SPSS, aunque con una variante que
veremos más adelante).
Sabemos (ver, por ejemplo, Conover, 1980, págs. 36-40) que la suma y la suma al cuadrado de los n primeros números
enteros (1 + 2 + · · · + n) valen, respectivamente:
y [2.3]
A partir de aquí, y teniendo en cuenta que S+ es la suma de la mitad aleatoria de los n primeros enteros, se obtiene:
y [2.4]
Por tanto, conforme el tamaño muestral va aumentando, la transformación:
[2.5]
tiende a distribuirse según el modelo de probabilidad normal N(0, 1). Lo cual significa que con muestras grandes es posible
utilizar el estadístico Z y su distribución aproximada N (0, 1) para contrastar la hipótesis MdnY = k0.
7. Nivel crítico (valor p):

a. Contraste bilateral: p = 2 [P (S+ < S )], donde S se refiere al menor de S+ y S! .
b. Contraste unilateral derecho: p = P (S+ > Sh), donde Sh se refiere al valor muestral
concreto que toma S+ .
c. Contraste unilateral izquierdo: p = P (S+ < Sh).
Ejemplo. La prueba de Wilcoxon para una muestra

Algunos datos sugieren que el peso (Y ) de los recién nacidos de madres fumadoras es más
bajo que el de los recién nacidos de madres no fumadoras. Pero esta información no indica
si el peso de los recién nacidos de madres fumadoras es, en promedio, menor que el nivel con-
siderado normal (2,50 kg ). La Tabla 2.1 contiene el peso de una muestra aleatoria de 14 re-
cién nacidos de madres fumadoras (ordenados de menor a mayor para facilitar los cálculos).
La mediana de estos 14 pesos vale 2,19. ¿Permiten estos datos concluir que el peso promedio
de los recién nacidos de madres fumadoras es menor que 2,50 kg? (α = 0,05).
Tabla 2.1. Peso en kg (Yi ) de 14 recién nacidos de madres fumadoras

Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Yi 1,48 1,80 1,93 1,98 2,04 2,08 2,18 2,20 2,30 2,45 2,47 3,15 3,46 4,64
Tenemos una variable cuantitativa y estamos interesados en estudiar el centro de su distribu-

ción. Podríamos utilizar la prueba T de Student para una muestra (ya estudiada en el Capítulo
9 del primer volumen), que con estos datos, toma un valor de !0,28 y tiene asociado un nivel
crítico p = 0,394 (lo cual nos habría llevado a tomar la decisión de mantener la hipótesis nula
de que la media poblacional vale 2,50). Pero como no sabemos si la variable peso se distribu-
ye normalmente y el tamaño de la muestra es pequeño, optamos por la prueba de Wilcoxon
para una muestra, que no exige normalidad.
1. Hipótesis: H0: MdnY > $ 2,50; H1: MdnY < 2,50 (contraste unilateral izquierdo).
2. Supuestos: muestra aleatoria de 14 diferencias obtenidas al medir una variable cuantitativa
cuya distribución se asume que es simétrica.
3. Estadístico del contraste: S+ = j R i (+) = 10 + 12 + 14 = 36.
Para obtener S+ hemos comenzado calculando las diferencias Di = Yi ! 2,50 y asignando
rangos, R i, a los valores absolutos de cada diferencia Di (ver Tabla 2.2).
Tabla 2.2. Diferencias y rangos correspondientes a los datos de la Tabla 2.1
Yi 1,48 1,80 1,93 1,98 2,04 2,08 2,18 2,20 2,30 2,45 2,47 3,15 3,46 4,64
Di !1,02 !0,70 !0,57 !0,52 !0,46 !0,42 !0,32 !0,30 !0,20 !0,05 !0,03 0,65 0,96 2,14
| Di | 1,02 0,70 0,57 0,52 0,48 0,42 0,32 0,30 0,20 0,05 0,03 0,65 0,96 2,14
Ri 13 11 9 8 7 6 5 4 3 2 1 10 12 14
4. Distribución muestral: los puntos críticos de la distribución muestral exacta de S+ están

tabulados en la Tabla M del Apéndice final.
5. Zona crítica (con n = 14 y α = 0,05): S+ < s0,05 = 26.
6. Decisión: como el valor del estadístico del contraste (36) es mayor que el punto crítico
(26), se mantiene H0. Por tanto, los datos no aportan evidencia suficiente para pensar que
la mediana (la media si asumimos simetría) del peso de los recién nacidos de madres fu-
madoras es menor que 2,5 kg.
7. Nivel crítico: p = P (S+ < 36) . 0,15 (este valor se ha obtenido interpolando los valores
s0,10 = 32 y s0,20 = 39).
La prueba de los signos para una muestra

Ya hemos presentado dos procedimientos para estudiar el centro de una variable cuantitati-
va: la prueba T de Student para una muestra (ver Capítulo 9 del primer volumen) y la prueba
de Wilcoxon para una muestra (ver apartado anterior). La prueba T asume normalidad; la
prueba de Wilcoxon asume simetría. Y ambas exigen datos obtenidos con una escala de inter-
valo o razón. En este apartado se presenta un procedimiento que no requiere establecer ningún
supuesto sobre la forma de la población original y que únicamente exige nivel de medida or-
dinal: la prueba de los signos para una muestra. Esta prueba, también llamada binomial, no
solo es una de las más antiguas, sino que ha servido de base para el desarrollo de otras mu-
chas. Su lógica es más bien elemental y los cálculos necesarios para su obtención son trivia-
les. Ya la hemos presentado en el Capítulo 9 del primer volumen aplicada al estudio de una
variable dicotómica (para contrastar hipótesis sobre una proporción). Aquí la estudiaremos
para efectuar inferencias sobre la mediana2 de una variable cuantitativa3.
Consideremos una variable Y medida con una escala al menos ordinal. Supongamos que
la mediana poblacional de Y, es decir, MdnY , vale k0. Supongamos, además, que selecciona-
mos una muestra aleatoria de m observaciones Yi y que calculamos las diferencias entre cada
valor Yi y k0:
D i = Y i ! k0 (i = 1, 2, ..., m) [2.7]
$ m). Calculemos el número de diferencias positivas (n+) y el número de diferen-
no nulas (n <
cias negativas (n!). Si k0 es el verdadero valor poblacional de MdnY, en la población habrá
tantos valores Yi por encima de k0 como por debajo, es decir,
π+ = π! [2.8]
2
Esto supone restringir su aplicación al caso en el que se verifica π+ = 0,50. En el Apéndice 2 se incluye una descripción
de la prueba de los signos para el caso general, es decir para cuando π+ = k0 (a esta variante de la prueba de los signos se le
suele llamar prueba de los cuantiles).
3
La prueba de los signos permite, al igual que la de Wilcoxon, contrastar hipótesis sobre el centro de una distribución (en
concreto, sobre la mediana). La diferencia más evidente entre ambas es que la prueba de Wilcoxon aprovecha la información
ordinal de los datos mientras que la de los signos únicamente aprovecha la información nominal. Como contrapartida, la
prueba de Wilcoxon exige nivel de medida de intervalos o razón (pues asume simetría de la distribución) mientras que la
de los signos únicamente exige nivel de medida ordinal (la mediana es un estadístico ordinal).
Por tanto, al extraer aleatoriamente n observaciones de esa población y clasificarlas depen-

diendo de que su puntuación en Y sea mayor (+) o menor (!) que k0 , cabe esperar encontrar
tantos signos positivos como negativos (salvando, por supuesto, las fluctuaciones propias del
azar muestral). Es decir,
n+ . n! [2.9]
Una fuerte discrepancia entre n+ y n! estaría indicando que el valor de la mediana poblacional
no es k0. La clave está precisamente en poder determinar cuándo una discrepancia entre n+ y
n! es lo bastante grande como para poder afirmar que, efectivamente, el valor de la mediana
poblacional no es k0. Para esto es necesario conocer las distribuciones muestrales de n+ y n!.
Ahora bien, recordemos4 que si se realizan n ensayos independientes de una variable alea-
toria que solamente puede tomar dos valores (1= «éxito», 0 = «fracaso»), la variable n1 = «nú-
mero de éxitos en los n ensayos» se distribuye según el modelo de probabilidad binomial con
parámetros n y π1. Por tanto, bajo la hipótesis H0: MdnY = k0, la variable aleatoria n+ se
distribuirá según el modelo de probabilidad binomial con parámetros n y π+ = 0,50 (decimos
π+ = 0,50 porque, si H0 es verdadera, entonces π + = π!). Esto también sirve para n+.
El modelo binomial, en consecuencia, ofrece las probabilidades asociadas al estadístico
n+ y eso es todo lo que necesitamos para poder diseñar un contraste sobre MdnY basado en ese
estadístico. Pero también sabemos5 que, a medida que n va aumentando, la distribución de n+
(binomial) se va aproximando a la normal con parámetros:
E (n +) = = n π+ = n / 2
[2.10]
V (n +) = = n π+ (1 ! π+) = n / 4 ÷ =
por lo que, conforme n va aumentando, la transformación
Z = = [2.11]
tiende a distribuirse N (0, 1). Esto significa que también es posible utilizar la transformación
Z y la distribución normal tipificada para contrastar la hipótesis MdnY = k0 . El cuadro 2.2
ofrece un resumen del procedimiento.
Cuadro 2.2. Resumen de la prueba de los signos para una muestra
1. Hipótesis:
a. Contraste bilateral: H0: MdnY = k0; H1: MdnY =/ k0 .
b. Contraste unilateral derecho: H0: MdnY <$ k0; H1: MdnY > k0 .
$ k0; H1: MdnY < k0 .
c. Contraste unilateral izquierdo: H0: MdnY >
2. Supuestos: muestra aleatoria de m observaciones resultado de medir una variable Y al
menos ordinal. Cada valor de la variable es clasificado como mayor, menor o igual
que k0 para obtener:
4
Ver, en el Capítulo 3 del primer volumen, el apartado sobre la distribución binomial.
5
Ver, en el Capítulo 5 del primer volumen, el apartado Aproximación de la distribución binomial a la normal.
n+ = «número de valores Yi mayores que k0» (nº de diferencias positivas).

n! = «número de valores Yi menores que k0 » (nº de diferencias negativas).
n = = «número de valores Yi iguales que k0» (nº de empates).
De la muestra de m observaciones se eliminan los n= empates y se trabaja con las res-
tantes n = n+ + n! observaciones6.
3. Estadísticos del contraste7:
3.1. n+ = «número de diferencias Di positivas».
3.2. Z = (ver ecuación [2.11])
4. Distribuciones muestrales:
4.1. n+ se distribuye según el modelo de probabilidad binomial con parámetros n y
π+ = 0,50.
4.2. Z se aproxima al modelo de distribución de probabilidad normal N (0, 1) a medi-
da que el tamaño muestral n va aumentando8.
5. Reglas de decisión:
a. Contraste bilateral:
a.1. Se rechaza H0 si n+ toma un valor tan alejado de su valor esperado bajo H0
que la probabilidad de obtener un valor tan alejado como ése o más es me-
nor que α / 2.
a.2. Se rechaza H0 si Z $
< Zα/2 o Z $
> Z1!α/2 .
b. Contraste unilateral derecho:
b.1. Se rechaza H0 si n+ toma un valor tan grande que la probabilidad de obtener
un valor como ése o mayor es menor que α.
b.2. Se rechaza H0 si Z $
> Z1!α .
c. Contraste unilateral izquierdo:
c.1. Se rechaza H0 si n+ toma un valor tan pequeño que la probabilidad de obte-
ner un valor como ése o más pequeño es menor que α.
c.2. Se rechaza H0 si Z $
< Zα .
6
Conviene que la variable estudiada sea continua para evitar que aparezcan valores iguales a la mediana (empates). Aun
así, la variable puede no ser continua. Y tanto si lo es como si no, los empates se desechan porque no informan sobre H0.
7
Recordemos que, si n no es muy grande, la aproximación es un poco más exacta aplicando una pequeña modificación lla-
mada corrección por continuidad, que consiste en sumar (si n+ es menor que n π+) o restar (si n+ es mayor que n π+) 0,5 a n+
para hacer el contraste algo más conservador:
[2.12]
8
Tenemos dos estadísticos. El primero de ellos (n+) tiene distribución muestral exacta (la binomial); el segundo (Z) tiene
una distribución muestral aproximada (la normal tipificada). El primero es preferible con muestras pequeñas (por ejemplo,
con n $
< 20, que es el tope de la tabla binomial del Apéndice final). Z solamente debe utilizarse con muestras grandes (ver,
en el Capítulo 5 del primer volumen, el apartado Aproximación de la distribución binomial a la normal).

a.1. Con el estadístico n+, el nivel crítico es el doble de la probabilidad de obte-
ner un valor n+ tan alejado de su valor esperado bajo H0 como el obtenido.
a.2. Con el estadístico Z, p = 2 [P (Z $ > *Zh*)], siendo Zh el valor concreto que
toma el estadístico Z.
b.1. Con el estadístico n+, el nivel crítico es la probabilidad de obtener un valor
n+ tan grande como el obtenido o mayor.
b.2. Con el estadístico Z, p = P (Z $> Zh).
c.1. Con el estadístico n+, el nivel crítico es la probabilidad de obtener un valor
n+ tan pequeño como el obtenido o menor.
c.2. Con el estadístico Z, p = P (Z $< Zh).
Ejemplo. La prueba de los signos para una muestra

En el primer ejemplo de este capítulo hemos aplicado la prueba de Wilcoxon a los datos de
la Tabla 2.1 para averiguar si la mediana del peso de los recién nacidos de madres fumadoras
es menor de 2,50 kg. Los resultados obtenidos nos han llevado a concluir que no es posible
afirmar que la mediana sea menor de 2,50 kg.
El problema de aplicar la prueba de Wilcoxon a los datos de la Tabla 2.1 es que es nece-
sario asumir que la distribución de la variable peso es simétrica. Y ocurre que, en principio,
no parece razonable asumir tal cosa. En primer lugar, el histograma de la variable peso parece
indicar que la distribución de la variable es asimétrica positiva (ver Figura 2.1). En segundo
lugar, el índice de asimetría vale 1,75 con un error típico de 0,60. Y el cociente entre este
índice y su error típico vale 1,75 / 0,60 = 2,92, lo cual está indicando, al igual que el histogra-
ma, que la distribución de la variable peso adolece de asimetría positiva (ver, en el Capítu-
lo 4 del primer volumen, el apartado Índices de asimetría y curtosis).
Figura 2.1. Histograma correspondiente a los datos de la Tabla 2.1

Dadas las características de la variable peso, parece razonable aplicar un procedimiento que
no asuma asimetría. Veamos a qué conclusión llegamos con la prueba de los signos (segui-
mos utilizando α = 0,05):
1. Hipótesis: H0: MdnY > $ 2,50; H1: MdnY < 2,50 (contraste unilateral izquierdo).
2. Supuestos: muestra aleatoria de 14 observaciones de una variable al menos ordinal.
3. Estadístico del contraste: n+ = 3 (número de diferencias positivas entre cada peso y el
valor 2,50 hipotetizado para la mediana; ver Tabla 2.2).
4. Distribución muestral: n+ se distribuye según el modelo de probabilidad binomial con
parámetros n = 14 y π+ = 0,50.
5. Regla de decisión: se rechaza H0 si n+ toma un valor tan pequeño que la probabilidad de
obtener un valor como ése o más pequeño es menor que α = 0,05. En la distribución bino-
$ 3) = 0,029.
mial (Tabla A del Apéndice final), con n = 14 y π+ = 0,50, se obtiene: P (n+ <
6. Decisión: puesto que 0,029 < 0,05, se rechaza H0. Podemos concluir que el valor pobla-
cional del la mediana del peso de los recién nacidos de madres fumadoras es menor que
2,50 kg.
$ 3) = 0,029.
7. Nivel crítico: p = P (n+ <
Prueba T, la de Wilcoxon y la de los signos

Al analizar los datos de la Tabla 2.1 hemos podido comprobar que con la prueba de los sig-
nos no se llega a la misma conclusión que con la prueba de Wilcoxon y con la prueba T. Este
resultado puede parecer sorprendente, pero en ningún caso debe considerarse un argumen-
to a favor de quienes creen que las conclusiones que se obtienen con la estadística dependen
de quién la aplica o de quién interpreta los resultados. Debe considerarse, más bien, como
una llamada de atención sobre la necesidad de elegir correctamente los procedimientos es-
tadísticos que se aplican, pues la elección de procedimientos inapropiados puede conducir a
conclusiones equivocadas.
Lo que nos está diciendo la prueba de los signos es: (1) que en 14 diferencias aleatorias
se han encontrado 3 positivas y 11 negativas, es decir, 3 valores mayores que la mediana y
11 valores menores que la mediana; (2) que ese resultado es improbable que ocurra por azar
si el verdadero valor de la mediana es 2,50 ( p = 0,029); y (3) que, como consecuencia de ello,
lo razonable es concluir que el verdadero valor de la mediana tiene que ser menor de 2,50.
Al analizar estos mismos datos con la prueba de Wilcoxon se llega a una conclusión dis-
tinta ( p = 0,150) por una sencilla razón: aunque la cantidad de valores menores que la me-
diana propuesta (2,50) es mucho mayor que la cantidad de valores mayores (11 frente a 3;
esto es lo que se está valorando con la prueba de los signos), las distancias de los primeros
a la mediana son menores que las distancias de los segundos. Y esto es así porque la distri-
bución de los pesos es asimétrica positiva, lo cual significa que se está incumpliendo la prin-
cipal condición que debe darse para la aplicación de la prueba de Wilcoxon.
Algo parecido ocurre con la prueba T. El hecho de que la distribución analizada sea asi-
métrica positiva está inflando el valor de la media (desplazándola hacia la derecha de la dis-
tribución) y esto impide llegar a un resultado estadísticamente significativo.
Si se dan las condiciones apropiadas para aplicar la prueba T (normalidad) o la prueba

de Wilcoxon (simetría), estas pruebas deben ser preferidas a la prueba de los signos porque
aprovechan más información (la prueba de los signos únicamente aprovecha información
nominal) y eso las hace más potentes (ver Conover, 1980, pág. 128). Pero si no se dan esas
condiciones, la prueba de los signos representa una excelente alternativa para realizar infe-
rencias sobre el centro de una distribución.
Los contrastes sobre el centro de una distribución con SPSS
La prueba de Wilcoxon
Aunque el SPSS no incluye la prueba de Wilcoxon para una muestra, un sencillo truco per-
mite utilizar la prueba de Wilcoxon para dos muestras relacionadas para contrastar hipó-
tesis referidas a una sola mediana (la prueba de Wilcoxon para dos muestras relacionadas se
estudia en el siguiente capítulo). Este truco consiste en crear una nueva variable en la que
todos los casos tomen el valor propuesto para la mediana en la hipótesis nula.
El SPSS tampoco incluye el estadístico S+ y su distribución muestral exacta (es decir, no
incluye el procedimiento descrito en el Cuadro 2.1); únicamente ofrece una aproximación
normal parecida al estadístico Z propuesto en la nota a pie de página nº 1. En concreto, utili-
za la transformación:
Z = [2.13]
donde S se refiere al menor de S+ y S!, k al número rangos distintos en los que existen empa-
tes y ti al número de puntuaciones empatadas en el rango i (si al asignar rangos no existen em-
pates, el sumatorio del denominador vale cero). Como S es el menor de S+ y S!, el resultado
de la ecuación [2.13] siempre es negativo. El SPSS ofrece el nivel crítico bilateral resultante
de multiplicar por 2 la probabilidad de obtener valores menores o iguales que Z.
Retomemos los datos de la Tabla 2.1 sobre el peso de 14 recién nacidos de madres fu-
madoras (los datos se encuentran en el archivo Tabla 2.1 peso bajo, en la página web del
manual). Para aplicar [2.13] a los datos de la Tabla 2.1:
' Reproducir en el Editor de datos los datos de la Tabla 2.1 (o abrir el archivo Tabla 2.1
peso bajo) y asignar a la nueva variable el nombre peso o cualquier otro nombre válido.
' Utilizar la opción Calcular del menú Transformar para crear una variable en la que todos
los casos tomen el valor 2,50 (valor propuesto para la mediana en la hipótesis nula) y
asignar a esa nueva variable el nombre mediana o cualquier otro nombre válido.
' Seleccionar la opción Pruebas no paramétricas > Dos muestras relacionadas del menú Anali-
zar para acceder al cuadro de diálogo Pruebas para dos muestras relacionadas (la prueba
de Wilcoxon está seleccionada por defecto).
' Trasladar las variables peso y mediana a la lista Contrastar pares (en caso necesario, reor-
denar las variables colocando la variable mediana antes que la variable peso).
' Pulsar el botón Opciones para acceder al subcuadro de diálogo Pruebas para dos mues-
tras relacionadas: Estadísticos y marcar las opciones Descriptivos y Cuartiles. Pulsar el
botón Continuar para volver al cuadro de diálogo principal.
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 2.3 a 2.5. La
Tabla 2.3 ofrece algunos estadísticos descriptivos: el número de casos válidos (N ), la media,
la desviación típica, los valores mínimo y máximo, y los tres cuartiles (percentiles 25, 50 y
75). La mediana (percentil 50) de la variable peso (peso al nacer en kg) vale 2,19.
Lo que estamos intentando averiguar con la prueba de Wilcoxon es si ese valor (2,19)
es lo bastante pequeño como para poder afirmar que el peso mediano de los recién nacidos
de madres fumadoras es menor que 2,50 kg, es decir, menor que el valor propuesto en la hi-
pótesis nula.
Tabla 2.3. Estadísticos descriptivos

Percentiles
N Media Desv. típica Mínimo Máximo 25 50 75
Peso al nacer en kg 14 2,44 ,81 1,48 4,64 1,97 2,19 2,64
La Tabla 2.4 ofrece el número, media y suma de los rangos negativos y positivos (las notas
a pie de tabla indican qué rangos se están considerando positivos y negativos; debe tenerse
en cuenta que el SPSS calcula las diferencias entre la segunda variable y la primera del par
seleccionado en el cuadro de diálogo; por eso hemos colocado la variable mediana antes).
La tabla también ofrece el número de empates (casos excluidos del análisis) y el número total
de rangos asignados (incluidos los empates).
Tabla 2.4. Rangos

N Rango promedio Suma de rangos
a
Peso al nacer en kg Rangos negativos 11 6,27 69,00
- mediana Rangos positivos b
3 12,00 36,00
Empates c
0
Total 14
a. Peso al nacer en kg < mediana
b. Peso al nacer en kg > mediana
c. Peso al nacer en kg = mediana
Por último, la Tabla 2.5 muestra el estadístico de Wilcoxon (Z ) y su nivel crítico bilateral
(sig. asintót. bilateral). Puesto que estamos planteando un contraste unilateral izquierdo, el
nivel crítico bilateral hay que dividirlo entre 2. Por tanto: p = 0,300 / 2 = 0,150. Y como el
valor del nivel crítico (0,150) es mayor que α = 0,05, lo razonable es no rechazar la hipótesis
de que el valor de la mediana poblacional es 2,50 kg.
Tabla 2.5. Prueba de Wilcoxon

Peso al nacer en kg - mediana
a
Z -1,036
Sig. asintót. (bilateral) ,300
a. Basado en los rangos positivos.
La prueba de los signos

Al presentar la prueba de los signos para una muestra hemos propuesto dos estrategias distin-
tas: la primera (recomendada para muestras pequeñas) se basa en el estadístico n+ y utiliza las
probabilidades exactas de la distribución binomial; la segunda (recomendada para muestras
grandes) se basa en el estadístico Z y utiliza las probabilidades aproximadas de la distribución
normal. El SPSS ofrece ambas soluciones. Si n < $ 25, toma el valor r = mín (n+, nS) y,
utilizando las probabilidades de la distribución binomial, calcula el nivel crítico bilateral re-
sultante de multiplicar por 2 la probabilidad de obtener valores iguales o menores que r. Si
n > 25, utiliza la distribución normal para obtener las probabilidades asociadas al estadístico
Z (ver ecuación [2.11]) aplicando la corrección por continuidad (restando 0,5 al valor de r;
ver nota a pie de página número 7). Para aplicar la prueba de los signos para una muestra:
' Seleccionar la opción Pruebas no paramétricas > Binomial del menú Analizar para acceder
al cuadro de diálogo Prueba binomial. La lista de variables del archivo de datos ofrece
un listado de todas las variables con formato numérico (no están disponibles las varia-
bles con formato de cadena, si existen).
' Seleccionar una o más variables y trasladarlas a la lista Contrastar variables. Si se trasla-
da más de una variable, se obtiene un contraste por cada variable.
El valor de la mediana (el valor que se desea contrastar) hay que introducirlo en el cuadro
de texto de la opción Punto de corte del recuadro Definir dicotomía. El cuadro de texto Propor-
ción de prueba permite especificar el cuantil sobre el que se desea realizar el contraste. El valor
0,50 (valor que el procedimiento utiliza por defecto) indica que el punto de corte se refiere
a la mediana (pues la mediana es el valor que acumula el 50 % de los casos). Cambiando este
valor es posible contrastar hipótesis sobre cualquier otro cuantil9. El botón Opciones ofrece
la posibilidad de solicitar algunos estadísticos descriptivos: el número de casos válidos, la me-
dia, la desviación típica, los valores mínimo y máximo, y los percentiles 25, 50 y 75. Vea-
mos cómo utilizar el SPSS para analizar los datos de la Tabla 2.1 aplicando la prueba de los
signos para una muestra (los datos se encuentran en el archivo Tabla 2.1 peso bajo, el cual
puede descargarse de la página web del manual):
' En el cuadro de diálogo Prueba binomial, trasladar la variable peso a la lista Contrastar
variables e introducir el valor 2,50 en el cuadro de texto Punto de corte para especificar
el valor de la mediana en la hipótesis nula.
Aceptando estas elecciones, el Visor ofrece los resultados que muestra la Tabla 2.6. La tabla
comienza identificando la variable utilizada en el contraste y los dos grupos definidos por el
punto de corte: grupo 1 = peso al nacer < $ 2,5 y grupo 2 = peso al nacer > 2,5. A continua-
ción muestra el número de valores iguales o menores que la mediana (11; que representan un
79% del total) y mayores que la mediana (3; que representan un 21% del total). El SPSS toma
el menor de estos dos valores (3) y multiplica por dos la probabilidad acumulada hasta ese
valor en la distribución binomial (n = 14, π+ = 0,50). Esta probabilidad (0,057) corresponde
a un contraste bilateral. Como en el ejemplo se está planteando un contraste unilateral izquier-
do, esta probabilidad hay que dividirla entre 2 para obtener el nivel crítico unilateral correcto:
p = 0,057 / 2 = 0,029. Y, puesto que p = 0,029 < 0,05, lo razonable es rechazar H0.
9
En el Apéndice 2 se explica cómo utilizar este procedimiento para contrastar hipótesis sobre un cuantil distinto de la
mediana (ver el apartado La prueba de los cuantiles).
Tabla 2.6. Prueba binomial (prueba de los signos)

Proporción Prop. de Sig. exacta
Categoría N observada prueba (bilateral)
Peso al nacer en kg Grupo 1 <= 2,5 11 ,79 ,50 ,057
Grupo 2 > 2,5 3 ,21
Total 14 1,00
Contrastes sobre la dispersión de una distribución

Cuando se analizan datos referidos a una variable cuantitativa, lo habitual es dirigir la aten-
ción al centro de la distribución. Esto es lo que se hace al aplicar la prueba T de Student, o la
de Wilcoxon o la de los signos y, por lo general, ésta es la estrategia adecuada para dar res-
puesta a las cuestiones que suelen plantearse referidas a una sola variable cuantitativa: ¿puede
afirmarse que el cociente intelectual medio de un determinado colectivo es mayor que 100?,
¿se parece la media estandarizada que se obtiene con una nueva prueba de rendimiento a la
que se viene obteniendo tradicionalmente?, ¿es cierto que el peso medio de los recién nacidos
de madres fumadoras no alcanza los 2,5 kg?, etc.
Pero ocurre que el centro de una distribución no siempre está informando de los cambios
que se producen en un conjunto de datos. Por ejemplo, sabemos que, en la población general,
el cociente intelectual (CI) se distribuye normalmente con media 100 y desviación típica 15.
También sabemos que los sujetos afectados de problemas perceptivos disminuyen su rendi-
miento en algunas de las tareas que incluyen las pruebas que miden el CI. Supongamos que
el CI medio de una determinada población de sujetos con problemas perceptivos vale 90 con
una desviación típica de 10. Y supongamos que un psicólogo está convencido de que sabe có-
mo entrenar a estos sujetos para mejorar su CI. Para comprobarlo, selecciona una muestra
aleatoria de esa población, aplica su entrenamiento y, al medir el CI de los sujetos entrenados,
obtiene una media de 90 y una desviación típica de 12,6. Puesto que el CI no se ha alterado,
un análisis de estos resultados basado en el centro de la distribución estaría indicando que el
CI medio de los sujetos entrenados no ha mejorado; y esto llevaría a concluir que el entrena-
miento no parece afectar al CI de los sujetos con problemas perceptivos. Sin embargo, el au-
mento de la desviación típica en un conjunto de datos cuya media no cambia está indicando
que unas puntuaciones aumentan y otras disminuyen Lo cual significa que unos sujetos han
mejorado su CI mientras que otros lo han empeorado. Determinar qué tipo de sujetos se be-
nefician del entrenamiento o por qué razón ocurre esto es otra cuestión. El hecho relevante
en este momento es que las puntuaciones han cambiado y que ese cambio no puede detectarse
con un análisis del centro de la distribución, sino con un análisis de su dispersión. Por tanto,
únicamente acompañando el contraste sobre el centro de la distribución con un contraste sobre
su dispersión podría obtenerse información realista sobre lo que está ocurriendo.
Para llevar a cabo un contraste sobre el grado de dispersión de una distribución de pun-
tuaciones contamos con un excelente estadístico, la varianza, el cual, además de informar
sobre el grado de dispersión, posee distribución muestral conocida. Recordemos (ver, en el
apéndice del Capítulo 6 del primer volumen, el apartado sobre la Distribución muestral de
la varianza) que la transformación
= [2.14]
se distribuye según el modelo de probabilidad ji-cuadrado con n ! 1 grados de libertad. Esto

significa que
P( $
< $
< ) = 1! α [2.15]
Unas sencillas transformaciones (ver Pardo y San Martín, 1998, pág. 106) permiten utilizar
[2.14] y [2.15] para contrastar hipótesis y construir intervalos de confianza sobre el parámetro
. El cuadro 2.3 ofrece un resumen del procedimiento.
Cuadro 2.3. Resumen del contraste sobre una varianza
1. Hipótesis:
a. Contraste bilateral: H0: = k 0 ; H 1: =/ k0 .
b. Contraste unilateral derecho: H0: $
< k 0 ; H 1: > k0 .
c. Contraste unilateral izquierdo: H0: $
> k 0 ; H 1: < k0 .
(k0 se refiere al valor concreto de que interesa contrastar).
2. Supuestos: muestra aleatoria de tamaño n extraída de una población normal.
3. Estadístico del contraste (ver ecuación [2.14]): = .
4. Distribución muestral: se distribuye según el modelo de probabilidad ji-cuadrado
con n ! 1 grados de libertad: .
5. Zona crítica:
a. Contraste bilateral: $
< y $
> .
b. Contraste unilateral derecho: $
> .
c. Contraste unilateral izquierdo: $
< .
6. Regla de decisión: se rechaza H0 si el estadístico del contraste cae en la zona crítica;
en caso contrario, se mantiene.
7. Intervalo de confianza (basado en [2.15]): Li =
[2.16]
Ls =
Ejemplo. El contraste sobre una varianza

Sabemos que, en la población general, el cociente intelectual (CI) se distribuye normalmente
con media 100 y desviación típica 15. También sabemos que los sujetos afectados de proble-
mas perceptivos disminuyen su rendimiento en algunas de las tareas que incluyen las prue-
bas que miden el CI. En concreto, sabemos que el CI medio de una determinada población
de sujetos con problemas perceptivos vale 90, con una desviación típica de 10. Un psicólogo
está convencido de que sabe cómo entrenar a estos sujetos para mejorar su CI. Para contras-
tar su sospecha, selecciona una muestra aleatoria de 25 sujetos y, tras entrenarlos, obtiene un
CI medio de 90, con una desviación típica de 12,6. Con este resultado, y considerando que
la distribución original es normal, ¿es posible afirmar que el entrenamiento ha tenido algún
efecto sobre el CI de los sujetos entrenados? (α = 0,05).
1. Hipótesis: H0: $
< 100; H1: > 100 (contraste unilateral derecho).
2. Supuestos: muestra aleatoria de 30 observaciones procedentes de una población normal.
3. Estadístico del contraste: = = (25 !1) (12,6)2 / 102 = 38,10.
4. Distribución muestral: X 2 se distribuye según ji-cuadrado con 24 grados de libertad.
5. Zona crítica (contraste unilateral derecho): $
> = = 36,42.
5. Regla de decisión: puesto que el valor del estadístico del contraste (38,10) es mayor que
el punto crítico (36,42) se rechaza H0. Por tanto, la varianza de las puntaciones ha au-
mentado con el entrenamiento. El aumento de la varianza en un conjunto de datos cuya
media no cambia está indicando que unas puntuaciones han aumentado y otras han dis-
minuido. Y esto significa que en unos sujetos ha mejorado el CI mientas que en otros ha
empeorado.
Contrastes sobre la forma de una distribución

A las pruebas que permiten valorar la forma de una distribución se les suele llamar pruebas
de bondad de ajuste, pues sirven para valorar si la distribución de una variable se ajusta o no
(se parece o no) a una determinada distribución de probabilidad teórica.
El estudio de la forma de una distribución ya lo hemos iniciado en el Capítulo 9 del pri-
mer volumen con la Prueba X 2 de Pearson sobre bondad de ajuste. Pero, a diferencia de la
prueba X 2, que ha sido diseñada más bien para valorar el ajuste de variables discretas (noso-
tros la hemos presentado para valorar el ajuste de variables categóricas), las pruebas que va-
mos a estudiar en este apartado sirven también para valorar el ajuste de variables continuas.
La prueba de Kolmogorov-Smirnov sobre bondad de ajuste

La prueba de Kolmogorov-Smirnov (Kolmogorov, 1933) sirve para contrastar hipótesis de
bondad de ajuste con una variable cuantitativa (Yi). Se basa en la comparación de dos funcio-
nes de distribución (funciones de probabilidad acumuladas): una función empírica F (Yi ) y
una función teórica F0(Yi). La función de distribución empírica se estima a partir de los datos,
es decir, a partir de una muestra aleatoria de n observaciones de la variable Yi . Para ello, se
comienza ordenando los valores de Yi de forma ascendente (es decir, desde el valor más pe-
queño hasta el más grande) y, una vez ordenados, la probabilidad acumulada hasta cada valor
Yi (es decir, la función de distribución empírica) se obtiene mediante F (Yi ) = i/n (donde i se
refiere la posición que ocupa cada valor Yi tras la ordenación).
La forma de obtener la función de distribución teórica depende de la distribución concreta
propuesta en la hipótesis nula. Por ejemplo, si la distribución teórica propuesta es la normal
con parámetros µY y σY, la función de distribución teórica se obtiene tipificando cada valor
Yi mediante Z i = (Yi ! µY)/σY y asignando a cada puntuación Z i la probabilidad acumulada que
le corresponde en la curva normal tipificada N (0, 1).
Una vez obtenidas las distribuciones empírica y teórica, el estadístico de Kolmogorov-

Smirnov se calcula a partir de la diferencia más grande en valor absoluto entre ambas distri-
buciones:
DKS = máx |D i | = máx | F (Yi ) ! F0 (Yi ) | [2.17]
La Tabla N del Apéndice final ofrece algunos cuantiles dα de las distribuciones muestrales
de DKS correspondientes a tamaños muestrales comprendidos entre 4 y 40 (Smirnov, 1948).
Si la variable estudiada es discreta, las decisiones basadas en estos cuantiles tienden a ser con-
servadoras (Noether, 1967). Y si en la hipótesis nula no se especifica el valor de los paráme-
tros de la distribución propuesta y, consecuentemente, hay que estimarlos a partir de los datos,
la prueba también se vuelve conservadora (Conover, 1980). El Cuadro 2.4 ofrece un resumen
del procedimiento.
Cuadro 2.4. Resumen de la prueba de Kolmogorov-Smirnov sobre bondad de ajuste
1. Hipótesis: H0: F (Yi) = F0 (Yi); H1: F (Yi) =/ F0 (Yi).

2. Supuestos: muestra aleatoria de n observaciones de una variable cuantitativa Yi.
3. Estadístico del contraste (ver ecuación [2.17]): DKS = máx | F (Yi) ! F0 (Yi) |.
4. Distribución muestral: los puntos críticos dα de la distribución exacta del estadístico
DKS se encuentran tabulados en la Tabla N del Apéndice final.
5. Zona crítica: DKS > dα .
6. Decisión: se rechaza H0 si DKS cae en la zona crítica; en caso contrario, se mantiene.
7. Nivel crítico (valor p): p = P (DKS > k), donde k se refiere al valor concreto que toma
el estadístico DKS.
Ejemplo. La prueba de Kolmogorov-Smirnov sobre bondad de ajuste

Retomemos los datos de la Tabla 2.1 referidos al peso de 14 recién nacidos de madres fuma-
doras. ¿Es razonable asumir que estos datos proceden de una distribución normal con media
2,5 y desviación típica 1? (α = 0,05).
Tenemos una variable cuantitativa ( peso) y estamos interesados en averiguar si, a partir
de las 14 observaciones que tenemos de esa variable, es razonable asumir que su distribución
es normal con parámetros 2,5 y 1:
1. Hipótesis: H0: F (Yi ) = N (2,5, 1); H1: F (Yi ) =/ N (2,5, 1).
2. Supuestos: muestra aleatoria de 14 observaciones de una variable cuantitativa.
3. Estadístico del contraste (ver ecuación [2.17]): DKS = máx |D i | = 0,30.
Para obtener el estadístico DKS hemos realizado los cálculos que muestra la Tabla 2.7. Las
puntuaciones Yi son las mismas que las de la Tabla 2.1. La función de distribución em-
pírica, F (Yi), se ha obtenido dividiendo la posición i de cada valor Y entre el número de
puntuaciones (n = 14); las puntuaciones Z i se han calculado utilizando la media y la des-
viación típica propuestas en la hipótesis nula (2,5 y 1); y la función de distribución teó-
rica, F0 (Yi ), se ha obtenido calculando la probabilidad acumulada hasta cada valor Z i en
la curva normal tipificada N (0, 1).
Tabla 2.7. Transformaciones basadas en los datos de la Tabla 2.1
Yi 1,48 1,80 1,93 1,98 2,04 2,08 2,18 2,20 2,30 2,45 2,47 3,15 3,46 4,64
F (Yi ) 0,07 0,14 0,21 0,29 0,36 0,43 0,50 0,57 0,64 0,71 0,79 0,86 0,93 1,00
Zi !1,02 !0,70 !0,57 !0,52 !0,46 !0,42 !0,32 !0,30 !0,20 !0,05 !0,03 0,65 0,96 2,14
F0 (Yi ) 0,15 0,24 0,28 0,30 0,32 0,34 0,37 0,38 0,42 0,48 0,49 0,74 0,83 0,98
| Di | 0,08 0,10 0,07 0,01 0,03 0,09 0,13 0,19 0,22 0,23 0,30 0,12 0,10 0,02
4. Distribución muestral: los puntos críticos dα de la distribución muestral del estadístico

DKS están tabulados en la Tabla N del Apéndice final.
5. Zona crítica (con n = 14 y α = 0,05): DKS > d0,05 = 0,349.
6. Decisión: como el valor del estadístico del contraste (0,30) es menor que el punto críti-
co (0,349), se mantiene H0. Esto no significa que pueda afirmarse que la distribución de
la variable Yi es normal con parámetros 2,5 y 1 (recordemos que mantener una hipóte-
sis nula no implica afirmar que es verdadera), pero sí que, con los datos disponibles, es
razonable asumir que la distribución de la variable Yi podría tener esas características.
7. Nivel crítico: p = P (DKS > 0,30) > 0,10.
Los contrastes sobre la forma de una distribución con SPSS

El SPSS incluye la prueba de bondad de ajuste de Kolmogorov-Smirnov dentro de dos pro-
cedimientos distintos: Pruebas no paramétricas y Explorar.
Con el procedimiento Pruebas no paramétricas se puede valorar el ajuste a cuatro distri-
buciones teóricas: Normal, Uniforme, Poisson y Exponencial (puede seleccionarse más de
una). Los parámetros de estas distribuciones se estiman a partir de los datos. Si se desea es-
pecificar los parámetros de la distribución elegida (por ejemplo, el valor mínimo y máximo
de una distribución uniforme, o la media y la desviación típica de una distribución normal),
es necesario utilizar la sintaxis (ver siguiente ejemplo). El procedimiento también permite
seleccionar algunos estadísticos descriptivos (número de casos válidos, media, desviación
típica, valores mínimo y máximo, y cuartiles) y decidir qué tratamiento se desea dar a los va-
lores perdidos. No es posible obtener el ajuste a una distribución normal si la varianza de la
variable vale cero; ni a una distribución de Poisson si la media de la variable vale cero o los
valores no son, todos ellos, enteros no negativos.
La forma de obtener la función de distribución teórica depende de la distribución concreta
propuesta en la hipótesis nula. Si la distribución propuesta es, por ejemplo, la uniforme, la
función de distribución teórica para cada valor de Yi se obtiene mediante:
= [2.18]
Y si la distribución teórica propuesta es, por ejemplo, la de Poisson, la función de distribución

teórica se obtiene mediante:
= [2.19]
(donde λ se refiere a la media de la distribución y k a cada uno de los valores de Yi desde 0

hasta i).
Una vez obtenidas las distribuciones empírica y teórica, el estadístico de Kolmogorov-
Smirnov se calcula tipificando la diferencia Di = [F (Yi ) ! F0 (Yi )] más grande en valor abso-
luto entre ambas distribuciones:
ZKS = [2.20]
La distribución de este estadístico se aproxima al modelo de probabilidad normal N(0, 1); por
tanto, las probabilidades asociadas a cada uno de sus posibles valores pueden obtenerse a par-
tir de la tabla de la curva normal tipificada. No obstante, el SPSS calcula esas probabilidades
aplicando el método de Smirnov (1948), el cual difiere del basado en las probabilidades de
la curva normal tipificada (si bien arroja resultados parecidos).
Aunque el SPSS permite utilizar la prueba de Kolmogorov-Smirnov para valorar el ajuste
de una variable cuantitativa a diferentes distribuciones teóricas (uniforme, normal, Poisson
y exponencial), lo cierto es que lo más habitual es verse en la necesidad de valorar el ajuste
a la distribución normal. La razón de esto es que varios de los procedimientos estadísticos
más utilizados han sido diseñados para analizar datos procedentes de distribuciones normales.
Para contrastar con la prueba de Kolmogorov-Smirnov la hipótesis de que la variable peso
al nacer (ver ejemplo anterior) se distribuye normalmente con parámetros µY = 2,5 y σY = 1
(los datos se encuentran en el archivo Tabla 2.7 Kolmogorov):
' Seleccionar la opción Pruebas no paramétricas > K-S de una muestra del menú Analizar para
acceder al cuadro de diálogo Prueba de Kolmogorov-Smirnov para una muestra.
' En el cuadro de diálogo principal, seleccionar la variable peso (peso al nacer) y trasla-
darla a la lista Contrastar variables. Para efectuar el ajuste a la distribución normal, dejar
marcada la opción Normal del recuadro Distribución de contraste.
' Pulsar el botón Pegar para generar la sintaxis correspondiente a las elecciones hechas y,
en el Editor de sintaxis, cambiar la línea K-S(NORMAL) = peso añadiendo el valor de los
parámetros media y desviación típica: K-S(NORMAL 2.5, 1) = peso (si no se aplica esta
corrección, el SPSS utiliza como parámetros los valores muestrales).
Ejecutando la sintaxis, el Visor ofrece los resultados que muestra la Tabla 2.8. La tabla in-
cluye la siguiente información: (1) el número de casos válidos (N ); (2) los parámetros de la
distribución teórica seleccionada (es decir, los parámetros que hemos fijado: media = 2,5 y
desviación típica = 1); (3) las diferencias más extremas entre las distribuciones acumuladas
empírica y teórica (la diferencia más grande de las positivas, la más pequeña de las negati-
vas y la más grande de las dos en valor absoluto); (4) el estadístico ZKS (Z = 1,114); y (5) el
nivel crítico o valor p (significación asintótica bilateral = 0,167). Puesto que el valor del ni-
vel crítico es mayor que 0,05, la decisión razonable es mantener la hipótesis nula. Por tanto,
es razonable asumir que los datos analizados podrían proceder de una distribución normal con
media 2,5 y desviación típica 1.
Tabla 2.8. Prueba de Kolmogorov-Smirnov para una muestra (ajuste a una distribución normal)
Peso al nacer
N 14
Parámetros normales a,b Media 2,5
Desviación típica 1
Diferencias más extremas Absoluta ,30
Positiva ,30
Negativa -,17
Z de Kolmogorov-Smirnov 1,11
a. La distribución de contraste es la Normal.
b. Especificado por el usuario
El procedimiento Explorar incluye dos pruebas de significación para valorar el ajuste de una
variable cuantitativa a una distribución normal: la prueba de Kolmogorov-Smirnov con la
corrección del nivel crítico mediante el método de Lilliefors (Kolmogorov, 1933; Smirnov,
1948; Lilliefors, 1967; ver también Dallal y Wilkinson, 1986) y la prueba de Shapiro-Wilk
(Shapiro y Wilk, 1965).
El problema de estos y otros estadísticos de normalidad es que, con muestras grandes, son
demasiado sensibles a pequeñas desviaciones de la normalidad. Por esta razón, estos estadís-
ticos suelen acompañarse con algún gráfico de normalidad. El procedimiento Explorar ofrece
dos de estos gráficos: el Q-Q normal y el Q-Q normal sin tendencias.
Para obtener los estadísticos de Kolmogorov-Lilliefors y de Shapiro-Wilk, y gráficos de
normalidad del procedimiento Explorar:
' Seleccionar la opción Estadísticos descriptivos > Explorar del menú Analizar para acceder
al cuadro de diálogo Explorar y trasladar la variable peso (peso al nacer) a la lista Depen-
dientes.
' Pulsar el botón Gráficos para acceder al subcuadro de diálogo Explorar: Gráficos y mar-
car la opción Gráficos con pruebas de normalidad. Pulsar el botón Continuar para volver al
cuadro de diálogo principal.
Aceptando estas selecciones se obtienen, entre otros, los resultados que muestran la Tabla 2.9
y la Figura 2.2. La Tabla 2.9 incluye los estadísticos de Kolmogorov-Smirnov y de Shapiro-
Wilk acompañados de sus correspondientes niveles críticos (sig.). Ambos estadísticos permi-
ten contrastar la hipótesis nula de que los datos muestrales proceden de poblaciones norma-
les: se rechaza la hipótesis de normalidad cuando el nivel crítico (sig.) es menor que el nivel
de significación establecido (generalmente 0,05).
Tabla 2.9. Contrastes de normalidad

a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Peso al nacer ,27 14 ,006 ,82 14 ,010
a. Corrección de la significación de Lilliefors
En el ejemplo, tanto el estadístico de Kolmogorov-Smirnov como el de Shapiro-Wilk tienen

asociados niveles críticos menores que 0,05; por tanto, ambos estadísticos coinciden en seña-
lar que la hipótesis de normalidad debe ser rechazada (este resultado contrasta con el obteni-
do al aplicar la prueba de Kolmogorov-Smirnov del procedimiento Pruebas no paramétricas;
pero debe tenerse en cuenta que allí se utilizaron otros parámetros y que los niveles críticos
se calculan de forma distinta).
Estos estadísticos adolecen de ser excesivamente sensibles a pequeñas desviaciones de
la normalidad cuando se utilizan con muestras grandes. En estos casos (muestras grandes),
es recomendable acompañarlos con algún gráfico de normalidad. El procedimiento Explorar
incluye dos de estos gráficos: el Q-Q normal y el Q-Q normal sin tendencias. La Figura 2.2
muestra ambos gráficos referidos a la variable peso al nacer.
En un gráfico Q-Q normal (Figura 2.2, gráfico de la izquierda), cada valor observado (Yi)
se compara con la puntuación típica N Z i correspondiente en la curva normal tipificada a la
proporción acumulada hasta cada valor Yi (esta proporción acumulada se calcula asignando
rangos a los valores Yi y dividiendo cada rango entre el número de casos más uno). En el eje
horizontal están representados los valores observados ordenados desde el más pequeño al más
grande (Yi); en el vertical están representadas las puntuaciones típicas normales N Z i. Cuan-
do una distribución empírica se aproxima a una distribución teórica normal, los puntos del
diagrama se encuentran agrupados en torno a la diagonal representada en el diagrama. Las
desviaciones de la diagonal indican desviaciones de la normalidad.
Un gráfico Q-Q normal sin tendencia (Figura 2.2, gráfico de la derecha) muestra las di-
ferencias existentes entre la puntuación típica de cada valor observado (Z i) y su correspon-
diente puntuación típica normal (N Z i). Es decir, muestra las distancias verticales existentes
entre cada punto y la diagonal del gráfico Q-Q normal. En el eje horizontal están represen-
tados los valores observados (Yi) y en el vertical ordenadas el tamaño de las diferencias entre
las puntuaciones típicas observadas y las esperadas (Zi ! N Zi). Si las puntuaciones proceden
de una población normal, esas diferencias deben oscilar de forma aleatoria en torno al valor
cero (línea recta horizontal). La presencia de pautas de variación no aleatorias indica des-
viaciones de la normalidad.
Figura 2.2. Gráficos de normalidad: Q-Q normal (izquierda) y Q-Q normal sin tendencia (derecha)
Gráfico Q-Q normal (var. peso al nacer)
Los diagramas de las Figuras 2.3, 2.4 y 2.5 ofrecen algunos ejemplos que pueden ayudar a
comprender el significado de los gráficos de normalidad. Estos diagramas muestran el com-
portamiento de tres muestras de puntuaciones aleatoriamente extraídas de tres distribuciones
teóricas de probabilidad: una distribución normal, una distribución uniforme y una distribu-
ción ji-cuadrado (para obtener estas muestras de puntuaciones se han utilizado las funciones
RV.NORMAL, RV.UNIFORM y RV.CHISQ del procedimiento Calcular del menú Transformar).
Puede observarse que, cuando una muestra de puntuaciones se distribuye normalmente

(Figura 2.3), los puntos del diagrama Q-Q normal se ajustan a la línea diagonal del gráfico
y los puntos del diagrama Q-Q normal sin tendencia se distribuyen aleatoriamente por en-
cima y por debajo de la línea horizontal del gráfico sin mostrar una pauta clara. Por el con-
trario, cuando una muestra de puntuaciones procede de una distribución que no es normal
(uniforme en el caso de la Figura 2.4; ji-cuadrado en el caso de la Figura 2.5), los puntos del
diagrama Q-Q normal no se ajustan a la línea diagonal y los puntos del diagrama Q-Q normal
sin tendencia muestran una pauta de variación claramente no aleatoria.
Figura 2.3. Gráficos de normalidad: muestra extraída de una distribución normal (media=10, desv. típica=3)
Gráfico Q-Q normal (var. normal)
Figura 2.4. Gráficos de normalidad: muestra extraída de una distribución uniforme (rango 0, 1)
Figura 2.5. Gráficos de normalidad: muestra extraída de una distribución ji-cuadrado (gl = 10)
Apéndice 2
La prueba de las rachas
La mayor parte de los procedimientos estadísticos que se utilizan para realizar inferencias asumen que
las muestras con las que se trabaja son aleatorias; o, lo que es lo mismo, que las observaciones mues-
treadas son independientes entre sí. Esto hemos tenido ocasión de comprobarlo con todos los procedi-
mientos inferenciales ya estudiados y tendremos ocasión de seguir comprobándolo a lo largo de todos
los capítulos que siguen. El incumplimiento de este supuesto puede acarrear graves consecuencias so-
bre las conclusiones de un contraste (ver Kenny y Judd, 1986).
En la práctica, la independencia entre observaciones se consigue seleccionándolas al azar. En una
secuencia temporal, por ejemplo, las observaciones no suelen ser independientes entre sí: lo que ocurre
con una observación concreta depende, generalmente, de las características de alguna observación pre-
via. En una muestra aleatoria, por el contrario, debe esperarse que lo que ocurre con cada observación
sea independiente de lo que ocurre con las demás. La prueba de las rachas permite valorar si las ob-
servaciones seleccionadas son realmente independientes entre sí.
El concepto de racha se refiere a una secuencia de observaciones de un mismo tipo. Supongamos
que se lanza una moneda al aire 10 veces y que se obtiene el siguiente resultado: CCCXCCXXXC. En
este resultado hay 5 rachas: CCC, X, CC, XXX y C. A simple vista, el resultado obtenido parece
aleatorio. Pero si en lugar de ese resultado se hubiera obtenido este otro: CCCCCXXXXX (2 rachas),
no resultaría difícil ponerse de acuerdo en que la secuencia obtenida no parece aleatoria. Como tampo-
co parece aleatoria una secuencia con demasiadas rachas: CXCXCXCXCX (10 rachas). Pues bien, la
prueba de las rachas permite determinar si el número de rachas (R) observado en un conjunto de ob-
servaciones es lo suficientemente grande o lo suficientemente pequeño como para poder rechazar la
hipótesis de independencia (o aleatoriedad) entre las observaciones.
Es importante no confundir la hipótesis de aleatoriedad con la hipótesis de bondad de ajuste
estudiada a propósito del contraste sobre una proporción o prueba binomial (ver Capítulo 9 del primer
volumen). Obtener 5 caras y 5 cruces al lanzar una moneda 10 veces es un resultado que se ajusta
perfectamente a la hipótesis de equiprobabilidad (πcara = πcruz = 0,5), pero si las 5 caras salen al princi-
pio y las 5 cruces al final, esto haría dudar de la hipótesis de independencia o aleatoriedad.
Para obtener el número de rachas de un conjunto de n observaciones es necesario que éstas estén
clasificadas en dos grupos exhaustivos y mutuamente exclusivos (variable dicotómica). Si no lo están,
se deberá utilizar algún criterio (por ejemplo, colocando un punto de corte en la media, en la media na,
en la moda o en cualquier otro valor) para hacer que lo estén. Una vez clasificadas las n observaciones
en dos grupos (de tamaños n1 y n2), la hipótesis de aleatoriedad o independencia puede ponerse a
prueba utilizando una tipificación10 del número de rachas (R):
=
Z = con [2.21]
=
10
Si el tamaño muestral es menor que 50, el estadístico Z se obtiene utilizando la corrección por continuidad de la siguiente
manera (así es como aplica la corrección el PSSS):
• Si [R ! E (R )] < !0,5, se suma 0,5 a R. Es decir: Z = [R + 0,5 ! E (R )] / σR.
• Si [R ! E (R )] > 0,5, se resta 0,5 a R. Es decir: Z = [R ! 0,5 ! E (R )] / σR.
• Si | R ! E (R ) | < 0,5, entonces Z = 0.
El estadístico Z se distribuye según el modelo de probabilidad normal N (0, 1). Las probabilidades
asociadas al estadístico Z pueden utilizarse para tomar decisiones sobre la hipótesis nula de aleatorie-
dad en un contraste bilateral.
Retomemos los datos de la Tabla 2.1 referidos al peso de 14 recién nacidos de madres fumadoras.
La primera fila de la Tabla 2.10 muestra las puntuaciones originales (ahora no están ordenadas de
menor a mayor, como en la Tabla 2.1). ¿Qué puede decirse sobre la hipótesis de independencia o
aleatoriedad de esta secuencia de observaciones? (α = 0,05).
Tabla 2.10. Peso en kg (Yi ) de 14 recién nacidos de madres fumadoras
Yi 2,45 1,80 3,15 1,98 2,04 2,08 4,64 2,20 2,30 1,48 2,47 1,93 3,46 2,18
Rachas % & % & & & % % % & % & % &
Puesto que se trata de una variable cuantitativa, lo primero que debemos hacer para poder aplicar la
prueba de las rachas es convertirla en dicotómica creando dos grupos: uno con los valores menores que
la mediana y otro con los valores mayores. El valor de la mediana es 2,19. En la Tabla 2.10 se ha colo-
cado un signo “!” a los valores menores que 2,19 y un signo “+” a los valores mayores. Como resulta-
do de esta clasificación se obtienen R = 10 rachas (es decir, 10 secuencias de signos del mismo tipo).
Hay n1 = n2 = 7 signos de cada tipo.
La hipótesis nula que vamos a contrastar es que la muestra es aleatoria (frente a la alternativa de
que no lo es). El único supuesto que necesitamos establecer es que tenemos 14 observaciones de una
variable dicotómica o dicotomizada. Aplicando la ecuación [2.21] obtenemos11:
R = 10; E (R ) = 2 n1 n2 / n + 1 = 2 (7) (7) / 14 +1 = 8.
σR = = = 1,797.
Z = [R ! E (R)] / σR = (10 ! 8) / 1,797 = 1,11.
Puesto que el estadístico Z se distribuye aproximadamente N (0, 1), la zona crítica está formada por los
valores menores que Z0,025 = !1,96 y mayores que Z0,975 = 1,96. El valor del estadístico del contraste
(1,11) no cae en la zona crítica. Por tanto, se mantiene H0. No hay razón para pensar que la secuencia
de observaciones analizada no es aleatoria.
La prueba de las rachas se encuentra en la opción Pruebas no paramétricas del menú Analizar.
Recordemos que, para poder aplicar la prueba, es necesario que las observaciones estén clasificadas
en dos grupos (variable dicotómica). Si no lo están, debe utilizarse algún criterio para hacer que lo
estén. El SPSS permite elegir como criterio de dicotomización (Punto de corte), la mediana, la moda,
la media o cualquier otro valor. Los valores menores que el punto de corte pasan a formar parte del
primer grupo; los valores iguales o mayores que el punto de corte pasan a formar parte del segundo. El
botón Opciones conduce a un subcuadro de diálogo que permite obtener algunos estadísticos descrip-
tivos y decidir qué tratamiento se desea dar a los valores perdidos.
El SPSS, tras contar el número de rachas, utiliza el estadístico Z propuesto en [2.21] (aplicando
la corrección por continuidad propuesta en la nota a pie de página número 9) y ofrece el nivel crítico
bilateral resultante de multiplicar por 2 la probabilidad de encontrar, en la distribución N (0, 1), pun-
tuaciones Z menores que la obtenida si R < E(R ), o mayores que la obtenida si R > E(R ).
Para contrastar la hipótesis de independencia o de aleatoriedad referida la variable peso de la Ta-
bla 2.10 con el SPSS:
' Reproducir en el Editor de datos los datos de la Tabla 2.10 (o abrir el archivo Tabla 2.10 rachas
que se encuentra en la página web del manual).
11
Incluyendo la corrección por continuidad propuesta en la nota a pie de página número 10 de la página anterior se obtiene:
Z = [R ! 0,5 ! E (R )] / σR = (10 ! 0,5 ! 8) / 1,797 = 0,835 (con: p ' 2 [P (Z > $ *0,83*)] ' 2 (0,2033) = 0,4066).
' Seleccionar la opción Pruebas no paramétricas > Rachas del menú Analizar para acceder al cuadro
de diálogo Prueba de las rachas y trasladar la variable peso a la lista Contrastar variables (si se tras-
lada más de una variable, se obtiene un contraste por variable).
' Dejar marcada la opción Mediana del recuadro Punto de corte para categorizar la variable utilizan-
do la mediana (este criterio es el que suele utilizarse como punto de corte).
Aceptando estas elecciones, el Visor ofrece los resultados que muestra la Tabla 2.11. La tabla comienza
identificando el valor que se ha utilizado como punto de corte para la dicotomización: valor de prueba
= 2,19. Una nota a pie de tabla recuerda que ese punto de corte es la mediana. A continuación aparece
el número de casos del primer grupo (casos < valor de prueba = 7), el número de casos del segundo
grupo (casos >= valor de prueba = 7), el número de casos válidos (casos en total = 14) y el número de
rachas contabilizadas (10).
La tabla ofrece, por último, el valor del estadístico de contraste (Z = 0,835) y su nivel crítico (sig-
nificación asintótica bilateral = 0,404). Puesto que el nivel crítico es mayor que 0,05, la decisión
razonable es mantener H0. Por tanto, nada impide asumir que la secuencia de observaciones analizada
es aleatoria.
Tabla 2.11. Prueba de las rachas

Peso al nacer
Valor de pruebaa 2,19
Casos < Valor de prueba 7
Casos >= Valor de
7
prueba
Casos en total 14
Número de rachas 10
Z ,835
a. Mediana
La prueba de los cuantiles

Un cuantil es un valor de la variable que deja por debajo de sí un determinado porcentaje de casos.
El cuantil CP es el valor de la variable que deja por debajo de sí una proporción de casos igual a P. La
mediana, que deja por debajo de sí al 50 % de los casos, es el cuantil C0,50; el primer cuartil, que es el
valor que deja por debajo de sí al 25 % de los casos, es el cuantil C0,25; etc.
La prueba de los signos estudiada en este mismo capítulo para contrastar hipótesis sobre la me-
diana (un cuantil) también sirve para contrastar hipótesis sobre cualquier otro cuantil.
Consideremos una variable Y medida con una escala al menos ordinal. Supongamos que, en la
población de Y, el cuantil CP vale k0. Supongamos, además, que seleccionamos una muestra aleatoria
de m observaciones Yi y que calculamos las diferencias entre cada valor Yi y el valor k0:
Di = Yi ! k0 (i = 1, 2, ..., m) [2.22]
Desechemos las diferencias nulas (en el caso de que existan) y consideremos únicamente las n dife-
rencias no nulas (n <$ m). Calculemos el número de diferencias positivas (n+) y el número de diferen-
cias negativas (n!). Si k0 es el verdadero valor poblacional del cuantil CP, en la población habrá una
proporción P de valores Yi menores que k0, es decir,
$ k0)
π ! = P = P (Yi < [2.23]
lo cual significa que, al extraer una muestra aleatoria de n observaciones de esa población y clasificar-
las dependiendo de que su puntuación en Y sea mayor (+) o menor (!) que k0, cabe esperar encontrar
una proporción P de signos negativos (salvando, por supuesto, las fluctuaciones atribuibles al azar
muestral). O, lo que es lo mismo,
n! . n P [2.24]
Una fuerte discrepancia entre n ! y n P estaría indicando que el verdadero valor poblacional del cuantil
CP no es k0. La clave está precisamente en poder determinar cuándo una discrepancia entre n ! y n P
es lo bastante grande como para pensar que, efectivamente, el valor poblacional del cuantil CP no es
k0. Para esto es necesario conocer la distribución muestral de n!. Pero la distribución muestral de n!
sabemos que es la binomial con parámetros n y π! = P (ver el apartado Prueba de los signos para una
muestra). Por tanto, tenemos todo lo necesario para contrastar hipótesis sobre el cuantil CP .
La prueba de los cuantiles se obtiene en el SPSS exactamente igual que la prueba de los signos ya
estudiada en este mismo capítulo. La única diferencia está en que la proporción que se contrasta ahora
no es 0,50 (como cuando la hipótesis se refiere a la mediana) sino la proporción P correspondiente al
cuantil que se desea estudiar.
Recordemos el ejemplo sobre 14 recién nacidos de madres fumadoras (ver Tabla 2.1). Imagine-
mos que un investigador tiene la hipótesis de que el 70 % de estos bebés pesa menos de 2,50 kg al na-
cer. Esta hipótesis puede contrastarse haciendo exactamente lo mismo que hemos hecho a propósito de
la prueba de los signos, con la única diferencia de que, ahora, la Proporción de prueba es 0,70 en lugar
de 0,50 (ahora estamos interesados en el cuantil C0,70 –percentil 70– y no en la mediana). El proce-
dimiento ofrece un nivel crítico p = 0,355 que no permite rechazar la hipótesis nula de que el cuantil
C0,70 vale 2,50 kg. Por tanto, la información muestral disponible es compatible con la hipótesis de
nuestro investigador.
2.1. Un grupo de educadores considera que los estudiantes de bachillerato deben dedicar, para rendir satis-
factoriamente, un promedio de 12 horas de estudio a la semana. En una muestra aleatoria de 14 estu-
diantes de bachillerato de un determinado instituto se han obtenido los datos que ofrece la siguiente
tabla (la variable Yi es una medida cuantitativa del rendimiento):
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Yi 9 11 7 16 10 8 3 12 6 15 9 5 12 20
a. ¿Puede asumirse que estos datos proceden de una población distribuida normalmente? (la media
vale 10,21 y la desviación típica 4,59).
b. Aplicar la prueba T, la prueba de Wilcoxon y la prueba de los signos para averiguar si estos datos
permiten afirmar que el promedio de horas de estudio semanales de los estudiantes de este instituto
es menor que 12 (α = 0,05).
2.2. Con el método utilizado en los últimos años en un determinado colegio para enseñar matemáticas los
estudiantes de enseñanza primaria consiguen una calificación media de 6,4. Un educador convence al
director del centro de que existe un método más eficaz y decide aplicarlo durante un año en dos aulas
de 25 estudiantes cada una. Al final del curso, los 50 estudiantes obtienen una calificación media de
6,8 y una varianza de 2. ¿Se puede concluir, con un nivel de confianza de 0,95, que el nuevo método
de enseñanza ha mejorado la calificación media que se venía obteniendo con el método tradicional?
2.3. Las puntuaciones del WAIS (Escala de Inteligencia para Adultos de Wechsler) se distribuyen normal-
mente con media 100. Un psicólogo ha construido una nueva prueba de inteligencia (Y ) y desea saber
si la media que se obtiene con ella se parece o no a la del WAIS. Para ello, selecciona una muestra
aleatoria de 100 sujetos y, tras pasarles la prueba, obtiene una media de 104 y una desviación típica
insesgada de 16. ¿Qué concluirá el psicólogo con un nivel de confianza de 0,95?
2.4. ¿A qué conclusión se habría llegado en el ejercicio anterior si, permaneciendo todo lo demás igual, se
hubiera utilizado una muestra de 25 estudiantes en lugar de la que ha utilizado de 100?
2.5. La información que ofrece el editor de una escala de madurez indica que las puntuaciones en la escala
se distribuyen normalmente con media 5 en la población de estudiantes de enseñanza secundaria. La
escala tiene ya 10 años, lo que hace sospechar a un educador que el promedio de la escala ha podido
aumentar. Para comprobarlo, selecciona una muestra aleatoria de 25 estudiantes de enseñanza secunda-
ria y, tras pasarles la prueba, obtiene una media de 5,6 y una desviación típica de 2. ¿Podrá el educador
concluir, con α = 0,05, que el promedio de la escala de madurez ha aumentado?
_
2.6. En un contraste bilateral de H0: µY = 420, ¿qué valores de Y llevarán a rechazar H0 con una muestra
aleatoria de tamaño 36 extraída de una población normal cuya desviación típica vale 18? (α = 0,05).
2.7. (Elegir la/s alternativa/s correcta/s) En un estudio se ha obtenido, para el estadístico del contraste, un
valor T = 7,3 tal que P(T < 7,3) = 0,025. Si el contraste es unilateral derecho, esto significa que:
a. Hay que rechazar H0.
b. La probabilidad de rechazar H0, siendo verdadera, vale 0,025.
c. Lo razonable es mantener H0.
d. Puede rechazarse H0 con una probabilidad de 0,025 de cometer un error en la decisión.
e. Si H0 es verdadera y se decide mantenerla, la probabilidad de cometer un error vale al menos 0,025.
2.8. Supongamos que se contrasta H0: µY >$ 0 frente a H1: µY < 0 y, en una muestra aleatoria, se obtiene un
estadístico T = !2. Sabiendo que P (T < !2) = 0,005 y utilizando α = 0,01, ¿qué decisión debe tomar-
se sobre H0 y por qué?
a. Rechazarla porque !2 < 0.
b. Mantenerla porque 0,01 < 0,995.
c. Mantenerla porque !2 < 0,01.
d. Rechazarla porque 0,005 < 0,01.
c. Mantenerla porque P (T < !2) > α.
2.9. Un investigador desea comprobar si un test se distribuye N (0, 1) en la población de estudiantes univer-
sitarios. En una muestra obtiene un estadístico de contraste KS con valor igual al centil 95. Teniendo
en cuenta la siguiente función de distribución de algunos de los valores del estadístico de contraste:
KS 43,28 45,44 48,76 51,74 55,33 85,53 90,53 95,02 100,4 104,2
F (KS | H0) 0,005 0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,990 0,995
Utilizando α = 0,01:
a. ¿Con qué valores del estadístico KS se tomará la decisión de rechazar H0?
b. ¿Qué decidiremos sobre H0? ( ) Mantenerla ( ) Rechazarla, porque...
$ 95) < 0,01; ( ) P (KS >
( ) 90,53 < 100,4; ( ) 95 < 100; ( ) P (KS > $ 95) > 0,01; ( ) 0,95 > 0,01.
c. ¿Qué se puede concluir?
d. ¿Cuánto vale el nivel crítico p?
3
Inferencia con
dos variables categóricas
En nuestra clasificación de los contrastes de hipótesis (ver el Cuadro 1.1 al final del primer
capítulo) hemos propuesto diferentes procedimientos para abordar el análisis de dos varia-
bles categóricas: (1) la prueba X 2 de Pearson sobre independencia o igualdad de proporcio-
nes, (2) los índices de riesgo, (3) la prueba de McNemar para el contraste de la hipótesis de
simetría y (4) las medidas de asociación. Para decidir cuál de ellos aplicar en una situación
concreta hay que prestar atención a dos detalles: las categorías de las variables analizadas y
la hipótesis que se desea contrastar.
Las categorías de las variables pueden ser o no las mismas. Por ejemplo, al analizar las
variables sexo (hombres, mujeres) y tabaquismo (fumadores, exfumadores, no fumadores),
o las variables clase social (baja, media, alta) y nivel de estudios (primarios, secundarios, me-
dios superiores), las categorías de las variables son distintas. Pero al analizar las variables opi-
nión sobre la eutanasia (a favor, indiferente, en contra) y opinión sobre el aborto (a favor,
indiferente, en contra), o las variables bebedor (sí, no) y fumador (sí, no), las categorías de
ambas variables son las mismas. En el primer caso (categorías distintas), el análisis suele diri-
girse casi de forma exclusiva al estudio de la relación entre las variables mediante el contraste
de la hipótesis de independencia; en el segundo caso (categorías iguales), además de estudiar
si existe relación, es posible y suele interesar estudiar otros aspectos mediante el contraste de
diferentes hipótesis: homogeneidad marginal, simetría absoluta, simetría relativa, acuerdo,
cuasi-independencia, etc.
El análisis de dos variables categóricas ya lo hemos iniciado en el Capítulo 10 del primer
volumen construyendo tablas de contingencias bidimensionales y contrastando la hipótesis
de independencia o igualdad de proporciones con la prueba X 2 de Pearson. En este capítulo
estudiaremos el resto de los procedimientos propuestos en el Cuadro 1.1.
Algunos de ellos, como los índices de riesgo, también sirven para contrastar la hipótesis
de independencia, pero con especial atención a los diseños longitudinales y poniendo el én-
fasis en la cuantificación del efecto estudiado. Otros, como la prueba de McNemar, sirven
para contrastar la hipótesis de homogeneidad marginal en tablas 2 × 2. Tendremos ocasión de
comprobar que la independencia y la homogeneidad marginal son cosas muy distintas. Y tam-
bién estudiaremos varias medidas de asociación diseñadas para intentar resumir en un solo
número el grado o intensidad de la relación presente en una tabla de contingencias bidimen-
sional, incluyendo el acuerdo como un caso especial de la asociación.
Proporciones independientes y relacionadas

La hipótesis de independencia es, probablemente, la hipótesis que con mayor frecuencia se
contrasta al analizar dos variables categóricas. Precisamente esta hipótesis es la que hemos
aprendido a contrastar con la prueba X 2 de Pearson (ver Capítulo 10 del primer volumen) para
analizar datos como los de la Tabla 3.1. La tabla resume los resultados obtenidos al clasificar
una muestra de 200 personas en dos variables categóricas: sexo y tabaquismo.
La pregunta que suele interesar responder en una tabla de estas características es si la pro-
porción de fumadores difiere o no de la proporción de fumadoras, lo cual es equivalente a
preguntarse si las variables sexo y tabaquismo están o no relacionadas. Para responder a esta
pregunta hemos aprendido a comparar la distribución condicional de la variable tabaquismo
en los hombres (33/110 = 0,30 y 77/110 = 0,70) con la distribución condicional de la variable
tabaquismo en las mujeres (36/90 = 0,40 y 54/90 = 0,60). Si estas distribuciones no son igua-
les, entonces las variables sexo y tabaquismo no son independientes. De otra forma, si la pro-
porción de fumadores (33 /110 = 0,30) difiere de la proporción de fumadoras 36 / 90 = 0,40,
entonces las variables sexo y tabaquismo están relacionadas (por supuesto, sería equivalente
centrarse en la proporción de no fumadores y de no fumadoras).
Tabla 3.1. Frecuencias conjuntas y marginales de sexo por tabaquismo

Tabaquismo
Sexo Fumadores No fumadores Total
Hombres 33 77 110
Mujeres 36 54 90
Total 69 131 200
Pero la hipótesis de independencia no es la única hipótesis que puede interesar contrastar al

analizar dos variables categóricas. Consideremos una situación diferente. Supongamos que
al preguntar a una muestra de 200 personas su opinión sobre la eutanasia (a favor, en contra)
en dos momentos distintos (por ejemplo, antes y después de un debate televisado) se obtienen
los datos que muestra la Tabla 3.2.
Tabla 3.2. Opinión sobre la eutanasia en dos momentos distintos

Opinión después
Opinión antes A favor En contra Total
A favor 60 20 80
En contra 30 90 120
Total 90 110 200
Capítulo 3. Inferencia con dos variables categóricas 75
Aquí, como en el caso anterior, también podría contrastarse la hipótesis de independencia para
averiguar si la opinión que se tiene en el momento antes está relacionada con la opinión que
se tiene en el momento después. Esto podría hacerse comparando, como antes, las proporcio-
nes 60 / 80 = 0,75 y 30 / 120 = 0,25. Pero en un estudio de estas características, el hecho de
saber que existe relación entre ambos momentos suele tener poco de interés: puesto que se
está haciendo la misma pregunta a los mismos sujetos, es lógico esperar que exista relación;
y saber esto no aporta gran cosa.
Lo que suele interesar en una situación de estas características es, más bien, saber si la
opinión ha cambiado; es decir, saber si la opinión que se tiene en el momento antes difiere
o no de la opinión que se tiene en el momento después. Y esto no puede saberse contrastan-
do la hipótesis de independencia, sino otra hipótesis llamada de homogeneidad marginal.
Y contrastar esta hipótesis implica comparar la proporción de personas que están a favor en
el momento antes (80 / 200 = 0,40) con la proporción de personas que están a favor en el
momento después (90 / 200 = 0,45), lo cual no tiene nada que ver con las proporciones que
se comparan cuando se contrasta la hipótesis de independencia (0,75 y 0,25). Por supuesto,
sería equivalente centrarse en la proporción de personas que están en contra.
Entre las proporciones que se comparan en la hipótesis de independencia y las que se
comparan en la hipótesis de homogeneidad marginal existe una diferencia muy importante.
En la hipótesis de independencia (ver Tabla 3.1) se están comparando dos proporciones que
son independientes entre sí: en las proporciones 33 / 110 = 0,30 y 36 / 90 = 0,40, los 33 hom-
bres fumadores son personas distintas (independientes) de las 36 mujeres fumadoras; de otra
manera: los 110 hombres que intervienen en la primera proporción son distintos de las 90
mujeres que intervienen en la segunda. Por el contrario, en la hipótesis de homogeneidad mar-
ginal (ver Tabla 3.2) se están comparando dos proporciones relacionadas: en las proporcio-
nes 80 / 200 = 0,40 (a favor en el momento antes) y 90 / 200 = 0,45 (a favor en el momento
después), hay 60 personas que son las mismas, es decir, 60 personas que no son indepen-
dientes entre sí.
La situación representada en la Tabla 3.2 es una forma de diseño longitudinal que consis-
te en medir una variable categórica en dos momentos distintos: se toma una medida de la va-
riable, se realiza una intervención o simplemente se deja pasar el tiempo, y se vuelve a tomar
una medida de la misma variable a los mismos sujetos. Estos diseños antes-después son útiles
para valorar si se produce algún cambio entre los dos momentos. Y el escenario es similar si
en lugar de tomar dos medidas a los mismos sujetos se toma una medida a pares de sujetos
igualados en algún criterio relevante para el análisis. Esto es lo que ocurre, por ejemplo, cuan-
do se utilizan casos y controles en un estudio clínico, o padres e hijos en un estudio socio-
lógico, o gemelos en un estudio sobre la problemática herencia-ambiente, etc. La Tabla 3.3
muestra los resultados obtenidos al preguntar la opinión sobre la eutanasia (a favor, en contra)
a los miembros de una misma pareja (marido, mujer).
Tabla 3.3. Opinión sobre la eutanasia de miembros de una misma pareja

Opinión mujer
Opinión marido A favor En contra Total
A favor 60 20 80
En contra 30 90 120
Total 90 110 200
Quizá la diferencia entre proporciones independientes (las que se utilizan para contrastar la
hipótesis de independencia) y proporciones relacionadas (las que se utilizan para contrastar
la hipótesis de homogeneidad marginal) pueda entenderse mejor en la situación propuesta
en la Tabla 3.4. La tabla ofrece el resultado de clasificar una muestra de 200 personas tras res-
ponder a dos preguntas distintas (opinión sobre la eutanasia y opinión sobre el aborto), ambas
con las mismas categorías de respuesta (a favor, en contra). En esta nueva clasificación se es-
tán midiendo dos variables distintas (igual que en la Tabla 3.1), pero ambas tienen las mismas
categorías (igual que en las Tablas 3.2 y 3.3). Las características de las variables utilizadas
hacen que las Tablas 3.2, 3.3 y 3.4 sean cuadradas (filas = columnas).
Ahora podría interesar contrastar ambas hipótesis: (1) el contraste de la hipótesis de inde-
pendencia estaría informando acerca de si ambas opiniones están o no relacionadas, lo cual
permitiría saber si las personas que están a favor de la eutanasia tienden o no a estar también
a favor del aborto; (2) el contraste de la hipótesis de homogeneidad marginal estaría infor-
mando acerca de si la proporción de personas que están a favor de la eutanasia difiere (es ma-
yor o menor) de la proporción de personas que están a favor del aborto.
Para poder contrastar la hipótesis de independencia habría que comparar las proporciones
60 / 80 = 0,75 y 30 / 120 = 0,40; para poder contrastar la hipótesis de homogeneidad marginal
habría que comparar las proporciones 80 / 200 = 0,40 y 90 / 200 = 0,45. Y lo que conviene
advertir es, no solo que cada hipótesis informa sobre un aspecto distinto de la tabla, sino que
las proporciones que se comparan en el primer caso son proporciones independientes, mien-
tras que las que se comparan en el segundo caso son proporciones relacionadas.
Tabla 3.4. Opinión sobre la eutanasia y el aborto

Opinión aborto
Opinión eutanasia A favor En contra Total
A favor 60 20 80
En contra 30 90 120
Total 90 110 200
En tablas 2 × 2, la hipótesis de homogeneidad marginal es una hipótesis de simetría que per-

mite valorar el cambio: indica si el número de personas que cambian en una dirección (20)
difiere del de personas que cambian en la otra dirección (30). Reordenando los datos de la
Tabla 3.2 tal como muestra la Tabla 3.5, en lugar de analizar el número de cambios (20 frente
a 30) es posible analizar el número relativo de cambios (20/80 frente a 30/120). Al abordar
la situación de esta otra manera se estaría contrastando la hipótesis de simetría relativa me-
diante la comparación de dos proporciones independientes (ver Apéndice 3).
Tabla 3.5. Opinión sobre la eutanasia en dos momentos distintos

Opinión después
Opinión antes La misma Distinta Total
A favor 60 20 80
En contra 90 30 120
Total 150 50 200
Homogeneidad marginal y simetría

Contrastar la hipótesis de homogeneidad marginal (es decir, de igualdad de proporciones mar-
ginales) referida a dos variables dicotómicas implica, según acabamos de ver, analizar propor-
ciones relacionadas en uno de estos tres escenarios: (1) una variable dicotómica medida en
los mismos sujetos en dos momentos distintos (ver Tabla 3.2); (2) una variable dicotómica
medida en pares de sujetos (ver Tabla 3.3); (3) dos variables dicotómicas distintas con las
mismas categorías (ver Tabla 3.4).
Los datos relativos a este tipo de variables suelen organizarse en tablas de contingencias
2 × 2 en las cuales las categorías de las filas son las mismas que las categorías de las columnas
(tablas cuadradas como la 3.2, la 3.3 y la 3.4). La Tabla 3.6 muestra la notación que utiliza-
remos para identificar cada elemento de la tabla. La variable X se refiere al momento antes,
o a los primeros sujetos de cada par o a la primera de las dos variables medidas. La variable
Y se refiere al momento después, o a los segundos sujetos de cada par o a la segunda de las
dos variables medidas. Simplemente sustituyendo cada valor n por π se obtiene la notación
relativa a las proporciones teóricas o poblacionales de cada casilla y de cada total.
Tabla 3.6. Notación utilizada en tablas de contingencias antes-después
Y (después) n1+ ' nº de casos con X ' 1

X (antes) 1 2 Total n+1 ' nº de casos con Y ' 1
n11 , n22 ' nº de casos con X ' Y
1 n11 n12 n1+
n12 ' nº de casos con X < Y
2 n21 n22 n2+
n21 ' nº de casos con X > Y
Total n+1 n+2 n n ' nº total de casos
En cualquiera de los tres escenarios descritos (todos ellos representados en la Tabla 3.6), la
hipótesis nula de homogeneidad marginal puede formularse como:
H0 : π1+ = π +1 [3.1]
Con palabras: la proporción de “unos” en X es igual a la proporción de “unos” en Y. Y apli-
cada al ejemplo de la Tabla 3.2: la proporción de personas que están a favor de la eutanasia
en el momento antes es igual a esa misma proporción en el momento después.
Sería equivalente referir la hipótesis [3.1] a la proporción de “doses”, pues si π1+ y π+1
son iguales, entonces π2+ y π+2 también lo son. Por esta razón a la hipótesis que estamos con-
trastando se le llama hipótesis de homogeneidad marginal: se está afirmando que las propor-
ciones marginales de X e Y son iguales.
Simetría con variables dicotómicas: la prueba de McNemar

Unas sencillas transformaciones permiten comprobar que
π1+ ! π+1 = (π11 + π12) ! (π21 ! π22) = π12 ! π21 [3.2]
Por tanto, con variables dicotómicas, la hipótesis de homogeneidad marginal equivale a la hi-
pótesis de simetría, es decir, a la hipótesis de que la proporción de cambios que se observan
en una dirección (π12) es igual a la proporción de cambios que se observan en la otra dirección
(π21):
H0 : π12 = π21 [3.3]
Esto implica que, en una tabla de contingencias 2 × 2, n12 y n21 contienen la información ne-
cesaria y suficiente para contrastar la hipótesis de homogeneidad marginal. Si H0 es verda-
dera, cabe esperar que n12 y n21 tomen valores parecidos. Una fuerte discrepancia entre n12 y
n21 hará dudar de H0. Por tanto, conociendo las probabilidades asociadas a n12 y n21, podre-
mos determinar cuándo la diferencia entre ambos valores es lo bastante grande (lo bastante
improbable si H0 fuera verdadera) como para poder rechazar H0.
Ahora bien, como cada uno de los n* = n12 + n21 casos representa un ensayo de Bernou-
lli que puede pertenecer a n12 o de n21 con la misma probabilidad (pues H0 afirma que π12 y
π21 son iguales), n12 y n21 son variables aleatorias que se distribuyen según el modelo de pro-
babilidad binomial con parámetros π = 0,50 y n* = n12 + n21 (ver, en el Capítulo 6 del primer
volumen, el apartado Distribución muestral del estadístico proporción). Y como n12 y n21 son
complementarios respecto de n, conocer la probabilidad asociada a cualquiera de ellos implica
conocer la probabilidad asociada al otro. Esto significa que es innecesario trabajar con am-
bos; basta con utilizar n12.
Por tanto, tenemos un estadístico (n12) con distribución muestral conocida que puede uti-
lizarse para contrastar la hipótesis de homogeneidad marginal (hipótesis que equivale a la
de simetría cuando, como es el caso, ambas variables son dicotómicas). Y ocurre que este
contraste es idéntico al contraste sobre una proporción ( prueba binomial ) ya estudiado en
el Capítulo 9 del primer volumen; únicamente hay que tener en cuenta la siguiente equiva-
lencia entre la notación utilizada aquí y la utilizada allí: n12 = «número de éxitos», n* = «nú-
mero de ensayos» y π12 = 0,50 = «proporción de éxitos».
No repetiremos aquí este contraste, pero recordemos que la distribución binomial tiende
a la distribución normal conforme el tamaño muestral va aumentando. En lo que ahora nos
ocupa, conforme n* va aumentando, el estadístico n12 se va aproximando a la distribución
normal con valor esperado n* (0,5) y varianza n* (0,5) (0,5) (ver, en el Capítulo 4 del primer
volumen, el apartado Aproximación de la distribución binomial a la normal). Basándose en
esta aproximación, McNemar (1947) ha diseñado un estadístico que no es más que una tipi-
ficación de n12 elevada al cuadrado1:
= [3.4]
La distribución muestral de este estadístico se aproxima al modelo de probabilidad ji-cua-

drado con 1 grado de libertad ( ). La aproximación es tanto mejor cuanto mayor es n, pero
como la distribución binomial está centrada en π12 = π21 = 0,50, la aproximación empieza a
ser muy buena con tamaños muestrales relativamente pequeños.
En la aproximación propuesta por McNemar también es posible utilizar las proporciones
muestrales P1+ = n1+ /n y P+1 = n+1 /n para estimar las proporciones poblacionales π1+ y π+1.
McNemar ha demostrado que la varianza de la diferencia P1+ ! P+1 vale:
1
La ecuación incluye corrección por continuidad. En Pardo y San Martín (1998, pág. 501) puede encontrarse una sencilla
demostración de cómo se obtiene el estadístico de McNemar a partir de los valores esperados de n12 y n21.
= [3.5]
Lo cual significa que es posible construir un intervalo de confianza para la diferencia π1+ ! π+1
mediante:
= [3.6]
(Zα/2 es el cuantil α/2 de la distribución normal tipificada). El Cuadro 3.1 ofrece un resumen
de cómo utilizar el estadístico de McNemar para contrastar las hipótesis de homogeneidad
marginal o simetría. El resumen incluye cómo calcular el nivel crítico (valor p) y cómo cons-
truir un intervalo de confianza para la diferencia entre las dos proporciones comparadas.
Cuadro 3.1. Resumen de la prueba de McNemar sobre homogeneidad marginal o simetría (tablas 2 × 2)
1. Hipótesis:
a. Contraste bilateral: H0 : π1+ = π+1 ; H1: π1+ =/ π+1 .
b. Contraste unilateral derecho: H0 : π1+ $< π+1 ; H1: π1+ > π+1 .
c. Contraste unilateral izquierdo: H0 : π1+ $> π+1 ; H1: π1+ < π+1 .
2. Supuestos: muestra aleatoria de n sujetos en la que se ha medido una variable dicotó-
mica en dos momentos distintos (X e Y ) o dos variables dicotómicas (X e Y ) con las
mismas categorías; o bien, muestra aleatoria de n pares (X e Y ) de sujetos en la que se
ha medido una variable dicotómica.
3. Estadístico del contraste (ver [3.4]): = .
4. Distribución muestral: se aproxima a la distribución ji-cuadrado con 1 grado
de libertad ( ). La aproximación es buena incluso con muestras pequeñas.
5. Zonas críticas:
a. Contraste bilateral: $
> .
b. Contraste unilateral derecho : 2
$
> .
c. Contraste unilateral izquierdo2: $
> .
6. Decisión: se rechaza H0 si el estadístico del contraste cae en la zona crítica; en caso
contrario, se mantiene.
a. Contraste bilateral: p = [P ( $
> )].
b. Contraste unilateral derecho: p = 2 [P ( $
> )].
c. Contraste unilateral izquierdo: p = 2 [P ( $
> )].
8. Intervalo de confianza (ver [3.6]): = .
2
En un contraste bilateral, toda la zona crítica (de tamaño α) está a la derecha de la distribución muestral (pues las diferen-
cias entre n12 y n21 están elevadas al cuadrado). En un contraste unilateral (sea derecho o izquierdo), la zona crítica sigue
estando en la cola derecha de la distribución muestral, pero su tamaño es el doble de grande (2 α) que en el caso bilateral.
Ejemplo. La prueba de McNemar

Este ejemplo muestra cómo aplicar la prueba de McNemar para contrastar la hipótesis de
homogeneidad marginal referida a dos variables dicotómicas. Recordemos que, en tablas de
contingencias 2 × 2, esta hipótesis equivale a la de simetría.
La Tabla 3.7 ofrece el resultado obtenido al clasificar una muestra de 250 sujetos por su
preferencia entre dos líderes políticos (A y B) antes y después de un debate televisado. Esta-
mos interesados en averiguar si las preferencias de los sujetos han cambiado tras el debate,
es decir, si la proporción de personas que prefieren al líder A y la de personas que prefieren
al líder B son o no las mismas antes y después del debate (α = 0,05).
Tabla 3.7. Preferencia entre dos líderes políticos antes y después de un debate televisado
Preferencia después
Preferencia antes Líder A Líder B Total
Líder A 49 21 70
Líder B 63 117 180
Total 112 138 250
Se está midiendo una variable categórica (preferencia) con dos categorías (líder A, líder B)
en dos momentos distintos (antes y después de un debate televisado). Y el interés del análisis
no está en saber si lo que ocurre en el momento antes está o no relacionado con lo que ocurre
en el momento después (hipótesis de independencia), sino en averiguar si la proporción de
personas que prefieren al líder A (o al B) ha cambiado tras el debate (hipótesis de simetría
o de homogeneidad marginal).
1. Hipótesis: H0 : π1+ = π+1; H1: π1+ =/ π+1.
Se está planteando un contraste bilateral porque se quiere saber si la preferencia por el
líder A ha cambiado, no si ha aumentado o si ha disminuido.
2. Supuestos: muestra aleatoria de n = 250 sujetos en la que se ha medido una variable di-
cotómica (líder A, líder B) en dos momentos distintos.
3. Estadístico del contraste (con n12 = 21 y n21 = 63):
= = = .
4. Distribución muestral: se distribuye según .

5. Zona crítica: $
> = 3,84.
6. Decisión: puesto que el estadístico del contraste (20,01) es mayor que el punto crítico
(3,84), se rechaza H0. Puede concluirse, por tanto, que la proporción de personas que
prefiere al líder A en el momento antes difiere de esa misma proporción en el momento
después (en la muestra, ha pasado de P1+ = 70 / 250 = 0,28 a P+1 = 112 / 250 = 0,45).
7. Nivel crítico (valor p): p = [P ( $
> )] = [P ( $ 20,01)] < 0,001.
>
8. Intervalo de confianza (ver [3.6]):

P1+ = 0,28, P+1 = 0,45, V (P1+ ! P+1) = (21 + 63) / 2502 = 0,0013, | Z0,25 | = 1,96,
= = =
= = .
Podemos estimar, con una confianza del 95 %, que, en la población, la proporción de
personas que prefiere al líder A ha cambiado tras el debate (en concreto, ha aumentado)
entre 0,10 y 0,24 puntos.
Simetría con variables politómicas: la prueba de Bowker

En el caso de que las variables tengan más de dos categorías (por ejemplo, tres líderes polí-
ticos en lugar de dos), la hipótesis de simetría puede contrastarse aplicando una modifica-
ción del estadístico de McNemar propuesta por Bowker (1948):
= [3.7]
Este estadístico se distribuye según el modelo de probabilidad ji-cuadrado con un número de

grados de libertad igual a la mitad del número de casillas fuera de la diagonal principal de
la tabla (i se refiere a las filas; j se refiere a las columnas).
Es importante señalar que, con variables politómicas, la hipótesis de simetría no es equi-
valente a la de homogeneidad marginal. La simetría (frecuencias idénticas en espejo respec-
to de la diagonal principal) implica homogeneidad marginal, pero la homogeneidad marginal
no implica simetría. Y la hipótesis nula que se contrasta con [3.7] no es la de homogeneidad
marginal, sino la de simetría: π12 = π21, π13 = π31, π23 = π32, etc. Es decir:
H 0 : πi j = πj i (con i =/ j) [3.8]
Para ver cómo se aplica la ecuación [3.7] consideremos los datos de la Tabla 3.8 referidos
a una muestra de 250 sujetos clasificados por sus preferencias entre tres líderes políticos (A,
B y C ) antes y después de un debate televisado (las casillas que intervienen en [3.7] son las
que están fuera de la diagonal):
Tabla 3.8. Preferencia entre tres líderes políticos antes y después de un debate televisado
Preferencia antes Líder A Líder B Líder C Total
Líder A 38 8 4 50
Líder B 24 46 10 80
Líder C 18 16 86 120
Total 80 70 100 250
Aplicando la ecuación [3.7] a los datos de la Tabla 3.8 se obtiene:
= = =
$ 18,29)] < 0,001. Este resultado permite rechazar la hipótesis de simetría

En la distribución ji-cuadrado con 3 grados de libertad (ver Tabla C del Apéndice final), se
obtiene p = P ( >
y concluir que los cambios de preferencia no se reparten de igual forma entre los tres líderes.
Tras rechazar la hipótesis de simetría, podría interesar averiguar qué pauta siguen los
cambios observados, es decir, hacia qué líder o líderes se dirigen los cambios en las preferen-
cias. Para esto hay que contrastar la hipótesis de simetría con cada pareja de líderes (A-B, A-C
y B-C ) aplicando la prueba de Mcnemar tal como hemos hecho en el ejemplo anterior con los
datos de la Tabla 3.7. En el ejemplo del siguiente apartado veremos cómo hacer esto con el
SPSS.
Homogeneidad marginal y simetría con SPSS

La prueba de McNemar está disponible en dos procedimientos SPSS distintos: Pruebas no
paramétricas y Tablas de contingencias. La prueba de Bowker solamente está disponible en el
segundo. Por tanto, el primero de ellos (Pruebas no paramétricas) únicamente permite con-
trastar la hipótesis de simetría con variables dicotómicas (lo cual equivale a la hipótesis de
homogeneidad marginal o igualdad de proporciones antes-después). El segundo (Tablas de
contingencias) permite contrastar la hipótesis de simetría tanto con variables dicotómicas
(prueba de McNemar) como con variables politómicas (prueba de Bowker).
En el primer caso (procedimiento Pruebas no paramétricas), cuando el número de cambios
(n12 + n21) es igual o menor que 25 el SPSS utiliza la distribución binomial (con parámetros
n* = n12 + n21 y π = 0,5) para obtener la probabilidad exacta asociada al número observado de
cambios; si el número de cambios es mayor de 25, utiliza el estadístico de McNemar (ecua-
ción [3.4]) y su aproximación a la distribución ji-cuadrado con 1 grado de libertad. En el se-
gundo caso (procedimiento Tablas de contingencias) se utiliza siempre la aproximación bino-
mial. En ambos casos la ecuación binomial está multiplicada por 2, lo cual significa que el
SPSS ofrece el nivel crítico bilateral:
n12 = nº de casos en los que X < Y
n21 = nº de casos en los que X > Y
p = n* = n12 + n21 [3.9]
r = el menor de n1 y n2
i = 0, 1, 2, ..., r
Por ejemplo, en los datos de la Tabla 3.7 se tiene: n12 = 21, n21 = 63, n* = 21 + 63 = 84, r = 21,
i = «todos los valores de 0 a 21». Para contrastar la hipótesis de simetría (prueba de McNe-
mar) con los datos de la Tabla 3.7:
' Reproducir en el Editor de datos los datos de la Tabla 3.7 (ver en el Apéndice 3 el apar-
tado Cómo reproducir una tabla de contingencias en SPSS ) y ponderar el archivo con
la variable ncasos (o abrir el archivo Tabla 3.7 simetría mcnemar que se encuentra en
la página web del manual).
' Seleccionar la opción Estadísticos descriptivos > Tablas de contingencias del menú Analizar
para acceder al cuadro de diálogo Tablas de contingencias y trasladar la variable antes
(preferencia antes del debate) a la lista Filas y la variable después (preferencia después
del debate) a la lista Columnas.
' Pulsar el botón Estadísticos para acceder al subcuadro de diálogo Tablas de contingen-
cias: Estadísticos y marcar la opción McNemar. Pulsar el botón Continuar para volver al
Aceptando estas elecciones, el Visor ofrece, además de la correspondiente tabla de contin-
gencias, los resultados que muestra la Tabla 3.9. La tabla informa del nivel crítico asociado
al número de cambios observados (sig. exacta bilateral) y del número de casos válidos. La
tabla no incluye el valor del estadístico de McNemar (ecuación [3.4]) porque el nivel críti-
co se ha obtenido aplicando la ecuación [3.9] para obtener la probabilidad exacta que ofrece
la distribución binomial (se indica en una nota a pie de tabla).
Cualquiera que sea la forma de obtener el nivel crítico, su significado siempre es el mis-
mo: indica el grado de compatibilidad existente entre los datos muestrales y la hipótesis nula.
En el ejemplo, puesto que el nivel crítico es menor que 0,05 (sig. exacta bilateral < 0,0005),
se puede rechazar la hipótesis nula de simetría y concluir que el número de cambios a favor
del líder A difiere del número de cambios a favor del líder B. O, lo que es lo mismo, que la
proporción de sujetos que prefiere al líder A antes del debate (70 / 250 = 0,28) ha cambiado
significativamente –ha aumentado– tras el debate (112 / 250 = 0,45).
Tabla 3.9. Prueba de simetría de McNemar

Sig. exacta
Valor (bilateral)
a
Prueba de McNemar ,000
N de casos válidos 250
a. Utilizada la distribución binomial
La opción McNemar del procedimiento Tablas de Contingencias también permite trabajar con
variables politómicas. Si las variables seleccionadas tienen más de dos categorías, el SPSS
ofrece, en lugar del estadístico de McNemar, el de Bowker (lo llama estadístico de McNemar-
Bowker). Para contrastar la hipótesis de simetría con los datos de la Tabla 3.8:
tado Cómo reproducir una tabla de contingencias en SPSS ) y ponderar el archivo con
la variable ncasos (o abrir el archivo Tabla 3.8 simetría bowker que se encuentra en la
página web del manual).
' Repetir los mismos pasos del ejemplo anterior (procedimiento Tablas de contingencias)
para obtener la prueba de McNemar-Bowker.
Ahora, el Visor ofrece los resultados que muestra la Tabla 3.10. La tabla incluye el valor del
estadístico de McNemar-Bowker (valor = 18,29) junto con los grados de libertad de su distri-
bución muestral (gl = 3) y el correspondiente nivel crítico (sig. asintótica bilateral < 0,0005).
Puesto que el nivel crítico es menor que 0,05, se puede rechazar la hipótesis nula de simetría
y concluir que los cambios de preferencia observados no se reparten de igual forma entre los
tres líderes.
Tabla 3.10. Prueba de simetría de Bowker

Sig. asintótica
Valor gl (bilateral)
Prueba de McNemar-Bowker 18,29 3 ,000
El problema de este contraste es que, dado que la variable categórica analizada tiene más de
dos categorías, el rechazo de la hipótesis de simetría no permite determinar en qué dirección
se producen cambios significativos. Para conocer esto es necesario aplicar la prueba de Mc-
Nemar a cada par de categorías: primero comparando los líderes A y B, a continuación los
líderes A y C, y por último los líderes B y C. Estas comparaciones pueden hacerse aplican-
do varios filtros al archivo de datos (con la opción Seleccionar casos del menú Datos), de tal
manera que en cada contraste únicamente intervengan las dos categorías (líderes) que se de-
sea comparar. La Figura 3.1 muestra los tres filtros creados para efectuar los tres contrastes.
La variable filtro_AB permite aislar a los líderes A y B; la variable filtro_AC, a los líderes A
y C; la variable filtro_BC, a los líderes B y C.
Figura 3.1. Datos correspondientes a la Tabla 3.8 con tres variables filtro añadidas
Aplicando la prueba de McNemar tras activar consecutivamente cada uno de los tres filtros
definidos se obtienen los resultados que muestran las Tablas 3.11 a la 3.13. Los niveles crí-
ticos obtenidos con cada filtro (sig. exacta bilateral) indican que los cambios significativos
se producen desde los líderes B y C hacia el A ( p = 0,007 en el primer caso y p = 0,004 en
el segundo; ver Tablas 3.11 y 3.12). El resultado de la comparación entre los líderes B y C
no es significativo (p = 0,327; ver Tabla 3.13). Se obtiene idéntico resultado si los filtros se
llevan a las capas (un filtro por capa).
Tabla 3.11. Preferencia entre dos líderes políticos antes y después de un debate televisado (izquierda) y
prueba de McNemar (derecha). Líderes A y B
Recuento
Preferencia Sig. exacta
después Valor (bilateral)
Líder A Líder B Total a
Prueba de McNemar ,007
Preferencia Líder A 38 8 46 N de casos válidos 116
antes Líder B 24 46 70 a. Utilizada la distribución binomial
Total 62 54 116
Tabla 3.12. Preferencia entre dos líderes políticos antes y después de un debate televisado (izquierda) y
prueba de McNemar (derecha). Líderes A y C
Recuento
a
Líder A Líder C Total Prueba de McNemar ,004
Preferencia Líder A 38 4 42 N de casos válidos 146
antes Líder C 18 86 104 a. Utilizada la distribución binomial
Total 56 90 146
Tabla 3.13. Preferencia entre dos líderes políticos antes y después de un debate televisado (izquierda)
y prueba de McNemar (derecha). Líderes B y C
Recuento
a
Líder B Líder C Total Prueba de McNemar ,327
Preferencia Líder B 46 10 56 N de casos válidos 158
antes Líder C 16 86 102 a. Utilizada la distribución binomial
Total 62 96 158
Cuando las variables analizadas son dicotómicas, la hipótesis de simetría (π12 = π21) es equi-
valente a la de homogeneidad marginal (πi + = π+ j). Esta equivalencia no se sostiene cuando
las variables tienen más de dos categorías. La simetría implica homogeneidad marginal, pe-
ro la homogeneidad marginal no implica simetría. Del rechazo de la hipótesis de simetría no
se sigue que las distribuciones marginales sean distintas. Por tanto, al analizar situaciones
como la representada en la Tabla 3.8 es muy importante tener claro qué es lo que interesa
analizar: (1) centrar la atención en la hipótesis de simetría significa valorar la pauta que si-
guen los cambios observados (esto es lo que hemos hecho en el ejemplo anterior: ver hacia
qué líder se dirigen los cambios observados); (2) centrar la atención en la hipótesis de ho-
mogeneidad marginal significa valorar si las proporciones antes-después han cambiado (es
decir, valorar si las proporciones de personas que prefieren a cada líder son o no iguales an-
tes y después del debate).
Veamos cómo contrastar con el SPSS la hipótesis de homogeneidad marginal referida
a los mismos datos del ejemplo anterior (ver Tabla 3.8 y Figura 3.1):
zar para acceder al cuadro de diálogo Pruebas para dos muestras relacionadas.
' Trasladar las variables antes (preferencia antes del debate) y después (preferencia des-
pués del debate) a la lista Contrastar pares.
' Marcar la opción Homogeneidad marginal del recuadro Tipo de prueba.
Aceptando estas elecciones, el Visor ofrece, además de la correspondiente tabla de contingen-

cias, los resultados que muestra la Tabla 3.14. La tabla ofrece información sobre: (1) el nú-
mero de categorías de las variables analizadas (valores distintos = 3); (2) el número de casos
que hay fuera de la diagonal principal (casos no diagonales = 80); (3) el valor del estadístico
de homogeneidad marginal (estadístico de HM observado = 182); (4) su valor esperado y su
error típico (media del estadístico HM = 157 y desviación típica del estadístico HM = 6,04);
(5) el valor tipificado del estadístico de homogeneidad marginal (estadístico de HM tipifica-
do = 4,14); este valor tipificado se obtiene restando al valor del estadístico su valor esperado
y dividiendo la diferencia entre su error típico: (182 ! 157) / 6,04 = 4,14; y (6) el nivel crítico
bilateral (valor p) que corresponde al valor tipificado obtenido (significación asintótica bilate-
ral < 0,0005; esta probabilidad se calcula multiplicando por 2 la probabilidad de obtener, en
la distribución normal tipificada, valores mayores o iguales que el obtenido.
Puesto que el nivel crítico es muy pequeño, lo razonable es rechazar la hipótesis de ho-
mogeneidad marginal. Para saber qué proporciones marginales difieren se puede aplicar la
prueba de McNemar a cada pareja de líderes tal como se ha hecho en el ejemplo anterior.
Tabla 3.14. Prueba de homogeneidad marginal

Preferencia antes y
después del debate
Valores distintos 3
Casos no diagonales 80
Estadístico de HM observado 182,00
Media del estadístico HM 157,00
Desviación típica del estadístico de HM 6,04
Estadístico de HM tipificado 4,14
Índices de riesgo
Seguimos analizando dos variables dicotómicas. Pero a diferencia de lo que hemos hecho en
el apartado anterior (medir la misma variable dos veces o en pares de sujetos, o medir dos
variables con las mismas categorías), el interés ahora se centra en estudiar la relación entre
dos variables dicotómicas distintas. La Tabla 3.15 muestra un ejemplo típico de la situación
que nos proponemos analizar. En una muestra aleatoria de 1.150 personas mayores de 40
años se ha registrado la presencia o no de infarto de miocardio en fumadores y no fumadores
durante un periodo de seguimiento de 15 años (infarto = «sí » significa al menos un infarto).
Tabla 3.15. Frecuencias conjuntas y marginales de tabaquismo e infarto

Infarto
Tabaquismo Sí No Total
Fumadores 51 374 425
No fumadores 29 696 725
Total 80 1.070 1.150
Estamos interesados en analizar el grado de relación existente entre una variable dicotómi-
ca a la que llamaremos factor (en el ejemplo, tabaquismo) y otra variable dicotómica a la que
llamaremos desenlace o respuesta (en el ejemplo, infarto). La variable factor suele elegir-
se porque se sabe o se sospecha que puede estar relacionada con la variable respuesta que
interesa estudiar. Los datos recogidos al estudiar este tipo de situaciones suelen organizarse
en tablas de contingencias 2 × 2 como la representada en la Tabla 3.15. La Tabla 3.16 mues-
tra la notación que utilizaremos para referirnos a cada elemento de la tabla. Sustituyendo n
por π o por P se obtiene la notación correspondiente a las proporciones teóricas y muestra-
les de cada casilla y de cada total.
Tabla 3.16. Notación utilizada en tablas de contingencias 2 × 2
Respuesta n1+ ' nº de casos expuestos

Factor Sí No Total n2+ ' nº de casos no expuestos
Expuestos n11 n12 n1+ n11 ' nº de respuestas entre expuestos
No expuestos n21 n22 n2+ n21 ' nº de respuestas entre no expuestos
Total n+1 n+2 n n ' nº total de casos
Este tipo de datos son habituales en estudios longitudinales, los cuales pueden hacerse de dos
formas: hacia delante o hacia atrás (para más detalles, ver Kleinbaum, Kupper y Morgens-
tern, 1982, págs. 63-70). En los diseños hacia delante, llamados prospectivos o de cohortes,
se clasifica a los sujetos en dos grupos dependiendo de la presencia o ausencia de algún fac-
tor de interés (por ejemplo, el hábito de fumar) y se hace seguimiento durante un periodo de
tiempo para determinar la proporción de sujetos de cada grupo en los que se da la respues-
ta o desenlace objeto de estudio (por ejemplo, infarto). En los diseños longitudinales hacia
atrás, llamados retrospectivos o de casos y controles, se forman dos grupos de sujetos a par-
tir de la presencia o ausencia de la respuesta o desenlace objeto de estudio (por ejemplo, su-
jetos sanos y sujetos que han sufrido infarto) y se hace seguimiento hacia atrás intentando
encontrar información sobre la proporción en la que aparece en cada grupo un determinado
factor de interés (por ejemplo, el hábito de fumar).
Riesgo relativo
En los diseños prospectivos o de cohortes es posible decidir si las variables factor y respues-
ta están relacionadas contrastando la hipótesis de independencia con la prueba X 2 de Pear-
son (ver Capítulo 10 del primer volumen). Aplicando esta prueba a los datos de a Tabla 3.15
se obtiene un valor de 26,49 con un nivel crítico asociado p < 0,0005. Puesto que el nivel
crítico es muy pequeño (menor que 0,05), se puede concluir que las variables tabaquismo e
infarto están relacionadas.
Pero en este tipo de diseños, más que el hecho de saber si existe o no relación, lo que
suele interesar es comparar lo que ocurre con los sujetos expuestos y los no expuestos. De
hecho, en este tipo de diseños lo habitual es utilizar un estadístico que permite comparar la
proporción de respuestas o desenlaces del grupo de sujetos expuestos (P1 = n11 / n1+) con esa
misma proporción en el grupo de sujetos no expuestos (P2 = n21 / n2+). Al cociente entre estas
dos proporciones (ver Miettinen, 1976) se le llama índice de riesgo relativo RR :
= = [3.10]
El numerador del riesgo relativo recoge la proporción de desenlaces entre los sujetos expues-
tos. El denominador, la proporción de desenlaces entre los sujetos no expuestos. El cocien-
te entre ambas proporciones indica cuánto mayor es la proporción de desenlaces en el grupo
de sujetos expuestos que en el de sujetos no expuestos.
El valor (siempre no negativo) del índice de riesgo relativo se interpreta tomando como
referencia el valor 1. Un riesgo relativo de 1 indica que la proporción de desenlaces es la mis-
ma en ambos grupos. El valor de RR es mayor que 1 cuando la proporción del numerador es
mayor que la del denominador; un RR = 2 indica que la proporción de desenlaces del nume-
rador es el doble que la del denominador; un RR = 5 indica que la proporción del numerador
es 5 veces la del denominador. El valor de RR es menor que 1 cuando la proporción del nu-
merador es menor que la del denominador; un RR = 0,75 indica que la proporción de de-
senlaces del numerador es un 25 % menor que la del denominador; un RR = 0,50 indica que
la proporción del numerador es un 50 % menor (la mitad) que la del denominador. En el
ejemplo de la Tabla 3.15:
= = = =
El numerador (0,12) refleja la proporción de infartos (incidencia) en el grupo de fumadores;

el denominador (0,04), la proporción de infartos en el de no fumadores. El cociente (RR = 3)
indica que la proporción de infartos en el grupo de fumadores (numerador) es 3 veces la
proporción de infartos en el grupo de no fumadores (denominador). En muchos contextos
(muy especialmente en contextos clínicos y epidemiológicos) es habitual interpretar RR uti-
lizando, no el término proporción, sino el término riesgo. Así, un RR = 3 indica que el riesgo
de sufrir infarto entre los fumadores es 3 veces el riesgo de sufrirlo entre los no fumadores.
La distribución muestral de RR es muy asimétrica. No obstante, para valorar si un índi-
ce de riesgo es significativamente distinto de 1, puede calcularse un intervalo de confianza
para RR mediante:
= [3.11]
donde e se refiere a la base de los logaritmos naturales (2,71828) y al error típico del
logaritmo de RR:
= [3.12]
Este intervalo de confianza sirve para contrastar la hipótesis nula de que el riesgo es el mis-
mo en los dos grupos comparados (RR = 1 en la población). Si el valor 1 no se encuentra en-
tre los límites del intervalo de confianza definido en [3.11], puede concluirse que el riesgo
de experimentar el desenlace no es el mismo en los dos grupos comparados. Aplicando la
ecuación [3.11] a los datos de la Tabla 3.15 se obtiene:
= =
= =
Puesto que el valor 1 no se encuentra dentro de los límites del intervalo, podemos estimar, con
una confianza del 95 %, que el riesgo poblacional es mayor que 1. Y como el límite inferior
vale 1,93, puede concluirse que la proporción de desenlaces (infartos) en el grupo de fuma-
dores es al menos 1,93 veces la proporción de desenlaces en el de no fumadores.
En los estudios epidemiológicos, el riesgo relativo suele acompañarse del porcentaje de
riesgo atribuible o fracción etiológica (PRA) en un intento de cuantificar en qué medida los
desenlaces observados pueden ser atribuidos al factor de riesgo. Puesto que en el grupo de no
expuestos también se observan desenlaces, la incidencia en el grupo de expuestos no sirve
como cuantificación del porcentaje de desenlaces atribuibles al hecho de estar expuestos. Es
decir, como entre los no fumadores también se dan infartos (0,04), la proporción de infartos
del grupo de fumadores (0,12) no puede ser atribuida, toda ella, al hecho de fumar. El riesgo
atribuible se obtiene restando la proporción de desenlaces de ambos grupos: RA = P1 ! P2. Y
el porcentaje de riesgo atribuible se calcula como una fracción de RA respecto de P1:
PRA = 100 × (P1 ! P2 ) / P1 [3.13]

En el ejemplo sobre tabaquismo e infarto, el riesgo atribuible vale RA = 0,12 ! 0,04 = 0,08.
Y el porcentaje de riesgo atribuible, PRA = 100 (0,08) / 0,12 = 67 %. Este valor se interpreta
en epidemiología como que el 67 % de los desenlaces (infartos) que se producen en el gru-
po de sujetos expuestos (fumadores) son atribuibles al factor de riesgo (fumar). Ahora bien,
para poder hacer esta interpretación es necesario que el factor de riesgo sea la causa del de-
senlace estudiado. Y ya hemos señalado que esto es algo muy difícil de determinar en un
estudio de cohortes. La conclusión razonable es que el 67 % de los infartos del grupo de
fumadores (34 de los 51 casos observados) es atribuible a todo en lo que difieren fumadores
y no fumadores (que, probablemente, no es únicamente en el hecho de fumar).
Odds ratio
En este apartado vamos a estudiar un estadístico muy utilizado para cuantificar la relación
entre dos variables dicotómicas y como componente de algunos modelos estadísticos. Aquí,
de momento, nos limitaremos a utilizarlo como una estimación del riesgo relativo cuando és-
te no puede calcularse. Comencemos con el concepto de odds. Siendo P la probabilidad de
un suceso cualquiera, la odds de ese suceso se define como:
odds = P ª (1 ! P ) [3.14]
Es decir, la odds de un suceso es el cociente entre la probabilidad de ese suceso (por ejem-
plo, acierto) y la de su complementario (error). Si la probabilidad del suceso acierto vale
0,75, entonces su odds vale 0,75 / (0,25) = 3. Lo cual significa que la probabilidad del suce-
so acierto es 3 veces la del suceso error.
Una odds siempre toma un valor no negativo: odds = 1 cuando la probabilidad del suce-
so es igual que la de su complementario (esto solamente ocurre cuando la probabilidad del
suceso vale 0,50); odds > 1 cuando la probabilidad del suceso es mayor que la de su com-
plementario (si la probabilidad de un suceso vale 0,80, ese suceso es cuatro veces más pro-
bable que su complementario: 0,80 / 0,20 = 4); y odds < 1 cuando la probabilidad del suceso
es menor que la de su complementario (si la probabilidad de un suceso vale 0,20, ese suceso
es cuatro veces menos probable que su complementario: 0,20 / 0,80 = 1/ 4).
La probabilidad de un suceso puede conocerse a partir de su odds: P = odds / (odds + 1).
Por ejemplo, si la odds de un suceso vale 3, su probabilidad vale 3 / (3 + 1) = 0,75.
En los diseños retrospectivos o de casos y controles, tras formar dos grupos de sujetos
a partir de algún desenlace de interés, se va hacia atrás buscando la presencia de algún fac-
tor de riesgo. El estudio sobre tabaquismo e infarto del apartado anterior (ver Tabla 3.15)
podría diseñarse seleccionando dos grupos de sujetos (con y sin infarto) y buscando hacia
atrás (por ejemplo, en la historia clínica de los sujetos) la presencia del hábito de fumar. La
Tabla 3.17 reproduce esta nueva situación3.
Tabla 3.17. Frecuencias conjuntas y marginales de tabaquismo e infarto

Infarto
Tabaquismo Sí (casos) No (controles) Total
Fumadores 51 374 425
Total 80 1.070 1.150
Los diseños de casos y controles son muy utilizados en las ciencias de la salud porque tienen
algunas ventajas sobre los diseños de cohortes: no es necesario hacer seguimiento durante
años para poder identificar factores de riesgo y garantizan que el estudio incluya una muestra
suficientemente grande de pacientes con la enfermedad o el desenlace que interesa estudiar.
Pero se diferencian de los diseños de cohortes en un aspecto importante desde el punto de
vista estadístico: mientras que en un diseño de cohortes se fijan las frecuencias marginales
de las filas, en un diseño de casos y controles se fijan las frecuencias marginales de las co-
lumnas (generalmente eligiendo entre 1 y 4 controles por cada caso). Como consecuencia de
esto, las frecuencias marginales de las filas son resultado del muestreo: puesto que a cada
caso se le puede asignar distinto número de controles, los totales marginales de las filas no
dependen únicamente de la verdadera proporción de desenlaces (es decir, de la verdadera
incidencia del desenlace estudiado), sino de la decisión subjetiva o arbitraria del investiga-
dor (es decir, del número de controles que el investigador decida utilizar).
En este escenario no tiene sentido calcular las proporciones de desenlaces de las filas,
pues esas proporciones no reflejan incidencias reales. Y si no tiene sentido calcular las inci-
dencias, tampoco tiene sentido calcular el índice de riesgo relativo definido en [3.10]. La
solución a este problema pasa por intentar estimar el riesgo relativo utilizando alguna es-
trategia que no se base en las frecuencias marginales de las filas. Aquí es donde intervienen
las odds que acabamos de presentar.
Consideremos los datos de la Tabla 3.17 y asumamos que se han obtenido utilizando un
diseño de casos y controles (es decir, asumamos que, ahora, las frecuencias marginales fijas
son las de las columnas). Podemos calcular la odds del suceso fumar entre los casos y entre
los controles, es decir, entre los sujetos que han sufrido infarto (oddssí) y entre los sujetos que
no han sufrido infarto (oddsno):
oddssí = (51 / 80) /(29 / 80) = 51 / 29 = 1,7586
oddsno = (374 / 1.070) / (696 / 1.070) = 374 / 696 = 0,5374
3
Hemos conservado en la Tabla 3.17 las mismas frecuencias que en la Tabla 3.15 para reflejar mejor el paralelismo que
existe entre ambos tipos de estudio (a pesar de que en un diseño de casos y controles el número de controles suele fijarse
en no más de 4 por cada caso).
Lo cual significa que, entre los casos (sujetos que han sufrido infarto), el suceso fumar es más
probable que el suceso no fumar; en concreto, un 76 % más probable. Y entre los controles
(sujetos que no han sufrido infarto), el suceso fumar es menos probable que el suceso no fu-
mar; en concreto, un 46 % menos probable.
El cociente entre ambas odds indica cuánto mayor o menor es la odds del suceso fumar
en el grupo “sí” (casos) que en el grupo “no” (controles):
oddssí / oddsno = 1,7586 / 0,5374 = 3,27
La odds del suceso fumar entre los casos es 3,27 veces la odds del suceso fumar entre los con-
troles. Ahora bien, esto no es lo que estábamos buscando. La información que buscamos es
la misma que nos ofrece el índice de riesgo, a saber: cuánto más se da el desenlace infarto
entre los fumadores que entre los no fumadores (no cuánto más se da el suceso fumar entre
los casos que entre los controles). Pero este problema tiene fácil solución cuando se trabaja
con el cociente entre dos odds. Ocurre que ese cociente no cambia cuando, en lugar de dividir
las odds de las columnas, se dividen las odds de las filas:
oddsfumadores = (51/ 425) / (374 / 425) = 51 / 374 = 0,1364
oddsno fumadores = (29 / 725) / (696 / 725) = 29 / 696 = 0,0417
oddsfumadores / oddsno fumadores = 0,1364 / 0,0417 = 3,27
Este resultado es idéntico al anterior y está indicando que la odds del suceso infarto entre los
fumadores es 3,27 veces las odds del suceso infarto entre los no fumadores.
Cuando se trabaja con sucesos cuyas odds son pequeñas, el cociente entre odds toma un
valor muy parecido al del índice de riesgo relativo (recordemos que, con estos mismos datos,
RR = 3). Por esta razón, en los diseños de casos y controles (que no permiten calcular las in-
cidencias del desenlace estudiado), se utiliza el cociente entre odds como una estimación del
riesgo relativo. A este cociente entre odds se le llama odds ratio4 (OR ) (Cornfield, 1951) y
se define mediante
= = = = [3.15]
De la propia definición de la odds ratio se deduce que su valor no se altera si se cambia el

orden de las filas y el de las columnas. Y tampoco se altera si se intercambian las filas y las
columnas (da igual cuál de las dos variables se coloque en las filas o en las columnas).
Para interpretar una odds ratio hay que referirla al valor 1. OR toma un valor igual a 1
cuando la odds del desenlace es la misma en las filas y en las columnas; toma un valor ma-
yor que 1 cuando la odss del desenlace es mayor en las filas que en las columnas; y toma un
valor menor que 1 cuando la odds del desenlace es menor en las filas que en las columnas.
La distribución muestral de OR es, al igual que la de RR, muy asimétrica incluso con ta-
maños muestrales grandes. No obstante, el logaritmo natural de OR permite corregir la asi-
metría de su distribución y definir un intervalo de confianza basado en una aproximación a
la distribución normal:
4
Este estadístico ha sido objeto de diferentes traducciones (razón de oportunidades, razón de posibilidades, razón de dis-
paridades, razón de productos cruzados, etc.), pero ninguna de ellas parece haber cuajado lo suficiente como para ser usada
de forma generalizada. En el SPSS, la odds ratio está traducida como razón de ventajas.
= [3.16]
donde e se refiere a la base de los logaritmos naturales (2,71828) y al error típico del
logaritmo de OR:
= [3.17]
Este intervalo de confianza sirve para contrastar la hipótesis nula de que la odds ratio vale 1
en la población muestreada. Si el valor 1 no se encuentra entre los límites del intervalo de
confianza, puede concluirse que la odds de la respuesta o desenlace estudiado no es la mis-
ma en las dos poblaciones comparadas. Aplicando las ecuaciones 3.15 y 3.16 a los datos de
la Tabla 3.17 se obtiene
= =
= =
Puesto que el valor 1 no se encuentra dentro de los límites del intervalo, podemos estimar,
con una confianza del 95 %, que la odds ratio poblacional es mayor que 1. Y como el límite
inferior vale 2,04, podemos concluir que la odds del suceso infarto en el grupo de fumado-
res es al menos 2,04 veces la odds del suceso infarto en el grupo de no fumadores.
Relación entre el riesgo relativo y la odds ratio

Una odds ratio de 3,27 no significa que P1 es 3,27 veces P2. Ésta sería la interpretación del
riesgo relativo (ver ecuación [3.10]). Lo que significa una odds ratio de 3,27 es que la odds
P1 / (1 ! P1) es 3,27 veces la odds P2 / (1 ! P2), pues, según [3.15],
Ahora bien, aunque una odds ratio no es lo mismo que un índice de riesgo relativo, ambos
estadísticos se encuentran estrechamente relacionados:
= = [3.18]
Esto significa que cuando P1 y P2 toman valores muy parecidos, la fracción final de la ecua-
ción [3.18] se aproxima a 1 y el valor de OR se aproxima al de RR. Ciertamente esto no condu-
ce a nada interesante porque cuando se diseña un estudio de casos y controles es justamen-
te porque se sospecha que P1 y P2 son diferentes. Ahora bien, en muchos de los estudios que
se llevan a cabo, P1 y P2 suelen ser valores pequeños. Aunque P1 y P2 sean diferentes, si son
lo bastante pequeños, la fracción final de la ecuación [3.18] se aproximará a 1 y el valor de
OR se aproximará al de RR. Bajo estas circunstancias, el valor de la odds ratio puede utilizar-
se como una estimación del riesgo relativo que no es posible calcular (ver Rigby, 1999). Con
los datos de la Tabla 3.17 se obtiene OR = 3,27 y RR = 3. Puesto que las proporciones de
desenlaces son más bien pequeñas, no se comete un error importante si se afirma que el riesgo
de experimentar el suceso infarto es 3,27 veces mayor en el grupo de fumadores que en el de
no fumadores.
Consideraciones sobre la interpretación de los índices de riesgo

Los diseños de cohortes y de casos y controles que estamos revisando en este apartado son
muy utilizados en las ciencias sociales y de la salud. Acabamos de ver que en epidemiología
sirven para identificar factores de riesgo asociados a determinadas enfermedades. En socio-
logía se pueden utilizar para identificar características grupales bajo las que es más frecuen-
te determinada conducta (la abstención en unas elecciones, el consumo de drogas, etc.). En
seguridad vial se pueden utilizar para valorar la relación entre el uso del cinturón de seguri-
dad y las muertes por accidente. Las aseguradoras utilizan estos diseños para identificar ba-
jo qué circunstancias son más probables los accidentes, o los incendios, o los robos, etc. Las
entidades financieras los utilizan para decidir qué características de sus clientes aumentan o
disminuyen el riesgo de morosidad. Etcétera.
Riesgo no es causalidad
En todos los ejemplos del párrafo anterior se calculan índices de riesgo que se utilizan para
tomar decisiones que, muchas veces, afectan de forma importante a las personas: recomen-
daciones sobre comportamientos saludables, precios de los seguros, concesión de créditos,
etc. Sin embargo, no debe perderse de vista el hecho de que un índice de riesgo no es más
que un cociente de proporciones (o de odds). Su valor indica cuánto mayor o menor es una
proporción que otra. Y sustituir el término proporción por el de riesgo no cambia la natu-
raleza del índice. Un factor de riesgo no es lo mismo que un factor causal.
Tanto los diseños de cohortes como los de casos y controles son diseños observaciona-
les (ver Capítulo 1 del primer volumen). Dado que no existe asignación aleatoria de los suje-
tos a las condiciones del estudio (fumar, no fumar), con estos diseños es posible situarse en
un nivel de indagación de tipo relacional, pero no explicativo. Esto significa que estos dise-
ños no permiten determinar si una relación es o no de tipo causal. Sirven para detectar di-
ferencias y relaciones, pero no para determinar si la variable factor es o no la responsable del
desenlace estudiado. Recordemos que para poder afirmar que una relación es de naturaleza
causal es necesario utilizar diseños experimentales (con asignación aleatoria que es imposi-
ble llevar a cabo en los diseños de cohortes y de casos y controles) o fundamentar tal afir-
mación en teorías sólidas (ver, en el Capítulo 12 del primer volumen, el apartado Relación
y causalidad). Conviene no pasar esto por alto porque el término riesgo, tan característico
de este tipo de diseños, puede llevar fácilmente a conclusiones equivocadas.
En el ejemplo sobre tabaquismo e infarto hemos visto que un riesgo relativo de 3 indica
que el riesgo de sufrir infarto si se fuma es 3 veces mayor que si no se fuma. Del hecho de
interpretar un cociente de proporciones utilizando el término riesgo no se sigue que el hábito
de fumar sea la causa de la diferencia observada. Y no se sigue tal cosa porque los sujetos
no se han asignado aleatoriamente a las condiciones del estudio (los grupos de fumadores
y no fumadores vienen dados). En un estudio de estas características, la diferencia observada
podría deberse a causas distintas del hecho de fumar. De hecho, podría deberse a cualquier
variable en que los fumadores difieran de los no fumadores (si es que difieren en algo aparte
del hecho de fumar). A estas terceras variables que podrían estar contaminando el resultado
de un estudio se les llama factores de confusión. Y lo ideal, lógicamente, es poder identificar
y controlar estos factores para eliminar su efecto.
La forma más segura de hacer esto es mediante la asignación aleatoria de los sujetos a las
condiciones del estudio. Pero la asignación aleatoria no siempre es posible. Por ejemplo, no
es posible seleccionar aleatoriamente dos grupos de sujetos no fumadores, convertir en fuma-
dores a los sujetos de un grupo y hacer seguimiento a ambos grupos para averiguar en cuál
de ellos se producen más infartos. Y no es posible hacer esto por razones éticas y porque pro-
bablemente sería muy difícil encontrar sujetos que se prestaran a ello. Pero, incluso aunque
esto fuera posible, tampoco serviría de mucho, pues no bastaría con hacer dos grupos equi-
valentes al principio del estudio, sino que habría que mantenerlos equivalentes a lo largo del
estudio controlando sus hábitos alimentarios, la cantidad de ejercicio físico, el tipo de traba-
jo, las enfermedades sobrevenidas, etc.
Muchos de los problemas que nos interesa estudiar no pueden abordarse planteando un
diseño experimental. En estos casos, no queda más remedio que recurrir a diseños correla-
cionales (como los de cohortes y los de casos y controles) donde la equivalencia entre grupos
se intenta establecer, no mediante asignación aleatoria, sino controlando las variables de con-
fusión que se sabe o se sospecha que pueden alterar los resultados del estudio (hipertensión,
obesidad, nivel de colesterol, sedentarismo, etc.). Si no se consigue controlar estas variables,
es muy difícil aislar factores causales. Y aun cuando se consigue controlarlas, difícilmente
se tiene la certeza de estar controlando todos los posibles factores de confusión. Ésta es la ra-
zón principal por la cual, al interpretar los índices de riesgo, debe evitarse realizar afirma-
ciones que atribuyan connotaciones causales a la relación encontrada.
Los índices de riesgo tienden a sobrestimar el verdadero riesgo

La diferencia entre dos proporciones es más importante cuando ambas se encuentran cerca
del valor cero que cuando toman un valor intermedio. Por ejemplo, si la incidencia de una en-
fermedad en dos grupos es de 0,05 y 0,01, el riesgo de padecer esa enfermedad en el primer
grupo es 0,05 / 0,01 = 5 veces mayor que en el segundo. Si la incidencia de una enfermedad
en dos grupos es de 0,25 y de 0,21, el riesgo de padecer esa enfermedad en el primer grupo
es 0,25 / 0,21 = 1,19 veces mayor que en el segundo. Por tanto, la misma diferencia de 0,04
puntos entre dos proporciones supone un incremento desigual en el riesgo relativo: un 400%
en el primer caso y un 19 % en el segundo. La parte positiva de esto es que el riesgo relati-
vo permite detectar diferencias que de otra forma podrían pasar desapercibidas. La parte ne-
gativa es que se corre el riesgo de magnificar diferencias muy pequeñas.
Además, puesto que la odds ratio siempre toma un valor más alejado de 1 que el riesgo
relativo (ver ecuación [3.18]), cuantificar el riesgo mediante la odds ratio supone sobresti-
mar (inflar) el grado de relación entre el factor y la respuesta. El grado en el que una odds
ratio sobrestima el verdadero riesgo es tanto mayor cuanto más distintas y alejadas de cero
están las verdaderas proporciones subyacentes de desenlaces. De ahí la recomendación ya
hecha de limitar la utilización de la odds ratio como estimación del riesgo relativo a los casos
en los que se trabaja con desenlaces poco probables.
Especial cuidado hay que poner al interpretar el porcentaje de riesgo atribuible o fracción
etiológica. Ya hemos señalado que este índice no permite aislar el porcentaje de desenlaces
que se deben al hecho de estar expuesto al factor de riesgo. Lo máximo que permite estimar
tal índice es el porcentaje de desenlaces que se deben a todo aquello en lo que puedan diferir
el grupo de sujetos expuestos y el grupo de sujetos no expuestos (los cuales, recordemos, no
sabemos en qué difieren exactamente porque no hay forma de saber si son o no equivalentes).
La consecuencia más llamativa de sobrestimar el verdadero porcentaje de riesgo atribuible
se produce cuando la estimación de ese porcentaje se utiliza para calcular “los miles de per-
sonas afectadas” por el factor de riesgo o “las miles de muertes que se evitarían” si la pobla-
ción de sujetos expuestos dejara de estarlo. No es infrecuente encontrar en los informes de
resultados y en los medios de comunicación cifras disparatadas (supuestamente basadas en
estudios epidemiológicos serios) que se escapan a toda lógica.
La falacia ecológica
Una falacia es un error lógico, un error en la argumentación. La falacia ecológica es un error
que consiste en atribuir al individuo las características del grupo. A pesar de que este tipo de
error fue detectado hace más de medio siglo (Robinson, 1950), todavía sigue apareciendo en
las conclusiones de no pocos estudios. Y es particularmente frecuente en la interpretación del
riesgo relativo.
Recordemos de nuevo el ejemplo sobre tabaquismo e infarto. Hemos visto que un riesgo
relativo de 3 indica que la proporción de infartos en el grupo de fumadores es 3 veces mayor
que en el grupo de no fumadores. También puede interpretarse este dato como que el riesgo
de sufrir infarto entre los fumadores es 3 veces mayor que entre los no fumadores (sin perder
de vista las consideraciones hechas en el apartado anterior). Se cae en la falacia ecológica
cuando se afirma que la probabilidad de que un fumador sufra un infarto es 3 veces mayor que
la de un no fumador. En esta interpretación se está convirtiendo un dato grupal (una propor-
ción referida al grupo) en una característica individual, es decir, en una especie de propen-
sión del individuo a sufrir infarto con una determinada probabilidad.
Los índices de riesgo con SPSS

Tanto el índice de riesgo relativo (RR) como la odds ratio (OR) están disponibles en el proce-
dimiento Tablas de contingencias del SPSS. Y en ambos casos se utilizan las mismas ecuacio-
nes que hemos presentado en los apartados anteriores. Para obtener el riesgo relativo y la odds
ratio con los datos de la Tabla 3.15 (o 3.17):
tado Cómo reproducir una tabla de contingencias en SPSS ) o abrir el archivo Tabla 3.15
riesgo tabaco infarto que se encuentra en la página web del manual.
para acceder al cuadro de diálogo Tablas de contingencias y trasladar la variable taba-
co a la lista Filas y la variable infarto a la lista Columnas.
cias: Estadísticos y marcar la opción Riesgo. Pulsar el botón Continuar para volver al cua-
dro de diálogo principal.
Aceptando estas elecciones, el Visor ofrece los resultados que muestra la Tabla 3.18. Puesto
que el SPSS ignora si los datos de la tabla han sido recogidos con un diseño de cohortes o con
un diseño de casos y controles, ofrece tanto el riesgo relativo como la odds ratio (la cual apa-
rece con el nombre razón de las ventajas). Hay que elegir el índice apropiado en cada caso.
La primera fila de la tabla indica que el riesgo estimado se refiere al de fumadores frente
al de no fumadores ( fumadores / no fumadores) en un diseño de casos y controles (razón de
las ventajas). Su valor indica que la odds del suceso infarto en el grupo de fumadores es 3,27
veces la odds del grupo de no fumadores. Y los límites del intervalo de confianza indican que
la odds del suceso infarto es significativamente mayor que 1: estimamos, con una confianza
del 95 %, que es al menos 2,04 veces mayor en los fumadores que en los no fumadores.
Las dos filas siguientes ofrecen dos estimaciones del riesgo relativo para un diseño de
cohortes (dos estimaciones porque el desenlace de interés puede encontrarse en cualquiera
de las dos categorías de la variable colocada en las columnas). Si el desenlace que interesa
estudiar es la presencia de infarto (infarto = sí), la conclusión es que la proporción de infartos
es 3 veces mayor en los fumadores que en los no fumadores. Si el desenlace que interesa es-
tudiar es la ausencia de infarto (infarto = no), la conclusión es que tal desenlace se da menos
entre los fumadores: en concreto, la proporción de sujetos sin infarto es un 8,3 % (100 ! 91,7)
menor en el grupo de fumadores que en el de no fumadores. Puesto que el valor 1 no está in-
cluido entre los límites de los correspondientes intervalos de confianza, puede concluirse que
el valor poblacional del riesgo relativo difiere de 1.
Tabla 3.18. Índices de riesgo

Intervalo de confianza
al 95%
Valor Inferior Superior
Razón de las ventajas para Tabaquismo (Fumadores / No fumadores) 3,27 2,04 5,25
Para la cohorte Infarto = Sí 3,00 1,93 4,66
Para la cohorte Infarto = No ,92 ,88 ,95
Es importante tener presente que los índices de riesgo siempre se calculan dividiendo la infor-
mación de la primera fila de la tabla entre la información de la segunda fila (en el ejemplo,
la fila fumadores entre la fila no fumadores; ver Tabla 3.15 o 3.17). Como el orden en el que
el SPSS coloca en la tabla las categorías de las filas (también las de las columnas) viene deter-
minado por los códigos que tienen asignados (se ordenan de menor a mayor), es importante
vigilar que la categoría cuyo riesgo se desea evaluar reciba un código menor que la otra ca-
tegoría (en nuestro ejemplo hemos utilizado el código 1 para los fumadores y el código 2 para
los no fumadores). Reparar en este detalle es importante debido a que este tipo de variables
suelen codificarse como variables indicador, con el código 1 para la “presencia” y el código
0 para la “ausencia” (por ejemplo: 1 = «fumadores» y 2 = «no fumadores»); una codificación
tipo indicador haría que el SPSS construyera la tabla con los no fumadores en la primera fila
(con las consiguientes consecuencias sobre los resultados y su interpretación).
Por supuesto, siempre es posible utilizar más de dos grupos (factores con más de dos ni-
veles). Pero debe tenerse en cuenta que las comparaciones siempre se llevan a cabo entre dos
filas. Si se tienen tres filas (fumadores, no fumadores y exfumadores), se puede agrupar a los
exfumadores y a los no fumadores y calcular el riesgo del grupo fumadores respecto del res-
to de grupos tomados juntos. Y si lo que interesa es calcular el riesgo del grupo fumadores
respecto de cada grupo por separado, se tendrá que aplicar un filtro al archivo de datos.
Índices de acuerdo
Un aspecto interesante de la asociación entre dos variables categóricas tiene que ver con el
grado de acuerdo (parecido, concordancia) existente entre ambas variables5.
Una situación típica en la que suele interesar estudiar el grado de acuerdo es la que se de-
riva de aplicar dos criterios de clasificación (dos jueces o expertos, dos escalas de medida, dos
pruebas diagnósticas, etc.) a una serie de sujetos u objetos. Las categorías utilizadas para la
clasificación pueden ser nominales (como el tipo de trastorno) u ordinales (como la gravedad
del trastorno). En el primer caso suele utilizarse el índice de acuerdo kappa de Cohen (1960)
o alguna variante del mismo (Cohen, 1968). En el segundo, alguna medida de asociación para
variables ordinales; en el siguiente apartado estudiaremos tres: gamma (Goodman y Kruskal,
1979), tau-b (Kendall, 1970) y d (Somers, 1962). Estas medidas de asociación sirven para
valorar el grado de relación positiva o negativa existente entre dos variables; por tanto, sus
valores positivos también permiten cuantificar el grado de acuerdo. Para una revisión de otros
índices de acuerdo, puede consultarse Shroukri (2004) o Von Eye y Mun (2005).
La Tabla 3.19 muestra la forma de presentar los datos en una tabla de contingencias bidi-
mensional y la notación que utilizaremos para identificar cada elemento de la tabla. Ni la es-
tructura de la tabla ni la notación cambian por el hecho de que las variables codificadas sean
nominales u ordinales. Esta notación es la misma que ya hemos empezado a utilizar en el Ca-
pítulo 10 del primer volumen y es generalización directa de la ya utilizada para tablas 2 × 2
en apartados anteriores de este mismo capítulo (ver Tabla 3.16).
Las I categorías de la variable X (juez 1, prueba diagnóstica 1, etc.) definen las filas de
la tabla; para identificar cada una de estas categorías (cada fila), utilizamos el subíndice i; por
tanto: i = 1, 2, ..., I. Las J categorías de la variable Y definen las columnas de la tabla; para
identificar cada una de estas categorías (cada columna) utilizamos el subíndice j: por tanto:
j = 1, 2, ..., J. El signo “+” se refiere a todos los valores del subíndice al que sustituye; por
tanto, cuando sustituye al subíndice i, se refiere a todos los valores de i (es decir, 1, 2, ..., I );
y cuando sustituye al subíndice j, se refiere a todos los valores de j (es decir, 1, 2, ..., J ).
Tabla 3.19. Notación utilizada en tablas de contingencias bidimensionales
Y
X 1 2 AAA j AAA J ni+
1 n11 n12 AAA n1 j AAA n1J n1+ n i j = frecuencias conjuntas de X e Y
2 n21 n22 AAA n2 j AAA n1J n2 + n i+ = frecuencias marginales de X
AAA AAA AAA AAA AAA AAA AAA AAA
i n i1 n i2 AAA nij AAA n iJ n i+ n + j = frecuencias marginales de Y
AAA AAA AAA AAA AAA AAA AAA AAA n = número total de casos
I nI 1 nI 2 AAA nI j AAA nI J nI +
n+j n+1 n+2 AAA n+j AAA n+J n
5
Conviene recordar dos cosas: (1) en una tabla de contingencias bidimensional pueden darse diferentes pautas de aso-
ciación; (2) los diferentes estadísticos disponibles para estudiar esas pautas de asociación se han diseñado para valorar un
determinado tipo de pauta, incluso varias, pero no todas ellas. De ahí la importancia de elegir en cada caso el estadístico
capaz de capturar justamente la pauta de asociación que se desea estudiar.
Acuerdo con variables nominales: kappa

La Tabla 3.20 recoge el resultado obtenido por dos expertos al clasificar una muestra de 200
pacientes afectados de trastorno neurótico. Ambos expertos han intentado identificar el tipo
de neurosis dominante en cada paciente (fóbica, histérica, obsesiva o depresiva). Por tanto,
las categorías de las filas son las mimas que las de las columnas.
Cuando el interés del análisis está en valorar el grado de acuerdo o coincidencia entre dos
criterios de clasificación (en el ejemplo, dos expertos), no tiene sentido contrastar la hipótesis
de independencia con la prueba X 2 de Pearson (ver Capítulo 10 del primer volumen). Esta
prueba permite comparar las distribuciones condicionales de cualquiera de los dos criterios
de clasificación bajo el supuesto de que son iguales: cualquier frecuencia observada que se
aleje suficientemente de su valor esperado bajo la hipótesis de igualdad de distribuciones con-
dicionales llevará al rechazo de la hipótesis de independencia sin importar en qué casilla de
la tabla se produzca el alejamiento. Pero ocurre que, de las diferentes pautas de asociación a
las que es sensible la prueba X 2, aquí únicamente estamos interesados en valorar una de ellas:
la que permite capturar al grado de acuerdo o coincidencia entre ambos criterios de clasifi-
caión (es decir, entre ambos expertos).
Tabla 3.20. Resultado obtenido por dos expertos al clasificar a 200 pacientes con neurosis
Segundo experto
Primer experto Fóbica Histérica Obsesiva Depresiva Total
Fóbica 20 8 6 1 35
Histérica 7 36 14 4 61
Obsesiva 1 8 43 7 59
Depresiva 2 6 4 33 45
Total 30 58 67 45 200
El acuerdo o coincidencia está reflejado en las casillas de la diagonal principal (la que va des-
de la parte superior izquierda de la tabla hasta la parte inferior derecha; casillas con i = j). Esta
diagonal contiene el número de casos que ambos expertos clasifican de la misma manera. Por
tanto, una forma sencilla e intuitiva de cuantificar el grado de acuerdo consiste simplemente
en valorar en qué medida las frecuencias de la tabla tienden a concentrarse en esa diagonal.
Sumando las frecuencias de las casillas de la diagonal principal se obtienen 132 coinciden-
cias, lo que representa una proporción de acuerdo de 132 / 200 = 0,66.
El problema es que, al utilizar esta proporción como una medida del grado de acuerdo,
no se está teniendo en cuenta el hecho de que es posible obtener cierto grado de acuerdo sim-
plemente por azar. Si se asume que ambos expertos realizan la clasificación de forma inde-
pendiente, los casos que cabría encontrar por azar en las casillas de la diagonal pueden obte-
nerse multiplicando las correspondientes frecuencias marginales y dividiendo ese producto
por el número total de casos (ver, en el Capítulo 10 del primer volumen, la ecuación [10.6]).
Así, en la primera casilla de la diagonal cabría esperar, por azar, 35(30)/200 = 5,25 casos; en
la segunda casilla, 61(58)/200 = 17,69 casos; etc. Repitiendo la operación para todas las casi-
llas de la diagonal se obtiene un total de 52,83 casos, lo que representa una proporción de
acuerdo esperado por azar de 52,83 / 200 = 0,26.
Tenemos, por tanto, la proporción de acuerdo observado (0,66) y la proporción de acuer-

do esperado por azar6 (0,26). La diferencia entre ambas proporciones representa el acuerdo
neto: 0,66 ! 0,26 = 0,40. Pues bien, el índice de acuerdo kappa (Cohen, 1960) se obtiene di-
vidiendo esa diferencia (acuerdo neto) entre la proporción de acuerdo máximo que es posible
alcanzar. Esta proporción se estima restando a 1 la proporción de acuerdo esperado por azar:
1 ! 0,26 = 0,74. Y dividiendo la proporción de acuerdo observado (0,40) entre la de acuerdo
máximo posible (0,74), se obtiene una proporción de acuerdo real de 0,40 / 0,74 = 0,54, que
es justamente el valor de la kappa de Cohen si se aplica la ecuación:
= = [3.19]
(ni i se refiere a las frecuencias de las casillas de la diagonal principal, es decir, de las casi-
llas en las que se verifica: i = j). Aplicando [3.19] a los datos de la Tabla 3.20 se obtiene:
= =
= =
= =
El valor del índice kappa debe interpretarse teniendo en cuenta que toma valores entre 0
(acuerdo nulo) y 1 (acuerdo máximo). Si el grado de acuerdo es menor que el esperado por
azar, kappa toma un valor negativo.
Fleiss, Cohen y Everitt (1969) han demostrado que la varianza del coeficiente kappa debe
estimarse de forma ligeramente distinta para el caso general (es decir, para cualquier valor
poblacional de κ) y para el caso particular en el que se asume κ = 0 (en Wickens, 1989, págs.
241-243, puede encontrarse una excelente descripción de ambas estimaciones). Para el caso
particular en el que se asume κ = 0, la varianza de [3.19] se obtiene mediante:
= [3.20]
La hipótesis nula de que el coeficiente kappa vale cero en la población puede contrastarse
dividiendo el valor de kappa entre su error típico (raíz cuadrada de [3.20]). Se obtiene así un
valor tipificado que se distribuye de forma aproximadamente normal, con media 0 y des-
viación típica 1:
= Í N (0, 1) [3.21]
6
Esta forma de estimar la proporción de acuerdo por azar no es del todo correcta porque incluye no solo acuerdo por azar
sino acuerdo verdadero. La separación de estas dos fuentes de acuerdo requiere utilizar modelos loglineales que no estudia-
remos aquí. No obstante, el índice de acuerdo kappa tal como está definido en [3.19] suele resultar satisfactorio en la mayor
parte de los contextos en los que se aplica.
Para contrastar la hipótesis de acuerdo nulo (H0: κ = 0) comenzamos estimando el error típi-
co de kappa (raíz cuadrada de [3.20]) y calculando a continuación (ecuación [3.21]):
= =
= =
=
= =
= =
= = =
En la distribución normal tipificada, P (Zκ >$ 12,93) . 0. Y siendo el nivel crítico tan próximo
a cero, la decisión razonable será rechazar H0 y concluir que el acuerdo entre ambos exper-
tos es significativamente mayor que el esperable por azar.
Saber que el grado de acuerdo entre dos criterios de clasificación es significativamente
mayor que el esperable por azar no dice gran cosa (aunque sí saber que no lo es). Por esta
razón, Landis y Koch (1977) han argumentado que, por lo general, valores por encima de
0,80 reflejan un acuerdo excelente; valores entre 0,60 y 0,80, un buen acuerdo; valores en-
tre 0,40 y 0,60 un acuerdo moderado; y valores por debajo de 0,40, un acuerdo más bien
pobre. Pero estos puntos de corte no parecen estar suficientemente bien justificados.
Al interpretar el coeficiente kappa hay que tener en cuenta que, aunque permite cuan-
tificar el grado de acuerdo global, no sirve para reflejar la verdadera naturaleza del acuerdo
y del desacuerdo subyacentes. De hecho, puede obtenerse el mismo valor kappa con distin-
tas pautas de variación entre las frecuencias de la diagonal principal; y pueden obtenerse
valores kappa distintos con la misma pauta de variación en la diagonal principal (misma pau-
ta de acuerdo) pero con distinta pauta de variación fuera de ella (distintas pautas de desa-
cuerdo) (Grayson, 2004). Ésta es la razón por la cual suele recomendarse no comparar coefi-
cientes obtenidos en diferentes estudios o en diferentes poblaciones (Feinstein y Cicchetti,
1990; Thompson y Walter, 1988).
Además, dependiendo de los criterios de clasificación utilizados, algunos desacuerdos
pueden ser más fuertes que otros (puede haber categorías que se parezcan entre sí más que
otras). Y si las categorías de clasificación son ordinales (por ejemplo, trastorno leve, mode-
rado y severo), el desacuerdo por clasificar al mismo sujeto en categorías adyacentes (leve,
moderado) es menos grave que el desacuerdo por clasificar al mismo sujeto en categorías
más alejadas (leve, severo). Para resolver estos problemas puede utilizarse una versión
ponderada del índice kappa (Cohen, 1968; Spitzer, Cohen, Fleis y Endicott, 1967).
La ponderación consiste en asignar un peso (w) entre 0 y 1 a cada casilla. Por lo gene-
ral, a las casillas de la diagonal principal se les asigna un peso de 1 (wi = j = 1) y al resto de
las casillas se les asigna un peso tanto menor cuanto más grave se considera el desacuerdo
(siempre con wi j = wj i). En el caso de que la gravedad del desacuerdo sea tanto mayor cuan-
to más alejada de la diagonal principal se encuentre una casilla, Fleiss y Cohen (1973) pro-
ponen calcular los pesos de las casillas de la siguiente manera:
= [3.22]
Por ejemplo, para la casilla (i = 1, j = 1) de la Tabla 3.20, w11 = 1! |1 ! 1| / (4 !1) = 1 (la ecua-
ción [3.22] asigna un peso de 1 a todas las casillas de la diagonal principal). Para la casilla
(i = 1, j = 2), w12 = 1! |1! 2| / (4 ! 1) = 0,667. Para la casilla (i = 1, j = 3), w12 = 1! |1! 3| / (4 ! 1)
= 0,333. Para la casilla (i = 1, j = 4), w12 = 1! |1! 4| / (4 ! 1) = 0. Etcétera. Las casillas más ale-
jadas de la diagonal principal (los desacuerdos más graves) reciben un peso menor.
Tras asignar los pesos a las casillas, la versión ponderada del coeficiente kappa se obtie-
ne aplicando la ecuación [3.19] a la tabla resultante de multiplicar cada frecuencia ni j por su
correspondiente peso wi j.
Supongamos que dos tutores de un centro de acogida de niños huérfanos hacen una valo-
ración del comportamiento global de cada uno de sus 43 tutelados durante una determinada
semana. Ambos tutores realizan su evaluación clasificando el comportamiento de cada niño
en una de 4 categorías ordenadas: “malo”, “regular”, “bueno” y “excelente”. La Tabla 3.21
resume los resultados obtenidos. Entre paréntesis aparecen los coeficientes o pesos que la
ecuación [3.22] asigna a cada casilla. Con esta forma de asignar los coeficientes de ponde-
ración, las casillas más alejadas de la diagonal principal reciben un peso menor. Al proceder
de esta manera se está considerando que las frecuencias más alejadas de la diagonal princi-
pal representan un desacuerdo más grave que las menos alejadas. Multiplicando la frecuencia
de cada casilla por su correspondiente coeficiente, la nueva tabla de contingencias toma los
valores que muestra la Tabla 3.22.
Tabla 3.21. Resultado obtenido por dos tutores al evaluar el comportamiento de 84 niños (entre paréntesis
aparecen los coeficientes de ponderación que resultan de aplicar la ecuación [3.22])
Segundo tutor
Primer tutor Malo Regular Bueno Muy bueno Total
Malo 12 (1,00) 8 (0,67) 4 (0,33) 0 (0,00) 24
Regular 7 (0,67) 24 (1,00) 5 (0,67) 0 (0,33) 36
Bueno 0 (0,33) 2 (0,67) 14 (1,00) 3 (0,67) 19
Muy bueno 0 (0,00) 0 (0,33) 2 (0,67) 3 (1,00) 5
Total 19 34 25 6 84
Tabla 3.22. Frecuencias ponderadas correspondientes a las no ponderadas de la Tabla 3.21
Segundo tutor
Primer tutor Malo Regular Bueno Muy bueno Total
Malo 12,00 5,36 1,32 0,00 18,68
Regular 4,69 24,00 3,35 0,00 32,04
Bueno 0,00 1,34 14,00 2,01 17,35
Muy bueno 0,00 0,00 1,34 3,00 4,34
16,69 30,7 20,01 5,01 72,41
El índice kappa se obtiene aplicando la ecuación [3.19] a las frecuencias no ponderadas de

la Tabla 3.21. El índice kappa ponderada se obtiene aplicando la ecuación [3.19] a las fre-
cuencias ponderadas de la Tabla 3.22. En el primer caso se obtiene = 0,47. En el segundo:
= =
= =
= = =
Al ponderar la “gravedad” de los desacuerdos, el valor de kappa pasa de 0,47 a 0,61. Por
tanto, al ponderar las frecuencias, aumenta el grado de acuerdo estimado.
El índice de acuerdo kappa no es el único índice disponible para valorar el acuerdo en-
tre dos criterios de clasificación7. Existen varios índices que difieren entre sí y de kappa en
aspectos importantes como, por ejemplo, la forma concreta definir e interpretar el acuerdo o
la manera de cuantificar la proporción de acuerdos por azar (ver Zwick, 1988). También
existen índices para valorar el acuerdo entre más de dos criterios de clasificación, es decir,
entre más de dos jueces o entre más de dos variables (ver, por ejemplo, Posner, Sampson,
Caplan, Ward y Cheney, 1990). Para una revisión de todos estos índices puede consultarse
Shroukri (2004) o Von Eye y Mun (2005).
El índice de acuerdo kappa con SPSS

El SPSS incluye el índice de acuerdo kappa en el procedimiento Tablas de contingencias. Pa-
ra obtener kappa con los datos de la Tabla 3.20:
acuerdo kappa que se encuentra en la página web del manual.
para acceder al cuadro de diálogo Tablas de contingencias y trasladar la variable ex-
perto_1 a la lista Filas y la variable experto_2 a la lista Columnas.
cias: Estadísticos y marcar la opción Kappa.
7
Especialmente útil puede resultar un índice de acuerdo asimétrico propuesto por Kvålseth (1991):
= [3.23]
Mientras kappa permite evaluar el grado de acuerdo mutuo entre dos criterios de clasificación, (trata ambos criterios de for-
ma equivalente), el índice permite valorar el acuerdo entre dos criterios de clasificación cuando el primero de ellos
se considera un referente para la comparación (cambiando en el denominador n+j por ni+ se obtiene el valor del coeficiente
para el caso en el que el juez de referencia sea el segundo). Esta forma de cuantificar el grado de acuerdo es útil, por ejem-
plo, para valorar la calidad diagnóstica de un nuevo método en comparación con otro estándar que ya se sabe que funciona
bien; o para valorar cómo clasifica un juez novato en comparación con un juez experto; etc.
Aceptando estas elecciones, el Visor ofrece los resultados que muestra la Tabla 3.23. La tabla
incluye: (1) el valor del coeficiente kappa (0,538), el cual coincide con el que hemos obteni-
do aplicando [3.19]; (2) el error típico asintótico de kappa cuando no se asume acuerdo nulo;
(3) el cociente entre el valor del coeficiente y su error típico, calculado éste bajo el supuesto
de acuerdo nulo (se indica en una nota a pie de tabla); y (4) el nivel crítico (sig. aproximada)
asociado al estadístico T. Puesto que el nivel crítico es muy pequeño, se puede rechazar la
hipótesis de acuerdo nulo y concluir que el grado de acuerdo entre los dos expertos es mayor
que el esperable por azar.
Con tamaños muestrales grandes, el error típico asintótico que ofrece la Tabla 3.23 pue-
de utilizarse para construir un intervalo de confianza para el parámetro κ (el valor de kappa
en la población) siguiendo la misma lógica que se utiliza para construir cualquier otro inter-
valo de confianza basado en la distribución normal:
= = =
Este resultado permite estimar, con una confianza del 95 %, que el verdadero acuerdo entre
ambos expertos (el valor poblacional de kappa) se encuentra entre 0,45 y 0,63 (un buen acuer-
do según el criterio propuesto por Landis y Koch).
Tabla 3.23. Índice de acuerdo kappa

Error típ. T Sig.
a b
Valor asint. aproximada aproximada
Medida de acuerdo Kappa ,538 ,046 12,921 ,000
a. Asumiendo la hipótesis alternativa.
b. Empleando el error típico asintótico basado en la hipótesis nula.
En el caso de que se desee dar distinta importancia a los desacuerdos de una tabla (es decir,
a las frecuencias que se encuentran fuera de la diagonal), pueden asignarse coeficientes de
ponderación para obtener la versión ponderada del índice kappa. Para ello:
acuerdo kappa ponderada que se encuentra en la página web del manual.
' Crear dos nuevas variables en el archivo de datos: (1) la primera (con nombre w u otro
nombre válido) con los valores de los coeficientes de ponderación (valores entre parénte-
sis de la Tabla 3.21); (2) la segunda (con nombre ncasos_w u otro nombre válido), mul-
tiplicando las frecuencias originales (ncasos) por los coeficientes de ponderación (w).
' Seleccionar la opción Ponderar casos del menú Datos para ponderar el archivo de datos
con la variable ncasos_w.
' Seguir los pasos del ejemplo anterior para obtener el índice de acuerdo kappa utilizando
el procedimiento Tablas de contingencias (para obtener el valor exacto de kappa es necesa-
rio marcar, en el subcuadro de diálogo Casillas, la opción No efectuar correcciones).
Tras la ponderación, las frecuencias originales de la Tabla 3.21 se convierten en las frecuen-
cias ponderadas de la Tabla 3.22. Y al aplicar el índice de acuerdo kappa a estas nuevas fre-
cuencias se obtiene el índice de acuerdo kappa ponderada que muestra la Tabla 3.24. Su
valor ha pasado de 0,47 (valor no ponderado) a 0,61 (valor ponderado), que es justamente
el valor obtenido anteriormente al aplicar la ecuación [3.19] a los datos de la Tabla 3.22.
Tabla 3.24. Índice de acuerdo kappa

Error típ. T Sig.
a b
Valor asint. aproximada aproximada
Medida de acuerdo Kappa ,607 ,076 8,052 ,000
Asociación entre variables categóricas ordinales

En este apartado nos vamos a ocupar de un tipo particular de variables categóricas: aquellas
cuyas categorías se encuentran cuantitativamente ordenadas. Tal es el caso de variables co-
mo el nivel d estudios (primarios, secundarios, medios, superiores), o la clase social (baja,
media alta), etc.; o el de variables originalmente cuantitativas (como la edad) cuyos valores
se han agrupado en unas pocas categorías (grupos de edad).
Consideremos los datos de la Tabla 3.25 referidos a una muestra de 258 sujetos clasifi-
cados a partir de sus respuestas a dos criterios ordinales: opinión sobre la eutanasia y opinión
sobre el aborto. En una tabla de estas características tiene sentido contrastar diferentes hipóte-
sis y cada hipótesis requiere aplicar diferentes pruebas estadísticas. Algunas de las pruebas
que podrían aplicarse aquí ya las hemos estudiado: la prueba X 2 de Pearson, la prueba de
McNemar-Bowker, la prueba de homogeneidad marginal y el índice de acuerdo kappa.
El contraste de la hipótesis de independencia con la prueba X 2 de Pearson (ver Capítulo
10 del primer volumen) permitiría saber si las distribuciones condicionales de una de las dos
variables son o no iguales en cada nivel de la otra. Cualquier casilla de la tabla cuya frecuen-
cia se alejara suficientemente del valor esperado de esa casilla bajo la hipótesis de igualdad
de distribuciones condicionales llevaría al rechazo de la hipótesis de independencia y, con-
secuentemente, a concluir que existe relación entre ambas opiniones sin importar en qué
casilla se produce el alejamiento de lo esperado. Con los datos de la Tabla 3.25 se rechaza la
hipótesis de independencia: X 2 = 163,36 con p < 0,0005.
El contraste de la hipótesis e homogeneidad marginal (distinta de la de independencia)
permitiría saber si la proporción de personas que elige cada categoría de opinión (“a favor”,
“indiferente”, “en contra”) es o no la misma cuando se trata de la eutanasia y cuando se tra-
ta del aborto. Con los datos de la Tabla 3.25 no se rechaza la hipótesis de homogeneidad
marginal: ZHM = 1,73 con p = 0,083.
El contraste de la hipótesis de simetría (distinta de la de independencia y distinta de la
de homogeneidad marginal) permitiría estudiar la pauta que siguen las frecuencias de las ca-
sillas que representan opiniones distintas hacia la eutanasia y hacia el aborto. Con los datos
de la Tabla 3.25 no se rechaza la hipótesis de simetría: = 3,59 con p = 0,309.
Por último, el índice de acuerdo kappa permitiría cuantificar el grado de acuerdo, es decir
el grado en que la opinión que se tiene sobre la eutanasia tiende a coincidir con la que se tiene
sobre el aborto. Con los datos de la Tabla 3.25 se obtiene un buen grado de acuerdo: = 0,57
con p < 0,0005; ponderada = 0,77 con p < 0,0005.
Tabla 3.25. Opinión sobre la eutanasia y el aborto
Opinión aborto
Opinión eutanasia 1. En contra 2. Indiferente 3. A favor Total
1. En contra 73 16 3 92
2. Indiferente 18 30 12 60
3. A favor 8 18 80 106
Total 99 64 95 258
No cabe duda de que todos estos contrastes (independencia, homogeneidad marginal, sime-
tría y acuerdo) ofrecen información interesante sobre diferentes aspectos de una tabla de
contingencias. Es más, dependiendo de los objetivos del análisis, cualquiera de ellos podría
ser la elección idónea. No obstante, cuando las dos variables analizadas son ordinales (cate-
gorías cuantitativamente ordenadas), lo que suele interesar estudiar es si el aumento de los va-
lores de la primera tiende a ir o no acompañado del aumento (o disminución) de los valores
de la segunda. Y esta tendencia no está contemplada ni en la hipótesis de independencia, ni
en la de homogeneidad marginal, ni en la de simetría (el acuerdo tiene algo que ver con esto,
pero solo en parte).
Con variables cuantitativas (de intervalo o razón), el estudio de esta tendencia suele
abordarse con el coeficiente de correlación de Pearson (ver Capítulo 12 del primer volumen),
el cual ya sabemos que permite cuantificar el grado de relación lineal entre variables. Con
variables ordinales no tiene mucho sentido hablar de relación lineal porque las variables
ordinales no tienen una métrica definida; sin embargo, dado que sus categorías se encuentran
ordenadas, sí es posible hablar de relación monótona. Cuando se da este tipo de relación, las
frecuencias de la tabla tienden a concentrarse en una de las dos diagonales: en la principal
en el caso de relación positiva o creciente y en la secundaria en el caso de relación negativa
o decreciente. Por tanto, estudiar la relación entre variables ordinales requiere utilizar esta-
dísticos (medidas de asociación) capaces de valorar en qué medida las frecuencias tienden
a concentrarse en una de las dos diagonales de la tabla.
El índice de acuerdo kappa (ver Tablas 3.21 y 3.22) hace algo parecido a lo que hacen
las medidas de asociación ordinales, pero kappa únicamente tiene en cuenta el grado de con-
centración de las frecuencias en la diagonal principal y se basa en el porcentaje de acuerdo
global; además, solamente tiene sentido aplicarlo cuando las categorías de las dos variables
son las mismas. Las medidas de asociación que se incluyen en este apartado se basan en la
comparación individual de cada caso con cada otro y en los conceptos de concordancia y
discordancia; y no es necesario que las dos variables tengan las mismas categorías.
Medidas de concordancia-discordancia
Dos casos son concordantes (C ) cuando el primero puntúa más alto (o más bajo) que el se-
gundo tanto en X como en Y. Dos casos son discordantes (D ) cuando el primero puntúa más
alto (o más bajo) que el segundo en la variable X y más bajo (o más alto) en la variable Y. Dos
casos están empatados en X (EX ) cuando sus valores son iguales en X y distintos en Y. Dos
casos están empatados en Y (EY ) cuando sus valores son iguales en Y y distintos X. Dos ca-
sos están empatados en X e Y (EXY ) cuando sus valores son los iguales en ambas variables.
Cuando predominan las concordancias, la relación es positiva: los valores altos (bajos)
de una de las variables tienden a ir acompañados de valores altos (bajos) de la otra variable.
Cuando predominan las discordancias, la relación es negativa: los valores altos (bajos) de
una de las variables tienden a ir acompañados de valores bajos (altos) de la otra variable.
Todas las medidas de asociación que se describen en este apartado utilizan en el nume-
rador la diferencia entre el número de concordancias (nC ) y discordancias (nD ) resultantes
de comparar cada caso con cada otro; pero se diferencian en el tratamiento que dan a los em-
pates. En el Apéndice 3 se explica cómo se calcula el número de concordancias, discordan-
cias y empates en una tabla de contingencias.
Si todas las comparaciones entre casos dan como resultado pares concordantes o discor-
dantes (es decir, si no existen pares empatados), las probabilidades de concordancia (PC ) y
de discordancia (PD ) pueden estimarse dividiendo el número de pares concordantes y
discordantes entre el número total de comparaciones (que viene dado por las combinaciones
sin repetición de n elementos tomados de dos en dos):
= y = [3.24]
Y como las concordancias reflejan relación positiva y las discordancias relación negativa,
una forma directa y sencilla de cuantificar la relación entre dos variables consiste simple-
mente en restar ambas proporciones. Esto es precisamente lo que hace el coeficiente tau-a
(Kendall 1938, 1970):
= = [3.25]
Pero esta diferencia, útil cuando no existen empates, pasa por alto el hecho de que en una ta-
bla de contingencias existen muchos empates. Para resolver este problema, el coeficiente
gamma (ver Goodman y Kruskal, 1979) excluye del análisis el número de empates:
= [3.26]
Cuando la relación entre las variables es perfecta y positiva, todos los pares son concordantes
(nC ) y gamma vale 1. Cuando la relación entre las variables es perfecta pero negativa, todos
los pares de casos son discordantes (nD ) y gamma vale !1. Cuando las variables son inde-
pendientes, hay tantos pares concordantes como discordantes (nC = nD) y gamma vale 0. Por
tanto, gamma oscila, entre !1 y 1. Cuando dos variables son independientes, gamma vale
cero; sin embargo, una gamma de cero no implica independencia (excepto en tablas de con-
tingencias 2 × 2)8.
8
En tablas de contingencias 2 × 2, la ecuación [3.26] equivale a: = (n11 n22 ! n12 n21) / (n11 n22 + n12 n21). Esta expresión fue
inicialmente propuesta por Yule (1900, 1912) como una forma de cuantificar el grado de asociación existente en una tabla
de contingencias 2 × 2. Yule, que llamó Q a su coeficiente, llegó a él a partir de la odds ratio estudiada en el apartado ante-
rior: Q = (OR ! 1) / (OR + 1). Puesto que en tablas 2 × 2 se verifica Q = , lo que realmente está haciendo es transformar
un valor como la odds ratio, que varía en el rango [0, 4], en otro valor, más interpretable, que varía en el rango [!1, 1].
La exclusión, sin más, de los pares empatados suele inflar en exceso la estimación que
se obtiene de la verdadera relación subyacente. El coeficiente tau-b de Kendall (1945, 1970)
tiene esto en cuenta incorporando a la ecuación el número de pares empatados en X o en Y
(quedan fuera los pares empatados en ambas variables):
= [3.27]
La inclusión del número de empates en X y del número de empates en Y hace que el valor
de tau-b sea menor que el de gamma. El coeficiente tau-b toma valores entre !1 y +1 sola-
mente en tablas de contingencias cuadradas y si ninguna frecuencia marginal vale cero. El
coeficiente tau-c (Stuart, 1953) intenta corregir esta limitación (aunque no lo consigue del
todo; y no faltan quienes, como Freeman, 1986, desaconsejan su uso):
= [3.28]
donde m se refiere al valor menor del número de filas (I ) y del número de columnas (J ). El
coeficiente tau-c toma valores entre aproximadamente !1 y 1 independientemente del número
de categorías de las variables.
Por último, el coeficiente d de Somers (1962) incorpora una ligera modificación al coefi-
ciente gamma para cuando una de las variables se considera independiente (X ) y la otra de-
pendiente (Y ). Esta modificación consiste en añadir en el denominador de gamma (ecuación
[3.26]) el número de pares empatados en la variable dependiente:
= [3.29]
El coeficiente d de Somers tiene tres versiones: dos asimétricas y una simétrica. La versión
simétrica se obtiene utilizando en el denominador de [3.29] el promedio de los denomina-
dores correspondientes a las dos versiones asimétricas.
Existen otros coeficientes basados en el concepto de pares concordantes y discordantes
(ver, por ejemplo, Agresti, 1984), pero el SPSS únicamente incluye los cuatro mencionados
en [3.26], [3.27], [3.28] y [3.29].
Para aplicar estas cuatro ecuaciones a las frecuencias de la Tabla 3.25 debemos comenzar
calculando el número de pares concordantes, discordantes y empatados (en el Apéndice 3 se
explica cómo realizar estos cálculos):
= 15.856, = 1.190, = 4.775, = 4.586, = 6.746

= 15.856 ! 1.190 = 14.666, = 15.856 + 1.190 = 17.046
= 17.046 + 4.775 = 21.821, = 17.046 + 4.586 = 21.632
= 14.666 /17.046 = 0,86

= 14.666 / [21.821(21.632)]½ = 0,68
= 2(3) (14.666) / [2582 (3 !1)] = 0,66

d = 14.666 / [(21.821 + 21.632) / 2] = 0,68
Todos estos valores están indicando que la relación entre ambas opiniones es alta y positiva,
lo cual significa que los sujetos que se manifiestan a favor (en contra) de la eutanasia también
tienden a mostrarse a favor (en contra) del aborto.
Para poder contrastar la hipótesis de que no existe asociación ordinal, Kendall (1970) ha
demostrado que la varianza de nC ! nD (numerador de todas las medidas de asociación ordi-
nal propuestas) puede estimarse, si se asume que no existe asociación, mediante:
= [3.30]
La hipótesis nula de no asociación ordinal en la población (γ = τb = τc = d = 0) puede contras-

tarse dividiendo nC ! nD entre su error típico (es decir, entre la raíz cuadrada de la ecuación
[3.30]). Se obtiene así un valor tipificado que se distribuye de forma aproximada-
mente normal, con media 0 y desviación típica 1:
= Í N (0, 1) [3.31]
Para contrastar la hipótesis nula de no asociación ordinal con los datos de la Tabla 3.25,
comenzamos estimando el error típico de nC ! nD y calculando a continuación :
= =
= =
= =
= =
= = =
En la distribución normal tipificada, P (Z $

> 12,13) . 0. Y siendo el nivel crítico tan pequeño,
la decisión razonable es rechazar H0 y concluir que el grado de relación ordinal (monótona)
entre ambas opiniones es significativamente mayor que cero.
Medidas de concordancia-discordancia con SPSS

El procedimiento Tablas de contingencias incluye las cuatro medidas de asociación estudiadas
en el apartado anterior: gamma, tau-b, tau-c y d. Este ejemplo muestra cómo obtener estos
coeficientes con los datos de la Tabla 3.25:
asociación ordinal que se encuentra en la página web del manual).
para acceder al cuadro de diálogo Tablas de contingencias y trasladar la variable euta-
nasia (opinión sobre la eutanasia) a la lista Filas y la variable aborto (opinión sobre el
aborto) a la lista Columnas.
cias: Estadísticos y marcar las cuatro opciones del recuadro Ordinal: gamma, d de Somers,
tau-b y tau-c.
Aceptando estas elecciones, el Visor ofrece los resultados que recogen las Tablas 3.26 y 3.27.
La Tabla 3.26 contiene las medidas de asociación simétricas, es decir, los coeficientes tau-b,
tau-c y gamma. La Tabla 3.27 contiene las tres versiones del coeficiente d de Somers: (1) sin
hacer distinción entre variable independiente y dependiente; ésta es la opción apropiada para
nuestro ejemplo porque en ningún momento hemos hecho tal distinción; (2) tomando la varia-
ble opinión sobre la eutanasia como variable dependiente; y (3) tomando la variable opinión
sobre el aborto como variable dependiente.
Cada coeficiente de correlación aparece con su correspondiente nivel crítico (sig. aproxi-
mada), el cual permite decidir sobre la hipótesis nula de independencia. Puesto que todos es-
tos niveles críticos son menores que 0,05, se puede rechazar la hipótesis de independencia y
afirmar que las variables opinión sobre la eutanasia y opinión sobre el aborto están monóto-
namente relacionadas. Y puesto que el signo de los coeficientes es positivo, podemos concluir
que las personas que tienden a estar a favor (o en contra) de la eutanasia tienden también a
estar a favor (o en contra) del aborto.
Junto con el valor de cada coeficiente de correlación aparece también su valor tipificado
(T aproximada), es decir, el valor del coeficiente dividido por su error típico. La tabla también
ofrece una estimación del error típico de cada coeficiente (error típico asintótico). Estas esti-
maciones se obtienen sin asumir independencia entre las variables y pueden utilizarse para
construir intervalos de confianza de idéntica manera a como hemos hecho con el índice de
acuerdo kappa en el apartado anterior.
Tabla 3.26. Medidas de asociación simétricas (tau-b, tau-c y gamma)

Error típ. T Sig.
a b
Ordinal por ordinal Valor asint. aproximada aproximada
Tau-b de Kendall ,675 ,036 19,219 ,000
Tau-c de Kendall ,661 ,034 19,219 ,000
Gamma ,860 ,030 19,219 ,000
Tabla 3.27. Medidas de asociación direccionales (d de Somers)

Error típ. T Sig.
a b
Ordinal por ordinal Valor asint. aproximada aproximada
d de Somers Simétrica ,675 ,036 19,219 ,000
Opinión sobre la eutanasia dependiente ,672 ,036 19,219 ,000
Opinión sobre el aborto dependiente ,678 ,037 19,219 ,000
Apéndice 3
Simetría relativa
El contraste de simetría estudiado al comienzo del capítulo (ver, en el apartado Homogeneidad mar-
ginal y simetría, el ejemplo sobre la prueba de McNemar; Tabla 3.7), nos ha llevado a concluir que,
de las 21 + 63 = 84 personas que han cambiado su preferencia, la proporción que lo ha hecho a favor
del líder A (63 / 84 = 0,75) es mayor que la que lo ha hecho a favor del líder B (21 / 84 = 0,25).
Esta diferencia de 50 centésimas en la proporción de cambios a favor del líder A también está re-
flejada en las proporciones marginales de la tabla (al tratarse de una tabla 2 × 2, la hipótesis de sime-
tría equivale a la de homogeneidad marginal): la proporción de personas que prefieren al líder A ha
cambiado de 70 / 250 = 0,28 a 112 / 250 = 0,45; una diferencia de 17 centésimas.
Es importante no olvidar que en la valoración estadística de la hipótesis de simetría no intervienen
las personas que no han cambiado su preferencia (49 + 117 = 166). La relevancia del resultado obtenido
debe ser valorada sin perder de vista esta circunstancia. Si, en lugar de encuestar a 250 personas, se
hubiera encuestado a 2.500 y se hubiera obtenido el mismo número de cambios (84) con la misma
proporción inicial de personas a favor (0,28), el contraste de la hipótesis de simetría estaría basado en
los 84 cambios observados y llevaría a la misma conclusión que con 250 encuestados (a pesar de que
ahora se estarían quedando fuera del análisis los 2.416 encuestados que no cambian su preferencia).
Con 2.500 encuestados, una proporción inicial de 0,28 a favor del líder A y un número de cambios
total de 84 personas (63 de los cuales prefieren al líder A), la proporción inicial a favor del líder A ya
no cambia de 0,28 a 0,45 (como en el caso de 250 encuestados), sino de 0,28 a 0,30 (2 centésimas). El
contraste de la hipótesis de simetría con la prueba de McNemar seguirá indicando que este cambio es
estadísticamente significativo (pues se basa únicamente en las 84 personas que cambian). Pero los
responsables de diseñar los debates de sus respectivos líderes probablemente tendrán otra impresión.
Estas consideraciones sugieren que, en situaciones como las descritas en la Tabla 3.7, cabe la po-
sibilidad de que la información que proporciona el contraste de la hipótesis de simetría no resulte del
todo satisfactoria. En estos casos puede interesar contrastar, además de la hipótesis de simetría, la de
simetría relativa. Esta hipótesis permite valorar, no el número absoluto de cambios, sino el número
relativo de cambios.
Reordenando los datos de la Tabla 3.7 tal como muestra la Tabla 3.28 y considerando fijos los to-
tales marginales del momento antes (pues estos totales marginales condicionan el número de cambios
que puede producirse), en lugar de analizar el número absoluto de cambios (21 frente a 63) es posible
analizar el número relativo de cambios: 21 de 70 posibles frente a 63 de 180 posibles.
Tabla 3.28. Preferencia entre dos líderes políticos antes y después de un debate televisado
Preferencia antes La misma Distinta Total
Líder A 49 (46,5) 21 (23,5) 70
Líder B 117 (119,5) 63 (60,5) 180
Total 166 84 250
Entre paréntesis aparecen las frecuencias esperadas bajo la hipótesis de independencia.
Ahora bien, las proporciones que se comparan en la hipótesis de simetría relativa (21/70 = 0,30 frente
a 63/180 = 0,35) son independientes entre sí (cosa que no ocurre con las proporciones que se comparan
en la hipótesis de simetría, basadas en el número absoluto de cambios). Por tanto, la hipótesis de sime-
tría relativa puede contrastarse con la prueba X 2 de Pearson ya estudiada en el Capítulo 10 del primer
volumen. Es decir, contrastar la hipótesis de simetría relativa referida a los datos de la Tabla 3.7 equi-
vale a contrastar la hipótesis de independencia referida a los datos de la Tabla 3.28.
Aplicando el estadístico de Pearson a los datos de la Tabla 3.28 (la tabla incluye, entre paréntesis,
las frecuencias esperadas en cada casilla bajo la hipótesis de independencia filas-columnas), se obtiene
= =
En la distribución ji-cuadrado con (I ! 1) (J ! 1) = 1(1) = 1 grado de libertad (ver Tabla C del Apéndice
final) se obtiene: p = P( > $ 0,57)] > 0,10. Este nivel crítico no permite rechazar la hipótesis de sime-
tría relativa. Por tanto, con los datos disponibles, no es posible afirmar que la proporción relativa de
cambios a favor del líder A (0,30) difiera significativamente de la proporción relativa de cambios a fa-
vor del líder B (0,35). Esta conclusión es distinta de la obtenida anteriormente al contrastar la hipótesis
de simetría a partir del número absoluto de cambios.
Combinación de tablas 2 x 2 (Cochran y Mantel-Haenszel)

En ocasiones puede interesar analizar los diseños de cohortes y de casos y controles estudiados en este
capítulo controlando el efecto de terceras variables. La necesidad de controlar el efecto de terceras
variables se da en contextos muy diversos. Es habitual, por ejemplo, cuando se desea valorar el impac-
to de un determinado factor de riesgo en diferentes grupos (por ejemplo, en hombres y en mujeres; o
en diferentes grupos de edad; etc.).
Se trata de averiguar si existe relación entre una variable factor y una variable respuesta, ambas
dicotómicas, cuando se dispone de información referida a varios estratos (distintos grupos de edad o
de sexo, pacientes con distinta sintomatología o con distinta gravedad de la misma sintomatología, dis-
tintas dosis de fármaco, distintos grupos étnicos, etc.). La Tabla 3.29 muestra los datos sobre taba-
quismo e infarto de la Tabla 3.7 segmentados por sexo (hombres y mujeres).
Tabla 3.29. Frecuencias conjuntas de tabaquismo e infarto en hombres y en mujeres
Sexo = Hombres Sexo = Mujeres

Tabaquismo Infarto = Sí Infarto = No Infarto = Sí Infarto = No
Fumadores 45 152 5 225
No fumadores 22 350 8 343
En este tipo de situaciones, contrastar la hipótesis de independencia con el conjunto de datos agrupa-
dos puede arrojar resultados equívocos. Y aplicar los índices de riesgo a cada estrato por separado no
ofrece una idea global del efecto de la variable factor.
Se obtiene una información más ajustada utilizando los estadísticos de Cochran y Mantel-Haenszel
para contrastar la hipótesis de independencia condicional, es decir, la hipótesis de independencia entre
las variables factor y respuesta una vez que se ha controlado el efecto de los estratos. El estadístico de
Cochran (1954) adopta la siguiente forma:
= [3.32]
donde k se refiere a cada uno de los estratos; nk a la frecuencia observada en una cualquiera de las
casillas del estrato k (solamente una y siempre la misma en todos los estratos); mk a las frecuencias
esperadas correspondientes a nk; y = n1+k n2+k n+1k n+2k / n3 (siendo n1+k, n2+k, n+1k, y n+2k las cuatro fre-
cuencias marginales de las tablas 2 × 2 de cada estrato).
El estadístico de Mantel-Haenszel (1959) es idéntico al de Cochran en todo excepto en dos deta-
lles: (1) utiliza corrección por continuidad (restando medio punto al numerador de la ecuación antes de
elevar el paréntesis al cuadrado) y (2) en el denominador de la varianza utiliza n2 (n – 1) en lugar de n3.
Las distribuciones muestrales de ambos estadísticos (el de Cochran y el de Mantel-Haenszel) se
aproximan al modelo de probabilidad χ2 con 1 grado de libertad. Si el nivel crítico asociado es menor
que 0,05, se puede rechazar la hipótesis nula de independencia condicional y concluir que, una vez con-
trolado el efecto de la variable estratos, las variables factor y respuesta están relacionadas.
Para obtener los estadísticos de Cochran y Mantel-Haenszel con SPSS utilizando los datos de la
Tabla 3.29:
' Reproducir en el Editor de datos los datos de la Tabla 3.29 (ver más adelante el apartado Cómo
reproducir una tabla de contingencias en SPSS ) o abrir el archivo Tabla 3.29 tabaco infarto sexo
que se encuentra en la página web del manual.
' Seleccionar la opción Estadísticos descriptivos > Tablas de contingencias del menú Analizar para
acceder al cuadro de diálogo Tablas de contingencias; trasladar la variable tabaco a la lista Filas,
la variable infarto a la lista Columnas y la variable sexo a la lista Capas.
' Pulsar el botón Estadísticos para acceder al subcuadro de diálogo Tablas de contingencias: Esta-
dísticos y marcar la opción Estadísticos de Cochran y de Mantel-Haenszel. Pulsar el botón Continuar
para volver al cuadro de diálogo principal.
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 3.30 a la 3.32. La
Tabla 3.30 ofrece el contraste de la hipótesis de independencia condicional. El estadístico de Cochran
vale 28,565 y tiene asociado un nivel crítico (sig. asintótica bilateral) menor que 0,0005; puesto que
el nivel crítico es muy pequeño, se puede rechazar la hipótesis nula de independencia condicional y
concluir que, una vez controlado el efecto de la variable sexo, las variables tabaquismo e infarto están
relacionadas. A idéntica conclusión se llega con el estadístico de Mantel-Haenszel.
Tabla 3.30. Pruebas de independencia condicional

Sig. asintótica
Chi-cuadrado gl (bilateral)
Cochran 28,565 1 ,000
Mantel-Haenszel 27,214 1 ,000
Si se rechaza la hipótesis de independencia condicional, el interés del análisis debe orientarse hacia la
cuantificación del grado de relación existente entre las variables factor y respuesta. Esto puede hacerse
de dos maneras: (1) obteniendo una cuantificación distinta para cada estrato y (2) obteniendo una única
cuantificación tras mezclar todos los estratos como si se tratara de una sola muestra. Si la relación entre
las variables factor y respuesta es la misma en todos los estratos, lo razonable será obtener una única
cuantificación de la relación; si la relación entre las variables factor y respuesta difiere de un estrato
a otro, lo razonable será obtener una cuantificación de la relación distinta para cada estrato.
Por tanto, una vez rechazada la hipótesis de independencia condicional, lo que conviene hacer es
determinar si la relación detectada es o no la misma en todos los estratos. Esto puede hacerse contras-
tando la hipótesis nula de homogeneidad de las odds ratio inter-estratos. Para contrastar esta hipótesis,
el SPSS incluye los estadísticos de Breslow-Day (1980, 1987) y Tarone (1985; Tarone, Gart y Hauck,
1983; ver también Breslow, 1996). Al aplicar estos estadísticos a los datos de la Tabla 3.29 se obtiene
el resultado que muestra la Tabla 3.31. Ambos tienen asociado un nivel crítico menor que 0,05 (sig.
asintótica = 0,009); por tanto, lo razonable es rechazar la hipótesis de homogeneidad de las odds ratio.
Es decir, la odds ratio (el cociente entre la odds de infarto en los fumadores y la odds de infarto en los
no fumadores) no es la misma en los dos estratos comparados (hombres y en mujeres). Resumiendo,

la relación tabaquismo-infarto no es la misma en los dos estratos.
Tabla 3.31. Pruebas de homogeneidad de las odds ratio

Sig. asintótica
Chi-cuadrado gl (bilateral)
Breslow-Day 6,905 1 ,009
De Tarone 6,894 1 ,009
Puesto que la odds ratio no es la misma en los dos estratos comparados y, consecuentemente, no puede
asumirse que el riesgo relativo sea el mismo en ambos estratos, no tiene sentido obtener una estimación
común o global del mismo; lo razonable es obtener una estimación del riesgo para cada estrato (en el
siguiente párrafo nos ocuparemos de esto). No obstante, independientemente de cuál sea el resultado
de las pruebas de homogeneidad, el SPSS ofrece una estimación común del riesgo basada en un es-
tadístico propuesto por Mantel y Haenszel (1959) que adopta la siguiente forma:
= [3.33]
La Tabla 3.32 muestra el resultado que ofrece el SPSS como estimación común del riesgo. El valor de
la estimación, 3,41, tiene asociado un nivel crítico (sig. asintótica) menor que 0,0005 y un intervalo de
confianza entre cuyos límites (2,125; 5,481) no se encuentra el valor 1. Por tanto, puede concluirse que
el riesgo de infarto entre los fumadores es mayor que entre los no fumadores: aproximadamente 3,4
veces mayor (la tabla ofrece esta misma información en escala logarítmica; en este caso, el valor de
referencia para la interpretación ya no es el 1, sino el 0).
Tabla 3.32. Estimación de la odds ratio común de Mantel-Haenszel

Estimación 3,413
ln(estimación) 1,228
Error típ. de ln(estimación)
,242
Sig. asintótica (bilateral) ,000
Intervalo de confianza asintótico al 95% Razón de ventajas común Límite inferior 2,125
Límite superior 5,481
ln(Razón de ventajas común) Límite inferior ,754
Límite superior 1,701
Pero ya sabemos que esta estimación común o global del riesgo solamente tiene sentido si la relación
detectada entre las variables factor y respuesta es homogénea en todos los estratos. Por tanto, en el caso
de que, como en nuestro ejemplo, se rechace la hipótesis de homogeneidad de las odds ratio, lo apro-
piado es obtener una estimación del riesgo para cada estrato. Para esto, basta con seguir los pasos del
apartado Los índices de riesgo con SPSS, pero añadiendo la variable sexo a la lista Capas del corres-
pondiente cuadro de diálogo. Al incluir la variable sexo en el análisis, se obtienen los resultados que
muestra la Tabla 3.33. La diferencia entre lo que ocurre en el grupo de hombres y en el de mujeres es
evidente: la odds ratio (razón de ventajas) entre los hombres vale 4,71; entre las mujeres, 0,95. En el
primer caso, el resultado es significativamente mayor que 1 (intervalo de confianza: 2,73-8,12); en el
segundo, no. Conclusión: en los hombres, el riesgo de infarto entre los fumadores es 4,71 veces mayor
que entre los no fumadores; en las mujeres, no hay evidencia de que el riesgo de infarto entre las fu-
madoras sea distinto del riesgo de infarto entre las no fumadoras.
Tabla 3.33. Índices de riesgo
Intervalo de
confianza al 95%
Sexo Valor Inferior Superior
Hombres Razón de las ventajas para Tabaquismo (Fumadores / No fumadores) 4,710 2,733 8,117
Para la cohorte Infarto = Sí 3,862 2,391 6,240
Para la cohorte Infarto = No ,820 ,757 ,888
Mujeres Razón de las ventajas para Tabaquismo (Fumadores / No fumadores) ,953 ,308 2,949
Para la cohorte Infarto = Sí ,954 ,316 2,879
Para la cohorte Infarto = No 1,001 ,976 1,026
La paradoja de Simpson
Los resultados del apartado anterior indican que la relación entre dos variables puede verse modulada
o alterada por la presencia de terceras variables. Esta circunstancia ha sido especialmente puesta de ma-
nifiesto por Simpson (1951).
Supongamos que se dispone de dos tratamientos, t1 y t2, para tratar un mismo desorden y que para
todos los pacientes de la población g se verifica:
P (R | t1) > P (R | t2)
donde R se refiere al suceso recuperación. Supongamos además que la población de pacientes g está
compuesta por dos sub-poblaciones, g1 y g2. En ambas poblaciones el tratamiento t1 es más eficaz que
el tratamiento t2, pero los pacientes de la primera población tienen peor pronóstico que los de la
segunda. En concreto, supongamos que:
P (R | t1, g1) = 0,5 > P (R | t2, g1) = 0,4
P (R | t1, g2) = 0,9 > P (R | t2, g2) = 0,8
Imaginemos que un investigador está interesado en comparar ambos tratamientos. Si utiliza un diseño
correcto, la proporción de elementos muestrales extraídos de cada subpoblación para cada grupo de
tratamiento será la misma. Sin embargo, no siempre es posible asignar sujetos aleatoriamente a los
tratamientos, de modo que no siempre es posible seleccionar muestras de tamaño proporcional a sus
poblaciones. Supongamos que el 70 % de los pacientes que reciben el tratamiento t1 pertenecen a la
subpoblación g1 y el 70 % de los pacientes que reciben el tratamiento t2 pertenecen a la subpoblación
g2. Así las cosas, se tendrá:
P (R | t1) = P (R | t1, g1) P ( g1 | t1) + P (R | t1, g2) P ( g2 | t1) = (0,5) (0,7) + (0,9) (0,3) = 0,62
P (R | t2) = P (R | t2, g1) P ( g1 | t2) + P (R | t2, g2) P ( g2 | t2) = (0,4) (0,3) + (0,8) (0,7) = 0,68
Parece que la eficacia de los tratamientos ha cambiado (no coincide con la que de hecho sabemos que
es su eficacia real). Pero lo único que ocurre es que el tratamiento t1 (el más eficaz) se ha administrado
mayoritariamente a una muestra de la subpoblación con la que se consiguen los peores resultados;
mientras que el tratamiento t2 (el menos eficaz) se ha administrado mayoritariamente a una muestra de
la subpoblación con la que se consiguen los mejores resultados. Un análisis que no contemple esta
circunstancia llevará a conclusiones incorrectas.
Una buena ilustración de este efecto tiene que ver con la discriminación sexual existente en el
proceso de admisión de estudiantes de una determinada Universidad (tomado de Bickel, Hammel y
O’Connell, 1975). Supongamos que dos facultades (variable X: facultad ) de una Universidad admiten
estudiantes procedentes de distintos institutos. Unos aspirantes son admitidos y otros no (variable Y:
admisión). Las tablas de contingencias que aparecen a continuación recogen unos resultados hipotéticos
distinguiendo entre hombres y mujeres (variable Z: sexo).
Consideremos en primer lugar la clasificación obtenida basada en las tres variables (Tabla 3.34).
Aunque hay ligeramente menos casos en la diagonal principal (OR < 1), las variables admisión y sexo
no están asociadas en ninguno de los niveles de la variable facultad: en ambas facultades se obtienen
valores X 2 menores que 1. Sin embargo, al combinar los resultados de ambas facultades (Tabla 3.35.a),
la asociación entre admisión y sexo se vuelve significativa ( p < 0,05). Aparece un exceso de frecuen-
cias en la diagonal principal (OR > 1): se ha pasado de tasas de admisión aproximadamente iguales en
la Tabla 3.34 a una tasa de admisión favorable a los hombres.
Este efecto es idéntico al detectado en el ejemplo de los dos tratamientos. Las facultades difieren
tanto en la distribución de hombres-mujeres de sus aspirantes como en la proporción de estudiantes que
son admitidos (tal como muestran las Tablas 3.35.b y 3.35.c). Y ocurre que la mayoría de las mujeres
son aspirantes a la facultad en la que más difícil es entrar (la facultad 2). Consecuentemente, la propor-
ción global de admitidos es menor en las mujeres que en los hombres. Las variables sexo y admisión
no son independientes, pero son condicionalmente independientes dada A.
La valoración de una situación de este tipo exige algo más que simplemente listar el conjunto de
asociaciones significativas. Determinar qué asociaciones son importantes depende de qué variables se
considera que dependen de otras. En el ejemplo, la asociación entre admisión y sexo no depende de un
sesgo en el proceso de admisión, sino de la diferencia en los criterios de admisión de ambas facultades
(en una de ellas se admite a muchos más aspirantes que en la otra) y de los intereses de los aspirantes
(la mayoría de las mujeres optan por la facultad con criterios más exigentes).
Tabla 3.34. Clasificación tridimensional: facultad, admisión y sexo
Facultad = 1 Facultad = 2
Sexo Admisión = Sí Admisión = No Admisión = Sí Admisión = No
Hombres 23 16 3 25
Mujeres 7 4 7 47
OR = 0,82; p = 0,780 OR = 0,81; p = 0,768
Tabla 3.35. Clasificaciones bidimensionales
a Admisión b Admisión c Facultad

Sexo Sí No Facultad Sí No Sexo 1 2
Hombres 26 41 1 30 20 Hombres 39 28
Mujeres 14 51 2 10 72 Mujeres 11 54
OR = 2,31; p = 0,031 OR = 10,80; p < 0,001 OR = 6,84; p < 0,001
Medidas de asociación basadas en la reducción proporcional del error

Muchos de los estadísticos estudiados en este capítulo sirven para decidir si dos variables categóricas
están o no relacionadas; y éste debe ser, por lo general, el primer objetivo de todo análisis inferencial
(pues, si no puede descartarse el azar como fuente de la variabilidad observada, no tiene mucho sentido
continuar con el análisis). Ahora bien, tras detectar la presencia de una relación significativa, lo habitual
es dirigir el análisis hacia la cuantificación de la fuerza o intensidad de la relación detectada (tamaño
del efecto). Éste es justamente el objetivo que pretenden cubrir las medidas de asociación.
En el Capítulo 10 del primer volumen hemos empezado ya a estudiar algunas medidas de asocia-
ción basadas en el estadístico X 2 de Pearson; todas ellas intentan cuantificar el grado de asociación apli-
cando algún tipo de corrección al valor de X 2 para hacerle tomar un valor comprendido entre 0 y 1. Por
tanto, esas medidas son sensibles al mismo tipo de relación a la que es sensible el estadístico de Pearson
(diferencia entre las distribuciones condicionales). En este apartado vamos a estudiar tres medidas de
asociación (los coeficientes lambda y tau; Goodman y Kruskal, 1979) y el coeficiente de incertidumbre;
Theil, 1970) que se basan en un criterio diferente: la reducción proporcional del error. Son medidas
que expresan la relación entre dos variables, X e Y, como la proporción en que se consigue reducir la
probabilidad de cometer un error de predicción cuando, al clasificar un caso como perteneciente a una
u otra categoría de Y, en lugar de utilizar únicamente la información que se tiene de Y, también se tiene
en cuenta la información que aporta X.
Lambda
La medida de asociación lambda se basa en la siguiente lógica: al pronosticar a qué categoría de una
determinada variable, Y, pertenece un caso concreto, podría elegirse la categoría más probable de todas;
con esta estrategia se estaría cometiendo un error de clasificación igual a la probabilidad de pertenecer
a una cualquiera de las restantes categorías; en lugar de esto, podría clasificarse a ese caso en una u otra
categoría de la variable Y dependiendo de su valor (categoría) en la variable X; con esta segunda estra-
tegia podría reducirse el error de clasificación si X e Y estuvieran relacionadas. El coeficiente lambda
expresa en qué medida se consigue reducir el error de clasificación al utilizar la segunda estrategia en
lugar de la primera.
La Tabla 3.36 recoge las frecuencias resultantes de cruzar las variables sexo y grupos de salario.
Si únicamente se tuviera información sobre la variable grupos de salario, al estimar a qué grupo de
salario pertenece un sujeto cualquiera podría elegirse el grupo “15 - 30” porque, al ser el grupo más
numeroso, la probabilidad de pertenecer a ese grupo (270/500 = 0,540) es más alta que la de pertene-
cer a cualquier otro grupo. Procediendo de esta manera se estaría cometiendo un error de clasificación
de 1 ! 0,540 = 0,460.
Tabla 3.36. Frecuencias conjuntas y marginales de sexo y grupos de salario
Grupos de salario (en miles de euros)

Sexo < 15 15 - 30 30 - 45 > 45 Total
Hombres 19 186 28 17 250
Mujeres 148 84 16 2 250
Total 167 270 44 19 500
En lugar de esto, podría utilizarse la información que aporta la variable sexo y clasificar a los hombres
en el grupo salarial “15 - 30” porque ése es el grupo al que es más probable que pertenezca un hombre
(con un error de (19 + 28 + 17) / 500 = 0,128), y a las mujeres en el grupo salarial “< 15” porque ése es
el grupo al que es más probable que pertenezca una mujer (con un error de (84 + 16 + 2) / 500 = 0,204).
De esta manera se estaría cometiendo un error de clasificación de 0,128 + 0,204 = 0,332. Por tanto, con
esta segunda estrategia se estaría reduciendo el error de clasificación en 0,460 ! 0,332 = 0,128 puntos,
lo cual representa una proporción de reducción del error de clasificación de 0,128 / 0,460 = 0,278, que
es justamente el valor que toma lambda si se aplica la ecuación
= [3.34]
donde máx i (ni j) se refiere a la mayor de las frecuencias de cada fila y máx (n+j) a la mayor de las fre-
cuencias marginales de las columnas. Efectivamente, aplicando la ecuación [3.34] a los datos de la
Tabla 3.36 se obtiene:
= =
Lambda tiene tres versiones: dos asimétricas (para cuando una de las dos variables se considera inde-
pendiente y la otra dependiente) y una simétrica (para cuando no hay razón para distinguir entre varia-
ble independiente y dependiente). La ecuación [3.34] se aplica cuando la clasificación se efectúa to-
mando Y como dependiente. Si se desea tomar X como dependiente basta con sustituir “máxi (nij)” por
“máx j (ni j)” (es decir, por la mayor de las frecuencias de cada columna) y “máx (n+ j)” por “máx (ni +)”
(es decir, por la mayor de las frecuencias marginales de las filas). La versión simétrica se obtiene pro-
mediando las dos asimétricas.
Un valor de 0 indica que la variable independiente no contribuye en absoluto a reducir el error de
clasificación. Un valor de 1 indica que se ha conseguido reducir por completo el error de clasificación,
es decir, que la variable independiente permite predecir con toda precisión a qué categoría de la variable
dependiente pertenece cada caso. Cuando las variables son estadísticamente independientes (es decir,
cuando πi j = πi+ π+ j ), lambda vale 0. Pero un valor de 0 no implica independencia estadística, pues
lambda únicamente es sensible al tipo particular de asociación que se deriva de la reducción del error
de clasificación.
Tau
La medida de asociación tau se parece a lambda, pero su lógica es algo diferente9. Al pronosticar a qué
categoría de la variable grupos de salario pertenece un grupo de sujetos, se podría optar por asignar
aleatoriamente el 100(167/500) = 33,4% a la categoría “< 15”, el 100(270/500) = 54,0% a la categoría
“15-30”, etc., tomando como referencia la probabilidad de pertenecer a cada una de las categorías de
la variable (en lugar de considerar, como hace el coeficiente lambda, únicamente la categoría más pro-
bable). Con esta estrategia se estaría clasificando correctamente al 33,4% de sujetos del grupo “< 15”,
al 54,0% de los sujetos del grupo “15 - 30”, etc., lo cual supone una proporción de clasificación correc-
ta global de 0,412 y, por tanto, una proporción de clasificación errónea de 1 ! 0,412 = 0,588.
En lugar de esto, se podría optar por aprovechar la información que aporta la variable sexo asig-
nando aleatoriamente el 100 (19 / 250) = 7,6 % de los hombres a la categoría “< 15”, el 100 (186 / 250)
= 74,4 % de los hombres a la categoría “15 - 30”, etc.; y el 100 (148 / 250) = 59,2 % de las mujeres a la
categoría “< 15”, el 100 (86/216) = 39,81 % de las mujeres a la categoría “15 - 30”, etc. Con esta estra-
tegia se estaría clasificando correctamente al 52,2 % de los sujetos y, por tanto, se estarían efectuando
pronósticos erróneos con una probabilidad de 1 ! 0,522 = 0,478. Utilizando esta segunda estrategia,
la probabilidad de clasificar a un sujeto de forma incorrecta se reduce en 0,588 ! 0,478 = 0,110 pun-
tos. Lo cual representa una proporción de reducción del error de clasificación de 0,110 / 0,588 = 0,187,
que es justamente el valor que toma el coeficiente tau si se aplica la ecuación
= [3.35]
Al igual que lambda, el coeficiente tau también toma valores entre 0 y 1, significando el 0 ausencia
de reducción del error de clasificación y el 1 reducción completa. Aplicando [3.35] a los datos de la
Tabla 3.36 se obtiene
9
No confundir esta medida de reducción proporcional del error, tau, con las medidas de asociación tau-a, tau-b y tau-c estu-
diadas en el apartado Asociación entre variables categóricas ordinales de este mismo capítulo.
= =
El coeficiente tau posee dos versiones asimétricas en función de cuál de las dos variables se considere
independiente. En la ecuación [3.35] se está tomando la variable Y como dependiente (es decir, la cla-
sificación se hace en las categorías de Y a partir de la información que proporcionan las categorías de
X ). Intercambiando los roles de n i + y n + j en [3.35] se obtiene la ecuación para el caso en el que se to
ma la variable X como dependiente.
Coeficiente de incertidumbre
Al igual que lambda y tau, también el coeficiente de incertidumbre (Theil, 1970) es una medida de aso-
ciación basada en la reducción proporcional del error. Por tanto, es una medida que expresa el grado
de incertidumbre que se consigue reducir cuando se utiliza una variable para efectuar pronósticos sobre
otra. También tiene dos versiones asimétricas (dependiendo de cuál de las dos variables se considere
dependiente) y una simétrica (para cuando no se hace distinción entre variable independiente y depen-
diente). Se obtiene de la siguiente manera:
= [3.36]
donde: =
= (con ni j > 0)
Para obtener IX basta con intercambiar los roles de I (X ) e I (Y ) en la ecuación [3.36]. Y la versión
simétrica se obtiene multiplicando por 2 el resultado de [3.36] tras sustituir, en el denominador, I (Y )
por el producto I (X ) I (Y ).
Medidas de reducción proporcional del error con SPSS

Las tres medidas de asociación estudiadas en este apartado (lambda, tau y coeficiente de incertidumbre)
se encuentran en el procedimiento Tablas de contingencias. Para obtener estas medidas con los datos de
la Tabla 3.36:
' Reproducir en el Editor de datos los datos de la Tabla 3.36 tal como se explica en el siguiente
apartado o abrir el archivo Tabla 3.36 reducción error que se encuentra en la página web del ma-
nual.
' Seleccionar la opción Estadísticos descriptivos > Tablas de contingencias del menú Analizar para ac-
ceder al cuadro de diálogo Tablas de contingencias y trasladar la variable sexo a la lista Filas y la
variable salario (grupos de salario) a la lista Columnas.
' Pulsar el botón Estadísticos para acceder al subcuadro de diálogo Tablas de contingencias: Estadís-
ticos y marcar las opciones Lambda y Coeficiente de incertidumbre del recuadro Nominal.
Aceptando estas elecciones, el Visor ofrece, entre otros, los resultados que muestra la Tabla 3.37. La
tabla incluye las medidas de asociación recién estudiadas. Cada medida aparece acompañada de su
correspondiente nivel crítico (sig. aproximada), el cual permite decidir sobre la hipótesis de inde-
pendencia: puesto que el nivel crítico de todas las medidas listadas es muy pequeño (menor que 0,0005
en todos los casos), se puede rechazar la hipótesis nula de independencia y concluir que las variables
sexo y grupos de salario están relacionadas. Junto con el valor de cada medida de asociación aparece
una tipificación o estandarización del mismo (T aproximada) que se obtiene dividiendo el valor de la
medida entre su error típico (calculado éste suponiendo independencia entre las variables). La tabla
muestra el error típico de cada medida calculado sin asumir independencia (error típico asintótico).
Estos errores típicos pueden utilizarse para construir intervalos de confianza utilizando los cuantiles
de la distribución normal tal como hemos hecho con otros estadísticos, es decir sumando y restando
a cada medida el producto de su error típico asintótico por el cuantil (1 ! α /2) de la distribución nor-
mal tipificada. Por último, la tabla ofrece algunas notas aclaratorias acerca de aspectos tales como bajo
qué condiciones se han hecho algunos cálculos, cómo se han obtenido algunos de los niveles críticos
que se ofrecen y, si procede, cuál es el motivo de que no se puedan realizar algunos cálculos.
Tabla 3.37. Medidas de asociación direccionales

Error típ. Sig.
a b
Valor asint. T aprox. aprox.
Lambda Simétrica ,402 ,043 7,748 ,000
Sexo dependiente ,516 ,036 11,156 ,000
Grupos de salario dependiente ,278 ,056 4,278 ,000
Tau de Goodman y Kruskal Sexo dependiente ,307 ,036 ,000c
Grupos de salario dependiente ,187 ,027 ,000c
Coeficiente de incertidumbre Simétrica ,196 ,026 7,503 ,000d
Sexo dependiente ,245 ,033 7,503 ,000d
Grupos de salario dependiente ,163 ,022 7,503 ,000d
c. Probabilidad del chi-cuadrado de la razón de verosimilitudes.
d. Probabilidad del chi-cuadrado de la razón de verosimilitudes.
Muestras pequeñas: la prueba exacta de Fisher

Con la mayoría de los estadísticos presentados en este capítulo se utilizan distribuciones muestrales
aproximadas (son estadísticos diseñados para trabajar con muestras razonablemente grandes). Con
muestras muy pequeñas es preferible utilizar distribuciones exactas en lugar de aproximadas. La prue-
ba exacta de Fisher (1935) permite trabajar con las probabilidades exactas de una tabla 2 × 2.
Si las frecuencias marginales de las filas y de las columnas se consideran fijas, las probabilidades
de cada casilla pueden obtenerse a partir del conjunto de posibles tablas 2 × 2 que pueden formarse
variando el tamaño de las frecuencias conjuntas de las casillas. Estas probabilidades coinciden con las
que ofrece la distribución hipergeométrica y no dependen de ningún parámetro desconocido.
Para unos totales marginales dados (fijos), n11 determina el valor de las otras tres casillas. Por tanto,
la distribución hipergeométrica expresa las probabilidades de las cuatro casillas de una tabla 2 × 2 úni-
camente a partir de n11. Cuando las filas son independientes de las columnas, la probabilidad exacta
asociada a n11 viene dada por
P (n11) = [3.37]
Para contrastar la hipótesis de independencia mediante la prueba exacta de Fisher, el nivel crítico p se
obtiene sumando las probabilidades de obtener frecuencias tan alejadas o más de la hipótesis de inde-
pendencia como las de hecho obtenidas.
En un experimento diseñado por el propio Fisher, a un colega suyo que afirmaba ser capaz de dis-
tinguir si en una taza de té con leche se había servido primero el té o la leche, le presentó aleatoriamente
8 tazas de té con leche con la única indicación de que en cuatro de ellas se había servido primero el té
y en las otras cuatro se había servido primero la leche. La Tabla 3.38 muestra un posible resultado.
Tabla 3.38. Frecuencias conjuntas y marginales de orden real por conjetura
Conjetura
Orden real Té Leche Total
Té 3 1 4
Leche 1 3 4
Total 4 4 8
Las frecuencias marginales de la tabla son fijas; y las frecuencias marginales de las filas y de las co-
lumnas son iguales porque el sujeto que realiza la conjetura sabe que hay cuatro tazas de cada tipo.
La hipótesis nula de independencia afirma que las conjeturas son independientes del orden real en
el que se ha servido el té y la leche; la hipótesis alternativa afirma que las conjeturas coinciden con el
orden real en el que se han servido el té y la leche. En este escenario, la distribución de n11 viene dada
por todas las tablas 2 × 2 con frecuencias marginales (4, 4) tanto para las filas como para las columnas.
Los posibles valores de n11 son cinco: 0, 1, 2, 3 y 4. De estos cinco posibles valores, solamente el va-
lor 4 se aleja más de la hipótesis de independencia que el resultado obtenido (3). Por tanto, la proba-
bilidad de obtener valores tan alejados o más de la hipótesis de independencia que el obtenido es la
probabilidad de obtener n11 = 3 más la probabilidad de obtener n11 = 4. Aplicando [3.37] se obtiene
P (n11 = 3) = = = = 0,2286
P (n11 = 4) = = = 0,0143
Por tanto, en el escenario definido por la Tabla 3.38, la probabilidad de que n11 tome un valor tan ex-
tremo o más que 3 vale:
p = P (n11 = 3) + P (n11 = 4) = 0,2286 + 0,0143 = 0,243
Puesto que p = 0,243 es mayor que 0,05, no parece razonable rechazar la hipótesis de independencia.
Solamente con el resultado n11 = 4 se obtendría un nivel crítico p menor que 0,05; por tanto, solamente
el resultado n11 = 4 llevaría a rechazar la hipótesis nula de independencia. El SPSS no tiene una opción
para elegir la prueba exacta de Fisher, pero la ofrece por defecto cuando se marca la opción Chi-cua-
drado del procedimiento Tablas de contingencias y la tabla analizada es una tabla 2 × 2.
Concordancias y discordancias en una tabla de contingencias
Al comparar las puntuaciones ordinales de dos casos cualesquiera puede ocurrir una de estas cinco posi-
bilidades (los cálculos están hechos con los datos de la Tabla 3.25):
1. Concordancias (C ): dos casos son concordantes cuando el primero puntúa más alto (o más bajo)
que el segundo tanto en X como en Y. Por ejemplo, los 73 casos de la casilla (1, 1) puntúan más
bajo, tanto en X como en Y, que los 30 de la casilla (2, 2). Al comparar los 73 casos de la casilla
(1, 1) con los 30 de la casilla (2, 2) se obtienen 73 (30) = 2.190 pares concordantes. También se
obtienen pares concordantes al comparar los 73 casos de la casilla (1, 1) con los 12 de la casilla
(2, 3), y con los 18 de la casilla (3, 2), y con los 80 de la casilla (3, 3). Por tanto, al comparar los
73 casos de la casilla (1, 1) con el resto de casos que puntúan más alto en ambas variables (casillas
con i > 1 y j > 1) se obtienen: 73 (30 + 12 + 18 + 80) = 10.220 pares concordantes.
Al comparar los 16 casos de la casilla (1, 2) con todos los demás casos que puntúan más alto
tanto en X como en Y (casillas con i > 1 y j > 2) se obtienen: 16 (12 + 80) = 1.472 pares concordan-
tes. Siguiendo con esta lógica, con los 18 casos de la casilla (2, 1) se obtienen: 18 (18 + 80) = 1.764
pares concordantes. Y con los 30 casos de la casilla (2, 2) se obtienen: 30 (80) = 2.400 pares con-
cordantes. Por tanto, el número total de pares concordantes de la tabla es:
= 10.220 + 1.472 + 1.764 + 2.400 = 15.856 pares concordantes
2. Discordancias (D): dos casos son discordantes entre sí cuando el primero puntúa más alto (o más
bajo) que el segundo en la variable X y más bajo (o más alto) en la variable Y. Por ejemplo, los 8
casos de la casilla (3, 1) puntúan más alto en X y más bajo en Y que los 30 de la casilla (2, 2). Al
comparar los 8 casos de la casilla (3, 1) con los 30 de la casilla (2, 2) se obtienen 8(30) = 240 pares
discordantes. Lo mismo ocurre al comparar los 8 casos de la casilla (3, 1) con los 12 de la casilla
(2, 3), con los 16 de la casilla (1, 2), y con los 3 de la casilla (1, 3). Por tanto, al comparar los 8
casos de la casilla (3, 1) con el resto de casos que puntúan más bajo en X y más alto Y (casillas con
i > 3 y j > 1) se obtienen: 8 (30 + 12 + 16 + 3) = 488 pares concordantes.
Al comparar los 16 casos de la casilla (3, 2) con todos los demás casos que puntúan más bajo
en X y más alto en Y (casillas con i < 3 y j > 2) se obtienen: 18 (12 + 3) = 270 pares discordantes.
Siguiendo la misma lógica, con los 18 casos de la casilla (2, 1) se obtienen: 18(16 + 3) = 342 pares
discordantes. Y con los 30 casos de la casilla (2, 2) se obtienen: 30(3) = 90 pares discordantes. Por
tanto, el número total de pares concordantes de la tabla es:
= 488 + 270 + 342 + 90 = 1.190 pares discordantes
3. Empates en X (EX): dos casos están empatados en X cuando sus valores en X son iguales y sus va-
lores en Y distintos. Por tanto, cada caso está empatado en X con todos los casos que se encuentran
en su misma fila. Los 73 casos de la casilla (1, 1) están empatados en X con los 16 + 3 = 19 de su
misma fila; y los 16 casos de la casilla (1, 2) están empatados en X con los 3 casos de su misma
fila. Por tanto, en la primera fila hay 73 (19) + 16 (3) = 1.435 empates en X. Haciendo lo mismo en
la segunda fila se obtienen 18(42) + 30(12) = 1.116 empates. Y en la tercera, 8(98) + 18(80) = 2.224.
Por tanto, el número total de empates en X es:
= 1.435 + 1.116 + 2.224 = 4.775 pares empatados en X
4. Empates en Y (EY): dos casos están empatados en Y cuando sus valores en Y son iguales y sus va-
lores en X distintos. Por tanto, cada caso está empatado en Y con todos los casos que se encuentran
en su misma columna. Aplicando a las columnas la misma lógica aplicada en el párrafo anterior
a las columnas se obtienen, para toda la tabla:
= 2.042 + 1.308 + 1.236 = 4.586 pares empatados en Y
5. Empates en X e Y (EXY): dos casos están empatados en X e Y cuando sus valores son los mismos
en ambas variables. Por tanto, cada caso está empatado en X e Y con el resto de casos que se
encuentran en su misma casilla. El número de comparaciones entre los nij casos de la misma casilla
viene dado por las combinaciones de nij elementos tomados de dos en dos: nij (nij ! 1) / 2. Entre los
73 casos de la casilla (1, 1) hay 73(72)/2 = 2.628 pares empatados en X e Y; en la casilla (1, 2) hay
16 (15) / 2 = 120 pares empatados; etc. Por tanto, el número total de pares empatados en X e Y es:
= 2.628 + 120 + 3 + 153 + 435 + 66 + 28 + 153 + 3.160 = 6.746 pares empatados en X e Y
Al comparar cada caso con cada otro, el número de comparaciones que pueden hacerse viene dado por
las combinaciones de n casos tomados de dos en dos, es decir: n (n ! 1) / 2 = 258 (257) / 2 = 33.153.
Este resultado es el que debe obtenerse al sumar el número de pares concordantes, discordantes y
empatados: 15.856 + 1.190 + 4.775 + 4.586 + 6.746 = 33.153.
Cómo reproducir una tabla de contingencias en SPSS

La Tabla 3.36 es un ejemplo de tabla de contingencias bidimensional 2 × 4. Para reproducir los datos
de esta tabla en el Editor de datos del SPSS no es necesario crear un archivo con 500 filas (una por cada
caso de la tabla); basta con crear 2 × 4 = 8 casos, es decir, uno por cada casilla de la tabla. Como con-
trapartida, hay que crear tres variables (es decir, una más que el número de variables de la tabla).
La Figura 3.2 muestra cómo trasladar al Editor de datos la información de la Tabla 3.36. Se han
creado tres variables: sexo, salario y ncasos. La parte izquierda de la figura muestra los valores asig-
nados a las categorías de cada variable; la parte derecha muestra las etiquetas de esos valores. A las
categorías de la variable sexo (etiqueta de variable = «Sexo») se han asignado los valores 1 y 2 con las
siguientes etiquetas: 1 = «Hombres» y 2 = «Mujeres». A las categorías de la variable salario (etiqueta
de variable = «Grupos de salario (en miles de euros)») se han asignado los valores 1, 2, 3 y 4, con las
siguientes etiquetas: 1 = «< 15», 2 = «15 - 30», 3 = «30 - 45» y 4 = «> 45».
Figura 3.2. Datos de la Tabla 3.36 reproducidos en el Editor de datos (izquierda: valores; derecha: etiquetas)
Para que los 8 casos del archivo de la Figura 3.2 puedan convertirse en los 500 de la Tabla 3.36 es
necesario crear, además de las variables sexo y salario, una tercera variable con las frecuencias de cada
casilla. En el ejemplo, a esta tercera variable se le ha asignado el nombre ncasos, pero se le puede
asignar cualquier nombre válido.
Hecho esto, para reproducir la Tabla 3.36 en el Visor de resultados a partir de los datos que mues-
tra el Editor de datos de la Figura 3.2:
' Seleccionar la opción Ponderar casos del menú Datos para acceder al cuadro de diálogo Ponderar
casos, marcar la opción Ponderar casos mediante y trasladar la variable ncasos al cuadro Variable de
frecuencia.
' Seleccionar la opción Estadísticos descriptivos > Tablas de contingencias del menú Analizar para ac-
ceder al cuadro de diálogo Tablas de contingencias y trasladar la variable sexo a la lista Fila y la
variable salario a la lista Columna.
Aceptando estas elecciones, el Visor de resultados genera la tabla de contingencias que muestra la
Tabla 3.39. Puede comprobarse que esta tabla es idéntica a la Tabla 3.36. A pesar de que el archivo
de datos solamente contiene 8 casos, al ponderar el archivo mediante la variable ncasos, los 8 casos
del archivo reproducido en la Figura 3.2 se han convertido en los 500 de la Tabla 3.36.
Tabla 3.39. Distribución del salario por sexos
Recuento
Grupos de salario
< 20 20 - 40 40 - 60 > 60 Total
Sexo Hombres 19 186 28 17 250
Mujeres 148 84 16 2 250
Total 167 270 44 19 500
La Tabla 3.29 nuestra un ejemplo de tabla de contingencias tridimensional 2 × 2 × 2. Para reproducir

los datos de esta tabla en el Editor de datos del SPSS no es necesario crear un archivo de datos con los
1.150 casos de la tabla; basta con crear 2 × 2 × 2 = 8 casos, es decir, uno por cada casilla de la tabla.
Como contrapartida, en lugar de tres variables (sexo, tabaco, infarto) hay que crear cuatro, es decir,
una más que el número de variables de la tabla. La Figura 3.3 muestra cómo hacer esto. Ponderando
el archivo de la Figura 3.3 con la variable ncasos, los 8 casos (8 filas) del archivo se convierten en los
1.150 casos de la Tabla 3.29.
Figura 3.3. Datos de la Tabla 3.29 reproducidos en el Editor de datos (izquierda: valores; derecha: etiquetas)
3.1. La siguiente tabla recoge algunos datos extraídos de una encuesta realizada a 240 jóvenes madrileños
de edades comprendidas entre 15 y 25 años:
Beben
Fuman Sí No Total
Sí 64 16 80
No 32 128 160
Total 96 144 240
El investigador A está interesado en averiguar si la variable fumar está relacionada con la variable
beber. El investigador B está interesado en averiguar si la proporción de bebedores entre los que fuman
difiere o no de la proporción de bebedores en el grupo de los que no fuman:
a. ¿Qué hipótesis nula debe contrastar el investigador A para obtener la información que le interesa?
¿Y el investigador B ?
b. ¿Qué procedimiento estadístico debe utilizar el investigador A para contrastar su hipótesis nula?
¿Y el investigador B ?
3.2. Siguiendo con los datos del ejercicio anterior, el investigador C quiere saber si la proporción de fu-
madores difiere de la proporción de bebedores:
a. ¿Qué hipótesis nula debe contrastar?
b. ¿Qué procedimiento estadístico debe utilizar para contrastar esa hipótesis?
c. Aplicar el procedimiento elegido, tomar una decisión sobre la hipótesis nula planteada (α = 0,05)
y concluir.
3.3. En uno de los primeros estudios sobre tabaquismo y cáncer de pulmón se tomaron datos de pacientes
con cáncer de pulmón ingresados durante el último año en 20 hospitales de Londres. En todos los pa-
cientes se registró si consumían o no tabaco (al menos un cigarrillo al día durante al menos un año).
Por cada paciente con cáncer de pulmón se incluyó en el estudio un paciente ingresado en el mismo
hospital sin cáncer de pulmón, del mismo sexo y del mismo grupo de edad (no más de 5 años de dife-
rencia). La siguiente tabla muestra los resultados obtenidos.
Cáncer de pulmón
Tabaquismo Sí No Total
Fumadores 688 650 1.338
Total 709 709 1.418
a. Se trata de un diseño de cohortes (hacia delante) o de casos y controles (hacia atrás)?

b. Con estos datos, ¿cómo puede estimarse el riesgo relativo de padecer cáncer de pulmón entre los
fumadores?
c. ¿Puede afirmarse que el tabaquismo está relacionado con el cáncer de pulmón? (α = 0,05).
d. ¿Puede concluirse que el tabaco produce cáncer de pulmón?
3.4. Los datos de una encuesta de contenido socio-demográfico se han utilizado para clasificar una muestra
aleatoria de 240 sujetos según su salario y su nivel educativo. La siguiente tabla muestra los resulta-
dos obtenidos:
Nivel de estudios
Grupos de salario 1. Primarios 2. Secundarios 3. Medios 4. Superiores Total
1. < 15.000 15 48 10 2 75
2. 15.001 - 30.000 10 46 66 4 126
3. > 30.000 3 2 14 20 39
Total 28 96 90 26 240
El objetivo del estudio es averiguar si los niveles educativos más altos (bajos) tienden a ir acompaña-
dos de salarios más altos (bajos):
a. ¿Qué hipótesis estadística corresponde a la hipótesis de investigación del estudio?
b. ¿Qué estadístico puede utilizarse para contrastar la correspondiente hipótesis nula?
c. Calcular ese estadístico utilizando el SPSS e interpretar el resultado del contraste (α = 0,05).
3.5. Teniendo en cuenta los resultados obtenidos en el ejercicio anterior ¿cuál de las siguientes afirmacio-
nes es verdadera y cuál falsa?
a. El salario depende del nivel educativo.
b. El salario no depende del nivel educativo.
c. El salario no está relacionado con el nivel educativo.
d. Ha quedado probado de forma inequívoca que el salario está relacionado con el nivel educativo.
e. No existe evidencia suficiente para poder afirmar que el salario está relacionado con el nivel edu-
cativo.
3.6. De una encuesta realizada a 400 personas se han extraído los datos relativos a dos preguntas: X = «¿Con
qué frecuencia recicla vidrio, papel, latas, envases etc.?», Y = «¿Con qué frecuencia consume frutas
y verduras ecológicas?» Las respuestas se han codificado como: 1 = «nunca o casi nunca», 2 = «algu-
nas veces», 3 = «habitualmente». La siguiente tabla muestra los resultados obtenidos:
Consume productos ecológicos

Recicla 1 2 3 Total
1 12 19 2 33
2 115 170 14 165
3 16 124 22 202
Total 190 312 98 400
Utilizar el SPSS para:

a. Calcular el coeficiente de correlación tau-b y contrastar la hipótesis nula de que X e Y son lineal-
mente independientes (α = 0,05). Interpretar el resultado del contraste.
b. Calcular el índice de acuerdo kappa. Interpretar el resultado.
c. Calcular el índice de acuerdo kappa ponderado. Comparar el resultado con el del apartado anterior.
3.7. Seguimos con los datos del ejercicio anterior, pero descartando a los sujetos de la primera categoría
de ambas variables, es decir, quedándonos únicamente con los sujetos que han respondido a ambas pre-
guntas “algunas veces” (2) o “habitualmente” (3):
a. ¿Qué hipótesis nula debemos contrastar para decidir si la proporción de personas que reciclan ha-
bitualmente difiere de la proporción de personas que consumen productos ecológicos habitual-
mente.
b. Contrastarla e interpretar el resultado (α = 0,05).
c. Calcular el intervalo de confianza para la diferencia entre ambas proporciones.
3.8. Algunos datos recogidos durante los últimos años indican que la odds de sobrevivir a un accidente de
tráfico es 1,75 veces mayor entre los hombres que entre las mujeres.
a. Sabiendo que la odds de sobrevivir entre los hombres vale 5,25, averiguar la proporción de perso-
nas que sobrevive de cada sexo.
b. Encontrar el valor de k en la expresión “la proporción de hombres que sobreviven es k veces ma-
yor que la de mujeres que sobreviven”.
3.9. Un psicólogo cree que la opinión que un paciente tiene sobre su terapeuta va cambiando a más favora-
ble a medida que avanza el proceso terapéutico. El psicólogo tiene, incluso, algunos datos relacionados
con esa hipótesis: preguntó a 30 pacientes su opinión sobre el terapeuta recién iniciada la terapia y en-
contró 18 opiniones favorables; preguntó a los mismos 30 pacientes su opinión sobre el terapeuta a
punto de finalizar la terapia y encontró 26 opiniones favorables, siendo 11 los pacientes que habían
cambiado su opinión de desfavorable a favorable. El problema de nuestro psicólogo es que cuando era
estudiante no prestó suficiente atención a la asignatura Análisis de datos y ahora se encuentra con que
no sabe qué hacer o cómo interpretar los datos que tiene. Se trata de que nosotros le demos nuestra opi-
nión fundamentada sobre su sospecha de que la opinión de los pacientes va cambiando a más favora-
ble a medida que avanza el proceso terapéutico (α = 0,05).
3.10. Hemos seleccionado una muestra aleatoria de 100 historias clínicas de niños recién nacidos y las hemos
clasificado utilizando dos criterios. El primero, si la madre ha fumado o no durante la gestación (varia-
ble con dos niveles: madre fumadora y madre no fumadora); el segundo, el peso del niño al nacer (va-
riable con dos niveles: menos de 2,5 kg y más de 2,5 kg). Hemos encontrado los resultados que muestra
la siguiente tabla.
Peso al nacer
Madre fumadora 2,5 kg o menos Más de 2,5 kg
Sí 15 5
No 16 64
Estamos interesados en averiguar si el peso de los recién nacidos está relacionado con el hecho de que
la madre haya fumado o no durante la gestación.
a. ¿Qué hipótesis nula habría que plantear?
b. Estimar, utilizando el índice apropiado, el riesgo relativo del suceso “pesar menos de 2,5 kg” en
los recién nacidos de madres fumadoras. Interpretar el resultado.
c. Obtener el intervalo de confianza para el índice utilizado en el apartado anterior (α = 0,05).
3.11. Antes de comenzar un debate sobre la conveniencia de legalizar o no las drogas, se preguntó a 50 per-
sonas si estaban o no a favor de la legalización, resultando que 20 de ellas se mostraron a favor y las
restantes en contra. Tras el debate, se volvió a hacer la misma pregunta a las mismas 50 personas,
encontrando que ahora eran 26 las que se mostraban a favor y que 7 de las que al principio estaban en
contra ahora estaban a favor. A partir de estos datos y utilizando α = 0,05, se desea averiguar si la pro-
porción de personas que se muestran a favor de la legalización de las drogas ha cambiado tras el debate.
3.12. Dos psiquiatras han evaluado a 25 pacientes para determinar cuáles de ellos tienen pseudoalucinacio-
nes y cuáles no. El informe de los psiquiatras únicamente incluye un “sí” cuando consideran que el
paciente sufre pseudoalucinaciones y un “no” cuando consideran que no las sufre. La siguiente tabla
resume los datos de los informes de ambos psiquiatras. ¿Puede afirmarse que entre los dos psiquiatras
existe un acuerdo significativamente mayor que el que cabría esperar por azar? (α = 0,05).
Psiquiatra 2
Psiquiatra 1 Sí No Total
Sí 12 6 18
No 2 5 7
Total 14 11 25
3.13. En una encuesta realizada a 670 españoles adultos, el 38 % de los encuestados manifiesta creer en que
los espíritus habitan entre nosotros y el 32 % manifiesta creer en la astrología. Si estuviéramos inte-
resados en comparar estos porcentajes, ¿cuál de las siguientes pruebas podríamos utilizar? (Razonar
la elección).
a. La prueba X 2 de Pearson sobre independencia.

b. La prueba de McNemar sobre simetría.
c. El índice de acuerdo kappa de Cohen.
d. La odds ratio.
3.14. ¿Cuál de las siguientes afirmaciones es correcta?

a. Si la odds de un suceso vale 4, su probabilidad vale 0,60.
b. Si la probabilidad de un suceso vale 0,75, su odds vale 2.
c. Si la odds ratio de un suceso vale 3, entonces el suceso es 3 veces más probable en el grupo del
numerador que en el del denominador.
d. Todas las anteriores alternativas son falsas.
3.15. El cociente entre las odds de un suceso en los grupos 1 y 2 vale 3. Si la probabilidad del suceso vale
0,60 en el grupo 1, ¿cuánto vale la probabilidad del suceso en el grupo 2?
3.16. En cada cohorte de edad, la tasa de mortalidad es mayor en la ciudad A que en la B. Sin embargo, la
tasa de mortalidad global es más alta en la ciudad B. ¿Es esto posible? ¿Por qué? (en caso necesario,
revisar el apartado La paradoja de Simpson en el Apéndice 3).
4
Inferencia con una variable
categórica y una cuantitativa
El análisis de una variable categórica y una cuantitativa lo hemos iniciado en el Capítulo 11

del primer volumen al estudiar uno de los estadísticos más conocidos y utilizados: la prueba
T de Student para muestras independientes.
Recordemos que trabajar simultáneamente con una variable categórica y una cuantitativa
significa, por lo general, trabajar con una variable que define grupos (la categórica) y una
variable en la cual se desea comparar los grupos (la cuantitativa). Si la variable categórica
tiene dos categorías y, por tanto, define dos grupos, lo habitual es aplicar la prueba T de Stu-
dent para muestras independientes; si la variable categórica tiene más de dos categorías y,
por tanto, define más de dos grupos, lo habitual es aplicar el análisis de varianza de un fac-
tor (ver Cuadro 1.1).
La prueba T para muestras independientes ya la hemos estudiado en el Capítulo 11 del
primer volumen (la repasaremos aquí brevemente). Y el análisis de varianza de un factor lo
estudiaremos más adelante en el Capítulo 6. En este capítulo nos vamos a ocupar de algunos
procedimientos diseñados para comparar grupos en una variable cuantitativa cuando no se
dan las condiciones apropiadas (normalidad, igualdad de varianzas, variable cuantitativa de
intervalo o razón) para poder aplicar con suficientes garantías la prueba T de Student y el
análisis de varianza de un factor. En concreto vamos a estudiar la prueba de Mann-Whitney
(para cuando la variable categórica tiene dos niveles) y la prueba de Kruskal-Wallis (para
cuando la variable categórica tiene más de dos niveles). Estos procedimientos permiten
comparar dos o más grupos de puntuaciones independientemente de que el diseño sea obser-
vacional, correlacional o experimental1.
1
Quizá no esté de más volver a recordar que las pruebas estadísticas diseñadas para comparar grupos (y lo mismo vale decir
de cualquier otra herramienta inferencial) únicamente permiten averiguar si los grupos difieren; no permiten ir más allá. Para
poder afirmar que las diferencias encontradas reflejan una relación de naturaleza causal es necesario atenerse a las carac-
terísticas del diseño. Y ya hemos señalado (ver, en el Capítulo 1 del primer volumen, el apartado Niveles de indagación;
y en el Capítulo 12 del primer volumen, el apartado Relación y causalidad) que solamente en el contexto de los diseños
experimentales es posible hacer afirmaciones sobre la naturaleza causal de una relación (al margen, por supuesto, de la po-
sible existencia de alguna teoría bien fundamentada de la que se deriven tales afirmaciones).
También estudiaremos cómo estimar el tamaño del efecto al comparar grupos en una
variable cuantitativa y, relacionado con esto, cómo llevar a cabo contrastes de equivalencia
y no-inferioridad, cuestión de especial utilidad en contextos clínicos en los que no es in-
frecuente tener que valorar la eficacia de un nuevo tratamiento comparándolo con otro ya
existente o estándar para demostrar, no que el nuevo tratamiento es mejor que el estándar
(esto puede hacerse mediante un contraste convencional), sino que el nuevo tratamiento es,
como mínimo, tan eficaz como el estándar (cosa muy distinta).
La prueba T de Student para muestras independientes

Esta prueba ya la hemos estudiado en el Capítulo 11 del primer volumen. Aquí nos vamos a
limitar a recordar que se trata de la herramienta estadística más conocida y utilizada para
comparar dos grupos, y a repasarla brevemente. Su utilidad radica justamente en la hipóte-
sis nula que permite contrastar:
H 0: ! = k0 [4.1]
El contraste de esta hipótesis se traduce en la posibilidad de comparar dos grupos en una

variable cuantitativa. Cuando, como es habitual, k0 = 0, la hipótesis [4.1] se reduce a
H 0: ! = 0 ÷ H 0: = [4.2]
Para contrastar [4.1] o [4.2] se utiliza una tipificación de la diferencia entre las medias mues-
trales que es la que da nombre al procedimiento:
= [4.3]
La diferencia entre las medias poblacionales del numerador de [4.3] es justamente el valor
propuesto en la hipótesis nula. Y la forma de estimar el error típico del denominador depende
de si puede o no asumirse que las varianzas poblacionales son iguales. Si puede asumirse que
lo son, únicamente será necesario estimar un parámetro ( ). Y puesto que los dos estima-
dores de ese parámetro ( y ) son independientes entre sí, pues proceden de muestras
independientes, lo más razonable será combinar ambos para obtener una única estimación de
. Si no puede asumirse que las varianzas poblacionales son iguales, no tendrá sentido
realizar una única estimación a partir de la combinación ponderada de los dos estimadores
disponibles. Lo razonable será, más bien, utilizar cada varianza muestral como estimador de
la varianza de su propia población (ver, en el Capítulo 11 del primer volumen, el apartado La
prueba T de Student para muestras independientes). Esto significa que existen dos versiones
del estadístico [4.3]: una para cuando puede asumirse que las varianzas poblacionales son
iguales y otra para cuando no puede asumirse tal cosa. Y ambas permiten tomar decisiones
sobre la hipótesis de igualdad de medias porque tienen distribución muestral conocida:
T Í tgl [4.4]
Los grados de libertad, gl, varían dependiendo de la forma de estimar el denominador de la
ecuación [4.3] (ver Capítulo 11 del primer volumen).
Capítulo 4. Inferencia con una variable categórica y una cuantitativa 131
Con la prueba T se están comparando las medias de dos poblaciones a partir de las medias
muestrales obtenidas en muestras aleatorias extraídas de esas poblaciones. Para que el proce-
dimiento funcione bien (es decir, para que el estadístico T se distribuya tal como se dice que
se distribuye) es necesario que las poblaciones muestreadas sean normales. Con muestras
grandes, el incumplimiento de este supuesto no afecta a las conclusiones del contraste; pero
con muestras pequeñas pierde precisión. En estos casos es preferible utilizar procedimientos
que no asumen normalidad.
Ejemplo. La prueba T de Student para muestras independientes

Un educador sospecha que los niños con problemas perceptivos aumentan su rendimiento, con
entrenamiento adecuado, en preguntas del test Raven (Y ) que habitualmente no resuelven por
carecer de las estrategias adecuadas. Con el fin de obtener alguna evidencia sobre su sospe-
cha ha seleccionado una muestra aleatoria de 20 niños con problemas perceptivos y los ha
repartido, también aleatoriamente, en dos grupos. A un grupo (experimental) lo ha entrenado
durante 2 meses en tareas de percepción de formas; el otro grupo no ha recibido entrena-
miento (control). Terminado el entrenamiento, ha pasado a todos los sujetos el test Raven para
obtener una medida del su rendimiento individual. La Tabla 4.1 muestra los resultados ob-
tenidos. ¿Permiten estos datos afirmar que los sujetos entrenados en percepción de formas
rinden mejor en el test Raven que los sujetos no entrenados? (α = 0,05).
Tabla 4.1. Resultados del test Raven
Grupos Sujetos nj
1 = Experimental 64 63 74 65 74 85 78 76 69 70 10 71,8 6,96

2 = Control 60 62 70 61 67 70 64 71 60 63 10 64,8 4,34
Tenemos una variable categórica (grupo) con dos niveles (1 = «experimental», 2 = «control»)
y una variable cuantitativa (Y = «puntuaciones en el test Raven») en la cual se desea comparar
los grupos. Por tanto, tenemos una situación susceptible de ser analizada mediante la prueba
T de Student para muestras independientes:
1. Hipótesis: H0: $
< ; H 1: > (contraste unilateral derecho).
2. Supuestos: asumimos que las puntuaciones en el test Raven se distribuyen normalmente
en las dos poblaciones; desconocemos las varianzas poblacionales pero asumimos que son
iguales; las muestras se han seleccionado de forma aleatoria e independientemente una de
otra.
3. Estadístico del contraste:
= = = =
4. Distribución muestral: T se distribuye según t con gl = n1 + n2 ! 2 = 10 + 10 ! 2 = 18.

$ t18; 0,95 = 1,734.
5. Zona crítica: T >
6. Decisión: como 2,70 > 1,734, se rechaza H0. Se puede concluir que el promedio de los
sujetos entrenados (grupo experimental) es significativamente más alto que el de los suje-
tos no entrenados (grupo control).
$ 2,70) < 0,01.
7. Nivel crítico: p = P(T >
La prueba de Mann-Whitney
La prueba de Mann-Whitney2 sirve, al igual que la T de Student para muestras independien-
tes, para comparar dos grupos en una variable cuantitativa. Sirve, por tanto, para valorar la
eficacia de dos tratamientos, o para comparar un grupo experimental con un grupo control,
o dos colectivos distintos (hombres y mujeres; fumadores y no fumadores; etc.) en alguna
variable de interés. Representa una excelente alternativa a la prueba T de Student cuando se
incumple el supuesto de normalidad o cuando no es apropiado utilizar la prueba T porque el
nivel de medida de la variable cuantitativa es ordinal (ver Blair, Higgins y Smitley, 1980).
Consideremos dos muestras de tamaños n1 y n2 extraídas aleatoria e independiente-
mente de sus respectivas poblaciones Y1 e Y2 . Mezclando las N = n1 + n2 observaciones y
asignando rangos R i a las N puntuaciones como si se tratara de una sola muestra (un 1 a la
más pequeña, un 2 a la más pequeña de las restantes, ..., un N a la más grande, resolviendo
los empates asignando el rango promedio), se obtendrán n1 rangos R i 1 (los n1 rangos asig-
nados a las observaciones de la muestra Y1) y n2 rangos R i 2 (los n2 rangos asignados a las
observaciones de la muestra Y2). Entre los diferentes estadísticos que podrían definirse en este
escenario, consideremos estos dos:
S1 = y S2 = [4.5]
S1 representa la suma de los rangos asignados a la muestra Y1 y S2 la de los rangos asignados

a la muestra Y2. Como la suma de N rangos vale N (N + 1) / 2 (ver la nota a pie de página nú-
mero 1 del Capítulo 2), se verifica que
S1 + S2 = N (N +1) / 2 [4.6]
2
El procedimiento que se describe en este apartado con el nombre prueba de Mann-Whitney fue originalmente propuesto
por Wilcoxon (1945) para el caso de grupos del mismo tamaño. Festinger (1946) desarrolló independientemente un proce-
dimiento equivalente al de Wilcoxon. Pero fueron Mann y Whitney (1947) los primeros en extender el procedimiento al caso
de grupos de tamaños distintos y los primeros también en elaborar tablas para poder utilizarlo con muestras pequeñas. Fue-
ron precisamente las aportaciones de Mann y Whitney las que más contribuyeron a la divulgación del procedimiento; de
ahí que, generalmente, se presente como prueba de Mann-Whitney. Sin embargo, en ocasiones, este procedimiento puede
encontrarse con la denominación de prueba de Wilcoxon-Mann-Whitney; también puede encontrarse como prueba de Wil-
coxon para muestras independientes, la cual no debe confundirse con la prueba de Wilcoxon para una muestra (ya estudiada
en el capítulo anterior) ni con la prueba de Wilcoxon para dos muestras relacionadas (que estudiaremos en el próximo
capítulo).
Si asumimos que las dos muestras se han extraído de la misma población o de dos poblacio-
nes idénticas, cabe esperar que S1 y S2 sean aproximadamente iguales (excepto, claro está,
en la parte atribuible a las fluctuaciones propias del azar muestral). Si los valores de S1 y S2
fueran muy distintos, habría una buena razón para sospechar que las muestras proceden de
poblaciones distintas3. Por tanto, S1 y S2 contienen información sobre la hipótesis de que am-
bos promedios poblacionales son iguales. No obstante, para poder utilizar estas sumas como
estadísticos de un contraste, es necesario conocer sus distribuciones muestrales. Ahora bien,
según [4.6], S1 y S2 son complementarios respecto de N (N + 1) / 2. Por tanto, no es necesario
trabajar con ambos; nos centraremos en S1 y lo llamaremos U (que es la forma habitual de
identificar el estadístico de Mann-Whitney):
U = S1 [4.7]
Con muestras pequeñas es relativamente sencillo obtener la distribución muestral exacta del
estadístico U a partir de los posibles valores que puede tomar la suma de n1 rangos (ver, por
ejemplo, San Martín y Pardo, 1989, págs. 122-124). La Tabla O del Apéndice final ofrece
algunos cuantiles de las distribuciones exactas de U para valores de n1 y n2 iguales o meno-
res que 20. La tabla únicamente ofrece los puntos críticos uα de la cola izquierda de cada
distribución muestral. No obstante, los puntos críticos de la cola derecha pueden obtenerse
mediante u1 ! α = n1 (N + 1) ! uα .
Con tamaños muestrales más grandes puede utilizarse una tipificación4 del estadístico U
basada en su valor esperado y en su error típico (ver, por ejemplo, San Martín y Pardo, 1989,
págs. 124-125):
=
Z = con [4.8]
=
La distribución de la transformación Z se aproxima a N (0, 1) tanto más cuanto mayores son

los tamaños muestrales5. Varios trabajos (ver, por ejemplo, Conover y Kemp, 1976) coinci-
den en señalar que la prueba de Mann-Whitney (tanto en su versión exacta, U, como en su
3
Si las dos poblaciones tienen la misma forma, una fuerte discrepancia entre S1 y S2 estaría indicando, efectivamente, que
los promedios poblacionales no son iguales. Si no puede asumirse que las dos poblaciones tienen la misma forma, una fuerte
discrepancia entre S1 y S2 estaría indicando que P (X < Y ) =/ P (X > Y ) =/ 0,5 (ver Conover, 1980, págs. 224-225). Y esto im-
plica que las distribuciones poblacionales no tienen la misma forma.
4
Existen diferentes versiones de los estadísticos U y Z (ver, por ejemplo, San Martín y Pardo, 1989, pág. 126; o Marascuilo
y McSweeney, 1977, págs. 267-278), pero todas ellas son equivalentes y conducen al mismo resultado.
5
En el caso de que al asignar rangos a las puntuaciones originales existan empates (puntuaciones a las que les corresponde
el mismo rango), la aproximación del estadístico Z a la distribución normal mejora si se incorpora al error típico una correc-
ción que tiene en cuenta el número de puntuaciones empatadas:
[4.9]
(k se refiere al número de rangos distintos empatados y ti al número de puntuaciones empatadas en el rango i). Este error
típico apenas difiere del propuesto en [4.8] cuando existen pocos empates o cuando en cada empate no intervienen más de
dos puntuaciones.
versión aproximada, Z) representa una excelente alternativa a la prueba T de Student cuan-

do no se dan las condiciones idóneas para aplicar ésta. El Cuadro 4.1 ofrece un resumen del
procedimiento.
Cuadro 4.1. Resumen de la Prueba de Mann-Whitney
1. Hipótesis:
a. Contraste bilateral: H0: E (Y1) = E (Y2); H1: E (Y1) =/ E (Y2).
b. Contraste unilateral derecho: H0: E (Y1) <$ E (Y2); H1: E (Y1) > E (Y2).
$ E (Y2); H1: E (Y1) < E (Y2).
c. Contraste unilateral izquierdo: H0: E (Y1) >
2. Supuestos: tenemos una variable al menos ordinal medida en dos muestras de tamaños
n1 y n2 seleccionadas aleatoria e independientemente de dos poblaciones con la misma
forma: F (Y1) = F (Y2).
3. Estadísticos del contraste (ver [4.5] y [4.8]):
3.1. U = S1 =
3.2. Z =
4.1. La Tabla O del Apéndice final ofrece la distribución muestral exacta de U. La
tabla únicamente incluye los puntos críticos uα de las colas izquierdas de las
correspondientes distribuciones muestrales. Los puntos críticos de las colas de-
rechas pueden obtenerse mediante: u1 ! α = n1 (N + 1) ! uα .
4.2. La distribución de Z se aproxima a N (0, 1) a medida que los tamaños mues-
trales van aumentando.
5. Zona crítica:
a.1. U < u α/2 y U > u1 ! α/2 .
a.2. Z <$ Z α/2 y Z $> Z1 ! α/2 .
b.1. U > u1 ! α .
$ Z1 ! α .
b.2. Z >
c.1. U < u α .
$ Zα .
c.2. Z <
6. Regla de decisión: rechazar H0 si el estadístico del contraste cae en la zona crítica;
en caso contrario, mantenerla.

$ *Zh*)], siendo Zh el valor concreto que toma el
a. Contraste bilateral: p = 2 [P (Z >
estadístico Z.
b. Contraste unilateral derecho: p = P (Z >$ Zh).
c. Contraste unilateral izquierdo: p = P (Z <$ Zh).
Ejemplo. La prueba de Mann-Whitney

Veamos qué nos dice la prueba de Mann-Whitney sobre los datos ya analizados con la prue-
ba T de Student (ver Tabla 4.1). Recordemos que tenemos una muestra aleatoria de 20 niños
con problemas perceptivos repartidos en dos grupos. Un grupo (experimental) ha sido entre-
nado durante 2 meses en tareas de percepción de formas; el otro grupo (control) no ha reci-
bido entrenamiento. Terminado el entrenamiento, se ha obtenido una medida del rendimien-
to individual de los sujetos. ¿Permiten estos datos afirmar que los sujetos entrenados (grupo
experimental) rinden mejor que los no entrenados (grupo control)? (α = 0,05).
Tenemos una variable categórica (grupo) con dos niveles (1 = «experimental», 2 = «control»)
y una variable cuantitativa (Y = «puntuaciones en el test Raven») en la cual se desea compa-
rar los grupos. Estos datos ya los hemos analizado en el apartado anterior con la prueba T de
Student para muestras independientes. Ahora vamos a analizarlos con la prueba de Mann-
Whitney:
$ E (Y2);
1. Hipótesis: H0: E (Y1) <
H1: E (Y1) > E (Y2) (contraste unilateral derecho).
2. Supuestos: asumimos que las puntuaciones de ambos grupos son muestras aleatorias de
poblaciones que tienen la misma forma.
3. Estadísticos del contraste. Aunque, dado el tamaño de los grupos, bastaría con utilizar el
estadístico U (ecuaciones [4.5] y [4.7] ), también vamos a utilizar el estadístico Z (ecua-
ción [4.8]) para ilustrar cómo se aplica. La Tabla 4.2 recoge el resultado de asignar ran-
gos de 1 a 20 a las puntuaciones de la Tabla 4.1 (los empates se han resuelto asignando
el rango promedio correspondiente a las puntuaciones empatadas).
Tabla 4.2. Rangos correspondientes a las puntuaciones de la Tabla 4.1
Grupos Rangos Suma

1 = Experimental 7,5 5,5 16,5 9 16,5 20 19 18 11 13 136
2 = Control 1,5 4 13 3 10 13 7,5 15 1,5 5,5 74
3.1. Aplicando [4.5] y [4.7]: U = S1 = 136.
3.2. Aplicando [4.8]: Z = = = = .

En el caso de que se desee obtener el estadístico Z utilizando el error típico que incluye
la corrección por empates hay que aplicar6 la ecuación [4.9].
4.1. U ÷ Tabla O del Apéndice final.
4.2. Z se aproxima a N (0, 1).
5. Zonas críticas:
5.1. U > u 0,95 = n1 (N + 1) ! u0,05 = 10 (20 + 1) ! 83 = 127.
5.2. Z $
> Z1 ! 0,05 = Z0,95 = 1,645.
6. Decisión:
6.1. Como 136 > 127, se rechaza H0.
6.2. Como 2,34 > 1,645, se rechaza H0.
Ambos estadísticos llevan a la misma decisión. Se puede concluir, por tanto, que el pro-
medio de los sujetos entrenados (grupo experimental) es significativamente más alto que
el de los sujetos no entrenados (grupo control).
$ 2,34) = 0,0096.
7. Nivel crítico: p = P(Z >
La prueba de Mann-Whitney con SPSS

La prueba de Mann-Whitney se encuentra en la opción Pruebas no paramétricas > Dos muestras
independientes del menú Analizar. El SPSS calcula tanto el estadístico U como el estadístico
Z y sus correspondientes niveles críticos. Para aplicar la prueba a los datos de la tabla 4.1:
' Reproducir en el Editor de datos los datos de la Tabla 4.1 o abrir el archivo Tabla 4.1 test
raven que se encuentra en la página web del manual.
' Seleccionar la opción Pruebas no paramétricas > Dos muestras independientes del menú
Analizar para acceder al cuadro de diálogo Pruebas para dos muestras independientes y
trasladar la variable raven (puntuaciones en el test Raven) a la lista Contrastar variables
y la variable grupo (grupo de entrenamiento) y al cuadro Variable de agrupación.
' Pulsar el botón Definir grupos para acceder al subcuadro de diálogo Pruebas para dos
muestras independientes: Definir grupos e introducir los códigos 1 y 2 (es decir, los có-
digos asignados a los dos grupos de la variable grupo). Pulsar el botón Continuar para
volver al cuadro de diálogo principal.
6
Para aplicar la corrección por empates (ver [4.8] y [4.9]) hay que tener en cuenta que se dan empates en 4 rangos distintos
(1,5, 5,5, 7,5 y 16,5) y que en todos los casos el número de puntuaciones empatadas son dos. Por tanto,
tras independientes: Opciones y marcar la opción Descriptivos. Pulsar el botón Continuar
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 4.3 y 4.4.
La primera de ellas incluye varios estadísticos descriptivos: el tamaño de cada grupo y el to-
tal, la media de los rangos asignados a cada grupo (rango promedio) y la suma de los rangos
asignados a cada grupo: S1 =136 y S2 = 74.
La Tabla 4.4 ofrece varios estadísticos y niveles críticos. El estadístico U de Mann-Whit-
ney es el menor de U1 = n1 n2 + n1 (n1 +1) / 2 ! S1 y U2 = n1 n2 !U1. Con los datos de la Tabla 4.1,
U1 = 10 (10) + 10 (10 + 1) / 2 ! 136 = 19 y U2 = 10 (10) ! 19 = 81. Por tanto, U = 19.
El estadístico W de Wilcoxon es el menor de S1 y S2. Puesto que S1 = 136 y S2 = 74 (ver
Tabla 4.3), W = 74.
Y el estadístico Z es una tipificación de los estadísticos U y W. La tipificación del esta-
dístico U es idéntica a la que nosotros hemos presentado en la ecuación [4.9] excepto en lo
que se refiere al valor esperado que se utiliza en el numerador; aquí, µU = n1 n2 / 2. Y la tipifi-
cación del estadístico W es idéntica a la que nosotros hemos propuesto en [4.9]. Pero en am-
bos casos hay que tener en cuenta un detalle importante: nosotros hemos utilizado U = S1 en
el numerador de Z y el SPSS utiliza el menor de S1 y S2 (razón por la cual el valor de Z en la
Tabla 4.4 es negativo). Esto obliga a tomar algunas precauciones. Puesto que el SPSS siem-
pre utiliza el menor de S1 y S2, la zona crítica siempre está en la cola izquierda de la distribu-
ción. En el caso de rechazar H0, el signo de Z no permite saber a qué grupo le corresponde un
promedio más alto. Para saber esto hay que fijarse en los rangos promedio de la Tabla 4.3.
Las últimas dos líneas de la tabla ofrecen el nivel crítico bilateral. El primero de ellos
(sig. asintótica) se obtiene tal como nosotros hemos propuesto en el Cuadro 4.1: multipli-
cando por 2 la probabilidad de obtener valores Z iguales o menores que el obtenido. El se-
gundo (sig. exacta) calcula el nivel crítico exacto7 utilizando un algoritmo propuesto por Di-
neen y Blakesley (1973). El nivel crítico unilateral se obtiene dividiendo entre 2 el bilateral.
Tabla 4.3. Estadísticos descriptivos de los rangos

Grupo de entrenamiento N Rango promedio Suma de rangos
Experimental 10 13,60 136,00
Control 10 7,40 74,00
Total 20
Tabla 4.4. Prueba de Mann-Whitney

Puntuaciones
en el test Raven
U de Mann-Whitney 19,000
W de Wilcoxon 74,000
Z -2,350
Sig. exacta [2*(Sig. unilateral)] ,019a
a. No corregidos para los empates.
7
$ 400 y (2) n1 n2 / 2 + mín (n1, n2) $
Este nivel crítico exacto se calcula siempre que se den dos condiciones: (1) n1 n2 < < 220.
Si no se da alguna de estas condiciones, el procedimiento únicamente ofrece el nivel crítico asintótico.
La prueba de Kruskal-Wallis
La prueba de Mann-Whitney para dos muestras independientes fue extendida al caso de más
de dos muestras por Kruskal y Wallis (1952). Seguimos trabajando con una variable categó-
rica que define grupos y una variable cuantitativa en la cual deseamos comparar los grupos;
pero, ahora, la variable categórica define más de dos grupos. Por tanto, la prueba de Kruskal-
Wallis sirve para valorar el efecto de varios tratamientos sobre una variable cuantitativa, o
para comparar varios grupos en alguna medida cuantitativa de interés.
Lo habitual es abordar este tipo de situaciones con un procedimiento llamado análisis
de varianza de un factor (lo estudiaremos más adelante, en el Capítulo 6). Pero, según vere-
mos, el análisis de varianza requiere que se den una serie de condiciones (normalidad de las
poblaciones muestreadas, igualdad de las varianzas poblacionales, nivel de medida de inter-
valos o razón) que no siempre se dan. Precisamente las ventajas fundamentales de la prueba
de Kruskal-Wallis frente al análisis de varianza tienen que ver con estas condiciones: (1) no
necesita establecer supuestos sobre las poblaciones originales tan exigentes como los del
análisis de varianza y (2) permite trabajar con datos ordinales. Por contra, si se cumplen los
supuestos en los que se basa el análisis de varianza, su potencia es mayor que la que es posi-
ble alcanzar con la prueba de Kruskal-Wallis.
Teniendo en cuenta que con muchos de los datos que se recogen en el ámbito de las cien-
cias sociales y de la salud es demasiado arriesgado asumir normalidad y homocedasticidad
(especialmente si las muestras son pequeñas y los tamaños muestrales desiguales), y con-
siderando, además, que muchas de las variables que interesa analizar son ordinales, se com-
prenderá que la prueba de Kruskal-Wallis representa una más que interesante alternativa para
el estudio de una variable categórica y una cuantitativa.
Nos encontramos ante un diseño en el que J muestras son aleatoria e independientemente
seleccionadas de J poblaciones que se asumen iguales con el objetivo de averiguar si efec-
tivamente esas J poblaciones son iguales o, por el contrario, algunas de ellas difieren en sus
promedios. Por tanto, el punto de partida del análisis lo constituyen J muestras aleatorias e
independientes (Y1, Y2, ..., Yj, ..., YJ ) de tamaños n1, n2, ..., nj, ..., nJ (j = 1, 2, ..., J ) extraídas
de la misma población o de J poblaciones idénticas (N = n1 + n2 + · · · + nj + · · · + nJ ). Asignan-
do rangos desde 1 hasta N al conjunto de las Yi j puntuaciones como si se tratara de una sola
muestra (resolviendo los empates con el promedio de los rangos empatados), es posible
definir la variable R i j = «rango asignado al sujeto i de la muestra j » (i = 1, 2, ..., nj ). La Ta-
bla 4.5 muestra la disposición de los datos tras asignar rangos.
Tabla 4.5. Estructura de los datos en un diseño con J muestras independientes
Muestras Rangos Totales

1 ··· ···
2 ··· ···
··· ··· ··· ··· ··· ··· ··· ··· =
j ··· ···
··· ··· ··· ··· ··· ··· ··· ···
J ··· ···
(R j se refiere a la suma de los rangos asignados a las nj observaciones o puntuaciones i de

cada muestra j). Obviamente, si la hipótesis nula de que las J poblaciones son idénticas es
verdadera, los valores R j de las distintas muestras serán parecidos. Siguiendo una lógica si-
milar a la del estadístico U de Mann-Whitney, es posible obtener, tomando como punto de
partida las sumas de los rangos de cada grupo, un estadístico con distribución muestral co-
nocida capaz de ofrecer información sobre el parecido existente entre las J poblaciones (ver,
por ejemplo, San Martín y Pardo, 1989, págs. 225-227):
H = [4.10]
Bajo la hipótesis nula de que las J poblaciones tienen la misma forma, el estadístico H se
distribuye según el modelo de probabilidad ji-cuadrado, con J ! 1 grados de libertad. El re-
chazo de esta hipótesis implica que los J promedios comparados no son iguales. El Cuadro
4.2 ofrece un resumen del procedimiento.
Cuadro 4.2. Resumen de la prueba de Kruskal-Wallis
1. Hipótesis: H0: las J distribuciones poblacionales son iguales.

H1: las J distribuciones poblacionales no tienen la misma media.
2. Supuestos: variable al menos ordinal medida en J muestras aleatoria e independien-
temente extraídas de sus respectivas poblaciones, las cuales se asume que tienen la
misma forma.
3. Estadístico del contraste8 (ecuación [4.10]):
H =
4. Distribución muestral: la Tabla P del Apéndice final recoge los puntos críticos de la
distribución muestral de H a partir de los cuales se puede rechazar H0 . La tabla inclu-
ye algunos valores de J y n j . Para otros valores de J o n j puede utilizarse la aproxi-
mación del estadístico H a la distribución ji-cuadrado con J ! 1 grados de libertad.
$ h1! α o H $
5. Zona crítica: H > > .
6. Decisión: se rechaza H0 si H cae en la zona crítica; en caso contrario, se mantiene.
7. Nivel crítico (valor p): p = P (H > Hh), donde Hh se refiere al valor concreto de H.
8
Si existen muchos empates al asignar rangos, el estadístico H propuesto en [4.10] se vuelve conservador. En ese caso
conviene aplicar una corrección que tiene en cuenta la presencia de empates:
HN [4.11]
(k se refiere al número de rangos distintos empatados y ti al número de puntuaciones empatadas en cada rango i). Puesto
que H N sirve para corregir el sesgo conservador de H cuando existen empates, si con H ya se rechaza H0 no será necesario
calcular H. Si existen pocos empates, la diferencia entre H y H N es muy pequeña.
Ejemplo. La prueba de Kruskal-Wallis
Muchos estudios coinciden en señalar que el comportamiento de los sujetos en las tareas de
rendimiento está estrechamente relacionado con su nivel de ansiedad o activación. Al pare-
cer, el rendimiento tiende a mejorar conforme aumenta el nivel de activación, pero solamen-
te hasta cierto umbral; a partir de ese punto, el aumento en el nivel de activación comienza
a afectar de forma negativa al rendimiento (este efecto se conoce como ley Yerkes-Dodson).
En este contexto, se ha diseñado un estudio con tres grupos, todos ellos formados por 10
sujetos aleatoriamente seleccionados. A cada grupo se le ha inducido un nivel de ansiedad
distinto (bajo, medio y alto) mientras realizaban una tarea de solución de problemas con un
rompecabezas. Tras evaluar el rendimiento de cada sujeto en una escala de 0 a 20 puntos se
han obtenido los resultados que muestra la Tabla 4.6. ¿Es posible afirmar que el rendimien-
to en la tarea no es el mismo bajo los tres estados de ansiedad inducidos? (α = 0,05).
Tabla 4.6. Puntuaciones en rendimiento
Nivel de activación Puntuaciones en rendimiento

Bajo 4 11 7 10 4 9 11 8 14 12
Medio 19 14 13 16 15 18 12 7 10 16
Alto 3 11 5 10 14 5 7 9 4 2
Tenemos una variable categórica (nivel de activación) que define tres grupos (bajo, medio y
alto) y una variable cuantitativa (rendimiento) cuyo nivel de medida es al menos ordinal y
en la cual deseamos comparar los grupos. La prueba de Kruskal-Wallis es apropiada para dar
respuesta a la pregunta planteada:
1. Hipótesis:
H0: las 3 distribuciones poblacionales son iguales.
H1: las 3 poblaciones no tienen la misma media.
2. Supuestos: tenemos una variable al menos ordinal medida en 3 muestras aleatoria e in-
dependientemente extraídas de sus respectivas poblaciones, las cuales se asume que tie-
nen la misma forma.
3. Estadístico del contraste (ecuación [4.10]). La Tabla 4.7 ofrece los rangos correspondien-
tes a las puntuaciones de la Tabla 4.6.
Tabla 4.7. Puntuaciones en rendimiento transformadas en rangos
Nivel de activ. Puntuaciones en rendimiento (rangos)

Bajo 4 18 9 15 4 12,5 18 11 24 20,5 136,0
Medio 30 24 22 27,5 26 29 20,5 9 15 27,5 230,5
Alto 2 18 6,5 15 24 6,5 9 12,5 4 1 98,5
H = =
4. Zona crítica: puesto que la Tabla P del Apéndice final no incluye puntos críticos para
tamaños muestrales mayores que 8, utilizamos la aproximación basada en la distribución
ji-cuadrado. El cuantil 95 de la distribución ji-cuadrado con J ! 1 = 3 ! 1 = 2 grados de
libertad vale = 5,99.
5. Decisión: puesto que el valor del estadístico del contraste (H = 11,94) es mayor que el
punto crítico (5,99), lo razonable es rechazar H0 y concluir que el rendimiento medio de
las tres poblaciones comparadas no es el mismo9.
6. Nivel crítico: p = P(H > 11,94) < 0,005 (en la distribución χ 2 con 2 grados de libertad).
Por primera vez en todo lo que llevamos estudiado hasta ahora, el rechazo de una hipótesis
nula nos deja con la incertidumbre de saber dónde están las diferencias. Al comparar más de
dos grupos, el rechazo de la hipótesis nula nos permite afirmar que los promedios compara-
dos no son iguales pero no nos permite precisar qué grupo difiere de qué otro. Para respon-
der a esta pregunta es necesario comparar los grupos por pares. Esto puede hacerse con la
prueba de Mann-Whitney estudiada en el apartado anterior. Ahora bien, puesto que se están
llevando a cabo varias comparaciones con los mismos datos, es necesario modificar el nivel
de significación (normalmente 0,05) para que no se incremente la probabilidad de tomar de-
cisiones incorrectas. Estudiaremos esto en el Capítulo 6.
La prueba de Kruskal-Wallis con SPSS
La prueba de Kruskal-Wallis se encuentra en la opción Pruebas no paramétricas > K muestras

independientes del menú Analizar. Para aplicar la prueba a los datos de la tabla 4.6:
' Reproducir en el Editor de datos los datos de la Tabla 4.6 o abrir el archivo Tabla 4.6 an-
siedad rendimiento que se encuentra en la página web del manual.
' Seleccionar la opción Pruebas no paramétricas > K muestras independientes del menú Ana-
lizar para acceder al cuadro de diálogo Pruebas para varias muestras independientes y
trasladar la variable rendimiento (puntuaciones en rendimiento) a la lista Contrastar
variables y la variable ansiedad (nivel de activación) al cuadro Variable de agrupación.
' Pulsar el botón Definir grupos para acceder al subcuadro de diálogo Pruebas para varias
muestras independientes: Definir grupos e introducir los códigos 1 y 3 (es decir, los có-
digos menor y mayor de la variable ansiedad). Pulsar el botón Continuar para volver al
9
Aplicando la corrección por empates propuesta en [4.11] (ver nota a pie de página número 8) se obtiene un resultado no
muy distinto del obtenido con la ecuación [4.10], a pesar de que existen muchos empates. Hay cuatro rangos (6,5, 12,5, 20,5
y 27,5) con dos empates (ti = 2) y cinco rangos (4, 9, 15, 18 y 24) con tres empates (ti = 3). Por tanto,
' (23 ! 2) + (23 ! 2) + (23 ! 2) + (23 ! 2) + (33 ! 3) + (33 ! 3) + (33 ! 3) + (33 ! 3) + (33 ! 3) ' 144
HN
tras independientes: Opciones y marcar la opción Descriptivos. Pulsar el botón Continuar
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 4.8 y 4.9.
La primera de ellas incluye varios estadísticos descriptivos: el tamaño de cada grupo y de
toda la muestra, y la media de los rangos asignados a cada grupo (rango promedio).
Tabla 4.8. Rangos

Nivel de ansiedad N Rango promedio
Rendimiento Bajo 10 13,60
Medio 10 23,05
Alto 10 9,85
Total 30
La Tabla 4.9 ofrece el estadístico de Kruskal-Wallis (chi-cuadrado = 12,00), sus grados de

libertad (gl = 2) y el nivel crítico o valor p (sig. asintótica = 0,002). Puesto que el nivel crí-
tico es menor que 0,05, se puede rechazar la hipótesis nula y concluir que el rendimiento
medio de las poblaciones comparadas no es el mismo. El SPSS únicamente calcula el nivel
crítico basado en la aproximación del estadístico H a la distribución ji-cuadrado.
Tabla. 4.9. Prueba de Kruskal-Wallis

Puntuaciones en rendimiento
Chi-cuadrado 12,00
gl 2
Sig. asintót. ,002
Existen varios procedimientos para efectuar comparaciones entre pares de grupos tras obte-
ner un resultado significativo (ver, por ejemplo, Pardo y San Martín, 1998, págs. 437-441),
pero el SPSS no los incluye. Para analizar con el SPSS qué grupos difieren de qué otros pue-
de utilizarse la prueba de Mann-Whitney acompañada de la corrección de Bonferroni. Esta
corrección impide que la tasa de error (probabilidad de cometer errores de tipo I) aumente
por el hecho de estar haciendo varias comparaciones. La corrección consiste en dividir el
nivel de significación α (generalmente 0,05) entre el número de comparaciones que se desea
realizar y en utilizar ese nuevo valor como referente con el que comparar el nivel crítico
(valor p) asociado a cada comparación entre pares de grupos.
Por ejemplo, con tres grupos hay que hacer tres comparaciones por pares: 1-2, 1-3 y 2-3.
Por tanto, la aplicación de la corrección de Bonferroni llevará a tomar decisiones con un nivel
de significación de 0,05 / 3 = 0,017. Es decir, se considerará que dos grupos difieren signi-
ficativamente cuando el nivel crítico obtenido al compararlos (valor p) sea menor que 0,017.
Aplicando la prueba de Mann-Whitney a nuestro ejemplo, al comparar los niveles de ansiedad
bajo y medio se obtiene p = 0,008; al comparar los niveles bajo y alto se obtiene p = 0,224;
y al comparar los niveles medio y alto se obtiene p = 0,002. Por tanto, el grupo con nivel de
ansiedad medio difiere significativamente de los otros dos y no existe evidencia de que los
grupos con niveles de ansiedad bajo y alto difieran entre sí. Lo cual parece confirmar que,
efectivamente, el rendimiento es más alto cuando el nivel de ansiedad es intermedio.
Medidas del tamaño del efecto

Al estudiar la relación entre dos variables categóricas (ver Capítulo 10 del primer volumen)
hemos tenido ocasión de constatar la utilidad de acompañar el contraste con alguna medida
de asociación para intentar cuantificar la fuerza o intensidad de la asociación. En los con-
trastes sobre medias ocurre algo parecido. Las pruebas T de Student, U de Mann-Whitney y
H de Kruskal-Wallis permiten comparar grupos en una variable cuantitativa y decidir si la
diferencia observada es estadísticamente significativa; pero la significación estadística no di-
ce mucho acerca de lo fuerte o intensa que es la relación que delata una diferencia signifi-
cativa. Para valorar esto es necesario utilizar alguna medida del tamaño del efecto.
En el Capítulo 1 hemos utilizado ya la expresión tamaño del efecto para referirnos al
grado en que el efecto estudiado está presente en la población (es decir, para referirnos a la
magnitud de una diferencia o a la intensidad de una relación). También hemos señalado en
ese mismo capítulo que la significación estadística de un resultado empírico es un concepto
que no necesariamente coincide con la relevancia (importancia teórica o práctica) del mis-
mo (ver Kirk, 1996). Para valorar, no la significación estadística de un resultado, sino su re-
levancia, contamos con varias medidas que intentan cuantificar el tamaño de un efecto uti-
lizando diferentes criterios.
El caso de dos grupos
En el contexto de los diseños de dos grupos aleatorios10, quizá la más popular de estas medi-
das sea el índice δ de Cohen (1988)11, también conocido como diferencia tipificada. Consis-
te en tipificar la distancia entre dos medias poblacionales dividiéndola entre la desviación
típica poblacional, la cual se asume que es la misma en ambas poblaciones12:
= [4.12]
Si se asume que las dos poblaciones comparadas son normales, la transformación [4.12] es,
en realidad, una puntuación típica Z (ver Capítulo 4 del primer volumen) que expresa la dis-
tancia entre las dos medias poblacionales en unidades de desviación típica en lugar de ha-
cerlo en la métrica original de las variables.
Las curvas de la Figura 4.1 ilustran el significado del parámetro δ. Una diferencia de una
desviación típica, δ = 1 (gráfico de la izquierda) es en realidad una puntuación típica Z = 1 en
una curva normal tipificada N (0, 1); por tanto, δ = 1 indica que el 84,1% de las puntuaciones
de la población 1 se encuentran por debajo de la media de la población 2, pues, en la curva
10
Diseños en los que interviene una variable dicotómica (que define dos poblaciones distintas de cada una de las cuales
se tiene una muestra aleatoria) y una variable cuantitativa en la cual se desea comparar las dos poblaciones. Es decir, el tipo
de diseños que hemos analizado con la prueba T para muestras independientes y con la prueba de Mann-Whitney.
11
Cohen llamó d a su medida del tamaño del efecto, pero nosotros seguiremos manteniendo la norma de representar los
parámetros con letras griegas y los estadísticos con letras latinas o con letras griegas con acento circunflejo.
12
Esta formulación de δ está referida al caso de dos medias independientes; en el caso de una sola media (ver Capítulo 9
del primer volumen): δ = | µY ! µ_0 | / σY, donde µ0 se refiere al valor propuesto para µ en H0, µY se refiere a la media pobla-
cional (valor que se estima con Y ) y σY a la desviación típica poblacional (valor que, si no se conoce, se estima con SY).
N (0, 1), P (Z $
< 1) = 0,841. Y una diferencia de dos desviaciones típicas, δ = 2 (gráfico de la
derecha) indica que el 97,7 % de las puntuaciones de la población 1 se encuentran por deba-
jo de la media de la población 2, pues, en la curva N (0, 1), P (Z $
< 2) = 0,977.
Figura 4.1. Tamaño del efecto: diferencia entre dos medias en unidades de desviación típica
δ=1 δ=2
µY µY µY µY
1 2 1 2
El índice δ definido en [4.12] es función de varios parámetros (las medias y la desviación

típica poblacionales). Por tanto, también δ es un parámetro. Y, puesto que un parámetro sue-
le ser un valor desconocido, para poder trabajar con él es necesario estimarlo. Esto puede
hacerse mediante
= [4.13]
Si existe grupo control, Glass (1976) sugiere estimar la varianza poblacional con la varianza
del grupo control. Pero Hedges (1981; ver también Hunter y Schmidt, 2004) ha demostrado
que utilizar la varianza del grupo control conduce a un estimador sesgado y que ese sesgo
se reduce, tanto si hay grupo control como si no, utilizando como estimador de la varianza
poblacional el promedio ponderado de las dos varianzas muestrales13:
= [4.14]
Con esta estrategia se está asumiendo que las dos varianzas poblacionales son iguales; de ahí
que se utilice el promedio ponderado de las dos varianzas muestrales para estimar la única
varianza poblacional.
Existe una correspondencia directa entre y el estadístico T de Student cuando la va-
rianza poblacional se estima mediante [4.14]. Esta correspondencia puede utilizarse para
13
Al valor que se obtiene estimando la varianza poblacional con [4.14] se le suele llamar índice o coeficiente g. Sigue
siendo un estimador sesgado del parámetro δ, pero el sesgo puede eliminarse casi por completo multiplicando (es decir,
g ) por el término corrector
c = (N ! 3) / ( N ! 2,25) [4.15]
donde N = n1 + n2 (ver Hedges, 1982; Hedges y Olkin, 1985; esta versión simplificada de c se debe a Hunter y Schmidt,
2004). A la versión corregida de g se le suele llamar g N (g N = c g). Por supuesto, con tamaños muestrales grandes, la diferen-
cia entre utilizar o no el término corrector c es insignificante (ver, por ejemplo, Bangert, Kulik y Kulik, 1983), de modo que,
con tamaños muestrales grandes, es irrelevante aplicar o no la corrección.
estimar δ cuando no se tiene otra información (por ejemplo, a partir de informes de inves-
tigación en los que no se incluyen las varianzas):
= [4.16]
La relevancia o importancia práctica de un determinado efecto depende del contexto en el

que se produce (características del estudio y de las variables, tamaño relativo de los grupos,
etc.; ver, en el Capítulo 12 del primer volumen, el apartado relativo a la interpretación del
coeficiente de correlación de Pearson). No obstante, Cohen (1992a) ha propuesto una espe-
cie de regla general que puede servir de ayuda para interpretar el tamaño del efecto en mu-
chos contextos aplicados: valores en torno a 0,20 indican un efecto pequeño; valores en
torno a 0,50, un efecto medio; valores en torno a 0,80 y mayores, un efecto grande14.
Otra medida del tamaño del efecto muy utilizada en los diseños con dos muestras inde-
pendientes es el coeficiente de correlación de Pearson, RXY (ver el Capítulo 12 del primer
volumen). Fue inicialmente propuesto para esta finalidad por Friedman (1968) y es muy reco-
mendado, entre otros, por Rosenthal (1991) y Hunter y Schmidt (2004). Cuando se aplica a
una variable dicotómica y a una cuantitativa recibe el nombre de coeficiente de correlación
biserial-puntual 15. RXY puede calcularse de varias maneras, pero su obtención es directa a
partir del estadístico T:
RXY = [4.18]
Elevando al cuadrado el coeficiente de correlación RXY se obtiene la proporción de varianza

que comparten ambas variables. Cuanto mayor es esta proporción, mayor es el tamaño del
efecto, es decir, mayor es la diferencia entre las dos medias comparadas16.
De nuevo hay que señalar que interpretar correctamente RXY requiere prestar atención al
contexto (características del estudio y de las variables, tamaño relativo de los grupos, etc.).
14
También es posible obtener un intervalo de confianza para el parámetro δ. Cuando H0 es verdadera, el estadístico T se
aproxima a la distribución t con gl = n1 + n2 ! 2 grados de libertad. Cuando H0 es falsa, el estadístico T se aproxima a una
distribución asimétrica llamada t no centrada, con los mismos grados de libertad y con parámetro de no centralidad λ. Este
parámetro de no centralidad depende del tamaño del efecto y del tamaño de los grupos:
[4.17]
Steiger y Fouladi (1997; ver también Kelley, 2005) han demostrado que los límites de confianza para λ conducen directa-
mente a los límites de confianza para δ. El límite inferior para λ es el parámetro λ de la distribución t no centrada en la que
el cuantil 1! α/2 coincide con el valor del estadístico T; el límite superior para λ es el parámetro λ de la distribución t no
centrada en la que el cuantil α/2 coincide con el valor del estadístico T. Estos límites pueden obtenerse fácilmente con un
programa informático. Multiplicando ahora estos límites por se obtienen los límites de confianza para δ (ver
también Bird, 2002; Algina y Keselman, 2003). Algina, Keselman y Penfield (2005, 2006) han propuesto una solución
basada en estimadores resistentes para cuando no puede asumirse que las varianzas poblacionales son iguales.
15
La correlación se calcula entre las puntuaciones de la variable cuantitativa y las de la variable categórica. La variable
categórica es una variable dicotómica (pertenecer a un grupo o a otro), generalmente con códigos 0 y 1, o 1 y 2.
16
Construir un intervalo de confianza para el parámetro ρXY requiere trabajar con la transformación Z de Fisher (ver Apén-
dice 12 del primer volumen):
[4.19]
(la transformación puede obtenerse de la Tabla I del Apéndice final del primer volumen). Los límites de confianza
obtenidos con [4.19] están en unidades de ; para obtener los límites de ρXY hay que devolverlos a unidades de RXY uti-
lizando la misma tabla.
No obstante, Cohen (1992a) ha sugerido que valores en torno a 0,10, 0,30 y 0,50 se corres-
ponden, en muchos contextos aplicados, con efectos de tamaños pequeño, medio y grande
(estos valores se refieren a RXY, no a su cuadrado).
En el ejemplo utilizado en este mismo capítulo a propósito de la prueba T de Student (ver
Tabla 4.1) con N = 20 niños con problemas perceptivos repartidos en dos grupos del mismo
tamaño (n1 = n2 = 10) hemos obtenido un valor de 2,70 para el estadístico T. Aplicando aho-
ra [4.16] y [4.18] obtenemos
= = =
RXY = = =
El valor de RXY al cuadrado, 0,542 = 0,29, indica que las puntuaciones en el test Raven y el
hecho de pertenecer al grupo experimental o al control comparten un 29% de la varianza; por
tanto, saber que los sujetos pertenecen a uno u otro grupo permite mejorar nuestro conoci-
miento de las puntuaciones en el test Raven un 29 %. Por otro lado, el valor = 1,21 indica
que las medias de los grupos experimental y control están separadas 1,21 desviaciones típicas.
En la curva normal tipificada P (Z < 1,21) = 0,887; por tanto, el 88,7 % de las puntuaciones
del grupo control está por debajo de la puntuación media del grupo experimental. Siguiendo
la regla propuesta por Cohen para interpretar estos valores, ambos coeficientes coinciden en
señalar que se trata de un efecto de tamaño grande. En consecuencia, podría concluirse que,
al comparar las medias de los grupos experimental y control en las puntuaciones del test Ra-
ven, se ha encontrado una diferencia relevante.
Las dos medidas propuestas, y RXY , guardan una estrecha relación entre sí. Conociendo
una es posible conocer la otra mediante
= ÷ RXY = [4.20]
Aunque el estadístico RXY puede tomar valores negativos (recordemos que sus posibles valo-
res oscilan entre !1 y 1), éstos no tienen sentido cuando RXY se utiliza como medida del ta-
maño del efecto. Por un lado, el tamaño del efecto refleja a la intensidad de la relación, no
si ésta es positiva o negativa; por otro, el signo de RXY depende de cómo se codifique el he-
cho de pertenecer a uno u otro grupo (y esta codificación es arbitraria).
Las preferencias por una u otra medida están divididas. Quizá la utilización de está
más extendida entre quienes trabajan con diseños experimentales; tiene la ventaja de ser más
fácil de interpretar que RXY al tratarse de una distancia tipificada. La interpretación de RXY es
menos intuitiva (proporción de varianza común), pero tiene una propiedad muy deseable en
un índice estadístico: tiene un mínimo y un máximo. McGrath y Meyer (2006) han argu-
mentado que, cuando se trabaja con grupos de distinto tamaño, el valor de RXY está artificial-
mente inflado. Pero Ruscio (2008) ha demostrado que esto también ocurre con cuando las
varianzas poblacionales no son iguales; y también ha destacado la conveniencia de utilizar
medidas del tamaño del efecto que no se vean afectadas por el hecho de trabajar con tama-
ños muestrales desiguales.
Una de estas medidas, además de no estar afectada por el tamaño de los grupos, es fá-
cilmente interpretable y posee interesantes propiedades que no tienen ni ni RXY. Se trata de
la medida de lenguaje común (McGraw y Wong, 1992), la cual se define como P (Y1 > Y2 ),
es decir, como la probabilidad de que una puntuación (Y ) aleatoriamente seleccionada de la
población 1 sea mayor que una puntuación aleatoriamente seleccionada de la población 2.
El nombre de esta medida obedece al hecho de que, según sus promotores, ofrece informa-
ción sobre el tamaño de un efecto en un lenguaje fácil de entender sin necesidad de ser un
experto en estos temas.
La estrategia propuesta por McGraw y Wong para estimar P (Y1 > Y2 ) requiere, al igual
que y RXY, que las poblaciones sean normales y sus varianzas iguales. Pero Delaney y
Vargha (2002) han definido un estadístico, A, que permite estimar esa probabilidad sin ne-
cesidad de establecer ningún supuesto sobre las poblaciones muestreadas:
A = [#(Y1 > Y2 ) + 0,5 #(Y1 = Y2 )] / (n1 n2) [4.21]
Es decir, P(Y1 > Y2) se estima contando el número de veces (#) que cada puntuación Y1 es ma-
yor que cada puntuación Y2 (ponderando los empates por la mitad) y dividiendo ese recuento
entre el número total de comparaciones.
Esta medida del tamaño del efecto, además de ser fácilmente interpretable, no requiere
que el nivel de medida de la variable cuantitativa sea de intervalo o razón; y puede utilizarse
con variables ordinales (de ahí que no sea necesario asumir poblaciones normales y varian-
zas iguales).
El valor del estadístico A coincide con el área bajo la curva COR (ver Apéndice 1) cal-
culada con el método de Hanley y McNeil (1982), que es justamente el que utiliza el SPSS.
Y puede obtenerse fácilmente a partir de las sumas de rangos que se obtienen a propósito de
la prueba de Mann-Whitney. En concreto:
A = [n1 n2 + nj (nj + 1) / 2 ! Sj ] / (n1 n2) [4.22]
donde Sj se refiere a la menor de las sumas S1 y S2 (ver ecuación [4.6]) y j se refiere al gru-
po al que corresponde la suma menor. En el ejemplo utilizado al estudiar la prueba de Mann-
Whitney teníamos N = 20 niños con problemas perceptivos (n1 = 10 en el grupo experimen-
tal y n2 = 10 en el grupo control), S1 = 136 y S2 = 74 (ver Tabla 4.2). Aplicando la ecuación
[4.22] se obtiene
A = [10 (10) + 10 (10 + 1) / 2 ! 74] / [(10 (10)] = 81 / 100 = 0,81
Este resultado indica que, de cada 10 pares de puntuaciones (una de cada población) selec-
cionados, en 8 de ellos cabe esperar que la puntuación de la población 1 (grupo experimen-
tal) sea mayor que la de la población 2 (grupo control). Esta conclusión no es muy diferente
de la que hemos formulado unos párrafos atrás al calcular , pero ahora no ha sido necesa-
rio asumir normalidad ni igualdad de varianzas, y nos hemos despreocupado del nivel de
medida de la variable cuantitativa (ver Hsu, 2004, para una discusión sobre las ventajas de
una medida de este tipo).
Por supuesto, , RXY y A no son los únicos estadísticos disponibles para obtener una
cuantificación del tamaño del efecto (aunque sí, probablemente, los más utilizados). Existen
otros muchos estadísticos como la proporción de casos incorrectamente clasificados (Levy,
1967), el binomial effect size display (Rosenthal y Rubin, 1982), la r-equivalente (Rosenthal
y Rubin, 2003), etc.
También pueden encontrarse estadísticos no parámetricos del tamaño del efecto (ver, por
ejemplo, Kraemer y Andrews, 1982; o Hedges y Olkin, 1984).
El caso de más de dos grupos
En el caso de que la variable categórica tenga más de dos niveles, el tamaño del efecto puede
cuantificarse mediante un estadístico llamado eta-cuadrado ( ). Aunque este estadístico
es uno de los más utilizados en el contexto del análisis de varianza (ver Capítulos 6 al 9),
también es posible obtenerlo a partir del estadístico H de Kruskal-Wallis (ver Serlin, Carr y
Marascuilo, 1982):
= [4.23]
El valor de expresa el grado de asociación (no solamente lineal, como R XY, sino de cual-
quier tipo) entre la variable categórica y la variable cuantitativa. Cuando la variable categóri-
ca tiene dos categorías, = . El valor de puede interpretarse, al igual que el de ,
como proporción de varianza común o compartida, es decir, como el grado en que aumenta
nuestro conocimiento de las puntuaciones de la variable cuantitativa por el hecho de saber
de qué grupo provienen.
Para interpretar el tamaño de , Cohen (1988) ha propuesto una especie de regla gene-
ral que puede resultar útil en muchos contextos aplicados: valores en torno a 0,01, 0,06 y
0,14 indican, por lo general, asociaciones de intensidad baja, media y alta, respectivamente.
En el ejemplo utilizado al estudiar la prueba de Kruskal-Wallis tenemos N = 30 sujetos
repartidos en tres grupos con diferente nivel de ansiedad o activación (bajo, medio, alto). Al
comparar los grupos hemos obtenido para el estadístico H un valor de 11,94. Por tanto:
= 11,94 / (30 ! 1) = 0,41
Este resultado (que revela un efecto de tamaño grande) indica que el nivel de ansiedad y el
rendimiento comparten el 41 % de su varianza: saber a qué grupo de ansiedad pertenecen los
sujetos permite mejorar nuestro conocimiento del rendimiento en un 41 %.
Medidas del tamaño del efecto con SPSS

De las cuatro medidas del tamaño del efecto recién estudiadas, el SPSS permite obtener direc-
tamente tres de ellas (RXY , A y η2 ). Obtener requiere hacer algún sencillo cálculo adicional.
De acuerdo con [4.16], para obtener necesitamos el valor del estadístico T y el tama-
ño de los grupos. El procedimiento Comparar medias > Prueba T para muestras independientes
del menú Analizar (ver Capítulo 11 del primer volumen) ofrece ambas cosas.
R XY puede obtenerse de diferentes formas. Quizá la más sencilla sea mediante el proce-
dimiento Correlaciones > Bivariadas del menú Analizar. Codificar los dos niveles de la variable
categórica con 0 y 1 o con 1 y 2 no cambia el valor de R XY . Pero, puesto que los códigos se
asignan de forma arbitraria, hay que tener en cuenta que RXY puede tomar un valor negativo;
en ese caso debe ignorarse el signo.
El valor del estadístico A se puede obtener siguiendo la estrategia utilizada al aplicar la
ecuación [4.22]. Si no se desea hacer cálculos, el valor de A puede obtenerse mediante el pro-
cedimiento Curva COR del menú Analizar. La variable cuantitativa hay que trasladarla a la lista
Contrastar variable; la categórica, a la lista Variable de estado. En el cuadro de texto Valor de la
variable de estado hay que introducir el código correspondiente al grupo cuya media es ma-
yor (si no se hace así no se obtiene el valor de A, sino el de 1 ! A). El valor del estadístico A
coincide con el valor del área bajo la curva (el cual se ofrece en una tabla con ese mismo
encabezamiento).
El valor de también puede obtenerse de varias maneras. Por ejemplo, con el procedi-
miento Comparar medias > Medias del menú Analizar. A la lista Dependientes hay que trasladar
la variable cuantitativa; a la lista Independientes, la categórica; y en el subcuadro de diálogo
Opciones (se accede a él pulsando el botón Opciones del cuadro de diálogo principal), hay
que marcar la opción Tabla de ANOVA y eta. El procedimiento ofrece el valor de en una tabla
con el encabezamiento medidas de asociación (el valor que ofrece este procedimiento para
no se obtiene como se indica en [4.23], sino como se explica en el Capítulo 6).
Cálculo de la potencia y del tamaño muestral

El cálculo de la potencia, tal como será abordado aquí, consiste en obtener una transforma-
ción de la medida del tamaño del efecto (ecuación [4.12]) a partir de la cual es posible co-
nocer la potencia de un contraste recurriendo a la Tabla E del Apéndice final. Esta transfor-
mación, a la que llamaremos (letra griega phi ), en el caso de dos muestras independientes
con tamaños muestrales iguales (n1 = n2 = n) puede estimarse mediante
= [4.24]
(recordemos que, al estimar mediante [4.13], se está asumiendo que las poblaciones son
normales y que tienen la misma varianza). Si los tamaños muestrales no son iguales, el valor
de n en [4.24] puede sustituirse por la media armónica de n1 y n2:
= = [4.25]
En nuestro ejemplo sobre la relación entre el rendimiento en el test Raven y el entrenamien-

to en percepción de formas (ver Tabla 4.1) teníamos N = 20 sujetos repartidos en dos grupos
del mismo tamaño (n1 = n2 = 10) en los que hemos obtenido = 1,21 (ver el apartado El caso
de dos grupos). Por tanto,
= = 2,71
Con = 2,71 y α = 0,05, la Tabla E del Apéndice final indica que la potencia del contras-
te vale 0,85.
Lo que acabamos de hacer (calcular la potencia del contraste después de llevarlo a cabo)
tiene el interés de saber con qué potencia se ha trabajado asumiendo que el efecto en la po-
blación es el efecto observado en la muestra (potencia observada o a posteriori). Pero lo
realmente interesante es poder diseñar un estudio conociendo de antemano la potencia con
la que se va a trabajar (potencia a priori). Y esto pasa por calcular el tamaño muestral nece-
sario para alcanzar una determinada potencia. Despejando n en [4.24] se obtiene
n = [4.26]
Supongamos que estamos interesados en realizar un contraste unilateral con dos grupos; y
supongamos que queremos que la potencia del contraste para detectar un efecto de tamaño
medio ( = 0,50 según el criterio de Cohen) valga 0,80 (esta es la potencia convencional-
mente aceptada como razonable). Con α = 0,05 y 1 ! β = 0,80, la Tabla E del Apéndice final
ofrece para un valor de 2,50. Y aplicando [4.26] obtenemos
n = 2 (2,50)2 / 0,502 = 50
Lo cual significa que, para detectar un efecto de tamaño medio con una potencia de 0,80 en
un contraste unilateral con dos grupos, necesitaríamos 100 sujetos (50 por grupo).
Puede ocurrir que un investigador no sepa con exactitud si el tamaño del efecto que le
interesa analizar es, en términos de , pequeño, medio o grande, pero que sí sepa cuál es el
valor de la diferencia que considera mínimamente relevante (por ejemplo, la diferencia que
se considera, con argumentos teóricos o prácticos, que representa un cambio en la respues-
ta de los sujetos). En estos casos, en lugar de fijar el tamaño de para calcular el tamaño
muestral necesario para alcanzar una determinada potencia, puede fijarse el valor de esa di-
ferencia (el numerador de [4.12]) y obtener estimando el denominador (desviación típica
poblacional) a partir de estudios previos o mediante un estudio piloto con unos pocos datos.
Contrastes de equivalencia y no-inferioridad

Por lo general, cuando se decide comparar dos grupos (experimental-control; hombres-mu-
jeres; etc.) se hace porque se sospecha que difieren y, por tanto, con la intención de demos-
trar que difieren. Para demostrar tal cosa, la lógica del contraste de hipótesis exige que el
punto de partida sea una hipótesis de “no diferencia” para poder especificar la distribución
muestral que servirá para tomar decisiones en términos de probabilidad. Esto es lo que he-
mos venido haciendo en todos los contrastes estudiados hasta ahora.
En ocasiones, sin embargo, puede interesar comparar dos grupos, no para demostrar que
difieren, sino para demostrar que no difieren. En el ámbito clínico, por ejemplo, podría inte-
resar comparar un nuevo tratamiento con otro estándar con la intención de demostrar, no que
el nuevo es mejor que el estándar, sino que ambos son equivalentes; si el nuevo tratamien-
to tuviera asociados menos efectos adversos que el estándar, demostrar que la eficacia de
ambos tratamientos es la misma serviría para justificar la aplicación del nuevo tratamiento
sin necesidad de demostrar que es mejor que el estándar. En otros ámbitos puede interesar
demostrar, por ejemplo, que el rendimiento de dos grupos es el mismo. Y en otros, que se está
trabajando con grupos equivalentes en alguna variable cuando no es posible formar grupos
equivalentes mediante asignación aleatoria.
La comparación entre dos grupos en una variable cuantitativa puede llevarse a cabo para
conseguir alguno de estos tres objetivos:
1. La superioridad de uno de los grupos: demostrar que un grupo difiere del otro.
2. La equivalencia de ambos grupos: demostrar que los grupos no difieren en más de una
cantidad trivial prefijada.
3. La no-inferioridad de un grupo respecto del otro: demostrar que un grupo no es peor
que el otro en más de una cantidad trivial prefijada (por ejemplo, que un tratamiento es,
como mínimo, tan bueno como otro; y si es peor, lo es en una cantidad trivial).
Los contrastes de hipótesis tal como los hemos estudiado hasta ahora sirven para comparar
dos grupos y decidir si difieren; por tanto, sirven para analizar los datos de los estudios cu-
yo objetivo es demostrar superioridad. Pero, dado que el punto de partida de todo contras-
te es una hipótesis de no diferencias y que el no rechazo de esa hipótesis no es concluyen-
te17, los contrastes de hipótesis tal como los hemos estudiado hasta ahora no permiten dar
respuesta a las cuestiones que interesa resolver en los estudios cuyo objetivo es demostrar
equivalencia o no-inferioridad. Para esto es necesario utilizar una estrategia distinta.
Métodos para demostrar equivalencia
El objetivo de un estudio de equivalencia es demostrar que dos grupos no difieren. Pero la

igualdad absoluta entre dos grupos no es posible demostrarla (haría falta una muestra del ta-
maño de la población). Para poder afirmar que dos grupos son equivalentes es necesario es-
pecificar la cantidad que se considera lo bastante pequeña (una cantidad trivial en la métrica
de la variable estudiada) como para que, si los grupos no difieren en más de esa cantidad, pue-
dan declararse equivalentes. A esta pequeña cantidad se le llama margen de equivalencia y
se suele representar mediante (delta mayúscula).
Este margen de equivalencia debe fijarse atendiendo a criterios que no son propiamen-
te estadísticos; es el investigador quien tiene la información necesaria para decidir cuál es ese
margen. Es, por tanto, un margen de carácter subjetivo. Los resultados de estudios previos,
si existieran, y la información disponible acerca de la diferencia mínimamente importante (la
diferencia mínima que se considera que representa un cambio significativo en la métrica de
la variable estudiada), si existiera, podrían ayudar a reducir el componente de subjetividad
que conlleva establecer este margen de equivalencia.
Doble contraste unilateral de Schuirmann

Dos grupos se consideran equivalentes en una determinada variable si la diferencia entre sus
medias se encuentra dentro de los límites de confianza y . Esto significa que cualquier
diferencia comprendida entre esos límites se considerará lo bastante pequeña como para que,
a efectos prácticos, los grupos sean indistinguibles en la variable analizada. Schuirmann
(1987; Dunnett y Gent, 1996) ha demostrado que es posible llegar a la conclusión de que dos
grupos son equivalentes mediante el contraste simultáneo de estas dos hipótesis:
1. H0 (1): ! $
> ; H1 (1) : ! <
$
(con > 0) [4.27]
2. H0 (2): ! < ; H1 (2) : ! >
Ambos contrastes son unilaterales y en ambos se utiliza el mismo nivel de significación α18.
Estas dos hipótesis están planteadas de tal manera que: (1) el rechazo de H0 (1) permite afir-
mar que la diferencia entre las dos medias poblacionales es menor que la cantidad positiva ;
(2) el rechazo de H0 (2) permite afirmar que la diferencia entre las dos medias poblacionales
es mayor que la cantidad negativa ; y (3) el rechazo simultáneo de ambas hipótesis permite
17
Recordemos que el nivel crítico (valor p) es un indicador del grado de evidencia existente en contra de la hipótesis nula,
no a favor de ella. Si la evidencia en contra de la hipótesis nula es insuficiente para rechazarla ( p > 0,05), eso no significa
que haya suficiente evidencia para aceptarla.
18
No es necesario utilizar un nivel de significación α/2 en cada contraste para que la tasa de error total (la probabilidad de
cometer un error Tipo I) no sea mayor que α. Al ser ambas hipótesis nulas mutuamente exclusivas, solamente una de ellas
puede ser verdadera. Por tanto, únicamente cabe la posibilidad de cometer un error Tipo I.
afirmar que la diferencia entre las dos medias poblacionales se encuentra dentro de los lími-
tes de equivalencia y , es decir,
< ( ! ) < [4.28]
Las hipótesis formuladas en [4.27] se contrastan con la prueba T de Student para muestras
independientes ya estudiada en el Capítulo 11 del primer volumen y resumida al comienzo
de este mismo capítulo:
T1 = , T2 = [4.29]
Si las poblaciones muestreadas son normales (o los tamaños muestrales lo bastante grandes),
la distribución muestral de los estadísticos T1 y T2 se aproxima al modelo de probabilidad t
$ tgl; α ; se
de Student con gl = n1 + n2 ! 2 grados de libertad19. Se rechaza H0 (1) cuando T1 <
$ tgl; 1 ! α .
rechaza H0 (2) cuando T2 >
Intervalo de confianza de Westlake

Westlake (1972, 1976, 1979,1981) ha propuesto un sencillo método con el que se llega exac-
tamente al mismo resultado que con el doble contraste unilateral de Schuirmann. El método
consiste simplemente en calcular el intervalo de confianza para la diferencia entre las medias
poblacionales ( ! ) utilizando un nivel de confianza de 1 ! 2α:
Ls =
= ÷ [4.32]
Li =
Se considera que dos grupos son equivalentes cuando los límites de este intervalo de con-
fianza quedan incluidos dentro de los límites de equivalencia, es decir, cuando
< < [4.33]
O, lo
_ que _ es lo mismo, cuando se verifica simultáneamente Li > y Ls < . Lógicamente,
si |Y 1 ! Y 2 | > sabremos que los grupos no son equivalentes sin necesidad de hacer ningún
19
Si puede asumirse que las varianzas poblacionales son iguales, el error típico de la diferencia entre las medias mues-
trales se estima (ver Capítulo 11 del primer volumen, ecuación [11.4]) mediante
[4.30]
y los grados de libertad de la distribución t son, efectivamente, n1 + n2 ! 2. Si no puede asumirse que las varianzas pobla-
cionales son iguales, el error típico de la diferencia entre las medias muestrales debe estimarse (ver Capítulo 11 del primer
volumen, ecuación [11.9]) mediante
[4.31]
y los grados de libertad de la distribución t cambian (ver Capítulo 11 del primer volumen, ecuación [11.11]).
cálculo. La ecuación [4.33], que requiere que todo el intervalo de confianza esté incluido
dentro de los límites de equivalencia, puede reducirse a esta otra:
< [4.34]
La Figura 4.2 recoge las tres posibilidades que pueden darse al construir un intervalo de con-
fianza de estas características. La situación representada en a es la única que permite concluir
que las medias son equivalentes; el hecho de que todo el intervalo de confianza esté incluido
entre los límites de equivalencia está indicando que la diferencia estimada entre y
es trivial (es decir, menor que el margen de equivalencia ). En la situación representada en
b todo el intervalo de confianza está fuera de los límites de equivalencia; por tanto, no es
posible concluir que la diferencia entre las medias sea trivial; más bien parece que la dife-
rencia es no trivial (aunque esta conclusión debe evitarse porque, dado que el intervalo se ha
construido con un nivel de confianza de 1 ! 2 α, la probabilidad de cometer un error Ti po I
no es α, sino 2 α). En la situación representada en c no es posible llegar a ninguna conclu-
sión; el intervalo de confianza incluye tanto diferencias triviales como no triviales.
Figura 4.2. Intervalo de confianza de Westlake (figura adaptada de Seaman y Serlin, 1998)
Interv. confianza
a
−∆ 0 ∆
Límites de equivalencia
Interv. confianza
b
−∆ 0 ∆
Interv. confianza
c
−∆ 0 ∆
Debe tenerse en cuenta que el intervalo de Westlake es un contraste de equivalencia idénti-

co al doble contraste unilateral de Schuirmann; por tanto, no es un intervalo de equivalencia,
es decir, no es una estimación de los límites entre los que debe estar la diferencia !
para considerar que existe equivalencia; estos límites vienen dados por y .
El intervalo de Westlake tampoco es una estimación de los límites entre los que se en-
cuentra la verdadera diferencia entre las medias poblacionales, pues se calcula utilizando un
nivel de confianza menor que el convencional. Si los intervalos representados en la Figura 4.2
se hubieran calculado utilizando un nivel de confianza de 1 ! α, servirían para contrastar la
hipótesis de igualdad de medias H0: = : el intervalo representado en a llevaría a no
rechazarla, pues incluye el valor cero; los representados en b y en c llevarían a rechazarla,
pues no incluyen el valor cero. El intervalo de confianza de Westlake no permite hacer esto:
el representado en a llevaría a no rechazar la hipótesis de igualdad de medias, pero los repre-
sentados en b y en c no serían concluyentes (al estar calculados con un nivel de confianza
menor que el convencional, podrían no incluir el valor cero solo porque son más estrechos).
Métodos para demostrar no-inferioridad

El objetivo de un estudio de no-inferioridad es demostrar que un tratamiento no es peor que
otro (puede ser igual, es decir, equivalente, o puede ser mejor). El intervalo de Westlake es-
tudiado en el apartado anterior para demostrar equivalencia, también sirve para demostrar no-
inferioridad.
Llamemos experimental al grupo 1 y estándar al grupo 2. Y asumamos que el interés del
análisis está en demostrar que el grupo experimental no es inferior al estándar. Cuando se
considera que un grupo es mejor que otro si su media es mayor, la no-inferioridad del gru-
po experimental queda demostrada cuando el intervalo de confianza definido en [4.32] está,
todo él, por encima del límite de equivalencia . Es decir, cuando Li > . Cuando se
considera que un grupo es mejor que otro si su media es menor, la no-inferioridad del gru-
po experimental queda demostrada cuando el intervalo de confianza definido en [4.32] está,
todo él, por debajo del límite de equivalencia . Es decir, cuando Ls < .
Ejemplo. Equivalencia y no-inferioridad
Un psicólogo considera que los hombres y las mujeres rinden en matemáticas de forma dis-
tinta por razones que no tienen que ver con la capacidad de razonamiento abstracto. Para va-
lidar su sospecha, antes de buscar las razones por las que el rendimiento en matemáticas es
distinto, decide buscar algún tipo de evidencia empírica que le permita asumir que, efecti-
vamente, los hombres y las mujeres no difieren en razonamiento abstracto. Su idea es que si
los hombres difieren de las mujeres en matemáticas pero no en razonamiento abstracto, éste
no puede ser el responsable de las diferencias en matemáticas. Selecciona aleatoria e inde-
pendientemente una muestra de 50 hombres y otra de 50 mujeres, y les pasa una prueba de
razonamiento abstracto, Y, en la que obtiene los siguientes resultados:
= 27, = 25, = 46, = 42
Las puntuaciones de la escala de razonamiento abstracto oscilan entre 0 y 40. Nuestro inves-
tigador considera que una diferencia menor de 4 puntos es lo bastante pequeña como para
decidir que los grupos son equivalentes (es decir, = 4).
Obviamente, no se trata de valorar si la diferencia observada entre las medias muestra-
les (27 ! 25 = 2) se encuentra entre los límites de equivalencia = 4 y = 4 (para esto no
es necesario hacer ningún contraste). Se trata de valorar si, a partir de esa diferencia mues-
tral, se puede afirmar, con un nivel de confianza 1 ! α, que la diferencia entre las medias
poblacionales se encuentra dentro de los límites de equivalencia = 4 y = 4. Para ello,
vamos a calcular el intervalo de confianza de Westlake con α = 0,05, es decir, con un nivel
de confianza de 1 ! 2α = 0,90 (asumimos que las varianzas poblacionales son iguales):
= = (ver ecuación [4.31])
gl = n hombres + nmujeres ! 2 = 50 + 50 ! 2 = 98 ÷ tgl; 1! 2 α = t98; 0,90 = 1,29
= = (ver ecuación [4.34])
Puesto que 3,71 es menor que = 4, podemos asumir que los promedios comparados difie-
ren en no más de una cantidad trivial, es decir, en no más de la cantidad definida como mar-
gen de equivalencia. Por tanto, podemos concluir que los hombres y las mujeres son grupos
equivalentes en lo referente a su capacidad de razonamiento abstracto.
Con SPSS, al solicitar la prueba T de Student para muestras independientes con las es-
pecificaciones que el procedimiento tiene establecidas por defecto, el intervalo de confianza
que se obtiene para la diferencia entre las medias poblacionales está calculado con un nivel
de confianza de 0,95. Pero el botón Opciones del cuadro de diálogo principal permite acceder
a un subcuadro de diálogo que ofrece la posibilidad de elegir el nivel de confianza con el que
se desea trabajar.
Limitaciones de los contrastes de equivalencia y no-inferioridad
Los estudios de equivalencia y no-inferioridad poseen importantes limitaciones que un analis-

ta de datos no debe pasar por alto (ver Piaggio, Elbourne, Altman, Pocock y Evans, 2006).
Veamos brevemente algunas de ellas.
En primer lugar, establecer el margen de equivalencia de forma solvente no es una
tarea nada sencilla. Y, sin embargo, acertar con el margen correcto es un aspecto crucial en
los estudios de equivalencia y no inferioridad. El criterio habitualmente recomendado para
fijar el margen de equivalencia es la diferencia mínimamente importante o diferencia clíni-
camente relevante (Wiens, 2002). Y esa diferencia suele estimarse a partir del efecto encon-
trado en estudios previos. El problema es que este efecto, además de no ser del todo objetivo
(pues depende de las condiciones de cada estudio), no siempre existe. Y tampoco termina de
estar claro que sea una estrategia apropiada para establecer el margen de equivalencia.
Cuando no existan estudios que aporten evidencia para poder establecer el margen de
equivalencia, varios expertos podrían ponerse de acuerdo en qué cantidad de cambio en la
métrica de la variable estudiada representa un cambio significativo en la respuesta de los su-
jetos, pero esta estrategia no elimina el componente subjetivo del margen de equivalencia.
Por ejemplo, ¿cuántos puntos de cociente intelectual o de una escala de depresión indican que
la inteligencia o la depresión de un sujeto es mayor que la de otro? Wyrwich y sus cola-
boradores (Wyrwich 2004; Wyrwich, Nienaber, Tierney y Wolinsky, 1999; Wyrwich, Tier-
ney y Wolinsky, 1999), entre otros, han señalado una posible conexión entre la diferencia
mínimamente importante y el error típico de medida de la escala (una propiedad de las escalas
que se obtiene analizando las respuestas de los sujetos). Pero, aunque esta conexión fuera
perfecta, que no lo es, todavía faltaría por resolver el problema de si la diferencia mínima-
mente importante es un valor del todo apropiado como criterio para establecer el margen de
equivalencia (Fleming, 2008; Powers, 2008; Wiens, 2002).
En segundo lugar, es importante no olvidar que la equivalencia o no-inferioridad nunca

termina de estar completamente demostrada. En un estudio de superioridad, es decir, en un
contraste convencional, el rechazo de la hipótesis de igualdad de medias permite afirmar que
los grupos difieren; incluso si las características del estudio lo hacen poco sensible para de-
tectar un efecto real (baja potencia), el rechazo de la hipótesis de igualdad sigue permitiendo
afirmar que los grupos difieren porque la eventual falta de potencia juega a favor del objetivo
del estudio (el hecho de que una diferencia sea declarada estadísticamente significativa no
puede atribuirse a la falta de potencia). En un estudio de equivalencia o no-inferioridad ocurre
justo lo contrario. Las características de las hipótesis que se contrastan no permiten distinguir
entre un estudio bien diseñado y un estudio cuyas características lo hacen poco sensible (poco
potente). El rechazo de las hipótesis formuladas en [4.27] puede deberse a que las medias
comparadas son realmente equivalentes o a que las características del estudio no permiten
detectar (por falta de potencia) una diferencia tan pequeña como el margen de equivalencia
establecido.
Estas y otras limitaciones (ver Snapinn, 2000) hacen que los resultados de un estudio de
equivalencia o no-inferioridad sean menos creíbles que los de un estudio de superioridad. Sin
embargo, no siempre es posible o conveniente llevar a cabo estudios de superioridad. Unas
veces hay razones éticas que lo desaconsejan (por ejemplo, cuando dejar a un grupo de pa-
cientes sin tratamiento tiene consecuencias indeseables). Otras veces, la diferencia en eficacia
entre dos tratamientos es tan pequeña que para poder demostrar la superioridad de uno de
ellos habría que utilizar un tamaño muestral excesivamente grande (siendo, no obstante, im-
portante demostrar la equivalencia de los tratamientos porque el nuevo aporta beneficios
adicionales a la eficacia). Y cuando no es posible la asignación aleatoria a las condiciones del
estudio, contar con una estrategia que pueda aportar alguna evidencia sobre la equivalencia
de los grupos en una variable de interés puede resultar muy útil. Por tanto, parece que hay
situaciones donde los estudios de equivalencia y no-inferioridad son útiles y, además, no
tienen alternativa. Pero esto no debe hacernos olvidar sus limitaciones.
Apéndice 4
En este apéndice se describen varios procedimientos de los denominados no paramétricos. Todos ellos
han sido diseñados, al igual que la prueba T de Student para muestras independientes, para analizar una
variable dicotómica y una cuantitativa. Y representan una alternativa de análisis a la prueba T cuando
las características de los datos no se ajustan a las exigencias de la prueba T. En el SPSS, están dispo-
nibles en la opción Pruebas no paramétricas > Dos muestras independientes del menú Analizar.
La prueba de Kolmogorov-Smirnov para dos muestras independientes

Esta prueba sirve para contrastar la hipótesis de que dos muestras independientes, Y1 e Y2, proceden
de la misma población o de dos poblaciones idénticas. Para ello, compara las funciones de distribución
(funciones de probabilidad acumuladas) empíricas de ambas muestras: F (Yi1) y F (Yi2). A diferencia
de la prueba U de Mann-Whitney (que compara dos promedios poblacionales asumiendo que ambas
distribuciones tienen la misma forma y, por tanto, únicamente es sensible a las diferencias entre los
promedios), la prueba de Kolmogorov-Smirnov es sensible a cualquier tipo de diferencia entre las dos
distribuciones: tendencia central, variabilidad y forma de la distribución.
Para obtener las funciones de distribución de las dos muestras se comienza asignando rangos de
1 a n1 a los valores de Y1 y de 1 a n2 a los valores de Y2. Los eventuales empates se resuelven asignan-
do el rango promedio a las puntuaciones empatadas.
Tras asignar rangos a los valores de ambas muestras, la función de distribución empírica para ca-
da valor de Yi se obtiene mediante F1 (Yi1) = i / n1 para la muestra Y1 y F2 (Yi2) = i / n2 para la muestra Y2
(donde i se refiere al rango correspondiente a cada observación). A continuación se obtienen las dife-
rencias Di = F1(Yi1) ! F1(Yi1), donde F1(Yi1) se refiere a la función de distribución de la muestra de ma-
yor tamaño. Una vez obtenidas las diferencias Di, la hipótesis de que las dos muestras proceden de la
misma población se pone a prueba utilizando una tipificación de la diferencia Di más grande en valor
absoluto (Smirnov, 1939, 1948):
ZKS = [4.35]
Este estadístico ZKS se distribuye según el modelo de probabilidad normal N (0, 1). El SPSS utiliza el
método de Smirnov (1948) para obtener las probabilidades concretas asociadas a los valores del esta-
dístico ZKS. Este método difiere del estándar (basado en las probabilidades de la curva normal tipi-
ficada), pero es equivalente.
La prueba de las rachas de Wald-Wolfowitz

La prueba de las rachas para dos muestras independientes (Wald y Wolfowitz, 1940) es similar a la
prueba de las rachas para una muestra ya estudiada en el Capítulo 2. Aplicada a dos muestras inde-
pendientes, esta prueba permite contrastar la hipótesis de que ambas muestras proceden de la misma
población o de dos poblaciones idénticas. Al igual que la prueba de Kolmogorov-Smirnov para dos
muestras (ver apartado anterior), la de las rachas es sensible no solo a diferencias entre los promedios,
sino a diferencias en variabilidad, simetría, etc.
Para obtener el número de rachas, se comienza ordenando de menor a mayor las N = n1 + n2 obser-
vaciones de ambas muestras como si se tratara de una sola muestra. Una vez ordenadas las puntua-
ciones, el número de rachas (R ) se obtiene contando el número de secuencias de observaciones per-
tenecientes a la misma muestra. Si existen empates entre observaciones de muestras distintas, el SPSS
calcula tanto el número mínimo de rachas (desechando los empates) como el máximo (teniendo en
cuenta los empates).
Si las dos muestras proceden de la misma población, las observaciones ordenadas de ambas mues-
tras estarán entremezcladas y el número de rachas será alto. Por el contrario, si las muestras proceden
de poblaciones distintas (distinto centro, distinto grado de asimetría, etc.), una de ellas tendrá valores
más altos que la otra y las observaciones ordenadas no estarán tan entremezcladas como en el caso de
poblaciones iguales; y el número de rachas será bajo. Por tanto, un número alto de rachas indica que
las muestras proceden de la misma población, mientras que un número bajo de rachas indica que las
muestras proceden de poblaciones distintas.
Para decidir cuándo el número de rachas encontrado es lo bastante pequeño como para rechazar
la hipótesis de que las muestras proceden de la misma población, el SPSS utiliza dos estrategias dis-
tintas dependiendo del tamaño de las muestras. Si n > 30, utiliza la aproximación normal (ver, en el
Capítulo 2, el estadístico Z descrito en el apartado Prueba de las rachas); pero a diferencia de lo que
ocurre con el estadístico Z para una muestra, aquí se utiliza un nivel crítico unilateral: la probabilidad
de obtener un número de rachas (R ) igual o menor que el obtenido (r).
Si n $
< 30, el SPSS ofrece el nivel crítico unilateral exacto. Para ello, si el número observado de
rachas es par, utiliza la siguiente ecuación:
P (R $
< r) =
[4.36]
Y si el número observado de rachas es impar:
P (R $
< r) = [4.37]
(con i = 1, 2, ..., r ; y k = 2 r ! 1). En ambas ecuaciones se está calculando la probabilidad de obtener

un número de rachas igual o menor que el encontrado. Se rechazará la hipótesis nula de que las mues-
tras proceden de la misma población cuando esa probabilidad sea menor que el nivel de significación
α establecido.
La prueba de reacciones extremas de Moses

Existen diferentes procedimientos para comparar la dispersión de dos distribuciones. En el Apéndice
11 del primer volumen hemos estudiado ya uno de los más utilizados, debido a Levene (1960), que se
basa en la comparación de las varianzas; pero se trata de un procedimiento paramétrico que pierde
precisión cuando las distribuciones comparadas no son normales. Moses (1952) ha diseñado un pro-
cedimiento no paramétrico (basado en la amplitud) que puede utilizarse con variables ordinales y que,
por tanto, no exige que las distribuciones comparadas sean normales.
Consideremos dos muestras, Y1 e Y2, extraídas aleatoriamente de la misma población o de dos
poblaciones idénticas. Para obtener el estadístico de Moses se comienza ordenando las n = n1 + n2
observaciones de forma ascendente y asignándoles, como si se tratara de una única muestra, rangos
de 1 a n: un 1 a la más pequeña, un 2 a la más pequeña de las restantes, etc. (los empates se resuelven
asignando el rango medio). A continuación se calcula la amplitud de la primera muestra (A1) restan-
do los rangos correspondientes al valor más grande y más pequeño de esa muestra y sumando 1 a la
diferencia; en caso necesario, el resultado se redondea al entero más próximo.
Dado que la amplitud es una medida de dispersión muy inestable, Moses sugiere utilizar al ampli-
tud recortada (AR). Para ello, se fija un valor pequeño (r) y se calcula la amplitud de la primera mues-
tra tras descartar r valores por arriba y por abajo (en el SPSS, r es igual a la parte entera de 0,05 n1, o
a 1, si 0,05 n1 es menor que 1). La amplitud recortada se obtiene restando los rangos correspondientes
al valor más grande y al más pequeño de la primera muestra tras eliminar del cálculo los r valores más
grandes y los r valores más pequeños de esa muestra, y sumando 1 a esa diferencia.
AR no puede ser menor que n1 ! 2 r (ni mayor que n ! 2 r). Además, si en la primera muestra se han
producido reacciones extremas, la amplitud del segundo grupo tenderá a su valor mínimo, pues habrá
pocas observaciones de la primera muestra entremezcladas con las de la segunda. Por tanto, podría
resultar útil conocer la probabilidad asociada a los valores AR que superen en alguna cantidad el valor
n2 ! 2 r. Llamando s a la cantidad en que un determinado valor observado de AR es mayor que n1 ! 2 r,
puede obtenerse la probabilidad de encontrar amplitudes AS = n1 ! 2 r + s como la observada o meno-
res (hasta n1 ! 2 r) mediante
= [4.38]
El SPSS calcula esta probabilidad tanto para r = 0 como para r = 0,05 nc (en este último caso, si r < 1,
se toma 1; si r > 1, se toma la parte entera de r). Si esta probabilidad es pequeña (menor que 0,05), se
podrá rechazar la hipótesis de que ambas muestras proceden de poblaciones con la misma amplitud
(dispersión).
4.1. Para estudiar la posible influencia del tipo de instrucciones sobre la ejecución de una tarea se ha selec-
cionado aleatoriamente una muestra de 12 sujetos. La mitad de ellos ha realizado la tarea tras recibir
instrucciones breves y sencillas (grupo 1); la otra mitad tras recibir instrucciones largas y explícitas
(grupo 2). La siguiente tabla muestra las puntuaciones en rendimiento que han obtenido los 12 sujetos:
Grupo 1 2 3 6 7 8 4
Grupo 2 3 5 8 6 8 9
a. Comparar el rendimiento medio de ambos grupos y decidir si existen diferencias (α = 0,05).

b. Estimar el tamaño del efecto con y con RXY. Interpretar el resultado.
c. Calcular la potencia del contraste.
d. ¿Qué número de casos debería tener cada grupo para alcanzar una potencia de 0,85?
e. Si se asume que una diferencia de un punto en el rendimiento es irrelevante, ¿Puede afirmarse que
el rendimiento de ambos grupos es equivalente?
4.2. Se ha realizado un estudio para comprobar si una sustancia utilizada por la medicina hindú para desin-
toxicar opiómanos podría ser empleada también para deshabituar a los fumadores. La experiencia se
ha realizado con 26 fumadores distribuidos al azar en dos grupos. Al grupo A se le ha administrado
la mencionada sustancia; al grupo B, un placebo. Tras el tratamiento se ha registrado el número medio
de cigarrillos/día que ha fumado cada sujeto durante un mes. La siguiente tabla recoge los resultados
obtenidos:
Grupo A 20 10 0 0 0 0 3 7 0 8 7 10 11
Grupo B 19 28 18 14 17 16 13 12 14 11 10 20 8
a. Comprobar si el promedio de cigarrillos consumidos por el grupo tratado es menor que el prome-
dio de cigarrillos del grupo no tratado (α = 0,05).
b. Estimar el tamaño del efecto con y con RXY. Interpretar el resultado.
4.3. Utilizar el procedimiento “curva COR” del SPSS para obtener el valor del estadístico A (tamaño del
efecto) con los datos de los ejercicios 4.1 y 4.2. Comparar los valores de este estadístico con los valo-
res de ya calculados.
4.4. En un experimento diseñado para estudiar si el efecto de indefensión aprendida se generaliza de si-
tuaciones de evitación a situaciones apetitivas, se han utilizado 21 ratas distribuidas aleatoriamente
en tres grupos. Al primer grupo se le ha aplicado un estímulo aversivo del que se podía escapar saltan-
do a un compartimento contiguo. Al segundo grupo se le ha aplicado el mismo estímulo aversivo con
la diferencia de que no se podía escapar de él. El tercer grupo no recibió estimulación aversiva. En la
segunda fase del experimento, las ratas tenían que apretar una palanca para conseguir una bola de ali-
mento. La siguiente tabla muestra el número de respuestas (apretar la palanca) dadas por cada animal
en un intervalo de tiempo idéntico para todos. La expectativa de los investigadores era que las ratas
a las que se había inducido indefensión (grupo 2) darían menos respuestas en la segunda fase.
Grupo 1 3 7 6 1 5 4 6
Grupo 2 0 2 1 0 0 1 0
Grupo 3 2 6 4 0 3 9 3
a. ¿Puede afirmarse que los grupos difieren en el número medio de respuestas dadas? (α = 0,05).
b. ¿Confirman los datos la expectativa de los investigadores?
c. Estimar el tamaño del efecto.
4.5. Con el fin de estudiar el efecto de un determinado fármaco en pacientes aquejados de insomnio, un in-
vestigador ha seleccionado 3 niveles de fármaco (100, 250 y 500 mg) y los ha administrado a 3 grupos
de pacientes aleatoriamente seleccionados. Las dosis fueron administradas una vez al día durante una
semana. La siguiente tabla recoge el número medio de minutos/día que ha dormido cada paciente du-
rante la semana de tratamiento. La tabla también recoge los datos relativos a un grupo de pacientes que
no recibió el tratamiento sino un placebo (0 mg):
0 mg 241 289 232 257 304 198 227 262

100 mg 307 315 277 261 296 300 312 321
250 mg 395 388 456 489 435 379 491 502
500 mg 107 288 195 162 197 207 102 188
Comparar el número medio de horas dormidas de los cuatro grupos y decidir si existen diferencias
significativas (α = 0,01).
4.6. En un determinado estudio se ha obtenido T = 7,3. Sabemos que P (T < 7,3) = 0,025. Si el contraste es
unilateral derecho, esto significa que (señalar la/s alternativa/s correcta/s):
a. Hay que rechazar H0.
b. La probabilidad de que H0 sea verdadera vale 0,025.
c. Lo razonable es mantener H0.
d. Podemos rechazar H0 con una probabilidad de equivocarnos de 0,025.
e. Al mantener H0 siendo verdadera, la probabilidad de equivocarnos vale 0,025 como mínimo.
5
Inferencia con
dos variables cuantitativas
El análisis de dos variables cuantitativas ya lo hemos iniciado en el Capítulo 12 del primer

volumen. Recordemos (ver el apartado Muestras relacionadas de ese capítulo) que se tienen
dos variables cuantitativas cuando se toman dos medidas a los mismos sujetos (o a pares de
sujetos), bien porque se miden dos variables distintas (altura y peso; o calificaciones en len-
gua y en matemáticas), bien porque se mide la misma variable en dos momentos distintos (el
nivel de ansiedad antes y después de un examen; o el peso antes y después de participar en
un programa de adelgazamiento).
Cualquiera que sea la forma de obtener dos variables cuantitativas, el hecho relevante
es que las dos puntuaciones de cada sujeto (o par de sujetos) no son independientes, pues ca-
be esperar que se parezcan entre sí más que las puntuaciones de dos sujetos (o pares de suje-
tos) distintos. Ésta es la característica distintiva de los diseños con muestras relacionadas
(también llamados diseños con los mismos sujetos o diseños de medidas repetidas).
Recordemos también (ver, en el Capítulo 12 del primer volumen, el apartado Comparar
o relacionar) que, al trabajar con dos variables cuantitativas, el interés del análisis puede
orientarse hacia dos objetivos bien diferentes: compararlas o relacionarlas. La comparación
se basa en los centros (promedios) de las variables; la relación se basa en la forma de variar
las puntuaciones.
Para comparar dos variables cuantitativas ya hemos estudiado la prueba T de Student para
muestras relacionadas; y, para relacionarlas, el coeficiente de correlación de Pearson. En este
capítulo vamos a seguir avanzando en el análisis de dos variables cuantitativas estudiando
algunos procedimientos que pueden aplicarse cuando no se dan las conciones idóneas para
aplicar la prueba T o el coeficiente de correlación de Pearson (normalidad de las distribu-
ciones y nivel de medida de intervalos o razón). En concreto, como alternativas a la prueba
T para muestras relacionadas vamos a estudiar la prueba de Wilcoxon para dos muestras
y la prueba de los signos para dos muestras; y como alternativa al coeficiente de correla-
ción de Pearson vamos a estudiar el coeficiente de correlación de Spearman.
Este capítulo también incluye un breve repaso de la prueba T para muestras relacionadas
y del coeficiente de correlación de Pearson (ambos procedimientos se han estudiado ya en el
Capítulo 12 del primer volumen).
La prueba T de Student para muestras relacionadas

Esta prueba sirve para comparar las medias de dos variables cuantitativas (ver Capítulo 12
del primer volumen). Tenemos dos poblaciones (Y1 e Y2 ) y una muestra aleatoria de tamaño
n de cada población. Las dos observaciones seleccionadas en cada extracción se consideran
relacionadas porque corresponden al mismo sujeto o a dos sujetos emparejados mediante
algún vínculo relevante para el análisis. En este escenario, las puntuaciones de cada par (Y1,
Y2 ) pueden transformarse en:
= [5.1]
De esta forma, a cada sujeto o par de sujetos le corresponde una única puntuación D. En el
caso de diseños antes-después o pre-post, la diferencia entre las puntuaciones de cada par
refleja el cambio (pérdida o ganancia) entre los dos momentos. Por tanto, en el contraste so-
bre dos medias relacionadas tenemos en realidad una única población (la población de dife-
rencias D) con media y varianza . Al seleccionar una muestra aleatoria de esa pobla-
ción y calcular el estadístico
= (o, lo que es lo mismo: = ) [5.2]
obtenemos una variable aleatoria cuyos valor esperado y varianza (ver Apéndice 6 del pri-
mer volumen) son los siguientes:
=
[5.3]
= = ÷ =
La varianza de la población de diferencias es, por lo general, un valor desconocido, pero

puede estimarse mediante
= = [5.4]
en cuyo caso, la transformación
T = [5.5]
se aproxima a la distribución t de Student con n ! 1 grados de libertad. Tenemos, por tanto,

todo lo necesario para poder contrastar la hipótesis
H 0: = (o bien, = 0) [5.6]
El estadístico T definido en [5.5] y su distribución muestral (t de Student con n ! 1 grados de

libertad) se aplican en los términos ya conocidos (ver Capítulo 12 del primer volumen).
Conviene recordar que un diseño de muestras relacionadas sirve para reducir la variabi-
lidad debida a los sujetos. Pero esto solamente es así si la relación entre las variables es posi-
tiva. Aunque esto es lo que cabe esperar por tratarse de medidas en los mismos sujetos, puede
ocurrir que la relación sea negativa (por ejemplo, al medir la dominancia en los dos miembros
de una misma pareja). En estos casos es preferible utilizar diseños de muestras independientes
(que utilizan el doble de grados de libertad que los diseños de muestras relacionadas).
Capítulo 5. Inferencia con dos variables cuantitativas 163
Ejemplo. La prueba T de Student para muestras relacionadas

En un estudio diseñado para probar el efecto de un tratamiento antidepresivo mixto (fluoxe-
tina + psicoterapia), se ha utilizado una muestra aleatoria de 14 pacientes con depresión. A
todos ellos se les ha aplicado la escala de depresión de Hamilton (Y ) en dos momentos: justo
antes de iniciar el tratamiento (línea base o pre-test) y tras 12 semanas de tratamiento (post-
test). La Tabla 5.1 muestra los resultados obtenidos en las dos mediciones realizadas. El ob-
jetivo del estudio es averiguar si las puntuaciones en la escala disminuyen tras el tratamien-
to (α = 0,05).
Tabla 5.1. Puntuaciones en la escala de depresión de Hamilton
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Y1 = Pre-test 24 38 21 14 19 31 34 33 22 16 17 20 18 23 23,57
Y2 = Post-test 15 22 21 17 11 6 15 20 8 9 5 19 7 8 13,07
Tenemos dos conjuntos de puntuaciones que se han obtenido al medir dos veces en los mis-
mos sujetos (muestras relacionadas) una variable cuantitativa (Y = puntuaciones en la esca-
la Hamilton). Vamos a comparar sus medias con la prueba T para muestras relacionadas:
$ µ después; H1: µ antes > µ después (contraste unilateral derecho).
1. Hipótesis: H0: µ antes <
2. Supuestos: asumimos que la muestra de 14 diferencias se ha seleccionado aleatoriamen-
te de una población normal.
3. Estadístico del contraste:
Sujetos 1 2 3 4 5 ··· 13 14
Y1 = Pre-test 24 38 21 14 19 ··· 18 23
Y2 = Post-test 15 22 21 17 11 ··· 7 8 Total
D _ 9 16 0 !3 8 ··· 11 15 147
(D ! D )2 2,25 30,25 110,25 182,25 6,25 ··· 0,25 20,25 757,5
= = 147 / 14 = 10,5 (también, = = 23,57 ! 13,07 = 10,5)
= = 757,5 / 13 = 58,27 ÷ = = 7,63
T = = = = 5,15
4. Distribución muestral: T se distribuye según t con n ! 1 = 14 ! 1 = 13 grados de libertad.
$ t13; 0,95 = 1,771.
5. Zona crítica: T >
6. Decisión: como 5,15 > 1,771, se rechaza H0. Por tanto, puede concluirse que la media del
post-test es menor que la del pre-test.
$ 5,15) < 0,001.
7. Nivel crítico: p = P (T >
La prueba de Wilcoxon para dos muestras

La prueba T posee excelentes propiedades que hacen de ella la mejor elección para compa-
rar los centros de dos variables cuantitativas cuando las distribuciones poblacionales son nor-
males. Pero en las ciencias sociales y de la salud no es infrecuente verse en la necesidad de
trabajar con poblaciones que no son normales. Con tamaños muestrales grandes, la ausencia
de normalidad no constituye un problema importante. Pero, si además de tener que trabajar
con poblaciones que no son normales, hay que hacerlo con muestras pequeñas, la prueba T
pierde precisión (Wilcox, 1992). La prueba de Wilcoxon (1945, 1949) permite comparar los
centros de dos variables cuantitativas sin necesidad de asumir normalidad. Y representa una
excelente alternativa a la prueba T (ver Blair y Higgins, 1985).
Tomemos dos medidas (Y1 e Y2) a un grupo de m sujetos y calculemos las diferencias
entre las dos puntuaciones de cada par:
D = Y1 ! Y2 [5.7]
no nulas (n <$ m). Asignemos rangos (R i) de 1 a n al valor absoluto de esas diferencias no
nulas: el rango 1 a la |D| más pequeña, el rango 2 a la |D| más pequeña de las restantes, ...,
el rango n a la |D| más grande (i = 1, 2, ..., n). Si existen diferencias iguales, es decir, empa-
tadas, se asigna a cada una de ellas el promedio de los rangos que les hubiera correspondido
de no estar empatadas.
Sumemos ahora, por un lado, los rangos positivos R i (+), es decir, los rangos correspon-
dientes a las diferencias en las que Y1 > Y2, y llamemos S+ a esta suma; sumemos, por otro
lado, los rangos negativos Ri(!), es decir, los rangos correspondientes a las diferencias en las
que Y1 < Y2 y llamemos S! a esta otra suma.
Si las medianas poblacionales y fueran iguales, en la población habría tan-
tos valores Y1 > Y2 como valores Y1 < Y2 y, consecuentemente,
P (Y1 < Y2) = (Y1 > Y2) [5.8]
Bajo estas condiciones, en una muestra aleatoria de n pares (Y1, Y2) habrá tantas diferencias
D positivas como negativas (salvando, por supuesto, las fluctuaciones propias del azar mues-
tral). Pero, además, si la distribución de las diferencias D es simétrica, el tamaño de las dife-
rencias correspondientes a los pares Y1 > Y2 será, en la población, idéntico al de las diferen-
cias correspondientes a los pares Y1 < Y2 de donde cabe deducir que
S+ = S ! [5.9]
En este escenario, una fuerte discrepancia entre los valores muestrales S+ y S! estaría indican-
do que las medianas de Y1 e Y2 no son iguales. Por tanto, las sumas S+ y S! pueden utilizarse
para contrastar la hipótesis H0: = ; o, lo que es lo mismo, la hipótesis de que la
mediana de las diferencias DY vale cero, es decir, H0: = 0.
La situación es, por tanto, idéntica a la descrita en el Capítulo 2 a propósito de la prue-
ba de Wilcoxon para una muestra (de hecho, trabajar con dos muestras relacionadas es lo
mismo que trabajar con una muestra, pues las dos muestras se convierten en una única
muestra al restar las dos puntuaciones de cada par). El Cuadro 5.1 ofrece un resumen del
procedimiento basado en el estadístico S+.
Cuadro 5.1. Resumen de la prueba de Wilcoxon para dos muestras
1. Hipótesis:
a. Contraste bilateral: H0: = (o bien, = 0).
H 1: =/ (o bien, =/ 0).
b. Contraste unilateral derecho: H0: $
< (o bien, $
< 0).
H 1: > (o bien, > 0).
c. Contraste unilateral izquierdo: H0: $
> (o bien, $ 0).
>
H 1: < (o bien, < 0).
2. Supuestos: muestra aleatoria de m pares de puntuaciones cuantitativas de las que se
obtienen las n diferencias no nulas. Se asume que la distribución de las diferencias es
simétrica (el supuesto de simetría implica que las inferencias efectuadas sobre la me-
diana son trasladables a la media).
3. Estadístico del contraste1: S+ = .
4. Distribución muestral: los puntos críticos de la distribución muestral de S+ se encuen-
tran tabulados en la Tabla M del Apéndice final.
5. Zonas críticas:
a. Contraste bilateral: S+ < s α/ 2 y S+ > s 1! α/ 2 .
b. Contraste unilateral derecho: S+ < s α .
c. Contraste unilateral izquierdo: S+ > s1! α .
6. Decisión: se rechaza H0 si S+ cae en la zona crítica; en caso contrario, se mantiene.
a. Contraste bilateral: p = 2 [P (S+ < S )], donde S se refiere al menor de S+ y S!.
b. Contraste unilateral derecho: p = P (S+ > Sh), donde Sh se refiere al valor concre-
to que toma S+.
c. Contraste unilateral izquierdo: p = P (S+ > Sh).
Ejemplo. La prueba de Wilcoxon para dos muestras

Retomemos el estudio diseñado para probar el efecto de un tratamiento antidepresivo mix-
to (fluoxetina + psicoterapia) con una muestra aleatoria de 14 pacientes depresivos (ver apar-
tado anterior). A todos ellos se les ha aplicado la escala de depresión de Hamilton (Y ) en dos
momentos: justo antes de iniciar el tratamiento (línea base o pre-test) y tras 12 semanas de
tratamiento (post-test). La Tabla 5.1 muestra los resultados obtenidos en las dos mediciones
realizadas. El objetivo del estudio es averiguar si las puntuaciones en la escala disminuyen
tras el tratamiento (α = 0,05).
1
Conforme el tamaño muestral va creciendo, el espacio muestral correspondiente a los posibles valores S+ va aumentando
rápidamente y la obtención de su distribución muestral exacta se va haciendo más complicada. En estos casos se puede recu-
rrir al teorema del límite central y utilizar la aproximación normal (ver, en el Capítulo 2, la nota a pie de página número 1).
Tenemos dos conjuntos de puntuaciones que se han obtenido al medir dos veces a los mis-
mos sujetos (muestras relacionadas) en una variable cuantitativa (Y = puntuaciones en la
escala Hamilton). Tenemos, por tanto, dos variables cuantitativas (no olvidar que se tienen
dos variables cuantitativas tanto si se miden dos variables distintas como si se mide la mis-
ma variable dos veces). Y queremos averiguar si las puntuaciones del post-test, en promedio,
son más bajas que las del pre-test.
Estos datos ya los hemos analizado con la prueba T para muestras relacionadas (ver Ca-
pítulo 12 del primer volumen) y hemos rechazado la hipótesis de igualdad de medias. Vea-
mos si la prueba de Wilcoxon permite llegar a la misma conclusión:
1. Hipótesis: H0: Mdnantes <$ Mdndespués.
H1: Mdnantes > Mdndespués (contraste unilateral derecho).
2. Supuestos: muestra de 14 diferencias aleatoriamente seleccionadas de una población si-
métrica.
3. Estadístico del contraste: S+ = = 5 +11+ 4 +13 + · · · + 7 + 1 + 6 +10 = 89.
Para obtener el estadístico S+, hemos comenzado calculando las diferencias D = Y1 ! Y2
y asignando rangos, R i, a sus valores absolutos (ver Tabla 5.3). Tras esto, hemos suma-
do los rangos correspondientes a las diferencias positivas2.
Tabla 5.3. Cálculos realizados con los datos de la Tabla 5.1
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Y1 = Pre-test 24 38 21 14 19 31 34 33 22 16 17 20 18 23
Y2 = Post-test 15 22 21 17 11 6 15 20 8 9 5 19 7 8
Di 9 16 0 !3 8 25 19 13 14 7 12 1 11 15
Ri 5 11 ! 2 4 13 12 8 9 3 7 1 6 10
4. Distribución muestral: los puntos críticos de la distribución muestral exacta de S+ están

tabulados en la Tabla M del Apéndice final.
5. Zona crítica (con n = 13 y α = 0,05): S+ > s0,95 = 69.
6. Decisión: como el valor del estadístico del contraste (89) es mayor que el punto crítico
(69), se rechaza H0. Por tanto, puede concluirse (al igual que hicimos con la prueba T )
que la mediana de las puntuaciones del post-test es menor que la del pre-test.
7. Nivel crítico: p = P (S+ > 89) < 0,005.
La prueba de Wilcoxon para dos muestras con SPSS

El SPSS no incluye el estadístico S+ y su distribución exacta (es decir, el procedimiento des-
crito en el Cuadro 5.1); en su lugar, ofrece un estadístico basado en la aproximación normal.
En concreto, utiliza la transformación
2
Puesto que la suma de n rangos vale n (n + 1) / 2, la suma de los 13 rangos de la Tabla 5.2 vale 13 (14) / 2 = 91. Y dado que
únicamente uno de los 13 rangos es negativo (el del cuarto sujeto), la suma de los rangos positivos vale 91 ! 2 = 89.
Z = [5.10]
donde S se refiere al menor de S+ y S!, k al número rangos distintos en los que existen empa-
tes y ti al número de puntuaciones empatadas en el rango i (si al asignar rangos no existen
empates, el sumatorio de denominador vale cero). Como S es el menor de S+ y S!, el resulta-
do de la ecuación [5.10] siempre es negativo. El SPSS calcula el nivel crítico bilateral mul-
tiplicando por 2 la probabilidad de obtener valores menores o iguales que Z. Para aplicar el
estadístico definido en [5.10] a los datos de la Tabla 5.1:
' Reproducir en el Editor de datos los datos de la Tabla 5.1 asignando a las variables los
nombres pre_test y post_test (o abrir el archivo Tabla 5.1 hamilton que se encuentra en
zar para acceder al cuadro de diálogo Pruebas para dos muestras relacionadas (la prueba
de Wilcoxon está seleccionada por defecto).
' Trasladar las variables pre_test y post_test a la lista Contrastar pares (en caso necesario,
reordenar las variables colocando la variable post_test antes que la variable pre_test).
tras relacionadas: Estadísticos y marcar las opciones Descriptivos y Cuartiles. Pulsar el
botón Continuar para volver al cuadro de diálogo principal.
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 5.4 a 5.6. La
Tabla 5.4 ofrece, para cada variable, algunos estadísticos descriptivos: el número de casos vá-
lidos (N ), la media, la desviación típica, los valores mínimo y máximo, y los tres cuartiles
(percentiles 25, 50 y 75). La diferencia entre las medianas vale 21,5 ! 13 = 8,5. La prueba de
Wilcoxon permite contrastar la hipótesis nula de que las medianas poblacionales del pre-test
y del post-test son iguales y, por tanto, permite averiguar si esa diferencia muestral de 8,5
puntos es lo bastante grande como para poder afirmar que las puntaciones del post-test han
disminuido (el supuesto de simetría permite convertir las conclusiones sobre las medianas
en conclusiones sobre las medias).

Percentiles
N Media Desviación típica Mínimo Máximo 25 50 75
Post-test 14 13,07 6,032 5 22 7,75 13,00 19,25
Ppre-test 14 23,57 7,480 14 38 17,75 21,50 31,50
Las dos tablas siguientes contienen información relacionada con la prueba de Wilcoxon. La
Tabla 5.5 ofrece el número, media y suma de los rangos negativos y positivos. Las notas a pie
de tabla aclaran qué rangos se están considerando positivos y negativos (debe tenerse en cuen-
ta que el SPSS calcula las diferencias entre la segunda variable y la primera del par selec-
cionado en el cuadro de diálogo; por eso hemos colocado la variable post_test delante de la
variable pre-test). La tabla también ofrece el número de empates (casos excluidos del análi-
sis) y el número total de rangos asignados (incluidos los empates).
Tabla 5.5. Rangos

N Rango promedio Suma de rangos
a
Pre-test - Post-test Rangos negativos 1 2,00 2,00
Rangos positivos 12b 7,42 89,00
Empates 1c
Total 14
a. Pre-test < Post-test
b. Pre-test > Post-test
c. Pre-test = Post-test
Por último, la Tabla 5.6 muestra el estadístico de Wilcoxon (Z ) y su nivel crítico bilateral
(sig. asintótica bilateral). Puesto que estamos planteando un contraste unilateral derecho, el
nivel crítico bilateral hay que dividirlo entre 2. Por tanto: p = 0,002 / 2 = 0,001. Y como el
valor p obtenido es menor que α = 0,05, lo razonable es rechazar la hipótesis de igualdad
entre las medianas del pre-test y del post-test, y concluir que las puntuaciones en la escala
Hamilton han disminuido tras el tratamiento (puesto que se está asumiendo que la población
de las diferencias pre-post es simétrica, la conclusión vale igualmente para las medias).
Tabla 5.6. Prueba de Wilcoxon

Pre-test - Post-test
a
Z -3,040
a. Basado en los rangos negativos.
La Figura 5.1 muestra el histograma y el diagrama de caja de las diferencias entre las puntua-
ciones del pre-test y las del post-test3. No existen indicios de asimetría ni se observan casos
atípicos o extremos.
Figura 5.1. Histograma y diagrama de caja de las diferencias entre el pre-test y el post-test
3
Estos diagramas se han obtenido mediante la opción Diagramas de caja > Simple (Resúmenes para distintas variables)
del menú Gráficos.
La prueba de los signos para dos muestras

La prueba de los signos para dos muestras es muy parecida a la prueba de los signos para una
muestra estudiada en el Capítulo 2 (en realidad se trata de la misma prueba) y ambas guar-
dan una estrecha relación con la prueba binomial (contraste sobre una proporción) ya estu-
dia da en el Capítulo 9 del primer volumen.
Al igual que la prueba de Wilcoxon, la de los signos permite contrastar la hipótesis de
igualdad entre dos medianas poblacionales. Pero difieren en un aspecto importante: la prueba
de Wilcoxon exige nivel de medida de intervalos o razón y aprovecha la información ordinal
de los datos; la prueba de los signos exige nivel de medida al menos ordinal y solamente apro-
vecha de los datos sus propiedades nominales. Además, la prueba de Wilcoxon asume que
la población de diferencias es simétrica, mientras que la prueba de los signos únicamente asu-
me que se está trabajando con una muestra aleatoria de puntuaciones ordinales. Por tanto, la
prueba de los signos puede utilizarse cuando no se dan las condiciones apropiadas para aplicar
la prueba de Wilcoxon (población simétrica y nivel de medida de intervalos o razón).
La situación es similar a la estudiada a propósito de la prueba de Wilcoxon. Se toman
dos medidas, Y1 e Y2, a un grupo de m sujetos o pares de sujetos y se calculan las diferencias
D = Y1 ! Y2
entre las dos puntuaciones de cada par. Se desechan las D nulas y únicamente se consideran
_ m). Si se asume que las medidas Y1 e Y2 proceden de po-
las n diferencias D no nulas (n <
blaciones con la misma mediana ( = ), debe verificarse
P (Y1 < Y2 ) = P (Y1 > Y2 ) = 0,5 [5.11]
de modo que, si la hipótesis H0: = es verdadera, al seleccionar una muestra alea-
toria de n pares (Y1, Y2 ) cabe esperar encontrar aproximadamente tantos pares Y1 < Y2 como
pares Y1 > Y2, es decir, aproximadamente tantas diferencias D positivas como negativas (sal-
vando, por supuesto, las fluctuaciones atribuibles al azar muestral). Bajo estas circunstancias,
las variables:
n+ = «número de signos positivos»
n! = «número de signos negativos»
se distribuyen según el modelo binomial con parámetros n y π+ = π! = 0,50. Por tanto, pue-
de utilizarse la distribución binomial para conocer las probabilidades asociadas a n+ y n! y,
a partir de ellas, contrastar la hipótesis H0: = .
El procedimiento es idéntico al descrito en el Capítulo 2 a propósito de la prueba de los
signos para una muestra. La única diferencia entre ambas pruebas es que en el caso de una
muestra se está comparando la mediana de la población con un valor concreto (MdnY = k0),
mientras que en el caso de dos muestras se están comparando las medianas de dos poblacio-
nes ( = ).
El Cuadro 2.2 del Capítulo 2 ofrece un resumen del procedimiento y, por tanto, no lo
repetiremos aquí. Sustituyendo MdnY por y k0 por , la prueba de los signos pa-
ra una muestra se convierte en la prueba de los signos para dos muestras: en ambos casos se
trata de valorar cómo se reparten n signos positivos y negativos cuando se asume que la pro-
babilidad teórica asociada a ambos signos es la misma.
Ejemplo. La prueba de los signos para dos muestras

Los datos de la Tabla 5.1 recogen las puntuaciones de 14 pacientes con depresión antes y des-
pués de ser sometidos a un tratamiento antidepresivo. Estos datos ya los hemos analizado con
la prueba T para dos muestras y con la prueba de Wilcoxon para dos muestras (ver apartados
anteriores), y en ambos casos hemos rechazado la hipótesis de igualdad de medias pre-post.
Ahora vamos a contrastar la hipótesis de igualdad de medianas con la prueba de los signos
para dos muestras:
1. Hipótesis: $ Mdndespués.
H0: Mdnantes <
H1: Mdnantes > Mdndespués (contraste unilateral derecho).
2. Supuestos: muestra aleatoria de 14 diferencias resultado de medir dos variables ordina-
les y restar las puntuaciones de cada par (se desechan las diferencias nulas).
3. Estadístico del contraste: n+ = 12 (de las n = 13 diferencias no nulas, 12 son positivas;
ver Tabla 5.2).
4. Distribución muestral: n+ se distribuye según el modelo de probabilidad binomial con
parámetros n = 13 y π+ = 0,50.
$ 12) < 0,05. En la distribución binomial (Tabla
5. Regla de decisión: se rechaza H0 si P(n+ >
$ 12) = 1! 0,998 = 0,002.
A del Apéndice final), con n = 13 y π+ = 0,50, se obtiene: P(n+ >
6. Decisión: puesto que 0,002 < 0,05, se rechaza H0. Podemos concluir que la mediana del
pre-test es menor que la del post-test.
$ 12) = 0,002.
7. Nivel crítico: p = P (n+ >
La prueba de los signos para dos muestras con SPSS

La prueba de los signos está disponible en la opción Pruebas no paramétricas > Dos muestras
_ 25, el SPSS toma el valor r = min (n+, n!) y, utilizan-
relacionadas del menú Analizar. Si n <
do las probabilidades de la distribución binomial, calcula el nivel crítico bilateral resultante
de multiplicar por 2 la probabilidad de obtener valores iguales o menores que r. Si n > 25, el
SPSS tipifica el valor de r (utilizando corrección por continuidad) y ofrece el nivel crítico
resultante de multiplicar por 2 la probabilidad de encontrar valores iguales o menores que Z:
Z = [5.12]
Para aplicar la prueba de los signos para dos muestras a los datos de la Tabla 5.1 (recorde-
mos que la tabla recoge las puntuaciones de 14 pacientes depresivos antes y después de apli-
carles un tratamiento):
' Reproducir en el Editor de datos los datos de la Tabla 5.1 asignando a las variables los
nombres pre_test y post_test (o abrir el archivo Tabla 5.1 hamilton que se encuentra en
zar para acceder al cuadro de diálogo Pruebas para dos muestras relacionadas y, en el
recuadro Tipo de prueba, marcar la opción Signos.
' Trasladar las variables pre_test y post_test a la lista Contrastar pares (en caso necesario,
reordenar las variables colocando la variable post_test antes que la variable pre_test).
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 5.6 y 5.7.
La Tabla 5.6 muestra las diferencias negativas, las positivas y los empates entre cada par de
puntuaciones; las notas a pie de tabla permiten saber qué diferencias se están considerando
negativas y cuáles positivas.
Puesto que el número de diferencias en menor que 25, la Tabla 5.7 ofrece la probabili-
dad bilateral exacta de obtener 12 diferencias positivas o más (de las 13 posibles). Esta pro-
babilidad está multiplicada por 2 (el SPSS siempre asume contraste bilateral). Por tanto, el
nivel crítico de nuestro contraste unilateral vale p = 0,0034 / 2 = 0,0017. Y como este nivel
crítico es menor que 0,05, lo razonable es rechazar la hipótesis nula y concluir que la media-
na poblacional del post-test es menor que la del pre-test.
Tabla 5.6. Frecuencias

N
a
Pre-test - Post-test Diferencias negativas 1
Diferencias positivas b 12
Empates c 1
Total 14
a. Pre-test < Post-test
b. Pre-test > Post-test
c. Pre-test = Post-test
Tabla 5.7. Prueba de los signos

Pre-test - Post-test
a
Sig. exacta (bilateral) ,0034
a. Se ha usado la distribución binomial.
El coeficiente de correlación de Pearson

La relación entre dos variables cuantitativas hemos empezado a estudiarla en el Capítulo 12
del primer volumen. En ese capítulo hemos expuesto el concepto de relación lineal y hemos
propuesto algunas herramientas para estudiarla: los diagramas de dispersión, la covarianza
y el coeficiente de correlación de Pearson.
Un diagrama de dispersión es una excelente herramienta como primera aproximación al
estudio de la relación entre dos variables y es, quizá, la mejor manera de detectar anomalías
en los datos: permite ver de forma rápida la pauta de relación subyacente en la nube de pun-
tos e identificar casos cuyo comportamiento se aleja de esa pauta. No obstante, un diagrama
de dispersión no permite cuantificar con precisión el grado de relación existente. Para eso
hemos propuesto un estadístico que tiene la virtud de resumir en un único número tanto la
intensidad de la relación (baja, media, alta) como el sentido de la misma (positiva, negativa).
Este estadístico se conoce con el nombre de coeficiente de correlación RXY de Pearson y se

obtiene tipificando la covarianza:
= [5.13]
Esta ecuación permite interpretar RXY, antes que nada, como el grado en que la covarianza
alcanza su máximo. Y es equivalente a calcular la covarianza a partir de las puntuaciones
típicas (puntuaciones Z ). El coeficiente definido en [5.13] mide el grado de relación lineal
(no de otro tipo); su valor oscila entre !1 y 1 (el signo indica si la relación es positiva o
negativa) y no se altera si los datos se transforman linealmente (por ejemplo, sumando y/o
multiplicando una constante).
Ejemplo. El coeficiente de correlación de Pearson

Para poder obtener RXY con los datos de la Tabla 5.1 comenzamos realizando los cálculos que
muestra la Tabla 5.8 (llamaremos X al pre-test e Y al post-test). Para poder calcular las pun-
tuaciones diferenciales x e y necesitamos las medias de X e Y :
_ _
X = 330 /14 = 23,57, Y = 183 /14 = 13,07
La Tabla 5.8 ofrece las puntuaciones diferenciales (x, y), sus cuadrados y el producto entre
ellas. Los resultados de la primera fila, por ejemplo, se han obtenido de la siguiente manera:
x = 24 ! 23,57 = 0,43
x2 = 0,432 = 0,185
y = 15 ! 13,07 = 1,93
y2 = 1,932 = 3,725
xy = 0,43 (1,93) = 0,830
Para poder calcular RXY mediante [5.13] necesitamos la covarianza entre X e Y y las desvia-
ciones típicas de X e Y:
= = 221,43 /13 = 17,03
= = 727,43 /13 = 55,96 ÷ = = 7,48.

= = 472,93 /13 = 36,38 ÷ = = 6,03
Aplicando ahora [5.13] obtenemos
RXY = 17,03 / (7,48 × 6,03) = 0,38
Este valor indica que la relación entre las puntuaciones del pre-test y las del post-test es posi-
tiva y de intensidad moderada. Pero, puesto que se trata de un valor muestral, su alejamiento
de cero podría deberse simplemente a las fluctuaciones aleatorias propias del azar muestral.
El hecho de que un coeficiente de correlación sea distinto de cero no constituye, en sí mismo,
evidencia suficiente para afirmar que existe relación lineal en la población. Por tanto, tras
cuantificar una relación, la pregunta que hay que hacerse es si el valor muestral obtenido
refleja o no un grado de relación lineal mayor del que cabría esperar por puro azar entre dos
variables realmente independientes en la población.
Tabla 5.8. Datos de 10 sujetos en las variables X = «pre-test» e Y = «post-test»

Sujetos X Y x y x2 y2 xy
1 24 15 0,43 1,93 0,185 3,725 0,830
2 38 22 14,43 8,93 208,225 79,745 128,860
3 21 21 !2,57 7,93 6,605 62,885 !20,380
4 14 17 !9,57 3,93 91,585 15,445 !37,610
5 19 11 !4,57 !2,07 20,885 4,285 9,460
6 31 6 7,43 !7,07 55,205 49,985 !52,530
7 34 15 10,43 1,93 108,785 3,725 20,130
8 33 20 9,43 6,93 88,925 48,025 65,350
9 22 8 !1,57 !5,07 2,465 25,705 7,960
10 16 9 !7,57 !4,07 57,305 16,565 30,810
11 17 5 !6,57 !8,07 43,165 65,125 53,020
12 20 19 !3,57 5,93 12,745 35,165 !21,170
13 18 7 !5,57 !6,07 31,025 36,845 33,810
14 23 8 !0,57 !5,07 0,325 25,705 2,890
Totales 330 183 727,43 472,93 221,43
Para responder a esta pregunta lo que hacemos es contrastar la hipótesis nula de ausencia de
relación lineal (H0: ρXY = 0) (ver Capítulo 12 del primer volumen) mediante el estadístico
T = [5.14]
el cual se distribuye según el modelo de probabilidad t de Student con n ! 2 grados de li-

bertad. El rechazo de H0: ρXY = 0 permite concluir que entre las variables X e Y existe algún
grado de relación lineal. Aplicando [5.14] a los datos de la Tabla 5.8 obtenemos
T = = 1,42
En la distribución t de Student con 14 ! 2 = 12 grados de libertad (Tabla D del Apéndice final)
obtenemos t12; 0,95 = 1,81 y t12; 0,975 = 2,179. En consecuencia, tanto si decidimos plantear el
contraste unilateral (punto crítico 1,81) como si decidimos plantearlo bilateral (punto crítico
2,179), el valor del estadístico T = 1,42 cae dentro de la zona de aceptación. No es razonable,
por tanto, rechazar la hipótesis de relación lineal nula, es decir, no es posible afirmar que las
puntuaciones del pre-test y las del post-test estén linealmente relacionadas en la población.
Debe repararse en el hecho de que, aunque hemos rechazado la hipótesis de igualdad de
medias (ver apartados anteriores), no hemos podido rechazar la de ausencia de relación lineal.
Esto significa que, aunque las puntuaciones cambian (las del post-test son menores que las
del pre-test), lo hacen independientemente del nivel o gravedad inicial.
El coeficiente de correlación de Spearman

Al contrastar la hipótesis ρXY = 0 mediante el coeficiente de correlación RXY de Pearson y su
transformación en [5.14] se está asumiendo que las variables X e Y se distribuyen normal-
mente. Este supuesto implica, además, que el nivel de medida de las variables analizadas es
de intervalos o de razón.
El supuesto de normalidad va perdiendo importancia conforme va aumentando el tama-
ño muestral pero, con muestras pequeñas, no debe pasarse por alto. Y si el nivel de medida
de las variables es ordinal, no podrá asumirse que se distribuyen normalmente.
Además, con variables ordinales no tiene mucho sentido hablar de relación lineal porque
estas variables no tienen una métrica definida. No obstante, como sus valores están cuanti-
tativamente ordenados, sí es posible hablar de relación monótona. En una relación lineal, el
aumento en las puntuaciones de una variable va acompañado de un aumento (disminución)
constante o uniforme (es decir, lineal) en las puntuaciones de la otra variable. En una relación
monótona, el aumento en las puntuaciones de una variable también va acompañado de un au-
mento (disminución) en las puntuaciones de la otra variable, pero ese aumento (disminución)
no es necesariamente constante o uniforme. La diferencia es importante porque, entre otras
cosas, refleja la existencia o no de una métrica relevante en las variables.
Tanto si el nivel de medida de las variables es ordinal como si, siendo de intervalos o de
razón, no puede asumirse que las distribuciones muestreadas son normales, existen proce-
dimientos que permiten valorar el grado de relación monótona. En el Capítulo 3 hemos pre-
sentado ya algunos de estos procedimientos en el apartado Medidas de concordancia-dis-
cordancia. En este apartado vamos a presentar uno de los más utilizados para estudiar la
relación entre variables ordinales: el coeficiente de correlación RS de Spearman4 (1904).
Este coeficiente no es más que el coeficiente de correlación RXY de Pearson aplicado des-
pués de transformar las puntuaciones originales X e Y en rangos R i (X ) y R i (Y ). Los rangos
se asignan de la forma habitual y separadamente para cada variable; y los empates se resuel-
ven asignando el rango promedio.
Cuando las puntuaciones originales se convierten en rangos, unas sencillas transforma-
ciones (ver, por ejemplo, San Martín y Pardo, 1989, págs. 399-400) permiten formular la
ecuación [5.13] de esta otra manera5:
RS = 1 ! [5.15]
donde D i = R i (X ) ! R i (Y ) se refiere a las diferencias entre los rangos de cada par de pun-
tuaciones (i = 1, 2, ...n). El coeficiente de correlación de Spearman toma valores entre !1 y
+1; los valores mayores que cero indican relación positiva o monótona creciente; los valores
menores que cero indican relación negativa o monótona decreciente; el valor cero indica
ausencia de relación monótona.
4
A este coeficiente se le suele llamar rho (ρ) de Spearman. Nosotros lo llamaremos RS para distinguirlo del parámetro ρXY
(valor poblacional del coeficiente de correlación de Pearson).
5
La equivalencia entre [5.13] y [5.15] únicamente se da si no se producen empates al asignar rangos a las puntuaciones ori-
ginales. Cuando existen empates puede utilizarse una corrección para ajustar el valor de RS (ver, por ejemplo, San Martín
y Pardo, 1989, págs. 401-402), pero quizá resulte más sencillo aplicar directamente la ecuación [5.13] a las puntuaciones
transformadas en rangos. Por otro lado, esta corrección solo altera ligeramente a la baja el valor absoluto de RS.
Para determinar si el tamaño de RS está indicando verdadera relación entre las variables
estudiadas se puede contrastar la hipótesis nula de que su valor vale cero en la población. No
existe un acuerdo generalizado sobre la forma correcta de realizar este contraste; no obstan-
te, en el Cuadro 5.2 ofrecemos un resumen del procedimiento que, según los resultados ob-
tenidos por Nijsse (1988), parece el más recomendable.
Cuadro 5.2 Resumen del contraste sobre el coeficiente de correlación de Spearman
1. Hipótesis:
a. Contraste bilateral: H0: X e Y no están relacionadas.
H1: la relación entre X e Y es monótona.
b. Contraste unilat. derecho: H0: X e Y no están relacionadas.
H1: la relación entre X e Y es monótona creciente.
c. Contraste unilat. izquierdo: H0: X e Y no están relacionadas.
H1: la relación entre X e Y es monótona decreciente.
2. Supuestos: muestra aleatoria de n pares de puntuaciones, independientes entre sí, ob-
tenidos al medir dos variables al menos ordinales.
3. Estadísticos del contraste:
3.1. RS (ver ecuación [5.15])
3.2. T = [5.16]
4. Distribución muestral:
4.1. Los puntos críticos r1 ! α de la distribución muestral de RS se encuentran en la
Tabla R del Apéndice final para n < $ 30 y algunos valores de α.
4.2. La distribución del estadístico T se aproxima al modelo de probabilidad t de Stu-
dent con n ! 2 grados de libertad (tn !2).
5. Zona crítica:
a.1. RS < rα/ 2 y RS > r1 ! α/ 2 .
a.2. T <$ tn !2; α/ 2 y T >
$ tn !2; 1 ! α/ 2 .
b.1. RS > rα .
b.2. T $> tn !2; 1 ! α .
c.1. RS < r1 ! α .
c.2. T <$ tn !2; α .
6. Regla de decisión: se rechaza H0 si el estadístico del contraste cae en la zona crítica;
en caso contrario, se mantiene.

$ *Th*)], siendo Th el valor muestral concreto que
a. Contraste bilateral: p = 2[P (T >
toma el estadístico T.
b. Contraste unilateral derecho: p = P (T >$ Th).
c. Contraste unilateral izquierdo: p = P (T <$ Th).
Ejemplo. El coeficiente de correlación de Spearman

En una muestra aleatoria de 10 estudiantes de enseñanza secundaria se han medido dos va-
riables: X = «promedio de horas de estudio semanales» e Y = «rendimiento medio» (cuanti-
ficado como la media de las calificaciones obtenidas en 8 asignaturas). La Tabla 5.9 muestra
los resultados obtenidos. Queremos averiguar si, en la población de estudiantes de enseñan-
za secundaria, las puntuaciones altas en horas de estudio tienden a ir acompañadas de pun-
tuaciones altas en rendimiento medio (α = 0,05).
Tabla 5.9. Datos de 10 sujetos en las variables X = «horas de estudio» e Y = «rendimiento medio»
Sujetos 1 2 3 4 5 6 7 8 9 10
X = «horas de estudio» 5 5 6 6 6 7 7 11 11 16
Y = «rendimiento medio» 5 4 3,5 5 6 5 8 8,5 9 6
Tenemos dos variables cuantitativas medidas en una muestra aleatoria de 10 sujetos. Tene-
mos, por tanto, 10 pares de puntuaciones. Y queremos averiguar si, en la población de donde
proceden estos 10 pares de puntuaciones, existe relación positiva o creciente (“... las pun-
tuaciones altas... tienden a ir acompañadas de puntuaciones altas...”).
Estos datos ya los hemos analizado aplicando el coeficiente de correlación de Pearson
(ver Capítulo 12 del primer volumen; RXY = 0,52). Ahora decidimos analizarlos con el coefi-
ciente de correlación de Spearman porque nos hemos dado cuenta de que la distribución de
la variable X no es normal y el nivel de medida de la variable Y es ordinal:
1. Hipótesis:
H0: X e Y no están relacionadas.
H1: la relación entre X e Y es monótona creciente (contraste unilateral derecho).
2. Supuestos: muestra aleatoria de 10 pares de puntuaciones, independientes entre sí, ob-
tenidos al medir dos variables al menos ordinales.
3. Estadísticos del contraste: para facilitar los cálculos, la Tabla 5.10 ofrece los rangos
correspondientes a las puntuaciones de X e Y, las diferencias entre cada par de rangos y
esas diferencias elevadas al cuadrado:
3.1. RS = 1 ! = 1 ! 6 (45) (103 ! 10) = 0,73 (ecuación [5.15])
3.2. T = = 0,73 = 3,02 (ecuación [5.16])

Tabla 5.10. Rangos correspondientes a las puntuaciones directas de la Tabla 5.9
Sujetos 1 2 3 4 5 6 7 8 9 10 Suma
R i(X ) 1,5 1,5 4 4 4 6,5 6,5 8,5 8,5 10
R i(Y ) 4 2 1 4 6,5 4 8 9 10 6,5
Di !2,5 !0,5 3 0 !2,5 2,5 !1,5 !0,5 !1,5 3,5
Di2 6,25 0,25 9 0 6,25 6,25 2,25 0,25 2,25 12,25 45,00
4. Distribución muestral:
4.1. Los puntos críticos de la distribución muestral de RS se encuentran en la Tabla R
del Apéndice final.
4.2. La distribución del estadístico T se aproxima al modelo de probabilidad t de Stu-
dent con 10 ! 2 = 8 grados de libertad (tn !2).
5. Zona crítica (contraste unilateral derecho):
5.1. RS > r1 ! α = r0,95 = 0,564.
5.2. T $> tn !2; 1 ! α = t8; 0,95 = 1,86.
6. Regla de decisión: con ambos estadísticos se obtienen valores mayores que sus respec-
tivos puntos críticos: 0,73 > 0,564 en el caso de RS y 3,02 > 1,86 en el caso de T. Por
tanto, lo razonable es rechazar H0 y concluir que existe relación monótona creciente, lo
cual significa que las puntuaciones altas (bajas) en horas de estudio tienden a ir acom-
pañadas de puntuaciones altas (bajas) en rendimiento medio.
$ 3,02) < 0,001.
7. Nivel crítico (contraste unilateral derecho): p = P (T >
El coeficiente de correlación de Spearman con SPSS

El coeficiente de correlación de Spearman está disponible en el procedimiento Correlaciones
bivariadas. Para obtenerlo con los datos de la Tabla 5.9:
horas rendimiento que se encuentra en la página web del manual).
' Seleccionar la opción Correlaciones > Bivariadas del menú Analizar y trasladar las varia-
bles horas (horas de estudio semanales) y rendimiento (rendimiento medio). La lista de
variables del archivo de datos únicamente muestra las variables con formato numérico.
Es necesario seleccionar al menos dos variables. Si se seleccionan más de dos, el SPSS
calcula un coeficiente de correlación para cada par de variables.
Aceptando estas selecciones, el Visor ofrece los resultados que muestra la Tabla 5.11. Los
resultados están organizados en una matriz cuadrada con tantas filas y columnas como va-
riables seleccionadas. Dado que en nuestro ejemplo hemos seleccionado dos variables, la
matriz solamente tiene dos filas y dos columnas. En cada casilla hay tres datos: (1) el valor
del coeficiente de correlación de Spearman; (2) el nivel crítico bilateral (valor p) resultan-
te de contrastar la hipótesis de independencia lineal aplicando el estadístico propuesto en
[5.16] (sig. bilateral; el nivel crítico unilateral puede obtenerse dividiendo entre 2 el bilate-
ral); y (3) el número de casos válidos (N).
El coeficiente de correlación de Spearman vale6 0,72 y el nivel crítico bilateral resultan-
te de contrastar la hipótesis de independencia vale 0,02. Como el contraste es unilateral (ver
ejemplo anterior), el nivel crítico vale 0,02/2 = 0,01. Y como este nivel crítico es menor que
0,05, podemos rechazar la hipótesis de independencia y concluir que la relación encontrada
es estadísticamente significativa. El signo positivo del coeficiente indica que la relación es
monótona creciente: los valores altos (bajos) de horas de estudio tienden a ir acompañados
de valores altos (bajos) en rendimiento medio.
Tabla 5.11. Coeficiente de correlación de Spearman

Rho de Spearman
Horas de estudio Rendimiento
semanales medio
Horas de estudio Coeficiente de correlación 1,000 ,717
semanales Sig. (bilateral) . ,020
N 10 10
Rendimiento medio Coeficiente de correlación ,717 1,000
Sig. (bilateral) ,020 .
N 10 10

Sabemos que con dos variables cuantitativas, Y1 e Y2, es posible orientar el análisis hacia dos
objetivos bien diferentes: compararlas o relacionarlas.
Al relacionarlas con un coeficiente de correlación ya estamos obteniendo una cuantifi-
cación del tamaño del efecto, pues un coeficiente elevado al cuadrado refleja la proporción
de varianza que comparten ambas variables. No obstante, esta medida se refiere al grado de
parecido entre las variables, no al grado en que difieren sus promedios.
Para valorar lo segundo puede utilizarse una medida estandarizada de la diferencia en-
tre las medias. Aplicando la misma lógica que en el caso de dos medias independientes (ver
ecuación [4.12]), Cohen (1988) ha propuesto tipificar la diferencia entre las medias (o la me-
dia de las diferencias, que es lo mismo) dividiéndola por la desviación típica de las diferen-
cias en la población:
= = [5.17]
El numerador de [5.17] puede estimarse a partir de la diferencia entre las medias muestrales;
el denominador puede estimarse a partir de la desviación típica de las diferencias entre cada
par de puntuaciones (ver ecuación [5.4]). Es decir,
6
Este valor (0,72) es ligeramente diferente del que hemos obtenido (0,73) aplicando la ecuación [5.15]. Esto es debido a
que el SPSS utiliza una ecuación que tiene en cuenta la presencia de rangos empatados dentro de la misma variable. Ver
nota a pie de página número 5.
= [5.18]
En nuestro ejemplo
_ con 14 pacientes
_ sometidos a tratamiento antidepresivo (ver Tabla 5.1)
hemos obtenido Y 1 = 23,57, Y 2 = 13,07, y SD = 7,63. Por tanto,
= = 1,38
Lo cual representa un efecto de tamaño grande (esta diferencia tipificada se interpreta en los
términos ya conocidos: valores en torno a 0,20 indican un efecto pequeño; valores en torno
a 0,50, un efecto medio; valores en torno a 0,80 y mayores, un efecto grande).

Hemos visto en el capítulo anterior que la Tabla E del Apéndice final permite obtener la po-
tencia de un contraste basado en la prueba T de Student a partir de una sencilla transforma-
ción de la medida del tamaño del efecto . En el caso de dos muestras relacionadas, esta
transformación, a la que llamamos (letra griega phi ), puede estimarse mediante
= [5.20]
En nuestro ejemplo con 14 pacientes sometidos a tratamiento antidepresivo (ver Tabla 5.1)
hemos obtenido = 1,38 (ver apartado anterior). Por tanto,
= = 5,16
Con = 5,16 y α = 0,05 en un contraste unilateral, la Tabla E del Apéndice final indica que
la potencia del contraste es mayor de 0,99.
Este valor es la potencia observada (es decir, la potencia del contraste considerando que
la diferencia entre las medias poblacionales es la diferencia observada entre las medias mues-
trales). Para conocer el tamaño muestral necesario para alcanzar una determinada potencia
basta con despejar n en la ecuación [5.20] y utilizar la Tabla E en sentido inverso a como lo
hemos hecho para calcular la potencia observada:
n = [5.21]
Supongamos que queremos diseñar un contraste unilateral con dos muestras relacionadas
cuya potencia para detectar un efecto de tamaño medio ( = 0,50 según el criterio de Cohen)
valga 0,80. Con α = 0,05 y 1 ! β = 0,80, la Tabla E del Apéndice final ofrece para un va-
lor de 2,50. Aplicando [5.21] obtenemos
n = (2,50)2 / 0,52 = 25
Lo cual significa que, para detectar un efecto de tamaño medio con una potencia de 0,80 en
un contraste unilateral con dos muestras relacionadas, necesitaríamos una muestra de 25
sujetos.
Apéndice 5
Correlaciones parciales
Los coeficientes de correlación estudiados permiten cuantificar la relación entre dos variables. Un coe-
ficiente de correlación parcial expresa el grado de relación lineal existente entre dos variables cuando
se elimina de esa relación el efecto debido a otras variables. Se trata, por tanto, de una técnica de con-
trol estadístico que permite cuantificar la relación neta entre dos variables al eliminar de ambas el
efecto de terceras variables.
Por ejemplo, se sabe que la relación entre las variables inteligencia y rendimiento escolar es alta
y positiva. Sin embargo, cuando se controla el efecto de terceras variables como el número de horas
de estudio o el nivel educativo de los padres, la correlación entre inteligencia y rendimiento descien-
de sensiblemente, lo cual está indicando que la relación entre inteligencia y rendimiento está condi-
cionada o modulada por el número de horas de estudio y el nivel educativo de los padres.
La ecuación para obtener el coeficiente de correlación parcial depende del número de variables
cuyo efecto se desea controlar. Comencemos con tres variables: Y1, Y2, Y3. Llamando al coeficien-
te de correlación de Pearson entre las dos primeras variables, el coeficiente de correlación parcial en-
tre Y1 e Y2 se obtiene mediante
= [5.22]
Hablamos de correlación de primer orden para indicar que se está controlando el efecto de una sola
variable. La ecuación [5.22] es una correlación de primer orden. Con cuatro variables, el coeficiente
de correlación parcial entre Y1 e Y2 se obtiene mediante
= [5.23]
Hablamos de correlación de segundo orden, para indicar que se está controlando el efecto de dos varia-
bles. La ecuación [5.23] es una correlación de segundo orden. Siguiendo esta lógica, a la correlación
entre dos variables cuando no se controla el efecto de terceras variables se le llama correlación de orden
cero. Los coeficientes de mayor orden se obtienen siguiendo la misma lógica.
Para contrastar la hipótesis nula de que el valor poblacional de un coeficiente de correlación par-
cial es cero, puede utilizarse el estadístico
T = [5.24]
(n se refiere al número de casos con puntuación válida en todas las variables que intervienen en el cál-
culo del coeficiente de correlación parcial y p se refiere al número de variables controladas). El estadís-
tico T se distribuye según el modelo de probabilidad t de Student con n ! p ! 2 grados de libertad.
Veamos cómo utilizar el procedimiento Correlaciones parciales del SPSS para cuantificar e inter-
pretar la relación entre dos variables cuando se controla el efecto de terceras variables. El ejemplo se
basa en el archivo Datos de empleados (se encuentra en la misma carpeta en la que está instalado el
SPSS):
' Seleccionar la opción Correlaciones > Parciales del menú Analizar el cuadro de diálogo principal
y trasladar las variables salini (salario inicial) y salario (salario actual) a la lista Variables. Éstas
son las dos variables que interesa correlacionar.
' Trasladar las variables educ (nivel educativo), tiempemp (meses desde el contrato) y expprev (ex-
periencia previa) a la lista Controlando para. Éstas son las tres variables cuyo efecto se desea con-
trolar.
' Pulsar el botón Opciones para acceder al cuadro de diálogo Correlaciones parciales: Opciones y
marcar la opción Correlaciones de orden cero del recuadro Estadísticos.
Aceptando estas selecciones, el Visor ofrece los resultados que muestra la Tabla 5.12. La tabla contie-
ne las correlaciones bivariadas y las parciales. La mitad superior de la tabla (variables controladas =
ninguna) ofrece los coeficientes de correlación de orden cero entre todas las variables seleccionadas.
El contenido de esta tabla es idéntico al estudiado a propósito del coeficiente de correlación de Pear-
son (ver Capítulo 12 del primer volumen).
Esta información es doblemente útil: por un lado, informa sobre el grado de relación existente entre
las dos variables que interesa estudiar (salario inicial y salario actual); por otro, permite averiguar si
las variables cuyo efecto se desea controlar (nivel educativo, meses de contrato y experiencia previa)
están o no relacionas con las dos variables que interesa correlacionar. Puede comprobarse que el coe-
ficiente de correlación entre salario inicial y salario actual vale 0,88, con un nivel crítico sig. < 0,0005
que permite rechazar la hipótesis nula de no relación y afirmar que el coeficiente es significativamente
distinto de cero. También puede comprobarse que, de las tres variables incluidas en el análisis para con-
trolar su efecto, nivel educativo correlaciona significativamente tanto con salario inicial como con sala-
rio actual (sig. < 0,0005 en ambos casos), meses de contrato no correlaciona significativamente ni con
salario inicial (sig. = 0,668) ni con salario actual (sig. = 0,067), y experiencia previa correlaciona sig-
nificativamente con salario actual (sig. = 0,034) pero no con salario inicial (sig. = 0,327).
Tabla 5.12. Correlaciones de orden cero (bivariadas) y correlaciones parciales

Salario Salario Nivel Meses de Experien.
Variables de control actual inicial educativo contrato previa
-ninguna-a Salario actual Correlación 1,000 ,880 ,661 ,084 -,097
Sig. (bilat ) . ,000 ,000 ,067 ,034
gl 0 472 472 472 472
Salario inicial Correlación ,880 1,000 ,633 -,020 ,045
Sig. (bilat ) ,000 . ,000 ,668 ,327
gl 472 0 472 472 472
Nivel educativo Correlación ,661 ,633 1,000 ,047 -,252
Sig. (bilat ) ,000 ,000 . ,303 ,000
gl 472 472 0 472 472
Meses de contrato Correlación ,084 -,020 ,047 1,000 ,003
Sig. (bilat ) ,067 ,668 ,303 . ,948
gl 472 472 472 0 472
Experiencia previa Correlación -,097 ,045 -,252 ,003 1,000
Sig. (bilat ) ,034 ,327 ,000 ,948 .
gl 472 472 472 472 0
Nivel educativo & Salario actual Correlación 1,000 ,812
Meses de contrato & Sig. (bilat ) . ,000
Experiencia previa gl 0 469
Salario inicial Correlación ,812 1,000
Sig. (bilat ) ,000 .
gl 469 0
a. Las casillas con ienen correlaciones de orden cero (de Pearson).
La mitad inferior de la tabla ofrece el coeficiente de correlación parcial entre las variables salario ini-
cial y salario actual. El coeficiente (0,812) tiene asociado un nivel crítico (sig. < 0,0005) que permi-
te afirmar que su valor poblacional es distinto de cero. Puesto que el coeficiente de correlación parcial
sigue siendo significativo y su diferencia con el coeficiente de orden cero es más bien escasa (ha baja-
do de 0,88 a 0,81), puede afirmarse: (1) que entre las variables salario inicial y salario actual existe
relación lineal significativa y (2) que tal relación solo se altera ligeramente tras controlar el efecto del
nivel educativo, los meses de contrato y la experiencia previa.
5.1. Antes de recibir una terapia correctora de 10 sesiones, 7 niños disléxicos han pasado por una prueba
de dictado en la que se ha contabilizado el número de errores cometidos. Tras las 10 sesiones de en-
trenamiento, los 7 niños han vuelto a repetir la prueba de dictado y se ha vuelto a contabilizar el nú-
mero de errores. La siguiente tabla muestra los resultados obtenidos:
Sujetos 1 2 3 4 5 6 7
Y1: n errores antes 19 13 20 12 15 17 9
Y2: n errores después 7 9 10 4 3 10 6
a. Aplicar la prueba de Wilcoxon y la de los signos para averiguar si el número medio de errores ha
disminuido tras el entrenamiento (α = 0,05).
b. Estimar el tamaño del efecto.
c. ¿Cuántos sujetos habría que utilizar para alcanzar una potencia de 0,80?
5.2. Cuando se toman dos medidas a los mismos sujetos (pre-post o antes-después), lo que suele interesar
es comparar ambas medidas para valorar si se ha producido algún cambio. Esto es lo que se ha hecho,
por ejemplo, en el ejercicio anterior. Pero esto no tiene por qué ser siempre así. Ocasionalmente pue-
de interesar constatar si el cambio observado se ha producido o no de forma lineal, es decir, si todos
los sujetos han cambiado más o menos lo mismo o de forma proporcional a sus puntuaciones origi-
nales o, por el contrario, unos sujetos han cambiado más que otros y de forma no proporcional a sus
puntuaciones originales. Esto último no puede saberse comparando los promedios antes-después, sino
relacionando ambas medidas. Utilizando los datos del ejercicio anterior:
a. ¿Cuánto vale el coeficiente de correlación de Spearman entre los registros efectuados antes y des-
pués del entrenamiento?
b. ¿Es estadísticamente significativa la relación encontrada?
c. Explicar por qué puede haber diferencias significativas entre las mediciones antes-después y, sin
embargo, no existir relación lineal significativa entre ellas.
5.3. Un investigador desea comprobar si la ingestión de alcohol reduce la capacidad de los sujetos para
reconocer letras presentadas mediante taquistoscopio. Para ello, forma 10 pares aleatorios de sujetos
de tal forma que los sujetos de cada par están igualados en agudeza visual. Un sujeto de cada par, selec-
cionado al azar, recibe una determinada dosis de alcohol. Al cabo de un tiempo preestablecido se
presenta la serie de letras y se registra el número de aciertos de cada sujeto. La siguiente tabla muestra
los resultados obtenidos:
Pares 1 2 3 4 5 6 7 8 9 10
Y1: con alcohol 2 1 1 3 2 5 1 3 3 2
Y2: sin alcohol 4 3 5 7 8 5 4 6 4 5
a. ¿Apoyan los datos la hipótesis de que la dosis de alcohol administrada reduce el número medio de
aciertos? (α = 0,05).
5.4. Algunos estudios sobre gemelos señalan que el miembro del par nacido en primer lugar suele mostrar
un comportamiento más agresivo que el nacido en segundo lugar. Para obtener alguna evidencia más
sobre esto, se ha pasado una escala de agresividad a una muestra aleatoria de 10 parejas de gemelos.
La siguiente tabla muestra los resultados obtenidos:
Pares 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
er
Y1: 1 gemelo 23 10 15 17 22 25 20 25 11 16 13 19 21 23 10
Y2: 2o gemelo 17 5 10 12 15 15 12 18 6 9 10 15 4 3 14
a. ¿Apoyan los datos la hipótesis de que los gemelos nacidos en primer lugar se muestran más agre-
sivos que los nacidos en segundo lugar?
c. ¿Cuánto vale la potencia del contraste?
d. ¿Cuánto vale el coeficiente de correlación de Spearman?
e. ¿Es estadísticamente significativa la relación encontrada? (α = 0,05).
5.5. Seguimos con los 15 pares de gemelos del ejercicio anterior. Aunque ya sabemos que el coeficiente
de correlación de Spearman no alcanza la significación estadística (p > 0,05), vamos a intentar formar-
nos una idea lo más exacta posible sobre lo que está ocurriendo. Para ello:
a. Dibujar el correspondiente diagrama de dispersión.
b. La nube de puntos del diagrama de dispersión revela que hay tres pares de gemelos que podrían
estar reduciendo sensiblemente el grado de relación lineal. ¿Cuáles son esos tres pares? Dibujar
el diagrama de dispersión eliminando esos tres pares.
c. ¿Cuánto vale el coeficiente de correlación de Spearman si se eliminan esos tres pares de gemelos?
d. ¿Es estadísticamente significativo el nuevo coeficiente de correlación? (α = 0,05).
5.6. Se ha utilizado el coeficiente de correlación de Spearman para comprobar si la relación entre la inten-
sidad luminosa (variable X ) y el rendimiento en una prueba de discriminación visual (variable Y ) es
monótona creciente. Al valorar la significación estadística del coeficiente de correlación en una mues-
tra aleatoria de 15 sujetos se ha obtenido, para el estadístico del contraste, un valor T = 1,562. Sabiendo
que P (T $< 1,562) = 0,93 y utilizando un nivel de confianza de 0,99, ¿cuál de las siguientes decisiones
(y motivos) es correcta?
a. Rechazar H0 porque P (T $
< 1,562) < 0,99.
b. Mantener H0 porque P (T $
< 1,562) > 0,01.
c. Rechazar H0 porque P (T $
> 1,562) < 0,01.
d. Mantener H0 porque P (T $
< 1,562) < 0,99.
e. Rechazar H0 porque P (T $
< 1,562) < 0,99.
5.7. En el estudio llevado a cabo en el ejercicio anterior sobre discriminación visual se ha llegado a la con-
clusión de que lo razonable es no rechazar H0. Pero:
a. ¿Qué hipótesis estadísticas se están planteando?

b. ¿Puede concluirse que existe relación monótona creciente entre la intensidad luminosa y el ren-
dimiento en la prueba de discriminación? ¿Por qué?
c. ¿Cuál es el nivel de significación mínimo a partir del cual puede rechazarse H0?
5.8. En un estudio sobre la relación entre rigidez y creatividad, un investigador plantea la hipótesis nula
de independencia frente a la hipótesis alternativa de relación negativa (monótona decreciente). En una
$ !2)
muestra aleatoria obtiene, para el estadístico del contraste, un valor T = !2. Sabiendo que P (T >
= 0,98 y utilizando α = 0,05, ¿es razonable rechazar H0 ? ¿Por qué?
5.9. ¿Cuáles de las siguientes afirmaciones podrían servir como conclusión del contraste del ejercicio an-
terior?:
a. La creatividad no tiene nada que ver con la rigidez.
b. La creatividad depende de la rigidez.
c. La rigidez depende de la creatividad.
d. Las puntuaciones altas en rigidez tienden a ir acompañadas de puntuaciones altas en creatividad.
e. Las puntuaciones altas en rigidez tienden a ir acompañadas de puntuaciones bajas en creatividad.
5.10. ¿Qué nivel de significación se ha utilizado en un estudio si, al contrastar la hipótesis nula H0: µD = 0
frente a la alternativa H1: µD = 6 con una muestra aleatoria de tamaño 31 extraída de una población
normal con = 97, la probabilidad de rechazar la hipótesis nula siendo falsa vale 0,80?
6
Análisis de varianza (I)
Un factor
completamente aleatorizado
Ya sabemos cómo abordar el análisis de una variable categórica y una cuantitativa aplican-
do la prueba T de Student para muestras independientes; pero esta prueba solamente sirve
para comparar dos grupos; el análisis de varianza permite extender el análisis a más de dos
grupos. También sabemos cómo comparar variables cuantitativas aplicando la prueba T de
Student para muestras relacionadas; pero esta prueba solamente sirve para comparar dos va-
riables; el análisis de varianza permite comparar más de dos variables. Además, con el aná-
lisis de varianza es posible estudiar simultáneamente más de una variable categórica y valo-
rar su efecto conjunto sobre una variable cuantitativa.
El análisis de varianza o ANOVA (acrónimo de ANalisys Of VAriance) no es una úni-
ca técnica de análisis, sino toda una familia de técnicas que comparten el objetivo de ayudar
a interpretar los datos de un estudio empírico mediante la formulación de modelos esta-
dísticos. Estos modelos permiten valorar el comportamiento de una variable dependiente o
respuesta cuantitativa (variable medida con una escala de intervalos o de razón) a partir de
una o más variables independientes o factores categóricos (variables medidas con una esca-
la nominal u ordinal). También permiten controlar el efecto de variables extrañas (variables
ajenas al estudio) incluyéndolas como covariables.
Aunque estos modelos han surgido en el contexto de los diseños experimentales (Fisher,
1935), son aplicables a cualquier tipo de investigación siempre que se den las circunstancias
apropiadas. Se basan en una estructura matemática relativamente simple, conocida como
modelo lineal general, que posee la suficiente versatilidad como para adaptarse a contextos
muy diversos (ver Capítulo 1 del tercer volumen).
Este capítulo se centra en el modelo de un factor completamente aleatorizado, pero tam-
bién incluye una clasificación de los diferentes modelos de ANOVA y de la lógica en la que
se basan todos ellos. Más adelante estudiaremos el modelo de dos factores (Capítulo 7) y los
modelos de medidas repetidas (Capítulos 8 y 9). Para profundizar en los fundamentos de estos
modelos (y de otros que no trataremos aquí) pueden consultarse los excelentes manuales de
Keppel y Wickens (2004), Kirk (1995), Maxwell y Delaney (2004), Myers y Well (2003) o
Winer, Brown y Michels (1991).
Modelos de análisis de varianza

Los modelos de análisis de varianza no deben confundirse con los diseños de investigación.
Aunque ambos están estrechamente relacionados, un diseño de investigación es un plan de
actuación que, partiendo de una o varias hipótesis, detalla qué variables se van a estudiar y
cómo se van a medir, cuántos sujetos se van a elegir y de qué población, cómo se van a asig-
nar los sujetos a las condiciones del estudio, etc., mientras que un modelo de análisis de
varianza es una herramienta estadística que permite tomar decisiones analizando los datos
recogidos en el marco de un diseño concreto.
No obstante, aunque diseño y modelo no son la misma cosa, puesto que las característi-
cas del diseño determinan las del correspondiente modelo, no es raro encontrar que estos dos
términos se usan de forma intercambiable (ver, por ejemplo, Kirk, 1995).
Aunque existen varios y muy distintos modelos de ANOVA, puede obtenerse una cla-
sificación razonablemente simple de los mismos atendiendo únicamente a tres caracterís-
ticas del diseño: (1) el número de factores, (2) el tipo de asignación de las unidades de aná-
lisis a las condiciones del estudio y (3) la forma de establecer los niveles de los factores.
Número de factores
En los modelos de ANOVA, el término factor es sinónimo de variable independiente. Y se
refiere a una variable categórica que define grupos. Al modelo que únicamente incluye una
variable independiente se le llama ANOVA de un factor (one-way ANOVA); al que inclu-
ye dos variables independientes se le llama ANOVA de dos factores (two-way ANOVA);
etc. A los modelos de más de un factor se les llama modelos factoriales.
En un estudio diseñado para valorar el efecto del nivel de ansiedad (bajo, medio, alto)
sobre el rendimiento en una tarea tenemos una variable independiente o factor (nivel de an-
siedad) y una variable dependiente cuantitativa (rendimiento); los datos de este estudio se
analizan con un ANOVA de un factor. En un estudio diseñado para valorar el efecto del ni-
vel de ansiedad (bajo, medio, alto) y la dificultad de la tarea (fácil, difícil) sobre el rendi-
miento tenemos dos variables independientes o factores (nivel de ansiedad y dificultad de la
tarea) y una variable dependiente cuantitativa (rendimiento); los datos de este estudio se
analizan con un ANOVA de dos factores.
Tipo de asignación de las unidades de análisis a las condiciones del estudio

En las ciencias sociales y de la salud, las unidades de análisis son, por lo general, sujetos
(pacientes, estudiantes, empleados, aspirantes a un puesto de trabajo, votantes, etc.), pero
pueden ser animales, objetos, empresas, etc. Las condiciones del estudio son las condiciones
definidas por los niveles del factor o por la combinación de los niveles de los factores (si es
que hay más de uno). Los diseños de investigación se diferencian, entre otras cosas, por la
forma de asignar las unidades de análisis a las condiciones del estudio.
Capítulo 6. ANOVA de un factor 187
Por lo general, esta asignación de las unidades de análisis a las condiciones del estudio
se realiza de forma aleatoria (es decir, al azar) para que todos los sujetos tengan la misma
probabilidad de ser asignados a cada condición. Se pretende con ello que el conjunto de po-
sibles variables extrañas asociadas a las características de los sujetos (diferencias entre los
sujetos que podrían afectar a los resultados del estudio) queden repartidas de forma similar
entre todas las condiciones. Hay dos estrategias básicas de asignación aleatoria que suelen
recibir el nombre de grupos aleatorios y bloques aleatorios.
En los diseños de grupos aleatorios cada unidad de análisis (cada sujeto) es aleato-
riamente seleccionada y asignada a un nivel del factor. Supongamos que interesa valorar la
cantidad de fármaco idónea para aumentar las horas de sueño de pacientes afectados de in-
somnio. Se tiene una variable independiente o factor (cantidad de fármaco) en la que se han
definido tres niveles (0 mg, 250 mg, 500 mg) y una variable dependiente (horas de sueño) de
la que se puede obtener una medida cuantitativa. Para valorar el efecto del fármaco sobre las
horas de sueño con un diseño de grupos aleatorios, se selecciona aleatoriamente una mues-
tra de pacientes insomnes, se forman aleatoriamente tres grupos y se asigna, también alea-
toriamente, cada grupo a uno de los tres niveles del factor. Al modelo de ANOVA que per-
mite analizar los datos de este diseño se le llama modelo completamente aleatorizado.
La asignación aleatoria es la mejor estrategia para formar grupos equivalentes (grupos
con el máximo control sobre posibles variables extrañas). Pero la asignación aleatoria no
siempre es posible; por ejemplo, al comparar hombres y mujeres en una variable cuantitativa
no es posible decidir quién es hombre y quién es mujer; eso es algo que viene dado. Otras ve-
ces, aun siendo posible la asignación aleatoria, no interesa aplicarla por razones prácticas o
éticas; por ejemplo, al comparar dos métodos de enseñanza se decide aplicar cada método a
los alumnos de un aula simplemente porque no se considera apropiado mezclar los alumnos
aleatoriamente solamente por el interés de la investigación. No obstante, en ambos ejemplos
se tienen grupos aleatorios: en el ejemplo de hombres y mujeres, los sujetos se seleccionan
aleatoriamente; en el ejemplo del método de enseñanza, las aulas se seleccionan aleatoriamen-
te y los métodos se asignan aleatoriamente a las aulas. Ciertamente, el grado de control sobre
posibles variables extrañas no es el mismo en todos estos ejemplos y eso determina el nivel
de indagación que es posible alcanzar; pero la herramienta estadística que permite analizar
los datos es la misma en todos ellos: un modelo de ANOVA completamente aleatorizado.
En los diseños de bloques aleatorios se intenta ejercer mayor control sobre posibles va-
riables extrañas. Si se sospecha que existe alguna variable que puede alterar de forma apre-
ciable las conclusiones del estudio, se puede ejercer sobre ella un control directo modificando
la forma de asignar las unidades de análisis a las condiciones del estudio. Supongamos que
el fármaco cuyo efecto sobre el insomnio se desea valorar tiene la peculiaridad de afectar de
forma diferenciada a los pacientes en función del grado de insomnio que padecen. Se puede
controlar ese efecto formando bloques: si se clasifica a los pacientes seleccionados como
pacientes con insomnio leve, moderado o severo (tres bloques)1 y, tras esto, los sujetos de
un mismo bloque se asignan aleatoriamente a los diferentes niveles del factor (grupo), se
habrá conseguido que dentro de cada grupo haya pacientes con insomnio leve, moderado y
severo; el efecto de la variable extraña habrá quedado controlado al estar todos los grupos
igualados en grado de insomnio. Al proceder de esta manera se tiene un diseño de bloques
1
Aunque en este ejemplo concreto se están formando 3 bloques, el número de bloques que pueden formarse oscila entre
un mínimo de 2 (o se forman al menos 2 bloques o no se forma ninguno) y un máximo de n / k, siendo n el tamaño de la
muestra y k el número de niveles del factor.
aleatorios y el modelo de ANOVA que permite analizar los datos así obtenidos recibe el
nombre de modelo aleatorizado en bloques.
En un caso extremo de bloqueo cada bloque está formado por un único sujeto: a todos
y cada uno de los sujetos se le aplican todos y cada uno de los niveles del factor. La homo-
geneidad dentro de cada bloque es máxima (y por tanto mínima la presencia de variables
extrañas atribuibles a diferencias entre los sujetos) porque todas las puntuaciones dentro de
un mismo bloque pertenecen a un mismo sujeto. En este caso ya no se habla de diseño de
bloques aleatorios, sino de diseño intrasujetos o diseño con los mismos sujetos; y al mode-
lo de ANOVA que permite analizar estos datos se le llama modelo de medidas repetidas.
Esta distinción basada en la forma de asignar las unidades de análisis a las condiciones
del estudio es equivalente a la ya hecha entre muestras independientes y muestras relacio-
nadas: hablar de diseños completamente aleatorizados equivale a hablar de muestras inde-
pendientes (a cada nivel del factor se asigna un grupo distinto de sujetos); y hablar de diseños
de bloques aleatorios o intrasujetos equivale a hablar de muestras relacionadas (bien porque
los sujetos de un mismo bloque han sido igualados atendiendo a algún vínculo relevante pa-
ra el análisis, bien porque cada bloque está formado por un único sujeto).
Forma de establecer los niveles del factor

Los niveles o categorías de una variable independiente o factor pueden establecerse de dos
maneras distintas: (1) fijando los niveles que se desea estudiar (por ejemplo, cantidad de fár-
maco: 0 mg, 250 mg, 500 mg) o utilizando los niveles que posee el factor (por ejemplo, nivel
educativo: sin estudios, primarios, secundarios, medios, superiores) o (2) seleccionando alea-
toriamente unos pocos niveles de la población de posibles niveles del factor (por ejemplo,
seleccionando una muestra aleatoria de los hospitales de una ciudad).
Si se establecen, por ejemplo, 3 dosis de fármaco (0 mg, 250 mg y 500 mg) porque esas
dosis son justamente las que interesa estudiar, entonces el factor es de efectos fijos (al corres-
pondiente modelo de ANOVA se le llama modelo de efectos fijos o modelo I). Los niveles
que interesa estudiar son justamente esos 3. Si se replicara el experimento, los sujetos serían
diferentes, pero los niveles del factor serían exactamente los mismos. Cuando se utiliza un
factor de efectos fijos, el propósito del análisis es el de valorar justamente los niveles concre-
tos incluidos en el estudio. Las inferencias se limitan a esos niveles.
Si en lugar de fijar los niveles que se desea estudiar se eligen al azar unos pocos niveles
entre todos los posibles porque las inferencias que interesa realizar se refieren, no a unos nive-
les concretos, sino a cualquiera de los posibles, entonces el factor es de efectos aleatorios (al
correspondiente modelo de ANOVA se le llama modelo de efectos aleatorios o modelo II).
Ahora ya no interesa estudiar unos niveles concretos del factor, sino cualquiera de sus posi-
bles niveles. Si se llevara a cabo una réplica del estudio, tanto los sujetos como los niveles
del factor podrían ser diferentes.
Los factores utilizados con mayor frecuencia en los modelos de ANOVA son de efectos
fijos. Sin embargo, no son infrecuentes los estudios donde lo apropiado es utilizar factores
de efectos aleatorios. Por ejemplo, al estudiar el tiempo de convalecencia de los pacientes tras
una determinada intervención quirúrgica pueden utilizarse factores de efectos fijos como la
gravedad de la enfermedad, el tipo de intervención, etc. Pero, probablemente, los pacientes
hay que seleccionarlos de distintos hospitales y este hecho no puede pasarse por alto (pues
la eficacia, la organización, etc., de todos los hospitales no es la misma). Para estudiar el
efecto del factor hospital podría seleccionarse aleatoriamente una muestra de hospitales (no
sería necesario –ni tal vez posible– seleccionar todos los hospitales). Y los resultados del
estudio estarían indicando, no si dos hospitales concretos difieren entre sí (aquí no interesa
averiguar si tal hospital concreto difiere de tal otro), sino si el factor hospital se relaciona con
el tiempo de convalecencia post-quirúrgica.
Clasificación de los modelos de análisis de varianza

Los tres criterios propuestos en el apartado anterior constituyen una sencilla guía para clasifi-
car e identificar los diferentes modelos de ANOVA que estudiaremos en éste y en los próxi-
mos capítulos.
En los modelos de un factor, el tipo de asignación de las unidades de análisis a las con-
diciones del estudio define dos modelos distintos: el modelo de un factor completamente
aleatorizado (A-CA) y el modelo de un factor aleatorizado en bloques, también llamado
modelo de un factor con medidas repetidas (A-MR). En ambos casos el factor puede ser
de efectos fijos o de efectos aleatorios.
En los modelos de dos factores aumentan las posibilidades. En el modelo de dos facto-
res completamente aleatorizados (AB-CA) se utilizan grupos aleatorios en ambos factores
(grupos distintos de sujetos en cada combinación entre los niveles de ambos factores). En los
modelos de dos factores aleatorizados en bloques, también llamado dos factores con me-
didas repetidas en ambos (AB-MR), se utilizan bloques aleatorios en ambos factores (un
único grupo de sujetos o bloques pasa por todas las combinaciones entre los niveles de ambos
factores). En los modelos de dos factores con medidas repetidas en un factor (AB-CA-MR)
se utilizan grupos aleatorios en el primer factor y bloques aleatorios en el segundo (varios gru-
pos, tantos como niveles tiene el primer factor, pasan por todos los niveles del segundo fac-
tor). En todos los casos, los factores pueden ser de efectos fijos o de efectos aleatorios.
Más adelante tendremos ocasión de estudiar los detalles de cada uno de estos modelos.
De momento, vamos a centrarnos en la lógica en la que se basan todos ellos.
Lógica del análisis de varianza

La forma convencional de comparar las medias de dos distribuciones consiste en restarlas.
Esto es lo que hemos hecho, por ejemplo, al contrastar la hipótesis de igualdad de medias con
la prueba T de Student. Pero, cuando se tienen más de dos medias, no es posible comparar-
las simultáneamente con una resta. Y, sin embargo, los diseños con tres o más grupos son
frecuentes en las ciencias sociales y de la salud. ¿Qué podemos hacer para comparar las
medias de más de dos distribuciones? La respuesta a esta pregunta se le ocurrió a Fisher y
se basa, no en el análisis de las medias de las distribuciones, sino en el de sus varianzas (de
ahí el nombre del procedimiento).
Para entender la solución propuesta por Fisher, imaginemos que extraemos una muestra
aleatoria de tamaño n de una determinada población. Justamente por tratarse de una muestra,
los valores obtenidos no serán todos iguales entre sí, sino que mostrarán variabilidad. A esta
variabilidad la llamamos intragrupo porque se trata de variabilidad que se da dentro (intra)
de la misma muestra o grupo. Imaginemos ahora que extraemos, no una, sino tres muestras
de la misma población. Con tres muestras seguimos teniendo variabilidad intragrupos (la que
se da entre los valores de una misma muestra). Pero, además, también tenemos la variabilidad
que se da entre las muestras, pues los valores de una cualquiera de las muestras no tienen por
qué ser iguales, ni siquiera en promedio, a los valores de las demás muestras. A esta segunda
forma de variabilidad entre las muestras la llamamos intergrupos.
La variabilidad intragrupos refleja las diferencias entre las puntuaciones dentro de cada
muestra; la variabilidad intergrupos refleja las diferencias entre las distintas muestras. La
esencia del análisis de varianza consiste en comparar ambas fuentes de variabilidad para
determinar cómo de grande es la variabilidad intergrupos en comparación con la variabili-
dad intragrupos.
Comencemos con el diseño más simple: una variable categórica A (con J categorías o
niveles) y una variable cuantitativa Y (ver Tabla 6.1). Supongamos que la variable cuantita-
tiva Y se distribuye normalmente en las J poblaciones definidas por los J niveles de la varia-
ble categórica A y que todas esas poblaciones normales tienen la misma varianza, es decir,
= = ··· = = ··· = = [6.1]
Supongamos además que de cada población se extrae una muestra aleatoria de tamaño nj de
puntuaciones Yi j (i se refiere a los diferentes elementos de la misma muestra: i = 1, 2, ..., nj;
j se refiere a las diferentes muestras: j = 1, 2, ..., J ; por ejemplo, Y52 se refiere a la 5ª puntua-
ción de la 2ª muestra).
En este escenario, el valor de cada varianza muestral es una estimación concreta de
la varianza de su población. Pero como se está asumiendo que las J poblaciones tienen la
misma varianza, la estimación de esa única varianza poblacional2 puede mejorarse si, en lu-
gar de hacer J estimaciones distintas, se hace una sola estimación basada en la media pon-
derada de las J varianzas muestrales3:
MCE = = = [6.2]
(con N = n1 + n2 + · · · + nJ). A este estimador basado en la variabilidad existente dentro de

cada grupo o muestra se le llama media cuadrática intragrupos (es una media cuadrática
porque se trata del promedio de las distancias a la media elevadas al cuadrado) y se repre-
senta mediante MCE. También se le llama media cuadrática error o residual porque las
distancias a la media de cada grupo se consideran errores o residuos del modelo (ver Capítu-
lo 1 del tercer volumen). Puesto que en el cálculo de MCE únicamente intervienen las va-
rianzas, su valor no depende del valor de las medias4.
2
No debe confundirse (la varianza de Y en cada población) con la varianza de todas las puntuaciones de Y tomadas
juntas (la varianza total). Estas dos varianzas solamente son iguales cuando todas las poblaciones tienen, además de la misma
varianza, la misma media. Cuando tengamos que utilizar esta segunda varianza quedará claro que nos referimos a ella.
3
En el caso de que todas las muestras tengan el mismo tamaño (es decir, si n1 = n2 = · · · = nJ = n), la ecuación [6.2] se puede
simplificar bastante:
MCE = = = [6 3]
4
La varianza de un conjunto de puntuaciones no se ve alterada si a esas puntuaciones se le añade una constante. Por tanto,
el estimador propuesto en [6.2] no depende del valor de las medias.
Supongamos ahora que las J poblaciones normales, además de la misma varianza, tam-
bién tienen la misma media. Si esto es así, las J muestras aleatorias seleccionadas pueden
considerarse muestras de la misma población (pues han sido seleccionadas de J poblaciones
idénticas). Esto significa que las medias de esas muestras pueden utilizarse para obtener un
nuevo estimador de la varianza poblacional. Sabemos que la varianza de la distribución
muestral de la media5 se relaciona con la varianza poblacional mediante = (n es el
tamaño de la muestra). Por tanto, si se tienen J muestras de la misma población, la varianza
de Y puede estimarse mediante6
MCI = MCA = = [6.4]
A este estimador de basado en la variabilidad existente entre las medias de las diferen-
tes muestras se le llama media cuadrática intergrupos y se representa mediante MCI. Y
puesto que, de momento, esta MCI únicamente incluye la variabilidad debida al factor A,
también se le llama MCA.
Por tanto, tenemos dos estimadores de la varianza poblacional. Uno de ellos, MCE, es
independiente del valor de las medias poblacionales, pues se basa en la variabilidad de las
puntuaciones individuales respecto de la media de su propia muestra. El otro, MCA, depen-
de del valor de las medias poblacionales porque se basa en la variabilidad existente entre las
medias muestrales; únicamente es un estimador de la varianza poblacional cuando las mues-
tras se extraen de la misma población o de J poblaciones idénticas.
Por tanto, si MCA y MCE se calculan a partir de muestras aleatorias extraídas de pobla-
ciones con la misma media, sus valores serán parecidos. Por el contrario, si se calculan en
muestras extraídas de poblaciones que no tienen la misma media, el valor de MCA será ma-
yor que el valor de MCE, pues MCA estará reflejando no solamente variabilidad aleatoria en-
tre las medias muestrales, sino variabilidad debida al hecho de que las medias poblacionales
son distintas. Esto significa que el tamaño relativo de MCA respecto del de MCE está infor-
mando del grado de parecido existente entre las medias poblacionales.
Ahora bien, aunque las medias poblacionales sean iguales, como MCA y MCE son valo-
res muestrales, raramente tomarán valores idénticos. Cabe esperar que, aun siendo iguales
las medias poblacionales, entre MCA y MCE existan ligeras diferencias atribuibles a las fluc-
tuaciones propias del azar muestral. La clave está precisamente en poder determinar cuándo
la diferencia entre MCA y MCE es lo bastante grande como para pensar que no se debe al azar
muestral, sino al hecho de que las medias poblacionales son distintas. Justamente esto es lo
que hace el análisis de varianza comparando MCA y MCE mediante
F = = [6.6]
5
La distribución muestral de la media es la distribución de las medias calculadas en todas las muestras de tamaño n que
es posible extraer de una determinada población (en caso necesario, repasar el concepto de distribución muestral en el
Capítulo 6 del primer volumen).
6
En el caso de que todas las muestras tengan el mismo tamaño (n1 = n2 = · · · = nJ = n), la ecuación [6.4] se reduce a:
MCA = = n = [6 5]
La distribución muestral de este cociente (ver Apéndice 6) fue establecida por Fisher (1924)
y etiquetada distribución F en su honor por Snedecor (1934). El estadístico F refleja el gra-
do de parecido existente entre las medias poblacionales. Si las medias poblacionales son
iguales, las medias muestrales de los diferentes grupos serán parecidas, existiendo entre ellas
tan solo diferencias atribuibles al azar. En ese caso, el numerador (basado en las diferencias
entre las medias muestrales) reflejará un grado de variación similar al del denominador (ba-
sado en las diferencias entre las puntuaciones individuales dentro de cada grupo) y el cocien-
te F tomará un valor próximo a 1. Por el contrario, si las medias muestrales son distintas, el
numerador será mayor que el denominador y el estadístico F tomará un valor mayor que 1.
Cuanto más diferentes sean las medias muestrales, mayor será el valor de F.
Si las poblaciones muestreadas son normales y sus varianzas iguales, el estadístico F
se aproxima a la distribución F con J !1 y N ! J grados de libertad (ver, en el Apéndice 6, el
apartado Distribución muestral del estadístico F ). Y puesto que el estadístico F, además de
informar del grado de parecido entre las medias, tiene distribución muestral conocida, te-
nemos todo lo necesario para diseñar un contraste sobre la hipótesis de igualdad de medias.
ANOVA de un factor completamente aleatorizado (A-CA)

El análisis de varianza de un factor completamente aleatorizado (A-CA) o, simplemente,
ANOVA de un factor, sirve para comparar varios grupos en una variable cuantitativa. Se tra-
ta, por tanto, de una generalización de la prueba T para dos muestras independientes al caso
de más de dos muestras. A la variable categórica (nominal u ordinal) que define los grupos
o muestras se le llama independiente o factor. A la variable cuantitativa (de intervalo o ra-
zón) en la que se desea comparar los grupos se le llama dependiente o respuesta.
Consideremos un ejemplo sobre la relación entre el nivel de activación o ansiedad (va-
riable categórica con tres niveles: bajo, medio y alto) y el rendimiento (variable cuantitativa)
en el que se han seleccionado aleatoriamente 20 sujetos de cada nivel de ansiedad y se les
ha hecho trabajar en una tarea de solución de problemas. El objetivo del estudio es compro-
bar si el rendimiento es o no el mismo en los distintos niveles de ansiedad. El análisis de
varianza de un factor permite comparar el rendimiento medio de los tres grupos y valorar si
existen diferencias.
Otro ejemplo. Supongamos que una muestra aleatoria de 40 pacientes depresivos (todos
ellos con puntuaciones mayores de 30 en la escala de depresión de Hamilton) se reparten
aleatoriamente en cuatro grupos. Al primer grupo se le aplica un tratamiento farmacológico
convencional; al segundo, un nuevo tratamiento farmacológico; al tercero, una combinación
de tratamiento farmacológico y psicoterapia; al cuarto, solamente psicoterapia. El objetivo
del estudio consiste en valorar si hay algún tratamiento más eficaz que los otros. El análisis
de varianza permite valorar si, al cabo de las doce semanas de tratamiento, el nivel de depre-
sión medio es o no el mismo en las poblaciones definidas por los cuatro tratamientos. Tam-
bién permite realizar comparaciones para identificar el tratamiento más eficaz.
La Tabla 6.1 muestra la estructura de los datos y la notación que utilizaremos en un di-
seño de un factor. Usaremos reglas fáciles de seguir a la hora de representar cada elemento
de la tabla. Y mantendremos la misma lógica en la notación cuando incorporemos más
factores al diseño. A los factores los representaremos por letras latinas mayúsculas empe-
zando por la primera: A, B, etc. Al único factor del modelo de un factor lo llamaremos A. Y
a la variable dependiente (la variable cuantitativa) la llamaremos Y.
Tabla 6.1. Estructura de los datos y notación en un diseño de un factor completamente aleatorizado (A-CA)
Factor A Puntuaciones Totales Medias
a1 ··· ···
a2 ··· ···
··· ··· ··· ··· ··· ··· ··· ··· ···
aj ··· ···
··· ··· ··· ··· ··· ··· ··· ··· ···
aJ ··· ···
Los subíndices son necesarios para identificar cada elemento de la tabla. A los J grupos o
niveles del factor A los representamos mediante a1, a2, ..., aj..., aJ ; por tanto, j = 1, 2, ..., J.
En el modelo de un factor es necesario utilizar dos subíndices para representar cada valor de
Y: el primero de ellos (i) se refiere a los diferentes elementos (generalmente sujetos) del
mismo grupo: i = 1, 2, ..., nj ; el segundo ( j) se refiere a los diferentes grupos. Así, por
ejemplo, Y52 se refiere a la puntuación obtenida por el 5º sujeto del 2º grupo.
Los grupos pueden tener o no el mismo tamaño; el tamaño de cada grupo lo represen-
taremos mediante nj , con N = n1 + n2 + · · · + nj + · · · + nJ. El signo “+” colocado como subín-
dice se refiere a todos los valores del subíndice al que sustituye. Por ejemplo, Y+2 se refie-
re a todas las puntuaciones (todos los valores i) del segundo grupo ( j = 2). Para representar
estas sumas o totales utilizaremos la letra T. Las sumas o totales de cada grupo ( ) se ob-
tienen sumando desde 1 hasta nj todas las puntuaciones de ese grupo:
= = [6.7]
Por ejemplo, el total del grupo 1 (T1) se obtiene sumando las n1 puntuaciones de la primera
fila de la tabla (es decir, sumando la fila a1). Y el gran total (T ) se obtiene sumando todas las
puntuaciones de la tabla:
= = = [6.8]
A partir de estos totales es fácil obtener las medias de cada grupo y la media total; basta con
dividir los correspondientes totales por el número de puntuaciones utilizadas para obtenerlos:
= = y = = [6.9]
La hipótesis nula que se pone a prueba con el ANOVA de un factor es que las J medias po-
blacionales son iguales. El Cuadro 6.1 ofrece un resumen de los pasos que seguiremos para
contrastar esta hipótesis. Para que el estadístico F propuesto en [6.6] permita contrastar la
hipótesis de igualdad de medias estamos asumiendo que se dan ciertas condiciones: muestras
aleatorias extraídas de poblaciones normales con la misma varianza. En el siguiente aparta-
do hablaremos de estas condiciones.
Cuadro 6.1. Resumen del ANOVA de un factor completamente aleatorizado (A-CA)7
1. Hipótesis: H0: = = ··· = (todas las medias son iguales).

H 1: =/ para algún j o jN ( j =/ jN) (no todas las medias son iguales).
2. Supuestos: J muestras aleatoriamente seleccionadas de J poblaciones normales con la
misma varianza.
3. Estadístico del contraste (ver ecuación [6.6]): F = MCA « MCE.
4. Distribución muestral: F se distribuye según F con J !1 y N ! J grados de libertad.
$ FJ ! 1, N ! J ; 1 ! α .
5. Zona crítica: F >
6. Regla de decisión: se rechaza H0 si el estadístico F cae en la zona crítica; en caso con-
trario, se mantiene. El rechazo de H0 indica que no todas las medias poblacionales son
iguales, es decir, que hay al menos una media que difiere de al menos otra.
$ Fh ), siendo Fh el valor muestral concreto que to-
7. Nivel crítico (valor p): p = P (F >
ma el estadístico F.
Ejemplo. ANOVA de un factor completamente aleatorizado (A-CA)

Al estudiar la prueba de Kruskal-Wallis (ver Capítulo 4) hemos analizado los datos de un
estudio sobre la relación entre ansiedad y rendimiento. Vamos a analizar esos mismos datos
con el estadístico F. Se han formado aleatoriamente tres grupos de 10 sujetos. A cada grupo
se le ha inducido (mediante instrucciones y manipulando los objetivos de la tarea) un nivel
distinto de ansiedad (bajo, medio, alto) mientras realizaban una tarea de solución de proble-
mas con un rompecabezas. Al evaluar el rendimiento de cada sujeto en una escala de 0 a 20
puntos se han obtenido los resultados que muestra la Tabla 6.2. El objetivo del estudio es,
de momento, averiguar si los grupos de ansiedad difieren en rendimiento, es decir, si el nivel
de ansiedad está relacionado con el rendimiento (α = 0,05).
Tabla 6.2. Puntuaciones en rendimiento de 30 sujetos con diferente nivel de ansiedad

_
Nivel de ansiedad (A) Rendimiento (Y) Yj S j2
a1 = bajo 4 11 7 10 4 9 11 8 14 12 9 10,89
a2 = medio 19 14 13 16 15 18 12 7 10 16 14 13,33
a3 = alto 3 11 5 10 14 5 7 9 4 2 7 15,11
Promedios 10 13,11
Tenemos una variable categórica o factor (nivel de ansiedad) con tres niveles que definen tres
grupos y una variable cuantitativa ( puntuaciones en rendimiento) en la cual queremos com-
7
A partir de ahora suprimiremos el subíndice Y de las medias poblacionales µ para simplificar la notación. Por tanto, siem-
pre que utilicemos el símbolo µ sin indicación de la variable a la que se refiere (X, Y, Z, etc.), asumiremos que se trata de
la media poblacional de Y.
parar los grupos. La Figura 6.1 muestra los diagramas de caja correspondientes a los tres gru-
pos del estudio. En ninguno de ellos se observan casos atípicos; tampoco se aprecian indicios
de asimetría; y el grado de dispersión es parecido en todos ellos. El grupo de nivel de ansie-
dad medio es el que obtiene el rendimiento medio más alto; el de nivel de ansiedad alto, el
que muestra el rendimiento medio más bajo.
Figura 6.1. Diagramas de caja correspondientes a los tres grupos de la tabla 6.2
Veamos si las diferencias que se aprecian en los diagramas de caja son estadísticamente sig-
nificativas. Asumiendo que las tres muestras se han seleccionado aleatoriamente de pobla-
ciones normales con la misma varianza, la hipótesis de igualdad de medias puede contras-
tarse aplicando un ANOVA de un factor completamente aleatorizado:
1. Hipótesis: H0: µ bajo = µ medio = µ alto .
H1: µ j =/ µ j para algún j o jN (j =/ jN).
2. Supuestos: tenemos 3 muestras aleatorias extraídas de poblaciones que asumimos nor-
males y con la misma varianza.
3. Estadístico del contraste (ver ecuaciones [6.3], [6.5] y [6.6]):
_
Y = (9 + 14 + 7) / 3 = 10.
= [(9 ! 10)2 + (14 ! 10)2 + (7 ! 10)2 ] / 2 = 13.
MCA = 10 (13) = 130.
MCE = (10,89 + 13,33 + 15,11) / 3 = 13,11.
F = MCA « MCE = 130 / 13,11 = 9,92.
4. Distribución muestral: F se distribuye según FJ !1, N !J = F3 !1, 30 ! 3 = F2, 27.
5. Zona crítica: F $> F2, 27; 0,95 . 3,35.
6. Decisión: como el valor del estadístico del contraste (9,92) es mayor que el punto críti-
co (3,35), se rechaza H0. Se puede concluir, por tanto, que los promedios poblacionales
comparados no son iguales. El rechazo de la hipótesis de igualdad de medias nos dice que
el rendimiento medio no es el mismo en los tres grupos, pero no nos dice qué grupos di-
fieren de qué otros. Para saber esto es necesario seguir haciendo comparaciones. Estas
comparaciones (llamadas múltiples) se estudian más adelante en este mismo capítulo.
7. Nivel crítico: p = P (F $ > 9,92) < 0,01.
Supuestos del ANOVA de un factor
En el apartado anterior hemos presentado lo que podríamos llamar una versión abreviada del
ANOVA de un factor completamente aleatorizado. Para contrastar la hipótesis de igualdad
de medias basta con conocer esta versión abreviada.
Pero el análisis de varianza es una concreción de un modelo estadístico en el que se basan
varios de los procedimientos que hemos estudiando y que estudiaremos más adelante: el mo-
delo lineal general (ver el Capítulo 1 del tercer volumen). Y ocurre que todo modelo estadís-
tico necesita ir acompañado de una serie de aclaraciones referidas a las condiciones que deben
darse para que el modelo funcione correctamente. A estas condiciones las llamamos supues-
tos. En este apartado nos vamos a ocupar de los supuestos asociados al modelo de un factor.
El estadístico F propuesto en [6.6] permite tomar decisiones sobre la hipótesis de igual-
dad de medias porque, si se dan ciertas condiciones, se aproxima a la distribución F con J !1
y N ! J grados de libertad. Estas condiciones (supuestos) son las que garantizan que la pro-
babilidad de cometer errores Tipo I y Tipo II es la que estamos asumiendo que es y no otra.
Al definir el estadístico F hemos considerado en todo momento que estábamos traba-
jando con muestras aleatorias procedentes de poblaciones normales con la misma varianza.
De estas condiciones iniciales es de donde se derivan los tres supuestos del ANOVA de un
factor completamente aleatorizado: independencia entre las puntuaciones, normalidad de las
poblaciones y homocedasticidad (varianzas poblacionales iguales).
El incumplimiento de uno o más de estos supuestos puede hacer que la distribución
muestral del estadístico F cambie y, consecuentemente, que el nivel de significación adopta-
do (generalmente 0,05) no coincida con el nivel de significación real, pasando a ser menor
(haciendo el contraste más conservador) o mayor (haciendo el contraste más liberal). Esto
significa que el incumplimiento de uno o más de estos supuestos puede llevar a tomar deci-
siones equivocadas. Lo cual es especialmente relevante si se tiene en cuenta que los datos de
los estudios que suelen llevarse a cabo en el ámbito de las ciencias sociales y de la salud
raramente cumplen todos los supuestos en los que se basa la distribución muestral del esta-
dístico F. En general, el estadístico F es robusto (es decir, ofrece resultados correctos en
condiciones desfavorables) frente a desviaciones moderadas de los supuestos en los que se
basa (ver Glass, Peckham y Sanders, 1972), pero desviaciones más acusadas pueden alterar
de forma importante la probabilidad de cometer errores Tipo I y II, y esto puede tener graves
consecuencias sobre las conclusiones del análisis. Veamos algunos aspectos relacionados con
estos supuestos.
Independencia
En el análisis de varianza de un factor, el supuesto de independencia se refiere a que cada
puntuación debe ser independiente de las demás (independiente de las de su mismo grupo y
de las del resto de los grupos). En la práctica, la independencia se consigue con la selección
aleatoria de los sujetos y/o la asignación aleatoria de los mismos a las condiciones del estu-
dio8. Las consecuencias del incumplimiento del supuesto de independencia pueden ser gra-
8
La independencia entre las puntuaciones no es un requisito exclusivamente estadístico; también es un requisito experi-
mental . Recordemos que, si las unidades de análisis no se asignan aleatoriamente a las condiciones del estudio, no habrá
forma de separar el efecto de la variable independiente o factor del efecto de posibles variables extrañas.
ves (ver Kenny y Judd, 1986; Scariano y Davenport, 1987), de modo que es muy importan
te cuidar los aspectos relativos a la selección y asignación de sujetos.
No es infrecuente encontrar incumplimientos de este supuesto. Un ejemplo típico se da
cuando se realizan repetidas mediciones de los mismos sujetos, de manera que el número to-
tal de puntuaciones es mayor que el número total de sujetos. En un diseño completamente
aleatorizado hay que procurar que cada puntuación se corresponda con un sujeto distinto. No
obstante, esto no necesariamente garantiza la independencia entre las puntuaciones. Siempre
es posible encontrar sujetos distintos que no se comportan de forma independiente; es decir,
sujetos distintos que muestran comportamientos similares en la variable estudiada: miembros
de la misma familia, estudiantes de la misma clase, pacientes de un mismo hospital, parti-
cipantes en un experimento que interaccionan entre sí en su actividad cotidiana, miembros
de un mismo colectivo social o religioso, etc.
Si existen dudas acerca de la aleatoriedad de las puntuaciones de un estudio concreto,
puede utilizarse la prueba de las rachas para contrastar la hipótesis de que las muestras uti-
lizadas son aleatorias (ver Apéndice 2).
Normalidad
El segundo de los supuestos se refiere a que las puntuaciones de cada grupo constituyen una
muestra aleatoria extraída de una población normal. En varios trabajos ha quedado probado
que el estadístico F es robusto frente al incumplimiento de este supuesto (Box, 1953; Jagers,
1980; Lix, Keselman y Keselman, 1996).
Si las desviaciones de la normalidad son muy acusadas, pueden detectarse fácilmente
utilizando sencillos métodos gráficos (Chambers, Cleveland, Kleiner y Tukey, 1983; Iman
y Conover, 1983; Wainer y Thissen, 1993). Los gráficos de normalidad ya estudiados (Q-Q
normal y Q-Q normal sin tendencias; ver, en el Capítulo 2, el apartado Contrastes sobre la
forma de una distribución), son una herramienta muy útil en este sentido. Pero no olvidemos
que estos gráficos son apropiados, sobre todo, para valorar la normalidad de muestras gran-
des; con muestras pequeñas es preferible contrastar la hipótesis de normalidad mediante
alguno de los procedimientos descritos en el Capítulo 2.
Si las poblaciones muestreadas, aun no siendo normales, son simétricas o tienen forma
parecida (por ejemplo, todas positivamente asimétricas y leptocúrticas), el estadístico F ofrece
resultados correctos incluso con tamaños muestrales relativamente pequeños (ver Tan, 1982).
No obstante, siempre es recomendable trabajar con tamaños muestrales moderadamente gran-
des para tener la garantía de que el estadístico F se comportará correctamente incluso cuan-
do las poblaciones originales se desvíen sensiblemente de la normalidad. En el caso de tener
que trabajar con muestras pequeñas procedentes de poblaciones no normales, es preferible
utilizar procedimientos alternativos al estadístico F como, por ejemplo, la prueba de Kruskal-
Wallis estudiada en el Capítulo 4 (Wilcox, 1996; Good y Lunneborg, 2006).
Igualdad de varianzas (homocedasticidad)

El último de los supuestos del modelo de un factor afirma que las varianzas de las poblaciones
son iguales (ver [6.1]). Durante años se ha venido aceptando, a partir de trabajos como el de
Horsnell (1953) o Box (1954a), que el estadístico F es robusto frente al incumplimiento de
este supuesto si la varianza más grande no es más de tres veces mayor que la más pequeña
y los tamaños muestrales son iguales y no demasiado pequeños. Pero en las ciencias sociales
y de la salud no es infrecuente tener que trabajar con datos en los que la varianza más grande
es más de doce veces mayor que la más pequeña (Tomarken y Serlin, 1986; Wilcox, 1987a).
Y cuando las varianzas poblacionales son distintas, el comportamiento del estadístico F puede
resultar insatisfactorio incluso con tamaños muestrales iguales (Harwell, Rubinstein, Hayes
y Olds, 1992; Rogan y Keselman, 1977; Tomarken y Serlin, 1986; Wilcox, 1987a; Wilcox,
Charlin y Thompson, 1986; etc.). Y si los tamaños muestrales son diferentes, varios trabajos
(ver Glass, Peckham y Sanders, 1972, para una revisión) coinciden en señalar que el estadís-
tico F deja de ser robusto: se convierte en muy conservador cuando las varianzas más gran-
des corresponden a los grupos de mayor tamaño (perdiendo, además, potencia) y en marca-
damente liberal cuando las más grandes corresponden a los grupos de menor tamaño.
Estas consideraciones sugieren que, cuando se tiene intención de utilizar el estadístico
F para contrastar la hipótesis de igualdad de medias, es más que recomendable contrastar
previamente la hipótesis de igualdad de varianzas. Existen varios procedimientos para esto,
pero no todos ellos son igualmente robustos frente al incumplimiento del supuesto de nor-
malidad (ver O’Brien, 1981). Uno de los más utilizados (incluido en el SPSS) es el propues-
to por Levene (1960). Consiste en transformar las puntuaciones originales en _ desviaciones
D i j en valor absoluto de las medias de sus respectivos grupos (D i j = | Yi j ! Y j |) y aplicar el
estadístico F a las puntuaciones transformadas. Si las varianzas poblacionales son iguales,
las desviaciones Di j tendrán promedios parecidos en todos los grupos y servirán como refe-
rencia del grado del parecido existente entre las varianzas. Una F significativa llevará al
rechazo de la hipótesis de igualdad de varianzas. Brown y Forsythe (1974a) han propuesto
un procedimiento idéntico al de Levene, pero utilizando las medianas en lugar de las medias
para obtener las puntuaciones transformadas D i j.
Si alguno de estos procedimientos9 lleva al rechazo de la hipótesis de igualdad de va-
rianzas, lo razonable es contrastar la hipótesis de igualdad de medias con alguna prueba
alternativa al estadístico F. Ya hemos mencionado que la prueba de Kruskal-Wallis estudia-
da en el Capítulo 4 representa una alternativa robusta cuando no puede asumirse normali-
dad; pero, cuando no puede asumirse igualdad de varianzas, Vargha y Delaney (1998; ver
también Keselman, Games y Rogan, 1979) recomiendan utilizar los estadísticos propuestos
por Welch (1951) y Brown y Forsythe (1974b) basados en una modificación del estadístico
F (estos estadísticos son los que incluye el SPSS como métodos alternativos al estadístico F
y se describen al final de este capítulo, en el Apéndice 6).
Transformación de las puntuaciones
Acabamos de señalar que el estadístico F requiere trabajar con poblaciones normales y homo-
cedásticas; y que, cuando no se dan estas condiciones, lo recomendable es utilizar procedi-
mientos alternativos (hemos mencionado la prueba de Kruskal-Wallis –ver Capítulo 4– y las
de Welch y Brown-Forsythe –ver Apéndice 6–). No obstante, cuando las poblaciones no son
9
En Conover, Johnson y Johnson (1981) se comparan 60 procedimientos diferentes para contrastar la igualdad de varian-
zas. O’Brien (1981) ha diseñado un método de bastante aceptación (ver, por ejemplo, Pardo y San Martín, 1998, pág. 271);
Cochran (1941) ha propuesto un estadístico basado en el cociente entre la varianza más grande y la suma de las J varian-
zas (ver Kirk, 1995, pág. 101); el método de Hartley (1940, 1950), uno de los más utilizados en el pasado, se basa en el co-
ciente entre la varianza más grande y la más pequeña (ver Kirk, 1995, pág. 101); etc.
normales y homocedásticas, todavía existe la posibilidad de seguir utilizando el estadístico

F si a las puntuaciones originales se les aplica alguna transformación que permita normalizar
las distribuciones y homogeneizar las varianzas.
Las transformaciones que ayudan a conseguir este objetivo son, lógicamente, no linea les:
la transformación raíz cuadrada (Y * = ) permite disminuir la asimetría positiva y hacer
más homogéneas las varianzas. La transformación logarítmica (Y * = log [Y ]) reduce todavía
más la asimetría positiva y también hace más homogéneas las varianzas. La presencia de va-
lores muy extremos puede atenuarse transformando los valores originales en sus recíprocos
o inversos (Y * = 1/Y ). Y la transformación arcoseno de la raíz cuadrada (Y * = arcsen )
suele aplicarse para poder trabajar con proporciones (en Howell, 2002, págs. 344-349, pue-
de encontrarse una buena descripción del efecto que produce cada tipo de transformación y
de cuándo aplicarla).
Varios de los más importantes manuales de análisis de datos dedican un apartado más
o menos extenso a este tema (ver, por ejemplo, Howell, 2002, págs. 342-349; Kirk, 1995,
págs. 103-107; Maxwell y Delaney, 2004, págs. 117-120; etc.). Pero los beneficios de esta
práctica están poco claros y han sido, y siguen siendo, objeto de controversia.
En algunas áreas de conocimiento existe la costumbre de trabajar con transformaciones
no lineales (decibelios, pH, escala Ritcher, etc.). En las ciencias sociales y de la salud no es
infrecuente transformar la variable dependiente en rangos o en percentiles. Y muchos de los
estadísticos que utilizamos son transformaciones no lineales que se utilizan con el objetivo
de conocer sus distribuciones muestrales para poder realizar inferencias. Pero todas estas
transformaciones tienen el objetivo de simplificar las cosas y facilitar la interpretación de los
datos. Y no parece que esta forma de proceder haya provocado ninguna controversia.
El problema surge cuando las transformaciones se aplican con el objetivo de que los da-
tos se ajusten a determinados supuestos estadísticos. Si bien no faltan quienes encuentran
ventajas o beneficios en esta práctica10, tampoco faltan quienes se muestran poco partidarios
de ella11. Transformar la variable dependiente para conseguir normalizar las distribuciones
y homogenizar las varianzas tiene consecuencias que dependen de varios factores (ver Ga-
mes, 1983); y ni esos factores ni sus consecuencias parecen estar del todo claros.
Por tanto, la transformación de las puntuaciones originales no es algo que deba hacerse
de forma rutinaria. Es legítimo intentar hacer que las distribuciones con las que se va a tra-
bajar sean razonablemente simétricas, con pocos o ningún valor extremo y con varianzas más
o menos homogéneas (todo ello con el objetivo de poder aplicar el estadístico F ). Pero si los
datos ya poseen esas características o si existe algún procedimiento que pueda analizar con
solvencia los datos disponibles, no se obtendrá ninguna ganancia evidente aplicando una
transformación cuya única consecuencia segura es la de obligar al investigador a trabajar en
una métrica desprovista de significado. Y existen procedimientos robustos para analizar casi
cualquier tipo de datos si necesidad de transformarlos (ver Wilcox, 2005).
10
Ver , por ejemplo, Fleiss (1986), Levine y Dunlap (1982, 1983), Luh (1992), Rasmussen (1989).
11
Los beneficios de la transformación logarítmica no parecen estar claros; entre otras cosas, los valores extremos pueden
quedar poco corregidos en unos grupos y demasiado en otros (Games y Lucas, 1966). Las transformaciones raíz cuadrada
y arcoseno de la raíz cuadrada suelen reducir la potencia sin mejorar la probabilidad de cometer errores Tipo I (Budescu
y Appelbaum, 1981; Milligan, 1987). Las transformaciones logarítmica, raíz cuadrada y recíproca pueden, ocasionalmente,
invertir el orden de las medias originales (Kruskal, 1978; Milligan, 1987; Oshima y Algina, 1992; Steel, Torrie y Dickey,
1997). Incluso entre los partidarios de las transformaciones se reconoce que una transformación que reduce la asimetría en
un grupo puede incrementarla en otro, y que una transformación que reduce la asimetría en todos los grupos puede hacer
más heterogéneas las varianzas (Levine y Dunlap, 1982).
Efectos fijos y aleatorios

Ya hemos mencionado al comienzo del capítulo que una variable independiente o factor pue-
de ser de efectos fijos o de efectos aleatorios. Recordemos que los niveles de un factor de
efectos fijos los establece el investigador o vienen dados, mientras que los niveles de un factor
de efectos aleatorios se eligen aleatoriamente de la población de posibles niveles del factor.
Esta diferencia en la forma de establecer los niveles de un factor tiene algunas consecuencias
sobre algunos elementos del contraste.
Cuando un factor es de efectos aleatorios, las hipótesis no se plantean sobre las medias
poblacionales de los niveles del factor sino sobre su varianza. En un modelo de efectos fijos,
el análisis se centra en los J niveles del factor; y, dado que esos J niveles representan todos
los niveles de interés, la hipótesis nula que se pone a prueba se refiere justamente a las me-
dias de esos J niveles. Sin embargo, en un modelo de efectos aleatorios, los niveles utiliza-
dos son solamente algunos de los posibles; en estos casos, la hipótesis nula debe reflejar, no
ya la diferencia entre las medias de esos niveles concretos, que también, sino la diferencia
entre todos los posibles niveles del factor. Esto se consigue contrastando la hipótesis nula de
que la varianza de las medias de todos los posibles niveles del factor vale cero:
H0 : = 0 [6.10]
Puesto que la varianza de las medias solamente valdrá cero cuando todas las medias sean
iguales, el rechazo de la hipótesis formulada en [6.10] permitirá concluir que las medias po-
blacionales no son iguales.
Las hipótesis que se contrastan con uno y otro tipo de factores nos ponen en la pista del
tipo de inferencias que es posible hacer. Con un factor es de efectos fijos, las inferencias se
limitan a los niveles concretos incluidos en el análisis; los niveles que interesa estudiar son
justamente los que se están estudiando; ellos constituyen la población de niveles del factor;
si se replicara el experimento, aunque los sujetos serían, muy probablemente, diferentes, los
niveles del factor serían los mismos. Con los factores de efectos aleatorios no ocurre esto:
los niveles concretos incluidos en el análisis solamente constituyen una muestra aleatoria de
la población de niveles que interesa estudiar; las inferencias, por tanto, se realizan, no sobre
los niveles incluidos en el estudio, sino sobre la población de posibles niveles del factor.
Excepto por lo que se refiere a algún detalle relacionado con la cuantificación del tama-
ño del efecto (ver siguiente apartado), el hecho de que un factor sea de efectos fijos o de efec-
tos aleatorios no tiene consecuencias sobre los cálculos involucrados en los modelos de un
factor; sí las tiene, sin embargo, en los modelos de más de un factor, de modo que más ade-
lante tendremos que volver sobre esto.

Al igual que ocurre con el estadístico T, el valor del estadístico F no depende únicamente del
verdadero efecto del factor (es decir, de la verdadera diferencia entre las medias poblacio-
nales), sino del tamaño de las muestras y del grado de variabilidad de las puntuaciones. Por
tanto, una F significativa no necesariamente se corresponde con un efecto importante o un
resultado relevante. Para detectar un efecto o resultado de ese tipo es necesario hacer algo
más.
En el caso de J = 2 medias independientes (ver, en el Capítulo 4, el apartado Medidas

del tamaño del efecto), hemos propuesto dos estrategias distintas para cuantificar el tamaño
del efecto: una basada en la diferencia entre las medias (ver [4.13]) y otra basada en la
relación entre las variables (ver [4.18]). Y hemos tenido ocasión de comprobar que ambas
estrategias son equivalentes porque, tratándose de una variable categórica y una cuantitati-
va, comparar los grupos y relacionar las variables son la misma cosa: si los grupos definidos
por la variable categórica difieren en la variable cuantitativa, entonces la variable categóri-
ca está relacionada con la variable cuantitativa. En este escenario, el resultado que se obtie-
ne cuantificando la magnitud de la diferencia entre las medias es exactamente el mismo que
el que se obtiene cuantificando la magnitud de la relación entre las variables.
En el caso de J > 2 medias, no es posible comparar las J medias con una resta (como en
el caso de dos medias), pero sí es posible utilizar la varianza de las medias como una medi-
da del grado en que difieren (ver apartado anterior). Basándose en este criterio, Cohen (1988,
1992a) ha propuesto una medida del tamaño del efecto basada en el cociente entre la varian-
za de las medias y la varianza de las puntuaciones individuales:
= [6.11]
Esta medida (a la que Cohen llama f ) es equivalente a la que ya estudiada para el caso de dos
medias (ver ecuación [4.12]). Sustituyendo las medias y la varianza poblacionales por sus
correspondientes estimadores muestrales se obtiene
= = [6.12]
Para interpretar , Cohen (1992a) ha propuesto una regla general que puede servir de guía
en la mayor parte de los contextos aplicados: valores en torno a 0,10, 0,25 y 0,40 represen-
tan, respectivamente, efectos de tamaño pequeño, mediano y grande.
La variabilidad entre las medias y la variabilidad entre las puntuaciones individuales tam-
bién puede utilizarse para obtener la proporción de varianza común, es decir, el grado de re-
lación existente entre la variable categórica o factor y la variable cuantitativa o dependien-
te. Esto es justamente lo que hacen las medidas del tamaño del efecto que estudiaremos a
continuación: todas ellas intentan estimar el verdadero tamaño del efecto en la población (la
verdadera diferencia entre las medias) comparando distintas fuentes de variabilidad para
obtener una estimación de la proporción de varianza común.
La más antigua de estas medidas, eta-cuadrado, fue inicialmente propuesta por Pearson
(1905) e incorporada más tarde por Fisher (1925, 1935) al contexto de los modelos de aná-
lisis de varianza:
= = [6.13]
El valor de expresa el grado de asociación (no solo lineal, sino de cualquier tipo) existen-
te entre la variable categórica o factor y la variable cuantitativa o dependiente (si se aplica
al caso de dos medias, = RXY). El numerador de es una cuantificación de la variabilidad
existente entre las medias; el denominador, una cuantificación de la variabilidad total; el
cociente entre ambas cuantificaciones indica cómo es de grande la variabilidad entre las
medias en comparación con la variabilidad total. Por tanto, puede interpretarse como la
proporción de varianza que comparten la variable categórica o factor y la variable cuantita-
tiva o dependiente: indica el grado en que aumenta el conocimiento (o se reduce la incer-
tidumbre) de las puntuaciones de la variable dependiente por el hecho de saber a qué nivel
del factor (a qué grupo) pertenecen.
El problema de es que tiende a ofrecer estimaciones sesgadas de la verdadera pro-
porción de varianza común (en concreto, la sobrestima; es decir, tiende a ofrecer valores más
altos que el del parámetro que estima; ver, por ejemplo, Fowler, 1985). Una corrección debi-
da a Wherry (1931) permite reducir ese sesgo:
= [6.14]
También para corregir el sesgo de , Kelley (1935, págs. 554-559) y, posteriormente, Pe-
ters y Van Voorhis (1940) y Cohen (1966), han propuesto utilizar una modificación de
llamada épsilon-cuadrado:
= [6.15]
Esta sencilla modificación de permite obtener estimaciones de la verdadera proporción

de varianza común solo ligeramente sesgadas. Su comportamiento, en general, es sensible-
mente mejor que el de (Fowler, 1985).
Por último, Hays (1963, 1994) ha propuesto una medida de asociación llamada omega-
cuadrado ( ). Esta medida es muy parecida a y ha llegado a convertirse en una de las
de mayor aceptación12. Su valor concreto13 depende de que el factor sea de efectos fijos o de
efectos aleatorios (ver Winer, Brown y Michels, 1991, págs. 124-126). Si el factor es de efec-
tos fijos14,
= [6.16]
y si el factor es de efectos aleatorios,
= [6.17]
(n se refiere al tamaño de cada grupo o al promedio de los tamaños en caso de que sean dis-
tintos). La ecuación [6.17] también se conoce como coeficiente de correlación intraclase,
una medida que indica el grado de parecido entre las puntuaciones del mismo grupo en com-
paración con el grado de parecido entre las puntuaciones de grupos distintos.
12
No deja de ser sorprendente que, a pesar de ser de la medida de asociación que acapara las preferencias de los expertos,
muchos programas de análisis estadístico, incluido el SPSS, no la incluyan como tal entre sus opciones.
13
Si el estadístico F es menor que 1 (es decir, si MCA < MCE ), las ecuaciones [6.16] y [6.17] ofrecen un valor negativo.
Puesto que una proporción no puede ser negativa, cuando ocurre esto se considera que ω2 vale cero.
14
El valor de también puede obtenerse a partir del estadístico F. Cuando el factor es de efectos fijos, la ecuación [6.16]
equivale a = [(J ! 1) (F ! 1)] / [N + (J !1) (F !1)]. Cuando el factor es de efectos aleatorios, la ecuación [6.17] equivale
a = (F ! 1) / [(N ! 1) + F].
De las cuatro medidas de asociación propuestas, ( , , y ), las tres últi-

mas son preferibles a porque el sesgo de es mayor. Entre el resto de medidas, aunque
todas ellas ofrecen resultados muy parecidos, tiene la ventaja de que puede aplicarse a
modelos y diseños más complejos (Maxwell, Camp y Arvey, 1981). Además, el sesgo de ω2
como estimador de la verdadera proporción de varianza común es muy pequeño (ver Carroll
y Nordholm, 1975).
Para interpretar el tamaño de , Cohen (1988) ha propuesto una especie de regla general
que puede resultar útil en muchos contextos aplicados: valores en torno a 0,01, 0,06 y 0,14
indican, por lo general, asociaciones de intensidad baja, media y alta, respectivamente.
En los datos de la Tabla 6.2 tenemos 3 grupos (J = 3) y 10 sujetos por grupo (N = 30).
Y sabemos que MCA = 130 y MCE = 13,11. Aplicando las ecuaciones [6.13] a [6.16] a estos
datos obtenemos
= = =
= =
= = =
= = =
El valor de es mayor que el del resto de las medidas (ya hemos señalado que, como esti-
mador de la verdadera proporción de varianza común, ofrece estimaciones infladas). El
resto de medidas toman el mismo valor. La interpretación de una medida de este tipo (va-
rianza común) puede hacerse en términos del grado de incertidumbre en que se reduce nues-
tro conocimiento de la variable dependiente por el hecho de saber a qué grupo pertenece ca-
da sujeto. En nuestro ejemplo, saber a qué grupo (nivel de ansiedad) pertenecen los sujetos
reduce nuestra incertidumbre (mejora nuestro conocimiento) sobre su rendimiento un 38 %.
Y de acuerdo con la regla de Cohen para este tipo de medidas (0,01; 0,06; 0,14), puede
concluirse que la intensidad de la asociación encontrada es alta.
Aplicando la ecuación [6.12] para calcular la medida del tamaño del efecto con estos
mismos datos obtenemos
= =
Valor que, de nuevo con la regla de Cohen (0,10; 0,25; 0,40), representa un efecto de tama-
ño grande.
Es evidente que las medidas del tamaño del efecto ofrecen información adicional a la del
estadístico F : contribuyen a distinguir entre la significación estadística de un resultado y su
relevancia o importancia práctica (Kirk, 1996); sirven para estimar la potencia de un contras-
te y elegir el tamaño muestral idóneo al planificar un estudio (Cohen, 1988; ver siguiente
apartado); y facilitan la recopilación de los resultados de diferentes estudios al realizar un
meta-análisis (Hunter y Schmidt, 2004; Rosenthal, 1991). Éstas son, sin duda, algunas de las
razones por las que muchos autores (también los editores de las más importantes revistas
científicas), recomiendan utilizar las medidas del tamaño del efecto e incluirlas en los in-
formes de investigación (Abelson, 1995; Cohen, 1988; Murphy, 1997; Thomson, 1994, 1997;
etc.). Especialmente relevantes en este sentido son las recomendaciones del informe de Wil-
kinson y la APA Task Force on Statistical Inference (1999).
No obstante, ya hemos señalado (ver, en el Capítulo 1, el apartado Tamaño del efecto)
que las medidas del tamaño del efecto no deben ser consideradas una panacea en el análisis
de datos. La razón principal de esto es que su significado no parece estar del todo claro (en
relación con esta problemática merecen destacarse las interesantes reflexiones de Chow,
1996, págs. 89-118; y O’Grady, 1982).
La estrategia que presentamos en este apartado para calcular la potencia asociada al esta-
dístico F se basa en una medida del tamaño del efecto llamada (phi) y en la distribución
F no centrada (Tabla G del Apéndice final)15.
Si la hipótesis de igualdad de medias es verdadera, el estadístico F sigue el modelo de
distribución de probabilidad F con parámetros J !1 y N ! J (sus grados de libertad). Si la
hipótesis de igualdad de medias es falsa, el estadístico F se distribuye según la F no centra-
da con un tercer parámetro de no-centralidad llamado λ (letra griega lambda):
= [6.18]
(µ es la media total no ponderada). Un parámetro de no-centralidad indica cómo de grande

es la variabilidad entre las medias en comparación con la variabilidad de las puntuaciones
individuales. Por tanto, λ expresa el grado en que difieren las medias poblaciones: cuanto
mayor es la diferencia entre las medias, mayor es el valor de λ. Cuando las medias pobla-
cionales son iguales, λ vale cero; en cuyo caso, la distribución del estadístico F es la dis-
tribución F centrada (con los dos parámetros correspondientes a los grados de libertad del
numerador y del denominador). Aunque existen tablas de la distribución F no centrada ba-
sadas en el parámetro λ, la mayor parte de ellas utilizan la transformación
= [6.19]
La potencia asociada al estadístico F puede obtenerse de la Tabla G a partir del valor de

y de los grados de libertad del estadístico F. Para saber cuál será la potencia de un contras-
te, las medias y la varianza poblacionales incluidas en [6.18] pueden estimarse a partir de
estudios previos. El numerador de [6.18] también puede estimarse mediante el valor o can-
tidad que, a partir de argumentos teóricos o prácticos, se considera mínimamente relevante.
Si no se tiene esta información, puede diseñarse un estudio piloto, con unos pocos datos, pa-
15
Un tratamiento completo de todo lo relacionado con la definición y cálculo de la potencia puede encontrarse en Cohen
(1988). Kirk (1995, págs. 182-188) y Maxwell y Delaney (2004, págs. 120-126) presentan el cálculo de la potencia a par-
tir de gráficos explícitamente diseñados para ello. Y Hays (1994, págs. 408-410) utiliza un procedimiento basado en su
estadístico ω2. Todas estas aproximaciones, incluida la que nosotros proponemos aquí, son equivalentes, es decir, ofrecen
los mismos resultados (ver Winer, Brown y Michels, 1991, págs. 126-140).
ra obtener una estimación de estos parámetros. Cualquiera que sea la forma de obtener esta
información, una vez obtenida el valor de puede estimarse mediante16
= = = [6.20]
En nuestro ejemplo sobre la relación entre ansiedad y rendimiento con J = 3 grupos (ver Ta-
bla 6.2) hemos obtenido MCA = 130 y MCE = 13,11. Por tanto,
= =
Para calcular la potencia del contraste llevado a cabo con los datos de la Tabla 6.2 necesi-
tamos α = 0,05, gl1 = J ! 1 = 2, gl2 = N ! J = 27 y = 2,57. En la Tabla G del Apéndice fi-
nal (redondeando a gl2 = 30 y = 2,6), encontramos que la probabilidad de cometer errores
Tipo II (β) vale 0,02. Por tanto, la potencia de este contraste vale 1 ! β = 1 ! 0,02 = 0,98.
Puesto que tanto gl2 como se han redondeado por arriba, es muy posible que el valor de
la potencia sea una o dos décimas menor de 0,98.
Calcular la potencia de un contraste después de llevarlo a cabo tiene el interés de saber
con qué potencia se ha trabajado (potencia observada) asumiendo que el efecto en la po-
blación es el efecto observado en la muestra. Si la potencia observada es alta, perfecto; pero
si la potencia observada es baja, ya no hay forma de arreglar el problema. Lo realmente in-
teresante es poder diseñar cada estudio de tal forma que pueda conocerse de antemano la
potencia con la que se va a trabajar. Y esto pasa por calcular el tamaño muestral necesario pa-
ra alcanzar una determinada potencia. Puesto que la potencia depende del nivel de signifi-
cación (α), del tamaño del efecto ( ) y del número (J ) y tamaño (n) de los grupos, una vez
establecido el nivel de significación (generalmente 0,05), el tamaño del efecto que se desea
poder detectar o que se considera mínimamente relevante ( o ), la potencia que se desea
alcanzar (generalmente 0,80) y el número de grupos con el que se va a trabajar (J ), tenemos
todo lo necesario para calcular el tamaño muestral. Ahora bien, para esto hace falta separar
el tamaño muestral del resto de los elementos en la ecuación [6.20]. Al eliminar el tamaño
muestral de [6.20], queda la medida del tamaño del efecto definida por Cohen (ver [6.12]):
= ÷ n = [6.21]
(n se refiere al tamaño de cada grupo). Supongamos que en un estudio con 3 grupos (gl1 = 2)
y α = 0,05 queremos que la potencia del contraste para detectar un efecto de tamaño medio
(δ = 0,25 según la regla de Cohen) valga 0,80 (β = 0,20). Tenemos que utilizar la Tabla G
al revés de como lo hemos hecho antes, pero ahora nos encontramos con que no conocemos
los grados de libertad gl2, pues dependen del tamaño muestral que estamos buscando. Esto,
sin embargo, no representa ningún problema porque utilizar un valor de partida de 30 o ma-
yor no hace cambiar las cosas. Podemos elegir, por ejemplo, gl2 = . Así, con gl1 = 2, gl2 =
y β = 0,20, la Tabla G ofrece un valor de 1,8 para . Por tanto, n = (1,8 / 0,25)2 = 51,8. Es
decir, para alcanzar una potencia de 0,80 hacen falta, redondeando al entero mayor, 52 suje-
tos por grupo.
16
Aunque la ecuación [6.18] permite entender fácilmente el significado del parámetro de no-centralidad , este parámetro
puede estimarse fácilmente mediante (J ! 1) F. En cuyo caso, puede estimarse mediante = .
Para comprobar que nuestros cálculos son correctos podemos realizar la acción inver-
sa de averiguar cuánto vale la potencia de un estudio con J = 3 grupos (gl1 = 2), 52 sujetos
por grupo (gl2 = 153) y un efecto de tamaño medio (δ = 0,25). Con estos datos, el parámetro
vale δ = = 1,80. Y la Tabla G indica que el valor de β es algo menor de 0,24.
Por tanto, el valor de la potencia, 1 ! β, es algo mayor de 0,76.
Comparaciones múltiples entre medias

La hipótesis nula que se contrasta con el estadístico F en el ANOVA de un factor es una
hipótesis global referida al conjunto de las J medias poblacionales incluidas en el estudio.
El rechazo de esta hipótesis permite concluir que no todas las medias poblacionales son igua-
les, pero no permite concretar qué medias difieren de qué otras. En este sentido, un estadísti-
co F significativo solamente es, por lo general, el primer paso del análisis. Tras rechazar la
hipótesis global de igualdad de medias, todavía falta por aclarar dónde se encuentran las
diferencias. Esto se consigue aplicando un conjunto de procedimientos agrupados bajo la
denominación de comparaciones múltiples.
En este apartado se describen algunos de estos procedimientos17 agrupados en dos blo-
ques: (1) comparaciones planeadas o a priori y (2) comparaciones post hoc o a posteriori.
Pero antes debemos revisar algunos conceptos.
Comparaciones lineales
En el contexto de los contrastes sobre medias, una comparación lineal (o contraste lineal)
es una combinación lineal (suma ponderada) de medias con pesos o coeficientes, no todos
iguales a cero, que suman cero.
Utilizaremos los símbolos para representar la h-ésima comparación entre J medias
poblacionales y para representar el valor muestral o estimado de esta comparación.
Aclaremos la definición de comparación lineal que acabamos de presentar. Imaginemos
un estudio con cinco tratamientos o grupos y, por tanto, con cinco medias poblacionales: µ1,
µ 2, µ 3, µ 4 y µ 5. Con estas cinco medias es posible realizar, por ejemplo, comparaciones en-
tre pares de medias como
= µ1 ! µ2
[6.23]
= µ2 ! µ3
Pero las comparaciones entre pares de medias no son las únicas que es posible plantear. Tam-
bién es posible plantear comparaciones del tipo
= (µ 1 + µ 2 ) ! (µ 3 + µ 4 )
= (µ 1 + µ 2 + µ 3 ) / 3 ! (µ 4 + µ 5 ) / 2 [6.24]
= (µ 1 + µ 2 + µ 3 + µ 4 ) / 4 ! µ 5
17
Los procedimientos diseñados para efectuar comparaciones múltiples entre medias son muchos y muy variados. El lector
interesado en ampliar los aquí expuestos puede consultar, por ejemplo, Hochberg y Tamhane (2009), Hsu (1996) , Miller
(1981) y Toothaker (1991, 1999).
En se están comparando las medias 1 y 2 tomadas juntas con las medias 3 y 4 tomadas
juntas; en , las medias 1, 2 y 3 tomadas juntas con las medias 4 y 5 tomadas juntas; y en
, las cuatro primeras medias tomadas juntas con la última.
Las llamamos comparaciones múltiples porque se están planteando varias comparacio-
nes simultáneamente. Cada una de estas comparaciones (y cualquier otra que se nos ocurra
formular) puede expresarse como una combinación lineal de J medias con coeficientes cj
conocidos que verifican dos condiciones: (1) al menos uno de los coeficientes cj es distinto
de cero y (2) la suma de todos ellos vale cero. Es decir:
= c1 µ 1 + c2 µ 2 + · · · + cJ µJ = cj µ j [6.25]
con cj =/ 0 para algún j, y ' cj = 0. La pregunta que surge en este momento es cómo asignar
coeficientes a las medias para que la comparación resultante exprese justamente la dife-
rencia entre medias que se desea plantear.
Para asignar coeficientes correctamente hay que tener presente que cualquiera que sea
el tipo de comparación planteada, en una comparación concreta siempre se están comparan-
do dos cosas. Aunque sean varias las medias involucradas, la comparación siempre consis-
te en comparar una cosa (una media o grupo de medias) con otra cosa (otra media o grupo
de medias). Y esas dos cosas se comparan restándolas (igual que hemos hecho, por ejemplo,
para comparar dos medias con la prueba T de Student).
La asignación de coeficientes para comparar dos medias (como en las comparaciones
y propuestas en [6.23]) es bastante simple: se asigna un 1 a una de las medias que se de-
sea comparar, un !1 a la otra media (da igual a cuál de las dos medias se le asigne el valor
negativo) y ceros al resto de las medias para eliminarlas de la comparación. Así, para defi-
nir las comparaciones y de [6.23] en el formato propuesto en [6.25] haremos
= (1) µ 1 + (!1) µ 2 + (0) µ 3 + (0) µ 4 + (0) µ 5

= (0) µ 1 + (1) µ 2 + (!1) µ 3 + (0) µ 4 + (0) µ 5
Para comparar dos grupos de medias (situación que se da cuando en uno de los dos grupos
o en los dos hay al menos dos medias, como en las comparaciones , y propuestas
en [6.24]), se asignan a las medias de cada grupo coeficientes iguales al número de medias
que forman parte del otro grupo y, arbitrariamente, se hacen negativos los coeficientes de uno
de los dos grupos. Así, al definir las comparaciones y de [6.24] en el formato pro-
puesto en [6.25], nos queda
= (2) µ 1 + (2) µ 2 + (2) µ 3 + (!3) µ 4 + (!3) µ 5

= (1) µ 1 + (1) µ 2 + (1) µ 3 + (1) µ 4 + (!4) µ 5
El tamaño de los coeficientes es irrelevante. Aunque en se han asignado los coeficien-

tes 1, 1, 1, 1 y !4, igualmente se podrían haber asignado los coeficientes 2, 2, 2, 2 y !8, o
los coeficientes 5, 5, 5, 5 y !20.
Cuando los dos grupos de medias que se comparan tienen el mismo número de medias
(como ocurre en las comparaciones , y ), la situación se simplifica bastante asignan-
do únicamente “unos” y “ceros”:
= (1) µ 1 + (1) µ 2 + (!1) µ 3 + (!1) µ 4 + (0) µ 5

Vemos, pues, que cualquier tipo de diferencia entre medias puede plantearse como una com-
binación lineal si se eligen los coeficientes apropiados.
Si, en lugar de utilizar las medias
_ poblacionales µ j para definir una comparación , se
utilizan las medias muestrales Y j , el resultado es una comparación muestral que sirve co-
mo estimador de la comparación poblacional:
= = [6.26]
Lo interesante de este tipo de combinaciones lineales no es solo que permiten definir cual-
quier comparación entre medias, sino que es muy fácil trabajar con ellas porque conocemos
tanto su valor esperado como su varianza (ver Pardo y San Martín, 1998, pág. 289):
= y = = [6.27]
No todas las comparaciones que pueden definirse con J medias son independientes entre sí:
algunas de ellas pueden obtenerse combinando otras. Por ejemplo, el número de compara-
ciones por pares que pueden definirse con J medias es J (J ! 1) / 2 (es decir, combinaciones
de J elementos tomados de 2 en 2). Así, con J = 4 medias es posible definir 4 (4 !1) / 2 = 6
comparaciones por pares. Pero no todas ellas son independientes entre sí, lo cual significa
que incluyen información redundante. Por ejemplo, la comparación µ 2 ! µ 3 puede obtener-
se a partir de las comparaciones µ 1 ! µ 2 y µ 1 ! µ 3 :
(µ 1 ! µ 3) ! (µ 1 ! µ 2) = µ 2 ! µ 3
Del mismo modo, la comparación (µ 1 + µ 2) ! (2) µ 3 puede obtenerse a partir de las compa-
raciones µ 1 ! µ 3 y µ 2 ! µ 3 :
(µ 1 ! µ 3) + (µ 2 ! µ 3) = (µ 1 + µ 2) ! (2) µ 3
A las comparaciones independientes entre sí se les llama comparaciones o contrastes or-

togonales. Existe una sencilla regla para saber si dos comparaciones son ortogonales. Con-
sideremos un diseño con J medias y dos comparaciones referidas a esas medias: la primera,
, con coeficientes simbolizados por cj1 y la segunda, , con coeficientes simbolizados por
cj 2. Dos comparaciones son ortogonales si se verifica
= 0 [6.28]
Esta condición es válida cuando los tamaños muestrales son iguales. Si los tamaños mues-
trales no son iguales debe verificarse
= 0 [6.29]
Supongamos que en un diseño con, por ejemplo, 3 medias, definimos las siguientes dos com-
paraciones (con nj iguales):
= (1) µ 1 + (!1) µ 2 + (0) µ 3

= (1) µ 1 + (0) µ 2 + (!1) µ 3
Aplicando la regla propuesta en [6.28], puede comprobarse que y no son ortogonales,

pues la suma del producto de sus coeficientes no vale cero: (1) (1) + (!1) (0) + (0) (!1) = 1.
Sin embargo, la comparación:
= (1) µ 1 + (1) µ 2 + (!2) µ 3
sí es independiente de la comparación ; la suma de los productos de sus coeficientes vale

cero: (1) (1) + (!1) (1) + (0) (!2) = 0.
Con J medias solo es posible definir J ! 1 comparaciones ortogonales. Con 3 medias, por
ejemplo, solo es posible definir 2 comparaciones independientes entre sí. Esto significa que,
una vez definida la comparación , la única comparación que es independiente de ella es
. Sin embargo, con tres medias, y no son las únicas dos comparaciones ortogona-
les. Otras dos comparaciones independientes entre sí (aunque no de las anteriores) son:
= (1) µ 1 + (0) µ 2 + (!1) µ 3
= (1) µ 1 + (!2) µ 2 + (1) µ 3
pues (1) (1) + (0) (!2) + (!1) (1) = 0. La utilidad de trabajar con comparaciones ortogonales
está precisamente en que no contienen información redundante. Y la importancia de esta
propiedad se comprenderá enseguida al estudiar algunos de los procedimientos incluidos en
los siguientes apartados.
Tasa de error en las comparaciones múltiples
La clave de la discusión referida a los procedimientos de comparaciones múltiples está en

la probabilidad asociada a los errores Tipo I. Consideremos un ejemplo con J = 4 grupos. El
rechazo de la hipótesis nula de igualdad de medias implica que no todas las medias pobla-
cionales son iguales. Si, tras esto, decidimos comparar, por ejemplo, cada media con cada
otra para concretar qué medias difieren entre sí, tendremos que efectuar J (J !1) / 2 = 6 com-
paraciones. En cada una de estas comparaciones existe una probabilidad α de cometer un
error Tipo I. Si α vale, por ejemplo, 0,05, la probabilidad de cometer un error Tipo I en ca-
da comparación valdrá 0,05. Pero, ¿cuál será la probabilidad de cometer al menos un error
Tipo I al efectuar las seis comparaciones? Es decir, ¿cuál será la probabilidad de cometer
uno, dos, tres, ..., seis errores en las seis comparaciones? Considerando cada uno de esos
contrastes como un ensayo de Bernoulli con probabilidad de error α = 0,05, la probabilidad
de no cometer ningún error en los seis ensayos (en las seis comparaciones) vendrá dada por:
P (ningún error Tipo I) = 0,050 0,956 = 0,735.
Y la probabilidad de cometer algún error en las seis comparaciones (es decir, la probabilidad
de cometer al menos un error), valdrá:
P (un error Tipo I o más) = 1 ! 0,735 = 0,265.
Es decir, al realizar seis comparaciones, la probabilidad de cometer algún error Tipo I es más
de 5 veces más grande que si se realiza una sola comparación. En general, la probabilidad
de cometer al menos un error Tipo I al efectuar k comparaciones utilizando α en cada com-

paración vale18
P (un error Tipo I o más) = 1 ! (1 ! α)k [6.30]
Si el número de grupos es grande, k también lo será y la probabilidad de cometer algún error
Tipo I será muy alta. Con 6 grupos, por ejemplo, pueden hacerse k = 15 comparaciones entre
pares de medias; y la probabilidad de cometer algún error Tipo I vale 0,54. Con 10 grupos
pueden hacerse k = 45 comparaciones entre pares de medias; y la probabilidad de cometer
algún error Tipo I vale 0,90 (siempre con α = 0,05 en cada comparación). Estas considera-
ciones, además de alertar sobre la necesidad de controlar la probabilidad de cometer errores
Tipo I cuando se llevan a cabo varias comparaciones con los mismos datos, permiten intro-
ducir un concepto importante.
Comencemos llamando tasa de error Tipo I, o simplemente tasa de error, a la probabi-
lidad de cometer algún error Tipo I en k comparaciones. Al realizar una sola comparación
con un nivel de significación α, la tasa de error es α. Llamaremos tasa de error por compa-
ración (α C ) a la probabilidad de cometer un error Tipo I al realizar una sola comparación:
αC = α [6.31]
Al comparar dos medias con la prueba T de Student se está realizando una única compa-
ración. Por tanto, la probabilidad de cometer un error Tipo I, es decir, la tasa de error por
comparación (α C ) es justamente el valor adoptado para α (generalmente 0,05).
Si, en lugar de una comparación, se lleva a cabo un conjunto o familia de k compara-
ciones utilizando en cada una de ellas un nivel de significación α, la tasa de error aumenta.
Llamaremos tasa de error por familia de comparaciones (α F ) a la probabilidad de come-
ter al menos un error Tipo I al realizar un conjunto de comparaciones:
α F = 1 ! (1 ! α C ) k [6.32]
En un diseño con varios grupos es posible comparar una media con otra, todas las medias
entre sí por pares, las medias de dos grupos con la media de otro grupo, un grupo de medias
con otro grupo de medias, etc. De ese conjunto de posibles comparaciones, el investigador
estará interesado, por lo general, solamente en unas pocas. Ese conjunto de comparaciones
que realmente interesa llevar a cabo (y, por tanto, el conjunto de comparaciones que de he-
cho se llevan a cabo) constituyen lo que llamamos familia de comparaciones19. Y, puesto que
la tasa de error asociada a ese conjunto de comparaciones (α F ) es sensiblemente mayor que
α, lo razonable es utilizar alguna estrategia que permita reducirla.
Los procedimientos de comparaciones múltiples han sido diseñados precisamente para
controlar la tasa de error cuando se llevan a cabo varias comparaciones con los mismos da-
tos. En los siguientes apartados veremos que existen varios de estos procedimientos. La dife-
rencia fundamental entre ellos radica en la forma concreta de controlar la tasa de error. El he-
cho de que se hayan diseñado diferentes procedimientos para resolver un mismo problema
18
Esta probabilidad es exacta si las J (J !1) / 2 comparaciones son independientes entre sí. Pero esas comparaciones no son,
de hecho, independientes (ver apartado anterior). Cuando las comparaciones no son independientes, la probabilidad de
cometer algún error Tipo I es difícil de calcular, pero puede demostrarse que siempre es menor o igual que 1!(1! α)k.
19
Algunos autores (por ejemplo, Kirk, 1995, pág. 122; ver también Hochber y Tamhane, 2009, págs. 5-12) hablan de la tasa
de error por experimento tomando como referencia el conjunto de posibles comparaciones asociadas a un experimento.
es un claro síntoma de que ninguno de ellos ofrece una solución del todo satisfactoria. El con-
trol que consigue cada uno de ellos sobre la tasa de error depende de cosas como el número
de grupos (muchos o pocos), el tamaño de los grupos (pequeño o grande, el mismo o distin-
to), las varianzas poblacionales (iguales o distintas), el tipo de comparaciones (ortogonales
o no), etc. No obstante, los procedimientos que hemos seleccionado suelen ofrecer un com-
portamiento aceptable cuando se dan las condiciones para las que han sido diseñados.
Comparaciones planeadas o a priori

Cuando se diseña un estudio con varios grupos con intención de compararlos, lo habitual es
tener alguna expectativa acerca de lo que va a ocurrir (qué grupos van a diferir de qué otros).
Pero también son frecuentes los estudios en los que no se tiene una expectativa concreta o,
aun teniéndola, se desea explorar otras posibilidades. En el primer caso, lo razonable es pla-
nificar unas pocas comparaciones antes de recoger los datos. En el segundo, lo habitual es
realizar muchas comparaciones (por ejemplo, todas las comparaciones por pares) para detec-
tar dónde están realmente las diferencias.
A las comparaciones basadas en expectativas concretas se les llama planeadas o a priori.
Se planifican antes de recoger o examinar los datos y suelen ser pocas (dos, tres, cuatro). Los
procedimientos que analizan estas comparaciones no necesitan ir precedidos o acompañados
del estadístico F y, por tanto, su aplicación es independiente de que el estadístico F sea o no
significativo. En este apartado se describen algunos de estos procedimientos.
A las comparaciones que se llevan a cabo tras examinar los datos se les llama post hoc
o a posteriori. Puesto que estas comparaciones no van dirigidas por expectativas previas, sue-
len ser más numerosas que las a priori para intentar que no se escape nada (son más bien de
tipo exploratorio). Se llevan a cabo tras detectar que existen diferencias (es decir, tras obte-
ner un estadístico F significativo). Se describen en el siguiente apartado.
Prueba de Dunn-Bonferroni
Para aplicar la prueba de Dunn-Bonferroni20 no es necesario aprender nada nuevo. En reali-

dad se trata del estadístico T de Student ya estudiado (y de su distribución muestral t) acom-
pañado de una sencilla estrategia de control de la tasa de error.
Dunn (1961) ha utilizado la desigualdad de Bonferroni21 (según la cual la probabilidad
conjunta de dos o más sucesos nunca excede la suma de sus probabilidades individuales) pa-
20
A este procedimiento también se le llama prueba de Dunn; la razón es que, a pesar de tratarse de un procedimiento cono-
cido desde hace tiempo, fue Dunn (1961) el primero en formalizarlo y en presentar las tablas necesarias para poder utilizarlo.
También se le llama prueba de Bonferroni, por estar basado en la desigualdad de Bonferroni (los programas informáticos
suelen utilizar este nombre). Nosotros hemos querido reconocer la aportación de ambos llamando al procedimiento prueba
de Dunn-Bonferroni.
21
Šidák (1967) ha demostrado que αF siempre es menor que 1 ! (1 ! αC )k y ha propuesto utilizar αC = 1 ! (1 ! αF )1/k como
nivel de significación en cada comparación. Esta solución ofrece para αC valores ligeramente mayores que α/k mantenien-
do al mismo tiempo la tasa de error total en el valor inicialmente establecido (αF). Esta forma de controlar la tasa de error
hace el contraste algo más potente, pero la ganancia en potencia es tan pequeña que, en la práctica, la estrategia de Dunn-
Bonferroni, más sencilla de calcular, ha tenido mayor aceptación (para más detalles sobre la solución de Šidák puede
consultarse Kirk, 1995, págs. 140-142; Holland y Copenhaver, 1988).
ra demostrar que, al realizar k comparaciones, la tasa de error total (la tasa de error por fami-
lia de comparaciones) siempre es igual o menor que la suma de las tasas de error de cada
comparación individual:
$ k αC
αF < [6.33]
Esto significa que, si cada una de las k comparaciones se lleva a cabo con un nivel de signifi-
cación α C = α F / k = 0,05/ k, la tasa de error total α F siempre será igual o menor que 0,05.
No debe pasarse por alto el hecho de que la ecuación [6.33] es una desigualdad. Cuando
se utiliza para corregir la tasa de error de un conjunto de comparaciones ortogonales funciona
correctamente: α F vale aproximadamente 0,05. Pero cuando se utiliza para corregir la tasa
de error de un conjunto de comparaciones no ortogonales se vuelve conservadora: α F pue-
de ser sensiblemente menor de 0,05 (tanto menor cuanto mayor sea el valor de k) (ver Max-
well y Delaney, 2004, pág. 203). Por tanto, aunque esta forma de corregir la tasa de error pue-
de aplicarse a cualquier tipo de comparación, lo recomendable es que se utilice solamente
con comparaciones ortogonales o con un número reducido de comparaciones no ortogonales.
El procedimiento permite valorar cualquier comparación lineal del tipo descrito en [6.26]
mediante el contraste de la hipótesis nula de que la comparación vale cero:
H0 (h) : = c1 µ 1 + c2 µ 2 + · · · + cJ µJ = 0 [6.34]
Ya sabemos que, cuando se comparan dos medias, la hipótesis nula afirma que la diferencia
entre ellas vale cero; también sabemos que, cuando se comparan más de dos medias, en rea-
lidad se están comparando dos cosas: una media con varias, o varias medias con varias; la
hipótesis nula recoge la idea de que esas dos cosas que se comparan son iguales; es decir, que
su diferencia vale cero.
Puesto que puede estimarse mediante (ver ecuación [6.26]), y el valor esperado
y la varianza de son valores conocidos (ver ecuación [6.27]), es posible tipificar el valor
de mediante
TDB = = [6.35]
En la transformación [6.35] se está asumiendo que las J varianzas poblacionales son igua-
les, de ahí que se utilice MCE como único estimador de esas varianzas. Si no puede asumirse
que las varianzas poblacionales son iguales, basta con modificar el denominador sustitu-
yendo MCE por cada una de las varianzas muestrales:
T NDB = [6.36]
La Tabla J del Apéndice final contiene los puntos críticos t bilaterales22 de la distribución
muestral de TDB y T NDB para α F = 0,05 y α F = 0,01, y para diferentes valores de k (número de
22
Estos puntos críticos se han obtenido de la distribución t con glerror grados de libertad dividiendo el correspondiente nivel
de significación bilateral entre el número de comparaciones planeadas: (α /2)/k. La tabla ofrece los puntos críticos de la cola
derecha de la distribución, de ahí que el numerador de TDB se tome en valor absoluto.
comparaciones) y glerror (grados de libertad del denominador de [6.35] y [6.36]). La diferen-

cia entre las distribuciones muestrales de TDB y T NDB está únicamente en el valor de glerror. En
el caso de TDB , estos grados de libertad son los asociados a MCE, es decir, N ! J. En el caso
de T NDB, estos grados de libertad se obtienen mediante
glNerror = [6.37]
Se rechaza la hipótesis nula definida en [6.34] si el valor de TDB (o de T NDB) es mayor que el
correspondiente punto crítico de la Tabla J.
El valor de junto con su error típico y su distribución muestral pueden utilizarse pa-
ra construir un intervalo de confianza para la comparación :
= ± [6.38]
donde t es el punto crítico que se obtiene de la Tabla J y es el error típico de (es decir,
el denominador de TDB si las varianzas poblacionales son iguales, y el denominador de T NDB
si no son iguales); k es el número de comparaciones; y glerror es igual a N ! J si las varianzas
poblacionales son iguales e igual a [6.37] si no son iguales. El intervalo de confianza indica
entre qué valores cabe esperar que se encuentre el valor poblacional de .
Volvamos al ejemplo de la Tabla 6.2 en el que J = 3 grupos de nj = 10 sujetos (N = 30) con

diferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de rendimiento. Su-
pongamos que estamos interesados en realizar dos comparaciones. En la primera de ellas he-
mos decidido comparar el grupo de nivel de ansiedad medio (que es el grupo del que cabe
esperar un mayor rendimiento) con los otros dos grupos tomados juntos; en la segunda, el
grupo de menor ansiedad (grupo 1) con el de mayor ansiedad (grupo 3); es decir,
= (!1) µ 1 + (2) µ 2 + (!1) µ3
= (1) µ 1 + (0) µ 2 + (!1) µ 3
Puesto que se trata de pocas comparaciones y además son ortogonales (la suma del producto
de sus coeficientes vale cero: (!1) (1) + (2) (0) + (!1) (!_1) = 0),_ la prueba
_ de Dunn-Bonferro-
ni permite controlar la tasa de error. Recordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hipótesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras de tamaño 10 aleatoriamente seleccionadas de poblacio-
nes que asumimos normales y con la misma varianza.
3. Estadísticos del contraste (ecuación [6.35]):
! = (!1) 9 + (2)14 + (!1) 7 = 12.
= (1) 9 + (0)14 + (!1) 7 = 2.
! = = 2,80.
= = 1,62.
! TDB (1) = = 12 / 2,80 = 4,29.
TDB (2) = = 2 / 1,62 = 1,23.
4. Distribución muestral: los puntos críticos de la distribución muestral de TDB se encuen-
tran en la Tabla J del Apéndice final, con k = 2, glerror = N ! J = 30 ! 3 = 27 y α F = 0,05.
5. Zona crítica: TDB > $ t2, 27; 0,95 = 2,37 (hemos tomado un valor intermedio entre los corres-
pondientes a glerror = 25 y glerror = 30).
6. Decisión: únicamente el valor de TDB (1) = 4,29 es mayor que el punto crítico 2,37. Por
tanto, debe rechazarse H0 (1) pero no H0 (2). El rechazo de H0 (1) indica que la media del
grupo 2 (nivel de ansiedad medio) difiere de la media de los otros dos grupos tomados
juntos. Y el no rechazo de H0 (2) indica que, con los datos disponibles, no es posible afir-
mar que el rendimiento medio del grupo 1 difiera del rendimiento medio del grupo 3.
Aunque los contrastes son bilaterales, el valor positivo de indica que el rendimiento
medio del segundo grupo, es decir, del grupo que está ponderado con un coeficiente posi-
tivo en , es mayor que el rendimiento medio de los otros dos grupos tomados juntos.
7. Intervalo de confianza (asumiendo varianzas iguales, ecuación [6.38]). Al asignar coe-
ficientes para definir cada comparación lineal utilizamos números enteros para facilitar
los cálculos. Esta estrategia no es apropiada cuando se trata de calcular un intervalo de
confianza. Para que los límites del intervalo se encuentren en la misma métrica que la
variable dependiente, es necesario que los coeficientes con signo positivo sumen 1 y que
los coeficientes con signo negativo sumen !1 (exactamente igual que cuando se com-
paran dos medias):
! = (!0,5) 9 + (1)14 + (!0,5) 7 = 6.
= (1) 9 + (0)14 + (!1) 7 = 2.
! = = 1,40.
= = 1,62.
! = 6 ± 2,37 (1,40) = 6 ± 3,32 = (2,7; 9,3).

= 2 ± 2,37 (1,62) = 2 ± 3,84 = (!1,8; 5,8).
El intervalo de no incluye el valor cero, pero sí el intervalo de . Este resultado es

coherente con la decisión que ya hemos tomado sobre ambas comparaciones. Los límites
de estos intervalos indican entre qué valores estimamos (con una confianza de 1 ! α F =
1 ! 0,05 = 0,95) que se encuentra el valor poblacional de cada comparación, es decir, la
diferencia poblacional entre los promedios comparados en y en . En el caso de la
primera comparación, el rendimiento medio del segundo grupo vale 14 y el rendimien-
to medio de los otros dos grupos tomados juntos vale (9 + 7) / 2 = 8. La diferencia entre
ambas medias es el valor de : 14 ! 8 = 6. Y el intervalo de confianza obtenido indica
que, basándonos en esa diferencia muestral de 6 puntos, podemos estimar, con una
confianza del 95 %, que la diferencia poblacional entre los promedios comparados se
encuentra entre 2,7 y 9,3 puntos. Este mismo argumento sirve para la segunda compa-
ración, pero el intervalo obtenido para ella incluye el valor cero y esto significa que no
puede afirmarse que los promedios comparados sean distintos.
Comparaciones de tendencia
Sabemos que el rechazo de la hipótesis global del ANOVA está indicando que las medias
comparadas no son iguales. Esto significa que los valores de la variable dependiente cam-
bian cuando cambian los de la independiente; significa, por tanto, que ambas variables están
relacionadas. Pero una F significativa no dice nada sobre la pauta concreta que sigue ese
cambio; es decir, no dice nada acerca del tipo de relación que se da entre las variables.
Sin embargo, conocer el tipo de relación existente entre la variable independiente o fac-
tor y la dependiente, no solo puede resultar interesante en muchos contextos, sino que pue-
de constituir el objetivo principal de algunos estudios. Tal es el caso de los ensayos clínicos
en los que se analiza la relación dosis-respuesta, o de los estudios psicológicos en los que se
valora, por ejemplo, la relación entre el nivel de ansiedad y el rendimiento.
Para que tenga sentido estudiar el tipo de relación es imprescindible que los niveles de
la variable independiente o factor se encuentren cuantitativamente ordenados (de no ser así,
no tendría sentido estudiar el tipo de relación, pues la ordenación arbitraria de los niveles
daría como resultado diferentes tipos de relación). Cuando los niveles están cuantitativamen-
te ordenados pueden darse diferentes pautas de relación; puede ocurrir, por ejemplo, que los
valores de la variable dependiente aumenten conforme lo hacen los de la independiente, en
cuyo caso la relación será de tipo lineal (ver Figura 6.2, gráficos a, b y d ); también puede
ocurrir que los valores de la variable dependiente vayan aumentando conforme lo hacen los
de la independiente hasta llegar a un punto a partir del cual el aumento en los valores de la
variable independiente se corresponde con una disminución en los de la dependiente (ver
Figura 6.2, gráficos c y e); y también puede ocurrir que la relación sea algo más compleja,
con subidas y caídas en la variable dependiente conforme los valores de la independiente van
aumentando (ver Figura 6.2, gráfico f ).
Por tanto, la relación entre una variable categórica (con categorías cuantitativamente
ordenadas) y una variable cuantitativa puede ser de tipo lineal, cuadrático, cúbico, etc. Las
comparaciones de tendencia sirven para estudiar estos tipos de relación.
Debe tenerse en cuenta que las comparaciones de tendencia son comparaciones ortogo-
nales. Por tanto, con J medias, únicamente será posible definir J ! 1 tendencias ortogonales.
En los gráficos de la Figura 6.2 se aprecia con claridad esta idea: con J = 2 solamente pue-
de darse una relación de tipo lineal (ver Figura 6.2, gráfico a); con J = 3, la relación puede
ser lineal o cuadrática (ver Figura 6.2, gráficos b y c); con J = 4, la relación puede ser lineal,
cuadrática o cúbica (ver Figura 6.2, gráficos d, e y f ); etc.
En todos los contrastes propuestos hasta ahora en el contexto del ANOVA de un factor
y en todos los que estudiaremos más adelante, la disposición de los niveles de la variable
independiente o factor es completamente irrelevante: se comparan medias con independen-
cia de la posición que ocupan. Ahora, sin embargo, el estudio del tipo de relación existente
entre la variable independiente y la dependiente únicamente tiene sentido si la variable in-
dependiente es, al igual que la dependiente, cuantitativa.
Figura 6.2. Diferentes tipos de relación entre dos variables: lineal (a, b y d), cuadrática (c y e) y cúbica (f )
a b c
a1 a2 a1 a2 a3 a1 a2 a3
d e f
a1 a2 a3 a4 a1 a2 a3 a4 a1 a2 a3 a4
La forma concreta de realizar comparaciones de tendencia es idéntica a la descrita en el apar-

tado anterior a propósito de la prueba de Dunn-Bonferroni. Únicamente hay que tener en
cuenta que los coeficientes que se asignan ahora deben definir justamente las tendencias que
se desea estudiar (lineal, cuadrática, cúbica, etc.). Afortunadamente, no es necesario calcu-
lar estos coeficientes en cada situación concreta. Cuando todos los grupos tienen el mismo
tamaño (n1 = n2 = · · · = nJ = n), la Tabla H del Apéndice final ofrece, para diferentes valores
de J, coeficientes que definen comparaciones que, además de ser ortogonales, representan
cada una de las J ! 1 posibles tendencias (lineal, cuadrática, etc.).
Con J = 3, por ejemplo, los coeficientes de la Tabla H llevarían a plantear las dos com-
paraciones siguientes (recordemos que con tres medias solamente es posible plantear dos
comparaciones ortogonales):
= (!1) µ 1 + (0) µ 2 + (1) µ 3
= (1) µ 1 + (!2) µ 2 + (1) µ 3
Los gráficos de la Figura 6.3 muestran que, efectivamente, al asignar estos coeficientes se
están definiendo dos tendencias. Los coeficientes !1, 0 y 1 asignados en definen una
tendencia lineal ascendente (no importa que se les cambie el signo; seguirán definiendo una
tendencia lineal, aunque descendente; y poco importa que se valore si la tendencia es ascen-
dente o descendente porque lo que se está haciendo en realidad es valorar diferencias en valor
absoluto). Y los coeficientes 1, !2 y 1 asignados en definen una tendencia cuadrática.
Con J = 4, los coeficientes de la Tabla H llevarían a plantear las siguientes tres comparacio-
nes de tendencia:
= (!3) µ 1 + (!1) µ 2 + (1) µ 3 + (3) µ 4
= (1) µ 1 + (!1) µ 2 + (!1) µ 3 + (1) µ 4
= (!1) µ 1 + (3) µ 2 + (!3) µ3 + (1) µ 4
En los gráficos de la Figura 6.4 se puede apreciar que los coeficientes !3, !1, 1 y 3 definen
una tendencia lineal; los coeficientes 1, !1, !1 y 1, una tendencia cuadrática; y los coefi-
cientes !1, 3, !3 y 1, una tendencia cúbica. Lo que se hace al valorar cada tendencia es sim-
plemente correlacionar los coeficientes asignados con las medias a las que se asignan.
Figura 6.3. Coeficientes de polinomios ortogonales con J = 3; tendencias lineal y cuadrática

cj lineal cj cuadrática
1 1
0 0
-1 -1
-2 -2
µ1 µ2 µ3 µ1 µ2 µ3
Figura 6.4. Coeficientes de polinomios ortogonales con J = 4; tendencias lineal, cuadrática y cúbica
cj lineal cj cuadrática cj cúbica
3 3 3
2 2 2
1 1 1
0 0 0
-1 -1 -1
-2 -2 -2
-3 -3 -3
µ1 µ2 µ3 µ4 µ1 µ2 µ3 µ4 µ1 µ2 µ3 µ4
Tras asignar coeficientes a las medias para definir cada tendencia ( , , etc), es po-
sible contrastar hipótesis del tipo:
H 0: =0
aplicando la prueba de Dunn-Bonferroni exactamente igual que hemos hecho en el apartado
anterior23 (de hecho, las dos comparaciones del ejemplo del apartado anterior son exacta-
mente las correspondientes a las tendencias lineal y cuadrática, aunque con los coeficientes
cambiados de signo). La hipótesis = 0 significa que no existe relación lineal; el rechazo
de esta hipótesis indica que existe relación lineal significativa.
23
Los coeficientes de la Tabla H solamente son apropiados si los niveles del factor están igualmente espaciados (por ejem-
plo, 1-2-3 frente a 1-2-5) y los tamaños de los grupos son iguales. No es fácil asignar coeficientes cuando no se dan estas
dos condiciones. Afortunadamente, los programas informáticos tienen resuelto el problema. El SPSS calcula los coeficien-
tes de cada tendencia teniendo en cuenta el espaciamiento existente entre los niveles del factor: a diferentes espaciamientos
corresponden diferentes coeficientes (ver Pardo y San Martín, 1998, págs. 301-303). Y cuando los tamaños muestrales no
son iguales, el SPSS ofrece dos soluciones para cada tendencia: una ponderada y una no ponderada. En la solución no
ponderada, los coeficientes se calculan sin tener en cuenta el tamaño de los grupos (el inconveniente de esta estrategia es
que las comparaciones resultantes no son ortogonales; ver ecuación [6.29]). En la solución ponderada, los coeficientes se
calculan teniendo en cuenta el tamaño de los grupos. No está claro cuál de las dos soluciones es mejor, pero parece que,
cuando la única tendencia real en los datos es la lineal, es preferible la solución ponderada; mientras que, cuando hay otras
tendencias presentes, es preferible la solución no ponderada (ver Maxwell y Delaney, 2004, págs. 267-269).
Prueba de Dunnett
Dunnett (1955) ha propuesto un método específicamente diseñado para controlar la tasa de
error cuando se realizan las J ! 1 comparaciones entre los grupos experimentales y el grupo
control, si existe. La propuesta de Dunnett consiste en obtener un valor, llamado diferencia
mínima_ significativa
_ (DMS ), que es el valor más pequeño a partir de la cual una diferencia
= | Y control ! Y j | puede ser declarada significativa (con j =/ control ):
DMS Dunnett = [6.39]
donde t es el valor de la Tabla K del Apéndice final que corresponde a un nivel de signifi-
cación αF con J medias (incluida la del grupo control) y N ! J grados de libertad. La tabla
ofrece puntos críticos para αF = 0,05 y αF = 0,01, y para contrastes bilaterales y unilaterales.
Tanto si el _contraste_ es bilateral como si es unilateral, la diferencia que se compara con
DMS Dunnett es | Y control ! Y j |, es decir, la diferencia en valor absoluto; pero si el contraste es
unilateral, es necesario prestar atención al signo de esa diferencia para tomar la decisión apro-
piada.
El procedimiento de Dunnett también puede utilizarse para construir intervalos de con-
fianza (IC ) para las J ! 1 diferencias entre los grupos experimentales y el control:
_ _
= | Y control ! Y j | ± DMSDunnett (con j =/ control) [6.40]
Volvamos a los datos de la Tabla 6.2, donde J = 3 grupos de nj = 10 sujetos (N = 30) con di-
ferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de rendimiento. Su-
pongamos, solamente para poder ilustrar el procedimiento, que el grupo de ansiedad baja (es
decir, el grupo 1) es un grupo control y que estamos interesados en comparar los otros dos
grupos con el control; es decir, supongamos que estamos interesados en llevar a cabo estas
dos comparaciones:
= µ1 ! µ 2
= µ1 ! µ 3
Puesto que J = 3,
_ solamente
_ es posible
_ realizar dos comparaciones con el grupo control. Re-
cordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hipótesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras aleatoriamente extraídas de poblaciones que asumimos
normales y con la misma varianza.
3. Estadístico del contraste (ecuación [6.39]). Puesto que los tamaños muestrales son igua-
les, basta con calcular una única DMS; si los tamaños muestrales fueran distintos habría
que calcular una DMS para cada comparación (debe tenerse en cuenta que la diferencia
entre las DMS de dos comparaciones está únicamente en el tamaño del grupo que se com-
para con el control):
_ _
= | Y_1 ! Y_2 | = | 9 ! 14 | = 5.
= | Y 1 ! Y 3 | = | 9 ! 7 | = 2.
DMS Dunnett = = 2,33 (1,62) = 3,77.
(considerando que ambos contrastes son bilaterales y utilizando α F = 0,05).
6. Decisión: únicamente el valor de = 5 es mayor que el valor de la DMSDunnett = 3,77.
Por tanto, únicamente el grupo 2 (nivel de ansiedad medio) difiere del grupo 1 o control
(nivel de ansiedad bajo).
7. Intervalo de confianza (ecuación [6.40]):
= 5 ± 3,77 = (1,23; 8,77).
= 2 ± 3,77 = (!1,77; 5,77).
El intervalo de no incluye el valor cero, pero sí el intervalo de . Este resultado
coincide con la decisión ya tomada sobre ambas comparaciones (rechazar H0 (1) y no
rechazar H0 (2)). En el caso de la primera comparación, la diferencia entre el rendimien-
to medio del segundo grupo (14) y el del grupo control (9) vale 5 puntos. El intervalo de
confianza obtenido indica que, basándonos en esa diferencia muestral de 5 puntos,
podemos estimar, con una confianza del 95 %, que la diferencia poblacional entre los
promedios comparados se encuentra entre 1,76 y 8,24 puntos. Este mismo argumento
sirve para la segunda comparación; pero el intervalo obtenido para la segunda compa-
ración incluye el valor cero y esto significa que no puede afirmarse que el tercer grupo
difiera del grupo control.
Comparaciones post hoc o a posteriori

Al comienzo del apartado anterior hemos distinguido entre comparaciones planeadas o a
priori y comparaciones post hoc o a posteriori. Esta distinción se basa, fundamentalmente,
en la existencia o no de expectativas previas acerca de cómo se van a comportar los datos.
Las comparaciones post hoc se utilizan, por lo general, cuando, no existiendo tales expecta-
tivas, el propósito del análisis es realizar muchas comparaciones (por ejemplo, todas las com-
paraciones por pares) para detectar dónde están las diferencias. También se utilizan cuando,
aun existiendo expectativas concretas, se desea explorar otras posibilidades.
Puesto que estas comparaciones no van dirigidas por expectativas previas, suelen ser más
numerosas que las comparaciones a priori para intentar que no se escape nada (son más bien
de tipo exploratorio). Y solamente tiene sentido aplicarlas tras rechazar la hipótesis nula de
igualdad de medias, es decir, tras obtener un estadístico F significativo.
En el apartado anterior hemos visto que la prueba de Dunn-Bonferroni permite contro-
lar la tasa de error cuando se realizan unas pocas comparaciones (preferiblemente ortogona-
les, aunque no necesariamente) y que la prueba de Dunnett controla la tasa de error cuando
se realizan las J !1 comparaciones entre los grupos experimentales y el control. En realidad,
la prueba de Dunn-Bonferroni sirve para valorar cualquier tipo de comparación entre me-
dias, pero conforme va aumentando el número de comparaciones se va haciendo más con-
servadora y perdiendo potencia. En este apartado vamos a estudiar algunos procedimientos
diseñados para controlar la tasa de error cuando se llevan a cabo todas las comparaciones
posibles, ya sean comparaciones por pares (como la prueba de Tukey), ya sean comparacio-
nes de cualquier otro tipo (como la prueba de Scheffé).
Prueba de Tukey
La prueba de Tukey (1953) representa uno de los primeros intentos por controlar la tasa de
error cuando se realizan comparaciones múltiples. Está diseñada específicamente para contro-
lar la tasa de error cuando se llevan a cabo las J (J ! 1) / 2 posibles comparaciones por pares
(comparaciones dos a dos) entre J medias.
Se basa en la distribución del rango studentizado (derivada, al igual que la t de Student,
por William Sealy Gosset). La diferencia entre estas dos distribuciones radica en que la dis-
tribución del rango studentizado tiene en cuenta el número de medias involucradas en el
conjunto de comparaciones. Si J = 2, el procedimiento de Tukey, basado en la distribución
del rango studentizado, es equivalente a la prueba T para dos muestras independientes, basa-
da en la distribución t de Student. Los puntos críticos q de la distribución del rango stu-
dentizado se encuentran en la Tabla L del Apéndice final (para α F = 0,05 y α F = 0,01).
La estrategia propuesta por Tukey para realizar las J (J ! 1) / 2 comparaciones por pares
entre J medias consiste en obtener un valor llamado DMS (diferencia mínima significativa)
que
_ es _ la diferencia mínima (en valor absoluto) que debe darse entre dos medias muestrales,
Y j e Y j , para decidir que las correspondientes medias poblacionales son distintas24:
DMS Tukey = [6.41]
donde q es el cuantil de la distribución del rango studentizado que corresponde a un nivel

de significación α F con J medias y N ! J grados de libertad25. Los puntos críticos de la Ta-
bla L se refieren siempre a contrastes bilaterales.
El valor de DMS Tukey puede utilizarse para construir intervalos de confianza para la di-
ferencia entre dos medias poblacionales:
_ _
= | Y j ! Y j | ± DMS Tukey [6.42]
En las ecuaciones [6.41] y [6.42] se está asumiendo que todos los grupos tienen el mismo ta-
maño (n1 = n2 = · · · = nJ = n). Si los tamaños de los grupos no son iguales, Kramer (1956) ha
demostrado que el procedimiento de Tukey sigue siendo válido si se aplica la siguiente mo-
dificación:
DMS Tukey-Kramer = [6.43]
24
Lo que estamos llamando diferencia mínima significativa de Tukey (DMSTukey) es la diferencia honestamente significati-
va de Tukey (honestly significant difference: HSD ). El propio Tukey ha desarrollado una variante de este procedimiento
al que ha llamado diferencia completamente significativa (WSD). Este otro procedimiento aparece en el SPSS como Tukey-b
y ofrece una solución intermedia entre el valor de DMSTukey y el valor de DMSS-N-K (Student-Newman-Keuls) para medias
separadas r pasos (la DMSS-N-K se describe en el Apéndice 6, en el apartado Comparaciones múltiples por pares procedi-
mientos alternativos).
25
En realidad, el error típico de la diferencia entre dos medias es y el punto crítico con el que se construye el
valor de DMS Tukey es . Los cálculos se simplifican eliminando de ambas expresiones.
Sustituyendo DMS Tukey por DMS Tukey-Kramer en [6.42] pueden obtenerse intervalos de confian-
za cuando los tamaños muestrales no son iguales26.
La prueba de Tukey y la modificación de Kramer no son los únicos procedimientos post
hoc disponibles para llevar a cabo comparaciones por pares. De hecho, existen multitud de
procedimientos para realizar comparaciones por pares. En el apartado Comparaciones post
hoc: procedimientos alternativos del Apéndice 6 se describen varios más; también se des-
criben procedimientos válidos para cuando no es posible asumir que las varianzas pobla-
cionales son iguales.
Retomemos el ejemplo de la Tabla 6.2 en el que J = 3 grupos de nj = 10 sujetos (N = 30) con

diferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de rendimiento. Tras
rechazar la hipótesis de igualdad de medias con el estadístico F hemos decidido realizar
comparaciones por pares para averiguar qué media difiere de qué otra:
= µ1 ! µ 2
= µ1 ! µ 3
= µ2 ! µ3
_ _ _
Recordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hipótesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
H0 (3) : = 0 ; H1 (3) : =/ 0.
3. Estadístico del contraste. Puesto que los tamaños muestrales son iguales, vamos a utili-
zar DMS Tukley (ecuación [6.41]):
_ _
= | Y_1 ! Y_2 | = | 9 ! 14 | = 5.
= | Y_1 ! Y_3 | = | 9 ! 7 | = 2.
= | Y 2 ! Y 3 | = | 14 ! 7 | = 7.
DMS Tukey = = 3,51 (1,145) = 4,02.
6. Decisión: los valores =5y = 7 son mayores que DMS Tukley = 4,02. Por tanto,
podemos afirmar que la media del grupo 2 difiere significativamente tanto de la media
del grupo 1 como de la media del grupo 3. No puede afirmarse, sin embargo, que las
medias de los grupos 1 y 3 sean distintas ( = 2 < 4,02). Parece, por tanto, que el
rendimiento es más alto con niveles de ansiedad medios que con niveles bajos o altos.
26
Hochberg (1974) ha propuesto el procedimiento GT2 como alternativa al de Tukey-Kramer para el caso de varianzas
poblacionales iguales y tamaños muestrales distintos, pero la solución de Hochberg es algo más conservadora que la de
Tukey-Kramer y, por tanto, menos recomendable (ver Dunnett, 1980a). La DMS de Hochberg es idéntica a [6.42] con la
única diferencia de que el cuantil q se busca en la distribución del módulo máximo studentizado (ver Pardo y San Martín,
1998, Tabla K del Apéndice final) con k = J (J ! 1) / 2 y gl grados de libertad (gl se obtiene con la ecuación [6.37]).
7. Intervalo de confianza (ecuación [6.40]):

= 5 ± 4,02 = (0,98; 9,02).
= 2 ± 4,02 = (!2,02; 6,02).
= 7 ± 4,02 = (2,98; 11,02).
Los intervalos de y no incluyen el valor cero. Por tanto, el resultado coincide con
las decisiones ya tomadas a partir de DMS Tukey. Estos intervalos se interpretan de la
misma manera que los intervalos calculados en el apartado anterior con el método de
Dunnett.
Prueba de Scheffé
La prueba de Scheffé (1953) permite valorar simultáneamente no solo las posibles compa-
raciones por pares entre J medias, sino cualquier otro tipo de comparación. Es decir, cual-
quier comparación que pueda plantearse en el formato de la ecuación [6.25].
Por tanto, la prueba de Scheffé permite contrastar el mismo tipo de hipótesis que la prue-
ba de Dunn-Bonferroni. La diferencia entre ellas está en la forma de controlar la tasa de error.
La prueba de Dunn-Bonferroni (que utiliza α C = α F / k) controla bien la tasa de error cuando
se llevan a cabo unas pocas comparaciones (preferiblemente ortogonales, aunque no nece-
sariamente), pero se va haciendo conservadora conforme va aumentando el número de com-
paraciones. La prueba de Scheffé controla la tasa de error para el total de posibles compa-
raciones entre J medias; si se utiliza para valorar solamente unas pocas comparaciones (por
ejemplo, para valorar solamente las comparaciones por pares), es muy conservadora.
La prueba de Scheffé se basa en la distribución F y, por tanto, exige, al igual que el es-
tadístico F, trabajar con poblaciones normales y homocedásticas. Como en otros procedi-
mientos estudiados, se considera que una comparación es significativamente distinta de
cero si su valor absoluto es mayor que
DMS Scheffé = [6.44]
El procedimiento de Scheffé también puede utilizarse para obtener intervalos de confianza

para una comparación mediante
= [6.45]
En el caso de que no pueda asumirse que las varianzas poblacionales son iguales, Brown y
Forsythe (1974b) recomiendan utilizar
DMS Brown-Forsythe = [6.46]
donde F es el cuantil de la distribución F correspondiente a un nivel de significación αF con

J ! 1 y glerror grados de libertad (glerror se obtiene con la ecuación [6.37]). En el caso de que
las poblaciones originales se alejen sensiblemente de la normalidad, Keselman, Lix y Ko-
walchuk (1998) recomiendan utilizar métodos basados en las medias recortadas.
Volviendo una vez más al ejemplo de la Tabla 6.2, en el que J = 3 grupos de nj = 10 sujetos
(N = 30) con diferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de ren-
dimiento, supongamos que estamos interesados en comparar todos los grupos entre sí (com-
paraciones por pares) y, además, cada grupo con los otros dos tomados juntos. Esto signifi-
ca que tenemos que llevar a cabo las siguientes seis comparaciones:
=(1) µ 1 + (!1) µ 2 + (0) µ 3
=(1) µ 1 + (0) µ 2 + (!1) µ 3
=(0) µ 1 + (1) µ 2 + (!1) µ 3
=(2) µ 1 + (!1) µ 2 + (!1) µ 3
=(!1) µ 1 + (2) µ 2 + (!1) µ 3
=(!1) µ 1 + (!1) µ 2 + (2) µ 3
_ _ _
Recordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hipótesis: H0 (1) : = 0; H1 (1) : =/ 0.
H0 (2) : = 0; H1 (2) : =/ 0.
H0 (3) : = 0; H1 (3) : =/ 0.
H0 (4) : = 0; H1 (4) : =/ 0.
H0 (5) : = 0; H1 (5) : =/ 0.
H0 (6) : = 0; H1 (6) : =/ 0.
3. Estadístico del contraste (ecuación [6.44]:
= | (1) 9 + (!1) 14 + (0) 7 | = 5.
= | (1) 9 + (0) 14 + (!1) 7 | = 2.
= | (0) 9 + (1) 14 + (!1) 7 | = 7.
= | (2) 9 + (!1) 14 + (!1) 7 | = 3.
= | (!1) 9 + (2) 14 + (!1) 7 | = 12.
= | (!1) 9 + (!1) 14 + (2) 7 | = 9.
Para valorar estas comparaciones no es necesario calcular seis DMS Scheffé distintas. Pues-
to que lo único en que difieren las DMS Scheffé de dos comparaciones es en la suma de los
cuadrados de sus coeficientes, basta con calcular dos: una para las comparaciones 1, 2
y 3 (donde = 2), y otra para las comparaciones 4, 5 y 6 (donde = 6):
DMS Scheffé = = = 4,19.
DMS Scheffé = = = 7,26.
6. Decisión: los valores =5y = 7 son mayores que DMS Tukley = 4,19. Por tanto,
puede concluirse que la media del grupo 2 difiere significativamente tanto de la media
del grupo 1 como de la media del grupo 3; y no hay evidencia de que las medias de los
grupos 1 y 3 sean distintas. Aunque esta conclusión es idéntica a la que ya habíamos

llegado aplicando el procedimiento de Tukey para estas mismas comparaciones, debe
repararse en el hecho de que el valor de la DMS es mayor en el caso de Scheffé (4,19)
que en el de Tukey (4,02); esto significa que el procedimiento de Scheffé llevará a me-
nos rechazos que el de Tukey cuando se utiliza para valorar solamente las J (J ! 1) / 2
comparaciones por pares.
Por lo que se refiere a las otras tres comparaciones, los valores = 12 y =9
son mayores que DMS Scheffé = 7,26. Por tanto, puede concluirse que la media del grupo
2 difiere significativamente de la media de los otros dos grupos tomados juntos, y que
la media del grupo 3 difiere de la media de los otros dos grupos tomados juntos; y no
existe evidencia de que la media del grupo 1 difiera de la media de los otros dos grupos
tomados juntos.
Comparaciones múltiples: qué procedimiento elegir

De los numerosos procedimientos disponibles para efectuar comparaciones múltiples (ver,
por ejemplo, Hochberg y Tamhane, 2009), aquí hemos incluido solamente unos pocos (en el
Apéndice 6 se describen algunos más). Nuestra selección, por tanto, ya está hecha. Y entre
los procedimientos que hemos incluido, la elección es bastante sencilla si se tiene en cuen-
ta que cada uno de ellos ha sido diseñado para cubrir un objetivo distinto.
En primer lugar hay que considerar si existen o no hipótesis previas a la recogida de
datos: si existen, lo habitual será tener que realizar solamente unas pocas comparaciones; si
no existen, habrá que explorar todas las posibilidades y eso incrementará sensiblemente el
número de comparaciones. Esta diferencia en el número y características de las compara-
ciones que se realizan es el primer criterio que debe aplicarse al elegir el procedimiento que
conseguirá un mejor control de la tasa de error.
Si antes de la recogida de datos se han planificado unas pocas comparaciones, lo apro-
piado es utilizar la prueba de Dunn-Bonferroni. Si las únicas comparaciones que interesa
hacer son las de cada grupo experimental con el control (si existe), el procedimiento idóneo
es el de Dunnett. Y las comparaciones de tendencia son apropiadas cuando el objetivo del
análisis es conocer el tipo de relación existente entre la variable independiente y la depen-
diente (sin olvidar que estas comparaciones solamente tiene sentido aplicarlas si los niveles
del factor se encuentran cuantitativamente ordenados).
Si antes de la recogida de datos no se ha planificado efectuar ninguna comparación
concreta sino que el interés del estudio apunta más bien a intentar averiguar dónde están las
diferencias, entonces los procedimientos apropiados son el de Tukey para efectuar compa-
raciones por pares y el de Scheffé para efectuar comparaciones de todo tipo (una media con
otra, una media con varias, varias medias con varias medias). Aunque el procedimiento de
Scheffé puede utilizarse, sustituyendo al de Tukey, para estudiar las posibles diferencias en-
tre pares de medias, limitarlo a ese tipo de comparaciones lo convierte en excesivamente
conservador y poco potente. Tanto la prueba de Tukey como la de Scheffé asumen que las
varianzas poblacionales son iguales. Si no es posible asumir tal cosa, entonces es preferible
utilizar la prueba de Games-Howell (ecuación [6.55]) en lugar de la de Tukey y la de Brown-
Forsythe (ecuación [6.46]) en lugar de la de Scheffé.
ANOVA de un factor con SPSS

En este apartado se explica cómo utilizar el SPSS para: (1) chequear los supuestos del mode-
lo de un factor (independencia, normalidad y homocedasticidad), (2) contrastar la hipótesis
global de igualdad de medias con el estadístico F y con otros estadísticos robustos, (3) esti-
mar el tamaño del efecto y la potencia observada, (4) realizar comparaciones múltiples post
hoc y (5) realizar comparaciones planeadas o a priori (incluidas las de tendencia). Todo ello,
con los datos del ejemplo que hemos venido utilizando a lo largo de este capitulo (ver Tabla
6.2). Estas cinco tareas, que son las que suelen llevarse a cabo cuando se aplica un ANOVA
de un factor, no pueden realizarse con un único procedimiento SPSS; es necesario utilizar
varios. El procedimiento Anova de un factor es, en principio, el procedimiento diseñado para
ajustar el modelo de un factor completamente aleatorizado, pero no incluye algunos de los
estadísticos que hemos estudiado en este capítulo:
1. Chequea el supuesto de igualdad de varianzas pero no el de normalidad. Y para chequear
el supuesto de igualdad de varianzas, ofrece la prueba de Levene (basada en las medias)
pero no la de Brown-Forsythe (basada en las medianas). Por tanto, para chequear los
supuestos del modelo de un factor lo recomendable es utilizar el procedimiento Explo-
rar, el cual permite chequear ambos supuestos (normalidad e igualdad de varianzas) y,
además, ofrece tanto la prueba de Levene (basada en las medias) como la de Brown-For-
sythe (basada en las medianas).
2. Contrasta la hipótesis de igualdad de medias tanto con el estadístico F (que asume varian-
zas poblacionales iguales) como con los estadísticos de Welch y Brown-Forsythe (que
no asumen varianzas poblacionales iguales).
3. No incluye ninguna medida del tamaño del efecto. Para esto puede utilizarse el proce-
dimiento Univariante, el cual ofrece las medidas de asociación η2 y η2corregida .
4. Tampoco incluye el cálculo de la potencia observada. Para esto puede utilizarse el pro-
cedimiento Univariante, el cual ofrece, además de la potencia observada, una estimación
del parámetro de no-centralidad de la distribución F.
5. Ofrece todas las pruebas post hoc que hemos estudiado en este capítulo, incluidas las que
se describen en el Apéndice 6 (el procedimiento Univariante ofrece las mismas pruebas
post hoc) y permite llevar a cabo comparaciones planeadas o a priori, incluidas las com-
paraciones de tendencia (el procedimiento Univariante también ofrece esta posibilidad).
En lo relativo a las comparaciones planeadas o a priori, cada procedimiento tiene sus
peculiaridades. El procedimiento Anova de un factor ofrece dos estadísticos para contras-
tar comparaciones planeadas: uno asumiendo varianzas poblacionales iguales y otro sin
asumir tal cosa; pero no calcula los intervalos de confianza de las comparaciones soli-
citadas. El procedimiento Univariante sí calcula los intervalos de confianza de las com-
paraciones planeadas, pero asume varianzas poblacionales iguales tanto para evaluar las
comparaciones como para construir los intervalos de confianza.
En las comparaciones de tendencia, el procedimiento Anova de un factor siempre ofrece
la solución ponderada basada en el espaciamiento existente entre los niveles del factor;
si el espaciamiento entre niveles es homogéneo ofrece, además, la solución no ponderada;
y si el espaciamiento es homogéneo y los tamaños muestrales iguales únicamente ofrece
una solución (pues ambas coinciden).
Supuestos
Por lo general, la primera tarea que hay que abordar al analizar unos datos es la de intentar
formarnos una idea lo más exacta posible acerca de sus características. Con una variable ca-
tegórica o factor y una cuantitativa o dependiente, que es el caso que estamos considerando
en todo este capítulo, esta tarea inicial se lleva a cabo calculando varios estadísticos descrip-
tivos y obteniendo algún gráfico con el doble objetivo de (1) valorar el centro, la dispersión
y la forma de la distribución de la variable dependiente en cada grupo y (2) detectar posibles
anomalías en los datos. Esta fase inicial también suele incluir el chequeo de los supuestos en
los que se basarán las herramientas inferenciales que se tenga intención de utilizar más tar-
de. El procedimiento Explorar suele ser el más indicado para hacer todo esto.
En este apartado se muestra cómo utilizar el procedimiento Explorar para obtener algu-
nos estadísticos descriptivos y para contrastar los supuestos del ANOVA de un factor: norma-
lidad y homogeneidad o igualdad de varianzas (el supuesto relativo a la independencia de las
puntuaciones puede contrastarse mediante la prueba de las rachas descrita en el Capítulo 2):
ansiedad rendimiento que se encuentra en la página web del manual).
' Seleccionar la opción Estadísticos descriptivos > Explorar del menú Analizar para acceder
al cuadro de diálogo Explorar y trasladar la variable rendimiento a la lista Dependientes
y la variable ansiedad a la lista Factores.
' Pulsar el botón Gráficos para acceder al subcuadro de diálogo Explorar: Gráficos y mar-
car la opción Gráficos con pruebas de normalidad y la opción No transformados del recuadro
Dispersión por nivel con prueba de Levene27. A las opciones correspondientes a los diagra-
27
Ya hemos señalado (ver, en este mismo capítulo, el apartado Transformación de las puntuaciones) que, cuando se incum-
plen el supuesto de normalidad o el de igualdad de varianzas, existe la posibilidad de aplicar algún tipo de transformación
a los datos originales para conseguir normalizarlos y homogeneizar las varianzas. Una transformación basada en potencias
(opción Estimación de potencia) consiste en elevar las puntuaciones originales a una potencia específica. Para determinar el
valor de esa potencia, el SPSS genera un gráfico de dispersión comparando, en cada grupo, el logaritmo natural de la media-
na (en el eje de horizontal) con el logaritmo natural de la amplitud intercuartil (en el eje de vertical). Cuando las varianzas
son iguales, los puntos del gráfico (tantos como grupos) se encuentran a la misma altura, es decir, alineados horizontalmen-
te. El gráfico también incluye el valor de la pendiente (inclinación) de la recta de regresión mínimo-cuadrática (ver Capítu-
lo 10). Basándose en el valor de esa pendiente, el SPSS ofrece una estimación de la potencia a la que habría que elevar las
puntuaciones originales de la variable dependiente para intentar homogeneizar las varianzas de esa variable en cada nivel
de la variable factor (no siempre se consigue). El valor de esta potencia se estima restando a uno el valor de la pendiente
de la recta de regresión. Aunque la potencia así estimada puede tomar cualquier valor, lo habitual es utilizar potencias re-
dondeadas a múltiplos de 0,5 (incluyendo el cero). Algunas de las potencias más utilizadas son las siguientes: !1 = «recí-
proco»; –1/2 = «recíproco de la raíz cuadrada»; 0 = «logaritmo natural»; ½ = «raíz cuadrada»; 1 = «sin transformación»;
2 = «cuadrado»; 3 = «cubo». Todas estas transformaciones, que son las habitualmente recomendadas para transformar da-
tos, están recogidas en la opción Transformados.
Una vez estimada la potencia apropiada para homogeneizar las varianzas, puede utilizarse la opción Transformados para
aplicar la transformación sugerida por el SPSS. Esta opción incluye, dentro de la lista desplegable Potencia, las siguientes
transformaciones: logaritmo natural, recíproco de la raíz cuadrada, recíproco, raíz cuadrada, cuadrado y cubo. Todas ellas
intentan homogeneizar las varianzas alterando (aumentando en unos casos y disminuyendo en otros) las varianzas de las
distribuciones y corrigiendo el grado de asimetría.
Al solicitar un gráfico de dispersión por nivel seleccionando algún tipo de transformación, tanto la prueba de Levene
como el gráfico de dispersión se obtienen a partir de los datos transformados. Pero, excepto en el caso de la transformación
logarítmica, al solicitar una transformación basada en alguna de las potencias disponibles, el gráfico de dispersión por ni-
vel se obtiene a partir de la mediana y de la amplitud intercuartílica, no a partir de sus logaritmos (estos logaritmos son los
que se utilizan en las opciones Estimación de potencia y No transformados).
mas de caja y al resto de los gráficos (tallo y hojas, histograma) no les prestaremos aten-
ción en este ejemplo; para esto, ver el Capítulo 4 del primer volumen).
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 6.3 a 6.5.
Para describir el rendimiento en cada grupo de ansiedad, la Tabla 6.3 incluye algunos esta-
dísticos referidos a las tres propiedades de una distribución a las que hay que prestar atención
para poder formarnos una idea precisa sobre las características de los datos: centro (media,
media recortada y mediana), dispersión (varianza, desviación típica, amplitud o rango y am-
plitud intercuartil) y forma (índices de asimetría y curtosis). A la espera de lo que digan los
contrastes de normalidad e igualdad de varianzas, el hecho de que los índices de asimetría y
curtosis sean menores que sus respectivos errores típicos está indicando que en las pobla-
ciones muestreadas no parece haber problemas de asimetría ni de curtosis. Los diagramas de
caja (ver Figura 6.1) apuntan en la misma dirección: no muestran asimetrías ni tampoco
excesiva dispersión; tampoco hay indicios de casos anómalos o atípicos.
Las pruebas de normalidad de la Tabla 6.4 (los detalles de estas pruebas se explican en
el en el Capítulo 2) indican que no hay motivos para preocuparse por este supuesto. En nin-
guno de los tres casos (tres grupos) se rechaza la hipótesis de normalidad ( p > 0,05 tanto con
la prueba de Kolmogorov-Smirnov como con la de Shapiro-Wilk).
Tabla 6.3. Descriptivos (procedimiento Explorar)

Rendimiento
Nivel de ansiedad
Bajo Medio Alto
Estadístico Media 9,00 14,00 7,00
Intervalo de confianza Límite inferior 6,64 11,39 4,22
para la media al 95% Límite superior 11,36 16,61 9,78
Media recortada al 5% 9,00 14,11 6,89

Mediana 9,50 14,50 6,00
Varianza 10,889 13,333 15,111
Desv. típ. 3,300 3,651 3,887
Mínimo 4 7 2
Máximo 14 19 14
Rango 10 12 12
Amplitud intercuartil 5 5 7
Asimetría -,348 -,599 ,497
Curtosis -,647 ,066 -,757
Error típ. Media 1,043 1,155 1,229
Asimetría ,687 ,687 ,687
Curtosis 1,334 1,334 1,334
Tabla 6.4. Pruebas de normalidad (procedimiento Explorar)

Rendimiento
Kolmogorov-Smirnov Shapiro-Wilk
Nivel de ansiedad Estadístico gl Sig. Estadístico gl Sig.
Bajo ,14 10 ,200* ,95 10 ,636
Medio ,11 10 ,200* ,97 10 ,879
Alto ,20 10 ,200* ,95 10 ,683
*. Éste es un límite inferior de la significación verdadera.
Tampoco parece que haya que preocuparse por el supuesto relativo a la igualdad de las va-
rianzas (ver Tabla 6.5). Tanto la prueba de Levene (basada en las medias y en las medias re-
cortadas) como la de Brown-Forsythe (basada en las medianas, con y sin corrección de los
grados de libertad) tienen asociados valores p (sig.) mayores que 0,05.
Tabla 6.5. Pruebas de homogeneidad de varianzas (procedimiento Explorar)

Rendimiento
Estadístico
de Levene gl1 gl2 Sig.
Basándose en la media ,24 2 27 ,789
Basándose en la mediana ,21 2 27 ,813
Basándose en la mediana y con gl corregido ,21 2 26,56 ,813
Basándose en la media recortada ,24 2 27 ,790
Hipótesis de igualdad de medias

El estadístico F para el contraste de la hipótesis global de igualdad de medias puede obtenerse
con varios procedimientos SPSS: ANOVA de un factor, Medias, Univariante, etc. Pero solamente
el primero de ellos ofrece las versiones robustas de Welch y Brown-Forsythe. Aunque en los
datos de nuestro ejemplo sobre la relación entre ansiedad y rendimiento no hay problemas
con las varianzas poblacionales, vamos a utilizar el procedimiento ANOVA de un factor para
obtener, además del estadístico F, los de Welch y Brown-Forsythe:
' Seleccionar la opción Comparar medias > ANOVA de un factor del menú Analizar para acce-
der al cuadro de diálogo ANOVA de un factor. La lista de variables contiene un listado
de todas las variables numéricas del archivo de datos (no aparecen listadas las variables
con formato de cadena).
' Trasladar la variable cuantitativa rendimiento a la lista Dependientes28 y la variable cate-
górica ansiedad al cuadro Factor.
' Pulsar el botón Opciones para acceder al cuadro de diálogo ANOVA de un factor: Opcio-
nes y marcar las opciones Welch y Brown-Forsythe. Pulsar el botón Continuar para volver
al cuadro de diálogo principal.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 6.6. y
6.7. La primera de ellas, la tabla resumen del ANOVA, es la forma estándar de presentar los
resultados de un ANOVA. La primera columna recoge una cuantificación de los dos tipos de
variabilidad analizados en un ANOVA de un factor: la suma de cuadrados intergrupos refle-
ja la variabilidad existente entre las medias (es el numerador de la ecuación [6.4]); la suma
de cuadrados intragrupos refleja la variabilidad existente dentro de cada grupo (es el nume-
rador de la ecuación [6.2]). Dividiendo estas sumas de cuadrados entre sus correspondientes
grados de libertad (J ! 1 = 2 para la variabilidad inter y N ! J = 27 para la intra) se obtienen
las medias cuadráticas: MCA y MCE (ver ecuaciones [6.2] y [6.4]). Y el cociente entre ellas
da como resultado el estadístico F. La tercera fila de la tabla (total) es la suma de las dos
28
Puede seleccionarse más de una variable dependiente: el SPSS genera un análisis de varianza completo por cada variable
dependiente seleccionada.
primeras. Puesto que el nivel crítico o valor p asociado al estadístico F (sig. = 0,001) es me-
nor que 0,05, lo razonable es rechazar la hipótesis de igualdad de medias y concluir que el
rendimiento medio no es el mismo en las tres poblaciones compradas.
Tabla 6.6. Resumen del ANOVA de un factor (procedimiento ANOVA de un fator)

Rendimiento
Suma de cuadrados gl Media cuadrática F Sig.
Inter-grupos 260,00 2 130,00 9,92 ,001
Intra-grupos 354,00 27 13,11
Total 614,00 29
En el caso de que no pueda asumirse que las varianzas poblacionales son iguales, los esta-
dísticos de Welch y de Brown-Forsythe (ver Apéndice 6) ofrecen una solución robusta pa-
ra el contraste de la hipótesis de igualdad de medias. La Tabla 6.7 incluye el valor de estos
estadísticos junto con sus grados de libertad y niveles críticos. Puesto que el valor p asocia-
do a ambos (sig.) es menor que 0,05, la decisión sobre la hipótesis de igualdad de medias es
la misma que con el estadístico F de la Tabla 6.6.
Tabla 6.7. Estadísticos F robustos (procedimiento ANOVA de un factor)

Rendimiento
Estadístico gl1 gl2 Sig.
Welch 9,10 2 17,92 ,002
Brown-Forsythe 9,92 2 26,54 ,001
Tamaño del efecto y potencia observada

El procedimiento Univariante permite obtener las medidas de asociación η2 y η2corregida y una
estimación de la potencia del contraste (potencia observada o a posteriori). Para ello:
' Seleccionar la opción Modelo lineal general > Univariante del menú Analizar para acceder
al cuadro de diálogo Univariante y trasladar la variable rendimiento al cuadro Dependien-
te y la variable ansiedad a la lista Factores fijos.
' Pulsar el botón Opciones para acceder al subcuadro de diálogo Univariante: Opciones
y seleccionar las opciones Estimaciones del tamaño del efecto y Potencia observada.
Aceptando estas selecciones, el Visor ofrece los resultados que muestra la Tabla 6.8. Esta
tabla contiene el resumen del ANOVA de un factor. Equivale a la Tabla 6.6 que se obtiene
con el procedimiento ANOVA de un factor, pero incluye información adicional. La que a noso-
tros nos interesa se encuentra en las últimas columnas. La columna eta al cuadrado parcial
contiene el valor de (ver ecuación [6.13]) correspondiente a la variable independiente o
factor ansiedad (0,423). Y el valor de (ver ecuación [6.14]) se ofrece en una nota
a pie de tabla (R cuadrado corregida = 0,381). El SPSS no ofrece el valor de ni el de
(ecuaciones [6.15] y [6.16]), pero con la información que contiene la Tabla 6.9 pueden cal-
cularse fácilmente. Por ejemplo, el valor de puede obtenerse mediante
= = 0,38
La siguiente (penúltima) columna de la tabla contiene el parámetro de no-centralidad de la

distribución F no centrada (19,83; ver ecuación [6.18]). Recordemos que el parámetro de no-
centralidad refleja cómo de grande es la variabilidad entre las medias en comparación con
la variabilidad de las puntuaciones individuales. Este parámetro es el que se utiliza para cal-
cular la potencia observada que aparece en la última columna de la tabla. En nuestros cál-
culos de la potencia observada (ver pág. 205) habíamos llegado a la conclusión de que la
potencia del contraste era ligeramente menor de 0,98 (la Tabla G obliga a interpolar valores
y eso hace perder algo de precisión); ahora sabemos que la potencia del contraste vale 0,972.
No parece, por tanto, que se pierda mucha precisión en los cálculos basados en la Tabla G.
El hecho de que la información que contienen las filas modelo corregido y ansiedad sea
idéntica se debe a que estamos ajustando un modelo de ANOVA que únicamente incluye el
efecto de la variable ansiedad. En el siguiente capítulo tendremos ocasión de comprobar que,
al añadir nuevos efectos, las cosas cambian.
Tabla 6.8. Resumen del ANOVA de un factor (procedimiento MLG > Univariante)
Variable dependiente: Rendimiento
Suma de Eta al Parámetro
cuadrados Media cuadrado de no Potencia
a
Fuente tipo III gl cuadrática F Sig. parcial centralidad observada
b
Modelo corregido 260,00 2 130,00 9,92 ,001 ,423 19,831 ,972
Intersección 3.000,00 1 3.000,00 228,81 ,000 ,894 228,814 1,000
ansiedad 260,00 2 130,00 9,92 ,001 ,423 19,831 ,972
Error 354,00 27 13,11
Total 3.614,00 30
Total corregida 614,00 29
a. Calculado con alfa = ,05
b. R cuadrado = ,423 (R cuadrado corregida = ,381)
Comparaciones post hoc

Tanto el procedimiento ANOVA de un factor como el procedimiento Univariante incluyen todos
los estadísticos estudiados en este capítulo para realizar comparaciones múltiples. Comence-
mos con las comparaciones post hoc o a posteriori:
' Seleccionar la opción Comparar medias > ANOVA de un factor del menú Analizar para ac-
ceder al cuadro de diálogo ANOVA de un factor y trasladar la variable rendimiento a la
lista Dependientes y la variable ansiedad al cuadro Factor.
' Pulsar el botón Post hoc para acceder al cuadro de diálogo ANOVA de un factor: Com-
paraciones múltiples post hoc y marcar la opción29 Tukey.
Con estas selecciones, el Visor ofrece los resultados que muestran las Tablas 6.9 y 6.10. La
Tabla 6.9 incluye, para cada par de medias, (1) el valor de la diferencia, (2) el error típico
de esa diferencia (ver nota a pie de página número 25), (3) el valor p asociado al contraste
29
Todos los estadísticos disponibles en este subcuadro de diálogo persiguen el mismo objetivo: controlar la tasa de error
cuando se realizan comparaciones post hoc. Ya hemos explicado las diferencias entre ellos y hemos recomendado cuáles
elegir en cada caso. En este ejemplo nos vamos a centrar en uno de ellos: Tukey. El SPSS ofrece para todos ellos la misma
información; y todos ellos se interpretan de la misma manera.
de la hipótesis nula de que esa diferencia vale cero en la población (sig.) y (4) el intervalo
de confianza para a cada diferencia. Por ejemplo, la diferencia entre el nivel de ansiedad
medio y el nivel de ansiedad bajo vale 5 puntos; el error típico de esa diferencia vale 1,62;
y el nivel crítico o valor p asociado al contraste de esa diferencia vale sig. = 0,012. Puesto
que 0,012 < 0,05, puede concluirse que las medias poblacionales de esos dos grupos son dis-
tintas. Los valores p asociados a cada comparación indican que el grupo medio difiere tan-
to del grupo bajo como del grupo alto y que estos dos grupos no difieren significativamente.
Los intervalos de confianza de las dos últimas columnas permiten: (1) estimar entre qué
limites se encuentra la diferencia poblacional entre las medias de los grupos comparados y
(2) contrastar la hipótesis nula de que las medias poblacionales de los dos grupos compara-
dos son iguales. Rechazar esta hipótesis cuando el intervalo de confianza no incluye el valor
cero es equivalente a rechazarla cuando el nivel crítico (sig.) es menor que 0,05.
Tabla 6.9. Comparaciones múltiples post hoc: prueba de Tukey (procedimiento ANOVA de un factor)
HSD de Tukey
al 95%
(I) Nivel de (J) Nivel de Diferencia de Error
ansiedad ansiedad medias (I-J) típico Sig. L. inferior L. superior
Bajo Medio -5,00* 1,62 ,012 -9,01 -,99
Alto 2,00 1,62 ,443 -2,01 6,01
Medio Bajo 5,00* 1,62 ,012 ,99 9,01
Alto 7,00* 1,62 ,001 2,99 11,01
Alto Bajo -2,00 1,62 ,443 -6,01 2,01
Medio -7,00* 1,62 ,001 -11,01 -2,99
*. La diferencia de medias es significativa al nivel .05.
La Tabla 6.10 ofrece una clasificación de los grupos (niveles del factor) basada en el grado
de parecido existente entre sus medias, es decir, basada en los resultados de la Tabla 6.9.
Cada subconjunto de la tabla incluye los grupos cuyas medias no difieren significativamen-
te entre sí; los grupos cuyas medias difieren significativamente aparecen en subconjuntos
distintos. En la Tabla 6.10, por ejemplo, en el subconjunto 1 están incluidos dos grupos (alto
y bajo) cuyas medias no difieren significativamente (sig. = 0,443); y en el subconjunto 2 está
incluido un solo grupo (medio) que difiere de los dos anteriores y que, obviamente, no difie-
re de sí mismo (sig. = 1,00). Esta clasificación de los grupos en subconjuntos no está dispo-
nible con todos los métodos post-hoc, sino solamente con algunos: S-N-K, Tukey, Tukey-b,
Duncan, Scheffé, Gabriel, R-E-G-W F y Q, GT2 de Hochberg y Waller-Duncan.
Tabla 6.10. Subconjuntos homogéneos (procedimiento ANOVA de un factor)

a
HSD de Tukey
Subconjunto para alfa = ,05
Nivel de ansiedad N 1 2
Alto 10 7,00
Bajo 10 9,00
Medio 10 14,00
Sig. ,443 1,000
a. Usa el tamaño muestral de la media armónica = 10,000.
Comparaciones planeadas y de tendencia

Para ilustrar cómo llevar a cabo comparaciones planeadas, vamos a solicitar al SPSS, en
primer lugar, que realice comparaciones de tendencia para poder determinar si la relación
entre las variables ansiedad y rendimiento es lineal o cuadrática; y, en segundo lugar, que
compare el grupo de nivel de ansiedad bajo (grupo 1) con el de nivel alto (grupo 3) y el gru-
po de nivel de ansiedad medio (grupo 2) con los otros dos tomados juntos. Para ello:
' En el cuadro de diálogo ANOVA de un factor, pulsar el botón Contrastes para acceder al
subcuadro de diálogo.
' Marcar la opción Polinómico (aquí es donde se solicitan las comparaciones de tendencia)
y, en el menú desplegable Orden, elegir Cuadrático. Las opciones de este menú permiten
fijar cuál es el polinomio de mayor orden que se desea estudiar: si se elige la opción
Lineal, se contrasta la tendencia lineal; si se elige la opción Cuadrático, se contrastan las
tendencias lineal y cuadrática; etc. El límite en el número de tendencias que se contras-
tan viene impuesto por el polinomio elegido o por J ! 1, el valor menor de ambos.
' En el cuadro de texto Coeficientes, introducir (uno a uno, pulsando cada vez el botón Aña-
dir), los coeficientes 1, 0 y !1, es decir, los coeficientes que definen la comparación en-
tre los grupos 1 y 3 (aquí es donde es posible solicitar al SPSS que realice comparacio-
nes de cualquier tipo; ver ecuación [6.34]). Para definir el segundo contraste, pulsar el
botón Siguiente del recuadro Contraste 1 de 1 y comenzar a introducir los coeficientes del
segundo contraste, es decir, 1, !2 y 1. La cabecera Contraste # de ## indica el contraste
en el que se está (#) y el número total de contrastes definidos (##). El botón Anterior
permite moverse por contrastes previamente definidos.
El orden en el que se asignan los coeficientes se corresponde con el orden ascenden-
te de los códigos de los niveles de la variable independiente o factor (el primer coefi-
ciente corresponde al grupo con el código más pequeño). Hay que asignar tantos coe-
ficientes como grupos (J ); por tanto, a los grupos que no intervengan en un contraste
concreto se les debe asignar un cero. Los botones Cambiar y Borrar pueden utilizarse pa-
ra modificar y eliminar, respectivamente, coeficientes previamente añadidos.
Aunque para definir una comparación lineal los coeficientes asignados deben sumar
cero, es posible definir comparaciones cuyos coeficientes no sumen cero (en ese caso,
el SPSS muestra un mensaje de aviso). La línea Total para los coeficientes va mostrando
la suma de los coeficientes añadidos.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 6.11,
6.12 y 6.13. La Tabla 6.12 recoge las comparaciones de tendencia. Se trata de la tabla resu-
men del ANOVA ya obtenida anteriormente (ver Tabla 6.6), pero con información nueva.
La información relativa a las comparaciones de tendencia aparece integrada dentro de la
variabilidad intergrupos. Cada tendencia aparece acompañada de su correspondiente suma
de cuadrados, grados de libertad, media cuadrática, estadístico F y valor p. Puesto que los
niveles de la variable independiente o factor (ansiedad ) están igualmente espaciados (con
códigos 1, 2 y 3) y todos los grupos tienen el mismo tamaño, las soluciones ponderada y no
ponderada son equivalentes (y el SPSS solamente ofrece una de ellas).
La hipótesis nula que se contrasta con cada tendencia es que la relación representada por
esa tendencia concreta es nula. La tendencia o término lineal tiene un nivel crítico asociado
de 0,227; puesto que ese valor es mayor que 0,05, se mantiene la hipótesis de que la tenden-
cia lineal es nula y se concluye que no es posible afirmar que entre la ansiedad y el rendi-
miento exista relación lineal significativa.
A continuación aparece información referida al resto de tendencias todavía no contras-
tadas (desviación). Puesto que en este ejemplo únicamente es posible valorar las tendencias
lineal y cuadrática (recordemos que con tres grupos solamente es posible valorar dos ten-
dencias), la única tendencia todavía no contrastada es la cuadrática. El nivel crítico asociado
a las tendencias no contrastadas (sig. < 0,0005) indica que entre las de orden mayor que el
lineal existe alguna que es significativa. En el ejemplo esa única tendencia es la cuadrática.
Y es significativamente distinta de cero. Los resultados correspondientes al término cua-
drático son idénticos a los de la desviación del término lineal.
Puede concluirse, por tanto, que la relación entre las variables ansiedad y rendimiento
es cuadrática. El gráfico de líneas (Figura 6.2) muestra con claridad lo que está ocurriendo
(este gráfico se ha obtenido mediante la opción Gráfico de las medias del subcuadro de diálo-
go ANOVA de un factor: Opciones).
Tabla 6.11. Resumen del ANOVA con comparaciones de tendencia (procedimiento ANOVA de un factor)
Rendimiento
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos (Combinados) 260,00 2 130,00 9,92 ,001
Término lineal Contraste 20,00 1 20,00 1,53 ,227
Desviación 240,00 1 240,00 18,31 ,000
Término cuadrático Contraste 240,00 1 240,00 18,31 ,000
Intra-grupos 354,00 27 13,11
Total 614,00 29
Figura 6.2. Gráfico de líneas: relación entre ansiedad y rendimiento
Las Tablas 6.12 y 6.13 contienen la información relativa a las dos comparaciones planeadas
que se han solicitado. La Tabla 6.12 muestra los coeficientes asignados. Estos coeficientes
sirven para identificar las comparaciones que se están llevando a cabo y, por supuesto, para
comprobar que, efectivamente, se corresponden con las dos comparaciones solicitadas. La
Tabla 6.13 ofrece los resultados de ambas comparaciones agrupados en dos bloques. En el
primero de ellos, las comparaciones están evaluadas asumiendo que las varianzas pobla-
cionales son iguales; en el segundo, sin asumir igualdad de varianzas. Aunque es habitual que
ambas estrategias lleven a la misma conclusión, debe utilizarse la que se ajuste a las carac-
terísticas de los datos; para tomar esta decisión debe tenerse en cuenta el resultado obtenido
previamente al evaluar la hipótesis de igualdad de varianzas mediante la prueba de Levene.
Puesto que el contraste de Levene aplicado a los datos del ejemplo permite asumir varianzas
poblacionales iguales (ver Tabla 6.5), la decisión sobre la hipótesis de que los promedios
comparados son iguales puede basarse en el primer bloque de información (asumiendo
igualdad de varianzas).
La tabla muestra, para cada uno de los dos contrastes definidos, el valor del contraste,
su error típico, el estadístico del contraste (t), sus grados de libertad y el nivel crítico (sig.
bilateral ). La hipótesis nula que se pone a prueba con cada contraste es que los promedios
poblacionales comparados son iguales. Teniendo en cuenta los niveles críticos asociados a
cada contraste debe decidirse: (1) mantener la hipótesis nula referida al primer contraste
(pues 0,227 > 0,05) y (2) rechazar la referida al segundo contraste (pues 0,0005 < 0,05). En
consecuencia, puede concluirse, en primer lugar, que no existe evidencia para pensar que el
rendimiento medio de los grupos 1 y 3 sea distinto; y, en segundo lugar, que el rendimiento
medio del grupo 2 difiere significativamente del rendimiento medio de los dos grupos to-
mados juntos.
Tabla 6.12. Coeficientes de las comparaciones planeadas (procedimiento ANOVA de un factor)

Nivel de ansiedad
Contraste Bajo Medio Alto
1 1 0 -1
2 1 -2 1
Tabla 6.13. Resultado de las comparaciones planeadas (procedimiento ANOVA de un factor)

Rendimiento
Valor del Error Sig.
Contraste contraste típico t gl (bilateral)
Asumiendo igualdad de varianzas 1 2,00 1,62 1,24 27 ,227
2 -12,00 2,80 -4,28 27 ,000
No asumiendo igualdad de varianzas 1 2,00 1,61 1,24 17,54 ,231
2 -12,00 2,82 -4,26 17,75 ,000
Apéndice 6
Distribución muestral del estadístico F
Hemos definido el estadístico F como el cociente entre MCA y MCE. Sabemos que, si es un esti-
mador insesgado de , la transformación
[6.47]
es una variable con n ! 1 grados de libertad (ver, en el Apéndice 6 del primer volumen, el apartado
Distribución muestral del estadístico varianza). También sabemos (ver ecuación [6.4]) que, si las J
medias poblacionales son iguales, MCA es un estimador insesgado de . Por tanto, la transformación
[6.48]
se distribuye según con J ! 1 grados de libertad. Y también sabemos, por último, que, tanto si las
medias poblacionales son iguales como si no, MCE es un estimador insesgado de (ver ecuación
[6.2]). Por tanto, la transformación
[6.49]
es una variable con N ! J grados de libertad.

Ahora bien, la distribución F se define (ver, por ejemplo, Kirk, 1995, pág. 76) como el cociente
entre dos independientes30, cada uno de ellos dividido por sus grados de libertad. Es decir:
= [6.50]
Por tanto, puesto que [6.48] y [6.49] son dos variables independientes, el conciente entre ambas
tras dividirlas por sus respectivos grados de libertad es una variable F con los grados de libertad de
[6.48] y [6.49]:
= = [6.51]
Al igual que ocurre con otras distribuciones de probabilidad teóricas (binomial, normal, , t), no exis-
te una única distribución F sino toda una familia. La diferencia entre cada distribución F únicamente
está en los grados de libertad, es decir, en gl1 y gl2.
Puesto que una variable F es el cociente de dos variables ji-cuadrado, es decir, el cociente de dos
variables asimétricas positivas, su distribución también es asimétrica positiva. En relación con la for-
ma de la distribución F, los gráficos de la Figura 6.3 muestran: (1) asimetría extrema cuando gl1 = 2,
sin importar cómo de grande es gl2 ; y (2) reducción paulatina del grado de asimetría conforme va
aumentando el valor de gl1.
En el eje horizontal de estos gráficos están representados los valores F ; en el vertical, sus densi-
dades. Cada gráfico se corresponde con un valor de gl1: 2, 4, 6, 8, 10 y 12. Y las distintas curvas den-
tro de un mismo gráfico se corresponden con diferentes valores de gl2: 20, 50, 100 y 500. El rango de
valores representados permite formarse una idea bastante precisa de cómo va cambiando la forma de
la distribución. Cuando gl1 = 2, los valores de gl2 apenas alteran la forma de la distribución; las cua-
tro curvas dibujadas están tan solapadas que parece que solamente hay una curva; el cuantil 95 (que
es el que habitualmente se utiliza para tomar decisiones en el análisis de varianza), varía entre el va-
lor F = 3,49 para gl2 = 20 y el valor F = 3,01 para gl2 = 500. Conforme va aumentando gl1, las curvas
correspondientes a los diferentes valores de gl2 se van separando un poco más; y también va dismi-
nuyendo el grado de asimetría (las curvas más altas y más estrechas corresponden a más grados de
libertad). Con gl1 = 12, los valores de gl2 permiten distinguir cuatro curvas distintas; sin embargo, las
30
MCA y MCE son estimadores independientes de , pues MCA se basa en las medias muestrales y MCE se basa en las
varianzas muestrales. Y no olvidemos que la media y la varianza de una distribución normal, caso en el que nos encontra-
mos, son independientes.
diferencias en el cuantil 95 se mantienen en aproximadamente medio punto (igual que con gl1 = 2): el
cuantil 95 varía entre el valor F = 2,28 para gl2 = 20 y el valor F = 1,77 para gl2 = 500.
Figura 6.3. Distribuciones F con diferentes grados de libertad (gl2 = 20, 50, 100, 500).
gl1 = 2 gl1 = 4 gl1 = 6
gl1 = 8 gl1 = 10 gl1 = 12
Tabla de la distribución F
Al igual que con otras distribuciones de probabilidad estudiadas, el trabajo con la distribución F sue-
le limitarse a calcular la proporción de área bajo la curva asociada a diferentes valores del eje horizon-
tal o a encontrar el valor concreto del eje horizontal asociado a una determinada proporción de área
bajo la curva. Para esta tarea, asumimos que toda el área bajo la curva vale 1 y, por tanto, que hablar
de proporción de área es equivalente a hablar de probabilidad.
La Tabla F del Apéndice final ofrece los cuantiles 95 y 99 de la distribución F. Las cabeceras de
las columnas (gl1) contienen los grados de libertad del numerador del estadístico F ; las cabeceras de
las filas (gl2) contienen los grados de libertad del denominador. Por tanto, cada valor del interior de la
tabla corresponde a una distribución F distinta. Estos valores son los que acumulan, en sus respectivas
distribuciones, un área bajo la curva de tamaño 1 ! α = 0,95 y 1 ! α = 0,99.
Con 1 ! α = 0,95, el valor F que corresponde a gl1 = 2 y gl2 = 24 es 3,40. Esto significa que, en
la distribución F con 2 y 24 grados de libertad, el valor 3,40 acumula (o sea, deja por debajo o a la
izquierda) una proporción de área de tamaño 0,95. Es decir,
P (F < 3,40) = F (3,40) = 0,95
Ahora bien, si por debajo del valor 3,40 queda una proporción de área de tamaño 0,95, entonces la
probabilidad de encontrar valores F menores que 3,40 vale 0,95 (esto es lo que se quiere indicar al de-
cir que proporción de área es equivalente a probabilidad). Para representar este resultado utilizamos
la siguiente expresión:
F2, 24; 0,95 = 3,40
Los dos primeros subíndices se refieren a los grados de libertad; el tercero, a la proporción de área que
queda a la izquierda cada valor F (probabilidad acumulada). La tabla únicamente ofrece los cuantiles
95 y 99 de algunas distribuciones F. Para conocer otros valores puede utilizarse un programa infor-
mático como el SPSS.
La distribución F con SPSS

La opción Calcular del menú Transformar incluye varias funciones relacionadas con la distribución F.
La función CDF.F (F, n1, n2) calcula la probabilidad acumulada hasta el valor F en la distribución con
n1 y n2 grados de libertad. Por tanto, para calcular la probabilidad acumulada hasta el valor 3,40 en una
distribución F con 2 y 24 grados de libertad, haremos
CDF.F (3.4, 2, 24)
La función IDF.F ( p, n1, n2) devuelve el valor del cuantil p, es decir, el valor F que acumula una
probabilidad p en la distribución F con n1 y n2 grados de libertad. La siguiente expresión permite
conocer el valor del cuantil 95 en la distribución F con 2 y 24 grados de libertad:
IDF.F (0.95, 2, 24)
Por último, la función PDF.F (F, n1, n2) permite obtener la densidad (altura de la curva) que correspon-
de al valor F en la distribución F con n1 y n2 grados de libertad. No debe olvidarse que el separador de-
cimal que debe utilizarse en las expresiones numéricas del SPSS es el punto (como en una calculadora),
no la coma (como se hace al escribir en español).
Estadísticos F robustos: Welch y Brown-Forsythe

Ya hemos insistido en que el estadístico F requiere trabajar con poblaciones normales y homocedás-
ticas. El incumplimiento del supuesto de normalidad no tiene consecuencias relevantes sobre el análisis
si los tamaños muestrales son moderadamente grandes; y si se tiene que trabajar con poblaciones no
normales y tamaños muestrales pequeños, puede utilizarse la prueba de Kruskal-Wallis estudiada en
el Capítulo 4.
En el caso de que no pueda asumirse que las varianzas poblacionales son iguales también existen
algunos estadísticos robustos que permiten contrastar la hipótesis global de igualdad de medias sin te-
ner que estar preocupados por el tamaño de las varianzas. En este apartado describimos dos de estos
procedimientos: uno debido a Welch y otro debido a Brown y Forsythe (son los dos estadísticos F
robustos que incluye el SPSS).
El estadístico FW (Welch, 1951) es uno de los más apropiados en términos de potencia y control
de la tasa de error (Kohr y Games, 1974; Tomarken y Serlin, 1986). Su cálculo es algo tedioso, pero
no complicado:
FWelch = [6.52]
donde
El estadístico FW se distribuye según el modelo de probabilidad F con J ! 1 y grados de libertad

(el símbolo no debe confundirse con un estadístico muy conocido llamado lambda de Wilks que
utilizaremos en los Capítulos 8 y 9).
Brown y Forsythe (1974b) han propuesto una modificación del estadístico F cuya lógica es algo
más intuitiva que la de FWelch y que sirve igualmente para contrastar la hipótesis global de igualdad de
medias cuando no puede asumirse que las varianzas poblacionales son iguales:
FBrown-Forsythe = [6.53]
Este estadístico se distribuye según el modelo de probabilidad F con J ! 1 y gl grados de libertad. Y

gl se obtiene mediante
gl = con = [6.54]
Comparaciones post hoc: procedimientos alternativos

Si no puede asumirse que las varianzas poblacionales son iguales, varios estudios (Dunnett, 1980b;
Games, Keselman y Rogan, 1981; Keselman, Games y Rogan, 1979; Keselman y Rogan, 1978; Ta-
mhane, 1979) coinciden en apoyar, particularmente cuando los tamaños muestrales son grandes, la
solución propuesta por Games y Howell31 (1976):
DMS Games-Howell = [6.55]
donde q, al igual que en el procedimiento de Tukey, es el valor de la distribución del rango studen-
tizado que acumula una probabilidad 1 ! αF con J medias y gl grados de libertad (gl se obtiene con la
ecuación [6.37]). No obstante, el método de Games-Howell se vuelve algo liberal con tamaños mues-
trales pequeños. En estos casos es preferible utilizar la DMS basada en el estadístico T3 de Dunnett32
(1980b):
DMS T3-Dunnett = [6.56]
donde q es el valor de la distribución del módulo máximo studentizado (ver Pardo y San Martín, 1998,
Tabla K del Apéndice final) que acumula una probabilidad 1 ! α F con k = J (J ! 1) / 2 y gl grados de
libertad (gl se obtiene con la ecuación [6.37]).
Métodos secuenciales
No todos los procedimientos diseñados para llevar a cabo comparaciones a posteriori por pares se ba-
san en la misma lógica. Mientras la prueba de Tukey, por ejemplo, utiliza un mismo nivel de signifi-
cación y un único punto crítico (una única DMS) para las J (J !1) / 2 posibles comparaciones por pares,
31
Dunnett (1980b) ha propuesto una solución similar a la de Games-Howell: el método C. Este método consiste en utilizar
como estimación de los grados de libertad del error (gl) la solución de Cochran y Cox (ver Pardo y San Martín, 1998,
Capítulo 4, ecuación [4.13]), en lugar de la solución de Welch (que es lo que hace el método de Games-Howell).
32
El estadístico T3 de Dunnett se basa en el T2 de Tamhane (1977, 1979). El estadístico T2 utiliza como estimación del
error típico de la diferencia de medias el mismo valor que el estadístico T3 de Dunnett, pero se basa en la distribución t de
Student y utiliza la desigualdad de Sidák para controlar la tasa de error (ver, en este mismo capítulo, la nota a pie de página
número 21). El valor t que se utiliza en la ecuación de la DMS es el cuantil 100 (1 ! α /2)1/k de la distribución t de Student
con gl grados de libertad (gl se obtiene con la ecuación [6.37]) y k = J (J ! 1)/ 2.
otros procedimientos realizan las comparaciones por pasos o de forma secuencial, cambiando el nivel
de significación y el punto crítico en cada paso.
En los métodos secuenciales, tras ordenar de forma ascendente las J medias por su tamaño, las
comparaciones entre pares de medias se llevan a cabo teniendo en cuenta el número de pasos (r) que
separan a las medias comparadas: con J medias, la media más pequeña y la más grande están separa-
das r = J pasos; la media más pequeña y la segunda más grande están separadas r = J ! 1 pasos; la
media más pequeña y la tercera más grande están separadas r = J ! 2 pasos; etc. Dos medias adya-
centes tras la ordenación están separadas r = 2 pasos. El número de pasos existente entre las medias
comparadas condiciona el nivel de significación (y, por tanto, el punto crítico) con el que se evalúa
cada comparación. En este apartado se describen dos de estos métodos secuenciales33: la prueba de
Student-Newman-Keuls y la de Ryan-Einot-Gabriel-Welch.
La prueba de Student-Newman-Keuls (S-N-K) fue propuesta inicialmente por Gosset (1927),
Newman (1939) y Keuls (1952), y ha sido muy revitalizada en las últimas décadas (ver Jaccard, Bec-
ker y Wood, 1984; Toothaker, 1991). Utiliza, al igual que la prueba de Tukey, un estadístico basado
en la distribución del rango studentizado, pero, a diferencia de la de Tukey, la prueba de S-N-K sigue
una estrategia secuencial basada en una ordenación de las medias por su tamaño.
La diferencia mínima significativa de Student-Newman-Keuls (DMSSNK) se calcula de la misma
manera que DMSTukey (ver ecuación [6.27]), con la única diferencia de que los grados de libertad que
se utilizan para obtener el cuantil 100(1 ! αF) de la distribución del rango studentizado cambian:
donde el procedimiento de Tukey utiliza J para obtener un único punto crítico q y, en consecuencia,
un único valor DMSTukey, el procedimiento S-N-K utiliza r = «número de pasos entre las medias com-
paradas» para obtener tantos puntos críticos como valores r distintos pueda haber con J medias:
DMSS-N-K = [6.57]
Por ejemplo, con cuatro grupos (J = 4), la media más grande y la más pequeña están separadas 4 pa-
sos; para comparar esas dos medias, el valor de DMSS-N-K se obtiene utilizando r = 4 grados de liber-
tad. Las medias 1ª-3ª y 2ª-4ª, que se encuentran separadas 3 pasos, se comparan utilizando r = 3. Y las
medias 1ª-2ª, 2ª-3ª y 3ª-4ª, que están separadas 2 pasos, se comparan utilizando r = 2.
En todos los casos se contrasta la hipótesis nula de que las dos medias comparadas son iguales, es
decir, H0: µ j = µ j’ . Estas comparaciones se llevan a cabo de forma secuencial, por pasos:
1. Se compara la media más grande con la más pequeña, es decir, las dos medias separadas r = J
pasos. Si se mantiene la hipótesis nula referida a esta primera comparación, se detiene el proce-
so y se concluye que entre las J medias consideradas no se han encontrado diferencias signifi-
cativas. Si se rechaza la hipótesis nula, se continúa con el paso 2.
2. Se comparan las medias separadas r = J ! 1 pasos, pero por orden. Primero se comparan las dos
medias cuya diferencia es mayor; si se mantiene la hipótesis nula referida a esa comparación, se
detiene el proceso y se consideran no significativas el resto de diferencias; si se rechaza la hipó-
tesis nula, se comparan las dos medias cuya diferencia es la siguiente mayor. Si se rechazan todas
las hipótesis referidas a las medias separadas r = J ! 1 pasos, se continúa con el paso 3.
3. Se comparan las medias separadas r = J ! 2 pasos, también por orden y siguiendo la misma ló-
gica del paso 2.
4. Se continúa el proceso hasta que se obtiene una diferencia no significativa o hasta que se compa-
ran todas las medias separadas r = 2 pasos.
33
Existen otros métodos secuenciales además de los dos incluidos aquí. Duncan (1955), por ejemplo, ha propuesto un mé-
todo secuencial, conocido como prueba del rango múltiple, que se basa en la misma lógica que la de Student-Newman-Keuls
pero utilizando como nivel de significación para cada grupo de medias separadas r pasos el valor αr = 1 ! (1 ! α) r!1. A pe-
sar de su amplia utilización en el pasado, la prueba del rango múltiple parece más bien poco recomendable (ver Seaman,
Levin y Serlin, 1991).
La consecuencia de esta forma de proceder es que, para J > 3, la tasa de error por familia de compa-
raciones (αF) es siempre mayor que el nivel de significación nominal α (ver, por ejemplo, Keselman,
Keselman y Games, 1991). De hecho, lo que hace el procedimiento SNK es controlar αF para cada
conjunto de medias separadas r pasos.
Cuantos más pasos existen entre dos medias, mayor es la diferencia mínima necesaria para consi-
derar que esas medias difieren significativamente. Esto convierte al procedimiento de S-N-K en más
potente que el de Tukey, pero a costa de incrementar la tasa de error por familia de comparaciones (αF).
La prueba de Ryan-Einot-Gabriel-Welsch (R-E-G-W Q) debe su nombre a varios participan-
tes en su diseño final. Ryan (1960) propuso una modificación del procedimiento de S-N-K para ate-
nuar la disminución tan rápida que se produce en el valor de DMSSNK como consecuencia de la dismi-
nución de r. Según la propuesta de Ryan, es posible controlar αF si, al comparar dos medias sepa-
radas r pasos, en lugar de utilizar α (como hace el procedimiento de S-N-K), se utiliza αr = α / (J / r).
Puesto que la fracción J / r aumenta conforme disminuye r, el valor de αr será tanto más pequeño cuan-
to menor sea r, lo cual significa que, aunque el valor de la DMS vaya disminuyendo con r, esta dis-
minución será más lenta que la que se produce con el método de S-N-K. De hecho, la solución pro-
puesta por Ryan permite ejercer un buen control sobre la tasa de error.
La propuesta inicial de Ryan ha sufrido dos modificaciones en un intento de incrementar la po-
tencia del procedimiento sin alterar su control sobre αF. En primer lugar, Einot y Gabriel (1975) han
propuesto utilizar αr = 1 ! (1 ! α)r/J; con esta solución, αr también disminuye conforme lo hace r, pero
más despacio que en la solución propuesta por Ryan. En segundo lugar, Welsch (1977) ha argumen-
tado que es posible incrementar todavía más la potencia del procedimiento sin perder control sobre αF
si, permaneciendo todo igual, las medias separadas r = J ! 1 pasos se comparan utilizando α (en lugar
de αr ). Estas dos modificaciones de la propuesta inicial de Ryan unidas a la lógica del procedimien-
to de S-N-K es lo que se conoce como método de R-E-G-W Q. La letra Q hace referencia a la distri-
bución del rango studentizado.
Efectos aleatorios
Recordemos que los niveles concretos que adopta un factor de efectos fijos son los niveles que intere-
sa estudiar; por este motivo la hipótesis nula se plantea justamente sobre las medias poblacionales
correspondientes a esos niveles: H0: µ 1 = µ 2 = · · · = µ J . Por el contrario, los niveles concretos que adop-
ta un factor de efectos aleatorios únicamente constituyen una muestra aleatoria de la población de los
niveles que interesa estudiar; por este motivo la hipótesis nula no se plantea sobre las medias de los
niveles utilizados, sino sobre su varianza:
H0: = 0
( se refiere a la varianza de las medias de todos los posibles niveles del factor). Puesto que los ni-
veles de un factor de efectos aleatorios son solamente algunos de los posibles, la hipótesis debe refle-
jar, no la diferencia entre las medias de los niveles concretos utilizados, sino la diferencia entre todos
los posibles niveles del factor (y la varianza de esas medias será cero cuando todas ellas sean iguales).
Por tanto, en un modelo de efectos aleatorios, el interés del análisis no se centra en las medias de los
niveles del factor, sino en su varianza; en concreto, el interés se centra en intentar cuantificar la con-
tribución de cada término aleatorio a la varianza de la variable dependiente.
En el modelo de un factor de efectos aleatorios hay dos términos aleatorios: el factor y la varia-
ble dependiente (en el modelo de efectos fijos, el factor no se considera una variable aleatoria); y se
asume que la variabilidad de la variable dependiente dentro de cada nivel del factor es independiente
del nivel del factor (éste es el supuesto de igualdad de varianzas al que nos hemos referido repeti-
damente a lo largo de este capítulo); por tanto, se verifica:
= + [6.58]
Es decir, la varianza total (la varianza del conjunto de puntuaciones Y tomadas como si pertenecieran
a un único grupo) es la suma de dos términos o componentes independientes: la varianza del factor
( ; la varianza entre las medias de los niveles del factor) y la varianza de Y ( ; la varianza de la
variable dependiente en cada población; se asume que todas las poblaciones tienen la misma varian-
za). De ahí el nombre de componentes de la varianza que recibe esta versión del análisis de varianza
(para profundizar en los modelos de efectos aleatorios, puede consultarse Rao y Kleffe, 1988; o Sear-
le, Casella y McCulloch, 1992).
El procedimiento ANOVA de un factor permite contrastar la hipótesis nula = 0 y estimar tanto
como . Veamos cómo hacer esto con un ejemplo. El ejemplo se basa en los mismos datos que hemos
analizado con el modelo de efectos fijos (Tabla 6.2; ejemplo sobre la relación entre la ansiedad y el ren-
dimiento). Obviamente, un mismo factor (nivel de ansiedad: bajo, medio, alto) no puede ser de efectos
fijos y al mismo tiempo de efectos aleatorios. Sin embargo, vamos a utilizar los mismos datos para que
se entienda dónde están las diferencias entre el modelo de efectos fijos y el de efectos aleatorios:
' Reproducir en el Editor de datos los datos de la Tabla 6.2 (o abrir el archivo Tabla 6.2 ansiedad
rendimiento que se encuentra en la página web del manual).
' Seleccionar la opción Comparar medias > ANOVA de un factor del menú Analizar para acceder al cua-
dro de diálogo ANOVA de un factor y trasladar la variable rendimiento a la lista Dependiente y la
variable ansiedad al cuadro Factor.
' Pulsar el botón Opciones para acceder al subcuadro de diálogo ANOVA de un factor: Opciones y
marcar la opción Efectos aleatorios y fijos. Pulsar el botón Continuar para volver al cuadro de diálo-
go principal.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 6.14 y 6.15. La Ta-
bla 6.14 muestra el resumen del ANOVA y es idéntica a la que ya hemos obtenido cuando hemos
asumido que el factor ansiedad era de efectos fijos (ver Tabla 6.6). Por tanto, en el modelo de un factor,
ni las medias cuadráticas ni el estadístico F cambian porque el factor sea de efectos fijos o de efectos
aleatorios. La única diferencia en este punto está en que, ahora, la hipótesis nula que se está contras-
tando se refiere a la varianza de las medias del factor. Cuando el factor es de efectos fijos, el rechazo
de la hipótesis de igualdad de medias permite concluir que los promedios comparados no son iguales;
y como los niveles del factor son justamente los que interesa estudiar, tiene sentido realizar compa-
raciones múltiples para indagar entre qué medias en concreto se dan las diferencias. Cuando el factor
es de efectos aleatorios, el rechazo de la hipótesis nula permite concluir que el nivel de ansiedad está
relacionado con el rendimiento; y como los niveles concretos del factor solamente son una muestra
aleatoria de los posibles niveles, no tiene sentido realizar comparaciones múltiples entre ellos.
Tabla 6.14. Resumen del ANOVA de un factor

Rendimiento
Inter-grupos 260,00 2 130,00 9,92 ,001
Intra-grupos 354,00 27 13,11
Total 614,00 29
La novedad del análisis en relación con el hecho de estar utilizando un factor de efectos aleatorios se
encuentra en la Tabla 6.15. La última columna de la tabla (componentes de la varianza) ofrece una
estimación de la varianza del factor ( = 11,69). De acuerdo con la relación establecida en [6.58], es-
ta estimación de la varianza del factor puede utilizarse para conocer cómo de grande es la variabilidad
debida al factor en comparación con la variabilidad total:
CCI = [6.59]
Puesto que el CCI (coeficiente de correlación intraclase) está calculado como el tamaño relativo de la
varianza de las medias del factor respecto de la varianza total, lo que realmente está expresando es la
proporción de varianza común o compartida entre el factor y la variable dependiente.
Tabla 6.15. Componentes de la varianza

Rendimiento
Intervalo de confianza para la
Desviación Error media al 95% Componentes
típica típico Lím. inferior Lím. superior de la varianza
Modelo Efectos fijos 3,62 ,66 8,64 11,36
Efectos aleatorios 2,08 1,04 18,96 11,69
Para obtener CCI mediante [6.59], además de , necesitamos , es decir, una estimación de la va-
rianza de Y en cada población; pero la tenemos. Recordemos que, puesto que estamos asumiendo que
las varianzas poblacionales son iguales, la mejor estimación de esa única varianza poblacional se ob-
tiene promediando las J varianzas muestrales, es decir, calculando MCE. Y este cálculo lo incluye la
Tabla 6.14 (MCE = 13,11). Por tanto,
CCI = = 11,69 / (11,69 + 13,11) = 0,47
Este resultado indica que el factor ansiedad comparte el 47 % de la varianza del rendimiento. Lo cual
significa que nuestro conocimiento del rendimiento de los sujetos mejora un 47 % cuando conocemos
su nivel de ansiedad. Vemos que el CCI se interpreta exactamente igual que las medidas de asociación
estudiadas en el apartado Medidas del tamaño del efecto. En realidad, cuando el factor es de efectos
aleatorios, el CCI coincide con la medida de asociación omega-cuadrado (ver ecuación [6.17]):
CCI = = = = 0,47
6.1. En muchos trabajos sobre aprendizaje parece haber quedado demostrado que el rendimiento de los suje-
tos es tanto mejor cuanto mayor es la recompensa (refuerzo) que reciben. En uno de estos trabajos se
formaron aleatoriamente 3 grupos de ratas sedientas. Las seis ratas de cada grupo fueron reforzadas con
diferentes cantidades de agua (5, 10 y 15 cc) por recorrer el laberinto. La siguiente tabla muestra el
número de ensayos que ha necesitado cada rata para aprender a recorrer el laberinto bajo cada condición
experimental:
5 cc 9 8 7 8 7 9
10 cc 6 6 3 4 5 6
15 cc 4 2 3 4 3 2
Utilizando α = 0,05,
a. ¿Puede afirmarse que la cantidad de recompensa afecta a la velocidad de aprendizaje de las ratas?
b. Obtener una estimación del tamaño del efecto. Interpretar el resultado.

d. Realizar las comparaciones pertinentes para determinar entre qué grupos existen diferencias sig-
nificativas.
e. ¿Puede afirmarse que la relación entre la cantidad de recompensa y la velocidad de aprendizaje es
de tipo lineal?
6.2. La siguiente tabla muestra las puntuaciones de una muestra de 32 pacientes depresivos en la escala de
depresión de Hamilton tras recibir tratamiento durante 12 semanas. Todos los pacientes seleccionados
tenían puntuaciones iniciales mayores de 30 puntos. Se han formado aleatoriamente 4 grupos del mis-
mo tamaño (8 pacientes por grupo) y a cada grupo se le ha asignado, también aleatoriamente, un trata-
miento distinto. Al primer grupo se le ha administrado un tratamiento farmacológico convencional a
base fluoxetina (a1 = «control»); al segundo, una combinación de fluoxetina con reboxetina (a2 = «com-
puesto»); al tercero, fluoxetina y psicoterapia (a3 = «mixto»); el cuarto grupo solamente ha recibido
psicoterapia (a4 = «psicoterapia»).
_
Tratamientos Puntuaciones escala Hamilton Yj S j2
a1 = control 24 26 21 15 19 31 33 29 24,75 38,50

a2 = compuesto 26 19 23 25 15 26 16 10 20,00 35,43
a3 = mixto 15 22 7 10 4 19 7 8 11,50 41,43
a4 = psicoterapia 15 23 21 17 25 31 14 28 21,75 37,93
Promedios 19,50 38,32
a. Contrastar la hipótesis nula de que el nivel medio de depresión es el mismo en los cuatro grupos.
b. Estimar el tamaño del efecto. Interpretar el resultado.
d. ¿Qué grupo difiere del control?
e. Comparar las medias de los dos grupos que han recibido psicoterapia con las de los dos que no la
han recibido.
6.3. En el contexto de la valoración que se hace anualmente de la calidad percibida del servicio de cafete-
rías del campus de una determinada universidad, se desea estudiar la evolución que han experimen-
tado esas valoraciones entre los años 2002 y 2005. La hipótesis de los investigadores es que las valora-
ciones han ido mejorando con los años. La siguiente tabal recoge las valoraciones medias registradas
cada año:
2002 2003 2004 2005

5,2 5,5 6,0 6,2
Sabiendo que cada año se ha entrevistado a 100 usuarios, que la media cuadrática error (MCE ) vale
2,58, y utilizando un nivel de confianza de 0,95, ¿qué puede concluirse sobre la hipótesis de los inves-
tigadores?
6.4. Para estudiar el efecto de la desnutrición proteica sobre el aprendizaje de las ratas se seleccionaron tres
tipos de dieta: A, B y C (cada una con diferente contenido proteico), y_se aplicaron_ a 30 ratas
_ (10 por
tratamiento). Las medias obtenidas por grupo fueron las siguientes: A = 3,8; B = 5,2; C = 6,3. Sa-
biendo que la media cuadrática error vale 2,22, averiguar si la cantidad de contenido proteico en la
dieta influye sobre el aprendizaje de las ratas (α = 0,05).
6.5. Se sospecha que el nivel de bienestar psicológico está relacionado con la proximidad del periodo vaca-
cional estival. Para estudiar esta relación se toma una muestra de 30 personas a las que se les pide que
valoren, en una escala de 0 a 10, su bienestar psicológico en tres meses del año: febrero, abril y junio.
a. Identificar qué variables están involucradas y si son cuantitativas o categóricas.
b. ¿Qué prueba estadística podría utilizarse para estudiar si el bienestar psicológico está relacionado
con la proximidad del periodo vacacional estival?
c. ¿Qué prueba estadística podría utilizarse para estudiar si el bienestar psicológico aumenta confor-
me se va aproximando el periodo vacacional estival?
d. ¿Qué prueba estadística permitiría averiguar en qué mes(es) de los estudiados es mayor el nivel
de bienestar psicológico?
6.6. (Señalar la alternativa correcta.) En un ANOVA de un factor A-CA ...

a. MCI es un estimador sesgado de la varianza poblacional solamente si H0 es verdadera.
b. MCE es un estimador sesgado de la varianza poblacional solamente si H0 es verdadera.
c. MCE es un estimador insesgado de la varianza poblacional solamente si H0 es falsa.
d. MCI es un estimador sesgado de la varianza poblacional solamente si H0 es falsa.
e. MCI es un estimador insesgado de la varianza poblacional solamente si H0 es falsa.
6.7. De un ANOVA A-CA con la variable dependiente Y tenemos la siguiente información: MCI = 32,3 y
MCE = 2,70. Si hacemos W = 2Y + 3 y llevamos a cabo un ANOVA con la variable dependiente W,
a. ¿Cuánto valdrá la media cuadrática intergrupos MCI ?
b. ¿Cuánto valdrá la media cuadrática error MCE ?
c. ¿Cuánto valdrá el estadístico F ?
6.8. (Señalar la alternativa correcta.) En un ANOVA A-CA...

a. La población de niveles del factor es infinita.
b. El supuesto de homocedasticidad no es importante si las muestras más pequeñas proceden de pobla-
ciones normales.
c. El supuesto de independencia no afecta al error Tipo I si las poblaciones son homocedásticas.
d. El estadístico F es poco sensible al incumplimiento del supuesto de normalidad cuando se trabaja
con muestras grandes.
e. La hipótesis alternativa afirma que todas las medias son distintas.
6.9. (Señalar la alternativa correcta.) En un ANOVA A-CA, la MCE (media cuadrática error)...
a. Siempre es mayor que cero.
b. Es, a veces, negativa.
c. Siempre es igual o mayor que cero.
d. Es negativa cuando la variabilidad total es menor que la variabilidad entre los niveles del factor.
e. No puede valer cero.
6.10. (Señalar la/s alternativa/s correcta/s.) En un ANOVA de un factor completamente aleatorizado, el

estadístico F toma el valor 1,63. Sabiendo que P ( F > 1,63) = 0,108 y utilizando un nivel de signifi-
cación α = 0,01, ¿qué decisión debe tomarse sobre H0?
a. Rechazarla porque F cae en la zona crítica.
b. Rechazarla porque 0,108 > 0,01.
c. Rechazarla porque 1,63 > 0,99.
d. Mantenerla porque 1,63 > 0,01.
e. Mantenerla porque 0,108 > 0,01.
f. Mantenerla porque 0,108 > 0,95.
6.11. Un psicólogo afirma que al aumentar el nivel de adrenalina en sangre también aumenta el número de
errores que se cometen en una determinada tarea de atención. Un colega suyo piensa que la relación
entre la adrenalina y el número de errores tiene forma de U invertida. Para aclarar la situación, toman
una muestra aleatoria de 60 sujetos y la dividen en tres grupos a los que ponen a realizar la tarea tras
inducirles distintos niveles de adrenalina: bajo, medio y alto. Miden los errores cometidos por cada
sujeto y se disponen a analizar los datos obtenidos.
a. Plantea con palabras y estadísticamente las hipótesis nulas que deben formularse para poder con-
trastar las sospechas de ambos psicólogos.
b. Al contrastar la hipótesis del primer psicólogo se obtiene un nivel crítico p = 0,261. Utilizando un
nivel de confianza de 0,95, ¿qué decisión debe tomarse?
c. Al contrastar la hipótesis del segundo psicólogo se obtiene un nivel crítico p = 0,002. Utilizando
un nivel de confianza de 0,95, ¿qué decisión debe tomarse?
d. Con estos resultados, ¿cuál es la conclusión razonable?
( ) Tiene razón el primer psicólogo.
( ) Tiene razón el segundo psicólogo.
( ) No tiene razón ninguno de los dos.
( ) Con los datos disponibles no podemos saber cuál de los dos tiene razón.
6.12. (Señalar la alternativa correcta.) En un ANOVA de un factor con J grupos independientes, siendo ver-
dadera la hipótesis H0: µ 1 = µ 2 = · · · = µ J , y siendo α el nivel de significación, la probabilidad de que
k hipótesis nulas referidas a comparaciones independientes entre pares de medias sean...
a. Rechazadas, vale α.
b. Mantenidas, vale ( k ! 1) α .
c. Rechazadas, vale (1 ! α) k !1.
d. Mantenidas, vale (1 ! α).
e. Rechazadas, vale 1 ! (1 ! α) k.
6.13. En un diseño con J = 4 grupos se quiere comparar la media del grupo 4 con las medias de los grupos
1, 2 y 3 tomados juntos. ¿Qué hipótesis nula debe plantearse?
a. H0 : L = (1) µ 1 + (1) µ 2 + (1) µ 3 + (!1) µ 4 = 0.
b. H0 : L = (!1) µ 1 + (!1) µ 2 + (1) µ 3 + (1) µ 4 = 0.
c. H0 : L = (1) µ 1 + (!1) µ 2 + (!1) µ 3 + (1) µ 4 = 0.
d. H0 : L = (1) µ 1 + (1) µ 2 + (1) µ 3 + (!3) µ 4 = 0.
e. Ninguna de las anteriores hipótesis es correcta.
6.14. Al analizar los datos de un diseño con tres grupos se plantean las siguientes hipótesis:
! H0(1) : L1 = µ 1 + µ 2 ! 2 µ 3 = 0.
! H0(2) : L2 = µ 1 ! µ 3 = 0.
¿Son independientes L1 y L2? ¿Por qué?
6.15. Queremos utilizar la prueba de Scheffé para contrastar la hipótesis de que los promedios de dos trata-
mientos tomados juntos (a1 y a2) no difieren del promedio de otros cuatro combinados (a3, a4, a5 y a6).
Elegir el conjunto de coeficientes que permiten definir la comparación:
a1 a2 a3 a4 a5 a6
a. !1 !1 1 1 1 1
b. 1 1 !1 !1 !1 !1
c. 2 2 !2 !2 !2 !2
d. 4 4 !2 !2 !2 !2
e. 2 2 !1 !1 !1 !1
6.16. A continuación se ofrece, incompleta, la tabla resumen de un ANOVA A-CA. Además de la informa-
ción que contiene la tabla, sabemos que J = 3.
Fuente de variación gl MC F p
Intergrupos ( ) 30 6 0,010
Término lineal ( ) ( ) ( ) 0,005
Término cuadrático ( ) 10 ( ) 0,100
Término cúbico ( ) ( ) ( )
Intragrupos o error ( ) ( )
Total 17
a. Completar la tabla.
b. ¿Puede concluirse que la VI y la VD están relacionadas? ¿Por qué? (α = 0,05).
c. La relación entre la VI y la VD es: ¿lineal?, ¿cuadrática?, ¿cúbica?, ¿ninguna de ellas? ¿Por qué?
d. ¿Cuántos sujetos han participado en el estudio?
e. ¿Qué porcentaje de la varianza de la atención explica la dosis de fármaco?
6.17. Como parte de un estudio sobre inseguridad ciudadana, un ayuntamiento ha recogido datos del núme-
ro de denuncias registradas en comisaría en cuatro días diferentes (martes, jueves, sábado y domingo)
durante cinco semanas. El objetivo del estudio es contrastar dos hipótesis con α = 0,05: (1) si el pro-
medio de denuncias registradas en sábado es mayor que el promedio de denuncias registradas en el
resto de los días de la semana tomados juntos y (2) si el número de denuncias registradas aumenta a lo
largo de la semana.
a. ¿Qué hipótesis nula debe plantearse para contrastar la hipótesis 1? ¿Con qué prueba estadística
puede contrastarse esa hipótesis? ¿Cuál será la conclusión si p = 0,001?
b. ¿Qué hipótesis nula debe plantearse para contrastar la hipótesis 2? ¿Con qué prueba estadística
puede contrastarse esa hipótesis? ¿Cuál será la conclusión si p = 0,001?
6.18. En un diseño con tres grupos, ¿cuál de las siguientes hipótesis nulas hay que contrastar para averiguar
si la relación entre la VI y la VD es lineal?
a. H0: (!1) µ 1 + µ 2 + (1) µ 3 = 0.
b. H0: (!2) µ 1 + (1) µ 2 + (1) µ 3 = 0.
c. H0: µ 1 + (!1) µ 2 + (1) µ 3 = 0.
d. H0: !µ 1 + µ 3 = 0.
e. H0: (!1) µ 1 + (!1) µ 2 + (2) µ 3 = 0.
7
Análisis de varianza (II)
Dos factores
completamente aleatorizados
En todos los procedimientos estadísticos revisados hasta ahora nos hemos limitado a estudiar
una o dos variables. En este capítulo vamos a abordar por primera vez el estudio de más de
dos variables.
Los modelos factoriales de análisis de varianza (factorial = más de un factor) permiten
evaluar el efecto individual y conjunto de dos o más factores (variables independientes ca-
tegóricas) sobre una variable dependiente cuantitativa. En este capítulo nos vamos a centrar
en el modelo de dos factores completamente aleatorizados. Este modelo permite analizar el
efecto de dos variables independientes categóricas (factores) sobre una variable dependien-
te cuantitativa.
Un ANOVA de dos factores permite estudiar, por ejemplo, si el rendimiento en una tarea
(variable dependiente cuantitativa) cambia con el nivel de ansiedad de los sujetos (bajo, medio,
alto; variable independiente categórica) y con la dificultad de la tarea (fácil, difícil; variable
independiente categórica). Pero, además, y esto es lo realmente interesante, también permite
estudiar si las diferencias entre sujetos con diferente nivel de ansiedad se mantienen o no
cuando cambia la dificultad de la tarea; es decir, permite estudiar si la interacción entre los
factores nivel de ansiedad y dificultad de la tarea afecta a la variable dependiente rendimiento
de forma diferente a como lo hace cada factor por separado.
Una ventaja de los diseños de dos factores sobre los diseños de un factor es que necesitan
menos sujetos para alcanzar la misma potencia. Supongamos que tenemos dos variables in-
dependientes o factores (A y B), el primero con tres niveles y el segundo con dos. Para com-
parar los niveles de A utilizando un diseño de un factor podemos asignar una muestra aleato-
ria de 20 sujetos a cada nivel; 60 sujetos en total. Para comparar los niveles de B podemos
asignar una muestra aleatoria de 30 sujetos a cada nivel; otros 60 sujetos en total. Entre los
dos experimentos, 120 sujetos. En un diseño factorial las cosas cambian. Al combinar los
niveles de A y B es posible reducir el número de sujetos a la mitad: con 10 sujetos por cada
combinación AB tendremos un total de 60 sujetos y tanto los niveles de A como los de B po-
drán evaluarse con el mismo número de sujetos que en los correspondientes diseños de un
factor por separado.
Esta ventaja tiene su importancia, sobre todo si se tiene en cuenta que en muchas áreas
de conocimiento no resulta nada fácil conseguir muestras grandes. Pero la ventaja verdade-
ramente importante de los diseños factoriales radica en el hecho de que el estudio simultáneo
de más de un factor permite determinar, no ya solo el efecto individual de cada factor sobre
la variable dependiente, sino, además, si la interacción entre los factores modifica el efecto
individual que cada factor tiene por separado.
Enseguida nos ocuparemos del importantísimo concepto de la interacción entre factores.
Antes necesitamos conocer la estructura de un diseño de dos factores y la notación que uti-
lizaremos para identificar cada elemento del diseño.
Estructura de los datos y notación

En un diseño de dos factores completamente aleatorizados (AB-CA) tenemos dos variables
categóricas independientes o factores (A y B) y una variable dependiente cuantitativa (Y ). A
los niveles del factor A los seguimos llamando a j ( j = 1, 2, ..., J ). A los niveles del factor B
los llamamos bk (k = 1, 2, ..., K ). Y a las combinaciones entre los niveles de A y de B las lla-
mamos abj k. La Tabla 7.1 muestra la estructura del diseño.
Tabla 7.1. Estructura de un diseño de dos factores AB-CA
Factor B
Factor A b1 b2 ··· bk ··· bK
a1 ab11 ab12 ··· ab1k ··· ab1K
a2 ab21 ab22 ··· ab2k ··· ab2K
··· ··· ··· ··· ··· ··· ···
aj abj 1 abj 2 ··· abj k ··· abj K
··· ··· ··· ··· ··· ··· ···
aJ abJ1 abJ 2 ··· abJ k ··· abJ K
Los niveles del factor A definen J poblaciones con medias1 µ 1+, µ 2+, ..., µ J +. Los niveles del
factor B definen K poblaciones con medias µ +1, µ +2, ..., µ +K. La combinación AB entre los
niveles de ambos factores definen JK poblaciones con medias µ 11, µ 12, ..., µ 21, µ 22, ..., µ +K.
A la media total la llamaremos µ. De cada combinación abj k (es decir, de cada población)
tenemos una muestra aleatoria de puntuaciones Yijk de tamaño n (i = 1, 2, ..., n).
El número de puntuaciones (sujetos) de cada casilla abj k, es decir, el tamaño de las ca-
sillas, puede o no ser el mismo, pero, de momento, nos centraremos en el caso en el que to-
1
Al igual que en el capítulo anterior, suprimiremos el subíndice Y de las medias poblacionales µ para simplificar la nota-
ción. Por tanto, siempre que utilicemos el símbolo µ (media poblacional) sin indicación de la variable a la que se refiere
(X, Y, Z, etc.), estaremos asumiendo que se refiere a la variable dependiente Y.
Capítulo 7. ANOVA de dos factores 249
das las casillas tienen el mismo tamaño, es decir, n. Por tanto, N = n JK. Con las n puntua-
ciones de cada casilla abj k obtenemos los totales (sumas) que muestra la Tabla 7.2.
Tabla 7.2. Notación utilizada en un diseño de dos factores AB-CA
Factor B
Factor A b1 b2 ··· bk ··· bK Suma
a1 ··· ···
a2 ··· ···
··· ··· ··· ··· ··· ··· ··· ···
aj ··· ···
··· ··· ··· ··· ··· ··· ··· ···
aJ ··· ···
Suma ··· ···
En el modelo de dos factores es necesario utilizar tres subíndices (ijk) para identificar cada
valor de Y: el primero de ellos (i) se refiere a los diferentes elementos (generalmente sujetos)
de la misma muestra o casilla: i = 1, 2, ..., n; el segundo ( j), a los diferentes niveles del fac-
tor A; y el tercero (k), a los diferentes niveles del factor B. Así, por ejemplo, Y523 se refiere
a la puntuación del 5º elemento (sujeto) en la casilla correspondiente a la combinación del
2º nivel de A con el 3er nivel de B; es decir, a la 5ª puntuación de la casilla ab23.
El signo “+” colocado como subíndice se refiere a todos los valores del subíndice al que
sustituye. Por ejemplo, Y+24 se refiere a todas las puntuaciones (todos los valores i) de la ca-
silla correspondiente al cruce del 2º nivel de A ( j = 2) con el 4º nivel de B ( k = 4). Para re-
presentar estas sumas o totales utilizaremos la letra T.
Los totales de cada casilla ( ) se obtienen sumando desde 1 hasta n todas las puntua-
ciones de esa casilla:
= = [7.1]
Los totales correspondientes a cada nivel del factor A ( ) se obtienen sumando todas las
puntuaciones de la fila j:
= = = [7.2]
Los totales correspondientes a cada nivel del factor B ( ) se obtienen sumando todas las
puntuaciones de la columna k:
= = = [7.3]
Y el gran total (T ) se obtiene sumando todas las puntuaciones de la tabla, lo cual puede ha-
cerse de diferentes maneras:
= = = = = [7.4]
A partir de estos totales pueden obtenerse las medias de cada casilla, de cada fila, de cada
columna y el total de la tabla simplemente dividiendo los correspondientes totales por el
número de puntuaciones utilizadas para obtenerlos:
= , = , = , = [7.5]
Para referirnos a un diseño de estas características utilizaremos el símbolo J × K. El número

de letras indica el número de factores; el valor de las letras indica los niveles de los factores.
Así, un diseño 3 × 5 es un diseño de dos factores, el primero con tres niveles y el segundo con
cinco.
La interacción entre factores

Los efectos que interesa analizar en un modelo de dos factores completamente aleatorizados
son tres: los dos efectos principales (los efectos de cada factor individualmente considerado)
y el efecto de la interacción entre ambos factores (el efecto conjunto o combinado de ambos
factores). Veremos que los efectos principales se definen y analizan tal como se ha explica-
do en el capítulo anterior al estudiar el modelo de un factor. El efecto de la interacción re-
quiere una atención especial.
El concepto de interacción entre factores admite varias formulaciones, todas ellas equiva-
lentes. Desde un punto de vista no formal, decimos que existe interacción entre dos factores
cuando el efecto de uno de ellos sobre la variable dependiente no es el mismo en todos los
niveles del otro factor2. Esto equivale a afirmar que existe interacción cuando el resultado de
la combinación de dos factores difiere de la suma de los efectos principales de esos factores3.
Para poder presentar una definición formal de la interacción, consideremos la notación
propuesta en la Tabla 7.3 para un diseño 2 × 3: el factor A con dos niveles ( j = 1, 2) y el fac-
tor B con tres niveles (k = 1, 2, 3).
Tabla 7.3. Medias poblacionales en un diseño 2 × 3
b1 b2 b3
a1 µ 11 µ 12 µ 13 µ 1+
a2 µ 21 µ 22 µ 23 µ 2+
µ +1 µ +2 µ +3 µ
2
Ver, por ejemplo, Everitt y Howell (2005, págs. 930-931); Kirk (1995, pág. 367); o Maxwell y Delaney (2004, pág. 278).
3
Ver, por ejemplo, Everitt y Howell (2005, pág. 931); Maxwell y Delaney (2004, págs. 279-280); o Winer, Brown y Mi-
chels (1991, pág. 296).
En el modelo de dos factores de efectos fijos, el efecto de la interacción, αβ jk , se define co-

mo (ver, por ejemplo, Winer, Brown y Michels, 1991, pág. 318):
αβ jk = µ j k ! µ j + ! µ +k + µ [7.6]
Existe interacción cuando αβ j k =/ 0 para algún j o k; y no existe interacción cuando αβ j k = 0

para todo j y k. Pero hay al menos dos formas alternativas de interpretar la definición [7.6]
(ver Jaccard, 1998, págs. 3-10):
1. Como la desviación que experimentan las medias de las casillas respecto de los efectos
principales de los factores:
! No interacción: µ j k = µ j + + µ +k ! µ (para todo j y k) [7.7]
! Interacción: µ j k =/ µ j + + µ +k ! µ (para algún j o k)
De acuerdo con esta definición, existe interacción cuando la media de una o más casillas
no es función directa de sus respectivas medias marginales. Esto significa que, cuando
existe interacción, el efecto de la combinación de los factores A y B difiere de la suma
de los efectos individuales de A y B.
2. Como diferencias entre las medias de las casillas y las medias marginales:
! No interacción: µ j k ! µ j k = µ j + ! µ j + (para todo j, j N o k) [7.8]
! Interacción: µ j k ! µ j k =/ µ j + ! µ j + (para algún j, j N o k)
De acuerdo con esta definición, existe interacción cuando la diferencia entre las medias
de dos casillas de la misma columna (o de la misma fila) no es igual que la diferencia
entre sus correspondientes medias marginales4.
Unas sencillas transformaciones permiten comprobar que la definición [7.8] implica que, si
existe interacción, la diferencia entre las medias de los niveles a1 y a2 no es la misma en los
tres niveles de B; y lo mismo vale decir de las diferencias entre las medias de los niveles b1,
b2 y b3 en los dos niveles de A.
Aclaremos esto con un ejemplo concreto. Imaginemos que las medias poblacionales que
corresponden al diseño 2 × 3 de la Tabla 7.3 son las que ofrece la Tabla 7.4.1 (diseño sin
interacción). La media de a1 supera a la de a2 en 2 puntos tanto en b1 como en b2 y en b3; es
decir, cualquiera que sea el nivel de B que se considere, la diferencia entre las medias de a1
4
Las expresiones [7.7] y [7.8] se deducen, ambas, de [7.6]; por tanto, son equivalentes. En efecto, según [7.7], cuando no
existe interacción se verifica µ11 = µ1++ µ+1 ! µ y µ21 = µ2++ µ+1 ! µ. De estas igualdades se sigue que
µ 11 ! µ 1+ ! µ +1 = !µ y µ 21 ! µ 2+ ! µ +1 = !µ
Por tanto,
µ 11 ! µ 1+ ! µ +1 = µ 21 ! µ 2+ ! µ +1
Lo cual lleva a µ 11 ! µ 21 = µ 1+ ! µ 2+, que no es otra cosa que la expresión [7.8]. De este argumento se desprende que es
irrelevante tomar [7.7] o [7.8] como referente para definir el efecto de la interacción. Sin embargo, las interpretaciones basa-
das en [7.8] suelen resultar más fáciles de entender. La formulación basada en [7.7] ha recibido especial atención por parte
de Rosnow y Rosenthal (1989a, 1989b, 1991, 1995, 1996), quienes han llevado el argumento al extremo insistiendo en que
para poder interpretar correctamente el efecto de la interacción hay que despojarlo de todos los elementos extraños que inclu-
ye. Es así como se llega a las medias residualizadas o residuos de interacción que, siempre según Rosnow y Rosenthal, son
los únicos que informan cabalmente sobre el efecto de la interacción. Pero no parece que este enfoque haya merecido la
aceptación de todos (ver Meyer, 1991; Petty, Fabrigar, Wegener y Priester, 1996); y tampoco parece que los investigadores
estén dispuestos a incorporar a sus hábitos el plus de comprensión que exige.
y a2 siempre es la misma: 2 puntos. Y esta diferencia es justamente la que se da entre los

niveles de A cuando no se tiene en cuenta B, es decir, la que se da entre las medias margina-
les de a1 y a2. Cuando las medias de un diseño factorial se ajustan a esta pauta, decimos que
no existe interacción, queriendo significar con ello que el efecto conjunto de los dos facto-
res sobre la variable dependiente no difiere del efecto individual de cada factor por separado.
Imaginemos ahora que las medias del diseño 2 × 3 de la Tabla 7.3 son las que recoge la
Tabla 7.4.2 (diseño con interacción). La diferencia entre las medias de a1 y a2 ya no es la
misma en todos los niveles de B. En b1 y b3, la diferencia es de 2 puntos a favor de a1; en b2,
la diferencia es de 4 puntos a favor de a2. Y estas diferencias no se corresponden con la di-
ferencia existente entre las medias marginales de a1 y a2, las cuales son iguales. Cuando se
da esta discrepancia entre las medias de las casillas y sus correspondientes medias marginales
decimos que existe interacción entre los factores, queriendo significar con ello que el efecto
conjunto de los dos factores sobre la variable dependiente difiere de la suma de los efectos
individuales de los factores.

1. Diseño sin interacción 2. Diseño con interacción
b1 b2 b3 b1 b2 b3
a1 6 5 7 6 a1 6 4 5 5
a2 4 3 5 4 a2 4 8 3 5
5 4 6 5 5 6 4 5
La herramienta más útil para entender el concepto de interacción entre factores es, proba-
blemente, un gráfico de líneas basado en las medias de las casillas. En la Figura 7.1 (iz-
quierda) están representadas las medias de la Tabla 7.4.1. El gráfico muestra con claridad
que, cualquiera que sea el nivel de B que se considere, el comportamiento del factor A siem-
pre es el mismo: la media de a1 siempre supera en 2 puntos a la media de a2. La ausencia de
interacción queda reflejada en el hecho de que las líneas que unen las medias son paralelas
entre cada dos niveles del eje horizontal (las líneas definen perfiles idénticos).
Figura 7.1. Gráficos de líneas con las medias de las Tablas 7.4.1 (izquierda) y 7.4.2 (derecha)
En el gráfico de la Figura 7.1 (derecha) están representadas las medias de las casillas de la
Tabla 7.4.2. Ahora, las medias de a1 superan a las de a2 tanto en b1 como en b3, pero no en
b2, donde la media de a2 es mayor que la de a1. Es decir, la diferencia entre las medias de a1
y a2 cambia cuando cambian los niveles de B. La presencia de interacción queda reflejada en
el hecho de que las líneas que unen las medias no son paralelas (definen perfiles distintos).
El significado de la interacción puede entenderse mejor, quizá, poniendo contenido con-
creto a los factores. Supongamos que el factor A es tipo de tratamiento (a1 = «tratamiento
convencional», a2 = «nuevo tratamiento») y que el factor B se refiere a tres variantes de una
misma enfermedad (b1 = «tipo 1», b2 = «tipo 2», b3 = «tipo 3»). Supongamos además que al
medir el efecto de los tratamientos hemos encontrado los resultados (medias) que recogen
las Tablas 7.4.1 y 7.4.2 (estas medias son las que están representadas en la Figura 7.1). Su-
pongamos, por último, que las medias más altas indican que el tratamiento funciona mejor.
En el caso de la Tabla 7.4.1 (diseño sin interacción), la media que se obtiene con el tra-
tamiento convencional (6) es más alta que la que se obtiene con el nuevo tratamiento (4); y
esta pauta se repite con todas las variantes de la enfermedad. Por tanto, el tratamiento con-
vencional (a1) es mejor que el nuevo tratamiento (a2) independientemente de la variante de
la enfermedad tratada.
En el caso de la Tabla 7.4.2 (diseño con interacción), el efecto global de los dos trata-
mientos es el mismo (ambas medias marginales valen 5), pero este resultado es engañoso
precisamente por la presencia de interacción. El efecto de los tratamientos está condiciona-
do por la variante de la enfermedad tratada: con las variantes 1 y 3, el tratamiento
convencional (a1) consigue mejores resultados que el nuevo tratamiento (a2); con la varian-
te 2, es el nuevo tratamiento el que consigue mejores resultados. Por tanto, el efecto de los
tratamientos cambia cuando cambia la variante de la enfermedad tratada.
ANOVA de dos factores completamente aleatorizados (AB-CA)

Ya hemos señalado que, en un modelo de dos factores, los efectos que interesa analizar son
tres: (1) el efecto individual del factor A o efecto principal de A, (2) el efecto individual del
factor B o efecto principal de B y (3) el efecto conjunto de los factores A y B o efecto de la
interacción AB.
El factor A define J poblaciones. El factor B define K poblaciones. La combinación de
los niveles de ambos factores define JK poblaciones. Supongamos que la variable cuantitati-
va Y se distribuye normalmente en esas JK poblaciones y que la varianza de Y es la misma
en todas ellas:
= = ··· = = ··· = = [7.10]
Supongamos, además, que, de cada una de esas JK poblaciones, extraemos una muestra
aleatoria de tamaño n. En este escenario es posible identificar varios tipos de variabilidad.
Comencemos con las dos que ya nos resultan familiares: (1) la variabilidad que existe den-
tro de cada muestra o variabilidad intragrupos y (2) la variabilidad que existe entre las di-
ferentes muestras o variabilidad intergrupos.
Estas dos formas de variabilidad pueden cuantificarse tal como hemos hecho en el ca-
pítulo anterior a propósito del modelo de un factor. En primer lugar, con JK muestras alea-
torias tenemos JK varianzas muestrales cada una de las cuales puede utilizarse para es-
timar la varianza de su propia población. No obstante, como estamos asumiendo que las JK
varianzas poblaciones son iguales (ver [7.10]), en lugar de utilizar cada varianza muestral por
separado, obtendremos una mejor estimación de esa única varianza poblacional, , combi-
nando en un único estimador las JK varianzas muestrales:
MCE = = [7.11]
Ya sabemos que a este estimador de la varianza poblacional basado en la variabilidad exis-

tente dentro de cada grupo o muestra se le llama media cuadrática intragrupos y se repre-
senta mediante MCE. Recordemos que también se le llama media cuadrática error o residual.
Y, puesto que en su cálculo únicamente intervienen las varianzas de cada muestra, su valor
no depende del valor de las medias.
En segundo lugar, si asumimos que las JK poblaciones muestreadas, además de la misma
varianza, también tienen la misma media, entonces podremos utilizar la variabilidad entre las
JK medias muestrales (en caso necesario, repasar, en el capítulo anterior, el apartado sobre
La lógica del análisis de varianza) para obtener una estimación de la varianza poblacional
de Y mediante
MCI = [7.12]
A este estimador de la varianza poblacional basado en la variabilidad existente entre las

diferentes muestras se le llama media cuadrática intergrupos y se representa mediante
MCI (este valor es el mismo que obtendríamos si, en lugar de considerar que tenemos dos
factores con J y K niveles cuya combinación genera JK casillas, tomáramos las JK casillas
como los niveles de un único factor).
Esta variabilidad intergrupos no nos sirve de mucho porque contiene, mezclados, los tres
efectos que nos interesa analizar (A, B y AB). Es decir, la variabilidad de las JK medias res-
pecto de la media total (variabilidad intergrupos) incluye tres fuentes diferentes de variabi-
lidad: (1) la que se da entre las J medias correspondientes a los niveles del factor A, (2) la que
se da entre las K medias correspondientes a los niveles del factor B y (3) la que se da entre
las JK medias respecto de sus respectivas medias marginales. Para poder cuantificar cada una
de estas fuentes de variabilidad es necesario aislarlas identificando qué parte de la variabi-
lidad intergrupos corresponde a cada una de ellas.
En el modelo de un factor (ver capítulo anterior) hemos utilizado la variabilidad exis-
tente entre las J medias muestrales para obtener una estimación de la varianza poblacional
de Y que, además, servía como una cuantificación del grado de parecido existente entre las
J medias. Aplicando ahora la misma lógica al modelo de dos factores, la variabilidad entre
las J medias de los niveles del factor A y la variabilidad entre las K medias de los niveles del
factor B, no solo permiten cuantificar el grado de parecido existente entre las medias de los
J niveles de A y entre las medias de los K niveles de B, sino que pueden utilizarse para ob-
tener sendas estimaciones de la varianza poblacional de Y:
MCA = [7.13]
MCB = [7.14]
La ecuación [7.13] es un estimador de la varianza poblacional de Y basado en la variabi-

lidad existente entre las J medias muestrales correspondientes a los niveles del factor A. A
esta varianza muestral la llamaremos media cuadrática del factor A y la representaremos
mediante MCA. La ecuación [7.14] es un estimador de la varianza poblacional de Y basado
en la variabilidad existente entre las medias muestrales correspondientes a los niveles del
factor B. A esta varianza muestral la llamaremos media cuadrática del factor B y la re-
presentaremos mediante MCB.
Por último, también la variabilidad entre las medias de las JK muestras respecto de sus
medias marginales puede utilizarse para obtener una estimación de la varianza poblacional
de Y mediante
MCAB = [7.15]
La ecuación [7.15] es un estimador de la varianza poblacional de Y basado en la variabilidad

existente entre las medias de las JK casillas y sus respectivas medias marginales. Si se tiene
en cuenta la definición de interacción propuesta en [7.6] se comprenderá que MCAB, al
cuantificar cómo se alejan las medias de las casillas de sus respectivas medias marginales,
está informando sobre el efecto de la interacción. A esta varianza muestral la llamaremos
media cuadrática de la interacción AB y la representaremos mediante MCAB.
Aplicando ahora la lógica estudiada en el capítulo anterior, sabemos que el cociente en-
tre MCA y MCE
FA = = [7.16]
es una variable que, además de informar del grado de parecido entre las medias de los nive-
les del factor A, se distribuye según F con los grados de libertad del numerador, J ! 1, y los
del denominador, N ! JK. También sabemos que el cociente entre MCB y MCE
FB = = [7.17]
es una variable que informa del grado de parecido existente entre las medias de los niveles
del factor B y que se distribuye según F con los grados de libertad del numerador, K ! 1, y
los del denominador, N ! JK. Por último, el cociente entre MCAB y MCE
FAB = = [7.18]
es una variable que, además de informar del grado de parecido existente entre las medias de
las casillas y sus medias marginales (interacción), sabemos que se distribuye según F con los
grados de libertad del numerador, (J ! 1) (K ! 1), y los del denominador N ! JK .
Por tanto, los estadísticos FA, FB y FAB pueden utilizarse para evaluar los tres efectos de
interés (A, B y AB) en un diseño de dos factores, de efectos fijos, completamente aleatori-
zados. El Cuadro 7.1 ofrece un resumen del procedimiento.
Cuadro 7.1. Resumen del ANOVA de dos factores completamente aleatorizados (AB-CA)
1. Hipótesis:
a. H0 (A) : µ 1+ = µ 2+ = · · · = µ J+ (las medias poblacionales correspondientes a los J
niveles del factor A son iguales). Es decir, no existe efecto del factor A.
H1(A): µ j + =/ µ j + para algún j o jN (con j =/ jN) (no todas las medias correspondien-
tes a los niveles del factor A son iguales). Es decir, existe efecto del factor A.
b. H0 (B) : µ +1 = µ +2 = · · · = µ +K (las medias poblacionales correspondientes a los K
niveles del factor B son iguales). Es decir, no existe efecto del factor B.
H1 (B): µ + k =/ µ + k para algún k o kN (con k =/ kN) (no todas las medias correspon-
dientes a los niveles del factor B son iguales). Es decir, existe efecto del factor B.
c. H0(AB) : µ jk ! µ j k = µ j+ ! µ j + para todo j, jN o k (con j =/ jN) (la diferencia entre las
medias de dos casillas cualesquiera de la misma columna es igual a la diferencia
entre las medias marginales correspondientes a esas casillas). Es decir, no existe
efecto de la interacción.
H1 (AB) : µ j k ! µ j k =/ µ j + ! µ j + para algún j, jN o k (con j =/ jN) (no todas las dife-
rencias entre las medias de dos casillas cualesquiera de la misma columna son
iguales a la diferencia entre las medias marginales correspondientes a esas ca-
sillas). Es decir, existe efecto de la interacción.
2. Supuestos: JK muestras de tamaño n aleatoriamente seleccionadas de JK poblacio-
nes normales con la misma varianza.
3. Estadísticos del contraste (ver ecuaciones [7.16], [7.17] y [7.18]):
a. Para H0 (A) : FA = MCA « MCE .
b. Para H0 (B) : FB = MCB « MCE .
c. Para H0 (AB) : FAB = MCAB « MCE .
a. FA se distribuye según F con J !1 y N ! JK grados de libertad.
b. FB se distribuye según F con K !1 y N ! JK grados de libertad.
c. FAB se distribuye según F con (J !1)(K !1) y N ! JK grados de libertad.
5. Zonas críticas:
a. FA $
> FJ !1, N !JK; 1! α .
b. FB $
> FK !1, N !JK; 1! α .
c. FAB $
> F(J !1)(K !1), N !JK; 1! α .
a. Se rechaza H0 (A) si el estadístico FA cae en la zona crítica; en caso contrario, se
mantiene. El rechazo de H0 (A) implica que existe efecto significativo del factor A.
b. Se rechaza H0 (B) si el estadístico FB cae en la zona crítica; en caso contrario, se
mantiene. El rechazo de H0 (B) implica que existe efecto significativo del factor B.
c. Se rechaza H0 (AB) si el estadístico FAB cae en la zona crítica; en caso contrario, se
mantiene. El rechazo de H0 (AB) implica que existe efecto significativo de la interac-
ción AB.
7. Niveles críticos (valores p):

$ Fh ), siendo Fh el valor muestral concreto
a. Para el efecto del factor A: p = P (FA >
que toma el estadístico FA.
$ Fh ), siendo Fh el valor muestral concreto
a. Para el efecto del factor B: p = P (FB >
que toma el estadístico FB.
a. Para el efecto de la interacción AB: p = P (FAB > $ Fh ), siendo Fh el valor muestral
concreto que toma el estadístico FAB.
Ejemplo. ANOVA de dos factores completamente aleatorizados (AB-CA)

En un estudio inicialmente diseñado para evaluar la relación entre el nivel de ansiedad y el
rendimiento se ha incluido una nueva variable: la dificultad de la tarea. La Tabla 7.5 mues-
tra los resultados obtenidos con una muestra aleatoria de 30 sujetos repartidos, también
aleatoriamente, en 6 grupos del mismo tamaño. Cada grupo ha realizado la prueba de rendi-
miento bajo una de las seis condiciones resultantes de combinar dos niveles de dificultad
(fácil, difícil) con tres de ansiedad (bajo, medio, alto). El rendimiento se ha medido aplican-
do una escala de 0 a 20 puntos. El objetivo del estudio es valorar qué impacto tiene sobre el
rendimiento la dificultad de la tarea, el nivel de ansiedad y la interacción entre la dificultad
de la tarea y el nivel de ansiedad (α = 0,05).
Tabla 7.5. Dificultad de la tarea (A), nivel de ansiedad (B) y rendimiento (Y )
(B ) Nivel de ansiedad
(A ) Dificultad
de la tarea (b1) Bajo (b2) Medio (b3) Alto Totales
12 15 8
17 12 6
(a1) Fácil 9 18 5 180
14 14 10
13 (65) 16 (75) 11 (40)
8 10 13
6 14 10
(a2) Difícil 9 16 9 150
8 14 12
4 (35) 11 (65) 6 (50)
Totales 100 140 90 330
Los valores entre paréntesis son los totales (sumas) de las casillas.
Se trata de un diseño 2 × 3 completamente aleatorizado. Es decir, de un diseño de dos facto-

res (A: dificultad de la tarea, con J = 2 niveles; B: nivel de ansiedad, con K = 3 niveles) en
el que se ha asignado una muestra aleatoria de n = 5 sujetos a cada una de las JK = 6 con-
diciones resultantes de combinar los niveles de ambos factores. El análisis de varianza de dos
factores completamente aleatorizados es el modelo apropiado para analizar estos datos. La
Figura 7.2 muestra los diagramas de caja del rendimiento correspondientes a cada combi-
nación entre la dificultad de la tarea y el nivel de ansiedad. Ninguno de los diagramas mues-
tra casos anómalos ni asimetrías evidentes. Pero el rendimiento medio varía sensiblemente
entre condiciones. Veamos cómo evaluar los tres efectos presentes en el diseño.
Figura 7.2. Diagramas de caja correspondientes a las casillas de la Tabla 7.5
1. Hipótesis:
a. H0 (A) : µ fácil = µ difícil (el rendimiento medio es el mismo con tareas fáciles y con ta-
reas difíciles; es decir, la dificultad de la tarea no afecta al rendimiento).
H1 (A): el rendimiento medio no es el mismo con tareas fáciles y con tareas difíciles
(es decir, la dificultad de la tarea afecta al rendimiento).
b. H0 (B) : µ bajo = µ medio = µ alto (el rendimiento medio es el mismo en los tres niveles de
ansiedad; es decir, el nivel de ansiedad no afecta al rendimiento).
H1 (B): el rendimiento medio no es el mismo en los tres niveles de ansiedad (es decir,
el nivel de ansiedad afecta al rendimiento).
c. H0 (AB) : µ j k ! µ j k = µ j + ! µ j + para todo j, j N o k (con j =/ jN) (la interacción entre la
dificultad de la tarea y el nivel de ansiedad no afecta al rendimiento).
H1 (AB) : µ jk ! µ j k =/ µ j+ ! µ j + para algún j, jN o k (con j =/ jN) (la interacción entre la
dificultad de la tarea y el nivel de ansiedad afecta al rendimiento).
2. Supuestos: tenemos 6 muestras de tamaño 5 aleatoriamente seleccionadas de 6 pobla-
ciones normales con la misma varianza.
3. Estadísticos del contraste. Para facilitar la obtención de FA, FB y FAB (ecuaciones [7.16],
[7.17] y [7.18]) hemos transformado las puntuaciones originales de la Tabla 7.5 en las
medias y varianzas que muestra la Tabla 7.6:
Tabla 7.6. Medias (varianzas) correspondientes a los datos de la Tabla 7.5.
b1 b2 b3
a1 13 (8,5) 15 (5,0) 8 (6,5) 12
a2 7 (4,0) 13 (6,0) 10 (7,5) 10
10 14 9 11
MCI = 5 [(13 ! 11)2 + (15 ! 11)2 + · · · + (10 ! 11)2] / 5 = 5 (50) / 5 = 50 (ver [7.12])
2 2
MCA = 15 [(12 ! 11) + (10 ! 11) ] / 1 = 15 (2) / (2 ! 1) = 30 (ver [7.13])
MCB = 10 [(130 ! 11)2 + (14 ! 11)2 + (9 ! 11)2] / (3 ! 1) = 10 (14) / 2 = 70 (ver [7.14])
MCAB5 = [5 (50) ! 15 (2) ! 10 (14)] / 2 = (250 ! 30 ! 140)/2 = 40
MCE = (8,5 + 5,0 + 6,5 + 4,0 + 6,0 + 7,5) / 6 = 6,25 (ver [7.11])
a. FA = MCA « MCE = 30 / 6,25 = 4,80.
b. FB = MCB « MCE = 70 / 6,25 = 11,20.
c. FAB = MCAB « MCE = 40 / 6,25 = 6,4.
4. Distribuciones muestrales (con J = 2, K = 3 y N = 30):
a. FA Í F con J !1 = 1 y N ! JK = 24 grados de libertad, es decir, F1, 24.
b. FB Í F con K !1 = 2 y N ! JK = 24 grados de libertad, es decir, F2, 24.
c. FAB Í F con (J !1)(K !1) = 2 y N ! JK = 24 grados de libertad, es decir, F2, 24.
5. Zonas críticas:
a. FA $
> F1, 24; 0,95 = 4,26.
b. FB $
> F2, 24; 0,95 = 3,40.
c. FAB $
> F2, 24; 0,95 = 3,40.
a. Puesto que FA = 4,80 es mayor que el punto crítico 4,26, se rechaza H0(A). Puede con-
cluirse que el rendimiento medio no es el mismo con tareas fáciles y con tareas difí-
ciles. Por tanto, la dificultad de la tarea afecta al rendimiento.
b. Puesto que FB = 11,20 es mayor que el punto crítico 3,40, se rechaza H0(B). Puede con-
cluirse que el rendimiento medio no es el mismo en los tres niveles de ansiedad. Por
tanto, el nivel de ansiedad afecta al rendimiento.
c. Puesto que FAB = 6,4 es mayor que el punto crítico 3,40, se rechaza H0(AB). Puede con-
cluirse que el efecto de la interacción AB es estadísticamente significativo. Por tanto,
el efecto de cada factor sobre el rendimiento está condicionado o modulado por la
presencia del otro factor.
Un estadístico F significativo indica que los promedios comparados no son iguales, pero no
permite concretar qué promedios difieren de qué otros. Para esto es necesario llevar a cabo
comparaciones múltiples. Y en el caso de la interacción, además de realizar comparaciones
múltiples, es necesario recurrir a gráficos de perfil para precisar su significado. Más adelan-
te, en el apartado Comparaciones múltiples, veremos cómo hacer todo esto.
5
Teniendo en cuenta que el numerador de MCI es igual a la suma de los numeradores de MCA, MCB y MCAB, y que el cálcu-
lo de MCI es sensiblemente más breve que el de MCAB, la forma más rápida de calcular MCAB consiste en restar al numera-
dor de MCI = 5(50) = 250 la suma de los numeradores de MCA = 15(2) = 30 y MCB = 10(14) = 140, y dividir el resultado
entre los grados de libertad de MCAB. No obstante, puede comprobarse que aplicando la ecuación [7.15] se llega exacta-
mente al mismo resultado:
MCAB = [(13 !12 !10 +11)2 + (15 !12 !14 +11)2 (8 !12 ! 9 +11)2 + · · · + (10 !10 ! 9 +11)2] / [(2 !1) (3 !1)] = 40.
Supuestos del ANOVA de dos factores

Los estadísticos F propuestos en [7.16], [7.17] y [7.18] permiten tomar decisiones sobre sus
respectivas hipótesis porque, si se dan ciertas condiciones, tienen distribución muestral co-
nocida. Estas condiciones, a las que solemos llamar supuestos del contraste, son las que ga-
rantizan que la probabilidad de cometer errores Tipo I y II es la que estamos asumiendo que
es y no otra.
Para poder definir los estadísticos F hemos considerado en todo momento que estába-
mos trabajando con muestras aleatorias procedentes de poblaciones normales con la misma
varianza. En estas condiciones iniciales están implícitos los tres supuestos que ya hemos es-
tudiado en el capítulo anterior a propósito del modelo de un factor: independencia, norma-
lidad y homocedasticidad. La única diferencia con el modelo de un factor es que ahora no
tenemos J poblaciones, sino JK. Y asumimos que esas JK poblaciones son normales y tienen
la misma varianza; y también asumimos que, de cada una de esas poblaciones, tenemos una
muestra aleatoria de observaciones independientes entre sí e independientes de las obser-
vaciones del resto de las muestras.
Efectos fijos y aleatorios

Hasta ahora, en todo momento hemos asumido que los dos factores del diseño son de efec-
tos fijos (Modelo I). Si los dos factores son de efectos aleatorios, decimos que el modelo es
de efectos aleatorios (Modelo II). Y si uno de los factores es de efectos fijos y el otro de
efectos aleatorios, decimos que el modelo es de efectos mixtos (Modelo III).
Esta clasificación tiene su importancia porque la forma de obtener los estadísticos F
viene condicionada por el tipo de modelo utilizado, lo cual se debe a que el valor esperado
de cada efecto depende de la forma de establecer los niveles del correspondiente factor (ver
Kirk, 1995, págs. 373-375; Pardo y San Martín, 1998, págs. 349-351). A efectos prácticos,
basta con saber que los estadísticos F de cada modelo se obtienen de la forma que muestra
la Tabla 7.7. El valor de las medias cuadráticas no cambia, pero sí cambian las medias cua-
dráticas que intervienen en la obtención de cada estadístico F.
Tabla 7.7. Estadísticos F correspondientes a cada modelo AB-CA
Modelo I Modelo II Modelo III Modelo III

A y B fijos A y B aleatorios A fijo, B aleatorio A aleatorio, B fijo,
FA = MCA / MCE MCA / MCAB MCA / MCAB MCA / MCE

FB = MCB / MCE MCB / MCAB MCB / MCE MCB / MCAB
FAB = MCAB / MCE MCAB / MCE MCAB / MCE MCAB / MCE
Por supuesto, los grados de libertad de cada estadístico F son los grados de libertad de las
medias cuadráticas en las que se basan. Por tanto, los grados de libertad del numerador de
todos los estadísticos F son los mismos en los tres modelos, pues las medias cuadráticas del
numerador son las que corresponden a cada efecto; pero los grados de libertad del denomi-
nador cambian dependiendo de la media cuadrática que interviene.

Ya sabemos que el valor de un estadístico F no depende únicamente de la magnitud real del
efecto analizado (es decir, de la verdadera diferencia entre las medias que se están com-
parando), sino del tamaño de las muestras y del grado de variabilidad de las puntuaciones. Por
tanto, una F significativa no necesariamente se corresponde con un efecto importante o un
resultado relevante desde el punto de vista teórico o práctico. Para detectar un efecto o re-
sultado de ese tipo utilizamos medidas del tamaño del efecto: un estadístico F significativo
indica que existe algún tipo de relación; una medida del tamaño del efecto intenta cuantifi-
car la magnitud de esa relación.
Una forma de cuantificar el tamaño del efecto consiste en estimar la proporción de varian-
za compartida. Esto puede hacerse, por ejemplo, con la medida de asociación eta-cuadrado
( ). Ahora bien, en un modelo de dos factores hay tres efectos distintos (A, B y AB). Pode-
mos obtener, por un lado, una medida global de la proporción de varianza compartida (una
medida basada en todos los efectos tomados juntos) y, por otro, una medida individual de
cada efecto por separado. La medida global se basa, lógicamente, en la MCI :
= [7.19]
El numerador de es una cuantificación de la variabilidad intergrupos, la cual incluye la

variabilidad entre las medias de A, entre las medias de B y entre las medias de las casillas
respecto de sus medias marginales. El denominador es una cuantificación de la variabilidad
total. Por tanto, el valor de expresa el grado de asociación existente entre el conjunto de
efectos presentes en el modelo y la variable dependiente. En nuestro ejemplo sobre la rela-
ción entre el rendimiento y la dificultad de la tarea y el nivel de ansiedad:
= =
Este valor indica que el conjunto de efectos presentes en el modelo (la dificultad de la tarea,
el nivel de ansiedad y la interacción entre la dificultad y la ansiedad) comparten el 63 % de
la varianza del rendimiento. Por tanto, nuestro conocimiento del rendimiento de los sujetos
mejora un 63 % cuando conocemos su nivel de ansiedad y la dificultad de la tarea que rea-
lizan. La ecuación [7.19] puede formularse de esta otra manera:
= [7.20]
Para obtener una estimación del tamaño de cada efecto (A, B y AB) basta con colocar en
[7.20] los correspondientes estadísticos F y grados de libertad (estas estimaciones se llaman
parciales porque en el denominador no se utiliza la variabilidad total, sino la de cada efec-
to y la del error). Por ejemplo, con el efecto del factor B (nivel de ansiedad), la ecuación
[7.20] ofrece el siguiente resultado:
= = =
Este valor indica que el nivel de ansiedad (factor B) comparte el 48 % de la varianza del rendi-
miento. Por tanto, saber cuál es el nivel de ansiedad de los sujetos permite mejorar un 48 %
nuestro conocimiento del rendimiento.
Aunque esta forma de estimar el tamaño de un efecto está muy extendida (es, por ejem-
plo, la que utiliza el SPSS), lo cierto es que las estimaciones que se obtienen con (tanto
si son parciales como si no) contienen un sesgo importante (están infladas; ver, por ejemplo,
Fowler, 1985). Algunas correcciones pueden atenuar este sesgo (ver capítulo anterior), pe-
ro, en lugar de aplicar estas correcciones, suele ser más recomendable utilizar la medida de
asociación omega-cuadrado ( ).
El valor concreto de depende de si los factores son de efectos fijos o de efectos alea-
torios (ver Winer, Brown y Michels, 1991, págs. 405-415). Cuando ambos factores son de
efectos fijos (Modelo I), el valor para cada efecto por separado puede obtenerse aplican-
do la siguiente regla6:
= = [7.22]
Sustituyendo efecto por A, B y AB puede obtenerse el valor de para cada efecto. Por ejem-
plo, con el efecto del factor B, tenemos
= = =
que es un valor menor que el obtenido con porque, como ya se ha señalado, suele
ofrecer estimaciones infladas de la verdadera proporción de varianza compartida.
Para interpretar el tamaño de , Cohen (1988) ha propuesto una especie de regla gene-
ral que puede resultar útil en muchos contextos aplicados: valores en torno a 0,01, 0,06 y
0,14 indican, por lo general, asociaciones de intensidad baja, media y alta, respectivamente.
La Tabla 7.8 muestra los valores de y obtenidos al aplicar las ecuaciones [7.20]
y [7.22] a los datos de nuestro ejemplo sobre la relación entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad (ver Tabla 7.5). Puede comprobarse que, efectivamente, los
valores parciales de son sistemáticamente menores que los valores parciales de .
Tabla 7.8. Medidas del tamaño del efecto
Efecto
A 0,17 0,11
B 0,48 0,40
AB 0,35 0,26
Al igual que para el modelo de un factor (ver capítulo anterior, ecuación [6.11]), Cohen
(1988) ha propuesto, para el modelo de dos factores, una medida del tamaño del efecto basada
6
Si el estadístico F es menor que 1, el valor de es negativo. Puesto que una proporción no puede ser negativa, cuando
ocurre esto se considera que vale cero.
en una tipificación de la diferencia entre los promedios comparados. Su estrecha relación con
permite obtener este estadístico a partir de lo que ya sabemos:
= [7.23]
(aunque el propio Cohen llama f a su medida del tamaño del efecto, nosotros seguiremos
manteniendo la consistencia en nuestra notación para evitar confusión). Siguiendo la regla
ya conocida, valores en torno a 0,10, 0,25 y 0,40 representan, respectivamente, efectos de
tamaño pequeño, mediano y grande.

Al igual que en el capítulo anterior, la estrategia propuesta en este apartado para calcular la
potencia se basa en una medida del tamaño del efecto llamada (phi) y en la distribución
F no centrada (Tabla G del Apéndice final).
El valor del parámetro es una transformación del parámetro de no centralidad λ (ver
ecuación [6.18]) que puede estimarse aplicando la misma lógica utilizada en el capítulo an-
terior (ver ecuación [6.20]). La única diferencia es que, ahora, no tenemos un único efecto,
sino tres. Y cada efecto (por tanto, cada estadístico F ) tiene asociado un parámetro de no
centralidad y, consecuentemente, un valor que puede estimarse mediante:
= [7.24]
Estos estadísticos representan una cuantificación del tamaño de cada efecto. De hecho, están
estrechamente relacionados con la medida del tamaño del efecto de Cohen:
= [7.25]
(donde nefecto = nK para el efecto de A, nefecto = nJ para el efecto de B y nefecto = n para el efec-
to de AB).
En el ejemplo que venimos utilizando sobre la relación entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad (ver Tabla 7.5) tenemos J = 2, K = 3, MCA = 30, MCB = 70,
MCAB = 40 y MCE = 6,25. Por tanto,
= =
= =
= =
Para calcular la potencia asociada al contraste del efecto del factor B, por ejemplo, necesita-
mos α = 0,05, gl1 = K ! 1 = 2, gl2 = N ! JK = 24 y = 2,73. En la Tabla G del Apéndice
final (redondeando a = 2,6) encontramos que la probabilidad de cometer errores Tipo II (β)
vale 0,03. Por tanto, la potencia de este contraste vale 1 ! β = 1 ! 0,03 = 0,97 (puesto que
tanto gl2 como se han redondeado a la baja, es muy posible que el valor exacto de la po-
tencia sea una o dos décimas mayor de 0,97).
Este valor (0,97) es la potencia observada, es decir la potencia del contraste cuando se
asume que la diferencia poblacional entre los niveles del factor B (el verdadero tamaño del
efecto) es la diferencia de hecho observada. Para conocer de antemano la potencia de un es-
tudio concreto es necesario calcular el tamaño muestral que permitirá alcanzar la potencia
deseada. Y para esto, basta con tener en cuenta la relación establecida en [7.24]:
n = [7.26]
Imaginemos un estudio con J = 3 y K = 4. Supongamos que, para evaluar el efecto del fac-
tor B con α = 0,05, queremos que la potencia del contraste para detectar un efecto de tama-
ño medio (δ = 0,25 siguiendo la regla de Cohen) valga 0,80 (β = 0,20). Tenemos que utilizar
la Tabla G al revés de como lo hemos hecho antes. Conocemos gl1 = 3, pero no gl2 (pues
depende del tamaño muestral que estamos buscando). Esto, sin embargo, no representa un
problema serio porque utilizar un valor de partida de 30 o mayor no hace cambiar las cosas.
Vamos a elegir, por ejemplo, gl2 = . Con gl1 = 3, gl2 = y β = 0,20 (tomamos 0,23), la
Tabla G arroja un valor = 1,6. Por tanto, n = (1,6 / 0,25)2 = 40,96. Es decir, hacen falta
aproximadamente 41 sujetos por grupo para alcanzar una potencia de 0,80.
Comparaciones múltiples
Los estadísticos FA, FB y FAB permiten valorar los efectos globales de A, B y AB, respec-
tivamente, y decidir cuál de ellos es estadísticamente significativo. El rechazo de la hipóte-
sis nula referida al efecto del factor A indica que las medias poblacionales correspondientes
a los niveles de ese factor no son iguales, pero no permite precisar qué media en concreto
difiere de qué otra (este problema es el mismo que nos hemos encontrado en el capítulo
anterior al estudiar el modelo de un factor). Lo mismo vale decir del efecto de B y de su hi-
pótesis nula. Y el rechazo de la hipótesis nula referida al efecto de la interacción indica que
el efecto combinado de los factores A y B difiere de la suma de los efectos individuales de
ambos factores, pero no permite precisar cuál es el significado de esa diferencia.
Por tanto, en los tres casos (A, B y AB), el rechazo de la correspondiente hipótesis nula
está delatando la presencia de un efecto significativo sin llegar a precisar la naturaleza o el
significado del mismo. Tanto para conocer con exactitud qué niveles de un factor difieren de
qué otros como para poder entender el significado de una interacción significativa es nece-
sario seguir adelante con el análisis realizando comparaciones múltiples.
A los efectos individuales de A y B los hemos llamado efectos principales. Al efecto
combinado de A y B lo hemos llamado efecto de la interacción. En nuestro ejemplo sobre
la relación entre la dificultad de la tarea (fácil, difícil), el nivel de ansiedad (bajo, medio, al-
to) y el rendimiento, el efecto de la dificultad de la tarea es un efecto principal; el efecto del
nivel de ansiedad es un efecto principal; y el efecto combinado de la dificultad de la tarea y
el nivel de ansiedad es el efecto de la interacción. Para entender el significado de la interac-
ción entre factores es necesario definir un nuevo tipo de efectos llamados efectos simples,
los cuales se refieren al efecto de un factor en cada uno de los niveles del otro. El efecto de
la dificultad de la tarea en un nivel concreto de ansiedad (por ejemplo, nivel bajo) es un efec-
to simple. Volveremos sobre esto enseguida.
Efectos principales
Para realizar comparaciones múltiples con los niveles del factor A y con los niveles del factor
B no es necesario aprender nada nuevo. Todos los procedimientos estudiados en el capítulo
anterior para realizar comparaciones múltiples con un factor son aplicables a cada uno de los
efectos principales de un diseño factorial completamente aleatorizado. Esto significa que
puede utilizarse la prueba de Dunn-Bonferroni para realizar comparaciones planeadas y de
tendencia; la prueba de Dunnett para realizar comparaciones con un grupo control, si exis-
te; y las pruebas de Tukey y Scheffé para realizar comparaciones post hoc. Únicamente hay
que tener en cuenta unas sencillas modificaciones que afectan a las ecuaciones [6.34] a [6.46]:
1. El subíndice “j ” debe cambiarse por los subíndices “j +” al analizar los niveles del fac-
tor A y por los subíndices “+ k ” al analizar los niveles del_ factor B. Así, _por ejemplo,
para comparar las medias del factor A, en lugar de utilizar Y j utilizaremos Y j+ y en lugar
de utilizar nj utilizaremos nj +, es decir, nK.
2. El número de niveles del factor A sigue siendo J (igual que en el modelo de un factor),
pero el número de niveles del factor B es K. Por tanto, al analizar los niveles del factor
B, J debe sustituirse por K.
3. Los grados de libertad asociados a MCE en el modelo de un factor (N ! J ) deben sustituir-
se por los grados de libertad asociados a MCE en el modelo de dos factores (N ! JK ).
Ejemplo. Comparaciones múltiples: efectos principales

En nuestro ejemplo sobre la relación entre el rendimiento, la dificultad de la tarea (fácil, di-
fícil) y el nivel de ansiedad (bajo, medio, alto) hemos declarado estadísticamente signifi-
cativos los dos efectos principales presentes en el diseño: el del factor A y el del factor B.
El resultado obtenido con el efecto del factor A (dificultad de la tarea) indica que el ren-
dimiento medio es más alto con tareas fáciles que con tareas difíciles. Como el factor A sola-
mente tiene dos niveles, no es necesario seguir haciendo comparaciones (las comparaciones
múltiples únicamente tienen sentido cuando se tienen más de dos medias).
El resultado obtenido con el efecto del factor B (nivel de ansiedad) indica que el rendi-
miento medio no es el mismo en los tres niveles de ansiedad. Para seguir indagando en este
resultado vamos a realizar dos comparaciones. En la primera vamos a comparar el grupo de
nivel de ansiedad medio (que es el grupo del que cabe esperar un mayor rendimiento) con los
otros dos grupos tomados juntos; en la segunda, el grupo de menor ansiedad (grupo 1) con
el de mayor ansiedad (grupo 3); es decir,
= (!1) µ 1 + (2) µ 2 + (!1) µ 3
= (1) µ 1 + (0) µ 2 + (!1) µ 3
Se trata de dos comparaciones ortogonales, pues la suma del producto de sus coeficientes
vale cero: (!1) (1)_+ (2) (0) +
_ (!1) (!1)
_ = 0. Vamos a aplicar la prueba de Dunn-Bonferroni.
Recordemos que Y +1 = 10, Y +2 = 14, Y +3 = 9 y MCE = 6,25:
1. Hipótesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras de tamaño nJ = 10 aleatoriamente seleccionadas de po-
blaciones que asumimos normales y con la misma varianza.
3. Estadísticos del contraste (ver ecuación [6.35] en el capítulo anterior):
! = =
= =
! = =
= =
! TDB (1) = = =
TDB (2) = = =
4. Distribución muestral: los puntos críticos de la distribución muestral de TDB están en la
Tabla J del Apéndice final, con αF = 0,05, k = 2 y glerror = N ! JK = 30 ! 2(3) = 24.
$ t2, 24; 0,05 = 2,39.
5. Zona crítica: TDB >
6. Decisión: únicamente el valor TDB (1) = 4,64 es mayor que el punto crítico 2,39. Por tan-
to, debe rechazarse H0 (1) pero no H0(2). El rechazo de H0(1) indica que la media del grupo
2 (nivel de ansiedad medio) difiere de la media de los otros dos grupos tomados juntos.
Y el no rechazo de H0(2) indica que, con los datos disponibles, no es posible afirmar que
el rendimiento medio de los grupos 1 y 3 (los grupos de menor y mayor ansiedad) sea
distinto. Aunque estos contrastes son bilaterales, el valor positivo de indica que el
rendimiento medio del segundo grupo (es decir, del grupo ponderado con un coeficien-
te positivo en ) es mayor que el rendimiento medio de los otros dos grupos tomados
juntos.
Es importante tener en cuenta que el significado de un efecto principal está condicionado por
el efecto de la interacción. Aunque volveremos sobre esta cuestión, conviene empezar a to-
mar conciencia de un hecho que no siempre es correctamente tenido en cuenta.
Cuando no existe interacción, los efectos principales agotan toda la información del dise-
ño. Imaginemos que, en nuestro ejemplo sobre la relación entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad, el efecto de la interacción no fuera significativo. Si ése fue-
ra el caso, el resultado obtenido con el factor A (dificultad de la tarea) estaría indicando que
el rendimiento medio es más alto con tareas fáciles (media = 12) que con tareas difíciles
(media = 10). Y el resultado obtenido con el factor B estaría indicando que el rendimiento
medio es más alto cuando el nivel de ansiedad es medio (media = 14) que cuando es bajo
(media = 10) o alto (media = 9). Pero el hecho de que el efecto de la interacción sea signi-
ficativo lo cambia todo. Una interacción significativa acapara todo el protagonismo del dise-
ño relegando los efectos principales a un segundo plano. Más adelante veremos cómo se pro-
duce esto, pero, de momento, puesto que los resultados de nuestro ejemplo indican que el
efecto de la interacción es significativo, sabemos que no es posible afirmar que el rendi-
miento con las tareas fáciles es mejor que con las tareas difíciles (efecto principal de la difi-
cultad) pues esto depende del nivel de ansiedad; y también sabemos que tampoco es posible
afirmar que el rendimiento es mejor cuando el nivel de ansiedad es medio que cuando es ba-
jo o alto (efecto principal de la ansiedad ) porque esto depende de la dificultad de la tarea.
Volveremos sobre este importante aspecto del análisis en el apartado Efecto de la interacción.
Efectos simples
Un efecto simple es el efecto de un factor cuando únicamente se tiene en cuenta un único
nivel del otro factor.
Consideremos un diseño 2 × 3 como el que se muestra en la Tabla 7.9. Para valorar el
efecto del factor A se comparan las medias de sus dos niveles, es decir las medias de las filas:
µ 1+ ! µ 2+. La diferencia entre estas medias representa el efecto principal del factor A.
Un efecto simple consiste en esto mismo pero referido a un único nivel de B. Por ejem-
plo, la diferencia entre las medias µ 11 ! µ 21 es un efecto simple: el efecto simple de A en b1;
la diferencia entre las medias µ 12 ! µ 22 es el efecto simple de A en b2; y la diferencia entre
las medias µ 13 ! µ 23 es el efecto simple de A en b3. Por tanto, el factor A puede descompo-
nerse en tres efectos simples, uno por cada nivel de B.
b1 b2 b3
a1 µ 11 µ 12 µ 13 µ 1+
a2 µ 21 µ 22 µ 23 µ 2+
µ +1 µ +2 µ +3 µ
Estos efectos pueden evaluarse de la forma convencional contrastando la hipótesis nula de

igualdad de medias:
: µ 1k = µ 2 k = · · · = µ J k [7.27]
Contrastar esta hipótesis nula equivale a llevar a cabo un ANOVA de un factor (el factor A)
con cada nivel del factor B. Haciendo
= [7.28]
tenemos las mismas medias cuadráticas que utilizaríamos al aplicar un ANOVA de un fac-
tor K veces para comparar las medias de A en cada nivel de B. La hipótesis [7.27] puede
ponerse a prueba mediante el estadístico
= [7.29]
el cual se distribuye según F con J ! 1 y N ! JK grados de libertad (debe tenerse en cuenta

que hay K contrastes de este tipo, es decir, uno por cada efecto simple de A, es decir, uno por
cada nivel de B ).
Exactamente lo mismo vale decir del factor B. Las diferencias entre las medias de los
niveles del factor B en el primer nivel de A constituyen el efecto simple de B en a1. Y las
diferencias entre las medias de los niveles del factor B en el segundo nivel de A constituyen
el efecto simple de B en a2. Estos efectos simples pueden evaluarse contrastando la hipóte-
sis nula de que las medias involucradas son iguales:
: µ j1 = µ j2 = · · · = µ jK [7.30]
Y, siguiendo la misma lógica que para los efectos simples del factor A, la media cuadrática
asociada a cada efecto simple del factor B puede obtenerse
= [7.31]
Y, a partir de esta media cuadrática, es posible contrastar la hipótesis nula [7.30] mediante
el estadístico
= [7.32]
el cual se distribuye según F con K ! 1 y N ! JK grados de libertad (debe tenerse en cuenta

que hay J contrastes de este tipo, es decir, uno por cada efecto simple de B, es decir, uno por
cada nivel de A).
El análisis de los efectos simples únicamente tiene sentido cuando el efecto de la inte-
racción AB es significativo. Según veremos en el siguiente apartado, una interacción signi-
ficativa implica que los efectos simples de A (también los de B) no son iguales entre sí, de
ahí que tenga sentido estudiarlos para valorar cómo difieren. Pero si la interacción no es sig-
nificativa, no hay motivo para analizar los efectos simples: todos ellos dirán lo mismo que
el correspondiente efecto principal.
Ejemplo. Comparaciones múltiples: efectos simples

Volvamos a nuestro ejemplo sobre la relación entre el rendimiento, la dificultad de la tarea
(fácil, difícil) y el nivel de ansiedad (bajo, medio, alto). Los datos de este ejemplo se en-
cuentran en la Tabla 7.5. Y la Tabla 7.10 ofrece un resumen de esos datos con las medias de
las casillas y las medias marginales. Recordemos que J = 2, K = 3, n = 5 y MCE = 6,25.
Tabla 7.10. Medias correspondientes a los datos de la Tabla 7.5
b1 b2 b3
a1 13 15 8 12
a2 7 13 10 10
10 14 9 11
Veamos cómo contrastar los efectos simples de A en cada nivel de B aplicando las ecuacio-
nes [7.27], [7.28] y [7.29]:
1. Hipótesis: : µ 11 = µ 21
: µ 12 = µ 22
: µ 13 = µ 23
2. Supuestos: tenemos 6 muestras de tamaño n = 5 aleatoriamente seleccionadas de pobla-
ciones que asumimos normales y con la misma varianza.
3. Estadísticos del contraste:
! = = 5 [(13 !10)2 + (7 !10)2 ] / (2 !1) = 90.
= = 5 [(15 !14)2 + (13 !14)2 ] / (2 !1) = 10.
= = 5 [(8 ! 9)2 + (10 ! 9)2 ] / (2 !1) = 10.
! = = 90 / 6,25 = 14,4.
= = 10 / 6,25 = 1,6.
= = 10 / 6,25 = 1,6.
4. Distribuciones muestrales: los tres estadísticos se aproximan a la distribución de
probabilidad F con J !1 = 2 !1 = 1 y N ! JK = 30 ! 6 = 24 grados de libertad.
5. Zona crítica: $ F1, 24; 0,95 = 4,26.
>
6. Decisiones: solamente el estadístico (14,4) es mayor que el punto crítico (4,26). Es
decir, solamente es significativo el efecto simple de A en b1. Por tanto, puede concluirse
que la dificultad de la tarea (efecto de A) únicamente afecta al rendimiento cuando el nivel
de ansiedad de los sujetos es bajo (b1); cuando el nivel de ansiedad es medio (b2) o alto
(b3), no puede afirmarse que el rendimiento se vea afectado por la dificultad de la tarea.
Conviene llamar la atención sobre dos cuestiones relativas al análisis de los efectos simples.
La primera de ellas tiene que ver con el control de la tasa de error. A pesar de que el análi-
sis de los efectos simples implica llevar a cabo varias comparaciones, el procedimiento pro-
puesto no incorpora ningún mecanismo de control de la tasa de error. Cuando los factores
tienen dos o tres niveles, esto no es un problema importante porque el número de efectos que
se analizan es muy pequeño. Pero cuando los factores tienen más niveles, la falta de control
sobre la tasa de error puede convertirse en un problema serio. Aunque no existe un acuerdo
generalizado acerca de cuál es la mejor manera de controlar la tasa de error cuando se ana-
lizan efectos simples, siempre cabe la posibilidad de controlar αF aplicando la corrección de
Bonferroni, la cual, recordemos, consiste realizar cada contraste utilizando αC = αF / k en lu-
gar de αC = αF (k se refiere aquí al número de efectos simples que se están valorando).
La segunda cuestión tiene que ver con las posibilidades que surgen cuando un efecto
simple es declarado significativo. Afirmar que el efecto de A en b1 es significativo es lo mis-
mo que decir que los promedios comparados en no son iguales. En nuestro ejemplo,
como el factor A solamente tiene dos niveles, no es necesario hacer ningún análisis adicio-
nal: sabemos que los promedios que difieren son justamente esos dos. Pero si un efecto sim-
ple incluye más de dos medias, el rechazo de la hipótesis nula podría estar exigiendo con-
tinuar el análisis para poder determinar qué medias en concreto difieren de qué otras. Esto
puede hacerse definiendo comparaciones lineales del tipo
= c1 µ 1k + c2 µ 2k + · · · + cJ µ J k [7.33]
y contrastando la hipótesis nula de que la comparación vale cero mediante la prueba de Dunn-
Bonferroni (ver capítulo anterior). En nuestro ejemplo, los efectos simples de B en a1 y a2 son
ambos significativos. Y estos efectos incluyen tres medias. Para saber qué medias difieren
de qué otras habría que realizar comparaciones del tipo propuesto en [7.33] y contrastarlas
tal como se ha hecho en el capítulo anterior.
Efecto de la interacción
La interacción entre factores ya la hemos definido al comienzo del capítulo. Existe interac-
ción entre dos factores cuando el efecto de uno de ellos sobre la variable dependiente no es
el mismo en todos los niveles del otro factor. Dicho de otro modo, existe interacción cuan-
do los efectos simples correspondientes a un mismo efecto principal no son iguales.
De la misma manera que es posible definir comparaciones lineales de un grado de liber-
tad para interpretar, descomponiéndolo, un efecto principal (esto es lo que hacemos, por
ejemplo, con las comparaciones planeadas y las de tendencia), también es posible definir
comparaciones lineales de un grado de libertad para conseguir interpretar una interacción
significativa. El número de estas comparaciones puede llegar a ser muy elevado (Abelson y
Prentice, 1997), pero las comparaciones que más ayudan a los investigadores a interpretar
una interacción significativa suelen ser aquellas que permiten comparar entre sí los efectos
simples. Por ejemplo, en un diseño factorial 2 × 3 como el propuesto en la Tabla 7.9, la nece-
sidad de interpretar una interacción significativa quedará cubierta, por lo general, comparan-
do entre sí cada efecto de A en cada nivel de B, es decir, comparando entre sí los efectos
simples de A (o comparando entre sí los efectos simples de B, lo cual es equivalente desde
el punto de vista de las conclusiones a las que se llega).
Ahora bien, para comparar entre sí los efectos simples de A no basta con valorar si un
efecto simple es significativo y otro no para, de esta forma, decidir que son distintos. A pe-
sar del uso generalizado de esta estrategia, lo cierto es que no sirve para aislar el efecto de la
interacción. Un efecto simple incluye parte del correspondiente efecto principal y parte del
efecto de la interacción (ver Kirk, 1995, págs. 380-381). Esto implica que un efecto simple
puede ser significativo porque lo es su parte de efecto principal, porque lo es su parte de
interacción o porque lo son ambas partes. Por tanto, para comparar entre sí los efectos sim-
ples no basta con saber cuáles son significativos y cuáles no (ver Pardo, Garrido, Ruiz y San
Martín, 2007). Comparar entre sí los efectos simples de A requiere:
1. Comparar la diferencia entre µ 11 y µ 21 (o efecto simple de A en b1) con la diferencia en-
tre µ 12 y µ 22 (o efecto simple de A en b2);
2. Comparar la diferencia entre µ 11 y µ 21 (o efecto simple de A en b1) con la diferencia en-
tre µ 13 y µ 23 (o efecto simple de A en b3);
3. Comparar la diferencia entre µ12 y µ22 (o efecto simple de A en b2), con la diferencia en-
tre µ 13 y µ 23 (o efecto simple de A en b3).
Es decir, comparar entre sí los efectos simples de A requiere efectuar estas tres7 compara-
ciones:
ψ1 = ( µ 11 ! µ 21 ) ! ( µ 12 ! µ 22 )
ψ2 = ( µ 11 ! µ 21 ) ! ( µ 13 ! µ 23 ) [7.35]
ψ3 = ( µ 12 ! µ 22 ) ! ( µ 13 ! µ 23 )
Por tanto, comparar los efectos simples requiere comparar diferencias. Ordenando y asignan-
do coeficientes se obtiene
ψ1 = (1) µ 11 + (!1) µ 12 + (0) µ 13 + (!1) µ 21 + (1) µ 22 + (0) µ 23
ψ2 = (1) µ 11 + (0) µ 12 + (!1) µ 13 + (!1) µ 21 + (0) µ 22 + (1) µ 23 [7.36]
ψ3 = (0) µ 11 + (1) µ 12 + (!1) µ 13 + (0) µ 21 + (!1) µ 22 + (1) µ 23
En la Figura 7.3 están representadas las medias de la Tabla 7.6. Los recuadros 1, 2 y 3que
hemos trazado en el gráfico representan los efectos simples de A (dificultad de la tarea) en
cada nivel de B (nivel de ansiedad). Con la comparación ψ1 se intenta averiguar si lo que
ocurre en el recuadro 1 difiere de lo que ocurre en el recuadro 2; con la comparación ψ2 se
intenta averiguar si lo que ocurre en el recuadro 1 difiere de lo que ocurre en el recuadro 3;
y con la comparación ψ3 se intenta averiguar si lo que ocurre en el recuadro 2 difiere de lo
que ocurre en el recuadro 3. Estas tres comparaciones aíslan el efecto de la interacción y son
independientes del efecto principal de A (ver Pardo, Garrido, Ruiz y San Martín, 2007).
Para contrastar hipótesis del tipo ψh = 0 puede utilizarse la prueba de Dunn-Bonferroni
en los términos ya conocidos. El siguiente ejemplo muestra cómo hacer esto.
Figura 7.3. Gráfico de líneas correspondiente a las medias de la Tabla 7.6.

2
1
7
En un diseño 2 × 2 (dos factores con dos niveles cada factor), unas sencillas transformaciones permiten comprobar que
la definición de no interacción propuesta en [7.8] equivale a:
µ 11 ! µ 21 = µ 12 ! µ 22 [7.34]
La comparación [7.34] es la que corresponde al único grado de libertad asociado a la interacción en un diseño 2 × 2. Por
tanto, si el estadístico F asociado al efecto de la interacción es significativo, una interpretación basada en las diferencias
comparadas en [7.34] agota el significado de la interacción, lo cual implica que no es necesario recurrir a comparaciones
adicionales para interpretar una interacción significativa.
Debe tenerse en cuenta que, si se verifica [7.34], también se verifica µ 11 ! µ 12 = µ 21 ! µ 22 ; y una interacción significa-
tiva en un diseño 2 × 2 puede interpretarse recurriendo a cualquiera de estas dos comparaciones, sin necesidad de cálculos
adicionales.
Ejemplo. Comparaciones múltiples: efecto de la interacción

En nuestro ejemplo sobre la relación entre el rendimiento, la dificultad de la tarea (fácil,
difícil) y el nivel de ansiedad (bajo, medio, alto) hemos encontrado que el efecto de la in-
teracción es significativo. Para interpretar este efecto vamos a realizar dos tareas: (1) com-
parar entre sí los efectos simples y (2) representar las medias de las casillas en un gráfico de
líneas. La primera tarea es imprescindible para saber dónde se encuentran las diferencias; la
segunda es recomendable para entender mejor lo que está ocurriendo.
Las medias de las casillas (Tabla 7.6) están representadas en el gráfico de líneas de la Fi-
gura 7.3. Un gráfico de líneas, también llamado gráfico de perfiles, se construye colocando
uno de los factores en el eje horizontal (normalmente el que tiene más niveles) y las medias
en el vertical. En el interior del gráfico se representan las medias uniendo con líneas las que
corresponden al mismo nivel del segundo factor (el que no se ha colocado en el eje horizon-
tal). En el gráfico de la Figura 7.3, cada línea (cada efecto simple de B en aj) se corresponde
con una fila de la Tabla 7.6 y cada recuadro (cada efecto simple de A en bk) con una columna.
Tabla 7.6 (bis). Medias de las casillas de la Tabla 7.5
b1 b2 b3
a1 13 15 8
a2 7 13 10
1. Hipótesis: H0 (1) : = 0 ; H1 (1) : =/ 0.

H0 (2) : = 0 ; H1 (2) : =/ 0.
H0 (3) : = 0 ; H1 (3) : =/ 0.
Estas hipótesis se refieren a las tres comparaciones definidas en [7.36], las cuales, según
se ha señalado ya, permiten comparar entre sí, por pares, los tres efectos simples de A (es
decir, los tres efectos simples marcados con un recuadro en la Figura 7.3).
2. Supuestos: tenemos 6 muestras de tamaño n = 5 aleatoriamente seleccionadas de pobla-
ciones que asumimos normales y con la misma varianza.
3. Estadísticos del contraste (ver ecuaciones [6.34] y [6.35] en el capítulo anterior):
! = (1)13 + (!1)15 + (0) 8 + (!1) 7 + (1)13 + (0)10 = 4.
= (1)13 + (0)15 + (!1) 8 + (!1) 7 + (0)13 + (1)10 = 8.
= (0)13 + (1)15 + (!1) 8 + (0) 7 + (!1)13 + (1)10 = 4.
! = = 2,236.
Puesto que los coeficientes de las tres comparaciones son los mismos (aunque en di-
ferente orden), las tres comparaciones tienen el mismo error típico.
! TDB (1) = = 4 / 2,24 = 1,79.
TDB (2) = = 8 / 2,24 = 3,58.
TDB (3) = = 4 / 2,24 = 1,79.
4. Distribución muestral: los puntos críticos de la distribución muestral de TDB están en la

Tabla J del Apéndice final, con αF = 0,05, k = 3 y glerror = N ! JK = 30 ! 2(3) = 24.
$ t3, 24; 0,95 = 2,57.
5. Zona crítica: TDB >
6. Decisión: únicamente el valor de TDB (2) = 3,58 es mayor que el punto crítico 2,57. Por
tanto, debe rechazarse H0 (2) pero no H0 (1) ni H0 (3). El rechazo de H 0(2) indica que el efec-
to simple de A en b1 difiere del efecto simple de A en b3. Referido al gráfico de la Figu-
ra 7.3, esto significa que lo que ocurre en el recuadro 1 no es lo mismo que lo que ocurre
en el recuadro 3. Y lo que esto quiere decir es que el efecto de la dificultad de la tarea
sobre el rendimiento (efecto de A) no es el mismo cuando el nivel de ansiedad de los su-
jetos es bajo (b1) que cuando es alto (b2). En la tabla de medias (Tabla 7.6) se puede ob-
servar que, cuando el nivel de ansiedad es bajo (b1), el rendimiento en las tareas fáciles
es 6 puntos mayor que en las difíciles; mientras que, cuando el nivel de ansiedad es alto
(b3), el rendimiento medio en las tareas fáciles es 2 puntos menor que en las difíciles. El
rechazo de H 0(2) indica que la diferencia entre estas diferencias (los 8 puntos de la com-
paración nº 2) es estadísticamente significativa.
Por tanto, el resultado más destacable del análisis del efecto de la interacción es que
el efecto de la dificultad de la tarea (A) sobre el rendimiento (Y ) es uno cuando el nivel
de dificultad es bajo (b1) y otro distinto cuando el nivel de ansiedad es alto (b3).
Los resultados del análisis también indican que no es posible afirmar que el efecto
simple de A en b1 difiera del efecto simple de A en b2 (comparación nº 1 no significati-
va); y tampoco es posible afirmar que el efecto simple de A en b2 difiera del efecto sim-
ple de A en b3 (comparación nº 3 no significativa).
Tres comentarios más sobre el efecto de la interacción. En primer lugar, conviene saber que
el efecto de la interacción puede ser significativo tanto si los efectos principales son signi-
ficativos como si no. Y al revés.
En segundo lugar, es importante recordar que los efectos simples no informan de lo mis-
mo que el efecto de la interacción. Interpretar la interacción requiere comparar efectos sim-
ples; pero, analizar los efectos simples y decidir que difieren cuando unos son significativos
y otros no, no es comparar los efectos simples. En nuestro ejemplo sobre la relación entre el
rendimiento, la dificultad de la tarea y el nivel de ansiedad, hemos encontrado que el efecto
simple de A en b1 era significativo y que los efectos simples de A en b2 y b3 no lo eran. ¿Sig-
nifica esto que lo que ocurre con el efecto de A en b1 difiere de lo que ocurre con el efecto
de A en b2 y en b3? La respuesta es no: el resultado de las comparaciones entre los efectos
simples indican otra cosa. En el Apéndice 7 se discute más a fondo esta cuestión.
Por último, también es importante saber qué hacer con los efectos principales en pre-
sencia de una interacción significativa. Dado que una interacción significativa está indican-
do que el efecto de un factor no es el mismo en todos los niveles del otro factor, puede afir-
marse que el significado de los efectos principales queda matizado (incluso alterado) por la
presencia de una interacción significativa8 (ver León y Montero, 2003, págs. 278-282).
8
El grado en que un efecto principal puede verse alterado por la presencia de una interacción significativa depende de varios
factores, pero uno bastante determinante es que las líneas del gráfico de perfiles se crucen (interacción no ordinal) o no
(interacción ordinal).
Algunos autores sugieren que, siendo significativa la interacción, todavía podría tener senti-
do interpretar los efectos principales en determinadas circunstancias (ver, por ejemplo, Ho-
well, 2002, pág. 432; Keppel y Wickens, 2004, pág. 244; León y Montero, 2003, págs. 278-
279 y 295), pero otros muchos recomiendan no prestar atención a los efectos principales en
presencia de una interacción significativa (Games, 1973; Kirk, 1995, pág. 370; Maxwell y
Delaney, 2004, pág. 301; Pedhazur y Pedhazur, 1991, pág. 523; Winer, Brown y Michels,
1991, págs. 326-327). Cualquiera que sea la postura que se adopte, lo importante es tener
presente que, si el efecto de la interacción es significativo, los efectos principales no solo no
estarán contando toda la historia, sino que, además, es muy posible que la estén contando
mal. Y esto es algo que no debe pasarse por alto.
ANOVA de dos factores completamente aleatorizados con SPSS

En este apartado se explica cómo utilizar el SPSS para: (1) contrastar las hipótesis globales
referidas a los efectos de A, B y AB en un diseño de dos factores completamente aleatoriza-
dos, (2) estimar el tamaño del efecto y la potencia observada de esos tres efectos, (3) reali-
zar comparaciones post hoc para interpretar los efectos principales, (4) realizar compara-
ciones múltiples para valorar los efectos simples y (5) realizar comparaciones múltiples pa-
ra valorar el efecto de la interacción.
Todas estas tareas pueden llevarse a cabo con el procedimiento Univariante. No obstan-
te, veremos que las comparaciones necesarias para analizar el efecto de la interacción (la 5ª
tarea) es más fácil llevarlas a cabo con el procedimiento ANOVA de un factor. Utilizaremos el
ejemplo propuesto en la Tabla 7.5 sobre la relación entre el rendimiento (variable depen-
diente), la dificultad de la tarea (factor A) y el nivel de ansiedad (factor B ).
Hipótesis globales (efecto de A, de B y de AB )

Para llevar a cabo un análisis de varianza de dos factores completamente aleatorizados con
los datos de la Tabla 7.5:
dificultad ansiedad rendimiento que se encuentra en la página web del manual).
' Seleccionar la opción Modelo lineal general > Univariante del menú Analizar para acceder
al cuadro de diálogo Univariante y trasladar la variable rendimiento al cuadro Depen-
diente y las variables dificultad (dificultad de la tarea) y ansiedad (nivel de ansiedad) a
la lista Factores fijos9.
9
La lista Factores aleatorios permite ajustar modelos con factores de efectos aleatorios. La lista Covariables permite ajus-
tar modelos de análisis de covarianza (ver Apéndice 10). Y el cuadro Ponderación MCP permite utilizar una variable de
ponderación. En los modelos de ANOVA se asume que la varianza de la variable dependiente es la misma en todas las
poblaciones objeto de estudio. Cuando las varianzas poblacionales no son iguales (por ejemplo, cuando las casillas con pun-
tuaciones mayores muestran más variabilidad que las casillas con puntuaciones menores), el método de mínimos cuadra-
dos no consigue ofrecer estimaciones óptimas. En estos casos, si la diferencia en la variabilidad de las casillas puede esti-
marse a partir de alguna variable, el método de mínimos cuadrados ponderados (MCP) permite tener en cuenta esa variable
de ponderación al estimar los parámetros de un modelo lineal, dando más importancia a las observaciones más precisas (es
decir, a aquéllas con menor variabilidad).
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 7.11 y
7.12. La Tabla 7.11 informa del nombre de las variables independientes (factores), de sus
niveles, incluidos los códigos que se les ha asignado (valores) y las etiquetas de los valores,
y del número de casos en cada nivel de ambos factores (N).
Tabla 7.11. Factores inter-sujetos

Etiqueta del valor N
Dificultad de la tarea 1 Fácil 15
2 Difícil 15
Nivel de ansiedad 1 Bajo 10
2 Medio 10
3 Alto 10
La tabla resumen del ANOVA (Tabla 7.12) contiene la misma información que la tabla
resumen del modelo de un factor: las fuentes de variación, las sumas de cuadrados, los gra-
dos de libertad (gl ), las medias cuadráticas, los estadísticos F y los niveles críticos (sig.)
asociados a cada estadístico F. Pero, ahora, toda esa información no está referida a un úni-
co factor, sino a los tres efectos presentes en el modelo de dos factores: A, B y AB.
La fila modelo corregido se refiere a los tres efectos tomados juntos. Por tanto, recoge
la información relativa a lo que nosotros hemos llamado variabilidad intergrupos. La media
cuadrática de esta fila es MCI . El nivel crítico asociado al estadístico F (sig. < 0,0005) indi-
ca que el modelo (los tres efectos tomados juntos) explica una parte significativa de la va-
riabilidad de la variable dependiente (rendimiento).
En la fila intersección se está contrastando la hipótesis nula de que la media total vale
cero. Por tanto, contiene información que no tiene nada que ver con los efectos que realmen-
te interesa analizar en un modelo de dos factores (la suma de cuadrados de la intersección se
obtiene elevando al cuadrado la media total y multiplicando el resultado por el número de
observaciones).
Las tres filas siguientes informan de los efectos principales (dificultad y ansiedad ) y del
efecto de la interacción (dificultad * ansiedad ). Los correspondientes niveles críticos (sig.)
indican que los tres efectos son significativos (en los tres casos, sig. < 0,05). En consecuen-
cia, tanto la dificultad de la tarea como el nivel de ansiedad afectan al rendimiento. Pero el
hecho de que el efecto de la interacción sea significativo está indicando que el efecto de la
dificultad de la tarea sobre el rendimiento está condicionado por el nivel de ansiedad; o,
también, que el efecto del nivel de ansiedad sobre el rendimiento está condicionado por la
dificultad de la tarea. Enseguida haremos las comparaciones necesarias para interpretar el
efecto de la interacción.
La fila error contiene la información referida a la variabilidad intragrupos o error. Re-
cordemos que MCE es la mejor estimación que tenemos de la varianza del rendimiento en las
seis poblaciones con las que estamos trabajando.
La penúltima fila (total ) ofrece la suma de los cuadrados de todos los valores de la varia-
ble dependiente; sus grados de libertad son el número total de casos incluidos en el análisis.
Y la última fila (total corregida) informa sobre la variabilidad total, es decir sobre la
variabilidad de las puntuaciones de la variable dependiente como si todas ellas constituye-
ran una única muestra extraída de una única población. Esta variabilidad total (400) es la que
descomponemos en variabilidad intergrupos (250) y variabilidad intragrupos o error (150).
Tabla 7.12. Resumen del ANOVA. Contrastes de los efectos inter-sujetos

Suma de Media
Fuente cuadrados tipo III gl cuadrática F Sig.
a
Modelo corregido 250,00 5 50,00 8,00 ,000
Intersección 3.630,00 1 3.630,00 580,80 ,000
dificultad 30,00 1 30,00 4,80 ,038
ansiedad 140,00 2 70,00 11,20 ,000
dificultad * ansiedad 80,00 2 40,00 6,40 ,006
Error 150,00 24 6,25
Total 4.030,00 30
a. R cuadrado = ,625 (R cuadrado corregida = ,547)

La tabla resumen del ANOVA (Tabla 7.12) incluye, en una nota a pie de tabla, los valores
de R cuadrado = 0,625 y R cuadrado corregida = 0,547. R cuadrado se corresponde con lo
que nosotros hemos llamado (ver ecuación [7.19]). Y R cuadrado corregida = 0,547 es
el resultado de aplicar a la corrección propuesta en [6.14] (sustituyendo J por JK). Para
obtener las estimaciones del tamaño de cada efecto y la potencia observada:
' En el cuadro de diálogo Univariante, pulsar el botón Opciones para acceder al cuadro de
diálogo Univariante: Opciones y marcar las opciones Estimaciones del tamaño del efecto
y Potencia observada.
Al marcar estas dos opciones, la tabla resumen del ANOVA (Tabla 7.12) ofrece varias co-
lumnas adicionales con la información solicitada (Tabla 7.13).
Tabla 7.13. Resumen del ANOVA. Contrastes de los efectos inter-sujetos

Suma de Media Eta cuad. Parám. de Potencia
a
Fuente cuad. tipo III gl cuadrática F Sig. parcial no central. observada
b
Modelo corregido 250,00 5 50,00 8,00 ,000 ,63 40,00 1,00
Intersección 3.630,00 1 3.630,00 580,80 ,000 ,96 580,80 1,00
dificultad 30,00 1 30,00 4,80 ,038 ,17 4,80 ,56
ansiedad 140,00 2 70,00 11,20 ,000 ,48 22,40 ,98
dificultad * ansiedad 80,00 2 40,00 6,40 ,006 ,35 12,80 ,86
Error 150,00 24 6,25
Total 4.030,00 30
b. R cuadrado = ,625 (R cuadrado corregida = ,547)
La columna eta cuadrado parcial contiene los valores de correspondientes a cada

efecto (ver ecuación [7.20]). El valor del modelo corregido (que incluye los tres efectos de
interés) coincide con el de R cuadrado. El SPSS no estima (ecuación [7.22]), pero con
la información que contiene la Tabla 7.14 es fácil hacerlo. Por ejemplo, el valor de (an-
siedad ) puede obtenerse mediante
= = =
La siguiente (penúltima) columna de la tabla contiene los parámetros de no-centralidad de

cada distribución F. Estos valores son los que se utilizan para calcular la potencia observa-
da que aparece en la última columna de la tabla. En nuestros cálculos de la potencia ob-
servada (ver pág. 264) habíamos llegado a la conclusión de que la potencia del contraste era
ligeramente mayor de 0,97 (la Tabla G obliga a interpolar valores y eso hace perder algo de
precisión); ahora sabemos que la potencia del contraste vale 0,98. Por tanto, no parece que
se pierda mucha precisión con los cálculos basados en la Tabla G.
Comparaciones post hoc : efectos principales

Aunque ambos efectos principales (dificultad y ansiedad ) son significativos, interpretar el
efecto del factor A (dificultad ) no requiere realizar comparaciones adicionales porque sola-
mente tiene dos niveles. Para llevar a cabo comparaciones post hoc entre los tres niveles del
factor B (ansiedad ):
' En el cuadro de diálogo Univariante, pulsar el botón Post hoc para acceder al subcuadro
de diálogo Univariante: Comparaciones múltiples post hoc y trasladar la variable an-
siedad de la lista Factores a la lista Pruebas post hoc para.
' Marcar la opción Tukey del recuadro Asumiendo varianzas iguales y la opción Games- Ho-
well del recuadro No asumiendo varianzas iguales. Pulsar el botón Continuar para volver al
' Pulsar el botón Opciones para acceder al cuadro de diálogo Univariante: Opciones y
marcar la opción Pruebas de homogeneidad.
Aceptando estas elecciones, el Visor ofrece los resultados que recogen las Tablas 7.14 y 7.15.
La Tabla 7.14 ofrece el resultado de la prueba de Levene. La hipótesis que se contrasta con
esta prueba es que la varianza de la variable dependiente es la misma en las 6 poblaciones
definidas por la combinación de los niveles de ambos factores. El resultado de esta prueba
sirve para valorar si puede asumirse o no que las varianzas poblacionales son iguales y, por
tanto, para decidir si los datos deben interpretarse utilizando la prueba de Tukey o la prueba
de Games-Howell. En nuestro ejemplo, puesto que el estadístico F de Levene tiene asocia-
do un nivel crítico de 0,988 (mayor que 0,05), podemos asumir que las varianzas pobla-
cionales son iguales.
Tabla 7.14. Prueba de Levene sobre igualdad de varianzas

F gl1 gl2 Significación
,115 5 24 ,988
La Tabla 7.15 muestra el resultado de los dos procedimientos post hoc solicitados: Tukey y
Games-Howell. Con ambos procedimientos se llega a la misma conclusión: el rendimiento
de los sujetos con nivel de ansiedad medio es distinto del rendimiento de los sujetos con ni-
vel de ansiedad bajo (sig. = 0,004) y alto (sig. < 0,0005); y no puede afirmarse que el ren-
dimiento de estos dos grupos sea distinto (sig. = 0,649).
Si puede asumirse que las varianzas poblacionales son iguales es porque las varianzas
muestrales son parecidas; cuando ocurre esto, calcular el error típico de cada comparación
promediando las varianzas o sin promediarlas no supone una diferencia importante; y esto
se traduce en que los resultados obtenidos asumiendo varianzas iguales (Tukey) y sin asumir
tal cosa (Games-Howell) son parecidos. Si no puede asumirse que las varianzas poblaciona-
les son iguales, es posible que las pruebas de Tukey y de Games-Howell no den el mismo
resultado; en ese caso habrá que fiarse de lo que diga la prueba de Games-Howell.
Tabla 7.15. Comparaciones múltiples post hoc. Pruebas de Tukey y Games-Howell

al 95%.
(I) Nivel de (J) Nivel de Diferencia entre Límite Límite
ansiedad ansiedad medias (I-J) Error típ. Sig. inferior superior
DHS de Tukey Bajo Medio -4,00 1,118 ,004 -6,79 -1,21
Alto 1,00 1,118 ,649 -1,79 3,79
Medio Bajo 4,00 1,118 ,004 1,21 6,79
Alto 5,00 1,118 ,000 2,21 7,79
Alto Bajo -1,00 1,118 ,649 -3,79 1,79
Medio -5,00 1,118 ,000 -7,79 -2,21
Games-Howell Bajo Medio -4,00 1,468 ,039 -7,81 -,19
Alto 1,00 1,513 ,789 -2,91 4,91
Medio Bajo 4,00 1,468 ,039 ,19 7,81
Alto 5,00 1,155 ,001 2,05 7,95
Alto Bajo -1,00 1,513 ,789 -4,91 2,91
Medio -5,00 1,155 ,001 -7,95 -2,05
Comparaciones múltiples: efectos simples

Analizar los efectos simples con el SPSS requiere utilizar la sintaxis. Para valorar los efec-
tos simples de A (dificultad ) en cada nivel de B (ansiedad ):
' En el cuadro de diálogo Univariante, pulsar el botón Opciones para acceder al subcuadro
de diálogo Univariante: Opciones.
' Seleccionar el efecto de la interacción dificultad*ansiedad y trasladarlo a la lista Mostrar
las medias para; hacer lo mismo con uno de los dos efectos principales (aunque no te-
nemos ningún interés en ello, es necesario seleccionar algún efecto principal, da igual
cuál sea, para activar la opción Comparar los efectos principales).
' Marcar la opción Comparar los efectos principales y seleccionar Bonferroni en el menú des-
plegable Ajuste del intervalo de confianza. Pulsar el botón Continuar para volver al cuadro
de diálogo Univariante (ver Figura 15.1).
' Pulsar el botón Pegar para escribir en el Editor de sintaxis la sintaxis SPSS correspon-
diente a las elecciones hechas y modificar la línea «/EMMEANS = TABLES(dificultad*ansie-
dad)» añadiendo lo siguiente: «COMPARE(dificultad) ADJ(BONFERRONI)».
Al ejecutar la sintaxis se obtienen los resultados que muestran las Tablas 7.16 a 7.18. La
Tabla 7.16 contiene las medias estimadas10 de las casillas (es decir, de cada combinación
dificultad*ansiedad ). Éstas son las medias en las que se basan las comparaciones solicita-
das. Cuando los tamaños muestrales son iguales, el valor de las medias estimadas es el mis-
mo que el de las medias observadas (ver Tabla 7.16).
Tabla 7.16. Medias estimadas

Dificultad Nivel de Intervalo de confianza al 95%.
de la tarea ansiedad Media Error típ. Límite inferior Límite superior
Fácil Bajo 13,00 1,12 10,69 15,31
Medio 15,00 1,12 12,69 17,31
Alto 8,00 1,12 5,69 10,31
Difícil Bajo 7,00 1,12 4,69 9,31
Medio 13,00 1,12 10,69 15,31
Alto 10,00 1,12 7,69 12,31
Las Tablas 7.17 y 7.18 son el resultado de las modificaciones introducidas en la sintaxis. La
Tabla 7.17 ofrece el contraste de los efectos simples de A (dificultad de la tarea) en cada nivel
de B (nivel de ansiedad). En cada contraste se está comparando el rendimiento medio obteni-
do con tareas fáciles y con tareas difíciles. El único contraste significativo es el que se refiere
al nivel de ansiedad bajo. Esto quiere decir que la dificultad de la tarea únicamente afecta al
rendimiento cuando el nivel de ansiedad de los sujetos es bajo. Puede comprobarse que estos
resultados son idénticos a los que hemos obtenido en el ejemplo del apartado Efectos simples.
Tabla 7.17. Contrastes de los efectos simples (dificultad de la tarea)

Suma de Media
Nivel de ansiedad cuadrados gl cuadrática F Sig.
Bajo Contraste 90,00 1 90,00 14,40 ,001
Error 150,00 24 6,25
Medio Contraste 10,00 1 10,00 1,60 ,218
Error 150,00 24 6,25
Alto Contraste 10,00 1 10,00 1,60 ,218
Error 150,00 24 6,25
Cada prueba F contrasta el efecto de Dificultad de la tarea. Estos contrastes se basan en las
comparaciones por pares, linealmente independientes, entre las medias marginales estimadas.
10
Las medias estimadas son medias no ponderadas. Se calculan sin tener en cuenta el tamaño de las casillas (ver Searle,
Speed y Milliken, 1980). Todos los contrastes se realizan a partir de estas medias (son las medias que se utilizan en la es-
trategia conocida como sumas de cuadrados Tipo III , que es la que se aplica por defecto):
Las medias observadas son medias ponderadas (se utilizan en los contrastes cuando se opta por aplicar la estrategia cono-
cida como sumas de cuadrados Tipo I ):
, ,
Estas medias son las que se obtienen, por ejemplo, cuando se solicitan estadísticos descriptivos. Cuando todas las casillas
tienen el mismo número de casos, las medias estimadas (no ponderadas) y las observadas (ponderadas) son iguales.
Por último, la Tabla 7.18 ofrece las comparaciones por pares entre las medias de cada efecto
simple. Estas comparaciones se llevan a cabo controlando la tasa de error con el método de
Bonferroni (recordar la modificación que hemos introducido en la sintaxis) y se interpretan
exactamente igual que las comparaciones post hoc ya estudiadas. Puesto que en los efectos
simples analizados (dificultad de la tarea) únicamente intervienen dos medias (fácil, difícil),
las comparaciones de esta tabla coinciden con las de la Tabla 7.14 (además, al comparar
solamente dos medias, la corrección de Bonferroni no tiene ningún efecto).
Tabla 7.18. Comparaciones por pares entre las medias de cada efecto simple (dificultad de la tarea)
Intervalo de confianza al
a
95 % para la diferencia
Nivel de (I) Dificultad (J) Dificultad Diferencia entre Límite Límite
a
ansiedad de la tarea de la tarea medias (I-J) Error típ. Sig. inferior superior
Bajo Fácil Difícil 6,00 1,58 ,001 2,74 9,26
Medio Fácil Difícil 2,00 1,58 ,218 -1,26 5,26
Alto Fácil Difícil -2,00 1,58 ,218 -5,26 1,26
Basadas en las medias marginales estimadas.
a. Ajuste para comparaciones múltiples: Bonferroni.
Comparaciones múltiples: efecto de la interacción

Para interpretar el efecto de la interacción vamos a realizar dos tareas: (1) obtener un gráfi-
co de líneas o perfiles basado en las medias de las casillas y (2) comparar entre sí los efec-
tos simples de A (dificultad de la tarea) en cada nivel de B (nivel de ansiedad). Seguimos
trabajando con el procedimiento Univariante:
' En el cuadro de diálogo Univariante, pulsar el botón Gráficos para acceder al subcuadro
de diálogo Univariante: Gráficos de perfil.
' Trasladar la variable ansiedad al cuadro Eje horizontal y la variable dificultad al cuadro
Líneas separadas, y pulsar el botón Añadir para hacer efectiva la selección de variables.
Aceptando estas elecciones, el Visor de resultados ofrece un gráfico de líneas como el que
muestra la Figura 7.4. En él están representadas las medias de las casillas (ver Tabla 7.6).
Figura 7.4. Gráfico de perfiles: nivel de ansiedad por dificultad de la tarea

Una rápida inspección del gráfico permite formarse una primera impresión sobre el posible
significado de la interacción. Parece que lo que ocurre cuando el nivel de ansiedad es bajo
(se rinde mucho mejor en las tareas fáciles) no es lo mismo que lo que ocurre cuando el nivel
de ansiedad es medio (se rinde un poco mejor en las tareas fáciles) o alto (se rinde un poco
mejor en las tareas difíciles). También parece que lo que ocurre cuando el nivel de ansiedad
es medio no es lo mismo que lo que ocurre cuando el nivel de ansiedad es alto.
Pero todo esto no son más que conjeturas basadas en las diferencias observadas. Los
contrastes de los efectos simples llevados a cabo en el apartado anterior indican que la única
diferencia significativa se da en el nivel de ansiedad bajo. ¿Quiere esto decir que lo que
ocurre en ese nivel es distinto de lo que ocurre en los otros dos, y que lo que ocurre en estos
dos es lo mismo? Ya hemos señalado que la respuesta a esta pregunta es no. Para poder ha-
cer una afirmación de este tipo es necesario comparar entre sí los efectos simples; no basta
con decidir cuál de ellos es significativo y cuál no.
Para comparar entre sí los efectos simples vamos a realizar las comparaciones definidas
en [7.36]. Y lo vamos a hacer con el procedimiento ANOVA de un factor. Es decir, vamos a
tratar las 6 casillas de nuestro diseño como si fueran los 6 niveles de un único factor. Para
hacer esto necesitamos crear una variable con 6 códigos distintos (uno por casilla). En el ar-
chivo Tabla 7.5 dificultad ansiedad rendimiento hemos creado la variable grupo asignando
el código 1 a la casilla ab11, el código 2 a la casilla ab12, el código 3 a la casilla ab13, el códi-
go 4 a la casilla ab21, el código 5 a la casilla ab22 y el código 6 a la casilla ab23. Una vez crea-
da esta variable:
' Seleccionar la opción Comparar medias > ANOVA de un factor del menú Analizar para acce-
der al cuadro de diálogo ANOVA de un factor y trasladar la variable rendimiento a la lista
Dependientes y la variable grupo al cuadro Factor.
' Pulsar el botón Contrastes para acceder al cuadro de diálogo ANOVA de un factor: Con-
trastes y comenzar a introducir los coeficientes correspondientes a las tres comparaciones
definidas en [7.36] utilizando el cuadro de texto Coeficientes y el botón Añadir: introducir
los coeficientes de la primera comparación (1, !1, 0, !1, 1, 0) y pulsar el botón Siguiente;
introducir los coeficientes de la segunda comparación (1, 0, !1, !1, 0, 1) y pulsar el bo-
tón Siguiente; introducir los coeficientes de la tercera comparación (0, 1, !1, 0, !1, 1).
Aceptando estas selecciones el Visor ofrece, entre otros, los resultados que muestran las Ta-
blas 7.19 y 7.20. La primera de ellas contiene los coeficientes asignados a las tres compa-
raciones que hemos definido. Estos coeficientes sirven para identificar las comparaciones que
se están llevando a cabo y, por supuesto, para comprobar que, efectivamente, se correspon-
den con las que hemos definido.
Tabla 7.19. Coeficientes para comparar los efectos simples

Dificultad de la tarea x Nivel de ansiedad
Contraste Fácil - Bajo Fácil - Medio Fácil - Alto Difícil - Bajo Difícil - Medio Difícil - Alto
1 1 -1 0 -1 1 0
2 1 0 -1 -1 0 1
3 0 1 -1 0 -1 1
La Tabla 7.20 ofrece los resultados de las tres comparaciones solicitadas agrupados en dos
bloques. En el primer bloque, las comparaciones están evaluadas asumiendo que las varian-
zas poblacionales son iguales; en el segundo, sin asumir tal cosa. Aunque ambas estrategias
suelen llevar a la misma conclusión, debe utilizarse la que se ajuste a las características de
los datos. Para esto, debe tenerse en cuenta el resultado obtenido previamente al contrastar
la hipótesis de igualdad de varianzas con la prueba de Levene. Puesto que en nuestro ejem-
plo puede asumirse que las varianzas poblacionales son iguales (ver Tabla 7.14), los resul-
tados que deben interpretarse son los del primer bloque (asumiendo igualdad de varianzas).
El contenido de esta tabla ya se ha explicado en el capítulo anterior. Incluye, para cada
comparación solicitada, el valor de la comparación (contraste), su error típico, el estadísti-
co del contraste (t), sus grados de libertad y el nivel crítico (sig. bilateral ). La hipótesis nula
que se pone a prueba con cada contraste es que los promedios poblacionales comparados son
iguales. Para tomar decisiones sobre estas hipótesis debe tenerse en cuenta que el procedi-
miento no aplica ninguna corrección para controlar la tasa de error. Para aplicar la correc-
ción de Bonferroni, basta con comparar cada nivel crítico (sig. bilateral) con αF dividida por
el número de comparaciones; en nuestro ejemplo, αC = 0,05/ 3 = 0,017.
Con los niveles críticos obtenidos (sig. bilateral ) debe decidirse: (1) mantener la hipó-
tesis nula referida al primer contraste (pues 0,086 > 0,017), (2) rechazar la hipótesis nula re-
ferida al segundo contraste (pues 0,002 < 0,017) y (3) mantener la hipótesis nula referida al
tercer contraste (pues 0,086 > 0,017). En consecuencia, puede concluirse que el efecto de la
dificultad de la tarea no es el mismo cuando el nivel de ansiedad es bajo y cuando es alto. En
el apartado Efecto de la interacción puede encontrarse un comentario más detallado de estos
resultados.
Tabla 7.20. Comparaciones entre los efectos simples (dificultad de la tarea)

Rendimiento
Valor del Error Sig.
Contraste contraste típico t gl (bilateral)
Asumiendo igualdad de 1 4,00 2,24 1,79 24 ,086
varianzas 2 8,00 2,24 3,58 24 ,002
3 4,00 2,24 1,79 24 ,086
No asumiendo igualdad 1 4,00 2,17 1,85 14,80 ,085
de varianzas 2 8,00 2,30 3,47 15,04 ,003
3 4,00 2,24 1,79 15,67 ,093
Apéndice 7
Casillas con tamaños muestrales distintos
Aunque lo habitual es planificar un estudio con la intención de utilizar el mismo número de casos en
todas las condiciones (diseño equilibrado o balanceado), lo cierto es que esta circunstancia raramen-
te se da. Las razones por las que podemos encontrarnos con tamaños muestrales distintos son de diver-
sa naturaleza: puede haber descuido del investigador al seleccionar los sujetos o errores al registrar sus
respuestas; puede que algunos sujetos de los seleccionados no ofrezcan respuestas válidas para el estu-
dio; puede que se esté trabajando con grupos ya formados cuyo tamaño no depende del investigador
(estudiantes de un aula); etc. Cuando se trabaja con tamaños muestrales distintos las inferencias se
complican bastante, pues los efectos de A, B y AB dejan de ser independientes entre sí; no obstante,
todavía es posible analizarlos.
¿Por qué la presencia de tamaños muestrales distintos complica las cosas? Consideremos un di-
seño 2 × 2 como el que muestra la Tabla 7.21. El factor A (tratamiento) define dos grupos: sujetos tra-
tados y no tratados (grupos experimental y control); el factor B (sexo) define dos grupos: hombres y
mujeres. La variable dependiente es una variable cuantitativa que vamos a llamar recuperación. Ima-
ginemos que hemos seleccionado una muestra de 10 hombres y otra de 10 mujeres y que hemos
aplicado el tratamiento a la mitad de los sujetos de cada muestra (5 sujetos por condición o casilla).
Por circunstancias ajenas al investigador, al final del estudio han quedado 6 hombres y 6 mujeres. La
tabla muestra las puntuaciones de los 12 sujetos, las medias de las casillas y las medias marginales.
Tanto las medias de las casillas como las medias marginales de las filas indican que los sujetos
tratados (grupo experimental) puntúan en recuperación el doble que los sujetos no tratados (grupo
control); y esto, tanto en el caso de los hombres como en el de las mujeres. Sin embargo, las medias
marginales de las columnas (las medias de las seis puntuaciones de cada columna) dicen otra cosa:
parece que los hombres (media = 8) se benefician del tratamiento menos que las mujeres (media = 10).
Esta aparente inconsistencia se debe al hecho de que, entre los hombres, el grupo que puntúa más alto
es el menos numeroso, mientras que, entre las mujeres, el grupo que puntúa más alto es el más nume-
roso. Por supuesto, esta aparente inconsistencia también se debe al hecho de que las medias margi-
nales se han calculado teniendo en cuenta el tamaño de las casillas.
Si los tamaños de las casillas reflejaran el tamaño de sus respectivas poblaciones, estas medias
marginales (8 y 10) podrían tener algún sentido; de hecho, desde el punto de vista descriptivo, estas
medias serían las que mejor estarían informando de lo que ocurre en la población; incluso podría ocu-
rrir que estas medias fueran el objetivo principal de un estudio inferencial. Pero, por lo general, esto
no es lo que suele ocurrir en un diseño factorial; al analizar diferencias, las medias marginales no de-
berían decir nada distinto de lo que están diciendo las medias de las casillas. No parece razonable que
el efecto de un tratamiento pueda depender del número de sujetos a los que se aplica; como tampoco
parece razonable que las posibles diferencias entre hombres y mujeres puedan variar en función del
número de hombres y mujeres incluidos en el estudio.
Tabla 7.21. Diseño 2 × 2 con tamaños muestrales distintos (no balanceado)
Sexo
Tratamiento Hombres Mujeres Medias
11 10, 11
Grupo
13 13, 14 12
experimental
media = 12 media = 12
4, 5 5
Grupo
7, 8 7 6
control
media = 6 media = 6
Medias 8 10 9
La solución pasa por calcular las medias marginales sin tener el cuenta el tamaño de las casillas. Esto
daría para las dos medias marginales de las columnas un valor de (12 + 6) / 2 = 9, que es lo que cabría
esperar después de ver lo que ocurre en las casillas. Ambas formas de calcular las medias son numé-
ricamente correctas, pero informan de cosas distintas (ver nota a pie de página nº 10).
Aunque se han propuesto diferentes procedimientos para analizar los diseños con tamaños mues-
trales distintos, ninguno de ellos parece representar una solución definitiva. Si los tamaños de las ca-
sillas son proporcionales a los tamaños de sus respectivos marginales (nj k = nj+ n+k /N ), siguen siendo
válidas las fórmulas propuestas en este capítulo para el caso de tamaños muestrales iguales. Si los ta-
maños de las casillas no son proporcionales, una solución sencilla, que funciona bastante bien, consis-
te en aplicar las fórmulas descritas en este capítulo sustituyendo n por la media armónica de los ta-
maños de las casillas. Otras soluciones más complejas es preferible abordarlas utilizando algún pro-
grama informático (Maxwell y Delaney, 2004, págs. 320-343, ofrecen un amplia discusión de toda
esta problemática).
Nuestra intención al incluir este breve apartado sobre la complicación añadida que supone utili-
zar tamaños muestrales distintos no es que aprendamos a hacer cálculos a mano. Las soluciones que
mejor funcionan son lo bastante complejas como para requerir la ayuda de un programa informático.
Y eso es lo que debemos aprender a hacer. Pero conviene no olvidar que hay distintas formas de calcu-
lar medias marginales y que esas diferentes formas de cálculo pueden llevar a conclusiones distintas.
Más sobre los efectos simples y el efecto de la interacción

Los efectos simples están estrechamente relacionados con el efecto de la interacción. De hecho, una
de las formas habituales de definir el efecto de la interacción se basa en la relación entre los efectos
simples: decimos que existe interacción entre dos factores cuando los efectos simples correspondien-
tes al mismo efecto principal no son iguales.
Consideremos un diseño 2 × 2. La diferencia µ 11 ! µ 21 es el efecto simple de A en b1; y la dife-
rencia µ 12 ! µ 22 es el efecto simple de A en b2. Afirmar que existe efecto de la interacción equivale a
afirmar que el efecto simple de A en b1 difiere del efecto simple de A en b2. Esta forma de entender la
interacción entre factores implica que la comparación entre efectos simples puede utilizarse para ana-
lizar e interpretar el efecto de la interacción.
Pero comparar efectos simples no es lo mismo que analizarlos por separado. Y lo que ocurre con
frecuencia en la investigación aplicada (ver Pardo, Garrido, Ruiz y San Martín, 2007) es que la compa-
ración entre efectos simples se interpreta de esta incorrecta manera: si al valorar la significación de los
dos efectos simples del factor A se comprueba que uno de ellos es significativo y el otro no, se puede
concluir que los efectos simples del factor A no son iguales. ¿Por qué decimos que esta interpretación
es incorrecta? Porque se está afirmando que son distintas dos cosas que no se han comparado; es decir,
porque se está afirmando que el efecto simple de A en b1 difiere del efecto simple de A en b2 sin haber
comparado entre sí ambos efectos simples. Y ocurre que uno de los dos efectos simples de A podría ser
significativo y el otro no tanto si existe interacción significativa como si no; y ambos efectos simples
podrían ser significativos o no significativos tanto si existe interacción significativa como si no (ver
Keppel y Wickens, 2004, pág. 254). La razón de esta aparente inconsistencia radica en el hecho de que
un efecto simple incluye parte del efecto principal y parte del de la interacción. Lo cual implica que un
efecto simple puede ser significativo porque es significativa la parte de efecto principal que incluye,
porque es significativa la parte del efecto de la interacción, o porque son significativas ambas partes.
Que los efectos simples incluyen tanto efectos principales como de interacción está suficiente-
mente documentado en la bibliografía estadística (Kirk, 1995, págs. 377-378; Winer, Brown y Mi-
chels, 1991, págs. 326-332). Expertos de la talla de Kirk han llegado a afirmar que “contrastar hipóte-
sis sobre los efectos simples... puede ser interesante, pero no ayuda a comprender la interacción entre
dos variables”(1995, pág. 383). A pesar de esto, no pocos manuales de diseño y análisis presentan los
efectos simples como la estrategia apropiada (y en algunos casos única) para interpretar los datos en
presencia de una interacción significativa (Howell, 2002, págs. 432, 489; Jaccard, 1998, pág. 20; Ke-
ppel y Wickens, 2004, págs. 247; Maxwell y Delaney, 2004, pág. 308; Myers y Well, 2003, pág. 304;
Pedhazur y Pedhazur, 1991, pág. 509; etc.). Algo parecido sucede también con las referencias en es-
pañol (ver, por ejemplo, Ato y Vallejo, 2007, págs. 193, 198-200; Pascual, 1998, pág. 97).
La razón por la cual nos parece conveniente destacar esta idea es por las importantes implicaciones
prácticas que se derivan de ella. Imaginemos que el factor A define dos grupos de tratamiento (GE =
experimental y GC = control) y que el factor B representa dos momentos en el tiempo (pre- y postrata-
miento). En un diseño de estas características el investigador suele estar interesado en averiguar si el

tratamiento tiene algún efecto sobre el grupo experimental; por supuesto, algún efecto distinto del no-
tratamiento sobre el grupo control. Para obtener esta información no basta con analizar el efecto prin-
cipal del factor A, sino que es necesario comparar lo que ocurre en el postratamiento (efecto simple de
A en b2) con lo que ocurre en el pretratamiento (efecto simple de A en b1). Ahora bien, si para realizar
esta comparación se recurre al análisis de los efectos simples por separado (estrategia habitualmente
utilizada; ver Pardo, Garrido, Ruiz y San Martín, 2007), puede ocurrir que, siendo significativo el efec--
to de la interacción, no haya diferencias significativas entre GE y GC ni en el pre- ni en el postrata-
miento (ver Figura 7.5.a), o haya diferencias significativas tanto en el pre- como en el postratamiento
(ver Figura 7.5.b). En la estrategia basada en el análisis de los efectos simples por separado, cualquie-
ra de estos dos resultados llevaría a concluir que no es posible afirmar que exista efecto del tratamien-
to. Sin embargo, en clara discrepancia con esta conclusión, la presencia de una interacción significativa
estaría indicando que la diferencia entre GE y GC no es la misma en el pre- y en el postratamiento; lo
cual debería llevar a concluir que existe efecto del tratamiento (pues, en un diseño de estas caracte-
rísticas, una interacción significativa implica efecto del tratamiento).
También puede ocurrir que, no siendo significativo el efecto de la interacción (es decir, no ha-
biendo diferencias entre lo que ocurre en el pre- y en el postratamiento), la diferencia entre GE y GC
en el pretratamiento (efecto simple de A en b1) no sea significativa y sí lo sea la diferencia entre GE y
GC en el postratamiento (efecto simple de A en b2). Este resultado podría llevar a afirmar que existe
efecto del tratamiento cuando el hecho de que la interacción sea no significativa estaría descartando es-
ta posibilidad (ver Figura 7.5.c).
Figura 7.5. Diferentes pautas de interacción en un diseño 2 × 2

a b c
5 5 GE 5
GE
4 4 4
GE
3 3 3
2 GC 2 2
GC
1 1 GC 1
0 0 0
pre- post- pre- post- pre- post-
Por tanto, para poder afirmar que existe efecto del tratamiento no basta con saber que GE y GC no difie-
ren en el pre- y sí en el postratamiento, como tampoco basta con saber que GE cambia entre el pre- y
el postratamiento mientras que GC no lo hace (de todo esto es de lo que informan los efectos simples).
Para poder afirmar que existe efecto del tratamiento, la diferencia observada en el post- hay que refe-
rirla a la observada en el pretratamiento (o, de forma equivalente, el cambio observado en GE entre el
pre- y el postratamiento hay que referirlo al cambio observado en GC), y esto solo es posible hacerlo
comparando diferencias, que es justamente lo que se hace cuando se analiza el efecto de la interacción.
Aunque una interacción significativa coincidirá, en muchos casos, con la presencia de efectos sim-
ples diferenciados (es decir, unos significativos y otros no), esto no tiene por qué ser necesariamente
así. Por tanto, si bien el análisis de los efectos simples por separado puede llevar a las mismas con-
clusiones que la comparación entre ellos, esa estrategia debe considerarse inapropiada porque puede
llevar a conclusiones incorrectas.
La sentencia LMATRIX
Al margen de las comparaciones que es posible llevar a cabo desde los cuadros de diálogo del SPSS,
la sentencia LMATRIX permite efectuar cualquier tipo de comparación mediante sintaxis: permite va-
lorar la significación de los efectos simples, realizar comparaciones entre los diferentes niveles de un
mismo efecto simple para precisar dónde están las diferencias, realizar comparaciones entre diferentes
efectos simples para interpretar el efecto de la interacción, etc.
La sentencia LMATRIX permite realizar estas comparaciones asignando valores a los coeficientes
de la matriz L en la hipótesis general LB = 0 (B representa el vector de parámetros). El modelo esta-
dístico correspondiente a un diseño de dos factores completamente aleatorizados (ver Capítulo 1 del
tercer volumen) adopta la forma
( j se refiere a los niveles del primer factor y k a los niveles del segundo factor). En nuestro ejemplo,
el modelo puede representarse mediante
rendimiento jk = constante + dificultad j + ansiedad k + dificultad*ansiedad jk
(con j = 1, 2; k = 1, 2, 3). La parte izquierda de la ecuación recoge los pronósticos del modelo, es de-
cir, el rendimiento que el modelo pronostica para cada combinación entre los niveles de los factores
(para cada casilla del diseño). La parte derecha de la ecuación recoge las dos variables independien-
tes y la interacción entre ambas. El modelo incluye doce parámetros: la constante, los dos niveles de
dificultad, los tres niveles de ansiedad y los seis parámetros resultantes de combinar los dos niveles
de dificultad con los tres niveles de ansiedad. Es decir, el vector de parámetros B incluye los siguien-
tes parámetros:
B N = (constante, dificultad 1, dificultad 2, ansiedad 1, ansiedad 2, ansiedad 3,
dificultad*ansiedad 11, dificultad*ansiedad 12, dificultad*ansiedad 13,
dificultad*ansiedad 21, dificultad*ansiedad 22, dificultad*ansiedad 23)
Y la matriz de coeficientes L incluye el peso o coeficiente asignado a cada parámetro del modelo:
L = (l1, l2, l3, l4, l5, l6, l7, l8, l9, l10, l11, l12)
Para definir contrastes personalizados basta con especificar los valores que deben tomar los coeficien-
tes de la matriz L en la expresión LB:
LB = l1 constante + l2 dificultad 1 + l3 dificultad 2 + l4 ansiedad 1 + l5 ansiedad 2 + l6 ansiedad 3 +
l7 dificultad*ansiedad 11 + l8 dificultad*ansiedad 12 + l9 dificultad*ansiedad 13 +
l10 dificultad*ansiedad 21 + l11 dificultad*ansiedad 22 + l12 dificultad*ansiedad 23
Análisis de los efectos simples
La sentencia LMATRIX permite definir contrastes personalizados asignando a cada parámetro los coe-
ficientes apropiados. Para comparar, por ejemplo, las dos dificultades (fácil, difícil) en el primer nivel
de ansiedad (bajo), a los coeficientes l2 y l7 asociados a los parámetros correspondientes a la primera
categoría de dificultad (dificultad 1) y a la combinación de la primera categoría de dificultad con la
primera de ansiedad (dificultad*ansiedad 11) se les asigna un valor de 1; y a los coeficientes l3 y l10
asociados a los parámetros correspondientes a la segunda categoría de dificultad (dificultad 2) y a la
combinación de la segunda categoría de dificultad con la primera de ansiedad (dificultad*ansiedad 21)
se les asigna un valor de !1. Al resto de coeficientes se les asignan ceros para excluir del contraste los
efectos que no intervienen en la comparación. Por tanto, la expresión LB correspondiente a la com-
paración de las dos dificultades en el primer nivel de ansiedad queda de la siguiente manera:
LB = (1) dificultad 1 + (1) dificultad*ansiedad 11 + (!1) dificultad 2 + (!1) dificultad*ansiedad 21
= (dificultad 1 ! dificultad 2) + (dificultad*ansiedad 11 ! dificultad*ansiedad 21)
En la primera parte de la expresión se están comparando las dos dificultades; en la segunda parte se
indica que la comparación entre las dos dificultades debe limitarse al primer nivel de ansiedad. De
modo similar, la expresión LB correspondiente a la comparación de las dos dificultades en el segun-
do nivel de ansiedad adopta la forma
Por último, la expresión LB correspondiente a la comparación de las dos dificultades en el tercer nivel
de ansiedad adopta la forma
Como ya hemos dicho, la sentencia LMATRIX permite valorar cualquier comparación entre medias
mediante el contraste de hipótesis nulas del tipo LB = 0. Para contrastar estas hipótesis (los datos se
encuentran en el archivo Tabla 7.5 dificultad ansiedad rendimiento):
' En el cuadro de diálogo Univariante, trasladar la variable rendimiento a la lista Dependiente y las
variables dificultad (dificultad de la tarea) y ansiedad (nivel de ansiedad) y trasladarlas a la lis-
ta Factores fijos.
' Pulsar el botón Pegar para obtener la sintaxis correspondiente a las elecciones hechas.
El Editor de sintaxis muestra el siguiente resultado:

UNIANOVA
Rendimiento BY dificultad ansiedad
/METHOD = SSTYPE(3)
/INTERCEPT = INCLUDE
/CRITERIA = ALPHA(.05)
/DESIGN = dificultad ansiedad dificultad*ansiedad.
METHOD indica que se van a utilizar las sumas de cuadrados Tipo III; INTERCEPT recuerda que el
modelo solicitado incluye la constante; CRITERIA establece el nivel de significación que se utilizará
para construir los intervalos de confianza; y DESIGN recoge los efectos incluidos en el modelo. Los
valores asignados a estas cuatro sentencias son los que el procedimiento UNIANOVA utiliza por defec-
to; por tanto, no es necesario incluirlos. Para poder efectuar contrastes personalizados es necesario
añadir a la sintaxis la sentencia LMATRIX:
UNIANOVA
rendimiento BY dificultad ansiedad
/LMATRIX = ‘Comparaciones entre las dos dificultades en cada nivel de ansiedad’
dificultad 1 –1 dificultad*ansiedad 1 0 0 –1 0 0;
dificultad 1 –1 dificultad*ansiedad 0 1 0 0 –1 0;
dificultad 1 –1 dificultad*ansiedad 0 0 1 0 0 –1.
La expresión entre apóstrofos de la sentencia LMATRIX es una etiqueta descriptiva que servirá para
identificar los resultados en el Visor. A continuación aparecen definidas las tres comparaciones entre
las dos dificultades dentro de cada nivel de ansiedad; es decir, las tres comparaciones correspondien-
tes a los efectos simples del factor A (dificultad ). En la primera línea, los coeficientes de la primera
parte (dificultad ) comparan las dos dificultades (estos coeficientes son los que en la expresión LB es-
tán asociados a los efectos dificultad1 y dificultad 2); y los coeficientes de la segunda parte (dificultad*
ansiedad ) indican que esa comparación entre las dos dificultades debe hacerse dentro del primer ni-
vel de ansiedad, pues los coeficientes 1 y !1 se han asignado a los parámetros dificultad*ansiedad 11
y dificultad*ansiedad 21 (estos 6 coeficientes se corresponden con las 6 casillas del diseño en el orden
1-1, 1-2, 1-3, 2-1, 2-2 y 2-3 ). En la segunda línea, los coeficientes indican que la comparación entre
las dos dificultades debe hacerse dentro del segundo nivel de ansiedad, pues los coeficientes 1 y !1 se
han asignado a los parámetros dificultad*ansiedad 12 y dificultad*ansiedad 22. En la tercera línea, los
coeficientes indican que la comparación entre las dos dificultades debe hacerse dentro del tercer nivel
de ansiedad, pues los coeficientes 1 y !1 se han asignado a los parámetros dificultad*ansiedad 13 y
dificultad*ansiedad 23.
Ejecutando esta sintaxis se obtienen, entre otros, los resultados que muestra la Tabla 7.22. Estos
resultados son idénticos a los ya obtenidos al estudiar los efectos simples con otra estrategia diferen-
te (ver Tabla 7.18), con la diferencia de que ahora no se está aplicando la corrección de Bonferroni al
calcular los niveles críticos ni al construir los intervalos de confianza. Los niveles críticos (sig.) per-
miten concluir que la dificultad de la tarea únicamente afecta al rendimiento cuando el nivel de an-
siedad es bajo (contraste L1 ).
Tabla 7.22. Contrastes de los efectos simples de dificultad de la tarea

Intervalo de confianza al 95
Estimación Valor Diferencia (Estim. Error % para la diferencia
a
Contraste del contraste hipotetizado - Hipotetiz.) típico Sig. Lím. inferior Lím. superior
L1 6,00 0 6,00 1,58 ,001 2,74 9,26
L2 2,00 0 2,00 1,58 ,218 -1,26 5,26
L3 -2,00 0 -2,00 1,58 ,218 -5,26 1,26
a. Basada en la matriz de coeficientes de contraste (L') definida por el usuario: comparaciones entre las dos
dificultades en cada nivel de ansiedad
Comparaciones entre los niveles de un mismo efecto simple
Puesto que la variable dificultad únicamente tiene dos niveles, basta con hacer una comparación entre
dificultades por cada nivel de ansiedad (tres comparaciones en total); cada una de esas tres compara-
ciones capta el efecto de la dificultad en cada nivel de ansiedad; es decir, cada una de esas tres com-
paraciones corresponde a uno de los tres efectos simples del factor dificultad.
Cuando el factor analizado tiene más de dos niveles, además de valorar los efectos simples, pue-
de interesar comparar entre sí las medias involucradas en cada efecto simple. Por ejemplo, los efectos
simples del factor ansiedad son dos: uno por cada dificultad. Pero cada efecto simple del factor an-
siedad incluye tres medias. Para precisar el significado de cada efecto simple del factor ansiedad hay
que comparar por pares las medias correspondientes a sus tres niveles (tres comparaciones por cada
dificultad; seis comparaciones en total). Estas comparaciones pueden hacerse utilizando dos sentencias
LMATRIX: una con las comparaciones referidas a la primera dificultad (fácil) y otra con las referidas
a la segunda dificultad (difícil). La sintaxis correspondiente a estas comparaciones es la siguiente:
UNIANOVA
/LMATRIX = ‘Comparaciones entre los niveles de ansiedad en dificultad = fácil’
ansiedad 1 –1 0 dificultad*ansiedad 1 –1 0 0 0 0;
ansiedad 1 0 –1 dificultad*ansiedad 1 0 –1 0 0 0;
ansiedad 0 1 –1 dificultad*ansiedad 0 1 –1 0 0 0
/LMATRIX = ‘Comparaciones entre los niveles de ansiedad en dificultad = difícil’
ansiedad 1 –1 0 dificultad*ansiedad 0 0 0 1 –1 0;
ansiedad 1 0 –1 dificultad*ansiedad 0 0 0 1 0 –1;
ansiedad 0 1 –1 dificultad*ansiedad 0 0 0 0 1 –1.
Ejecutando esta sintaxis se obtienen los resultados que muestran las Tablas 7.23 a 7.26. La Tabla 7.23
ofrece las comparaciones entre los tres niveles de ansiedad dentro de la primera categoría de dificul-
tad (fácil). La nota a pie de tabla muestra la etiqueta incluida en la sintaxis. En L1 se están compa-
rando los niveles de ansiedad bajo y medio; en L2, los niveles bajo y alto; en L3, los niveles medio y
alto. El nivel crítico asociado a L2 (sig. = 0,004) indica que, cuando la tarea es fácil, el rendimiento
medio de los sujetos con nivel de ansiedad bajo difiere del rendimiento medio de los sujetos con nivel
de ansiedad alto. El nivel crítico asociado a L3 (sig. < 0,0005) indica que, cuando la tarea es fácil, el
rendimiento de los sujetos con nivel de ansiedad medio difiere del rendimiento de los sujetos con nivel
de ansiedad alto (no debe olvidarse que al realizar estas comparaciones no se está aplicando ningún
tipo de corrección para controlar la tasa de error).
Por tanto, cuando la tarea es fácil, el rendimiento en los tres niveles de ansiedad no es el mismo.
La Tabla 7.24 ofrece una valoración del efecto global del nivel de ansiedad en la primera categoría de
dificultad (fácil), es decir, una valoración del primero de los dos efectos simples del nivel de ansiedad.
El nivel crítico (sig. = 0,001) indica que ese efecto simple es significativamente distinto de cero (con-
firmando lo que ya nos ha dicho la Tabla 7.23, es decir, confirmando que, cuando la tarea es fácil, el
rendimiento medio no es el mismo en los tres niveles de ansiedad).
Tabla 7.23. Comparaciones entre las medias de nivel de ansiedad en el primer nivel de dificultad (fácil)
Estimación Valor Diferencia (Estim. Error 95% para la diferencia
a
L1 -2,00 0 -2,00 1,58 ,218 -5,26 1,26
L2 5,00 0 5,00 1,58 ,004 1,74 8,26
L3 7,00 0 7,00 1,58 ,000 3,74 10,26
a. Basada en la matriz de coeficientes de contraste (L') definida por el usuario: Comparaciones entre los
niveles de ansiedad en dificultad = fácil
Tabla 7.24. Contraste del efecto simple de nivel de ansiedad en el primer nivel de dificultad (fácil)
Suma de Media
Fuente cuadrados gl cuadrática F Sig.
Contraste 130,00 2 65,00 10,40 ,001
Error 150,00 24 6,25
La Tabla 7.25 ofrece las comparaciones entre los tres niveles de ansiedad dentro del segundo nivel de
dificultad (difícil). Ahora solamente es significativa la comparación L1 (sig. = 0,001): cuando la tarea
es difícil, el rendimiento de los sujetos con nivel de ansiedad bajo difiere del de los sujetos con nivel
de ansiedad medio. El resto de comparaciones no son significativas. Los resultados de la Tabla 7.26
confirman que el segundo efecto simple de nivel de ansiedad es significativo (sig. = 0,004).
Tabla 7.25. Comparaciones entre las medias de nivel de ansiedad en el segundo nivel de dificultad (difícil)
Estimación Valor Diferencia (Estim. Error 95% para la diferencia
a
L1 -6.00 0 -6.00 1.58 ,001 -9.26 -2.74
L2 -3.00 0 -3.00 1.58 ,070 -6.26 .26
L3 3.00 0 3.00 1.58 ,070 -.26 6.26
a. Basada en la matriz de coeficientes de contraste (L') definida por el usuario: Comparaciones entre los
niveles de ansiedad en dificultad = difícil
Tabla 7.26. Contraste del efecto simple de nivel de ansiedad en el segundo nivel de dificultad (difícil)
Suma de Media
Contraste 90,00 2 45,00 7,20 ,004
Error 150,00 24 6,25
Análisis del efecto de la interacción

Las sumas de cuadrados de los dos efectos simples de nivel de ansiedad suman 130 + 90 = 220 ver
Tablas 7.24 y 7.26), es decir, lo mismo que las sumas de cuadrados correspondientes al efecto prin-
cipal de nivel de ansiedad y a la interacción: 140 + 80 = 220 (ver Tabla 7.12). Este dato viene a con-
firmar que los efectos simples incluyen el correspondiente efecto principal y el efecto de la interacción.
Por esta razón, para aislar e interpretar el efecto de la interacción, no basta con valorar la significa-
ción de los efectos imples, sino que es necesario compararlos. La siguiente sentencia LMATRIX permi-
te comparar entre sí los tres efectos simples de dificultad de la tarea :
UNIANOVA
/LMATRIX = 'comparaciones entre las dos dificultades en cada nivel de ansiedad'
dificultad*ansiedad 1 –1 0 –1 1 0;
dificultad*ansiedad 1 0 –1 –1 0 1;
dificultad*ansiedad 0 1 –1 0 –1 1.
Esta sintaxis genera, entre otros, los resultados que muestran las Tablas 7.27 y 7.28. La primera es
idéntica a la que hemos obtenido al comparar los efectos simples con el procedimiento ANOVA de un
factor (ver Tablas 7.19 y 7.20); por tanto, se interpreta de idéntica manera. La Tabla 7.28 ofrece una
valoración global de las tres comparaciones de la Tabla 7.27. Estos resultados no tendrían ningún
interés si no fuera porque permiten comprobar que el efecto global de las tres comparaciones entre
efectos simples llevadas a cabo en la Tabla 7.27 para poder asilar e interpretar el efecto de la interac-
ción es idéntico al efecto de la interacción (ver Tabla 7.12). Lo cual está indicando que estas tres
comparaciones, además de agotar el efecto de la interacción, no están contaminadas por la presencia
de otros efectos distintos del de la interacción.
Tabla 7.27. Comparaciones entre los efectos simples de dificultad de la tarea

Estimación Valor Diferencia (estim. Error 95% para la diferencia
a
Contraste del contraste hipotetizado - hipotetiz.) típico Sig. Lím. inferior Lím. superior
L1 4,00 0 4,00 2,24 ,086 -,62 8,62
L2 8,00 0 8,00 2,24 ,002 3,38 12,62
L3 4,00 0 4,00 2,24 ,086 -,62 8,62
a. Basada en la matriz de coeficientes de contraste (L') definida por el usuario: comparaciones entre las dos
dificultades en cada nivel de ansiedad
Tabla 7.28. Comparaciones entre los efectos simples de dificultad de la tarea

Suma de Media
Contraste 80,00 2 40,00 6,40 ,006
Error 150,00 24 6,25
Modelos jerárquicos o anidados

En el diseño estudiado en este capítulo (dos factores completamente aleatorizados), los J niveles del
factor A se combinan con los K niveles del factor B. A estos diseños se les llama de clasificación
cruzada. En los diseños de clasificación jerárquica, uno de los factores está anidado en el otro factor;
esto significa que los niveles de uno de los factores no son los mismos en cada nivel del otro factor
(puede encontrarse un tratamiento muy completo de este tipo de diseños en Kirk, 1995, págs. 476-
511). La peculiaridad de este tipo de diseños es que no permiten valorar el efecto de la interacción.
Para ajustar modelos jerárquicos con el SPSS:
' En el cuadro de diálogo Univariante, trasladar la variable dependiente al cuadro Dependiente y las
variables independientes a la lista Factores fijos.
' Pulsar el botón Modelo para acceder al subcuadro de diálogo Univariante: Modelo y marcar la
opción Personalizado.
' Seleccionar Efectos principales dentro del menú desplegable Construir términos y trasladar las dos
variables independientes o factores que aparecen en la lista Factores y covariables a la lista Modelo.
' Pulsar el botón Continuar para volver al cuadro de diálogo principal y el botón Pegar para gene-
rar la sintaxis correspondiente a las selecciones hechas.
' Ir al Editor de sintaxis para editar la sintaxis recién pegada. La última línea de la sintaxis pegada
quedará de esta manera: «Design A B». Si, por ejemplo, el nombre del factor no anidado es A y
el del anidado es B, modificar esta línea de la sintaxis añadiendo, a continuación del nombre del
factor no anidado, el nombre del factor anidado, entre paréntesis. La última línea de la sintaxis
debe quedar, por tanto, de la siguiente manera: «Design A(B)».
7.1. En un centro de salud se vienen realizando estudios sobre la adicción a una determinada sustancia. En
uno de estos estudios, 30 pacientes aleatoriamente seleccionados se han dividido en 6 grupos en fun-
ción de: (1) el lugar donde han recibido la terapia (en el centro o en el domicilio) y (2) el tiempo que
llevaban consumiendo antes de comenzar la terapia (menos de 2 años, entre 2 y 5 años, y más de 5
años). Se ha registrado la dosis (en mg) consumida durante una semana. Con los datos obtenidos se ha
construido la siguiente tabla de medias:
Tiempo consumiendo la sustancia

Lugar de la terapia (b1) < 2 años (b2) 2 ! 5 años (b3) > 5 años Totales
(a1) Centro 7,8 12,4 16,4 12,2
(a2) Domicilio 14,2 11,0 10,2 11,8
Totales 11,0 11,7 13,3 12,0
Tras realizar el correspondiente análisis de varianza se ha obtenido la siguiente tabla resumen (in-
completa):
FV gl MC F Punto crítico Valor p

Lugar ( ) ( ) ( ) ( ) ( )
Tiempo ( ) ( ) ( ) ( ) ( )
Lugar × Tiempo ( ) ( ) ( ) ( ) ( )
Error ( ) 1,41
Total ( )
Utilizando un nivel de confianza de 0,95,

a. Completar la tabla (utilizar el SPSS para obtener los niveles críticos (valores p) exactos).
b. Plantear estadísticamente las hipótesis nulas correspondientes a los tres efectos del diseño y tomar
una decisión justificada sobre cada una de ellas.
c. Estimar el tamaño de los tres efectos del diseño. Interpretar el resultado.
d. Calcular la potencia asociada al contraste del efecto de la interacción.
e. Aplicar la prueba pertinente para decidir entre qué niveles del factor tiempo existen diferencias
significativas (α = 0,05).
f. Representar gráficamente el efecto de la interacción con la variable tiempo en el eje horizontal.
g. Comparar entre sí los efectos simples del factor lugar e interpretar el efecto de la interacción.
7.2. Estamos interesados en estudiar el efecto de ciertas variables motivacionales sobre el rendimiento. Pa-
ra ello, se han aplicado dos programas de entrenamiento motivacional (a1 = «instrumental», a2 = «atri-
bucional») a dos grupos de sujetos seleccionados al azar. Un tercio de los sujetos de cada grupo ha
recibido el entrenamiento bajo un clima de clase diferente: b1 = «cooperativo», b2 = «competitivo» y
b3 = «individual». Al evaluar el rendimiento de los sujetos tras el entrenamiento se han obtenido las
medias que muestra la siguiente tabla (las varianzas se ofrecen entre paréntesis):
Clima de clase
Entrenamiento (b1) Cooperativo (b2) Competitivo (b3) Individual Totales
(a1) Instrumental 6,7 (1,075) 5,0 (1,625) 9,2 (1,575) 6,97

(a2) Atribucional 5,7 (1,825) 4,3 (1,075) 5,1 (1,300) 5,03
Totales 6,20 4,65 7,15 6,00
a. Plantear las hipótesis estadísticas correspondientes al efecto del factor A, al efecto del factor B y
al efecto de la interacción AB. Contrastarlas.
b. Estimar el tamaño de los tres efectos del apartado a. Interpretar el resultado.
c. Calcular la potencia asociada al contraste del efecto de la interacción.
d. Aplicar la prueba pertinente para decidir entre qué niveles del factor clima de clase existen dife-
rencias significativas (α = 0,05).
e. Representar gráficamente el efecto de la interacción con la variable tiempo en el eje horizontal.
f. Comparar entre sí los efectos simples del factor entrenamiento e interpretar el efecto de la inte-
racción.
7.3. Para estudiar el efecto de cierta proteína sobre la actividad motora de las ratas, un investigador selec-
cionó una muestra de 45 ratas que distribuyó aleatoriamente en tres grupos de igual tamaño. A cada
grupo le aplicó durante una semana una de tres dietas distintas (factor A), cada una de ellas con diferen-
te contenido de la proteína en cuestión. Sospechando que las horas de sueño también podrían afectar
a la actividad motora de las ratas, el investigador controló el número de horas dormidas diariamente
por cada rata (factor B), dejando dormir 2 horas o menos a unas, entre 2 y 4 a otras, y más de 4 al resto.
Al final de la semana de tratamiento contabilizó el número de respuestas emitidas por cada rata en una
caja de ensayo durante 3 minutos y obtuvo los resultados que muestra la siguiente tabla:
Horas de sueño
Dieta (b1) < 2 horas (b2) 2 - 4 horas (b3) > 4 horas
8 10 5
12 8 2
(a1) Dieta 1 6 12 10
10 4 2
9 6 6
13 5 4
9 12 8
(a2) Dieta 2 8 8 0
14 16 1
6 14 7
12 16 11
23 8 9
(a3) Dieta 3 17 10 7
9 6 6
14 20 12
a. Reproducir los datos de la tabla en el SPSS.

b. Comprobar si puede asumirse que las 9 muestras utilizadas proceden de poblaciones normales con
la misma varianza (α = 0,05).
c. Contrastar las hipótesis nulas relativas a los dos efectos principales y al efecto de la interacción.
d. Estimar el tamaño de los tres efectos del apartado c. Interpretar el resultado.
e. Calcular la potencia asociada al contraste del efecto de la interacción.
f. Realizar comparaciones post hoc con los niveles del factor dieta y con los niveles del factor ho-
ras de sueño (α = 0,05).
7.4. La siguiente tabla se refiere a las medias poblacionales de un diseño de dos factores AB-CA. Com-
pletarla sabiendo que no existe efecto del factor A ni del factor B.
b1 b2 b3
a1 2 ( ) ( ) ( )
a2 ( ) 4 ( ) ( )
( ) ( ) ( ) 4
7.5. Cuando en un ANOVA AB-CA se dice que el efecto de la interacción es significativo, lo que se está
queriendo decir con ello es que... (elegir la/s alternativa/s correcta/s):
a. El factor A está relacionado con el factor B.
b. Los factores A y B son independientes entre sí pero ambos están relacionados con la VD.
c. El efecto principal del factor A difiere del efecto principal del factor B.
d. Los efectos simples del factor A difieren de los efectos simples del factor B.
e. La diferencia entre las medias del factor A cambia cuando cambian los niveles del factor B.
7.6. La siguiente tabla contiene algunas medias poblacionales de un diseño AB-CA. Sabemos que la me-
dia total vale 40 y que no existe efecto de la interacción.
b1 b2 b3
a1 ( ) ( ) ( ) 50
a2 ( ) ( ) ( ) ( )
( ) 40 20 ( )
a. Completar la tabla.
b. ¿Existe efecto del factor A?
c. ¿Existe efecto del factor B ?
d. Si, tomada una muestra aleatoria y hechos los correspondientes cálculos, se decide rechazar la
hipótesis nula referida al factor A, ¿qué error se podría estar cometiendo?
e. ¿Cuántos efectos simples tiene el factor A?
f. En este escenario, ¿es correcto afirmar que los efectos simples del factor A no difieren?
7.7. En un diseño AB-CA, con J = 3 y K = 2 se realizan J ! 1 comparaciones ortogonales entre los nive-
les del factor A y K ! 1 entre los niveles del factor B. Elegir la/s alternativa/s correcta/s:
a. Si FA es significativa, también lo serán las J ! 1 comparaciones ortogonales entre los niveles del
factor A.
b. Si FA no es significativa, puede que lo sea alguna de las J ! 1 comparaciones ortogonales entre los
niveles del factor A.
c. Si alguna de las comparaciones ortogonales planteadas es significativa, también lo será FAB.
d. Solamente pueden plantearse 2 comparaciones ortogonales entre los niveles del factor B.
e. Si ninguna de las comparaciones ortogonales entre los niveles del factor A es significativa, puede
que sea significativa FA.
7.8. Elegir la/s alternativa/s correcta/s:

a Si J = 2 y el estadístico FA es significativo, la relación entre el factor A y la variable dependiente
es lineal.
b Si K = 3 y el estadístico FB es significativo, la relación entre el factor B y la variable dependien-
te es cuadrática.
c Si J = 3, el estadístico FA es significativo y el componente cuadrático es no significativo, la rela-
ción entre el factor A y la variable dependiente es lineal.
d Si K = 2 y el estadístico FB es significativo, la relación entre el factor B y la variable dependien-
te puede ser cuadrática.
e Si K = 3 y el estadístico FAB es significativo, la relación entre el factor B y la variable dependien-
te necesariamente será lineal o cuadrática.
8
Análisis de varianza (III)
Un factor con medidas repetidas
A los modelos de análisis de varianza estudiados en los Capítulos 6 y 7 los hemos llamado
completamente aleatorizados porque a cada condición del diseño (es decir, a cada nivel del
factor, en el caso de un factor; o a cada combinación entre los niveles de los factores, en el
caso de dos factores) se asigna una muestra aleatoria de sujetos distintos (grupos aleatorios).
A los modelos que vamos a estudiar en este capítulo y en el siguiente se les llama de medi-
das repetidas (MR) porque se utilizan los mismos sujetos en más de una condición (bloques
aleatorios).
Consideremos un estudio diseñado para conocer la opinión de los consumidores sobre
cinco productos rivales. Podemos seleccionar al azar tantos grupos de sujetos como productos
(cinco) y hacer que cada grupo opine sobre un producto; al proceder de esta manera tenemos
un diseño con un factor (tipo de producto, con cinco niveles) completamente aleatorizado
(tantos grupos de sujetos como niveles tiene el factor). En lugar de esto, podemos seleccionar
un único grupo y pedir a cada sujeto que exprese su preferencia por cada uno de los cinco pro-
ductos; seguimos teniendo un factor (tipo de producto), pero con medidas repetidas (un único
grupo de sujetos opina sobre todos los productos).
En este capítulo estudiaremos el modelo de un factor con medidas repetidas (A-MR). En
el siguiente estudiaremos los modelos de dos factores: el de dos factores con medidas repe-
tidas en ambos (AB-MR) y el de dos factores con medidas repetidas en uno (AB-CA-MR).
Características de los diseños de medidas repetidas

Trabajar con medidas repetidas significa trabajar con dos o más variables cuantitativas. Es-
tas variables pueden obtenerse de diferentes maneras. La más habitual consiste en tomar
varias medidas a los mismos sujetos, ya sea midiendo dos o más variables distintas (por
ejemplo, calificaciones en lengua, matemáticas e inglés), ya sea midiendo la misma variable
en varios momentos distintos (por ejemplo, el peso antes de participar en un programa de
adelgazamiento, al terminar el programa y al cabo de un mes de terminado el programa).
También se obtienen medidas repetidas cuando, en lugar de utilizar los mismos sujetos,
se utilizan bloques de sujetos igualados mediante algún tipo de vínculo relevante para el aná-
lisis (bloques aleatorios). Por ejemplo, en un estudio diseñado para comparar tres métodos
de enseñanza de las matemáticas, se pueden formar bloques de tres sujetos con el mismo
cociente intelectual y asignar cada sujeto del mismo bloque a un método distinto. Aunque los
sujetos del mismo bloque son distintos, el hecho de que sean homogéneos en una caracte-
rística relevante para el análisis permite considerar cada bloque como unidad de análisis.
Tanto si se utilizan los mismos sujetos como si se utilizan bloques de sujetos igualados,
lo que caracteriza a las medidas repetidas es que no son independientes entre sí; y no lo son
porque, tanto en el caso de puntuaciones pertenecientes a los mismos sujetos como en el de
puntuaciones pertenecientes a sujetos igualados, el conocimiento de una de las puntuaciones
de un sujeto o bloque permite saber algo de las demás puntuaciones del mismo sujeto o
bloque: los buenos estudiantes tienden a obtener puntuaciones altas en lengua, en matemá-
ticas y en inglés; los sujetos que más se benefician de un programa de adelgazamiento tien-
den a ser los que mejor mantienen ese beneficio al cabo de un mes; los sujetos con cociente
intelectual alto tienden a aprender mejor con cualquier método de enseñanza; etc. Puede que
una puntuación no diga mucho de las demás, pero es seguro que algo dice. Y esta circunstan-
cia debe ser tenida en cuenta en el análisis.
Los modelos de análisis de varianza con medidas repetidas sirven para valorar el efecto
de uno o más factores cuando al menos uno de ellos es un factor intrasujetos. En un factor
intersujetos o completamente aleatorizados (ver Capítulos 6 y 7), cada nivel del factor se
asocia a un grupo de sujetos. Un factor intrasujetos o con medidas repetidas se distingue
porque todos los niveles del factor se aplican a los mismos sujetos. Los términos intersu-
jetos e intrasujetos se aplican tanto a los factores como a los diseños. Los términos diseño
intrasujetos y diseño con medidas repetidas se refieren al mismo tipo de diseño.
Los diseños intrasujetos o con medidas repetidas ya los hemos empezado a estudiar en
el Capítulo 12 del primer volumen y en el Capítulo 5 de éste. El más simple de todos ellos
consiste en medir dos variables en una misma muestra de sujetos. Es lo que hemos hecho al
aplicar la prueba T para muestras relacionadas. Pero los diseños de medidas repetidas pue-
den tener más de dos medidas y más de un factor. Los ejemplos de las Tablas 8.1 a 8.3 pue-
den ayudar a comprender las diferencias entre los diseños completamente aleatorizados (CA)
y los de medidas repetidas (MR). Cada sujeto (cada participante en el estudio) está repre-
sentado con la letra s ; las letras con el mismo subíndice se refieren al mismo sujeto; subín-
dices distintos indican sujetos distintos. Seguimos utilizando a1, a2, ..., aJ para identificar los
niveles del factor A y b1, b2, ..., bK para identificar los niveles del factor B.
En la Tabla 8.1 están representados dos diseños de un factor. La Tabla 8.1.1 muestra un
diseño CA (grupos aleatorios o muestras independientes, es decir, sujetos distintos en cada
condición). Con 5 sujetos por condición, hacen falta 20 sujetos para completar las 4 condi-
ciones del diseño. Cada sujeto genera una puntuación. Estos datos se analizan con el mode-
lo de un factor CA (ver Capítulo 6). Si el factor solamente tiene dos niveles, los datos pue-
den analizarse con la prueba T de Student para muestras independientes (ver Capítulo 4).
La Tabla 8.1.2 muestra un diseño MR (bloques aleatorios o muestras relacionadas, es
decir, los mismos sujetos en todas las condiciones). Las 4 condiciones del diseño se com-
pletan con los mismos 5 sujetos. Cada sujeto genera 4 puntuaciones. Estos datos se analizan
con el modelo de un factor MR (lo estudiaremos en este capítulo). Cuando un factor con me-
didas repetidas tiene solamente dos niveles, los datos pueden analizarse con la prueba T de
Student para muestras relacionadas (ver Capítulo 5).
Capítulo 8. ANOVA. Un factor con medidas repetidas 297
Tabla 8.1. Diseños de un factor. 1: completamente aleatorizado; 2: medidas repetidas
1 a1 a2 a3 a4 2 a1 a2 a3 a4
s1 s6 s11 s16 s1 s1 s1 s1
s2 s7 s12 s17 s2 s2 s2 s2
s3 s8 s13 s18 s3 s3 s3 s3
s4 s9 s14 s19 s4 s4 s4 s4
s5 s10 s15 s20 s5 s5 s5 s5
En la Tabla 8.2 están representados tres diseños de dos factores. En los tres casos se trata de
diseños 2 × 4. La Tabla 8.2.1 muestra un diseño CA. En este diseño ambos factores son in-
tersujetos. Con 5 sujetos por condición, hacen falta 40 sujetos para completar las 8 condi-
ciones del diseño. Cada sujeto genera una sola puntuación. Estos datos se analizan con el
modelo de dos factores completamente aleatorizados (ver Capítulo 7).
La Tabla 8.2.2 muestra un diseño con medidas repetidas en ambos factores. Los dos
factores son intrasujetos. Las 8 condiciones del diseño se completan con los mismos 5 su-
jetos. Cada sujeto genera 8 puntuaciones. Estos datos se analizan con el modelo de dos fac-
tores con medidas repetidas en ambos (lo estudiaremos en el Capítulo 9).
La Tabla 8.2.3 muestra un diseño con medidas repetidas en el segundo factor: A es un
factor intersujetos; B es un factor intrasujetos. A los niveles de A se han asignado sujetos
distintos; a los de B se han asignado los mismos sujetos. Las 8 condiciones del diseño se
completan con 10 sujetos (los 5 de la condición a1 más los 5 de la condición a2 ). Cada suje-
to genera 4 puntuaciones. Estos datos se analizan con el modelo de dos factores con me-
didas repetidas en uno de ellos (lo estudiaremos en el Capítulo 9).
Tabla 8.2. Diseños de dos factores. 1: dos factores completamente aleatorizados (AB-CA); 2: dos factores
con medidas repetidas en ambos (AB-MR); 3: dos factores con medidas repetidas en uno (el B) (AB-CA-MR)
1 b1 b2 b3 b4 2 b1 b2 b3 b4 3 b1 b2 b3 b4
s1 s6 s11 s16 s1 s1 s1 s1 s1 s1 s1 s1
s2 s7 s12 s17 s2 s2 s2 s2 s2 s2 s2 s2
a1 s3 s8 s13 s18 a1 s3 s3 s3 s3 a1 s3 s3 s3 s3
s4 s9 s14 s19 s4 s4 s4 s4 s4 s4 s4 s4
s5 s10 s15 s20 s5 s5 s5 s5 s5 s5 s5 s5
s21 s26 s31 s36 s1 s1 s1 s1 s6 s6 s6 s6
s22 s27 s32 s37 s2 s2 s2 s2 s7 s7 s7 s7
a2 s23 s28 s33 s38 a2 s3 s3 s3 s3 a2 s8 s8 s8 s8
s24 s29 s34 s39 s4 s4 s4 s4 s9 s9 s9 s9
s25 s30 s35 s40 s5 s5 s5 s5 s10 s10 s10 s10
Las ventajas de los diseños con medidas repetidas son evidentes: requieren menos sujetos que
un diseño completamente aleatorizado (ver Kirk, 1995, págs. 286-288) y permiten eliminar
la variabilidad debida a las diferencias entre los sujetos (pues se utilizan los mismos). Como
contrapartida, los supuestos del análisis se vuelven algo más exigentes (estudiaremos esto más
adelante) y es necesario vigilar algunos efectos derivados del hecho de utilizar los mismos
sujetos. Por ejemplo, el efecto de arrastre, que ocurre cuando se aplica una condición antes
de que haya finalizado el efecto de otra aplicada previamente, o el efecto del aprendizaje por
la práctica, que ocurre cuando las respuestas de los sujetos pueden mejorar con la repetición
y, como consecuencia de ello, los tratamientos administrados en último lugar parecen más
efectivos que los administrados en primer lugar, sin que haya diferencias reales entre ellos
(cuando se sospecha de la presencia de este efecto es importante controlar el orden de pre-
sentación de las condiciones). Conviene conocer las fortalezas y debilidades de estos dise-
ños para decidir correctamente cuándo utilizarlos (ver León y Montero, 2003, págs. 233-258).
ANOVA de un factor con medidas repetidas (A-MR)

Vamos a comenzar con el caso más simple: el modelo de un factor (A-MR). Este modelo
sirve para analizar los datos procedentes de un diseño con un solo grupo de sujetos y un úni-
co factor por cuyos niveles pasan todos los sujetos (ver Tabla 8.1.2). Se trata de una gene-
ralización de la prueba T de Student para muestras relacionadas al caso de más de dos va-
riables (más de dos medidas repetidas).
Para ilustrar la aplicación de este modelo pensemos en un estudio diseñado para valorar
el efecto del paso del tiempo sobre la calidad del recuerdo. A un grupo de sujetos se les hace
memorizar una historia. Más tarde, al cabo de una hora, de un día, de una semana y de un
mes, se les pide que intenten reproducir la historia. Un grupo de expertos evalúa la calidad
del recuerdo de cada sujeto en cada momento. Tenemos un factor (al que podemos llamar
tiempo) con cuatro niveles (los cuatro momentos en los que se registra el recuerdo) y una
variable dependiente (la calidad del recuerdo) de la que se toman cuatro medidas.
La Tabla 8.3 muestra la estructura de los datos y la notación utilizada en un diseño de un
factor con medidas repetidas. Seguimos llamando A al único factor del modelo e Y a la va-
riable dependiente (la variable cuantitativa de la que se toman varias medidas). Los subíndi-
ces son necesarios para identificar cada elemento de la tabla. A los J niveles del factor A los
representamos mediante a1, a2, ..., aj..., aJ ( j = 1, 2, ..., J ). Y a cada sujeto lo representamos
mediante si (i = 1, 2, ..., n).
Tabla 8.3. Estructura de los datos y notación en un diseño de un factor con medidas repetidas (A-MR)
Factor A
Sujetos a1 a2 ··· aj ··· aJ Suma
s1 ··· ···
s2 ··· ···
··· ··· ··· ··· ··· ··· ··· ···
si ··· ···
··· ··· ··· ··· ··· ··· ··· ···
sn ··· ···
Suma ··· ···

Recordemos que el signo “+” colocado como subíndice se refiere a todos los valores del
subíndice al que sustituye. Por ejemplo, Y2+ se refiere a todas las puntuaciones del segundo
sujeto (todos los valores j cuando i = 2). Los totales de cada nivel del factor ( ) se obtie-
nen sumando las n puntuaciones de cada columna; los de cada sujeto ( ) se obtienen su-
mando las J puntuaciones de cada fila; y el gran total (T ) se obtiene sumando todas las pun-
tuaciones de la tabla. Con estos totales se obtienen las medias de cada nivel del factor (me-
dias de las columnas), de cada sujeto (medias de las filas) y del total de la tabla; basta con
dividir esos totales entre el número de observaciones utilizadas para obtenerlos:
= , = , = = [8.1]
Los niveles del factor A definen J poblaciones. Supongamos que la variable cuantitativa Y
se distribuye normalmente en esas J poblaciones y que todas ellas tienen la misma varianza.
Y supongamos que, de cada una de esas J poblaciones, extraemos una muestra de n obser-
vaciones con la particularidad de que esas observaciones no son independientes entre sí por-
que pertenecen a los mismos sujetos o a bloques de J sujetos igualados. En este escenario es
posible identificar varios tipos de variabilidad.
La variabilidad total recoge la variabilidad entre cada observación y la media total. Es-
ta variabilidad total se puede descomponer en tres fuentes de variabilidad1: (1) la que se da
entre los diferentes niveles del factor o variabilidad intergrupos, también llamada intra-
sujetos por ser la variabilidad entre las puntuaciones de los mismos sujetos, (2) la que se da
entre los diferentes sujetos o variabilidad intersujetos y (3) la que se da entre cada obser-
vación y sus respectivas medias marginales (es decir, la variabilidad de cada observación
individual respecto de la media de su misma fila y columna); a esta forma de variabilidad la
llamamos variabilidad error porque representa el alejamiento de cada puntuación respecto
de lo esperado en función de sus valores marginales.
Estas tres fuentes de variabilidad pueden cuantificarse aplicando la lógica ya utilizada
a propósito del modelo de un factor CA. Así, la variabilidad intergrupos o intrasujetos, que
se refiere a las diferencias existentes entre las medias de las diferentes medidas (niveles del
factor), puede cuantificarse mediante la varianza o media cuadrática intergrupos:
MCI = MCA = [8.2]
(puesto que la MCI únicamente incluye la variabilidad debida al factor A, también podemos
llamarla MCA ). La variabilidad intersujetos o variabilidad entre las medias de los sujetos
puede cuantificarse mediante la varianza o media cuadrática intersujetos:
MCS = [8.3]
Y la variabilidad error o variabilidad entre cada puntuación y sus correspondientes medias

marginales puede cuantificarse mediante la varianza o media cuadrática error:
MCE = MCA × S = [8.4]
1
Por supuesto, esta descomposición de la variabilidad total en tres fuentes de variabilidad tiene su justificación matemá-
tica (ver Pardo y San Martín, 1998, págs. 256-259 ). Pero esto es justamente lo que estamos intentando evitar aquí.
Esta media cuadrática refleja, en realidad, la interacción entre los sujetos (filas) y los niveles
del factor (columnas), es decir, la interacción AS, y sustituye a la variabilidad intragrupos o
error de los modelos CA que aquí no existe porque solamente hay una observación por casilla.
Aplicando ahora la lógica estudiada a propósito del modelo completamente aleatoriza-
do, sabemos que el cociente entre MCA y MCA × S expresa cómo de grande es la variabilidad
entre las medias de las diferentes medidas o niveles del factor (MCA) en comparación con la
variabilidad error (MCA × S ), que es la variabilidad que cabría esperar por azar independien-
temente del tamaño de las medias poblacionales. Por tanto, el estadístico
F = = [8.5]
que sabemos que se distribuye según el modelo de probabilidad F con los grados de libertad
del numerador (J ! 1), y los del denominador [(J !1) (n !1)], puede utilizarse para contrastar
la hipótesis de que las J medias poblacionales son iguales2. El Cuadro 8.1 ofrece un resumen
del procedimiento3.
El estadístico F propuesto en [8.5] permite contrastar la hipótesis de igualdad de medias
si, al igual que en cualquier otro modelo de ANOVA, se dan ciertas condiciones. Estas con-
diciones son las mismas que en el modelo completamente aleatorizado más alguna otra adi-
cional que trataremos en el siguiente apartado.
Cuadro 8.1. Resumen del ANOVA de un factor con medidas repetidas (A-MR)
1. Hipótesis: H0: = = ··· = (todas las medias son iguales).

H 1: =/ para algún j o jN ( j =/ jN) (no todas las medias son iguales).
2. Supuestos: J muestras aleatoriamente seleccionadas de J poblaciones normales con
la misma varianza; asumimos también que las varianzas de las diferencias entre cada
par de medidas son iguales (ver siguiente apartado).
3. Estadístico del contraste (ver ecuación [8.5]): F = MCA MCA × S.
2
El cociente entre MCS y MCA ×S podría utilizarse para comparar las n medias de los sujetos, pero esto es algo que, en este
contexto, no suele tener interés. Se da por hecho que los sujetos difieren (razón por la cual se utilizan varios). La variabi-
lidad entre los sujetos únicamente se tiene en cuenta para eliminarla de la variabilidad error.
3
La diferencia entre el modelo completamente aleatorizado (CA) y el de medidas repetidas (MR) está únicamente en la
variabilidad intersujetos. Recordemos que, en el modelo CA, la variabilidad total se descompone en dos fuentes de varia-
bilidad: intergrupos y error. Ahora, en el modelo MR, la variabilidad total se descompone en tres fuentes de variabilidad:
intergrupos, intersujetos y error. Puesto que las variabilidades total e intergrupos son idénticas en ambos modelos, la va-
riabilidad error es menor en el modelo MR que en el CA en la cantidad correspondiente a la variabilidad intersujetos. Có-
mo de grande es esa cantidad es algo que depende del grado de relación existente entre las medidas repetidas. Si la relación
es alta, también lo será la variabilidad intersujetos, pues los sujetos que tienden a puntuar bajo (alto) en una medida ten-
derán a puntuar bajo (alto) en las demás y las medias de los sujetos serán distintas. Pero si las medidas repetidas son in-
dependientes, la variabilidad intersujetos será pequeña, pues los sujetos tenderán a puntuar indistintamente bajo y alto en
las diferentes medidas y sus medias serán parecidas. Por tanto, si las medidas repetidas no están relacionadas, no se obten-
drá ningún beneficio aplicando un modelo MR (es decir, no se conseguirá reducir la variabilidad error debida a las dife-
rencias entre los sujetos y, consecuentemente, no habrá diferencia entre aplicar un modelo CA y un modelo MR).
4. Distribución muestral: F se distribuye según FJ ! 1, (n !1)(J ! 1) .

$ FJ ! 1, (J !1)(n ! 1) ; 1 ! α .
5. Zona crítica: F >
6. Regla de decisión: se rechaza H0 si el estadístico F cae en la zona crítica; en caso
contrario, se mantiene. El rechazo de H0 indica que no todas las medias poblaciona-
les son iguales, es decir, que hay al menos una media que difiere de al menos otra.
$ Fh ), siendo Fh el valor muestral concreto que to-
7. Nivel crítico (valor p): p = P (F >
ma el estadístico F.
Ejemplo. ANOVA de un factor con medidas repetidas (A-MR)

En un experimento diseñado para estudiar el efecto del paso del tiempo sobre la calidad del
recuerdo, a un grupo de 6 sujetos se les ha hecho memorizar una historia durante 20 minu-
tos. Más tarde, al cabo de una hora, un día, una semana y un mes, se les ha solicitado re-
producir la historia escribiendo todo lo que recordaban. Un grupo de expertos ha evaluado
la calidad del recuerdo en cada uno de los 4 registros efectuados hasta elaborar los datos que
muestra la Tabla 8.4. A partir de estos datos, ¿qué puede concluirse acerca del efecto del pa-
so del tiempo sobre la calidad del recuerdo? (α = 0,05)
Tabla 8.4. Datos de un diseño A-MR. Calidad del recuerdo en cuatro momentos
Sujetos Hora Día Semana Mes Medias

1 16 11 9 8 11
2 14 8 4 2 7
3 19 13 7 9 12
4 17 10 8 9 11
5 16 14 8 6 11
6 20 16 12 8 14
Medias 17 12 8 7 11
Se trata de un diseño con una variable independiente o factor (al que podemos llamar tiempo)
con cuatro niveles (J = 4). Los n = 6 sujetos incluidos en el estudio pasan por los 4 niveles
del factor (medidas repetidas). La variable dependiente, calidad del recuerdo (en realidad se
trata de 4 variables cuantitativas) se ha obtenido a partir de las valoraciones de varios exper-
tos. Tenemos, por tanto, un diseño de un factor con medidas repetidas.
Antes de comenzar el análisis siempre es recomendable formarse una idea sobre los datos
que se van a analizar. Para esto, nada como un diagrama de cajas representando las puntua-
ciones individuales de las variables (de las medidas repetidas) y un gráfico de líneas repre-
sentando las medias. La Figura 8.1 muestra ambas cosas. Aunque el diagrama correspon-
diente a un mes muestra una distribución algo asimétrica, no da la impresión de que estemos
ante distribuciones muy asimétricas; de hecho, la prueba de normalidad de Shapiro-Wilk (ver
Capítulo 2) indica que ninguna de las cuatro distribuciones se aleja significativamente de la

normalidad). Al interpretar estos diagramas debe tenerse en cuenta que la muestra es muy
pequeña (cada diagrama de caja se ha construido con 6 puntuaciones). El gráfico de líneas
muestra que la calidad del recuerdo va disminuyendo con el paso del tiempo. La cuestión es-
tá en determinar si esa tendencia es real o solamente refleja cambios atribuibles a las fluc-
tuaciones propias del azar muestral.
Figura 8.1. Diagramas de caja (izquierda) y gráfico de líneas (derecha) de la calidad del recuerdo al cabo
de una hora, un día, una semana y un mes
1. Hipótesis:
H0: µ hora = µ día = µ semana = µ mes (el paso del tiempo no afecta a la calidad del recuerdo).
H1: µ j =/ µ j para algún valor de j o jN (j =/ jN) (el paso del tiempo afecta a la calidad del
recuerdo).
2. Supuestos: tenemos 4 muestras aleatorias de puntuaciones extraídas de poblaciones que
asumimos normales y con la misma varianza; asumimos también que las varianzas de las
diferencias entre cada par de medidas son iguales (ver siguiente apartado).
3. Estadístico del contraste (ver ecuación [8.5]). Para obtener el estadístico F únicamente
necesitamos las puntuaciones y las medias que ofrece la Tabla 8.3:
MCA = 6 [(17 ! 11)2 + (12 ! 11)2 + (8 ! 11)2 + (7 ! 11)2 ] / (4 ! 1) = 124.
MCA × S = [(16 ! 11 ! 17 + 11)2 + (14 ! 7 ! 17 + 11)2 + (19 ! 12 ! 17 + 11)2 + · · ·
+ (9 ! 11 ! 7 + 11)2 + (5 ! 11 ! 7 + 11)2 + (8 ! 7 ! 14 + 11)2 ] / [(4 ! 1)(6 ! 1) =
= 42 / 15 = 2,133.
F = MCA MCA × S = 124 / 2,133 = 58,13.
4. Distribución muestral: F se distribuye según FJ ! 1, (J !1) (n ! 1) = F4 !1, (4 !1) (6 !1) = F3, 15 .
5. Zona crítica: F $> F3, 15; 0,95 = 3,29.
6. Decisión: como el valor del estadístico del contraste (58,13) es mayor que el punto críti-
co (3,29), se rechaza H0. Se puede concluir, por tanto, que los promedios poblacionales
comparados no son iguales. El rechazo de la hipótesis de igualdad de medias indica que
la calidad del recuerdo no es la misma en los cuatro momentos considerados. Sin em-
bargo, no permite precisar qué momentos difieren de qué otros; para esto es necesario
realizar las comparaciones múltiples que estudiaremos más adelante.
7. Nivel crítico: p = P (F $ > 58,13) < 0,01.
Supuestos del modelo

Al igual que en el modelo de un factor CA, en el modelo de un factor MR se asume que los
sujetos son aleatoriamente seleccionados de poblaciones normales con la misma varianza.
Por tanto, se asume independencia, normalidad e igualdad de varianzas (ver el Capítulo 6
para una aclaración del significado de estos supuestos). La diferencia está en que, ahora, la
independencia se refiere a los distintos sujetos o bloques, no a las puntuaciones dentro del
mismo sujeto o bloque, las cuales, no solo pueden estar relacionadas, sino que cabe esperar
que lo estén. Además de estos tres supuestos, en el modelo MR se asume que el efecto del
factor no depende de los sujetos o bloques a los que se aplica (la interacción AS se conside-
ra error: ver, en el apéndice 8, el apartado Prueba de no-aditividad de Tukey).
Este último supuesto unido al de igualdad de las varianzas posee algunas implicaciones
relacionadas con la matriz de varianzas-covarianzas de las medidas repetidas (la matriz J × J
que contiene las varianzas de cada medida en la diagonal principal y las covarianzas entre
cada par de medidas fuera de la diagonal). En concreto, de esos dos supuestos se deduce que
las varianzas son iguales e iguales también las covarianzas (es decir, las correlaciones entre
cada par de medidas). Esta característica de la matriz de varianzas-covarianzas se denomina
simetría compuesta y es condición suficiente para que el cociente MCA / MCA × S se distri-
buya según el modelo de probabilidad F con los grados de libertad propuestos.
Sin embargo, la simetría compuesta no es una condición necesaria para que el cociente
MCA / MCA × S se ajuste a la distribución F. En realidad, es una condición más exigente de lo
necesario. La condición necesaria y suficiente tiene que ver más bien con las varianzas de
las diferencias entre cada par de medidas. Puesto que todos los sujetos pasan por los J ni-
veles del factor, es posible reorganizar los datos en términos de todos los posibles pares de
combinaciones entre medidas. Con tres medidas, por ejemplo, tendremos J (J ! 1) / 2 = 3 pa-
res: a1a2, a1a3 y a2a3. Calculando en cada par de medidas la diferencia entre las dos puntua-
ciones de cada sujeto o bloque obtendremos tres grupos de diferencias; y calculando las va-
rianzas de esas diferencias obtendremos tres varianzas: las varianzas de las diferencias entre
cada par de medidas. Pues bien, lo que implican los supuestos de igualdad de varianzas y de
independencia entre el efecto del factor y los sujetos o bloques es que las varianzas de las
diferencias son iguales. A esta condición se le llama esfericidad (o circularidad), y Huynh
y Feldt (1970) y Rouanet y Lépine (1970) han demostrado que es la condición necesaria y
suficiente para que el estadístico F se distribuya como asumimos que se distribuye.
En condiciones de normalidad y esfericidad, el cociente F = MCA / MCA×S permite con-
trastar la hipótesis de igualdad de medias con buen control sobre la tasa de error y con tan-
ta o más potencia que cualquier otro procedimiento (y existen muchos). Pero ocurre que,
cuando se trabaja con medidas repetidas, la esfericidad es más la excepción que la regla.
Cuando las medidas repetidas se obtienen tomando varias medidas en el tiempo (por ejem-
plo, línea base o pre-test, post-test y seguimiento), lo habitual es que las correlaciones entre
las medidas que se encuentran más próximas en el tiempo sean más altas que las correla-
ciones entre medidas más alejadas; y esto dificulta que la matriz de varianzas-covarianzas
sea esférica. Y cuando las medidas repetidas se obtienen midiendo distintas variables en el
mismo momento, no es infrecuente encontrar que unas variables son más dispersas que otras.
Por tanto, en el contexto de las ciencias sociales y de la salud, raramente el estadístico F se-
rá la solución idónea para analizar los datos provenientes de un diseño de medidas repetidas.
Por lo general, será preferible utilizar alguno de los procedimientos diseñados para poder
lidiar con el incumplimiento del supuesto de esfericidad.
Alternativas al estadístico F
En condiciones de no-esfericidad, el estadístico F se vuelve liberal (aumenta la probabilidad
de cometer errores Tipo I). Y esto puede afectar seriamente a las conclusiones basadas en el
rechazo de la hipótesis de igualdad de medias. Por tanto, antes de elaborar conclusiones ba-
sadas en el rechazo de esta hipótesis, es importante asegurarse de que puede asumirse que la
matriz de varianzas-covarianzas es esférica. Para esto existen varios procedimientos. El más
popular (aunque no el más recomendable) es, quizá, el propuesto por Mauchly (1940); y es
el que incluye el SPSS4.
¿Qué hacer cuando se incumple el supuesto de esfericidad? El procedimiento SPSS que
utilizaremos en este capítulo ofrece dos soluciones alternativas: (1) modificar los grados de
libertad de la distribución F y (2) utilizar estadísticos multivariados que no asumen esferi-
cidad (en el Volumen III estudiaremos otras soluciones).
Estadístico F con los grados de libertad modificados

Box (1954a, 1954b) ha demostrado que, cualquiera que sea el grado de incumplimiento del
supuesto de esfericidad, el cociente MCA / MCA × S se distribuye aproximadamente según el
modelo de probabilidad F con ε (J !1) y ε (J !1)(n !1) grados de libertad.
Por tanto, la primera solución al problema de la no-esfericidad consiste en multiplicar los
grados de libertad del cociente MCA / MCA × S por un índice corrector denominado ε. Este
índice expresa el grado de esfericidad de la matriz de varianzas-covarianzas poblacional;
cuando esa matriz es completamente esférica, ε vale 1, que es su valor máximo; cuanto me-
nos esférica es esa matriz, más se aproxima ε a su valor mínimo. Geiser y Greenhouse (1958)
han demostrado que ese mínimo es 1 / (J ! 1). Por tanto, la modificación de los grados de li-
bertad basada en ε se produce siempre a la baja (haciendo el contraste más conservador) y es
tanto mayor cuanto menos esférica es la matriz de varianzas-covarianzas.
El problema de esta solución es que ε es un parámetro y, por tanto, un valor desconoci-
do. No obstante, Box (1954b) y Huynh y Feldt (1976), entre otros, han propuesto estimacio-
nes para ε que suelen incluirse en los programas informáticos (ver Apéndice 8). La estima-
ción propuesta por Box aparece en el SPSS con el nombre Geisser-Greenhouse probable-
mente porque fueron Geisser y Greenhouse (1958; Greenhouse y Geisser, 1959) quienes ex-
tendieron la propuesta de Box a diseños más complejos.
Aproximación multivariada
La segunda solución consiste en analizar los datos procedentes de un diseño de medidas re-
petidas mediante una serie de estadísticos agrupados bajo la denominación aproximación
multivariada (ver, por ejemplo, Maxwell y Delany, 2004, cap. 13). Para obtener estos esta-
dísticos es necesario recurrir al cálculo matricial. No obstante, el SPSS ofrece los estadísticos
multivariados comúnmente utilizados para este propósito (lamda de Wilks, T 2 de Hotelling-
4
La mayoría de los procedimientos disponibles para chequear el supuesto de esfericidad son sensibles a la no normalidad
de las poblaciones originales (Keselman, Rogan, Mendoza y Breen, 1980). No obstante, Cornell, Young, Seaman y Kirk
(1992), tras comparar ocho de estos procedimientos, han llegado a la conclusión de que el locally best invariant test (John,
1971, 1972; Nagao, 1973; Sugiura, 1972) es el más potente al tiempo que ofrece un buen control sobre la tasa de error (Kirk,
1995, pág. 278, explica cómo aplicar este procedimiento).
Lawley, raíz mayor de Roy y traza de Pillai) acompañados de sus correspondientes niveles
críticos; y eso es todo lo que se necesita para contrastar la hipótesis de igualdad de medias.
La ventaja principal de estos estadísticos multivariados es que no exigen que la matriz
de varianzas-covarianzas sea esférica (condición que constituye la principal fuente de pro-
blemas con el estadístico F convencional). Como contrapartida, pierden potencia cuando se
utilizan con tamaños muestrales pequeños.
Qué solución elegir

La pregunta inevitable en este momento es qué solución de las disponibles debe adoptarse.
Aunque no pocos expertos se inclinan por la aproximación multivariada (ver, por ejemplo,
Maxwell y Delaney, 2004, págs. 671-676), la respuesta a esta pregunta es compleja. Podría
parecer que, puesto que la aproximación multivariada no exige esfericidad, está libre de pro-
blemas. Pero las cosas no son exactamente así. Si puede asumirse esfericidad, el estadístico
F es más potente que los multivariados. Y si no puede asumirse esfericidad, ninguna solu-
ción es sistemáticamente más potente que la otra. Aunque, en teoría, la aproximación multiva-
riada no exige esfericidad, lo cierto es que, en condiciones de no-esfericidad, va perdiendo
potencia conforme va disminuyendo el tamaño muestral, hasta el punto de que con tamaños
muestrales pequeños no es nada recomendable (ver Davidson, 1972; o Jensen, 1982, 1987).
Así las cosas, consideramos que, con los estadísticos mencionados, la forma razonable
de proceder es la siguiente:
1. Si puede asumirse esfericidad, utilizar el estadístico F (es la mejor estrategia cuando se
cumplen los supuestos del análisis). Si no puede asumirse esfericidad, continuar con el
siguiente paso.
2. Utilizar la aproximación multivariada (solución apropiada con muestras grandes pero
poco potente con muestras pequeñas). Si se rechaza la hipótesis nula, terminar el análi-
sis; si no se rechaza, continuar con el siguiente paso.
En algunos casos (por ejemplo, cuando el número de sujetos o bloques es menor que
el número de medidas repetidas) no es posible aplicar la aproximación multivariada.
Cuando ocurre esto, puede utilizarse el estadístico F modificando los grados de libertad
con el valor mínimo o límite inferior de ε (la estrategia más conservadora de todas). Es-
ta estrategia consiste en asumir que el cociente MCA / MCA × S se aproxima a la distri-
bución F con 1 y n ! 1 grados de libertad. Si se rechaza la hipótesis nula, terminar el
análisis; si no se rechaza, continuar con el siguiente paso.
3. Utilizar el estadístico F con los grados de libertad modificados mediante el valor esti-
mado de ε, es decir, con las soluciones propuestas para ε por Geisser-Greenhouse y
Huynh-Feldt (ninguna de ellas parece ser sistemáticamente mejor que la otra, pero la
solución de Greenhouse-Geisser es algo más conservadora). Si se ha llegado hasta aquí,
adoptar como buena la decisión a la que lleve este paso.
Por supuesto, las peculiaridades de cada diseño (número de casos, número de medidas repeti-
das, grado de cumplimiento o incumplimiento de los supuestos de normalidad y esfericidad,
etc.), podrían hacer preferible alguna solución sobre otra. Pero los pasos propuestos llevarán
a una solución aceptable en términos de potencia y control de la tasa de error. Y, aunque esta
estrategia secuencial puede parecer engorrosa, debe tenerse en cuenta que este tipo de análisis
suele realizarse con la ayuda de programas informáticos.

Las medidas del tamaño del efecto propuestas para el modelo completamente aleatorizado
(ver Capítulo 6) son válidas también aquí. La medida que acapara las preferencias de los
expertos es la versión parcial de omega-cuadrado ( ). Su valor concreto5 depende de que
el factor sea de efectos fijos o de efectos aleatorios (Kirk, 1995, págs. 261-263). Si el factor
es de efectos fijos6,
= [8.6]
y si es de efectos aleatorios,
= [8.7]
Recordemos que este estadístico se interpreta como proporción de varianza común o com-
partida: indica cómo de grande es la variabilidad entre las medidas repetidas en compara-
ción con la variabilidad total (excluyendo la variabilidad entre los sujetos7 ). La ecuación
[8.7] también se conoce como coeficiente de correlación intraclase, una medida del grado
de parecido (relación) existente entre las respuestas de los sujetos8.
El estadístico está estrechamente relacionado con la medida del tamaño del efecto
de Cohen (1988):
= [8.8]
La regla propuesta por Cohen para interpretar estas medidas sigue siendo válida aquí. En lo
relativo a , valores de 0,01, 0,06 y 0,14 indican efectos de tamaños pequeño, mediano y
grande. En el caso de ( f en la notación utilizada por Cohen), los valores de referencia son
0,10, 025 y 0,40.
En nuestro ejemplo sobre la relación entre la calidad del recuerdo y el paso del tiempo
(ver Tabla 8.4) tenemos J = 4 medidas repetidas, n = 6 sujetos, MCA = 124 y MCA×S = 2,80.
Asumiendo que el factor (momentos en los que se registra el recuerdo) es de efectos fijos,
= = 0,88
5
Si el estadístico F es menor que 1 (es decir, sin MCA < MCA×S ), las ecuaciones [8.6] y [8.7] ofrecen un valor negativo.
Puesto que una proporción no puede ser negativa, cuando ocurre esto se considera que ω2 vale cero.
6
El valor de también puede obtenerse a partir del estadístico F. Cuando el factor es de efectos fijos, la ecuación [8.6]
equivale a = [(J ! 1) (F ! 1)] / [n J + (J !1) (F !1)]. Cuando el factor es de efectos aleatorios, la ecuación [8.7] equiva-
le a = (F ! 1) / [(n ! 1) + F ].
7
Los estadísticos definidos en [8.6] y en [8.7] son medidas parciales, por contraposición a las medidas completas, que
utilizan la variabilidad total en el denominador. En general, las medidas de asociación parciales son preferibles a las com-
pletas, pues comparan la variabilidad debida al factor con una estimación neta de la variabilidad error (Keppel y Wickens,
2004, pág. 235; Maxwell, Camp y Arvey, 1981).
8
Sustituyendo en [8.7] MCA por MCS y n ! 1 por J ! 1 se obtiene una estimación del grado de variabilidad existente entre
los sujetos o bloques. Esta estimación refleja el grado de parecido existente entre las medidas repetidas y es muy utiliza-
da en el contexto de la fiabilidad de las escalas (ver Abad, Olea, Ponsoda y García, 2010, Cap. 9).
= = 2,71
Ambos estadísticos indican que el efecto del paso del tiempo sobre la calidad del recuerdo
es de gran tamaño. En concreto, conocer en qué momento se registra el recuerdo (hora, día,
semana, mes) mejora nuestro conocimiento sobre su calidad un 84 %.

La estrategia para calcular la potencia observada y el tamaño muestral necesario para alcan-
zar una determinada potencia se ha descrito ya en el Capítulo 6. Lo dicho allí sirve también
aquí. Partimos del parámetro de no centralidad λ y de su transformación en :
= , = [8.9]
La potencia asociada al estadístico F puede obtenerse de la Tabla G del Apéndice final a

partir del valor de y de los grados de libertad del estadístico F:
= = = [8.10]
El parámetro de no centralidad λ también puede estimarse simplemente multiplicando el va-

lor del estadístico F por los grados de libertad de su numerador (J ! 1).
En nuestro ejemplo sobre la relación entre el paso del tiempo y la calidad del recuerdo
con J = 4 medidas (ver Tabla 8.4) hemos obtenido MCA = 124 y MCA×S = 2,133. Por tanto,
= = 6,60
(utilizando el estadístico F = 58,13 y los grados de libertad de su numerador (J ! 1 = 3) se

obtiene para λ un valor estimado de 58,13 × 3 = 174,39. Por tanto: = = 6,60).
Ahora, para calcular la potencia observada correspondiente a un valor = 6,60 necesi-
tamos α = 0,05, gl1 = J ! 1 = 3 y gl2 = (J ! 1) (n ! 1) = 15. En la Tabla G del Apéndice final
(redondeando a gl2 = 16 y tomando = 3, que es el valor mayor que ofrece la tabla), en-
contramos que la probabilidad de cometer errores Tipo II (β) vale cero. Por tanto, la poten-
cia de este contraste (1 ! β) vale 1.
Para estimar el tamaño muestral necesario para alcanzar una determinada potencia es ne-
cesario establecer: (1) el nivel de significación α (generalmente 0,05), (2) el número de me-
didas repetidas del diseño (J ), (3) el tamaño del efecto que se desea poder detectar o que se
considera mínimamente relevante ( o ), y (4) la potencia que se desea alcanzar (general-
mente 0,80). Al eliminar el tamaño muestral de [8.10], queda la medida del tamaño del efecto
definida por Cohen (ver [6.12]):
= ÷ n = [8.11]
Supongamos que en un estudio con 4 medidas repetidas (gl1 = 3) y α = 0,05 queremos que
la potencia del contraste para detectar un efecto de tamaño medio (δ = 0,25 según la regla de
Cohen) valga 0,80 (β = 0,20). Tenemos que utilizar la Tabla G al revés de como lo hemos
hecho antes, pero ahora nos encontramos con que no conocemos los grados de libertad gl2,
pues dependen del tamaño muestral que estamos buscando. Esto, sin embargo, no represen-
ta ningún problema porque utilizar un valor de partida de 30 o mayor no hace cambiar las
cosas. Podemos elegir, por ejemplo, gl2 = . Así, con gl1 = 3, gl2 = y β = 0,20 (tomamos
0,23), la Tabla G ofrece un valor de 1,6 para . Por tanto, n = (1,6 / 0,25)2 = 40,96. Es decir,
hacen falta al menos 41 sujetos para alcanzar una potencia de 0,77.
El rechazo de la hipótesis global de igualdad de medias permite afirmar que hay medias que
no son iguales, pero no permite precisar qué medias difieren de qué otras. Para esto es nece-
sario realizar comparaciones múltiples.
En el caso de que pueda asumirse esfericidad, los procedimientos descritos a propósi-
to del modelo de un factor completamente aleatorizado (ver, en el Capítulo 6, el apartado
Comparaciones múltiples) sirven para el modelo de un factor con medidas repetidas. Úni-
camente hay que tener en cuenta que la media cuadrática error, que ahora es MCA × S , se
calcula de forma distinta y que sus grados de libertad son (J ! 1) (n ! 1) en lugar de N ! J.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados pa-
ra realizar comparaciones planeadas o a priori siguen siendo válidos si se tiene la precau-
ción de utilizar las ecuaciones propuestas para el caso en que no puede asumirse que las va-
rianzas poblacionales son iguales (por ejemplo, utilizando la ecuación [6.36] en lugar de la
[6.35]; ver, por ejemplo, Mitzel y Games, 1981).
Y en lo relativo a las comparaciones post hoc o a posteriori, es preferible (ver Kesel-
man y Keselman, 1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980) estudiar las
comparaciones por pares utilizando la prueba T de Student para muestras relacionadas (ver
Capítulo 5) corrigiendo la tasa de error por comparación (αC) mediante el método de Dunn-
Bonferroni, es decir, dividiendo α F , generalmente 0,05, entre el número de comparaciones
por pares llevadas a cabo (lo cual equivale a utilizar la tabla de Dunn-Bonferroni en lugar de
la tabla de la distribución t)9. En el siguiente apartado se explica cómo hacer todo esto con
el SPSS.
ANOVA de un factor con medidas repetidas (A-MR) con SPSS

El ANOVA de un factor con medidas repetidas está disponible en el procedimiento GLM
Medidas repetidas. Este procedimiento permite obtener todos los estadísticos estudiados en los
apartados anteriores, contrastar el supuesto de esfericidad, estimar el tamaño del efecto y la
potencia observada, y realizar comparaciones múltiples planeadas y post hoc.
Desde el punto de vista de la disposición de los datos en el Editor de datos, la diferen-
cia más evidente entre un factor completamente aleatorizado (CA) y un factor con medidas
repetidas (MR) se encuentra en la correspondencia existente entre el factor y el número de
9
Puede obtenerse un ligero incremento en la potencia (ver Hochberg y Tamhane, 2009) si el valor del estadístico T para
muestras relacionadas se compara con el cuantil 100 (1 ! α) de la distribución del módulo máximo studentizado (ver Par-
do y San Martín, 1998, Tabla M del Apéndice final) con k = J (J ! 1) / 2 y n ! 1 grados de libertad.
variables del archivo de datos. Mientras que un factor CA es una variable del archivo (una
variable categórica que toma distintos valores, cada uno de los cuales define un nivel del
factor), un factor MR no es una variable del archivo de datos; no existe como tal; sus niveles
son las medidas repetidas; y cada medida repetida es una variable del archivo. Por tanto, pa-
ra poder ajustar un modelo de un factor MR, es necesario realizar algunas tareas extra: hay
que dar nombre al factor MR, fijar su número de niveles e indicar qué variable del archivo
de datos se corresponde con cada nivel.
En este apartado se explica cómo utilizar el procedimiento GLM Medidas repetidas para
analizar los datos de nuestro ejemplo sobre la relación entre el paso del tiempo y la calidad
del recuerdo (ver Tabla 8.4). En concreto, vamos a realizar 6 tareas: (1) chequear el supues-
to de esfericidad 10, (2) obtener un gráfico de líneas o de perfil representando las medias de
las medidas repetidas, (3) contrastar la hipótesis de igualdad de medias con los diferentes
estadísticos propuestos (es decir, con el estadístico F convencional, con el estadístico F con
los grados de libertad modificados y con los estadísticos de la aproximación multivariada),
(4) estimar el tamaño del efecto y calcular la potencia observada, (5) realizar comparacio-
nes planeadas o a priori (incluidas las comparaciones de tendencia) y (6) realizar compa-
raciones post hoc o a posteriori. Para llevar a cabo todas estas tareas:
tiempo recuerdo que se encuentra en la página web del manual).
' Seleccionar la opción Modelo lineal general > Medidas repetidas del menú Analizar para acce-
der al cuadro de diálogo Medidas repetidas: Definir factores (en este cuadro de diálogo,
previo al principal, es donde se define el factor de medidas repetidas).
' Introducir el nombre del factor MR (tiempo) en el cuadro de texto Nombre del factor intra-
sujetos y el número de niveles de que consta el factor (4) en el cuadro de texto Número
de niveles. Pulsar el botón Añadir para validar y el botón Definir para acceder al cuadro de
diálogo principal Medidas repetidas.
' Seleccionar las variables hora, día, semana y mes, y trasladarlas (en el orden correcto)
a la lista Variables intrasujetos.
' Pulsar el botón Opciones para acceder al subcuadro de diálogo Medidas repetidas: Opcio-
nes y marcar las casillas Estadísticos descriptivos, Estimaciones del tamaño del efecto y Po-
tencia observada.
' Seleccionar la variable tiempo en la lista Factores e interacciones de los factores y trasla-
darla, con el botón flecha, a la lista Mostrar las medias para.
' Marcar la opción Comparar los efectos principales y seleccionar la opción Bonferroni den-
tro del menú desplegable Ajuste del intervalo de confianza (las comparaciones post hoc no
están disponibles para los factores intrasujetos o de medidas repetidas; para realizar es-
te tipo de comparaciones con un factor intrasujetos es necesario utilizar la opción Com-
parar efectos principales del cuadro de diálogo Opciones.). Pulsar el botón Continuar para
volver al cuadro de diálogo principal.
10
Los supuestos de independencia y normalidad se pueden contrastar aplicando a cada medida repetida la prueba de las
rachas (ver Apéndice 2) y la prueba de normalidad de Shapiro-Wilk (ver, en el Capítulo 2, el apartado Contrastes y gráficos
de normalidad). Aplicando estas dos pruebas a los datos de la Tabla 8.4, con ninguna de las cuatro medidas repetidas se
rechaza la hipótesis de independencia o aleatoriedad ( p > 0,377 en todos los casos) ni la de normalidad ( p > 0,05 en todos
los casos).
' Pulsar el botón Gráficos para acceder al subcuadro de diálogo Medidas repetidas: Grá-
ficos de perfil, trasladar la variable tiempo de la lista Factores al cuadro Eje horizontal y
pulsar el botón Añadir para trasladar la variable seleccionada a la lista inferior y hacer
efectiva la selección.
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 8.5 a la
8.11 y el gráfico de líneas que muestra la Figura 8.1 (derecha). La Tabla 8.5 comienza ofre-
ciendo información descriptiva: las medias y las desviaciones típicas de cada medida (es
decir, de cada nivel del factor tiempo); también ofrece el número de casos válidos en cada
medida (este dato permite saber si existe algún valor perdido). En el gráfico de líneas de la
Figura 8.1 (pág. 302) están representadas estas medias; en él se aprecia un evidente descenso
de la calidad media del recuerdo conforme pasa el tiempo; el análisis de varianza permite
decidir si ese descenso es real o puede explicarse por las fluctuaciones del azar muestral.

Media Desv. típ. N
Una hora 17,00 2,19 6
Un día 12,00 2,90 6
Una semana 8,00 2,61 6
Un mes 7,00 2,68 6
Esfericidad
La Tabla 8.6 ofrece la prueba de esfericidad de Mauchly. Esta prueba permite contrastar la
hipótesis nula de que la matriz de varianzas-covarianzas correspondiente a las J medidas
repetidas es esférica. El rechazo de esta hipótesis implica que no es posible asumir esferi-
cidad. Puesto que el nivel crítico asociado al estadístico W (sig. = 0,743) es mayo que 0,05,
no puede rechazarse la hipótesis de esfericidad; es decir, puede asumirse que la matriz de
varianzas-covarianzas es esférica. Las tres últimas columnas de la tabla (épsilon) se expli-
can a continuación.
Tabla 8.6. Contraste de esfericidad de Mauchly

Medida: MEASURE_1
Épsilon
W de Chi-cuadrado Greenhouse- Huynh- Límite-
Efecto intra-sujetos Mauchly aprox. gl Sig. Geisser Feldt inferior
tiempo ,47 2,77 5 ,743 ,69 1,00 ,33
Igualdad de medias
Las Tablas 8.7 y 8.8 recogen todos los estadísticos que incluye el procedimiento para el
contraste de la hipótesis global de igualdad de medias.
Si puede asumirse esfericidad, el estadístico F es la mejor elección. Este estadístico se
encuentra en la Tabla 8.8 en la fila encabezada esfericidad asumida (éste es el estadístico
que hemos calculado a mano con los datos de la Tabla 8.4). El nivel crítico asociado al es-
tadístico F = 58,12 (sig. < 0,0005) permite rechazar la hipótesis de igualdad de medias y
concluir que los promedios comparados no son iguales. Por tanto, la calidad del recuerdo no
es la misma en los cuatro momentos definidos por el factor tiempo (en una situación real, el
contraste de la hipótesis global de igualdad de medias debería detenerse aquí; pero esto es
un ejemplo y debemos seguir explicando el resto de posibilidades).
Si no puede asumirse esfericidad, tenemos dos soluciones alternativas: (1) los estadís-
ticos multivariados de la Tabla 8.7 y (2) el estadístico F con los grados de libertad modi-
ficados mediante el índice corrector épsilon.
La Tabla 8.7 ofrece cuatro estadísticos multivariados: traza de Pillai, lambda de Wilks,
T 2 de Hotelling y raíz mayor de Roy (para una descripción de estos estadísticos puede con-
sultarse Bock, 1975, o Tabachnik y Fidel, 2001). Se interpretan de la misma manera que el
resto de estadísticos ya estudiados: puesto que el nivel crítico (sig.) asociado a cada uno de
ellos (en el ejemplo es el mismo para todos: 0,003) es menor que 0,05, se puede rechazar la
hipótesis nula de igualdad de medias.
Tabla 8.7. Contrastes multivariados

Efecto Valor F Gl de la hipótesis Gl del error Sig.
tiempo Traza de Pillai ,98 62,50 3,00 3,00 ,003
Lambda de Wilks ,02 62,50 3,00 3,00 ,003
Traza de Hotelling 62,50 62,50 3,00 3,00 ,003
Raíz mayor de Roy 62,50 62,50 3,00 3,00 ,003
Tabla 8.8. Contrastes univariados (estadísticos F con y sin modificación de los grados de libertad)
Medida: MEASURE_1
a
Suma de cuadrados
Potencia observada
Media cuadrática
Parámetro de no
Eta al cuadrado
centralidad
parcial
tipo III
Sig.
gl
Fuente
tiempo Esfericidad asumida 372,00 3,00 124,00 58,12 ,000 ,92 174,37 1,00
Greenhouse-Geisser 372,00 2,06 180,19 58,12 ,000 ,92 120,00 1,00
Huynh-Feldt 372,00 3,00 124,00 58,12 ,000 ,92 174,37 1,00
Límite-inferior 372,00 1,00 372,00 58,12 ,001 ,92 58,12 1,00
Error (tiempo) Esfericidad asumida 32,00 15,00 2,13
Greenhouse-Geisser 32,00 10,32 3,10
Huynh-Feldt 32,00 15,00 2,13
Límite-inferior 32,00 5,00 6,40
En el caso de que la solución basada en los estadísticos multivariados no lleve al rechazo de

la hipótesis de igualdad de medias (no es el caso de este ejemplo), el análisis debe continuar
con los estadísticos F con los grados de libertad modificados. Estos estadísticos se encuen-
tran en la Tabla 8.8. La peculiaridad que los distingue es que su distribución muestral está
modificada multiplicando los grados de libertad originales por el índice corrector épsilon (ε).
Este índice corrector (Tabla 8.6, mitad derecha) expresa el grado de esfericidad de la matriz
de varianzas-covarianzas (recordemos que, en condiciones de esfericidad perfecta, vale 1).

La tabla ofrece dos estimaciones de épsilon: Greenhouse-Geisser y Huynh-Feldt; un tercer
valor, límite inferior, expresa el valor que adoptaría épsilon en el caso de incumplimiento
extremo del supuesto de esfericidad.
Los resultados de la Tabla 8.8 indican que las tres versiones del estadístico F (Green-
house-Geisser, Huynh-Feldt y límite inferior) conducen a la misma conclusión, que a su vez
coincide con la ya alcanzada con el estadístico F convencional (esfericidad asumida) y con
los estadísticos multivariados de la Tabla 8.7: puesto que el nivel crítico (sig.) es, en todos
los casos, menor que 0,05, se puede rechazar la hipótesis de igualdad de medias y concluir
que la calidad del recuerdo no es la misma en los cuatro momentos.

Las tres últimas columnas de la Tabla 8.8 informan del tamaño del efecto y de la potencia
observada. La columna encabezada eta cuadrado parcial contiene la medida de proporción
de varianza común o compartida :
= = = 0,92
El procedimiento GLM Medidas repetidas no calcula (Ver ecuación [8.6]), pero la Tabla 8.8
contiene la información necesaria para hacerlo:
= = = 0,88
La siguiente columna de la tabla contiene el parámetro de no-centralidad de la distribución

F no centrada (174,37; ver ecuación [8.9]). Este parámetro es el que se utiliza para calcular
la potencia observada que aparece en la última columna de la tabla.
Comparaciones planeadas
El procedimiento Medidas repetidas asigna, por defecto, contrastes de tipo polinómico a los
factores MR. Estos contrastes permiten estudiar el tipo de relación (lineal, cuadrática, cúbi-
ca, etc.) existente entre el factor y la variable dependiente11.
Si no se modifica la opción por defecto del botón Contrastes (subcuadro de diálogo Me-
didas repetidas: Contrastes), el Visor ofrece los contrastes polinómicos (comparaciones de
tendencia) que muestra la Tabla 8.9. Puesto que se trata de contrastes ortogonales, la tabla
muestra tantos contrastes como niveles tiene el factor, menos uno; dado que el factor tiem-
po del ejemplo tiene cuatro niveles, aparecen tres contrastes: lineal, cuadrático y cúbico.
La tabla recoge la información necesaria para contrastar la hipótesis nula de que el po-
linomio (tendencia) evaluado vale cero en la población; es decir, la hipótesis nula de que no
existe relación lineal, cuadrática, etc. En el ejemplo, los valores de los niveles críticos (sig.)
asociados a cada estadístico F permiten rechazar las hipótesis referidas a los componentes
11
Aunque el SPSS los ofrece por defecto, debe tenerse en cuenta que, dependiendo de las características del factor, estos
contrastes podrían no tener sentido (ver, en el Capítulo 6, el apartado Comparaciones de tendencia).
lineal y cuadrático, pero no la referida al componente cúbico. Esto significa que las medias
de la calidad del recuerdo en cada momento temporal se ajustan tanto a una línea recta (ten-
dencia lineal) como a una curva (tendencia cuadrática).
Cuando existe más de un componente significativo, es probable que el de mayor orden
se ajuste mejor, pero las funciones más parsimoniosas (más simples) son más fáciles de in-
terpretar y, generalmente, más útiles. No obstante, decidir qué componente de los signifi-
cativos se interpreta depende, fundamentalmente, de las hipótesis del estudio.
No es infrecuente encontrar más de un componente significativo. En concreto, no es in-
frecuente encontrar que tanto el componente lineal como el cuadrático son significativos. Esto
indica, por lo general, que la relación subyacente no es estrictamente lineal sino monótona
(creciente o decreciente). Un gráfico de perfil (ver siguiente apartado) suele ayudar bastan-
te a entender lo que está ocurriendo.
Tabla 8.9. Contrastes intrasujetos (comparaciones de tendencia)

Medida: MEASURE_1
Suma de Media
Fuente tiempo cuadrados tipo III gl cuadrática F Sig.
tiempo Lineal 346,80 1 346,80 166,73 ,000
Cuadrático 24,00 1 24,00 7,50 ,041
Cúbico 1,20 1 1,20 1,07 ,348
Error ( iempo) Lineal 10,40 5 2,08
Cuadrático 16,00 5 3,20
Cúbico 5,60 5 1,12
El subcuadro de diálogo Medidas repetidas: Contrastes permite llevar a cabo comparaciones

planeadas distintas de las de tendencia. En ese subcuadro de diálogo, la lista Factores contiene
un listado con los factores incluidos en el análisis. Las opciones del menú desplegable Con-
traste permiten cambiar el contraste que el procedimiento asigna por defecto ( polinómico) se-
leccionando el contraste deseado (no olvidar pulsar el botón Cambiar para validar la selec-
ción hecha). Cada uno de estos contrastes define un tipo particular de comparaciones (la
ayuda contextual aclara el significado de cada contraste). Con todos ellos se obtienen J ! 1
comparaciones entre las J categorías (niveles) del factor seleccionado.
También existe la posibilidad de solicitar, mediante sintaxis, contrastes personalizados,
por ejemplo, para comparar el primer nivel del factor con todos los demás, o los dos prime-
ros niveles con los dos últimos, etc. Para ello hay que utilizar la sentencia CONTRAST segui-
da de la especificación SPECIAL. Para comparar, por ejemplo, la primera categoría o nivel del
factor recuerdo con las demás, y las dos primeras con las otras dos, debe utilizarse la
siguiente línea de sintaxis: Contrast (recuerdo) = special (3 !1 !1 !1 1 1 !1 !1). Los cuatro
primeros códigos se refieren a la primera comparación (cuatro códigos porque el factor
recuerdo tiene cuatro niveles); los cuatro siguientes se refieren a la segunda comparación.
Comparaciones post hoc

Las comparaciones del botón Post hoc solamente están disponibles para los factores inter-
sujetos (ver, en el Capítulo 9, el apartado ANOVA de dos factores con medidas repetidas en
uno). El procedimiento MLG Medidas repetidas no permite aplicar estas comparaciones a los
factores intrasujetos. Para comparar por pares los niveles de un factor intrasujetos debe uti-
lizarse la opción Comparar los efectos principales del subcuadro de diálogo Medidas repetidas:
Opciones. Al seleccionar esta opción, lo recomendable es seleccionar también algún méto-
do de control de la tasa de error. El procedimiento permite elegir entre el método de Bon-
ferroni y el de Šidák12.
Con esta opción se obtienen los resultados que muestran las Tablas 8.10 y 8.11. La pri-
mera de ellas es la tabla de Medias estimadas: ofrece, para cada nivel del factor tiempo, la
media estimada y su correspondiente error típico e intervalo de confianza (calculado al 95%).
Debe tenerse en cuenta que estos intervalos de confianza se refieren a cada media indivi-
dualmente considerada, no a diferencias entre pares de medias; por tanto, el hecho de que
exista o no solapamiento entre los intervalos de confianza de dos medias concretas no pue-
de utilizarse para contrastar la hipótesis de igualdad entre las correspondientes medias po-
blacionales.
Tabla 8.10. Medias estimadas (factor tiempo)

Medida: MEASURE_1
Intervalo de confianza al 95%
tiempo Media Error típ. Límite inferior Límite superior
1 17,00 ,89 14,70 19,30
2 12,00 1,18 8,96 15,04
3 8,00 1,06 5,26 10,74
4 7,00 1,10 4,18 9,82
La Tabla 8.11 ofrece las comparaciones dos a dos entre los cuatro niveles del factor (entre
las cuatro medidas repetidas). La tabla incluye, para cada comparación, la diferencia obser-
vada entre cada par de medias, el error típico de esa diferencia y el nivel crítico asociado a
esa diferencia bajo la hipótesis de igualdad de medias. Una nota a pie de tabla recuerda que
se está aplicando el método de Bonferroni para controlar la tasa de error. Los resultados de
la tabla indican que todas las comparaciones entre momentos son significativamente dis-
tintas de cero (sig. < 0,05 en todos los casos).
Tabla 8.11. Comparaciones por pares (factor tiempo)

Medida: MEASURE_1
Intervalo de confianza al 95 %
a
Diferencia entre para la diferencia
a
(I) tiempo (J) tiempo medias (I-J) Error típ. Sig. Límite inferior Límite superior
1 2 5,00 ,73 ,006 1,92 8,08
3 9,00 ,73 ,000 5,92 12,08
4 10,00 ,73 ,000 6,92 13,08
2 3 4,00 ,73 ,017 ,92 7,08
4 5,00 1,15 ,045 ,13 9,87
3 4 1,00 ,89 1,000 -2,77 4,77
12
Ver, en el Capítulo 6, el apartado Prueba de Dunn-Bonferroni. Ver también, en ese mismo capítulo, la nota a pie de pá-
gina número 21.
La prueba de Friedman
El estadístico F asume que los datos proceden de poblaciones normales y que la matriz de
varianzas-covarianzas es esférica. Los estadísticos estudiados en el apartado Alternativas al
estadístico F no asumen esfericidad, pero sí normalidad. Y todos ellos requieren trabajar con
una variable dependiente cuantitativa (de intervalos o de razón).
Friedman (1937) ha propuesto un procedimiento que puede aplicarse con datos ordina-
les (no exige, por tanto, nivel de medida de intervalos o razón) y, como consecuencia de esto,
no requiere asumir normalidad ni esfericidad. Como contrapartida, únicamente aprovecha
información ordinal. En realidad se trata de una extensión de la prueba de Wilcoxon para dos
muestras relacionadas (ver Capítulo 5) al caso de más de dos muestras relacionadas, es de-
cir, al caso de J medidas repetidas.
Para aplicar la prueba de Friedman se comienza transformando las puntuaciones origi-
nales en rangos . Esto se hace asignando, a las puntuaciones de cada sujeto o bloque,
enteros consecutivos de 1 a J (es decir, asignando un 1 a la puntuación más pequeña, un 2 a
la más pequeña de las restantes, etc.; los empates se resuelven asignando el rango prome-
dio). Puesto que los rangos se asignan independientemente a cada sujeto o bloque, todas las
filas de la tabla (sujetos) pasan a sumar lo mismo: = J (J + 1) / 2 (ver Tabla 8.3). De don-
de cabe deducir que la media y la varianza de cada casilla vendrán dadas por
= y = [8.12]
Pero los totales que nos interesan, es decir, los totales que nos informan de las posibles dife-
rencias entre los niveles del factor, son las sumas de los n rangos de cada columna ( ). Si
las J medias poblacionales son iguales, entonces
= y = [8.13]
Una sencilla manera de formarnos una idea sobre el grado de parecido entre las J medias
poblacionales consiste en obtener una cuantificación del grado en que cada total se des-
vía de su valor esperado, es decir,
= [8.14]
Si las medias poblacionales son iguales, los serán parecidos y S tomará un valor próxi-
mo a cero. El problema de S es que su valor depende (ver Pardo y San Martín, 1998, pág.
443) tanto del número de medidas repetidas del diseño (J ) como del número de sujetos (n).
Es preferible utilizar una variante de S,
= [8.15]
que no depende del número de sujetos sino solamente del número de medidas repetidas. Unas
sencillas operaciones permiten transformar la ecuación [8.9] en la expresión habitual del
estadístico de Friedman:
= [8.16]
La Tabla Q del Apéndice final ofrece las probabilidades exactas asociadas los puntos críti-
cos de la distribución muestral de para algunos valores de J y n. Para valores diferentes
de J o n puede utilizarse la distribución χ 2 con J ! 1 grados de libertad13.
El estadístico y su distribución muestral pueden utilizarse para contrastar la hipóte-
sis nula de que las J poblaciones tienen el mismo centro14 frente a la alternativa de que al me-
nos una población contiene puntuaciones más altas que la otra15. Para ello, basta con asumir
que el nivel de medida es al menos ordinal y que los sujetos o bloques son independientes
entre sí (muestra aleatoria) e independientes de los niveles del factor (el efecto del factor y
el de los sujetos o bloques se combinan aditivamente)16.
Para contrastar la hipótesis de igualdad de medias con los datos de nuestro ejemplo so-
bre la relación entre la calidad del recuerdo y el paso del tiempo, hemos comenzado asig-
nando rangos a los datos de la Tabla 8.4. La Tabla 8.12 muestra el resultado obtenido.
Tabla 8.12. Datos de la Tabla 8.4 transformados en rangos
Sujetos Hora Día Semana Mes

1 4 3 2 1
2 4 3 2 1
3 4 3 1 2
4 4 3 1 2
5 4 3 2 1
6 4 3 2 1
Sumas 24 18 10 8
13
Ver, por ejemplo, San Martín y Pardo, 1989, págs. 248-249, para una justificación de la aproximación de a la dis-
tribución χ2 con J!1 grados de libertad.
14
La hipótesis nula que se contrasta con el estadístico de Friedman (ecuación [8.16]) es que, dentro de cada sujeto o bloque,
cualquier combinación de J rangos es igualmente probable. Esta hipótesis aplicada a nuestro ejemplo sobre la relación entre
la calidad del recuerdo y el paso del tiempo significa que la calidad del recuerdo es la misma en los cuatro momentos con-
siderados en el ejemplo.
15
El estadístico F aplicado, no a las puntuaciones originales, sino a las puntuaciones transformadas en rangos, adopta la
siguiente forma
[8.17]
y se distribuye según el modelo de probabilidad F con J ! 1 y (J ! 1) (n ! 1) grados de libertad. Iman y Davenport (1980)
y Zimmerman y Zumbo (1993) han señalado que esta solución ofrece mejores resultados que el estadístico de Friedman.
16
Si existen muchos rangos empatados, el estadístico tiene un comportamiento algo conservador (tiende a rechazar
la hipótesis nula menos de lo que debería). En estos casos conviene dividir el valor de por un término corrector que tie-
ne en cuenta la presencia de empates:
[8.18]
donde tg es el número de puntuaciones empatadas en un rango dado (t1, t2, ..., tg, ..., tG) y G el número de conjuntos de em-
pates. Por supuesto, los empates que importan son los que se dan dentro del mismo sujeto o bloque pues, recordemos, los
rangos se asignan independientemente para cada sujeto o bloque. Esta corrección por empates se realiza para corregir el
sesgo conservador que afecta a cuando existen empates, por lo que no tiene sentido utilizarla cuando sin ella ya se re-
chaza la hipótesis de igualdad de medias.
Aplicando [8.16] a estos datos obtenemos
= = 16,40
Con J = 4, n = 6 y α = 0,05, la Tabla Q del Apéndice final ofrece el valor = 7,60.

Puesto que el valor del estadístico del contraste (16,40) es mayor que el valor del punto crítico
(7,60), podemos rechazar la hipótesis nula y concluir que la calidad del recuerdo no es la
misma en los cuatro momentos.
La prueba de Friedman está disponible en el SPSS dentro de la opción Pruebas no paramé-
tricas del menú Analizar. Para aplicar la prueba de Friedman a los datos de la Tabla 8.4:
tiempo recuerdo que se encuentra en la página web del manual).
' Seleccionar la opción Pruebas no paramétricas > K muestras relacionadas del menú Analizar
para acceder al cuadro de diálogo Pruebas para varias muestras relacionadas y trasla-
dar las variables hora, día, semana y mes a la lista Contrastar variables.
Aceptando estas selecciones, el Visor genera los resultados que muestran las Tablas 8.13 y
8.14. La Tabla 8.13 ofrece, para cada variable (para cada medida repetida), la media de los
rangos asignados a cada medida repetida.
La Tabla 8.14 contiene los resultados de la prueba de Friedman. Incluye el número de
casos válidos (N = 6), el valor del estadístico de Friedman17 (Chi-cuadrado = 16,40), sus
grados de libertad (gl = 3) y el nivel crítico (sig. asintótica = 0,001). Puesto que el nivel críti-
co obtenido (0,001) es menor que 0,05, se puede rechazar la hipótesis nula y concluir que la
calidad media del recuerdo no es la misma en los cuatro momentos.
Aunque existen procedimientos para efectuar comparaciones múltiples cuando el esta-
dístico de Friedman resulta significativo (ver, por ejemplo, Pardo y San Martín, 1998, pág.
447), para analizar con el SPSS qué variables difieren entre sí puede utilizarse la prueba de
Wilcoxon para dos muestras (ver Capítulo 5) aplicando el método de Bonferroni para con-
trolar la tasa de error.
Tabla 8.13. Rangos promedio

Rango promedio
Hora 4,00
Día 3,00
Semana 1,67
Mes 1,33
Tabla 8.14. Prueba de Friedman

N 6
Chi-cuadrado 16,40
gl 3
Sig. asintót. ,001
17
El SPSS calcula el estadístico de Friedman aplicando la corrección por empates propuesta en la ecuación [8.18]. Pues-
to que en nuestro ejemplo no existen rangos empatados, el resultado que se obtiene con las ecuaciones [8.16] y [8.18] es
exactamente el mismo.
Apéndice 8
Cómo estimar épsilon (ε)
Al mencionar los supuestos en los que se basa el modelo de un factor con medidas repetidas hemos
tenido que hacer constantes referencias a la matriz de varianzas-covarianzas. Esta matriz es una ma-
triz cuadrada de orden J (es decir, con J filas y J columnas, tantas como medidas repetidas) con las
varianzas de cada medida en la diagonal principal y las covarianzas entre cada par de medidas fuera
de la diagonal.
Cuando se utiliza el estadístico F convencional para contrastar efectos intrasujetos, la matriz de
varianzas-covarianzas debe ajustarse a una determinada estructura. A esta estructura la hemos llamado
esfericidad. Y Box (1954a, 1954b) ha demostrado que, cualquiera que sea el grado de incumplimiento
del supuesto de esfericidad, el cociente MCefecto / MCerror referido a un efecto intrasujetos se distribuye
aproximadamente según el modelo de probabilidad F con ε(glefecto ) y ε(glerror) grados de libertad, don-
de ε es un parámetro que expresa el grado en que la matriz de varianzas-covarianzas se aleja de una es-
tructura esférica (recordemos que ε vale 1 en condiciones de esfericidad perfecta y que va disminu-
yendo alejandose de 1 conforme la matriz de varianzas-covarianzas se va haciendo menos esférica).
Para estimar ε se han propuesto varios métodos. El SPSS recoge dos de ellos: Greenhouse-Geisser
y Huynh-Feldt (ver Tabla 8.6). La estimación de ε que el SPSS presenta con el nombre de Greenhouse-
Geisser (Geisser y Greenhouse, 1958; Greenhouse y Geiser, 1959) se obtiene mediante
= [8.19]
_
donde Sj =j se refiere a los elementos de la diagonal principal, S es la media de todos los elementos de
la matriz, S j j se refiere al elemento de la j-ésima fila y de la j-ésima columna, y S j se refiere a los ele-
mentos de la j-ésima fila. Puesto que la solución basada en resulta algo conservadora, Huynh y Feldt
(1976) han propuesto corregir mediante
˜= [8.20]
En nuestro ejemplo sobre la relación entre la calidad del recuerdo y el paso del tiempo (ver Tabla 8.4)
tenemos J = 4 medidas repetidas (hora, día, semana, mes). Con estas 4 variables (medidas repetidas)
se obtiene la matriz de varianzas-covarianzas que muestra la Tabla 8.15 (la tabla incluye las sumas de
los elementos de las filas, de las columnas y de toda la tabla).
Tabla 8.15. Matriz de varianzas-covarianzas correspondiente a los datos de la Tabla 8.4
hora día semana mes Suma

hora 4,80 5,00 4,20 4,40 18,40
día 5,00 8,40 6,00 3,80 23,20
semana 4,20 6,00 6,80 4,60 21,60
mes 4,40 3,80 4,60 7,20 20,00
Suma 18,40 23,20 21,60 20,00 83,20

Aplicando las ecuaciones [8.19] y [8.20] a estos datos obtenemos:
= = 0,69
˜ = > 1
que son justamente los valores que ofrece el SPSS para las estimaciones Greenhose-Geisser y Huynh-
Feldt (ver Tabla 8.6). El valor de ˜ siempre es mayor que el de , excepto cuando toma su valor mí-
nimo, 1/(J ! 1), en cuyo caso ambos valores son iguales.
Prueba de Cochran
Cabe la posibilidad de que en un diseño de un factor con medidas repetidas (A-MR) la variable de-
pendiente o respuesta no sea una variable cuantitativa sino dicotómica (presencia, ausencia; a favor,
en contra; recuperados, no recuperados; etc.). En este escenario, en lugar de J variables cuantitativas,
tenemos J variables dicotómicas que siguen estando relacionadas porque se miden en los mismos su-
jetos o bloques. Y lo que procede en estos casos no es comparar medias, sino proporciones.
El procedimiento para comparar J proporciones relacionadas es una generalización del proce-
dimiento estudiado en el Capítulo 3 para el caso de dos proporciones relacionadas (ver el aparatado
Simetría con variables dicotómicas: la prueba de McNemar).
La estructura de los datos es idéntica a la presentada en la Tabla 8.3. La única diferencia es que,
ahora, las puntuaciones Yij son unos y ceros. La suma de cada columna, T+j, representa el número total
de unos en cada nivel del factor. Consecuentemente, las proporciones marginales P+ j representan la
proporción de unos en cada nivel del factor: P+ j = T+ j /n.
Si las J muestras proceden de poblaciones idénticas, cabe esperar que las proporciones margina-
les P+ j sean iguales, excepto en la parte atribuible a las fluctuaciones propias del azar muestral. Ba-
sándose en este hecho, Cochran (1950) ha diseñado un procedimiento18 que permite poner a prueba la
hipótesis nula de igualdad entre las J proporciones poblacionales (H0: π +1 = π +2 = ... = π +J ):
Q= [8.21]
El estadístico Q se distribuye según χ2 con J – 1 grados de libertad. Y para contrastar la hipótesis nula
de igualdad de proporciones únicamente hay que asumir que se tiene una muestra aleatoria de n sujetos
o bloques independientes entre sí en los que se miden J variables dicotómicas.
El SPSS incluye la prueba de Cochran en el procedimiento Pruebas no paramétricas. Para ilustrar
su aplicación, vamos a utilizar los datos de una encuesta realizada a 906 espectadores de televisión
sobre los motivos por los que estarían dispuestos a seguir viendo un determinado programa en la
siguiente temporada. Los datos están disponibles en el archivo tv-survey, el cual se encuentra en la
carpeta de ejemplos que incluye el SPSS. Las siete variables del archivo (cada variable representa un
motivo) son dicotómicas: 1 = «sí», 0 = «no».
Puesto que todos los sujetos responden a las siete preguntas, se trata de un diseño de medidas re-
petidas (muestras relacionadas). Y puesto que las variables que interesa analizar son dicotómicas,
puede aplicarse la prueba de Cochran para comparar J proporciones relacionadas. Para ello,
18
Este procedimiento es generalización del de McNemar para dos proporciones relacionadas. De hecho, si J = 2, el estadís-
tico de McNemar y el de Cochran son exactamente el mismo (ver, por ejemplo, Conover, 1980, pág. 204).
' Seleccionar la opción Pruebas no paramétricas > K muestras relacionadas del menú Analizar para ac-
ceder al cuadro de diálogo Pruebas para varias muestras relacionadas.
' Trasladar todas las variables (siete en total) a la lista Contrastar variables y, en el recuadro Tipo de
prueba, marcar la opción Cochran.
' Pulsar el botón Estadísticos para acceder al subcuadro de diálogo Varias muestras relacionadas:
Estadísticos y marcar la opción Descriptivos. Pulsar el botón Continuar para volver al cuadro de
diálogo principal.
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 8.16 a 8.18. La Ta-
bla 8.16 contiene algunos descriptivos básicos: el número de casos válidos (no hay casos con valor
perdido), la media (que al tratarse de variables dicotómicas no es otra cosa que la proporción de unos),
la desviación típica insesgada, y los valores mínimo y máximo. La Tabla 8.17 muestra el número (fre-
cuencia) de respuestas de cada tipo observadas en cada pregunta (1 = «sí», 0 = «no»). Estas frecuen-
cias constituyen la base de cálculo de la información que aparece en la Tabla 8.16.
Finalmente, la Tabla 8.18 ofrece el número de casos válidos (N = 906), el estadístico de Cochran
(Q de Cochran = 1.491,561), los grados de libertad ( gl = 6) y el nivel crítico (sig. asintót. < 0,0005).
Puesto que el nivel crítico es menor que 0,05, se puede rechazar la hipótesis de igualdad de propor-
ciones y concluir que la proporción de televidentes que elige cada motivo no es la misma.
Aunque existen procedimientos para efectuar comparaciones múltiples cuando el estadístico de
Cochran resulta significativo (ver, por ejemplo, Pardo y San Martín, 1998, págs. 508-510), para con-
trastar con el SPSS qué proporciones difieren entre sí puede utilizarse la prueba de McNemar para dos
muestras relacionadas (ver Capítulo 3) aplicando la corrección de Bonferroni para controlar la tasa de
error.

N Media Desv. típica Mínimo Máximo
Cualquier motivo 906 ,49 ,500 0 1
A esa hora no hay otros programas populares 906 ,50 ,500 0 1
El programa tiene todavía buenas críticas 906 ,50 ,500 0 1
Otras personas todavía ven el programa 906 ,53 ,499 0 1
Los guionistas originales permanecen en el programa 906 ,81 ,389 0 1
Los directores originales permanecen en el programa 906 ,83 ,378 0 1
Los actores originales siguen en el programa 906 ,89 ,315 0 1
Tabla 8.17. Frecuencias

Valor
0 1
Cualquier motivo 465 441
A esa hora no hay otros programas populares 451 455
El programa tiene todavía buenas críticas 450 456
Otras personas todavía ven el programa 427 479
Los guionistas originales permanecen en el programa 168 738
Los directores originales permanecen en el programa 156 750
Los actores originales siguen en el programa 101 805
Tabla 8.18. Prueba de Cochran

N 906
Q de Cochran 1.491,56
gl 6
Sig. asintót. ,000
Coeficiente de concordancia W de Kendall

El coeficiente de concordancia W (obtenido independientemente por Kendall y Babington-Smith, 1939,
y por Wallis, 1939) sirve para valorar el grado de relación (acuerdo, concordancia) entre más de dos
conjuntos de rangos (para valorar la relación entre dos conjuntos de rangos ya hemos estudiado, por
ejemplo, el coeficiente de correlación Rs de Spearman; ver Capítulo 5).
La necesidad de estudiar la relación entre más de dos conjuntos de rangos se presenta con cierta
frecuencia en diferentes áreas de conocimiento. Por ejemplo, cuando se clasifica una muestra aleato-
ria de sujetos u objetos según varias (más de dos) características; o cuando varios jueces (más de dos)
evalúan, ordenan o clasifican un conjunto de elementos según una característica.
Siguiendo con la notación propuesta en la Tabla 8.3, llamaremos a los rangos correspondien-
tes a las puntuaciones originales ,y a la suma de los n rangos correspondientes a cada elemen-
to clasificado (a la suma de cada columna en la Tabla 8.3):
= [8.22]
Los rangos se asignan por filas, es decir, de la misma manera que para aplicar la prueba de Friedman.
La Tabla 8.12 muestra los rangos asignados a las puntuaciones de la Tabla 8.4.
En el diseño de un factor MR, el objetivo del análisis es comparar los promedios correspondientes
a los J niveles del factor. Con la prueba de Friedman se persigue el mismo objetivo que con el estadís-
tico F, pero asignando rangos a las puntuaciones de cada sujeto o bloque. Con los datos de las Tablas
8.4 y 8.12, ambos estadísticos permiten valorar cómo cambia el recuerdo medio con el paso del tiempo.
Otra forma equivalente de ver el problema consiste en valorar la relación, acuerdo o concordan-
cia existentes entre los n = 6 conjuntos de rangos de la Tabla 8.12. Existirá concordancia perfecta en-
tre ellos cuando todos los sujetos se comporten del mismo modo (por ejemplo, cuando todos los suje-
tos recuerden más al principio y menos al final, en cuyo caso todos los sujetos obtendrán el rango 4 en
el primer momento, el rango 3 en el segundo, ..., el rango 1 en el último). Cuando ocurra esto, los to-
tales correspondientes a los diferentes niveles del factor (a las diferentes columnas) alcanzarán
la máxima diferencia entre ellos (en concreto valdrán 1J, 2 J, 3 J, ..., n J ).
Por el contrario, la relación o concordancia entre los n conjuntos de rangos de la Tabla 8.12 será
baja cuando los sujetos se comporten de forma distinta (por ejemplo, cuando unos recuerden mejor al
principio y otros mejor al final). Cuando ocurra esto, los totales tomarán valores parecidos. Y en
el hipotético caso de concordancia nula serán iguales:
= = ··· = = ··· = = [8.23]
(pues la suma de J conjuntos de rangos vale J (J + 1) / 2). Por tanto, el grado de parecido existente entre
los J totales está reflejando el grado de relación o concordancia existente entre los n conjuntos de
rangos. Traducido esto a los datos de la Tabla 8.12 significa que estudiar si el recuerdo cambia entre
los J = 4 momentos (hipótesis de igualdad de promedios) equivale a estudiar si los n = 6 conjuntos de
rangos correspondientes a cada sujeto están relacionados (hipótesis de relación o concordancia).
Así pues, cuando la concordancia entre n conjuntos de rangos es perfecta, la variabilidad entre los
es máxima; cuando la concordancia es nula, la variabilidad entre los es mínima. Teniendo esto
en cuenta, el estadístico:
S= [8.24]
representa la variabilidad observada entre cada total y el total definido en [8.23], que es el que
cabría esperar si la concordancia fuera nula. S valdrá cero cuando la concordancia existente entre los
n conjuntos de rangos sea nula (pues, en ese caso, todos los totales serán iguales entre sí e igua-
les a n (J + 1) / 2) y alcanzará su valor máximo en el caso de concordancia perfecta, es decir, cuando

entre los totales exista la máxima variabilidad. Este máximo vale
Smáx = [8.25]
Para obtener un coeficiente que valga 0 en el caso de concordancia nula y 1 en el caso de concordan-
cia perfecta puede utilizarse una transformación consistente en dividir S entre su valor máximo. Esta
solución es justamente lo que se conoce como coeficiente de concordancia de Kendall:
= [8.26]
Cuando la relación (acuerdo, concordancia) es máxima, vale 1; cuando la relación es mínima,

vale 0.
Al utilizar el coeficiente de concordancia es importante identificar correctamente a qué se es-
tá llamando J y a qué se está llamando n. Aquí hemos tomado como referencia la notación utilizada
en la Tabla 8.3. Aplicando la prueba de Friedman y el coeficiente de concordancia a los datos de
la Tabla 8.12 se obtiene idéntico resultado. Pero la prueba de Friedman compara los promedios de las
columnas y el coeficiente valora la relación entre las filas. Por tanto (y esto es fuente de confusión
muchas veces), el coeficiente no está valorando la relación entre los J = 4 momentos, sino entre los
n = 6 sujetos.
Imaginemos 3 entrevistadores y 5 aspirantes a un puesto de trabajo. Imaginemos que cada entre-
vistador hace un ranking con los cinco aspirantes y que estamos interesados en cuantificar el grado de
acuerdo existente entre los entrevistadores. Puesto que el coeficiente (tal como lo hemos definido
aquí y tal como lo aplica el SPSS) permite valorar el grado de acuerdo entre varios conjuntos de rangos
y cada conjunto de rangos corresponde a un entrevistador, para que el coeficiente pueda cuantifi-
car el grado de acuerdo entre los entrevistadores debe considerarse que n corresponde a los entre-
vistadores y J a los aspirantes.
Para poder afirmar que existe concordancia estadísticamente significativa entre n conjuntos de
rangos es necesario hacer inferencias sobre el parámetro W. Esto tiene fácil solución porque pue-
de transformarse en el estadístico de Friedman (ver, en este mismo capítulo, el apartado Prueba
de Friedman) mediante
= [8.27]
Y sabemos que este estadístico se distribuye según el modelo de probabilidad χ2 con J ! 1 grados
de libertad.
En el ejemplo que venimos utilizando en este capítulo sobre la relación entre la calidad del recuer-
do y el paso del tiempo (ver Tablas 8.4 y 8.12), tenemos J = 4, n = 6 y = 1.066,5. Aplicando
[8.26] se obtiene19
= = 0,91
19
La presencia de empates dentro de un mismo conjunto de rangos hace que tome un valor más pequeño del que le
corresponde. El SPSS utiliza el coeficiente de Kendall aplicando una corrección por empates:
= [8.28]
donde tg tiene el mismo significado que en [8.18]. Esta corrección es importante solamente cuando hay muchos empates.
Puesto que toma comprendidos entre 0 (acuerdo mínimo) y 1 (acuerdo máximo ), el valor obtenido
indica que el grado de concordancia entre las respuestas de los sujetos es muy alto. Es importante
recordar que no se está valorando el grado de parecido existente entre las medidas repetidas, sino entre
las respuestas de los sujetos (lo cual equivale a valorar el parecido entre los promedios de las medidas
repetidas). Aplicando ahora [8.27] se obtiene20
= 6 (4 ! 1) 0,91 = 16,40
es decir, el mismo valor obtenido al calcular el estadístico de Friedman con estos datos. La significa-
ción estadística de se valora tal como ya hemos hecho al estudiar la prueba de Friedman.
El coeficiente de concordancia de Kendall está disponible en el SPSS dentro de la opción Prue-
bas no paramétricas. Para aplicarlo a los datos de la Tabla 8.4:
' Reproducir en el Editor de datos los datos de la Tabla 8.4 (o abrir el archivo Tabla 8.4 tiempo
recuerdo que se encuentra en la página web del manual).
' Seleccionar la opción Pruebas no paramétricas > K muestras relacionadas del menú Analizar para ac-
ceder al cuadro de diálogo Pruebas para varias muestras relacionadas, trasladar las variables
hora, día, semana y mes a la lista Contrastar variables y marcar la opción W de Kendall.
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestra la Tabla 8.19. La
tabla incluye el número de casos válidos (N = 6), el valor del coeficiente de concordancia de Ken-
dall (0,91; este valor se obtiene aplicando la corrección por empates propuesta en la ecuación [8.28]),
su transformación en (chi-cuadrado = 16,40; ver [8.27]), los grados de libertad (gl = 3) y el
correspondiente nivel crítico (sig. asintótica = 0,001). Puesto que el nivel crítico obtenido es menor
que 0,05, se puede rechazar la hipótesis de concordancia nula y concluir que existe acuerdo estadísti-
camente significativo entre las respuestas de los sujetos (lo cual equivale a afirmar que los promedios
de los cuatro momentos no son iguales).
Tabla 8.19. Coeficiente de concordancia W de Kendall

N 6
W de Kendall ,91
Chi-cuadrado 16,40
gl 3
Sig. asintót. ,001
Prueba de no-aditividad de Tukey

En un ANOVA de un factor con medidas repetidas se asume que los sujetos o bloques son indepen-
dientes de las medidas repetidas; es decir, que el factor se combina aditivamente (no interacciona) con
los sujetos o bloques. Esto implica asumir que el efecto del factor no depende de los sujetos o bloques
concretos incluidos en el análisis y, consecuentemente, que en una réplica del mismo estudio con dis-
tintos sujetos debería obtenerse el mismo efecto. Para contrastar este supuesto, Tukey (1949) ha idea-
do un procedimiento conocido como prueba de no-aditividad.
La lógica de esta prueba es relativamente simple. Al asumir que el efecto del factor es indepen-
diente del de los sujetos o bloques, la variabilidad debida a la interacción entre el factor y los sujetos
se está considerando variabilidad error (variabilidad no explicada ni por el efecto del factor ni por las
diferencias entre los sujetos o bloques). El argumento de Tukey se basa en la consideración de que, en
20
Aplicando la corrección por empates propuesta en [8.28] se obtiene = 6 (4 ! 1) 0,94 = 16,92, que es el mismo valor
que ofrece el SPSS para el estadístico de Friedman.
este escenario, la variabilidad error incluye dos componentes: (1) el relacionado con la interacción en-
tre el factor y los sujetos, que sería el responsable de la eventual falta de independencia (no-aditividad)
entre el factor y los sujetos o bloques; y (2) el no relacionado con la interacción entre el factor y los
sujetos, que estaría formado por el resto de fuentes de variabilidad error (el efecto debido a los factores
no tenidos en cuenta, los errores de medida, etc.).
El primer componente (al que llamaremos no-aditividad por reflejar el efecto atribuible a la in-
teracción entre el factor y los sujetos) puede cuantificarse mediante
MCno-aditividad = [8.29]
Y el segundo (al que llamaremos resto por reflejar la parte de la variabilidad error no atribuible a la
interacción entre el factor y los sujetos), mediante
MCresto = (J ! 1) (n ! 1) MCE ! MCno-aditividad [8.30]
El cociente entre las medias cuadráticas [8.29] y [8.30] permite valorar cómo de grande es la variabili-
dad debida a la interacción entre el factor y los sujetos en comparación con el resto de la variabilidad
error:
F = MCno aditividad MCresto [8.31]
Bajo la hipótesis de independencia entre las medidas repetidas y los sujetos o bloques (es decir, bajo
la hipótesis de aditividad), el estadístico [8.31] se distribuye según el modelo de probabilidad F con 1
y (J ! 1) (n ! 1) ! 1 grados de libertad. Debe rechazarse la hipótesis nula de independencia o aditividad
cuando el valor de [8.31] sea mayor que el cuantil 95 de la distribución F con 1 y (J ! 1) (n ! 1) ! 1
grados de libertad. El rechazo de esta hipótesis de aditividad indica que no es razonable asumir inde-
pendencia entre las medidas repetidas y los sujetos o bloques y, consecuentemente, que el modelo adi-
tivo podría no ser el más apropiado.
El estadístico propuesto en [8.31] es sensible a un tipo particular de no-aditividad. En concreto,
a situaciones en las que las medidas repetidas van aumentando o disminuyendo pero no lo hacen de
la misma forma en todos los sujetos o bloques. Por tanto, el no rechazo de la hipótesis de aditividad
no es garantía de que las medidas repetidas sean independientes de los sujetos o bloques. No obstan-
te, es una buena forma de comenzar, pues el no rechazo de la hipótesis de aditividad indica que no
existe evidencia de que las formas habituales de no-aditividad estén presentes en los datos.
El SPSS incluye la prueba de no-aditividad de Tukey en el procedimiento Análisis de fiabilidad.
Para aplicarla a los datos de nuestro ejemplo sobre la relación entre el paso del tiempo y la calidad
del recuerdo (ver Tabla 8.4):
' Reproducir en el Editor de datos los datos de la Tabla 8.4 (o abrir el archivo Tabla 8.4 tiempo re-
cuerdo que se encuentra en la página web del manual).
' Seleccionar la opción Escalas > Análisis de fiabilidad del menú Analizar para acceder al cuadro de diá-
logo Análisis de fiabilidad y trasladar las variables hora, día, semana y mes a la lista Elementos.
' Pulsar el botón Estadísticos para acceder al subcuadro de diálogo Análisis de fiabilidad: Esta-
dísticos y marcar la opción Prueba de aditividad de Tukey. Pulsar el botón Continuar para volver al
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestra la Tabla 8.20. Es-
ta tabla incluye parte de la información que ya hemos obtenido con el procedimiento MLG Medidas
repetidas (ver Tabla 8.8). Por ejemplo, el valor del estadístico F de la fila encabezada inter-elementos
(58,13) es el mismo que se obtiene al contrastar el efecto del factor intrasujetos (tiempo en la Tabla 8.8).
El estadístico [8.31] aparece en la fila encabezada no aditividad: vale 0,05 y tiene asociado un nivel
crítico de 0,821. Por tanto, no existe evidencia de que el efecto del paso del tiempo dependa o esté
relacionado con los sujetos incluidos en el análisis, es decir, no existe evidencia de que el modelo adi-
tivo sea inapropiado.
En una nota a pie de tabla (estimación de Tukey = 1,096) se ofrece una estimación del valor al que
habría que elevar cada una de las puntuaciones originales para reducir o eliminar la eventual presen-
cia de interacción entre las medidas repetidas y los sujetos o bloques.
Tabla 8.20. Prueba de no-aditividad de Tukey

Suma de Media
cuadrados gl cuadrática F Sig.
Inter-personas 104,00 5 20,80
Intra-personas Inter-elementos 372,00 3 124,00 58,13 ,000
Residual No aditividad ,12a 1 ,12 ,05 ,821
Equilibrio 31,88 14 2,28
Total 32,00 15 2,13
Total 404,00 18 22,44
Total 508,00 23 22,09
Media global = 11,00
a. Estimación de Tukey de la potencia a la que es necesario elevar las observaciones para conseguir la aditividad
= 1,096.
8.1. Para evaluar el efecto de un determinado fármaco sobre la ansiedad de pacientes diagnosticados de
neurosis, un investigador administró tres dosis diferentes del fármaco a un grupo de pacientes. Pen-
sando que el tipo de neurosis podría alterar el efecto del fármaco, seleccionó tres pacientes con neu-
rosis obsesiva, tres con neurosis fóbica, tres con neurosis de angustia y tres con neurosis histérica.
Aplicó cada nivel del fármaco a un paciente de cada uno de los grupos de neurosis y obtuvo los re-
sultados que muestra la tabla:
Dosis
Neurosis 100 mg 250 mg 500 mg Medias
Obsesiva 72 73 80 75
Fóbica 64 77 84 75
De angustia 70 83 90 81
Histérica 62 71 86 73
Medias 67 76 85 76
Asumiendo que se cumplen los supuestos en los que se basa el estadístico F del ANOVA A-MR y
utilizando α = 0,05,
a. Contrastar la hipótesis nula de que el nivel de ansiedad no cambia con la dosis.
b. Estimar el tamaño del efecto e interpretar el resultado.
d. Averiguar entre qué dosis existen diferencias significativas.

e. Comparar la media correspondiente a la dosis 500 mg con las medias de las otras dos dosis toma-
das juntas.
f. Averiguar si la relación entre la cantidad de fármaco y el nivel de ansiedad es de tipo lineal.
8.2. Reproducir en el SPSS los datos del ejercicio anterior (cada dosis en una columna) y responder a las
siguientes preguntas:
a. ¿Es razonable asumir esfericidad?
b. ¿Cuánto vale la épsilon de Greenhouse-Geisser?
c. ¿Cambia la decisión sobre la hipótesis nula cuando se utilizan los estadísticos F con los grados de
libertad corregidos?
d. ¿Cambia la decisión sobre la hipótesis nula cuando se utiliza los estadísticos de la aproximación
multivariada?
e. ¿Es apropiado utilizar la solución multivariada con estos datos?
f. Comprobar si con la prueba de Friedman se llega a la misma conclusión que con el estadístico F.
8.3. Un educador está interesado en comprobar si las puntuaciones de una prueba de razonamiento verbal
se mantienen constantes o se modifican entre los 7, 8 y 9 años de edad. Selecciona una muestra alea-
toria de 10 niños de 7 años de edad y les mide su nivel de razonamiento verbal. Vuelve a efectuar el
mismo registro a los 8 y a los 9 años. La siguiente tabla muestra los resultados obtenidos.
Sujetos
Edad 1 2 3 4 5 6 7 8 9 10 Medias
7 años 20 28 24 15 30 39 15 21 10 38 24
8 años 28 29 29 20 32 41 19 25 12 45 28
9 años 24 33 31 16 34 43 23 29 14 43 29
Medias 24 30 28 17 32 41 19 25 12 42 27
Asumiendo que se cumplen los supuestos en los que se basa el estadístico F del ANOVA A-MR y
utilizando α = 0,05,
a. Contrastar la hipótesis nula de que las puntuaciones en razonamiento verbal no cambian entre los
7 y los 9 años.
d. Averiguar si la relación entre la edad y las puntuaciones en razonamiento verbal es de tipo lineal.
e. Contrastar la hipótesis del apartado a como si se tratara de un diseño completamente aleatorizado
y comparar ambos resultados.
f. La comparación entre los resultados de los apartados a y e refleja una de las principales ventajas
de los diseños de medidas repetidas. ¿De qué ventaja se trata?
8.4. En un estudio sobre memoria a corto plazo se han utilizando 3 listas diferentes: (1) números, (2) pa-
labras con sentido y (3) palabras sin sentido. Al poner a prueba mediante un ANOVA A-MR la hipó-
tesis de que el rendimiento en las tres tareas es el mismo, hemos obtenido F = 12,86. Sabiendo que en
el estudio han intervenido 7 sujetos,
a. Contrastar la hipótesis nula de igualdad de medias, es decir, la hipótesis nula de que el rendimien-
to es el mismo en las tres tareas (α = 0,05).
8.5. Imaginemos una situación en la que 6 sujetos son evaluados de 0 a 10 por 3 jueces independientes (por
ejemplo, 6 alumnos son calificados por 3 profesores, 6 candidatos a un puesto de trabajo son clasifica-
dos por 3 entrevistadores, etc.). La siguiente tabla ofrece unos datos ficticios:
Sujetos
Jueces 1 2 3 4 5 6
1 8 7 2 1 6 3
2 4 9 3 1 6 2
3 6 9 4 2 5 3
Reproducir los datos de la tabla en el SPSS y responder a las siguientes preguntas utilizando en todos
los casos α = 0,05.
a. Utilizar la prueba de Friedman para contrastar la hipótesis nula de que los seis sujetos han recibi-
do la misma valoración promedio.
b. Utilizar la prueba de Friedman para contrastar la hipótesis nula de que los tres jueces están asig-
nando la misma valoración promedio.
c. ¿Cuál de los dos contrastes anteriores está informando del grado de acuerdo existente entre las va-
loraciones de los jueces? ¿Por qué?
8.6. En un experimento sobre percepción visual se han utilizado 5 estímulos luminosos (A, B, C, D y E)
de diferente intensidad. Los estímulos se han presentado aleatoriamente a 8 sujetos seleccionados al
azar. Cada sujeto ha ordenado los estímulos según su propia percepción de la intensidad luminosa de
los mismos. La tabla muestra los resultados obtenidos:
Orden de Sujetos
clasificación de
los estímulos 1 2 3 4 5 6 7 8
1 C C B C D D C C
2 D B C B B C D A
3 B D E D C E B D
4 A E D E E A A B
5 E A A A A B E E
Contrastar, con α = 0,05, la hipótesis nula de que los cinco estímulos son percibidos como igualmen-
te intensos.
8.7. Hemos presentado a 6 sujetos elegidos al azar 4 discos de colores: rojo (R), verde (V), azul (A) y ne-
gro (N). A cada sujeto se le ha pedido situar los 4 estímulos en un continuo subjetivo con los polos
alegre y triste. La siguiente tabla muestra los resultados obtenidos.
Sujetos Alegre ··· Triste

1 R V A N
2 R A V N
3 V R A N
4 R V A N
5 V A R N
6 V R A N
Reproducir los datos de la tabla en el SPSS y responder a las siguientes preguntas utilizando en todos
los casos α = 0,05 (para reproducir estos datos en el SPSS debe tenerse en cuenta que los niveles del
factor son los cuatro colores y que las puntuaciones que cada sujeto asigna a los colores vienen dadas
por la posición que ocupan los colores en el continuo alegre-triste):
a. Contrastar la hipótesis nula de que los cuatro colores son percibidos como igualmente alegres o
tristes.
b. Utilizar el resultado del apartado anterior para decidir si existe acuerdo significativo entre las res-
puestas de los sujetos.
9
Análisis de varianza (IV)
Dos factores
con medidas repetidas
ANOVA de dos factores con medidas repetidas en ambos

En el diseño de un factor con medidas repetidas estudiado en el capítulo anterior, todos los
sujetos participan en todas las condiciones del estudio. En el diseño de dos factores, ambos
con medidas repetidas (AB-MR), ocurre exactamente lo mismo: todos los sujetos participan
en todas las condiciones del estudio, es decir, en todas las condiciones resultantes de com-
binar los niveles de ambos factores (ver Tabla 8.2.2).
Imaginemos que, para estudiar la relación entre la calidad del recuerdo y el paso del tiem-
po, a una muestra aleatoria de sujetos se les hace memorizar dos listas distintas: una de letras
y otra de números. Más tarde, al cabo de una hora, un día, una semana y un mes, se les so-
licita repetir ambas listas y se registra el número de aciertos. Tenemos dos factores o varia-
bles categóricas: contenido (con dos niveles: números y letras) y tiempo (con cuatro niveles:
hora, día, semana, mes); y una variable dependiente (calidad del recuerdo) que hemos cuan-
tificado mediante el número de aciertos. Los dos factores son intrasujetos pues a todos los su-
jetos se les hace memorizar números y letras, y a todos se les pide hacerlo al cabo de una
hora, un día, una semana y un mes; es decir, todos los sujetos pasan por todas las condiciones
del estudio (por todas las condiciones resultantes de combinar los niveles de ambos factores).
Las fortalezas y debilidades de un diseño de estas características son las mismas que las
del diseño de un factor con medidas repetidas. Requiere utilizar menos sujetos que un dise-
ño completamente aleatorizado y permite aislar y eliminar la variabilidad debida a las dife-
rencias entre los sujetos (pues todos ellos participan en todas las condiciones del estudio).
Como contrapartida, los supuestos del análisis se vuelven algo más exigentes y es necesa-
rio vigilar algunos efectos derivados del hecho de utilizar los mismos sujetos (como el efecto
de arrastre o el efecto del aprendizaje por la práctica).
La Tabla 9.1 muestra la estructura de los datos y la notación que utilizaremos en un dise-
ño de dos factores con medidas repetidas en ambos. Seguimos llamando A y B a los factores
e Y a la variable dependiente (la variable cuantitativa de la que se toman varias medidas). A
los J niveles del factor A los representamos mediante a1, a2, ..., aj..., aJ ( j = 1, 2, ..., J ). A los
K niveles del factor B los representamos mediante b1, b2, ..., bk..., bK (k = 1, 2, ..., K ). A ca-
da sujeto lo representamos mediante si (i = 1, 2, ..., n). Los n sujetos incluidos en el estudio
participan en todas las condiciones del diseño, es decir, en las JK condiciones resultantes de
combinar los J niveles del factor A con los K niveles del factor B.
Tabla 9.1. Estructura de los datos en un diseño de dos factores con medidas repetidas en ambos (AB-MR)
a1 aj aJ
Sujetos b1 ··· bk ··· bK b1 ··· bk ··· bK b1 ··· bk ··· bK
s1 ··· ··· ··· ··· ··· ···
s2 ··· ··· ··· ··· ··· ···
··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···
si ··· ··· ··· ··· ··· ···
··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···
sn ··· ··· ··· ··· ··· ···
Sumando puntuaciones se obtienen los totales y las medias necesarios para el análisis. Así,
por ejemplo, con las puntuaciones de cada fila de la tabla se obtienen los totales y las medias
correspondientes a cada sujeto; con las puntuaciones de cada columna se obtienen los tota-
les y las medias correspondientes a cada combinación AB; etc. Siguiendo la lógica ya apli-
cada a propósito del modelo completamente aleatorizado (ver ecuaciones [7.1] a [7.5]) se
obtienen el resto de totales y medias.
En un modelo de dos factores, los efectos que interesa analizar son tres: los dos efectos
principales (es decir, los efectos de cada factor individualmente considerado, A y B ) y el
efecto de la interacción entre ambos factores (es decir, el efecto conjunto o combinado de
ambos factores, AB). El hecho de que el diseño sea completamente aleatorizado o de medidas
repetidas no cambia esto. Y para poder analizar estos tres efectos, es necesario identificar las
diferentes fuentes de variabilidad presentes en el diseño.
Ya hemos visto que, en un diseño completamente aleatorizado (CA), la variabilidad to-
tal (la variabilidad que se da entre cada observación y la media total) se descompone en va-
riabilidad intergrupos y variabilidad intragrupos o error. También hemos visto que en un
diseño con medidas repetidas (MR) hay una forma más de variabilidad: la debida a las di-
ferencias entre los sujetos o variabilidad intersujetos (esta fuente de variabilidad también
existe en un diseño CA, pero no hay forma de aislarla).
Además, si el diseño tiene dos factores (tanto si es CA como si es MR), la variabilidad
intergrupos puede descomponerse, a su vez, en la variabilidad asociada al factor A, la aso-
ciada al factor B y la asociada a la interacción AB. Todas estas fuentes de variabilidad ya
las hemos estudiado en alguno de los tres capítulos anteriores.
Capítulo 9. ANOVA. Dos factores con medidas repetidas 331
En esta forma de descomponer la variabilidad total se está asumiendo que los sujetos son
independientes del resto de efectos. Por tanto, las interacciones A×S, B ×S y AB ×S constitu-
yen variabilidad error. En el diseño de un factor MR (ver capítulo anterior), la variabilidad
error es precisamente la variabilidad asociada a la interacción entre el factor A y los sujetos.
En el diseño de dos factores MR la variabilidad error también incluye la variabilidad debi-
da a la interacción entre los sujetos y cada uno de los efectos intrasujetos, es decir, la debida
a la interacción entre el efecto de A y los sujetos (A×S ), la debida a la interacción entre el
efecto de B y los sujetos (B×S ) y la debida a la interacción entre el efecto de AB y los sujetos
(AB×S ). En consecuencia, en un diseño de dos factores, ambos con medidas repetidas, la va-
riabilidad total puede descomponerse en siete fuentes distintas de variabilidad. La Tabla 9.2
muestra cómo cuantificarlas.
Tabla 9.2. Medias cuadráticas en un diseño de dos factores con medidas repetidas en ambos (AB-MR)
MCA =
MCB =
MCAB =
MCS =
MCA×S =
MCB×S =
MCAB×S =
Por tanto, no existe una única fuente de variabilidad error, sino tres. Y para valorar la sig-
nificación de los efectos presentes en el diseño (A, B y AB), cada uno debe compararse con
su correspondiente variabilidad error:
= [9.1]
Así, para valorar el efecto del factor A se utiliza el cociente entre la media cuadrática de A
y la media cuadrática de la interacción A×S. Para valorar el efecto del factor B se utiliza el
cociente entre la media cuadrática de B y la media cuadrática de la interacción B×S. Y Para
valorar el efecto de la interacción AB se utiliza el cociente entre la media cuadrática de AB
y la media cuadrática de la interacción AB×S.
La lógica de estos tres cocientes se entenderá fácilmente si se considera que valorar el
efecto del factor A consiste en comparar las medias marginales correspondientes a los nive-
les del factor A tras promediar el resto de efectos. Ahora bien, al promediar las K puntua-
ciones de cada sujeto se obtiene un diseño de un factor MR idéntico al estudiado en el capí-
tulo anterior. Analizando estos promedios con el estadístico F del modelo de un factor MR
se obtiene el mismo resultado que con la solución propuesta en [9.1]. Exactamente lo mismo
vale decir del efecto del factor B.
En relación con el efecto de la interacción, la única variabilidad error es la que se da en-
tre cada puntuación individual y las medias marginales de su propia columna (ver Tabla 9.1).
Y esa variabilidad es justamente la debida a la interacción entre AB y los sujetos.
El Cuadro 9.2 ofrece un resumen de cómo analizar los tres efectos del diseño (A, B y AB)
mediante la aplicación de los estadísticos F propuestos en [9.1]. Estos estadísticos se dis-
tribuyen según el modelo de probabilidad F con los grados de libertad correspondientes al
numerador y al denominador de cada cociente. Ahora bien, para que esto sea así, es necesa-
rio seguir asumiendo, como en cualquier otro modelo de ANOVA, que se dan ciertas con-
diciones. Estas condiciones son las mismas que las estudiadas a propósito del modelo de un
factor MR, pero con algunos matices que trataremos en el siguiente apartado.
Cuadro 9.2. Resumen del ANOVA de dos factores con medidas repetidas en ambos (AB-MR)
1. Hipótesis: las hipótesis sobre los efectos del factor A, el factor B y la interacción AB
son las mismas que en el modelo de dos factores completamente aleatorizados (ver
Cuadro 7.1).
2. Supuestos: muestra de tamaño n aleatoriamente seleccionada de JK poblaciones nor-
males con la misma varianza; también se asume que la matriz de varianzas-covarian-
zas de las JK medidas repetidas es esférica (ver siguiente apartado).
3. Estadísticos del contraste (ver ecuación [9.1] y Tabla 9.12):
a. Para H0 (A) : FA = MCA MCA×S .
b. Para H0 (B) : FB = MCB MCB×S .
c. Para H0 (AB) : FAB = MCAB MCAB×S .
a. FA se distribuye según F con J !1 y (J !1)(n !1) grados de libertad.
b. FB se distribuye según F con K !1 y (K !1)(n !1) grados de libertad.
c. FAB se distribuye según F con (J !1)(K !1) y (J !1)(K !1)(n !1) grados de libertad.
5. Zonas críticas:
a. FA $
> FJ !1, (J !1)(n !1); 1! α .
b. FB $
> FK !1, (K !1)(n !1); 1! α .
c. FAB $
> F(J !1)(K !1), (J !1)(K !1)(n !1); 1! α .
6. Reglas de decisión: las mismas que en el modelo de dos factores completamente
aleatorizados (ver Cuadro 7.1).
7. Niveles críticos (valores p): los mismos que en el modelo de dos factores comple-
tamente aleatorizados (ver Cuadro 7.1).
La Tabla 9.2 y el Cuadro 9.2 contienen la información necesaria para resolver las ecua-
ciones que permiten analizar los tres efectos del diseño. No obstante, en lugar de realizar
cálculos a mano, explicaremos todos los detalles del análisis utilizando el SPSS.

Si consideramos un diseño de dos factores MR como un diseño de un factor con JK niveles,
los supuestos mencionados a propósito del modelo de un factor son directamente traslada-
bles al de dos factores. En lugar de las J poblaciones del modelo de un factor, en el modelo
de dos factores tenemos JK poblaciones normales con la misma varianza de las que se ex-
traen sendas muestras aleatorias de n observaciones, con la peculiaridad de que las distintas
muestras no son independientes entre sí (bien porque se trata de los mismos sujetos, bien
porque se trata de sujetos igualados mediante algún vínculo relevante para el análisis).
Además, se asume que la matriz de varianzas-covarianzas de las JK medidas repetidas
es esférica, es decir, que las varianzas de las diferencias entre cada dos medidas son iguales
(ver, en el capítulo anterior, los supuestos del modelo de un factor). Si esta matriz global es
esférica, los tres estadísticos propuestos en el Cuadro 9.2 son válidos para contrastar sus
respectivas hipótesis1. Si esta matriz global no es esférica, todavía es posible que exista es-
fericidad local referida a los niveles del factor A o a los niveles del factor B.
Por tanto, para decidir aplicar los estadísticos F propuestos en el Cuadro 9.2, conviene
chequear el supuesto de esfericidad para cada efecto por separado. En condiciones de nor-
malidad y esfericidad, estos estadísticos permiten contrastar sus respectivas hipótesis con
buen control sobre la tasa de error y con tanta o más potencia que cualquier otro procedi-
miento. En condiciones de no-esfericidad, es recomendable utilizar otros estadísticos. En el
capítulo anterior, en el apartado Alternativas al estadístico F, se han presentado estos otros
estadísticos y la estrategia recomendada para contrastar un efecto intrasujetos.

Al igual que en otros modelos de ANOVA, la versión parcial de permite obtener una
estimación de la proporción de varianza común entre cada efecto y la variable dependiente:
= [9.2]
Esta medida de asociación parcial es la que ofrece el SPSS como estimación del tamaño del
efecto. No obstante, puesto que tiende a ofrecer una estimación inflada de la verdadera
proporción de varianza compartida, la medida de asociación que tiende a acaparar las prefe-
rencias de los expertos para cuantificar el tamaño de un efecto intrasujetos es omega-cua-
drado ( ).
Cuando los factores son de efectos fijos, el tamaño del efecto puede estimarse (ver Kirk,
1995, pág. 460) mediante
= [9.3]
1
En el caso de que pueda asumirse esfericidad global, los tres estadísticos F propuestos en el Cuadro 9.2 podrían cal-
cularse utilizando en el denominador la media cuadrática error resultante de combinar las tres medias cuadráticas error
propuestas (ver Kirk, 1995, págs. 463-464).
El estadístico está estrechamente relacionado con la medida del tamaño del efecto de
Cohen (1988):
= [9.4]
relativo a y , valores de 0,01, 0,06 y 0,14 indican efectos de tamaños pequeño, media-
no y grande. En el caso de ( f en la notación de Cohen), los valores de referencia son 0,10,
0,25 y 0,40.

Para el cálculo de la potencia, sirve aquí lo ya estudiado a propósito de otros modelos. Par-
timos de una estimación del parámetro de no centralidad y de su transformación en :
= , = [9.5]
La potencia asociada al contraste de cada efecto puede obtenerse de la Tabla G del Apéndi-
ce final a partir del valor de y de los grados de libertad de cada estadístico Fefecto. Para
estimar el tamaño muestral necesario para alcanzar una determinada potencia al contrastar un
efecto concreto, puede utilizarse la ecuación [7.26] y los pasos descritos en ese apartado.
El hecho de que un diseño sea de medidas repetidas no cambia las cosas a la hora de cómo
proceder tras detectar un efecto significativo. En el caso de que resulte significativo un efec-
to principal (A, B), el análisis debe continuar comparando los niveles correspondientes a ese
efecto para poder precisar dónde se encuentran las diferencias. En el caso de que resulte sig-
nificativo el efecto de la interacción (AB), el análisis debe continuar comparando entre sí los
efectos simples. Todo esto, al margen de que el estudio incluya objetivos concretos que exi-
jan comparaciones planeadas.
Si puede asumirse esfericidad, los procedimientos descritos a propósito del modelo de
dos factores CA (ver, en el Capítulo 7, el apartado Comparaciones múltiples) sirven también
para el modelo de dos factores MR. Únicamente hay que tener en cuenta que, ahora, cada
efecto tiene su propia media cuadrática y sus propios grados de libertad.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados para
realizar comparaciones planeadas o a priori siguen siendo válidos si se tiene la precaución
de utilizar las ecuaciones propuestas para el caso en que no pueda asumirse que las varianzas
poblacionales son iguales.
Y en lo relativo a las comparaciones post hoc o a posteriori, es preferible (ver Kesel-
man y Keselman, 1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980) realizar com-
paraciones por pares aplicando la prueba T de Student para muestras relacionadas y corri-
giendo la tasa de error por comparación (α C) mediante el método de Dunn-Bonferroni, es
decir, dividiendo α F, generalmente 0,05, entre el número de comparaciones por pares lle-
vadas a cabo. En el siguiente apartado se explica cómo hacer todo esto con el SPSS.
ANOVA de dos factores con medidas repetidas en ambos (AB-MR) con SPSS
En este apartado se explica cómo utilizar el SPSS para aplicar un ANOVA de dos factores
con medidas repetidas en ambos2. Para ello, vamos a realizar 6 tareas: (1) chequear el supues-
to de esfericidad con cada uno de los tres efectos presentes en el diseño (A, B y AB), (2) con-
trastar las hipótesis globales referidas a esos tres efectos, (3) estimar el tamaño del efecto y
la potencia asociada al contraste de cada uno de esos tres efectos, (4) realizar comparaciones
post hoc para interpretar los efectos principales, (5) realizar comparaciones múltiples para
analizar los efectos simples y (6) obtener un gráfico de líneas y comparar entre sí los efectos
simples para interpretar el efecto de la interacción.
Estas 6 tareas las vamos a realizar con los datos de un estudio diseñado para valorar la
relación entre la calidad del recuerdo, el tipo de material recordado y el paso del tiempo. A
seis sujetos aleatoriamente seleccionados se les ha hecho memorizar durante 20 minutos dos
listas distintas: una de números de dos cifras y otra de sílabas de dos letras. Más tarde, al
cabo de una hora, un día, una semana y un mes, se les ha solicitado reproducir ambas listas
y, como una medida de la calidad del recuerdo, se ha contabilizado el número de aciertos. La
Tabla 9.3 recoge los resultados obtenidos.
El propósito del estudio es averiguar si existen diferencias en la calidad del recuerdo
(variable dependiente cuantitativa) en función de dos variables independientes o factores: el
contenido del material memorizado (números o letras) y el paso del tiempo (una hora, un día,
una semana, un mes). Puesto que todos los sujetos pasan por todas las condiciones (a todos
los sujetos se les hace memorizar y reproducir las dos listas en los cuatro momentos), se tra-
ta de un diseño con dos factores MR (tiempo, con cuatro niveles, y contenido, con dos ni-
veles) y una variable dependiente cuantitativa (la calidad del recuerdo, cuantificada como
el número de aciertos.
Tabla 9.3. Datos de un diseño de dos factores (contenido × tiempo) con medidas repetidas en ambos
Números Letras
Sujetos Hora Día Semana Mes Hora Día Semana Mes
1 6 6 3 2 8 6 4 3
2 7 5 5 5 10 8 5 2
3 4 2 1 3 7 7 2 2
4 7 5 3 4 11 9 3 6
5 6 4 4 5 10 6 4 3
6 5 2 1 1 9 4 3 5
Para reproducir los datos de la Tabla 9.3 en el Editor de datos del SPSS es necesario crear
tantas variables como condiciones resultan de combinar los niveles de ambos factores. Pues-
to que el estudio incluye un factor con 4 niveles y otro con 2, es necesario crear 4 × 2 = 8
variables. Para nombrar estas variables puede utilizarse cualquier nombre válido, pero, ob-
2
En la explicación de algunos de los resultados obtenidos se asumirá que el lector está familiarizado con el modelo de un
factor con medidas repetidas estudiado en el capítulo anterior.
viamente, conviene asignarles nombres que permitan identificarlas fácilmente. En el ejem-

plo que reproduce la Figura 9.1 se han asignado los siguientes nombres:
n_hora = lista de números, una hora (combinación: 1, 1)
n_día = lista de números, un día (combinación: 1, 2)
n_semana = lista de números, una semana (combinación: 1, 3)
n_mes = lista de números, un mes (combinación: 1, 4)
l_hora = lista de letras, una hora (combinación: 2, 1)
l_día = lista de letras, un día (combinación: 2, 2)
l_semana = lista de letras, una semana (combinación: 2, 3)
l_mes = lista de letras, un mes (combinación: 2, 4)
La Figura 9.1 muestra el aspecto del Editor de datos después de reproducir en él los datos
de la Tabla 9.3. Por supuesto, puede optarse por utilizar nombres más sencillos para las
variables; por ejemplo, x1, x2, x3, ..., x8; nosotros hemos optado por asignar nombres que
permiten identificar fácilmente la combinación de niveles que representa cada variable..
Figura 9.1. Datos de la Tabla 9.3 reproducidos en el Editor de datos
La Figura 9.2 muestra los diagramas de caja de la calidad del recuerdo correspondientes a
cada medida repetida. Ninguno de los diagramas de caja muestra casos anómalos ni asime-
trías evidentes. Y en la dispersión de las diferentes medidas no parece haber diferencias
sustanciales. Pero el rendimiento medio varía sensiblemente entre condiciones: la calidad del
recuerdo va disminuyendo con el paso del tiempo, si bien esta disminución es más acusada
en el caso de la lista de letras (los cuatro diagramas de la mitad derecha); y el punto de par-
tida de esta lista es claramente más alto que el de la de números.
Figura 9.2. Diagramas de caja correspondientes a los datos de la Tabla 9.3

Para analizar los efectos presentes en el diseño:

' Reproducir en el Editor de datos los datos de la Tabla 9.3 tal como se muestra en la Fi-
gura 9.1 (o abrir el archivo Tabla 9.3 contenido tiempo recuerdo que se encuentra en la
página web del manual).
' Seleccionar la opción Modelo lineal general > Medidas repetidas del menú Analizar para ac-
ceder al cuadro de diálogo (previo al principal) Medidas repetidas: Definir factores.
' Asignar nombre (contenido) y número de niveles (2) al primer factor MR, y pulsar el
botón Añadir. Asignar nombre (tiempo) y número de niveles (4) al segundo factor MR,
y pulsar el botón Añadir (utilizar los botones Cambiar y Borrar para modificar o eliminar,
respectivamente, factores previamente añadidos).
' Pulsar el botón Definir para acceder al cuadro de diálogo principal Medidas repetidas. La
lista Variables intra-sujetos está preparada para recibir los nombres de las variables que
corresponden a los niveles de los factores previamente definidos. Es importante asegu-
rarse de que cada variable se traslada al lugar correcto. Para lo cual debe tenerse en cuen-
ta que el orden en el que aparecen listadas las medidas repetidas en el cuadro Variables
intrasujetos depende del orden en el que se han definido previamente los factores MR en
el cuadro de diálogo previo al principal.
' Seleccionar las 8 variables de la lista de variables y trasladarlas, en el orden correcto, a
la lista Variables intra-sujetos.
Todas estas selecciones son necesarias para llevar a cabo el análisis básico, es decir, para
contrastar las tres hipótesis globales referidas a los tres efectos del diseño: contenido, tiempo
y contenido*tiempo. Las selecciones que se ofrecen a continuación sirven para seguir avan-
zando en el análisis. Para obtener un gráfico de líneas basado en las medias de las casillas:
ficos de perfil; trasladar el factor tiempo al cuadro Eje horizontal y el factor contenido al
cuadro Líneas separadas, y pulsar el botón Añadir para trasladar las variables seleccio-
nadas a la lista inferior y, con ello, hacer efectiva la selección. Pulsar el botón Continuar
Para llevar a cabo comparaciones post hoc entre los niveles del factor tiempo y para analizar
los efectos simples:
' Pulsar el botón Opciones para acceder al subcuadro de diálogo Medidas repetidas: Op-
ciones; trasladar el factor tiempo y la interacción contenido*tiempo a la lista Mostrar las
medias para, marcar la opción Comparar los efectos principales y seleccionar la opción
Bonferroni dentro del menú desplegable Ajuste del intervalo de confianza (para controlar la
tasa de error). Pulsar el botón Continuar para volver al cuadro de diálogo principal.
Puesto que el factor contenido solamente tiene dos niveles, no es necesario solicitar
este tipo de comparaciones. Y la selección de la interacción contenido*tiempo sirve para
obtener información sobre los efectos simples si, más tarde, en lugar de ejecutar el pro-
cedimiento, se pega la sintaxis y se modifica la línea «/EMMEANS = TABLES(contenido*
tiempo)» añadiendo: «COMPARE(contenido) ADJ(BONFERRONI)». La línea completa debe
quedar de la siguiente manera:
«/EMMEANS = TABLES(tiempo*contenido) COMPARE(contenido) ADJ(BONFERRONI)».
Para obtener estimaciones del tamaño de los efectos del diseño y para calcular la potencia
asociada a cada contraste:
' Pulsar el botón Opciones para acceder al subcuadro de diálogo Medidas repetidas: Opc-
iones y marcar las casillas Estadísticos descriptivos, Estimaciones del tamaño del efecto y
Potencia observada (siempre es conveniente solicitar estadísticos descriptivos e informar
de ellos antes que de ninguna otra cosa).
Para comparar los efectos simples entre sí, es decir, para realizar las comparaciones necesa-
rias para interpretar el efecto de la interacción:
' Pulsar el botón Contrastes para acceder al subcuadro de diálogo Medidas repetidas: Con-
trastes; seleccionar el factor contenido, seleccionar la opción Simple del menú desple-
gable Contrastes, seleccionar Primera como categoría de referencia y pulsar el botón Cam-
biar para validar la selección hecha. Repetir la operación para el factor tiempo.
El procedimiento Medidas repetidas asigna, por defecto, contrastes de tipo polinómi-
co a los factores MR; estos contrastes permiten estudiar el tipo de relación (lineal, cua-
drática, cúbica, etc.) existente entre el factor y la variable dependiente. Pero también es
posible solicitar comparaciones distintas de las de tendencia seleccionando alguna de las
opciones del menú desplegable Contraste. La opción Simple (que es la que nosotros he-
mos elegido) permite comparar cada categoría o nivel con la categoría de referencia. Se
puede elegir como categoría de referencia la primera o la última (también se puede ele-
gir cualquier otra categoría mediante sintaxis; veremos cómo hacerlo más adelante).
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 9.4 a 9.14
y el gráfico de líneas que muestra la Figura 9.3.
La Tabla 9.4 ofrece algunos estadísticos descriptivos para cada medida repetida: la me-
dia, la desviación típica y el número de observaciones. Estas medias son las que se utilizan
para construir el gráfico de líneas que se muestra más adelante en la Figura 9.3 y es la in-
formación que hay que revisar en primer lugar, junto con los diagramas de caja de la Figu-
ra 9.2, y de la que hay que informar en primer lugar.

Media Desv. típ. N
Números - hora 5,83 1,17 6
Números - día 4,00 1,67 6
Números - semana 2,83 1,60 6
Números - mes 3,33 1,63 6
Letras - hora 9,17 1,47 6
Letras - día 6,67 1,75 6
Letras - semana 3,50 1,05 6
Letras - mes 3,50 1,64 6
Esfericidad
La Tabla 9.5 ofrece la prueba de esfericidad de Mauchly. La tabla incluye un estadístico pa-
ra cada uno de los efectos presentes en el modelo (esfericidad local). Puesto que el nivel
crítico (sig.) es mayor que 0,05 en todos los casos, puede asumirse que las correspondientes
matrices son esféricas (la significación referida al factor contenido no aparece porque cuan-
do un factor tiene dos niveles no tiene sentido hablar de esfericidad; con dos niveles sola-
mente existe una covarianza que, obviamente, es igual a sí misma).
Tabla 9.5. Prueba de esfericidad de Mauchly

Medida: MEASURE_1
Épsilon
Efectos W de Chi-cuadrado Greenhouse- Huynh- Límite-
intra-sujetos Mauchly aprox. gl Sig. Geisser Feldt inferior
contenido 1,00 ,00 0 . 1,00 1,00 1,00
tiempo ,42 3,25 5 ,672 ,75 1,00 ,33
contenido * tiempo ,22 5,65 5 ,356 ,52 ,71 ,33

Las Tablas 9.6 y 9.7 contienen los estadísticos que incluye el procedimiento para el contraste
de las hipótesis referidas a los dos efectos principales y al efecto de la interacción.
Si puede asumirse esfericidad, los estadísticos F convencionales son la mejor elección.
Estos estadísticos se encuentran en la Tabla 9.7 en la fila encabezada esfericidad asumida.
En primer lugar, puesto que el nivel crítico (sig. = 0,006) asociado al efecto del factor con-
tenido es menor que 0,05, se puede rechazar la hipótesis nula de igualdad de medias referi-
da al factor contenido y concluir que la calidad del recuerdo no es la misma con las dos listas
utilizadas. En segundo lugar, puesto que el nivel crítico (sig. < 0,0005) asociado al efecto del
factor tiempo es menor que 0,05, se puede rechazar la hipótesis nula de igualdad de medias
referida a ese factor y concluir que la calidad del recuerdo no es la misma en los cuatro mo-
mentos incluidos en el análisis. Por último, puesto que el nivel crítico (sig. = 0,011) asocia-
do al efecto de la interacción contenido*tiempo es menor que 0,05, se puede rechazar la hi-
pótesis nula referida al efecto de la interacción y concluir que el efecto de la interacción es
significativo.
Tabla 9.6. Contrastes multivariados

Efectos Gl de la Gl del
intra-sujetos Valor F hipótesis error Sig.
contenido Traza de Pillai ,80 20,35 1,00 5,00 ,006
Lambda de Wilks ,20 20,35 1,00 5,00 ,006
Raíz mayor de Roy 4,07 20,35 1,00 5,00 ,006
Lambda de Wilks ,01 97,68 3,00 3,00 ,002
Raíz mayor de Roy 97,68 97,68 3,00 3,00 ,002
contenido * tiempo Traza de Pillai ,86 6,28 3,00 3,00 ,083
Lambda de Wilks ,14 6,28 3,00 3,00 ,083
Raíz mayor de Roy 6,28 6,28 3,00 3,00 ,083
Tabla 9.7. Contrastes univariados (estadísticos F con y sin modificación de los grados de libertad)
Medida: MEASURE_1
cuadrados tipo III
Media cuadrática
Parámetro de no
Eta al cuadrado
Significación
Potencia a
centralidad
observada
Suma de
parcial
Fuente
gl
F
contenido Esfericidad asumida 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Greenhouse-Geisser 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Huynh-Feldt 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Límite-inferior 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Error Esfericidad asumida 8,60 5,00 1,72
(contenido) Greenhouse-Geisser 8,60 5,00 1,72
Huynh-Feldt 8,60 5,00 1,72
tiempo Esfericidad asumida 145,73 3,00 48,58 38,06 ,000 ,88 114,2 1,00
Greenhouse-Geisser 145,73 2,26 64,50 38,06 ,000 ,88 85,99 1,00
Huynh-Feldt 145,73 3,00 48,58 38,06 ,000 ,88 114,2 1,00
Límite-inferior 145,73 1,00 145,73 38,06 ,002 ,88 38,06 1,00
(tiempo) Greenhouse-Geisser 19,15 11,30 1,69
Huynh-Feldt 19,15 15,00 1,28
Límite-inferior
19,15 5,00 3,83
contenido * Esfericidad asumida 21,06 3,00 7,02 5,32 ,011 ,52 15,95 ,85
tiempo Greenhouse-Geisser 21,06 1,56 13,48 5,32 ,040 ,52 8,30 ,61
Huynh-Feldt 21,06 2,14 9,82 5,32 ,023 ,52 11,40 ,73
Límite-inferior 21,06 1,00 21,06 5,32 ,069 ,52 5,32 ,46
(contenido*tiempo) Greenhouse-Geisser 19,81 7,81 2,54
Huynh-Feldt 19,81 10,72 1,85
a. Calculado con alfa = ,05.
Si no puede asumirse esfericidad, tenemos dos soluciones alternativas: (1) los estadísticos
multivariados de la Tabla 9.6 y (2) los estadísticos F de la Tabla 9.7 con los grados de liber-
tad modificados mediante el índice corrector épsilon. La Tabla 9.6 ofrece la solución basa-
da en los estadísticos multivariados. Al contrastar los dos efectos principales (contenido y
tiempo) se llega a la misma conclusión que con los estadísticos F, pero al contrastar el efecto
de la interacción se llega a una conclusión distinta (pues 0,083 > 0,05). Ya hemos señalado
que, con muestras muy pequeñas, la aproximación multivariada es poco potente (particu-
larmente cuando el número de casos es menor que el de medidas repetidas).
En el caso de que la solución basada en los estadísticos multivariados no lleve al recha-
zo de alguna hipótesis (como ocurre aquí con la hipótesis referida la interacción), el análisis
debe continuar tomando como referencia los estadísticos F con los grados de libertad mo-
dificados (ver, en el capítulo anterior, el apartado Alternativas al estadístico F ). Estos esta-
dísticos se encuentran en la Tabla 9.7. La peculiaridad que los distingue es que su distribu-
ción muestral está modificada multiplicando los grados de libertad originales por el índice
corrector épsilon (ε). Este índice corrector (Tabla 9.5, mitad derecha) expresa el grado de
esfericidad de la matriz de varianzas-covarianzas. La tabla ofrece dos estimaciones de épsi-
lon: Greenhouse-Geisser y Huynh-Feldt; un tercer valor, límite inferior, expresa el valor que
adoptaría épsilon en el caso de incumplimiento extremo del supuesto de esfericidad. Las dos
versiones corregidas del estadístico F que incluye la Tabla 9.7 (Greenhouse-Geisser y Huynh-
Feldt) llevan a la misma conclusión que el estadístico F convencional (esfericidad asumida);
no así la solución más conservadora de todas (límite inferior).

Las tres últimas columnas de la Tabla 9.7 informan del tamaño estimado para cada efecto del
modelo y de la potencia observada de cada contraste. El SPSS incluye el estadístico eta-
cuadrado parcial (ver ecuación [9.2]). Por ejemplo, en el caso del factor contenido,
= (1 (20,35) / (1 (20,35) + 5) = 0,80
El procedimiento GLM Medidas repetidas no calcula (ecuación [9.3]), pero todo lo que hace
falta para obtenerlo es el estadístico F asociado a cada efecto y sus grados de libertad. Y la
Tabla 9.7 ofrece esa información. La penúltima columna de la tabla contiene las estima-
ciones de los parámetros de no-centralidad de las correspondientes distribuciones F no cen-
tradas (ver ecuación [9.4]). Estos parámetros son los que se utilizan para calcular la poten-
cia observada que aparece en la última columna de la tabla. En el caso de esfericidad asu-
mida, los tres contrastes tienen una potencia observada mayor de 0,80.
Comparaciones post hoc: efectos principales

Ya se ha señalado que, aunque las comparaciones post hoc no están disponibles para los
factores MR, es posible efectuar comparaciones post hoc utilizando la opción Comparar efec-
tos principales del cuadro de diálogo Opciones. Las Tablas 9.8 y 9.9 muestran los resultados
relativos al factor tiempo (no hemos solicitado comparaciones post hoc para el factor con-
tenido porque este factor solamente tiene dos niveles). La Tabla 9.8 ofrece las medias de los
niveles del factor tiempo, además del error típico y del intervalo de confianza correspon-
diente a ca da media (no olvidar que estos intervalos de confianza se refieren a cada media
individualmente considerada, no a diferencias entre pares de medias; por tanto, no sirven pa-
ra realizar comparaciones). Los códigos asignados al factor tiempo (1, 2, 3, 4) se corres-
ponden con los niveles del factor en el orden en el que han sido seleccionados en el cuadro
de diálogo principal; por tanto, 1 = «hora», 2 = «día», 3 = «semana», 4 = «mes».

Medida: MEASURE_1
1 7,50 ,52 6,17 8,83
2 5,33 ,60 3,79 6,88
3 3,17 ,53 1,81 4,52
4 3,42 ,40 2,40 4,44
La Tabla 9.9 muestra las comparaciones por pares entre los niveles del factor tiempo. Para
controlar la tasa de error, tanto los niveles críticos (sig.) como los intervalos de confianza
están ajustados mediante la corrección de Bonferroni (se han eliminado las filas redundan-
tes). El resultado de las comparaciones indica que la calidad del recuerdo en el nivel 1 (hora)
es significativamente mejor (Sig. < 0,05) que en el resto de niveles; y significativamente me-
jor también en el nivel 2 (día) que en el nivel 3 (semana). Los intervalos de confianza per-
miten llegar a la misma conclusión. No obstante, esta conclusión es provisional. El hecho de
que el efecto de la interacción sea significativo indica que este resultado podría ser matizado.

Medida: MEASURE_1
a
Diferencia entre Error para la diferencia
a
(I) tiempo (J) tiempo medias (I-J) típ. Sig. Límite inferior Límite superior
1 2 2,17 ,48 ,037 ,15 4,18
3 4,33 ,40 ,001 2,64 6,03
4 4,08 ,27 ,000 2,94 5,23
2 3 2,17 ,49 ,043 ,08 4,25
4 1,92 ,52 ,087 -,29 4,12
3 4 -,25 ,54 1,000 -2,54 2,04

La Tabla 9.10 muestra las medias de las casillas (las medias de cada combinación entre los
niveles de los factores contenido y tiempo). Estas medias son las que se comparan al anali-
zar los efectos simples. Por ejemplo, la diferencia 5,83 ! 9,17 = !3,34 es la estimación del
efecto simple de contenido en el primer nivel del factor tiempo (una hora).
Tabla 9.10. Medias estimadas (combinaciones contenido por tiempo)

Medida: MEASURE_1
contenido tiempo Media Error típ. Límite inferior Límite superior
1 1 5,83 ,48 4,61 7,06
2 4,00 ,68 2,24 5,76
3 2,83 ,65 1,15 4,51
4 3,33 ,67 1,62 5,05
2 1 9,17 ,60 7,62 10,71
2 6,67 ,71 4,83 8,50
3 3,50 ,43 2,40 4,60
4 3,50 ,67 1,78 5,22
La Tabla 9.11 contiene las comparaciones entre los efectos simples, es decir las compara-
ciones entre los niveles del factor contenido (1 = «números», 2 = «letras») en cada nivel del
factor tiempo (1 = «hora», 2 = «día», 3 = «semana», 4 = «mes»). Tanto los niveles críticos
(sig.) como los intervalos de confianza se han ajustado mediante la corrección de Bonferroni
(se indica en una nota a pie de tabla; aunque esto aquí es irrelevante porque el factor conte-
nido solamente tiene dos niveles). Los resultados indican que la diferencia entre el recuerdo
de números y letras es significativa en los momentos 1 y 2 ( phora < 0,0005, pdía = 0,014), pe-
ro no en los momentos 3 y 4 (psemana = 0,102, pmes = 0,883). Por tanto, las letras se recuerdan
mejor que los números al cabo de una hora y de un día, pero no hay evidencia de que esto
sea así al cabo de una semana y de un mes.
Tabla 9.11. Comparaciones por pares (efectos simples del factor contenido)
Medida: MEASURE_1
a
(I) (J) Diferencia entre Error para la diferencia
a
tiempo contenido contenido medias (I-J) típ. Sig. Límite inferior Límite superior
1 1 2 -3,33 ,33 ,000 -4,19 -2,48
2 1 2 -2,67 ,71 ,014 -4,50 -,83
3 1 2 -,67 ,33 ,102 -1,52 ,19
4 1 2 -,17 1,08 ,883 -2,94 2,60

Para interpretar el efecto de la interacción hemos solicitado: (1) un gráfico de líneas o perfi-
les y (2) comparaciones entre los efectos simples (en el Capítulo 7 se describe con detalle
todo lo relacionado con el tipo de comparaciones que es necesario llevar a cabo para poder
interpretar una interacción significativa).
El gráfico de líneas de la Figura 9.3 muestra una paulatina disminución de la calidad del
recuerdo hasta llegar al momento 3 (semana); en el momento 4 (mes) se aprecia un estan-
camiento o, incluso, una ligera mejora. Esto ocurre tanto con la lista de números como con
la de letras. Sin embargo, la diferencia entre ambas listas es más evidente al principio (hora
y día) que al final (semana y mes). Esto es justamente lo que nos está indicando la presencia
de una interacción significativa: que la diferencia entre ambas listas no es la misma en los
cuatro momentos (recordemos que 1 = «hora», 2 = «día», 3 = «semana», 4 = «mes»).
Figura 9.3. Gráfico de líneas (perfiles) correspondiente a los datos de la Tabla 9.3
Pero, ¿qué momentos difieren de qué otros? El análisis de los efectos simples indica que la
diferencia entre el recuerdo de números y letras solamente es significativa al cabo de una ho-
ra y de un día (ver Tabla 9.11). ¿Quiere esto decir que lo que ocurre al cabo de una hora y
un día difiere de lo que ocurre al cabo de una semana y de un mes? No exactamente. Para
saber qué efectos simples difieren entre sí hay que compararlos.
Parte de estas comparaciones aparecen en la Tabla 9.12 (se ha eliminado de la tabla ori-
ginal la información relativa a los efectos principales). Puesto que el factor tiempo tiene 4
niveles, hay 4 efectos simples asociados al factor contenido (es decir, 4 diferencias “números-
letras”). Para comparar entre sí estos 4 efectos simples es necesario realizar 6 comparacio-
nes; hay que comparar lo que ocurre en el momento 1 con lo que ocurre en los momentos 2,
3 y 4; lo que ocurre en el momento 2 con lo que ocurre en los momentos 3 y 4; y lo que ocurre
en el momento 3 con lo que ocurre en el momento 4.
De estas 6 comparaciones, la Tabla 9.12 incluye las 3 primeras: lo que ocurre en el mo-
mento 1 comparado con lo que ocurre en los momentos 2, 3 y 4. En la primera de ellas se está
comparando el efecto simple de contenido (nivel 2 ! nivel 1) en el momento 1 con el efecto
simple de contenido en el momento 2 (tiempo = nivel 2 ! nivel 1). Es decir, se está compa-
rando la diferencia entre letras (contenido = nivel 2) y números (contenido = nivel 1) al cabo
de un día (tiempo = nivel 2) con la diferencia entre letras (contenido = nivel 2) y números
(contenido = nivel 1) al cabo de una hora (tiempo = nivel 1). Los resultados se presentan en
el formato de una tabla convencional de ANOVA: sumas de cuadrados, grados de libertad,
medias cuadráticas, estadísticos F y niveles críticos. Puesto que esta comparación tiene aso-
ciado un nivel crítico mayor que 0,05 (sig. = 0,363), no puede afirmarse que el efecto simple
de contenido en el momento 1 difiera del efecto simple de contenido en el momento 2.
En la segunda línea se está comparando el efecto simple de contenido en el momento 1
con el efecto simple de contenido en el momento 3 (tiempo = nivel 3 ! nivel 1). Puesto que
esta comparación tiene asociado un nivel crítico menor que 0,05 (sig. = 0,003), puede afirmar-
se que el efecto simple de contenido en el momento 1 difiere del efecto simple de contenido
en el momento 3.
Y en la tercera línea se está comparando el efecto simple de contenido en el momento 1
con el efecto simple de contenido en el momento 4 (tiempo = nivel 4 ! nivel 1). Puesto que
esta comparación tiene asociado un nivel crítico menor que 0,05 (sig. = 0,029), puede afir-
marse que el efecto simple de contenido en el momento 1 difiere del efecto simple de con-
tenido en el momento 4.
Tabla 9.12. Contrastes intrasujetos (comparaciones entre efectos simples)

Medida: MEASURE_1
Suma de Media
Fuente contenido tiempo cuadrados tipo III gl cuadrática F Sig.
contenido * tiempo Nivel 2 - Nivel 1 Nivel 2 - Nivel 1 2,67 1 2,67 1,00 ,363
Nivel 3 - Nivel 1 42,67 1 42,67 29,09 ,003
Nivel 4 - Nivel 1 60,17 1 60,17 9,16 ,029
Error Nivel 2 - Nivel 1 Nivel 2 - Nivel 1 13,33 5 2,67
(contenido*tiempo) Nivel 3 - Nivel 1 7,33 5 1,47
Nivel 4 - Nivel 1 32,83 5 6,57
La Tabla 9.12 contiene información sobre las comparaciones entre los momentos 1-1, 1-3 y
1-4; faltan las comparaciones entre los momentos 2-3, 2-4 y 3-4. Esta tabla es la que se ob-
tiene al seleccionar la opción Simple en el subcuadro de diálogo Medidas repetidas: Contras-

tes. La línea de sintaxis que genera esta tabla es
/WSFACTOR = contenido 2 Simple(1) tiempo 4 Simple(1)
El valor 1 colocado entre paréntesis en tiempo 4 Simple(1) indica que la categoría de referen-
cia (el nivel del factor tiempo con el que se comparan los demás niveles) es la primera. Cam-
biando ese valor a 2, la categoría de referencia pasa a ser la segunda. Y cambiando ese valor
a 3, la categoría de referencia pasa a ser la tercera. Ejecutando la sintaxis con estos cambios
se obtienen los resultados que muestran las Tablas 9.13 y 9.14.
En la primera línea de la Tabla 9.13 se está comparando el efecto simple de contenido en
el momento 2 con el efecto simple de contenido en el momento 3 (tiempo = nivel 3 ! nivel 2).
Puesto que esta comparación tiene asociado un nivel crítico mayor que 0,05 (sig. = 0,067),
no puede afirmarse que el efecto simple de contenido en el momento 2 difiera del efecto sim-
ple de contenido en el momento 3. En la segunda línea de la tabla se está comparando el
efecto simple de contenido en el momento 2 con el efecto simple de contenido en el momen-
to 4 (tiempo = nivel 4 ! nivel 2). Puesto que esta comparación tiene asociado un nivel críti-
co mayor que 0,05 (sig. = 0,136), no puede afirmarse que el efecto simple de contenido en el
momento 2 difiera del efecto simple de contenido en el momento 4.
Por último, en la Tabla 9.14 se está comparando el efecto simple de contenido en el
momento 3 con el efecto simple de contenido en el momento 4 (tiempo = nivel 4 ! nivel 3).
Puesto que esta comparación tiene asociado un nivel crítico mayor que 0,05 (sig. = 0,597),
no puede afirmarse que el efecto simple de contenido en el momento 3 difiera del efecto
simple de contenido en el momento 4.
Resumiendo, al comparar entre sí los efectos simples de contenido únicamente existen
diferencias significativas entre el momento 1 y los momentos 3 y 4. Cuando nos preguntamos
por la diferencia en el recuerdo entre números y letras, lo que encontramos es que esa diferen-
cia es mayor al cabo de una hora que al cabo de una semana y al cabo de un mes.
Aunque esta tarea puede parecer algo engorrosa, permite obtener las 6 comparaciones ne-
cesarias para interpretar el efecto de la interacción. Si se está dispuesto a utilizar la sintaxis
con algo más de profundidad, estos mismos resultados y otros relacionados pueden obte-
nerse mediante la sentencia MMATRIX (ver Apéndice 9).

Medida: MEASURE_1
Suma de Media
contenido*tiempo Nivel 2 - Nivel 1 Nivel 3 - Nivel 2 24,00 1 24,00 5,45 ,067
Nivel 4 - Nivel 2 37,50 1 37,50 3,15 ,136
Error Nivel 2 - Nivel 1 Nivel 3 - Nivel 2 22,00 5 4,40
(contenido*tiempo) Nivel 4 - Nivel 2 59,50 5 11,90

Medida: MEASURE_1
Suma de Media
contenido*tiempo Nivel 2 - Nivel 1 Nivel 4 - Nivel 3 1,50 1 1,50 ,32 ,597
Error (cont.*tiempo) Nivel 2 - Nivel 1 Nivel 4 - Nivel 3 23,50 5 4,70
ANOVA de dos factores con medidas repetidas en uno

Los diseños en los que todos los factores son intrasujetos (como el estudiado en el apartado
anterior) no son tan comunes como los diseños que incluyen algún factor intersujetos. Lo
habitual es que un estudio incluya algún factor intersujetos, bien porque se utilizan variables
que definen grupos naturales (sexo, edad, etc.), bien porque se utilizan variables manipula-
das por el investigador (grupos experimental y control; etc.).
El diseño que vamos a tratar en este apartado es una mezcla de diseños que ya hemos
estudiado. En concreto, es una mezcla del diseño de un factor completamente aleatorizado
y del diseño de un factor con medidas repetidas (ver Tabla 8.2.3). Se trata, por tanto, de un
diseño que incluye un factor intersujetos (un grupo distinto de sujetos en cada uno de sus
niveles) y un factor intrasujetos (los mismos sujetos en todos sus niveles). En todo momen-
to llamaremos A al factor intersujetos y B al factor intrasujetos.
Como ejemplo típico de este tipo de diseños, consideremos un estudio diseñado para
valorar la eficacia de un nuevo tratamiento antidepresivo. Imaginemos que a un grupo de pa-
cientes afectados de depresión se les aplica la escala de depresión de Hamilton para obtener
una medida inicial o basal del nivel de depresión de cada paciente. Tras esto, se seleccionan
aleatoriamente 40 pacientes entre los que alcanzan o superan la puntuación 30. Imaginemos
que con estos 40 pacientes se forman dos grupos aleatorios del mismo tamaño y que un grupo
comienza a recibir el nuevo tratamiento antidepresivo (grupo experimental) y el otro grupo
un tratamiento estándar (grupo control). Al cabo de cuatro semanas de iniciado el tratamiento
se vuelve a administrar la escala de depresión para obtener una medida de la evolución de los
pacientes. Al cabo de ocho semanas se vuelve a administrar de nuevo la escala y se da por
finalizado el estudio.
En un diseño de estas características tenemos dos factores o variables categóricas: tra-
tamiento (con dos niveles: nuevo y estándar) y tiempo (con tres niveles: basal, semana 4 y
semana 8); y una variable dependiente (nivel de depresión) medida con la escala de depre-
sión de Hamilton. El factor tratamiento es intersujetos, pues a cada nivel del factor se asig-
na un grupo distinto de sujetos (grupos aleatorios). El factor tiempo es intrasujetos, pues a
todos los sujetos se les mide el nivel de depresión en los tres momentos (bloques aleatorios).
De ahí el nombre que recibe el modelo de ANOVA que sirve para analizar este tipo de dise-
ños: dos factores con medidas repetidas en uno3 (AB-CA-MR).
Las ventajas de un diseño de estas características son evidentes. Representa un compro-
miso entre los modelos CA y MR. Por un lado, requiere utilizar menos sujetos que un diseño
CA y permite reducir parte de la variabilidad error por el hecho de utilizar los mismos sujetos.
Por otro, el impacto de los efectos de arrastre y fatiga es menor que en los diseños comple-
tamente MR.
Además, y esto es lo realmente interesante, permite tratar situaciones que no pueden
abordarse con otro tipo de diseños: un diseño completamente aleatorizado permite comparar
los tratamientos, pero no hacer seguimiento a los sujetos; un diseño de medidas repetidas
permite hacer seguimiento a los sujetos, pero no comparar los tratamientos; un diseño AB-
CA-MR permite hacer ambas cosas. Y probablemente ésta es la razón por la que es tan uti-
3
A este tipo de diseños también se les llama split-plot. Y, dado que se trata de diseños que combinan factores intersujetos
e intrasujetos, también reciben, a veces, el nombre de mixtos; no obstante, lo habitual es reservar este término para resal-
tar la presencia simultánea de efectos fijos y aleatorios en un mismo modelo (ver el Capítulo 2 del Volumen III).
lizado en el ámbito de las ciencias sociales y de la salud (ver Micceri, 1989). De hecho, este
diseño constituye el paradigma de lo que se conoce como ensayo clínico.
La estructura de los datos se corresponde con la representada en la Tabla 8.2.3. Y la no-
tación utilizada es la misma que en el modelo de dos factores MR (ver Tabla 9.1).
Puesto que se trata de un modelo de dos factores, los efectos que interesa analizar siguen
siendo tres: los dos efectos principales (los efectos de cada factor individualmente conside-
rado, A y B) y el efecto de la interacción entre ambos factores (el efecto conjunto o combi-
nado de ambos factores, AB). Y, al igual que en el resto de diseños estudiados, para poder
analizar estos tres efectos es necesario identificar las diferentes fuentes de variabilidad pre-
sentes en el diseño.
En un diseño completamente aleatorizado (CA), la variabilidad total se descompone en
variabilidad intergrupos y variabilidad intragrupos o error. En un diseño con medidas re-
petidas (MR) hay una forma más de variabilidad: la debida a las diferencias entre los sujetos
o variabilidad intersujetos (recordemos que esta forma de variabilidad también existe en un
diseño CA, pero no hay forma de aislarla).
Además, si el diseño tiene dos factores (tanto si los factores son CA como si son MR),
la variabilidad intergrupos puede descomponerse, a su vez, en la variabilidad asociada al fac-
tor A, la asociada al factor B y la asociada a la interacción AB. Todas estas fuentes de varia-
bilidad son las mismas que hemos estudiado en el apartado anterior a propósito del diseño de
dos factores MR.
En esta forma de descomponer la variabilidad total se está asumiendo que los sujetos no
interaccionan ni con A, ni con B ni con AB. Por tanto, se está asumiendo que estas interac-
ciones reflejan variabilidad error. En el diseño de un factor A-MR hemos visto que la va-
riabilidad error es precisamente la variabilidad debida a la interacción entre el factor y los
sujetos. En el diseño de dos factores AB-CA-MR ocurre lo mismo: la variabilidad error se
estima a partir de la variabilidad debida a la interacción entre el factor intrasujetos y los
sujetos, es decir, a partir de la interacción entre el factor B y los sujetos: B × S . La interac-
ción entre el factor A y los sujetos no se contempla porque cada sujeto participa en un único
nivel del factor A. Y tampoco se contempla la triple interacción entre A, B y los sujetos por-
que cada combinación B × S únicamente se da en un nivel del factor A.
Esto significa que, en un diseño de dos factores con medidas repetidas en uno, la varia-
bilidad total puede descomponerse en cinco fuentes distintas de variabilidad. La Tabla 9.15
muestra cómo cuantificar estas fuentes de variabilidad.
Tabla 9.15. Medias cuadráticas en un diseño de dos factores con medidas repetidas en uno (AB-CA-MR)
MCA =
MCB =
MCAB =
MCS =
MCB × S =
Por tanto, no existe una única fuente de variabilidad error, sino dos. Y para valorar la sig-
nificación de los efectos presentes en el diseño (A, B y AB) cada uno debe compararse con
su correspondiente variabilidad error:
=
= [9.6]
=
Para valorar el efecto del factor A se utiliza el cociente entre la media cuadrática de A y la
media cuadrática de los sujetos (MCS). Valorar el efecto de A consiste en comparar las me-
dias marginales correspondientes a los niveles del factor A tras promediar el resto de efectos.
Ahora bien, al promediar las K puntuaciones de cada sujeto se obtiene un diseño de un úni-
co factor CA. Analizando estos promedios con el estadístico F del modelo de un factor CA
se obtiene el mismo resultado que con el estadístico FA en [9.6].
Para valorar el efecto del factor B y el de la interacción AB se utiliza el cociente entre la
media cuadrática correspondiente al factor B y la media cuadrática de la interacción entre el
factor B y los sujetos (MCB × S ). En lo relativo al factor B, valorar su efecto consiste en com-
parar las medias marginales de cada uno de sus niveles. Con un solo grupo (J = 1), la situa-
ción sería idéntica a la del modelo de un factor MR, donde el término error es justamente la
interacción entre el factor y los sujetos. Con J > 1 grupos tenemos J diseños de un factor.
Aplicando el modelo de un factor MR a cada grupo obtendríamos J medias cuadráticas referi-
das a la interacción entre el factor y los sujetos. Lo que se hace en el modelo de dos factores
es utilizar como variabilidad error para el factor intrasujetos el promedio de esas J medias
cuadráticas (lo cual, como veremos en el siguiente apartado, tiene algunas implicaciones
sobre los supuestos del análisis).
Con el efecto de la interacción AB ocurre algo parecido a lo que ocurre con el efecto del
factor B. Para valorar el efecto de la interacción se analiza lo que ocurre con el efecto de B
en cada nivel de A. Y esto nos lleva a la misma solución adoptada para el factor B. Por tan-
to, cuando un efecto contiene una mezcla de factores inter e intrasujetos, el efecto de la in-
teracción se considera intrasujetos y se analiza como tal.
El Cuadro 9.3 ofrece un resumen del procedimiento para contrastar las hipótesis relativas
a los efectos de A, B y AB mediante los estadísticos propuestos en [9.6]. Bajo ciertas condi-
ciones (ver el siguiente apartado sobre los supuestos del modelo), estos estadísticos F se
aproximan a la distribución F con los grados de libertad correspondientes al numerador y al
denominador de cada estadístico.
Cuadro 9.3. Resumen del ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR)
1. Hipótesis: las hipótesis sobre los efectos del factor A, el factor B y la interacción AB
son las mismas que en el modelo de dos factores completamente aleatorizados (ver
Cuadro 7.1).
2. Supuestos: J muestras de tamaño n aleatoriamente seleccionadas de K poblaciones
normales con la misma varianza; también se asume que las J matrices de varianzas-
covarianzas de las K medidas repetidas (una por cada nivel del factor A), además de
esféricas, son iguales (ver siguiente apartado).
3. Estadísticos del contraste (ver ecuación [9.6] y Tabla 9.15):

a. Para H0 (A) : FA = MCA MCS .
b. Para H0 (B) : FB = MCB MCB×S .
c. Para H0 (AB) : FAB = MCAB MB × S .
a. FA se distribuye según F con J !1 y J (n !1) grados de libertad.
b. FB se distribuye según F con K !1 y J (K !1)(n !1) grados de libertad.
c. FAB se distribuye según F con (J !1)(K !1) y J (K !1)(n !1) grados de libertad.
5. Zonas críticas:
$ FJ !1, J (n !1); 1! α .
a. FA >
$ FK !1, J (K !1)(n !1); 1! α .
b. FB >
$ F(J !1)(K !1, J (K !1)(n !1); 1! α .
c. FAB >
6. Reglas de decisión: las mismas que en el modelo de dos factores completamente alea-
torizados (ver Cuadro 7.1).
7. Niveles críticos (valores p): los mismos que en el modelo de dos factores completa-
mente aleatorizados (ver Cuadro 7.1).
Con la información de la Tabla 9.15 y del Cuadro 9.3 tenemos todo lo necesario para resol-
ver las ecuaciones que permiten analizar los tres efectos del diseño. No obstante, en lugar de
hacer cálculos a mano, explicaremos todos los detalles del análisis utilizando el SPSS.

Puesto que un diseño AB-CA-MR incluye tanto efectos intersujetos como efectos intrasu-
jetos, el correspondiente modelo de ANOVA necesita establecer supuestos que afectan por
separado a ambos tipos de efectos.
Por lo que se refiere al efecto intersujetos (efecto del factor A), se asume exactamente
lo mismo que con cualquier otro efecto CA, es decir, se asume que se está trabajando con J
muestras aleatorias (por tanto, con observaciones independientes) procedentes de pobla-
ciones normales con la misma varianza (estos supuestos afectan a los promedios de las K
medidas repetidas). Para todo lo relacionado con el incumplimiento de este supuesto puede
consultarse lo ya dicho en el Capítulo 6 a propósito del modelo de un factor CA.
Y en lo relativo a los efectos intrasujetos (efecto del factor B y efecto de la interacción
AB ), además del supuesto de esfericidad ya estudiado, que se aplica a cada una de las J ma-
trices de varianzas-covarianzas entre las K medidas repetidas (una por cada nivel del factor
A), se asume que esas J matrices son iguales. A estos dos supuestos combinados se les llama
esfericidad multi-muestra (Huynh, 1978).
Por tanto, antes de aplicar un modelo AB-CA-MR es necesario vigilar el cumplimiento
de cuatro supuestos: independencia, normalidad, igualdad de varianzas entre los niveles del
factor intersujetos y esfericidad multi-muestra (este último supuesto incluye el de esfericidad
de las J matrices de varianzas-covarianzas y el de igualdad de esas J matrices).
Aunque el muestreo aleatorio garantiza la independencia de las observaciones, puede

utilizarse la prueba de las rachas para chequearlo (ver Capítulo 2). La ausencia de normali-
dad sabemos que deja de ser un problema si el tamaño muestral es razonablemente grande;
no obstante, si se tiene que trabajar con muestras pequeñas, la normalidad puede chequear-
se con la prueba de Kolmogorov-Smirnov (ver Capítulo 2). Para contrastar el supuesto de que
las J varianzas poblacionales (una por cada nivel del factor intersujetos) son iguales puede
utilizarse, al igual que con el modelo de un factor CA, la prueba de Levene (ver Capítulo 6).
El supuesto de esfericidad multi-muestra implica, por un lado, que las J matrices de varian-
zas-covarianzas (una matriz por cada nivel del factor intersujetos) son esféricas; por otro, que
esas J matrices son iguales. Para chequear el supuesto de esfericidad seguiremos utilizando
la prueba de Mauchly; y para el de igualdad de matrices, aunque existen varios procedi-
mientos para ello (ver, por ejemplo, Mendoza, 1980) utilizaremos la prueba de Box (1950),
que es la que incluye el SPSS junto con las de Levene y Mauchly.
En condiciones de esfericidad, los estadísticos F definidos en [9.6] permiten contrastar
sus respectivas hipótesis con buen control sobre la tasa de error y con tanta o más potencia
que cualquier otro procedimiento. En condiciones de no-esfericidad, es recomendable utili-
zar los estadísticos y la estrategia que hemos propuesto en el capítulo anterior, en el apartado
Alternativas al estadístico F.

Al igual que en los demás modelos de ANOVA estudiados, la versión parcial de permite
obtener una estimación de la proporción de varianza común o compartida entre cada efecto
y la variable dependiente:
= [9.7]
Pero la medida de asociación que acapara las preferencias de los expertos, tanto para los efec-
tos intersujetos como para los intrasujetos, sigue siendo omega-cuadrado ( ). Cuando los
factores son de efectos fijos, el tamaño del efecto puede estimarse (ver Kirk, 1995, pág. 519)
mediante
= [9.8]
El estadístico está estrechamente relacionado con la medida del tamaño del efecto de Co-
hen (1988):
= [9.9]
relativo a y , valores de 0,01, 0,06 y 0,14 indican efectos de tamaños pequeño, mediano
y grande. En el caso de ( f en la notación utilizada por Cohen), los valores de referencia son
0,10, 025 y 0,40.

Para el cálculo de la potencia sirve aquí lo ya estudiado a propósito de otros modelos. Parti-
mos de una estimación del parámetro de no-centralidad y de su transformación en :
= , = [9.10]
La potencia asociada al contraste de cada efecto puede obtenerse de la Tabla G del Apéndice
final a partir del valor de y de los grados de libertad del correspondiente estadístico Fefecto.
Para estimar el tamaño muestral necesario para alcanzar una determinada potencia al contrastar
un efecto concreto, puede utilizarse la ecuación [7.26] y los pasos descritos en ese apartado.
En el caso de que resulte significativo un efecto principal (A, B ), el análisis debe continuar
comparando los niveles correspondientes a ese efecto para poder precisar dónde se encuentran
las diferencias. En el caso de que resulte significativo el efecto de la interacción (AB ), el aná-
lisis debe continuar comparando entre sí los efectos simples. Todo esto, al margen de que el
estudio incluya objetivos concretos que exijan comparaciones planeadas.
Para realizar comparaciones entre los niveles del factor intersujetos (A ) sirve todo lo
dicho a propósito del modelo de un factor CA (ver, en el Capítulo 6, el apartado Compara-
ciones múltiples). Y sirve tanto para las comparaciones planeadas como para las compara-
ciones post hoc.
Por lo que se refiere a los efectos intrasujetos (B y AB ), si puede asumirse esfericidad,
sirven aquí los procedimientos ya descritos a propósito del modelo de dos factores CA (ver,
en el Capítulo 7, el apartado Comparaciones múltiples). Únicamente hay que tener en cuen-
ta cuáles son las medias cuadráticas y los grados de libertad que intervienen al valorar cada
efecto.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados para
realizar comparaciones planeadas siguen siendo válidos si se tiene la precaución de utilizar
las ecuaciones propuestas para el caso en que no puede asumirse que las varianzas pobla-
cionales son iguales. Y en lo relativo a las comparaciones post hoc, es preferible estudiar las
comparaciones por pares utilizando la prueba T para muestras relacionadas ajustando la ta-
sa de error por comparación (αC) mediante el método de Bonferroni (Keselman y Keselman,
1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980). En el siguiente apartado se
explica cómo hacer todo esto con el SPSS.
ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR) con SPSS
Veamos cómo utilizar el SPSS para llevar a cabo un ANOVA de dos factores con medidas
repetidas en uno4. Para ello, vamos a realizar 6 tareas: (1) chequear el supuesto de igualdad
de varianzas referido al efecto intersujetos (A) y los de esfericidad y esfericidad multi-mues-
4
En la explicación de algunos de los resultados obtenidos se asumirá que el lector está familiarizado con el modelo de un
factor con medidas repetidas estudiado en el capítulo anterior.
tra referidos a los efectos intrasujetos (B y AB), (2) contrastar las hipótesis globales referidas
a los tres efectos del diseño, (3) estimar el tamaño de cada efecto y calcular la potencia ob-
servada asociada a cada contraste, (4) realizar comparaciones post hoc para interpretar los
efectos principales, (5) realizar comparaciones múltiples para valorar e interpretar los efec-
tos simples y (6) obtener un gráfico de líneas y comparar entre sí los efectos simples para
interpretar el efecto de la interacción.
Estas tareas las vamos a realizar con los datos de un estudio diseñado para comparar dos
tratamientos antidepresivos. A un grupo de pacientes con depresión se les ha aplicado la es-
cala de depresión de Hamilton para obtener una medida inicial o basal del nivel de depresión
de cada paciente. Tras esto, se han seleccionado aleatoriamente 40 pacientes entre los que
han alcanzado o superado la puntuación 30 (puntuación basal). Con estos 40 pacientes se han
formado al azar dos grupos del mismo tamaño y uno de ellos ha comenzado a recibir un tra-
tamiento estándar (basado en fluoxetina) y el otro un tratamiento combinado (fluoxetina más
psicoterapia). Al cabo de cuatro semanas de iniciado el tratamiento se ha vuelto a administrar
la escala de depresión para obtener una medida de la evolución de los pacientes. Al cabo de
ocho semanas se ha vuelto a administrar la escala y se ha dado por finalizado el estudio. La
Tabla 9.16 recoge los resultados obtenidos.
Tabla 9.16. Puntuaciones de 40 pacientes depresivos en la escala Hamilton. Diseño con dos factores: trata-
miento (estándar, combinado) y tiempo (basal, semana 4, semana 8) con medidas repetidas en el factor tiempo
Estándar Combinado
Basal Semana 4 Semana 8 Basal Semana 4 Semana 8
s1 30 28 21 s21 32 25 20
s2 31 33 32 s22 37 29 25
s3 31 32 27 s23 30 24 19
s4 30 22 23 s24 32 27 16
s5 34 37 36 s25 38 36 29
s6 35 30 26 s26 37 35 28
s7 32 25 22 s27 30 22 19
s8 34 35 30 s28 36 32 24
s9 35 32 31 s29 30 26 22
s10 31 29 27 s30 33 30 26
s11 31 30 32 s31 33 30 26
s12 34 33 30 s32 31 29 26
s13 30 26 22 s33 32 26 14
s14 30 28 25 s34 31 27 25
s15 37 32 31 s35 36 31 24
s16 35 29 30 s36 31 26 22
s17 33 32 28 s37 38 33 26
s18 34 31 24 s38 37 29 19
s19 36 34 28 s39 34 22 12
s20 30 26 24 s40 39 34 28
Tenemos un factor intersujetos (tratamiento; con dos niveles: estándar y combinado; a cada
nivel se asigna un grupo distinto de sujetos) y un factor intrasujetos (tiempo; con tres nive-
les: basal, semana 4 y semana 8; todos los sujetos pasan por los tres niveles). La variable
dependiente es el nivel de depresión (cuantificado con la escala de depresión de Hamilton).
El objetivo del estudio es valorar la eficacia del tratamiento combinado en comparación con
el tratamiento estándar.
Para reproducir los datos de la Tabla 9.16 en el Editor de datos del SPSS es necesario
crear cuatro variables: una para definir el factor intersujetos y tres para definir los tres nive-
les del factor intrasujetos. La Figura 9.4 muestra el aspecto del Editor de datos después de
introducir en él los datos de la Tabla 9.16. Hemos creado la variable tto (tratamiento) ha-
ciéndole tomar los valores 1 y 2 (con etiquetas: 1 = «estándar», 2 = «combinado»). Y para de-
finir los tres niveles del factor intrasujetos tiempo se han creado tres variables: basal, cuatro
y ocho. Estas variables recogen las puntuaciones en la escala Hamilton al inicio del estudio
y al cabo de cuatro y ocho semanas de tratamiento. También hemos creado una variable de
identificación de caso (sujeto).
Figura 9.4. Datos de la Tabla 9.16 reproducidos en el Editor de datos
Como primera aproximación a los resultados de este estudio, la Figura 9.5 muestra los dia-
gramas de caja correspondientes a las puntuaciones obtenidas por cada grupo en cada uno de
los tres momentos evaluados. Ninguno de los diagramas muestra casos anómalos ni asimetrías
evidentes. Y en la dispersión de las diferentes medidas no parece haber diferencias sustan-
ciales. Pero el nivel de depresión varía sensiblemente entre condiciones: tanto en el grupo que
ha recibido el tratamiento estándar como en el que ha recibido el tratamiento combinado se
observa una clara disminución del nivel de depresión conforme avanza el tratamiento; sin
embargo, en el grupo que ha recibido el tratamiento combinado, parece que esta disminución
es más evidente.
Figura 9.5. Diagramas de caja correspondientes a los datos de la Tabla 9.16
Para analizar los efectos presentes en el diseño (los dos efectos principales y el efecto de la
interacción):
' Reproducir en el Editor de datos los datos de la Tabla 9.16 tal como se muestra en la
Figura 9.4 (o abrir el archivo Tabla 9.16 depresión hamilton que se encuentra en la pá-
gina web del manual).
' Seleccionar la opción Modelo lineal general > Medidas repetidas del menú Analizar para ac-
ceder al cuadro de diálogo (previo al principal) Medidas repetidas: Definir factores.
' Para definir el factor de medidas repetidas, asignarle nombre (tiempo) en el cuadro de
texto Nombre del factor intra-sujetos y número de niveles (3) en el cuadro de texto Núme-
ro de niveles, y pulsar el botón Añadir para validar (si fuera necesario, utilizar los botones
Cambiar y Borrar para realizar modificaciones).
' Pulsar el botón Definir para acceder al cuadro de diálogo principal Medidas repetidas. La
lista Variables intra-sujetos está preparada para recibir los nombres de las variables que
corresponden a los niveles del factor previamente definido.
' Seleccionar las tres variables que definen los niveles del factor intrasujetos (basal, cua-
tro y ocho) y trasladarlas, en el orden correcto, a la lista Variables intra-sujetos; selec-
cionar la variable que define el factor intersujetos (tto) y trasladarla a la lista Factores
inter-sujetos.
Las elecciones hechas hasta aquí permiten realizar el análisis básico, es decir, contrastar las
tres hipótesis globales referidas a los tres efectos del diseño: tto, tiempo y tto*contenido. Las
siguientes elecciones sirven para seguir avanzando en el análisis. Para obtener un gráfico de
líneas basado en las medias de las casillas:
ficos de perfil.
' Trasladar el factor tiempo al cuadro Eje horizontal y el factor tto al cuadro Líneas separa-
das, y pulsar el botón Añadir para trasladar las variables seleccionadas a la lista inferior
y, con ello, hacer efectiva la selección. Pulsar el botón Continuar para volver al cuadro
de diálogo principal.
Para llevar a cabo comparaciones post hoc entre los niveles del factor tiempo y para analizar
los efectos simples:
ciones; trasladar el factor tiempo y la interacción tto*tiempo a la lista Mostrar las medias
para, marcar la opción Comparar los efectos principales y seleccionar la opción Bonferro-
ni dentro del menú desplegable Ajuste del intervalo de confianza (para controlar la tasa de
error). Pulsar el botón Continuar para volver al cuadro de diálogo principal.
Puesto que el factor tto solamente tiene dos niveles, no es necesario solicitar este tipo
de comparaciones. Con todo, con los factores intersujetos pueden utilizarse los procedi-
mientos del botón Post hoc de idéntica manera a como se ha hecho en el Capítulo 6 con
el modelo de un factor CA. La selección de la interacción tto*tiempo sirve para obtener
información sobre los efectos simples si, más tarde, en lugar de ejecutar el procedimiento,
se pega la sintaxis y se modifica la línea «/EMMEANS = TABLES(tto* tiempo)» añadiendo:
«COMPARE(tto) ADJ(BONFERRONI)». La sentencia completa debe quedar de esta manera:
«/EMMEANS = TABLES (tto*tiempo) COMPARE(tto) ADJ(BONFERRONI)».
Para chequear el supuesto de igualdad de varianzas y el de esfericidad multi-muestra:
ciones y marcar las casillas Estadísticos descriptivos y Pruebas de homogeneidad. Las op-
ciones Estimaciones del tamaño del efecto y Potencia observada ya se han explicado con
detalle en ejemplos anteriores y, puesto que siempre generan los mismos resultados, no
las incluiremos aquí. Pulsar el botón Continuar para volver al cuadro de diálogo principal.
Para comparar los efectos simples entre sí, es decir, para realizar las comparaciones necesa-
rias para interpretar el efecto de la interacción:
' Pulsar el botón Contrastes para acceder al subcuadro de diálogo Medidas repetidas: Con-
trastes; seleccionar el factor tiempo, seleccionar la opción Simple del menú desplegable
Contraste, seleccionar Primera como categoría de referencia y pulsar el botón Cambiar pa-
ra validar las elecciones hechas.
El procedimiento Medidas repetidas asigna, por defecto, contrastes de tipo polinómi-
co a los factores MR; estos contrastes permiten estudiar el tipo de relación (lineal, cua-
drática, cúbica, etc.) existente entre un factor MR y la variable dependiente. Pero también
es posible llevar a cabo comparaciones planeadas distintas de las de tendencia seleccio-
nando alguna de las opciones del menú desplegable Contraste. La opción Simple (que es
la que hemos elegido) permite comparar cada categoría con la categoría de referencia. Se
puede elegir como categoría de referencia la primera o la última (también se puede elegir
cualquier otra categoría mediante sintaxis; veremos cómo hacerlo más adelante).
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 9.17 a 9.28
y el gráfico de líneas que muestra la Figura 9.6. Muchas de estas tablas son idénticas a las
ya estudiadas en apartados anteriores, pero ahora existe información nueva relativa al efec-
to del factor intersujetos.
La Tabla 9.17 contiene algunos estadísticos descriptivos para cada grupo y medida repe-
tida: la media, la desviación típica y el número de observaciones. Estas medias son las que
se utilizan para construir el gráfico de líneas que se ofrece más adelante en la Figura 9.6 y
es la información que hay que revisar en primer lugar, junto con los diagramas de caja de la
Figura 9.5, y de la que hay que informar en primer lugar.

Tratamiento Media Desv. típ. N
Puntuaciones Hamilton (basal) Estándar 32,65 2,30 20
Combinado 33,85 3,08 20
Total 33,25 2,75 40
Puntuaciones Hamilton (semana 4) Estándar 30,20 3,66 20
Combinado 28,80 4,16 20
Total 29,50 3,94 40
Puntuaciones Hamilton (semana 8) Estándar 27,45 4,06 20
Combinado 22,50 4,80 20
Total 24,98 5,05 40
Esfericidad multi-muestra e igualdad de varianzas

Las Tablas 9.18, 9.19 y 9.20 ofrecen la prueba de Mauchly, la de Box y la de Levene, res-
pectivamente.
La prueba de esfericidad de Mauchly (Tabla 9.18) indica que la matriz de varianzas-co-
varianzas de las medidas repetidas (factor tiempo) no es esférica (sig. = 0,003 < 0,05).
El estadístico M de Box y su transformación en F (ver Tabla 9.19) permite contrastar la
hipótesis de igualdad entre las J matrices de varianzas-covarianzas (en el ejemplo tenemos
dos de estas matrices, una por cada nivel del factor tto); el nivel crítico (sig. = 0,671 > 0,05)
indica que no hay razón para pensar que estas matrices sean distintas; por tanto, puede asu-
mirse que las matrices comparadas son iguales. Es decir, aunque no es posible asumir que
las matrices de varianzas-covarianzas son esféricas (prueba de Mauchly), sí puede asumirse
que son iguales (prueba de Box).
La Tabla 9.20 ofrece el estadístico F de Levene. Este estadístico contrasta la hipótesis
de igualdad entre las J varianzas del factor intersujetos (tto). Esta hipótesis se contrasta pa-
ra cada nivel del factor intrasujetos, es decir, para cada medida repetida. En el ejemplo,
puesto que todos los niveles críticos obtenidos (0,060; 0,457; 0,428) son mayores que 0,05,
puede asumirse que, en las tres medidas utilizadas, las varianzas de las dos poblacionales
definidas por el factor tto son iguales.
Tabla 9.18. Prueba de Mauchly (esfericidad)

Medida: MEASURE_1
Épsilon
Efecto W de Chi-cuadrado Greenhouse- Huynh- Límite-
intra-sujetos Mauchly aprox. gl Sig. Geisser Feldt inferior
tiempo ,74 11,36 2 ,003 ,79 ,84 ,50
Tabla 9.19. Prueba Box (igualdad de las J matrices de varianzas-covarianzas)

M de Box 4,42
F ,67
gl1 6,00
gl2 10.462,19
Sig. ,671
Tabla 9.20. Prueba de Levene (igualdad de varianzas)

F gl1 gl2 Significación
Puntuaciones Hamilton (basal) 3,76 1 38 ,060
Puntuaciones Hamilton (semana 4) ,56 1 38 ,457
Puntuaciones Hamilton (semana 8) ,64 1 38 ,428

Las Tablas 9.21, 9.22 y 9.23 contienen los estadísticos que sirven para contrastar las hipótesis
referidas a los efectos del diseño, es decir, a los dos efectos principales (tto, tiempo) y al efec-
to de la interacción (tto*tiempo).
En primer lugar (Tablas 9.21 y 9.22) aparece la información relativa a los efectos in-
trasujetos (tiempo y tto*tiempo). Si puede asumirse esfericidad, los estadísticos F conven-
cionales son la mejor elección. Estos estadísticos se encuentran en la Tabla 9.22, en las filas
encabezadas esfericidad asumida).
Si no puede asumirse esfericidad, debe recurrirse, tal como se ha hecho en los modelos
anteriores (ver, en el capítulo anterior, el apartado Alternativas al estadístico F ) a la apro-
ximación multivariada (ver Tabla 9.21) y a los estadísticos F con los grados de libertad mo-
dificados (ver Tabla 9.22).
En nuestro ejemplo, tanto el efecto del factor tiempo como el de la interacción tto*tiempo
resultan significativos con cualquiera de los estadísticos disponibles (en todos los casos se
obtiene sig. < 0,0005). Por tanto, se puede concluir, en primer lugar, que el nivel de depresión
no es el mismo en los tres momentos analizados (efecto significativo del factor tiempo) y, en
segundo lugar, que la diferencia entre los tratamientos no es la misma en los tres momentos
analizados5 (efecto significativo de la interacción).
Por último, la Tabla 9.23 informa del efecto del factor intersujetos (tto). El nivel crítico
asociado al estadístico F (sig. = 0,106 > 0,05) no permite rechazar la hipótesis nula de igual-
dad de medias. Este resultado indica que, tras promediar las tres medidas repetidas de cada
sujeto, no parece que las medias de los dos tratamientos sean distintas (es importante seña-
lar que este efecto no es el que está informando de la eficacia del tratamiento combinado; pa-
ra esto, ver, más adelante, el análisis referido al efecto de la interacción).
Tabla 9.21. Contrastes multivariados (efectos intrasujetos)

Efectos intra-sujetos Valor F Gl de la hipótesis Gl del error Sig.
Lambda de Wilks ,17 87,31 2,00 37,00 ,000
Raíz mayor de Roy 4,72 87,31 2,00 37,00 ,000
tiempo * tto Traza de Pillai ,40 12,31 2,00 37,00 ,000
Lambda de Wilks ,60 12,31 2,00 37,00 ,000
Traza de Hotelling ,67 12,31 2,00 37,00 ,000
Raíz mayor de Roy ,67 12,31 2,00 37,00 ,000
5
Aunque esta forma de interpretar el efecto global de la interacción puede resultar más sencilla de entender, el efecto de
la interacción también puede interpretarse tomando como referencia el otro factor: el cambio que se produce entre los tres
momentos analizados no es el mismo con los dos tratamientos.
Tabla 9.22. Contrastes univariados (efectos intrasujetos)

Medida: MEASURE_1
Suma de Media
tiempo Esfericidad asumida 1.373,52 2,00 686,76 133,42 ,000
Greenhouse-Geisser 1.373,52 1,58 868,25 133,42 ,000
Huynh-Feldt 1.373,52 1,68 816,31 133,42 ,000
Límite-inferior 1.373,52 1,00 1.373,52 133,42 ,000
tiempo * tto Esfericidad asumida 190,62 2,00 95,31 18,52 ,000
Greenhouse-Geisser 190,62 1,58 120,50 18,52 ,000
Huynh-Feldt 190,62 1,68 113,29 18,52 ,000
Límite-inferior 190,62 1,00 190,62 18,52 ,000
Error ( iempo) Esfericidad asumida 391,20 76,00 5,15
Greenhouse-Geisser 391,20 60,11 6,51
Huynh-Feldt 391,20 63,94 6,12
Tabla 9.23. Contrastes univariados (efectos intersujetos)

Medida: MEASURE_1
Variable transformada: Promedio
Suma de Media
Intersección 34.203,00 1 34.203,00 3.184,92 ,000
tto 29,47 1 29,47 2,74 ,106
Error 408,08 38 10,74
Comparaciones post hoc: efectos principales

Ya sabemos que, aunque las comparaciones post hoc no están disponibles para los factores
MR, es posible efectuar comparaciones post hoc utilizando la opción Comparar efectos prin-
cipales del cuadro de diálogo Opciones.
Las Tablas 9.24 y 9.25 muestran los resultados relativos al efecto del factor tiempo (no
hemos solicitado comparaciones post hoc para el factor tto porque este factor solamente tie-
ne dos niveles; cuando un factor intersujetos tiene más de dos niveles, pueden utilizarse los
procedimientos del botón Post hoc de idéntica manera a como se ha hecho en el Capítulo 6
con el modelo de un factor CA; los procedimientos disponibles son los mismos y la forma
de interpretarlos también).
La Tabla 9.24 ofrece las medias de los niveles del factor tiempo, además del error típi-
co y del intervalo de confianza correspondiente a cada media (no olvidar que estos intervalos
de confianza se refieren a cada media individualmente considerada, no a diferencias entre
pares de medias; por tanto, no sirven para realizar comparaciones). Debe tenerse en cuenta
que los códigos asignados al factor tiempo (1, 2, 3) se corresponden con los niveles del fac-
tor en el orden en el que han sido seleccionados en el cuadro de diálogo principal; por tanto,
1 = «basal», 2 = «semana 4», 3 = «semana 8».
La Tabla 9.25 muestra las comparaciones por pares entre los niveles del factor tiempo
(hemos eliminado de la tabla las filas con información redundante). Para controlar la tasa de
error, tanto a los niveles críticos (sig.) como a los intervalos de confianza se les ha aplicado
la corrección de Bonferroni (se indica en una nota a pie de tabla). El resultado de estas
comparaciones indica que el nivel medio de depresión en el momento basal (nivel 1) es sig-
nificativamente más alto (sig. < 0,0005) que en el resto de momentos; y significativamente
más alto también (sig. < 0,0005) en la semana 4 que en la 8 (niveles 2 y 3). Los intervalos de
confianza indican exactamente lo mismo (ninguno de ellos incluye el valor cero). Por tanto,
puede concluirse que el nivel medio de depresión va disminuyendo conforme va avanzando
el tratamiento (debe tenerse en cuenta que esta conclusión es provisional; el hecho de que el
efecto de la interacción sea significativo indica que este resultado podría ser matizado).

Medida: MEASURE_1
1 33,25 ,43 32,38 34,12
2 29,50 ,62 28,24 30,76
3 24,98 ,70 23,55 26,40

Medida: MEASURE_1
a
Diferencia entre para la diferencia
a
(I) tiempo (J) tiempo medias (I-J) Error típ. Sig. Límite inferior Límite superior
1 2 3,75 ,45 ,000 2,63 4,87
3 8,28 ,62 ,000 6,71 9,84
2 3 4,53 ,43 ,000 3,45 5,60

La Tabla 9.26 muestra las medias de las casillas (las medias de cada combinación entre los
niveles del factor tto y los del factor tiempo). Estas medias son las que se compararan al ana-
lizar los efectos simples.
La Tabla 9.27 contiene la información referida a los efectos simples del factor tto, es
decir, las comparaciones entre los niveles del factor tto (1 = «estándar», 2 = «combinado»)
dentro cada nivel del factor tiempo (1 = «basal», 2 = «semana 4», 3 = «semana 8»). Estas
comparaciones (32,65 ! 33,85 = !1,20; 30,20 ! 28,80 = 1,40; 27,45 ! 22,50 = 4,95) apare-
cen con sus correspondientes pruebas de significación e intervalos de confianza. Tanto los
niveles críticos (sig.) como los intervalos de confianza se han ajustado aplicando la correc-
ción de Bonferroni. Los resultados obtenidos indican que los tratamientos (sus medias)
difieren significativamente en la semana 8 (nivel 3; sig. = 0,001) pero no en el momento ba-
sal ni en la semana 4 (nivel 1: sig. = 0,171; nivel 2: sig. = 0,266). Es decir, en la semana 8,
el nivel de depresión es más bajo con el tratamiento combinado que con el estándar; pero no
parece que esto sea así ni en el momento basal ni en la semana 8.
En lugar de analizar los efectos simples del factor tto se podrían analizar los efectos sim-
ples del factor tiempo. Para ello basta con cambiar COMPARE(tto) por COMPARE(tiempo) en la
sentencia «/EMMEANS = TABLES (tto*tiempo) COMPARE(tto) ADJ(BONFERRONI)».
Tabla 9.26. Medias estimadas (combinaciones tto por tiempo)

Medida: MEASURE_1
Tratamiento tiempo Media Error típ. Límite inferior Límite superior
Estándar 1 32,65 ,61 31,42 33,88
2 30,20 ,88 28,42 31,98
3 27,45 ,99 25,44 29,46
Combinado 1 33,85 ,61 32,62 35,08
2 28,80 ,88 27,02 30,58
3 22,50 ,99 20,49 24,51
Tabla 9.27. Comparaciones por pares (efectos simples del factor tto)
Medida: MEASURE_1
a
(I) (J) Diferencia entre Error para la diferencia
a
tiempo Tratamiento Tratamiento medias (I-J) típ. Sig. Límite inferior Límite superior
1 Estándar Combinado -1,20 ,86 ,171 -2,94 ,54
2 Estándar Combinado 1,40 1,24 ,266 -1,11 3,91
3 Estándar Combinado 4,95 1,40 ,001 2,11 7,79

El análisis de los efectos simples del apartado anterior indica que la diferencia entre los dos
tratamientos se produce en la semana 8 pero no en el momento basal ni en la semana 4. ¿Sig-
nifica esto que lo que ocurre en la semana 8 difiere de lo que ocurre en el momento basal y
en la semana 4? No exactamente. Para responder a esta pregunta es necesario analizar e in-
terpretar el efecto de la interacción.
Para esto, hemos solicitado (1) un gráfico de líneas o perfiles y (2) comparaciones entre
los efectos simples (en el Capítulo 7 se describe con detalle todo lo relacionado con el tipo
de comparaciones que es necesario llevar a cabo para poder interpretar una interacción sig-
nificativa).
El gráfico de líneas de la Figura 9.6 muestra una paulatina disminución del nivel medio
de depresión entre el momento basal y la semana 8 (es decir, conforme avanza el tratamiento).
Esto ocurre con ambos tratamientos. Por tanto, no es sorprendente que el efecto del factor
tiempo haya resultado significativo (ver Tabla 9.22) y que la reducción en el nivel medio de
depresión que se produce entre cada dos momentos también lo sea (ver Tabla 9.25). Sin
embargo, la diferencia entre los tratamientos es mayor al final (3 = «semana 8») que al prin-
cipio (1 = «basal», 2 = «semana 4»). Esto es justamente lo que nos está indicando la pre-
sencia de una interacción significativa: que la diferencia entre los dos tratamientos no es la
misma en los tres momentos.
Pero, ¿qué momentos difieren de qué otros? Es decir, ¿qué efectos simples difieren de
qué otros? Para responder a esta pregunta no basta con saber que unos efectos simples son
significativos y otros no; es necesario compararlos entre sí (ver, en el Apéndice 7, el apar-
tado Más sobre los efectos simples y el efecto de la interacción).
Figura 9.6. Gráfico de líneas (perfiles) correspondiente a los datos de la Tabla 9.16
Parte de las comparaciones entre efectos simples aparecen en la Tabla 9.28 (se ha elimina-
do de la tabla original la información relativa a los efectos principales y se ha dejado úni-
camente la relativa al efecto de la interacción). Puesto que el factor tiempo tiene 3 niveles,
hay 3 efectos simples asociados al factor tiempo (es decir, 3 diferencias entre los dos trata-
mientos). Para comparar entre sí estos 3 efectos simples es necesario realizar 3 compara-
ciones; hay que comparar lo que ocurre en el momento 1 con lo que ocurre en los momentos
2 y 3, y lo que lo que ocurre en el momento 2 con lo que ocurre en el momento 3.
De estas 3 comparaciones, la Tabla 9.28 incluye las 2 primeras, es decir, lo que ocurre
en el momento 1 comparado con lo que ocurre en los momentos 2 y 3. En la primera de ellas
se está comparando el efecto simple de tto en el momento 1 con el efecto simple de tto en el
momento 2 (tiempo = nivel 2 - nivel 1). Los resultados se presentan en el formato de una ta-
bla de ANOVA. Puesto que esta comparación tiene asociado un nivel crítico menor que 0,05
(sig. = 0,006), puede afirmarse que el efecto simple de tto en el momento 1 (basal) difiere del
efecto simple de tto en el momento 2 (semana 4). Debe repararse en el hecho de que este re-
sultado (diferencia significativa entre los dos primeros efectos simples de tto) no coincide con
el que se desprende del análisis individual de los efectos simples del apartado anterior, pues
ambos efectos simples han resultado no significativos (ver Tabla 9.27).
En la segunda línea se está comparando el efecto simple de tto en el momento 1 con el
efecto simple de tto en el momento 3 (tiempo = nivel 3 ! nivel 1). Puesto que esta compa-
ración tiene asociado un nivel crítico menor que 0,05 (sig. < 0,0005), puede afirmarse que
el efecto simple de tto en el momento 1 difiere del efecto simple de tto en el momento 3.

Medida: MEASURE_1
Suma de Media
tiempo * tto Nivel 2 - Nivel 1 67,60 1 67,60 8,45 ,006
Nivel 3 - Nivel 1 378,23 1 378,23 24,29 ,000
Error (tiempo) Nivel 2 - Nivel 1 303,90 38 8,00
Nivel 3 - Nivel 1 591,75 38 15,57
La Tabla 9.28 contiene información sobre las comparaciones entre los momentos 1-2 y 1-3
(falta la comparación entre los momentos 2-3). Esta tabla es la que se obtiene al seleccionar
la opción Simple en el subcuadro de diálogo Medidas repetidas: Contrastes. La línea de sin-

taxis que ha generado esta tabla es /WSFACTOR = tiempo 3 Simple(1). El valor 1 colocado entre
paréntesis en Simple(1) indica que la categoría de referencia (el nivel del factor tiempo con el
que se comparan los demás niveles) es la primera. Cambiando ese valor por 2, la categoría
de referencia pasa a ser la segunda; y ejecutando la sintaxis con este cambio se obtienen los
resultados que muestra la Tabla 9.29 (se ha eliminado de la tabla la información que no inte-
resa en este momento). En la primera línea de la tabla se está comparando el efecto simple de
tto en el momento 2 con el efecto simple de tto en el momento 3 (tiempo = nivel 3 - nivel 2).
Puesto que esta comparación tiene asociado un nivel crítico menor que 0,05 (sig. < 0,0005),
puede afirmarse que el efecto simple de tto en el momento 2 difiere del efecto simple de tto
en el momento 3.
Resumiendo, al comparar entre sí los efectos simples de tto hemos encontrado diferencias
significativas entre los tres momentos. Es decir, centramos el análisis en la diferencia entre
los dos tratamientos, encontramos: (1) que lo que ocurre en el momento basal difiere de lo
que ocurre en la semana 4 (el tratamiento combinado reduce el nivel de ansiedad más de lo
que lo hace el estándar) y (2) que lo que ocurre en la semana 8 difiere de lo que ocurre en el
momento basal y en la semana 4 (de nuevo el tratamiento combinado reduce el nivel de
ansiedad más de lo que lo hace el estándar).
Si se está dispuesto a utilizar la sintaxis con algo más de profundidad, estos mismos re-
sultados y algunos otros adicionales pueden obtenerse combinando las sentencias LMATRIX
y MMATRIX (ver Apéndice 9).

Medida: MEASURE_1
Suma de Media
tiempo * tto Nivel 3 - Nivel 2 126,03 1 126,03 17,23 ,000
Error (tiempo) Nivel 3 - Nivel 2 277,95 38 7,31
Apéndice 9
La sentencia MMATRIX
Al margen de las comparaciones que es posible llevar a cabo desde los cuadros de diálogo del SPSS,
la sentencia MMATRIX permite realizar cualquier tipo de comparación entre los niveles de un efecto
intrasujetos. En lo que aquí nos interesa más, esta sentencia permite valorar la significación individual
de los efectos simples, realizar comparaciones entre los niveles de un mismo efecto simple y realizar
comparaciones entre diferentes efectos simples. En este apartado se explica cómo utilizar la sentencia
MMATRIX para llevar a cabo estos tres tipos de comparaciones.
La lógica en la que se basa la sentencia MMATRIX es similar a la ya utilizada a propósito de la sen-
tencia LMATRIX en el Apéndice 7. Pero trabajar con la sentencia MMATRIX es más sencillo porque los
coeficientes que hay que elegir para definir cada comparación se asignan directamente a las medidas
repetidas del diseño.
Análisis de los efectos simples
Retomemos nuestro ejemplo (ver Tabla 9.3) sobre la relación entre la calidad del recuerdo, el contenido
del material recordado (números, letras) y el paso del tiempo (hora, día, semana, mes). Para valorar, por
ejemplo, los efectos simples del factor contenido, es decir, la diferencia entre números y letras en cada
uno de los cuatro momentos:
' En el cuadro de diálogo Medidas repetidas, trasladar las 8 variables (medidas repetidas) del ejem-
plo (n_hora, n_día, n_semana, n_mes, l_hora, l_día, l_semana, l_mes) a la lista Factores intra-
sujetos y pulsar el botón Pegar para obtener la sintaxis correspondiente a las elecciones hechas.
El Editor de sintaxis muestra el siguiente resultado:

GLM n_hora n_día n_semana n_mes l_hora l_día l_semana l_mes
/WSFACTOR = contenido 2 Polynomial tiempo 4 Polynomial
/METHOD = SSTYPE(3)
/WSDESIGN = contenido tiempo contenido*tiempo.
Los valores asignados a las sentencias WSFACTOR, METHOD, CRITERIA y WSDESIGN son los que
el procedimiento GLM utiliza por defecto; no es necesario modificarlos. Para valorar los cuatro efec-
tos simples del factor contenido vamos a añadir la sentencia MMATRIX con las especificaciones que
se muestran a continuación:
GLM n_hora n_día n_semana n_mes l_hora l_día l_semana l_mes
/WSFACTOR = contenido 2 Polynomial tiempo 4 Polynomial
/METHOD = SSTYPE(3)
/MMATRIX =
n_hora 1 l_hora !1;
n_día 1 l_día !1;
n_semana 1 l_semana !1;
n_mes 1 l_mes !1;
/WSDESIGN = contenido tiempo contenido*tiempo.
Los cuatro efectos simples del factor contenido (uno por cada nivel del factor tiempo) se han definido
en las cuatro líneas adosadas a la sentencia MMATRIX. La primera línea, por ejemplo, define la com-
paración entre las variables n_hora (código 1) y l_hora (código !1); es decir, define el efecto simple
del factor contenido en el momento una hora (primer nivel del factor tiempo). Las otras tres líneas
definen la misma comparación pero referida a los otros tres momentos del factor tiempo (nótese que
cada línea de la sentencia termina con punto y coma).
Ejecutando esta sintaxis se obtienen, entre otros, los resultados que muestra la Tabla 9.30. Estos
resultados son equivalentes a los ya obtenidos al estudiar los efectos simples con otra estrategia dife-
rente (ver Tabla 9.11), con la diferencia de que ahora no se está aplicando la corrección de Bonferro-
ni al calcular los niveles críticos ni al construir los intervalos de confianza (cosa que en este ejemplo
es del todo irrelevante porque el factor contenido tiene dos niveles). El procedimiento asigna el nom-
bre T# a cada contraste. Así, T1 se refiere al primer contraste solicitado (primer efecto simple del fac-
tor contenido), T2 al segundo contraste solicitado (segundo efecto simple del factor contenido), etc.
Los resultados obtenidos (sig.) indican que la diferencia entre el recuerdo de números y letras
es significativa en los momentos 1 y 2 ( p < 0,0005 y p = 0,014, respectivamente) pero no en los mo-
mentos 3 y 4 ( p = 0,102 y p = 0,883, respectivamente). Por tanto, las letras se recuerdan mejor que los
números al cabo de una hora y de un día, pero no hay evidencia de que esto sea así al cabo de una se-
mana y de un mes.
Tabla 9.30. Efectos simples del factor contenido
Variable Suma de Media
Fuente transformada cuadrados gl cuadrática F Sig.
Contraste T1 66,67 1 66,67 100,00 ,000
T2 42,67 1 42,67 13,91 ,014
T3 2,67 1 2,67 4,00 ,102
T4 ,17 1 ,17 ,02 ,883
Error T1 3,33 5 ,67
T2 15,33 5 3,07
T3 3,33 5 ,67
T4 34,83 5 6,97
Comparaciones entre los niveles de un mismo efecto simple

Puesto que la variable contenido solamente tiene dos niveles, basta con hacer una comparación en cada
uno de los cuatro niveles del factor tiempo (cuatro comparaciones en total); estas cuatro comparacio-
nes se corresponden con los cuatro efectos simples del factor contenido (Tabla 9.30).
Cuando el factor analizado tiene más de dos niveles, además de valorar la significación de cada
efecto simple (como en el apartado anterior), puede interesar comparar entre sí las medias involucra-
das en cada efecto simple. Por ejemplo, los efectos simples del factor tiempo son dos: uno por cada con-
tenido. Pero cada efecto simple del factor tiempo incluye 4 medias. Por tanto, analizar los efectos sim-
ples del factor tiempo en cada contenido implica hacer 6 comparaciones por pares con cada contenido
(12 comparaciones en total). Estas comparaciones pueden hacerse utilizando dos sentencias MMATRIX:
una con las 6 comparaciones relativas al primer contenido (números) y otra con las 6 relativas al se-
gundo contenido (letras). Puesto que el procedimiento GLM solo admite una sentencia MMATRIX, hay
que ejecutarlo dos veces. La siguiente sentencia MMATRIX incluida dentro del procedimiento GLM
solicita comparar por pares los niveles del factor tiempo cuando el material recordado es números:
/MMATRIX =
n_hora 1 n_día –1
n_hora 1 n_semana –1;
n_hora 1 n_mes –1;
n_día 1 n_semana –1;
n_día 1 n_mes –1;
n_semana 1 n_mes –1;
Y la siguiente sentencia MMATRIX solicita comparar los niveles del factor tiempo cuando el material
recordado es letras:
/MMATRIX =
l_hora 1 l_día –1;
l_hora 1 l_semana –1;
l_hora 1 l_mes –1;
l_día 1 l_semana –1;
l_día 1 l_mes –1;
l_semana 1 l_mes –1;
Ejecutando esta sintaxis se obtienen los resultados que muestran las Tablas 9.31 y 9.32. La Tabla 9.31
ofrece los 6 contrastes (comparaciones por pares) entre los 4 niveles del factor tiempo dentro del pri-
mer nivel de contenido (números). El orden de los contrastes T1, T2, etc., es el que se ha definido en
la sentencia MMATRIX. Por tanto, en T1 se está comparando una hora con un día; en T2 se está com-
parando una hora con una semana; ...; en T6 se está comparando una semana con un mes. El resulta-
do de los contrastes T1, T2 y T3 indica que, al recordar números, la calidad del recuerdo al cabo de una
hora es mejor que al cabo de un día ( p = 0,006), mejor que al cabo de una semana ( p < 0,0005) y me-
jor que al cabo de un mes ( p = 0,007). Los resultados de los contrastes T4, T5 y T6 indican que no
existe evidencia de diferencias entre el resto de los momentos ( p > 0,05 en los tres casos).
La Tabla 9.32 ofrece los mismos 6 contrastes pero dentro del segundo nivel de contenido (letras).
El resultado de los contrastes T1, T2 y T3 indica que, al recordar letras, la calidad del recuerdo al cabo
de una hora es mejor que al cabo de un día ( p = 0,018), mejor que al cabo de una semana ( p < 0,0005)
y mejor que al cabo de un mes ( p < 0,0005). El resultado de los contrastes T4 y T5 indica que la cali-
dad del recuerdo al cabo de un día es mejor que al cabo de una semana ( p = 0,010) y mejor que al ca-
bo de un mes ( p = 0,023). El resultado del contraste T6 indica que no existe evidencia de que lo que
ocurre al cabo de una semana difiera de lo que ocurre al cabo de un mes ( p = 1,000). No olvidar que
en todos estos contrastes no se está aplicando ningún tipo de corrección para controlar la tasa de error.
Tabla 9.31. Comparaciones por pares entre los niveles del factor tiempo en el primer contenido (números)
Contraste T1 20,17 1 20,17 20,86 ,006
T2 54,00 1 54,00 67,50 ,000
T3 37,50 1 37,50 19,74 ,007
T4 8,17 1 8,17 5,98 ,058
T5 2,67 1 2,67 ,77 ,421
T6 1,50 1 1,50 1,36 ,296
Error T1 4,83 5 ,97
T2 4,00 5 ,80
T3 9,50 5 1,90
T4 6,83 5 1,37
T5 17,33 5 3,47
T6 5,50 5 1,10
Tabla 9.32. Comparaciones por pares entre los niveles del factor tiempo en el segundo contenido (letras)
Contraste T1 37,50 1 37,50 12,10 ,018
T2 192,67 1 192,67 103,21 ,000
T3 192,67 1 192,67 85,00 ,000
T4 60,17 1 60,17 15,97 ,010
T5 60,17 1 60,17 10,43 ,023
T6 ,00 1 ,00 ,00 1,000
Error T1 15,50 5 3,10
T2 9,33 5 1,87
T3 11,33 5 2,27
T4 18,83 5 3,77
T5 28,83 5 5,77
T6 24,00 5 4,80
Análisis del efecto de la interacción

Ya hemos señalado que los efectos simples incluyen el correspondiente efecto principal y el efecto de
la interacción. Ésta es la razón por la cual, para aislar e interpretar el efecto de la interacción, no basta
con valorar la significación individual de cada efecto simple por separado; es necesario compararlos
entre sí para poder determinar dónde están realmente las diferencias.
Veamos cómo comparar entre sí los 4 efectos simples de contenido. Cada efecto simple de conte-
nido representa la diferencia entre números y letras en cada uno de los cuatro niveles del factor tiempo
(hora, día, semana, mes). Para comparar cada efecto simple (cada diferencia números-letras) con cada
otro hay que realizar 6 comparaciones: hora-día, hora-semana, hora-mes, día-semana, día-mes y
semana-mes. En cada una de estas comparaciones hay involucradas 4 medias. Por ejemplo, en la
comparación hora-día se está comparando la diferencia números-letras
_ en
_ el momento
_ una _hora con
la diferencia números-letras en el momento un día; es decir, (Y n_hora ! Y l_hora) ! (Y n_día ! Y l_día). La
sintaxis que permite realizar estas 6 comparaciones es la siguiente (ver, en el Apéndice 7, la lógica
seguida al asignar coeficientes con la sentencia LMATRIX):
/MMATRIX =
n_hora 1 n_día –1 n_semana 0 n_mes 0 l_hora –1 l_día 1 l_semana 0 l_mes 0;
n_hora 1 n_día 0 n_semana –1 n_mes 0 l_hora –1 l_día 0 l_semana 1 l_mes 0;
n_hora 1 n_día 0 n_semana 0 n_mes –1 l_hora –1 l_día 0 l_semana 0 l_mes 1;
n_hora 0 n_día 1 n_semana –1 n_mes 0 l_hora 0 l_día –1 l_semana 1 l_mes 0;
n_hora 0 n_día 1 n_semana 0 n_mes –1 l_hora 0 l_día –1 l_semana 0 l_mes 1;
n_hora 0 n_día 0 n_semana 1 n_mes –1 l_hora 0 l_día 0 l_semana –1 l_mes 1;
Esta sintaxis genera, entre otros, los resultados que muestran las Tablas 9.33 y 9.34. La primera de ellas
es idéntica a las de los dos apartados anteriores. Y puede comprobarse que ofrece idéntico resultado
al obtenido al comparar los efectos simples del factor contenido con la opción Contrastes (ver Tablas
9.12 a la 9.14). Por tanto, se interpreta de idéntica manera.
La Tabla 9.34 ofrece una valoración global de los 6 contrastes de la Tabla 9.33. El resultado de
esta tabla no tendría interés si no fuera porque permite constatar que el efecto global de los 6 con-
trastes entre efectos simples llevados a cabo en la Tabla 9.33 para aislar e interpretar el efecto de la
interacción es idéntico al resultado obtenido al analizar el efecto global de la interacción (Tabla 9.6).
Lo cual está indicando, por un lado, que estos 6 contrastes agotan el efecto de la interacción y, por otro,
que no están contaminados por la presencia de efectos distintos del de la interacción.
Tabla 9.33. Comparaciones entre los efectos simples del factor contenido
Contraste T1 2,67 1 2,67 1,00 ,363
T2 42,67 1 42,67 29,09 ,003
T3 60,17 1 60,17 9,16 ,029
T4 24,00 1 24,00 5,45 ,067
T5 37,50 1 37,50 3,15 ,136
T6 1,50 1 1,50 ,32 ,597
Error T1 13,33 5 2,67
T2 7,33 5 1,47
T3 32,83 5 6,57
T4 22,00 5 4,40
T5 59,50 5 11,90
T6 23,50 5 4,70
Tabla 9.34. Contraste del efecto de la interacción contenido por tiempo

Valor F Gl de la hipótesis Gl del error Sig.
Traza de Pillai ,86 6,28 3,00 3,00 ,083
Lambda de Wilks ,14 6,28 3,00 3,00 ,083
Raíz mayor de Roy 6,28 6,28 3,00 3,00 ,083
Cuando el diseño incluye un factor intersujetos y un factor intrasujetos (modelo AB-CA-MR), las
comparaciones relativas al efecto principal del factor intersujetos pueden llevarse a cabo con la sen-
tencia LMATRIX (tal como hemos hecho en el Apéndice 7) y las relativas al efecto principal del factor
intrasujetos con la sentencia MMATRIX (tal como acabamos de hacer en este mismo apartado). Para
llevar a cabo las comparaciones relacionadas con el efecto de la interacción es necesario utilizar am-
bas sentencias simultáneamente.
Volvamos a nuestro ejemplo (ver Tabla 9.16) sobre los dos tratamientos antidepresivos (factor
intersujetos tto: estándar, combinado) y las tres mediciones en el tiempo (factor intrasujetos tiempo:
basal, semana 4 y semana 8). Puesto que el efecto de la interacción tto*tiempo incluye un factor inter-
sujetos (tto) y un factor intrasujetos (tiempo), las comparaciones relacionadas con este efecto es ne-
cesario solicitarlas combinando las sentencias LMATRIX y MMATRIX. La forma de hacerlo consiste en
intercalar en la sintaxis del procedimiento GLM lo siguiente:
/LMATRIX =
tto 1 –1
/MMATRIX =
basal 1 cuatro –1 ocho 0;
basal 1 cuatro 0 ocho –1;
basal 0 cuatro 1 ocho –1;
En la sentencia LMATRIX se está solicitando que se comparen los dos tratamientos (estándar, combi-
nado) asignando a sus niveles los coeficientes6 1 y !1.
En la primera línea de la sentencia MMATRIX se está solicitando que se compare el momento ba-
sal con la semana 4; en la segunda, el momento basal con la semana 8; en la tercera, la semana 4 con
la semana 8. Puesto que lo que se está comparando en cada línea de la sentencia MMATRIX es la di-
ferencia definida en LMATRIX, lo que realmente se está haciendo con este conjunto de sentencias es
comparar entre sí los tres efectos simples de la variable tto.
La Tabla 9.35 muestra el resultado que se obtiene con estas sentencias. En el contraste T1 se es-
tá comparando la diferencia entre los dos tratamientos en el momento basal con la diferencia entre los
dos tratamientos en la semana 4; la diferencia es significativa ( p = 0,006). En el contraste T2 se está
comparando la diferencia entre los dos tratamientos en el momento basal con la diferencia entre los
dos tratamientos en la semana 8; la diferencia es significativa ( p < 0,0005). En el contraste T3 se es-
tá comparando la diferencia entre los dos tratamientos en la semana 4 con la diferencia entre los dos
tratamientos en la semana 8; la diferencia es significativa ( p < 0,0005). Por tanto, todas las diferen-
cias entre los efectos simples del factor tratamiento son significativas.
Tabla 9.35. Comparaciones entre los efectos simples del factor tratamiento
Contraste T1 67,60 1 67,60 8,45 ,006
T2 378,23 1 378,23 24,29 ,000
T3 126,03 1 126,03 17,23 ,000
Error T1 303,90 38 8,00
T2 591,75 38 15,57
T3 277,95 38 7,31
6
Estos dos coeficientes se asignan automáticamente a los dos niveles del factor tto. El primer coeficiente (1) se asigna al
primer nivel; el segundo (!1), al segundo nivel. El orden de los niveles del factor viene impuesto por los códigos utiliza-
dos para identificar cada nivel: el primer nivel es el que tiene asignado el código menor; el segundo nivel, el que tiene asig-
nado el siguiente código menor; etc. Esta consideración tiene su importancia porque si los dos tratamientos se han codifi-
cado como 1 = «estándar» y 2 = «combinado», el primer nivel es “estándar”; pero si se han codificado como 1 = «estándar»
y 0 = «combinado», el primer nivel es “combinado”.
9.1. Para comprobar si el nivel de ansiedad (factor A) y el nivel de dificultad de la tarea (factor B) afectan
al rendimiento en una tarea visomotora, un investigador ha seleccionado 4 sujetos bajos en ansiedad
y otros 4 altos en ansiedad (basándose en las puntuaciones obtenidas en una escala de ansiedad) y les
ha presentado, de forma aleatoria, tres tareas de diferente dificultad (baja, media y alta). Tras evaluar
el rendimiento de los sujetos ha obtenido los resultados que muestra la tabla:
Dificultad de la tarea
Ansiedad Sujetos (b1) Baja (b2) Media (b3) Alta
s1 7 9 5
s2 7 8 8
(a1) Baja
s3 5 7 6
s4 6 8 4
s5 6 4 3
s6 6 5 6
(a2) Alta
s7 7 3 5
s8 4 2 4
Reproducir los datos de la tabla en el SPSS. Asumiendo que se cumplen los supuestos en los que se
basan los estadísticos F del correspondiente modelo de ANOVA y utilizando α = 0,05,
a. ¿Qué modelo de ANOVA debe utilizarse para analizar estos datos?
b. ¿Es razonable asumir esfericidad? ¿A qué matriz se refiere este supuesto?
c. ¿Es razonable asumir que las matrices de varianzas-covarianzas son homogéneas? ¿A qué matrices
se refiere este supuesto?
d. ¿Qué decisión debe tomarse sobre la hipótesis nula de que no existe efecto del nivel de ansiedad?
e. ¿Y sobre la hipótesis nula de que no existe efecto de la dificultad de la tarea?
f. ¿Y sobre la hipótesis nula de que no existe efecto de la interacción entre el nivel de ansiedad y la
dificultad de la tarea?
g. ¿Cuánto vale la épsilon de Greenhouse-Geisser?
h. ¿Cambia la decisión sobre las hipótesis nulas contrastadas en los apartados d, e y f cuando se uti-
liza el corrector épsilon?
i. ¿Cambia la decisión sobre las hipótesis nulas contrastadas en los apartados d, e y f cuando se uti-
lizan los estadísticos de la aproximación multivariada?
j. ¿Es apropiado utilizar la aproximación multivariada con estos datos?
k. ¿Puede afirmarse que la relación entre la dificultad de la tarea y el rendimiento es cuadrática?
l. Utilizar para estimar el tamaño de los efectos analizados en los apartados d, e y f. Interpretar
los resultados obtenidos.
m. ¿Cuánto vale la potencia asociada a los contrastes realizados en los apartados d, e y f ?
9.2. Seguimos con los datos del ejercicio anterior, pero ahora nos vamos a centrar en los efectos simples y
en el efecto de la interacción:
a. ¿En qué niveles de dificultad difiere el rendimiento medio de los sujetos con ansiedad baja del de
los sujetos con ansiedad alta?
b. ¿Entre qué efectos simples del factor ansiedad existen diferencias significativas?
c. Utilizar el resultado del apartado anterior y un gráfico de perfil (con la dificultad de la tarea en el
eje horizontal) para interpretar el efecto de la interacción.
9.3. Algunos estudios han puesto de manifiesto que las enfermedades de tipo alérgico se ven agravadas por
la presencia de estrés. Además, la época del año parece afectar de forma decisiva a la intensidad de la
respuesta alérgica. En un estudio concreto se ha utilizado una muestra aleatoria de 10 pacientes alér-
gicos (todos con el mismo tipo de alergia), la mitad de ellos con condiciones de vida calificables de
bajo estrés y la otra mitad con condiciones de vida calificables de alto estrés. Un grupo de especia-
listas ha evaluado la gravedad de la alergia de cada paciente (en una escala de 0 a 10) en los cuatro
periodos estacionales: primavera, verano, otoño e invierno. Los resultados de esta evaluación apare-
cen en la siguiente tabla:
Época del año

Estrés Sujetos (b1) Primavera (b2) Verano (b3) Otoño (b4) Invierno
s1 6 5 5 1
s2 5 2 3 3
(a1) Bajo s3 7 3 4 4
s4 8 4 7 5
s5 6 1 3 2
s6 7 6 8 5
s7 9 5 5 7
(a2) Alto s8 10 4 9 5
s9 10 6 6 4
s10 9 3 7 6
Reproducir los datos de la tabla en el SPSS. Asumiendo que se cumplen los supuestos en los que se
basan los estadísticos F del correspondiente modelo de ANOVA y utilizando α = 0,05,
b. ¿Es razonable asumir esfericidad? ¿Cuántas filas tiene la matriz a la que se refiere este supuesto?
c. ¿Es razonable asumir que las matrices de varianzas-covarianzas son homogéneas? ¿Cuántas ma-
trices se están comparando para valorar este supuesto?
d. ¿Qué decisión debe tomarse sobre la hipótesis nula de que no existe efecto del estrés?
e. ¿Y sobre la hipótesis nula de que no existe efecto de la dificultad de la época del año?
f. ¿Y sobre la hipótesis nula de que no existe efecto de la interacción entre el nivel de ansiedad y la
dificultad de la tarea?
g. ¿Cuántos grados de libertad tiene la variabilidad asociada al error correspondiente a la época del
año?
h. ¿Cuánto vale la épsilon de Greenhouse-Geisser?
i. ¿Cambia la decisión sobre las hipótesis nulas contrastadas en los apartados d, e y f cuando se uti-
liza el corrector épsilon?
j. ¿Cambia la decisión sobre las hipótesis nulas contrastadas en los apartados d, e y f cuando se uti-
lizan los estadísticos de la aproximación multivariada?
k. ¿Es apropiado utilizar la aproximación multivariada con estos datos?
l. Utilizar para estimar el tamaño de los efectos analizados en los apartados d, e y f. Interpretar
los resultados obtenidos.
m. ¿Cuánto vale la potencia asociada a los contrastes realizados en los apartados d, e y f ?
9.4. Seguimos con los datos del ejercicio anterior. Vamos a realizar algunas comparaciones (siempre con
α = 0,05):
a. Ya sabemos que la gravedad de la alergia no es la misma en las cuatro estaciones. ¿Qué estacio-
nes difieren de qué otras?
b. ¿En qué épocas del año difiere la gravedad de la alergia de los sujetos con estrés bajo de la de los
sujetos con estrés alto?
c. ¿Entre qué efectos simples del factor estrés existen diferencias significativas?
d. Utilizar el resultado del apartado anterior y un gráfico de perfil (con la época del año en el eje ho-
rizontal) para interpretar el efecto de la interacción.
9.5. La siguiente tabla muestra el número de errores que han cometido 6 sujetos en una tarea de memori-
zación realizada en dos condiciones de recuerdo (a1: reconocimiento; a2: evocación libre) y después
de distintos intervalos de tiempo (b1: una hora; b2: un día; b3: una semana):
a1 a2
Sujetos b1 b2 b3 b1 b2 b3
s1 1 5 2 4 5 7
s1 3 6 6 6 8 10
s1 3 5 4 1 6 5
s1 1 4 7 2 10 12
s1 5 6 5 5 10 10
s1 2 8 7 1 7 8
Reproducir los datos en el SPSS. Asumiendo que se cumplen los supuestos en los que se basan los esta-
dísticos F del correspondiente modelo de ANOVA y utilizando α = 0,05,
b. ¿Es razonable asumir esfericidad?
c. Valorar el efecto del factor recuerdo, el del factor tiempo y el de la interacción recuerdo-tiempo.
d. Utilizar para estimar el tamaño de los efectos analizados en el apartado anterior. Interpretar los
resultados obtenidos.
e. ¿En qué momentos (hora, día, semana) puede afirmarse que el número medio de errores que se
comete en condiciones de reconocimiento difiere del que se comete en condiciones de evocación?
f. ¿Entre qué efectos simples del factor recuerdo existen diferencias significativas?
g. Utilizar el resultado del apartado anterior y un gráfico de perfil (con el factor tiempo en el eje ho-
rizontal) para interpretar el efecto de la interacción.
10
Análisis de regresión lineal
La relación entre variables cuantitativas hemos empezado a estudiarla en el Capítulo 12 del

primer volumen y en el 5 de éste. Pero hasta ahora nos hemos limitado al caso de dos varia-
bles aplicando estadísticos como el coeficiente de correlación de Pearson. Este capítulo se
centra en un procedimiento que permite extender el análisis a más de dos variables: el análisis
de regresión lineal.
Tanto en el caso de dos variables, regresión simple, como en el de más de dos variables,
regresión múltiple, el análisis de regresión lineal sirve para explorar y cuantificar la relación
entre una variable cuantitativa llamada dependiente o respuesta (Y ) y una o más variables
cuantitativas o categóricas llamadas independientes o predictoras (X1, X2, ..., Xp ). Sobre la
base de esta relación, se construye un modelo lineal1 que permite: (1) valorar el impacto in-
dividual y colectivo de las variables independientes sobre la dependiente y (2) efectuar pro-
nósticos sobre la variable dependiente. Además, el modelo de regresión lineal lleva asociadas
diferentes estrategias de diagnóstico que no solo informan sobre la calidad del modelo, sino
que ofrecen pistas acerca de cómo perfeccionarlo.
Se trata de una herramienta estadística lo bastante versátil como para ser aplicada en una
amplia variedad de contextos. Por ejemplo, en el ámbito clínico puede utilizarse para iden-
tificar qué variables contribuyen a entender un determinado síntoma o enfermedad; o para
pronosticar el éxito en la recuperación de los pacientes a partir de indicadores como la gra-
vedad de la enfermedad, el tipo de intervención y la edad. En el ámbito educativo, para
averiguar qué peso tienen el cociente intelectual, las horas de estudio y el nivel educativo de
los padres en el rendimiento académico de los estudiantes. En el ámbito social, para prede-
cir el desempeño en un puesto de trabajo a partir de la formación, de la experiencia laboral
y de algunos rasgos de personalidad de los candidatos; o para averiguar si la tasa de natali-
dad está relacionada con la renta per cápita y el porcentaje de alfabetización; etc.
1
Los modelos de regresión lineal son, al igual que los de análisis de varianza ya estudiados, versiones concretas del modelo
lineal general (ver Capítulo 1 del tercer volumen). Por tanto, se trata de modelos idénticos en lo esencial. En ambos la va-
riable dependiente es una variable cuantitativa (de intervalos o razón). Pero, mientras que las variables independientes de
un modelo de análisis de varianza son categóricas (nominales u ordinales: distintos tratamientos, unos pocos niveles de fár-
maco, etc.) y el énfasis se pone en la comparación de medias, las variables independientes de un modelo de regresión pueden
ser tanto cuantitativas como categóricas y el énfasis se pone en la relación entre variables.
El análisis de regresión está estrechamente relacionado con el de correlación (ver Capí-

tulo 12 del primer volumen). Pero, en el primero, la variable independiente se considera de
efectos fijos y, en el segundo, de efectos aleatorios. En la práctica, la forma habitual de dis-
tinguir ambos tipos de análisis consiste en determinar si el análisis se orienta hacia la pre-
dicción o explicación (regresión) o hacia la cuantificación del grado de relación (correlación).
El objetivo de este capítulo es presentar los aspectos más importantes del análisis de re-
gresión lineal. No haremos hincapié en los detalles excesivamente técnicos del análisis, sino
que intentaremos fomentar la comprensión de cuándo y cómo utilizar la técnica y cómo inter-
pretar los resultados que ofrece. También prestaremos atención al chequeo de los supuestos
del análisis y a la forma de proceder cuando se incumplen.
Existen muchas y excelentes publicaciones sobre el análisis de regresión lineal; por ejem-
plo: Berry (1993), Berry y Feldman (1985), Cohen, Cohen, West y Aiken (2003), Fox (1991,
1997), Hardy (1993), Lewis-Beck (1980), Schroeder, Sjoquist y Stephan (1986), etc. El lector
interesado en profundizar algo más en los diferentes aspectos del análisis de regresión lineal
puede consultar Draper y Schmidt (1998), Montgomery, Peck y Vining (2001) o Weisberg
(2005).
Regresión lineal simple

El análisis de regresión2 lineal simple sirve para estudiar el comportamiento de una variable
cuantitativa Y, denominada dependiente, a partir de una segunda variable cuantitativa o ca-
tegórica X, denominada independiente. Sirve, por tanto, para analizar la dependencia entre
dos variables: permite estudiar cómo cambia una de ellas cuando cambia la otra3. El objetivo
del análisis es formular una ecuación lineal4 para: (1) valorar el impacto de la variable inde-
pendiente sobre la dependiente y (2) efectuar pronósticos sobre la dependiente. Todo ello, a
partir del grado de relación lineal existente entre ambas variables.
2
El término regresión procede de los trabajos de Galton sobre la naturaleza hereditaria de algunas características físicas.
Galton observó que los padres con alturas muy altas o muy bajas tendían a tener hijos cuya altura media estaba más cerca
de la media global que la de sus padres. Galton (1885) llamó a este efecto regresión hacia la mediocridad (regresión o acer-
camiento de las alturas individuales a la altura media).
3
Los términos independiente y dependiente deben despojarse de cualquier connotación de tipo causal. Según veremos, el
análisis de regresión se basa en una ecuación que permite obtener para Y valores que dependen de los que se asignan a X.
Pero esta dependencia es de tipo funcional: indica cómo cambia la variable Y cuando cambia la variable X. Lo cual no sig-
nifica que Y cambie porque cambia X (podría ocurrir, por ejemplo, que el cambio en ambas variables se debiera al efecto
de terceras variables). Recordemos que las herramientas estadísticas únicamente permiten detectar diferencias y relaciones.
El hecho de que una diferencia o una relación permita o no extraer conclusiones de tipo causal es algo que no depende de
la herramienta estadística aplicada sino del diseño utilizado y de la teoría subyacente, si existe (ver, en el Capítulo 12 del
primer volumen, el apartado Relación y causalidad).
4
La relación lineal solamente es una de las posibles formas de relación entre dos variables cuantitativas, pero es, sin du-
da, la más estudiada en el ámbito de las ciencias sociales y de la salud; y también es la más fácil de analizar e interpretar.
Esto no significa que no sea interesante estudiar otros tipos de relación (por ejemplo, una ley muy conocida en psicología,
llamada ley de Yerkes-Dodson, afirma que la relación entre la ansiedad y el rendimiento es cuadrática). Pero el grado de
elaboración que alcanzan las teorías que se construyen en el ámbito de las ciencias sociales y de la salud no permite, por
lo general, realizar predicciones no lineales precisas. Lo habitual es, más bien, que únicamente se tenga una sospecha de
relación monótona. No obstante, en el apartado Comparaciones de tendencia del Capítulo 6 hemos presentado una apro-
ximación al estudio de relaciones no lineales (cuadrática, cúbica). Y en el Apéndice 10 se describen brevemente algunas
ecuaciones de regresión curvilíneas que pueden resultar útiles en algunos contextos.
Capítulo 10. Análisis de regresión lineal 373
La Tabla 10.1 recoge los datos de una muestra de 20 pacientes con trastorno depresivo
que han participado en un estudio diseñado para valorar la eficacia de dos tratamientos anti-
depresivos (tto: 1 = «estándar», 2 = «combinado»). El estudio, realizado en tres centros dis-
tintos (A, B, C), comenzó administrando la Escala de Depresión de Hamilton para obtener
una medida inicial (basal ) del nivel de depresión de los pacientes. Al finalizar el tratamiento
se volvió a administrar la escala ( final ) y se dio por finalizado el estudio. La variable re-
cuperación se ha obtenido restando las puntuaciones basal y final (los datos se encuentran
en el archivo Tabla 10.1 depresión hamilton reducido, en la página web del manual).
Tabla 10.1. Puntuaciones en la escala Hamilton de 20 pacientes sometidos a tratamiento antidepresivo
sujetos centro centro_A centro_B tto edad basal final recupera

1 C 0 0 1 58,00 25 20 5
2 B 0 1 1 50,25 23 18 5
3 C 0 0 1 58,00 21 19 2
4 A 1 0 1 64,75 22 14 8
5 C 0 0 1 63,25 35 27 8
6 B 0 1 1 52,00 28 22 6
7 A 1 0 1 58,00 36 25 11
8 C 0 0 1 60,00 30 24 6
9 C 0 0 1 51,25 27 18 9
10 B 0 1 1 52,75 29 21 8
11 B 0 1 2 42,00 32 20 12
12 C 0 0 2 44,00 27 15 12
13 B 0 1 2 43,25 30 19 11
14 A 1 0 2 45,50 32 16 16
15 C 0 0 2 47,50 27 17 10
16 B 0 1 2 43,25 25 16 9
17 A 1 0 2 50,75 35 22 13
18 A 1 0 2 47,50 38 22 16
19 A 1 0 2 41,00 34 16 18
20 C 0 0 2 54,00 28 14 14
Diagramas de dispersión
La manera más directa e intuitiva de formarse una primera impresión sobre el tipo de relación
existente entre dos variables cuantitativas es un diagrama de dispersión (ver Capítulo 12 del
primer volumen). La disposición de los puntos del diagrama está informando sobre el tipo de
relación subyacente.
De las variables incluidas en la Tabla 10.1, solamente final y recuperación tienen la
condición de dependientes (pues, en principio, solamente ellas dos pueden depender de algu-
na de las restantes variables consideradas en el estudio). Vamos a comenzar preguntándonos
si las puntuaciones basales o la edad de los pacientes ayudan a entender o anticipar, en algu-
na medida, su recuperación. En un primer intento por responder a esta pregunta, podemos
obtener los diagramas de dispersión correspondientes a basal y recuperación (Figura 10.1,
izquierda) y a edad y recuperación (Figura 10.1, derecha). En ambos diagramas se aprecia
cierto grado de relación lineal (las líneas discontinuas se han trazado tomando como referen-
cia las medias de cada variable). En el caso de las puntuaciones basales, la nube de puntos
muestra una pauta lineal positiva: las puntuaciones basales altas tienden a ir acompañadas
de recuperaciones altas y las puntuaciones basales bajas de recuperaciones bajas. En el caso
de la edad, la nube de puntos muestra una pauta lineal negativa: las edades altas tienden a ir
acompañadas de recuperaciones bajas y las edades bajas de recuperaciones altas. Y en nin-
guno de los dos casos se aprecian tendencias distintas de la lineal. En principio, tanto las pun-
tuaciones basales como la edad podrían ayudarnos a entender o anticipar, en alguna medida,
el comportamiento de la variable recuperación.
Ahora bien, aunque un diagrama de dispersión ayuda a formarse una primera impresión
más o menos acertada sobre el tipo de relación existente entre dos variables, no permite cuan-
tificar con precisión el grado o intensidad de la relación ni tampoco aclara en qué medida una
variable puede ayudar a entender el comportamiento de la otra. En realidad, únicamente a
partir de la inspección de un diagrama de dispersión, no resulta nada fácil precisar si el gra-
do de relación lineal subyacente es bajo, medio o alto.
¿Qué podemos hacer para mejorar nuestra comprensión de una nube de puntos? Quizá
bastaría con decir, simplemente, que las puntuaciones basales más altas (bajas) van acompa-
ñadas de mayor (menor) recuperación; o que las edades más altas (bajas) van acompañadas
de menor (mayor) recuperación. Pero esto, aunque correcto, es poco preciso. También podría
ofrecerse un listado de todos los datos; pero esto, aunque preciso, es poco informativo.
Recordemos que, para describir una variable cuantitativa, recurrimos a tres propiedades
de su distribución: centro, dispersión y forma. Para describir conjuntamente dos variables
cuantitativas podemos hacer algo parecido: (1) forma: determinar si la nube de puntos delata
o no una pauta lineal, (2) centro: resumir la nube de puntos en una recta y (3) dispersión: va-
lorar el grado de concentración o alejamiento de los puntos a esa recta.
Ya sabemos cómo utilizar los diagramas de dispersión y el coeficiente de correlación de
Pearson para determinar si existe relación lineal y su intensidad. En los siguientes apartados
aprenderemos a resumir la nube de puntos en una recta y a valorar el grado de dispersión de
los puntos en torno a ella.
Figura 10.1. Diagramas de dispersión. Izquierda: basal por recuperación. Derecha: edad por recuperación
La recta de regresión
Cuando la relación entre dos variables sigue una pauta lineal, la correspondiente nube de pun-
tos puede resumirse mediante una función matemática tan simple como una línea recta:
= [10.1]
El valor B0 es el punto en el que la recta corta el eje vertical; se le suele llamar ordenada en
el origen o intersección. El valor B1 refleja el grado de inclinación de la recta; se le suele lla-
mar pendiente. En el contexto del análisis de regresión, a B0 y B1 se les llama coeficientes
de regresión parcial o, simplemente, coeficientes de regresión. Una vez fijados los valores
de B0 y B1 (enseguida veremos cómo hacer esto), ya es posible asignar valores a la variable
independiente X para obtener los pronósticos que la ecuación [10.1] atribuye a la variable
dependiente Y.
A la ecuación [10.1] se le llama ecuación de regresión de Y sobre X (y es distinta de la
ecuación de regresión de X sobre Y ). La recta concreta que se obtiene con ella depende de los
valores concretos elegidos para B0 y B1. La Figura 10.2 muestra algunas posibles rectas. Las
representadas en el gráfico a tienen la misma intersección B0 pero distinta pendiente B1. Las
rectas del gráfico b tienen distinta intersección pero la misma pendiente. Y las del gráfico c
tienen distinta intersección y distinta pendiente.
Figura 10.2. Rectas de regresión con diferentes orígenes y pendientes

a b c
Y Y Y
X X X
Por tanto, sobre una nube de puntos cualquiera es posible trazar tantas rectas distintas como
valores distintos se asignen a B0 y a B1. Y esto nos lleva a la cuestión clave de un análisis de
regresión lineal: ¿cuál de todas las rectas posibles es la que mejor representa o resume la nube
de puntos?, es decir, ¿cuál de todas ellas es la que mejor se ajusta a la nube de puntos?
En una situación ideal en la que todos los puntos del diagrama de dispersión se encontra-
ran perfectamente alineados, no habría que preocuparse por encontrar la recta que mejor resu-
me los puntos del diagrama porque, simplemente uniendo los puntos entre sí, se obtendría la
recta con el mejor ajuste posible5. Pero en nubes de puntos algo más realistas como las de la
Figura 10.1 es posible trazar muchas rectas distintas. Y, obviamente, no todas ellas se ajus-
tarán igualmente bien a la nube de puntos. En un análisis de regresión lineal se trata de en-
contrar la recta que mejor representa o resume la nube de puntos.
5
En algunos contextos es relativamente fácil y frecuente encontrar o definir relaciones lineales perfectas. Por ejemplo, la
relación entre la temperatura en escala Fahrenheit es una función lineal perfecta de las temperaturas en escala Celsius; en
concreto, F = 32 + 1,8 C. Pero, en el ámbito de las ciencias sociales y de la salud, no se dan relaciones perfectamente
lineales; según veremos, los errores de predicción forman parte inseparable de los pronósticos.
Mínimos cuadrados
Para elegir la mejor recta pueden utilizarse diferentes criterios (ver Rousseeuw y Leroy,
1987), pero el de mayor aceptación es el que se basa en la suma de los cuadrados de las dis-
tancias verticales entre cada punto y la recta. La Figura 10.3 muestra estas distancias mar-
cadas con líneas discontinuas. Los valores observados representan la distancia de cada
punto al eje horizontal. Los valores pronosticados representan la distancia de la recta al
eje horizontal. A las diferencias entre los valores observados y los pronosticados se
les llama residuos y representan la parte de Y que la ecuación lineal (la recta) no es capaz
de pronosticar, es decir, los errores de predicción. Utilizar el criterio de mínimos cuadra-
dos supone aceptar que la recta es tanto mejor (es un representante tanto mejor de la nube de
puntos) cuanto más pequeños son los residuos o errores de predicción.
Sumando todos los residuos podría obtenerse una medida del error de predicción total.
Pero en esta suma se estaría olvidando que unos residuos son positivos y otros negativos, y
que tienden a compensarse entre sí. Una forma de superar este inconveniente consiste en
elevar al cuadrado los residuos antes de sumarlos (también podrían sumarse los residuos en
valor absoluto, pero esta solución es más compleja de tratar). El criterio de mínimos cua-
drados consiste en elegir para B0 y B1 los valores que minimizan la suma de los residuos al
cuadrado, es decir, los valores que hacen mínima la expresión
= [10.2]
Figura 10.3. Residuos o errores de predicción en un análisis de regresión lineal simple

Y
Yî
(Yi – Yî )
Yi
Yî
Yi
X
Coeficientes de regresión
Los valores que minimizan [10.2] se obtienen resolviendo, tras igualarlas a cero, sus deriva-
das parciales respecto de B0 y B1 (ver, por ejemplo, Amón, 1979, págs. 205-209):
= [10.3]
= [10.4]
(SXY es la covarianza entre X e Y ). De todas las rectas que es posible definir, justamente la
que se basa en la intersección [10.3] y en la pendiente [10.4] es la que minimiza las distancias
verticales (al cuadrado) entre cada punto del diagrama y la recta de regresión._ _De la ecua-
ción [10.3] se desprende que la recta mínimo-cuadrática pasa por el punto (X , Y ).
Los diagramas de la Figura 10.4 ofrecen una aclaración del significado de estos coeficien-
tes (se han utilizado enteros consecutivos en ambos ejes de los diagramas para facilitar la
explicación). El coeficiente B0 es el pronóstico que ofrece [10.1] cuando X = 0. Por tanto, B0
solamente tiene significado si también lo tiene X = 0. Es un valor necesario para poder efec-
tuar pronósticos (actúa como una especie de término corrector para ajustar la métrica de la
variable X a la de la variable Y ), pero no aporta información sobre la relación entre X e Y.
Cuando la relación es positiva (recta ascendente; diagrama de la izquierda), el valor de
B1 es positivo: a un aumento en X, la ecuación asigna un aumento en . Cuando la relación
es negativa (recta descendente; diagrama de la derecha), el valor de B1 es negativo: a un au-
mento en X, la ecuación asigna una disminución en . Más concretamente, B1 es el cambio
(aumento o disminución) que la ecuación de regresión [10.1] asigna a por cada unidad que
aumenta X. Cuando no existe relación lineal, el coeficiente B1 vale cero (recta paralela al eje
horizontal, pendiente nula). Aplicando [10.3] y [10.4] a los datos obtenidos con las variables
basal y recuperación (ver Tabla 10.1) se obtiene B0 = !7,138 y B1 = 0,585, es decir,
Pronóstico (recuperación) = !7,138 + 0,585 (basal )
Figura 10.4. Rectas de regresión. Significado de los coeficientes B0 y B1

Y
.
Y
B0
B1 < 0
B1 > 0
. B0
X X
La Figura 10.5 (izquierda) muestra esta recta sobre el diagrama de dispersión. El valor de B0
es la recuperación que pronostica la ecuación [10.1] para una puntuación basal de cero
(recordemos que B0 solamente tiene significado si X = 0 también lo tiene)6. El valor de B1
indica que, por cada unidad que aumenta basal, la ecuación de regresión [10.1] pronostica
un aumento de 0,585 puntos en recuperación. Por supuesto, asignando valores a X (basal )
pueden obtenerse los pronósticos en Y (recuperación).
Debe tenerse en cuenta que, puesto que la relación entre basal y recuperación no es per-
fecta, los pronósticos basados en la ecuación de regresión incluyen un error de predicción.
6
El hecho de que B0 tome un valor negativo nos está advirtiendo de un hecho importante: no deben efectuarse pronósticos
fuera del rango de valores que toma la variable X. Una inspección del diagrama indica que no existen puntuaciones basales
menores que 20. Puesto que la ecuación de regresión se basa en el rango de valores disponible, extrapolar los pronósticos
a otros valores de X puede llevar a resultados absurdos. Aunque ciertamente la recuperación podría ser negativa (los pacien-
tes podrían empeorar con el tratamiento), no tiene sentido hablar de un sujeto con puntuación basal cero, pues se trataría
de un sujeto sin problemas de depresión al que no habría que aplicar ningún tratamiento antidepresivo.
Por tanto, con la ecuación obtenida no es posible afirmar que un aumento de un punto en la
puntuación basal de un paciente concreto irá acompañado de un aumento de 0,585 puntos en
su recuperación, pero sí que, en el conjunto de pacientes cuya puntuación basal es un punto
mayor, se espera una recuperación media 0,585 puntos mayor.
Aplicando [10.3] y [10.4] a los datos obtenidos con las variables edad y recuperación
(ver Tabla 10.1) se obtiene B0 = 27,204 y B1 = !0,336. La Figura 10.5 (derecha) muestra esta
recta sobre el diagrama de dispersión. El valor de B0 es la recuperación que la ecuación de
regresión [10.1] pronostica para cero años (de nuevo tenemos una intersección sin signifi-
cado porque X = 0 tampoco lo tiene). El signo negativo de B1 indica que el aumento en edad
tiende a ir acompañado de menos recuperación; en concreto, por cada año que aumenta edad,
la ecuación de regresión pronostica una disminución de 0,336 puntos en recuperación.
Figura 10.5. Rectas de regresión basadas en el criterio de mínimos cuadrados
Coeficientes de regresión tipificados

El signo de B1 indica si la relación entre X e Y es positiva o negativa; y el tamaño de B1 indica
el cambio esperado en Y por cada unidad que aumenta X. Pero B1 no refleja la intensidad de
la relación entre X e Y, pues su valor depende de la métrica (unidades de medida) de las varia-
bles. No obstante, B1 está estrechamente relacionado con el coeficiente de correlación de
Pearson, RXY, que sí refleja la intensidad de la relación. A partir de [10.4] se obtiene
= y = [10.5]
Y, dado que la desviación típica de las puntuaciones Z vale 1 (ver Capítulo 5 del primer volu-
men), si la ecuación de regresión se obtiene después de transformar las puntuaciones origina-
les en puntuaciones Z, el nuevo coeficiente de regresión, B1 (Z) (que suele recibir el nombre
de tipificado o estandarizado), coincide con RXY. Es decir, B1 (Z) = RXY. Y esto nos da un
nuevo significado para RXY : cuando X aumenta una desviación típica, la ecuación de regre-
sión pronostica un cambio de RXY desviaciones típicas en Y.
Aplicando [10.3] y [10.4] después de tipificar las variables basal y recuperación se obtie-
ne B1 (Z) = 0,676, es decir, “pronóstico (Zrecuperación ) = 0,676 (Zbasal )”. Por tanto, por cada des-
viación típica que aumenta basal, la ecuación de regresión pronostica un aumento de 0,676
desviaciones típicas en recuperación. Puesto que la recta de regresión pasa por las medias
de X e Y, y éstas valen cero cuando X e Y están tipificadas, la intersección B0 (Z) vale cero.
Bondad de ajuste
Aun aceptando que la recta de regresión mínimo-cuadrática es la que mejor resume una nube
de puntos dada, el grado de ajuste de esa recta (lo bien o mal que la recta resume la nube de
puntos) no tiene por qué ser bueno. De hecho, el grado de ajuste de la mejor recta posible
puede ir desde muy malo a excelente. Esto puede comprenderse fácilmente observando los
diagramas de dispersión de la Figura 10.6. Aunque en los tres casos se trata de rectas mí-
nimo-cuadráticas, el ajuste es claramente mejor en el diagrama de la izquierda que en el del
centro, y mejor en éste que en el de la derecha. Para poder afirmar esto nos basamos en el
grado de dispersión (es decir, en el grado de alejamiento) de los puntos alrededor de la rec-
ta de regresión.
Ahora bien, el grado de dispersión de los puntos en torno a la recta de regresión viene
dado por las distancias verticales que ya hemos identificado como residuos o errores de pre-
dicción: Ei = . Consecuentemente, el tamaño de los residuos está informando de lo
bien o mal (bondad de ajuste) que la recta de regresión consigue resumir la nube de puntos.
Figura 10.6. Rectas de regresión con distinto grado de ajuste a la nube de puntos
•
•• • •
• •
•• • • • • •
• • • •
• • • • • •
•• • • • • •
Y Y • • Y
••
• •• • • • • • • •
• • •
• • • • •
• • • •
• •
X X X
Una manera de cuantificar el tamaño de los residuos (dispersión en torno a la recta) consiste
en obtener su varianza:
= = [10.6]
Esta varianza valdrá cero cuando todos los residuos valgan cero (es decir, cuando el ajuste
de la recta a la nube de puntos sea perfecto) y tomará un valor tanto mayor cuanto mayor sea
el tamaño de los residuos en valor absoluto (es decir, cuanto peor sea el ajuste).
Pero sabemos que el peor ajuste posible se da cuando las variables X e Y son lineal-
mente independientes, es decir, cuando la recta de regresión es horizontal (pendiente nula;
ver Figura 10.6, gráfico de la derecha). Y esto solamente ocurre cuando todos los pronósti-
cos se realizan con la media de Y (elegimos la media en lugar de cualquier otro valor porque,
a falta de otra información, las desviaciones de la media elevadas al cuadrado son menores
que respecto de cualquier otro valor; ver, en el Apéndice 7 del primer volumen, el apartado
Estimación por mínimos cuadrados).
Cuando _a todos los casos se pronostica la media de Y se comete un error de predicción
igual a Yi ! Y . Y la varianza de estos residuos (es decir, el valor máximo de ) no es otra
cosa que la varianza de Y:
= = [10.7]
Ahora bien, si [10.7] es el máximo de [10.6], entonces la diferencia entre [10.7] y [10.6] nece-
sariamente representa la cantidad en que se consigue reducir
_ los residuos (errores de predic-
ción) cuando, en lugar de hacer pronósticos basados en Y , se hacen pronósticos basados en
la ecuación de regresión. Esta reducción debida a la regresión puede cuantificarse mediante
= = [10.8]
Por tanto, tenemos tres medidas (varianzas) que permiten cuantificar diferentes aspectos de
la variabilidad o dispersión presente en una nube de puntos. En la Figura 10.7 están identifi-
cadas las desviaciones en las que se basa cada una de estas medidas:
1. es la varianza de Y, es decir, la varianza total o máxima que se obtiene
_ cuando X e Y
son linealmente independientes. Se basa en las desviaciones Y , es decir, en la dis-
persión de la nube de puntos en torno a la recta horizontal que pasa por la media de Y .
2. es la varianza de los residuos o errores de predicción. Se basa en las desviaciones
, es decir, en la dispersión de la nube de puntos en torno a la recta de regresión.
_
3. es la varianza de los pronósticos. Se basa en las desviaciones Y , es decir, en la
dispersión de los pronósticos en torno la recta horizontal que pasa por la media de Y. Por
tanto, representa la diferencia entre la dispersión en torno a la recta horizontal, ,
y la dispersión en torno a la recta de regresión, . En consecuencia,
= + [10.9]
Y, puesto que es el valor máximo tanto de como de , el cociente represen-

ta la proporción de varianza de Y no explicada por la regresión o proporción de varian-
za de Y que corresponde a los errores de predicción. Y el cociente representa la
proporción de varianza explicada por la regresión o proporción de varianza que compar-
ten X e Y; también, la proporción de_reducción en la dispersión máxima, , cuando en lugar
de realizar pronósticos basados en Y se realizan pronósticos basados en la recta de regresión.
Figura 10.7. Desviaciones en un diagrama de dispersión

Y
Y^ i
· Yi
(Yi – Yî )
_
Y Yî _
(Yi – Y )
_
(Yî – Y )
_
X Y
Unas pocas transformaciones (ver Amón, 1979, pág. 231) permiten comprobar que la pro-
porción de varianza de los errores de predicción (varianza no explicada) y la proporción de
varianza común (varianza explicada) están estrechamente relacionadas con el coeficiente de

correlación de Pearson, RXY . En concreto:
= 1! / [10.10]
= / [10.11]
Al coeficiente de correlación de Pearson elevado al cuadrado, , se le llama coeficiente

de determinación. La ecuación [10.10] indica que puede interpretarse como propor-
ción de reducción de los errores de predicción, es decir, como la proporción en que se re-
duce la varianza de Y (que es la varianza de los residuos cuando los pronósticos se basan en
la media de Y ) al efectuar pronósticos con la recta de regresión. Y la ecuación [10.11] indica
que puede interpretarse como proporción de varianza común o explicada, es decir,
como la proporción de varianza que comparten X e Y, o como la proporción de la varianza
de Y que puede explicarse (entenderse, anticiparse) a partir de X.
El coeficiente de determinación toma valores entre 0 y 1. Cuando = 1, el ajuste
es perfecto, es decir, los puntos del diagrama se encuentran perfectamente alineados y la rec-
ta de regresión permite efectuar pronósticos sin error7. En el otro extremo, cuando =0
(pendiente nula), las variables X e Y son linealmente independientes (bien porque no existe
ningún tipo de relación entre ellas, bien porque la relación subyacente no es de tipo lineal) y
la variable X no contribuye en absoluto a mejorar los pronósticos basados en la media de Y.
Por tanto, cuanto mayor es el valor de , mejor es el ajuste8. Consecuentemente, es
un indicador del grado de ajuste de la recta de regresión a la nube de puntos, es decir, un indi-
cador de la calidad con que la recta de regresión es capaz de representar o describir la rela-
ción lineal subyacente9 entre X e Y.
Al realizar un análisis de regresión lineal con las variables X = «basal» e Y = «recupera-
ción» (ver Tabla 10.1 y Figura 10.5, izquierda), se obtiene = 17,42, = 7,95 y = 9,47
(ecuaciones [10.6] a [10.8]). Y aplicando [10.10] y [10.11] se obtiene
= 1 ! 9,47 / 17,42 = 7,95 / 17,42 = 0,46
Este valor indica: (1) que la recta de regresión de Y sobre X permite reducir los errores de
predicción en un 46 % y (2) que las variables X e Y comparten el 46 % de la varianza. Y esto
significa que conocer las puntuaciones basales (X ) permite entender (anticipar, explicar, etc.)
un 46 % de la variabilidad de la recuperación de los pacientes (Y ).
7
Cuando a un mismo valor de X le corresponde más de un valor distinto de Y, no puede alcanzar el valor 1 (con un
mismo valor X no es posible pronosticar más de un valor Y sin error).
8
Interpretar correctamente el tamaño y el significado del coeficiente de determinación requiere tener en cuenta diferentes
aspectos relativos al contexto en el que se obtiene, al tipo de relación subyacente entre las variables y a la disposición de
los puntos en el diagrama de dispersión (ver, en el Capítulo 12 del primer volumen, el apartado Cómo interpretar el coefi-
ciente de correlación RXY ).
9
Debe tenerse en cuenta que es una medida de lo bien o mal que la recta resume la nube de puntos, lo cual no debe con-
fundirse con el hecho de que la relación subyacente sea o no de tipo lineal. Un valor alto no necesariamente está in-
dicando que la relación subyacente es efectivamente lineal. El valor de puede ser relativamente alto incluso cuando
la relación subyacente no es lineal. Por ejemplo, en una relación cuadrática puede haber un componente lineal importan-
te (ver, en el Capítulo 12 del primer volumen, el segundo gráfico de la Figura 12.9). De ahí la importancia de acompañar
toda ecuación de regresión de su correspondiente gráfico de dispersión.
Significación de los coeficientes de regresión

Hasta ahora hemos tratado los coeficientes de regresión como valores muestrales. Pero, jus-
tamente por ser valores muestrales, pueden utilizarse como estimadores de sus correspondien-
tes parámetros poblacionales.
Aunque el coeficiente B0 no suele tener un significado útil, para contrastar la hipótesis
nula H0 : β0 = k puede utilizarse el estadístico
= , con = [10.12]
Para contrastar la hipótesis nula H0 : β1 = k puede utilizarse el estadístico
= , con = [10.13]
Cuando se dan ciertas condiciones (ver, más abajo, el apartado Supuestos del modelo de re-
gresión), ambos estadísticos T se aproximan a la distribución de probabilidad t de Student
con n ! 2 grados de libertad. Siguiendo la lógica habitual, puede rechazarse la correspondien-
te H0 cuando el valor absoluto de estos estadísticos T es mayor que el cuantil 100 (1 ! α / 2)
de la distribución t de Student con n ! 2 grados de libertad.
Por lo general, el interés del análisis irá orientado a determinar si las variables X e Y están
linealmente relacionadas, es decir, a determinar si, a partir de la relación encontrada en la
muestra, es posible afirmar que existe relación en la población. Esto significa que, por lo
general, la hipótesis que interesará contrastar será la hipótesis de pendiente o relación nula:
H0 : β1 = 0 [10.14]
El rechazo de esta hipótesis indica que entre X e Y existe relación lineal significativa y, con-
secuentemente, que la variable X contribuye en alguna medida a reducir los errores de predic-
ción. El no rechazo no significa que X e Y no estén linealmente relacionadas, sino que no se
ha podido demostrar que lo estén (puede que no se haya utilizado un rango de valores X lo
bastante amplio, puede que los errores de medida estén ocultando la relación, etc.).
Tanto en la varianza de B0 como en la de B1 está interviniendo el error cuadrático me-
dio o media cuadrática error:
MCE = [10.15]
Esta media cuadrática es el mejor estadístico de que disponemos para estimar la varianza de
Y asociada a cada valor distinto de X ( hablaremos de esto más adelante, en el apartado Su-
puestos del modelo de regresión). A la raíz cuadrada de [10.15] se le llama error típico de
la estimación y representa el error medio que se comete al efectuar pronósticos utilizando
la ecuación de regresión.
En nuestro ejemplo sobre la relación entre las puntuaciones
_ basales y la recuperación
(ver Tabla 10.1) tenemos ' ( ! )2 = 179,846 y ' ( X ! X ) 2 = 441,20. Aplicando [10.13]
y [10.15] para contrastar la hipótesis [10.14] obtenemos
MCE = 179,846 / (20 ! 2) = 9,99

= = 0,15
= (0,585 ! 0) 0,15 = 3,90
El cuantil 97,5 de la distribución t de Student con n ! 2 = 20 ! 2 = 18 grados de libertad vale

2,101 (ver Tabla D del Apéndice final). Por tanto, como 3,90 es mayor que 2,101, podemos
rechazar H0 : β1 = 0 y concluir que la pendiente poblacional es distinta de cero. Es decir, po-
demos afirmar que entre las puntuaciones basales y la recuperación existe relación lineal
significativa.
Contrastar la hipótesis de que la pendiente poblacional vale cero (H0: β1 = 0) es equi-
valente a contrastar la hipótesis de que el coeficiente de correlación de Pearson vale cero en
la población (H0 : ρXY = 0). Y ambas hipótesis pueden contrastarse mediante un estadístico F
que se obtiene, siguiendo la lógica de los estadísticos F ya estudiados, a partir de la varia-
bilidad debida a la regresión y de la no debida a la regresión. En concreto10,
F = = = [10.16]
Cuando se dan ciertas condiciones (ver, más adelante, el apartado Supuestos del modelo de
regresión), este estadístico se aproxima a la distribución de probabilidad F con 1 y n ! 2 gra-
dos de libertad. Y, en regresión simple, coincide con el cuadrado del estadístico definido
en [10.13])11.
Intervalos de confianza
Siguiendo la lógica ya estudiada en el Capítulo 7 del primer volumen, los errores típicos pro-
puestos en [10.12] y [10.13] pueden utilizarse para construir intervalos de confianza para los
valores poblacionales de los coeficientes de regresión. Así, por ejemplo, el intervalo de con-
fianza para la pendiente de la recta de regresión poblacional, β1, puede obtenerse mediante
= [10.17]
Aplicando [10.17] a nuestro ejemplo sobre la relación entre las puntuaciones basales y la
recuperación (ver Tabla 10.1 ), obtenemos
= = 0,585 2,101 (0,15) = (0,27; 0,90)
Por tanto, estimamos, con una confianza del 95%, que el verdadero valor de la pendiente de
regresión se encuentra entre 0,27 y 0,90.
10
Este estadístico es exactamente el mismo que se utiliza para valorar el componente o tendencia lineal en un análisis de
varianza (ver Capítulo 6). El numerador de F es un estimador de la varianza de la población basado en la dispersión que se
consigue reducir con la recta de regresión (variabilidad debida a la regresión). El denominador es un estimador de la varianza
de la población basado en la variabilidad de los residuos (variabilidad no debida a la regresión).
11
El cual coincide con el estadístico T ya estudiado en el Capítulo 12 del primer volumen para contrastar la hipótesis nula
de que el coeficiente de correlación de Pearson vale cero en la población (ver ecuación [12.14] y el contraste propuesto en
el Cuadro 12.2).
Cómo efectuar pronósticos

Si la pendiente de la recta de regresión, B1 , es significativamente distinta de cero y el coefi-
ciente de determinación, , refleja una reducción importante de los errores de predicción
(recordemos que esto último hay que valorarlo en cada contexto), entonces la ecuación de
regresión puede resultar apropiada para efectuar pronósticos. En nuestro ejemplo, la ecua-
ción de regresión podría utilizarse para pronosticar la recuperación de un nuevo paciente del
que únicamente se conoce su puntuación basal.
El pronóstico que ofrece una ecuación de regresión puede interpretarse de dos maneras
distintas: como un pronóstico individual y como un pronóstico promedio. En el primer caso,
el pronóstico se interpreta como la estimación asignada a un sujeto concreto con un valor
concreto en X, es decir, . En el segundo, como la estimación media que se hace para
todos los sujetos con la misma puntuación en X, es decir, . En ambos casos se obtiene
el mismo pronóstico (el pronóstico no cambia porque se interprete de una u otra manera),
pero ya sabemos que las puntuaciones individuales varían más que sus medias12. En concreto
(ver, por ejemplo, Weisberg, 2005, págs. 34-36, 273-275),
= [10.18]
= [10.19]
La expresión [10.18] es mayor que la [10.19] en la cantidad MCE. Por tanto, la varianza de
los pronósticos individuales es mayor que la varianza de los pronósticos promedio. Y puesto
que ambas varianzas son distintas, al construir intervalos de confianza para un pronóstico es
importante especificar de qué tipo de pronóstico se trata. A partir de las ecuaciones [10.18]
y [10.19] es posible construir intervalos de confianza mediante,
= [10.20]
= [10.21]
En nuestro ejemplo sobre las_ puntuaciones basales y la recuperación (ver Tabla 10.1) tene-
mos MCE = 9,99, ' (X i ! X )2 = 441,20 y X = 29,20. Y el pronóstico que la ecuación de
_
regresión asigna al primer sujeto (puntuación basal 25) vale = !7,138 + 0,585 (25) = 7,49.
Aplicando a este pronóstico las ecuaciones [10.18] a la [10.21] obtenemos
= = 9,99 (1,09) = 10,89
= = 9,99 (0,09) = 0,90
= 7,49 ± 2,101 (10,89)1/2 = 7,49 ± 6,93 = (0,56; 14,42)

= 7,49 ± 2,101 (0,90)1/2 = 7,49 ± 1,99 = (5,50; 9,48)
12
Recordemos, por ejemplo, que la varianza de Y es , mientras que la varianza de la media de Y es . Es decir, la
varianza de la media de Y es n veces más pequeña que la varianza de Y.
(el cuantil 97,5 de la distribución t de Student con n ! 2 = 20 ! 2 = 18 grados de libertad vale

2,101; ver Tabla D del apéndice final). De acuerdo con el resultado obtenido, podemos esti-
mar, con una confianza del 95 %, que la recuperación de un paciente con una puntuación
basal de 25 se encontrará entre 0,56 y 14,42 puntos. Y, también con una confianza del 95 %,
podemos estimar que la recuperación media de los pacientes que tienen una puntuación ba-
sal de 25 se encontrará entre 5,50 y 9,48 puntos.
Los límites obtenidos para X = 25 indican claramente que el intervalo de confianza para
un pronóstico individual es sensiblemente más ancho que el intervalo de confianza para un
pronóstico promedio. Además, ambos intervalos _ de confianza son más anchos cuando los
pronósticos
_ se basan en valores X alejados
_ de X que cuando se basan en valores X próximos
a X . Puesto que la cantidad (X i ! X )2 está presente tanto en [10.18] como en [10.19],_los
errores típicos y serán tanto mayores cuanto mayor sea la cantidad (X i ! X )2.
Y cuanto mayores son los errores típicos, más anchos son los intervalos de confianza de-
finidos en [10.20] y [10.21]. Esto es así tanto en lo relativo a los pronósticos individuales
(líneas continuas de la Figura 10.8) como en lo relativo a los pronósticos promedio (líneas
discontinuas de la Figura 10.8), si bien en el primer caso apenas se aprecia esta circunstancia.
Figura 10.8. Intervalos de confianza para los pronósticos individuales (líneas continuas) y para los pronós-
ticos promedio (líneas discontinuas)
Recuperación (basal – final)
Yî
Hamilton (momento basal)
Regresión lineal múltiple

En este apartado vamos a estudiar cómo extender lo que hemos aprendido sobre el análisis
de regresión lineal con una variable independiente (regresión simple) al caso de más de una
variable independiente (regresión múltiple). El objetivo del análisis sigue siendo formular una
ecuación lineal para valorar en qué medida es posible explicar o entender el comportamiento
de una variable cuantitativa llamada dependiente o respuesta (Y ) a partir de p variables cuan-
titativas o categóricas llamadas independientes o predictoras (X1, X2, ..., Xp ).
Incorporar al análisis más de una variable independiente tiene varias ventajas. En primer
lugar, puesto que los fenómenos que se estudian en el ámbito de las ciencias sociales y de la
salud raramente son producto de una única causa, al incluir múltiples variables independien-
tes en el análisis se están poniendo las bases para obtener una explicación más completa del
fenómeno estudiado. En segundo lugar, la valoración conjunta de múltiples variables inde-

pendientes permite eliminar del análisis efectos comunes o compartidos entre variables para
poder captar el efecto neto de cada una de ellas. Por último, y derivado de lo anterior, al in-
cluir múltiples variables en el análisis es posible valorar la importancia relativa de cada una
de ellas y, con ello, el grado en que contribuyen a entender o explicar el comportamiento del
fenómeno estudiado.
Cuando se incluyen más de dos variables independientes en una ecuación de regresión,
el álgebra necesaria para estimar los coeficientes de regresión, aun no siendo complicada, es
excesivamente laboriosa. Y, más importante, los cálculos que es necesario realizar ayudan
poco a entender el significado de lo que se está haciendo. Es mucho más intuitivo utilizar
álgebra matricial, pero esto es algo que excede las pretensiones de este manual. Por tanto,
optaremos por dejar que sea un programa informático el que se ocupe de realizar los cál-
culos y así podremos concentrar toda nuestra atención en conocer las diferentes estrategias
disponibles para construir una ecuación de regresión múltiple, evaluar su ajuste, aclarar el
significado de cada elemento de la ecuación, valorar la importancia relativa de las variables,
chequear los supuestos del análisis, etc.
La ecuación de regresión
Al presentar el análisis de regresión simple hemos visto que un diagrama de dispersión es una
buena manera de formarse una primera impresión sobre el tipo de relación existente entre dos
variables cuantitativas. Pero al aumentar el número de variables las cosas cambian.
Para construir un diagrama de dispersión con tres variables (dos independientes) es ne-
cesario utilizar tres ejes, es decir, tres dimensiones; esto es posible hacerlo, pero ya no tiene
la utilidad que tiene en el caso de dos variables. Para construir un diagrama de dispersión con
cuatro variables (tres independientes) sería necesario utilizar un espacio de cuatro dimen-
siones. Y un espacio de cinco dimensiones para construir un diagrama con cinco variables
(cuatro independientes). Así pues, con dos variables independientes, un diagrama de disper-
sión resulta poco intuitivo y, por tanto, poco útil. Y con más de dos variables independien-
tes, la representación gráfica simplemente no resulta posible.
No obstante, a pesar de que una ecuación de regresión múltiple no define una recta en
un plano sino un hiperplano en un hiperespacio multidimensional (algo imposible de repre-
sentar gráficamente), la complejidad de su representación gráfica contrasta con la simplicidad
de su expresión algebraica:
= B0 + B1 X1 + B2 X2 + · · · + Bp X p [10.22]
En una ecuación de estas características, los pronósticos se obtienen combinando lineal-
mente (es decir, sumando) las p variables independientes X j , cada una de ellas ponderada (es
decir, multiplicada) con un coeficiente de regresión Bj que indica el peso de esa variable en
los pronósticos.
Al igual que en el caso de la regresión simple, existen tantas ecuaciones de regresión
múltiple como valores distintos puedan asignarse a los coeficientes de regresión B0 y B j. Y,
de nuevo, para elegir la mejor de esas ecuaciones posibles, seguimos utilizando el criterio de
mínimos cuadrados, el cual, recordemos, consiste en elegir para B0 y Bj los valores que con-
siguen minimizar la suma de los residuos al cuadrado: = .
Coeficientes de regresión
Aunque los cálculos se complican algo cuando la ecuación de regresión incluye más de una
variable independiente13, el significado de los coeficientes de regresión sigue siendo el mis-
mo. Así, B0 sigue siendo el origen o intersección. Con dos variables independientes, por
ejemplo, B0 es el punto en el que el plano de regresión corta el eje correspondiente a la va-
riable dependiente Y, es decir, el valor que pronostica la ecuación de regresión cuando todas
las variables X toman el valor cero. Al igual que en regresión simple, B0 no tiene un signi-
ficado útil a no ser que el valor cero tenga un significado concreto en todas las variables in-
dependientes14.
Los coeficientes B1, B2, ..., Bp son coeficientes de regresión parciales, pues el valor
concreto que toma cada uno de ellos depende del resto de coeficientes incluidos en la ecua-
ción: se estiman intentando minimizar , es decir, intentando que la combinación
de las variables X j consiga explicar la mayor cantidad posible de la variabilidad de Y. Re-
presentan el cambio esperado en Y cuando, permaneciendo constantes el resto de variables,
la correspondiente X j aumenta una unidad. Por ejemplo, B1 representa el cambio estimado
en Y cuando, permaneciendo constantes el resto de variables, X1 aumenta una unidad.
Añadiendo las variables edad y tto a nuestro ejemplo sobre la relación entre la recupe-
ración y las puntuaciones basales (ver Tabla 10.1), la ecuación de regresión que minimiza
la suma de los residuos al cuadrado es:
Pronóstico (recuperación) = !8,88 + 0,40 (basal ) ! 0,01 (edad ) + 4,93 (tto) [10.23]
Por tanto, para una edad y un tto dados, un aumento de un punto en las puntuaciones basales
representa un aumento de 0,40 puntos en la recuperación pronosticada (B1 = 0,40). Para una
puntuación basal y un tto dados, un aumento de un año de edad representa una disminución
de 0,01 puntos en la recuperación pronosticada (B2 = !0,01). Y para unas puntuaciones ba-
sales y una edad dadas, un aumento de una unidad en tto representa un aumento de 4,93
puntos en la recuperación pronosticada; es decir, a los pacientes que han recibido el trata-
miento 2 (combinado) se les pronostica una recuperación 4,93 puntos mejor que a los que
han recibido el tratamiento 1 (estándar).
Coeficientes de regresión tipificados

Es importante tener en cuenta que el tamaño de los coeficientes de regresión no refleja el peso
o importancia de las variables en la ecuación (recordemos que, en regresión simple, B1 tam-
poco refleja la intensidad de la relación entre X e Y ). La razón de esto es que el valor de un
coeficiente de regresión depende, entre otras cosas, de la métrica (unidades de medida) de
13
En notación matricial, el vector de coeficientes de regresión B = (B0, B1, B2, ..., Bp )’ se obtiene multiplicando el vector
de puntuaciones Y por una transformación de la matriz de datos que refleja la variabilidad del conjunto de las variables in-
dependientes En concreto, B = [X’ X]!1 [X’ Y], donde Y es el vector de puntuaciones de la variable dependiente Y y X es
una matriz n × ( p + 1), con unos en la primera columna y con las puntuaciones de las p variables independientes en las
restantes columnas.
14
El coeficiente B0 no siempre está desprovisto de significado. Si la ecuación de regresión se obtiene a partir de las pun-
tuaciones diferenciales o de desviación de las variables independientes, entonces B0 es la media de Y, es decir, el pronós-
tico que la ecuación de regresión asigna cuando todas las variables independientes toman su valor medio (el cual vale cero
en todas ellas porque todas ellas se han transformado en puntuaciones de desviación).
la correspondiente variable; por ejemplo, si la variable edad se hubiera medido en meses, se

habría obtenido un coeficiente de regresión igual a !0,001 / 12 = !0,00008.
No obstante, la métrica de las variables puede igualarse fácilmente transformando las
puntuaciones originales en puntuaciones Z (puntuaciones típicas). Al calcular la ecuación
de regresión con las puntuaciones tipificadas, se obtienen coeficientes de regresión tipifi-
cados o estandarizados, B j (Z ) , desprovistos de la métrica original de las variables. Tipifi-
cando las variables de nuestro ejemplo se obtiene15
Pronóstico (Zrecuperación) = 0,47 (Zbasal ) ! 0,01 (Zedad ) + 0,61 (Ztto) [10.24]
(recordemos que en una ecuación de regresión basada en puntuaciones típicas, la intersec-
ción vale cero). Este resultado indica, por ejemplo, que, para una edad y tratamiento dados,
cuando las puntuaciones basales aumentan una desviación típica (una unidad en la escala de
las puntuaciones Z ), la ecuación de regresión pronostica un aumento de 0,47 desviaciones
típicas en la recuperación.
En este ejemplo, el resultado obtenido para basal y edad con las puntuaciones tipifica-
das (ecuación [10.24]) no es muy distinto del obtenido previamente con las puntuaciones
originales (ecuación [10.23]): sus respectivos coeficientes de regresión toman un valor pa-
recido en ambas ecuaciones y en ambas ecuaciones la variable basal tiene más peso en los
pronósticos que la variable edad.
Con la variable tto no ocurre lo mismo. En puntuaciones directas (ecuación [10.23]), el
peso de tto es sensiblemente mayor que el de basal y edad (unas 12 veces mayor en el pri-
mer caso, pues 4,93 / 0,40 = 12,33; y casi 500 veces mayor en el segundo). En puntuaciones
típicas (ecuación [10.24]), el peso de tto sigue siendo mayor que el de basal y mayor que el
de edad, pero las diferencias se han reducido notablemente; ahora, el peso de tto es un 30 %
mayor que el de basal y 61 veces mayor que el de edad.
Aunque el coeficiente asociado a la variable tto ha experimentado un cambio importan-
te, la diferencia entre los coeficientes originales y los tipificados puede ser mucho más acu-
sada de lo que nuestro ejemplo puede dar a entender. De hecho, coeficientes originales muy
grandes (en valor absoluto) pueden pasar a tener un valor tipificado muy próximo a cero; y
al revés, coeficientes originales próximos a cero pueden pasar a tener un valor muy grande
(en valor absoluto). Y solamente los coeficientes tipificados, por estar desprovistos de la
métrica original de las variables, permiten formarse una idea sobre la importancia relativa de
cada variable dentro de la ecuación (ver, más adelante, el apartado Importancia relativa de
las variables).
Bondad de ajuste
Aun aceptando que la ecuación de regresión mínimo-cuadrática es la mejor, sabemos que esto
no significa que sea buena. Para valorar la calidad de una ecuación es necesario utilizar algún
indicador de la precisión con que permite efectuar pronósticos. Y, para ello, de nuevo sirve
aquí lo ya dicho a propósito de la ecuación de regresión simple. La única diferencia es que,
ahora, la relación entre la parte izquierda y la parte derecha de la ecuación no es la relación
15
En regresión simple, el coeficiente de regresión tipificado coincide con el coeficiente de correlación de Pearson RXY. En
regresión múltiple, los coeficientes de regresión tipificados no son coeficientes de correlación. De hecho, pueden tomar
valores mayores que 1 y menores que !1.
entre X e Y (es decir, la relación entre dos variables), sino la relación entre Y y X1, X2, ..., Xp
(es decir, la relación entre p + 1 variables). Y para cuantificar esa relación utilizamos el coe-
ficiente de correlación múltiple, el cual suele representarse mediante o, más
brevemente, mediante .
Este coeficiente de correlación expresa el grado de relación lineal existente entre la va-
riable dependiente Y y la mejor combinación lineal entre las variables independientes Xj
(variables 1, 2, ..., p). Lo cual no es otra cosa que la relación lineal entre Y y los pronósticos
derivados de la ecuación de regresión:
= [10.25]
De esta definición se deduce que tomará siempre valores entre cero y uno, pues no
cabe esperar que la relación entre Y y los pronósticos sea negativa (además, tampoco tiene
sentido hablar de relación negativa entre más de dos variables). Unas sencillas transforma-
ciones permiten definir el cuadrado del coeficiente de correlación múltiple, decir, el coefi-
ciente de determinación, exactamente de la misma manera que en regresión simple:
= 1! / [10.26]
= / [10.27]
Por tanto, puede interpretarse, al igual que en regresión simple, como propor-
ción de reducción de los errores de predicción (ecuación [10.26]) y como proporción de
varianza común o explicada (ecuación [10.27]).
En nuestro ejemplo sobre la recuperación de pacientes sometidos a tratamiento antide-
presivo, el coeficiente de correlación múltiple vale 0,89; y, elevado al cuadrado, 0,79. Este
valor indica, en primer lugar, que las variables incluidas en la ecuación (basal, edad y tto)
permiten reducir los errores de predicción un 79 % y, en segundo lugar, que esas tres va-
riables, tomadas juntas, comparten el 79 % de la varianza de la recuperación; por tanto,
conocer las puntuaciones basales de los pacientes, su edad y el tratamiento que han recibido
permite entender (anticipar, explicar) el 79 % de la variabilidad de su recuperación.
El coeficiente es un estimador positivamente sesgado de su correspondiente
parámetro poblacional (tiende a ofrecer estimaciones infladas). Este sesgo depende del nú-
mero de variables independientes (p) y del número de casos (n). Cuanto menor es la relación
n: p, mayor es el sesgo16. Para atenuar este sesgo es habitual aplicar la siguiente corrección:
= [10.28]
En nuestro ejemplo sobre la recuperación de pacientes sometidos a tratamiento antidepresi-

vo hemos obtenido = 0,79. Y aplicando [10.28] obtenemos = 0,75, que es
un valor ligeramente menor que el obtenido sin aplicar la corrección.
16
Por ejemplo, cuando n = p + 1 (muy pocos casos en comparación con el número de variables), la ecuación de regresión
ofrece pronósticos perfectos (es decir, = 1) sea cual sea la verdadera relación subyacente. Con una sola variable inde-
pendiente tenemos p = 1 y n = 2, y una recta se ajusta perfectamente a 2 puntos; con dos variables independientes tenemos
p = 2 y n = 3, y un plano se ajusta perfectamente a tres puntos; etc.

Un coeficiente de correlación debe interpretarse en el contexto en el que se obtiene (ver, en
el Capítulo 12 del primer volumen, el apartado Cómo interpretar el coeficiente de correla-
ción RXY ). Esto significa que la calidad de una ecuación de regresión debe valorarse en fun-
ción del tipo de problema al que se intenta dar respuesta. Pero, antes de interpretar un coe-
ficiente de correlación, es necesario preguntarse si, independientemente del contexto, la
relación encontrada es o no estadísticamente significativa, es decir, si es o no ma-
yor de lo que cabría esperar simplemente por las fluctuaciones propias del azar muestral.
Esta pregunta puede responderse contrastando la hipótesis nula de que la relación entre
X1, X2, ..., Xp e Y vale cero en la población, es decir, H0 : = 0. Y esto equivale a con-
trastar la hipótesis nula de que los p coeficientes de regresión poblacionales (excluido β0)
valen cero:
H0 : β1 = β2 = · · · = βp = 0 [10.29]
El rechazo de esta hipótesis implica que al menos un coeficiente de regresión contribuye

significativamente a mejorar el ajuste.
La hipótesis [10.29] puede contrastarse utilizando el mismo estadístico F ya definido en
regresión simple. La variabilidad total de Y puede descomponerse en variabilidad debida a
la regresión y en variabilidad no debida a la regresión o variabilidad error. Y el cociente en-
tre las estimaciones de ambas variabilidades es un estadístico F :
F = = [10.30]
regresión), este estadístico se aproxima a la distribución de probabilidad F con p y n ! p ! 1
grados de libertad. Puede rechazarse la hipótesis [10.29] si el estadístico F toma un valor
mayor que el cuantil 100 (1 ! α) de la distribución F con p y n ! p ! 1 grados de libertad. En
nuestro ejemplo hemos obtenido = 0,79; por tanto,
F = = 20,06
Con p = 3 y n ! p ! 1 = 20 ! 3 ! 1 = 16 grados de libertad, el cuantil 95 de la distribución F

vale 3,24 (ver Tabla F del apéndice final). Por tanto, como el valor del estadístico F = 20,06
es mayor que el punto crítico (3,24), podemos rechazar la hipótesis [10.29] de no relación
lineal y concluir que la variable dependiente (recuperación) está linealmente relacionada con
el conjunto de variables independientes incluidas en la ecuación (basal, edad y tto).
El denominador del estadístico F sigue siendo el error cuadrático medio o media cua-
drática error:
MCE = [10.31]
Su significado es el mismo que en el caso de la regresión simple: es el mejor estadístico de

que disponemos para estimar la varianza Y asociada a cada posible combinación entre los
distintos valores de las Xj (ver el apartado Supuestos del modelo de regresión). La raíz cua-
drada de [10.31] es el error típico de la estimación (desviación típica de los residuos).
Representa el error medio que se comete al efectuar pronósticos utilizando la ecuación de
regresión. Y, al igual que , sirve como un indicador de la bondad del ajuste del plano
de regresión: cuanto menor es la desviación típica de los residuos, mejor es el ajuste.
nunca disminuye al incorporar una nueva variable a la ecuación. Pero eso no
significa que la ecuación que incluye la nueva variable sea mejor que la que no la incluye. En-
tre dos ecuaciones rivales, la que mejor se ajusta es aquella a la que le corresponde una MCE
menor . Y puesto que al incorporar una nueva variable la MCE pierde un grado de libertad,
para poder afirmar que la nueva ecuación ofrece un mejor ajuste que la original, debe ocurrir
que la nueva variable consiga reducir la suma de los residuos al cuadrado en una cantidad
mayor que la MCE original.
La hipótesis propuesta en [10.29] es una hipótesis global referida a los p coeficientes de
regresión incluidos en la ecuación (excluido β0). El rechazo de esta hipótesis indica que al
menos un coeficiente βj es distinto de cero, pero sin precisar cuál. Para identificar qué coe-
ficiente es distinto de cero es necesario valorar cada uno por separado. Esto puede hacerse
de la misma manera que en regresión simple, es decir, contrastando, para cada coeficiente,
H0 : β j = 0 [10.32]
mediante estadísticos T del tipo
= [10.33]
regresión), el estadístico se aproxima a la distribución de probabilidad t de Student con
n ! p ! 1 grados de libertad. Puede rechazarse la hipótesis [10.32] si el valor absoluto de
es mayor que el cuantil 100 (1 ! α / 2) de la distribución t con n ! p ! 1 grados de libertad.
El rechazo de [10.32] indica que la correspondiente X j contribuye significativamente al
ajuste del plano de regresión. El no rechazo de indica que la correspondiente X j puede eli-
minarse de la ecuación sin pérdida de ajuste.
El denominador de [10.33], , es el error típico de y, aunque es algo más comple-
jo de calcular que en el caso de la regresión simple17, los programas informáticos de análisis
estadístico lo incluyen de forma rutinaria. En nuestro ejemplo, en el caso de las variables
basal y tto se obtienen valores que llevan al rechazo de la hipótesis [10.32]. No así en
el caso de la variable edad. Por tanto, la variable edad puede eliminarse de la ecuación de
regresión sin pérdida de ajuste18.
Este resultado nos recuerda que los coeficientes de regresión son coeficientes parciales.
A pesar de que la edad está significativamente relacionada con la recuperación (RXY = !0,58,
p = 0,007), esta relación se desvanece cuando entran en juego las variables basal y tto. Y es-
to ocurre porque la variable edad correlaciona !0,78 con la variable tto: la edad media de los
sujetos que han recibido el tratamiento 1 (estándar = 56,8) es mayor que la de los sujetos que
17
= , donde es la varianza de X j y es el coeficiente de determinación que se ob-
tiene con la ecuación de regresión de X j sobre el resto de variables independientes.
18
El valor de no cambia si se elimina la variable edad de la ecuación. Y tampoco cambia el valor de los coe-
ficientes de regresión tipificados correspondientes a basal y a tto.
han recibido el tratamiento 2 (combinado = 45,9). Como además ocurre que los sujetos que
reciben el tratamiento 2 se recuperan mejor que los que reciben el tratamiento 1, la relación
entre edad y recuperación podría ser simplemente resultado de la relación entre tto y re-
cuperación: la edad podría estar correlacionando negativamente con la recuperación porque
los sujetos más jóvenes han recibido el tratamiento más eficaz19. En el siguiente apartado se
trata más a fondo esta idea.
Los errores típicos pueden utilizarse para construir intervalos de confianza siguien-
do la misma estrategia que en regresión simple (ver ecuación [10.17]).
Importancia relativa de las variables
No existe una única forma de valorar la importancia o peso relativo de una variable dentro
de una ecuación de regresión. Entre otras cosas, porque para poder hacer esto es necesario
aclarar qué se entiende por importancia de una variable.
Si se considera que la variable más importante es la que más contribuye al cambio es-
perado en Y, entonces la importancia relativa de las variables puede establecerse a partir de
los coeficientes de regresión tipificados: cuanto mayor es un coeficiente tipificado, mayor
es el cambio esperado en Y asociado a un cambio de una unidad en X j . Y esto, indepen-
dientemente de cuál sea la métrica original de las variables.
Si se considera que la variable más importante es la que más contribuye al ajuste global,
es decir, la que más contribuye a reducir los errores de predicción, entonces la importancia
relativa de las variables puede establecerse mediante el cuadrado del coeficiente de corre-
lación semiparcial: .
En el Apéndice 5 hemos estudiado el coeficiente de correlación parcial como una medida
del grado de relación neta entre dos variables, es decir, del grado de relación entre dos varia-
bles cuando se elimina de ambas (se controla o parcializa) el efecto de terceras variables. Por
ejemplo, R12|3 es la relación entre las variables 1 y 2 cuando se elimina de ambas el efecto de
19
Por supuesto, también podría estar ocurriendo lo contrario, es decir, que el tratamiento 2 fuera más eficaz que el 1 porque
se ha aplicado a pacientes que se recuperan mejor (pacientes más jóvenes). Pero el hecho de que el peso de la variable tto
sea distinto de cero y sensiblemente mayor que el de la variable edad, y que el peso de ésta no sea distinto de cero está indi-
cando: (1) que la variable tto explica una parte de la recuperación que no puede explicar la variable edad y (2) que la varia-
ble edad no puede explicar algo distinto de lo que están explicando las variables tto y basal.
Es posible precisar qué es lo que realmente está ocurriendo formando cuatro grupos de pacientes en función del trata-
miento recibido y de la edad (separando a los 5 sujetos más jóvenes de los 5 menos jóvenes en cada tratamiento). La siguien-
te tabla muestra la recuperación media de estos cuatro grupos:
Edad < Mdn Edad > Mdn

1. Estándar 6,60 7,00
2. Combinado 12,40 13,80
Un análisis de estas medias indica, en primer lugar, que la recuperación media es mayor con el tratamiento 2 tanto entre los
pacientes más jóvenes (t8 = !3,39, p = 0,009) como entre los menos jóvenes (t8 = !3,67, p = 0,006); y, en segundo lugar,
que la recuperación media de los pacientes más jóvenes no difiere significativamente de la de los menos jóvenes ni cuando
reciben el tratamiento 1 (t8 = !0,24, p = 0,819) ni cuando reciben el tratamiento 2 (t8 = !0,75, p = 0,476). Y esto permite
afirmar que la relación entre edad y recuperación es una relación espuria resultado de haber aplicado el tratamiento más
eficaz a pacientes más jóvenes.
la variable 3. Esto se hace estimando las ecuaciones de regresión de la variable 1 sobre la

variable 3 y de la variable 2 sobre la variable 3, calculando los residuos de ambas ecuacio-
nes y correlacionando ambos conjuntos de residuos.
En el coeficiente de correlación semiparcial, el efecto de las terceras variables solamen-
te se elimina de una de las dos variables correlacionadas. Así, por ejemplo, la correlación
semiparcial R1(2|3) se obtiene correlacionando la variable 1 con los residuos obtenidos con la
ecuación de regresión de la variable 2 sobre la variable 3.
Consideremos la relación entre el rendimiento académico (variable 1), el cociente inte-
lectual (variable 2) y las horas de estudio (variable 3): R12 es la correlación simple entre el
rendimiento académico y el cociente intelectual; R 12 | 3 es la correlación entre el rendimiento
académico y el cociente intelectual después de eliminar de ambas variables el efecto atribuible
a las horas de estudio (correlación parcial entre 1 y 2); y R1(2 | 3) es la correlación entre el ren-
dimiento académico y el cociente intelectual después de eliminar del cociente intelectual el
efecto atribuible a las horas de estudio (correlación semiparcial entre 1 y 2).
Ambos coeficientes de correlación, el parcial y el semiparcial, desempeñan un impor-
tante rol en el análisis de regresión múltiple. El parcial se utiliza para elegir variables en los
métodos de selección por pasos; veremos esto más adelante, en el apartado Regresión jerár-
quica o por pasos. El semiparcial se utiliza para cuantificar la contribución neta de cada
variable al ajuste global20.
Siendo el coeficiente de correlación múltiple entre la variable dependiente Y y las
variables independientes X1 y X2, se verifica
= ! [10.34]
Es decir, el cuadrado de la correlación entre las variables Y y X2 tras eliminar de la variable

X2 el efecto de la variable X1 (osea, el cuadrado de la correlación semiparcial entre Y y X2 ) es
igual al cuadrado de la correlación múltiple entre la variable Y y las variables X1 y X2 (pro-
porción de varianza explicada conjuntamente por X1 y X2) menos el cuadrado de la corre-
lación simple entre las variables Y y X1 (proporción de varianza explicada por X1). Por tanto,
representa la cantidad que aumenta la proporción de varianza explicada al incorporar la va-
riable X2 a una ecuación de regresión que ya contiene la variable X1.
El cuadrado del coeficiente de correlación semiparcial, , también puede cal-
cularse mediante
= [10.35]
donde es el valor obtenido con [10.33] al contrastar [10.32] y es el coeficien-

te de determinación. Reordenando la ecuación [10.34] se obtiene
= + [10.36]
20
Aunque el signo de un coeficiente de regresión suele indicar el sentido positivo o negativo de la relación entre Y y la
correspondiente X j , esto no tiene por qué ser necesariamente así. Puede ocurrir que el signo de un coeficiente sea distinto
del sentido de la relación. La razón de esto es que los coeficientes de una ecuación de regresión múltiple son parciales y,
por tanto, su valor depende del resto de elementos presentes en la ecuación. Una variable independiente tiene un peso sig-
nificativo en una ecuación de regresión cuando, independientemente de su relación con Y, consigue explicar una parte de
Y que otras variables no explican; y su relación con esa parte de Y podría no tener el mismo signo que su relación con Y.
Por tanto, en una ecuación de regresión con dos variables independientes (variables 1 y 2),
el cuadrado del coeficiente de correlación múltiple (es decir, el coeficiente de determinación
) es la suma del cuadrado de la correlación simple entre la variable dependiente y una
cualquiera de las dos variables independientes ( ) más el cuadrado de la correlación entre
la variable dependiente y la parte de la segunda variable independiente que no depende o no
está explicada por la primera ( ).
Y esto implica que el coeficiente de determinación se compone de la informa-
ción que aporta la primera variable ( ), más la información adicional no redundante que
aporta una segunda variable ( ), más la información adicional no redundante que aporta
una tercera variable ( ), y así sucesivamente. Es decir,
= + + + ··· + [10.37]
En nuestro ejemplo sobre la relación entre las variables basal, tto y recuperación (hemos de-
sechado la variable edad por no tener un peso significativo en la ecuación), los coeficientes
de correlación semiparcial entre la variable dependiente y cada una de las dos independientes
valen, respectivamente, 0,438 y 0,579. Esto significa que, en una ecuación de regresión que
ya contiene la variable tto, la incorporación de la variable basal hace aumentar la proporción
de varianza explicada en 0,4382 = 0,19 puntos; y en una ecuación que ya contiene la variable
basal, la incorporación de la variable tto hace aumentar la proporción de varianza explicada
en 0,5792 = 0,34 puntos. Y sabemos que ambos aumentos son estadísticamente significativos
(es decir, representan un incremento significativo en el ajuste de la ecuación de regresión)
porque ya hemos comprobado que sus correspondientes coeficientes de regresión son signi-
ficativamente distintos de cero.
En resumen, la importancia relativa de una variable dentro de una ecuación de regresión
puede valorarse atendiendo a dos criterios diferentes: su peso en los pronósticos (coeficientes
de regresión tipificados) y su contribución neta al ajuste global (coeficiente de correlación
semiparcial elevado al cuadrado). En nuestro ejemplo, tanto el coeficiente de regresión tipi-
ficado mayor (en valor absoluto) como el coeficiente de correlación semiparcial más alto
(también en valor absoluto) corresponden a la variable tto.
Variables independientes categóricas

Las variables dicotómicas (variables con dos categorías) pueden incluirse en una ecuación
de regresión lineal sin ningún tipo de consideración adicional. De hecho, en el ejemplo uti-
lizado en los apartados anteriores ya hemos trabajado con una variable dicotómica (la varia-
ble tto, con códigos 1 = «estándar», 2 = «combinado»). Con este tipo de variables no existen
problemas de estimación ni de interpretación. El coeficiente de regresión obtenido con la va-
riable tto ya lo hemos interpretado como el cambio pronosticado en la recuperación cuando
la variable tto pasa de 1 a 2 (de estándar a combinado).
Esto nos da una pista acerca de cómo incluir en una ecuación de regresión lineal varia-
bles categóricas con más de dos categorías. Una variable con J categorías puede expresarse,
sin pérdida de información, como J ! 1 variables dicotómicas21. Así, por ejemplo, la variable
21
A estas variables se les suele llamar variables dummy (ficticias) o variables indicador. Nosotros seguiremos llamándo-
las dicotómicas.
centro (ver Tabla 10.1), que tiene J = 3 categorías, puede convertirse en J ! 1 = 2 variables
dicotómicas creando las variables centro_A (con código 1 para el centro A y código 0 para
los centros B y C) y centro_B (con código1 para el centro B y código 0 para los centros A y
C). Las variables centro_A y centro_B, tomadas juntas, contienen exactamente la misma in-
formación que la variable centro. El centro A queda identificado con el código 1 en centro_A
y el código 0 en centro_B; el centro B, con el código 0 en centro_A y el código 1 en cen-
tro_B; y el centro C, con el código 0 tanto en centro_A como en centro_B. No es necesario
crear una tercera variable para identificar el centro C (sería redundante), como tampoco es
necesario crear dos variables, sino una, para identificar las dos categorías de una variable
dicotómica.
Al calcular la ecuación de regresión utilizando la variable recuperación como variable
dependiente y las variables centro_A y centro_B como variables independientes se obtiene
el siguiente resultado:
Pronóstico (recuperación) = 8,25 + 5,42 (centro_A) + 0,25 (centro_B )
El valor de la intersección (8,25) representa la recuperación estimada para los pacientes del
centro C (el valor pronosticado cuando tanto centro_A como centro_B toman el valor 0). Este
valor, 8,25, sirve de referente para interpretar el resto de los coeficientes de la ecuación. El
coeficiente asociado a centro_A (5,42) representa la recuperación estimada para los pacientes
del centro A en comparación con la de los pacientes del centro C (esta diferencia de 5,42 pun-
tos es significativamente distinta de cero; t17 = 2,84; p = 0,011). Y el coeficiente asociado a
centro_B representa la recuperación estimada para los pacientes del centro B en comparación
con la de los pacientes del centro C (esta diferencia de 0,25 puntos no es significativamente
distinta de cero; t17 = 0,13; p = 0,897). Por tanto, a los pacientes del centro A (centro_A = 1,
centro_B = 0) se les está estimando una recuperación de 8,25 + 5,42 = 13,67 puntos; a los del
centro B (centro_A = 0, centro_B = 1), de 8,25 + 0,25 = 8,50 puntos; y a los del centro C (cen-
tro_A = 0, centro_B = 0), de 8,25. Todo lo cual no es otra cosa que la recuperación media
de cada centro.
Por supuesto, si se añaden nuevas variables a la ecuación, el valor de los coeficientes de
regresión cambia. Añadiendo, por ejemplo, la variable tto se obtiene el siguiente resultado:
Pronóstico (recuperación) = 0,63 + 3,80 (centro_A) + !0,44 (centro_B ) + 5,54 (tto)
Ahora, a los pacientes del centro C que han recibido el tratamiento estándar (centro_A = 0,
centro_B = 0, tto = 1) se les pronostica una recuperación de 0,63 + 5,54 = 6,17 puntos; y a
los que han recibido el tratamiento combinado (centro_A = 0, centro_B = 0, tto = 2), se les
pronostica una recuperación de 0,63 + 2 (5,54) = 11,71 puntos.
A los pacientes del centro A que han recibido el tratamiento estándar (centro_A = 1, cen-
tro_B = 0, tto = 1) se les pronostica una recuperación de 0,63 + 3,80 + 5,54 = 9,97 puntos; y
a los que han recibido el tratamiento combinado (centro_A = 1, centro_B = 0, tto = 2), se les
pronostica una recuperación de 0,63 + 3,80 + 2 (5,54) = 15,51 puntos. El coeficiente asociado
a centro_A (3,80) sigue indicando el aumento en la recuperación que se pronostica a los pa-
cientes del centro_A en comparación con los del centro_B.
Por último, a los pacientes del centro B que han recibido el tratamiento estándar (cen-
tro_A = 0, centro_B = 1, tto = 1) se les pronostica una recuperación de 0,63 ! 0,44 + 5,54 =
5,73 puntos; y a los que han recibido el tratamiento combinado (centro_A = 0, centro_B = 1,
tto = 2), una recuperación de 0,63 ! 0,44 + 2 (5,54) = 11,27 puntos.
Regresión jerárquica o por pasos

En los apartados previos hemos asumido en todo momento que la decisión de qué variables
debe incluir una ecuación de regresión es responsabilidad del investigador. Es decir, hemos
asumido que es el propio investigador, generalmente guiado por una hipótesis de trabajo ba-
sada en evidencias previas o en sospechas basadas en la observación, quien finalmente decide
qué variables debe incluir su ecuación de regresión.
Sin embargo, no es infrecuente encontrar situaciones en las que, a pesar de contar con un
elevado número de posibles variables candidatas a formar parte de una ecuación de regresión
(es decir, un elevado número de variables susceptibles de contribuir a entender o explicar el
fenómeno estudiado), falta una hipótesis de trabajo que oriente al investigador en la elección
de las variables realmente relevantes.
En estos casos se podría comenzar incluyendo en la ecuación todas las variables que se
sospecha o intuye que pueden aportar algo y continuar eliminando de ella, una vez estimada,
todas las variables con coeficientes de regresión no significativos. Pero esta estrategia, que,
en principio, podría parecer apropiada, es bastante problemática. Puesto que los coeficientes
de regresión son coeficientes parciales (su valor depende del resto de coeficientes presentes
en la ecuación), eliminar más de una variable al mismo tiempo impide valorar el comporta-
miento individual de las variables eliminadas.
Es preferible proceder jerárquicamente. Por ejemplo, eliminando variables una a una:
se comienza estimando la ecuación de regresión con todas las variables candidatas y se eli-
mina, en primer lugar, la variable cuyo coeficiente de regresión tipificado, además de no ser
significativo, es el menor de todos en valor absoluto; a continuación se vuelve a estimar la
ecuación de regresión y se elimina la variable cuyo coeficiente de regresión tipificado, ade-
más de no ser significativo, es el más pequeño en valor absoluto; etc.; así, hasta que todos
los coeficientes de regresión que permanecen en la ecuación sean significativos. Algo pa-
recido a esto, aunque de forma automática, es lo que hacen los métodos por pasos que se
describen en este apartado (enseguida veremos que también es posible proceder al revés, es
decir, incorporando variables una a una).
Con la regresión jerárquica o por pasos se pretende encontrar la ecuación de regresión
capaz de ofrecer el mejor ajuste posible con el menor número de variables. Se intenta, con
esto, hacer compatibles los dos principios que deben guiar la formulación de todo modelo
estadístico: (1) incluir el menor número posible de variables para facilitar la interpretación
del resultado y reducir los posibles costes de trabajar con muchas variables (principio de
parsimonia) y (2) conseguir explicar lo mejor posible el comportamiento de la variable de-
pendiente (principio de máximo ajuste).
De acuerdo con esto, construir una ecuación de regresión por pasos puede parecer, en
principio, una buena idea. Pero lo cierto es que esta estrategia no está libre de problemas. Si
el objetivo del análisis es efectuar pronósticos y no existe una hipótesis de trabajo que jus-
tifique la elección de unas u otras variables, proceder por pasos puede resultar una estrategia
válida (máximo ajuste con el menor número de variables). Si el objetivo del análisis es obte-
ner evidencia empírica sobre alguna hipótesis de trabajo, entonces proceder por pasos podría
resultar más perjudicial que beneficioso, pues la ecuación con el mejor ajuste podría incluir
variables teóricamente irrelevantes y ese ajuste podría ser solo ligeramente mejor que el de
una ecuación con variables teóricamente relevantes (ver Henderson y Denison, 1989, o Hu-
berty, 1989, para una discusión de toda esta problemática).
Criterios para seleccionar variables

La variables que finalmente formarán parte de una ecuación de regresión pueden elegirse
aplicando diferentes criterios. Por ejemplo, el aumento en el coeficiente de correlación múl-
tiple, el valor del coeficiente de correlación parcial, la reducción del error típico de los resi-
duos, etc. Todos estos criterios coinciden en intentar maximizar el ajuste utilizando el míni-
mo número posible de variables. Sin embargo, el criterio que acapara las preferencias de los
expertos consiste en incorporar al modelo de regresión solamente las variables que contri-
buyen de forma significativa a mejorar el ajuste.
Una forma de valorar esta contribución consiste en cuantificar el cambio que se produ-
ce en el coeficiente de determinación al incorporar (o eliminar) una variable a la ecuación:
= ! [10.38]
Es decir, es la diferencia entre el coeficiente determinación obtenido con p varia-

bles ( ) y el obtenido con p ! 1 variables ( ). El subíndice j se refiere a la
variable cuya contribución al ajuste global se está valorando.
En realidad, es el cuadrado del coeficiente de correlación semiparcial entre la
variable dependiente y la variable cuya incorporación o eliminación se está valorando (este
coeficiente ya lo hemos estudiado en el apartado Importancia relativa de las variables).
Cuanto mayor es el valor de , mayor es la contribución de la variable X j al ajuste
global.
La significación estadística de puede establecerse contrastando la hipótesis
nula de que su valor poblacional es cero, mediante el estadístico
= [10.39]
el cual se aproxima a la distribución de probabilidad F con 1 y n ! p ! 1 grados de libertad.

Puede rechazarse la hipótesis nula si el valor de [10.39] es mayor que el cuantil 100 (1 ! α)
de esa distribución22.
Métodos para seleccionar variables

Hay diferentes formas de proceder a la hora de ir seleccionando las variables que finalmen-
te formarán parte de una ecuación de regresión:
1. Hacia delante (forward). Se comienza con la ecuación que únicamente incluye la in-
tersección. En el primer paso se elige, entre las variables que superan el criterio de se-
lección, la que más alto correlaciona (en valor absoluto) con la variable dependiente23.
En los siguientes pasos se van incorporando a la ecuación las variables que, además de
22
El estadístico F propuesto en [10.39] coincide con el cuadrado del estadístico propuesto en [10.33] y utilizado para
contrastar la significación individual de cada coeficiente de regresión.
23
Recordemos que el criterio de selección es que la variable incorporada a la ecuación genere un incremento significativo
en el coeficiente de determinación. En el primer paso, este incremento es el que va desde cero hasta el valor del coeficiente
de determinación correspondiente a la primera variable seleccionada.
superar el criterio de selección, poseen el coeficiente de correlación parcial más alto en

valor absoluto (en cada paso, la correlación entre la variable dependiente y cada una de
las independientes todavía no incorporadas a la ecuación se parcializa eliminando el
efecto de las variables independientes ya incluidas en la ecuación). La incorporación de
variables se detiene cuando no quedan variables que superen el criterio de selección.
2. Hacia atrás (backward). Se comienza incluyendo en la ecuación de regresión todas las
variables candidatas a formar parte del modelo final y, a continuación, se procede a elimi-
narlas una a una. La primera variable que se elimina es, entre las que tienen asociados
coeficientes de regresión no significativos, aquella a la que le corresponde el menor valor
. En cada paso se van eliminando de la ecuación, una a una, las variables con
coeficientes de regresión no significativos y siempre en orden inverso al tamaño de
. La eliminación de variables se detiene cuando todas las variables que quedan
en la ecuación cumplen el criterio de selección.
3. Pasos sucesivos (stepwise). Este método es una mezcla de los métodos hacia delante y
hacia atrás. Se comienza, al igual que en el método hacia delante, con la ecuación que
únicamente incluye la intersección. En el primer paso se elige la variable que, además
de superar el criterio de selección, más alto correlaciona (en valor absoluto) con la va-
riable dependiente. A continuación se selecciona la variable que, además de superar el
criterio de selección, posee el coeficiente de correlación parcial más alto (en valor abso-
luto). Cada vez que se incorpora una nueva variable, las variables seleccionadas hasta
ese momento son, al igual que en el método hacia atrás, evaluadas nuevamente para de-
terminar si siguen cumpliendo o no el criterio de selección. Si alguna variable de las ya
seleccionadas deja de cumplir el criterio de selección, es expulsada de la ecuación. El
proceso se detiene cuando no quedan variables fuera de la ecuación que superen el cri-
terio de selección y todas las variables incluidas lo cumplen.
La regresión por pasos puede hacerse incorporando o eliminando más de una variable (blo-
ques de variables) en cada paso. Esta estrategia, que es a la que se le suele llamar regresión
jerárquica24, funciona exactamente igual que cuando se incorporan o eliminan variables una
a una. La única diferencia es que, al trabajar con bloques de variables, tanto el criterio de
selección de variables como los estadísticos utilizados para valorar la contribución al ajuste
global se aplican al bloque completo de variables que se desea incorporar o eliminar25.
Conviene advertir que el orden en el que se incorporan las variables a una ecuación de
regresión aplicando una estrategia de selección por pasos no es un criterio válido para de-
terminar la importancia relativa de las variables en la ecuación. En cada paso, la valoración
24
Esta estrategia de construcción de una ecuación de regresión por pasos no debe confundirse con la regresión multinivel
(la estudiaremos en el siguiente volumen), la cual, a veces, también recibe el nombre de jerárquica.
25
Al incorporar o eliminar bloques de variables, las ecuaciones [10.38] y [10.39] para cuantificar el cambio en el coefi-
ciente de determinación y para valorar la significación estadística de ese cambio, quedan de la siguiente manera:
= ! [10.40]
= [10.41]
con k igual al número de variables de que consta el bloque j.

que se hace de la contribución al ajuste global de la variable que se incorpora a la ecuación

se basa en las variables previamente seleccionadas, no en las variables que formarán parte de
la ecuación final. Esto significa que cada variable se parcializa aplicando un criterio dife-
rente. Si la importancia relativa de las variables ha de hacerse atendiendo a su contribución
al ajuste global, ésta debe valorarse parcializando cada relación mediante el resto de variables
independientes incluidas en la ecuación final.
Supuestos del modelo de regresión lineal

Los datos, por lo general, no son la población que interesa estudiar, sino una muestra de esa
población. Por tanto, la ecuación de regresión que se obtiene con unos datos concretos no es
más que una estimación de la verdadera ecuación de regresión (la ecuación poblacional). Pa-
ra calcular una ecuación de regresión no es necesario establecer ningún supuesto. Pero para
utilizarla como una estimación de la verdadera ecuación de regresión, las cosas cambian.
Hasta ahora no hemos mencionado nada acerca de las condiciones que deben darse para que
un modelo de regresión lineal sea una buena elección. Sin embargo, habiendo estudiado ya
los modelos de análisis de varianza y los supuestos en los que se basan, no debe sorprender
que los modelos de regresión lineal también lleven asociados algunos supuestos. Para refe-
rirnos a ellos, los llamaremos, abreviadamente: (1) linealidad, (2) no colinealidad, (3) inde-
pendencia, (4) normalidad y (5) homocedasticidad.
Los supuestos de linealidad, no colinealidad, independencia y homocedasticidad son
necesarios para que los coeficientes de regresión sean estimadores insesgados y eficientes
(varianza mínima) de sus correspondientes parámetros. Y para contrastar hipótesis sobre los
coeficientes de regresión y construir intervalos de confianza es necesario, además, asumir
normalidad. En este apartado se presenta una breve descripción de los supuestos del modelo
de regresión. Para conocer más a fondo el significado de estos supuestos o las consecuencias
que se derivan de su incumplimiento pueden consultarse los trabajos de Belsley, Kuh y Welch
(1980), Berry y Feldman (1985) y Fox (1991).
Linealidad
En un análisis de regresión lineal se está asumiendo que las variables independientes están
linealmente relacionadas con la dependiente. Y para representar esta relación se utiliza una
ecuación lineal, es decir, una ecuación que estima para Y un cambio constante (lineal) de
tamaño B j por cada unidad que aumenta X j (permaneciendo el resto de variables constan-
tes). El supuesto de linealidad es crucial: no tiene sentido utilizar una ecuación lineal si la
relación subyacente entre las dos partes de la ecuación no es lineal.
Al error consistente en utilizar un modelo lineal para dar cuenta de una relación que no
es lineal se le llama error de especificación. Este tipo de error ocurre cuando no se eligen bien
las variables independientes (porque hay otra u otras variables que podrían explicar mejor el
comportamiento de la variable dependiente, o porque se han incluido en el modelo variables
irrelevantes) o cuando, habiendo elegido bien las variables independientes, su relación con
la dependiente no es de tipo lineal. La consecuencia de un error de especificación es que los
coeficientes de regresión Bj se convierten en estimadores sesgados y poco eficientes de sus
respectivos parámetros. Por tanto, si se tiene intención de utilizar un modelo de regresión

lineal, lo razonable es que la relación entre la variable dependiente y las independientes sea
de tipo lineal.
En regresión simple, un diagrama de dispersión (preferiblemente acompañado del coe-
ficiente de correlación de Pearson) permite obtener información bastante precisa acerca de
si la relación subyacente es o no de tipo lineal o contiene un componente lineal importante.
El diagrama de la Figura 10.9 (izquierda) muestra que la relación entre basal y recuperación
es, básicamente, lineal.
El diagrama de dispersión también puede construirse utilizando los residuos en el eje
vertical (en lugar de la variable dependiente). Si la relación subyacente entre X e Y es lineal,
la nube de puntos de este diagrama no debe mostrar ninguna pauta discernible, es decir, los
puntos deben estar aleatoriamente repartidos en torno al valor cero del eje vertical26 (ver Fi-
gura 10.9, derecha). El diagrama no cambia si en el eje horizontal se utilizan, en lugar de las
puntuaciones de la variable independiente, los pronósticos de la ecuación de regresión.
Figura 10.9. Diagramas de dispersión. Izquierda: basal por recuperación. Derecha: basal por residuos
En regresión múltiple, los diagramas de dispersión de Y con cada X j pueden resultar en-
gañosos porque no cuentan toda la historia. En regresión múltiple interesa valorar las rela-
ciones parcializadas. Y esto puede hacerse obteniendo un diagrama de dispersión parcial
para cada variable independiente. Los diagramas de dispersión parcial representan la relación
entre dos conjuntos de residuos: los que se obtienen al pronosticar Y con todas las variables
independientes excepto X j y los que se obtienen al pronosticar X j con el resto de variables
independientes. La correlación entre estos dos conjuntos de residuos es el coeficiente de
correlación parcial entre Y y X j ; y la pendiente de la recta de regresión es Bj (es decir, el
coeficiente de regresión asociado a X j en la ecuación de regresión múltiple).
La Figura 10.10 muestra dos de los diagramas de dispersión parciales correspondientes
a la ecuación de regresión que incluye las variables independientes basal, edad y tto. El dia-
grama de la izquierda recoge la relación entre las variables basal y recuperación tras elimi-
nar de ambas el efecto atribuible a las variables edad y tto. El de la derecha recoge la rela-
ción entre las variables edad y recuperación tras eliminar de ambas el efecto atribuible a las
26
Suele ser buena idea construir este diagrama de dispersión con variables no incluidas en la ecuación. Si los residuos
muestran una pauta no aleatoria con alguna de esas variables, podría interesar incluir esa variable en la ecuación.
variables basal y tto (ambos diagramas incluyen la recta de regresión mínimo-cuadrática).

En el primer caso se aprecia una tendencia claramente lineal. En el segundo, no.
A pesar de su utilidad, conviene señalar que los diagramas de dispersión parcial pueden
resultar engañosos cuando la ecuación de regresión incluye variables independientes irrele-
vantes o cuando existe una elevada colinealidad (ver siguiente apartado).
Figura 10.10. Diagramas de dispersión parcial (incluyen la recta de regresión mínimo-cuadrática)
Además de asumir que la relación subyacente es lineal, la ecuación de regresión estima los
valores de Y combinando aditivamente las variables independientes, es decir, sumándolas. Y
esto implica que el cambio estimado para Y por cada unidad que aumenta Xj (permaneciendo
el resto de variables constantes) es siempre el mismo independientemente del valor concreto
que tomen el resto de las variables incluidas en la ecuación, es decir, independientemente del
valor concreto en el que permanezcan constantes el resto de las variables. Y esto significa
que se está asumiendo que no existe interacción entre las variables independientes. Si la rela-
ción entre Y y una determinada X j depende de los valores que tome alguna otra X j , entonces
el modelo aditivo no es un modelo apropiado. En presencia de interacción entre variables
independientes es recomendable incluir en la ecuación el producto de las variables que in-
teraccionan (ver Jaccard y Turrisi, 2003).
No colinealidad
El concepto de colinealidad se refiere a la relación entre variables independientes (si hay
involucradas más de dos variables también se habla de multicolinealidad). Existe colinealidad
perfecta cuando una variable independiente es función lineal perfecta de otra u otras variables
independientes. Para que el método de mínimos cuadrados pueda estimar los coeficientes de
regresión es imprescindible que no exista colinealidad perfecta. En condiciones de colinea-
lidad perfecta no existe una solución única para las estimaciones mínimo-cuadráticas.
La colinealidad perfecta es infrecuente27, pero no lo es cierto grado de colinealidad. Y el
problema de una colinealidad elevada es que la varianza de los coeficientes de regresión
27
Se da, por ejemplo, cuando se incluye una variable que es suma de otras que también se incluyen (los ítems de una escala
y la puntuación total en la escala obtenida como la suma de los ítems), o cuando se incluyen variables cuyos valores suman
una constante (el porcentaje de tiempo libre dedicado a cada una de un conjunto de actividades).
aumenta sensiblemente28. Y eto hace que las estimaciones se vuelven inestables: pequeños
cambios en los datos pueden llevar a cambios importantes en las estimaciones.
Lo habitual en una ecuación de regresión múltiple es que exista algún grado de colineali-
dad, pues es improbable que un conjunto de variables sean completamente independientes.
La cuestión no es si existe o no colinealidad, sino si el grado de colinealidad existente es lo
bastante grande como para representar un problema.
Existen algunos indicios que alertan sobre un posible problema con el grado de colinea-
lidad. Por ejemplo, que el estadístico F que contrasta la hipótesis global de no relación sea
significativo y, sin embargo, no lo sea ninguno de los coeficientes de regresión (lo cual puede
ocurrir cuando las varianzas de los coeficientes son muy grandes); o que algún coeficiente de
regresión tenga un signo distinto del esperado; o que algún coeficiente de regresión tipificado
sea excesivamente grande (mayor que uno en valor absoluto).
También existen algunos estadísticos que pueden ayudar a detectar un posible problema
con el grado de colinealidad. El nivel de tolerancia de una variable independiente X j se ob-
tiene restando a 1 el coeficiente de determinación correspondiente a la ecuación de regresión
de X j sobre el resto de variables independientes (1 ! ). Un nivel de tolerancia próximo a
1 indica que la variable X j no está relacionada con el resto de variables independientes; un
nivel de tolerancia próximo a 0 indica que la variable X j está muy relacionada con el resto
de variables independientes. Suele asumirse que los problemas asociados a la presencia de
colinealidad empiezan con tolerancias menores que 0,10.
A los valores inversos de los niveles de tolerancia, 1/ (1 ! ), se les llama factores de
inflación de la varianza (FIVj ). Reciben este nombre porque reflejan el aumento que expe-
rimenta la varianza de cada coeficiente de regresión como consecuencia de la relación
existente entre las variables independientes (las raíces cuadradas de los FIVj indican cuán-
to aumentan los errores típicos de los coeficientes de regresión Bj , los cuales intervienen en
los estadísticos T y en los intervalos de confianza). Los FIVj informan exactamente de lo
mismo que los niveles de tolerancia. Valores mayores que 10 suelen ir acompañados de los
problemas de estimación asociados a un exceso de colinealidad.
Para solucionar los problemas derivados de un exceso de colinealidad se han propues-
to diferentes soluciones. La más sencilla consiste en eliminar alguna de las variables inde-
pendientes que está causando el problema, pero esta solución puede llevar a un error de espe-
cificación al dejar fuera variables importantes desde el punto de vista teórico. Otra solución
consiste en combinar las variables muy relacionadas entre sí en nuevas variables que, aun no
correlacionando entre sí, todavía reflejen la pauta de relación subyacente (esta combinación
puede hacerse a partir de criterios teóricos o mediante alguna herramienta estadística de
reducción de datos como componentes principales). Por último, siempre existe la posibili-
dad de utilizar modelos de regresión que no se vean tan afectados como el lineal por la pre-
sencia de colinealidad, como, por ejemplo, la regresión ridge (Rozeboom, 1979); en algunos
contextos puede ser preferible obtener estimaciones sesgadas con varianza mínima en lugar
de estimaciones insesgadas con varianzas grandes.
28
Esto puede apreciarse fácilmente si nos fijamos en la ecuación que define el error típico de un coeficiente de regresión
(ver nota a pie de página número 17). El denominador de esta ecuación incluye el término 1 ! . Puesto que refleja
el grado de relación existente entre la variable Xj y las demás variables independientes, cuanto mayor sea esta relación (es
decir, cuanto mayor sea el grado de colinealidad), menor será el término 1 ! y , consecuentemente, mayor el error típico
del correspondiente coeficiente B j .
Independencia
Ya hemos definido los residuos como la diferencia entre los valores observados y los pro-
nosticados: Ei = . Estos residuos (valores muestrales) son estimaciones de los errores
poblacionales, es decir de las desviaciones de los verdaderos valores de Y respecto del plano
de regresión poblacional (Berry, 1993). En un modelo de regresión lineal se asume que los
errores tienen media cero y que son independientes entre sí.
En primer lugar, las estimaciones mínimo-cuadráticas de los coeficientes de regresión no
se ven afectadas por el valor de la media poblacional de los errores. No así las estimaciones
de la intersección, que se vuelven sesgadas cuando la media de los errores es distinta de cero
(el valor esperado de B0 se aleja de su parámetro en la misma cantidad que la media de los
errores se aleja de cero). Aunque la intersección de una ecuación de regresión suele tener po-
co interés, cuando se trabaja con variables independientes centradas (puntuaciones diferencia-
les o de desviación) la intersección es una estimación de la media de Y; en estos casos, si la
media de los errores es distinta de cero, B0 ofrecerá estimaciones sesgadas de la media de Y.
En segundo lugar, la independencia entre errores significa que no están autocorrelacio-
nados, es decir, que no aumentan o disminuyen siguiendo una pauta discernible. Este supuesto
suele incumplirse en datos que proceden de estudios longitudinales (como en el caso de las
series temporales), en datos recogidos secuencialmente (donde los terapeutas pueden mejorar
su forma de administrar un tratamiento, los sujetos mostrar fatiga, los aparatos sufrir algún
tipo de desgaste, etc.), en datos recogidos en grupos homogéneos de sujetos pero diferentes
entre sí (grupos de diferente ideología política o religiosa, grupos de diferente estatus socio-
económico, etc.). En este tipo de estudios, el error asociado a un caso tiende a parecerse a los
errores de los casos adyacentes. Cuando ocurre esto es preferible utilizar otros métodos de
estimación, como el de mínimos cuadrados generalizados, o analizar los datos con otro tipo
de estrategias (ver Montgomery, Johnson y Gardiner, 1990; Ostrom, 1990).
Cuando los errores están autocorrelacionados, aunque las estimaciones de los coeficientes
de regresión todavía son insesgadas, sus varianzas tienden a tomar valores más pequeños de
lo que deberían. Y la consecuencia de esto es que las pruebas de significación y los intervalos
de confianza tienden a detectar coeficientes de regresión significativamente distintos de cero
con demasiada frecuencia.
Los residuos (valores muestrales) son las mejores estimaciones que tenemos de los erro-
res (valores poblacionales). Pero, debido a la forma de calcularlos, aunque su media siempre
vale cero, no son completamente independientes entre sí (ver Montgomery, Peck y Vining,
2001, págs. 132-133). La cuestión es si el grado de autocorrelación existente entre los resi-
duos es o no lo bastante grande como para sospechar que los errores poblacionales no son in-
dependientes. Para decidir sobre esta cuestión puede utilizarse un diagrama de dispersión con
los casos en el eje horizontal y los residuos en el vertical (siempre, claro está, que el orden
de los casos obedezca a algún tipo de secuencia). Si los residuos son aproximadamente in-
dependientes, los puntos de este diagrama deben estar aleatoriamente repartidos en torno al
valor cero del eje vertical.
Los diagramas de la Figura 10.11 muestran diferentes pautas de autocorrelación. En con-
diciones de autocorrelación nula, la nube de puntos está aleatoriamente repartida en torno al
valor cero del eje vertical (diagrama de la izquierda); las subidas y bajadas de las líneas dis-
continuas que unen los puntos siguen una pauta aleatoria. En condiciones de autocorrelación
positiva, los puntos se encuentran alineados de forma creciente o decreciente, o a intervalos
crecientes y decrecientes amplios (diagrama del centro). Y en condiciones de autocorrela-

ción negativa, los residuos positivos y negativos se van alternando conforme se progresa en
la secuencia.
Figura 10.11. Diagramas de dispersión de los residuos dispuestos secuencialmente
• •
• • •• •
• • •
• • • • • • • • •
•
Residuos
Residuos
Residuos
• • • •• •
• • •
• •• •
• • • • • • •
• •
• • • • • • •
• •
•
Casos Casos Casos
El grado de autocorrelación entre los residuos también puede valorarse mediante el estadís-
tico de Durbin-Watson (1950, 1951, 1971):
DW = [10.42]
(con = ). Este estadístico toma valores entre 0 y 4. Los valores en torno a 2 indican
que los residuos son independientes; los valores menores que 2 indican autocorrelación po-
sitiva; los mayores que 2, autocorrelación negativa. Suele asumirse que los errores son in-
dependientes cuando el estadístico DW toma valores comprendidos entre 1,5 y 2,5 (existen
tablas para tomar decisiones sobre la hipótesis de autocorrelación nula; ver Draper y Smith,
1998, Cap. 9).
El supuesto de independencia también afecta a las variables independientes. Puesto que
los errores representan la parte de Y que el modelo de regresión no explica, es razonable espe-
rar que los errores no estén relacionados con las variables incluidas en la ecuación; si lo están,
entonces las variables independientes no están aportando al modelo todo lo que pueden. Es-
to puede valorarse elaborando diagramas de dispersión con cada variable independiente en
el eje horizontal y los residuos en el eje vertical. Los puntos de este diagrama deben estar
aleatoriamente repartidos en torno al valor cero del eje vertical (Figura 10.9, derecha).
Normalidad
Este supuesto y el siguiente son idénticos a los ya estudiados con el mismo nombre a propó-
sito de los modelos de análisis de varianza. En el modelo de regresión simple se asume que
a cada valor de X le corresponde una población de valores Y. La Figura 10.12 ilustra esta cir-
cunstancia. Cada una de estas poblaciones de valores Y se asume que son normales y que
están centradas en el valor esperado de Y, que es justamente por donde pasa la recta po-
blacional. En regresión múltiple se asume que existe una población normal de valores Y por
cada combinación distinta de valores Xj . El supuesto de normalidad es necesario para ga-
rantizar que los estadísticos utilizados al contrastar hipótesis del tipo β j = 0 se aproximan a
sus respectivas distribuciones muestrales.
Figura 10.12. Poblaciones de Y correspondientes a cada valor de X

Y
E (Y | Xi )
X
X1 X2 ··· Xn
Puesto que los valores de X se consideran fijos, la variabilidad de Y en su respectiva población

viene determinada únicamente por los errores, que son justamente las distancias entre cada
valor de Y y la recta poblacional. Por tanto, la variabilidad de Y es la variabilidad de los erro-
res, los cuales se asume que se distribuyen normalmente.
La normalidad de los errores puede valorarse a partir del grado en que la distribución de
los residuos se aproxima a una distribución normal. Y esto puede hacerse utilizando la misma
estrategia que con cualquier otra variable: un histograma y un diagrama de probabilidad nor-
mal (ver, en el Capítulo 2, el apartado Contrastes sobre la forma de la distribución).
Homocedasticidad
Las poblaciones de la Figura 10.12, además de normales, se asume que son homocedásticas,
es decir, que tienen la misma varianza. La media cuadrática error (MCE, ver ecuación [10.15])
que se utiliza en los estadísticos T y F y en los intervalos de confianza es una estimación de
la varianza de esas poblaciones normales. Cuando se calcula en una muestra concreta, la MCE
se obtiene promediando las varianzas de Y correspondientes a cada valor de X (o combinación
de valores Xj ). Si el promedio de esas varianzas muestrales, es decir, MCE , ha de utilizarse
con algún sentido, es necesario asumir que es el promedio de varianzas muestrales que es-
timan la misma varianza poblacional.
En condiciones de heterocedasticidad (varianzas distintas) los coeficientes Bj siguen
siendo estimadores insesgados de sus respectivos parámetros, pero se vuelven poco eficientes
(es decir, aumenta su varianza). Y esto implica, una vez más, que las pruebas de significación
y los intervalos de confianza podrían llevar a conclusiones erróneas.
Para valorar este supuesto puede utilizarse un diagrama de dispersión con los pronósti-
cos en el eje horizontal y los residuos en el vertical. Puesto que cada pronóstico es una com-
binación lineal de valores X, cada pronóstico distinto refleja una combinación distinta de
valores X. Al representar los pronósticos con los residuos se está obteniendo información
acerca de la dispersión de las distribuciones empíricas correspondientes a las distribuciones
poblacionales representadas en la Figura 10.12. Si la varianza de los residuos es constante,
la nube de puntos estará distribuida homogéneamente en torno al valor cero del eje vertical
(es decir, la nube de puntos tendrá aproximadamente la misma altura a lo largo de todo el eje
horizontal; ver Figura 10.13, izquierda). Los diagramas del centro y de la derecha de la Figu-
ra 10.13 muestran incumplimientos más o menos frecuentes de este supuesto.
Figura 10.13. Diagramas de dispersión: pronósticos por residuos
• • • • •
• • • • • •
• • • • •
• •• • • •• • •
•
•
•
• • • • • •
• • • •• • • • • • • • • •
Residuos
Residuos
Residuos
• • • • •
• • • •
• •
• •
• • •
• • • • • • • •• • • • • • • • • • • •
• • • • • • • • • • •
• • • • • • • • • • • • • • •
• • • • • •
• • •
•
Pronósticos Pronósticos Pronósticos
Los problemas asociados a la heterogeneidad de varianzas pueden resolverse utilizando el

método de estimación de mínimos cuadrados ponderados. Con esta estrategia, lo que se in-
tenta minimizar no es exactamente la suma de los residuos al cuadrado (como en el método
de mínimos cuadrados ordinarios; ver ecuación [10.2]), sino esa misma suma después de
ponderar cada residuo con un determinado peso wi , es decir, . El tamaño de
los pesos wi se fija haciéndoles tomar un valor inversamente proporcional a la varianza de
Y en cada valor de X (por ejemplo, wi = 1/X, o wi = 1/X 2 ).
Casos atípicos e influyentes

La calidad de una ecuación de regresión no viene determinada únicamente por lo bien que
consigue resumir una nube de puntos (bondad de ajuste). Valorar la calidad de una ecuación
y, si fuera posible, mejorarla, requiere, por un lado, vigilar el cumplimiento de los supuestos
en los que se basa y, por otro, controlar algunos detalles que podrían estar distorsionando los
resultados del análisis (casos mal pronosticados, casos excesivamente influyentes, etc.).
Estas dos tareas deberían abordarse antes que cualquier otra. Sin embargo, puesto que
ambas se basan, principalmente, en el análisis de los residuos, es inevitable tener que comen-
zar calculando la ecuación de regresión. Ahora bien, esto no significa que, una vez calcula-
da la ecuación, ésta ya pueda interpretarse y utilizarse para efectuar pronósticos. Antes de
hacer esto es necesario chequear los supuestos del análisis (ver apartado anterior) y realizar
algunos diagnósticos que se describen en este apartado.
Casos atípicos
Un caso atípico es un caso inusual, un caso que no se parece a los demás. Una exploración
descriptiva inicial de los datos, además de ofrecer una primera impresión sobre las caracte-
rísticas de cada variable, también sirve para detectar posibles casos atípicos. Sin embargo,
esto, que es algo muy útil en el caso de la regresión simple, no lo es tanto en el caso de la
regresión múltiple. El hecho de que no existan casos atípicos en ninguna variable indivi-
dualmente considerada no significa que todo esté bien. Es necesario valorar la posibilidad
de que existan casos atípicos multivariados: un caso puede tener una puntuación razonable
en dos variables individualmente consideradas y ser un caso atípico al combinar ambas va-
riables. Por ejemplo, no es inusual que una persona tenga una altura de 180 cm; tampoco lo
es que una persona tenga un peso de 55 kg; pero sí es inusual que una persona con una altura
de 180 cm tenga un peso de 55 kg.
Casos atípicos en Y
Puesto que los pronósticos de una ecuación de regresión representan el centro estimado de
cada distribución poblacional de Y (ver Figura 10.12), los residuos = son una es-
timación del grado en que cada valor de Y se aleja del valor esperado de su distribución. En
consecuencia, los casos atípicos en Y tendrán asociados residuos grandes (en valor absoluto).
Suele considerarse que los residuos que se alejan más de tres desviaciones típicas de su
media corresponden a casos mal pronosticados. Y los casos mal pronosticados son, proba-
blemente, casos atípicos en Y . El tamaño de los residuos puede valorarse tipificándolos:
= [10.43]
A estos residuos se les llama tipificados o estandarizados y tienen una media de cero y una
desviación típica de uno (aproximadamente). Por tanto, un residuo tipificado mayor que 3 (en
valor absoluto) está delatando un posible caso atípico en Y (es seguro que se trata de un caso
mal pronosticado y, por tanto, es probable que se trate de un caso atípico en Y ).
Tipificar los residuos a partir de MCE es solo una aproximación. Del mismo modo que
cada pronóstico tiene su propio error típico (ver ecuación [10.18]), cada residuo también tiene
el suyo29. Si cada residuo se tipifica dividiéndolo por su error típico, se obtienen unos residuos
muy utilizados en regresión lineal: los residuos studentizados:
= [10.46]
29
La varianza de un residuo Ei es tanto mayor cuanto más se aleja un caso de la media de X. En regresión simple, esta
varianza se obtiene mediante
= [10.44]
Puesto que la MCE está multiplicada por 1 menos una cantidad que depende de , el valor de [10.44] será tanto más
pequeño cuanto más alejado se encuentre de su media. En regresión múltiple, la varianza de E i se obtiene mediante
= [10.45]
donde hi se refiere a los elementos diagonales de la matriz H = X(X’ X)!1 X’. Esta matriz, de dimensiones n × n, recibe el
nombre de matriz hat y desempeña un importantísimo rol en el análisis de regresión lineal (contiene la información necesaria
para transformar el vector de valores observados en el de valores pronosticados: = HY ). Los elementos diagonales de H
representan el grado de alejamiento de cada caso respecto del centroide del espacio definido por el conjunto de variables
independientes X j . Reflejan la influencia (leverage) de cada caso en la forma final de la ecuación de regresión. El valor de
hi asociado a un caso es tanto mayor cuanto más alejado se encuentra ese caso de su centroide (es decir, del centro común
de las Xj ). Esto significa que la varianza de un residuo es tanto mayor cuanto más centrado se encuentra el caso (recuérdese
que con las varianzas de los pronósticos ocurre justamente lo contrario). No obstante, en [10.44] se puede_ apreciar que la
corrección que se aplica sobre MCE no depende únicamente de la distancia de un caso a su centro (Xi ! X ), sino del tamaño
muestral: cuanto mayor es el tamaño muestral, menor es la corrección que sufre MCE. Por tanto, con tamaños muestrales
grandes, los residuos studentizados definidos en [10.46] serán muy parecidos a los tipificados definidos en [10.43].
A estos residuos se les lama studentizados porque se distribuyen según el modelo de proba-
bilidad t de Student con n ! p ! 1 grados de libertad. Si puede asumirse que la variable Y se
distribuye normalmente en torno a la recta de regresión poblacional (ver Figura 10.12), en-
tonces los residuos studentizados pueden utilizarse para decidir si un determinado caso se
aleja significativamente de su valor pronosticado. Para ello, basta con comprobar si el valor
absoluto de es mayor que el cuantil 100 (1 ! α /2) de la distribución t con n ! p ! 1 grados
de libertad. Con muestras grandes, sigue siendo válido (y generalmente más útil) el criterio
de revisar aquellos casos con residuos studentizados mayores que 3 (en valor absoluto). Un
residuo que se aleja más de tres desviaciones típicas de su valor esperado está delatando un
caso mal pronosticado y, como tal, un caso que conviene revisar.
Un diagrama de dispersión con los pronósticos en el eje horizontal y los residuos en el
vertical suele ser bastante útil para identificar posibles casos atípicos en Y.
Casos atípicos en X j
El grado en que un caso es inusual o atípico en el conjunto de variables independientes X j
suele cuantificarse mediante una medida llamada influencia (leverage). Esta medida se repre-
senta mediante h i (ver nota a pie de página número 29, en la página anterior) y refleja el gra-
do de alejamiento de cada caso respecto del centro de su distribución, es decir, el grado de
alejamiento del conjunto de puntuaciones de un caso respecto de las puntuaciones medias de
todos los casos.
Los valores h i oscilan30 entre 1/n y 1, y su media vale ( p + 1) / n. Cuanto mayor es el valor
h i asociado a un caso, más inusual o atípico es en X j .
Para interpretar la magnitud de hi se han propuesto diferentes reglas (ver Chatterjee y
Hadi, 1988; Stevens, 1984). Hoaglin y Welsch (1978) sugieren revisar los casos con valores
h i mayores que 2 ( p + 1) / n. Pero Belsley, Kuh y Welsch (1980) consideran que este criterio
arroja demasiados casos atípicos, particularmente si se trabaja con pocas variables indepen-
dientes y muestras grandes. Stevens (1992) sugiere revisar los casos con valores h i mayores
que 3( p + 1)/n. Y una regla que funciona razonablemente bien para identificar casos atípicos
en Xj es la siguiente: los valores hi menores que 0,2 son poco problemáticos, los valores com-
prendidos entre 0,2 y 0,5 son arriesgados; los valores mayores que 0,5 deben revisarse.
Casos influyentes
Al calcular, por ejemplo, una media, todos los casos de la muestra tienen el mismo peso en
el resultado. En una ecuación de regresión no ocurre lo mismo. Aunque todos los casos contri-
buyen a estimar los coeficientes de la ecuación, no todos lo hacen en la misma medida. Los
casos influyentes son casos que afectan de forma importante a los resultados del análisis.
Un caso influyente no debe confundirse con un caso atípico. Los casos atípicos son casos
que conviene revisar, pero no necesariamente son casos influyentes. Para que un caso pueda
ser etiquetado de influyente, además de ser atípico, debe alterar de forma importante los resul-
tados del análisis.
30
Algunos programas informáticos, entre los que se encuentra el SPSS, no calculan los valores de influencia (valores de
la diagonal de la matriz H), sino los valores de influencia centrados (hi ! 1/ n), que oscilan entre 0 y (n ! 1) / n. Esta peque-
ña variante no afecta a la interpretación de los resultados, pero sí a la media de hi , que vale p / n en lugar de ( p + 1) / n.
Los ejemplos de la Figura 10.14 muestran casos atípicos que no pueden ser considerados
influyentes. La línea continua es a la recta de regresión basada en todos los casos; la línea dis-
continua es a la recta de regresión basada en todos los casos menos el atípico (el caso alejado
de los demás). El diagrama de la izquierda incluye un caso atípico en Y (su residuo es muy
grande), pero no en X (toma un valor intermedio en X ); el diagrama de la derecha incluye un
caso atípico en X (toma un valor muy grande X ) pero no en Y (su residuo es muy pequeño).
A pesar de que ambos son casos atípicos, las pendientes de las rectas de regresión apenas se
alteran al eliminar estos casos del análisis.
Figura 10.14. Diagramas de dispersión y rectas de regresión con casos atípicos no influyentes
Y Y
X X
Los ejemplos de la Figura 10.15 muestran casos que, además de atípicos, son influyentes. El
diagrama de la izquierda incluye un caso atípico tanto en Y como en X (su residuo es grande
y su valor en X es claramente mayor que el del resto de los casos); el de la derecha incluye
un caso atípico en X pero no en Y (toma un valor grande en X pero su residuo es pequeño).
Ahora, a diferencia de lo que ocurría en los diagramas de la Figura 10.14, las pendientes de
las rectas de regresión cambian sensiblemente al eliminar estos casos del análisis.
Figura 10.15. Diagramas de dispersión y rectas de regresión con casos atípicos e influyentes
Y Y
X X
Los diagramas de dispersión sirven para identificar con relativa facilidad la presencia de po-
sibles casos influyentes en regresión simple, pero son poco útiles en regresión múltiple. Al
aumentar el número de variables, la forma de valorar el grado de influencia de un caso consis-
te en comparar lo que ocurre cuando se utilizan todos los casos con lo que ocurre al eliminar
ese caso del análisis. Esta comparación se centra, por lo general, en tres resultados del aná-
lisis: (1) los coeficientes de regresión, (2) los pronósticos y (3) los residuos.
Para realizar estas comparaciones se estiman n + 1 ecuaciones de regresión: una basada
en todos los casos y las n restantes eliminando un caso cada vez. A los resultados basados en
todos los casos los hemos llamado , , , etc. A los resultados basados en todos los casos
menos uno los llamaremos , , , etc. Por ejemplo, mientras que es el pronóstico
obtenido para el caso i con la ecuación de regresión que incluye todos los casos, es el pro-
nóstico obtenido para el caso i con la ecuación de regresión que incluye todos los casos menos
el caso i.
Cambio en los coeficientes de regresión

El cambio en los coeficientes de regresión puede valorarse de forma individual o de forma co-
lectiva. La influencia de un caso sobre cada uno de los coeficientes de regresión puede valo-
rarse a partir de la diferencia entre los coeficientes de regresión tipificados (Belsley, Kuh
y Welsch, 1980):
DFBETAS j (i) = [10.47]
El subíndice j indica que estas diferencias pueden calcularse con cualquier coeficiente de
regresión (incluida la intersección); el subíndice i indica que hay una de estas diferencias
para cada caso. Por tanto, a cada caso le corresponde un valor DFBETAS j (i) por cada coefi-
ciente de regresión presente en la ecuación.
Para interpretar estas diferencias, lo habitual es tipificarlas dividiéndolas entre su error
típico (ver Montgomery, Peck y Vining, 2001, págs. 213-214). Los promotores de este esta-
dístico sugieren revisar los casos a los que les corresponde alguna DFBETAS j (i) tipificada
mayor que .
Cook (1977, 1979) ha propuesto el estadístico probablemente más conocido y utilizado
para valorar la influencia de cada caso sobre los resultados de la regresión. Este estadístico
se conoce como distancia de Cook ( ) y se basa en la suma de los cambios que se produ-
cen en los coeficientes de regresión al ir eliminando cada caso del análisis31. Por tanto, a
diferencia de lo que ocurre con el estadístico DFBETAS j (i) , que se centra en el cambio de
cada coeficiente, el estadístico refleja el cambio que experimentan todos los coeficien-
tes de forma simultánea o conjunta. Cook y Weisberg (1982) señalan que este estadístico se
aproxima a una distribución F con p + 1 y n ! p ! 1 grados de libertad, y sugieren que un caso
debe ser considerado influyente (y por tanto, que debe ser revisado) cuando es mayor que
el cuantil Fp + 1, n ! p ! 1; 0,50 (cuantil 50). Esto equivale, en la mayoría de los casos, a considerar
que un caso es influyente cuando > 1.
31
La distancia de Cook puede calcularse mediante:
= [10.48]
En esta forma concreta de definir se observa claramente que la distancia asociada a un caso concreto depende del ta-
maño de hi y del tamaño de . Ambos valores tienen que ser altos para que también lo sea. Ahora bien, puesto que
hi es una medida del grado en que un caso es atípico en X j y es una medida del grado en que un caso es atípico en Y,
el estadístico está identificando un caso como influyente cuando es atípico simultáneamente en X j y en Y.
Cambio en los pronósticos

Otra forma de valorar la influencia de un caso sobre los resultados de la regresión consiste
en calcular la diferencia entre los valores pronosticados (Belsley, Kuh y Welsch, 1980):
DFFITS (i) = [10.49]
A cada caso le corresponde un valor DFFITS(i). Para interpretar estas diferencias, se tipifican
dividiéndolas entre su error típico (ver Montgomery, Peck y Vining, 2001, pág. 214). Debe
prestarse especial atención a los casos a los que les corresponde una DFFITS(i) tipificada ma-
yor que .
Cambio en los residuos

Finalmente, la influencia de un caso sobre los resultados de la regresión puede valorarse a
partir de la diferencia entre su residuo y el residuo obtenido al eliminar el caso de la ecuación.
Al residuo correspondiente a un caso que no forma parte de la ecuación se le llama residuo
eliminado:
= [10.50]
Hemos visto que la mejor manera de valorar el tamaño de un residuo consiste en studentizar-
lo, es decir, en dividirlo por su error típico individual32 en lugar de hacerlo por el error típico
promedio de todos los residuos. Con los residuos eliminados se hace lo mismo. A la versión
tipificada de un residuo eliminado se le llama residuo eliminado studentizado. Si un caso
es influyente, estos residuos tomarán valores alejados de cero. Puesto que la distribución de
estos residuos se aproxima a una t con n ! p ! 2 grados de libertad, lo razonable es revisar
los casos cuyo residuo eliminado studentizado (en valor absoluto) sea mayor que 3.
Qué hacer con los casos atípicos e influyentes

Los casos atípicos son casos anómalos en algún sentido; son casos que no se parecen al resto.
Y es importante revisarlos porque pueden estar alterando los resultados del análisis.
En ocasiones, los casos atípicos serán el resultado de errores de registro o codificación
y el problema quedará resuelto simplemente introduciendo el código correcto o eliminando
el caso del análisis si no existe posibilidad de corregirlo. Pero otras veces se tratará de casos
reales, plausibles, que no se parecen al resto por diferentes circunstancias susceptibles de ser
identificadas.
Como regla general, un caso atípico no puede ser excluido del análisis simplemente por-
que no gusta. Antes de eliminarlo es necesario valorar cómo afecta a los resultados del aná-
lisis (si los altera o no) y comprobar si obedece a algún tipo de debilidad de la ecuación (no
incluye alguna variable relevante, no pronostica bien cierto rango de valores de la variable
dependiente, etc.).
32
La varianza de un residuo se obtiene a partir de la ecuación [10.45]. La varianza de un residuo eliminado se obtiene de
forma algo distinta: = .
Puede ocurrir que un caso atípico se corresponda con una respuesta deseable o incluso
ideal (una recuperación espectacular, un rendimiento excelente, etc.). En estos casos, conocer
los valores que toma un caso atípico en las variables independientes puede aportar informa-
ción muy valiosa para futuros estudios.
No existe un acuerdo generalizado sobre la conveniencia o no de eliminar los casos atípi-
cos. No existe, por tanto, una única regla en la que basar esta decisión. Pero es innegable que,
para tomarla, puede ayudar el hecho de saber que, cuando se decide eliminar un caso del aná-
lisis, hay que informar de las razones que han llevado a hacer tal cosa.
Los casos atípicos podrían ser eliminados del análisis con la excusa de que están entor-
peciendo o inflando el ajuste. Pero, sin otro tipo de justificación, estaríamos pasando por alto
el hecho de que el aspecto más relevante de los relacionados con los casos atípicos consiste
precisamente en identificar las causas por las que son atípicos.
También podrían eliminarse los casos muy atípicos con el argumento de que el objetivo
del análisis es construir una ecuación para entender lo que ocurre con los casos típicos, no con
los atípicos. Este argumento es más convincente si los casos atípicos representan a una sub-
población especial que se sale del rango de variación típico o esperable en la población es-
tudiada. Sin embargo, si existe un conjunto de casos atípicos que parece formar un subgrupo
separado del resto, lo razonable es incorporarlos a la ecuación de regresión creando una varia-
ble dicotómica (con unos y ceros para diferenciar ambos subgrupos) o desarrollar diferentes
ecuaciones de regresión para los diferentes subgrupos (como se hace con los modelos multi-
nivel que estudiaremos en el volumen 3).
Una solución intermedia entre retener y eliminar los casos atípicos consiste en utilizar
métodos de estimación robustos, es decir, métodos cuyas estimaciones se ven menos alteradas
que las mínimo-cuadráticas por la presencia de casos atípicos o influyentes (ver por ejemplo,
Huynh, 1982; Neter, Kutner, Nachtscheim y Wasserman, 1996; Rousseeuw & Leroy, 1987).
Y cualquiera que sea la decisión que finalmente se decida adoptar con un caso atípico o
influyente, no debe olvidarse que el hecho de que un caso sea considerado atípico o influyente
siempre se hace tomando como referencia una ecuación de regresión concreta. Si la ecuación
cambia porque se incorporan nuevas variables o porque se elimina alguna de las incluidas,
los casos etiquetados como atípicos o influyentes pueden dejar de serlo y otros que antes no
lo eran pueden pasar a serlo.
Regresión lineal con SPSS

Regresión múltiple
Este apartado muestra cómo utilizar el SPSS para llevar a cabo un análisis de regresión lineal
con los datos de la Tabla 10.1 (los datos se encuentran en el archivo Tabla 10.1 depresión
hamilton reducido, en la página web del manual).
Para cubrir los diferentes objetivos del análisis vamos a realizar siete tareas: (1) obtener
la recta de regresión en puntuaciones directas y en puntuaciones típicas; (2) valorar el ajuste
de la recta mediante el coeficiente de determinación; (3) contrastar si los coeficientes de
regresión son distintos de cero y calcular sus intervalos de confianza; (4) obtener los pro-
nósticos que se derivan de la ecuación de regresión; (5) valorar la importancia relativa de
cada variable independiente; (6) chequear los supuestos del análisis; y (7) averiguar si exis-
ten casos atípicos e influyentes. Para llevar acabo estas siete tareas,
' Seleccionar la opción Regresión > Lineal del menú Analizar para acceder al cuadro de diá-
logo Regresión lineal.
' Trasladar la variable recuperación al cuadro Dependiente y las variables basal, edad y tto
a la lista Independientes.
Con estas selecciones ya se obtiene la ecuación de regresión, el coeficiente de determinación
y la significación de los coeficientes, es decir, la información necesaria para cubrir los tres
primeros objetivos del análisis. Para terminar de completar estos tres objetivos únicamente
faltan los intervalos de confianza de los coeficientes de regresión. Para obtenerlos,
' Pulsar el botón Estadísticos para acceder al subcuadro de diálogo Regresión lineal: Esta-
dísticos y marcar la opción Intervalos de confianza del recuadro Coeficientes de regresión.
Bondad de ajuste
Los resultados del análisis comienzan con la Tabla 10.2, la cual incluye información relativa
al ajuste global de la ecuación de regresión: el coeficiente de correlación múltiple (R = 0,89;
ver ecuación [10.25]), el coeficiente de determinación (R cuadrado = 0,79; ver ecuaciones
[10.26] y [10.27]), el coeficiente de determinación corregido (R cuadrado corregida = 0,75;
ver ecuación [10.28]) y la raíz cuadrada de la media cuadrática error (error típico de la esti-
mación = 2,08; raíz cuadrada de la ecuación [10.31]).
Recordemos que cuanto mayor es el coeficiente de determinación, mejor es el ajuste. Un
valor corregido de 0,75 indica, en primer lugar, que la ecuación de regresión permite reducir
los errores de predicción en un 75 % y, en segundo lugar, que las variables basal, edad y tto
comparten el 75 % de la varianza de la variable recuperación. Por tanto, conocer las puntua-
ciones basales de los pacientes, su edad y el tratamiento que han recibido permite entender
(anticipar, explicar, etc.) el 79% de la variabilidad de su recuperación.
Tabla 10.2. Resumen del modelo (bondad de ajuste)

Modelo: 1
R R cuadrado R cuadrado corregida Error típ. de la estimación
,89 ,79 ,75 2,08
A continuación de la información sobre el ajuste global aparece el estadístico F (Tabla 10.3).

Este estadístico (ver ecuación [10.30]) permite contrastar la hipótesis nula de que el coeficien-
te de correlación múltiple vale cero en la población (ver ecuación [10.29]). El rechazo de esta
hipótesis indica que las variables independientes incluidas en la ecuación correlacionan sig-
nificativamente con la variable dependiente. El no rechazo indica que no existe evidencia de
relación lineal y, consecuentemente, que las variables independientes incluidas en la ecuación
no ayudan a entender o explicar el comportamiento de la variable dependiente. En nuestro
ejemplo, puesto que el estadístico F = 20,26 tiene asociado un nivel crítico menor que 0,05
(sig. < 0,0005), podemos rechazar la hipótesis nula y concluir que existe relación lineal sig-
nificativa.
La media cuadrática de la regresión y la media cuadrática residual corresponden al nu-

merador y al denominador del estadístico F ( ver ecuación [10.30]).
Tabla 10.3. ANOVA (estadístico F )

Modelo: 1
Regresión 261,99 3 87,33 20,26 ,000
Residual 68,96 16 4,31
Total 330,95 19
Ecuación de regresión
La mitad izquierda de la Tabla 10.4 recoge la información relativa a la ecuación de regresión
(ver ecuación [10.23]). La columna etiquetada coeficientes no tipificados contiene las esti-
maciones de los coeficientes de regresión parcial Bj que definen la ecuación de regresión en
puntuaciones directas (ver ecuación [10.23]):
Pronóstico (recuperación) = !8,88 + 0,40 (basal ) ! 0,01 (edad ) + 4,93 (tto)
Los coeficientes beta (coeficientes tipificados) son los coeficientes que definen la ecuación
de regresión en puntuaciones típicas, es decir, los coeficientes de regresión que se obtienen
cuando la ecuación de regresión se estima después de transformar las puntuaciones originales
en puntuaciones Z (ver ecuación [10.24]). Estos coeficientes tipificados también pueden ob-
tenerse multiplicando el correspondiente coeficiente de regresión no tipificado por .
El valor de estos coeficientes indica que la variable tratamiento es la que más peso tiene en
los pronósticos (0,61), seguida de basal (0,47).
Tabla 10.4. Coeficientes de regresión

Modelo: 1
Coeficientes no Coeficientes Intervalo de confianza para
tipificados tipificados B al 95%
B Error típ. Beta t Sig. Lím. inferior Lím. superior
(Constante) -8,88 7,54 -1,18 ,257 -24,87 7,12
Basal ,40 ,11 ,47 3,82 ,001 ,18 ,63
Edad -,01 ,11 -,01 -,07 ,947 -,23 ,22
Tratamiento 4,93 1,56 ,61 3,16 ,006 1,62 8,23

La mitad derecha de la Tabla 10.4 contiene las pruebas de significación individuales para ca-
da coeficiente de regresión. Cada estadístico t (ver ecuación [10.33]) permite contrastar la hi-
pótesis nula de que el j-ésimo coeficiente de regresión vale cero en la población (ver ecuación
[10.32]). Estos estadísticos se obtienen dividiendo cada coeficiente no tipificado entre su error
típico (ver ecuación [10.33]). En nuestro ejemplo, las variables basal y tratamiento tienen
asociados coeficientes de regresión distintos de cero (sig. = 0,001 y sig. = 0,006, respecti-
vamente); ambas variables contribuyen significativamente al ajuste. La variable edad tiene

asociado un coeficiente de regresión no significativo (sig. = 0,947); por tanto, puede ser ex-
cluida de la ecuación sin pérdida de ajuste.
Pronósticos
Hasta aquí, la información que ofrece el procedimiento por defecto. Para cubrir el resto de los
objetivos del análisis es necesario solicitar información de forma explícita. Para obtener los
pronósticos que ofrece la ecuación de regresión,
' Pulsar el botón Guardar para acceder al subcuadro de diálogo Regresión lineal: Guardar
nuevas variables y marcar la opción No tipificados del recuadro Valores pronosticados y las
opciones Media e Individuos del recuadro Intervalos de pronóstico.
Estas selecciones crean en el archivo de datos cinco variables. La opción No tipificados crea
una variable con los pronósticos: PRE_#. La opción Media crea dos variables con los límites
inferior y superior del intervalo de confianza correspondiente a los pronósticos promedio:
LMCI_# y UMCI_#. La opción Individuos crea dos variables con los límites inferior y supe-
rior del intervalo de confianza correspondiente a los pronósticos individuales: LICI_# y
UICI_# (para una aclaración del significado de estos intervalos de confianza, ver el apartado
Cómo efectuar pronósticos; pág. 384). El símbolo # va cambiando (1, 2, 3...) si el procedi-
miento se ejecuta varias veces durante la misma sesión.
Importancia relativa de las variables

Recordemos que la importancia relativa de las variables dentro de una ecuación de regresión
puede valorarse atendiendo a dos criterios diferentes: su peso en los pronósticos y su contri-
bución neta al ajuste global. Del peso de cada variable en los pronósticos informan los coefi-
cientes de regresión tipificados (ver Tabla 10.4). La contribución de cada variable al ajuste
global viene dada por los coeficientes de correlación semiparcial elevados al cuadrado. Para
obtener estos coeficientes de correlación,
' En el cuadro de diálogo principal, pulsar el botón Estadísticos para acceder al subcuadro
de diálogo Regresión lineal: Estadísticos y marcar la opción Correlaciones parciales y semi-
parciales.
Al marcar esta opción, la tabla de coeficientes (ver Tabla 10.4) incluye información adicional
(ver Tabla 10.5) referida a tres coeficientes de correlación entre cada variable independiente
y la dependiente: el simple o de orden cero, el parcial y el semiparcial. Las correlaciones se-
miparciales informan del grado de relación existente entre cada variable independiente y la
dependiente tras eliminar de la variable independiente el efecto atribuible al resto de variables
independientes incluidas en la ecuación. En nuestro ejemplo, la correlación simple entre la
edad y la recuperación vale !0,58; sin embargo, la correlación semiparcial vale !0,01. Esto
significa que, al eliminar de la edad el efecto atribuible a las variables basal y tratamiento,
la relación entre la edad y la recuperación se desvanece.
Elevando al cuadrado los coeficientes de correlación semiparcial se obtiene la contri-
bución neta de cada variable al ajuste global: la variable basal contribuye con un 19 % (pues
0,442 = 0,19); la variable edad no contribuye al ajuste global (pues !0,012 = 0,0001); y la va-
riable tratamiento contribuye con un 13 % (pues 0,362 = 0,13).
Estos resultados indican que, aunque la variable tratamiento es la que más peso tiene en
los pronósticos, la variable basal es la que más contribuye al ajuste global. Sin embargo, es-
ta incongruencia entre ambos criterios de importancia es solo aparente. La presencia en la
ecuación de una variable irrelevante (la edad ) está distorsionando ligeramente los resulta-
dos del análisis. Al excluir la variable edad (ver Tabla 10.6), ocurre que tanto el coeficiente
de regresión tipificado más alto (0,62) como el coeficiente de correlación semiparcial más
alto (0,58) corresponden a la variable tratamiento.
Tabla 10.5. Coeficientes de regresión y coeficientes de correlación parcial y semiparcial (basal, edad, tto)
Modelo: 1
Coeficientes no Coeficientes
tipificados tipificados Correlaciones
B Error típ. Beta t Sig. Orden cero Parcial Semiparcial
(Constante) -8,88 7,54 -1,18 ,257
Basal ,40 ,11 ,47 3,82 ,001 ,68 ,69 ,44
Edad -,01 ,11 -,01 -,07 ,947 -,58 -,02 -,01
Tratamiento 4,93 1,56 ,61 3,16 ,006 ,77 ,62 ,36
Tabla 10.6. Coeficientes de regresión y coeficientes de correlación parcial y semiparcial (basal, tto)
Modelo: 1
tipificados tipificados Correlaciones
B Error típ. Beta t Sig. Orden cero Parcial Semiparcial
(Constante) -9,35 2,87 -3,26 ,005
Basal ,40 ,10 ,47 3,96 ,001 ,68 ,69 ,44
Tratamiento 5,01 ,96 ,62 5,23 ,000 ,77 ,79 ,58
Chequeo de los supuestos

Antes de interpretar una ecuación de regresión es necesario comprobar que se dan las condi-
ciones para poder hacerlo. Esto exige realizar una serie de diagnósticos relativos al cumpli-
miento de los supuestos y a la posible presencia de casos atípicos e influyentes.
Por supuesto, lo primero que conviene hacer (en esto, el análisis de regresión no es dis-
tinto de otros tipos de análisis) es calcular unos descriptivos básicos sobre las variables que
se tiene intención de incluir en el análisis (media, desviación típica, valores mínimo y má-
ximo, etc.). Esto puede hacerse marcando la opción Descriptivos del subcuadro de diálogo
Regresión lineal: Estadísticos. Esta opción permite obtener la media y la desviación típica
de cada variable y la matriz de correlaciones entre cada par de variables, incluida la depen-
diente. Si se desea realizar una exploración descriptiva más completa puede utilizarse cual-
quiera de los procedimientos para análisis descriptivo disponibles en el SPSS (ver Capítulos
3 y 4 del primer volumen).
Después de esta primera revisión descriptiva, lo razonable es chequear los cinco supues-
tos del análisis: linealidad, no colinealidad, independencia, normalidad y homocedasticidad.
En primer lugar hay que asegurarse de que las variables incluidas en la ecuación de regre-
sión están linealmente relacionadas con la dependiente. Para esto utilizamos diagramas de
dispersión parcial. Para obtener estos diagramas,
' En el cuadro de diálogo principal, pulsar el botón Gráficos para acceder al subcuadro de
diálogo Regresión lineal: Gráficos y marcar la opción Generar todos los gráficos parciales.
Esta opción permite obtener un gráfico de dispersión parcial por cada variable independiente.
Los diagramas correspondientes a las variables basal y edad ya los hemos presentado en la
Figura 10.10. Allí tuvimos ocasión de comprobar que la relación parcializada entre basal y
recuperación contiene un componente lineal que no se observa en la relación parcializada en-
tre edad y recuperación. La información que ofrecen estos gráficos parciales es exactamen-
te la misma que la que ofrecen los coeficientes de correlación parcial (ver Tabla 10.5). Y la
significación estadística de estos coeficientes de correlación parcial es idéntica a la de los
correspondientes coeficientes de regresión B j . En nuestro ejemplo, la relación parcializada
entre la edad y la recuperación no es significativa ( sig. = 0,947). Y esto indica que, una vez
eliminado el efecto atribuible a basal y tratamiento, no existe evidencia de relación lineal
entre edad y recuperación (ver nota a pie de página número 19).
Para chequear el supuesto de no colinealidad hay que valorar el grado de relación lineal
existente entre las variables independientes. En nuestro ejemplo no se observa ninguno de los
indicios que podrían delatar la presencia de elevada colinealidad: no hay incongruencia en-
tre la significa ción del estadístico F y la de los coeficientes de regresión (el estadístico F es
significativo y también lo son algunos de los coeficientes de regresión); no existen coefi-
cientes de regresión con signo distinto del esperado (todos los coeficientes de regresión tienen
el mismo signo que las correlaciones de orden cero); y no existen coeficientes de regresión
tipificados mayores que uno en valor absoluto. Además de estos sencillos indicios, conviene
revisar algunos estadísticos relacionados con este supuesto de no colinealidad; en concreto,
los niveles de tolerancia y los factores de inflación de la varianza. Para ello,
' En el cuadro de diálogo principal, pulsar el botón Estadísticos para acceder al subcuadro
de diálogo Regresión lineal: Estadísticos y marcar la opción Diagnósticos de colinealidad.
Con esta opción, la tabla de coeficientes (ver Tabla 10.4) incluye información adicional (ver
Tabla 10.7); en concreto, los niveles de tolerancia y los factores de inflación de la varianza
(FIV ). Recordemos que los posibles problemas asociados a un exceso de colinealidad solo
empiezan a aparecer con tolerancias pequeñas (menores que 0,10) y valores FIV grandes
(mayores que 10). No parece que en nuestro ejemplo haya problemas de colinealidad33.
33
Al solicitar los diagnósticos de colinealidad también se obtiene una tabla con autovalores, índices de condición y propor-
ciones de varianza. Una explicación detallada de estos estadísticos excede el alcance de este manual, pero es posible enten-
derlos e interpretarlos con una breve explicación. En primer lugar se lleva a cabo un análisis de componentes principales
para identificar las variables independientes que correlacionan entre sí (se trata de una técnica de reducción de datos en la
que el primer componente es la combinación entre variables que explica la mayor cantidad de la variabilidad total; el segun-
do componente es la combinación entre variables que, además de ser independiente de la anterior, explica la mayor cantidad
de la variabilidad restante; etc.). Los autovalores indican la cantidad de varianza que explica cada componente; si uno o
más autovalores valen cero, entonces una o más variables están perfectamente relacionadas entre sí (colinealidad perfecta).
Los índices de condición son las raíces cuadradas de los cocientes entre el autovalor más grande y el autovalor de cada com-
ponente; por lo general, un índice mayor que 15 suele estar delatando un problema de colinealidad; y un índice mayor que
30 suele ir asociado a graves problemas de colinealidad. Las proporciones de varianza indican qué proporción de la va-
rianza de cada coeficiente de regresión está asociada a cada componente; existen problemas de colinealidad cuando un mis-
mo componente explica más del 50 % de la varianza de al menos dos coeficientes de regresión (excluida la intersección).
Tabla 10.7. Coeficientes de regresión (con estadísticos de colinealidad)

Modelo: 1
Coeficientes no Coeficientes Estadísticos de
estandarizados estandarizados colinealidad
B Error típ. Beta t Sig. Tolerancia FIV
(Constante) -8,88 7,54 -1,18 ,257
Basal ,40 ,11 ,47 3,82 ,001 ,87 1,15
Edad -,01 ,11 -,01 -,07 ,947 ,39 2,59
Tratamiento 4,93 1,56 ,61 3,16 ,006 ,36 2,82
El supuesto de independencia solamente hay que chequearlo cuando la recogida se hace de

forma secuencial. Para valorar el cumplimiento de este supuesto tenemos dos herramientas:
el estadístico de Durbin-Watson y un gráfico de dispersión con los casos en el eje vertical (en
el orden en el que se han recogido) y los residuos en el vertical. Marcando la opción Durbin-
Watson (está disponible en el subcuadro de diálogo Regresión lineal: Estadísticos) se obtiene
el valor del estadístico de Durbin-Watson como parte de la tabla resumen del modelo (ver Ta-
bla 10.2). En nuestro ejemplo, este estadístico toma un valor de 2,34; puesto que este valor se
encuentra dentro del rango 2 ± 0,5, no hay razón para cuestionar el supuesto de independencia.
Para obtener un diagrama de dispersión con los casos en el eje horizontal y los residuos
en el vertical hay que generar primero los residuos. Para ello,
' En el cuadro de diálogo principal, pulsar el botón Guardar para acceder al subcuadro de
diálogo Regresión lineal: Guardar y marcar la opción No tipificados del recuadro Residuos.
Esta opción crea una nueva variable en el archivo de datos con los residuos que se derivan
de la ecuación de regresión. Una vez que se dispone de los residuos ya es posible utilizar el
menú Gráficos de la barra de menús principal para obtener el correspondiente diagrama de
dispersión. Con cualquiera de las opciones disponibles en SPSS para obtener diagramas de
dispersión se obtiene un diagrama como el que muestra la Figura 10.16. Hemos unido con
líneas los puntos para resaltar la idea de que no se observa una pauta discernible en el tama-
ño de los residuos (ver Figura 10.11)
Figura 10.16. Diagrama de dispersión de los residuos dispuestos secuencialmente
Para valorar el supuesto de normalidad vamos a obtener un histograma y un diagrama de dis-

persión normal, ambos basados en los residuos. Para ello,
diálogo Regresión lineal: Gráficos y marcar las opciones Histograma y Gráfico de probabi-
lidad normal del recuadro Gráficos de los residuos tipificados.
En el histograma de los residuos hay que vigilar, sobre todo, si existen residuos que se alejan
excesivamente por una de las dos colas de la distribución. Se trataría de casos mal pronos-
ticados (probablemente atípicos en Y ), que estarían causando un alejamiento serio de la nor-
malidad. El histograma de nuestro ejemplo (ver Figura 10.17, gráfico de la izquierda) indica
que faltan casos por la cola izquierda de la distribución; pero no se observan residuos muy
alejados del centro por ninguna de las dos colas.
En un gráfico de probabilidad normal (Figura 10.17, gráfico de la derecha) se comparan
las probabilidades observadas con las probabilidades teóricas de una distribución normal. En
el eje horizontal están representadas las probabilidades acumuladas hasta cada residuo, orde-
nados éstos desde el más pequeño al más grande; en el eje vertical están representadas las pro-
babilidades normales acumuladas hasta la puntuación típica correspondiente a cada residuo.
Cuando una distribución empírica se aproxima a una distribución teórica normal, los puntos
del diagrama se encuentran alineados en torno a la diagonal representada en el diagrama. Las
desviaciones de la diagonal indican desviaciones de la normalidad. En el diagrama de nuestro
ejemplo se observa cierto alejamiento de la normalidad en la parte inferior de la distribución.
También es posible contrastar la hipótesis de normalidad con alguno de los estadísticos
propuestos en el apartado Contrastes sobre bondad de ajuste del Capítulo 2 (sin olvidar que
estos estadísticos son demasiado sensibles a pequeñas desviaciones de la normalidad, parti-
cularmente con muestras grandes).
Figura 10.17. Histograma de los residuos y diagrama de dispersión normal
Por último, el supuesto de homocedasticidad puede valorarse representando en un diagra-

ma de dispersión los pronósticos y los residuos. Para obtener este diagrama, primero habría
que generar los pronósticos y los residuos. No obstante, el diagrama no se altera si en lugar
de los pronósticos y los residuos en bruto se utilizan los pronósticos y los residuos tipifica-
dos. Y para esto no es necesario crear variables nuevas. El procedimiento Regresión lineal
permite solicitar diagramas de dispersión con algunas de las variables que el sistema genera
automáticamente al realizar un análisis de regresión. Entre estas variables se encuentran los
pronósticos tipificados y los residuos tipificados:
diálogo Regresión lineal: Gráficos y trasladar la variable *ZPRED al eje X y la variable
*ZRESID al eje Y (el asterisco colocado delante del nombre de la variable indica que se
trata de variables del sistema; no son variables del archivo de datos).
La Figura 10.18 muestra una nube de puntos homogéneamente dispersa (aproximadamente)
a lo largo del eje horizontal. Quizá es menor la dispersión asociada a los pronósticos tipifi-
cados próximos a cero, pero no se observa un incumplimiento serio del supuesto de homoce-
dasticidad.
Figura 10.18. Diagrama de dispersión: pronósticos por residuos
Casos atípicos e influyentes

Para diagnosticar la posible presencia de casos atípicos e influyentes vamos a solicitar los seis
estadísticos propuestos en el apartado Casos atípicos e influyentes (pág. 406): los residuos
studentizados para valorar si existen casos atípicos en Y ; los valores de influencia (en SPSS,
hi ! 1/ n , es decir, valores de influencia centrados) para identificar posibles casos atípicos en
X j ; y los residuos eliminados studentizados, las distancias de Cook, las DFBETAS j (i) y las
DFFITS (i) para valorar si existen casos influyentes. Para obtener estos seis estadísticos,
' En el cuadro de diálogo principal, pulsar el botón Guardar para acceder al subcuadro de
diálogo Regresión lineal: Guardar; marcar las opciones Studentizados y Eliminados stu-
dentizados del recuadro Residuos; marcar las opciones Influencia y Cook del recuadro
Distancias34; marcar las opciones DfBetas tipificadas y DfAjuste tipificada del recuadro Es-
tadísticos de influencia35.
Las opciones Influencia, Cook, DfAjuste tipificada, Studentizados y Eliminados studentizados ge-
neran, cada una de ellas, una nueva variable en el archivo de datos. La opción DfBetas tipifi-
34
La distancia de Mahalanobis (1936) disponible en este recuadro se obtiene multiplicando por n ! 1 la medida de influen-
cia h i. La información que ofrece, por tanto, es idéntica a la que ofrece h i (ver Stevens, 1984).
35
La razón entre covarianzas (RV) que incluye este recuadro es también un estadístico de influencia. Se obtiene dividien-
do los determinantes de las matrices de varianzas-covarianzas (base del análisis de regresión) cuando el caso está presente
en la ecuación y cuando se elimina. Este cociente vale aproximadamente 1 cuando un caso no es influyente. Con muestras
grandes, se considera que un caso es influyente si le corresponde un valor RV mayor que 1 + 3 p / n o menor que 1 ! 3 p / n.
cadas genera una variable por cada coeficiente de regresión (incluida la intersección). No es
necesario revisar estas variables caso a caso; esto puede hacerse utilizando cualquiera de los
procedimientos SPSS disponibles para explorar variables.
Además, el SPSS ofrece, como parte de los resultados del análisis de regresión, una tabla
resumen con información sobre algunas de estas variables. La Tabla 10.8 muestra estos resul-
tados. Los residuos studentizados toman valores comprendidos entre !1,16 y 2,14; puesto
que no hay residuos mayores que 3 en valor absoluto, no parece que haya casos atípicos en
Y. El valor de influencia más alto (aparece en la tabla como valor de influencia centrado)
vale 0,32; por tanto, tampoco parece que haya casos atípicos en X j (recordemos que los
valores menores que 0,50 no suelen ser problemáticos). La distancia de Cook más alta vale
0,68; por tanto, no parece que haya que preocuparse por la presencia de puntos influyentes
(recordemos que los valores menores que 1 no son problemáticos). Y los residuos eliminados
studentizados oscilan entre !1,17 y 2,46; tampoco estos residuos detectan casos influyentes
(además, eliminando la variable edad de la ecuación, puede comprobarse que el residuo stu-
dentizado más grande vale 1,92, el valor de influencia más alto 0,23, la distancia de Cook
más alta 0,26 y el residuo eliminado studentizado más grande 2,10).
La tabla no incluye las diferencias entre los coeficientes de regresión (DFBETAS j (i) ) ni
las diferencias entre los pronósticos (DFFITS (i) ). Para revisar estos estadísticos hay que
recurrir a las variables creadas en el archivo de datos (lo cual solamente será necesario si el
valor absoluto de algún residuo eliminado studentizado es mayor que tres o alguna distancia
de Cook mayor que uno).
Tabla 10.8. Resumen descriptivo de algunas variables creadas por el procedimiento Regresión lineal
Mínimo Máximo Media Desviación típ. N
Valor pronosticado 4,12 16,00 9,95 3,71 20
Valor pronosticado tipificado -1,57 1,63 ,00 1,00 20
Error típico del valor pronosticado ,67 1,27 ,91 ,17 20
Valor pronosticado corregido 2,38 16,00 9,87 3,85 20
Residuo bruto -2,12 3,57 ,00 1,91 20
Residuo tipificado -1,02 1,72 ,00 ,92 20
Residuo studentizado -1,16 2,14 ,02 1,05 20
Residuo eliminado -2,73 5,62 ,08 2,51 20
Residuo eliminado studentizado -1,17 2,46 ,05 1,11 20
Distancia de Mahalanobis 1,03 6,13 2,85 1,42 20
Distancia de Cook ,00 ,68 ,09 ,15 20
Valor de influencia centrado ,05 ,32 ,15 ,07 20
Regresión jerárquica o por pasos
Este apartado muestra cómo construir una ecuación de regresión por pasos con los datos de
la Tabla 10.1 (los datos se encuentran en el archivo Tabla 10.1 depresión hamilton reducido).
Únicamente prestaremos atención a los aspectos característicos de esta forma de proce-
der: cómo se van seleccionando las variables y cómo va aumentando el coeficiente de deter-
minación en cada paso. Para todo lo demás (ecuación de regresión, bondad de ajuste, signi-
ficación de los coeficientes, obtención de pronósticos, importancia relativa de las variables,
chequeo de los supuestos y detección de casos atípicos e influyentes) vale lo ya dicho en el

apartado anterior. Para construir una ecuación de regresión por pasos,
' Seleccionar la opción Regresión > Lineal del menú Analizar para acceder al cuadro de diá-
logo Regresión lineal.
' Trasladar la variable recuperación al cuadro Dependiente y las variables basal, edad y
tto a la lista Independientes y seleccionar la opción Hacia delante del menú desplegable
Método.
' Pulsar el botón Estadísticos para acceder al subcuadro de diálogo Regresión lineal: Esta-
dísticos y marcar las opciones Cambio en R cuadrado y Correlaciones parcial y semiparcial.
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 10.9 a 10.12.
Los resultados de la primera tabla (Tabla 10.9) indican que el procedimiento ha realizado el
ajuste en dos pasos (modelo 1 y modelo 2). En el primer paso se ha elegido la variable tra-
tamiento (se indica en una nota a pie de tabla); en este paso siempre se elige la variable inde-
pendiente que más correlaciona con la dependiente); en el segundo paso se ha incorporado
a la ecuación la variable basal (también se indica en una nota a pie de tabla). La tabla infor-
ma del coeficiente de determinación en cada paso (R cuadrado y R cuadrado corregida). Y,
como novedad respecto de la tabla resumen ya estudiada (ver Tabla 10.2), incluye varios
estadísticos agrupados bajo la denominación de estadísticos de cambio. El cambio en R
cuadrado indica cómo va aumentando el coeficiente de determinación entre un paso y el
siguiente (ver ecuación [10.38]). El valor de R cuadrado en el primer paso indica el cambio
que se ha producido respecto de cero, que es el valor de R cuadrado cuando no hay variables
en la ecuación). Este cambio en R cuadrado no es otra cosa que el cuadrado del coeficiente
de correlación semiparcial (ver ecuación [10.34] y Tabla 10.11).
El estadístico F del cambio (ver ecuación [10.39]) y su significación estadística asocia-
da (sig. de la F del cambio) permite contrastar la hipótesis de que el correspondiente cambio
en el coeficiente de determinación es nulo. Puesto que al ajustar un modelo por pasos úni-
camente se incorporan al modelo variables que contribuyen significativamente al ajuste, estos
estadísticos siempre serán significativos (sig. < 0,05).
Tabla 10.9. Resumen de los modelos
Estadísticos de cambio
R R cuadrado Error típ. de la Cambio en F del Sig. de la F
Modelo R cuadrado corregida estimación R cuadrado cambio gl1 gl2 del cambio
a
1 ,77 ,60 ,58 2,71 ,60 26,96 1 18 ,000
2 ,89b ,79 ,77 2,01 ,19 15,66 1 17 ,001
a. Variables predictoras: (Constante), Tratamiento.
b. Variables predictoras: (Constante), Tratamiento, Basal.
Los estadísticos F de la Tabla 10.10 permiten contrastar, en cada paso, la hipótesis nula de
que el coeficiente de determinación vale cero en la población. Estas hipótesis se refieren a
la ecuación completa en cada paso; lo cual no debe confundirse con las hipótesis contrasta-
das con los estadísticos F de la Tabla 10.9, los cuales se refieren al cambio o aumento que
experimenta R cuadrado al ir incorporando nuevas variables a la ecuación (Algina y Ke-
selman, 1999, proponen otra forma de comparar coeficientes de determinación).
La Tabla 10.11 informa, en cada paso, de la ecuación de regresión y de la significación

individual de cada coeficiente de regresión (ver Tablas 10.5 y 10.6).
Por último, la Tabla 10.12 muestra las variables excluidas de la ecuación en cada paso,
junto con la información en la que se basa la elección de variables. En el primer paso, tras
elegir la variable tratamiento, quedan fuera de la ecuación las variables basal y edad.
La tabla ofrece el coeficiente de regresión tipificado que correspondería a cada una de
estas variables en el caso de ser elegidas en el siguiente paso (beta dentro) y un contraste de
la hipótesis nula de que ese coeficiente vale cero en la población. La variable que se elige en
el segundo paso es la que tiene asociado el coeficiente de correlación parcial más alto, siem-
pre que éste sea significativamente distinto de cero. En el ejemplo, esta variable es basal,
cuyo coeficiente de correlación parcial (0,69) es mayor que el de edad (0,06) y tiene asociado
un nivel crítico menor que 0,05 (sig. = 0,001). Elegida la variable basal, la única variable que
queda fuera de la ecuación en el segundo paso es edad, la cual no es incorporada a la ecua-
ción porque tiene asociado un coeficiente de correlación parcial (!0,02) que no es signifi-
cativamente distinto de cero ( p = 0,947). El análisis se detiene en el paso 2 porque no quedan
variables que contribuyan a mejorar el ajuste.
Tabla 10.10. ANOVA (estadístico F )

Modelo Suma de cuadrados gl Media cuadrática F Sig.
a
1 Regresión 198,45 1 198,45 26,96 ,000
Residual 132,50 18 7,36
Total 330,95 19
b
2 Regresión 261,98 2 130,99 32,28 ,000
Residual 68,97 17 4,06
Total 330,95 19
a. Variables predictoras: (Constante), Tratamiento.
b. Variables predictoras: (Constante), Tratamiento, Hamilton (momento basal).
Tabla 10.11. Coeficientes de regresión (con los coeficientes de correlación parcial y semiparcial)
Coeficientes no Coef.
estandarizados estand. Correlaciones
Modelo B Error típ. Beta t Sig. Orden cero Parcial Semiparcial
1 (Constante) ,50 1,92 ,26 ,797
Tratamiento 6,30 1,21 ,77 5,19 ,000 ,77 ,77 ,77
2 (Constante) -9,35 2,87 -3,26 ,005
Tratamiento 5,01 ,96 ,62 5,23 ,000 ,77 ,79 ,58
Basal ,40 ,10 ,47 3,96 ,001 ,68 ,69 ,44
Tabla 10.12. Variables excluidas de la ecuación en cada paso

Estad. de colinealidad
Modelo Beta dentro t Sig. Corr. parcial Tolerancia
a
1 Basal ,47 3,96 ,001 ,69 ,88
Edad ,07a ,27 ,793 ,06 ,39
2 Edad -,01b -,07 ,947 -,02 ,39
a. Variables predictoras en el modelo: (Constante), Tratamiento.
b. Variables predictoras en el modelo: (Constante), Tratamiento, Basal.
Regresión jerárquica o por pasos con variables categóricas

Ya sabemos (ver la Tabla 10.1 y el apartado Variables independientes categóricas) que las
variables categóricas pueden incluirse en una ecuación de regresión si previamente son co-
dificadas como J ! 1 variables dicotómicas (siendo J el número de categorías). No obstante,
al aplicar un método de selección de variables por pasos a este tipo de variables hay que to-
mar la precaución de que las J ! 1 variables dicotómicas que definen la variable categórica
en cuestión sean elegidas o excluidas simultáneamente, como si fueran, que lo son, una única
variable. Para hacer esto,
' En el cuadro de diálogo principal, trasladar la variable recuperación al cuadro Depen-
diente y las variables tratamiento y basal a la lista Independientes.
' Pulsar el botón Siguiente del recuadro Bloque 1 de 1 y trasladar las variables centro_A y
centro_B a la lista Independientes.
Aceptando estas selecciones se obtienen los resultados que muestra la Tabla 10.13. En el
primer paso se han incluido las variables tratamiento y basal. En el segundo paso se han in-
cluido las variables centro_A y centro_B (es decir, las dos variables dicotómicas que definen
la variable centro). Los coeficientes asociados a estas dos variables dicotómicas se interpretan
tal como se ha explicado en el apartado Variables independientes categóricas).
Por supuesto, esta estrategia de inclusión de bloques de variables (en lugar de variables
individuales) puede utilizarse con cualquier tipo de variables.
Tabla 10.13. Coeficientes de regresión

estandarizados estandarizados
Modelo B Error típ. Beta t Sig.
1 (Constante) -9,35 2,87 -3,26 ,005
Tratamiento 5,01 ,96 ,62 5,23 ,000
Basal ,40 ,10 ,47 3,96 ,001
2 (Constante) -6,04 2,73 -2,21 ,043
Tratamiento 4,92 ,83 ,60 5,93 ,000
Basal ,27 ,10 ,32 2,75 ,015
Centro A 2,52 1,07 ,28 2,35 ,033
Centro B -,46 ,94 -,05 -,48 ,635
Comentarios finales
Validación de una ecuación de regresión
Recordemos que los coeficientes de una ecuación de regresión lineal se estiman aplicando el
criterio de mínimos cuadrados, el cual consiste en minimizar los residuos (errores de predic-
ción). Puesto que los residuos no son más que las diferencias entre los pronósticos y los va-
lores observados, esta forma de estimar los coeficientes de la ecuación de regresión hace que
el ajuste que se obtiene con la muestra concreta utilizada sea mejor que el que se obtiene con
cualquier otra muestra. De ahí la importancia de que los errores típicos de las estimaciones
sean pequeños. Cuanto más pequeños son, mayor parecido cabe esperar encontrar entre las
estimaciones que se obtienen y las que podrían obtenerse en una muestra distinta.
Este argumento sugiere que una ecuación de regresión puede validarse utilizando casos
nuevos. Para ello, basta con obtener los pronósticos para esos casos nuevos y, a continuación,
calcular el coeficiente de correlación entre los valores observados en la variable dependiente
y los valores pronosticados para esos casos nuevos. En teoría, el coeficiente de correlación
así obtenido debería ser igual al coeficiente de correlación múltiple del análisis de regresión.
En la práctica, si la ecuación es lo bastante buena, se observarán pequeñas diferencias entre
ambos coeficientes atribuibles únicamente al azar muestral. Por supuesto, los nuevos casos
deben representar a las mismas poblaciones que los casos originalmente utilizados para es-
timar la ecuación de regresión.
Si no se tiene acceso a nuevos casos o resulta difícil obtenerlos, todavía es posible validar
una ecuación de regresión si la muestra es lo bastante grande. Basta con utilizar la mitad de
los casos de la muestra (aleatoriamente seleccionados) para obtener la ecuación de regresión
y la otra mitad de la muestra para efectuar los pronósticos. Una buena ecuación debería lle-
var a obtener una correlación similar entre los valores observados y los pronosticados de
ambas mitades.
Consideraciones sobre el tamaño muestral

Al llevar a cabo un análisis de regresión es inevitable preguntarse por el tamaño que debe
tener la muestra. Pero la respuesta a esa pregunta no es nada simple.
Harrell (2001) cita varios trabajos en los que se sugiere utilizar entre 10 y 20 casos por
cada variable independiente. Sin embargo, este tipo de reglas no tienen mucho sentido cuan-
do se trabaja con unas pocas variables independientes (probablemente ningún investigador
confiaría seriamente en inferencias basadas en una variable independiente y 10 casos).
Harris (2001; ver también Green, 1991) ha propuesto una regla basada, no en el número
de casos por variable, sino en la cantidad que el número de casos debe superar al de variables;
propone utilizar 50 casos más que el número de variables independientes (n = 50 + p).
Cohen, Cohen, West y Aiken (2003, págs. 90-95) plantean el problema del tamaño muestral
desde el punto de vista de la potencia estadística. Por ejemplo, para detectar, con 3 variables
independientes, que una correlación múltiple de 0,45 (coeficiente de determinación de 0,20)
es significativamente distinta de cero, con una potencia de 0,80 y un nivel de significación
de 0,05, hacen falta 48 casos; y 115 casos para declarar distinta de cero una correlación múl-
tiple de 0,30 (coeficiente de determinación de 0,09). Con 6 variables independientes, para
detectar que una correlación múltiple de 0,45 es distinta de cero, con una potencia de 0,80
y un nivel de significación de 0,05, hacen falta 61 casos; y 145 casos apara declarar distinta
de cero una correlación múltiple de 0,30. Por tanto, para poder declarar significativas corre-
laciones del tamaño habitual en el ámbito de las ciencias sociales y de la salud, hace falta
trabajar con muestras relativamente grandes.
Además, con muestras pequeñas se corre el riesgo de obtener ecuaciones que no fun-
cionen bien al aplicarlas a otras muestras. Podría decirse que, en este contexto, funciona la
regla de más es mejor. Pero sin olvidar que, con muestras muy grandes, se corre el riesgo de
declarar estadísticamente significativos efectos teóricamente irrelevantes.
Apéndice 10
Regresión curvilínea
El análisis de regresión lineal únicamente es una forma particular de regresión. Y, aunque es, quizá,
la forma de regresión más utilizada, existen funciones no lineales que pueden resultar útiles para
abordar determinados problemas. Se sabe, por ejemplo, que al intentar resolver una tarea compleja, los
sujetos excesivamente ansiosos y los muy relajados rinden peor que los sujetos que mantienen niveles
de ansiedad intermedios; es decir, se sabe que la relación existente entre la ansiedad y el rendimiento
no es lineal, sino cuadrática. Por tanto, si se desea pronosticar el rendimiento a partir del nivel de an-
siedad, una ecuación cuadrática ofrecerá mejores pronósticos que una ecuación lineal.
La nube de puntos de la Figura 10.19 representa la relación entre las variables ansiedad (medi-
da en una escala de 0 a 7) y rendimiento (medida en una escala de 0 a 100). Los datos corresponden
a una muestra de 25 sujetos (estos datos se encuentran en el archivo Tabla 10.14 ansiedad rendimien-
to, en la página web del manual). La forma de la nube de puntos revela que el tipo de relación subya-
cente no es de tipo lineal. De hecho, la variable ansiedad no correlaciona linealmente con la variable
rendimiento (RXY = 0,21; sig. = 0,306).
Figura 10.19. Diagrama de dispersión: ansiedad por rendimiento
El SPSS ofrece la posibilidad de construir ecuaciones no lineales. El procedimiento Estimación curvilínea

incluye varias de estas ecuaciones para dos variables: lineal, cuadrática, cúbica, logarítmica, logística,
exponencial, etc. Para obtener cualquiera de estas ecuaciones,
' Seleccionar la opción Regresión > Estimación curvilínea del menú Analizar para acceder al cuadro de
diálogo Estimación curvilínea.
Las opciones del recuadro Independiente permiten elegir, como variable independiente, una variable
del archivo de datos (opción Variable) o una variable secuencial con valores uniformemente espacia-
dos (opción Tiempo). La opción Representar los modelos permite obtener un diagrama de dispersión
representando la relación entre la variable independiente (eje horizontal) y la dependiente (eje vertical).
El procedimiento genera un diagrama de dispersión distinto para cada variable dependiente seleccio-
nada, pero las curvas correspondientes a cada ecuación solicitada aparecen en el mismo diagrama.
La opción Mostrar tabla de ANOVA permite obtener un estadístico F para contrastar la hipótesis nula
de que la correlación entre los valores observados y los pronosticados por la correspondiente ecuación
vale cero en la población. Y el botón Guardar conduce a un subcuadro de diálogo con opciones para
solicitar la creación de nuevas variables con los pronósticos y los residuos correspondientes a cada
ecuación seleccionada.
Para ajustar cualquiera de las ecuaciones de regresión del procedimiento Estimación curvilínea con
las variables ansiedad y rendimiento (archivo Tabla 10.14 ansiedad rendimiento),
' En el cuadro de diálogo Estimación curvilínea, trasladar la variable rendimiento a la lista Depen-
dientes y la variable ansiedad al cuadro Independiente (Variable).
' Marcar las opciones Lineal, Logarítmico y Cuadrático del recuadro Modelos.
Aceptando estas elecciones, el Visor ofrece, entre otros, los resultados que muestra la Tabla 10.14 y la
Figura 10.20. La Tabla 10.14 contiene los resultados del análisis: la ecuación estimada, el cuadrado del
coeficiente de correlación (coeficiente de determinación) entre los valores de la variable dependiente
y los valores pronosticados por cada ecuación (R cuadrado), el estadístico F con sus grados de libertad,
la significación del estadístico F y las estimaciones correspondientes a los parámetros de cada ecuación
(b0, b1, etc.).
Las tres ecuaciones solicitadas ofrecen diferente grado de ajuste a los datos. Con la ecuación lineal
se obtiene un coeficiente de determinación de 0,05. Al contrastar con el estadístico F la hipótesis de
que este coeficiente vale cero en la población, se obtiene un nivel crítico mayor que 0,05 (sig = 0,306),
por lo que no puede rechazarse la hipótesis de relación lineal nula. Puede concluirse, por tanto, que no
existe evidencia de relación lineal (la ecuación lineal no permite obtener un buen ajuste a los datos).
Con la ecuación logarítmica se obtiene mejor ajuste que con la lineal. De hecho, el estadístico F
tiene asociado un nivel crítico (sig. = 0,030) que permite rechazar la hipótesis de relación nula. No
obstante, el coeficiente de determinación toma un valor más bien discreto (0,19).
Por último, con la ecuación cuadrática no se obtiene un estadístico F cuyo nivel crítico lleva al
rechazo de la hipótesis nula de independencia (sig. < 0,0005) y el coeficiente de determinación toma
un valor de 0,57. Por tanto, puede concluirse que, en la relación entre ansiedad y rendimiento, existe
un componente cuadrático significativo: la ansiedad explica (comparte) el 57,3 % de la variabilidad del
rendimiento.
Tabla 10.14. Resumen del modelo y estimaciones de los parámetros

Resumen del modelo Estimaciones de los parámetros
Ecuación R cuadrado F gl1 gl2 Sig. Constante b1 b2
Lineal ,05 1,10 1 23 ,306 4,97 ,01
Logarítmica ,19 5,35 1 23 ,030 4,14 ,32
Cuadrática ,57 14,74 2 22 ,000 3,80 ,09 ,00
Cuanto mayor es el número de términos que incluye una ecuación, mayor es también el valor del coefi-
ciente de determinación R 2. Por tanto, en una situación dada, el valor de R 2 será menor en una ecuación
lineal que en una ecuación cuadrática, y menor en ésta que en una ecuación cúbica. Sin embargo, esto
no significa que una ecuación con más términos sea mejor. La ecuación ideal es aquella que es capaz
de explicar la mayor cantidad de varianza con el menor número de términos; y para encontrar esa ecua-
ción suele resultar muy útil valorar la significación de cada término por separado.
En el ejemplo, de las tres ecuaciones seleccionadas, dos de ellas ofrecen un ajuste significativo
a los datos: la logarítmica y la cuadrática. Aunque la logarítmica tiene menos términos y ofrece un ajus-
te significativo (podría ser preferida por su simplicidad), ocurre que el ajuste de la ecuación cuadráti-
ca (el coeficiente de determinación) es mucho mejor que el de la logarítmica (0,57 frente a 0,19).
La nube de puntos también suele ayudar a elegir la mejor ecuación. La Figura 10.20 muestra el dia-
grama de dispersión de las variables ansiedad y rendimiento con las curvas (pronósticos) correspon-
dientes a las tres ecuaciones solicitadas (ver Figura 10.20). En el diagrama se aprecia con claridad que
los pronósticos de la ecuación cuadrática hacen un seguimiento de la nube de puntos sensiblemente
mejor que el que hacen los pronósticos de las ecuaciones lineal y logarítmica.
Figura 10.20. Diagrama de dispersión: ansiedad por rendimiento (con curvas lineal, logarítmica y cuadrática)
Marcando la opción Mostrar tabla de ANOVA y seleccionando únicamente la ecuación Cuadrática se obtie-
ne información adicional que incluye, entre otras cosas, pruebas de significación para cada uno de los
coeficientes estimados.
La Tabla 10.15 contiene un resumen del análisis idéntico al que se obtiene con el análisis de regre-
sión lineal (ver Tabla 10.2). La Tabla 10.16 ofrece el estadístico F para el contraste de la hipótesis nula
de que la relación estudiada (en este caso, la cuadrática) vale cero en la población; puesto que el nivel
crítico es muy pequeño (sig. < 0,0005), se puede rechazar la hipótesis nula y concluir que en la relación
entre ansiedad y rendimiento existe un componente cuadrático significativo. Por último, la Tabla 10.17
contiene las estimaciones de los coeficientes de la ecuación cuadrática junto con su error típico, su va-
lor tipificado y un estadístico T que permite contrastar la hipótesis nula de que el correspondiente
coeficiente vale cero en la población. Los resultados indican que tanto el término constante como los
dos términos asociados a la variable ansiedad (ansiedad y ansiedad**2), son significativamente dis-
tintos de cero (en todos ellos, sig. < 0,0005).
Para una explicación más detallada de todos estos estadísticos pueden revisarse los comentarios
ya hechos a propósito de las Tablas 10.2, 10.3 y 10.4.
Tabla 10.15. Resumen del modelo cuadrático

R R cuadrado R cuadrado corregida Error típico de la estimación
,76 ,57 ,53 ,59
Tabla 10.16. Resumen del ANOVA

Regresión 10,26 2 5,13 14,74 ,000
Residual 7,66 22 ,35
Total 17,92 24
Tabla 10.17. Coeficientes del modelo cuadrático

estandarizados estandarizados
B Error típico Beta t Sig.
Ansiedad ,09 ,02 3,22 5,42 ,000
Ansiedad ** 2 ,00 ,00 -3,09 -5,21 ,000
(Constante) 3,80 ,32 11,94 ,000
10.1 La siguiente tabla muestra el resultado obtenido con una muestra de 10 estudiantes de enseñanza se-
cundaria al medir dos variables: X = «promedio de horas de estudio semanales» e Y = «rendimiento
académico» (cuantificado como la suma de las calificaciones obtenidas en 7 asignaturas):
Sujetos 1 2 3 4 5 6 7 8 9 10
Xi 5 5 6 6 6 7 7 11 11 16
Yi 25 30 30 35 45 40 45 55 60 65
Reproducir los datos en el SPSS.

a. Calcular la ecuación de regresión de Y sobre X en puntuaciones directas y en puntuaciones típicas.
b. Interpretar los coeficientes de regresión B1 y B1(Z) .
c. ¿Puede afirmarse que X e Y están linealmente relacionadas? (α = 0,05).
d. ¿Qué valor de la tabla de coeficientes de regresión coincide con el coeficiente de correlación RXY
de Pearson?
e. ¿Qué puede decirse sobre la calidad del ajuste de la ecuación de regresión?
f. ¿Qué pronóstico ofrece la ecuación de regresión para el sujeto nº 6?
g. ¿Cuáles son los límites de los intervalos de confianza para los pronósticos individual y promedio
del sujeto nº 6? Interpretar ambos intervalos de confianza.
h. ¿Por qué los intervalos de confianza del apartado anterior tienen distinta amplitud?
i. ¿Existe algún caso que pueda ser calificado de influyente? En caso afirmativo, ¿cuál y por qué?
j. ¿Qué ocurre con el ajuste de la ecuación de regresión al excluir del análisis el caso influyente?
10.2. Abrir el archivo SPSS GSS93 reducido (se encuentra en la carpeta de ejemplos que se instala con el
programa). Estamos interesados en pronosticar el índice socioeconómico del encuestado (indsocec) a
partir de la edad del encuestado (edad ) y de los años de escolarización (educ).
a. Calcular la ecuación de regresión de Y sobre X en puntuaciones directas.
b. Interpretar los coeficientes de regresión B1 y B2 .
c. ¿Puede afirmarse que la edad y los años de escolarización están relacionados con el índice socio-
económico? (α = 0,05).
d. ¿Cuál de las dos variables independientes tiene mayor peso (importancia relativa) en la ecuación
de regresión? ¿Por qué?
e. ¿Qué puede decirse acerca de la calidad del ajuste de la ecuación de regresión?
f. ¿Es razonable asumir que los residuos se distribuyen normalmente? ¿Por qué?
g. ¿Es razonable asumir que las varianzas de los residuos son homogéneas? ¿Por qué?
h. ¿Existen problemas de colinealidad? ¿Por qué?
i. ¿Hay algún caso que pueda calificarse de influyente? ¿Por qué?
10.3. Abrir el archivo SPSS Coches (se encuentra en la carpeta de ejemplos que se instala con el programa).
Queremos construir un modelo de regresión por pasos (pasos sucesivos) que permita pronosticar el
consumo de los vehículos a partir de su cilindrada (motor), su potencia (cv), su peso (peso) y su acele-
ración (acel).
a. ¿Cuántos pasos ha dado el procedimiento?
b. ¿Qué variables incluye el modelo final?
c. En ese modelo final, ¿qué variable tiene más peso (importancia relativa) desde el punto de vista de
su contribución a los pronósticos?
d. ¿Qué variable tiene más peso (importancia relativa) desde el punto de vista de su contribución al
ajuste de la ecuación de regresión?
e. ¿Qué porcentaje de varianza explica la ecuación final?
f. ¿Qué caso(s) tiene(n) residuo(s) atípicamente alto(s)?
g. ¿Existe algún indicio que haga sospechar de la posible presencia de colinealidad?
h. ¿Hay algún caso que pueda calificarse de influyente? ¿Por qué?
10.4. Se ha llevado a cabo un análisis de regresión lineal utilizando la edad como variable independiente y
el grado de conservadurismo como dependiente. En una muestra aleatoria de 11 personas se han en-
contrado los siguientes resultados:
FV SC gl MC F p
Regresión ( ) ( ) ( ) ( ) 0,003
Error ( ) ( ) 4
Total 100 ( )
a. Completar la tabla rellenando las casillas donde aparecen paréntesis.

b. ¿Qué hipótesis nula se está contrastando con el estadístico F ?
c. ¿Qué decisión debe tomarse sobre ella con α = 0,05? ¿Qué puede concluirse?
d. Calcular la proporción de varianza común o explicada.
e. ¿Cuánto vale el coeficiente de correlación de Pearson?
f. ¿Cuánto vale el error típico de la estimación?
10.5. Tratando de contrastar la hipótesis de que la intensidad luminosa (X ) está relacionada de forma directa
(positiva) con el rendimiento en una prueba de discriminación (Y ), se ha utilizado el correspondiente
coeficiente de regresión parcial. Al valorar la significación de ese coeficiente en una muestra aleatoria
de 15 individuos se ha obtenido un valor T = 1,562. Sabiendo que P (T $ < 1,562) = 0,93 y utilizando un
nivel de confianza de 0,99,
a. ¿Qué hipótesis nula se está contrastando?
b. ¿Puede rechazarse esa hipótesis? ¿Por cuál de los siguientes motivos?:
( ) P (T $
> 1,562) < 0,01; ( ) P (T $
> 1,562) > 0,01; ( ) P (T $ $ 1,562) > 0,01.
< 1,562) < 0,01; ( ) P (T <
c. ¿Puede afirmarse que las variables están linealmente relacionadas?
10.6. Al utilizar el estadístico F para analizar la relación lineal entre dos variables se han obtenido los resul-
tados que muestra la siguiente tabla:
FV SC gl MC F
Regresión 90 ( ) ( ) ( )
Error ( ) ( ) ( )
Total 330 9
Sabiendo que t8; 0,975 = 2,3060,

b. ¿Qué decisión debe tomarse sobre la hipótesis H0 : β1 = 0? ¿Por qué? (α = 0,05).
c. ¿Qué proporción de la varianza de Y está explicada por X ?
d. ¿Cuántos sujetos han intervenido en el análisis?
10.7. A continuación se ofrecen dos tablas. La primera contiene las puntuaciones diferenciales o de desvia-
ción de 5 sujetos en las variables X e Y. La segunda es la tabla resumen del ANOVA correspondiente
al análisis de regresión lineal simple. Sabiendo que la ecuación de regresión es: = 0,9 , completar
ambas tablas.
Sujetos 1 2 3 4 5 FV SC gl MC F
x 2 !2 0 1 ( ) Regresión ( ) ( ) ( ) ( )
y 2 !1 0 1 ( ) No regresión ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) Total ( ) ( )
10.8. Antes de llevar a cabo un análisis de regresión lineal de Y sobre X1, X2 y X3 se ha calculado la matriz
de correlaciones entre las variables, con el siguiente resultado:
X1 X2 X3
Correlación de Pearson 0,850 !0,879 !0,041
Y Sig. (bilateral) 0,000 0,000 0,899
n 12 12 12
Correlación de Pearson !0,961 0,184
X1 Sig. (bilateral) 0,000 0,548
n 12 12
X2 Correlación de Pearson !0,70
Sig. (bilateral) 0,830
n 12
a. ¿Puede afirmarse que las variables X1 y X2 están linealmente relacionadas?

( ) Sí, porque su coeficiente de correlación tiene asociado un nivel crítico menor que 0,05.
( ) No, porque su coeficiente de correlación es menor que cero.
( ) No, porque sig.(bilateral) es menor que 0,05.
b. Para realizar pronósticos en Y a partir de una de las otras tres variables, ¿cuál debería elegirse?
c. En un análisis de regresión simple de Y sobre X3, ¿a qué valor cabe esperar que se aproxime la
pendiente de la recta de regresión?
d. En un análisis de regresión múltiple con las tres variables independientes, ¿puede anticiparse que
la variable X2 tendrá un peso significativo? ¿Y la variable X1?
e. ¿Cuántos grados de libertad tiene la variabilidad no debida a la regresión lineal?
f. ¿Con qué variables correlaciona significativamente X3 ? ¿Por qué?
10.9. A continuación se ofrecen dos tablas con los resultados parciales de un análisis de regresión lineal de
Y sobre X. Se ha utilizado una muestra aleatoria de 20 sujetos. La primera tabla contiene las puntua-
ciones de 2 sujetos en X y las puntuaciones pronosticadas en Y a esos mismos 2 sujetos. La segunda
tabla contiene la tabla resumen del ANOVA (incompleta).
Sujetos 1 2 FV SC gl MC F
X !1 0 Regresión ( ) ( ) 20 2
2 3 Error ( ) ( ) ( )
Total 200 ( )
b. Obtener la ecuación de regresión de Y sobre X.
10.10. En un análisis de regresión lineal de Y sobre X se ha obtenido = 2,56. ¿Cuál de las siguientes
afirmaciones es correcta sabiendo que P ( > 2,56) < 0,02?
a. Se mantiene H0 con α = 0,05.
b. Se rechaza H0 porque 2,56 > 0,02.
c. Con α = 0,05, puede afirmarse que X e Y no están linealmente relacionadas.
d. Con α = 0,05, puede afirmarse que X e Y están linealmente relacionadas.
e. La pendiente de la recta de regresión vale cero en la población.
10.11. Se puede llegar a la conclusión de que dos variables están linealmente relacionadas mediante... (elegir
la/s alternativa/s correcta/s)
a. Un ANOVA, con F = 5,6 ( p < 0,05).
b. Un análisis de regresión lineal, al mantener H0 : β1 = 0.
c. Un análisis de regresión lineal, con = 4,2 tal que P (T $
< 4,2) > 0,999.
d. Unas comparaciones de tendencia con Flineal = 2,1 ( p > 0,05).
e. Ninguna de las alternativas anteriores es correcta.
10.12. En un análisis de regresión lineal de Y sobre X... (elegir la/s alternativa/s correcta/s)
a. El coeficiente β0 representa el efecto de X.
b. El coeficiente β1 representa el efecto de Y.
c. El coeficiente β1 representa el efecto del factor B.
d. Si el coeficiente β1 vale cero, entonces la relación entre X e Y es cuadrática.
e. Ninguna de las alternativas anteriores es correcta.
Apéndice final
Tablas estadísticas
A Distribuciones binomiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434

B Distribución normal tipificada: N (0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
C Distribuciones χ 2 ( ji-cuadrado) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442
D Distribuciones t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443
E Potencias (1 ! β ) para diferentes valores de y α . . . . . . . . . . . . . . . . . . . . . . . . 444
F Distribuciones F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
G Distribuciones F no centradas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447
H Coeficientes de polinomios ortogonales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449
I Transformación Z de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
J Puntos críticos para el estadístico de Dunn-Bonferroni . . . . . . . . 451
K Puntos críticos para el estadístico de Dunnett . . . . . . . . . . . . . . . . 453
L Puntos críticos de las distribuciones del rango studentizado . . . . 455
M Puntos críticos para el estadístico S+ de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . 456
N Puntos críticos para el estadístico DKS de Kolmogorov-Smirnov . . . . . . . . . . . 457
O Puntos críticos para el estadístico U de Mann-Whitney . . . . . . . . . . . . . . . . . . 458
P Puntos críticos para el estadístico H de Kruskal-Wallis . . . . . . . . . . . . . . . . . . 460
Q Puntos críticos para el estadístico de Friedman . . . . . . . . . . . . . . . . . . . . . 461
R Puntos críticos para el coeficiente de correlación RS de Spearman . . . . . . . . . . 462
Tabla A
Distribuciones binomiales
Probabilidades acumuladas hasta n1 = «número de éxitos» en cada distribución B (n, π1),
con n = «número de ensayos» y π1 = «probabilidad de éxito»
π1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
1 0 0,950 0,900 0,800 0,700 0,600 0,500 0,400 0,300 0,200 0,100 0,050
1 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
2 0 0,902 0,810 0,640 0,490 0,360 0,250 0,160 0,090 0,040 0,010 0,002
1 0,997 0,990 0,960 0,910 0,840 0,750 0,640 0,510 0,360 0,190 0,097
2 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
3 0 0,857 0,729 0,512 0,343 0,216 0,125 0,064 0,027 0,008 0,001 0,000
1 0,993 0,972 0,896 0,784 0,648 0,500 0,352 0,216 0,104 0,028 0,007
2 1,000 0,999 0,992 0,973 0,936 0,875 0,784 0,657 0,488 0,271 0,143
3 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
4 0 0,815 0,656 0,410 0,240 0,130 0,063 0,026 0,008 0,002 0,000 0,000
1 0,986 0,948 0,819 0,652 0,475 0,313 0,179 0,084 0,027 0,004 0,000
2 1,000 0,996 0,973 0,916 0,821 0,688 0,525 0,348 0,181 0,052 0,014
3 1,000 1,000 0,998 0,992 0,974 0,938 0,870 0,760 0,590 0,344 0,185
4 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
5 0 0,774 0,590 0,328 0,168 0,078 0,031 0,010 0,002 0,000 0,000 0,000
1 0,977 0,919 0,737 0,528 0,337 0,188 0,087 0,031 0,007 0,000 0,000
2 0,999 0,991 0,942 0,837 0,683 0,500 0,317 0,163 0,058 0,009 0,001
3 1,000 1,000 0,993 0,969 0,913 0,813 0,663 0,472 0,263 0,081 0,023
4 1,000 1,000 1,000 0,998 0,990 0,969 0,922 0,832 0,672 0,410 0,226
5 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
6 0 0,735 0,531 0,262 0,118 0,047 0,016 0,004 0,001 0,000 0,000 0,000
1 0,967 0,886 0,655 0,420 0,233 0,109 0,041 0,011 0,002 0,000 0,000
2 0,998 0,984 0,901 0,744 0,544 0,344 0,179 0,070 0,017 0,001 0,000
3 1,000 0,999 0,983 0,930 0,821 0,656 0,456 0,256 0,099 0,016 0,002
4 1,000 1,000 0,998 0,989 0,959 0,891 0,767 0,580 0,345 0,114 0,033
5 1,000 1,000 1,000 0,999 0,996 0,984 0,953 0,882 0,738 0,469 0,265
6 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
7 0 0,698 0,478 0,210 0,082 0,028 0,008 0,002 0,000 0,000 0,000 0,000
1 0,956 0,850 0,577 0,329 0,159 0,063 0,019 0,004 0,000 0,000 0,000
2 0,996 0,974 0,852 0,647 0,420 0,227 0,096 0,029 0,005 0,000 0,000
3 1,000 0,997 0,967 0,874 0,710 0,500 0,290 0,126 0,033 0,003 0,000
4 1,000 1,000 0,995 0,971 0,904 0,773 0,580 0,353 0,148 0,026 0,004
5 1,000 1,000 1,000 0,996 0,981 0,938 0,841 0,671 0,423 0,150 0,044
6 1,000 1,000 1,000 1,000 0,998 0,992 0,972 0,918 0,790 0,522 0,302
7 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
Apéndice final. Tablas estadísticas 435
Tabla A (continuación)
π1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
8 0 0,663 0,430 0168 0,058 0,017 0,004 0,001 0,000 0,000 0,000 0,000
1 0,943 0,813 0,503 0,255 0,106 0,035 0,009 0,001 0,000 0,000 0,000
2 0,994 0,962 0,797 0,552 0,315 0,145 0,050 0,011 0,001 0,000 0,000
3 1,000 0,995 0,944 0,806 0,594 0,363 0,174 0,058 0,010 0,000 0,000
4 1,000 1,000 0,990 0,942 0,826 0,637 0,406 0,194 0,056 0,005 0,000
5 1,000 1,000 0,999 0,989 0,950 0,855 0,685 0,448 0,203 0,038 0,006
6 1,000 1,000 1,000 0,999 0,991 0,965 0,894 0,745 0,497 0,187 0,057
7 1,000 1,000 1,000 1,000 0,999 0,996 0,983 0,942 0,832 0,570 0,337
8 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
9 0 0,630 0,387 0134 0,040 0,010 0,002 0,000 0,000 0,000 0,000 0,000
1 0,929 0,775 0,436 0,196 0,071 0,020 0,004 0,000 0,000 0,000 0,000
2 0,992 0,947 0,738 0,463 0,232 0,090 0,025 0,004 0,000 0,000 0,000
3 0,999 0,992 0,914 0,730 0,483 0,254 0,099 0,025 0,003 0,000 0,000
4 1,000 0,999 0,980 0,901 0,733 0,500 0,267 0,099 0,020 0,001 0,000
5 1,000 1,000 0,997 0,975 0,901 0,746 0,517 0,270 0,086 0,008 0,001
6 1,000 1,000 1,000 0,996 0,975 0,910 0,768 0,537 0,262 0,053 0,008
7 1,000 1,000 1,000 1,000 0,996 0,980 0,929 0,804 0,564 0,225 0,071
8 1,000 1,000 1,000 1,000 1,000 0,998 0,990 0,960 0,866 0,613 0,370
9 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
10 0 0,599 0,349 0,107 0,028 0,006 0,001 0,000 0,000 0,000 0,000 0,000
1 0,914 0,736 0,376 0,149 0,046 0,011 0,002 0,000 0,000 0,000 0,000
2 0,988 0,930 0,678 0,383 0,167 0,055 0,012 0,002 0,000 0,000 0,000
3 0,999 0,987 0,879 0,650 0,382 0,172 0,055 0,011 0,001 0,000 0,000
4 1,000 0,998 0,967 0,850 0,633 0,377 0,166 0,047 0,006 0,000 0,000
5 1,000 1,000 0,994 0,953 0,834 0,623 0,367 0,150 0,033 0,002 0,000
6 1,000 1,000 0,999 0,989 0,945 0,828 0,618 0,350 0,121 0,013 0,0001
7 1,000 1,000 1,000 0,998 0,988 0,945 0,833 0,617 0,322 0,070 0,012
8 1,000 1,000 1,000 1,000 0,998 0,989 0,954 0,851 0,624 0,264 0,086
9 1,000 1,000 1,000 1,000 1,000 0,999 0,994 0,972 0,893 0,651 0,401
10 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
11 0 0,569 0,314 0,086 0,020 0,004 0,000 0,000 0,000 0,000 0,000 0,000
1 0,898 0,697 0,322 0,113 0,030 0,006 0,001 0,000 0,000 0,000 0,000
2 0,985 0,910 0,617 0,313 0,119 0,033 0,006 0,001 0,000 0,000 0,000
3 0,998 0,981 0,839 0,570 0,296 0,113 0,029 0,004 0,000 0,000 0,000
4 1,000 0,997 0,950 0,790 0,533 0,274 0,099 0,022 0,002 0,000 0,000
5 1,000 1,000 0,988 0,922 0,753 0,500 0,247 0,078 0,012 0,000 0,000
6 1,000 1,000 0,998 0,978 0,901 0,726 0,467 0,210 0,050 0,003 0,000
7 1,000 1,000 1,000 0,996 0,971 0,887 0,704 0,430 0,161 0,019 0,002
8 1,000 1,000 1,000 0,999 0,994 0,967 0,881 0,687 0,383 0,090 0,015
9 1,000 1,000 1,000 1,000 0,999 0,994 0,970 0,887 0,678 0,303 0,102
10 1,000 1,000 1,000 1,000 1,000 1,000 0,996 0,980 0,914 0,686 0,431
11 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
π1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
12 0 0,540 0,282 0,069 0,014 0,002 0,000 0,000 0,000 0,000 0,000 0,000
1 0,882 0,659 0,275 0,085 0,020 0,003 0,000 0,000 0,000 0,000 0,000
2 0,980 0,889 0,558 0,253 0,083 0,019 0,003 0,000 0,000 0,000 0,000
3 0,998 0,974 0,795 0,493 0,225 0,073 0,015 0,002 0,000 0,000 0,000
4 1,000 0,996 0,927 0,724 0,438 0,194 0,057 0,009 0,001 0,000 0,000
5 1,000 0,999 0,981 0,882 0,665 0,387 0,158 0,039 0,004 0,000 0,000
6 1,000 1,000 0,996 0,961 0,842 0,613 0,335 0,118 0,019 0,001 0,000
7 1,000 1,000 0,999 0,991 0,943 0,806 0,562 0,276 0,073 0,004 0,000
8 1,000 1,000 1,000 0,998 0,985 0,927 0,775 0,507 0,205 0,026 0,002
9 1,000 1,000 1,000 1,000 0,997 0,981 0,917 0,747 0,442 0,111 0,020
10 1,000 1,000 1,000 1,000 1,000 0,997 0,980 0,915 0,725 0,341 0,118
11 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,986 0,931 0,718 0,460
12 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
13 0 0,513 0,254 0,055 0,010 0,001 0,000 0,000 0,000 0,000 0,000 0,000
1 0,865 0,621 0,234 0,064 0,013 0,002 0,000 0,000 0,000 0,000 0,000
2 0,975 0,866 0,502 0,202 0,058 0,011 0,001 0,000 0,000 0,000 0,000
3 0,997 0,966 0,747 0,421 0,169 0,046 0,008 0,001 0,000 0,000 0,000
4 1,000 0,994 0,901 0,654 0,353 0,133 0,032 0,004 0,000 0,000 0,000
5 1,000 0,999 0,970 0,835 0,574 0,291 0,098 0,018 0,001 0,000 0,000
6 1,000 1,000 0,993 0,938 0,771 0,500 0,229 0,062 0,007 0,000 0,000
7 1,000 1,000 0,999 0,982 0,902 0,709 0,426 0,165 0,030 0,001 0,000
8 1,000 1,000 1,000 0,996 0,968 0,867 0,647 0,346 0,099 0,006 0,000
9 1,000 1,000 1,000 0,999 0,992 0,954 0,831 0,579 0,253 0,034 0,003
10 1,000 1,000 1,000 1,000 0,999 0,989 0,942 0,798 0,498 0,134 0,025
11 1,000 1,000 1,000 1,000 1,000 0,998 0,987 0,936 0,766 0,379 0,135
12 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,990 0,945 0,746 0,487
13 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
14 0 0,488 0,229 0,044 0,007 0,001 0,000 0,000 0,000 0,000 0,000 0,000
1 0,847 0,585 0,198 0,047 0,008 0,001 0,000 0,000 0,000 0,000 0,000
2 0,970 0,842 0,448 0,161 0,040 0,006 0,001 0,000 0,000 0,000 0,000
3 0,996 0,956 0,698 0,355 0,124 0,029 0,004 0,000 0,000 0,000 0,000
4 1,000 0,991 0,870 0,584 0,279 0,090 0,018 0,002 0,000 0,000 0,000
5 1,000 0,999 0,956 0,781 0,486 0,212 0,058 0,008 0,000 0,000 0,000
6 1,000 1,000 0,988 0,907 0,692 0,395 0,150 0,031 0,002 0,000 0,000
7 1,000 1,000 0,998 0,969 0,850 0,605 0,308 0,093 0,012 0,000 0,000
8 1,000 1,000 1,000 0,992 0,942 0,788 0,514 0,219 0,044 0,001 0,000
9 1,000 1,000 1,000 0,998 0,982 0,910 0,721 0,416 0,130 0,009 0,000
10 1,000 1,000 1,000 1,000 0,996 0,971 0,876 0,645 0,302 0,044 0,004
11 1,000 1,000 1,000 1,000 0,999 0,994 0,960 0,839 0,552 0,158 0,030
12 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,953 0,802 0,415 0,153
13 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,993 0,956 0,771 0,512
14 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
π1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
15 0 0,463 0,206 0,035 0,005 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,829 0,549 0,167 0,035 0,005 0,000 0,000 0,000 0,000 0,000 0,000
2 0,964 0,816 0,398 0,127 0,027 0,004 0,000 0,000 0,000 0,000 0,000
3 0,995 0,944 0,648 0,297 0,091 0,018 0,002 0,000 0,000 0,000 0,000
4 0,999 0,987 0,836 0,515 0,217 0,059 0,009 0,001 0,000 0,000 0,000
5 1,000 0,998 0,939 0,722 0,403 0,151 0,034 0,004 0,000 0,000 0,000
6 1,000 1,000 0,982 0,869 0,610 0,304 0,095 0,015 0,001 0,000 0,000
7 1,000 1,000 0,996 0,950 0,787 0,500 0,213 0,050 0,004 0,000 0,000
8 1,000 1,000 0,999 0,985 0,905 0,696 0,390 0,131 0,018 0,000 0,000
9 1,000 1,000 1,000 0,996 0,966 0,849 0,579 0,278 0,061 0,002 0,000
10 1,000 1,000 1,000 0,999 0,991 0,941 0,783 0,485 0,164 0,013 0,001
11 1,000 1,000 1,000 1,000 0,998 0,982 0,909 0,703 0,352 0,056 0,005
12 1,000 1,000 1,000 1,000 1,000 0,996 0,973 0,873 0,602 0,184 0,036
13 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,965 0,833 0,451 0,171
14 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,965 0,794 0,537
15 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
16 0 0,440 0,185 0,028 0,003 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,811 0,515 0,141 0,026 0,003 0,000 0,000 0,000 0,000 0,000 0,000
2 0,957 0,789 0,352 0,099 0,018 0,002 0,000 0,000 0,000 0,000 0,000
3 0,993 0,932 0,598 0,246 0,065 0,011 0,001 0,000 0,000 0,000 0,000
4 0,999 0,983 0,798 0,450 0,167 0,038 0,005 0,000 0,000 0,000 0,000
5 1,000 0,997 0,918 0,660 0,329 0,105 0,019 0,002 0,000 0,000 0,000
6 1,000 0,999 0,973 0,825 0,527 0,227 0,058 0,007 0,000 0,000 0,000
7 1,000 1,000 0,993 0,926 0,716 0,402 0,142 0,026 0,001 0,000 0,000
8 1,000 1,000 0,999 0,974 0,858 0,598 0,284 0,074 0,007 0,000 0,000
9 1,000 1,000 1,000 0,993 0,942 0,773 0,473 0,175 0,027 0,001 0,000
10 1,000 1,000 1,000 0,998 0,981 0,895 0,671 0,340 0,082 0,003 0,000
11 1,000 1,000 1,000 1,000 0,995 0,962 0,833 0,550 0,202 0,017 0,001
12 1,000 1,000 1,000 1,000 0,999 0,989 0,935 0,754 0,402 0,068 0,007
13 1,000 1,000 1,000 1,000 1,000 0,998 0,982 0,901 0,648 0,211 0,043
14 1,000 1,000 1,000 1,000 1,000 1,000 0,997 0,974 0,859 0,485 0,189
15 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,997 0,972 0,815 0,560
16 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
17 0 0,418 0,167 0,023 0,002 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,792 0,482 0,118 0,019 0,002 0,000 0,000 0,000 0,000 0,000 0,000
2 0,950 0,762 0,310 0,077 0,012 0,001 0,000 0,000 0,000 0,000 0,000
3 0,991 0,917 0,549 0,202 0,046 0,006 0,000 0,000 0,000 0,000 0,000
4 0,999 0,978 0,758 0,389 0,126 0,025 0,003 0,000 0,000 0,000 0,000
5 1,000 0,995 0,894 0,597 0,264 0,072 0,011 0,001 0,000 0,000 0,000
6 1,000 0,999 0,962 0,775 0,448 0,166 0,035 0,003 0,000 0,000 0,000
7 1,000 1,000 0,989 0,895 0,641 0,315 0,092 0,013 0,000 0,000 0,000
8 1,000 1,000 0,997 0,960 0,801 0,500 0,199 0,040 0,003 0,000 0,000
π1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
9 1,000 1,000 1,000 0,987 0,908 0685 0359 0,105 0,011 0,000 0,000
10 1,000 1,000 1,000 0,997 0,965 0,834 0,552 0,225 0,038 0,001 0,000
11 1,000 1,000 1,000 0,999 0,989 0,928 0,736 0,403 0,106 0,005 0,000
12 1,000 1,000 1,000 1,000 0,997 0,975 0,874 0,611 0,242 0,022 0,001
13 1,000 1,000 1,000 1,000 1,000 0,994 0,954 0,798 0,451 0,083 0,009
14 1,000 1,000 1,000 1,000 1,000 0,999 0,988 0,923 0,690 0,238 0,050
15 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,981 0,882 0,518 0,208
16 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,977 0,833 0,582
17 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
18 0 0,397 0,150 0,018 0,002 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,774 0,450 0,099 0,014 0,001 0,000 0,000 0,000 0,000 0,000 0,000
2 0,942 0,734 0,271 0,060 0,008 0,001 0,000 0,000 0,000 0,000 0,000
3 0,989 0,902 0,501 0,165 0,033 0,004 0,000 0,000 0,000 0,000 0,000
4 0,998 0,972 0,716 0,333 0,094 0,015 0,001 0,000 0,000 0,000 0,000
5 1,000 0,994 0,867 0,534 0,209 0,048 0,006 0,000 0,000 0,000 0,000
6 1,000 0,999 0,949 0,722 0,374 0,119 0,020 0,001 0,000 0,000 0,000
7 1,000 1,000 0,984 0,859 0,563 0,240 0,058 0,006 0,000 0,000 0,000
8 1,000 1,000 0,996 0,940 0,737 0,407 0,135 0,021 0,001 0,000 0,000
9 1,000 1,000 0,999 0,979 0,865 0,593 0,263 0,060 0,004 0,000 0,000
10 1,000 1,000 1,000 0,994 0,942 0,760 0,437 0,141 0,016 0,000 0,000
11 1,000 1,000 1,000 0,999 0,980 0,881 0,626 0,278 0,051 0,001 0,000
12 1,000 1,000 1,000 1,000 0,994 0,952 0,791 0,466 0,133 0,006 0,000
13 1,000 1,000 1,000 1,000 0,999 0,985 0,906 0,667 0,284 0,028 0,002
14 1,000 1,000 1,000 1,000 1,000 0,996 0,967 0,835 0,499 0,098 0,011
15 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,940 0,729 0,266 0,058
16 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,986 0,901 0,550 0,226
17 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,982 0,850 0,603
18 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
19 0 0,377 0,135 0,014 0,001 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,755 0,420 0,083 0,010 0,001 0,000 0,000 0,000 0,000 0,000 0,000
2 0,933 0,705 0,237 0,046 0,005 0,000 0,000 0,000 0,000 0,000 0,000
3 0,987 0,885 0,455 0,133 0,023 0,002 0,000 0,000 0,000 0,000 0,000
4 0,998 0,965 0,673 0,282 0,070 0,010 0,001 0,000 0,000 0,000 0,000
5 1,000 0,991 0,837 0,474 0,163 0,032 0,003 0,000 0,000 0,000 0,000
6 1,000 0,998 0,932 0,666 0,308 0,084 0,012 0,001 0,000 0,000 0,000
7 1,000 1,000 0,977 0,818 0,488 0,180 0,035 0,003 0,000 0,000 0,000
8 1,000 1,000 0,993 0,916 0,667 0,324 0,088 0,011 0,000 0,000 0,000
9 1,000 1,000 0,998 0,967 0,814 0,500 0,186 0,033 0,002 0,000 0,000
10 1,000 1,000 1,000 0,989 0,912 0,676 0,333 0,084 0,007 0,000 0,000
11 1,000 1,000 1,000 0,997 0,965 0,820 0,512 0,182 0,023 0,000 0,000
12 1,000 1,000 1,000 0,999 0,988 0,916 0,692 0,334 0,068 0,002 0,000
13 1,000 1,000 1,000 1,000 0,997 0,968 0,837 0,526 0,163 0,009 0,000
π1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
14 1,000 1,000 1,000 1,000 0,999 0,990 0,930 0,718 0,327 0,035 0,002
15 1,000 1,000 1,000 1,000 1,000 0,998 0,977 0,867 0,545 0,115 0,013
16 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,954 0,763 0,295 0,067
17 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,990 0,917 0,580 0,245
18 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,986 0,865 0,623
19 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
20 0 0,358 0,122 0,012 0,001 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,736 0,392 0,069 0,008 0,001 0,000 0,000 0,000 0,000 0,000 0,000
2 0,925 0,677 0,206 0,035 0,004 0,000 0,000 0,000 0,000 0,000 0,000
3 0,984 0,867 0,411 0,107 0,016 0,001 0,000 0,000 0,000 0,000 0,000
4 0,997 0,957 0,630 0,238 0,051 0,006 0,000 0,000 0,000 0,000 0,000
5 1,000 0,989 0,804 0,416 0,126 0,021 0,002 0,000 0,000 0,000 0,000
6 1,000 0,998 0,913 0,608 0,250 0,058 0,006 0,000 0,000 0,000 0,000
7 1,000 1,000 0,968 0,772 0,416 0,132 0,021 0,001 0,000 0,000 0,000
8 1,000 1,000 0,990 0,887 0,596 0,252 0,057 0,005 0,000 0,000 0,000
9 1,000 1,000 0,997 0,952 0,755 0,412 0,128 0,017 0,001 0,000 0,000
10 1,000 1,000 0,999 0,983 0,872 0,588 0,245 0,048 0,003 0,000 0,000
11 1,000 1,000 1,000 0,995 0,943 0,748 0,404 0,113 0,010 0,000 0,000
12 1,000 1,000 1,000 0,999 0,979 0,868 0,584 0,228 0,032 0,000 0,000
13 1,000 1,000 1,000 1,000 0,994 0,942 0,750 0,392 0,087 0,002 0,000
14 1,000 1,000 1,000 1,000 0,998 0,979 0,874 0,584 0,196 0,011 0,000
15 1,000 1,000 1,000 1,000 1,000 0,994 0,949 0,762 0,370 0,043 0,003
16 1,000 1,000 1,000 1,000 1,000 0,999 0,984 0,893 0,589 0,133 0,016
17 1,000 1,000 1,000 1,000 1,000 1,000 0,996 0,965 0,794 0,323 0,075
18 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,931 0,608 0,264
19 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,988 0,878 0,642
20 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
Tabla B
Distribución normal tipificada: N (0, 1)
Probabilidades acumuladas ( p) hasta cada valor Z
Segundo decimal de Zp
Zp 0 1 2 3 4 5 6 7 8 9
!3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
!3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
!3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0012 0,0011 0,0011 0,0010 0,0010
!2,9 0,0019 0,0018 0,0017 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
!2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0020 0,0020 0,0019
!2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
!2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
!2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
!2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
!2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
!2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
!2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
!2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
!1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
!1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
!1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
!1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
!1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
!1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
!1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
!1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
!1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
!1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
!0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
!0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
!0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
!0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
!0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
!0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
!0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
!0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
!0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
!0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
Tabla B (continuación)
Segundo decimal de Zp
Zp 0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
Valores Zp seleccionados: Z 0,90 = 1,282 Z 0,95 = 1,645 Z 0,975 = 1,960
Z 0,99 = 2,326 Z 0,995 = 2,576 Z 0,999 = 3,090
Z 0,9994 = 3,25 Z 0,9998 = 3,50 Z 0,9999 = 3,75

Tabla C
Distribuciones χ2 ( ji-cuadrado)
Valores χ2gl; p que acumulan una probabilidad p con diferentes grados de libertad ( gl )
p = probabilidad acumulada hasta el valor χgl;

2
p
gl 0,001 0,005 0,01 0,025 0,050 0,100 0,900 0,950 0,975 0,990 0,995 0,999
1 0,00 0,00 0,00 0,00 0,00 0,02 2,71 3,84 5,02 6,63 7,88 10,83
2 0,00 0,01 0,02 0,05 0,10 0,21 4,61 5,99 7,38 9,21 10,60 13,82
3 0,02 0,07 0,12 0,22 0,35 0,58 6,25 7,81 9,35 11,34 12,84 16,27
4 0,09 0,21 0,28 0,48 0,71 1,06 7,78 9,49 11,14 13,28 14,86 18,47
5 0,21 0,41 0,55 0,83 1,14 1,61 9,24 11,07 12,83 15,09 16,75 20,52
6 0,38 0,68 0,87 1,24 1,64 2,20 10,64 12,59 14,45 16,81 18,55 22,46
7 0,60 0,99 1,24 1,69 2,27 2,83 12,02 14,07 16,01 18,48 20,28 24,32
8 0,86 1,34 1,65 2,18 2,73 3,49 13,36 15,51 17,53 20,09 21,96 26,13
9 1,15 1,73 2,09 2,70 3,33 4,17 14,68 16,92 19,02 21,67 23,59 27,88
10 1,48 2,16 2,56 3,25 3,94 4,87 15,99 18,31 20,48 23,21 25,19 29,59
11 1,83 2,60 3,05 3,82 4,57 5,58 17,28 19,68 21,92 24,72 26,76 31,26
12 2,21 3,07 3,57 4,40 5,23 6,30 18,55 21,03 23,34 26,22 28,30 32,91
13 2,62 3,57 4,11 5,01 5,89 7,04 19,81 22,36 24,74 27,69 29,82 34,53
14 3,04 4,07 4,66 5,63 6,57 7,79 21,06 23,68 26,12 29,14 31,32 36,12
15 3,48 4,60 5,23 6,26 7,26 8,55 22,31 25,00 27,49 30,58 32,80 37,70
16 3,94 5,14 5,81 6,91 7,96 9,31 23,54 26,30 28,85 32,00 34,27 39,25
17 4,42 5,70 6,41 7,56 8,67 10,09 24,77 27,59 30,19 33,41 35,72 40,79
18 4,90 6,26 7,01 8,23 9,39 10,86 25,99 28,87 31,53 34,81 37,16 42,31
19 5,41 6,84 7,63 8,91 10,12 11,65 27,20 30,14 32,85 36,19 38,58 43,82
20 5,92 7,43 8,26 8,59 10,85 12,44 28,41 31,41 34,17 37,57 40,00 45,31
21 6,45 8,03 8,90 10,28 11,59 13,24 29,62 32,67 35,48 38,93 41,40 46,80
22 6,98 8,64 9,54 10,98 12,34 14,04 30,81 33,92 36,78 40,29 42,80 48,27
23 7,53 9,26 10,20 11,69 13,09 14,85 32,01 35,17 38,08 41,64 44,18 49,73
24 8,08 9,89 10,86 12,40 13,85 15,66 33,20 36,42 39,36 42,98 45,56 51,18
25 8,65 10,52 11,52 13,12 14,61 16,47 34,38 37,65 40,65 44,31 46,93 52,62
26 9,22 11,16 12,20 13,84 15,38 17,29 35,56 38,89 41,92 45,64 48,29 54,05
27 9,80 11,81 12,88 14,57 16,15 18,11 36,74 40,11 43,19 46,96 49,64 55,48
28 10,39 12,46 13,56 15,31 16,39 18,94 37,92 41,34 44,46 48,28 50,99 56,89
29 10,99 13,21 14,26 16,05 17,71 19,77 39,09 42,56 45,72 49,59 52,34 58,30
30 11,59 13,79 14,95 16,79 18,49 20,60 40,26 43,77 46,98 50,89 53,67 59,70
40 17,92 20,71 22,16 24,43 26,51 29,05 51,81 55,76 59,34 63,69 66,77 73,40
50 24,67 27,99 29,71 32,36 34,76 37,69 63,17 67,50 71,42 76,15 79,49 86,66
60 31,74 35,53 37,48 40,48 43,19 46,46 74,40 79,08 83,30 88,38 91,95 99,61
70 39,04 43,28 45,44 48,76 51,74 55,33 85,53 90,53 95,02 100,43 104,21 112,3
80 46,52 51,17 53,54 57,15 60,39 64,28 96,58 101,88 106,63 112,33 116,32 124,8
90 54,16 59,20 61,75 65,65 69,13 73,29 107,57 113,15 118,14 124,12 128,30 137,2
100 61,92 67,33 70,06 74,22 77,93 82,36 118,50 124,34 129,56 135,81 140,17 149,4
Con gl > 30, puede utilizarse la aproximación: .

Tabla D
Distribuciones t de Student
Valores tgl; p que acumulan una probabilidad p con diferentes grados de libertad gl (tgl; p = !tgl; 1!p )
p = probabilidad acumulada hasta cada valor tgl; p

gl 0,001 0,005 0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,990 0,995 0,999
2 !22,32 !9,925 !6,965 !4,303 !2,920 !1,886 1,886 2,920 4,303 6,965 9,925 22,32
3 !10,21 !5,841 !4,541 !3,182 !2,353 !1,638 1,638 2,353 3,182 4,541 5,841 10,21
4 !7,173 !4,604 !3,747 !2,776 !2,132 !1,533 1,533 2,132 2,776 3,747 4,604 7,173
5 !5,893 !4,032 !3,365 !2,571 !2,015 !1,476 1,476 2,015 2,571 3,365 4,032 5,893
6 !5,208 !3,707 !3,143 !2,447 !1,943 !1,440 1,440 1,943 2,447 3,143 3,707 5,208
7 !4,785 !3,499 !2,998 !2,365 !1,895 !1,415 1,415 1,895 2,365 2,998 3,499 4,785
8 !4,501 !3,355 !2,896 !2,306 !1,860 !1,397 1,397 1,860 2,306 2,896 3,355 4,501
9 !4,297 !3,250 !2,821 !2,262 !1,833 !1,383 1,383 1,833 2,262 2,821 3,250 4,297
10 !4,144 !3,169 !2,764 !2,228 !1,812 !1,372 1,372 1,812 2,228 2,764 3,169 4,144
11 !4,025 !3,106 !2,718 !2,201 !1,796 !1,363 1,363 1,796 2,201 2,718 3,106 4,025
12 !3,930 !3,055 !2,681 !2,179 !1,782 !1,356 1,356 1,782 2,179 2,681 3,055 3,930
13 !3,852 !3,012 !2,650 !2,160 !1,771 !1,350 1,350 1,771 2,160 2,650 3,012 3,852
14 !3,787 !2,977 !2,624 !2,145 !1,761 !1,345 1,345 1,761 2,145 2,624 2,977 3,787
15 !3,733 !2,947 !2,602 !2,131 !1,753 !1,341 1,341 1,753 2,131 2,602 2,947 3,733
16 !3,686 !2,921 !2,583 !2,120 !1,746 !1,337 1,337 1,746 2,120 2,583 2,921 3,686
17 !3,646 !2,898 !2,567 !2,110 !1,740 !1,333 1,333 1,740 2,110 2,567 2,898 3,646
18 !3,610 !2,878 !2,552 !2,101 !1,734 !1,330 1,330 1,734 2,101 2,552 2,878 3,610
19 !3,579 !2,861 !2,539 !2,093 !1,729 !1,328 1,328 1,729 2,093 2,539 2,861 3,579
20 !3,552 !2,845 !2,528 !2,086 !1,725 !1,325 1,325 1,725 2,086 2,528 2,845 3,552
21 !3,505 !2,831 !2,518 !2,080 !1,721 !1,323 1,323 1,721 2,080 2,518 2,831 3,505
22 !3,505 !2,819 !2,508 !2,074 !1,717 !1,321 1,321 1,717 2,074 2,508 2,819 3,505
23 !3,485 !2,807 !2,500 !2,069 !1,714 !1,319 1,319 1,714 2,069 2,500 2,807 3,485
24 !3,467 !2,797 !2,192 !2,064 !1,711 !1,318 1,318 1,711 2,064 2,192 2,797 3,467
25 !3,450 !2,787 !2,485 !2,060 !1,708 !1,316 1,316 1,708 2,060 2,485 2,787 3,450
26 !3,435 !2,779 !2,479 !2,056 !1,706 !1,315 1,315 1,706 2,056 2,479 2,779 3,435
27 !3,421 !2,771 !2,473 !2,052 !1,703 !1,314 1,314 1,703 2,052 2,473 2,771 3,421
28 !3,408 !2,763 !2,467 !2,048 !1,701 !1,313 1,313 1,701 2,048 2,467 2,763 3,408
29 !3,396 !2,756 !2,462 !2,045 !1,699 !1,311 1,311 1,699 2,045 2,462 2,756 3,396
30 !3,385 !2,750 !2,457 !2,042 !1,697 !1,310 1,310 1,697 2,042 2,457 2,750 3,385
40 !3,307 !2,704 !2,423 !2,021 !1,684 !1,303 1,303 1,684 2,021 2,423 2,704 3,307
50 !3,261 !2,678 !2,403 !2,009 !1,676 !1,298 1,298 1,676 2,009 2,403 2,678 3,261
60 !3,232 !2,660 !2,390 !2,000 !1,671 !1,296 1,296 1,671 2,000 2,390 2,660 3,232
70 !3,211 !2,648 !2,381 !1,994 !1,667 !1,294 1,294 1,667 1,994 2,381 2,648 3,211
80 !3,195 !2,639 !2,374 !1,990 !1,664 !1,292 1,292 1,664 1,990 2,374 2,639 3,195
90 !3,183 !2,632 !2,369 !1,986 !1,662 !1,290 1,290 1,662 1,986 2,369 2,632 3,183
100 !3,174 !2,626 !2,365 !1,984 !1,660 !1,290 1,290 1,660 1,984 2,365 2,626 3,174
200 !3,131 !2,601 !2,345 !1,972 !1,653 !1,286 1,286 1,653 1,972 2,345 2,601 3,131
500 !3,092 !2,586 !2,334 !1,965 !1,648 !1,283 1,283 1,648 1,965 2,334 2,586 3,092
4 !3,090 !2,576 !2,326 !1,960 !1,645 !1,282 1,282 1,645 1,960 2,326 2,576 3,090
Tabla E
Potencias (1 ! β) para diferentes valores de yα
Nivel de significación α (contrastes unilaterales)

0,05 0,025 0,01 0,005
1,00 0,26 0,17 0,09 0,06

1,10 0,29 0,20 0,11 0,07
1,20 0,33 0,22 0,13 0,08
1,30 0,37 0,26 0,15 0,10
1,40 0,40 0,29 0,18 0,12
1,50 0,44 0,32 0,20 0,14
1,60 0,48 0,36 0,23 0,17
1,70 0,52 0,40 0,27 0,19
1,80 0,56 0,44 0,30 0,22
1,90 0,60 0,48 0,34 0,25
2,00 0,64 0,52 0,37 0,28
2,10 0,68 0,56 0,41 0,32
2,20 0,71 0,60 0,45 0,35
2,30 0,74 0,63 0,49 0,39
2,40 0,78 0,67 0,53 0,43
2,50 0,80 0,71 0,57 0,47
2,60 0,83 0,74 0,61 0,51
2,70 0,85 0,77 0,65 0,55
2,80 0,88 0,80 0,68 0,59
2,90 0,90 0,83 0,72 0,63
3,00 0,91 0,85 0,75 0,66
3,10 0,93 0,87 0,78 0,70
3,20 0,94 0,89 0,81 0,73
3,30 0,95 0,91 0,84 0,77
3,40 0,96 0,93 0,86 0,80
3,50 0,97 0,94 0,88 0,82
3,60 0,98 0,95 0,90 0,85
3,70 0,98 0,96 0,92 0,87
3,80 0,98 0,97 0,93 0,89
3,90 0,99 0,97 0,94 0,91
4,00 0,99 0,98 0,95 0,92
4,10 0,99 0,98 0,96 0,94
4,20 ! 0,99 0,97 0,95
4,30 ! 0,99 0,98 0,96
4,40 ! 0,99 0,98 0,97
4,50 ! 0,99 0,99 0,97
4,60 ! ! 0,99 0,98
4,70 ! ! 0,99 0,98
4,80 ! ! 0,99 0,99
4,90 ! ! ! 0,99
5,00 ! ! ! 0,99
Tabla F
Distribuciones F
Puntos críticos que acumulan una probabilidad 1 ! α
con gl1 = «grados de libertad del numerador» y gl2 = «grados de libertad del denominador»
1 ! α = 0,95
gl1
gl2 1 2 3 4 5 6 7 8 10 12 15 20
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,79 8,74 8,70 8,66
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 5,96 5,91 5,86 5,80
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,74 4,68 4,62 4,56
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,06 4,00 3,94 3,87
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,64 3,57 3,51 3,44
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,35 3,28 3,22 3,15
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,14 3,07 3,01 2,94
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 2,98 2,91 2,85 2,77
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,85 2,79 2,72 2,65
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,75 2,69 2,62 2,54
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,67 2,60 2,53 2,46
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,60 2,53 2,46 2,39
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,54 2,48 2,40 2,33
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,49 2,42 2,35 2,28
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,45 2,38 2,31 2,23
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,41 2,34 2,27 2,19
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,38 2,31 2,23 2,16
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,35 2,28 2,20 2,12
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,32 2,25 2,18 2,10
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,30 2,23 2,15 2,07
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,27 2,20 2,13 2,05
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,25 2,18 2,11 2,03
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,24 2,16 2,09 2,01
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,22 2,15 2,07 1,99
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,20 2,13 2,06 1,97
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,19 2,12 2,04 1,96
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,18 2,10 2,03 1,94
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,16 2,09 2,01 1,93
35 4,12 3,27 2,87 2,64 2,49 2,37 2,29 2,22 2,11 2,04 1,96 1,88
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,08 2,00 1,92 1,84
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,03 1,95 1,87 1,78
70 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 1,97 1,89 1,81 1,72
90 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,94 1,86 1,78 1,69
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,91 1,83 1,75 1,66
200 3,89 3,04 2,65 2,42 2,26 2,14 2,06 1,98 1,88 1,80 1,72 1,62
500 3,86 3,01 2,62 2,39 2,23 2,12 2,03 1,96 1,85 1,77 1,69 1,59
4 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,83 1,75 1,67 1,57
Tabla F (continuación)
1 ! α = 0,99
gl1
gl2 1 2 3 4 5 6 7 8 10 12 15 20
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,23 27,05 26,87 26,69
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,55 14,37 14,20 14,02
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,05 9,89 9,72 9,55
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,87 7,72 7,56 7,40
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,62 6,47 6,31 6,16
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,81 5,67 5,52 5,36
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,26 5,11 4,96 4,81
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,85 4,71 4,56 4,41
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,54 4,40 4,25 4,10
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,30 4,16 4,01 3,86
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,10 3,96 3,82 3,66
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 3,94 3,80 3,66 3,51
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,80 3,67 3,52 3,37
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,69 3,55 3,41 3,26
17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,59 3,46 3,31 3,16
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,51 3,37 3,23 3,08
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,43 3,30 3,15 3,00
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,37 3,23 3,09 2,94
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,31 3,17 3,03 2,88
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,26 3,12 2,98 2,83
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,21 3,07 2,93 2,78
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,17 3,03 2,89 2,74
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,13 2,99 2,85 2,70
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,09 2,96 2,81 2,66
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,06 2,93 2,78 2,63
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,03 2,90 2,75 2,60
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,00 2,87 2,73 2,57
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 2,98 2,84 2,70 2,55
35 7,42 5,27 4,40 3,91 3,59 3,37 3,20 3,07 2,88 2,74 2,60 2,44
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,80 2,66 2,52 2,37
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,70 2,56 2,42 2,27
70 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,59 2,45 2,31 2,15
90 6,93 4,85 4,01 3,53 3,23 3,01 2,84 2,72 2,52 2,39 2,24 2,09
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,47 2,34 2,19 2,03
200 6,76 4,71 3,88 3,41 3,11 2,89 2,73 2,60 2,41 2,27 2,13 1,97
500 6,69 4,65 3,82 3,36 3,05 2,84 2,68 2,55 2,36 2,22 2,07 1,92
4 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,32 2,18 2,04 1,88
Tabla G
Distribuciones F no centradas
Probabilidades de cometer errores Tipo II (β) asociadas a diferentes valores de yα
1 ! α = 0,95
gl1 gl2 0,5 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,6 3,0
1 4 0,91 0,80 0,74 0,67 0,59 0,51 0,43 0,65 0,22 0,12
6 0,91 0,78 0,70 0,62 0,52 0,43 0,34 0,26 0,14 0,06
8 0,90 0,76 0,68 0,59 0,49 0,39 0,30 0, 22 0,11 0,04
10 0,90 0,75 0,66 0,57 0,47 0,37 0,28 0, 20 0,09 0,03
12 0,90 0,74 0,65 0,56 0,45 0,35 0,26 0,19 0,08 0,03
16 0,90 0,74 0,64 0,54 0,43 0,33 0,24 0, 17 0,07 0,02
20 0,90 0,73 0,63 0,53 0,42 0,32 0,26 0,16 0,06 0,02
30 0,89 0,72 0,62 0,52 0,40 0,31 0,22 0,15 0,06 0,02
4 0,89 0,71 0,60 0,49 0,38 0,28 0,19 0,12 0,04 0,01
2 4 0,92 0,82 0,77 0,70 0,62 0,54 0,46 0,38 0,24 0,14
6 0,91 0,79 0,71 0,63 0,53 0,43 0,34 0,26 0,13 0,05
8 0,91 0,77 0,68 0,58 0,48 0,37 0,28 0,20 0,08 0,03
10 0,91 0,75 0,66 0,55 0,44 0,34 0,24 0,16 0,06 0,02
12 0,90 0,74 0,64 0,53 0,42 0,31 0,22 0,14 0,05 0,01
16 0,90 0,73 0,62 0,51 0,39 0,28 0,19 0,12 0,04 0,01
20 0,90 0,72 0,61 0,49 0,36 0,26 0,17 0,11 0,03 0,01
30 0,90 0,71 0,59 0,47 0,35 0,24 0,15 0,09 0,02 0,00
4 0,89 0,68 0,56 0,43 0,30 0,20 0,12 0,06 0,01 0,00
3 4 0,92 0,83 0,77 0,71 0,63 0,55 0,47 0,39 0,25 0,14
6 0,91 0,79 0,71 0,62 0,52 0,42 0,33 0,24 0,11 0,04
8 0,91 0,76 0,67 0,57 0,46 0,35 0,25 0,18 0,06 0,02
10 0,91 0,75 0,65 0,53 0,41 0,30 0,21 0,13 0,04 0,01
12 0,90 0,73 0,62 0,50 0,38 0,27 0,18 0,11 0,03 0,01
16 0,90 0,71 0,60 0,47 0,34 0,23 0,14 0,08 0,02 0,00
20 0,90 0,70 0,58 0,45 0,32 0,21 0,13 0,07 0,01 0,00
30 0,89 0,68 0,55 0,42 0,29 0,18 0,10 0,05 0,01 0,00
4 0,88 0,64 0,50 0,36 0,23 0,13 0,07 0,03 0,00 0,00
4 4 0,92 0,83 0,78 0,71 0,64 0,55 0,47 0,39 0,25 0,14
6 0,92 0,79 0,71 0,62 0,52 0,41 0,31 0,23 0,10 0,04
8 0,91 0,76 0,66 0,55 0,44 0,33 0,23 0,15 0,05 0,01
10 0,91 0,74 0,63 0,51 0,39 0,27 0,18 0,11 0,03 0,00
12 0,90 0,72 0,61 0,48 0,35 0,24 0,15 0,08 0,02 0,00
16 0,90 0,70 0,57 0,44 0,31 0,19 0,11 0,06 0,01 0,00
20 0,89 0,68 0,55 0,41 0,28 0,17 0,09 0,04 0,01 0,00
30 0,89 0,66 0,52 0,37 0,24 0,14 0,07 0,03 0,00 0,00
4 0,88 0,60 0,45 0,29 0,17 0,08 0,04 0,01 0,00 0,00
Tabla G (continuación)
1 ! α = 0,99
gl1 gl2 0,5 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,6 3,0
1 4 0,98 0,95 0,93 0,90 0,87 0,83 0,78 0,73 0,62 0,50
6 0,98 0,93 0,90 0,86 0,81 0,75 0,69 0,61 0,46 0,31
8 0,98 0,92 0,89 0,84 0,78 0,70 0,62 0,54 0,37 0,22
10 0,98 0,92 0,87 0,82 0,75 0,67 0,58 0,49 0,31 0,17
12 0,97 0,91 0,87 0,81 0,73 0,65 0,55 0,46 0,28 0,14
16 0,97 0,90 0,85 0,79 0,71 0,61 0,52 0,42 0,24 0,11
20 0,97 0,90 0,85 0,78 0,69 0,59 0,49 0,39 0,21 0,10
30 0,97 0,89 0,83 0,76 0,67 0,57 0,46 0,36 0,19 0,08
4 0,97 0,88 0,81 0,72 0,62 0,51 0,40 0,30 0,14 0,05
2 4 0,98 0,96 0,94 0,92 0,89 0,85 0,81 0,76 0,66 0,54
6 0,98 0,94 0,91 0,87 0,82 0,76 0,70 0,62 0,46 0,31
8 0,98 0,93 0,89 0,84 0,78 0,70 0,61 0,52 0,34 0,19
10 0,98 0,92 0,88 0,82 0,74 0,65 0,55 0,45 0,26 0,13
12 0,98 0,91 0,86 0,80 0,71 0,61 0,51 0,40 0,22 0,09
16 0,97 0,90 0,84 0,77 0,67 0,57 0,45 0,34 0,16 0,06
20 0,97 0,90 0,83 0,75 0,65 0,53 0,42 0,31 0,14 0,04
30 0,97 0,88 0,82 0,72 0,61 0,49 0,37 0,26 0,10 0,03
4 0,97 0,88 0,77 0,66 0,53 0,40 0,28 0,18 0,05 0,01
3 4 0,98 0,96 0,94 0,92 0,89 0,86 0,82 0,77 0,67 0,55
6 0,98 0,94 0,91 0,87 0,82 0,75 0,69 0,61 0,44 0,29
8 0,98 0,93 0,89 0,84 0,77 0,58 0,59 0,49 0,30 0,19
10 0,98 0,92 0,87 0,80 0,72 0,62 0,52 0,41 0,22 0,09
12 0,98 0,91 0,85 0,78 0,69 0,58 0,46 0,35 0,17 0,06
16 0,97 0,90 0,83 0,74 0,64 0,51 0,39 0,28 0,11 0,03
20 0,97 0,89 0,82 0,72 0,60 0,47 0,35 0,24 0,08 0,02
30 0,97 0,87 0,79 0,68 0,55 0,42 0,29 0,18 0,05 0,01
4 0,97 0,84 0,73 0,59 0,44 0,30 0,18 0,10 0,02 0,00
4 4 0,98 0,96 0,94 0,92 0,89 0,86 0,82 0,78 0,67 0,56
6 0,98 0,94 0,91 0,87 0,82 0,76 0,68 0,60 0,43 0,28
8 0,98 0,93 0,89 0,83 0,76 0,67 0,57 0,47 0,28 0,14
10 0,98 0,92 0,86 0,79 0,70 0,60 0,49 0,37 0,19 0,07
12 0,98 0,91 0,85 0,76 0,66 0,55 0,42 0,31 0,13 0,04
16 0,97 0,89 0,82 0,72 0,60 0,47 0,34 0,23 0,08 0,02
20 0,97 0,88 0,80 0,69 0,56 0,42 0,29 0,18 0,05 0,01
30 0,97 0,86 0,77 0,64 0,50 0,35 0,22 0,13 0,03 0,00
4 0,96 0,81 0,68 0,53 0,36 0,22 0,11 0,05 0,01 0,00
Tabla H
Coeficientes de polinomios ortogonales
Coeficientes cj para comparaciones de tendencia, con J = nº de medias
Coeficientes
J c1 c2 c3 c4 c5 c6 c7 c8 c9 c10
3 Lineal !1 0 1 2
Cuadrático 1 !2 1 6
4 Lineal !3 !1 1 3 20
Cuadrático 1 !1 !1 1 4
Cúbico !1 3 !3 1 20
5 Lineal !2 !1 0 1 2 10
Cuadrático 2 !1 !2 !1 2 14
Cúbico !1 2 0 !2 1 10
De 4º grado 1 !4 6 !4 1 70
6 Lineal !5 !3 !1 1 3 5 70
Cuadrático 5 !1 !4 !4 1 5 84
Cúbico !5 7 4 !4 !7 5 180
De 4º grado 1 !3 2 2 !3 1 28
7 Lineal !3 !2 !1 0 1 2 3 28
Cuadrático 5 0 !3 !4 !3 0 5 84
Cúbico !1 1 1 0 !1 !1 1 6
De 4º grado 3 !7 1 6 1 !7 3 154
8 Lineal !7 !5 !3 !1 1 3 5 7 168
Cuadrático 7 1 !3 !5 !5 !3 1 7 168
Cúbico !7 5 7 3 !3 !7 !5 7 264
De 4º grado 7 !13 !3 9 9 !3 !13 7 616
De 5º grado !7 23 !17 !15 15 17 !23 7 2184
9 Lineal !4 !3 !2 !1 0 1 2 3 4 60
Cuadrático 28 7 !8 !17 !20 !17 !8 7 28 2772
Cúbico !14 7 13 9 0 !9 !13 !7 14 990
De 4º grado 14 !21 !11 9 18 9 !11 !21 14 2002
De 5º grado !4 11 !4 !9 0 9 4 !11 4 468
10 Lineal !9 !7 !5 !3 !1 1 3 5 7 9 330
Cuadrático 6 2 !1 !3 !4 !4 !3 !1 2 6 132
Cúbico !42 14 35 31 12 !12 !31 !35 !14 42 8580
De 4º grado 18 !22 !17 3 18 18 3 !17 !22 18 2860
De 5º grado !6 14 !1 !11 !6 6 11 1 !14 6 780
Tabla I
Transformación Z de Fisher
Valores Z correspondientes a RXY y ρXY
RXY | ρXY Z RXY | ρXY Z RXY | ρXY Z RXY | ρXY Z
0,00 0,0000 0,25 0,2554 0,50 0,5493 0,75 0,9730

0,01 0,0100 0,26 0,2661 0,51 0,5627 0,76 0,9962
0,02 0,0200 0,27 0,2769 0,52 0,5763 0,77 1,0203
0,03 0,0300 0,28 0,2877 0,53 0,5901 0,78 1,0454
0,04 0,0400 0,29 0,2986 0,54 0,6042 0,79 1,0714
0,05 0,0500 0,30 0,3095 0,55 0,6184 0,80 1,0986
0,06 0,0601 0,31 0,3205 0,56 0,6328 0,81 1,1270
0,07 0,0701 0,32 0,3316 0,57 0,6475 0,82 1,1568
0,08 0,0802 0,33 0,3428 0,58 0,6625 0,83 1,1881
0,09 0,0902 0,34 0,3541 0,59 0,6777 0,84 1,2212
0,10 0,1003 0,35 0,3654 0,60 0,6931 0,85 1,2562
0,11 0,1104 0,36 0,3769 0,61 0,7089 0,86 1,2933
0,12 0,1206 0,37 0,3884 0,62 0,7250 0,87 1,3331
0,13 0,1307 0,38 0,4001 0,63 0,7414 0,88 1,3758
0,14 0,1409 0,39 0,4118 0,64 0,7582 0,89 1,4219
0,15 0,1511 0,40 0,4236 0,65 0,7753 0,90 1,4722
0,16 0,1614 0,41 0,4356 0,66 0,7928 0,91 1,5275
0,17 0,1717 0,42 0,4477 0,67 0,8107 0,92 1,5890
0,18 0,1820 0,43 0,4599 0,68 0,8291 0,93 1,6584
0,19 0,1923 0,44 0,4722 0,69 0,8480 0,94 1,7380
0,20 0,2027 0,45 0,4847 0,70 0,8673 0,95 1,8318
0,21 0,2132 0,46 0,4973 0,71 0,8872 0,96 1,9459
0,22 0,2237 0,47 0,5101 0,72 0,9076 0,97 2,0923
0,23 0,2342 0,48 0,5230 0,73 0,9287 0,98 2,2976
0,24 0,2448 0,49 0,5361 0,74 0,9505 0,99 2,6467
Tabla J
Puntos críticos para el estadístico de Dunn-Bonferroni
Contrastes bilaterales
1 ! αF = 0,95
k = número de comparaciones
glerror 2 3 4 5 6 7 8 9 10 12 15 20
5 3,16 3,53 3,81 4,03 4,22 4,38 4,53 4,66 4,77 4,98 5,25 5,60
6 2,97 3,29 3,52 3,71 3,86 4,00 4,12 4,22 4,32 4,49 4,70 4,98
7 2,84 3,13 3,34 3,50 3,64 3,75 3,86 3,95 4,03 4,17 4,36 4,59
8 2,75 3,02 3,21 3,36 3,48 3,58 3,68 3,76 3,83 3,96 4,12 4,33
9 2,69 2,93 3,11 3,25 3,36 3,46 3,55 3,62 3,69 3,81 3,95 4,15
10 2,63 2,87 3,04 3,17 3,28 3,37 3,45 3,52 3,58 3,69 3,83 4,00
11 2,59 2,82 2,98 3,11 3,21 3,30 3,37 3,44 3,50 3,60 3,73 3,89
12 2,56 2,78 2,93 3,05 3,15 3,24 3,31 3,37 3,43 3,53 3,65 3,81
13 2,53 2,75 2,90 3,01 3,11 3,19 3,26 3,32 3,37 3,47 3,58 3,73
14 2,51 2,72 2,86 2,98 3,07 3,15 3,21 3,27 3,33 3,42 3,53 3,67
15 2,49 2,69 2,84 2,95 3,04 3,11 3,18 3,23 3,29 3,37 3,48 3,62
16 2,47 2,67 2,81 2,92 3,01 3,08 3,15 3,20 3,25 3,34 3,44 3,58
17 2,46 2,66 2,79 2,90 2,98 3,06 3,12 3,17 3,22 3,31 3,41 3,54
18 2,45 2,64 2,77 2,88 2,96 3,03 3,09 3,15 3,20 3,28 3,38 3,51
19 2,43 2,63 2,76 2,86 2,94 3,01 3,07 3,13 3,17 3,25 3,35 3,48
20 2,42 2,61 2,74 2,85 2,93 3,00 3,06 3,11 3,15 3,23 3,33 3,46
21 2,41 2,60 2,73 2,83 2,91 2,98 3,04 3,09 3,14 3,21 3,31 3,43
22 2,41 2,59 2,72 2,82 2,90 2,97 3,02 3,07 3,12 3,20 3,29 3,41
23 2,40 2,58 2,71 2,81 2,89 2,95 3,01 3,06 3,10 3,18 3,27 3,39
24 2,39 2,57 2,70 2,80 2,88 2,94 3,00 3,05 3,09 3,17 3,26 3,38
25 2,38 2,57 2,69 2,79 2,86 2,93 2,99 3,03 3,08 3,15 3,24 3,36
26 2,38 2,56 2,68 2,78 2,86 2,92 2,98 3,02 3,07 3,14 3,23 3,35
27 2,37 2,55 2,68 2,77 2,85 2,91 2,97 3,01 3,06 3,13 3,22 3,33
28 2,37 2,55 2,67 2,76 2,84 2,90 2,96 3,00 3,05 3,12 3,21 3,32
29 2,36 2,54 2,66 2,76 2,83 2,89 2,95 3,00 3,04 3,11 3,20 3,31
30 2,36 2,54 2,66 2,75 2,82 2,89 2,94 2,99 3,03 3,10 3,19 3,30
35 2,34 2,51 2,63 2,72 2,80 2,86 2,91 2,96 3,00 3,07 3,15 3,26
40 2,33 2,50 2,62 2,70 2,78 2,84 2,89 2,93 2,97 3,04 3,12 3,23
50 2,31 2,48 2,59 2,68 2,75 2,81 2,85 2,90 2,94 3,00 3,08 3,18
60 2,30 2,46 2,58 2,66 2,73 2,79 2,83 2,88 2,91 2,98 3,06 3,16
80 2,28 2,45 2,56 2,64 2,71 2,76 2,81 2,85 2,89 2,95 3,03 3,12
100 2,28 2,43 2,54 2,63 2,69 2,75 2,79 2,83 2,87 2,93 3,01 3,10
200 2,26 2,41 2,52 2,60 2,66 2,72 2,76 2,80 2,84 2,90 2,97 3,06
500 2,25 2,40 2,51 2,59 2,65 2,70 2,75 2,79 2,82 2,88 2,95 3,04
4 2,24 2,39 2,50 2,58 2,64 2,69 2,74 2,77 2,81 2,87 2,94 3,02
Tabla J (continuación)
1 ! αF = 0,99
k = número de comparaciones
glerror 2 3 4 5 6 7 8 9 10 12 15 20
5 4,77 5,25 5,60 5,89 6,14 6,35 6,54 6,71 6,87 7,15 7,50 7,98
6 4,32 4,70 4,98 5,21 5,40 5,56 5,71 5,84 5,96 6,17 6,43 6,79
7 4,03 4,36 4,59 4,79 4,94 5,08 5,20 5,31 5,41 5,58 5,80 6,08
8 3,83 4,12 4,33 4,50 4,64 4,76 4,86 4,96 5,04 5,19 5,37 5,62
9 3,69 3,95 4,15 4,30 4,42 4,53 4,62 4,71 4,78 4,91 5,08 5,29
10 3,58 3,83 4,00 4,14 4,26 4,36 4,44 4,52 4,59 4,71 4,85 5,05
11 3,50 3,73 3,89 4,02 4,13 4,22 4,30 4,37 4,44 4,55 4,68 4,86
12 3,43 3,65 3,81 3,93 4,03 4,12 4,19 4,26 4,32 4,42 4,55 4,72
13 3,37 3,58 3,73 3,85 3,95 4,03 4,10 4,16 4,22 4,32 4,44 4,60
14 3,33 3,53 3,67 3,79 3,88 3,96 4,03 4,09 4,14 4,23 4,35 4,50
15 3,29 3,48 3,62 3,73 3,82 3,90 3,96 4,02 4,07 4,16 4,27 4,42
16 3,25 3,44 3,58 3,69 3,77 3,85 3,91 3,96 4,01 4,10 4,21 4,35
17 3,22 3,41 3,54 3,65 3,73 3,80 3,86 3,92 3,97 4,05 4,15 4,29
18 3,20 3,38 3,51 3,61 3,69 3,76 3,82 3,87 3,92 4,00 4,10 4,23
19 3,17 3,35 3,48 3,58 3,66 3,73 3,79 3,84 3,88 3,96 4,06 4,19
20 3,15 3,33 3,46 3,55 3,63 3,70 3,75 3,80 3,85 3,93 4,02 4,15
21 3,14 3,31 3,43 3,53 3,60 3,67 3,73 3,78 3,82 3,90 3,99 4,11
22 3,12 3,29 3,41 3,50 3,58 3,64 3,70 3,75 3,79 3,87 3,96 4,08
23 3,10 3,27 3,39 3,48 3,56 3,62 3,68 3,72 3,77 3,84 3,93 4,05
24 3,09 3,26 3,38 3,47 3,54 3,60 3,66 3,70 3,75 3,82 3,91 4,02
25 3,08 3,24 3,36 3,45 3,52 3,58 3,64 3,68 3,73 3,80 3,88 4,00
26 3,07 3,23 3,35 3,43 3,51 3,57 3,62 3,67 3,71 3,78 3,86 3,97
27 3,06 3,22 3,33 3,42 3,49 3,55 3,60 3,65 3,69 3,76 3,84 3,95
28 3,05 3,21 3,32 3,41 3,48 3,54 3,59 3,63 3,67 3,74 3,83 3,94
29 3,04 3,20 3,31 3,40 3,47 3,52 3,58 3,62 3,66 3,73 3,81 3,92
30 3,03 3,19 3,30 3,39 3,45 3,51 3,56 3,61 3,65 3,71 3,80 3,90
35 3,00 3,15 3,26 3,34 3,41 3,46 3,51 3,55 3,59 3,66 3,74 3,84
40 2,97 3,12 3,23 3,31 3,37 3,43 3,47 3,51 3,55 3,61 3,69 3,79
50 2,94 3,08 3,18 3,26 3,32 3,38 3,42 3,46 3,50 3,56 3,63 3,72
60 2,91 3,06 3,16 3,23 3,29 3,34 3,39 3,43 3,46 3,52 3,59 3,68
80 2,89 3,03 3,12 3,20 3,25 3,30 3,35 3,38 3,42 3,47 3,54 3,63
100 2,87 3,01 3,10 3,17 3,23 3,28 3,32 3,36 3,39 3,45 3,51 3,60
200 2,84 2,97 3,06 3,13 3,19 3,23 3,27 3,31 3,34 3,39 3,46 3,54
500 2,82 2,95 3,04 3,11 3,16 3,21 3,25 3,28 3,31 3,36 3,42 3,50
4 2,81 2,94 3,02 3,09 3,15 3,19 3,23 3,26 3,29 3,34 3,41 3,48
Tabla K
Puntos críticos para el estadístico de Dunnett
Contrastes unilaterales
J = nº de medias (incluida la del grupo control)

glerror 1 ! αF 3 4 5 6 7 8 9 10
6 0,95 2,34 2,56 2,71 2,83 2,92 3,00 3,07 3,12

0,99 3,61 3,88 4,07 4,21 4,33 4,43 4,51 4,59
7 0,95 2,27 2,48 2,62 2,73 2,82 2,89 2,95 3,01
0,99 3,42 3,66 3,83 3,96 4,07 4,15 4,23 4,30
8 0,95 2,22 2,42 2,55 2,66 2,74 2,81 2,87 2,92
0,99 3,29 3,51 3,67 3,79 3,88 3,96 4,03 4,09
9 0,95 2,18 2,37 2,50 2,60 2,68 2,75 2,81 2,86
0,99 3,19 3,40 3,55 3,66 3,75 3,82 3,89 3,94
10 0,95 2,15 2,34 2,47 2,56 2,64 2,70 2,76 2,81
0,99 3,11 3,31 3,45 3,56 3,64 3,71 3,78 3,83
11 0,95 2,13 2,31 2,44 2,53 2,60 2,67 2,72 2,77
0,99 3,06 3,25 3,38 3,48 3,56 3,63 3,69 3,74
12 0,95 2,11 2,29 2,41 2,50 2,58 2,64 2,69 2,74
0,99 3,01 3,19 3,32 3,42 3,50 3,56 3,62 3,67
13 0,95 2,09 2,27 2,39 2,48 2,55 2,61 2,66 2,71
0,99 2,97 3,15 3,27 3,37 3,44 3,51 3,56 3,61
14 0,95 2,08 2,25 2,37 2,46 2,53 2,59 2,64 2,69
0,99 2,94 3,11 3,23 3,32 3,40 3,46 3,51 3,56
15 0,95 2,07 2,24 2,36 2,44 2,51 2,57 2,62 2,67
0,99 2,91 3,08 3,20 3,29 3,36 3,42 3,47 3,52
16 0,95 2,06 2,23 2,34 2,43 2,50 2,56 2,61 2,65
0,99 2,88 3,05 3,17 3,26 3,33 3,39 3,44 3,48
18 0,95 2,05 2,21 2,32 2,41 2,48 2,53 2,58 2,62
0,99 2,84 3,01 3,12 3,21 3,27 3,33 3,38 3,42
20 0,95 2,03 2,19 2,30 2,39 2,46 2,51 2,56 2,60
0,99 2,81 2,97 3,08 3,17 3,23 3,29 3,34 3,38
24 0,95 2,01 2,17 2,28 2,36 2,43 2,48 2,53 2,57
0,99 2,77 2,92 3,03 3,11 3,17 3,22 3,27 3,31
30 0,95 1,99 2,15 2,25 2,33 2,40 2,45 2,50 2,54
0,99 2,72 2,87 2,97 3,05 3,11 3,16 3,21 3,24
40 0,95 1,97 2,13 2,23 2,31 2,37 2,42 2,47 2,51
0,99 2,68 2,82 2,92 2,99 3,05 3,10 3,14 3,18
60 0,95 1,95 2,10 2,21 2,28 2,35 2,39 2,44 2,48
0,99 2,64 2,78 2,87 2,94 3,00 3,04 3,08 3,12
120 0,95 1,93 2,08 2,18 2,26 2,32 2,37 2,41 2,45
0,99 2,60 2,73 2,82 2,89 2,94 2,99 3,03 3,06
4 0,95 1,92 2,06 2,16 2,23 2,29 2,34 2,38 2,42
0,99 2,56 2,68 2,77 2,84 2,89 2,93 2,97 3,00
Tabla K (continuación)
Contrastes bilaterales
J = nº de medias (incluida la del grupo control)

glerror 1 ! αF 3 4 5 6 7 8 9 10
6 0,95 2,86 3,10 3,26 3,39 3,49 3,57 3,64 3,71

0,99 4,21 4,51 4,71 4,87 5,00 5,10 5,20 5,28
7 0,95 2,75 2,97 3,12 3,24 3,33 3,41 3,47 3,53
0,99 3,95 4,21 4,39 4,53 4,64 4,74 4,82 4,89
8 0,95 2,67 2,88 3,02 3,13 3,22 3,29 3,35 3,41
0,99 3,77 4,00 4,17 4,29 4,40 4,48 4,56 4,62
9 0,95 2,61 2,81 2,95 3,05 3,14 3,20 3,26 3,32
0,99 3,63 3,85 4,01 4,12 4,22 4,30 4,37 4,43
10 0,95 2,57 2,76 2,89 2,99 3,07 3,14 3,19 3,24
0,99 3,53 3,74 3,88 3,99 4,08 4,16 4,22 4,28
11 0,95 2,53 2,72 2,84 2,94 3,02 3,08 3,14 3,19
0,99 3,45 3,65 3,79 3,89 3,98 4,05 4,11 4,16
12 0,95 2,50 2,68 2,81 2,90 2,98 3,04 3,09 3,14
0,99 3,39 3,58 3,71 3,81 3,89 3,96 4,02 4,07
13 0,95 2,48 2,65 2,78 2,87 2,94 3,00 3,06 3,10
0,99 3,33 3,52 3,65 3,74 3,82 3,89 3,94 3,99
14 0,95 2,46 2,63 2,75 2,84 2,91 2,97 3,02 3,07
0,99 3,29 3,47 3,59 3,69 3,76 3,83 3,88 3,93
15 0,95 2,44 2,61 2,73 2,82 2,89 2,95 3,00 3,04
0,99 3,25 3,43 3,55 3,64 3,71 3,78 3,83 3,88
16 0,95 2,42 2,59 2,71 2,80 2,87 2,92 2,97 3,02
0,99 3,22 3,39 3,51 3,60 3,67 3,73 3,78 3,83
18 0,95 2,40 2,56 2,68 2,76 2,83 2,89 2,94 2,98
0,99 3,17 3,33 3,44 3,53 3,60 3,66 3,71 3,75
20 0,95 2,38 2,54 2,65 2,76 2,80 2,86 2,90 2,95
0,99 3,13 3,29 3,40 3,48 3,55 3,60 3,65 3,69
24 0,95 2,35 2,51 2,61 2,70 2,76 2,81 2,86 2,90
0,99 3,07 3,22 3,32 3,40 3,47 3,52 3,57 3,61
30 0,95 2,32 2,47 2,58 2,66 2,72 2,77 2,82 2,86
0,99 3,01 3,15 3,25 3,33 3,39 3,44 3,49 3,52
40 0,95 2,29 2,44 2,54 2,62 2,68 2,73 2,77 2,81
0,99 2,95 3,09 3,19 3,26 3,32 3,37 3,41 3,44
60 0,95 2,27 2,41 2,51 2,58 2,64 2,69 2,73 2,77
0,99 2,90 3,03 3,12 3,19 3,25 3,29 3,33 3,37
120 0,95 2,24 2,38 2,47 2,55 2,60 2,65 2,39 2,73
0,99 2,85 2,97 3,06 3,12 3,18 3,22 3,26 3,29
4 0,95 2,21 2,35 2,44 2,51 2,57 2,61 2,65 2,69
0,99 2,79 2,92 3,00 3,06 3,11 3,15 3,19 3,22
Tabla L
Puntos críticos de las distribuciones del rango studentizado
1 ! αF = 0,95
J = nº de medias
glerror 3 4 5 6 7 8 9 10 11 12 15 20
6 4,34 4,90 5,31 5,63 5,90 6,12 6,32 6,49 6,65 6,79 7,14 7,59
7 4,16 4,68 5,06 5,36 5,61 5,82 6,00 6,16 6,30 6,43 6,76 7,17
8 4,04 4,53 4,89 5,17 5,40 5,60 5,77 5,92 6,05 6,18 6,48 6,87
9 3,95 3,42 4,76 5,02 5,24 5,43 5,60 5,74 5,87 5,98 6,28 6,64
10 3,88 3,33 4,65 4,91 5,12 5,30 5,46 5,60 5,72 5,83 6,11 6,47
11 3,82 3,26 4,57 4,82 5,03 5,20 5,35 5,49 5,60 5,71 5,98 6,33
12 3,77 3,20 4,51 4,75 4,95 5,12 5,26 5,40 5,51 5,62 5,88 6,21
13 3,74 3,15 4,45 4,69 4,88 5,05 5,19 5,32 5,43 5,53 5,79 6,11
14 3,70 3,11 4,41 4,64 4,83 4,99 5,13 5,25 5,36 5,46 5,71 6,03
15 3,67 3,08 4,37 4,60 4,78 4,94 5,08 5,20 5,31 5,40 5,65 5,96
16 3,65 3,05 4,33 4,56 4,74 4,90 5,03 5,15 5,26 5,35 5,59 5,90
18 3,61 3,00 4,28 4,50 4,67 4,82 4,96 5,07 5,17 5,27 5,50 5,79
20 3,58 3,96 4,23 4,44 4,62 4,77 4,90 5,01 5,11 5,20 5,43 5,71
24 3,53 3,90 4,17 4,17 4,54 4,68 4,81 4,92 5,01 5,10 5,32 5,59
30 3,49 3,84 4,10 4,30 4,46 4,60 4,72 4,82 4,92 5,00 5,21 5,47
40 3,44 3,79 4,04 4,23 4,39 4,52 4,64 4,74 4,82 4,90 5,11 5,36
60 3,40 3,74 3,98 4,16 4,31 4,44 4,55 4,65 4,73 4,81 5,00 5,24
4 3,31 3,63 3,86 4,03 4,17 4,29 4,39 4,47 4,55 4,62 4,80 5,01
1 ! αF = 0,99
J = nº de medias
glerror 3 4 5 6 7 8 9 10 11 12 15 20
6 6,33 7,03 7,56 7,97 8,32 8,62 8,87 9,10 9,30 9,48 9,95 10,54
7 5,92 6,54 7,00 7,37 7,68 7,94 8,17 8,37 8,55 8,71 9,12 9,65
8 5,64 6,20 6,62 6,96 7,24 7,47 7,68 7,86 8,03 8,18 8,55 9,03
9 5,43 5,96 6,35 6,66 6,92 7,13 7,32 7,50 7,65 7,78 8,13 8,57
10 5,27 5,77 6,14 6,43 6,67 6,88 7,06 7,21 7,36 7,48 7,81 8,23
11 5,15 5,62 5,97 6,25 6,48 6,67 6,84 6,99 7,13 7,25 7,56 7,95
12 5,05 5,50 5,84 6,10 6,32 6,51 6,67 6,81 6,94 7,06 7,36 7,73
13 4,96 5,40 5,73 5,98 6,19 6,37 6,53 6,67 6,79 6,90 7,19 7,55
14 4,90 5,32 5,63 5,88 6,08 6,26 6,41 6,54 6,66 6,77 7,05 7,39
15 4,84 5,25 5,56 5,80 5,99 6,16 6,31 6,44 6,56 6,66 6,93 7,26
16 4,79 5,19 5,49 5,72 5,92 6,08 6,22 6,35 6,46 6,56 6,82 7,15
18 4,70 5,09 5,38 5,60 5,79 5,94 6,08 6,20 6,31 6,41 6,66 6,97
20 4,64 5,02 5,29 5,51 5,69 5,84 5,97 6,09 6,19 6,28 6,52 6,82
24 4,55 4,91 5,17 5,37 5,54 5,69 5,81 5,92 6,02 6,11 6,33 6,61
30 4,46 4,80 5,05 5,24 5,40 5,54 5,65 5,76 5,85 5,93 6,14 6,41
40 4,37 4,70 4,93 5,11 5,26 5,39 5,50 5,60 5,69 5,76 5,96 6,21
60 4,28 4,60 4,82 4,99 5,13 5,25 5,36 5,45 5,53 5,60 5,78 6,02
4 4,12 4,40 4,60 4,76 4,88 4,99 5,08 5,16 5,23 5,29 5,45 5,65
Tabla M
Puntos críticos para el estadístico S+ de Wilcoxon
Valores sp que acumulan una probabilidad p con diferentes tamaños muestrales n
n s0,005 s0,01 s0,025 s0,05 s0,10 s0,20 s0,80 s0,90 s0,95 s0,975 s0,99 s0,995
4 0 0 0 0 1 3 7 9 10 10 10 10
5 0 0 0 1 3 4 11 12 14 15 15 15
6 0 0 1 3 4 6 15 17 18 20 21 21
7 0 1 3 4 6 9 19 22 24 25 27 28
8 1 2 4 6 9 12 24 27 30 32 34 35
9 2 4 6 9 11 15 30 34 36 39 41 43
10 4 6 9 11 15 19 36 40 44 46 49 51
11 6 8 11 14 18 23 43 48 52 55 58 60
12 8 10 14 18 22 28 50 56 60 64 68 70
13 10 13 18 22 27 33 58 64 69 73 78 81
14 13 16 22 26 32 39 66 73 79 83 89 92
15 16 20 26 31 37 45 75 83 89 94 100 104
16 20 24 30 36 43 51 85 93 100 106 112 116
17 24 28 35 42 49 58 95 104 111 118 125 129
18 28 33 41 48 56 66 105 115 123 130 138 143
19 33 38 47 54 63 74 116 127 136 143 152 157
20 38 44 53 61 70 83 127 140 149 157 166 172
21 44 50 59 68 78 91 140 153 163 172 181 187
22 49 56 67 76 87 100 153 166 177 186 197 204
23 55 63 74 84 95 110 166 181 192 202 213 221
24 62 70 82 92 105 120 180 195 208 218 230 238
25 69 77 90 101 114 131 194 211 224 235 248 256
26 76 85 99 111 125 142 209 226 240 252 266 275
27 84 94 108 120 135 154 224 243 258 270 284 294
28 92 102 117 131 146 166 240 260 275 289 304 314
29 101 111 127 141 158 178 257 277 294 308 324 334
30 110 121 138 152 170 191 274 295 313 327 344 355
31 119 131 148 164 182 205 291 314 332 348 365 377
32 129 141 160 176 195 219 309 333 352 368 387 399
33 139 152 171 188 208 233 328 353 373 390 409 422
34 149 163 183 201 222 248 347 373 394 412 432 446
35 160 175 196 214 236 263 367 394 416 434 455 470
36 172 187 209 228 251 279 387 415 438 457 479 494
37 184 199 222 242 266 295 408 437 461 481 504 519
38 196 212 236 257 298 312 429 459 484 505 529 545
39 208 225 250 272 314 329 451 482 508 530 555 572
40 221 239 265 287 331 347 473 506 533 555 581 599
Para n > 40, los puntos críticos sp de la distribución del estadístico S+ de Wilcoxon pueden obte-
nerse utilizando la aproximación normal: .
Tabla N
Puntos críticos para el estadístico DKS de Kolmogorov-Smirnov
Valores dα correspondientes a diferentes niveles de significación α y tamaños muestrales n
Nivel de significación α
n 0,20 0,10 0,05 0,01 0,005 0,001
4 0,493 0,565 0,624 0,734 0,776 0,850

5 0,447 0,509 0,563 0,669 0,705 0,781
6 0,410 0,468 0,519 0,617 0,653 0,725
7 0,381 0,436 0,483 0,576 0,610 0,679
8 0,358 0,410 0,454 0,542 0,574 0,641
9 0,339 0,387 0,430 0,513 0,544 0,608
10 0,323 0,369 0,409 0,489 0,519 0,580
11 0,308 0,352 0,391 0,468 0,495 0,556
12 0,296 0,338 0,375 0,449 0,477 0,534
13 0,285 0,325 0,361 0,432 0,459 0,515
14 0,275 0,314 0,349 0,418 0,443 0,498
15 0,266 0,304 0,337 0,404 0,429 0,482
16 0,258 0,295 0,327 0,392 0,416 0,467
17 0,250 0,286 0,318 0,381 0,404 0,545
18 0,244 0,279 0,309 0,371 0,394 0,442
19 0,237 0,271 0,301 0,361 0,384 0,431
20 0,232 0,265 0,94 0,352 0,375 0,421
21 0,225 0,259 0,287 0,344 0,366 0,411
22 0,221 0,253 0,281 0,337 0,358 0,402
23 0,216 0,247 0,275 0,330 0,350 0,394
24 0,212 0,242 0,269 0,323 0,343 0,386
25 0,208 0,238 0,264 0,317 0,337 0,377
26 0,204 0,233 0,259 0,311 0,330 0,371
27 0,200 0,229 0,254 0,305 0,324 0,365
28 0,197 0,225 0,250 0,300 0,319 0,358
29 0,193 0,221 0,246 0,295 0,313 0,352
30 0,190 0,218 0,242 0,290 0,308 0,347
31 0,187 0,214 0,238 0,285 0,303 0,341
32 0,184 0,211 0,234 0,281 0,299 0,336
33 0,182 0,208 0,231 0,276 0,294 0,331
34 0,179 0,205 0,227 0,273 0,290 0,326
35 0,177 0,202 0,224 0,269 0,286 0,322
36 0,174 0,199 0,221 0,265 0,282 0,318
37 0,172 0,196 0,218 0,262 0,278 0,313
38 0,190 0,194 0,215 0,258 0,275 0,309
39 0,168 0,191 0,213 0,255 0,271 0,305
40 0,165 0,189 0,210 0,252 0,268 0,302
n > 40
Tabla O
Puntos críticos para el estadístico U de Mann-Whitney
Valores uα que acumulan una probabilidad α con diferentes tamaños muestrales n1 y n2
n1 α n2 ' 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
4 0,001 10 10 10 10 10 10 11 11 11 12 12 12 13 13 14 14 14
0,005 10 10 11 11 12 12 13 13 14 14 15 16 16 17 17 18 19
0,010 10 11 12 12 13 14 14 15 16 16 17 18 18 19 20 20 21
0,025 11 12 13 14 15 15 16 17 18 19 20 21 22 22 23 24 25
0,050 12 13 14 15 16 17 18 19 20 21 22 23 25 26 27 28 29
5 0,001 15 15 15 15 16 17 17 18 18 19 19 20 21 21 22 23 23
0,005 15 16 17 17 18 19 20 21 22 23 23 24 25 26 27 28 29
0,010 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
0,025 17 18 19 21 22 23 24 25 27 28 29 30 31 33 34 35 36
0,050 18 20 21 22 24 25 27 28 29 31 32 34 35 36 38 39 41
6 0,001 21 21 21 21 23 24 25 26 26 27 28 29 30 31 32 33 34
0,005 22 23 24 25 26 27 28 29 31 32 33 34 35 37 38 39 40
0,010 23 24 25 26 28 29 30 31 33 34 35 37 38 40 41 42 44
0,025 24 25 27 28 30 32 33 35 36 38 39 41 43 44 46 47 49
0,050 25 27 29 30 32 34 36 38 39 41 43 45 47 48 50 52 54
7 0,001 28 28 29 30 31 32 34 35 36 37 38 39 40 42 43 44 45
0,005 29 30 32 33 35 36 38 39 41 42 44 45 47 48 50 51 53
0,010 30 32 33 35 36 38 40 41 43 45 46 48 50 52 53 55 57
0,025 32 34 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63
0,050 33 35 37 40 42 44 46 48 50 53 55 57 59 62 64 66 68
8 0,001 36 37 38 39 41 42 43 45 46 48 49 51 52 54 55 57 58
0,005 38 39 41 43 44 46 48 50 52 54 55 57 59 61 63 65 67
0,010 39 41 43 44 46 48 50 52 54 56 59 61 63 65 67 69 71
0,025 41 43 45 47 50 52 54 56 59 61 63 66 68 71 73 75 78
0,050 42 45 47 50 52 55 57 60 63 65 68 70 73 76 78 81 84
9 0,001 45 47 48 49 51 53 54 56 58 60 61 63 65 67 69 71 72
0,005 47 49 51 53 55 57 59 62 64 66 68 70 73 75 77 79 82
0,010 49 51 53 55 57 60 62 64 67 69 72 74 77 79 82 84 86
0,025 50 53 56 58 61 63 66 69 72 74 77 80 83 85 88 91 94
0,050 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100
10 0,001 56 57 59 61 62 64 66 68 70 73 75 77 79 81 83 85 88
0,005 58 60 62 65 67 69 72 74 77 80 82 85 87 90 93 95 98
0,010 59 62 64 67 69 72 75 78 80 83 86 89 92 94 97 100 103
0,025 61 64 67 70 73 76 79 82 85 89 92 95 98 101 104 108 111
0,050 63 67 70 73 76 80 83 87 90 93 97 100 104 107 111 114 118
11 0,001 67 69 71 73 75 77 79 82 84 87 89 91 94 96 99 101 104
0,005 69 72 74 77 80 83 85 88 91 94 97 100 103 106 109 112 115
0,010 71 74 76 79 82 85 89 92 95 98 101 104 108 111 114 117 120
0,025 73 76 80 83 86 90 93 97 100 104 107 111 114 118 122 125 129
0,050 75 79 83 86 90 94 98 101 105 109 113 117 121 124 128 132 136
Tabla O (continuación)
n1 α n2 ' 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
12 0,001 79 81 83 86 88 91 93 96 98 102 104 106 110 113 116 118 121
0,005 82 82 88 91 94 97 100 103 106 110 113 116 120 123 126 130 133
0,010 84 87 90 93 96 100 103 107 110 114 117 121 125 128 132 135 139
0,025 86 90 93 97 101 105 108 112 116 120 124 158 132 136 140 144 148
0,050 88 92 96 100 105 109 111 117 121 126 130 134 139 414 147 151 156
13 0,001 93 95 97 100 103 106 109 112 115 118 121 124 127 130 134 137 140
0,005 95 99 102 105 109 112 116 119 123 126 130 134 137 141 145 149 152
0,010 97 101 104 108 112 115 119 123 127 131 135 139 143 147 151 155 159
0,025 100 104 108 112 116 120 125 129 133 137 142 146 151 155 159 164 168
0,050 102 107 111 116 120 125 129 134 139 143 148 153 157 162 167 172 176
14 0,001 107 109 112 115 118 121 125 128 131 135 138 142 145 149 152 156 160
0,005 110 113 117 121 124 128 132 136 140 144 148 152 156 160 164 169 173
0,010 112 116 119 123 128 132 136 140 144 149 153 157 162 166 171 175 179
0,025 115 119 123 128 132 137 142 146 151 156 161 165 170 175 180 184 189
0,050 117 122 127 132 137 142 147 152 157 162 167 172 177 183 188 193 198
15 0,001 122 125 128 133 135 138 142 145 149 153 157 161 164 168 172 176 180
0,005 126 129 133 137 141 145 150 154 158 163 167 172 176 181 185 190 194
0,010 128 132 136 140 145 149 154 158 163 168 172 177 182 187 191 196 201
0,025 131 135 140 145 150 155 160 165 170 175 180 185 191 196 201 206 211
0,050 133 139 144 149 154 160 165 191 176 182 187 193 198 204 209 215 221
16 0,001 139 142 145 148 152 156 160 164 168 172 176 180 185 189 193 197 202
0,005 142 146 150 155 159 164 168 173 178 182 187 192 197 202 207 211 216
0,010 144 149 153 158 163 168 173 178 183 188 193 198 203 208 213 219 224
0,025 148 152 158 163 168 174 179 184 190 196 201 207 212 218 223 229 235
0,050 151 156 162 167 173 179 185 191 197 202 208 214 220 226 232 238 244
17 0,001 156 159 163 167 171 175 179 183 188 192 197 201 206 211 215 220 224
0,005 160 164 169 173 178 183 188 193 198 203 208 214 219 224 229 235 240
0,010 162 167 172 177 182 187 192 198 203 209 214 220 225 231 236 242 247
0,025 165 171 176 182 188 193 199 205 211 217 223 229 235 241 247 253 259
0,050 169 174 180 187 193 199 205 211 218 224 231 237 243 250 256 263 269
18 0,001 175 178 182 186 190 195 199 204 209 214 218 223 228 233 238 243 248
0,005 178 183 188 193 198 203 209 214 219 225 230 236 242 247 253 259 264
0,010 181 186 191 196 202 208 213 219 225 231 237 242 248 254 260 266 272
0,025 184 190 196 202 208 214 220 227 233 239 246 252 258 265 271 278 284
0,050 188 194 200 207 213 220 227 233 240 247 254 260 267 274 281 288 295
19 0,001 194 198 202 206 211 216 220 225 231 236 241 246 251 257 262 268 273
0,005 198 203 208 213 219 224 230 236 242 248 254 260 265 272 278 284 290
0,010 200 206 211 217 223 229 235 241 247 254 260 266 273 279 285 292 298
0,025 204 210 216 223 229 236 243 249 256 263 269 276 283 290 297 304 310
0,050 208 214 221 228 235 242 239 256 263 271 278 285 292 300 307 314 321
20 0,001 214 218 223 227 232 237 243 248 253 259 265 270 276 281 287 293 299
0,005 219 224 229 235 241 247 253 259 265 271 278 284 290 297 303 310 316
0,010 221 227 233 239 245 251 258 264 271 278 284 291 298 304 311 318 325
0,025 225 231 238 245 251 259 266 273 280 287 294 301 309 316 323 330 338
0,050 229 236 243 250 258 265 273 280 288 295 303 311 318 326 334 341 349
Los puntos críticos de la cola derecha pueden obtenerse mediante: u1 ! α = n1 ( N + 1) ! uα .

Tabla P
Puntos críticos para el estadístico H de Kruskal-Wallis
Valores h1!α que acumulan una probabilidad 1 ! α
J n1 n2 n3 n4 n5 1 ! α . 0,95 1 ! α . 0,99
3 3 3 3 5,60 !
4 3 3 5,73 6,75
4 4 3 5,58 7,14
4 4 4 5,69 7,54
5 3 3 5,52 7,08
5 4 3 5,63 7,44
5 4 4 5,62 7,76
5 5 3 5,63 7,54
5 5 4 5,64 7,82
5 5 5 5,66 7,98
6 3 3 5,61 7,19
6 4 3 5,61 7,47
6 4 4 5,67 7,72
6 5 3 5,60 7,56
6 5 4 5,66 7,94
6 5 5 5,73 8,01
6 6 3 5,63 7,73
6 6 4 5,72 8,00
6 6 5 5,76 8,12
6 6 6 5,72 8,19
7 7 7 5,77 8,33
8 8 8 5,80 8,43
Valor asintótico 5,99 9,21
4 3 3 3 3 6,88 8,44
4 3 3 3 6,97 8,66
4 4 3 3 7,04 8,87
4 4 4 3 7,13 9,07
4 4 4 4 7,21 9,29
5 3 3 3 3 3 8,33 10,20
Tabla Q
Puntos críticos para el estadístico de Friedman
Valores que acumulan una probabilidad 1 ! α
J n 1 ! α > 0,95 1 ! α > 0,99

3 3 6,00 !
4 6,50 8,00
5 6,40 8,40
6 7,00 9,00
7 7,14 8,67
8 6,25 9,00
9 6,22 8,67
10 6,20 9,60
11 6,54 9,46
12 6,50 9,50
13 6,00 9,39
14 6,40 9,00
15 6,40 8,93
4 3 7,40 9,00
4 7,80 9,60
5 7,80 9,96
6 7,60 10,20
7 7,80 10,54
8 7,65 10,50
5 3 8,53 13,13
4 8,80 11,20
5 8,96 11,52
6 9,07 11,87
7 9,14 12,11
8 9,20 12,30
6 3 9,56 11,76
4 10,29 12,57
5 10,49 13,23
6 10,57 13,62
Tabla R
Puntos críticos para el coeficiente de correlación RS de Spearman
Valores r1 ! α que acumulan una probabilidad 1 ! α con diferentes tamaños muestrales n
n 1 ! α = 0,95 1 ! α = 0,975 1 ! α = 0,99 1 ! α = 0,995

5 0,900 ! ! !
6 0,829 0,886 0,943 !
7 0,714 0,876 0,893 !
8 0,643 0,738 0,833 0,881
9 0,600 0,683 0,783 0,833
10 0,564 0,648 0,745 0,794
11 0,523 0,623 0,736 0,818
12 0,497 0,591 0,703 0,780
13 0,475 0,566 0,673 0,745
14 0,457 0,545 0,646 0,716
15 0,441 0,525 0,623 0,689
16 0,425 0,507 0,601 0,666
17 0,412 0,490 0,582 0,645
18 0,399 0,476 0,564 0,625
19 0,388 0,462 0,549 0,608
20 0,377 0,450 0,534 0,591
21 0,368 0,438 0,521 0,576
22 0,359 0,428 0,508 0,562
23 0,351 0,418 0,496 0,549
24 0,343 0,409 0,485 0,537
25 0,336 0,400 0,475 0,526
26 0,329 0,392 0,465 0,515
27 0,323 0,385 0,456 0,505
28 0,317 0,377 0,448 0,496
29 0,311 0,370 0,440 0,487
30 0,305 0,364 0,432 0,478
Se verifica: rα = !r1 ! α .
Glosario de símbolos
aj niveles del factor A en un análisis de varianza.

A medida del tamaño del efecto (leguaje común) equivalente al área bajo la curva COR.
primer factor en los modelos factoriales de análisis de varianza.
abj k combinación entre el nivel j del factor A y el nivel k del factor B en un análisis de va-
rianza.
AIQ amplitud intercuartil.
AT amplitud total.
B segundo factor en los modelos factoriales de análisis de varianza.
bk niveles del factor B en un análisis de varianza.
Bj j-ésimo coeficiente de regresión parcial en regresión lineal.
B j (Z ) j-ésimo coeficiente de regresión parcial tipificado o estandarizado en regresión lineal.
B (n, π1) distribución de probabilidad binomial, con parámetros n y π1.
cj , ck , cjk coeficientes utilizados en las comparaciones lineales.
C coeficiente de contingencia.
CCI coeficiente de correlación intraclase.
Ck centiles.
CVmedia coeficiente de variación centrado en la media.
CVmediana coeficiente de variación centrado en la mediana.
d, dX , dY medidas de asociación ordinal de Somers.
DFBETAS i j diferencias entre coeficientes de regresión tipificados.
DFFITS i diferencias entre pronósticos.
Di diferencia entre dos puntuaciones directas.
distancia de Cook.
Dk deciles.
D KS estadístico de Kolmogorov-Smirnov.
DMS diferencia mínima significativa en las comparaciones múltiples.
Ei residuos.
E (i) residuos eliminados (regresión lineal).
Emáx error máximo en los intervalos de confianza.
residuos studentizados (regresión lineal).
residuos eliminados studentizados (regresión lineal).
residuos tipificados o estandarizados (regresión lineal).
E (Y ) valor esperado de la variable Y.
f (Y ) función de probabilidad (o de densidad) de la variable Y.
F estadístico del contraste en el análisis de varianza de un factor.
FA, FB, FAB estadísticos del contraste en los modelos factoriales de análisis de varianza.
distribución de probabilidad F con gl1 y gl2 grados de libertad.

FIVj factores de inflación de la varianza.
F (Y ) función de probabilidad (o de densidad) empírica acumulada de la variable Y.
F0 (Y ) función de probabilidad (o de densidad) teórica acumulada de la variable Y.
gl grados de libertad.
hi valores de influencia (leverage) en la regresión lineal (diagonal de la matriz H).
H matriz hat.
H estadístico de Kruskal-Wallis.
H0 , H1 hipótesis nula y alternativa en los contrastes de hipótesis.
i i-ésimo valor de una variable; en variables categóricas: i = 1, 2, ..., I ; en variables cuan-
titativas: i = 1, 2, ..., n.
I número de niveles o categorías de una variable categórica.
I, IX, IY coeficientes de incertidumbre (medidas de asociación nominales basadas en la reducción
proporcional del error).
ICθ intervalo de confianza para el parámetro θ.
j j-ésimo valor de una variable categórica: j = 1, 2, ..., J ( j-ésimo grupo).
J número de niveles de una variable categórica.
k k-ésimo valor de una variable categórica: k = 1, 2, ..., K (k-ésimo grupo)
K número de niveles de una variable categórica.
Li límite inferior de un intervalo de confianza.
Ls límite superior de un intervalo de confianza.
mi frecuencias teóricas o esperadas en una tabla de contingencias unidimensional.
m ij frecuencias teóricas o esperadas en una tabla de contingencias bidimensional.
MCA , MCB medias cuadráticas asociadas a los efectos principales de los factores A y B.
MCAB media cuadrática asociada al efecto de la interacción entre los factores A y B.
MCA × S media cuadrática error en un diseño de medidas repetidas.
MCE media cuadrática intragrupos o error.
MCI media cuadrática intergrupos.
MCS media cuadrática intersujetos.
MdnY mediana de la variable Y.
M (n, π i ) distribución teórica multinomial, con parámetros n y π i .
Mr momento de orden r.
n número de casos (tamaño muestral).
ni frecuencias absolutas (variable categórica).
nj número de casos en el grupo j ( j = 1, 2, ..., J ).
nij frecuencias conjuntas en una tabla de contingencias bidimensional.
ni+ frecuencias marginales de las filas en una tabla de contingencias bidimensional.
n+j frecuencias marginales de las columnas en una tabla de contingencias bidimensional.
n1 número de “unos” (éxitos) en una variable dicotómica.
N número total de casos (tamaño muestral) cuando hay varias muestras.
N (µ, σ) distribución de probabilidad normal, con parámetros µ y σ.
N (0, 1) distribución de probabilidad normal tipificada.
OR odds ratio (razón de productos cruzados).
p nivel crítico o nivel de significación observado en los contrastes de hipótesis.
número de variables independientes en un análisis de regresión.
Glosario de símbolos 465
P1 proporción de “unos” (éxitos) en una variable dicotómica.

Pi frecuencia relativa en una variable categórica.
Pk percentiles.
PRA porcentaje de riesgo atribuible (fracción etiológica).
P (S ) probabilidad de un suceso.
P (S1 | S2) probabilidad condicional (probabilidad del suceso 1 dado el suceso 2).
q valor de la distribución del rango studentizado.
Q estadístico de Cochran.
Qk cuartiles.
R número de rachas.
RA riesgo atribuible.
R i , Rij puntuaciones directas transformadas en rangos.
Ri+ , R+j suma de un conjunto de rangos.
RR riesgo relativo.
RS coeficiente de correlación de Spearman.
R XY , R Y (1) coeficiente de correlación simple.
2
R XY , R Y2 (1) coeficiente de determinación simple.
R Y (12 ... p) coefciente de correlación múltiple.
R Y2 (12 ... p) coeficiente de determinación múltiple.
R Y2 (12 ... p)* coeficiente de determinación múltiple corregido.
R 12 | 3 ... p coeficiente de correlación parcial.
R 1(2 | 3 ... p) coeficiente de correlación semiparcial.
S 1, S 2 suma de rangos (muestra 1, muestra 2).
S+, S! suma de rangos (positivos, negativos).
SY desviación típica insesgada de la variable Y.
SXY covarianza insesgada entre las variables X e Y.
2
SY varianza insesgada de la variable Y.
tgl distribución teórica t de Student con gl grados de libertad.
T variable distribuida según el modelo de probabilidad t de Student.
suma total de un conjunto de puntuaciones.
Ti, Tj, Tjk suma parcial de un conjunto de puntuaciones.
U estadístico de Mann-Whitney.
V (Y ) varianza de la variable Y.
wj valores utilizados para realizar ponderaciones.
W coeficiente de concordancia de Kendall.
X2 variable distribuida según el modelo de probabilidad ji-cuadrado.
X r2 estadístico de Friedman.
y, yi puntuaciones diferenciales de la variable Y.
Y, Yi puntuaciones directas de la variable Y.
Yij puntuaciones directas de la variable Y en el j-ésimo grupo.
Y_ijk puntuaciones directas de la variable Y en el jk-ésimo grupo.
Y_ media de la variable Y.
Y_j media de la variable Y en el j-ésimo grupo.
Y jk media de la variable Y en el jk-ésimo grupo.
Z, Z i puntuaciones típicas.
Letras griegas
α nivel de significación o riesgo en los contrastes de hipótesis y en los intervalos

de confianza; probabilidad asociada al error Tipo I.
αC nivel de significación por comparación.
αF nivel de significación por familia de comparaciones.
β probabilidad asociada al error Tipo II en los contrastes de hipótesis.
βj j-ésimo coeficiente de regresión parcial en regresión lineal.
γ medida de asociación gamma de Goodman y Kruskal.
δ diferencia entre medias estandarizada de Cohen (medida del tamaño del efecto).
∆ margen de equivalencia en los contrastes de equivalencia y no inferioridad..
ε grado de esfericidad de una matriz de varianzas-covarianzas.
ε2 medida de asociación (proporción de varianza común o explicada).
η2 medida de asociación (proporción de varianza común o explicada).
forma genérica de identificar un parámetro.
forma genérica de identificar un estadístico utilizado como estimador.
κ índice de acuerdo kappa de Cohen.
λ parámetro de no centralidad.
λ, λX , λY medidas de asociación nominales basadas en la reducción proporcional del error.
µY valor esperado (media poblacional) de la variable Y.
µj valor esperado (media poblacional) de la variable Y en el j-ésimo nivel del factor A.
µ jk valor esperado (media poblacional) de la variable Y en la jk-ésima combinación AB.
µj+ valor esperado (media poblacional) de la variable Y en el j-ésimo nivel del factor A en
los K niveles del factor B.
ν notación genérica para los grados de libertad.
π1 proporción teórica en una variable dicotómica.
πi proporción teórica en una variable categórica.
πij proporción teórica en una tabla de contingencias bidimensional.
π i+ proporción teórica marginal en una tabla de contingencias bidimensional.
π+ j proporción teórica marginal en una tabla de contingencias bidimensional.
Π símbolo del producto.
ρXY coeficiente de correlación de Pearson en la población.
desviación típica teórica o poblacional de la variable Y.
varianza teórica o poblacional de la variable Y.
Σ símbolo del sumatorio.
τX , τY medidas de asociación nominales basadas en la reducción proporcional del error.
τ a, τ b, τ c medidas de asociación ordinales basadas en el número de concordancias y discordancias.
coeficiente de correlación “phi”.
versión transformada del parámetro de no centralidad.
χ 2gl distribución teórica de probabilidad ji-cuadrado con gl grados de libertad.
ψ comparación lineal.
ω2 medida de asociación (proporción de varianza común o explicada)
1! α nivel de confianza en los contrastes de hipótesis y en los intervalos de confianza.
1! β potencia en los contrastes de hipótesis.
Referencias
Abad FJ, Olea J, Ponsoda J y García C (2010). Medición en ciencias sociales y de la salud. Madrid: Síntesis.
Abelson RP (1995). Statistics as principled argument. Hillsdale, NJ: LEA.
Abelson RP (1997a). On the surprising longevity of flogged horses: Why there is a case for the significance test.
Psychological Science, 8, 12-15.
Abelson RP (1997b). A retrospective on the significance test ban of 1999 (if there were no significance tests,
they would be invented). In LL Harlow, SA Mulaik y JH Steiger (Eds), What if there were no significance
tests? (págs 117-141). Hillsdale, NJ: LEA.
Abelson RP y Prentice DA (1997). Contrast tests of interaction hypotheses. Psychological Bulletin, 2, 315-328.
Agresti A (1984). Analysis of ordinal categorical data. New York: Wiley.
Agresti A (2002). Categorical data analysis (2ª ed). New York: Wiley.
Agresti A (2007). An introduction to categorical data analysis (2ª ed). New York: Wiley.
Algina J y Keselman HJ (1999). Comparing squared multiple correlation coefficients: Examination of an
interval and a test of significance. Psychological Methods, 4, 76-83.
Algina J y Keselman HJ (2003). Approximate confidence intervals for effect sizes. Educational and Psycholo-
gical Measurement, 63, 537-553.
Algina J, Keselman HJ y Penfield RD (2005). An alternative to Cohen’s standardized mean difference effect
size: A robust parameter and confidence interval in the two independent groups case. Psychological
Methods, 10, 317-328.
Algina J, Keselman HJ y Penfield RD (2006). Confidence intervals for an effect size when variances are not
equal. Journal of Modern Applied Statistical Methods, 5, 2-13.
Amón J (1979). Estadística para psicólogos. Estadística descriptiva (2ª ed). Madrid: Pirámide.
Amón J (1984). Estadística para psicólogos. Probabilidad y estadística inferencial (3ª ed). Madrid: Pirámide.
Ato M y Vallejo G (2007). Diseños experimentales en psicología. Madrid: Pirámide.
Bakan D (1966). The test of significance in psychological research. Psychological Bulletin, 66, 423-437.
Balluerka N, Gómez J y Hidalgo D (2005). The controversy over null hypothesis significance testing revisited.
Methodology: European Journal of Research Methods for the Behavioral and Social Sciences, 1, 55-70.
Bangert R, Kulik JA y Kulik CLC (1983). Effect of coaching programs on achievement test performance.
Review of Educational Research, 53, 571-585.
Belsley DA, Kuh E y Welsch RE (1980). Regression diagnostics: Identifying influential data and sources of
collinearity. New York: Wiley.
Berry WD (1993). Understanding regression assumptions. Newbury Park, CA: Sage.
Berry WD y Feldman S (1985). Multiple regression in practice. Beverly Hills, CA: Sage.
Bird KD (2002). Confidence intervals for effect sizes in analysis of variance. Educational and Psychological
Measurement, 62, 197-226.
Blair RC y Higgins JJ (1985). Comparisons of the power of the paired samples t test to that of Wilcoxon’s
signed-ranks test under various population shapes. Psychollogical Bulletin, 97, 119-128.
Blair RC, Higgins JJ y Smitley DS (1980). On the relative power of the U and t test. British Journal of
Mathematical and Statistical Psychology, 33, 114-120.
Bock RD (1975). Multivariate statistical methods in behavioral research. New York: McGraw-Hill.
Bonett DG y Wright TA (2000). Sample size requirements for estimating Pearson, Kendall, and Spearman
correlations. Psychometrika, 65, 23-28.
Bonett DG y Wright TA (2007). Comments and recommendations regarding the hypothesis testing controversy.
Journal of Organizational Behavior, 28, 647–659.
Boss DD y Hughes-Oliver JM (2000). How large does n have to be for the Z and t intervals. American Sta-
tistician, 54, 121-128.
Bowker AH (1948). A test for symmetry in contingency tables. Journal of the American Statistical Association,
43, 572-574.
Box GEP (1950). Problems in the analysis of the growth and wear curves. Biometrics, 6, 362-389.
Box GEP (1953). Non-normality and tests on variance. Biometrika, 40, 318-335.
Box GEP (1954a). Some theorems on quadratic forms applied in the study of analysis of variance problems.
I: Effects of inequality of variance in the one-way classification. Annals of Mathematical Statistics, 25,
290-302.
Box GEP (1954b). Some theorems on quadratic forms applied in the study of analysis of variance problems.
II: Effects of inequality of variance and of correlation between errors in the two-way classification. Annals
of Mathematical Statistics, 25, 484-498.
Breslow NE (1996). Statistics in epidemiology: The case-control study. Journal of the American Statistical
Association, 91, 14-28.
Breslow NE y Day NE (1980). Statistical methods in cancer research. I: The analysis of case-control studies.
Lyon: IARC.
Breslow NE y Day NE (1987). Statistical methods in cancer research. II: The design and analysis of cohort
studies. Lyon: IARC.
Brown M y Forsythe A (1974a). Robust tests for the equality of variances. Journal of the American Statistical
Brown MB y Forsythe AB (1974b). The ANOVA and multiple comparisons for data with heterogeneous
variances. Biometrics, 30, 719-724.
Budescu DV y Appelbaum MI (1981). Variance stabilizing transformations and the power of the F test. Journal
of Educational Statistics, 6, 55-74.
Caruso JC y Cliff N (1997). Empirical size, coverage, and power of confidence intervals for Spearman’s rho.
Educational and Psychological Measurement, 57, 637-654.
Carroll RM y Nordholm LA (1975). Sampling characteristics of Kelleys’s ε2 and Hays’s ω2. Educational and
Psychological Measurement, 35, 541-554.
Chambers JM, Cleveland WS, Kleiner B y Tukey PA (1983). Graphical methods for data analysis. Belmont,
CA: Wadsworth.
Chase LJ y Tucker RK (1977). Statistical power: Derivation, development and data-analytic implications.
Psychological Record, 26, 473-486.
Chatterjee S y Hadi AS (1988). Sensitivity analysis in regression. New York: Wiley.
Chow SL (1988). Significance test or effect size? Psychological Bulletin, 103, 105-110.
Chow SL (1989). Significance tests and deduction: Reply to Folger (1989). Psychological Bulletin, 106, 161-165.
Chow SL (1991). Some reservations about power analysis. American Psychologist, 46, 1088-1089.
Chow SL (1996). Statistical significance: Rationale, validity, and utility. Thousand Oaks, CA: Sage.
Chow SL (1998). What statistical significance means. Theory and Psychology, 8, 323-330.
Cochran WG (1941). The distribution of the largest of a set of estimated variances as a fraction of their total.
Annals of Eugenics, 11, 47-52.
Cochran WG (1950). The comparison of percentages in matched samples. Biometrika, 37, 256-266.
Cochran WG (1954). Some methods for strengthening the common χ2 tests. Biometrics, 10, 417-451.
Cohen J (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement,
20, 37-46.
Cohen J (1966). Some statistical issues in psychological research. En BB Wolman (Ed), Handbook of clinical
psychology (págs 95-121). New York: McGraw-Hill.
Referencias 469
Cohen J (1968). Weighted kappa: Nominal scale agreement with provision for scaled disagreement of partial
credit. Psychological Bulletin, 70, 213-220.
Cohen J (1988). Statistical power analysis for the behavioral sciences (2ª ed). New York: Academic Press.
Cohen J (1990). Things I have learned (so far). American Psychologist, 45, 1304-1312.
Cohen J (1992a). A power primer. Psychological Bulletin, 112, 155-159.
Cohen J (1992b). Statistical power analysis. Current Directions in Psychological Science, 1, 98-101.
Cohen J (1994). The earth is round (p < .05). American Psychologist, 49, 997-1003.
Cohen J (1995). The earth is round (p < .05): Rejoinder. American Psychologist, 50, 1103.
Cohen J, Cohen P, West SG y Aiken LS (2003). Applied multiple regression/correlation analysis for the
behabioral sciences (3ª ed). Mahwah, NJ: LEA.
Conover WJ (1980). Practical nonparametric statistics (2ª ed). New York: Wiley.
Conover WJ, Johnson ME y Johnson MM (1981). A comparative study of test for homogeneity of variances
with applications to the outer continental self bidding data. Technometrics, 23, 351-361.
Conover WJ y Kemp KE (1976). Comparisons of the asymptotic efficiencies of two sample tests for discrete
distributions. Communications in Statistics - Theory and Methods, 5, 1-15.
Cook RD (1977). Detection of influential observations in linear regression. Technometrics, 19, 15-18.
Cook RD (1979). Influential observations in linear regression. Journal of the American Statistical Association,
74, 169-174.
Cook RD (1993). Exploring partial residual plots. Technometrics, 35, 351-362.
Cook RD y Weisberg, S. (1982). Residuals and influence in regression. New York: Chapman and Hall.
Cornell JE, Young DM, Seaman SL y Kirk RE (1992). Power comparisons of eight tests for sphericity in re-
peated measures designs. Journal of Educational Statistics, 27, 909-949.
Cornfield J (1951). A method for estimating comparative rates from clinical data. Applications to cancer of
lung, breast and cervix. Journal of the National Cancer Institute, 11, 1269-1275.
Cortina JM y Dunlap WP (1997). On the logic and purpose of significance testing. Psychological Methods, 2,
171-172.
Cumming G y Finch S (2005). Inference by eye: Confidence intervals and how to read pictures of data. Ame-
rican Psychologist, 60, 170–180.
Dallal GE y Wilkinson L (1986). An analytic approximation to the distribution of Lilliefors test statistics for
normality. The American Statistician, 40, 294-296 (corrección: 41, 248).
Dar R (1998). Null hypothesis tests and theory corroboration: Defending NHSTP out of context. Behavioral
and Brain Sciences, 21, 196-197.
Darlington RB (1990). Regression and linear models. New York: McGraw-Hill.
Davidson ML (1972). Univariate versus multivariate testsin repeated measures experiments. Psychological
Bulletin, 77, 446-452.
DeCoster J, Iselin AMR y Gallucci M (2009). A conceptual and empirical examination of justifications for
dichotomization. Psychological Methods, 14, 349-366.
Delaney HD y Vargha A (2002). Comparing several robust tests of stochastic equality with ordinally scaled
variables and small to moderate sized samples. Psychological Methods, 7, 485-503.
Dineen LC y Blakesley BC (1973). Algorithm AS 62: Generator for the sampling distribution of the Mann-
Whitney U statistic. Applied Statistics, 22, 269-273.
Draper NR y Smith H (1998). Applied regression analysis (3ª ed). New York: Wiley.
Duncan DB (1955). Multiple range and multiple F tests. Biometrics, 11, 1-42.
Dunn CW (1961). Multiple comparisons among means. Journal of the American Statistical Association, 56,
52-64.
Dunnett CW (1955). A multiple comparison procedure for comparing several treatments with a control. Journal
of the American Statistical Association, 50, 1096-1121.
Dunnett CW (1980a). Pairwise multiple comparisons in the homogeneous variance, unequal sample size case.
Journal of the American Statistical Association, 75, 789-795.
Dunnett CW (1980b). Pairwise multiple comparisons in the unequal variance case. Journal of the American
Statistical Association, 75, 795-800.
Dunnett CW y Gent M (1996). An alternative to the use of two-sided tests in clinical trials. Statistics in Me-
dicine, 15, 1729-1738.
Durbin J y Watson GS (1950). Testing for serial correlation in least-squares regression I. Biometrika, 37, 409-438.
Durbin J y Watson GS (1951). Testing for serial correlation in least-squares regression II. Biometrika, 38, 159-178.
Durbin J y Watson GS (1971). Testing for serial correlation in least-squares regression III. Biometrika, 58, 1-19.
Einot I y Gabriel KR (1975). A study of the powers of several methods of multiple comparisons. Journal of the
American Statistical Association, 70, 574-583.
Erdfelder E, Faul F y Buchner A (1996). GPOWER: A general power analysis program. Behavior Research
Methods, Instruments and Computers, 28, 1-11.
Everitt BS y Howell DC (2005). Encyclopedia of statistics in behavioral science (vol 2, págs 929-933).
Chichester, Sussex: Wiley.
Falk R (1998). In criticism of the null hypothesis statistical test. American Psychologist, 53, 798-799.
Falk R y Greenbaum CW (1995). Significance tests die hard: The amazing persistence of a probabilistic
misconception. Theory and Psychology, 5, 75-98.
Feinstein AR y Cicchetti DV (1990). High agreement but low kappa. I: The problems of two paradoxes. Journal
of Clinical Epidemiology, 43, 543-549.
Festinger L (1946). The significance of difference between means without reference to the frequency
distribution function. Psychometrika, 11, 97-105.
Fisher RA (1924). The conditions under which X 2 measures the discrepancy between observation and
hypothesis. Journal of the Royal Statistical Society, 87, 442-450.
Fisher RA (1925). Statistical methods for research workers. Edinburg: Oliver and Boyd.
Fisher RA (1935). Design of experiments (5ª ed). Edinburgh: Oliver and Boyd.
Fleiss JL (1981). Statistical methods for rates and proportions. Nueva York: Wiley.
Fleiss JL (1986). The design and analysis of clinical experiments. New York: Wiley.
Fleiss JL y Cohen J (1973). The equivalence of weighted kappa and the intraclass correlation coefficient as
measures of reliability. Educational and Psychological Measurement, 33, 633-639.
Fleiss JL, Cohen J y Everitt BS (1969). Large sample standard errors of kappa and weighted kappa. Psycho-
logical Bulletin, 72, 323-327.
Fleming ThR (2008). Current issues in non-inferiority trials. Statistics in Medicine, 27, 317–332.
Fowler RL (1985). Point estimates and confidence intervals in measures of association. Psychological Bulletin,
98, 160-165.
Fox J (1991). Regression diagnostics. Newbury Park, CA: Sage.
Fox J (1997). Applied regression analysis, linear models and related methods. Thousand Oaks, Park, CA: Sage.
Franco M y Vivo JM (2007). Análisis de curvas ROC. Principios básicos y aplicaciones. Madrid: La Muralla.
.Freeman LC (1986). Order-based statistics and monotonicity: A family of order-based measures of association.
Journal of Mathematical Sociology, 12, 49-69.
Friedman M (1937). The use of ranks to avoid the assumption of normality implicit in the analysis of variance.
Friedman H (1968). Magnitude of experimental effect and a table for its rapid estimation. Psychological
Bulletin, 70, 245-251.
Frick RW (1996). The appropriate use of null hypothesis testing. Psychological Methods, 1, 379-390
Games PA (1973). Type IV errors revised. Psychological Bulletin, 80, 304-307.
Games PA (1983). Curvilinear transformation of the dependent variable. Psychological Bulletin, 93, 382-387.
Games PA y Howell JF (1976). Pairwise multiple comparison procedures with unequal n’s and/or variances:
A Monte Carlo study. Journal of Educational Statistics, 1, 113-125.
Games PA, Keselman HJ y Rogan JC (1981). Simultaneous pairwise multiple comparison procedures for means
when sample sizes are unequal. Psychological Bulletin, 90, 594-598.
Games PA y Lucas PA (1966). Power of the analysis of variance of independent groups on non-normal and
normally transformed data. Educational and Psychological Measurement, 26, 311-327.
Geisser S y Greenhouse SW (1958). An extension of Box’ results on the use of F distribution in multivariate
analysis. Annals of Mathematical Statistics, 29, 885-891.
Referencias 471
Gigerenzer G (1993). The superego, the ego, and the id in statistical reasoning. En G Keren y C Lewis (Eds),
A handbook for data analysis in the behavioral sciences. Methodological issues (págs 311-339). Hillsdale,
NJ: LEA.
Glass GV (1976). Primary, secondary, and meta-analysis of research. Educational Researcher, 5, 3-8.
Glass GV, McGraw B y Smith ML (1981). Meta-analysis in social research. Beberly-Hills, CA: Sage.
Glass GV, Peckham PD y Sanders JR (1972). Consequences of failure to meet assumptions underlying the fixed
effects analysis of variance and covariance. Review of Educational Research, 42, 237- 288.
Good PI y Lunneborg C (2006). Limitations of the analysis of variance. Journal of Modern Applied Statistical
Methods, 5, 41-43.
Goodman LA y Kruskal WH (1979). Measures of association for cross classifications. New York: Springer.
Gorsuch RL (1991). Things learned from another perspective (so far). American Psychologist, 46, 1089-1090.
Gosset WS (Student) (1927). Errors of routine analysis. Biometrika, 19, 151-164.
Grayson D (2004). Some myths and legends in quantitative psychology. Understanding Statistics, 3, 101-134.
Green SB (1991). How many subjects dos it take tod a regression analysis. Multivariate Behavioral Research,
26, 499-510.
Greenhouse SW y Geisser S (1959). On methods in the analysis of profile data. Psychometrika, 24, 95-112.
Hagen RL (1997). In praise of the hypothesis statistical test. American Psychologist, 52, 15-24.
Hagen RL (1998). A further look at wrong reasons to abandon statistical testing. American Psychologist, 53,
801-803.
Hanley JA y McNeil BJ (1982). The meaning and use of the area under a receiver operating characteristic
(ROC) curve. Radiology, 143, 29-36.
Hardy M (1993). Regression with dummy variables. Newbury Park, CA: Sage.
Hardy M y Briman A (Eds) (2004). Handbook of data analysis. London: Sage.
Harlow LL, Mulaik SA y Steiger JH (1997). What if there were no significance test. Mahwah, NJ: LEA.
Harrell FE (2001). Regression modeling strategies: With applications to linear models, logistic regression, and
survival analysis. New York: Springer-Veralg.
Harris RJ (2001). A primer of multivariate statistics (3ª ed). Mahwah, NJ: LEA.
Hartley HO (1940). Testing the homogeneity of a set of variances. Biometrika, 31, 249-255.
Hartley HO (1950). The maximum F-ratio as a short-cut test for heterogeneity of variance. Biometrika, 37,
308-312.
Harwell MR, Rubinstein EN, Hayes WS y Olds CC (1992). Summarizing Monte Carlo results in methodo-
logical research: The one- and two- ANOVA cases. Journal of Educational Statistics, 17, 315-339.
Hays WL (1963). Statistics. New York: Holt, Rinehart and Winston.
Hays WL (1994). Statistics (5ª ed). New York: Holt, Rinehart and Winston.
Hedges LV (1981). Distribution theory for Glass’s estimator of effect size and related estimators. Journal of
Educational Statistics, 6, 107-128.
Hedges LV (1982). Estimation of effect size from a series of independent experiments. Psychological Bulletin,
91, 490-499.
Hedges LV y Olkin I (1984). Nonparametric estimators of effect size in meta-analysis. Psychological Bulletin,
96, 573-580.
Hedges LV y Olkin I (1985). Statistical methods for meta-analysis. New York: Academic Press.
Henderson DA y Denison DR (1989). Stepwise regression in social and psychological research. Psychological
Reports, 64, 251-257.
Hoaglin DC y Welsch R (1978). The hat matrix in regression and ANOVA. American Statistician, 32, 17-22.
Hochberg Y (1974). Some generalizations of the T-method in simultaneous inference. Journal of Multivariate
Analysis, 4, 224-234.
Hochberg Y y Tamhane AC (2009). Multiple comparison procedures (2ª ed). New York: Wiley.
Holland BS y Copenhaver MD (1988). Improved Bonferroni-type multiple testing procedures. Psychological
Bulletin, 104, 145-149.
Horsnell G (1953). The effect of unequal groups variances on the F-test for homogeneity of group means.
Biometrika, 40, 128-136.
Howell DC (2002). Statistical methods for psychology (5ª ed). Belmont, CA: Thomson Wadsworth.
Hsu JC (1996). Multiple comparisons: Theory and methods. New York: Chapman and Hall.
Hsu LM (2004). Biases of success rate differences shown in binomial effect size displays. Psychological Me-
thods, 9, 183-197.
Huberty CJ (1989). Problems with stepwise methods. Better alternatives. En B Thomson (Ed), Advances in
social science methodology (vol 1, págs 43-70). Greenwich, CT: JAI Press.
Hunter JE (1997). Needed: A ban on the significance test. Psychological Science, 8, 3-7.
Hunter JE y Schmidt FL (2004). Methods of meta-analysis (2ª ed). Thousand Oaks, CA: Sage.
Huynh H (1978). Some approximate tests for repeated measurement designs. Psychometrika, 43, 161-175.
Huynh H (1982). A comparison of four approaches to robust regression. Psychological Bulletin, 92, 505-512.
Huynh H y Feldt LS (1970). Conditons under which mean square ratios in repeated measurements designs have
exacta F-distributions. Journal of the American Statistical Association, 65, 1582-1589.
Huynh H y Feldt LS (1976). Estimation of the Box correction for degrees of freedom from sample data in
randomized block and split-plot design. Journal of Educational Statistics, 1, 69-82.
Iman RL y Conover WJ (1983). A modern approach to statistics. New York: Wiley.
Iman RL y Davenport JM (1980). Approximations of the critical region of the Friedman statistics. Commu-
nications in Statistics - Theory and Methods, 9, 571-595.
Jaccard J (1998). Interaction effects in factorial analysis of variance. Thousand Oaks, CA: Sage.
Jaccard J, Becker MA y Wood G (1984). Pairwise multiple comparison procedures: A review. Psychological
Bulletin, 96, 589-596.
Jaccard J y Turrisi R (2003). Interaction effects in multiple regression. Thousand Oaks, CA: Sage.
Jagers P (1980). Invariance in the linear model: An argument for chi-square and F in non-normal situations.
Mathematische Operationsforschung und Statistik, 11, 455-464.
Jensen DR (1982). Efficiency and robustness in the use of repeated measurements. Biometrics, 38, 813-825.
Jensen DR (1987). Topics in the analysis of repeated measurements. En H Bozdogan y AK Gupta (Eds), Mul-
tivariate statistical modeling and data analysis (págs 147-161). Nwe York: Reidel.
John S (1971). Some optimal multivariate tests. Biometrika, 58, 123-127.
John S (1972). The distribution of a statistic used for testing sphericity of normal distributions. Biometrika, 59,
169-173.
Judd CM y Kenny D (1981). Estimating the effects of social interventions. Cambridge, MA: Cambridge Uni-
versity Press.
Kaul S, Diamond GA (2006). Good enough: A primer on the analysis and interpretation of noninferiority trials.
Annals of Internal Medicine, 145, 62-69.
Kelley K (2005). The effects of non-normal distributions on confidence intervals around the standardized mean
difference: Bootstrap and parametric confidence intervals. Educational and Psychological Measurement,
65, 51-69.
Kelley TL (1935). An unbiased correlation ratio measure. Proceedings of the National Academy of Sciences,
21, 554-559.
Kendall MG (1938). A new measure of rank correlation. Biometrika, 30, 81-93.
Kendall MG (1945). The treatment of ties in rank problems. Biometrika, 33, 239-251.
Kendall MG (1970). Rank correlation methods (3ª ed). London: Griffi.
Kendall MG y Babington-Smith B (1939). The problem of m rankings. The Annals of Mathematical Statistics,
10, 275-287.
Kenny DA y Judd CM (1986). Consequences of violating the independence assumption in analysis of variance.
Psychological Bulletin, 99, 422-431.
Keppel G y Wickens ThD (2004). Design and analysis. A researcher’s handbook (4ª ed). Englewood Cliffs,
NJ: Prentice-Hall.
Keselman HJ, Games PA y Rogan JC (1979). An addendum to “A comparison of the modified Tukey and
Scheffé methods of multiple comparisons for pairwise contrasts”. Journal of the American Statistical
Keselman HJ y Keselman JC (1988). Repeated measures multiple comparison procedures: Effects of violating
multisample sphericity in unbalanced designs. Journal of Educational Statistics, 13, 215-226.
Referencias 473
Keselman HJ, Keselman JC y Games PA (1991). Maximum familywise type I error rate: The least signifi-
cant differende, Newman-Keuls, and other multiple comparison procedures. Psychological Bulletin, 110,
155-161.
Keselman HJ, Keselman JC y Shaffer JP (1991). Multiple pairwise comparisons of repeated measures means
under violation of multisample sphericity. Psychological Bulletin, 110, 162-170.
Keselman HJ, Lix LM y Kowalchuk RK (1998). Multiple comparison procedures for trimmed means.
Psychological Methods, 3, 123-141.
Keselman HJ y Rogan JC (1978). A comparison of the modified Tukey and Scheffé methods of multiple
comparisons. Journal of the American Statistical Association, 73, 47-52.
Keselman HJ, Rogan JC, Mendoza JL y Breen LJ (1980). Testing the validity conditions of repeated measures
F tests. Psychological Bulletin, 87, 479-481.
Keuls M (1952). The use of studentized range in connection with an analysis of variance. Euphytica, 1, 112-122.
Kirk RE (1995). Experimental design. Procedures for the behavioral sciences (3ª ed). Belmont, CA: Brooks/
Cole Publishing Company.
Kirk RE (1996). Practical significance: A concept whose time has come. Educational and Psychological Mea-
surement, 56, 746-759.
Kleinbaum DJ, Kupper LL y Morgenstern H (1982). Epidemiologic research. Principles and quantitative me-
thods. Mew York: Van Nostrand Reinhold.
Kline RB (2004). Beyond significance testing. Reforming data analysis methods in behavioral research. Was-
hington, DC: American Psychological Association.
Kohr RL y Games PA (1974). Robustness of analysis of variance, the Welch procedure, and a Box procedure
to heterogeneous variances. Journal of Experimental Education, 43, 61-69.
Kolmogorov A (1933). Sulla determinazione empirica di una legge di distribuzione. Giornale dell ’ Istituto
Italiano degli Attuari, 4, 83-91.
Kraemer HC y Andrews G (1982). A nonparametric technique for meta-analysis effect size calculation. Psy-
chological Bulletin, 91, 404-412.
Kramer CY (1956). Extension of multiple range test to group means with unequal numbers of replications.
Biometrics, 12, 307-310.
Kruskal JB (1978). Transformations of data. En WH Kruskal y JM Tanur (Eds), International Encyclopedia
of Statistics (págs 1044-1056). New York: Free Press.
Kruskal WH y Wallis WA (1952). Use of ranks on one-criterion variance analysis. Journal of the American
Statistical Association, 47, 583-621 (aparecen correcciones en vol 48, págs 907-911).
Kulinska E y Staudte RG (2006). Interval estimates of weighted effect sizes in the one-way heteroscedastic
ANOVA. British Journal of Mathematical and Statistical Psychology, 59, 97-111.
Kvålseth TO (1991). A coefficient of agreement for nominal sacales: An asymetric version of kappa. Educa-
tional and Psychological Measurement, 51, 95-101.
Labovitz S (1968). Criteria for selecting a significance level: A note on the sacredness of .05. American So-
ciologist, 3, 200-222.
Landis JR y Koch GG (1977). The measurement of observer agreement for categorical data. Biometrics, 33,
159-174.
Lashley BR (1998). A defense of statistical power analysis. Behavioral and Brain Sciences, 21, 209-210.
León OG y Montero I (2003). Métodos de investigación en psicología y educación (3ª ed). Madrid: McGraw-Hill.
Levene H (1960). Robust tests for the equality of variances. En J. Olkin (Ed), Contributions to probability and
statistics (págs 278-292). Palo Alto, CA: Stanford University Press.
Levin JR y Serlin RC (2000). Changing students’ perspectives of McNemar’ test of change. Journal of Statistics
Education, 8 (2) [online].
Levine DW y Dunlap WP (1982). Power of the F test with skewed data: Should one transform or not? Psycho-
logical Bulletin, 92, 272-280.
Levine DW y Dunlap WP (1983). Data transformation, power, and skew: A rejoinder to Games. Psychological
Bulletin, 93, 596-599.
Levy P (1967). Substantive significance of significant differences between groups. Psychological Bulletin, 67,
37-40.
Lewandowsky S y Maybery M (1998). The critics rebutted: A pyrrhic victory. Behavioral and Brain Sciences,
21, 210-211.
Lewis-Beck MS (1980). Applied regression. An introduction. Beverly-Hills, CA: Sage.
Lillieffors HW (1967). On the Kolmogorov-Smirnov test for normality with mean and variance unknown.
Lix LM, Keselman JC y Keselman HJ (1996). Consequences of assumption violations revisited: A quantitative
review of alternatives to the one-way analysis of variance F test. Review of Educ. Research, 66, 579-619.
Luh WM (1992). Heterogeneous variances in one-way fixed model ANOVA: Variance-stabilizing transfor-
mations and other alternatives. Dissertation Abstracts International, 53, DA9301212.
Macdonald RR (2002). The incompleteness of probability models and the resultant implications for theories of
statistical inference. Understanding Statistics, 1, 167-189.
Mahalanobis PC (1936). On the generalized distance in statistics. Procedures National Science India, 2, 49-55.
Mann HB y Whitney DR (1947). On a test of whether one of two random variables is stochastically larger than
the other. Annals of Mathematical Statistics, 18, 50-60.
Mantel N y Haenszel W (1959). Statistical aspects of the analysis of data from retrospective studies of disease.
Journal of the National Cancer Institute, 22, 719-748.
Marascuilo LA y McSweeney M (1977). Nonparametric and distribution-free methods. Monterrey, CA:
Brooks/Cole Publishing Company.
Markus KA (2001). The converse inequality argument against tests of statistical significance. Psychological
Methods, 6, 147-160.
Mauchly JW (1940). Significance test for sphericity of a normal n-variate distribution. Annals of Mathematical
Statistics, 11, 204-209.
Maxwell SE (1980). Pairwise multiple comparisons in repeated measures designs. Journal of Educational Sta-
tistics, 5, 269-287.
Maxwell SE, Camp CJ y Arvey RD (1981). Measures of strength of association: A comparative examination.
Journal of Applied Psychology, 66, 525-534.
Maxwell SE y Delaney HD (2004). Designing experiments and analyzing data (2ª ed). Mahwah, NJ: LEA.
McDonald RP (1997). Goodness of approximation in the linear model. En LL Harlow, SA Mulaik y JH Steiger
(Eds), What if there were no significance tests? (págs 199-219). Hillsdale, NJ: LEA.
McFaden D (1974). The measurement of urban travel demand. Journal of Public Economics, 3, 303-328.
McGrath RE (1998). Significance testing: Is there something better? American Psychologist, 53, 796-797.
McGrath RE y Meyer GJ (2006). When effect sizes disagree: The case of r and d. Psychological Methods, 11,
386-401.
McGraw KO y Wong SP (1992). A common language effect size statistic. Psychological Bulletin, 111, 361-365.
McGraw KO y Wong SP (1996). Forming inferences about some intraclass correlation coefficients. Psycholo-
gical Methods, 1, 30-46.
McNemar Q (1947). Note on the sampling error of te difference between correlated proportions or percentages.
Psychometrika, 12, 153-157.
Meehl PE (1967). Theory testing in psychology and in physics: A methodological paradox. Philosophy of
Science, 34, 103-115.
Meehl PE (1978). Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and the slow progress of soft
psychology. Journal of Consulting and Clinical Psychology, 46, 806-834.
Meehl PE (1990). Why summaries of research on psychological theories are often uninterpretable. Psycho-
logical Reports, 66, 195-244.
Meehl PE (1997). The problem is epistemology, not statistics: Replace significance tests by confidence intervals
and quantify accuracy of risky numerical predictions. In LL Harlow, SA Mulaik y JH Steiger (Eds), What
if there were no significance tests? (págs 391-423). Hillsdale, NJ: LEA.
Mendoza JL (1980). A significance test for multisample sphericity. Psychometrika 45, 495-498.
Meyer DL (1991). Misinterpretation of interactions effects: A reply to Rosnow and Rosenthal. Psychological
Bulletin, 110, 571-573.
Micceri T (1989). The unicorn, the normal curve, and other improbable creatures. Psychological Bulletin, 105,
156-166.
Referencias 475
Miettinen OS (1976). Estimability and estimation in case-referent studies. American Journal of Epidemiology,
103, 226-235.
Miles JNV y Banyard P (2007). Understanding and using statistics in psychology. A practical introduction.
Thousand Oaks, CA: Sage.
Miller RG (1981). Simultaneous statistical inference (2ª ed). New York: McGraw-Hill.
Milligan GW (1987). The use of the arc-sine transformation in the analysis of variance. Educational and Psy-
chological Measurement, 47, 563-573.
Mitzel HC y Games PA (1981). Circularity and multiple comparisons in repeated measures designs. British
Journal of Mathematical and Statistical Psychology, 34, 253-259.
Montgomery DC, Johnson LA y Gardiner JS (1990). Forecasting and time series analysis (2ª ed). New York:
McGraw-Hill.
Montgomery DC, Peck EA y Vining GG (2001). Introduction to linear regression analysis (3ª ed). New
York: Wiley.
Morrison DE y Henkel RE (Eds) (1970). The significant test controversy: A reader. Chicago, IL: Aldine.
Moses LE (1952). A two sample test. Psychometrika, 17, 239-247.
Murphy KR (1997). Editorial. Journal of Applied Psychology, 82, 3-5.
Mulaik SA, Raju NS y Harshman RA (1997). There is a time and place for significance testing. En LL Harlow,
SA Mulaik y JH Steiger (Eds), What if there were no significance tests? (págs 65-116). Hillsdale, NJ: LEA.
Myers JL y Well AD (2003). Research design and statistical analysis (2ª ed). Mahwah, NJ: LEA.
Nagao H (1973). On some test criteria for covariance matrix. The Annals of Statistics, 1, 700-709.
Neter J, Kutner MH, Nachtscheim CJ y Wasserman W (1996). Applied linear statistical models (4ª ed). Boston:
McGraw-Hill.
Newman D (1939). The distribution of the range in samples of a normal population, expressed in terms of an
independent estimate of standard deviation. Biometrika, 31, 20-30.
Neyman J y Pearson ES (1928). On the use and interpretation of certain test criteria for purposes of statistical
inference. Biometrika, 20A, 175-240 (1ª parte), 263-294 (2ª parte).
Nijsse M (1988). Testing the significance of Kendall’s τ and Spearman’s rs. Psychological Bulletin, 103, 235-237.
Nikerson RS (2000). Null hypothesis significance testing: A review of an old and continuing controversy.
Noether GA (1967). Elements of nonparametric statistics. New York: Wiley.
Oakes M (1986). Statistical inference: A commentary for the social and behavioral sciences. New York: Wiley.
O’Brien RG (1981). A simple test for variance effects in experimental designs. Psychological Bulletin, 89, 570-
574.
O’Grady KE (1982). Measures of explained variance: Cautions and limitations. Psychological Bulletin, 92,
766-777.
Olejnik S y Algina J (2000). Measures of effect size for comparative studies: Applications, interpretations and
limitations. Contemporary Educational Psychology, 25, 241-286.
Olejnik S y Algina J (2003). Generalized eta and omega squared statistics: Measures of effect size for some
common research designs. Psychological Methods, 8, 434-447.
Oshima TC y Algina J (1992). Type I error rates for James’s second order test and Wilcox’s Hm test under hete-
roscedasticity and nonnormality. British Journal of Mathematical and Statistical Psychology, 45, 225-263.
Ostrom CW (1990). Time series analysis: Regression techniques (2ª ed). Newbury Park, CA: Sage.
Pardo A, Garrido J, Ruiz MA y San Martín R (2007). La interacción entre factores en el análisis de varianza:
errores de interpretación. Psicothema, 19, 343-349.
Pardo A y Ruiz MA (2009). Gestión de datos con SPSS Statistics. Madrid: Síntesis.
Pardo A, Ruiz MA y San Martín R (2009). Análisis de datos en ciencias sociales y de la salud (vol 1). Madrid:
Síntesis.
Pardo A y San Martín R (1998). Análisis de datos en psicología II (2ª ed). Madrid: Pirámide.
Parker S (1995). The ‘difference of means’ may not be the ‘effect size’. American Psychologist, 50, 1101-1102.
Pascual J (1998). Diseño entre grupos. En MT Anguera, J Arnau, M Ato, R Martínez, J Pascual y G Vallejo
(Eds): Métodos de investigación en Psicología (págs 73-112). Madrid: Síntesis.
Pearson K (1905). On the theory of skew correlations and nonlinear regression. Mathematical contributions
to the theory of evolution. Londres: Cambridge University Press (Biometric Laboratory Publications).
Pedhazur EJ y Pedhazur L (1991). Measurement, design and analysis. An integrated approach. Hillsdale,
NJ: LEA.
Peters CC y Van Voorhis WR (1940). Statistical procedures and their mathematical bases. New York: Mc-
Graw-Hill.
Petty RE, Fabrigar LR, Wegener DT y Priester JR (1996). Understanding data when interactions are present or
hypothesized. Psychological Science, 7, 247-252.
Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ (2006). Reporting of noninferiority and equivalence
randomized trials: an extension of the CONSORT statement. Journal of the American Medical Association,
295, 1152-1160.
Posner KL, Sampson PD, Caplan RA, Ward RJ y Cheney FW (1990). Measuring inter-rater reliability among
multiple raters: An example of methods for nominal data. Statistics in Medicine, 9, 1103-1115.
Powers JH (2008). Noninferiority and equivalence trials: Deciphering ‘similarity’of medical interventions.
Statistics in Medicine, 27, 343-352.
Prentice DA y Miller DT (1992). When small effects are impressive. Psychological Bulletin, 112, 160- 164.
Rao CR y Kleffe J (1988). Estimation of variance components and applications. Amsterdam: North- Holland
Rasmussen JL (1989). Data transformation, Type I error rate, and power. British Journal of Mathematical and
Statistical Psychology, 42, 203-213.
Richardson JTE (1996). Measures of effect size. Behavioral Research Methods, Instruments, and Computers,
28, 12–22.
Rigby AS (1999). Statistical methods in epidemiology. III. The odds ratio as an approximation to the relative
risk. Disability and Rehabilitation, 21, 145-151.
Robinson WS (1950). Ecological correlations and the behavior of individuals. American Sociological Review,
15, 351-357.
Rogan J y Keselman H (1977). Is the ANOVA F-test robust to variance heterogeneity when sample sizes are
equal? An investigation via a coefficient of variation. American Educational Research Journal, 14, 493-498.
Rosenthal R (1990). How are we doing in soft psychology? American Psychologist, 45, 775-777.
Rosenthal R (1991). Meta-analytic procedures for social research (2ª ed). Beverly-Hills, CA: Sage.
Rosenthal R, Rosnow RL y Rubin DB (2000). Contrasts and effect sizes in behavioral research: A correlational
approach. New York: Cambridge University Press.
Rosenthal R y Rubin DB (1982). A simple, general purpose display of magnitude of experimental effect.
Journal of Educational Psychology, 74, 166-169.
Rosenthal R y Rubin DB (2003). r-equivalent: A simple effect size indicator. Psychological Methods, 8, 492-496.
Rosnow RL y Rosenthal R (1989a). Definition and interpretation of interaction effects. Psychological Bulletin,
105, 143-146.
Rosnow RL y Rosenthal R (1989b). Statistical procedures and the justification of knowledge in psychological
science. American Psychologist, 44, 1276-1284.
Rosnow RL y Rosenthal R (1991). If you’re looking at the cell means, you’re not looking only at the interaction
(unless all main effects are zero). Psychological Bulletin, 110, 574-576.
Rosnow RL y Rosenthal R (1995). «Some things you learn aren’t so»: Cohen’s paradox, Asch’s paradigm and
the interpretation of interaction. Psychological Science, 6, 3-9.
Rosnow RL y Rosenthal R (1996). Contrast and interactions redux: Five easy pieces. Psychological Science,
7, 253-257.
Rossi JS (1990). Statistical power of psychological research: What have we gained in 20 years? Journal of
Consulting and Clinical Psychology, 58, 646-656.
Rossi JS (1997). A case study in the failure of Psychology as a cumulative science: The spontaneous recovery
of verbal learning. En LL Harlow, SA Mulaik y JH Steiger (Eds): What if there where no significance tests?
(págs 174-197). Mahwah, NJ: LEA.
Rouanet H y Lépine D (1970). Comparisons between treatments in a repeated-measures design: ANOVA and
multivariate methods. The British Journal of Mathematical and Statistical Psychology, 23, 147-163.
Rousseeuw PJ y Leroy AM (1987). Robust regression and outlier detection. New York: Wiley.
Referencias 477
Rozeboom WW (1960). The fallacy of the null hypothesis significance test. Psychological Bulletin, 57, 416-428.
Rozeboom WW (1979). Ridge regression: Bonanza or beguilement? Psychological Bulletin, 86, 242-249.
Rozeboom WW (1997). Good science is abductive, not hypothetico-deductive. En LL Harlow, SA Mulaik y
JH Steiger (Eds), What if there were no significance tests? (págs 335-391). Hillsdale, NJ: LEA.
Ruscio J (2006). Critical thinking in psychology: Separating sense of nonsense (2ª ed). Belmont, CA: Thomson
Wadsworth.
Ruscio J (2008). A probability-based measure of effect size: Robustness to base rates and other factors. Psy-
chological Methods, 13, 19-30
Ryan TA (1960). Significance tests for multiple comparisons of proportions, variances and other statistics.
San Martín R y Pardo A (1989). Psicoestadística. Contrastes paramétricos y no paramétricos. Madrid:
Pirámide.
Saville BK (2008). Research methods in psychology. A guide to teaching. Malden, MA: Blackwell Publishing.
Scariano SM y Davenport JM (1987). The effects of violations of independence assumptions in the one-way
ANOVA. The American Statistician, 41, 123-129
Scheffé HA (1953). A method for judging all possible contrasts in the analysis of variance. Biometrika, 40,
87-104.
Schmidt FL (1992). What do data really mean. American Psychologist, 47, 1173-1181.
Schmidt FL (1996). Statistical significance testing and cumulative knowledge in psychology: Implications for
training research. Psychological Methods, 1, 115-129.
Schmidt FL y Hunter JE (1996). Measurement error in psychological research: Lessons from 26 research
scenarios. Psychological Methods, 1, 199-223.
Schmidt FL y Hunter JE (1997). Eight common but false objections to the discontinuation of significance tes-
ting in the analysis of research data. En LL Harlow, SA Mulaik y JH Steiger (Eds): What if there where no
significance tests? (págs 37-64). Mahwah, NJ: LEA.
Schroeder LD, Sjoquist DL y Stephan PA (1986). Understanding regression analysis. An introductory Guide.
Beverly Hills, CA: Sage.
Schuirmann DJ (1987). A comparison of the two one-sided tests procedure and the power approach for
assessing the equivalence of average bioavailability. Journal of Pharmacokinetics and Biopharmaceutics,
15, 657-680.
Seaman MA, Levin JR y Serlin RC (1991). New developments in pairwise multiple comparisons: Some
powerfull and practicable procedures. Psychological Bulletin, 110, 577-586.
Seaman MA y Serlin RC (1998). Equivalence confidence intervals for two-groups comparisons of means.
Searle SR, Casella G y McCulloch CE (1992). Variance components. New York: Wiley.
Searle SR, Speed FM y Milliken GA (1980). Population marginal means in the linear model: An alternative to
least squares means. The American Statistician, 34, 216-221.
Serlin RC, Carr J y Marascuilo LA (1982). A measure of association for selected nonparametric procedures.
Shapiro SS y Wilk MB (1965). An analysis of variance test for normality. (complete samples). Biometrika, 52,
591-611.
Shaver JP (1985). Chance and nonsense: A conversation about interpreting tests of statistical significance. Phi
Delta Kappan, 67, 57-60, 138-141.
Shoukri MM (2004). Measures of interobserver agreement. Boca Ratón, FL: Chapman and Hall/CRC Press.
Šidák Z (1967). Rectangular confidence regions for the means of multivariate normal distributions. Journal of
the American Statistical Association, 62, 626-633.
Siegel S y Castellan NJ (1988). Nonparametric statistics for the behavioral sciences (2ª ed). New York: Mc-
Graw-Hill.
Skipper Jr JK, Guenther AL y Nass G (1967). The sacredness of .05: A note concerning the uses of statistical
levels of significance in social science. The American Sociologist, 2, 16-18.
Smirnov NV (1939). Estimate of deviation between empirical distribution functions in two independent
samples. Bulletin Moscow University, 2, 3-16 [ruso].
Smirnov NV (1948). Table for estimating the goodness of fit of empirical distributions. Annals of Mathematical
Statistics, 19, 279-281.
Snapinn SM (2000). Noninferiority trials. Current Control Trials in Cardiovascular Medicine, 1, 19-21.
Snedecor GW (1934). Analysis of variance and covariance. Ames, IW: Iowa State University Press.
Somers RH (1962). A new asymmetric measure of association for ordinal variables. American Sociological
Review, 27, 799-811.
Spearman C (1904). The proof and measurement of association between two things. American Journal of
Psychology, 15, 72-101.
Spitzer RL, Cohen J, Fleis JL y Endicott J (1967). Quantification of agreement in psychiatric diagnosis. Archi-
ves of General Psiychiatry, 17, 83-87.
Steel RGD, Torrie JH y Dickey DA (1997). Principles and procedures of statistics: A biomedical approach (3ª
ed). New York: McGraw-Hill.
Steiger JH (2004). Beyond the F test: Effect size confidence intervals and tests of close fit in the analysis of
variance and contrast analysis. Psychological Methods, 9, 164-182.
Steiger JH y Fouladi RT (1997). Noncentrality interval estimation and the evaluation of statistical methods. En
LL Harlow, SA Mulaik y JH Steiger (Eds): What if there where no significance tests? (págs 221-257).
Mahwah, NJ: LEA.
Stevens JP (1984). Outliers and influential data points in regression analysis. Psychological Bulletin, 95, 334-344.
Stevens JP (1992). Applied multivariate statistics for the social sciences. Hillsdale. NJ: LEA.
Stuart A (1953). The estimation and comparison of strengths os association in contingency tables. Biometrica,
40, 105-112.
Sugiura N (1972). Locally best invariant test for sphericity and the limiting distribution. Annals of Mathematical
Statistics, 43, 1312-1316.
Tabachnik BG y Fidel LS (2001). Using multivariate statistics (2ª ed). Boston: Allyn and Bacon.
Tamhane AC (1977). Multiple comparisons in model I one-way ANOVA with unequal variances. Com-
munications in Statistics - Theory and Methods, 6, 15-32.
Tamhane AC (1979). A comparison of procedures for multiple comparisons of means with unequal variances.
Tan WY (1982). Sampling distributions and robustness of t, F and variance-ratio in two samples and ANOVA
models with respect to departure from normality. Communications in Statistics - Theory and Methods, 11,
486-511.
Tarone RE (1985). On heterogeneity tests based on efficient scores. Biometrika, 72, 91-95.
Tarone RE, Gart JJ y Hauck WW (1983). On the asymptotic relative efficiency of certain noniterative estimators
of a common relative risk or odds ratio. Biometrika, 70, 519-522.
Theil H (1970). On the estimation of relationships involving qualitative variables. American Journal of Socio-
logy, 76, 103-154.
Thompson B (1994). Guidelines for authors. Educational and Psychological Measurement, 54, 837- 847.
Thompson B (1997). Editorial policies regarding statistical significance tests: Further comments. Educational
Researcher, 26, 29-32.
Thompson WD y Walter SD (1988). Kappa and the concept of independent errors. Journal of Clinical
Epidemiology, 41, 969-970.
Tomarken AJ y Serlin RC (1986). Comparison of ANOVA alternatives under variance heterogeneity and spe-
cific noncentrality structures. Psychological Bulletin, 99, 90-99.
Toothaker LE (1991). Multiple comparison for researchers. London: Sage.
Toothaker LE (1999). Multiple comparison procedures (2ª ed). London: Sage.
Tryon WW (2001). Evaluating statistical difference, equivalence, and indeterminacy using inferential confi-
dence intervals: An integrated alternative method of conducting null hypothesis statistical tests. Psycho-
logical Methods, 6, 371–386.
Tryon WW y Lewis Ch (2008). An inferential confidence interval method of establishing statistical equivalence
that corrects Tryon’ (2001) reduction factor. Psychological Methods, 13, 272-277.
Tukey JW (1949). One degree of freedom for nonaditivity. Biometrics, 5, 232-242.
Tukey JW (1953). The problem of multiple comparisons. Princeton University (manuscrito no publicado).
Referencias 479
Tukey JW (1991). The philosophy of multiple comparison. Statistical Science, 6, 100-116.
Van Belle G, Fisher LD, Heagerty PJ y Lumley Th (2004). Biostatistics. A methodology for the health sciences
(2ª ed). Hoboken, NJ: Wiley.
Vargha A y Delaney HD (1998). The Kruskal-Wallis test and estochastic homogeneity. Journal of Educational
and Behavioral Statistics, 23, 195-217.
Vargha A y Delaney HD (2000). A critique and improvement of the CL common language effect size statistic
of McGraw and Wong. Journal of Educational and Behavioral Statistics, 25, 101-132.
Von Eye A y Mun EY (2005). Analyzing rater agreement. Mahwah, NJ: LEA.
Wainer H (1999). One cheer for null hypothesis significance testing. Psychological Methods, 4, 212-213.
Wainer H y Thissen D (1993). Graphical data analysis. En G Keren y C Lewis (Eds). A handbook for data
analysis in the behavioral sciences. Methodological issues (págs 391-457). Hillsdale, NJ: LEA.
Wald A y Wolfowitz J (1940). On a test whether two samples are from the same population. Annals of Ma-
thematical Statistics, 11, 147-162.
Wallis WA (1939). The correlation ratio for ranked data. Journal of the American Statistical Association, 34,
533-538.
Weisberg S (2005). Applied linear regression (3ª ed). Hoboken, NJ: Wiley.
Welch BL (1951). On the comparison of several mean values: An alternative approach. Biometrika, 38, 330-336.
Wellek S (2003). Testing statistical hypotheses of equivalence. Boca Raton, Fla: Chapman and Hall.
Welsch RE (1977). Stepwise multiple comparison procedures. Journal of the American Statistical Association,
72, 566-575.
Wherry RJ (1931). A new formula for predicting the shrinkage of the coefficient of multiple correlation. Annals
of Mathematical Statistics, 2, 440-447.
Westlake WJ (1972). Use of confidence intervals in analysis of comparative bioavailability trials. Journal of
Pharmaceutical Science, 61, 1340–1341.
Westlake WJ (1976). Symetrical confidence intervals for bioequivalence trials. Biometrics, 32, 741-744.
Westlake WJ (1979). Statistical aspects of comparative bioavailability trials. Biometrics, 35, 273–280.
Westlake WJ (1981). Bioequivalence testing: A need to rethink (response to Kirkwood). Biometrics, 32, 589-594.
Wickens ThD (1989). Multiway contingency tables analysis for the social sciences. Hillsdale, NJ: LEA.
Viechtbauer W (2007). Approximate confidence intervals for standardized effect sizes in the two- independent
and two-dependent samples designs. Journal of Educational and Behavioral Statistics, 32, 39-60.
Wiens BL (2002). Choosing an equivalence limit for noninferiority or equivalence studies. Controlled Clinical
Trials, 23, 2-14.
Wilcox RR (1987a). New designs in analysis of variance. Annual Review of Psichology, 38, 29-60.
Wilcox RR (1987b). New statistical procedures for the social sciences: Modern solutions to basic problems.
Hillsdale, NJ: LEA.
Wilcox RR (1992). Comparing the medians of dependent groups. British Journal of Mathematical and Sta-
tistical Psychology, 45, 151-162.
Wilcox RR (1996). Statistics for the social sciences. San Diego, CA: Academic Press.
Wilcox RR (1997). Three multiple comparison procedures for trimmed means. Biometrical Journal, 37, 643-656.
Wilcox RR (2003). Applying contemporary statistical techniques. San Diego, CA. Academic Press.
Wilcox RR (2005). Introduction to robust estimation and hypothesis testing (2ª ed). San Diego, CA: Elsevier
Academic Press.
Wilcox RR, Charin V y Thompson K (1986). New Monte Carlo results on the robustness of ANOVA F, W, and
F* statistics. Communications in Statistics - Simulation and Computation, 15, 933-944.
Wilcoxon F (1945). Individual comparisons by ranking methods. Biometrics, 1, 80-83.
Wilcoxon F (1949). Some rapid approximate statistical procedures. American Cyanamid Company, Standford
Research Laboratories.
Wilkinson L y Task Force on Statistical Inference. (1999). Statistical methods in psychology journals: Guide-
lines and explanations. American Psychologist, 54, 594-604.
Winer BJ, Brown DR y Michels KM (1991). Statistical principles in experimental design (3ª ed). New York:
McGraw-Hill.
Wright DB y London K (2009). First steps in statistics (2ª ed). London: Sage.
Wyrwich KW (2004). Minimal important difference thresholds and the standard error of measurement: Is there
a connection? Journal of Biopharmaceutical Statistics, 14, 97-110.
Wyrwich KW, Nienaber NA, Tierney WM y Wolinsky FD (1999). Linking clinical relevance and statistical sig-
nificance in evaluating intra-individual changes in health-related quality of life. Medical Care, 37, 469-478.
Wyrwich KW, Tierney WM, Wolinsky FD (1999). Further evidence supporting an SEM-based criterion for
identifying meaningful intra-individual changes in health-related quality of life. Journal of Clinical Epi-
demiology, 52, 861-873.
Yule GU (1900). On the association of attributes in statistics. Philosophical transactions of the Royal Society
of London, Series A, 194, 257-319.
Yule GU (1912). On the methods of measuring association between two attributes (with discussion). Journal
of the Royal Statistical Society, 75, 579-652.
Zwick R (1988). Another look at inter-rater agreement. Psychological Bulletin, 103, 374-378.
Zimmerman DW y Zumbo DB (1993). Relative power of the Wilcoxon test, the Friedman test, and repeated-
measures ANOVA on ranks. Journal of Experimental Education, 62, 75-86
Índice de materias
A interacción (ver interacción entre factores)

lógica del análisis de varianza, 189-192
A posteriori, comparaciones (ver comparaciones múl- matriz de varianzas-covarianzas, 303
tiples) matriz L de coeficientes, 286
A priori, comparaciones (ver comparaciones múlti- medias cuadráticas, 190-191, 254, 259, 299
ples) medias estimadas, 279
Acuerdo (ver también medidas de asociación): medidas repetidas, 295-298
coeficiente de concordancia W de Kendall, 321- modelos (ver modelos de análisis de varianza)
323 modelos I, II y III, 260
coeficiente de correlación intraclase, 202, 241-
muestreo de niveles, 188-189
242
notación, 192-194, 248-250, 298-299, 330-331
índice de acuerdo asimétrico, 102
número de factores, 186
kappa de Cohen, 98-103
potencia, 33, 39, 149, 179, 204-206, 263-264,
kappa de Cohen ponderada, 100-104
307, 334, 351
Aceptación, zona de, 23-24
residuos, 190
Aditividad, 401
residuos de interacción, 251
Afirmación del consecuente, falacia de la, 26
sumas de cuadrados, 228
Aleatoria, muestra (ver rachas)
supuestos:
Aleatorios, bloques (ver análisis de varianza)
esfericidad, 303-305, 309-310, 315, 318,
Aleatorios, efectos (ver análisis de varianza)
Aleatorios, grupos (ver análisis de varianza) 338-339, 349-350
Alfa, nivel de significación o riesgo, 20 esfericidad local, 333, 338
Alternativa, hipótesis, 18-22 esfericidad multi-muestra, 349-350, 355-356
Análisis de regresión lineal (ver regresión lineal) homocedasticidad (igualdad de varianzas),
Análisis de varianza (ANOVA): 196-198, 225-228, 234, 240, 260, 277,
bloques aleatorios, 187-188, 296 282, 303
tamaños muestrales distintos, 282-284 igualdad de las matrices de varianzas-cova-
clasificación de los modelos de ANOVA, 189 rianzas, 349, 356
efectos: independencia, 196-197, 226, 260, 303, 309
fijos-aleatorios, 200, 240-242, 260 normalidad, 196-198, 222, 225-227, 237,
mixtos, 260 260, 303, 305, 309, 315
principales, 250, 253, 264, 265-267, 273- simetría compuesta, 303
275, 277-278, 284 , 341-342, 358-359 tamaño del efecto, 200-204, 261-263, 306-307,
simples, 264-265, 267-270, 267-273, 278- 333-334, 341, 350
280, 284-290, 342-343, 359-360, 363 tamaños muestrales distintos, 282-284
estadísticos F, 191-192, 255, 300, 331-332, 348 tipo de aleatorización, 186-188
estadísticos F corregidos, 304, 311, 340-341 Aproximación de la distribución binomial a la nor-
estadísticos multivariados, 304, 311, 340 mal, 52-53, 78
factores intersujetos-intrasujetos, 296 Asociación (ver medidas de asociación; ver también
grupos aleatorios, 187 acuerdo y coeficientes de correlación)
homocedasticidad (homogeneidad o igualdad de Atípicos, casos (ver regresión lineal)
varianzas), 158, 197-198, 225-226, 228, 234, Autocorrelación, 403-404
277-282, 234, 350, 356-357 Autovalores, 417
B gamma de Goodman y Kruskal, 106

intraclase, 202, 241-242
Backward, regresión (ver regresión por pasos) múltiple, 389, 413, 425
Beta, coeficientes de regresión, 380, 388-389 orden cero, 180-182
Beta, probabilidad de cometer errores Tipo II, 28-32, parcial, 180-182, 392-394, 398, 400, 415-417,
42 423
Binomial, prueba, 36, 47, 78, 82 semiparcial, 392-394, 415-416, 422
Biserial-puntual, coeficiente de correlación, 145 simple (Pearson), 145-146, 161, 171-173, 378,
Bloques aleatorios (ver análisis de varianza) 383, 388
Bondad de ajuste: Spearman, 174-178
en regresión lineal (ver regresión lineal) tau-a de Kendall, 106
prueba de Kolmogorov-Smirnov para una mues- tau-b de Kendall, 107
tra, 47, 61-66 tau-c de Stuart, 107
prueba X 2 de Pearson (una muestra), 36, 47, 61 Coeficientes de regresión (ver regresión lineal)
Bonferroni, corrección para comparaciones múlti- Cohen:
ples (ver también Dunn-Bonferroni), 212, 222, diferencia tipificada (ver delta de Cohen)
269, 282, 308, 314, 334, 337, 342, 351, 355, 359 índice de acuerdo kappa, 98-103
Bowker, prueba de simetría en tablas 2 × 2, 77-86 Cohortes, diseño de, 87
Box, prueba sobre igualdad de matrices de varian- Colinealidad, 399, 401-402, 417-418
zas-covarianzas, 350, 356 Comparaciones múltiples, 206-224
Breslow-Day, prueba sobre homogeneidad de odds- a priori o planeadas, 211-219, 232-234, 308,
ratios, 112 312-313, 334, 351, 355
Brown-Forsythe: a posteriori o post hoc, 219-224, 230-231, 308,
prueba para comparaciones post hoc, 222, 224 312-313, 334, 341-342, 351, 358-362
prueba de igualdad de varianzas, 225, 228 lineales, 206-209
prueba de igualdad de medias, 198, 225, 228- ortogonales, 208
229, 237-238 de tendencia, 215-217, 232-234
métodos secuenciales, 238-240
C tasa de error (total, por comparación, por familia
de comparaciones), 209-212, 218-220, 222,
Casos atípicos (ver regresión lineal), 240
Casos influyentes (ver regresión lineal), Concordancia (ver acuerdo y medidas de asociación)
Casos y controles, diseño de, 87 Concordancias-discordancias, cálculo, 120-122 (ver
Chi-cuadrado (ver ji-cuadrado) también medidas de asociación)
Circularidad (ver esfericidad) Confianza, nivel de, 23, 28
Cochran: Contingencias, tabla de (ver tabla de contingencias)
prueba de independencia condicional, 111-112 Contraste de hipótesis, 18-38
prueba Q para el contraste de J proporciones re- clasificación, 35-37
lacionadas, 319-320 definición, 18
Coeficiente de concordancia W de Kendall, 321-323 errores Tipo I y Tipo II, 28-33
Coeficiente de determinación (ver regresión lineal), estadístico del contraste, 19, 22
Coeficiente de determinación corregido (ver regre- hipótesis estadísticas, 18-22
sión lineal), nivel crítico (valor p), 20, 33-34
Coeficiente de incertidumbre de Theil, 118 nivel de confianza, 23, 28
Coeficientes de correlación (ver también acuerdo y nivel de significación o riesgo, 20, 23, 28
medidas de asociación): potencia, 28-33, 39-42 (ver también Potencia de
biserial-puntual, 145 un contraste)
d de Somers, 107 regla de decisión, 20, 22-27
épsilon-cuadrado, 202-203 significación estadística, 33-35
eta-cuadrado, 148, 149, 201-202, 229, 261-262, supuestos, 20, 196
333-334, 341, 350 tamaño del efecto, 33-35
eta-cuadrado corregida, 202-203, 229 unilateral-bilateral, 26-27
Índice de materias 483
Contrastes (polinómicos, especiales), 312-313 dos factores con medidas repetidas en ambos,
Contrastes sobre medias: 334
análisis de varianza (ver análisis de varianza) dos factores con medidas repetidas en uno, 350
prueba de Friedman, 37, 315-317 un factor completamente aleatorizado, 201
prueba de Kolmogorov-Smirnov para dos mues- un factor con medidas repetidas, 306-307
tras independientes, 37, 156-157 dos medias independientes, 143-146
prueba de Kruskal-Wallis, 37, 129, 138-142 dos medias relacionadas, 178-179
prueba de los signos: una media, 143
para dos muestras, 37, 169-171 Diagramas (ver gráficos)
para una muestra, 37, 47, 51-59 Diferencia mínima significativa (DMS):
prueba de Mann-Whitney, 37, 132-137, 141, 156 Brown-Forsythe, 222
prueba de Wilcoxon: Duncan, 239
para dos muestras independientes, 132, 137 Dunnett, 218-219
para dos muestras relacionadas, 37, 164-168 Dunnett-C, 238
para una muestra, 37, 47, 48-51, 55-57 Dummett-T3, 238
prueba T de Student: Games-Howell, 238
para dos muestras independientes, 37, 129- Hochberg, 221, 231
132 Ryan-Einot-Gabriel-Welsch Q, 240
para dos muestras relacionadas, 37, 161-163 Scheffé, 222
para una muestra, 37, 47, 48, 55-56 Studet-Newman-Keuls, 220, 239
Contraste sobre proporciones: Tamhane-T2, 238
dos proporciones independientes, 36, 74, 76, Tukey, Tukey-b, Tukey-Kramer, 220
104-105 Diseños longitudinales:
dos proporciones relacionadas, 75-76, 77-86, antes-después, 75
104-105 prospectivo o de cohortes, 87, 89-90, 93-96, 111
homogeneidad marginal, 73, 75-76, 77-86, 104- retrospectivo o de casos y controles, 87, 90-93,
105, 110 111, 124
simetría, 77-86, 104-105 Distancia de Cook, 410, 420-21
simetría relativa, 76, 110-111 Distancia de Mahalanobis, 420
una proporción, 36, 47 Duncan, prueba del rango múltiple para comparacio-
Contraste sobre una varianza, 37, 47, 59-61 nes post hoc, 239
Control estadístico, 180 Dunn-Bonferroni, prueba para comparaciones múlti-
Cook, distancia de, 410, 420-21 ples, 211-215, 219, 222, 224, 265-266, 270-271,
Corrección por continuidad, 53, 58, 68-69, 78, 112 280
Correlación de orden cero, 180-182, 415-416 Dunnett:
Correlación de Pearson, 145-146, 161, 171-173, 378, estadístico T para comparaciones post hoc con
383, 388 un grupo control, 218-219
Correlación intraclase, 241-242, 306 estadísticos T3 y C para comparaciones post
Correlación múltiple, 389, 413, 425 hoc, 238
Correlación parcial, 180-182, 392-394, 398, 400, Durbin-Watson, estadístico para valorar el grado de
415-417, 423 autocorrelación entre residuos, 404, 418
Correlación semiparcial, 392-394, 415-416, 422
Covarianza, 172, 376
E
Cuantiles, prueba de los, 51, 70-71
Curva COR (curva característica de operación del Ecológica, falacia, 95
receptor), 42, 147-149 Efectos:
fijos y aleatorios, 200, 240-242, 260, 372
D interacción (ver interacción entre factores)
mixtos, 260
d de Somers, 107 principales, 250, 253, 264, 265-267, 273-275,
Delta de Cohen (tamaño del efecto, diferencia tipifi- 277-278, 284 , 341-342, 357-359
cada o estandarizada): simples, 264-265, 267-270, 267-273, 278-280,
dos factores completamente aleatorizados, 263 284-290, 342-343, 359-360, 363-365
Épsilon (Box, Greenhouse-Geisser, Huynh-Feldt) G
para corregir los grados de libertad en condicio-
nes de no esfericidad, 304, 311-312, 318-319 Games-Howell, prueba para comparaciones post hoc,
Épsilon-cuadrado (medida de asociación, tamaño del 224, 238
efecto), 202 -203 Goodman y Kruskal:
Equivalencia, contrastes de, 150-156 gamma, coeficiente de correlación, 106
Error típico de (ver también varianza): reducción proporcional del error (lambda, tau),
coeficiente de regresión lineal, 382, 391 115-119
comparación lineal, 212 Gráficos:
dos medias independientes, 130, 152, 220 de caja, 195, 258, 301-302, 334, 351-352
dos medias relacionadas, 162 de dispersión, 171, 371-372, 376-377, 400, 404,
dos proporciones relacionadas, 79 406, 409, 418, 420, 426, 428
índice de acuerdo kappa, 99 de dispersión parciales, 400-401, 417
número de concordancias-discordancias, 108 de dispersión por nivel, 226
de líneas (perfiles), 215-217, 233, 252-253, 271,
número de éxitos, 52, 169
280-281, 285, 302, 343, 360-361
número de rachas, 68
de normalidad, 66-67, 419
odds ratio, 92
Greenhouse-Geisser (ver épsilon)
pronósticos de la regresión lineal, 384-385
residuos de la regresión lineal, 407
riesgo relativo, 88 H
suma de n rangos, 49, 56, 129
Errores Tipo I y Tipo II en los contrastes de hipóte- H, estadístico de Kruskal-Wallis, 37, 129, 138-142
sis, 28-33 H, matriz hat, 407
Esfericidad, 303-305, 309-310, 315, 318, 338-339, Hartley, prueba sobre igualdad de varianzas, 198
349-350 Hipótesis científica, 19
Esfericidad local, 333, 338 Hipótesis estadísticas, 18-22
Esfericidad multi-muestra, 349-350, 355-356 Hochberg, GT2, 221, 231
Eta-cuadrado (tamaño del efecto),148, 149, 201-202, Homogeneidad de proporciones (ver ji-cuadrado,
229, 261-262, 333-334, 341, 350 McNemar y McNemar-Bowker)
Eta-cuadrado corregida, 202-203, 229 Homogeneidad marginal, 75-76, 77-86, 104-105, 110
Homocedasticidad o igualdad de varianzas, 197-198,
240, 242, 277, 399, 405-406, 419-420
F prueba de Brown-Forsythe, 225, 228
prueba de Levene, 158, 198, 225-226, 228, 234,
F, distribución, 234-237 277-282, 234, 350, 356-357
F, distribución no centrada, 204, 230, 263, 312, 341 prueba M de Box, 350, 356
F, estadístico de Fisher (análisis de varianza), 191- Huynh-Feldt (ver épsilon)
192, 255, 300, 331-332, 348, 390, 397-398, 414
distribución muestral del estadístico F, 234-237
Factor (ver análisis de varianza) I
Fijos-aleatorios, efectos, 200, 240-242, 260, 372 Incertidumbre, coeficiente de, 118
Fisher: Independencia, 196-197, 226, 260, 303, 309, 399,
aportaciones al análisis de varianza, 189-192 403-404, 418
aportaciones al contraste de hipótesis, 18, 20, Independencia condicional, 111-112
28, 31 Índices de acuerdo (ver acuerdo y medidas de aso-
distribución muestral del estadístico F, 192, ciación)
234-236 Índices de riesgo (ver riesgo)
prueba exacta de, 119-120 Inferencia estadística, 17-18
transformación Z, 145 intergrupos, variabilidad, 190-191, 228, 232, 253-
Fracción etiológica, 89 255, 261, 275, 299, 330, 347
Friedman, prueba de, 315-317 Interacción entre factores (en el análisis de varian-
Forward, regresión (ver regresión por pasos) za), 250-253, 257-259, 264, 266-267, 270-275,
Fuentes de variabilidad (ver variabilidad) 280-282, 284-290, 343-345, 360-362, 365-367
Intersujetos, variabilidad, 299-300, 330, 347 Lineal, relación, 171-174, 180, 182, 372
Intersujetos, factor, 296 Linealidad, supuesto del análisis de regresión lineal,
Intervalo de confianza para: 399-401
coeficientes de la regresión lineal, 381 Lmatrix (sentencia SPSS para realizar comparacio-
comparación lineal, 213, 222 nes múltiples en los modelos factoriales com-
diferencia tipificada delta, 145 pletamente aleatorizados y mixtos), 285-289
dos medias independientes, 220
dos proporciones relacionadas, 79
índice de acuerdo kappa, 103 M
índice de riesgo relativo, 88
Mahalanobis, distancia, 420
odds ratio, 92
Mann-Whitney, prueba U, 37, 132-137, 141, 156
pronósticos de la regresión lineal, 384-385
Mantel-Haenszel:
varianza, 60
estimación del riesgo común, 113
Intervalos de equivalencia y no inferioridad, 152-154
prueba de independencia condicional, 112
Intraclase, coeficiente de correlación, 241-242, 306
Matriz de varianzas-covarianzas, 303
Intrasujetos, factor, 296
Matriz hat, 407
Intragrupos o error, variabilidad, 189-190, 228, 253-
Mauchly, prueba de esfericidad, 304, 310, 338-339,
255, 275, 300, 330, 347
350, 356
McNemar, prueba de simetría para tablas 2 × 2 (ho-
J mogeneidad marginal), 77-86
McNemar-Bowker, prueba de simetría para tablas
Ji-cuadrado: J × K , 81-86
distribución de probabilidad, 235 Medias cuadráticas, 190-191, 254, 259, 299
cociente entre dos variables ji-cuadrado, 235 Medias estimadas, 279
prueba de bondad de ajuste, 36, 47, 61 Medida de lenguaje común (medida del tamaño del
prueba de independencia o igualdad de propor- efecto), 147
ciones en tablas de contingencias, 37, 73-74, Medidas de asociación (ver también acuerdo):
87, 98, 104, 111, 116 coeficiente de incertidumbre de Theil, 118
lambda de Goodman y Kruskal, 116-117
medidas de concordancia (gamma, tau-a, tau-b,
K tau-c), 104-109
odds-ratio, 89-93
Kappa de Cohen (índice de acuerdo), 98-103
odds-ratio común, 113
Kendall, coeficiente de:
Q de Yule, 106
concordancia W, 321-323
reducción proporcional del error, 115-119
correlación tau-a y tau-b, 106-107
simétricas y asimétricas, 109, 117-118
Kolmogorov-Smirnov, prueba para:
tau de Goodman y Kruskal, 117-118
bondad de ajuste (una muestra), 47, 61-66
Medidas repetidas, 295-298
dos muestras independientes, 156-157
Mínimos cuadrados, 376, 386
Kruskal-Wallis, estadístico H, 37, 129, 138-142
Mínimos cuadrados ponderados, 406
Mixtos, efectos, 260
L Mmatrix (sentencia SPSS para realizar comparacio-
nes múltiples), 362-367
L, matriz de coeficientes, 286 Modelo lineal general, 371
Lambda de Goodman y Kruskal, 116-117 Modelos de regresión lineal (ver regresión lineal)
Lambda, parámetro de no centralidad, 145, 204-205, Modelos de análisis de varianza (aleatorizados, me-
225, 230, 308, 312, 334 didas repetidas, bloques), 186-189, 296-297
Levene, prueba para contrastar la igualdad de varian- modelo aleatorizado en bloques, 389-390
zas, 158, 198, 225-226, 228, 234, 277-282, 234, modelo de dos factores con medidas repetidas
350, 356-357 en ambos, 297, 329-345
Lillieffors, prueba de normalidad, 65 modelo de dos factores completamente aleatori-
Lineal general, modelo, 371 zados, 253-291
modelo de dos factores con medidas repetidas en prueba X 2 sobre independencia y homogeneidad
un factor (split- plot), 299, 346-362 de proporciones, 37
modelo de un factor completamente aleatoriza- Post hoc, comparaciones (ver comparaciones múl-
do, 192-206 tiples)
modelo de un factor con medidas repetidas, Potencia de un contraste:
298-314 a priori y a posteriori, 33
modelos factoriales, 247 cálculo 39-40, 149-150, 179, 204-206, 263-264,
modelos jerárquicos o anidados, 291 307-308, 334, 341, 351
Modus tollens, 25 concepto, 28-30
Monótona, relación, 105 curva de potencias, 40-42
Moses, prueba de reacciones extremas, 158-159 factores de los que depende, 31-33
Multicolinealidad, 401 (ver regresión lineal: supues- relación con la curva COR (curva característica
tos: no colinealidad ) de operación del receptor), 42
Multivariados, estadísticos para contrastar la hipóte- Principales, efectos, 250, 253, 264, 265-267, 273-
sis de igualdad de medias, 304, 311, 340-341 275, 277-278, 284, 341-342, 357-359
Probabilidad de cometer errores Tipo I, 209-210
Pronósticos (ver regresión lineal: pronósticos)
N Proporción de reducción en los errores de predic-
Neyman-Pearson, aportaciones al contraste de hipó- ción, 381, 389
tesis, 18, 20, 28, 31 Proporción de varianza común o explicada, 380-
Nivel crítico (valor p), 20, 33-34 381, 389
Nivel de confianza, 23-28 Proporción de varianza no explicada, 380-381,
Nivel de significación o riesgo, 20, 23 393-394
No centralidad, parámetro lambda de, 145, 204-205, Proporciones independientes-relacionadas, 74-76
225, 230, 308, 312, 334 Prueba de significación (ver Contraste de hipótesis)
No inferioridad, contraste de, 150-156
Normalidad:
Q
gráficos de, 66-67, 419-420
pruebas de, 61-66 Q de Cochran para el contraste de proporciones rela-
supuesto de, 196-198, 222, 225-227, 237, 260, cionadas, 319-320
303, 305, 309, 315, 399, 404-405, 418-419 Q de Ryan-Einot-Gabriel-Welsch, prueba para com-
Nula, hipótesis, 18-22 paraciones post hoc, 240
Q de Yule, 106
O
Odds, 89-90 R
Odds ratio, 89-93 Rachas, prueba de las, 68-70
Odds ratio común, 113 Rachas, prueba de Wald-Wolfowitz, 157-158
Odds ratio, homogeneidad, 113-114 Reducción proporcional del error (medidas de aso-
Omega-cuadrado (proporción de varianza explicada, ciación), 115-119
medida del tamaño del efecto), 202-203, 262, Región crítica (ver zona crítica)
306, 333-334, 350 Regresión curvilínea, 372, 426-428
Ortogonales, comparaciones, 208 Regresión jerárquica, 396-399, 421-424
métodos de selección de variables, 397-398
P Regresión lineal, 371-432
autocorrelación, 403-404
p, nivel crítico, 20, 33-34 autovalores, 417
Parsimonia, principio de, 396 bondad de ajuste, 379-381, 388-389, 413
Pearson: cambio en el coeficiente de determinación, 397-
coeficiente de correlación, 145-146, 161, 171- 398, 422
173, 378, 383, 388 cambio en los coeficientes de regresión (dfbe-
prueba X 2 sobre bondad de ajuste, 37 tas), 410, 420-421
cambio en los pronósticos (dffits), 411, 420-421 proporción de varianza no explicada, 380-381,
cambio en los residuos, 411 393-394
casos atípicos, 406-408, 420-421 recta de regresión, 375
casos influyentes, 408-412, 420-421 relaciones espurias, 392
coeficiente de determinación, 381, 384, 389, 391, residuos, 376, 403, 418
393-394, 397-398, 402, 413 eliminados o corregidos, 411
coeficiente de determinación corregido, 389 eliminados studentizados, 411, 420-421
coeficientes de regresión, 375, 387, 414 studentizados, 407-408
en la población, 382, 390-391 tipificados o estandarizados, 407
intervalos de confianza, 383, 392 varianza de los residuos, 407
significación de los coeficientes, 382-383, simple-múltiple, 371
390-391, 415 supuestos del modelo de regresión, 399-406
coeficientes de regresión tipificados, 378, 387- homocedasticidad (varianzas iguales), 399,
388, 392, 414 405-406, 419-420
correlación de orden cero, 180-182, 415-416 independencia, 399, 403-404, 418
correlación múltiple, 389, 413 linealidad, aditividad, 401
correlación parcial, 392-394, 415-416 no colinealidad, 399, 401-402, 417
correlación semiparcial, 392-394, 415-416, 422 normalidad, 399, 404-405, 418-419
diagramas de dispersión, 373-374, 377, 418 tamaño muestral, 425
diagramas de dispersión parciales, 400-401, 417 tolerancia, 402, 417-418
distancia de Cook, 410, 420-421 validación de la ecuación de regresión, 420-425
distancia de Mahalanobis, 420 variable dependiente o respuesta, 371, 385
Durbin-Watson, estadístico para valorar el grado variable independiente o predictora, 371, 385
de autocorrelación entre residuos, 404, 418 variables independientes categóricas, 394-395,
ecuación de regresión, 375, 386 424
errores, 403 Regresión por pasos (hacia adelante o forward, hacia
error cuadrático medio, 382, 390 atrás o backward y por pasos o stepwise), 396-
error de especificación, 399, 402 399, 421-424
error típico de la estimación, 382, 391 métodos de selección de variables, 397-398
errores de predicción, 376-377 Relación lineal, 171-174, 180, 182
factores de inflación de la varianza, 402, 417-418 Relación monótona, 105
importancia relativa de las variables, 392-394, Residuos (errores):
415-416 en el análisis de regresión (ver regresión lineal:
índices de condición, 417 residuos)
influencia (leverage), 407-408, 420-421 en el análisis de varianza, 190
influencia centrada, 408, 420-421 Riesgo, 86-96
intersección, 375, 403 atribuible, 89
matriz hat, 407 Cochran, 111-112
media cuadrática error, 382, 390 fracción etiológica, 89
mínimos cuadrados, 376, 386 interpretación, 93-95
mínimos cuadrados ponderados, 406 riesgo relativo, 87-89, 92-93
ordenada en el origen, 375 Mantel-Haenszel, 111-112
pronósticos, 384-385, 415 odds ratio, 89-93
corregidos, 410 odds ratio común, 113
error típico de los, 382 Riesgo, nivel de, 20, 23
individuales-promedio, 382-383, 413 Ryan-Einot-Gabriel-Welsch, prueba Q para compa-
intervalos de confianza para los, 382-383, raciones post hoc, 240
413
tipificados, 411
S
proporción de reducción en los errores de pre-
dicción, 381, 389 Scheffé, prueba para comparaciones post hoc, 222-
proporción de varianza común o explicada, 380- 224
381, 389 Schuirmann, doble contraste unilateral, 151-152
Shapiro-Wilk, prueba de normalidad, 65 coeficiente de correlación intraclase, 202, 241-
Šidák, corrección de la tasa de error, 211, 238 242
Significación estadística, 33-35 delta de Cohen, 143-146, 178-179, 201, 263,
Significación, nivel de, 20, 23 306-307, 334, 350
Signos, prueba de los: épsilon-cuadrado, 202-203
dos muestras, 37, 169-171 eta-cuadrado, 148, 149, 201-202, 229, 261-262,
una muestra, 37, 47, 51-59 333-334, 341, 350
Simetría, hipótesis de, 77-86, 104-105 eta-cuadrado corregida, 202-203, 229
Simetría, supuesto de, 49, 164-165 medida de lenguaje común, 147
Simetría compuesta, supuesto de, 303 omega-cuadrado, 202-203, 262, 306, 333-334,
Simetría relativa, hipótesis de, 76, 110-111 350
Simétricas-asimétricas, medidas de asociación, 109, Tamhane, estadístico T2 para comparaciones post
117-118 hoc, 238
Simples, efectos, 264-265, 267-270, 267-273, 278- Tarone, prueba de homogeneidad de odds-ratios, 112
280, 284-290, 342-343, 359-360, 363-365 Tasa de error (total, por comparación, por familia de
Simpson, paradoja de, 114-115 comparaciones), 209-212, 218-220, 222, 240
Somers, d, 107 Tau de Goodman y Kruskal, 117-118
Spearman, coeficiente de correlación, 174-178 Tau-a de Kendall, 106
Stepwise, regresión (ver regresión por pasos) Tau-b de Kendall, 107
Student, prueba T : Tau-c de Stuart, 107
dos muestras independientes, 37, 129-132 Tendencia, comparaciones de (ver comparaciones
dos muestras relacionadas, 37, 161-163 múltiples),
una muestra, 37, 47, 48, 55-56 Theil, coeficiente de incertidumbre de, 118
Student-Newman-Keuls, prueba para comparaciones Tolerancia, nivel de, 402, 417-418
post hoc, 220, 239-240 Transformación de las puntuaciones, 200-201
Sumas de cuadrados, 228 Tukey, prueba para comparaciones post hoc, 220-
Supuestos de un contraste, 19: 222, 230-231, 238-240:
aditividad, 401 diferencia honestamente significativa, 220
distribuciones poblacionales iguales, 133-134, diferencia completamente significativa, 220
138-139, 156-158 Tukey-b, 220, 231
esfericidad, 303-305, 309-310, 315, 318, 338- prueba de no-aditividad, 323-325
339, 348-350 Tukey-Kramer, prueba para comparaciones post hoc,
esfericidad local, 332-333, 338 220-221
esfericidad multimuestra, 348-350, 355-356
homocedasticidad o igualdad de varianzas, 130,
U
147, 149, 197-198, 356-357, 399, 405-406,
419-420 U, prueba de Mann-Whitney, 132-137, 141, 156
independencia, 196-197, 226, 260, 303, 309 Unidades de análisis, 186-189, 196
linealidad, 399-401
no colinealidad, 399, 401-402, 417
V
normalidad, 60, 143, 147, 149, 152, 158, 174,
196-198, 222, 225-227, 237, 260, 303, 305, Valor p (nivel crítico), 20, 33-34
309, 315, 404-405, 418-419 Variabilidad:
simetría, 49, 164-165 intergrupos, 190-191, 228, 232, 253-255, 261,
simetría compuesta, 303 275, 299, 330, 347
intersujetos, 301-302, 330, 347
T intragrupos o error, 189-190, 228, 253-255, 275,
300, 330, 347
T de Student (ver Student, prueba T ) intrasujetos, 299
Tabla de contingencias, 74-77, 80-81, 84-87, 90, 97- total, 261, 275, 299, 300, 306, 330-331, 347
98, 101, 105, 115-116, 120, 122-123 Variable:
Tamaño del efecto, 33-35: dependiente o respuesta, 192, 371, 385
coeficiente de correlación de Pearson, 145-146 dummy (ficticia, indicador), 394
extraña, 189 W
independiente o predictora, 192, 371, 385
Varianza (ver también medias cuadráticas y error W, coeficiente de concordancia de Kendall, 321-323
típico): W de Mauchly, 304, 310, 338-339, 350, 356
combinada, 144 Wald-Wolfowitz, prueba para dos muestras indepen-
de la diferencia entre dos medias independien- dientes, 157-158
tes, 130, 152 Welch:
de la diferencia entre dos medias relacionadas, corrección de los grados de libertad de la distri-
162 bución t de student, 238
de la diferencia entre dos proporciones relacio- prueba robusta de igualdad de medias (alter-
nadas, 79 nativa al estadístico F ), 198, 225, 228-229,
de los coeficientes de la regresión lineal, 382 237-238
de los pronósticos individuales de la regresión Welsch, pureba para comparaciones múltiples post
lineal, 384 hoc, 240
de los pronósticos promedio de la regresión li- Westlake, intervalo de confianza para demostrar
neal, 384 equivalencia, 152-154
de los residuos de la regresión lineal, 379-380, Wilcoxon, prueba de,
407, 411 para dos muestras independientes, 132, 137
del estadístico de Cochran sobre independencia para dos muestras relacionadas, 37, 164-168
condicional, 112 para una muestra, 37, 47, 48-51, 55-57
del estadístico de Mantel-Haenszel sobre inde-
pendencia condicional, 112 Y
del índice de acuerdo kappa, 99
del número de aciertos, 78 Yates, corrección por continuidad, 53, 58, 68-69, 78,
del número de concordancias-discordancias, 108 112
Varianza, contraste sobre la, 47, 59-61 Yule, coeficiente Q, 106
Varianza, análisis de (ver análisis de varianza)
Varianza común o explicada, proporción de, 380- Z
381, 389 (ver también tamaño del efecto)
Varianza no explicada, proporción de, 380-381, 393- Z, transformación de Fisher, 145
394 Zona crítica o de rechazo, 23
Varianzas-covarianzas, matriz de, 303 Zona de aceptación, 23-24

Analisis de Datos en Ciencias Sociales y de La Salud II PDF

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis de Datos en Ciencias Sociales y de La Salud II PDF

Cargado por

Copyright:

Formatos disponibles

Análisis de datos

en ciencias sociales y de la salud II

Reservados todos los derechos. Está prohibido, bajo las sanciones

© Antonio Pardo y Rafael San Martín

Impreso en España - Printed in Spain

2. Inferencia con una variable

3. Inferencia con dos variables categóricas

4. Inferencia con una variable categórica y una cuantitativa

5. Inferencia con dos variables cuantitativas

6. Análisis de varianza (I). Un factor completamente aleatorizado

Comparaciones post hoc o a posteriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219

7. Análisis de varianza (II). Dos factores completamente aleatorizados

8. Análisis de varianza (III). Un factor con medidas repetidas

9. Análisis de varianza (IV). Dos factores con medidas repetidas

10. Análisis de regresión lineal

Casos influyentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408

Apéndice final. Tablas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433

Ya no es necesario invertir tiempo en hacer a mano cálculos que no contribuyen en

De momento, no es necesario seguir profundizando en lo relativo a la estimación de pará-

Tabla 1.1. Distribución muestral del “número de aciertos” (n = 5; πacierto = 0,25)

de éstos, la decisión razonable es rechazar H0. La probabilidad de acertar las 5 preguntas, es

Qué significa rechazar y no rechazar la hipótesis nula

p = nivel crítico = P (D | H0 ) (D = Datos)

Es decir, p representa la probabilidad de encontrar, en la distribución muestral definida por

Rechazar H0 si p < α ; mantenerla en caso contrario

El tamaño de las zonas de rechazo y aceptación se determina fijando el valor de α, es decir,

Contrastes bilaterales y unilaterales

Errores Tipo I y II, y potencia de un contraste

Tabla 1.2. Posibles resultados de un contraste de hipótesis

Error Tipo II Decisión correcta

La filas de la tabla representan sucesos mutuamente exclusivos: H0 es verdadera o es falsa.

Tabla 1.3. Posibles resultados de una prueba diagnóstica

Figura 1.1. Áreas correspondientes a las probabilidades α, β, 1! α y 1! β en un contraste unilateral dere-

Factores de los que depende la potencia

la distribución muestral de la media es normal con parámetros µ y σ . Esto significa

Tamaño del efecto

Clasificación de los contrastes de hipótesis

Una variable categórica (Capítulo 9 del primer volumen):

Una variable cuantitativa (Capítulo 2):

Programas informáticos para el análisis de datos

De acuerdo con la regla de decisión estándar de un contraste de hipótesis, rechazaremos H0 si el núme-

Zona de aceptación Zona de rechazo

$ 6) = 0,251 + 0,215 + 0,121 + 0,040 + 0,006 = 0,633

Tabla 1.5. Valores de 1 ! β en función de α (H1: πacierto = 0,60; n = 10)

α 0,001 0,01 0,05 0,10 0,25

1!β 0,167 0,382 0,633 0,834 0,945

Tabla 1.6. Valores de 1 ! β en función del valor de πacierto en H1 (α = 0,05; n = 10)

π acierto 0,30 0,40 0,50 0,60 0,70 0,80 0,90

1!β 0,047 0,166 0,377 0,633 0,850 0,967 0,998

Tabla 1.8. Valores de 1 ! β en función de α (H1: πacierto = 0,70; n = 10)

α 0,001 0,01 0,05 0,10 0,25

1!β 0,383 0,650 0,850 0,953 0,990

Ejercicios Soluciones en www.sintesis.com

V !1 !0,5 0 0,5 1 1,5 2

a. Establecer una regla de decisión en términos de probabilidad.

1.5. El estadístico se distribuye según muestra en la siguiente tabla:

Si utilizamos n1 para contrastar, con α = 0,05, las hipótesis H0 : π = 0,40 y H1 : π = 0,60,

a. ¿Cuántas preguntas cabe esperar que acierte el sujeto si contesta al azar?

T !0,539 0,000 0,539 1,356 1,782 2,179 2,681 3,055

1.13. La potencia de un contraste aumenta cuando, permaneciendo lo demás igual:

Contrastes sobre el centro de una distribución

La prueba de Wilcoxon para una muestra

ofrece algunos cuantiles de las distribuciones exactas de S+ correspondientes a tamaños mues-

Cuadro 2.1. Resumen de la prueba de Wilcoxon para una muestra